CN109684911A

CN109684911A - 表情识别方法、装置、电子设备及存储介质

Info

Publication number: CN109684911A
Application number: CN201811280336.2A
Authority: CN
Inventors: 洪智滨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-04-26
Anticipated expiration: 2038-10-30
Also published as: EP3564854A1; US11151363B2; US20190392202A1; EP3564854B1; CN109684911B

Abstract

本发明实施例提供一种表情识别方法、装置、电子设备及存储介质，表情识别模型包括卷积神经网络模型、全连接网络模型和双线性网络模型。表情识别过程中，对待识别图像进行预处理得到人脸图像和关键点坐标向量后，通过卷积神经网络模型对人脸图像进行运算输出第一特征向量，通过全连接网络模型对关键点坐标向量进行运算输出第二特征向量，通过双线性网络模型对第一特征向量和第二特征向量进行运算以得到二阶信息，进而根据二阶信息得到表情识别结果。该过程中，考虑了人脸关键点所包含的先验表情信息，对姿态和光照的鲁棒性较好，提高了表情识别的准确性。进一步的，当表情强度较低时，也可以正确识别出表情。

Description

表情识别方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种表情识别方法、装置、电子设备及存储介质。

背景技术

目前，表情识别技术在人机交互、辅助驾驶、远程教育以及广告精准投放等领域被广泛应用。表情识别技术是指从包含人脸的图像或视频序列中获取人脸表情并加以识别的技术。人脸的基本表情类别分为8种，即愤怒(angry)、藐视(contempt)、厌恶(disgust)、恐惧(fear)、高兴(happiness)、悲伤(sadness)、惊讶(surprise)以及中性(neutral)。

现有的表情识别过程中，通常使用尺度不变特征转换(scale-invariant featuretransform，SIFT)、方向梯度直方图(histogram of oriented gradient，HOG)等方法提取表情特征，再用支持向量机(support vector machine，SVM)分类器、单模型卷积神经网络等得到分类结果，然后将做完人脸对齐的人脸表情图像作为输入，经过单模型神经网络运算，得到表情分类结果。

上述表情识别过程中，通过单模型卷积神经网络根据提取出的特征识别表情。识别过程中，仅仅使用了人脸表情图像的一阶信息，没有用到高阶特征信息，对姿态和光照的鲁棒性交差，导致在真实场景中表情识别准确率低，识别效果不理想。尤其是在表情强度较低的情况下，极易造成误识别。

发明内容

本发明提供一种表情识别方法、装置、电子设备及存储介质，利用神经网络模型、全连接网络模型和双线性网络模型构成的训练模型对待识别图像包含的人物表情进行识别，识别过程中，对待识别图像提取出特征后，对该特征进一步的处理，得到二阶信息，根据该二阶信息识别表情，提高表情识别的准确性。

第一方面，本发明提供的一种表情识别方法，包括：

对待识别图像进行预处理，得到人脸图像和关键点坐标向量，所述人脸图像包含于所述待识别图像中；

利用卷积神经网络模型对所述人脸图像进行运算，输出第一特征向量，利用全连接网络模型对所述关键点坐标向量进行运算，输出第二特征向量，所述第一特征向量和所述第二特征向量用于确定所述人脸图像中人脸的表情；

利用双线性网络模型对所述第一特征向量和所述第二特征向量进行运算以提取二阶特征，对所述二阶特征进行分类得到所述人脸的表情。

一种可行的实现方式中，所述对待识别图像进行预处理，得到人脸图像和关键点坐标向量之前，还包括：

训练所述卷积神经网络模型、所述全连接网络模型与所述双线性网络模型。

一种可行的实现方式中，所述训练所述卷积神经网络模型、所述全连接网络模型与所述双线性网络模型通过下述方法训练：

对训练集中的每幅样本图像，预处理所述样本图像，得到所述样本人脸图像和样本关键点坐标向量；

根据所述样本人脸图像训练所述卷积神经网络模型；

根据所述样本关键点坐标向量训练所述全连接网络模型；

根据所述卷积神经网络模型的输出结果和所述全连接网络模型的输出结果，训练所述双线性网络模型。

一种可行的实现方式中，所述对训练集中的每幅样本图像进行预处理，得到样本人脸图像和样本关键点坐标向量，包括：

从所述样本图像中确定第一局部图像，所述第一局部图像包含样本人脸图像；

在所述第一局部图像中，确定预设数量的样本关键点；

根据各所述样本关键点的坐标，确定相似变换矩阵；

根据所述相似变换矩阵，从所述样本图像中截取第二局部图像，对所述第二局部图像进行人脸对齐，得到第三局部图像；并在所述第三局部图像中确定各所述样本关键点的映射点；

对所述第三局部图像进行随机数据增强处理，得到所述样本人脸图像，并将各样本关键点在所述第三局部图像中的映射点映射至所述样本人脸图像；

根据各关键点在所述样本人脸图像中的坐标，得到所述样本关键点坐标向量。

一种可行的实现方式中，所述根据各所述样本关键点的坐标，确定相似变换矩阵，包括：

确定各所述样本关键点的坐标的平均值；

从各所述样本关键点的坐标中，确定出最大坐标以及最小坐标，并确定所述最大坐标与所述最小坐标的差值；

根据所述差值和所述平均值，确定所述相似变换矩阵。

一种可行的实现方式中，所述对所述第三局部图像进行随机数据增强处理，得到所述样本人脸图像之前，还包括：

对所述第三局部图像进行归一化处理，使得所述第三局部图像中的每个像素的像素值服从标准正态分布。

一种可行的实现方式中，所述随机数据增强处理包括：随机翻转处理、随机平移处理、随机缩放处理、随机灰度化处理、随机伽马变换处理或随机添加高斯白噪声处理。

一种可行的实现方式中，所述训练所述卷积神经网络模型，包括：

采用损失函数训练所述卷积神经网络模型。

一种可行的实现方式中，所述损失函数为交叉熵损失函数，所述交叉熵损失函数的正则化方式为L2正则。

第二方面，本发明实施例提供一种表情识别装置，包括：

预处理模块，用于对待识别图像进行预处理，得到人脸图像和关键点坐标向量，所述人脸图像包含于所述待识别图像中；

第一运算模块，用于利用卷积神经网络模型对所述人脸图像进行运算，输出第一特征向量；

第二运算模块，用于利用全连接网络模型对所述关键点坐标向量进行运算，输出第二特征向量，所述第一特征向量和所述第二特征向量用于确定所述人脸图像中人脸的表情；

第三运算模块，用于利用双线性网络模型对所述第一特征向量和所述第二特征向量进行运算以提取二阶特征，对所述二阶特征进行分类得到所述人脸的表情。

一种可行的实现方式中，上述的装置还包括：

训练模块，用于在所述预处理模块对待识别图像进行预处理，得到人脸图像和关键点坐标向量之前，训练所述卷积神经网络模型、所述全连接网络模型与所述双线性网络模型。

一种可行的实现方式中，所述训练模块，具体用于对训练集中的每幅样本图像，预处理所述样本图像，得到所述样本人脸图像和样本关键点坐标向量；根据所述样本人脸图像训练所述卷积神经网络模型；根据所述样本关键点坐标向量训练所述全连接网络模型；根据所述卷积神经网络模型的输出结果和所述全连接网络模型的输出结果，训练所述双线性网络模型。

一种可行的实现方式中，所述训练模块，在对训练集中的每幅样本图像进行预处理，得到样本人脸图像和样本关键点坐标向量时，具体用于从所述样本图像中确定第一局部图像，所述第一局部图像包含样本人脸图像；在所述第一局部图像中，确定预设数量的样本关键点；根据各所述样本关键点的坐标，确定相似变换矩阵；根据所述相似变换矩阵，从所述样本图像中截取第二局部图像，对所述第二局部图像进行人脸对齐，得到第三局部图像；并在所述第三局部图像中确定各所述样本关键点的映射点；对所述第三局部图像进行随机数据增强处理，得到所述样本人脸图像，并将各样本关键点在所述第三局部图像中的映射点映射至所述样本人脸图像；根据各关键点在所述样本人脸图像中的坐标，得到所述样本关键点坐标向量。

一种可行的实现方式中，所述训练模块，在根据各所述样本关键点的坐标，确定相似变换矩阵时，具体用于确定各所述样本关键点的坐标的平均值；从各所述样本关键点的坐标中，确定出最大坐标以及最小坐标，并确定所述最大坐标与所述最小坐标的差值；根据所述差值和所述平均值，确定所述相似变换矩阵。

一种可行的实现方式中，所述训练模块，在对所述第三局部图像进行随机数据增强处理，得到所述样本人脸图像之前，还用于对所述第三局部图像进行归一化处理，使得所述第三局部图像中的每个像素的像素值服从标准正态分布。

一种可行的实现方式中，所述训练模块，在训练所述卷积神经网络模型时，采用损失函数训练所述卷积神经网络模型。

第三方面，本发明实施例提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上第一方面或第一方面的各种可行的实现方式所述的方法。

第四方面，本发明实施例提供一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如上第一方面或第一方面的各种可行的实现方式所述的方法。

第五方面，本发明实施例提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行如上第一方面或第一方面的各种可行的实现方式所述的方法。

本发明实施例提供的表情识别方法、装置、电子设备及存储介质，表情识别模型包括卷积神经网络模型、全连接网络模型和双线性网络模型，神经网络模型的输出以及全连接网络模型的输出与双线性网络模型的输入连接。表情识别过程中，对待识别图像进行预处理得到人脸图像和关键点坐标向量后，通过卷积神经网络模型对人脸图像进行运算输出第一特征向量，通过全连接网络模型对关键点坐标向量进行运算输出第二特征向量，通过双线性网络模型对第一特征向量和第二特征向量进行运算以得到二阶信息，进而根据二阶信息得到表情识别结果。该过程中，考虑了人脸关键点所包含的先验表情信息，对姿态和光照的鲁棒性较好，提高了表情识别的准确性。进一步的，当表情强度较低时，也可以正确识别出表情。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中采用卷积神经网络识别表情的过程示意图；

图2为本发明实施例提供的一种表情识别方法的流程图；

图3是本发明实施例提供的表情识别方法中对样本图像进行预处理的流程图；

图4是本发明实施例提供的表情识别方法所适用的表情识别模型的网络结构示意图；

图5为本发明实施例提供的一种表情识别装置的结构示意图；

图6是本发明实施例提供的另一种表情识别装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是现有技术中采用卷积神经网络识别表情的过程示意图。请参照图1，识别过程中，将从待识别图像中提取出的特征输入至神经网络模型，由神经网络模型对输入的特征进行运算，从而识别出待识别图像中的表情。其中，神经网络模型是预先根据大量的样本图像进行迭代训练得到的。该过程中，神经网络模型仅用到了一阶信息，该一阶信息为对待识别图像提取出的特征，有限的一阶信息导致表情识别的准确率较低。

有鉴于此，本申请实施例提供一种表情识别方法、装置、电子设备及存储，针对待识别图像提取出特征后，将该特征转为为二阶信息，根据二阶信息对待识别图像进行识别，从而提高表情识别的准确性。

本发明实施例适用于电子设备需要识别用户面部表情的场景，如人机交互、辅助驾驶、远程教育以及广告精准投放等场景。以辅助驾驶场景为例，司机驾驶车辆的过程中，电子设备采集司机图像并对图像中司机的表情进行识别。当识别出司机的表情为厌恶表情时，例如，司机由于长期驾驶等处于疲惫状态，使得司机面部呈现出厌恶表情，此时，电子设备识别出司机的表情后，提示司机休息，或者播放节奏较快的音乐。

本申请实施例中，表情识别包括两个阶段：模型训练阶段和表情识别阶段。其中，模型训练阶段是指训练表情识别模型的阶段，该阶段对训练集中的样本图像进行训练，得到表情识别模型，该表情识别模块包括三部分：卷积神经网络模型、全连接网络模型与双线性(bilinear)网络模型。表情识别阶段是指利用模型训练阶段训练好的表情识别模型进行表情识别的阶段。下面，对表情识别阶段进行详细说明。示例性的，可参见图2。

图2为本发明实施例提供的一种表情识别方法的流程图。本实施例的执行主体是电子设备，电子设备上设置有表情识别装置，该装置可以通过软件、硬件或者软硬件结合的方式实现，该装置可以是电子设备的部分或者全部。如图2所示，本实施例包括：

101、对待识别图像进行预处理，得到人脸图像和关键点坐标向量，所述人脸图像包含于所述待识别图像中。

本申请实施例中，电子设备可以是具备摄像头等具备图像采集功能的设备，待识别图像可以是电子设备采集到的静态图像、从视频流中抓取到的图像或其他设备传输给该电子设备的图像；或者，电子设备也可以不具备图像采集功能的设备，此时，待识别图像未其他设备传输给该电子设备的图像。

本步骤中，电子设备对待识别图像进行预处理得到人脸图像和关键点坐标向量，其中，预处理包括对待识别图像进行人脸检测、关键点检测、人脸对齐、归一化处理、随机数据增强处理等从而获得人脸图像和关键点坐标向量。该过程中，可以通过卷积神经网络等获得关键点坐标向量，本发明实施例并不限定从待设备图像中获取关键点坐标向量和人脸图像的方式。

102、利用卷积神经网络模型对所述人脸图像进行运算，输出第一特征向量，利用全连接网络模型对所述关键点坐标向量进行运算，输出第二特征向量，所述第一特征向量和所述第二特征向量用于确定所述人脸图像中人脸的表情。

本申请实施例中，表情识别模型包括三部分：卷积神经网络模型、全连接网络模型和双线性(bilinear)网络模型。该三个模型是模型训练阶段训练好的模型。神经网络模型的输出以及全连接网络模型的输出与双线性网络模型的输入连接。

103、利用双线性网络模型对所述第一特征向量和所述第二特征向量进行运算以提取二阶特征，对所述二阶特征进行分类得到所述人脸的表情。

步骤102与103中，卷积神经网络模型对人脸图像进行运算得到第一特征向量，全连接网络模型对关键点坐标向量进行运算得到第二特征向量。双线性网络模型对神经网络模型输出的第一特征向量和全连接网络模型输出的第二特征向量进行运算以得到二阶信息，进而根据二阶信息得到表情识别结果。其中，该二阶信息例如为特征矩阵等。

本发明实施例提供的表情识别方法，表情识别模型包括卷积神经网络模型、全连接网络模型和双线性网络模型，神经网络模型的输出以及全连接网络模型的输出与双线性网络模型的输入连接。表情识别过程中，对待识别图像进行预处理得到人脸图像和关键点坐标向量后，通过卷积神经网络模型对人脸图像进行运算输出第一特征向量，通过全连接网络模型对关键点坐标向量进行运算输出第二特征向量，通过双线性网络模型对第一特征向量和第二特征向量进行运算以得到二阶信息，进而根据二阶信息得到表情识别结果。该过程中，考虑了人脸关键点所包含的先验表情信息，对姿态和光照的鲁棒性较好，提高了表情识别的准确性。进一步的，当表情强度较低时，也可以正确识别出表情。

为清楚区分训练阶段和识别阶段，以下描述训练阶段的过程中，将训练阶段的图像称之为样本图像，将训练阶段的关键点称之为样本关键点，将训练阶段的人脸图像称之为样本人脸图像。下面，对上述实施例中，训练阶段如何训练得到表情识别模型包含的卷积神经网络模型、全连接网络模型与双线性网络模型进行详细说明。

一种可行的实现方式中，所述训练所述卷积神经网络模型、所述全连接网络模型与所述双线性网络模型通过下述方法训练：对训练集中的每幅样本图像，预处理所述样本图像，得到所述样本人脸图像和样本关键点坐标向量；根据所述样本人脸图像训练所述卷积神经网络模型；根据所述样本关键点坐标向量训练所述全连接网络模型；根据所述卷积神经网络模型的输出结果和所述全连接网络模型的输出结果，训练所述双线性网络模型。

本申请实施例中，训练集包含大量的样本图像。模型训练过程中，对于训练集中的每一幅样本图像，对该样本图像进行预处理，得到样本人脸图像和样本关键点坐标向量，然后根据样本人脸图像训练卷积神经网络模型，根据样本关键点坐标向量训练全连接网络模型，进而根据卷积神经网络模型的输出结果和全连接网络模型的输出结果，训练双线性网络模型。也就是说，模型训练过程中，卷积神经网络模型、全连接网络模型和双线性网络模型并不是单独训练得到的，该三个模型的训练是相互联系的。以一幅样本图像为例，针对该样本图像进行预处理得到的样本人脸图像和样本关键点坐标向量分别作为卷积神经网络模型和全连接网络模型的训练依据，而卷积神经网络模型的输出结果和全连接网络模型的输出结果又是双线性网络模型的训练依据。

上述实施例中，实现训练表情识别模型包含的卷积神经网络模型、全连接网络模型和双线性网络模型的目的。

下面，对上述实施例中，模型训练过程中，如何对样本图像进行预处理进行详细说明。示例性的，可参见图3，图3是本发明实施例提供的表情识别方法中对样本图像进行预处理的流程图。

201、获取一幅包含人脸的样本图像。

本步骤中，从训练集中获取一幅包含人脸的样本图像。其中，训练集中存储大量样本图像。

202、从所述样本图像中确定第一局部图像，所述第一局部图像包含样本人脸图像。

本步骤中，利用人脸检测模型等对样本图像进行人脸检测，得到第一局部图像，该第一局部图像包含样本人脸图像，即该第一局部图像是人脸在样本图像中的大致位置区域。检测过程中，当检测到第一局部图像时，可以用限位框(bounding box)在样本图像中将该第一局部图像标注出来。

203、在所述第一局部图像中，确定预设数量的样本关键点。

本步骤中，根据第一局部图像，即人类在样本图像中的大致位置区域，通过关键点检测模型等对关键点进行检测，从而得到关键点坐标值。其中，关键点包括内外眉尖点、眉心点、内外眼角点、上下眼睑点、鼻尖点、鼻孔点、左右嘴角点等，关键点的数量例如是36、48、72、84等，本申请实施例并不限制。假设预设数量为N，N≥1且为整数，则N关键点的坐标依次为(x₁，y₂)、(x₂，y₂)、(x₃，y₃)……(x_N，y_N)。

204、根据各所述样本关键点的坐标，确定相似变换矩阵。

本步骤中，根据各个关键点的坐标，确定相似变换矩阵。确定过程中，根据上述预设数量的关键点的坐标，确定一个平均值和裁剪边框长度，将该平均值作为整个人脸的中心坐标c(x，y)，根据该中心坐标和裁剪边框长度确定相似变换矩阵。示例性的，确定各样本关键点的坐标的平均值，将该平均值作为中心坐标，从各所述样本关键点的坐标中，确定出最大坐标以及最小坐标，并确定该最大坐标与最小坐标的差值，将该差值作为裁剪边框长度。例如，根据各个关键点的横坐标，确定中心点坐标和裁剪边框长度，根据该中心坐标和裁剪边框长度确定相似变换矩阵；再如，根据各个关键点的纵坐标，确定中心点坐标和裁剪边框长度，根据该中心坐标和裁剪边框长度确定相似变换矩阵；再如，根据各个关键点的横坐标和纵坐标，确定中心点坐标和裁剪边框长度，根据该中心坐标和裁剪边框长度确定相似变换矩阵。下面，以根据各个关键点的横坐标，确定相似变换矩阵进行详细说明。

示例性的，确定中心坐标的计算公式如下：

其中，i＝1，2，3……N，xi为关键点的横坐标，yi为关键点的纵坐标。

确定裁剪边框长度的过程中，从各样本关键点的坐标中，确定出横坐标最大的关键点和横坐标最小的关键点，其中，最大的横坐标例如为x_max，最小的横坐标例如为x_min，则裁剪边框长度s＝x_max-x_min。

本步骤中，根据所有训练数据的关键点坐标求平均，获得一张人脸关键点模版，用样本人脸关键点坐标和人脸关键点模版根据普式变换求出相似变换矩阵M，根据相似变换函数将原图相似变换到尺寸为N*N的只有人脸区域的图像；另外，人脸样本关键点坐标也根据相似矩阵进行变换。

205、根据所述相似变换矩阵，从所述样本图像中截图第二局部图像，对所述第二局部图像进行人脸对齐，得到第三局部图像；并在所述第三局部图像中确定各所述样本关键点的映射点。

本步骤中，根据上述步骤204得到的相似变换矩阵，从样本图像中截取第二局部图像，并对该第二局部图像进行人脸对齐，得到对齐后的第二局部图像，该经过人脸对齐的第二局部图像也称之为第三局部图像，该第三局部图像为只包含人脸的图像。另外，进行人脸对齐时，上述预设数量的关键点的坐标也随着相似变化矩阵进行变换，因此，经过人脸对齐后，上述第一局部图像中的预设数量的关键点也会被映射至第三局部图像。

206、对所述第三局部图像进行归一化处理，使得所述第三局部图像中的每个像素的像素值服从标准正态分布。

本步骤中，对上述步骤205得到的第三局部图像进行归一化处理，处理过程中，对第三局部图像中的像素依次进行归一化处理，使得每个像素的像素值服从标准正态分布。例如，第三局部图像中的某个像素的像素值在[-0.5，0.5]之间；再如，第三局部图像中的某个像素的像素值在[-1，1]之间。

需要说明的是，本步骤是可选步骤。实际实现时，可灵活设置是否执行该步骤。

207、对所述第三局部图像进行随机数据增强处理，得到所述样本人脸图像，并将各样本关键点在所述第三局部图像中的映射点映射至所述样本人脸图像。

本步骤中，对第三局部图像进行随机数据增强处理，得到上述的样本人图像。其中，随机数据增强处理包括随机翻转处理、随机平移处理、随机缩放处理、随机灰度化处理、随机伽马变换处理或随机添加高斯白噪声处理等。本发明实施例并不限制。

另外，本步骤中，对第三局部图像进行随机数据增强处理的同时，各样本关键点在所述第三局部图像中的映射点也会做相应的变化，从而将各样本关键点在所述第三局部图像中的映射点进一步的映射至样本人脸图像。

208、根据各关键点在所述样本人脸图像中的坐标，得到所述样本关键点坐标向量。

本步骤中，将上述步骤207中映射至样本人脸图像的坐标转换为一个一维向量。例如，共有72个样本关键点，每个样本关键点具有一个横坐标和一个纵坐标，则经过坐标转换后，得到一个一维向量，该一维向量包含144个元素，该一维向量即为上述的样本关键点坐标向量。

209、根据所述样本人脸图像训练所述卷积神经网络模型。

本步骤中，以上述步骤207中得到的样本人脸图像作为依据，训练卷积神经网络模型。训练过程中，采用损失(loss)函数等训练所述卷积神经网络模型。其中，loss函数例如为交叉熵损失函数，所述交叉熵损失函数的正则化方式为L2正则。

210、根据所述样本关键点坐标向量训练所述全连接网络模型。

本步骤中，以上述步骤208得到的样本关键点坐标向量作为依据，训练全连接网络模型。

211、根据所述卷积神经网络模型的输出结果和所述全连接网络模型的输出结果，训练所述双线性网络模型。

本步骤中，根据卷积神经网络模型的输出结果和全连接网络模型的输出结果，训练双线性网络模型。

本发明实施例中，模型训练阶段根据上述的步骤201～211训练出表情识别模型，然后，表情识别阶段，对待识别图像进行预处理，该预处理过程可参见上述模型训练过程中步骤201～208，此处不再赘述。然后，将根据待识别图像得到的人脸图像输入至卷积神经网络模型，将根据待识别图像识别得到的关键点坐标向量输入至全连接网络。由卷积神经网络模型对人脸图像进行运算，得到一个特征向量，以下称之为第一特征向量，由全连接网络模型对关键点坐标向量进行运算，得到一个特征向量，以下称之为第二特征向量。然后，由双线性网络模型对第一特征向量和第二特征向量进行运算，得到一个包含二阶信息的特征矩阵。由于模型训练阶段，对不同的表情分别得到特征矩阵，即不同的表情对应不同的特征矩阵。因此，表情识别阶段，根据待识别图像得出特征矩阵后，进而根据该特征矩阵和模型训练阶段得到的各种表情对应的特征矩阵，可以确定出待识别图像中的表情。

下面，对上述实施例中，模型训练阶段训练得到的表情识别模型进行详细说明。示例性的，可参见图4，图4是本发明实施例提供的表情识别方法所适用的表情识别模型的网络结构示意图。

请参照图4，本发明实施例所适用的表情识别模型包括卷积神经网络模型、全连接网络模型和双线性网络模型，神经网络模型的输出以及全连接网络模型的输出与双线性网络模型的输入连接，双线性网络模型。下面，对卷积神经网络模型、全连接网络模型和双线性网络模型的结构分别进行详细说明。

首先，卷积神经网络模型。

本发明实施例中，卷积神经网络模型从输入层至输出层依次为：卷积层conv1、BN层conv1_bn、scale层conv1_scale、Relu层conv1_relu、池化层max_pooling1、卷积层conv2、BN层conv2_bn、scale层conv2_scale、Relu层conv2_relu、池化层max pooling2、卷积层conv3、BN层conv3_bn、scale层conv3_scale、Relu层conv3_relu、卷积层conv4、BN层conv4_bn、scale层conv4_scale、Relu层conv4_relu、池化层max_pooling3、卷积层conv5、BN层conv5_bn、scale层conv5_scale、Relu层conv5_relu、卷积层conv6、BN层conv6_bn、scale层conv6_scale、Relu层conv6_relu、concat层concat、全局平均池化层global_average_pooling。

其次，全连接网络模型。

本发明实施例中，全连接网络模型从输入层至输出层依次为：全连接层fc1、BN层fc1_bn、scale层fc1_scale层、Relu层fc1_relu、全连接层fc2、BN层fc2_bn、scale层fc2_scale层、Relu层fc2_relu、全连接层fc3、BN层fc3_bn、scale层fc3_scale层、Relu层fc3_relu、全连接层fc4。

最后，双线性网络模型。

本发明实施例中，双线性网络模型从输入层至输出层依次为：bilinear层、全连接层fc、softmax层。

本发明实施例中，对于存储模块中存储的待识别图像，利用人脸检测模块检测出人脸大致位置，然后，利用关键点检测模型提取出关键点；之后，利用人脸校正模块，根据关键点确定相似变换矩阵，根据相似变换矩阵对待识别图像进行人脸校正，得到校正后的人脸图像以及校正后的关键点，根据校正后的关键点得到关键点坐标向量；最后，利用卷积神经网络模型对人脸图像进行运行，得到第一特征向量，利用全连接网络模型对关键点坐标向量进行运行，得到第二特征向量；最后，利用双线性网络模型对第一特征向量和第二特征向量进行运算以提取二阶特征，对二阶特征进行分类得到人脸的表情。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图5为本发明实施例提供的一种表情识别装置的结构示意图，该表情识别装置可以通过软件和/或硬件的方式实现。如图5所示，该表情识别装置100包括：

预处理模块11，用于对待识别图像进行预处理，得到人脸图像和关键点坐标向量，所述人脸图像包含于所述待识别图像中；

第一运算模块12，用于利用卷积神经网络模型对所述人脸图像进行运算，输出第一特征向量；

第二运算模块13，用于利用全连接网络模型对所述关键点坐标向量进行运算，输出第二特征向量；

第三运算模块14，用于利用双线性网络模型对所述第一特征向量和所述第二特征向量进行运算以提取二阶特征，对所述二阶特征进行分类得到所述人脸的表情。

图6是本发明实施例提供的另一种表情识别装置的结构示意图，如图6所示，该表情识别装置100在上述图5的基础上，进一步的，还包括：

训练模块15，用于在所述预处理模块11对待识别图像进行预处理，得到人脸图像和关键点坐标向量之前，训练所述卷积神经网络模型、所述全连接网络模型与所述双线性网络模型。

一种可行的实现方式中，所述训练模块15，具体用于对训练集中的每幅样本图像，预处理所述样本图像，得到所述样本人脸图像和样本关键点坐标向量；根据所述样本人脸图像训练所述卷积神经网络模型；根据所述样本关键点坐标向量训练所述全连接网络模型；根据所述卷积神经网络模型的输出结果和所述全连接网络模型的输出结果，训练所述双线性网络模型。

一种可行的实现方式中，所述训练模块15，在对训练集中的每幅样本图像进行预处理，得到样本人脸图像和样本关键点坐标向量时，具体用于从所述样本图像中确定第一局部图像，所述第一局部图像包含样本人脸图像；在所述第一局部图像中，确定预设数量的样本关键点；根据各所述样本关键点的坐标，确定相似变换矩阵；根据所述相似变换矩阵，从所述样本图像中截取第二局部图像，对所述第二局部图像进行人脸对齐，得到第三局部图像；并在所述第三局部图像中确定各所述样本关键点的映射点；对所述第三局部图像进行随机数据增强处理，得到所述样本人脸图像，并将各样本关键点在所述第三局部图像中的映射点映射至所述样本人脸图像；根据各关键点在所述样本人脸图像中的坐标，得到所述样本关键点坐标向量。

一种可行的实现方式中，所述训练模块15，在根据各所述样本关键点的坐标，确定相似变换矩阵时，具体用于确定各所述样本关键点的坐标的平均值；从各所述样本关键点的坐标中，确定出最大坐标以及最小坐标，并确定所述最大坐标与所述最小坐标的差值；根据所述差值和所述平均值，确定所述相似变换矩阵。

一种可行的实现方式中，所述训练模块15，在对所述第三局部图像进行随机数据增强处理，得到所述样本人脸图像之前，还用于对所述第三局部图像进行归一化处理，使得所述第三局部图像中的每个像素的像素值服从标准正态分布。

一种可行的实现方式中，所述训练模块15，在训练所述卷积神经网络模型时，采用损失函数训练所述卷积神经网络模型。

图7为本发明实施例提供的一种电子设备的结构示意图。如图7所示，该电子设备200包括：

至少一个处理器21和存储器22；

所述存储器22存储计算机执行指令；

所述至少一个处理器21执行所述存储器22存储的计算机执行指令，使得所述至少一个处理器21执行如上所述的表情识别方法。

处理器21的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

可选地，该电子设备200还包括通信部件23。其中，处理器21、存储器22以及通信部件23可以通过总线24连接。

本发明实施例还提供一种存储介质，所述存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上所述的表情识别方法。

本发明实施例还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述表情识别方法。

在上述的实施例中，应该理解到，所描述的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(central processing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(industry standard architecture，ISA)总线、外部设备互连(peripheral component，PCI)总线或扩展工业标准体系结构(extendedIndustry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本发明附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(application specific integrated circuits，ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于终端或服务器中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种表情识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对待识别图像进行预处理，得到人脸图像和关键点坐标向量之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述训练所述卷积神经网络模型、所述全连接网络模型与所述双线性网络模型通过下述方法训练：

根据所述样本人脸图像训练所述卷积神经网络模型；

根据所述样本关键点坐标向量训练所述全连接网络模型；

4.根据权利要求3所述的方法，其特征在于，所述对训练集中的每幅样本图像进行预处理，得到样本人脸图像和样本关键点坐标向量，包括：

在所述第一局部图像中，确定预设数量的样本关键点；

根据各所述样本关键点的坐标，确定相似变换矩阵；

5.根据权利要求4所述的方法，其特征在于，所述根据各所述样本关键点的坐标，确定相似变换矩阵，包括：

确定各所述样本关键点的坐标的平均值；

根据所述差值和所述平均值，确定所述相似变换矩阵。

6.根据权利要求4所述的方法，其特征在于，所述对所述第三局部图像进行随机数据增强处理，得到所述样本人脸图像之前，还包括：

7.根据权利要求4所述的方法，其特征在于，所述随机数据增强处理包括：随机翻转处理、随机平移处理、随机缩放处理、随机灰度化处理、随机伽马变换处理或随机添加高斯白噪声处理。

8.一种表情识别装置，其特征在于，包括：

9.一种电子设备，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如权利要求1-7任一项所述的方法。