CN112861949A

CN112861949A - 一种基于人脸和声音的情绪预测方法和系统

Info

Publication number: CN112861949A
Application number: CN202110127170.6A
Authority: CN
Inventors: 张旻晋; 许达文
Original assignee: Chengdu Shihaixintu Microelectronics Co ltd
Current assignee: Chengdu Shihaixintu Microelectronics Co ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-05-28
Anticipated expiration: 2041-01-29
Also published as: CN112861949B

Abstract

本发明公开了一种基于人脸和声音的情绪预测方法和系统，其方法的步骤包括：首先采集人脸图像和语音录音样本，接着将人脸图像输入到卷积神经网络中以特定形式提取图像中的空间特征信息，同时将人脸图像输入到局部二进制卷积网络中提取图像的纹理特征信息，将人脸图像的空间特征信息和纹理特征信息进行融合输出增强的人脸特征，然后将语音录音输入到预处理模型计算每个窗口的梅尔频谱图将梅尔频谱图输入到声音编码模型对各个范围的短期梅尔频谱图的相关性进行建模，再通过语音片段嵌入融合器模型输出语音特征，最后将人脸特征和语音特征进行融合输入到输出模型来预测情绪。

Description

一种基于人脸和声音的情绪预测方法和系统

技术领域

本发明涉及计算机领域，具体涉及一种基于人脸和声音的情绪预测方法和系统。

背景技术

情绪预测是一个重要研究领域，被广泛应用在各种领域，包括医疗，安全和人机交互等。由于情绪的表达非常复杂会通过不用程度或强度表现出现，因此想要准确快速预测情绪是一项艰巨的任务。目前情绪预测多通过简单的分类算法对单个情绪进行识别分类，精度不高，无法满足实际应用需求。

发明内容

本发明所要解决的技术问题是现有技术情绪预测多通过简单的分类算法对单个情绪进行识别分类，精度不高，无法满足实际应用需求，目的在于提供一种基于人脸和声音的情绪预测方法和系统，可高效准确实现情绪预测任务。

本发明通过下述技术方案实现：

一种基于人脸和声音的情绪预测方法，包括以下步骤：

S1.采集人脸图像样本和语音录音样本；

S2.将所述人脸图像样本输入到卷积神经网络中并提取得到图像中的空间特征信息；同时将所述人脸图像样本输入到局部二进制卷积网络中提取图像的纹理特征信息，将所述图像的空间特征信息和所述纹理特征信息进行融合输出增强的人脸特征；

S3.将所述语音录音样本输入到预处理模型中计算每个窗口的梅尔频谱图；将所述梅尔频谱图输入到声音编码模型对各个范围的短期梅尔频谱图的相关性进行建模，再通过语音片段嵌入融合器模型输出语音特征；

S4.将所述人脸特征和所述语音特征进行融合输入到输出模型来预测情绪。

进一步，步骤S2的具体如下：

S21.将人脸图像样本依次输入到多个卷积层，提取图像的空间特征信息；

S22.将人脸图像样本输入到固定过滤层，所述固定过滤层是由多个固定滤波器组成，对人脸图像样本进行卷积生成差异图，使用非线性激活函数对差异图进行映射；使用不同的可学习的参数来合成差异图，生成纹理特征信息；

S23.将所述空间特征信息和所述纹理特征信息进行融合处理，生成增强的人脸特征信息。

进一步，步骤S3中，所述具体步骤如下：

S31.利用短时滑动窗口提取语音片段，对所述语音片段进行短时傅里叶变换，生成每个片段的梅尔频谱图；

S32.利用多个一维初始模块组成的一维卷积神经网络来处理所述梅尔频谱图，所述一维初始模块是由多个卷积层组成，每个卷积层后都使用一个激活函数和归一化函数，对各个范围的短期梅尔频谱图的相关性进行建模，生成一系列梅尔频谱序列；

S33.将所述一系列梅尔频谱序列转换成嵌入向量，输入到注意力层保留嵌入向量中的有用信息，将注意力层输出与语音嵌入向量融合后再进行线性变换，生成细粒度特征表示，对细粒度特征沿着时间维度进行池化操作，生成全局融合特征向量。

进一步，步骤S4中，所述具体步骤如下：

S41.将所述人脸特征和所述语音特征进行融合操作，经过全连接层和softmax层生成表情预测。

进一步，一种基于人脸和声音的情绪预测系统，包括图像语音采集模块、存储模块、人脸特征提取模块、语音特征提取模块和情绪预测模块。

所述图像语音采集模块用于采集人脸图像和语音录音样本信息，并将样本存储到存储模块；

所述存储模块用于存储特征映射、权重数据、中间结果和最终结果数据；

所述人脸特征提取模块用于对采集的人脸图像进行特征提取和特征增强操作，生成增强的人脸特征信息；

所述语音特征提取模块用于对采集的语音录像进行预处理、编码和融合操作，生成语音特征信息；

所述情绪预测模块，用于根据生成的人脸和语音特征信息，实时计算预测情绪。

进一步，所述人脸特征提取模块包括空间特征提取模块、固定过滤模块、激活模块、纹理特征提取模块和合并模块；

其中，所述空间特征提取模块用于执行基于深度神经网络的计算，提取图像的空间特征信息；所述固定过滤模块用于执行多个卷积操作来生成差异图；所述纹理特征提取模块采用多个可学习的参数执行卷积操作，生成纹理特征信息。

进一步，所述语音特征提取模块包括预处理模块、声音编码模块和嵌入融合器模块；

其中，所述预处理模块用于执行傅里叶操作，计算每个时间窗口的梅尔频谱图；所述声音编码模块由多个一维初始模块和池化模块组成，所述一维初始模块由多个卷积操作、激活函数和归一化函数组成；所述嵌入融合器模块执行注意力操作、线性变换和平均池化操作，生成全局融合特征向量。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明一种一种基于人脸和声音的情绪预测方法和系统，可以更加实时、全面、准确的对情绪进行分析预测，大大提高情绪预测效果。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1是本发明的流程示意图；

图2是本发明的系统结构示意图；

图3是本发明的人脸特征提取模块结构示意图；

图4是本发明的语音特征提取模块结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

在以下描述中，为了提供对本发明的透彻理解阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的结构、电路、材料或方法。

在整个说明书中，对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着：结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此，在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外，可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外，本领域普通技术人员应当理解，在此提供的示图都是为了说明的目的，并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。

在本发明的描述中，需要理解的是，术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制。

实施例

如图1所示，本发明一种基于人脸和声音的情绪预测方法和系统，具体包括以下步骤：

步骤S1，采集人脸图像和语音录音样本；

步骤S2，将人脸图像输入到卷积神经网络中以特定形式提取图像中的空间特征信息；同时将人脸图像输入到局部二进制卷积网络中提取图像的纹理特征信息，将人脸图像的空间特征信息和纹理特征信息进行融合输出增强的人脸特征；

步骤S3，将语音录音输入到预处理模型计算每个窗口的梅尔频谱图；将梅尔频谱图输入到声音编码模型对各个范围的短期梅尔频谱图的相关性进行建模，再通过语音片段嵌入融合器模型输出语音特征；

步骤S4，将人脸特征和语音特征进行融合输入到输出模型来预测情绪。

作为优选方案，在步骤S1中，通过一些视频图像采集设备采集人脸视频图像，包括但不限于摄像机、照相机、雷达等；语音录音通过一些语音采集设备来获取，包括但不限于录音机、传感器等，采集约5万张人脸图像以及对应的5万语音作为样本，进行数据清洗处理，将所有样本依据0.6，0.3，0.1的比例划分为训练集，验证集和测试集。

作为优选方案，步骤S2的具体步骤如下：

S21，将人脸图像依次输入到多个卷积层，提取图像的空间特征信息。

S22，将人脸图像首先输入到固定过滤层，所述固定过滤层是由多个固定滤波器组成，对图像进行卷积生成差异图，接着使用非线性激活函数对值进行映射；最后使用不同的可学习的参数来合成差异图，生成纹理特征信息。

在本实施方式中，利用几个尺寸完全相同的过滤器与输入的人脸图像执行卷积操作，生成与过滤器个数相同的差异图；然后将多个差异图输入到激活函数中，所述激活函数包括但不限于sigmoid，对差异图进行映射；接着使用多个不同的方式来合并多个不同的映射生成单个特征映射，具体操作是使用多个可学习的参数与多个不同的映射依次执行卷积操作、激活函数操作和卷积操作，生成最终的纹理特征信息。

S23，将S21和S22中提取的空间特征信息和纹理特征信息进行融合处理，生成增强的人脸特征信息。

作为优选方案，步骤S3的具体步骤如下：

S31，利用短时滑动窗口提取语音片段，对每个片段进行短时傅里叶变换，生成每个片段的梅尔频谱图。

在本实施方式中，所述短时滑动窗口采用固定秒数宽度取1-1.5秒之间且重叠为0.5的滑动窗口。

S32，利用多个一维初始模块组成的一维卷积神经网络来处理梅尔频谱图，所述一维初始模块是由多个卷积层组成，每个卷积层后都使用一个激活函数和归一化函数，对各个范围的短期梅尔频谱图的相关性进行建模。

在本实施方式中，所述一维卷积神经网络是由多个一维初始模块层和平均池化层组成，所述一维初始模块层是由多个并行的不同内核大小的卷积层、激活函数层和归一化层组成，对不同范围的短期梅尔频谱图相关性进行建模。

S33，将一系列梅尔频谱序列转换成嵌入向量，输入到注意力层保留嵌入向量中的有用信息，接着将注意力层输出与语音嵌入向量融合再进行线性变换，生成细粒度特征表示，最后沿着时间维度进行池化操作，生成全局融合特征向量。

在本实施方式中，所述取80-300维之间，具体取值依据实际情况确定，所述注意力层的详细计算过程是：将某时刻的声音嵌入向量与其他时刻的声音嵌入向量执行矩阵乘法操作得到注意力分数，基于注意力分数执行softmax操作，然后与其他时刻的声音嵌入向量执行矩阵乘法运算，来保留所有声音嵌入向量中有用的信息；所述线性变换通过执行全连接操作完成；所述池化操作包括但不限于平均池化操作。

作为优选方案，步骤S4的具体步骤如下：

S41，将人脸特征和语音特征进行融合操作；

S42，经过多层的全连接层和最终softmax层生成表情预测。

在本实施方式中，所述Softmax层将最终输出类别的概率映射到(0，1)区间，从而进行表情分类，所述表情分类主要分为六种表情：快乐，气愤，惊讶，害怕，厌恶和悲伤。

最后，采用测试集对所述方法进行测试，结果如下：损失为0.03，准确率为0.98。

图2是本发明的基于人脸和声音的情绪预测实现系统结构示意图，如图2所示，该系统包括：图像语音采集模块、存储模块、人脸特征提取模块、语音特征提取模块和情绪预测模块。

图像语音采集模块与存储模块相连，人脸特征提取模块分别与存储模块和情绪预测模块，语音特征提取模块分别与存储模块和情绪预测模块。

所述存储模块用于存储特征映射、权重数据、一些中间结果以及最终结果数据；

图3是本发明的人脸特征提取模块结构示意图，如图3所示，人脸特征提取模块包括空间特征提取模块、固定过滤模块、激活模块、纹理特征提取模块和合并模块；

空间特征提取模块和纹理特征提取模块均与合并模块相连，固定过滤模块与激活模块相连。所述空间特征提取模块用于执行基于深度神经网络的计算，提取图像的空间特征信息；所述固定过滤模块用于执行多个卷积操作来生成差异图；所述纹理特征提取模块采用多个可学习的参数执行卷积操作，生成纹理特征信息。

图4是本发明的人脸特征提取模块结构示意图，如图4所示，语音特征提取模块包括预处理模块、声音编码模块和嵌入融合器模块；

预处理模块与声音编码模块相连，声音编码模块与嵌入融合器模块相连。所述预处理模块用于执行傅里叶操作，计算每个时间窗口的梅尔频谱图；所述声音编码模块由多个一维初始模块和池化模块组成，所述一维初始模块由多个卷积操作、激活函数和归一化函数组成；所述嵌入融合器模块执行注意力操作、线性变换和平均池化操作，生成全局融合特征向量。

尽管在上述实施例中，阐述本发明提供的基于人脸和声音的情绪预测实现过程，并以此对本发明提出的基于人脸和声音的情绪预测方法和系统进行了说明，但本领域普通技术人员应理解，本发明提出的基于人脸和声音的情绪预测方法和系统适用于其他面向情绪预测的设计算法的系统。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人脸和声音的情绪预测方法，其特征在于，包括以下步骤：

S1.采集人脸图像样本和语音录音样本；

2.根据权利要求1所述的一种基于人脸和声音的情绪预测方法和系统，其特征在于，步骤S2的具体如下：

3.根据权利要求1所述的一种基于人脸和声音的情绪预测方法和系统，其特征在于，步骤S3中，所述具体步骤如下：

4.根据权利要求1所述的一种基于人脸和声音的情绪预测方法，其特征在于，步骤S4中，所述具体步骤如下：

5.一种基于人脸和声音的情绪预测系统，其特征在于，包括图像语音采集模块、存储模块、人脸特征提取模块、语音特征提取模块和情绪预测模块；

6.根据权利要求5所述的一种基于人脸和声音的情绪预测系统，其特征在于，所述人脸特征提取模块包括空间特征提取模块、固定过滤模块、激活模块、纹理特征提取模块和合并模块；

7.根据权利要求5所述的一种基于人脸和声音的情绪预测系统，其特征在于，所述语音特征提取模块包括预处理模块、声音编码模块和嵌入融合器模块；