CN112101129B

CN112101129B - 一种面对面视音多视图情绪判别方法及系统

Info

Publication number: CN112101129B
Application number: CN202010851661.0A
Authority: CN
Inventors: 段意强; 袁浩亮; 符政鑫; 吕应龙; 汤瑞欣; 许斯滨
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2023-08-18
Anticipated expiration: 2040-08-21
Also published as: CN112101129A

Abstract

本发明提供一种面对面视音多视图情绪判别方法，包括以下步骤：S1：获取初始视频数据，并进行预处理，得到视图数据和音频数据；S2：分别提取视图数据和音频数据的原始特征；S3：进行二次特征提取，得到视图数据和音频数据的潜在特征；S4：将潜在特征融合，得到完备潜在表示；S5：将完备潜在表示分类成多种不同概率的情绪类别，并输出概率最高的情绪类别作为情绪判别结果。本发明提供一种面对面视音多视图情绪判别系统，包括数据预处理模块、特征提取模块、退化网络模块和分类模块。本发明提供一种面对面视音多视图情绪判别方法及系统，解决了现有的情绪判别技术只依赖于对单视图数据进行情绪判别存在判别准确度不够高的问题。

Description

一种面对面视音多视图情绪判别方法及系统

技术领域

本发明涉及多视图学习技术领域，更具体的，涉及一种面对面视音多视图情绪判别方法及系统。

背景技术

随着计算机软件和硬件领域核心技术的逐步攻克，推动互联网行业的快速发展，同时加快了大数据时代的来临。随之而来的是数据成指数式增长，使得现代数据越来越复杂和高度异构。同一事物的特征多样性(特征采集手段，特征处理方式，特征自身属性等等)在现实当中非常普遍，这些特征被认为是同一类别物体的多视图数据。多视图数据中的不同视图是对同一物体的不同反映和描述，因此不同视图具有一定的相关性。例如，医生可以通过病人的多种化验报告单，大致推断出病人所患疾病类型，同一幅图像，可以用图像的形状(HOG特征)，纹理描述符(LBP特征)和旋转不转特性(SIFT特征)等特征来表示，此时HOG特征，LBP特征和SIFT特征作为图像的三个视图特征数据集。一首歌曲可以由音频数据和文本数据构成，此时音频和文本即为该歌曲的两个视图数据。由于多视图数据的内在信息存在一定的互补性，所以多视图数据比单视图数据拥有更丰富的物体描述信息。而人类的情绪类别(生气，高兴，害怕，悲伤，中性和其他)人们可以通过包含人脸表情的视图数据进行判别，也可以通过音频数据进行判别，同时人们也可以结合两者的信息去对情绪类别进行判断，这样做的目的有利于更好的判别情绪类别。

但是现有的情绪判别技术大多只依赖于单视图数据(图像数据、视图数据或者音频数据中的一种数据)进行特征提取，然后用来对情绪进行判别。由于单视图数据只具有物体片面的描述信息，无法全面的对物体进行表达或描述，因此，只依赖于对单视图数据进行情绪判别存在判别准确度不够高的问题。

现有技术中，如2019年3月8日公开的中国专利，一种动态情绪识别方法，公开号为CN109447001A，只依赖于人脸图像进行情绪识别，不够全面，识别准确度不够高。

发明内容

本发明为克服现有的情绪判别技术只依赖于对单视图数据进行情绪判别存在判别准确度不够高的技术缺陷，提供一种面对面视音多视图情绪判别方法及系统。

为解决上述技术问题，本发明的技术方案如下：

一种面对面视音多视图情绪判别方法，包括以下步骤：

S1：获取初始视频数据，并对初始视频数据进行预处理，得到视图数据和音频数据；

S2：分别提取视图数据和音频数据的原始特征；

S3：采用自编码网络分别对视图数据和音频数据的原始特征进行二次特征提取，得到视图数据潜在特征和音频数据潜在特征；

S4：将视图数据潜在特征和音频数据潜在特征融合，得到完备潜在表示；

S5：将完备潜在表示分类成多种不同概率的情绪类别，并输出概率最高的情绪类别作为情绪判别结果；

在步骤S3中，自编码网络的数学公式定义为：

其中，为自编码网络中的参数，X^(vi)表示第vi视图原始特征，Y^(A,vi)表示第vi视图的第A层原始特征，/>表示范数正则化约束；

表示输入第vi视图原始特征，则自编码网络第a层的输出为：

其中，为第a层原始特征，d_(a,vi)为第a层的神经元个数，为第vi视图原始特征在第a层中相关的权重矩阵，/>为第vi视图原始特征在第a层中相关的偏置向量，/>是其元素全为1的列向量，s(·)是一个非线性激活函数；

步骤S4具体为：在获得视图数据潜在特征和音频数据潜在特征之后，通过退化网络将视图数据潜在特征和音频数据潜在特征融合成一个完备潜在表示其中，p表示完备潜在表示相应的维度，n表示样本数量；

假设视图数据潜在特征和音频数据潜在特征均来源于同一个完备潜在表示，通过利用退化网络将完备潜在表示同时投影到视图数据潜在特征和音频数据潜在特征，其中，退化网络参数为/> 为退化网络的权重矩阵参数，/>为退化网络的偏置向量参数，E为退化网络的层数，将随机初始化的完备潜在表示U^(0,vi)＝Z作为退化网络的输入；

退化网络的数学公式定义为：

其中U^(E,v)的第e层的输出为

优选的，在步骤S1中，对初始视频数据进行预处理的步骤具体为：通过人脸检测模块对初始视频数据中包含人脸图像的视频帧进行短视频片段提取，并对人脸以外的视频区域进行剪裁，只保留包含人脸的视频区域，得到视图数据；同时，对音频数据进行相应的剪裁，只保留与视图数据对应的音频数据，得到音频数据。

优选的，在步骤S2中，提取的视图数据的原始特征的特征维数取决于视频分辨率以及视频时间度；

提取的音频数据的原始特征包括：梅尔频率倒谱系数、帧能量、共振峰频率及其带宽、音调。

优选的，在步骤S3中，还包括引入希尔伯特-施密特独立性准则对视图数据潜在特征和音频数据潜在特征进行多样性正则化；希尔伯特-施密特独立性准则的数学公式定义为：

其中，HSIC(·)为希尔伯特-施密特正则化函数，K₁和K₂是所选的核关于Y^(A/2,vi)和Y^(A/2,vj)的格拉姆矩阵，和/>矩阵H的组成元素为h_i,j＝δ_i,j-1/n，其中若i＝j，δ_i,j＝1，否则δ_i,j＝0，n表示样本数量。

优选的，在步骤S5中，将完备潜在表示按照分类公式进行分类，分类公式定义为：

其中，为分类权重矩阵参数，/>为分类偏置向量参数，Z表示为完备潜在表示，σ(·)是一个非线性激活函数，/>表示为样本对应的类别标签，d表示为情绪类别的数量。

优选的，在步骤S5中，情绪类别d的数量不少于两种。

优选的，在步骤S5中，还包括以向量的形式输出概率最高的情绪类别对应的百分数概率。

一种面对面视音多视图情绪判别系统，采用所述的一种面对面视音多视图情绪判别方法，包括数据预处理模块、特征提取模块、退化网络模块和分类模块；所述数据预处理模块包括人脸检测模块和视音分离模块；所述特征提取模块包括视图特征提取子模块、音频特征提取子模块、自编码网络模块和希尔伯特-施密特独立性准则模块；所述人脸检测模块与所述视音分离模块连接，所述视音分离模块分别与所述视图特征提取子模块、音频特征提取子模块连接，所述视图特征提取子模块、音频特征提取子模块均与所述自编码网络模块连接，所述自编码网络模块分别与所述希尔伯特-施密特独立性准则模块连接、退化网络模块连接，所述退化网络模块与所述分类模块连接；

所述数据预处理模块用于获取初始视频数据，并对初始视频数据进行预处理；

所述人脸检测模块用于对初始视频数据中包含人脸图像的视频帧进行短视频片段提取，同时对人脸以外的视频区域进行剪裁，降低无关信息冗余度；

所述视音分离模块用于将视图和音频进行分离，分别获取视图数据和音频数据；

所述特征提取模块用于提取视图数据和音频数据的原始特征；

所述视图特征提取子模块用于提取视图数据的原始特征；

所述音频特征提取子模块用于提取音频数据的原始特征；

所述自编码网络模块用于提供自编码网络对视图数据和音频数据的原始特征进行二次特征提取；

所述希尔伯特-施密特独立性准则模块用于提供希尔伯特-施密特独立性准则对视图数据潜在特征和音频数据潜在特征进行多样性正则化；

所述退化网络模块用于提供退化网络获取视图数据潜在特征和音频数据潜在特征的完备潜在表示；

所述分类模块用于提供分类公式将完备潜在表示分类成多种不同概率的情绪类别，并输出概率最高的情绪类别。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供了一种面对面视音多视图情绪判别方法及系统，通过融合视图数据和音频数据的潜在特征，充分考虑多视图特征数据对情绪判别的影响，提高了情绪判别准确度。

附图说明

图1为本发明中一实施例的技术方案实施步骤流程图；

图2为本发明中一实施例的模块连接示意图；

其中：1、数据预处理模块；11、人脸检测模块；12、视音分离模块；2、特征提取模块；21、视图特征提取子模块；22、音频特征提取子模块；23、自编码网络模块；24、希尔伯特-施密特独立性准则模块；3、退化网络模块；4、分类模块。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种面对面视音多视图情绪判别方法，包括以下步骤：

S2：分别提取视图数据和音频数据的原始特征；

在步骤S3中，自编码网络的数学公式定义为：

表示输入第vi视图原始特征，则自编码网络第a层的输出为：

其中，为第a层原始特征，d_(a，vi)为第a层的神经元个数，为第vi视图原始特征在第a层中相关的权重矩阵，/>为第vi视图原始特征在第a层中相关的偏置向量，/>是其元素全为1的列向量，s(·)是一个非线性激活函数；

退化网络的数学公式定义为：

其中U^(E,v)的第e层的输出为

在具体实施过程中，采用自编码网络对视图数据和音频数据的原始特征进行二次特征提取，得到相应的潜在特征，然后通过融合视图数据和音频数据的潜在特征，充分考虑多视图特征数据对情绪判别的影响，从而提高了情绪判别准确度

更具体的，在步骤S1中，对初始视频数据进行预处理的步骤具体为：通过人脸检测模块对初始视频数据中包含人脸图像的视频帧进行短视频片段提取，并对人脸以外的视频区域进行剪裁，只保留包含人脸的视频区域，得到视图数据；同时，对音频数据进行相应的剪裁，只保留与视图数据对应的音频数据，得到音频数据。

在具体实施过程中，通过对人脸以外的视频区域进行剪裁降低无关信息冗余度，只保留与视频数据对应的音频数据，降低音频数据的冗余度。

更具体的，在步骤S2中，提取的视图数据的原始特征的特征维数取决于视频分辨率以及视频时间度；

在具体实施过程中，从同一个情绪样本中提取得到视图数据的一个原始特征，使用openSMILE软件提取得到音频数据的四个原始特征，包括梅尔频率倒谱系数(MelFrequency Cepstral Coefficient，MFCC)、帧能量(Frame Energy)、共振峰频率及其带宽(Format Frequency and bandwidth)和音调，并且通过控制相应的参数来固定具体的音频数据特征向量的维度；提取出来的音频文件以.wav无损格式保存，.wav无损格式能最大限度保留音频信息。

在具体实施过程中，采用sigmoid函数作为非线性激活函数。自编码网络由编码器和解码器构成，首先利用前A/2个隐藏层中的编码器将输入原始特征数据编码为一个潜在特征,然后利用后A/2个隐藏层中的解码器将潜在特征进行解码，以重构输入原始特征数据。通过自编码网络进行二次特征提取，有助于降低了原始数据特征噪声信息和冗余度对后面完备潜在表示学习的影响，使得完备潜在表示具有更强的鲁棒性。由于原始特征一共有五个，所以i的取值范围为[1,5]。

更具体的，在步骤S3中，还包括引入希尔伯特-施密特独立性准则对视图数据潜在特征和音频数据潜在特征进行多样性正则化；希尔伯特-施密特独立性准则的数学公式定义为：

在具体实施过程中，引入希尔伯特-施密特独立性准则模块对视图数据潜在特征和音频数据潜在特征进行多样性正则化，充分利用视图数据潜在特征和音频数据潜在特征的互补信息，突破目前现有情绪判别系统的局限性，使得即使某视图数据关键信息丢失，也能有额外的视频数据进行补充，从而获得比较理想的情绪判别准确度，并且提升完备潜在表示的鲁棒性。

更具体的，在步骤S5中，将完备潜在表示按照分类公式进行分类，分类公式定义为：

在具体实施过程中，分类模块以向量的形式输出情绪类别对应的百分数概率，然后从中挑选出百分数最大的情绪类别进行输出。使用softmax作为多分类的非线性激活函数。

在具体实施过程中，根据自编码网络公式、希尔伯特-施密特独立性准则公式、退化网络公式以及分类公式构成视音多视图情绪判别系统的总损失函数，其表达式为：

由于视音多视图情绪判别系统的总损失函数不是联合凸损失目标函数，故利用交替迭代优化策略来对目标损失函数进行求解，通过固定一部分变量，来对目标变量进行优化，交替进行，依次类推，直到目标损失函数收敛，才最终输出情绪判别结果，也就是分类模块输出的判别结果。

更具体的，在步骤S5中，情绪类别d的数量不少于两种。

在具体实施过程中，情绪类别包括生气，高兴，害怕，悲伤，中性和其他等多种情绪中的至少两种。

更具体的，在步骤S5中，还包括以向量的形式输出概率最高的情绪类别对应的百分数概率。

在具体实施过程中，分类模块输出百分数最大的情绪类别以及其百分数概率。

如图2所述，一种面对面视音多视图情绪判别系统，采用所述的一种面对面视音多视图情绪判别方法，包括数据预处理模块1、特征提取模块2、退化网络模块3和分类模块4；所述数据预处理模块1包括人脸检测模块11和视音分离模块12；所述特征提取模块2包括视图特征提取子模块21、音频特征提取子模块22、自编码网络模块23和希尔伯特-施密特独立性准则模块24；所述人脸检测模块11与所述视音分离模块12连接，所述视音分离模块12分别与所述视图特征提取子模块21、音频特征提取子模块22连接，所述视图特征提取子模块21、音频特征提取子模块22均与所述自编码网络模块23连接，所述自编码网络模块23分别与所述希尔伯特-施密特独立性准则模块24连接、退化网络模块3连接，所述退化网络模块3与所述分类模块4连接；

所述数据预处理模块1用于获取初始视频数据，并对初始视频数据进行预处理；

所述人脸检测模块11用于对初始视频数据中包含人脸图像的视频帧进行短视频片段提取，同时对人脸以外的视频区域进行剪裁，降低无关信息冗余度；

所述视音分离模块12用于将视图和音频进行分离，分别获取视图数据和音频数据；

所述特征提取模块2用于提取视图数据和音频数据的原始特征；

所述视图特征提取子模块21用于提取视图数据的原始特征；

所述音频特征提取子模块22用于提取音频数据的原始特征；

所述自编码网络模块23用于提供自编码网络对视图数据和音频数据的原始特征进行二次特征提取；

所述希尔伯特-施密特独立性准则模块24用于提供希尔伯特-施密特独立性准则对视图数据潜在特征和音频数据潜在特征进行多样性正则化；

所述退化网络模块3用于提供退化网络获取视图数据潜在特征和音频数据潜在特征的完备潜在表示；

所述分类模块4用于提供分类公式将完备潜在表示分类成多种不同概率的情绪类别，并输出概率最高的情绪类别。

在具体实施过程中，人脸检测模块11为DLIB人脸检测模块11，采用基于3D卷积神经网络的深度学习的视图特征提取子模块21提取视图数据的原始特征。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面对面视音多视图情绪判别方法，其特征在于，包括以下步骤：

S2：分别提取视图数据和音频数据的原始特征；

在步骤S3中，自编码网络的数学公式定义为：

表示输入第vi视图原始特征，则自编码网络第a层的输出为：

假设视图数据潜在特征和音频数据潜在特征均来源于同一个完备潜在表示，通过利用退化网络将完备潜在表示同时投影到视图数据潜在特征和音频数据潜在特征，其中，退化网络参数为/>为退化网络的权重矩阵参数，/>为退化网络的偏置向量参数，E为退化网络的层数，将随机初始化的完备潜在表示U^(0,vi)＝Z作为退化网络的输入；

退化网络的数学公式定义为：

其中U^(E,v)的第e层的输出为

2.根据权利要求1所述的一种面对面视音多视图情绪判别方法，其特征在于，在步骤S1中，对初始视频数据进行预处理的步骤具体为：通过人脸检测模块对初始视频数据中包含人脸图像的视频帧进行短视频片段提取，并对人脸以外的视频区域进行剪裁，只保留包含人脸的视频区域，得到视图数据；同时，对音频数据进行相应的剪裁，只保留与视图数据对应的音频数据，得到音频数据。

3.根据权利要求1所述的一种面对面视音多视图情绪判别方法，其特征在于，在步骤S2中，提取的视图数据的原始特征的特征维数取决于视频分辨率以及视频时间度；

4.根据权利要求1所述的一种面对面视音多视图情绪判别方法，其特征在于，在步骤S3中，还包括引入希尔伯特-施密特独立性准则对视图数据潜在特征和音频数据潜在特征进行多样性正则化；希尔伯特-施密特独立性准则的数学公式定义为：

其中，HSIC(·)为希尔伯特-施密特正则化函数，K₁和K₂是所选的核关于Y^(A/2,vi)和Y^(A ^/2,vj)的格拉姆矩阵，K₁＝Y^(A/2,vi)×Y^(A/2,vi)T和K₂＝Y^(A/2,vj)×Y^(A/2,vj)T，矩阵H的组成元素为h_i,j＝δ_i,j-1/n，其中若i＝j，δ_i,j＝1，否则δ_i,j＝0，n表示样本数量。

5.根据权利要求1所述的一种面对面视音多视图情绪判别方法，其特征在于，在步骤S5中，将完备潜在表示按照分类公式进行分类，分类公式定义为：

6.根据权利要求1或5所述的一种面对面视音多视图情绪判别方法，其特征在于，在步骤S5中，情绪类别d的数量不少于两种。

7.根据权利要求1所述的一种面对面视音多视图情绪判别方法，其特征在于，在步骤S5中，还包括以向量的形式输出概率最高的情绪类别对应的百分数概率。

8.一种面对面视音多视图情绪判别系统，采用如权利要求1所述的一种面对面视音多视图情绪判别方法，其特征在于，包括数据预处理模块、特征提取模块、退化网络模块和分类模块；所述数据预处理模块包括人脸检测模块和视音分离模块；所述特征提取模块包括视图特征提取子模块、音频特征提取子模块、自编码网络模块和希尔伯特-施密特独立性准则模块；所述人脸检测模块与所述视音分离模块连接，所述视音分离模块分别与所述视图特征提取子模块、音频特征提取子模块连接，所述视图特征提取子模块、音频特征提取子模块均与所述自编码网络模块连接，所述自编码网络模块分别与所述希尔伯特-施密特独立性准则模块连接、退化网络模块连接，所述退化网络模块与所述分类模块连接；

所述视图特征提取子模块用于提取视图数据的原始特征；

所述音频特征提取子模块用于提取音频数据的原始特征；

所述退化网络模块用于提供退化网络获取视图数据潜在特征和音频数据潜在特征的完备潜在表示；在获得视图数据潜在特征和音频数据潜在特征之后，通过退化网络将视图数据潜在特征和音频数据潜在特征融合成一个完备潜在表示；