CN112101129B - 一种面对面视音多视图情绪判别方法及系统 - Google Patents
一种面对面视音多视图情绪判别方法及系统 Download PDFInfo
- Publication number
- CN112101129B CN112101129B CN202010851661.0A CN202010851661A CN112101129B CN 112101129 B CN112101129 B CN 112101129B CN 202010851661 A CN202010851661 A CN 202010851661A CN 112101129 B CN112101129 B CN 112101129B
- Authority
- CN
- China
- Prior art keywords
- data
- view
- module
- audio
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 48
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 230000015556 catabolic process Effects 0.000 claims abstract description 11
- 238000006731 degradation reaction Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000000926 separation method Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 4
- 239000000470 constituent Substances 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000012850 discrimination method Methods 0.000 claims 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 9
- 230000008909 emotion recognition Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种面对面视音多视图情绪判别方法,包括以下步骤:S1:获取初始视频数据,并进行预处理,得到视图数据和音频数据;S2:分别提取视图数据和音频数据的原始特征;S3:进行二次特征提取,得到视图数据和音频数据的潜在特征;S4:将潜在特征融合,得到完备潜在表示;S5:将完备潜在表示分类成多种不同概率的情绪类别,并输出概率最高的情绪类别作为情绪判别结果。本发明提供一种面对面视音多视图情绪判别系统,包括数据预处理模块、特征提取模块、退化网络模块和分类模块。本发明提供一种面对面视音多视图情绪判别方法及系统,解决了现有的情绪判别技术只依赖于对单视图数据进行情绪判别存在判别准确度不够高的问题。
Description
技术领域
本发明涉及多视图学习技术领域,更具体的,涉及一种面对面视音多视图情绪判别方法及系统。
背景技术
随着计算机软件和硬件领域核心技术的逐步攻克,推动互联网行业的快速发展,同时加快了大数据时代的来临。随之而来的是数据成指数式增长,使得现代数据越来越复杂和高度异构。同一事物的特征多样性(特征采集手段,特征处理方式,特征自身属性等等)在现实当中非常普遍,这些特征被认为是同一类别物体的多视图数据。多视图数据中的不同视图是对同一物体的不同反映和描述,因此不同视图具有一定的相关性。例如,医生可以通过病人的多种化验报告单,大致推断出病人所患疾病类型,同一幅图像,可以用图像的形状(HOG特征),纹理描述符(LBP特征)和旋转不转特性(SIFT特征)等特征来表示,此时HOG特征,LBP特征和SIFT特征作为图像的三个视图特征数据集。一首歌曲可以由音频数据和文本数据构成,此时音频和文本即为该歌曲的两个视图数据。由于多视图数据的内在信息存在一定的互补性,所以多视图数据比单视图数据拥有更丰富的物体描述信息。而人类的情绪类别(生气,高兴,害怕,悲伤,中性和其他)人们可以通过包含人脸表情的视图数据进行判别,也可以通过音频数据进行判别,同时人们也可以结合两者的信息去对情绪类别进行判断,这样做的目的有利于更好的判别情绪类别。
但是现有的情绪判别技术大多只依赖于单视图数据(图像数据、视图数据或者音频数据中的一种数据)进行特征提取,然后用来对情绪进行判别。由于单视图数据只具有物体片面的描述信息,无法全面的对物体进行表达或描述,因此,只依赖于对单视图数据进行情绪判别存在判别准确度不够高的问题。
现有技术中,如2019年3月8日公开的中国专利,一种动态情绪识别方法,公开号为CN109447001A,只依赖于人脸图像进行情绪识别,不够全面,识别准确度不够高。
发明内容
本发明为克服现有的情绪判别技术只依赖于对单视图数据进行情绪判别存在判别准确度不够高的技术缺陷,提供一种面对面视音多视图情绪判别方法及系统。
为解决上述技术问题,本发明的技术方案如下:
一种面对面视音多视图情绪判别方法,包括以下步骤:
S1:获取初始视频数据,并对初始视频数据进行预处理,得到视图数据和音频数据;
S2:分别提取视图数据和音频数据的原始特征;
S3:采用自编码网络分别对视图数据和音频数据的原始特征进行二次特征提取,得到视图数据潜在特征和音频数据潜在特征;
S4:将视图数据潜在特征和音频数据潜在特征融合,得到完备潜在表示;
S5:将完备潜在表示分类成多种不同概率的情绪类别,并输出概率最高的情绪类别作为情绪判别结果;
在步骤S3中,自编码网络的数学公式定义为:
其中,为自编码网络中的参数,X(vi)表示第vi视图原始特征,Y(A,vi)表示第vi视图的第A层原始特征,/>表示范数正则化约束;
表示输入第vi视图原始特征,则自编码网络第a层的输出为:
其中,为第a层原始特征,d(a,vi)为第a层的神经元个数,为第vi视图原始特征在第a层中相关的权重矩阵,/>为第vi视图原始特征在第a层中相关的偏置向量,/>是其元素全为1的列向量,s(·)是一个非线性激活函数;
步骤S4具体为:在获得视图数据潜在特征和音频数据潜在特征之后,通过退化网络将视图数据潜在特征和音频数据潜在特征融合成一个完备潜在表示其中,p表示完备潜在表示相应的维度,n表示样本数量;
假设视图数据潜在特征和音频数据潜在特征均来源于同一个完备潜在表示,通过利用退化网络将完备潜在表示同时投影到视图数据潜在特征和音频数据潜在特征,其中,退化网络参数为/> 为退化网络的权重矩阵参数,/>为退化网络的偏置向量参数,E为退化网络的层数,将随机初始化的完备潜在表示U(0,vi)=Z作为退化网络的输入;
退化网络的数学公式定义为:
其中U(E,v)的第e层的输出为
优选的,在步骤S1中,对初始视频数据进行预处理的步骤具体为:通过人脸检测模块对初始视频数据中包含人脸图像的视频帧进行短视频片段提取,并对人脸以外的视频区域进行剪裁,只保留包含人脸的视频区域,得到视图数据;同时,对音频数据进行相应的剪裁,只保留与视图数据对应的音频数据,得到音频数据。
优选的,在步骤S2中,提取的视图数据的原始特征的特征维数取决于视频分辨率以及视频时间度;
提取的音频数据的原始特征包括:梅尔频率倒谱系数、帧能量、共振峰频率及其带宽、音调。
优选的,在步骤S3中,还包括引入希尔伯特-施密特独立性准则对视图数据潜在特征和音频数据潜在特征进行多样性正则化;希尔伯特-施密特独立性准则的数学公式定义为:
其中,HSIC(·)为希尔伯特-施密特正则化函数,K1和K2是所选的核关于Y(A/2,vi)和Y(A/2,vj)的格拉姆矩阵,和/>矩阵H的组成元素为hi,j=δi,j-1/n,其中若i=j,δi,j=1,否则δi,j=0,n表示样本数量。
优选的,在步骤S5中,将完备潜在表示按照分类公式进行分类,分类公式定义为:
其中,为分类权重矩阵参数,/>为分类偏置向量参数,Z表示为完备潜在表示,σ(·)是一个非线性激活函数,/>表示为样本对应的类别标签,d表示为情绪类别的数量。
优选的,在步骤S5中,情绪类别d的数量不少于两种。
优选的,在步骤S5中,还包括以向量的形式输出概率最高的情绪类别对应的百分数概率。
一种面对面视音多视图情绪判别系统,采用所述的一种面对面视音多视图情绪判别方法,包括数据预处理模块、特征提取模块、退化网络模块和分类模块;所述数据预处理模块包括人脸检测模块和视音分离模块;所述特征提取模块包括视图特征提取子模块、音频特征提取子模块、自编码网络模块和希尔伯特-施密特独立性准则模块;所述人脸检测模块与所述视音分离模块连接,所述视音分离模块分别与所述视图特征提取子模块、音频特征提取子模块连接,所述视图特征提取子模块、音频特征提取子模块均与所述自编码网络模块连接,所述自编码网络模块分别与所述希尔伯特-施密特独立性准则模块连接、退化网络模块连接,所述退化网络模块与所述分类模块连接;
所述数据预处理模块用于获取初始视频数据,并对初始视频数据进行预处理;
所述人脸检测模块用于对初始视频数据中包含人脸图像的视频帧进行短视频片段提取,同时对人脸以外的视频区域进行剪裁,降低无关信息冗余度;
所述视音分离模块用于将视图和音频进行分离,分别获取视图数据和音频数据;
所述特征提取模块用于提取视图数据和音频数据的原始特征;
所述视图特征提取子模块用于提取视图数据的原始特征;
所述音频特征提取子模块用于提取音频数据的原始特征;
所述自编码网络模块用于提供自编码网络对视图数据和音频数据的原始特征进行二次特征提取;
所述希尔伯特-施密特独立性准则模块用于提供希尔伯特-施密特独立性准则对视图数据潜在特征和音频数据潜在特征进行多样性正则化;
所述退化网络模块用于提供退化网络获取视图数据潜在特征和音频数据潜在特征的完备潜在表示;
所述分类模块用于提供分类公式将完备潜在表示分类成多种不同概率的情绪类别,并输出概率最高的情绪类别。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供了一种面对面视音多视图情绪判别方法及系统,通过融合视图数据和音频数据的潜在特征,充分考虑多视图特征数据对情绪判别的影响,提高了情绪判别准确度。
附图说明
图1为本发明中一实施例的技术方案实施步骤流程图;
图2为本发明中一实施例的模块连接示意图;
其中:1、数据预处理模块;11、人脸检测模块;12、视音分离模块;2、特征提取模块;21、视图特征提取子模块;22、音频特征提取子模块;23、自编码网络模块;24、希尔伯特-施密特独立性准则模块;3、退化网络模块;4、分类模块。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种面对面视音多视图情绪判别方法,包括以下步骤:
S1:获取初始视频数据,并对初始视频数据进行预处理,得到视图数据和音频数据;
S2:分别提取视图数据和音频数据的原始特征;
S3:采用自编码网络分别对视图数据和音频数据的原始特征进行二次特征提取,得到视图数据潜在特征和音频数据潜在特征;
S4:将视图数据潜在特征和音频数据潜在特征融合,得到完备潜在表示;
S5:将完备潜在表示分类成多种不同概率的情绪类别,并输出概率最高的情绪类别作为情绪判别结果;
在步骤S3中,自编码网络的数学公式定义为:
其中,为自编码网络中的参数,X(vi)表示第vi视图原始特征,Y(A,vi)表示第vi视图的第A层原始特征,/>表示范数正则化约束;
表示输入第vi视图原始特征,则自编码网络第a层的输出为:
其中,为第a层原始特征,d(a,vi)为第a层的神经元个数,为第vi视图原始特征在第a层中相关的权重矩阵,/>为第vi视图原始特征在第a层中相关的偏置向量,/>是其元素全为1的列向量,s(·)是一个非线性激活函数;
步骤S4具体为:在获得视图数据潜在特征和音频数据潜在特征之后,通过退化网络将视图数据潜在特征和音频数据潜在特征融合成一个完备潜在表示其中,p表示完备潜在表示相应的维度,n表示样本数量;
假设视图数据潜在特征和音频数据潜在特征均来源于同一个完备潜在表示,通过利用退化网络将完备潜在表示同时投影到视图数据潜在特征和音频数据潜在特征,其中,退化网络参数为/> 为退化网络的权重矩阵参数,/>为退化网络的偏置向量参数,E为退化网络的层数,将随机初始化的完备潜在表示U(0,vi)=Z作为退化网络的输入;
退化网络的数学公式定义为:
其中U(E,v)的第e层的输出为
在具体实施过程中,采用自编码网络对视图数据和音频数据的原始特征进行二次特征提取,得到相应的潜在特征,然后通过融合视图数据和音频数据的潜在特征,充分考虑多视图特征数据对情绪判别的影响,从而提高了情绪判别准确度
更具体的,在步骤S1中,对初始视频数据进行预处理的步骤具体为:通过人脸检测模块对初始视频数据中包含人脸图像的视频帧进行短视频片段提取,并对人脸以外的视频区域进行剪裁,只保留包含人脸的视频区域,得到视图数据;同时,对音频数据进行相应的剪裁,只保留与视图数据对应的音频数据,得到音频数据。
在具体实施过程中,通过对人脸以外的视频区域进行剪裁降低无关信息冗余度,只保留与视频数据对应的音频数据,降低音频数据的冗余度。
更具体的,在步骤S2中,提取的视图数据的原始特征的特征维数取决于视频分辨率以及视频时间度;
提取的音频数据的原始特征包括:梅尔频率倒谱系数、帧能量、共振峰频率及其带宽、音调。
在具体实施过程中,从同一个情绪样本中提取得到视图数据的一个原始特征,使用openSMILE软件提取得到音频数据的四个原始特征,包括梅尔频率倒谱系数(MelFrequency Cepstral Coefficient,MFCC)、帧能量(Frame Energy)、共振峰频率及其带宽(Format Frequency and bandwidth)和音调,并且通过控制相应的参数来固定具体的音频数据特征向量的维度;提取出来的音频文件以.wav无损格式保存,.wav无损格式能最大限度保留音频信息。
在具体实施过程中,采用sigmoid函数作为非线性激活函数。自编码网络由编码器和解码器构成,首先利用前A/2个隐藏层中的编码器将输入原始特征数据编码为一个潜在特征,然后利用后A/2个隐藏层中的解码器将潜在特征进行解码,以重构输入原始特征数据。通过自编码网络进行二次特征提取,有助于降低了原始数据特征噪声信息和冗余度对后面完备潜在表示学习的影响,使得完备潜在表示具有更强的鲁棒性。由于原始特征一共有五个,所以i的取值范围为[1,5]。
更具体的,在步骤S3中,还包括引入希尔伯特-施密特独立性准则对视图数据潜在特征和音频数据潜在特征进行多样性正则化;希尔伯特-施密特独立性准则的数学公式定义为:
其中,HSIC(·)为希尔伯特-施密特正则化函数,K1和K2是所选的核关于Y(A/2,vi)和Y(A/2,vj)的格拉姆矩阵,和/>矩阵H的组成元素为hi,j=δi,j-1/n,其中若i=j,δi,j=1,否则δi,j=0,n表示样本数量。
在具体实施过程中,引入希尔伯特-施密特独立性准则模块对视图数据潜在特征和音频数据潜在特征进行多样性正则化,充分利用视图数据潜在特征和音频数据潜在特征的互补信息,突破目前现有情绪判别系统的局限性,使得即使某视图数据关键信息丢失,也能有额外的视频数据进行补充,从而获得比较理想的情绪判别准确度,并且提升完备潜在表示的鲁棒性。
更具体的,在步骤S5中,将完备潜在表示按照分类公式进行分类,分类公式定义为:
其中,为分类权重矩阵参数,/>为分类偏置向量参数,Z表示为完备潜在表示,σ(·)是一个非线性激活函数,/>表示为样本对应的类别标签,d表示为情绪类别的数量。
在具体实施过程中,分类模块以向量的形式输出情绪类别对应的百分数概率,然后从中挑选出百分数最大的情绪类别进行输出。使用softmax作为多分类的非线性激活函数。
在具体实施过程中,根据自编码网络公式、希尔伯特-施密特独立性准则公式、退化网络公式以及分类公式构成视音多视图情绪判别系统的总损失函数,其表达式为:
由于视音多视图情绪判别系统的总损失函数不是联合凸损失目标函数,故利用交替迭代优化策略来对目标损失函数进行求解,通过固定一部分变量,来对目标变量进行优化,交替进行,依次类推,直到目标损失函数收敛,才最终输出情绪判别结果,也就是分类模块输出的判别结果。
更具体的,在步骤S5中,情绪类别d的数量不少于两种。
在具体实施过程中,情绪类别包括生气,高兴,害怕,悲伤,中性和其他等多种情绪中的至少两种。
更具体的,在步骤S5中,还包括以向量的形式输出概率最高的情绪类别对应的百分数概率。
在具体实施过程中,分类模块输出百分数最大的情绪类别以及其百分数概率。
如图2所述,一种面对面视音多视图情绪判别系统,采用所述的一种面对面视音多视图情绪判别方法,包括数据预处理模块1、特征提取模块2、退化网络模块3和分类模块4;所述数据预处理模块1包括人脸检测模块11和视音分离模块12;所述特征提取模块2包括视图特征提取子模块21、音频特征提取子模块22、自编码网络模块23和希尔伯特-施密特独立性准则模块24;所述人脸检测模块11与所述视音分离模块12连接,所述视音分离模块12分别与所述视图特征提取子模块21、音频特征提取子模块22连接,所述视图特征提取子模块21、音频特征提取子模块22均与所述自编码网络模块23连接,所述自编码网络模块23分别与所述希尔伯特-施密特独立性准则模块24连接、退化网络模块3连接,所述退化网络模块3与所述分类模块4连接;
所述数据预处理模块1用于获取初始视频数据,并对初始视频数据进行预处理;
所述人脸检测模块11用于对初始视频数据中包含人脸图像的视频帧进行短视频片段提取,同时对人脸以外的视频区域进行剪裁,降低无关信息冗余度;
所述视音分离模块12用于将视图和音频进行分离,分别获取视图数据和音频数据;
所述特征提取模块2用于提取视图数据和音频数据的原始特征;
所述视图特征提取子模块21用于提取视图数据的原始特征;
所述音频特征提取子模块22用于提取音频数据的原始特征;
所述自编码网络模块23用于提供自编码网络对视图数据和音频数据的原始特征进行二次特征提取;
所述希尔伯特-施密特独立性准则模块24用于提供希尔伯特-施密特独立性准则对视图数据潜在特征和音频数据潜在特征进行多样性正则化;
所述退化网络模块3用于提供退化网络获取视图数据潜在特征和音频数据潜在特征的完备潜在表示;
所述分类模块4用于提供分类公式将完备潜在表示分类成多种不同概率的情绪类别,并输出概率最高的情绪类别。
在具体实施过程中,人脸检测模块11为DLIB人脸检测模块11,采用基于3D卷积神经网络的深度学习的视图特征提取子模块21提取视图数据的原始特征。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (8)
1.一种面对面视音多视图情绪判别方法,其特征在于,包括以下步骤:
S1:获取初始视频数据,并对初始视频数据进行预处理,得到视图数据和音频数据;
S2:分别提取视图数据和音频数据的原始特征;
S3:采用自编码网络分别对视图数据和音频数据的原始特征进行二次特征提取,得到视图数据潜在特征和音频数据潜在特征;
S4:将视图数据潜在特征和音频数据潜在特征融合,得到完备潜在表示;
S5:将完备潜在表示分类成多种不同概率的情绪类别,并输出概率最高的情绪类别作为情绪判别结果;
在步骤S3中,自编码网络的数学公式定义为:
其中,为自编码网络中的参数,X(vi)表示第vi视图原始特征,Y(A,vi)表示第vi视图的第A层原始特征,/>表示范数正则化约束;
表示输入第vi视图原始特征,则自编码网络第a层的输出为:
其中,为第a层原始特征,d(a,vi)为第a层的神经元个数,为第vi视图原始特征在第a层中相关的权重矩阵,/>为第vi视图原始特征在第a层中相关的偏置向量,/>是其元素全为1的列向量,s(·)是一个非线性激活函数;
步骤S4具体为:在获得视图数据潜在特征和音频数据潜在特征之后,通过退化网络将视图数据潜在特征和音频数据潜在特征融合成一个完备潜在表示其中,p表示完备潜在表示相应的维度,n表示样本数量;
假设视图数据潜在特征和音频数据潜在特征均来源于同一个完备潜在表示,通过利用退化网络将完备潜在表示同时投影到视图数据潜在特征和音频数据潜在特征,其中,退化网络参数为/>为退化网络的权重矩阵参数,/>为退化网络的偏置向量参数,E为退化网络的层数,将随机初始化的完备潜在表示U(0,vi)=Z作为退化网络的输入;
退化网络的数学公式定义为:
其中U(E,v)的第e层的输出为
2.根据权利要求1所述的一种面对面视音多视图情绪判别方法,其特征在于,在步骤S1中,对初始视频数据进行预处理的步骤具体为:通过人脸检测模块对初始视频数据中包含人脸图像的视频帧进行短视频片段提取,并对人脸以外的视频区域进行剪裁,只保留包含人脸的视频区域,得到视图数据;同时,对音频数据进行相应的剪裁,只保留与视图数据对应的音频数据,得到音频数据。
3.根据权利要求1所述的一种面对面视音多视图情绪判别方法,其特征在于,在步骤S2中,提取的视图数据的原始特征的特征维数取决于视频分辨率以及视频时间度;
提取的音频数据的原始特征包括:梅尔频率倒谱系数、帧能量、共振峰频率及其带宽、音调。
4.根据权利要求1所述的一种面对面视音多视图情绪判别方法,其特征在于,在步骤S3中,还包括引入希尔伯特-施密特独立性准则对视图数据潜在特征和音频数据潜在特征进行多样性正则化;希尔伯特-施密特独立性准则的数学公式定义为:
其中,HSIC(·)为希尔伯特-施密特正则化函数,K1和K2是所选的核关于Y(A/2,vi)和Y(A /2,vj)的格拉姆矩阵,K1=Y(A/2,vi)×Y(A/2,vi)T和K2=Y(A/2,vj)×Y(A/2,vj)T,矩阵H的组成元素为hi,j=δi,j-1/n,其中若i=j,δi,j=1,否则δi,j=0,n表示样本数量。
5.根据权利要求1所述的一种面对面视音多视图情绪判别方法,其特征在于,在步骤S5中,将完备潜在表示按照分类公式进行分类,分类公式定义为:
其中,为分类权重矩阵参数,/>为分类偏置向量参数,Z表示为完备潜在表示,σ(·)是一个非线性激活函数,/>表示为样本对应的类别标签,d表示为情绪类别的数量。
6.根据权利要求1或5所述的一种面对面视音多视图情绪判别方法,其特征在于,在步骤S5中,情绪类别d的数量不少于两种。
7.根据权利要求1所述的一种面对面视音多视图情绪判别方法,其特征在于,在步骤S5中,还包括以向量的形式输出概率最高的情绪类别对应的百分数概率。
8.一种面对面视音多视图情绪判别系统,采用如权利要求1所述的一种面对面视音多视图情绪判别方法,其特征在于,包括数据预处理模块、特征提取模块、退化网络模块和分类模块;所述数据预处理模块包括人脸检测模块和视音分离模块;所述特征提取模块包括视图特征提取子模块、音频特征提取子模块、自编码网络模块和希尔伯特-施密特独立性准则模块;所述人脸检测模块与所述视音分离模块连接,所述视音分离模块分别与所述视图特征提取子模块、音频特征提取子模块连接,所述视图特征提取子模块、音频特征提取子模块均与所述自编码网络模块连接,所述自编码网络模块分别与所述希尔伯特-施密特独立性准则模块连接、退化网络模块连接,所述退化网络模块与所述分类模块连接;
所述数据预处理模块用于获取初始视频数据,并对初始视频数据进行预处理;
所述人脸检测模块用于对初始视频数据中包含人脸图像的视频帧进行短视频片段提取,同时对人脸以外的视频区域进行剪裁,降低无关信息冗余度;
所述视音分离模块用于将视图和音频进行分离,分别获取视图数据和音频数据;
所述特征提取模块用于提取视图数据和音频数据的原始特征;
所述视图特征提取子模块用于提取视图数据的原始特征;
所述音频特征提取子模块用于提取音频数据的原始特征;
所述自编码网络模块用于提供自编码网络对视图数据和音频数据的原始特征进行二次特征提取;
所述希尔伯特-施密特独立性准则模块用于提供希尔伯特-施密特独立性准则对视图数据潜在特征和音频数据潜在特征进行多样性正则化;
所述退化网络模块用于提供退化网络获取视图数据潜在特征和音频数据潜在特征的完备潜在表示;在获得视图数据潜在特征和音频数据潜在特征之后,通过退化网络将视图数据潜在特征和音频数据潜在特征融合成一个完备潜在表示;
所述分类模块用于提供分类公式将完备潜在表示分类成多种不同概率的情绪类别,并输出概率最高的情绪类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010851661.0A CN112101129B (zh) | 2020-08-21 | 2020-08-21 | 一种面对面视音多视图情绪判别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010851661.0A CN112101129B (zh) | 2020-08-21 | 2020-08-21 | 一种面对面视音多视图情绪判别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101129A CN112101129A (zh) | 2020-12-18 |
CN112101129B true CN112101129B (zh) | 2023-08-18 |
Family
ID=73753145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010851661.0A Active CN112101129B (zh) | 2020-08-21 | 2020-08-21 | 一种面对面视音多视图情绪判别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101129B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066514A (zh) * | 2017-01-23 | 2017-08-18 | 深圳亲友科技有限公司 | 老年人的情绪识别方法和系统 |
CN107169426A (zh) * | 2017-04-27 | 2017-09-15 | 广东工业大学 | 一种基于深度神经网络的人群情绪异常检测和定位方法 |
CN110414323A (zh) * | 2019-06-14 | 2019-11-05 | 平安科技(深圳)有限公司 | 情绪检测方法、装置、电子设备及存储介质 |
CN110991427A (zh) * | 2019-12-25 | 2020-04-10 | 北京百度网讯科技有限公司 | 用于视频的情绪识别方法、装置和计算机设备 |
-
2020
- 2020-08-21 CN CN202010851661.0A patent/CN112101129B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066514A (zh) * | 2017-01-23 | 2017-08-18 | 深圳亲友科技有限公司 | 老年人的情绪识别方法和系统 |
CN107169426A (zh) * | 2017-04-27 | 2017-09-15 | 广东工业大学 | 一种基于深度神经网络的人群情绪异常检测和定位方法 |
CN110414323A (zh) * | 2019-06-14 | 2019-11-05 | 平安科技(深圳)有限公司 | 情绪检测方法、装置、电子设备及存储介质 |
CN110991427A (zh) * | 2019-12-25 | 2020-04-10 | 北京百度网讯科技有限公司 | 用于视频的情绪识别方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112101129A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109409222B (zh) | 一种基于移动端的多视角人脸表情识别方法 | |
CN105976809B (zh) | 基于语音和面部表情的双模态情感融合的识别方法及系统 | |
CN108596265B (zh) | 基于文本描述信息和生成对抗网络的视频生成模型 | |
CN109190479A (zh) | 一种基于混合深度学习的视频序列表情识别方法 | |
Ngiam et al. | Multimodal deep learning | |
CN108717856A (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN113158727A (zh) | 一种基于视频和语音信息的双模态融合情绪识别方法 | |
CN112784801A (zh) | 基于文本和图片的双模态胃部疾病分类方法及装置 | |
CN112800875A (zh) | 一种混合特征融合和决策融合的多模态情感识别方法 | |
KR102132407B1 (ko) | 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치 | |
CN114550057A (zh) | 一种基于多模态表示学习的视频情绪识别方法 | |
CN111369646B (zh) | 一种融合注意力机制的表情合成方法 | |
Lim et al. | Emotion recognition by facial expression and voice: review and analysis | |
CN113140020A (zh) | 一种基于伴随监督生成对抗网络的文本生成图像的方法 | |
CN116304984A (zh) | 基于对比学习的多模态意图识别方法及系统 | |
Lee | Deep structured learning: architectures and applications | |
CN115393944A (zh) | 一种基于多维特征融合的微表情识别方法 | |
CN116129013A (zh) | 一种生成虚拟人动画视频的方法、装置及存储介质 | |
CN115565533A (zh) | 语音识别方法、装置、设备及存储介质 | |
Vaidya et al. | Hybrid CNN-SVM classifier for human emotion recognition using ROI extraction and feature fusion | |
Jaymon et al. | Real time emotion detection using deep learning | |
CN113128284A (zh) | 一种多模态情感识别方法和装置 | |
Monisha et al. | Enhanced automatic recognition of human emotions using machine learning techniques | |
CN112101129B (zh) | 一种面对面视音多视图情绪判别方法及系统 | |
Zhao et al. | Local spatiotemporal descriptors for visual recognition of spoken phrases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |