CN117349792A - 一种基于面部特征与语音特征的情绪识别方法 - Google Patents
一种基于面部特征与语音特征的情绪识别方法 Download PDFInfo
- Publication number
- CN117349792A CN117349792A CN202311391539.XA CN202311391539A CN117349792A CN 117349792 A CN117349792 A CN 117349792A CN 202311391539 A CN202311391539 A CN 202311391539A CN 117349792 A CN117349792 A CN 117349792A
- Authority
- CN
- China
- Prior art keywords
- frame
- emotion recognition
- facial
- voice
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001815 facial effect Effects 0.000 title claims abstract description 60
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 50
- 230000008451 emotion Effects 0.000 claims abstract description 29
- 238000003064 k means clustering Methods 0.000 claims abstract description 10
- 238000009432 framing Methods 0.000 claims abstract description 8
- 230000005236 sound signal Effects 0.000 claims description 40
- 230000008859 change Effects 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 210000000887 face Anatomy 0.000 claims description 7
- 210000004709 eyebrow Anatomy 0.000 claims description 6
- 238000007670 refining Methods 0.000 claims description 6
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 210000004373 mandible Anatomy 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 abstract description 7
- 230000000295 complement effect Effects 0.000 abstract description 2
- 241000282414 Homo sapiens Species 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008921 facial expression Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Probability & Statistics with Applications (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于面部特征与语音特征的情绪识别方法,涉及特征融合技术领域,包括:对采集的包含有面部信号和语音信号的音视频进行分帧,提取每帧的语音特征值和面部特征值;根据情绪种类构建K均值聚类数目集,从K均值聚类数目集合中确定最优聚类数目;使用最优聚类数目kbest把语音特征值和面部特征值聚为不同的簇,将既含有面部特征值也含有语音特征值的簇作为融合特征;将融合特征输入到情绪识别模块中,输出情绪识别结果。本发明引入k均值算法对表情特征和语音特征进行融合,将不同感知模式的信息融合,有助于捕捉模态之间的互补信息。将该类作为情绪识别模型的输入有助于情绪识别模型输出更准确的情绪识别结果。
Description
技术领域
本发明涉及深度学习技术领域,特别涉及一种基于面部特征与语音特征的情绪识别方法。
背景技术
人机交互的过程中,让机器真正看的懂、听的懂情感丰富的人类的情绪状态,不仅可以帮助心理医生通过对病人情绪的判断来掌握病人的心理状态,更好的进行心理治疗,还可以通过观众的反应对广告效果做出评估、识别驾驶员驾驶状态以触发应急措施进行干预等。
早期关于情绪识别的研究中,研究者们将表情定义为六种基本的情绪:开心、悲伤、惊讶、害怕、厌恶、生气,并通过让相关研究人员或专业的演员在实验室条件下进行摆拍获得不同类别表情的方式构建数据集。但随着研究的深入,人们发现通过上述的方式进行情绪识别的研究存在弊病:人可以通过控制自己的面部表情来隐藏自己的情绪,基于单一视觉模态很难有效对情绪进行识别。针对以上弊病,目前情绪识别也逐步偏向于面部表情+语音多模态背景下的研究。
基于面部表情+语音多模态的情绪识别中,确定每种特征对情绪的影响大小是一个复杂的问题,某种情况下面部表情可能更具信息量,而在其他情况下,语音特征可能更为重要,因此如何获得鲁棒性更强、更具有代表性的综合特征进行情绪识别具有重要的研究意义。使用k均值算法对表情特征和语音特征进行融合,可以通过无监督方法自发的将相似的表情特征和语音特征被聚为一簇,该聚类结果是综合情绪表示,实现不同感知模式之间的信息融合,这有助于捕捉不同模态之间的互补信息。在使用k均值算法获得融合特征的过程中k值可以使用肘部法则来确定,肘部法则的工作步骤是:尝试不同的k值将数据分为不同数量的簇;计算每个尝试的k值的轮廓系数;将不同k值轮廓系数绘制成曲线;在曲线上找一个拐点最佳簇数量。
但是使用肘部法则获得最佳簇数量的过程中,轮廓系数的计算是基于全部数据来计算,对于获得融合特征来说,使用全部数据这样可能会掩盖一些细微的情绪变化,获得的k值不准确;并且肘部法则在某些情况下可能存在多个可能的拐点、获得多个k值,造成获得的融合特征的鲁棒性差。
发明内容
本发明实施例提供一种基于面部特征与语音特征的情绪识别方法,可以解决现有技术中,使用传统肘部法获得的聚类数量不准确,以及基于不准确的聚类数量获得的融合特征的鲁棒性差的技术问题。
本发明实施例提供一种基于面部特征与语音特征的情绪识别方法,包括:
对采集的包含有面部信号和语音信号的音视频进行分帧,提取每帧的语音特征值向量α和面部特征值向量β;
根据情绪种类N构建K均值聚类数目集合K={2,3,…,ki,…,N},从K均值聚类数目集合K={2,3,…,ki,…,N}中确定最优聚类数目kbest,包括:
对于每个ki值,使用K均值聚类算法把语音特征值和面部特征值聚为ki个簇;
计算每个ki值对应的融合特征轮廓系数:
其中,是ki对应的融合特征轮廓系数;j∈{α∪β}的含义是特征值j所属的簇既含有语音特征值也含有面部特征值,S(j)是单个特征值j的轮廓系数;n{α∪β}的含义是既含有语音特征值α也含有面部特征值β的簇中的特征值总数量;
计算相邻ki对应的融合特征轮廓系数的变化情况将相邻ki融合特征轮廓系数的变化情况/>最小的ki作为最优聚类数目kbest:
其中,分别是第i-1个聚类数目ki-1、第i个聚类数目ki、第i+1聚类数目ki+1对应的融合特征轮廓系数;
将最优聚类数目kbest对应的既含有面部特征值也含有语音特征值的簇作为融合特征;
将融合特征输入到情绪识别模块中,输出情绪识别结果。
进一步的,所述语音特征值的获取,包括:
提取包含有面部信号和语音信号的音视频中的音频;
使用汉明窗口函数对音频进行分帧,对分帧的音频进行移帧后获得每帧音频信号;
获得每帧音频信号的所有梅尔倒谱系数MFCC,去除第一个梅尔倒谱系数MFCC,将剩余的梅尔倒谱系数MFCC作为对应帧的语音特征值。
进一步的,所述获得每帧音频信号的所有梅尔倒谱系数MFCC,包括:
对每帧音频信号应用离散傅立叶变换DFT,将时域信号转换为频域信号;
通过计算离散傅立叶变换DFT结果的幅度平方,获得每帧音频信号的功率谱;
构建梅尔滤波器组,将每帧音频信号的功率谱分别与梅尔滤波器组中每一个梅尔滤波器进行频率相乘累加,获得每个梅尔滤波器的能量值;
取每个梅尔滤波器的能量值的对数,对取对数后的梅尔滤波器组应用离散余弦变换DCT,得到所有梅尔倒谱系数MFCC。
进一步的,所述面部特征值的获取,包括:
获得每帧音频信号的起始时间戳和终止时间戳:
其中,是第i帧音频信号的起始时间戳,R是移帧大小,Fs是音频的采样率;/>是第i帧音频信号的终止时间戳,m表示汉明窗口中的采样点数量;
根据每帧音频信号的起始时间戳和终止时间戳获得与每帧音频信号同步的每帧视频信号,提取每帧视频信号中的所有图像;
使用多任务卷积神经网络检测所有图像中的人脸;
使用Dlib库检测所有图像中的人脸上68个关键点的位置;
基于所有图像中的人脸上68个关键点的位置变化,获得面部特征值:
βi0,…,βij,…,βi67}
其中,
{βi0,…,βij,…,βi67}是与第i帧音频信号同步的第i帧视频信号的所有面部特征值;
βij是所有面部特征值中第j个面部特征值,其根据人脸上第j个关键点在起始时间戳和终止时间戳的位置变化计算所得;
分别是第j个关键点在起始时间戳和终止时间戳的位置。
进一步的,所述多任务卷积神经网络,包括:
候选模块,所述候选模块用于快速生成大量的候选窗;
与所述候选模块输出端连接的精炼模块,所述精炼模块用于对候选窗进行精筛;
与所述精炼模块输出端连接的输出模块,所述输出模块用于输出最终人脸框。
进一步的,所述68个关键点的位置,包括:
下颌线[0,16]、左眼眉毛[17,21]、右眼眉毛[22,26]、鼻梁[27,30]、鼻子[31,35]、左眼[36,41]、右眼[42,47]、上嘴唇外边缘[48,54]、下嘴唇外边缘[55,59]、上嘴唇内边缘[60,64]、下嘴唇内边缘[65,67]。
进一步的,所述使用K均值聚类算法把语音特征值和面部特征值聚为个簇,包括:
S1.确定聚类个数为ki、初始聚类中心为γ={γ1,…,γki};
S2.计算所有归一化后的特征值到ki个初始聚类中心的欧式距离,并将其分到距离最小的初始聚类中心所对应的簇中;
S3.针对每个类别,重新计算它的聚类中心:
其中,是新的聚类中心,/>表示簇γj中特征值的个数,x表示属于该簇的特征值的大小;
S4.重复S2-S3,直到达到所设终止条件后停止循环,将若干个特征值划分为ki簇。
进一步的,所述单个特征值的轮廓系数,包括:
计算单个特征值j到同一簇内的其他特征值的平均距离a(j);
计算单个特征值j到其他簇中的所有特征值的平均距离b(j);
计算单个特征值j的轮廓系数S(j):
进一步的,所述情绪识别模块,是使用训练完的多层感知机MLP来进行情绪识别的模块,所述多层感知机MLP包括:
输入层,用于接收输入的融合特征;
若干个与输入层输出端连接的隐藏层,隐藏层的神经元用于接收上一层的输出,并对上一层的输出进行加权和激活函数处理;
输出层,用于通过softmax函数输出最终的情绪识别结果。
本发明实施例提供一种基于面部特征与语音特征的情绪识别方法,与现有技术相比,其有益效果如下:
本发明在计算轮廓系数时,仅关注既含有面部特征值也含有语音特征值的簇的融合特征轮廓系数变化,专注于融合特征的变化可以提供更有针对性的信息,不会让少量的融合特征变化被其他非融合特征变化掩盖更好的捕捉融合特征变化情况,基于该融合特征轮廓系数获得的聚类数目更准确;并且本发明将融合特征轮廓系数变化更平稳的k作为最优聚类数目kbest,基于最优聚类数目kbest获得的融合特征趋于平稳,该融合特征不会随着k值的变化发生较大的改变,鲁棒性更强,将该融合特征作为情绪识别模型的输入有助于情绪识别模型输出更准确的情绪识别结果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本说明书提供的一种基于面部特征与语音特征的情绪识别方法的流程图;
图2是本说明书提供的获得梅尔倒谱系数MFCC的流程图;
图3是本说明书提供的68个关键点的位置示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
实施例
一种基于面部特征与语音特征的情绪识别方法,具体包括:
步骤1、采集的包含有面部信息和语音信息的音视频
本说明书从以下公开数据集中进行采样,获得包含有面部信息和语音信息的音视频来构建本实施例的数据集:
CREMA-D(Crowdsourced Emotional Multimodal Actors Dataset)是一个多模态数据集,包括了来自不同演员的音频和音视频片段,展示了各种情绪。
SAVEE(Surrey Audio-Visual Expressed Emotion)是一个小型的多模态数据集,包括了来自四位演员的语音和面部表情数据,它涵盖了如愤怒、高兴、悲伤等基本的情感类别。
SEMAINE(Sustained Emotionally colored Machine-human Interaction usingNonverbal Expression)是一个大规模多模态数据库,包含来自各种情感和情绪的音频、音视频和文本数据。
获得包含有面部信息和语音信息的音视频后需要将其输入到情绪识别模型中进行情绪识别。本发明所构建的情绪识别模型包括2个模块:特征提取模块、情绪识别模块;其中特征提取模块用于提取音视频中的面部特征和语音特征,并根据面部特征和语音特征获得融合特征;情绪识别模块用于对输入的融合特征进行识别,输出情绪识别结果。具体包括:
步骤2、特征提取
提取音视频中的面部特征和语音特征,然后将它们融合成一个特征向量,是一种多模态数据处理的方法,常用于人机交互、情感分析等应用领域。通过将多种信息源结合起来,可以更好地捕捉数据的多样性和复杂性,进而提高情绪识别的鲁棒性。
步骤2.1、获得音视频中的每帧音频以及与每帧音频对应的视频
采集的包含有面部信号和语音信号的音视频是将音频和视频信号以一定的时间同步方式呈现的多媒体数据格式。其中音频表示声音信息,其按采样点播放,声音播放设备每次播放一个采样点,声音播放速度由采样率确定,采样率指示每秒播放多少个采样点。视频表示图像信息,其按帧播放,图像显示设备每次显示一帧画面,视频播放速度由帧率确定,帧率指示每秒显示多少帧。
步骤2.1.1、提取音视频中的每帧音频
步骤2.1.1.1、提取音视频中的音频数据
步骤2.1.1.2、音频分帧
音频分帧是将连续的音频信号划分为一系列短时间段的操作。分帧操作使用汉明窗口函数将连续音频信号分割成帧,汉明窗口函数是一个具有固定长度的窗口,它在音频信号上进行滑动,通过与音频信号相乘对音频信号分割,每一帧的长度以采样点数表示,第i帧的音频信号可以表示为s[i,m]:
s[i,m]=s[i*R+m]
其中,
s[i,m]表示第i帧的音频信号,m表示长度为L的汉明窗口中的采样点;
R是帧移大小,移帧是在分帧后,将分割的帧沿时间轴上移动R个采样点,以产生重叠的帧,这种重叠有助于更准确地捕捉音频信号的短期特性。
步骤2.1.1.3、计算时间戳
时间戳用于记录音频帧的时间,时间戳计算的计算公式为:
其中,
是第i帧音频信号的起始时间戳,R是帧移,Fs是音频信号的采样率;
是第i帧音频信号的终止时间戳,m表示汉明窗口中的采样点数量。
步骤2.1.2、提取音视频中的每帧视频
提取音视频中的视频数据,根据步骤2.1.1所获得的第i帧音频信号的起始时间戳和终止时间戳对视频进行分割,获得该时间段 内相应帧的图像作为第i帧的视频数据:
其中,
Pi是第i帧的视频数据;是时间段/>内相应帧的图像数据。
步骤2.2、语音特征提取
语音信号分析可分为时域、频域、倒谱域等方法。语音信号本身是时域信号,因而时域分析是最早使用的应用范围最广的一种方法。但更为有效的分析多是围绕频域进行的,语音信号的频谱具有非常明显的声学特征,利用频域分析获得的语音特征具有实际的物理意义。倒谱域是将对数功率谱进行反傅里叶变换后得到,它可以进一步讲声道特征和激励特征有效地分开,因此可以更好地揭示语音信号的本质特征,由Davies和Mermelstein提出的梅尔倒谱系数MCFF利用了听觉原理和倒谱的解相关特性,从人耳对频率高低的非线性心理感觉角度,反映了语音短时幅度谱的特征。如图2所示,获得梅尔倒谱系数MCFF的具体步骤包括:
对每帧音频信号应用离散傅立叶变换DFT将时域信号转换为频域信号;
通过计算离散傅立叶变换DFT结果的幅度平方获得每帧音频信号的功率谱;
构建梅尔滤波器组,将每帧音频信号的功率谱分别与梅尔滤波器组中每一个梅尔滤波器进行频率相乘累加,获得每个梅尔滤波器的能量值;
取每个梅尔滤波器的能量值的对数,对取对数后的梅尔滤波器组应用离散余弦变换DCT,得到所有梅尔倒谱系数MFCC。
去除第一个梅尔倒谱系数MFCC,将剩余的梅尔倒谱系数MFCC作为对应帧的语音特征值:
αi表示第i帧的语音特征向量,αi1,…,αij,…,αih是其包含的特征值。
步骤2.3、面部特征提取
步骤2.3.1、提取面部图像数据:
是时间段/>内所有图像。
步骤2.3.2、使用多任务卷积神经网络检测图像中的人脸
多任务卷积神经网络(Multi-task convolutional neural network,MTCNN)是中国科学院深圳研究院于2016年提出的用于人脸检测任务的神经网络模型。MTCNN网络结构是一个三级联级网络,总体可分为候选网络(Proposal Network,P-Net)、精炼网络(Refining Network,R-Net)、输出网络(Outputting Network,O-Net)三层网络结构,候选网络用于快速生成大量的候选窗,精炼网络用于对候选窗进行精筛,输出网络用于输出最终人脸框。该模型采用了候选框加分类器的思想,能够同时兼顾速度与精度,实现快速高效的人脸检测。
步骤2.3.3、在检测到的人脸区域内,使用关键点检测算法检测出人脸上的关键点
Dlib是一个开源的C++库,主要用于机器学习和计算机视觉领域。其中,Dlib的68点模型是其人脸识别和人脸关键点检测的核心算法之一,其原理是通过训练一个深度神经网络来预测人脸的68个关键点的位置,68个关键点如下图所示,包括:
下颌线[0,16]、左眼眉毛[17,21]、右眼眉毛[22,26]、鼻梁[27,30]、鼻子[31,35]、左眼[36,41]、右眼[42,47]、上嘴唇外边缘[48,54]、下嘴唇外边缘[55,59]、上嘴唇内边缘[60,64]、下嘴唇内边缘[65,67]。
步骤2.3.4、获得面部特征值
基于所有图像中的人脸上68个关键点的位置变化获得面部特征值:
βi0,…,βij,…,βi67}
其中,
{βi0,…,βij,…,βi67}是与第i帧音频信号同步的第i帧视频信号的所有面部特征值;
βij是所有面部特征值中第j个面部特征值,其根据人脸上第j个关键点在起始时间戳和终止时间戳的位置变化计算所得;
分别是第j个关键点在起始时间戳和终止时间戳的位置。
步骤3、特征融合
语音和面部特征提供了不同的信息来源,语音可以捕捉到语速、音调、音量等与情感有关的声音特征,而面部特征可以捕捉到面部表情、眼神等与情感相关的视觉信号。融合这两种信息源可以提供更丰富和多样化的特征,有助于更准确地识别情感,并且通过多模态融合,可以提高系统的鲁棒性,更好地区分不同的情感状态。
步骤3.1、使用肘部法则确定最优聚类数目kbest
步骤3.1.1、根据情绪种类N构建K均值聚类数目集合K={2,3,…,ki,…,N}
将语音特征值和表情特征值使用K均值聚类时,逐渐增加聚类数目允许聚类系统尝试捕捉和区分尽可能多的情感种类,而无需预先知道情感的确切数量,这有助于实现更全面的情感分类,从而更好地了解可识别的情感种类。
步骤3.1.2、对于每个选定的ki值,使用K均值聚类算法将输入的特征值分为ki个簇,具体包括:
S1.确定聚类个数为ki、初始聚类中心为
S2.计算所有归一化后的特征值到ki个初始聚类中心的欧式距离,并将其分到距离最小的初始聚类中心所对应的簇中;
S3.针对每个类别,重新计算它的聚类中心:
其中,是新的聚类中心,/>表示簇γj中特征值的个数,x表示属于该簇的特征值的大小;
S4.重复S2-S3,直到达到所设终止条件后停止循环,将若干个特征值划分为ki簇。
步骤3.1.3、对于每个使用不同k值的聚类结果,计算其总轮廓系数
轮廓系数用于度量簇内数据点的相似性和簇间数据点的差异性。更高的整体轮廓系数通常表示更好的聚类结果,因为它意味着簇内的数据点更加相似,而不同簇之间的距离更大。对于每个特征值i的轮廓系数S(i)可以按如下方式计算:
计算单个特征值i到同一簇内的其他特征值的平均距离a(i);
计算单个特征值i到其他簇中的所有特征值的平均距离b(i);
计算单个特征值i的轮廓系数S(i):
轮廓系数的取值范围在-1到1之间:
如果S(i)接近1,表示特征值i分配到正确的簇。
如果S(i)接近0,表示特征值i在簇的边界上。
如果S(i)远离0且接近-1,表示特征值i被错误地分配到了其他簇。
传统总轮廓系数是所有数据点的轮廓系数的平均值,但是本发明中仅关注融合特征是否分配正确,因此只考虑既含有语音特征值α也含有面部特征值β的簇的轮廓系数,本发明中计算总轮廓系数的公式为:
其中,
是ki对应的融合特征轮廓系数;
j∈{α∪β}的含义是特征值j所属的簇既含有语音特征值也含有面部特征值;
S(j)是单个特征值j的轮廓系数;
n{α∪β}的含义是既含有语音特征值α也含有面部特征值β的簇中的特征值总数量;
步骤3.1.4、计算相邻ki对应的融合特征轮廓系数的变化情况将相邻ki融合特征轮廓系数的变化情况/>最小的ki作为最优聚类数目kbest:
其中,分别是第i-1个聚类数目ki-1、第i个聚类数目ki、第i+1聚类数目ki+1对应的融合特征轮廓系数;
由步骤3.1.3得到的各个聚类数目{2,3,…,ki,…,N}对应的总轮廓系数范围在轮廓系数的取值范围在-1到1之间,总轮廓系数越接近1、变化越平稳说明分配正确。
步骤3.2、获得融合特征
奖最优聚类数目kbest对应的聚类结果中既含有语音特征值也含有面部特征值作为融合特征。
步骤4、情绪识别
首先,根据步骤2和步骤3获得的融合特征向量、与该特征向量对应的情绪标签构建数据集
然后,构建多层感知机MLP,多层感知机(Multilayer Perceptron,MLP)是一种常用于进行情感分类和其他自然语言处理任务的人工神经网络。它是一种前馈神经网络,具有多个层次的神经元,包括:
输入层,用于接收输入的融合特征。
若干个与输入层输出端连接的隐藏层,隐藏层的神经元用于接收上一层的输出,并对上一层的输出进行加权和激活函数处理。
输出层,用于通过softmax函数输出最终的情绪识别结果。
接着,将构建的数据集输入到多层感知机MLP中进行训练:随机设定初始权重,将数据集中的融合特征输入多层感知机MLP中,输出情绪识别结果,通过交叉熵损失函数计算输出情绪识别结果与对真实情绪标签之间的误差,对误差进行反向传播,迭代更新多层感知机MLP中的权重,迭代次数达到设定次数后,得到多层感知机MLP的最终权重,获得训练完成的多层感知机MLP。
将待识别的融合特征输入到训练完成的多层感知机MLP中,输出情绪识别结果。域的普通技术人员来说,在不脱离本发明构思的前提。
Claims (9)
1.一种基于面部特征与语音特征的情绪识别方法,其特征在于,包括:
对采集的包含有面部信号和语音信号的音视频进行分帧,提取每帧的语音特征值向量α和面部特征值向量β;
根据情绪种类N构建K均值聚类数目集合K={2,3,…,ki,…,N},从K均值聚类数目集合K={2,3,…,ki,…,N}中确定最优聚类数目kbest,包括:
对于每个ki值,使用K均值聚类算法把语音特征值和面部特征值聚为ki个簇;
计算每个ki值对应的融合特征轮廓系数:
其中,是ki对应的融合特征轮廓系数;j∈{α∪β}的含义是特征值j所属的簇既含有语音特征值也含有面部特征值,S(j)是单个特征值;的轮廓系数;n{α∪β}的含义是既含有语音特征值α也含有面部特征值β的簇中的特征值总数量;
计算相邻ki对应的融合特征轮廓系数的变化情况将相邻ki融合特征轮廓系数的变化情况/>最小的ki作为最优聚类数目kbest:
其中,分别是第i-1个聚类数目ki-1、第i个聚类数目ki、第i+1聚类数目ki+1对应的融合特征轮廓系数;
将最优聚类数目kbest对应的既含有面部特征值也含有语音特征值的簇作为融合特征;
将融合特征输入到情绪识别模块中,输出情绪识别结果。
2.根据权利要求1所述的基于面部特征与语音特征的情绪识别方法,其特征在于,所述语音特征值的获取,包括:
提取包含有面部信号和语音信号的音视频中的音频;
使用汉明窗口函数对音频进行分帧,对分帧的音频进行移帧后获得每帧音频信号;
获得每帧音频信号的所有梅尔倒谱系数MFCC,去除第一个梅尔倒谱系数MFCC,将剩余的梅尔倒谱系数MFCC作为对应帧的语音特征值。
3.根据权利要求2所述的基于面部特征与语音特征的情绪识别方法,其特征在于,所述获得每帧音频信号的所有梅尔倒谱系数MFCC,包括:
对每帧音频信号应用离散傅立叶变换DFT,将时域信号转换为频域信号;
通过计算离散傅立叶变换DFT结果的幅度平方,获得每帧音频信号的功率谱;
构建梅尔滤波器组,将每帧音频信号的功率谱分别与梅尔滤波器组中每一个梅尔滤波器进行频率相乘累加,获得每个梅尔滤波器的能量值;
取每个梅尔滤波器的能量值的对数,对取对数后的梅尔滤波器组应用离散余弦变换DCT,得到所有梅尔倒谱系数MFCC。
4.根据权利要求2所述的基于面部特征与语音特征的情绪识别方法,其特征在于,所述面部特征值的获取,包括:
获得每帧音频信号的起始时间戳和终止时间戳:
其中,是第i帧音频信号的起始时间戳,R是移帧大小,Fs是音频的采样率;/>是第i帧音频信号的终止时间戳,m表示汉明窗口中的采样点数量;
根据每帧音频信号的起始时间戳和终止时间戳获得与每帧音频信号同步的每帧视频信号,提取每帧视频信号中的所有图像;
使用多任务卷积神经网络检测所有图像中的人脸;
使用Dlib库检测所有图像中的人脸上68个关键点的位置;
基于所有图像中的人脸上68个关键点的位置变化,获得面部特征值:
{βi0,…,βij,…,βi67}
其中,
{βi0,…,βij,…,βi67}是与第i帧音频信号同步的第i帧视频信号的所有面部特征值;
βij是所有面部特征值中第j个面部特征值,其根据人脸上第j个关键点在起始时间戳和终止时间戳的位置变化计算所得;
分别是第j个关键点在起始时间戳和终止时间戳的位置。
5.根据权利要求4所述的基于面部特征与语音特征的情绪识别方法,其特征在于,所述多任务卷积神经网络,包括:
候选模块,所述候选模块用于快速生成大量的候选窗;
与所述候选模块输出端连接的精炼模块,所述精炼模块用于对候选窗进行精筛;
与所述精炼模块输出端连接的输出模块,所述输出模块用于输出最终人脸框。
6.根据权利要求4所述的基于面部特征与语音特征的情绪识别方法,其特征在于,所述68个关键点的位置,包括:
下颌线[0,16]、左眼眉毛[17,21]、右眼眉毛[22,26]、鼻梁[27,30]、鼻子[31,35]、左眼[36,41]、右眼[42,47]、上嘴唇外边缘[48,54]、下嘴唇外边缘[55,59]、上嘴唇内边缘[60,64]、下嘴唇内边缘[65,67]。
7.根据权利要求1所述的基于面部特征与语音特征的情绪识别方法,其特征在于,所述使用K均值聚类算法把语音特征值和面部特征值聚为个簇,包括:
S1.确定聚类个数为ki、初始聚类中心为
S2.计算所有归一化后的特征值到ki个初始聚类中心的欧式距离,并将其分到距离最小的初始聚类中心所对应的簇中;
S3.针对每个类别,重新计算它的聚类中心:
其中,是新的聚类中心,/>表示簇γj中特征值的个数,x表示属于该簇的特征值的大小;
S4.重复S2-S3,直到达到所设终止条件后停止循环,将若干个特征值划分为ki簇。
8.根据权利要求1所述的基于面部特征与语音特征的情绪识别方法,其特征在于,所述单个特征值的轮廓系数,包括:
计算单个特征值j到同一簇内的其他特征值的平均距离a(j);
计算单个特征值j到其他簇中的所有特征值的平均距离b(j);
计算单个特征值j的轮廓系数S(j):
9.根据权利要求1所述的基于面部特征与语音特征的情绪识别方法,其特征在于,所述情绪识别模块,是使用训练完的多层感知机MLP来进行情绪识别的模块,所述多层感知机MLP包括:
输入层,用于接收输入的融合特征;
若干个与输入层输出端连接的隐藏层,隐藏层的神经元用于接收上一层的输出,并对上一层的输出进行加权和激活函数处理;
输出层,用于通过softmax函数输出最终的情绪识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311391539.XA CN117349792B (zh) | 2023-10-25 | 一种基于面部特征与语音特征的情绪识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311391539.XA CN117349792B (zh) | 2023-10-25 | 一种基于面部特征与语音特征的情绪识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117349792A true CN117349792A (zh) | 2024-01-05 |
CN117349792B CN117349792B (zh) | 2024-06-07 |
Family
ID=
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250855A (zh) * | 2016-08-02 | 2016-12-21 | 南京邮电大学 | 一种基于多核学习的多模态情感识别方法 |
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
CN110827857A (zh) * | 2019-11-28 | 2020-02-21 | 哈尔滨工程大学 | 基于谱特征和elm的语音情感识别方法 |
CN112114309A (zh) * | 2020-08-10 | 2020-12-22 | 西安电子科技大学 | 基于最优轮廓系数自适应k均值聚类的jpda多目标跟踪方法 |
CN113158727A (zh) * | 2020-12-31 | 2021-07-23 | 长春理工大学 | 一种基于视频和语音信息的双模态融合情绪识别方法 |
CN113380271A (zh) * | 2021-08-12 | 2021-09-10 | 明品云(北京)数据科技有限公司 | 情绪识别方法、系统、设备及介质 |
CN115227246A (zh) * | 2022-07-07 | 2022-10-25 | 南京邮电大学 | 面向智能驾驶的驾驶人声音情感识别方法 |
CN115392284A (zh) * | 2022-07-14 | 2022-11-25 | 天津大学 | 一种基于机器学习的场地微振动振源识别方法 |
CN115423013A (zh) * | 2022-08-29 | 2022-12-02 | 国家电网有限公司西北分部 | 电力系统运行方式分类方法、装置、设备及介质 |
CN116226732A (zh) * | 2022-12-29 | 2023-06-06 | 国电南瑞科技股份有限公司 | 一种电动公交车充电负荷曲线分类方法及系统 |
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250855A (zh) * | 2016-08-02 | 2016-12-21 | 南京邮电大学 | 一种基于多核学习的多模态情感识别方法 |
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
CN110827857A (zh) * | 2019-11-28 | 2020-02-21 | 哈尔滨工程大学 | 基于谱特征和elm的语音情感识别方法 |
CN112114309A (zh) * | 2020-08-10 | 2020-12-22 | 西安电子科技大学 | 基于最优轮廓系数自适应k均值聚类的jpda多目标跟踪方法 |
CN113158727A (zh) * | 2020-12-31 | 2021-07-23 | 长春理工大学 | 一种基于视频和语音信息的双模态融合情绪识别方法 |
CN113380271A (zh) * | 2021-08-12 | 2021-09-10 | 明品云(北京)数据科技有限公司 | 情绪识别方法、系统、设备及介质 |
CN115227246A (zh) * | 2022-07-07 | 2022-10-25 | 南京邮电大学 | 面向智能驾驶的驾驶人声音情感识别方法 |
CN115392284A (zh) * | 2022-07-14 | 2022-11-25 | 天津大学 | 一种基于机器学习的场地微振动振源识别方法 |
CN115423013A (zh) * | 2022-08-29 | 2022-12-02 | 国家电网有限公司西北分部 | 电力系统运行方式分类方法、装置、设备及介质 |
CN116226732A (zh) * | 2022-12-29 | 2023-06-06 | 国电南瑞科技股份有限公司 | 一种电动公交车充电负荷曲线分类方法及系统 |
Non-Patent Citations (3)
Title |
---|
WU, JUN, ET AL.: "User value identification based on improved RFM model and k-means++ algorithm for complex data analysis", 《WIRELESS COMMUNICATIONS AND MOBILE COMPUTING 》, 31 December 2021 (2021-12-31), pages 1 - 8 * |
YUAN CHUNHUI , ET AL.: "Research on K-value selection method of K-means clustering algorithm", 《J》, 31 December 2019 (2019-12-31), pages 226 - 235 * |
王兴隆 等: "基于VMD-MD-Clustering方法的航班延误等级分类", 《交通信息与安全》, vol. 40, no. 03, 31 December 2022 (2022-12-31), pages 171 - 178 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112348075B (zh) | 一种基于情景注意力神经网络的多模态情感识别方法 | |
Tzirakis et al. | End-to-end multimodal emotion recognition using deep neural networks | |
CN110852215B (zh) | 一种多模态情感识别方法、系统及存储介质 | |
Chao et al. | Multi task sequence learning for depression scale prediction from video | |
CN111583964B (zh) | 一种基于多模深度特征学习的自然语音情感识别方法 | |
JP4546767B2 (ja) | 感情推定装置及び感情推定プログラム | |
Bailey et al. | Gender bias in depression detection using audio features | |
Jin et al. | Attention-block deep learning based features fusion in wearable social sensor for mental wellbeing evaluations | |
CN110147548A (zh) | 基于双向门控循环单元网络和新型网络初始化的情感识别方法 | |
CN112800998A (zh) | 融合注意力机制和dmcca的多模态情感识别方法及系统 | |
CN114519809A (zh) | 一种基于多尺度语义网络的视听视频解析装置及方法 | |
CN113053410B (zh) | 声音识别方法、装置、计算机设备和存储介质 | |
Mocanu et al. | Multimodal emotion recognition using cross modal audio-video fusion with attention and deep metric learning | |
Huang et al. | Speech emotion recognition using convolutional neural network with audio word-based embedding | |
Li et al. | Improvement on speech depression recognition based on deep networks | |
Hu et al. | Speech Emotion Recognition Model Based on Attention CNN Bi-GRU Fusing Visual Information. | |
CN113891177A (zh) | 一种音视频数据的摘要生成方法、装置、设备和存储介质 | |
Dong et al. | Affect-salient event sequence modelling for continuous speech emotion recognition | |
Mocanu et al. | Speech emotion recognition using GhostVLAD and sentiment metric learning | |
CN117349792B (zh) | 一种基于面部特征与语音特征的情绪识别方法 | |
CN117349792A (zh) | 一种基于面部特征与语音特征的情绪识别方法 | |
Hu et al. | Auditory receptive field net based automatic snore detection for wearable devices | |
CN114492579A (zh) | 情绪识别方法、摄像装置、情绪识别装置及存储装置 | |
MIZRAK et al. | Gender Detection by Acoustic Characteristics of Sound with Machine Learning Algorithms | |
Meghjani et al. | Bimodal information analysis for emotion recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |