CN114446324A - 一种基于声学和文本特征的多模态情感识别方法 - Google Patents
一种基于声学和文本特征的多模态情感识别方法 Download PDFInfo
- Publication number
- CN114446324A CN114446324A CN202210108118.0A CN202210108118A CN114446324A CN 114446324 A CN114446324 A CN 114446324A CN 202210108118 A CN202210108118 A CN 202210108118A CN 114446324 A CN114446324 A CN 114446324A
- Authority
- CN
- China
- Prior art keywords
- text
- features
- emotion
- layer
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000007246 mechanism Effects 0.000 claims abstract description 55
- 230000008451 emotion Effects 0.000 claims abstract description 53
- 238000011176 pooling Methods 0.000 claims abstract description 5
- 239000010410 layer Substances 0.000 claims description 62
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000013518 transcription Methods 0.000 claims description 10
- 230000035897 transcription Effects 0.000 claims description 10
- 230000002996 emotional effect Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 239000011295 pitch Substances 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于声学和文本特征的多模态情感识别方法适用于语音和文本情感特征的提取。利用OpenSMILE提取输入语音的情感浅层特征,并与Transformer网络学习浅层特征后得到的深层特征进行融合生成多层次的声学特征;再将语音与转录文本进行强制对齐获取停顿信息,然后将语音中的说话停顿信息编码后添加至转录文本,送入分层密集连接DC‑BERT模型中获取文本特征,再与声学特征融合;通过BiLSTM网络利用先验知识,获取有效的上下文信息,并通过注意力机制抽取特征中突显情感信息的部分以避免信息冗余,在注意力机制后面添加全局平均池化层代替传统使用的全连接层,最后送入softmax层中进行情感分类。其步骤简单,识别精准,具有广泛的实用价值。
Description
技术领域
本发明涉及一种基于声学和文本特征的多模态情感识别方法,适用于语音和文本情感特征的提取,属于尤人工智能和语音情感识别技术领域。
背景技术
随着技术的发展,语音情感识别和自然语言处理已经取得了很大的进展,但人类仍然无法与机器进行自然地交流。因此,建立一套能够在人机交互中检测情感的系统是至关重要的。但由于人类情感的多变性和复杂性,这仍然是一项具有挑战性的任务。
传统的情感识别主要针对于单个模态,如:文本、语音、图像等,在识别性能上存在一定的局限性。如在早期的语音情感识别任务中,研究人员主要利用的是语音中的声学特征和一些相关的韵律学特征,往往忽视了语音中所包含的具体语义信息(文本信息)。但在日常会话和社交媒体中,声音往往是对一段文本内容的复述、二者密切相关。考虑到语音和文本模态之间的同一性、互补性和强相关联性,不少研究人员从单模态转向了多模态的情感识别研究。其中,融合语音和文本这两种不同模态信息来进行情感识别也成为了一项热点研究方向。与单个模态相比,同时考虑多种模态信息可以更加准确地捕捉情感。
许多研究机构也在不断探索新的语言模型。2019谷歌研究所首次提出一种新型语言表征模型BERT,该模型可以生成深层次的语言双向表征,对自然语言处理各项任务的结果都有很大的提升。虽然利用BERT可以获得上下文词嵌入来表征转录文本中所包含的信息,但没有考虑到因BERT复杂网络结构与情感语料库数据量不足而不匹配的问题。BERT虽然可以用来生成文本信息的表征,但无法弥补转录文本自身忽视一些潜在情感信息的不足。
在转录文本时并不会体现出说话过程中的停顿信息。在调研说话停顿信息与情感之间的联系后,发现与快乐、积极相比,在悲伤、害怕的情感状态下,沉默停顿的平均时长占整段语音的比例增加了,且注意到处于不同情感状态时,说话停顿的频率、持续时间以及停顿发生的位置也会有所区别。
另一方面,基于注意力机制的深度网络在解码阶段显示了优越的性能,在自然语言处理和语音识别领域中得到了广泛的应用。而在语音情感识别中,由于情感特征在语句中分布并不均匀,因此不少研究人员在情感识别任务中增加了注意力机制,使得网络对包含情感信息较多的部分具有指导性机制,重点突出局部最具情感的信息。为此本发明提出了一种有效提取语音和文本情感特征,同时能添加停顿信息的多模态情感识别方法,设计一种带注意力机制的BiLSTM网络模型对情感进行分类。
发明内容
针对现有技术的不足之处,提供一种结合语音和文本两种模态数据,即能获得转录文本中丰富的语义信息,又能通过语音音频感知任务说话的波动,从而进一步获得准确的情感,纠正单纯通过文本识别情感的歧义的基于声学和文本特征的多模态识别方法。
为实现上述技术目的,本发明的一种基于声学和文本特征的多模态情感识别方法,其特征在于:利用OpenSMILE提取输入语音的情感浅层特征,并与Transformer网络学习浅层特征后得到的深层特征进行融合生成多层次的声学特征;利用内容形同的语音与转录文本进行强制对齐获取停顿信息,然后将语音中的说话停顿信息编码后添加至转录文本,送入分层密集连接DC-BERT模型中获取本文特征,再与声学特征融合;利用基于注意力机制的双向长短时记忆神经网络BiLSTM-ATT作为分类器,通过BiLSTM网络利用先验知识,获取有效的上下文信息,并通过注意力机制抽取特征中突显情感信息的部分以避免信息冗余,在注意力机制后面添加全局平均池化层代替传统使用的全连接层,可以有效的防止过拟合问题,最后送入softmax层中进行情感分类;
具体步骤如下:
S1:将待判断的原始语音音频输入OpenSMILE中,使用OpenSMILE工具箱中的emobase特征集提取原始语音数据中的浅层声学特征;
S2:将提取出来的浅层声学特征输入Transformer网络,利用Transformer网络的编码器结构有效的学习输入的浅层声学特征之间的关系,从而输出一个情感相关的特征序列,即具有全局信息的深层特征;
S3:将浅层声学特征的序列与深层特征的序列进行拼接融合获得深浅融合特征序列,浅层特征序列内容在前,深层特征在后进行拼接;
S4:对原始语音转录的文本进行预处理:删除文本中的标点符号,并将转录形成的字词格式统一书写形式;
S5:通过宾夕法尼亚大学语音标签强制对齐工具(Penn Phonetics Lab ForcedAligner,P2FA)对步骤S4预处理后的转录文本和原始语音进行强制对齐,从而确定停顿的位置和持续时间;
S6:将语音音频中不同的停顿时长分为六个区间:0.05-0.1s,0.1-0.3s,0.3-0.6s,0.6-1.0s,1.0-2.0s和大于2.0s,将六个区间的停顿时长分别使用:“..”,“...”,“....”,“.....”,“......”,“.......”在转录文本中进行标注,在转录文本中标注的位置匹配语音音频的停顿时长,并在文本中每个说话人的句尾添加标注“.”作为结束的标志;
S7:将标注好停顿编码的转录文本输入训练好的改进DC-BERT中,改进DC-BERT根据转录文本中的停顿编码标注输出话语级文本的情感特征;
S8:将语音音频对应的深浅融合特征序列与话语级文本的情感特征再进行拼接融合,获得该段音频中每一句话的声学文本融合特征;
S9:最后将声学文本融合特征送入带有注意力机制的BiLSTM网络中进行情感分类,输出对应的情感分类,实现情感的识别。
进一步,利用内置文件对送入OpenSMILE中的原始的语音信号进行浅层声学特征提取,包括强度、响度、梅尔频率倒谱系数、音调以及它们在话语级上每个短帧的统计值,如最大值、最小值、平均值和标准偏差;
浅层声学特征由低级描述符组成的序列;仅选取情感数据集中表示愤怒,快乐,中立,悲伤的音频和转录文本进行识别,快乐由高兴和兴奋情感合并而成。
进一步,将宾夕法尼亚大学语音标签强制对齐工具强制对齐并编码后的转录文本送入改进DC-BERT中,选择DC-BERT倒数第二层的768维输出序列作为话语级文本特征;
所述改进DC-BERT模型保留了传统BERT模型中Transformer的每个多头自注意层内部的残差连接,在层与层之间新增了密集连接,即每一个多头自注意力层的输入额外增加了前两层的特征信息,用以加快模型的收敛速度,使网络的损失函数更加平滑,而每一层提取的特征也可以在不同的注意层之间被重复使用,提高了特征的利用率;
改进DC-BERT的内部形式是:假设给定一个输入特征序列X,那么xi=H(xi-1)+αxi-1+βxi-2,其中xi为输入特征序列X的第i个元素,H为非线性函数,α和β为保留前两层信息的权重系数,使得每一层都能得到前两层处理的结果,却又不占主导地位;改进DC-BERT模型由12层Transformer组成,每一层的输出理论上都可以作为话语级的文本特征。
进一步,将声学特征和文本特征融合后送入带注意力机制的BiLSTM网络中,进行情感分类,BiLSTM网络的注意力机制有三种,即局部注意力机制,自注意力机制,多头注意力机制;
局部注意力机制:该机制只关注一部分编码隐藏层,局部注意力首先在时间t上,为当前节点生成一个对齐位置pt,然后选择性地设置一个固定大小为2D+1的上下文窗口,公式如下:
其中D是根据经验选择;pt为窗口中心,由当前隐藏状态的ht决定,是一个实数;对齐权重alignment weights的计算过程和传统attention相似:
自注意力机制利用了输入特征序列元素之间的加权相关性,即输入序列的每个元素都能够通过一个线性函数投影成三种不同的表示形式:查询query、键key、值value,其计算公式如下:
最终注意矩阵如公式所示:
其中Q为查询矩阵,K为键矩阵,V为句子的值矩阵,dk是比例因子;
在自注意力机制的基础上,对比了多头自注意力机制对语音情感识别任务的影响,多头是指输入特征序列的每个变量:查询query、键key、值value的投影数不止一组,即在参数不共享的前提下,将Q、K、V通过参数矩阵映射后,做单层的自注意力,然后将自注意力层层叠加,多头自注意力计算公式为:
headi=attention(QWi Q,KWi K,VWi V)
Multihead(Q,K,V)=Concat(head1,...,headn)。
有益效果:
针对浅层特征只包含全局信息,表达情感不充分的问题,通过将Transformer网络二次学习得到的深层特征,将两者融合获得深浅特征,深浅特征融合后具有多层次的声学特征;同时考虑语音中停顿信息与情感之间的关联,利用音频与转录文本的对齐获取停顿信息,并将不同的停顿信息编码后添加至转录文本,新增了语义与停顿信息的联结,使得转录文本信息更加多元化,可以有效地提高情感识别的准确性;
为了弥补BERT复杂网络结构与情感数据量少的不匹配,使用DC-BERT模型提取话语级文本特征,加快了模型的收敛速度,提高了特征的利用率;对比三种注意力机制在情感识别任务中的影响后选取最好的那一个。
本方法通过语音和文本两种模态数据,在情感识别过程中,即能获得转录文本中丰富的语义信息,又能通过语音音频感知任务说话的波动,从而进一步获得准确的情感,纠正单纯通过文本识别情感的歧义。
本申请的技术优点:
本方法在语音模态方面,利用Transformer Encoder对低级描述符特征二次学习,挖掘其中更加深层的情感信息,并与低级描述符特征进行融合,形成多层次,多方位的声学特征,在文本模态方面,本发明在转录文本中加入了停顿信息,补充了文本模态除语义信息外的其他从属信息,使得文本信息更加的多元化。而声学和文本特征融合在互补了相互缺失信息的同时,可以多方位的挖掘隐藏在特征中的情感信息。一句话的情感往往会体现在句中的某一段或某个词上面,因此使用带有注意力机制的BiLSTM网络作为分类器,可以使得网络更加关注情感浓烈的部分,忽略一些无关紧要的信息,使得分类效果更好。
1)利用OpenSMILE工具箱提取常用的情感识别特征集,这里使用的是emobase特征集,提取了988维浅层声学特征,OpenSMILE提取特征速度快,效果好;
2)Transformer由于多头自注意机制,使其具有全局语音情感分析能力的方法;
3)Transformer计算速度克服了RNN训练慢的特点,可以并行计算;
4)DC-BERT保留了Transformer中每个多头自注意层内部的残差连接,在层与层之间新增了密集连接,即每一个多头自注意力层的输入额外增加了前两层的特征信息,目的是加快模型的收敛速度,使网络的损失函数更加平滑,而每一层提取的特征也可以在不同的注意层之间被重复使用,提高了特征的利用率;
5)采用带有注意力机制的BiLSTM模型具有很好的特征学习能力,同时模型具有较好的泛化能力。
附图说明
图1是本发明基于多模态情感识别方法的系统框架图;
图2是本发明使用的DC-BERT模型的内部结构图;
图3是本发明对转录文本进行停顿编码的流程图。
具体实施方式
为了更充分的解释本发明,下面结合附图和具体实施方式对本发明进行详细说明。
如图1所示,本发明的基于声学和文本特征的多模态情感识别方法,利用OpenSMILE提取输入语音的情感浅层特征,并与Transformer网络学习浅层特征后得到的深层特征进行融合生成多层次的声学特征;利用内容形同的语音与转录文本进行强制对齐获取停顿信息,然后将语音中的说话停顿信息编码后添加至转录文本,送入分层密集连接DC-BERT模型中获取本文特征,再与声学特征融合;利用基于注意力机制的双向长短时记忆神经网络BiLSTM-ATT作为分类器,通过BiLSTM网络利用先验知识,获取有效的上下文信息,并通过注意力机制抽取特征中突显情感信息的部分以避免信息冗余,在注意力机制后面添加全局平均池化层代替传统使用的全连接层,可以有效的防止过拟合问题,最后送入softmax层中进行情感分类;采用Transformer和BiLSTM联合训练的方式,并且通过人为观察发现网络迭代10次的效果最优,因此选取10次迭代后的模型作为本发明的最终分类器模型。
具体步骤为:
第一步:将原始的语音信号送入OpenSMILE中去,利用它内部的配置文件实现对语音的特征提取,其中包括强度、响度、梅尔频率倒谱系数、音调以及它们在话语级上每个短帧的统计值,如最大值、最小值、平均值和标准偏差等;
第二步:将第一步提取的浅层声学特征送入Transformer网络中获得具有全局信息的深层特征;
第三步:将第一步和第二步获得的特征进行融合获得深浅层特征;
第四步:利用宾夕法尼亚大学语音标签强制对齐工具(Penn Phonetics LabForced Aligner,P2FA)对预处理后的转录文本和音频进行强制对齐,对齐后会生成每个单词的时间戳,根据单词与单词之间的间隔长度,利用“.”来对停顿进行编码;
第五步:将第四步获得停顿编码文本送入DC-BERT中,本发明选择DC-BERT倒数第二层的768维输出序列作为话语级文本特征;具体如图3所示,
第六步:将声学特征和文本特征融合后送入带注意力机制的BiLSTM网络中,进行情感分类;
具体第五步中DC-BERT的内部形式是:假设给定一个输入特征序列X,那么xi=H(xi-1)+αxi-1+βxi-2,其中xi为输入特征序列X的第i个元素,H为非线性函数,α和β为保留前两层信息的权重系数,使得每一层都能得到前两层处理的结果,却又不占主导地位。DC-BERT模型由12层Transformer组成,每一层的输出理论上都可以作为话语级的文本特征,如图2所示。
具体第六步中使用到的注意力机制有三种,即局部注意力机制,自注意力机制,多头注意力机制。
局部注意力机制,该机制只关注一部分编码隐藏层。局部注意力首先在时间t上,为当前节点生成一个对齐位置pt,然后选择性地设置一个固定大小为2D+1的上下文窗口。公式如下:
其中D是根据经验选择;pt为窗口中心,由当前隐藏状态的ht决定,是一个实数;对齐权重(alignment weights)的计算过程和传统attention相似:
其中标准偏差σ根据经验设定。
自注意力机制利用了输入特征序列元素之间的加权相关性。具体来说,输入序列的每个元素都可以通过一个线性函数投影成三种不同的表示形式:查询(query)、键(key)、值(value),其计算公式如下:
最终注意矩阵如公式所示:
其中Q为查询矩阵,K为键矩阵,V为句子的值矩阵,dk是比例因子。
本发明在自注意力机制的基础上,对比了多头自注意力机制对语音情感识别任务的影响。多头是指输入特征序列的每个变量(query、key和value)的投影数不止一组。也就是说,在参数不共享的前提下,将Q、K、V通过参数矩阵映射后,做单层的自注意力,然后将自注意力层层叠加。多头自注意力计算公式为:
headi=attention(QWi Q,KWi K,VWi V)
Multihead(Q,K,V)=Concat(head1,...,headn)
经过实验发现基于局部注意力机制的BiLSTM网络要比基于自注意力机制或多头自注意力机制的BiLSTM网络表现更好。经分析,在网络结构上,局部注意力机制要比另外两种注意力机制的模型参数小一些,而对于小数据量的情感识别任务,较为庞大的网络结构未必能取得预期效果。因此优选采用基于局部注意力机制的BiLSTM网络作为分类器。
Claims (5)
1.一种基于声学和文本特征的多模态情感识别方法,其特征在于:利用OpenSMILE提取输入语音的情感浅层特征,并与Transformer网络学习浅层特征后得到的深层特征进行融合生成多层次的声学特征;利用内容相同的语音与转录文本进行强制对齐获取停顿信息,然后将语音中的说话停顿信息编码后添加至转录文本,送入分层密集连接DC-BERT模型中获取文本特征,再与声学特征融合;利用基于注意力机制的双向长短时记忆神经网络BiLSTM-ATT作为分类器,通过BiLSTM网络利用先验知识,获取有效的上下文信息,并通过注意力机制抽取特征中突显情感信息的部分以避免信息冗余,在注意力机制后面添加全局平均池化层代替传统使用的全连接层,可以有效的防止过拟合问题,最后送入softmax层中进行情感分类。
2.根据权利要求1所述基于声学和文本特征的多模态情感识别方法,其特征在于具体步骤如下:
S1:将待判断的原始语音音频输入OpenSMILE中,使用OpenSMILE工具箱中的emobase特征集提取原始语音数据中的浅层声学特征;
S2:将提取出来的浅层声学特征输入Transformer网络,利用Transformer网络的编码器结构有效的学习输入的浅层声学特征之间的关系,从而输出一个情感相关的特征序列,即具有全局信息的深层特征;
S3:将浅层声学特征的序列与深层特征的序列进行拼接融合获得深浅融合特征序列,浅层特征序列内容在前,深层特征在后进行拼接;
S4:对原始语音转录的文本进行预处理:删除文本中的标点符号,并将转录形成的字词格式统一书写形式;
S5:通过宾夕法尼亚大学语音标签强制对齐工具P2FA对步骤S4预处理后的转录文本和原始语音进行强制对齐,从而确定停顿的位置和持续时间;
S6:将语音音频中不同的停顿时长分为六个区间:0.05-0.1s,0.1-0.3s,0.3-0.6s,0.6-1.0s,1.0-2.0s和大于2.0s,将六个区间的停顿时长分别使用:“..”,“...”,“....”,“.....”,“......”,“.......”在转录文本中进行标注,在转录文本中标注的位置匹配语音音频的停顿时长,并在文本中每个说话人的句尾添加标注“.”作为结束的标志;
S7:将标注好停顿编码的转录文本输入训练好的改进DC-BERT中,改进DC-BERT根据转录文本中的停顿编码标注输出话语级文本的情感特征;
S8:将语音音频对应的深浅融合特征序列与话语级文本的情感特征再进行拼接融合,获得该段音频中每一句话的声学文本融合特征;
S9:最后将声学文本融合特征送入带有注意力机制的BiLSTM网络中进行情感分类,输出对应的情感分类,实现情感的识别。
3.根据权利要求1所述的基于声学和文本特征的多模态情感识别方法,其特征在于:利用内置文件对送入OpenSMILE中的原始的语音信号进行浅层声学特征提取,包括强度、响度、梅尔频率倒谱系数、音调以及它们在话语级上每个短帧的统计值,如最大值、最小值、平均值和标准偏差;
浅层声学特征由低级描述符组成的序列;仅选取情感数据集中表示愤怒,快乐,中立,悲伤的音频和转录文本进行识别,快乐由高兴和兴奋情感合并而成。
4.根据权利要求1所述的基于声学和文本特征的多模态情感识别方法,其特征在于:将宾夕法尼亚大学语音标签强制对齐工具强制对齐并编码后的转录文本送入改进DC-BERT中,选择DC-BERT倒数第二层的768维输出序列作为话语级文本特征;
所述改进DC-BERT模型保留了传统BERT模型中Transformer的每个多头自注意层内部的残差连接,在层与层之间新增了密集连接,即每一个多头自注意力层的输入额外增加了前两层的特征信息,用以加快模型的收敛速度,使网络的损失函数更加平滑,而每一层提取的特征也可以在不同的注意层之间被重复使用,提高了特征的利用率;
改进DC-BERT的内部形式是:假设给定一个输入特征序列X,那么xi=H(xi-1)+αxi-1+βxi-2,其中xi为输入特征序列X的第i个元素,H为非线性函数,α和β为保留前两层信息的权重系数,使得每一层都能得到前两层处理的结果,却又不占主导地位;改进DC-BERT模型由12层Transformer组成,每一层的输出理论上都可以作为话语级的文本特征。
5.根据权利要求1所述的基于声学和文本特征的多模态情感识别方法,其特征在于:将声学特征和文本特征融合后送入带注意力机制的BiLSTM网络中,进行情感分类,BiLSTM网络的注意力机制有三种,即局部注意力机制,自注意力机制,多头注意力机制;
局部注意力机制:该机制只关注一部分编码隐藏层,局部注意力首先在时间t上,为当前节点生成一个对齐位置pt,然后选择性地设置一个固定大小为2D+1的上下文窗口,公式如下:
其中D是根据经验选择;pt为窗口中心,由当前隐藏状态的ht决定,是一个实数;对齐权重alignment weights的计算过程和传统attention相似:
自注意力机制利用了输入特征序列元素之间的加权相关性,即输入序列的每个元素都能够通过一个线性函数投影成三种不同的表示形式:查询query、键key、值value,其计算公式如下:
最终注意矩阵如公式所示:
其中Q为查询矩阵,K为键矩阵,V为句子的值矩阵,dk是比例因子;
在自注意力机制的基础上,对比了多头自注意力机制对语音情感识别任务的影响,多头是指输入特征序列的每个变量:查询query、键key、值value的投影数不止一组,即在参数不共享的前提下,将Q、K、V通过参数矩阵映射后,做单层的自注意力,然后将自注意力层层叠加,多头自注意力计算公式为:
headi=attention(QWi Q,KWi K,VWi V)
Multihead(Q,K,V)=Concat(head1,…,headn)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210108118.0A CN114446324A (zh) | 2022-01-28 | 2022-01-28 | 一种基于声学和文本特征的多模态情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210108118.0A CN114446324A (zh) | 2022-01-28 | 2022-01-28 | 一种基于声学和文本特征的多模态情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114446324A true CN114446324A (zh) | 2022-05-06 |
Family
ID=81372148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210108118.0A Pending CN114446324A (zh) | 2022-01-28 | 2022-01-28 | 一种基于声学和文本特征的多模态情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114446324A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115414042A (zh) * | 2022-09-08 | 2022-12-02 | 北京邮电大学 | 基于情感信息辅助的多模态焦虑检测方法及装置 |
-
2022
- 2022-01-28 CN CN202210108118.0A patent/CN114446324A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115414042A (zh) * | 2022-09-08 | 2022-12-02 | 北京邮电大学 | 基于情感信息辅助的多模态焦虑检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
CN112184858B (zh) | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN113420807A (zh) | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 | |
CN112633364B (zh) | 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法 | |
CN112037773B (zh) | 一种n最优口语语义识别方法、装置及电子设备 | |
CN111583964A (zh) | 一种基于多模深度特征学习的自然语音情感识别方法 | |
Zhang et al. | Multi-head attention fusion networks for multi-modal speech emotion recognition | |
Zhang et al. | Text-conditioned transformer for automatic pronunciation error detection | |
CN111009235A (zh) | 一种基于cldnn+ctc声学模型的语音识别方法 | |
CN113344036A (zh) | 一种基于动态词嵌入的多模态Transformer的图像描述方法 | |
CN109933773A (zh) | 一种多重语义语句解析系统及方法 | |
CN114973044A (zh) | 一种基于双模态信息增强多头注意力的视频情感分析方法 | |
CN113539268A (zh) | 一种端到端语音转文本罕见词优化方法 | |
CN116010874A (zh) | 基于深度学习多模态深尺度情感特征融合的情感识别方法 | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
CN114463688A (zh) | 一种跨模态上下文编码的对话情感识别方法及系统 | |
Wu et al. | Speech synthesis with face embeddings | |
CN114446324A (zh) | 一种基于声学和文本特征的多模态情感识别方法 | |
Wu et al. | Exemplar-based emotive speech synthesis | |
CN114973045A (zh) | 一种基于多任务学习的层次多模态情感分析方法 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN115240713B (zh) | 基于多模态特征和对比学习的语音情感识别方法及装置 | |
CN112766101B (zh) | 一种中文唇语识别建模单元集的构建方法 | |
Thangthai | Computer lipreading via hybrid deep neural network hidden Markov models | |
CN114863912A (zh) | 一种基于表面肌电信号的无声语音解码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |