CN112489635B - 一种基于增强注意力机制的多模态情感识别方法 - Google Patents
一种基于增强注意力机制的多模态情感识别方法 Download PDFInfo
- Publication number
- CN112489635B CN112489635B CN202011397667.1A CN202011397667A CN112489635B CN 112489635 B CN112489635 B CN 112489635B CN 202011397667 A CN202011397667 A CN 202011397667A CN 112489635 B CN112489635 B CN 112489635B
- Authority
- CN
- China
- Prior art keywords
- text
- matrix
- information
- attention
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 47
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims abstract description 124
- 239000013598 vector Substances 0.000 claims abstract description 64
- 230000003993 interaction Effects 0.000 claims abstract description 20
- 230000008451 emotion Effects 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000003068 static effect Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000011144 upstream manufacturing Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000001965 increasing effect Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Machine Translation (AREA)
Abstract
本发明属于情感计算的技术领域,涉及一种基于增强注意力机制的多模态情感识别方法,通过多头注意力机制得到语音编码矩阵和预训练的BERT模型得到文本编码矩阵;将语音与文本的编码矩阵分别进行点乘,得到语音与文本相互的对齐矩阵,再将此对齐矩阵通过与原有模态编码信息进行校准,得到更多的局部交互信息,最后将各模态的编码信息、语义对齐矩阵、交互信息作为特征进行拼接得到各模态的特征矩阵;使用多头注意力机制对语音特征矩阵、文本特征矩阵进行聚合;经注意力机制将聚合后的特征矩阵转化为向量表示;将语音与文本的向量表示进行拼接,使用全连接网络得到最终的情感分类结果。本发明解决了多模态间交互的问题,提升了多模态情感识别的准确率。
Description
技术领域
本发明属于情感计算的技术领域,特别是涉及一种基于增强注意力机制的多模态情感识别方法。
背景技术
早在1995年,情感计算概念就已经被提出,情感计算旨在赋予机器类人的观察、理解和表达各种情感的能力。近年来,我们虽然在图像处理、语音识别、自然语音理解上取得了极大的进展,但是距离建立一个高度和谐的人机交互环境还有着不可逾越的鸿沟。对人类复杂的情感表达进行建模非常具有挑战性,但这也是人机交互最基本问题亟待解决。
随着社交网络的持续发展,人们表达情感的形式也愈发多元,传统单一的情感识别模型,如仅仅使用语音信号的时域、频域以及相关联特性,已经不足以鉴别复杂的情感信息。而多模态情感识别,如在语音信号中,加入文本信息、面部表情后,可以传达出更加丰富的情感,捕获更多可能蕴含在语音之中的信息。因此,构建一种可融合多种模态信息的情感识别系统对改善和提升信息时代的人机交互环境具有巨大的意义。
在多模态的情感识别上已经有了一定的研究,但是绝大多数的多模态情感识别都遵循统一的框架,他们通过构建不同的子模型来捕获不同模态的数据的情感特性,再通过融合该特性对应到最终的情感类别上去。这样的做法保留了不同模态间的独立性,在实验阶段可以互不影响的对多个模态同步进行研究,但是却忽略了不同模态之间的关联性。比如语音和文本信号,就具有天然的对齐特性。本发明,通过利用局部对齐与全局连接的建模思想来捕获不同模态间的依赖性,融合模态间的互补信息,有效的提升了情感识别的效果,解决了模态间交互的问题。
发明内容
为了解决多模态情感识别中模态间交互的问题,本发明提出了一种基于增强注意力机制的多模态情感识别方法,其具体技术方案如下。
一种基于增强注意力机制的多模态情感识别方法,设有语音编码层、文本编码层、局部对齐层、全局连接层和预测识别层,具体包括如下步骤:
步骤一:在语音编码层,对语音信息提取FBank声学特征,再通过多头注意力机制对其FBank声学特征进行编码,得到语音信号的编码矩阵;在文本编码层,对文本信息通过预训练的BERT模型将文本中的每个字符转化为对应的向量表示,从而得到整个文本信息的编码矩阵;
步骤二:在局部对齐层,将语音与文本的编码矩阵分别进行点乘,得到语音与文本、文本与语音的对齐矩阵,再将此对齐矩阵通过与原有模态编码信息进行校准,得到更多的局部交互信息,最后将各模态的编码信息、语义对齐矩阵、交互信息作为特征进行拼接得到各模态的特征矩阵;
步骤三:在全局连接层,使用多头注意力机制对语音特征矩阵、文本特征矩阵进行聚合;
步骤四:在预测识别层,通过注意力机制将聚合后的特征矩阵转化为向量表示;将语音与文本的向量表示进行拼接,组合成一个融合语音信息与文本信息的特征向量,使用全连接网络得到最终的情感分类结果。
进一步的,所述步骤一对语音信息提取FBank声学特征具体包括:
将语音信号进行通过一个高通滤波器进行预加重处理;
将预加重处理后的信号,进行分帧处理,再将每一帧乘以汉明窗,提升每一帧的起始位置和结束位置的连续性;
使用快速傅立叶变换将时域上的时序信号转化到频域上的能力分布;
频域上的能量分布在每个频带范围都有所不同,通过对频谱信号取模再平方得到语音信号的谱线能量;
将能量谱通过一组Mel刻度的三角形滤波器,以平滑频谱、消除部分谐波并突出共振峰;
对Mel滤波得到的特征矩阵取对数,对纵轴进行放缩,得到更具能量差异性的特征表示。
进一步的,所述语音信号设置固定分帧为100帧,以帧长20ms,帧移10ms为间隔,在Mel滤波上设置为200维度,通过对多余部分截断、不足补零填充,对每个音频信号提取转化为(100,200)的FBank声学特征表示矩阵,具体为:
使用多头注意力机制来对语音信号的序列结构进行建模,其公式表示如下:
其中,Wi q,Wi k,Wi v都是可以训练的参数,i∈[1,...8]表示其所属的注意力头,每个多头注意力的计算都会将线性变换后的矩阵分割为8个相同维度大小的矩阵;
然后,使用缩放点积对每个注意力头进行相似度计算,该计算得到的每个FBank声学特征与其余特征之间的概率分布:
其中,dK表示矩阵Ki的维度,对Qi与Ki的点击,使用Ki维度的根号值进行缩放,将多个注意力头的输出矩阵进行拼接可以得到语音信号的全局特征:
Head=concat(head1,...head8)
最后通过层次标准化的方式,对全局特征进行横行规范,加快收敛的速度,同时一定程度的缓解过拟合。
进一步的,所述步骤一对于文本信息编码的流程具体包括:
将每条文本信息数据的起始位置添加上“CLS”标签、结尾位置加上“SEP”标签,并通过预训练的BERT词汇表将此文本信息转化为数值索引序列;
将数值化的索引序列按最大文本长度为100进行分割,对于不足最大文本长度的文本信息的使用零进行填充,对于超出最大文本长度的文本信息按最大文本长度进行截断,得到固定长度的序列向量;
对100个数值化索引向量进行遮盖处理,并记录非零部分信息;具体的,对每个文本信息的数值化序列以是否为零进行区分,得到遮盖信息,将为数值化为零的序列遮盖住,保留非零的信息;
每条文本信息被转化为了固定长度为100的数值化索引以及遮盖信息,再通过预训练BERT模型的词嵌入矩阵将数值化的索引信息转化为文本表征矩阵;
所述预训练的BERT模型对每个单词的词向量表示维度为768,对于每个文本信息,文本表征矩阵通过预训练BERT的编码单元进行编码得到(100,768)形状大小的文本信息的编码矩阵。
进一步的,所述BERT模型为RoBerta-base,通过将预处理后的文本信息数值化表示序列通过RoBerta的词嵌入矩阵转化为(100,768)大小的词表征矩阵,该矩阵的参数由RoBerta-base预训练任务训练而来,再通过12层的带预训练参数的Transformer encoder组成的网络结构得到对每个文本信息的编码矩阵,预训练的词嵌入矩阵是静态的词向量模型,通过上游带参数的网络动态识别文本信息中的语义、语境,进一步提升对每个字符的表示能力。
进一步的,所述步骤二实现了对语音信号和文本信息的局部语义对齐,具体包括:
将语言信号的FBank声学特征,使用全局连接层映射到与BERT词向量相同维度,即:使用768维度的向量来表示每一个FBank声学特征,其公式如下:
s=Relu(ws+b)
其中,w和b为网络训练的参数,s为语音信号的FBank特征,Relu为线性整流激活函数;
通过全局连接层映射得到声学特征编码矩阵[s1,s2...s100],接着将其与BERT模型得到的文本编码矩阵[t1,t2...t100]进行局部的语义对齐,使用注意力机制来表示每个语音特征与文本单词的关联性,其公式表示如下:
其中,si表示一个声学特征编码向量,tj表示一个文本字符的编码向量,αij表示声学特征si和文本tj之间的相关语义,使用软注意力系数来计算每个声学特征中与之相关的文本单词,并通过注意力系数加权求和,来得到文本编码矩阵对声学特征的语义对齐矩阵,其公式表示如下:
其中,注意力系数由关联性矩阵通过softmax计算得到,s’i是每个文本单词的与注意力系数的加权求和,对于文本单词,也从声学特征矩阵找到与之相关的特征,并通过注意力系数加权求和来进行表示,其公式表示如下:
进一步增加模态间的交互信息,计算s与s’、t与t’的对位元素积和对位差值,并将其与原本模态编码信息、对齐信息进行拼接,得到最终的特征矩阵,其公式表示如下:
进一步的,所述步骤三具体为使用基于多头注意力机制的全局连接层对语音特征矩阵、文本特征矩阵进行聚合,其中,所述的多头注意力机制为:
MultiHead(Q,K,V)=Concat(head1,head2,...headh)·W0
其中,Q,K,V值为语音信号的FBank声学特征表示经过全连接映射到768维度的编码矩阵;
对语音进行特征提取的多头注意力输入矩阵Q,K,V为Aligns,对文本进行特征提取的多头注意力输入矩阵Q,K,V为Alignt,h表示注意力的头数,headi表示Self Attention计算,其公式表示为:
其中,Query,Key,Value是Self Attention的三个输入矩阵,由所述Q、K、V矩阵通过线性变化得来,dk表示矩阵Query的列数;
所述多头注意力最终得到的语音、文本聚合信息,其公式表示为:
Aggs=MultiHead(Aligns,Aligns,Aligns)
Aggt=MultiHead(Alignt,Alignt,Alignt)
则经过局部语义对齐增强后的语音、文本特征矩阵:
Aggres=MultiHeadAttention(Aligns,Aligns,Aligns),i∈[1,...100]
Aggret=MultiHradAttention(Alignt,Alignt,Alignt),i∈[1,...100]。
进一步的,所述步骤四具体包括:
所述的注意力机制为:
其中s表示语音信号,首先通过一个线性层对多头注意力的输出进行变换,然后使用softmax计算出每个语音信号特征的重要性,最后通过对多头注意力的输出按注意力系数进行加权求和得到整个语音信号的向量表示,同理得到文本数据的向量表示vt,将语音信号的向量与文本数据的向量进行拼接,组合成一个融合语音信息与文本信息的特征向量,然后使用全连接网络将其对应到最终的情感类别上来,所述融合语音信息与文本信息的特征向量的表达式为:
v=[vs,vt]
prob=softmax(Wv+b)
本发明,通过利用局部对齐与全局连接的建模思想来捕获不同模态间的依赖性,融合模态间的互补信息,有效的提升了情感识别的效果,解决了模态间交互的问题,具体的具有以下有益效果:
1、本发明是一种多模态的情感识别方法,相较于传统单一模态的情感识别,可以捕获更多模态内隐藏的情感信息和模态间的相互影响,有效的提升的情感识别的准确率。
2、本发明在文本信息编码中使用到预训练语言模型BERT,解决了小样本训练过程中容易过拟合的问题,同时BERT在提供静态词向量的基础上还提供了上游的基于多头注意力机制的网络架构和参数来进行微调,这个过程解决了文本数据中一词多意的问题。
3、本发明不同于传统决策级的融合,使用的是特征级的融合策略,将通对多头注意力编码过的语音信号和BERT编码过后的文本信息局部对齐,捕获到不同模态间交互信息以及不同模态间的相互影响。
附图说明
图1是本发明实施例中所描述的基于增强注意力机制的多模态情感识别方法流程示意图;
图2是本发明实施例中所描述的语音数据FBank特征提取示意图;
图3是本发明实施例中所描述的基于增强注意力机制的多模态情感识别方法框架示意图;
图4是本发明实施例中所描述的多头注意力机制信息的流动方式示意图;
图5是本发明实施例中所描述的模态间对齐部分信息的流动方式示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合实施例和说明书附图,对本发明作进一步详细说明。
如图1所示,本发明的基于增强注意力机制的多模态情感识别方法,包括如下步骤:
步骤一:对语音信息提取FBank声学特征,再通过多头注意力机制对其FBank声学特征进行编码,得到语音信号的编码矩阵;对文本信息通过预训练的BERT模型将文本中的每个字符转化为对应的向量表示,从而得到整个文本信息的编码矩阵;
步骤二:将语音与文本的编码矩阵分别进行点乘,得到语音与文本、文本与语音的对齐矩阵,再将此对齐矩阵通过与原有模态编码信息进行校准,得到更多的局部交互信息,最后将各模态的编码信息、语义对齐矩阵、交互信息作为特征进行拼接得到各模态的特征矩阵;
步骤三:使用多头注意力机制对语音特征矩阵、文本特征矩阵进行聚合;
步骤四:再通过注意力机制将聚合后的特征矩阵转化为向量表示;将语音与文本的向量表示进行拼接,组合成一个融合语音信息与文本信息的特征向量,使用全连接网络得到最终的情感分类结果。
其中,对语音信息提取FBank声学特征,包含对语音使用高通滤波器进行预加重,以帧长20ms,帧移10ms为间隔进行分帧,再使用汉明窗进行加窗处理,即:将每一帧乘以汉明窗,提升每一帧的起始位置和结束位置的连续性;使用快速傅立叶变换将时域上的时序信号转化到频域上的能力分布;频域上的能量分布再每个频带范围都有所不同,通过对频谱信号取模再平方得到语音信号的谱线能量;将能量谱通过一组Mel刻度为200维度的三角形滤波器,以平滑频谱、消除部分谐波并突出共振峰;对Mel滤波得到的特征矩阵取对数,对纵轴进行放缩,得到更具能量差异性的特征表示。本发明对语音信号设置固定分帧为100帧,通过对多余部分截断、不足补零填充,最后每个音频信号都可以提取转化为(100,200)的固定特征表示矩阵。
对于文本信息,预处理的流程包含:将每条文本数据的起始位置添加上“CLS”标签、结尾位置加上“SEP”标签,并通过预训练的BERT词汇表将此文本信息转化为数值索引序列;将数值化的索引序列按最大文本长度进行分割,对于不足最大文本长度的文本信息的使用零进行填充,对于超出最大文本长度的文本信息按最大文本长度进行截断,得到固定长度的序列向量;其中本发明设置的最大文本长度为100,对100个数值化索引向量进行遮盖处理,并记录非零部分信息,具体来说,我们对每个文本信息的数值化序列以是否为零进行区分,以此得到遮盖信息,将为数值化为零的序列遮盖住,保留非零的信息,这样在计算过程中可以避免无关字符对最终情感分类的影响;每条文本信息被转化为了固定长度为100的数值化索引以及遮盖信息,再通过预训练BERT模型的词嵌入矩阵将数值化的索引信息转化为文本表征矩阵,由于预训练的BERT模型对每个单词的词向量表示维度为768,对于每个文本信息,文本表征矩阵通过预训练BERT的编码单元进行编码得到(100,768)形状大小的文本信息的编码矩阵。
如图3所示,本发明的一种基于增强注意力机制的多模态情感识别方法的框架由以下几个部分组成:语音编码层、文本编码层、局部对齐层、全局连接层、预测识别层,下面将对本发明的各个组成部分进行详细的描述:
(1)语音编码层
语音数据通过预处理得到(100,200)的FBank特征矩阵,本发明使用多头注意力机制来对语音信号的序列结构进行建模,其公式表示如下:
其中,Wi q,Wi k,Wi v都是可以训练的参数,i∈[1,...8]表示其所属的注意力头,本发明设置注意力头数为8,即每个多头注意力的计算都会将线性变换后的矩阵分割为8个相同维度大小的矩阵。
然后,使用缩放点积对每个注意力头进行相似度计算,该计算得到的每个FBank声学特征与其余特征之间的概率分布:
其中,dK表示矩阵Ki的维度,对Qi与Ki的点击,使用Ki维度的根号值进行缩放。将多个注意力头的输出矩阵进行拼接可以得到语音信号的全局特征:
Head=concat(head1,...head8)
最后通过层次标准化的方式,对全局特征进行横行规范,加快收敛的速度,同时一定程度的缓解过拟合。
(2)文本编码层
本发明使用预训练的BERT模型对预处理后的文本信息进行编码,具体来说,本发明使用的BERT模型为RoBerta-base。通过将预处理后的文本信息数值化表示序列通过RoBerta的词嵌入矩阵转化为(100,768)大小的词表征矩阵,该矩阵的参数由RoBerta-base预训练任务训练而来。接着,通过12层的带预训练参数的Transformer encoder组成的网络结构得到对每个文本信息的编码矩阵。预训练的词嵌入矩阵是静态的词向量模型,通过上游带参数的网络可以动态识别文本信息中的语义、语境,进一步提升对每个字符的表示能力。
(3)局部对齐层
本发明使用局部对齐网络,来研究不同模态间的相互影响,局部对齐网络的如图5所示。对于多模态的情感识别任务,不同模态间往往具有天然的对齐特性,比如语音和文本信息。
将语言信号的FBank声学特征,使用全局连接层映射到与BERT词向量相同维度,即:使用768维度的向量来表示每一个FBank声学特征,其公式如下:
s=Relu(ws+b)
其中,w和b为网络训练的参数,s为语音信号的FBank特征,Relu为线性整流激活函数;
通过全局连接层映射得到声学特征编码矩阵[s1,s2...s100],接着将其与BERT模型得到的文本编码矩阵[t1,t2...t100]进行局部的语义对齐,使用注意力机制来表示每个语音特征与文本单词的关联性,其公式表示如下:
其中,si表示一个声学特征编码向量,tj表示一个文本字符的编码向量,αij表示声学特征si在文本tj的相关联语义,βji为文本tj在声学特征si中的相关联语义。我们使用软注意力系数来计算每个声学特征中与之相关的文本单词,并通过注意力系数加权求和,来得到文本编码矩阵对声学特征的语义对齐矩阵,其公式表示如下:
其中,注意力系数由关联性矩阵通过softmax计算得到,s′i是每个文本单词的与注意力系数的加权求和。同样对于文本单词我们也从声学特征矩阵找到与之相关的特征,并通过注意力系数加权求和来进行表示。其公式表示如下:
为了进一步增加模态间的交互信息,我们计算了s与s’、t与t’的对位元素积和对位差值,并将其与原本模态编码信息、对齐信息进行拼接,得到最终的特征矩阵,其公式表示如下:
(4)全局连接层
为了得到文本与语音的全局语义对齐关系,本发明使用基于多头注意力机制的全局连接层对局部对齐特性进行聚合。全局连接层的多头注意力计算公式如步骤一中对语音信号进行编码的多头注意力机制一致,所述的多头注意力机制为:
MultiHead(Q,K,V)=Concat(head1,head2,...headh)·W0
其中,步骤一所述多头注意力的输入矩阵Q,K,V值为语音信号的FBank声学特征表示经过全连接映射到768维度的编码矩阵,步骤三对语音进行特征提取的多头注意力输入矩阵Q,K,V为Aligns,同样,步骤三对文本进行特征提取的多头注意力输入矩阵Q,K,V为Alignt,h表示注意力的头数,headi表示Self Attention计算,其公式表示为:
其中,Query,Key,Value是Self Attention的三个输入矩阵,由前面提到的Q、K、V矩阵通过线性变化得来,dk表示矩阵Query的列数。
步骤三所述多头注意力最终得到得到的语音、文本聚合信息,其公式表示为:
Aggs=MultiHead(Aligns,Aligns,Aligns)
Aggt=MultiHead(Alignt,Alignt,Alignt)
与之不同的是,在这里使用多头注意力机制计算的是经过局部语义对齐增强后的语音、文本特征矩阵:
Aggres=MultiHeadAttention(Aligns,Aligns,Aligns),i∈[1,...l00]
Aggret=MultiHeadAttention(Alignt,Alignt,Alignt),i∈[1,...l00]
增强的局部对齐特征Align因为考虑了模态自身、模态语义对齐特征以及元素对位乘法与元素差值等特征,横向增加了4倍的编码矩阵维度,为了控制全局连接层的复杂度,使用一个全连接网络和Relu激活函数将Align对应到模态自身的维度上来-768维度。
(5)预测识别层
对于多头注意力聚合后的特征网络,本发明使用注意力机制得到单个模态的全局表征向量,对于语音信号的注意力计算公式如下:
其中s表示语音信号,首先通过一个线性层对多头注意力的输出进行变换,然后使用softmax计算出每个语音信号特征的重要性,最后通过对多头注意力的输出按注意力系数进行加权求和得到整个语音信号的向量表示;
同理,可以得到文本信息的向量表示vt,将语音信号的向量与文本数据的向量进行拼接,组合成一个融合语音信息与文本信息的特征向量,然后使用全连接网络将其对应到最终的情感类别上来,所述融合语音信息与文本信息的特征向量的表达式为:
v=[vs,vt]
prob=softmax(Wv+b)
本发明在IEMOCAP多模态开源数据集上进行了验证,实现结果如下表所示:
从表中的数据可以看出,本发明提出的多模态情感识别相较于单模态的情感识别模型在加权准确率和非加权准确率上都有了很大程度的提升。另外,在对比传统决策级融合的多模态情感识别模型,本发明提出的基于局部特征对齐与全局连接的增强注意力网络得到的指标皆优于对比模型。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于增强注意力机制的多模态情感识别方法,设有语音编码层、文本编码层、局部对齐层、全局连接层和预测识别层,其特征在于,具体包括如下步骤:
步骤一:在语音编码层,对语音信息提取FBank声学特征,再通过多头注意力机制对其FBank声学特征进行编码,得到语音信号的编码矩阵;在文本编码层,对文本信息通过预训练的BERT模型将文本中的每个字符转化为对应的向量表示,从而得到整个文本信息的编码矩阵;
步骤二:在局部对齐层,将语音与文本的编码矩阵分别进行点乘,得到语音与文本、文本与语音的对齐矩阵,再将此对齐矩阵通过与原有模态编码信息进行校准,得到更多的局部交互信息,最后将各模态的编码信息、语义对齐矩阵、交互信息作为特征进行拼接得到各模态的特征矩阵;
步骤三:在全局连接层,使用多头注意力机制对语音特征矩阵、文本特征矩阵进行聚合;
步骤四:在预测识别层,通过注意力机制将聚合后的特征矩阵转化为向量表示;将语音与文本的向量表示进行拼接,组合成一个融合语音信息与文本信息的特征向量,使用全连接网络得到最终的情感分类结果。
2.如权利要求1所述的一种基于增强注意力机制的多模态情感识别方法,其特征在于,所述步骤一对语音信息提取FBank声学特征具体包括:
将语音信号进行通过一个高通滤波器进行预加重处理;
将预加重处理后的信号,进行分帧处理,再将每一帧乘以汉明窗,提升每一帧的起始位置和结束位置的连续性;
使用快速傅立叶变换将时域上的时序信号转化到频域上的能量分布;
频域上的能量分布在每个频带范围都有所不同,通过对频谱信号取模再平方得到语音信号的谱线能量;
将能量谱通过一组Mel刻度的三角形滤波器,以平滑频谱、消除部分谐波并突出共振峰;
对Mel滤波得到的特征矩阵取对数,对纵轴进行放缩,得到更具能量差异性的特征表示。
3.如权利要求2所述的一种基于增强注意力机制的多模态情感识别方法,其特征在于,所述语音信号设置固定分帧为100帧,以帧长20ms,帧移10ms为间隔,在Mel滤波上设置为200维度,通过对多余部分截断、不足补零填充,对每个音频信号提取转化为(100,200)的FBank声学特征表示矩阵,具体为:
使用多头注意力机制来对语音信号的序列结构进行建模,其公式表示如下:
然后,使用缩放点积对每个注意力头进行相似度计算,该计算得到的每个FBank声学特征与其余特征之间的概率分布:
最后通过层次标准化的方式,对全局特征进行横行规范,加快收敛的速度,同时一定程度的缓解过拟合。
4.如权利要求1所述的一种基于增强注意力机制的多模态情感识别方法,其特征在于,所述步骤一对于文本信息编码的流程具体包括:
将每条文本信息数据的起始位置添加上“CLS”标签、结尾位置加上“SEP”标签,并通过预训练的BERT词汇表将此文本信息转化为数值索引序列;
将数值化的索引序列按最大文本长度为100进行分割,对于不足最大文本长度的文本信息的使用零进行填充,对于超出最大文本长度的文本信息按最大文本长度进行截断,得到固定长度的序列向量;
对100个数值化索引向量进行遮盖处理,并记录非零部分信息;具体的,对每个文本信息的数值化序列以是否为零进行区分,得到遮盖信息,将为数值化为零的序列遮盖住,保留非零的信息;
每条文本信息被转化为了固定长度为100的数值化索引以及遮盖信息,再通过预训练BERT模型的词嵌入矩阵将数值化的索引信息转化为文本表征矩阵;
所述预训练的BERT模型对每个单词的词向量表示维度为768,对于每个文本信息,文本表征矩阵通过预训练BERT的编码单元进行编码得到(100,768)形状大小的文本信息的编码矩阵。
5. 如权利要求4所述的一种基于增强注意力机制的多模态情感识别方法,其特征在于,所述BERT模型为RoBerta-base,通过将预处理后的文本信息数值化表示序列通过RoBerta的词嵌入矩阵转化为(100,768)大小的词表征矩阵,该矩阵的参数由RoBerta-base预训练任务训练而来,再通过12层的带预训练参数的Transformer encoder组成的网络结构得到对每个文本信息的编码矩阵,预训练的词嵌入矩阵是静态的词向量模型,通过上游带参数的网络动态识别文本信息中的语义、语境,进一步提升对每个字符的表示能力。
6.如权利要求4所述的一种基于增强注意力机制的多模态情感识别方法,其特征在于,所述步骤二实现了对语音信号和文本信息的局部语义对齐,具体包括:
将语言信号的FBank声学特征,使用全局连接层映射到与BERT词向量相同维度,即:使用768维度的向量来表示每一个FBank声学特征,其公式如下:
其中,w和b为网络训练的参数,s为语音信号的FBank特征,Relu为线性整流激活函数;
其中,表示一个声学特征编码向量,表示一个文本字符的编码向量,表示声学特征和文本之间的相关语义,使用软注意力系数来计算每个声学特征中与之相关的文本单词,并通过注意力系数加权求和,来得到文本编码矩阵对声学特征的语义对齐矩阵,其公式表示如下:
7.如权利要求6所述的一种基于增强注意力机制的多模态情感识别方法,其特征在于,所述步骤三具体为使用基于多头注意力机制的全局连接层对语音特征矩阵、文本特征矩阵进行聚合,其中,所述多头注意力机制为:
其中, Q,K,V值为语音信号的FBank声学特征表示经过全连接映射到768维度的编码矩阵;
所述多头注意力最终得到的语音、文本聚合信息,其公式表示为:
则经过局部语义对齐增强后的语音、文本特征矩阵:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011397667.1A CN112489635B (zh) | 2020-12-03 | 2020-12-03 | 一种基于增强注意力机制的多模态情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011397667.1A CN112489635B (zh) | 2020-12-03 | 2020-12-03 | 一种基于增强注意力机制的多模态情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112489635A CN112489635A (zh) | 2021-03-12 |
CN112489635B true CN112489635B (zh) | 2022-11-11 |
Family
ID=74939142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011397667.1A Active CN112489635B (zh) | 2020-12-03 | 2020-12-03 | 一种基于增强注意力机制的多模态情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112489635B (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113112987B (zh) * | 2021-04-14 | 2024-05-03 | 北京地平线信息技术有限公司 | 语音合成方法、语音合成模型的训练方法及装置 |
CN113139468B (zh) * | 2021-04-24 | 2023-04-11 | 西安交通大学 | 融合局部目标特征与全局特征的视频摘要生成方法 |
CN113724732B (zh) * | 2021-04-28 | 2023-12-01 | 河南工业大学 | 一种基于多头注意力机制融合的卷积递归神经网络模型 |
CN113157910B (zh) * | 2021-04-28 | 2024-05-10 | 北京小米移动软件有限公司 | 商品描述文本生成方法、装置及存储介质 |
CN113255755B (zh) * | 2021-05-18 | 2022-08-23 | 北京理工大学 | 一种基于异质融合网络的多模态情感分类方法 |
CN113393832B (zh) * | 2021-06-03 | 2023-10-10 | 清华大学深圳国际研究生院 | 一种基于全局情感编码的虚拟人动画合成方法及系统 |
CN113312530B (zh) * | 2021-06-09 | 2022-02-15 | 哈尔滨工业大学 | 一种以文本为核心的多模态情感分类方法 |
CN113327595B (zh) * | 2021-06-16 | 2022-08-02 | 北京语言大学 | 发音偏误检测方法、装置及存储介质 |
CN113626597B (zh) * | 2021-07-22 | 2022-04-01 | 杭州电子科技大学 | 一种基于门控三塔的智能制造装备故障预测方法 |
CN113763939B (zh) * | 2021-09-07 | 2024-04-16 | 普强时代(珠海横琴)信息技术有限公司 | 基于端到端模型的混合语音识别系统及方法 |
CN114005468B (zh) * | 2021-09-07 | 2023-04-07 | 华院计算技术(上海)股份有限公司 | 一种基于全局工作空间的可解释情绪识别方法和系统 |
CN113806609B (zh) * | 2021-09-26 | 2022-07-12 | 郑州轻工业大学 | 一种基于mit和fsm的多模态情感分析方法 |
CN113571097B (zh) * | 2021-09-28 | 2022-01-18 | 之江实验室 | 一种说话人自适应的多视角对话情感识别方法及系统 |
CN113984078B (zh) * | 2021-10-26 | 2024-03-08 | 上海瑾盛通信科技有限公司 | 到站提醒方法、装置、终端及存储介质 |
CN113990353B (zh) * | 2021-10-27 | 2024-05-07 | 北京百度网讯科技有限公司 | 识别情绪的方法、训练情绪识别模型的方法、装置及设备 |
CN114155835B (zh) * | 2021-12-06 | 2022-07-08 | 哈尔滨工程大学 | 一种融合全局场景与局部事件信息的音频语意概述方法 |
CN114153973A (zh) * | 2021-12-07 | 2022-03-08 | 内蒙古工业大学 | 基于t-m bert预训练模型的蒙古语多模态情感分析方法 |
CN114373455A (zh) * | 2021-12-08 | 2022-04-19 | 北京声智科技有限公司 | 情感识别方法、装置、电子设备及存储介质 |
CN114241191A (zh) * | 2021-12-19 | 2022-03-25 | 西北工业大学 | 一种基于跨模态自注意力的无候选框指代表达理解方法 |
CN114386515B (zh) * | 2022-01-13 | 2024-02-20 | 合肥工业大学 | 基于Transformer算法的单模态标签生成和多模态情感判别方法 |
CN114417097B (zh) * | 2022-01-25 | 2024-08-09 | 齐鲁工业大学 | 一种基于时间卷积与自注意力的情感预测方法及系统 |
CN114462406B (zh) * | 2022-03-01 | 2022-08-23 | 中国航空综合技术研究所 | 基于多头自注意力模型获取首次出现的航空关键词方法 |
CN114926716B (zh) * | 2022-04-08 | 2024-07-19 | 山东师范大学 | 一种学习参与度识别方法、装置、设备及可读存储介质 |
CN115376309B (zh) * | 2022-06-29 | 2024-04-26 | 华南理工大学 | 一种基于多视角时间矩阵分解的缺失交通数据修复方法 |
CN115223585A (zh) * | 2022-07-04 | 2022-10-21 | 上海交通大学 | 基于Wav2vec2.0和BERT的多级融合多模态情感识别的方法及系统 |
CN115203380B (zh) * | 2022-09-19 | 2022-12-20 | 山东鼹鼠人才知果数据科技有限公司 | 基于多模态数据融合的文本处理系统及其方法 |
CN117116264B (zh) * | 2023-02-20 | 2024-07-23 | 荣耀终端有限公司 | 一种语音识别方法、电子设备以及介质 |
CN116702787A (zh) * | 2023-08-07 | 2023-09-05 | 四川隧唐科技股份有限公司 | 一种长文本实体识别方法、装置、计算机设备及介质 |
CN117409780B (zh) * | 2023-12-14 | 2024-02-27 | 浙江宇宙奇点科技有限公司 | 一种应用于ai数字人语音交互方法及系统 |
CN117933269B (zh) * | 2024-03-22 | 2024-06-18 | 合肥工业大学 | 一种基于情感分布的多模态深度模型构建方法及系统 |
CN117951304B (zh) * | 2024-03-27 | 2024-08-23 | 江西财经大学 | 一种基于句法依存关系和注意力机制的文本情感分类方法 |
CN118571208B (zh) * | 2024-07-31 | 2024-10-18 | 世优(北京)科技股份有限公司 | 语音合成方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180109227A (ko) * | 2017-03-27 | 2018-10-08 | (주)아크릴 | 감정 인식 방법 및 프로그램과, 감정 인식기 생성 방법 및 프로그램 |
CN110287389A (zh) * | 2019-05-31 | 2019-09-27 | 南京理工大学 | 基于文本、语音和视频融合的多模态情感分类方法 |
CN111164601A (zh) * | 2019-12-30 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN111524535A (zh) * | 2020-04-30 | 2020-08-11 | 杭州电子科技大学 | 基于注意力机制的特征融合用于语音情感识别的方法 |
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
CN111898670A (zh) * | 2020-07-24 | 2020-11-06 | 深圳市声希科技有限公司 | 多模态情感识别方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10628741B2 (en) * | 2010-06-07 | 2020-04-21 | Affectiva, Inc. | Multimodal machine learning for emotion metrics |
-
2020
- 2020-12-03 CN CN202011397667.1A patent/CN112489635B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180109227A (ko) * | 2017-03-27 | 2018-10-08 | (주)아크릴 | 감정 인식 방법 및 프로그램과, 감정 인식기 생성 방법 및 프로그램 |
CN110287389A (zh) * | 2019-05-31 | 2019-09-27 | 南京理工大学 | 基于文本、语音和视频融合的多模态情感分类方法 |
CN111164601A (zh) * | 2019-12-30 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
CN111524535A (zh) * | 2020-04-30 | 2020-08-11 | 杭州电子科技大学 | 基于注意力机制的特征融合用于语音情感识别的方法 |
CN111898670A (zh) * | 2020-07-24 | 2020-11-06 | 深圳市声希科技有限公司 | 多模态情感识别方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Multimodal Approach of Speech Emotion Recognition Using Multi-Level Multi-Head Fusion Attention-Based Recurrent Neural Network;Ngoc-Huynh Ho等;《IEEE Access》;20200330;全文 * |
多头注意力记忆网络的对象级情感分类;张新生等;《模式识别与人工智能》;20191130;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112489635A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112489635B (zh) | 一种基于增强注意力机制的多模态情感识别方法 | |
CN112151030B (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN113408385B (zh) | 一种音视频多模态情感分类方法及系统 | |
JP6906067B2 (ja) | 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体 | |
US10854193B2 (en) | Methods, devices and computer-readable storage media for real-time speech recognition | |
CN113420807A (zh) | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 | |
Zhang et al. | Multi-head attention fusion networks for multi-modal speech emotion recognition | |
CN103996155A (zh) | 智能交互及心理慰藉机器人服务系统 | |
CN105139864A (zh) | 语音识别方法和装置 | |
CN113436612B (zh) | 基于语音数据的意图识别方法、装置、设备及存储介质 | |
CN116304973A (zh) | 一种基于多模态融合的课堂教学情感识别方法和系统 | |
Wu et al. | Speech emotion recognition using sequential capsule networks | |
CN117672268A (zh) | 基于相对熵对齐融合的多模态语音情感识别方法 | |
Lei et al. | BAT: Block and token self-attention for speech emotion recognition | |
CN117765981A (zh) | 一种基于语音文本跨模态融合的情感识别方法及系统 | |
CN116701996A (zh) | 基于多元损失函数的多模态情感分析方法、系统、设备及介质 | |
CN114566189A (zh) | 基于三维深度特征融合的语音情感识别方法及系统 | |
CN114373443A (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
CN114360491A (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
Zhao et al. | Tdfnet: Transformer-based deep-scale fusion network for multimodal emotion recognition | |
Hu et al. | Speech emotion recognition based on attention mcnn combined with gender information | |
CN113571095A (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
Hong et al. | When hearing the voice, who will come to your mind | |
CN117150320A (zh) | 对话数字人情感风格相似度评价方法及系统 | |
CN116860943A (zh) | 对话风格感知与主题引导的多轮对话方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |