CN112700796A - 一种基于交互式注意力模型的语音情感识别方法 - Google Patents
一种基于交互式注意力模型的语音情感识别方法 Download PDFInfo
- Publication number
- CN112700796A CN112700796A CN202011521398.5A CN202011521398A CN112700796A CN 112700796 A CN112700796 A CN 112700796A CN 202011521398 A CN202011521398 A CN 202011521398A CN 112700796 A CN112700796 A CN 112700796A
- Authority
- CN
- China
- Prior art keywords
- voice
- word
- nodes
- output
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 44
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 22
- 230000006870 function Effects 0.000 claims abstract description 70
- 230000008451 emotion Effects 0.000 claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 48
- 230000014509 gene expression Effects 0.000 claims abstract description 27
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000013528 artificial neural network Methods 0.000 claims description 53
- 230000004913 activation Effects 0.000 claims description 30
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 210000005036 nerve Anatomy 0.000 claims 1
- 230000000295 complement effect Effects 0.000 abstract description 7
- 238000000605 extraction Methods 0.000 abstract description 7
- 230000002996 emotional effect Effects 0.000 abstract description 5
- 238000010801 machine learning Methods 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 17
- 230000003993 interaction Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种基于交互式注意力模型的语音情感识别方法,属于语音信号处理、情感识别与机器学习领域。文本信息和声学信息是语音包含的两种重要信息,这两种信息对情感识别有重要作用。与现有语音情感识别技术相比,本发明同时利用文本和声学两个模态进行情感识别,包括语音预处理、语音识别、词向量提取、强制对齐、词级别声学特征提取、表示学习、模态融合、情感分类几个步骤。表示学习阶段提出交互式注意力模型,在词层面用一个模态的信息来帮助学习另一个模态的情感表示。模态融合阶段,在语句层面学习文本和模态的互补信息。本发明充分利用两个模态不同层次的互补信息进行情感识别,有效地提高语音情感识别的准确率。
Description
技术领域
本发明属于语音信号处理、情感识别与机器学习领域,特别地涉及一种基于交互式注意力模型的语音情感识别方法。
背景技术
语音情感识别,即从说话人的语音信号中识别出说话人即时的情绪状态,比如高兴、悲伤、生气、吃惊、厌恶与恐惧。
近年来,语音情感识别在教育、安全、语音交互、心理指导等领域发挥着越来越重要的作用。在教育领域,语音情感识别能够捕捉学生学习过程中的情绪变化,进而推断其学习效率与积极性,辅助教师进行指导;在安全领域,例如在审讯情境中,语音情感识别能够从被审讯人的语音中窥见其情绪及内心的真实想法,从而辅助审讯官做出更合理的决策;在人机交互领域,语音情感识别能够为交互增加更多人情味,提高用户体验;在心理指导领域,语音情感识别也能够为心理健康诊断提供辅助性的建议,减少医护人员的负担。虽然语音情感识别应用广泛,但是语音情感识别的性能还有待提高。
较早的语音情感识别方法一般根据声学信息提取手工特征,然后使用经典的分类器(例如支持向量机、梯度提升决策树、极限学习机等)输出某个情感标签。近年来,神经网络在语音识别、计算机视觉等领域得到广泛应用,并表现出强大的特征提取能力。因此,一些语音情感识别方法将手工特征或者原始声学特征送入这些神经网络获得合适的表示,再使用后端分类器进行判决。由于这些方法只用到语音的声学信息,但是语音中的文本信息也从不同角度透露出情感状态,因此一些语音情感识别方法将语音中的声学和文本两个模态进行融合。
传统情感识别采用的模态融合策略主要分为特征拼接和表示融合。特征拼接首先提取各个模态各自的原始特征,将这些特征进行拼接后输入到统一的模型进行识别,得到结果。该方法可以学到两个模态之间的相互作用,但是不同模态不能使用各自最适合的模型。表示融合用各个模态各自的最适合的模型来提取该模态的语句层面的表示,然后再将两个模态的语句层面的表示输入到一个统一的模型进行识别。该方法既考虑了模态间的相互作用,又可以对不同模态用不同的模型进行处理。但是表示融合仍然存在一些问题:1.默认不同模态之间的相互作用只存在于语句层面。2.模态融合在语句层进行,其粒度比较大,不能学习到模态间比较细腻的相互作用信息。因此,表示融合没有充分学习两个模态的互补信息来进行情感识别。
针对传统语音情感识别方法存在的问题,本项目提出基于交互式注意力模型的语音情感识别方法。一方面,本发明采用声学和文本两个模态进行语音情感识别,充分利用语音中同时存在的对情感识别起到互补作用的声学和文本信息。另一方面,本发明提出交互式注意力模型并应用于语音情感识别,在表示学习阶段,在词层面利用一个模态的信息来帮助学习另一个模态的情感表示,使每个词对应的来自文本和声学的情感表示更准确;接着在语句层对学习到的两个模态的情感表示进行模态融合。本发明不仅可以在词层面和语句层面学到两个模态不同层次的相互作用,还可以让每个模态由各自最适合的模型进行处理。因此,本发明能有效提高语音情感识别的准确率。
发明内容
本发明的目的是为克服传统语音情感识别技术只考虑声学模态;或考虑了声学和文本模态,但是只在语句层面对两个模态进行融合,不能充分学习两个模态不同层次的互补信息进行情感识别的问题,提出一种基于交互式注意力模型的语音情感识别方法。该方法将语音帧和文本在词层面进行对齐,提取每个词对应的文本特征和声学特征。在表示学习阶段,交互式注意力模型利用一个模态的信息来帮助学习另一个模态的情感表示,学习模态间比较细腻的相互作用信息,使每个词对应的来自文本和声学的情感表示更准确,在词层面发挥两个模态的相互作用。再将两个模态的情感表示在语句层面进行融合,最后进行情感分类。本发明通过多层次的模态相互作用,有效地提高语音情感识别的准确率。
本发明提出一种基于交互式注意力模型的语音情感识别方法,其特征在于,如附图1所示,包括语音预处理、语音识别、词向量提取、强制对齐,词级别声学特征提取、表示学习、模态融合、情感分类步骤。具体包括以下步骤:
1)语音预处理:对输入语音进行分帧加窗、活动语音检测(通过计算每帧语音的能量,判断该帧语音是否为静音,若为静音则去除该帧)处理;提取每帧语音的梅尔倒谱特征和对数梅尔谱特征。
2)语音识别:将整条语音的梅尔倒谱特征输入到语音识别器中,识别出该条语音对应的文本。
4)强制对齐:根据步骤2)得到的语音对应的文本和语音的梅尔倒谱特征,得到每个词对应的语音范围,也就是每个词对应的语音起始帧和结束帧。
5)词级别声学特征提取:将步骤4)得到的每个词对应的语音范围内的对数梅尔谱特征输入到时延神经网络并做池化。时延神经网络的层数可以设置为2层到4层,每一层的节点数可以设置为64个到1024个,激活函数为ReLU函数。池化层对时延神经网络输出的每个词对应的语音的所有帧的结果求平均,得到每个词对应的声学特征。第n个词对应的声学特征记为将整条语音词级别的声学特征为
6)表示学习:学习文本信息对应的情感表示Rt和声学信息对应的情感表示Ra。具体包括以下几个步骤:
6.1)将步骤3)和步骤5)得到的语音的词向量Ft和词级别声学特征Fa输入到交互式注意力模型中,得到文本对应的注意力输出At和声学对应的注意力输出Aa。交互式注意力模型有图2或图3所示的两种实现方法。
如图2所示的实现方法具体包括以下步骤:
6.1.1)将词向量Ft输入到多层全连接神经网络h1,h2和h3中,得到输出h1(Ft),h2(Ft)和h3(Ft)。h1,h2和h3的层数为3层,输入节点数为词向量的维度,输出节点数为200,中间层节点数为512,激活函数为ReLU函数。将词级别声学特征Fa输入到神经网络h4,h5和h6中,得到输出h4(Fa),h5(Fa)和h6(Fa)。h4,h5和h6的层数为3层,输入节点数为词级别声学特征的维度,输出节点数为168,中间层节点数为512,激活函数为ReLU函数。
6.1.2)权重计算:根据文本模态计算得到的权重Wt为
其中softmax表示softmax函数,dt表示h3(Ft)的特征维度,T表示转置。在根据声学模态计算得到的权重Wa为
其中da表示h4(Fa)的特征维度。
6.1.3)权重共享:根据文本模态对应的权重Wt和声学模态对应的权重Wa,计算两个模态共享的权重W为
6.1.4)相乘:得到文本对应的注意力输出为At=h1(Ft)W,声学对应的注意力输出为Aa=h6(Fa)W。
如图3所示的实现方法具体包括以下步骤:
6.1.2)将词向量Ft输入到多层全连接神经网络h1和h2中,得到输出h1(Ft)和h2(Ft)。h1和h2的层数为3层,输入节点数为词向量的维度,输出节点数设置为200,中间层节点数为512,激活函数为ReLU函数。将词级别声学特征Fa输入到多层全连接神经网络h5和h6中,得到输出h5(Fa)和h6(Fa)。h5和h6的层数为3层,输入节点个数为词级别声学特征的维度,输出节点数设置为168,中间层节点数为512,激活函数为ReLU函数。将拼接特征F输入到多层全连接神经网络h3和h4中,得到输出h3(F)和h4(F)。h3和h4的层数为3层,输入节点个数为词向量的维度加上词级别声学特征的维度,中间层节点数为512,激活函数为ReLU函数。h3的输出节点数设置为200,h4的输出节点数设置为168。
6.1.3)权重计算:根据文本模态计算得到的权重Wt为
其中softmax表示softmax函数,dt表示h3(Ft)的特征维度,T表示转置。根据声学模态计算得到的权重Wa为
其中da表示h5(Fa)的特征维度。
6.1.4)相乘:得到文本对应的注意力输出为At=h1(Ft)Wt,声学对应的注意力输出为Aa=h6(Fa)Wa。
6.2)将步骤6.1)得到的At输入到神经网络ht中,得到文本对应的情感表示Rt=ht(At)。同理将步骤6.1)得到的Aa输入到神经网络ha中,得到声学对应的情感表示Ra=ha(Aa)。Rt的第n列表示第n个词对应的来自文本的情感表示,Ra的第n列表示第n个词对应的来自声学的情感表示。神经网络ht可以设置为文本模态最适合的网络模型,比如循环神经网络。循环神经网络共1层,输入节点数为At的维度,输出节点数为180,激活函数为ReLU函数。神经网络ha可以设置为声学模态最适合的网络模型,比如时延神经网络。时延神经网络共1层,输入为Aa,输出节点数为150,激活函数为ReLU函数。
7)模态融合:如图4所示,将文本信息对应的情感表示Rt和声学信息对应的情感表示Ra进行拼接,输入到卷积神经网络中,再进行矩阵到向量的转换,得到融合后的情感表示r。卷积神经网络的层数为1层,对应的核函数的接收域为6*3,通道个数为5,激活函数为ReLU函数。
8)情感分类:将融合后的情感表示r输入到一个全连接神经网络中,网络的层数为2层到4层,前几层每层节点数为256个到6000个,激活函数为ReLU函数,最后一层为softmax层,输出节点对应不同的情感状态,网络输出为该条语音对应每种情感状态的概率。最终识别结果即为概率最大的情感。
完成语音的情感识别。
本发明的特点及有益效果在于:
与现有语音情感识别技术相比,本发明同时利用文本和声学两个模态进行情感识别。首先将语音帧和文本在词层面进行对齐,提取每个词对应的文本特征和声学特征,利用提出的交互式注意力模型,在表示学习阶段,在词层面用一个模态的信息来帮助另一个模态的情感表示的学习,提高文本和声学的情感表示的准确率。其次在模态融合阶段,在语句层面学习文本和模态的互补信息。本发明充分利用两个模态不同层次的互补信息进行情感识别,有效地提高语音情感识别的准确率。
附图说明
图1是本发明方法的总体流程图。
图2是本发明方法提出的交互式注意力模型第一种实现方法示意图。
图3是本发明方法提出的交互式注意力模型第二种实现方法示意图。
图4是本发明方法中的模态融合示意图。
具体实施方式
本发明提出一种基于交互式注意力模型的语音情感识别方法,其特征在于,如附图1所示,包括语音预处理、语音识别、词向量提取、强制对齐,词级别声学特征提取、表示学习、模态融合、情感分类步骤。下面结合附图对具体实施例进一步详细说明如下:
1)语音预处理:对输入语音进行分帧加窗、活动语音检测(通过计算每帧语音的能量,判断该帧语音是否为静音,若为静音则去除该帧)处理;提取每帧语音的梅尔倒谱特征和对数梅尔谱特征。在本实施例中,去除静音帧后语音总帧数为255帧,每帧语音的梅尔倒谱特征为23维,对数梅尔谱特征为64维。
2)语音识别:将整条语音的梅尔倒谱特征输入到语音识别器中,识别出该条语音对应的文本。在本实施例中,该条语音对应的文本为:What the hell is this.
3)词向量提取:根据步骤2)得到的语音对应的文本,提取文本中每个词的词向量。将第n个词对应的词向量记为整条语音的词向量为N为该条语音中词的个数。在本实施例中,每个词对应的词向量为300维的GloVe向量,也就是的维度为300,词的个数N=5,为300*5的矩阵。
4)强制对齐:根据步骤2)得到的语音对应的文本和语音的梅尔倒谱特征,得到每个词对应的语音范围,也就是每个词对应的语音起始帧和结束帧。在本实施例中,得到What对应语音的第0帧到第67帧,the对应语音的第68帧到第103帧,hell对应语音的第104帧到第180帧,is对应语音的第181帧到第211帧,this对应语音的第212帧到第255帧。
5)词级别声学特征提取:将步骤4)得到的每个词对应的语音范围内的对数梅尔谱特征输入到时延神经网络并做池化。时延神经网络的层数可以设置为2层到4层,每一层的节点数可以设置为64个到1024个,激活函数为ReLU函数。池化层对时延神经网络输出的每个词对应的语音的所有帧的结果求平均,得到每个词对应的声学特征。第n个词对应的声学特征记为将整条语音词级别的声学特征为在本实施例中,时延神经网络为2层,第一层的节点数为512,第二层的节点数(输出节点数)为256。例如对于第3个词hell,将步骤4)hell对应的第104帧到第180帧共180-104+1=77帧语音对应的64维对数梅尔谱特征,输入到时延神经网络中,得到256*77的输出,再将这77帧求平均,也就是池化,得到hell对应的词级别声学特征为256维的向量。为256*5的矩阵。
6)表示学习:学习文本信息对应的情感表示Rt和声学信息对应的情感表示Ra。具体包括以下几个步骤:
6.1)将步骤3)和步骤5)得到的语音的词向量Ft和词级别声学特征Fa输入到交互式注意力模型中,得到文本对应的注意力输出At和声学对应的注意力输出Aa。交互式注意力模型有图2或图3所示的两种实现方法。
如图2所示的实现方法具体包括以下步骤:
6.1.1)将词向量Ft输入到神经网络h1,h2和h3中,得到输出h1(Ft),h2(Ft)和h3(Ft)。h1,h2和h3的层数为3层,输入节点数为词向量的维度,输出节点数为200,中间层节点数为512,激活函数为ReLU函数。将词级别声学特征Fa输入到神经网络h4,h5和h6中,得到输出h4(Fa),h5(Fa)和h6(Fa)。h4,h5和h6的层数为3层,输入节点数为词级别声学特征的维度,输出节点数为168,中间层节点数为512,激活函数为ReLU函数。在本实施例中,h1,h2和h3的输入节点数为词向量的维度300,输出节点数为200,输出h1(Ft),h2(Ft)和h3(Ft)为200*5的矩阵。h4,h5和h6的输入节点数为词级别声学特征的维度256,输出节点数为168,输出h4(Fa),h5(Fa)和h6(Fa)为168*5的矩阵。
6.1.2)权重计算:根据文本模态计算得到的权重Wt为
其中softmax表示softmax函数,dt表示h3(Ft)的特征维度,T表示转置。在本实施例中dt=200。在根据声学模态计算得到的权重Wa为
其中da表示h4(Fa)的特征维度,在本实施例中da=168。
6.1.3)权重共享:根据文本模态对应的权重Wt和声学模态对应的权重Wa,计算两个模态共享的权重W为
6.1.4)相乘:得到文本对应的注意力输出为At=h1(Ft)W,声学对应的注意力输出为Aa=h6(Fa)W。在本实施例中,得到At为200*5的矩阵,得到Aa为168*5的矩阵。
如图3所示的实现方法具体包括以下步骤:
6.1.1)拼接:将词向量Ft和词级别声学特征Fa进行拼接得到F。也就是将第n个词对应的词向量和第n个词对应的声学特征拼接为一个特征fn,整条语音对应的拼接特征为F=[f1,…,fn,…,fN]。在本实施例中,词向量的维度为300,和词级别声学特征的维度为256,两者拼接得到维度为556的fn,F是556*5的矩阵。
6.1.2)将词向量Ft输入到多层全连接神经网络h1和h2中,得到输出h1(Ft)和h2(Ft)。h1和h2的层数为3层,输入节点个数为词向量的维度,输出节点数设置为200,中间层节点数为512,激活函数为ReLU函数。将词级别声学特征Fa输入到多层全连接神经网络h5和h6中,得到输出h5(Fa)和h6(Fa)。h5和h6的层数为3层,输入节点个数为词级别声学特征的维度,输出节点数设置为168,中间层节点数为512,激活函数为ReLU函数。将拼接特征F输入到多层全连接神经网络h3和h4中,得到输出h3(F)和h4(F)。h3和h4的层数为3层,输入节点个数为词向量的维度加上词级别声学特征的维度,中间层节点数为512,激活函数为ReLU函数。h3的输出节点数设置为200,h4的输出节点数设置为168。在本实施例中,h1和h2的输入节点数为词向量的维度300,输出节点数为200,输出h1(Ft)和h2(Ft)为200*5的矩阵。h5和h6的输入节点个数为词级别声学特征的维度256,输出节点数为168,输出h5(Fa)和h6(Fa)为168*5的矩阵。h3的输入节点个数为拼接特征的维度556,输出节点数为200,输出h3(F)为168*5的矩阵。h4的输入节点个数为拼接特征的维度556,输出节点数为168,输出h4(F)都为168*5的矩阵。
6.1.3)权重计算:根据文本模态计算得到的权重Wt为
其中softmax表示softmax函数,dt表示h3(Ft)的特征维度,T表示转置。在本实施例中dt=200。根据声学模态计算得到的权重Wa为
其中da表示h5(Fa)的特征维度。在本实施例中da=168。
6.1.4)相乘:得到文本对应的注意力输出为At=h1(Ft)Wt,声学对应的注意力输出为Aa=h6(Fa)Wa。在本实施例中,得到At为200*5的矩阵,得到Aa为168*5的矩阵。
6.2)将步骤6.1)得到的At输入到神经网络ht中,得到文本对应的情感表示Rt=ht(At)。同理将步骤6.1)得到的Aa输入到神经网络ha中,得到声学对应的情感表示Ra=ha(Aa)。在本实施例中,神经网络ht采用1层的循环神经网络,输入节点为At的维度200,输出节点设置为180,激活函数为ReLU函数,输出Rt=ht(At)为180*5的矩阵,Rt的第n列表示第n个词对应的来自文本的情感表示。神经网络ha采用1层的时延神经网络,输入为Aa,输出节点设置为150,激活函数为ReLU函数,输出Ra=ha(Aa)为150*5的矩阵,Ra的第n列表示第n个词对应的来自声学的情感表示。
7)模态融合:如图4所示,将文本信息对应的情感表示Rt和声学信息对应的情感表示Ra进行拼接,输入到卷积神经网络中,再进行矩阵到向量的转换,得到融合后的情感表示r。卷积神经网络的层数为1层,对应的核函数的接收域为6*3,通道个数为5,激活函数为ReLU函数。在本实施例中,由步骤6.2)得到的Rt的维度为180*5,Ra的维度为150*5,两者拼接成维度为330*5的表示。将该表示输入到核函数为6*3,通道数为5的1层的卷积神经网络中,得到330*5*5的输出。再进行矩阵到向量的转换,得到融合后的维度为8250的情感表示r。
8)情感分类:将融合后的情感表示r输入到一个全连接神经网络中,网络的层数为2层到4层,前几层每层节点个数为256个到6000个,激活函数为ReLU函数,最后一层为softmax层,输出节点对应不同的情感状态,网络输出为该条语音对应每种情感状态的概率。最终识别结果即为概率最大的情感。在本实施例中,维度为8250的情感表示r输入到3层的全连接网络中,其中网络第一层节点数为5000;网络第二层节点数为3000;网络最后一层为softmax层,节点对应不同的情感状态,本实施例识别6种情感(高兴、悲伤、生气、吃惊、厌恶与恐惧),因此输出节点数为6。第1到6个节点分别对应高兴、悲伤、生气、吃惊、厌恶和恐惧。通过该全连接神经网络最终识别出该条语音对应这6种情感的概率为[0.02,0.08,0.12,0.54,0.09,0.15],概率最大的为0.54,对应吃惊,即该条语音的情感识别结果为吃惊。
完成语音的情感识别。
本发明所述方法,本领域普通技术人员可以理解为,上述语音情感识别的方法可以通过程序来完成的,所述的程序可以存储于一种计算机可读存储介质中。
以上所述的仅为本发明的一个具体实施例而已,显然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (2)
1.一种基于交互式注意力模型的语音情感识别方法,其特征在于,包括:
1)语音预处理:对输入语音进行分帧加窗、活动语音检测处理;提取每帧语音的梅尔倒谱特征和对数梅尔谱特征;活动语音检测处理为通过计算每帧语音的能量,判断该帧语音是否为静音,若为静音则去除该帧;
2)语音识别:将整条语音的梅尔倒谱特征输入到语音识别器中,识别出该条语音对应的文本;
4)强制对齐:根据步骤2)得到的语音对应的文本和语音的梅尔倒谱特征,得到每个词对应的语音范围,也就是每个词对应的语音起始帧和结束帧;
5)词级别声学特征提取:将步骤4)得到的每个词对应的语音范围内的对数梅尔谱特征输入到时延神经网络并做池化;时延神经网络的层数设置为2层到4层,每一层的节点数设置为64个到1024个,激活函数为ReLU函数;池化层对时延神经网络输出的每个词对应的语音的所有帧的结果求平均,得到每个词对应的声学特征;将第n个词对应的声学特征记为整条语音词级别的声学特征为
6)表示学习:学习文本信息对应的情感表示Rt和声学信息对应的情感表示Ra,具体包括以下几个步骤:
6.1)将步骤3)和步骤5)得到的语音的词向量Ft和词级别声学特征Fa输入到交互式注意力模型中,得到文本对应的注意力输出At和声学对应的注意力输出Aa;
6.2)将步骤6.1)得到的At输入到神经网络ht中,得到文本对应的情感表示Rt=ht(At);将步骤6.1)得到的Aa输入到神经网络ha中,得到声学对应的情感表示Ra=ha(Aa);Rt的第n列表示第n个词对应的来自文本的情感表示,Ra的第n列表示第n个词对应的来自声学的情感表示;神经网络ht设置为循环神经网络;循环神经网络共1层,输入节点数为At的维度,输出节点数为180,激活函数为ReLU函数;神经网络ha设置为时延神经网络;时延神经网络共1层,输入为Aa,输出节点数为150,激活函数为ReLU函数;
7)模态融合:将文本信息对应的情感表示Rt和声学信息对应的情感表示Ra进行拼接,输入到卷积神经网络中,再进行矩阵到向量的转换,得到融合后的情感表示r;卷积神经网络的层数为1层,对应的核函数的接收域为6*3,通道个数为5,激活函数为ReLU函数;
8)情感分类:将融合后的情感表示r输入到一个全连接神经网络中,网络的层数为2层到4层,前几层每层节点数为256个到6000个,激活函数为ReLU函数,最后一层为softmax层,输出节点对应不同的情感状态,网络输出为该条语音对应每种情感状态的概率;最终识别结果即为概率最大的情感。
2.如权利要求1所述的一种基于交互式注意力模型的语音情感识别方法,其特征在于,其特征在于,所述交互式注意力模型交互式注意力模型有两种实现方法;
第一种实现方法具体包括以下步骤:
1)将词向量Ft输入到多层全连接神经网络h1,h2和h3中,得到输出h1(Ft),h2(Ft)和h3(Ft);h1,h2和h3的层数为3层,输入节点数为词向量的维度,输出节点数为200,中间层节点数为512,激活函数为ReLU函数;将词级别声学特征Fa输入到多层全连接神经网络h4,h5和h6中,得到输出h4(Fa),h5(Fa)和h6(Fa);h4,h5和h6的层数为3层,输入节点数为词级别声学特征的维度,输出节点数为168,中间层节点数为512,激活函数为ReLU函数;
2)权重计算:根据文本模态计算得到的权重Wt为
其中softmax表示softmax函数,dt表示h3(Ft)的特征维度,T表示转置;在根据声学模态计算得到的权重Wa为
其中da表示h4(Fa)的特征维度;
3)权重共享:根据文本模态对应的权重Wt和声学模态对应的权重Wa,计算两个模态共享的权重W为
4)相乘:得到文本对应的注意力输出为At=h1(Ft)W,声学对应的注意力输出为Aa=h6(Fa)W;
第二种实现方法具体包括以下步骤:
2)将词向量Ft输入到多层全连接神经网络h1和h2中,得到输出h1(Ft)和h2(Ft);h1和h2的层数为3层,输入节点数为词向量的维度,输出节点数设置为200,中间层节点数为512,激活函数为ReLU函数;将词级别声学特征Fa输入到多层全连接神经网络h5和h6中,得到输出h5(Fa)和h6(Fa);h5和h6的层数为3层,输入节点个数为词级别声学特征的维度,输出节点数设置为168,中间层节点数为512,激活函数为ReLU函数;将拼接特征F输入到多层全连接神经h3和h4中,得到输出h3(F)和h4(F);h3和h4的层数为3层,输入节点个数为词向量的维度加上词级别声学特征的维度,中间层节点数为512,激活函数为ReLU函数;h3的输出节点数设置为200,h4的输出节点数设置为168;
3)权重计算:根据文本模态计算得到的权重Wt为
其中softmax表示softmax函数,dt表示h3(Ft)的特征维度,T表示转置;根据声学模态计算得到的权重Wa为
其中da表示h5(Fa)的特征维度;
4)相乘:得到文本对应的注意力输出为At=h1(Ft)Wt,声学对应的注意力输出为Aa=h6(Fa)Wa。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011521398.5A CN112700796B (zh) | 2020-12-21 | 2020-12-21 | 一种基于交互式注意力模型的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011521398.5A CN112700796B (zh) | 2020-12-21 | 2020-12-21 | 一种基于交互式注意力模型的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112700796A true CN112700796A (zh) | 2021-04-23 |
CN112700796B CN112700796B (zh) | 2022-09-23 |
Family
ID=75509668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011521398.5A Active CN112700796B (zh) | 2020-12-21 | 2020-12-21 | 一种基于交互式注意力模型的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112700796B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113903362A (zh) * | 2021-08-26 | 2022-01-07 | 电子科技大学 | 一种基于神经网络的语音情感识别方法 |
CN115223585A (zh) * | 2022-07-04 | 2022-10-21 | 上海交通大学 | 基于Wav2vec2.0和BERT的多级融合多模态情感识别的方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597541A (zh) * | 2018-04-28 | 2018-09-28 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及系统 |
CN109472031A (zh) * | 2018-11-09 | 2019-03-15 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN111522956A (zh) * | 2020-05-08 | 2020-08-11 | 河南理工大学 | 基于双通道和层次化注意力网络的文本情感分类方法 |
CN111753549A (zh) * | 2020-05-22 | 2020-10-09 | 江苏大学 | 一种基于注意力机制的多模态情感特征学习、识别方法 |
US20200335092A1 (en) * | 2019-04-20 | 2020-10-22 | Behavioral Signal Technologies, Inc. | Deep hierarchical fusion for machine intelligence applications |
-
2020
- 2020-12-21 CN CN202011521398.5A patent/CN112700796B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597541A (zh) * | 2018-04-28 | 2018-09-28 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及系统 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN109472031A (zh) * | 2018-11-09 | 2019-03-15 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
US20200335092A1 (en) * | 2019-04-20 | 2020-10-22 | Behavioral Signal Technologies, Inc. | Deep hierarchical fusion for machine intelligence applications |
CN111522956A (zh) * | 2020-05-08 | 2020-08-11 | 河南理工大学 | 基于双通道和层次化注意力网络的文本情感分类方法 |
CN111753549A (zh) * | 2020-05-22 | 2020-10-09 | 江苏大学 | 一种基于注意力机制的多模态情感特征学习、识别方法 |
Non-Patent Citations (1)
Title |
---|
陈鹏展等: "基于语音信号与文本信息的双模态情感识别", 《华东交通大学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113903362A (zh) * | 2021-08-26 | 2022-01-07 | 电子科技大学 | 一种基于神经网络的语音情感识别方法 |
CN115223585A (zh) * | 2022-07-04 | 2022-10-21 | 上海交通大学 | 基于Wav2vec2.0和BERT的多级融合多模态情感识别的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112700796B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN108806667B (zh) | 基于神经网络的语音与情绪的同步识别方法 | |
CN107993665B (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及系统 | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
Perez-Gaspar et al. | Multimodal emotion recognition with evolutionary computation for human-robot interaction | |
Agarwalla et al. | Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
Li et al. | Learning fine-grained cross modality excitement for speech emotion recognition | |
Zhang et al. | Pre-trained deep convolution neural network model with attention for speech emotion recognition | |
CN112466326A (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
CN112700796B (zh) | 一种基于交互式注意力模型的语音情感识别方法 | |
Chen | Simulation of English speech emotion recognition based on transfer learning and CNN neural network | |
CN116304973A (zh) | 一种基于多模态融合的课堂教学情感识别方法和系统 | |
CN111259976A (zh) | 基于多模态对齐与多向量表征的人格检测方法 | |
CN114566189B (zh) | 基于三维深度特征融合的语音情感识别方法及系统 | |
CN114911932A (zh) | 基于主题语义增强的异构图结构多会话者情感分析方法 | |
Marczewski et al. | Learning transferable features for speech emotion recognition | |
CN117765981A (zh) | 一种基于语音文本跨模态融合的情感识别方法及系统 | |
Zhang | Ideological and political empowering english teaching: ideological education based on artificial intelligence in classroom emotion recognition | |
Poncelet et al. | Low resource end-to-end spoken language understanding with capsule networks | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
CN114360584A (zh) | 一种基于音素级的语音情感分层式识别方法及系统 | |
CN112818011B (zh) | 改进的TextCNN与TextRNN谣言识别方法 | |
Santoso et al. | Large Language Model-Based Emotional Speech Annotation Using Context and Acoustic Feature for Speech Emotion Recognition | |
CN113571095A (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |