CN112700796B - 一种基于交互式注意力模型的语音情感识别方法 - Google Patents

一种基于交互式注意力模型的语音情感识别方法 Download PDF

Info

Publication number
CN112700796B
CN112700796B CN202011521398.5A CN202011521398A CN112700796B CN 112700796 B CN112700796 B CN 112700796B CN 202011521398 A CN202011521398 A CN 202011521398A CN 112700796 B CN112700796 B CN 112700796B
Authority
CN
China
Prior art keywords
word
voice
nodes
neural network
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011521398.5A
Other languages
English (en)
Other versions
CN112700796A (zh
Inventor
陈仙红
鲍长春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202011521398.5A priority Critical patent/CN112700796B/zh
Publication of CN112700796A publication Critical patent/CN112700796A/zh
Application granted granted Critical
Publication of CN112700796B publication Critical patent/CN112700796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种基于交互式注意力模型的语音情感识别方法,属于语音信号处理、情感识别与机器学习领域。文本信息和声学信息是语音包含的两种重要信息,这两种信息对情感识别有重要作用。与现有语音情感识别技术相比,本发明同时利用文本和声学两个模态进行情感识别,包括语音预处理、语音识别、词向量提取、强制对齐、词级别声学特征提取、表示学习、模态融合、情感分类几个步骤。表示学习阶段提出交互式注意力模型,在词层面用一个模态的信息来帮助学习另一个模态的情感表示。模态融合阶段,在语句层面学习文本和模态的互补信息。本发明充分利用两个模态不同层次的互补信息进行情感识别,有效地提高语音情感识别的准确率。

Description

一种基于交互式注意力模型的语音情感识别方法
技术领域
本发明属于语音信号处理、情感识别与机器学习领域,特别地涉及一种基于交互式注意力模型的语音情感识别方法。
背景技术
语音情感识别,即从说话人的语音信号中识别出说话人即时的情绪状态,比如高兴、悲伤、生气、吃惊、厌恶与恐惧。
近年来,语音情感识别在教育、安全、语音交互、心理指导等领域发挥着越来越重要的作用。在教育领域,语音情感识别能够捕捉学生学习过程中的情绪变化,进而推断其学习效率与积极性,辅助教师进行指导;在安全领域,例如在审讯情境中,语音情感识别能够从被审讯人的语音中窥见其情绪及内心的真实想法,从而辅助审讯官做出更合理的决策;在人机交互领域,语音情感识别能够为交互增加更多人情味,提高用户体验;在心理指导领域,语音情感识别也能够为心理健康诊断提供辅助性的建议,减少医护人员的负担。虽然语音情感识别应用广泛,但是语音情感识别的性能还有待提高。
较早的语音情感识别方法一般根据声学信息提取手工特征,然后使用经典的分类器(例如支持向量机、梯度提升决策树、极限学习机等)输出某个情感标签。近年来,神经网络在语音识别、计算机视觉等领域得到广泛应用,并表现出强大的特征提取能力。因此,一些语音情感识别方法将手工特征或者原始声学特征送入这些神经网络获得合适的表示,再使用后端分类器进行判决。由于这些方法只用到语音的声学信息,但是语音中的文本信息也从不同角度透露出情感状态,因此一些语音情感识别方法将语音中的声学和文本两个模态进行融合。
传统情感识别采用的模态融合策略主要分为特征拼接和表示融合。特征拼接首先提取各个模态各自的原始特征,将这些特征进行拼接后输入到统一的模型进行识别,得到结果。该方法可以学到两个模态之间的相互作用,但是不同模态不能使用各自最适合的模型。表示融合用各个模态各自的最适合的模型来提取该模态的语句层面的表示,然后再将两个模态的语句层面的表示输入到一个统一的模型进行识别。该方法既考虑了模态间的相互作用,又可以对不同模态用不同的模型进行处理。但是表示融合仍然存在一些问题:1.默认不同模态之间的相互作用只存在于语句层面。2.模态融合在语句层进行,其粒度比较大,不能学习到模态间比较细腻的相互作用信息。因此,表示融合没有充分学习两个模态的互补信息来进行情感识别。
针对传统语音情感识别方法存在的问题,本项目提出基于交互式注意力模型的语音情感识别方法。一方面,本发明采用声学和文本两个模态进行语音情感识别,充分利用语音中同时存在的对情感识别起到互补作用的声学和文本信息。另一方面,本发明提出交互式注意力模型并应用于语音情感识别,在表示学习阶段,在词层面利用一个模态的信息来帮助学习另一个模态的情感表示,使每个词对应的来自文本和声学的情感表示更准确;接着在语句层对学习到的两个模态的情感表示进行模态融合。本发明不仅可以在词层面和语句层面学到两个模态不同层次的相互作用,还可以让每个模态由各自最适合的模型进行处理。因此,本发明能有效提高语音情感识别的准确率。
发明内容
本发明的目的是为克服传统语音情感识别技术只考虑声学模态;或考虑了声学和文本模态,但是只在语句层面对两个模态进行融合,不能充分学习两个模态不同层次的互补信息进行情感识别的问题,提出一种基于交互式注意力模型的语音情感识别方法。该方法将语音帧和文本在词层面进行对齐,提取每个词对应的文本特征和声学特征。在表示学习阶段,交互式注意力模型利用一个模态的信息来帮助学习另一个模态的情感表示,学习模态间比较细腻的相互作用信息,使每个词对应的来自文本和声学的情感表示更准确,在词层面发挥两个模态的相互作用。再将两个模态的情感表示在语句层面进行融合,最后进行情感分类。本发明通过多层次的模态相互作用,有效地提高语音情感识别的准确率。
本发明提出一种基于交互式注意力模型的语音情感识别方法,其特征在于,如附图1所示,包括语音预处理、语音识别、词向量提取、强制对齐,词级别声学特征提取、表示学习、模态融合、情感分类步骤。具体包括以下步骤:
1)语音预处理:对输入语音进行分帧加窗、活动语音检测(通过计算每帧语音的能量,判断该帧语音是否为静音,若为静音则去除该帧)处理;提取每帧语音的梅尔倒谱特征和对数梅尔谱特征。
2)语音识别:将整条语音的梅尔倒谱特征输入到语音识别器中,识别出该条语音对应的文本。
3)词向量提取:根据步骤2)得到的语音对应的文本,提取文本中每个词的词向量。将第n个词对应的词向量记为
Figure BDA0002849070560000031
整条语音的词向量为
Figure BDA0002849070560000032
N为该条语音中词的个数。
4)强制对齐:根据步骤2)得到的语音对应的文本和语音的梅尔倒谱特征,得到每个词对应的语音范围,也就是每个词对应的语音起始帧和结束帧。
5)词级别声学特征提取:将步骤4)得到的每个词对应的语音范围内的对数梅尔谱特征输入到时延神经网络并做池化。时延神经网络的层数可以设置为2层到4层,每一层的节点数可以设置为64个到1024个,激活函数为ReLU函数。池化层对时延神经网络输出的每个词对应的语音的所有帧的结果求平均,得到每个词对应的声学特征。第n个词对应的声学特征记为将
Figure BDA0002849070560000033
整条语音词级别的声学特征为
Figure BDA0002849070560000034
6)表示学习:学习文本信息对应的情感表示Rt和声学信息对应的情感表示Ra。具体包括以下几个步骤:
6.1)将步骤3)和步骤5)得到的语音的词向量Ft和词级别声学特征Fa输入到交互式注意力模型中,得到文本对应的注意力输出At和声学对应的注意力输出Aa。交互式注意力模型有图2或图3所示的两种实现方法。
如图2所示的实现方法具体包括以下步骤:
6.1.1)将词向量Ft输入到多层全连接神经网络h1,h2和h3中,得到输出h1(Ft),h2(Ft)和h3(Ft)。h1,h2和h3的层数为3层,输入节点数为词向量的维度,输出节点数为200,中间层节点数为512,激活函数为ReLU函数。将词级别声学特征Fa输入到神经网络h4,h5和h6中,得到输出h4(Fa),h5(Fa)和h6(Fa)。h4,h5和h6的层数为3层,输入节点数为词级别声学特征的维度,输出节点数为168,中间层节点数为512,激活函数为ReLU函数。
6.1.2)权重计算:根据文本模态计算得到的权重Wt
Figure BDA0002849070560000041
其中softmax表示softmax函数,dt表示h3(Ft)的特征维度,T表示转置。在根据声学模态计算得到的权重Wa
Figure BDA0002849070560000042
其中da表示h4(Fa)的特征维度。
6.1.3)权重共享:根据文本模态对应的权重Wt和声学模态对应的权重Wa,计算两个模态共享的权重W为
Figure BDA0002849070560000043
6.1.4)相乘:得到文本对应的注意力输出为At=h1(Ft)W,声学对应的注意力输出为Aa=h6(Fa)W。
如图3所示的实现方法具体包括以下步骤:
6.1.1)拼接:将词向量Ft和词级别声学特征Fa进行拼接得到F。也就是将第n个词对应的词向量
Figure BDA0002849070560000044
和第n个词对应的声学特征
Figure BDA0002849070560000045
拼接为一个特征fn,整条语音对应的拼接特征为F=[f1,…,fn,…,fN]。
6.1.2)将词向量Ft输入到多层全连接神经网络h1和h2中,得到输出h1(Ft)和h2(Ft)。h1和h2的层数为3层,输入节点数为词向量的维度,输出节点数设置为200,中间层节点数为512,激活函数为ReLU函数。将词级别声学特征Fa输入到多层全连接神经网络h5和h6中,得到输出h5(Fa)和h6(Fa)。h5和h6的层数为3层,输入节点个数为词级别声学特征的维度,输出节点数设置为168,中间层节点数为512,激活函数为ReLU函数。将拼接特征F输入到多层全连接神经网络h3和h4中,得到输出h3(F)和h4(F)。h3和h4的层数为3层,输入节点个数为词向量的维度加上词级别声学特征的维度,中间层节点数为512,激活函数为ReLU函数。h3的输出节点数设置为200,h4的输出节点数设置为168。
6.1.3)权重计算:根据文本模态计算得到的权重Wt
Figure BDA0002849070560000051
其中softmax表示softmax函数,dt表示h3(Ft)的特征维度,T表示转置。根据声学模态计算得到的权重Wa
Figure BDA0002849070560000052
其中da表示h5(Fa)的特征维度。
6.1.4)相乘:得到文本对应的注意力输出为At=h1(Ft)Wt,声学对应的注意力输出为Aa=h6(Fa)Wa
6.2)将步骤6.1)得到的At输入到神经网络ht中,得到文本对应的情感表示Rt=ht(At)。同理将步骤6.1)得到的Aa输入到神经网络ha中,得到声学对应的情感表示Ra=ha(Aa)。Rt的第n列表示第n个词对应的来自文本的情感表示,Ra的第n列表示第n个词对应的来自声学的情感表示。神经网络ht可以设置为文本模态最适合的网络模型,比如循环神经网络。循环神经网络共1层,输入节点数为At的维度,输出节点数为180,激活函数为ReLU函数。神经网络ha可以设置为声学模态最适合的网络模型,比如时延神经网络。时延神经网络共1层,输入为Aa,输出节点数为150,激活函数为ReLU函数。
7)模态融合:如图4所示,将文本信息对应的情感表示Rt和声学信息对应的情感表示Ra进行拼接,输入到卷积神经网络中,再进行矩阵到向量的转换,得到融合后的情感表示r。卷积神经网络的层数为1层,对应的核函数的接收域为6*3,通道个数为5,激活函数为ReLU函数。
8)情感分类:将融合后的情感表示r输入到一个全连接神经网络中,网络的层数为2层到4层,前几层每层节点数为256个到6000个,激活函数为ReLU函数,最后一层为softmax层,输出节点对应不同的情感状态,网络输出为该条语音对应每种情感状态的概率。最终识别结果即为概率最大的情感。
完成语音的情感识别。
本发明的特点及有益效果在于:
与现有语音情感识别技术相比,本发明同时利用文本和声学两个模态进行情感识别。首先将语音帧和文本在词层面进行对齐,提取每个词对应的文本特征和声学特征,利用提出的交互式注意力模型,在表示学习阶段,在词层面用一个模态的信息来帮助另一个模态的情感表示的学习,提高文本和声学的情感表示的准确率。其次在模态融合阶段,在语句层面学习文本和模态的互补信息。本发明充分利用两个模态不同层次的互补信息进行情感识别,有效地提高语音情感识别的准确率。
附图说明
图1是本发明方法的总体流程图。
图2是本发明方法提出的交互式注意力模型第一种实现方法示意图。
图3是本发明方法提出的交互式注意力模型第二种实现方法示意图。
图4是本发明方法中的模态融合示意图。
具体实施方式
本发明提出一种基于交互式注意力模型的语音情感识别方法,其特征在于,如附图1所示,包括语音预处理、语音识别、词向量提取、强制对齐,词级别声学特征提取、表示学习、模态融合、情感分类步骤。下面结合附图对具体实施例进一步详细说明如下:
1)语音预处理:对输入语音进行分帧加窗、活动语音检测(通过计算每帧语音的能量,判断该帧语音是否为静音,若为静音则去除该帧)处理;提取每帧语音的梅尔倒谱特征和对数梅尔谱特征。在本实施例中,去除静音帧后语音总帧数为255帧,每帧语音的梅尔倒谱特征为23维,对数梅尔谱特征为64维。
2)语音识别:将整条语音的梅尔倒谱特征输入到语音识别器中,识别出该条语音对应的文本。在本实施例中,该条语音对应的文本为:What the hell is this.
3)词向量提取:根据步骤2)得到的语音对应的文本,提取文本中每个词的词向量。将第n个词对应的词向量记为
Figure BDA0002849070560000071
整条语音的词向量为
Figure BDA0002849070560000072
N为该条语音中词的个数。在本实施例中,每个词对应的词向量为300维的GloVe向量,也就是
Figure BDA0002849070560000073
的维度为300,词的个数N=5,
Figure BDA0002849070560000074
为300*5的矩阵。
4)强制对齐:根据步骤2)得到的语音对应的文本和语音的梅尔倒谱特征,得到每个词对应的语音范围,也就是每个词对应的语音起始帧和结束帧。在本实施例中,得到What对应语音的第0帧到第67帧,the对应语音的第68帧到第103帧,hell对应语音的第104帧到第180帧,is对应语音的第181帧到第211帧,this对应语音的第212帧到第255帧。
5)词级别声学特征提取:将步骤4)得到的每个词对应的语音范围内的对数梅尔谱特征输入到时延神经网络并做池化。时延神经网络的层数可以设置为2层到4层,每一层的节点数可以设置为64个到1024个,激活函数为ReLU函数。池化层对时延神经网络输出的每个词对应的语音的所有帧的结果求平均,得到每个词对应的声学特征。第n个词对应的声学特征记为将
Figure BDA0002849070560000075
整条语音词级别的声学特征为
Figure BDA0002849070560000076
在本实施例中,时延神经网络为2层,第一层的节点数为512,第二层的节点数(输出节点数)为256。例如对于第3个词hell,将步骤4)hell对应的第104帧到第180帧共180-104+1=77帧语音对应的64维对数梅尔谱特征,输入到时延神经网络中,得到256*77的输出,再将这77帧求平均,也就是池化,得到hell对应的词级别声学特征
Figure BDA0002849070560000081
为256维的向量。
Figure BDA0002849070560000082
为256*5的矩阵。
6)表示学习:学习文本信息对应的情感表示Rt和声学信息对应的情感表示Ra。具体包括以下几个步骤:
6.1)将步骤3)和步骤5)得到的语音的词向量Ft和词级别声学特征Fa输入到交互式注意力模型中,得到文本对应的注意力输出At和声学对应的注意力输出Aa。交互式注意力模型有图2或图3所示的两种实现方法。
如图2所示的实现方法具体包括以下步骤:
6.1.1)将词向量Ft输入到神经网络h1,h2和h3中,得到输出h1(Ft),h2(Ft)和h3(Ft)。h1,h2和h3的层数为3层,输入节点数为词向量的维度,输出节点数为200,中间层节点数为512,激活函数为ReLU函数。将词级别声学特征Fa输入到神经网络h4,h5和h6中,得到输出h4(Fa),h5(Fa)和h6(Fa)。h4,h5和h6的层数为3层,输入节点数为词级别声学特征的维度,输出节点数为168,中间层节点数为512,激活函数为ReLU函数。在本实施例中,h1,h2和h3的输入节点数为词向量的维度300,输出节点数为200,输出h1(Ft),h2(Ft)和h3(Ft)为200*5的矩阵。h4,h5和h6的输入节点数为词级别声学特征的维度256,输出节点数为168,输出h4(Fa),h5(Fa)和h6(Fa)为168*5的矩阵。
6.1.2)权重计算:根据文本模态计算得到的权重Wt
Figure BDA0002849070560000083
其中softmax表示softmax函数,dt表示h3(Ft)的特征维度,T表示转置。在本实施例中dt=200。在根据声学模态计算得到的权重Wa
Figure BDA0002849070560000091
其中da表示h4(Fa)的特征维度,在本实施例中da=168。
6.1.3)权重共享:根据文本模态对应的权重Wt和声学模态对应的权重Wa,计算两个模态共享的权重W为
Figure BDA0002849070560000092
6.1.4)相乘:得到文本对应的注意力输出为At=h1(Ft)W,声学对应的注意力输出为Aa=h6(Fa)W。在本实施例中,得到At为200*5的矩阵,得到Aa为168*5的矩阵。
如图3所示的实现方法具体包括以下步骤:
6.1.1)拼接:将词向量Ft和词级别声学特征Fa进行拼接得到F。也就是将第n个词对应的词向量
Figure BDA0002849070560000093
和第n个词对应的声学特征
Figure BDA0002849070560000094
拼接为一个特征fn,整条语音对应的拼接特征为F=[f1,…,fn,…,fN]。在本实施例中,词向量
Figure BDA0002849070560000095
的维度为300,和词级别声学特征
Figure BDA0002849070560000096
的维度为256,两者拼接得到维度为556的fn,F是556*5的矩阵。
6.1.2)将词向量Ft输入到多层全连接神经网络h1和h2中,得到输出h1(Ft)和h2(Ft)。h1和h2的层数为3层,输入节点个数为词向量的维度,输出节点数设置为200,中间层节点数为512,激活函数为ReLU函数。将词级别声学特征Fa输入到多层全连接神经网络h5和h6中,得到输出h5(Fa)和h6(Fa)。h5和h6的层数为3层,输入节点个数为词级别声学特征的维度,输出节点数设置为168,中间层节点数为512,激活函数为ReLU函数。将拼接特征F输入到多层全连接神经网络h3和h4中,得到输出h3(F)和h4(F)。h3和h4的层数为3层,输入节点个数为词向量的维度加上词级别声学特征的维度,中间层节点数为512,激活函数为ReLU函数。h3的输出节点数设置为200,h4的输出节点数设置为168。在本实施例中,h1和h2的输入节点数为词向量的维度300,输出节点数为200,输出h1(Ft)和h2(Ft)为200*5的矩阵。h5和h6的输入节点个数为词级别声学特征的维度256,输出节点数为168,输出h5(Fa)和h6(Fa)为168*5的矩阵。h3的输入节点个数为拼接特征的维度556,输出节点数为200,输出h3(F)为168*5的矩阵。h4的输入节点个数为拼接特征的维度556,输出节点数为168,输出h4(F)都为168*5的矩阵。
6.1.3)权重计算:根据文本模态计算得到的权重Wt
Figure BDA0002849070560000101
其中softmax表示softmax函数,dt表示h3(Ft)的特征维度,T表示转置。在本实施例中dt=200。根据声学模态计算得到的权重Wa
Figure BDA0002849070560000102
其中da表示h5(Fa)的特征维度。在本实施例中da=168。
6.1.4)相乘:得到文本对应的注意力输出为At=h1(Ft)Wt,声学对应的注意力输出为Aa=h6(Fa)Wa。在本实施例中,得到At为200*5的矩阵,得到Aa为168*5的矩阵。
6.2)将步骤6.1)得到的At输入到神经网络ht中,得到文本对应的情感表示Rt=ht(At)。同理将步骤6.1)得到的Aa输入到神经网络ha中,得到声学对应的情感表示Ra=ha(Aa)。在本实施例中,神经网络ht采用1层的循环神经网络,输入节点为At的维度200,输出节点设置为180,激活函数为ReLU函数,输出Rt=ht(At)为180*5的矩阵,Rt的第n列表示第n个词对应的来自文本的情感表示。神经网络ha采用1层的时延神经网络,输入为Aa,输出节点设置为150,激活函数为ReLU函数,输出Ra=ha(Aa)为150*5的矩阵,Ra的第n列表示第n个词对应的来自声学的情感表示。
7)模态融合:如图4所示,将文本信息对应的情感表示Rt和声学信息对应的情感表示Ra进行拼接,输入到卷积神经网络中,再进行矩阵到向量的转换,得到融合后的情感表示r。卷积神经网络的层数为1层,对应的核函数的接收域为6*3,通道个数为5,激活函数为ReLU函数。在本实施例中,由步骤6.2)得到的Rt的维度为180*5,Ra的维度为150*5,两者拼接成维度为330*5的表示。将该表示输入到核函数为6*3,通道数为5的1层的卷积神经网络中,得到330*5*5的输出。再进行矩阵到向量的转换,得到融合后的维度为8250的情感表示r。
8)情感分类:将融合后的情感表示r输入到一个全连接神经网络中,网络的层数为2层到4层,前几层每层节点个数为256个到6000个,激活函数为ReLU函数,最后一层为softmax层,输出节点对应不同的情感状态,网络输出为该条语音对应每种情感状态的概率。最终识别结果即为概率最大的情感。在本实施例中,维度为8250的情感表示r输入到3层的全连接网络中,其中网络第一层节点数为5000;网络第二层节点数为3000;网络最后一层为softmax层,节点对应不同的情感状态,本实施例识别6种情感(高兴、悲伤、生气、吃惊、厌恶与恐惧),因此输出节点数为6。第1到6个节点分别对应高兴、悲伤、生气、吃惊、厌恶和恐惧。通过该全连接神经网络最终识别出该条语音对应这6种情感的概率为[0.02,0.08,0.12,0.54,0.09,0.15],概率最大的为0.54,对应吃惊,即该条语音的情感识别结果为吃惊。
完成语音的情感识别。
本发明所述方法,本领域普通技术人员可以理解为,上述语音情感识别的方法可以通过程序来完成的,所述的程序可以存储于一种计算机可读存储介质中。
以上所述的仅为本发明的一个具体实施例而已,显然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (1)

1.一种基于交互式注意力模型的语音情感识别方法,其特征在于,包括:
1)语音预处理:对输入语音进行分帧加窗、活动语音检测处理;提取每帧语音的梅尔倒谱特征和对数梅尔谱特征;活动语音检测处理为通过计算每帧语音的能量,判断该帧语音是否为静音,若为静音则去除该帧;
2)语音识别:将整条语音的梅尔倒谱特征输入到语音识别器中,识别出该条语音对应的文本;
3)词向量提取:根据步骤2)得到的语音对应的文本,提取文本中每个词的词向量;将第n个词对应的词向量记为
Figure FDA0003805147700000011
整条语音的词向量为
Figure FDA0003805147700000012
N为该条语音中词的个数;
4)强制对齐:根据步骤2)得到的语音对应的文本和语音的梅尔倒谱特征,得到每个词对应的语音范围,也就是每个词对应的语音起始帧和结束帧;
5)词级别声学特征提取:将步骤4)得到的每个词对应的语音范围内的对数梅尔谱特征输入到时延神经网络并做池化;时延神经网络的层数设置为2层到4层,每一层的节点数设置为64个到1024个,激活函数为ReLU函数;池化层对时延神经网络输出的每个词对应的语音的所有帧的结果求平均,得到每个词对应的声学特征;将第n个词对应的声学特征记为
Figure FDA0003805147700000013
整条语音词级别的声学特征为
Figure FDA0003805147700000014
6)表示学习:学习文本信息对应的情感表示Rt和声学信息对应的情感表示Ra,具体包括以下几个步骤:
6.1)将步骤3)和步骤5)得到的语音的词向量Ft和词级别声学特征Fa输入到交互式注意力模型中,得到文本对应的注意力输出At和声学对应的注意力输出Aa
6.2)将步骤6.1)得到的At输入到神经网络ht中,得到文本对应的情感表示Rt=ht(At);将步骤6.1)得到的Aa输入到神经网络ha中,得到声学对应的情感表示Ra=Ra(Aa);Rt的第n列表示第n个词对应的来自文本的情感表示,Ra的第n列表示第n个词对应的来自声学的情感表示;神经网络ht设置为循环神经网络;循环神经网络共1层,输入节点数为At的维度,输出节点数为180,激活函数为ReLU函数;神经网络ha设置为时延神经网络;时延神经网络共1层,输入为Aa,输出节点数为150,激活函数为ReLU函数;
7)模态融合:将文本信息对应的情感表示Rt和声学信息对应的情感表示Ra进行拼接,输入到卷积神经网络中,再进行矩阵到向量的转换,得到融合后的情感表示r;卷积神经网络的层数为1层,对应的核函数的接收域为6*3,通道个数为5,激活函数为ReLU函数;
8)情感分类:将融合后的情感表示r输入到一个全连接神经网络中,网络的层数为2层到4层,前几层每层节点数为256个到6000个,激活函数为ReLU函数,最后一层为softmax层,输出节点对应不同的情感状态,网络输出为该条语音对应每种情感状态的概率;最终识别结果即为概率最大的情感;
交互式注意力模型有两种实现方法;
第一种实现方法具体包括以下步骤:
1)将词向量Ft输入到多层全连接神经网络h1,h2和h3中,得到输出h1(Ft),h2(Ft)和h3(Ft);h1,h2和h3的层数为3层,输入节点数为词向量的维度,输出节点数为200,中间层节点数为512,激活函数为ReLU函数;将词级别声学特征Fa输入到多层全连接神经网络h4,h5和h6中,得到输出h4(Fa),h5(Fa)和h6(Fa);h4,h5和h6的层数为3层,输入节点数为词级别声学特征的维度,输出节点数为168,中间层节点数为512,激活函数为ReLU函数;
2)权重计算:根据文本模态计算得到的权重Wt
Figure FDA0003805147700000021
其中softmax表示softmax函数,dt表示h3(Ft)的特征维度,T表示转置;在根据声学模态计算得到的权重Wa
Figure FDA0003805147700000022
其中da表示h4(Fa)的特征维度;
3)权重共享:根据文本模态对应的权重Wt和声学模态对应的权重Wa,计算两个模态共享的权重W为
Figure FDA0003805147700000031
4)相乘:得到文本对应的注意力输出为At=h1(Ft)W,声学对应的注意力输出为Aa=h6(Fa)W;
第二种实现方法具体包括以下步骤:
1)拼接:将词向量Ft和词级别声学特征Fa进行拼接得到F;也就是将第n个词对应的词向量
Figure FDA0003805147700000032
和第n个词对应的声学特征
Figure FDA0003805147700000033
拼接为一个特征fn,整条语音对应的拼接特征为F=[f1,…,fn,…,fN];
2)将词向量Ft输入到多层全连接神经网络h1和h2中,得到输出h1(Ft)和h2(Ft);h1和h2的层数为3层,输入节点数为词向量的维度,输出节点数设置为200,中间层节点数为512,激活函数为ReLU函数;将词级别声学特征Fa输入到多层全连接神经网络h5和h6中,得到输出h5(Fa)和h6(Fa);h5和h6的层数为3层,输入节点个数为词级别声学特征的维度,输出节点数设置为168,中间层节点数为512,激活函数为ReLU函数;将拼接特征F输入到多层全连接神经h3和h4中,得到输出h3(F)和h4(F);h3和h4的层数为3层,输入节点个数为词向量的维度加上词级别声学特征的维度,中间层节点数为512,激活函数为ReLU函数;h3的输出节点数设置为200,h4的输出节点数设置为168;
3)权重计算:根据文本模态计算得到的权重Wt
Figure FDA0003805147700000034
其中softmax表示softmax函数,dt表示h3(Ft)的特征维度,T表示转置;根据声学模态计算得到的权重Wa
Figure FDA0003805147700000035
其中da表示h5(Fa)的特征维度;
4)相乘:得到文本对应的注意力输出为At=h1(Ft)Wt,声学对应的注意力输出为Aa=h6(Fa)Wa
CN202011521398.5A 2020-12-21 2020-12-21 一种基于交互式注意力模型的语音情感识别方法 Active CN112700796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011521398.5A CN112700796B (zh) 2020-12-21 2020-12-21 一种基于交互式注意力模型的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011521398.5A CN112700796B (zh) 2020-12-21 2020-12-21 一种基于交互式注意力模型的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN112700796A CN112700796A (zh) 2021-04-23
CN112700796B true CN112700796B (zh) 2022-09-23

Family

ID=75509668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011521398.5A Active CN112700796B (zh) 2020-12-21 2020-12-21 一种基于交互式注意力模型的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN112700796B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113903362B (zh) * 2021-08-26 2023-07-21 电子科技大学 一种基于神经网络的语音情感识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597541B (zh) * 2018-04-28 2020-10-02 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及系统
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN109472031B (zh) * 2018-11-09 2021-05-04 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
US11862145B2 (en) * 2019-04-20 2024-01-02 Behavioral Signal Technologies, Inc. Deep hierarchical fusion for machine intelligence applications
CN111522956A (zh) * 2020-05-08 2020-08-11 河南理工大学 基于双通道和层次化注意力网络的文本情感分类方法
CN111753549B (zh) * 2020-05-22 2023-07-21 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法

Also Published As

Publication number Publication date
CN112700796A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN108806667B (zh) 基于神经网络的语音与情绪的同步识别方法
Perez-Gaspar et al. Multimodal emotion recognition with evolutionary computation for human-robot interaction
Agarwalla et al. Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN110097894A (zh) 一种端到端的语音情感识别的方法和系统
Nazir et al. Mispronunciation detection using deep convolutional neural network features and transfer learning-based model for Arabic phonemes
CN115329779B (zh) 一种多人对话情感识别方法
Li et al. Learning fine-grained cross modality excitement for speech emotion recognition
CN114566189B (zh) 基于三维深度特征融合的语音情感识别方法及系统
Zhang et al. Pre-trained deep convolution neural network model with attention for speech emotion recognition
Chen Simulation of English speech emotion recognition based on transfer learning and CNN neural network
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
Poncelet et al. Low resource end-to-end spoken language understanding with capsule networks
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
CN114360584A (zh) 一种基于音素级的语音情感分层式识别方法及系统
CN112700796B (zh) 一种基于交互式注意力模型的语音情感识别方法
Zhang Ideological and political empowering English teaching: ideological education based on artificial intelligence in classroom emotion recognition
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别系统
Bhatia et al. Convolutional Neural Network Based Real Time Arabic Speech Recognition to Arabic Braille for Hearing and Visually Impaired
Wang Research on open oral English scoring system based on neural network
Tashakori et al. Designing the Intelligent System Detecting a Sense of Wonder in English Speech Signal Using Fuzzy-Nervous Inference-Adaptive system (ANFIS)
CN116434786A (zh) 融合文本语义辅助的教师语音情感识别方法
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
Fang et al. Bidirectional LSTM with multiple input multiple fusion strategy for speech emotion recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant