CN115641878A - 一种结合分层策略的多模态情绪识别方法 - Google Patents

一种结合分层策略的多模态情绪识别方法 Download PDF

Info

Publication number
CN115641878A
CN115641878A CN202211037654.2A CN202211037654A CN115641878A CN 115641878 A CN115641878 A CN 115641878A CN 202211037654 A CN202211037654 A CN 202211037654A CN 115641878 A CN115641878 A CN 115641878A
Authority
CN
China
Prior art keywords
text
emotion
emotion recognition
model
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211037654.2A
Other languages
English (en)
Inventor
刘波
孙芃
徐小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Electronic Commerce Co Ltd
Original Assignee
Tianyi Electronic Commerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Electronic Commerce Co Ltd filed Critical Tianyi Electronic Commerce Co Ltd
Priority to CN202211037654.2A priority Critical patent/CN115641878A/zh
Priority to PCT/CN2022/136487 priority patent/WO2024040793A1/zh
Publication of CN115641878A publication Critical patent/CN115641878A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种结合分层策略的多模态情绪识别方法。本发明提出了一种结合分层策略的多模态情绪识别方法,该情绪识别方法结合了语音特征和文本特征,与单语音和单文本情绪识别方法相比,进一步提高了情绪识别的准确率;多模态情绪识别模型一般较大,使得模型的推理预测速度较慢,影响模型的响应效率和并发,因此本发明提出了一种结合分层策略的多模态情绪识别方法,对较易预测的样本在浅层模型中推理预测,对较难预测的样本放在深层模型中推理预测,从而在保证准确率的情况下,提高了多模态情绪识别的整体响应速度。

Description

一种结合分层策略的多模态情绪识别方法
技术领域
本发明涉及情绪识别领域,特别涉及一种结合分层策略的多模态情绪识别方法。
背景技术
情绪作为人的一种心理表现,进而会影响到人的行为表现,一个好的情绪,能有助于更好的进行沟通以及提高工作效率。因此在人机对话或在人人对话中,情绪变化的监测识别就有着重要的作用和意义。情绪的识别技术也在近几年不断的兴起,被逐渐应用到客服对话、智能机器人等场景。
目前常用的情绪识别为文本情绪识别,但文本情绪识别只能从文本语义中判断情绪的变化情况,无法结合语调、语气等语音信息,而多模态结合的情绪识别能够融合文本和语音特征进一步改善情绪识别的效果,但目前多模态情绪识别模型一般较大,推理速度较慢,这样会影响实际业务的响应速度,并使得实际业务的并发受到影响,在实际的场景中,用户有许多常用语或者简单普通的表达,这些表达只需用较简单的模型就能准确识别,只有较复杂的表达才需要用大模型去识别。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种结合分层策略的多模态情绪识别方法,与单文本和单语音情绪识别相比,进一步提高了情绪识别的效果,并进一步结合了分层策略,对较易预测的样本在浅层模型中推理预测,对较难预测的样本放在深层模型中推理预测,从而在保证准确率的情况下,提高了多模态情绪识别的整体响应速度。
本发明提供了如下的技术方案:
本发明提供一种结合分层策略的多模态情绪识别方法,包括以下步骤:
S1、首先该结合分层策略的多模态情绪识别方法的输入为语音以及该语音对应的文本;
S2、该结合分层策略的多模态情绪识别方法的浅层模型由语音情绪识别模型CNN和一个文本情绪识别框架组成,其中文本情绪识别框架由高频句匹配、正则表达式匹配和BiGRU-Attention模型构成,其深层模型为一个多模态情绪识别模型Transformer-basedjoint-encoding(TBJE);
S3、将语音数据输入一个CNN语音情绪识别模型进行推理预测,该语音情绪识别模型较小,并且推理的速度较快;
S4、为语音情绪识别模型的情绪标签设置相应的阈值,如果语音情绪识别模型预测到该情绪类别的概率值超过该情绪类别对应的阈值时,则令变量audio_emotion等于该情绪类别,否则令变量audio_emotion的值为null;
S5、同时将文本数据输入一个分层的文本情绪识别框架,该文本情绪识别框架分为高频句匹配,正则表达式匹配以及一个BiGRU-Attention模型,BiGRU-Attention模型为一个双向GRU模型并结合了Attention注意力机制,该模型相对较小,并且推理的速度较快;其中GRU单元的更新方式如下:
zt=σ(Wxzxt+Whzht-1)
rt=σ(Wxrxt+Whrht-1)
Figure BDA0003817891480000021
Figure BDA0003817891480000022
其中zt表示更新门,rt表示重置门,σ为sigmod激活函数,xt表示t时刻的输入,ht-1表示t-1时刻的隐藏状态,ht表示t时刻的隐藏状态;
采用BiGRU结构,对每条文本分别计算正向和反向的隐藏状态并拼接,得到目标文本序列H;
并使用attention注意力机制,计算注意力权重系数,计算过程如下:
a=softmax(WTtanh(H))
其中H为目标文本序列,softmax为归一化指数函数,a为注意力权重系数,WT为变量参数;
进一步地,利用注意力权重系数计算出目标文本序列的上下文序列为:
M=tanh(HaT)
其中a为注意力权重系数,H为目标文本序列,M为上下文序列;
将上下文序列M输入全连接层(Full Connected Layer)以及softmax函数得到分类结果;
以上为BiGRU-Attention模型的推理过程,在本发明中采用一种分层的文本情绪识别框架,当文本输入该文本情绪识别框架时,首先进行高频句匹配,如果该输入文本匹配到高频句库中的高频句,则令text_emotion等于该高频句所对应的情绪标签,并结束文本情绪识别过程,否则将该文本输入正则表达式匹配层,如果该文本与某条正则表达式匹配成功,则令text_emotion等于该条正则表达式所对应的情绪标签,并结束文本情绪识别过程,否则将该文本输入BiGRU-Attention模型,为BiGRU-Attention模型的分类情绪标签设置相应的阈值,如果BiGRU-Attention模型预测到的情绪类别的概率值超过该情绪类别对应的阈值,则令变量text_emotion等于该情绪类别,否则令变量text_emotion的值为null;
S6、比较语音情绪识别与文本情绪识别的结果,即比较audio_emotion与text_emotion的情绪标签值,如果两者的值相同,则将该情绪标签值作为最后的情绪识别结果并输出,结束本轮预测过程;如果audio_emotion与text_emotion的值不同或者audio_emotion、text_emotion中存在null值,则将语音和其对应的文本输入多模态情绪识别模型Transformer-based joint-encoding(TBJE);
S7、Transformer-based joint-encoding(TBJE)为一个多模态情绪识别模型,其输入为语音以及该语音对应的文本,首先将语音和文本同时输入Transformer-basedjoint-encoding(TBJE)模型,文本输入Embedding层以及LSTM层后得到文本特征a,语音提取特征并输入至全连接层(Full Connected Layer),得到语音特征b,将文本特征a以及语音特征b,同时输入至多层的Multimodal Transformer,并输出特征
Figure BDA0003817891480000041
和特征
Figure BDA0003817891480000042
将特征
Figure BDA0003817891480000043
和特征
Figure BDA0003817891480000044
经过Flatten、Add和Norm层后,得到融合语音和文本的特征c,将特征c输入至全连接层(Full Connected Layer)得到本轮情绪识别结果并输出;
S8、该结合分层策略的多模态情绪识别方法将较易预测的样本在浅层进行推理预测,并在浅层设置了一个较小的语音情绪识别模型和文本情绪识别框架,只有当两者预测的情绪标签相同时,才会直接输出情绪识别结果;否则会将较难预测的样本输入至更深层的模型,保证了浅层模型情绪识别的准确率,深层模型为一个多模态情绪识别模型Transformer-based joint-encoding(TBJE),将较难预测的样本输入至该模型,得到其情绪识别结果并输出;因大部分常用语或普通的表达都能在浅层模型中得到预测并输出结果,因此在保证了准确率的前提下,提高了多模态情绪识别的整体响应速度。
与现有技术相比,本发明的有益效果如下:
1.本发明提出了一种结合分层策略的多模态情绪识别方法,该情绪识别方法结合了语音特征和文本特征,与单语音和单文本情绪识别方法相比,进一步提高了情绪识别的准确率;
2.多模态情绪识别模型一般较大,使得模型的推理预测速度较慢,影响模型的响应效率和并发,因此本发明提出了一种结合分层策略的多模态情绪识别方法,对较易预测的样本在浅层模型中推理预测,对较难预测的样本放在深层模型中推理预测,从而在保证准确率的情况下,提高了多模态情绪识别的整体响应速度。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的整体架构图;
图2是本发明的语音情绪识别模型CNN的架构示意图;
图3是本发明的文本情绪识别框架中的BiGRU-Attention模型的架构示意图;
图4是本发明的多模态情绪识别模型Transformer-based joint-encoding(TBJE)的整体架构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。其中附图中相同的标号全部指的是相同的部件。
实施例1
如图1-4,本发明提供一种结合分层策略的多模态情绪识别方法,包括以下步骤:
S1、首先该结合分层策略的多模态情绪识别方法的输入为语音以及该语音对应的文本;
S2、该结合分层策略的多模态情绪识别方法的浅层模型由语音情绪识别模型CNN和一个文本情绪识别框架组成,其中文本情绪识别框架由高频句匹配、正则表达式匹配和BiGRU-Attention模型构成,其深层模型为一个多模态情绪识别模型Transformer-basedjoint-encoding(TBJE);
S3、将语音数据输入一个CNN语音情绪识别模型进行推理预测,该语音情绪识别模型较小,并且推理的速度较快;
S4、为语音情绪识别模型的情绪标签设置相应的阈值,如果语音情绪识别模型预测到该情绪类别的概率值超过该情绪类别对应的阈值时,则令变量audio_emotion等于该情绪类别,否则令变量audio_emotion的值为null;
S5、同时将文本数据输入一个分层的文本情绪识别框架,该文本情绪识别框架分为高频句匹配,正则表达式匹配以及一个BiGRU-Attention模型,BiGRU-Attention模型为一个双向GRU模型并结合了Attention注意力机制,该模型相对较小,并且推理的速度较快。其中GRU单元的更新方式如下:
zt=σ(Wxzxt+Whzht-1)
rt=σ(Wxrxt+Whrht-1)
Figure BDA0003817891480000061
Figure BDA0003817891480000062
其中zt表示更新门,rt表示重置门,σ为sigmod激活函数,xt表示t时刻的输入,ht-1表示t-1时刻的隐藏状态,ht表示t时刻的隐藏状态;
本发明采用BiGRU结构,对每条文本分别计算正向和反向的隐藏状态并拼接,得到目标文本序列H;
并使用attention注意力机制,计算注意力权重系数,计算过程如下:
a=softmax(WTtanh(H))
其中H为目标文本序列,softmax为归一化指数函数,a为注意力权重系数,WT为变量参数。
进一步地,利用注意力权重系数计算出目标文本序列的上下文序列为:
M=tanh(HaT)
其中a为注意力权重系数,H为目标文本序列,M为上下文序列。
将上下文序列M输入全连接层(Full Connected Layer)以及softmax函数得到分类结果。
以上为BiGRU-Attention模型的推理过程,在本发明中采用一种分层的文本情绪识别框架,当文本输入该文本情绪识别框架时,首先进行高频句匹配,如果该输入文本匹配到高频句库中的高频句,则令text_emotion等于该高频句所对应的情绪标签,并结束文本情绪识别过程,否则将该文本输入正则表达式匹配层,如果该文本与某条正则表达式匹配成功,则令text_emotion等于该条正则表达式所对应的情绪标签,并结束文本情绪识别过程,否则将该文本输入BiGRU-Attention模型,为BiGRU-Attention模型的分类情绪标签设置相应的阈值,如果BiGRU-Attention模型预测到的情绪类别的概率值超过该情绪类别对应的阈值,则令变量text_emotion等于该情绪类别,否则令变量text_emotion的值为null。
S6、比较语音情绪识别与文本情绪识别的结果,即比较audio_emotion与text_emotion的情绪标签值,如果两者的值相同,则将该情绪标签值作为最后的情绪识别结果并输出,结束本轮预测过程。如果audio_emotion与text_emotion的值不同或者audio_emotion、text_emotion中存在null值,则将语音和其对应的文本输入多模态情绪识别模型Transformer-based joint-encoding(TBJE)。
S7、Transformer-based joint-encoding(TBJE)为一个多模态情绪识别模型,其输入为语音以及该语音对应的文本,首先将语音和文本同时输入Transformer-basedjoint-encoding(TBJE)模型,文本输入Embedding层以及LSTM层后得到文本特征a,语音提取特征并输入至全连接层(Full Connected Layer),得到语音特征b,将文本特征a以及语音特征b,同时输入至多层的Multimodal Transformer,并输出特征
Figure BDA0003817891480000071
和特征
Figure BDA0003817891480000072
将特征
Figure BDA0003817891480000073
和特征
Figure BDA0003817891480000081
经过Flatten、Add和Norm层后,得到融合语音和文本的特征c,将特征c输入至全连接层(Full Connected Layer)得到本轮情绪识别结果并输出。
S8、该结合分层策略的多模态情绪识别方法将较易预测的样本在浅层进行推理预测,并在浅层设置了一个较小的语音情绪识别模型和文本情绪识别框架,只有当两者预测的情绪标签相同时,才会直接输出情绪识别结果。否则会将较难预测的样本输入至更深层的模型,保证了浅层模型情绪识别的准确率,在本发明方案中,深层模型为一个多模态情绪识别模型Transformer-based joint-encoding(TBJE),将较难预测的样本输入至该模型,得到其情绪识别结果并输出。因大部分常用语或普通的表达都能在浅层模型中得到预测并输出结果,因此在保证了准确率的前提下,提高了多模态情绪识别的整体响应速度。
具体的,示例如下:
1.设情绪识别场景的类别有中性,高兴,愤怒三种情绪类别。
2.设语音情绪识别模型CNN在中性,高兴,愤怒三种情绪类别上的阈值都为0.5。
3.设文本情绪识别框架中的BiGRU-Attention模型在中性,高兴,愤怒三种情绪类别上的阈值都为0.5。
4.输入的样本为语音以及该语音所对应的文本,将语音输入语音情绪识别CNN模型,设语音情绪识别模型预测到三个类别中性、高兴、愤怒的概率为0.21、0.6、0.19,因为情绪标签高兴的概率值0.6大于阈值0.5。则令audio_emotion=高兴。反之如果模型预测到三个类别中性、高兴、愤怒的概率值都小于0.5,则令audio_emotion=null。
5.将文本输入文本情绪识别框架,如该文本匹配到了高频句,则令text_emotion=该条高频句对应的情绪类别,并结束文本情绪识别过程。如果该文本没有匹配到高频句,则将文本输入到正则表达式匹配层,如该文本匹配到某条正则表达式,则令text_emotion=该条正则表达式对应的情绪类别,并结束文本情绪识别过程,如果该文本未匹配到正则表达式,则将该文本输入至BiGRU-Attention模型,假设该条文本在高频句和正则表达式层均未匹配成功,且通过BiGRU-Attention模型预测后在三个类别中性、高兴、愤怒的概率为0.05、0.7、0.25,因为情绪标签高兴的概率值大于阈值0.5,则令text_emotion=高兴。反之如果模型预测到三个类别中性、高兴、愤怒的概率值都小于0.5,则令text_emotion=null。
6.比较audio_emotion与text_emotion的情绪标签值,如果两者的值相等,则输出该情绪标签值,结束本轮预测过程。如果两者的值不相等,或audio_emotion、text_emotion中存在null值,则将语音和该条语音对应的文本输入至多模态情绪识别模型Transformer-based joint-encoding(TBJE)中进行推理预测,将预测的结果作为本轮情绪识别的预测结果并输出。
本发明具备以下特点:
1.多模态情绪识别模型一般较大,使得模型的推理预测速度较慢,影响模型的响应效率和并发,因此本发明提出了一种结合分层策略的多模态情绪识别方法,对较易预测的样本在浅层模型中推理预测,对较难预测的样本放在深层模型中推理预测,从而在保证准确率的情况下,提高了多模态情绪识别的整体响应速度。
2.具体地该结合分层策略的多模态情绪识别方法的浅层模型由一个较小的语音情绪识别模型(如:CNN)和一个文本情绪识别框架组成,其中文本情绪识别框架由高频句匹配、正则表达式匹配和一个较小的模型(如:BiGRU-Attention)构成,语音情绪识别模型和文本情绪识别框架均相对较小,推理速度较快,其深层模型为一个多模态情绪识别模型(如:Transformer-based joint-encoding)。
3.该发明的输入为语音以及该语音对应的文本,其中语音和文本为同时输入。将语音输入至语音情绪识别模型,为语音情绪识别模型的情绪标签设置相应的阈值,如果语音情绪识别模型预测到该情绪类别的概率值超过该情绪类别对应的阈值时,则令变量audio_emotion等于该情绪类别,否则令变量audio_emotion的值为null。
4.将文本输入文本情绪识别框架时,首先进行高频句匹配,如果该输入文本匹配到高频句库中的高频句,则令text_emotion等于该高频句所对应的情绪标签,并结束文本情绪识别过程,否则将该文本输入正则表达式匹配层,如果该文本与某条正则表达式匹配成功,则令text_emotion等于该条正则表达式所对应的情绪标签,并结束文本情绪识别过程,否则将该文本输入一个较小的模型(如:BiGRU-Attention),为该模型的分类情绪标签设置相应的阈值,如果该模型预测到的情绪类别的概率值超过对应情绪类别的阈值,则令变量text_emotion等于该情绪类别,否则令变量text_emotion的值为null。
5.当浅层模型中语音情绪识别的结果audio_emotion与文本情绪识别的的结果text_emotion,两者的情绪标签值相等时,会直接输出情绪识别结果,否则会将较难预测的样本输入至更深层的模型,保证了该结合分层策略的多模态情绪识别方法的准确率,在本发明方案中,深层模型为一个多模态情绪识别模型(如:Transformer-based joint-encoding),将较难预测的样本输入至该模型,得到其情绪识别结果并输出。因大部分常用语或普通的表达都能在浅层模型中得到预测并输出结果,因此在保证了准确率的前提下,提高了多模态情绪识别的整体响应速度。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种结合分层策略的多模态情绪识别方法,其特征在于,包括以下步骤:
S1、首先该结合分层策略的多模态情绪识别方法的输入为语音以及该语音对应的文本;
S2、该结合分层策略的多模态情绪识别方法的浅层模型由语音情绪识别模型CNN和一个文本情绪识别框架组成,其中文本情绪识别框架由高频句匹配、正则表达式匹配和BiGRU-Attention模型构成,其深层模型为一个多模态情绪识别模型Transformer-basedjoint-encoding(TBJE);
S3、将语音数据输入一个CNN语音情绪识别模型进行推理预测,该语音情绪识别模型较小,并且推理的速度较快;
S4、为语音情绪识别模型的情绪标签设置相应的阈值,如果语音情绪识别模型预测到该情绪类别的概率值超过该情绪类别对应的阈值时,则令变量audio_emotion等于该情绪类别,否则令变量audio_emotion的值为null;
S5、同时将文本数据输入一个分层的文本情绪识别框架,该文本情绪识别框架分为高频句匹配,正则表达式匹配以及一个BiGRU-Attention模型,BiGRU-Attention模型为一个双向GRU模型并结合了Attention注意力机制,该模型相对较小,并且推理的速度较快;其中GRU单元的更新方式如下:
zt=σ(Wxzxt+Whzht-1)
rt=σ(Wxrxt+Whrht-1)
Figure FDA0003817891470000011
Figure FDA0003817891470000012
其中zt表示更新门,rt表示重置门,σ为sigmod激活函数,xt表示t时刻的输入,ht-1表示t-1时刻的隐藏状态,ht表示t时刻的隐藏状态;
采用BiGRU结构,对每条文本分别计算正向和反向的隐藏状态并拼接,得到目标文本序列H;
并使用attention注意力机制,计算注意力权重系数,计算过程如下:
a=softmax(WTtanh(H))
其中H为目标文本序列,softmax为归一化指数函数,a为注意力权重系数,WT为变量参数;
进一步地,利用注意力权重系数计算出目标文本序列的上下文序列为:
M=tanh(HaT)
其中a为注意力权重系数,H为目标文本序列,M为上下文序列;
将上下文序列M输入全连接层(Full Connected Layer)以及softmax函数得到分类结果;
以上为BiGRU-Attention模型的推理过程,在本发明中采用一种分层的文本情绪识别框架,当文本输入该文本情绪识别框架时,首先进行高频句匹配,如果该输入文本匹配到高频句库中的高频句,则令text_emotion等于该高频句所对应的情绪标签,并结束文本情绪识别过程,否则将该文本输入正则表达式匹配层,如果该文本与某条正则表达式匹配成功,则令text_emotion等于该条正则表达式所对应的情绪标签,并结束文本情绪识别过程,否则将该文本输入BiGRU-Attention模型,为BiGRU-Attention模型的分类情绪标签设置相应的阈值,如果BiGRU-Attention模型预测到的情绪类别的概率值超过该情绪类别对应的阈值,则令变量text_emotion等于该情绪类别,否则令变量text_emotion的值为null;
S6、比较语音情绪识别与文本情绪识别的结果,即比较audio_emotion与text_emotion的情绪标签值,如果两者的值相同,则将该情绪标签值作为最后的情绪识别结果并输出,结束本轮预测过程;如果audio_emotion与text_emotion的值不同或者audio_emotion、text_emotion中存在null值,则将语音和其对应的文本输入多模态情绪识别模型Transformer-based joint-encoding(TBJE);
S7、Transformer-based joint-encoding(TBJE)为一个多模态情绪识别模型,其输入为语音以及该语音对应的文本,首先将语音和文本同时输入Transformer-based joint-encoding(TBJE)模型,文本输入Embedding层以及LSTM层后得到文本特征a,语音提取特征并输入至全连接层(Full Connected Layer),得到语音特征b,将文本特征a以及语音特征b,同时输入至多层的Multimodal Transformer,并输出特征
Figure FDA0003817891470000031
和特征
Figure FDA0003817891470000032
将特征
Figure FDA0003817891470000033
和特征
Figure FDA0003817891470000034
经过Flatten、Add和Norm层后,得到融合语音和文本的特征c,将特征c输入至全连接层(FullConnected Layer)得到本轮情绪识别结果并输出;
S8、该结合分层策略的多模态情绪识别方法将较易预测的样本在浅层进行推理预测,并在浅层设置了一个较小的语音情绪识别模型和文本情绪识别框架,只有当两者预测的情绪标签相同时,才会直接输出情绪识别结果;否则会将较难预测的样本输入至更深层的模型,保证了浅层模型情绪识别的准确率,深层模型为一个多模态情绪识别模型Transformer-based joint-encoding(TBJE),将较难预测的样本输入至该模型,得到其情绪识别结果并输出;因大部分常用语或普通的表达都能在浅层模型中得到预测并输出结果,因此在保证了准确率的前提下,提高了多模态情绪识别的整体响应速度。
CN202211037654.2A 2022-08-26 2022-08-26 一种结合分层策略的多模态情绪识别方法 Pending CN115641878A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211037654.2A CN115641878A (zh) 2022-08-26 2022-08-26 一种结合分层策略的多模态情绪识别方法
PCT/CN2022/136487 WO2024040793A1 (zh) 2022-08-26 2022-12-05 一种结合分层策略的多模态情绪识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211037654.2A CN115641878A (zh) 2022-08-26 2022-08-26 一种结合分层策略的多模态情绪识别方法

Publications (1)

Publication Number Publication Date
CN115641878A true CN115641878A (zh) 2023-01-24

Family

ID=84939393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211037654.2A Pending CN115641878A (zh) 2022-08-26 2022-08-26 一种结合分层策略的多模态情绪识别方法

Country Status (2)

Country Link
CN (1) CN115641878A (zh)
WO (1) WO2024040793A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828537B (zh) * 2024-03-04 2024-05-17 北京建筑大学 一种基于cba模型的音乐情感识别方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110364185B (zh) * 2019-07-05 2023-09-29 平安科技(深圳)有限公司 一种基于语音数据的情绪识别方法、终端设备及介质
CN110910901B (zh) * 2019-10-08 2023-03-28 平安科技(深圳)有限公司 一种情绪识别方法及装置、电子设备和可读存储介质
CN111429946A (zh) * 2020-03-03 2020-07-17 深圳壹账通智能科技有限公司 语音情绪识别方法、装置、介质及电子设备
CN114120978A (zh) * 2021-11-29 2022-03-01 中国平安人寿保险股份有限公司 情绪识别模型训练、语音交互方法、装置、设备及介质
CN114882522A (zh) * 2022-04-01 2022-08-09 浙江西图盟数字科技有限公司 基于多模态融合的行为属性识别方法、装置及存储介质

Also Published As

Publication number Publication date
WO2024040793A1 (zh) 2024-02-29

Similar Documents

Publication Publication Date Title
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
Shan et al. Component fusion: Learning replaceable language model component for end-to-end speech recognition system
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN109858041B (zh) 一种半监督学习结合自定义词典的命名实体识别方法
JP2021067939A (ja) 音声インタラクション制御のための方法、装置、機器及び媒体
CN110956953B (zh) 基于音频分析与深度学习的争吵识别方法
CN106409289B (zh) 语音识别的环境自适应方法、语音识别装置和家用电器
CN110555084B (zh) 基于pcnn和多层注意力的远程监督关系分类方法
US20220328065A1 (en) Speech emotion recognition method and system based on fused population information
CN112560432A (zh) 基于图注意力网络的文本情感分析方法
CN110866542A (zh) 一种基于特征可控融合的深度表示学习方法
CN110532558A (zh) 一种基于句子结构深层解析的多意图识别方法及系统
EP3903307A1 (en) System and method for communicating with a user with speech processing
CN111353029A (zh) 一种基于语义匹配的多轮对话口语理解方法
CN108538285A (zh) 一种基于多任务神经网络的多样例关键词检测方法
CN113223509A (zh) 一种应用于多人混杂场景下的模糊语句识别方法及系统
CN111651973A (zh) 一种基于句法感知的文本匹配方法
CN110516035A (zh) 一种混合模块的人机交互方法和系统
CN115641878A (zh) 一种结合分层策略的多模态情绪识别方法
CN117033602A (zh) 一种多模态的用户心智感知问答模型的构建方法
CN114818738B (zh) 一种客服热线用户意图轨迹识别的方法及系统
CN110472655A (zh) 一种用于跨境旅游的标志物机器学习识别系统及方法
CN114333768A (zh) 语音检测方法、装置、设备和存储介质
CN117251562A (zh) 一种基于事实一致性增强的文本摘要生成方法
CN117238279A (zh) 一种基于语音识别和端点检测的管制语音切分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination