CN114463688A - 一种跨模态上下文编码的对话情感识别方法及系统 - Google Patents

一种跨模态上下文编码的对话情感识别方法及系统 Download PDF

Info

Publication number
CN114463688A
CN114463688A CN202210377011.6A CN202210377011A CN114463688A CN 114463688 A CN114463688 A CN 114463688A CN 202210377011 A CN202210377011 A CN 202210377011A CN 114463688 A CN114463688 A CN 114463688A
Authority
CN
China
Prior art keywords
modal
vector sequence
sequence
voice
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210377011.6A
Other languages
English (en)
Inventor
李太豪
阮玉平
张晓宁
黄剑韬
郑书凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210377011.6A priority Critical patent/CN114463688A/zh
Publication of CN114463688A publication Critical patent/CN114463688A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种跨模态上下文编码的对话情感识别方法及系统,该方法包括:步骤S1,将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码,得到各语句对应的视觉模态、语音模态及文本模态表征向量序列;步骤S2,将多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,得到对话中各语句的单模态上下文编码表征;步骤S3,将对话中各语句的单模态上下文编码表征进行两两组合编码,得到对话中各语句跨模态融合的上下文编码;步骤S4,将跨模态融合的上下文编码表征进行自适应的信息汇总,并对语句的情感类别进行判断。本发明能够有效提升对话情感的识别精度。

Description

一种跨模态上下文编码的对话情感识别方法及系统
技术领域
本发明属于人工智能领域,涉及一种跨模态上下文编码的对话情感识别方法及系统。
背景技术
对话机器人作为人工智能领域的重要研究方向,赋予机器人拟人化的情感计算能力近来引起了学术界和产业界的广泛关注。通常说话人的情感表达是通过多种外在载体融合表现的,如视觉、语音及语言文字等,因此基于多模态信息的对话情感识别成为领域内的研究热点之一,其难点在于:1)不同模态信息存在缺失、相悖等情形;2)异构多模态信息的有效融合;3)跨模态信息融合与多轮对话交互上下文建模有机融合。
现有主流方法大多采用不同模态特征向量简单拼接的方式进行跨模态信息的融合,其存在两方面问题:1)无法应对多模态信息融合推理时存在的模态缺失、模态相悖等问题;2)多模态融合与多轮对话交互上下文建模是两个独立的过程,难以在对话交互场景下实现多模态信息的深度融合与理解。
因此,如何有效解决多轮对话场景中不同模态信息融合的上下文编码问题,对用户情感状态进行建模,进而提高说话人情感识别的精确度,是一项亟待解决的问题。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种跨模态上下文编码的对话情感识别方法及系统,能够有效处理多轮对话中不同模态信息的融合问题,通过对对话语句进行模态内及跨模态的上下文编码,有效提升对话情感的识别精度,其具体技术方案如下:
一种跨模态上下文编码的对话情感识别方法,包括以下步骤:
步骤S1,将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码,得到各语句对应的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列;
步骤S2,将多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,得到对话中各语句的单模态上下文编码表征;
步骤S3,将对话中各语句的单模态上下文编码表征进行两两组合编码,得到对话中各语句跨模态融合的上下文编码;
步骤S4,将跨模态融合的上下文编码表征进行自适应的信息汇总,并对语句的情感类别进行判断。
进一步的,所述步骤S1具体包括以下步骤:
步骤S11,将原始多轮对话的视频切分成n个语句片段
Figure 100002_DEST_PATH_IMAGE002
,并标注其对应的说话人ID序列
Figure 100002_DEST_PATH_IMAGE004
,提取每个语句片段
Figure 100002_DEST_PATH_IMAGE006
对应的视频图像帧序列
Figure 100002_DEST_PATH_IMAGE008
、语音波形信号
Figure 100002_DEST_PATH_IMAGE010
及语音进行文本转写后的文本语句
Figure 100002_DEST_PATH_IMAGE012
i=1,2,…nn为整数;
步骤S12,对视频图像帧序列
Figure 63793DEST_PATH_IMAGE008
中的视频图像帧进行人脸检测,提取说话人人脸图片表征向量,得到视觉模态表征向量序列
Figure 100002_DEST_PATH_IMAGE014
步骤S13,提取语音波形信号
Figure 43251DEST_PATH_IMAGE010
中语音信号帧的fbank滤波器组语音特征,通过LSTM循环神经网络得到语音模态表征向量序列
Figure 100002_DEST_PATH_IMAGE016
步骤S14,利用预训练模型BERT提取文本语句
Figure 150884DEST_PATH_IMAGE012
的文本语义特征,得到文本模态表征向量序列
Figure 100002_DEST_PATH_IMAGE018
进一步的,步骤S12具体为:
对于语句片段
Figure 749356DEST_PATH_IMAGE006
对应的视频图像帧序列
Figure 157203DEST_PATH_IMAGE008
,设其包含
Figure 100002_DEST_PATH_IMAGE020
张图片,即表达式:
Figure 100002_DEST_PATH_IMAGE022
使用开源人脸检测工具对
Figure 510824DEST_PATH_IMAGE008
中的每帧图像进行人脸区域标定,并截取对应的人脸区域图像,得到只包含人脸的图像帧序列,表达式为:
Figure 100002_DEST_PATH_IMAGE024
针对人脸图片帧序列
Figure 100002_DEST_PATH_IMAGE026
,统一规整其中每张图片的尺寸,并输入到开源预训练模型EfficientNet-B1中,取该模型最后一个隐层输出作为输入图片的表征向量;
Figure 439509DEST_PATH_IMAGE026
中所有人脸图片表征的最大值池化向量
Figure 100002_DEST_PATH_IMAGE028
作为语句片段
Figure 966305DEST_PATH_IMAGE006
的视觉模态表征向量,得到视觉模态表征向量序列
Figure 100002_DEST_PATH_IMAGE030
进一步的,步骤S13具体为:
对语句片段
Figure 838446DEST_PATH_IMAGE006
对应的语音波形信号
Figure 425285DEST_PATH_IMAGE010
,抽取其fbank滤波器组语音特征,得到语音特征向量序列,表达式为:
Figure 100002_DEST_PATH_IMAGE032
将语音特征向量序列
Figure 100002_DEST_PATH_IMAGE034
输入到单层的LSTM循环神经网络中,设定隐层维度,取编码后的LSTM隐层状态的最大值池化向量
Figure 100002_DEST_PATH_IMAGE036
作为语句片段
Figure 304249DEST_PATH_IMAGE006
的语音模态表征向量,得到语音模态表征向量序列,表达式为:
Figure 100002_DEST_PATH_IMAGE038
进一步的,步骤S14具体为:
对语句片段
Figure 369157DEST_PATH_IMAGE006
对应的文本语句
Figure 361383DEST_PATH_IMAGE012
,将其输入到中文预训练语言模型BERT中,取最后一层编码表征向量
Figure 100002_DEST_PATH_IMAGE040
作为语句片段
Figure 119124DEST_PATH_IMAGE006
的文本模态表征向量,得到文本模态表征向量序列,表达式为:
Figure 100002_DEST_PATH_IMAGE042
进一步的,所述步骤S2具体包括以下步骤:
步骤S21,根据步骤S11中得到的说话人ID序列,通过定义一个说话人embedding嵌入层,将说话人ID序列映射为说话人embedding嵌入向量序列
Figure 100002_DEST_PATH_IMAGE044
,表达式为:
Figure 100002_DEST_PATH_IMAGE046
步骤S22,将步骤S21中得到的说话人embedding嵌入向量序列
Figure 485383DEST_PATH_IMAGE044
与步骤S12、步骤S13、步骤S14中得到的各个单模态表征向量序列
Figure 229348DEST_PATH_IMAGE014
Figure 466294DEST_PATH_IMAGE016
Figure 535882DEST_PATH_IMAGE018
进行拼接,分别得到融入说话人身份信息的视觉模态表征、音频模态表征及文本模态表征,表达式为:
Figure 100002_DEST_PATH_IMAGE048
Figure 100002_DEST_PATH_IMAGE050
Figure 100002_DEST_PATH_IMAGE052
表示融入说话人身份信息的视觉模态表征,
Figure 100002_DEST_PATH_IMAGE054
表示融入说话人身份信息的音频模态表征,
Figure 100002_DEST_PATH_IMAGE056
表示融入说话人身份信息的文本模态表征,
Figure 100002_DEST_PATH_IMAGE058
表示融入说话人身份信息的视觉、音频或文本模态表征序列;
步骤S23,将步骤S22中得到的多轮对话语句的单模态表征向量序列
Figure 100002_DEST_PATH_IMAGE060
Figure 100002_DEST_PATH_IMAGE062
Figure 100002_DEST_PATH_IMAGE064
分别输入到对应的单层LSTM循环神经网络中进行编码,设定隐层维度,得到各对话语句对应的单模态上下文表征向量
Figure 100002_DEST_PATH_IMAGE066
,从而得到各对话语句对应的单模态上下文表征序列,表达式为:
Figure 100002_DEST_PATH_IMAGE068
进一步的,所述步骤S3具体包括以下步骤:
步骤S31,将步骤S23中得到的多轮对话单模态上下文表征向量序列
Figure 100002_DEST_PATH_IMAGE070
Figure 100002_DEST_PATH_IMAGE072
Figure 100002_DEST_PATH_IMAGE074
进行跨模态两两组合,并输入到单层的Transformer编码网络中,得到编码输出
Figure 100002_DEST_PATH_IMAGE076
Figure 100002_DEST_PATH_IMAGE078
,表达式为:
Figure 100002_DEST_PATH_IMAGE080
Figure 100002_DEST_PATH_IMAGE082
Figure 100002_DEST_PATH_IMAGE084
步骤S32,将步骤S31中得到的
Figure 147692DEST_PATH_IMAGE076
Figure 695348DEST_PATH_IMAGE078
进行拼接,作为对话语句的跨模态融合的上下文编码表征,表达式为:
Figure 100002_DEST_PATH_IMAGE086
Figure 100002_DEST_PATH_IMAGE088
进一步的,所述步骤S4具体包括以下步骤:
步骤S41,将跨模态融合的上下文编码表征
Figure 100002_DEST_PATH_IMAGE090
Figure 100002_DEST_PATH_IMAGE092
Figure 100002_DEST_PATH_IMAGE094
作为向量序列
Figure 100002_DEST_PATH_IMAGE096
输入到单层Multi-Head Attention多头注意力网络中,该网络的编码输出经过池化层后,输入到单层的全连接网络,得到语句片段
Figure 380276DEST_PATH_IMAGE006
m维特征向量
Figure 100002_DEST_PATH_IMAGE098
,其中m表示情感类别数;
步骤S42,将特征向量
Figure 100002_DEST_PATH_IMAGE100
作为softmax算子的自变量,计算softmax的最终值,作为语句
Figure 73295DEST_PATH_IMAGE006
属于每一类情感的概率值,最后取类别概率值最大的作为最终情感类别,其中Softmax的计算公式如下:
Figure 100002_DEST_PATH_IMAGE102
其中
Figure 100002_DEST_PATH_IMAGE104
为常量,j,k=1,2,…m
一种跨模态上下文编码的对话情感识别系统,包括:多轮对话预处理模块、模态内上下文编码模块、跨模态上下文编码模块、情感识别模块,所述多轮对话预处理模块,用于对原始多轮对话视频进行语句切分,并抽取各语句对应的视觉、语音及文本单模态表征,得到视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列;
所述模态内上下文编码模块,用于对多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,即将不同模态表征与说话人embedding嵌入向量拼接,然后利用LSTM循环神经网络进行上下文编码,得到对话中各语句的单模态上下文编码表征;
所述跨模态上下文编码模块,用于将对话中各语句的单模态上下文编码表征进行两两组合编码,即利用Transformer网络进行不同模态两两组合的上下文融合编码,得到对话中各语句跨模态融合的上下文编码表征;
所述情感识别模块,用于对跨模态融合的上下文编码表征进行汇总融合,并预测对话语句的情感类别。
进一步的,所述视觉模态表征向量序列的获取具体采用以下方式:通过对视频图像帧进行人脸检测,并利用预训练模型EfficientNet-B1抽取说话人人脸图片表征向量得到;所述语音模态表征向量序列的获取具体采用以下方式:通过提取语音帧的fbank滤波器组语音特征,采用LSTM循环神经网络得到;所述文本模态表征向量序列的获取具体采用以下方式:通过预训练模型BERT提取文本语义特征得到。
本发明的优点如下:
1、本发明的对话情感识别方法,在提取说话人视觉信息时,通过利用人脸检测工具,将说话人脸部区域图像抠出,在有效提取与情感相关的人脸表情特征的同时,以去除无关视觉特征的干扰。
2、本发明的对话情感识别方法,在进行单模态特征上下文编码时,通过拼接说话人embedding嵌入向量,有效的在多轮对话上下文编码过程中,引入了说话人身份信息。
3、本发明的对话情感识别方法,通过基于Transformer网络的(Query,Key,Value)查询注意力机制,具体通过将不同模态进行两两组合,并将其分别设为Query矩阵、Key矩阵、Value矩阵来实现跨模态融合与对话上下文编码的有机融合。
附图说明
图1为本发明的对话情感识别方法的流程示意图;
图2为本发明的对话情感识别的网络结构示意图;
图3为本发明的对话情感识别系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
如图1和图2所示,一种跨模态上下文编码的对话情感识别方法,包括以下步骤:
步骤S1,单模态表征抽取:将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码,得到各语句对应的视觉模态表征向量、语音模态表征向量及文本模态表征向量。具体地,包括如下步骤:
步骤S11,将原始多轮对话的视频切分成n个语句片段
Figure 289512DEST_PATH_IMAGE002
,并标注其对应的说话人ID序列
Figure 31072DEST_PATH_IMAGE004
;针对每个语句片段
Figure 852398DEST_PATH_IMAGE006
,提取其对应的视频图像帧序列
Figure 388421DEST_PATH_IMAGE008
、语音波形信号
Figure 560777DEST_PATH_IMAGE010
及语音进行文本转写后的文本语句
Figure 450235DEST_PATH_IMAGE012
i=1,2,…nn为整数。
步骤S12,对视频图像帧序列
Figure 781859DEST_PATH_IMAGE008
中的视频图像帧进行人脸检测,提取说话人人脸图片表征向量,得到视觉模态表征向量序列;
针对步骤S11中提取的对话语句的原始视觉模态信息,即语句片段
Figure 364150DEST_PATH_IMAGE006
对应的视频图像帧序列
Figure 882856DEST_PATH_IMAGE008
,设其包含
Figure 576006DEST_PATH_IMAGE020
张图片,即表达式:
Figure DEST_PATH_IMAGE022A
使用开源人脸检测工具对
Figure 434241DEST_PATH_IMAGE008
中的每帧图像进行人脸区域标定,并截取对应的人脸区域图像,得到只包含人脸的图像帧序列,表达式为:
Figure DEST_PATH_IMAGE024A
针对上述人脸图片帧序列
Figure 786768DEST_PATH_IMAGE026
,对其中每张图片的尺寸统一规整到
Figure DEST_PATH_IMAGE106
,并输入到开源预训练模型EfficientNet-B1中,取该模型最后一个隐层输出作为输入图片的表征向量;
Figure 527191DEST_PATH_IMAGE026
中所有人脸图片表征的最大值池化向量
Figure 148665DEST_PATH_IMAGE028
作为语句片段
Figure 799089DEST_PATH_IMAGE006
的视觉模态表征向量,向量维度为1280,得到视觉模态表征向量序列
Figure 723183DEST_PATH_IMAGE030
步骤S13,提取语音波形信号
Figure 216481DEST_PATH_IMAGE010
中语音信号帧的fbank滤波器组语音特征,通过LSTM循环神经网络得到语音模态表征向量序列;
针对步骤S11中提取的对话语句原始音频模态信息,即语句片段
Figure 251433DEST_PATH_IMAGE006
对应的语音波形信号
Figure 412156DEST_PATH_IMAGE010
,抽取其128维的fbank(Filterbank,滤波器组特征)语音特征,其中帧长设50ms,帧间交叠时长设为12.5ms,得到语音特征向量序列,表达式为:
Figure DEST_PATH_IMAGE108
将上述语音特征向量序列
Figure 975992DEST_PATH_IMAGE034
输入到单层的LSTM循环神经网络中,隐层维度设为768,取编码后的LSTM隐层状态的最大值池化向量
Figure 956587DEST_PATH_IMAGE036
作为语句片段
Figure 60809DEST_PATH_IMAGE006
的语音模态表征向量,得到语音模态表征向量序列,表达式为:
Figure DEST_PATH_IMAGE110
步骤S14,步骤S14,利用预训练模型BERT提取文本语句
Figure 748142DEST_PATH_IMAGE012
的文本语义特征,得到文本模态表征向量序列;
针对步骤S11中提取的对话语句原始文本信息,即片段
Figure 404251DEST_PATH_IMAGE006
对应的文本语句
Figure 481929DEST_PATH_IMAGE012
,将其输入到中文预训练语言模型BERT中,取字符“[CLS]”的最后一层编码表征向量
Figure 248897DEST_PATH_IMAGE040
作为语句片段
Figure 993999DEST_PATH_IMAGE006
的文本模态表征向量,维度为768,得到文本模态表征向量序列,表达式为:
Figure DEST_PATH_IMAGE112
步骤S2,模态内上下文编码:对多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,得到对话中各语句的单模态上下文编码表征。具体地,包括如下步骤:
步骤S21,针对步骤S11中得到的说话人ID序列,通过定义一个说话人embedding嵌入层,将说话人ID序列映射为说话人embedding嵌入向量序列
Figure 758692DEST_PATH_IMAGE044
,维度设为32,表达式为:
Figure DEST_PATH_IMAGE046A
步骤S22,将步骤S21中得到的说话人embedding嵌入向量序列
Figure 917141DEST_PATH_IMAGE044
与步骤S12、步骤S13、步骤S14中得到的各个单模态表征向量序列
Figure 222221DEST_PATH_IMAGE014
Figure 556250DEST_PATH_IMAGE016
Figure 429528DEST_PATH_IMAGE018
进行拼接,分别得到融入说话人身份信息的视觉模态表征、音频模态表征及文本模态表征,表达式为:
Figure DEST_PATH_IMAGE048A
Figure DEST_PATH_IMAGE050A
Figure 137590DEST_PATH_IMAGE052
表示融入说话人身份信息的视觉模态表征,
Figure 980781DEST_PATH_IMAGE054
表示融入说话人身份信息的音频模态表征,
Figure 700475DEST_PATH_IMAGE056
表示融入说话人身份信息的文本模态表征,
Figure 603709DEST_PATH_IMAGE058
表示融入说话人身份信息的视觉、音频或文本模态表征序列;
步骤S23,将步骤S22中得到的多轮对话语句的单模态表征向量序列
Figure 408854DEST_PATH_IMAGE060
Figure 931103DEST_PATH_IMAGE062
Figure 381936DEST_PATH_IMAGE064
分别输入到对应的单层LSTM循环神经网络中进行编码,隐层维度设为768,得到各对话语句对应的单模态上下文表征向量
Figure 597017DEST_PATH_IMAGE066
,从而得到各对话语句对应的单模态上下文表征序列,表达式为:
Figure 482933DEST_PATH_IMAGE068
步骤S3,跨模态交互上下文编码:将对话中各语句的单模态上下文编码表征进行两两组合编码,得到对话中各语句跨模态融合的上下文编码。具体地,包括如下步骤:
步骤S31,针对步骤S23中得到的多轮对话单模态上下文表征向量序列
Figure 74451DEST_PATH_IMAGE070
Figure 237580DEST_PATH_IMAGE072
Figure 748195DEST_PATH_IMAGE074
进行跨模态两两组合,并输入到单层的Transformer编码网络中,得到编码输出
Figure 262353DEST_PATH_IMAGE076
Figure 251038DEST_PATH_IMAGE078
,该网络Head数目设为8,隐层维度设为768,表达式为:
Figure DEST_PATH_IMAGE080A
Figure DEST_PATH_IMAGE082A
Figure DEST_PATH_IMAGE084A
步骤S32,将步骤S31中得到的
Figure 127727DEST_PATH_IMAGE076
Figure 74823DEST_PATH_IMAGE078
进行拼接,作为对话语句的跨模态融合的上下文编码表征:
Figure DEST_PATH_IMAGE086A
Figure 138594DEST_PATH_IMAGE088
步骤S4,将跨模态融合的上下文编码表征进行自适应的信息汇总,并对语句的情感类别进行判断。具体地,包括如下步骤:
步骤S41,将步骤S32中得到的跨模态融合的上下文编码表征
Figure 71915DEST_PATH_IMAGE090
Figure 68690DEST_PATH_IMAGE092
Figure 796475DEST_PATH_IMAGE094
作为向量序列
Figure 285225DEST_PATH_IMAGE096
输入到单层Multi-Head Attention多头注意力网络中,该网络Head数设为1,前向隐层维度设为768,该网络的编码输出经过池化层后,输入到单层的全连接网络,得到语句片段
Figure 615712DEST_PATH_IMAGE006
m维特征向量
Figure 607939DEST_PATH_IMAGE098
,其中m表示情感类别数;
步骤S42,将步骤S41得到的特征向量
Figure 896838DEST_PATH_IMAGE100
作为softmax算子的自变量,计算softmax的最终值,作为语句
Figure 341725DEST_PATH_IMAGE006
属于每一类情感的概率值,最后取类别概率值最大的作为最终情感类别,其中Softmax的计算公式如下:
Figure DEST_PATH_IMAGE102A
其中
Figure 944745DEST_PATH_IMAGE104
为常量,j,k=1,2,…m
与前述一种跨模态上下文编码的对话情感识别方法的实施例相对应,本发明还提供了一种跨模态上下文编码的对话情感识别系统的实施例。
如图3所示,本发明实施例提供的一种跨模态上下文编码的对话情感识别系统,包括:多轮对话预处理模块、模态内上下文编码模块、跨模态上下文编码模块、情感识别模块,用于实现上述实施例中的一种跨模态上下文编码的对话情感识别方法。
具体的,所述多轮对话预处理模块,用于对原始多轮对话视频进行语句切分,并抽取各语句对应的视觉、语音及文本单模态表征,得到视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列。具体为:针对视觉模态信息,对视频图像帧进行人脸检测,并利用预训练模型EfficientNet-B1抽取说话人人脸图片表征向量,得到视觉模态表征向量序列;针对语音模态信息,提取语音帧的fbank滤波器组语音特征,通过LSTM循环神经网络得到语音模态表征向量序列;针对文本模态信息,利用预训练模型BERT提取文本语义特征,得到文本模态表征向量序列。
所述模态内上下文编码模块,用于对多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,即将不同模态表征与说话人embedding嵌入向量拼接,然后利用LSTM循环神经网络进行上下文编码,得到对话中各语句的单模态上下文编码表征。
所述跨模态上下文编码模块,用于将对话中各语句的单模态上下文编码表征进行两两组合编码,即利用Transformer网络进行不同模态两两组合的上下文融合编码,得到对话中各语句跨模态融合的上下文编码表征。
所述情感识别模块,用于对跨模态融合的上下文编码表征进行汇总融合,并预测对话语句的情感类别。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种跨模态上下文编码的对话情感识别方法,其特征在于,包括以下步骤:
步骤S1,将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码,得到各语句对应的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列;
步骤S2,将多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,得到对话中各语句的单模态上下文编码表征;
步骤S3,将对话中各语句的单模态上下文编码表征进行两两组合编码,得到对话中各语句跨模态融合的上下文编码;
步骤S4,将跨模态融合的上下文编码表征进行自适应的信息汇总,并对语句的情感类别进行判断。
2.如权利要求1所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,所述步骤S1具体包括以下步骤:
步骤S11,将原始多轮对话的视频切分成n个语句片段
Figure DEST_PATH_IMAGE002
,并标注其对应的说话人ID序列
Figure DEST_PATH_IMAGE004
,提取每个语句片段
Figure DEST_PATH_IMAGE006
对应的视频图像帧序列
Figure DEST_PATH_IMAGE008
、语音波形信号
Figure DEST_PATH_IMAGE010
及语音进行文本转写后的文本语句
Figure DEST_PATH_IMAGE012
i=1,2,…nn为整数;
步骤S12,对视频图像帧序列
Figure 971700DEST_PATH_IMAGE008
中的视频图像帧进行人脸检测,提取说话人人脸图片表征向量,得到视觉模态表征向量序列
Figure DEST_PATH_IMAGE014
步骤S13,提取语音波形信号
Figure 493817DEST_PATH_IMAGE010
中语音信号帧的fbank滤波器组语音特征,通过LSTM循环神经网络得到语音模态表征向量序列
Figure DEST_PATH_IMAGE016
步骤S14,利用预训练模型BERT提取文本语句
Figure 160422DEST_PATH_IMAGE012
的文本语义特征,得到文本模态表征向量序列
Figure DEST_PATH_IMAGE018
3.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,步骤S12具体为:
对于语句片段
Figure 426187DEST_PATH_IMAGE006
对应的视频图像帧序列
Figure 455323DEST_PATH_IMAGE008
,设其包含
Figure DEST_PATH_IMAGE020
张图片,即表达式:
Figure DEST_PATH_IMAGE022
使用开源人脸检测工具对
Figure 820445DEST_PATH_IMAGE008
中的每帧图像进行人脸区域标定,并截取对应的人脸区域图像,得到只包含人脸的图像帧序列,表达式为:
Figure DEST_PATH_IMAGE024
针对人脸图片帧序列
Figure DEST_PATH_IMAGE026
,统一规整其中每张图片的尺寸,并输入到开源预训练模型EfficientNet-B1中,取该模型最后一个隐层输出作为输入图片的表征向量;
Figure 161296DEST_PATH_IMAGE026
中所有人脸图片表征的最大值池化向量
Figure DEST_PATH_IMAGE028
作为语句片段
Figure 981485DEST_PATH_IMAGE006
的视觉模态表征向量,得到视觉模态表征向量序列
Figure DEST_PATH_IMAGE030
4.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,步骤S13具体为:
对语句片段
Figure 520920DEST_PATH_IMAGE006
对应的语音波形信号
Figure 869992DEST_PATH_IMAGE010
,抽取其fbank滤波器组语音特征,得到语音特征向量序列,表达式为:
Figure DEST_PATH_IMAGE032
将语音特征向量序列
Figure DEST_PATH_IMAGE034
输入到单层的LSTM循环神经网络中,设定隐层维度,取编码后的LSTM隐层状态的最大值池化向量
Figure DEST_PATH_IMAGE036
作为语句片段
Figure 698140DEST_PATH_IMAGE006
的语音模态表征向量,得到语音模态表征向量序列,表达式为:
Figure DEST_PATH_IMAGE038
5.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,步骤S14具体为:
对语句片段
Figure 299848DEST_PATH_IMAGE006
对应的文本语句
Figure 303576DEST_PATH_IMAGE012
,将其输入到中文预训练语言模型BERT中,取最后一层编码表征向量
Figure DEST_PATH_IMAGE040
作为语句片段
Figure 89130DEST_PATH_IMAGE006
的文本模态表征向量,得到文本模态表征向量序列,表达式为:
Figure DEST_PATH_IMAGE042
6.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,所述步骤S2具体包括以下步骤:
步骤S21,根据步骤S11中得到的说话人ID序列,通过定义一个说话人嵌入层,将说话人ID序列映射为说话人嵌入向量序列
Figure DEST_PATH_IMAGE044
,表达式为:
Figure DEST_PATH_IMAGE046
步骤S22,将步骤S21中得到的说话人嵌入向量序列
Figure 794787DEST_PATH_IMAGE044
与步骤S12、步骤S13、步骤S14中得到的各个单模态表征向量序列
Figure 550253DEST_PATH_IMAGE014
Figure 283854DEST_PATH_IMAGE016
Figure 99363DEST_PATH_IMAGE018
进行拼接,分别得到融入说话人身份信息的视觉模态表征、音频模态表征及文本模态表征,表达式为:
Figure DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE052
表示融入说话人身份信息的视觉模态表征,
Figure DEST_PATH_IMAGE054
表示融入说话人身份信息的音频模态表征,
Figure DEST_PATH_IMAGE056
表示融入说话人身份信息的文本模态表征,
Figure DEST_PATH_IMAGE058
表示融入说话人身份信息的视觉、音频或文本模态表征序列;
步骤S23,将步骤S22中得到的多轮对话语句的单模态表征向量序列
Figure DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE064
分别输入到对应的单层LSTM循环神经网络中进行编码,设定隐层维度,得到各对话语句对应的单模态上下文表征向量
Figure DEST_PATH_IMAGE066
,从而得到各对话语句对应的单模态上下文表征序列,表达式为:
Figure DEST_PATH_IMAGE068
7.如权利要求6所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,所述步骤S3具体包括以下步骤:
步骤S31,将步骤S23中得到的多轮对话单模态上下文表征向量序列
Figure DEST_PATH_IMAGE070
Figure DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE074
进行跨模态两两组合,并输入到单层的Transformer编码网络中,得到编码输出
Figure DEST_PATH_IMAGE076
Figure DEST_PATH_IMAGE078
,表达式为:
Figure DEST_PATH_IMAGE080
Figure DEST_PATH_IMAGE082
Figure DEST_PATH_IMAGE084
步骤S32,将步骤S31中得到的
Figure 265552DEST_PATH_IMAGE076
Figure 683764DEST_PATH_IMAGE078
进行拼接,作为对话语句的跨模态融合的上下文编码表征,表达式为:
Figure DEST_PATH_IMAGE086
Figure DEST_PATH_IMAGE088
8.如权利要求7所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,所述步骤S4具体包括以下步骤:
步骤S41,将跨模态融合的上下文编码表征
Figure DEST_PATH_IMAGE090
Figure DEST_PATH_IMAGE092
Figure DEST_PATH_IMAGE094
作为向量序列
Figure DEST_PATH_IMAGE096
输入到单层多头注意力网络中,该网络的编码输出经过池化层后,输入到单层的全连接网络,得到语句片段
Figure 849035DEST_PATH_IMAGE006
m维特征向量
Figure DEST_PATH_IMAGE098
,其中m表示情感类别数;
步骤S42,将特征向量
Figure DEST_PATH_IMAGE100
作为softmax算子的自变量,计算softmax的最终值,作为语句
Figure 773128DEST_PATH_IMAGE006
属于每一类情感的概率值,最后取类别概率值最大的作为最终情感类别,其中Softmax的计算公式如下:
Figure DEST_PATH_IMAGE102
其中
Figure DEST_PATH_IMAGE104
为常量,j,k=1,2,…m
9.一种跨模态上下文编码的对话情感识别系统,包括:多轮对话预处理模块、模态内上下文编码模块、跨模态上下文编码模块、情感识别模块,其特征在于,所述多轮对话预处理模块,用于对原始多轮对话视频进行语句切分,并抽取各语句对应的视觉、语音及文本单模态表征,得到视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列;
所述模态内上下文编码模块,用于对多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,即将不同模态表征与说话人嵌入向量拼接,然后利用LSTM循环神经网络进行上下文编码,得到对话中各语句的单模态上下文编码表征;
所述跨模态上下文编码模块,用于将对话中各语句的单模态上下文编码表征进行两两组合编码,即利用Transformer网络进行不同模态两两组合的上下文融合编码,得到对话中各语句跨模态融合的上下文编码表征;
所述情感识别模块,用于对跨模态融合的上下文编码表征进行汇总融合,并预测对话语句的情感类别。
10.如权利要求9所述的一种跨模态上下文编码的对话情感识别系统,其特征在于,所述视觉模态表征向量序列的获取具体采用以下方式:通过对视频图像帧进行人脸检测,并利用预训练模型EfficientNet-B1抽取说话人人脸图片表征向量得到;所述语音模态表征向量序列的获取具体采用以下方式:通过提取语音帧的fbank滤波器组语音特征,采用LSTM循环神经网络得到;所述文本模态表征向量序列的获取具体采用以下方式:通过预训练模型BERT提取文本语义特征得到。
CN202210377011.6A 2022-04-12 2022-04-12 一种跨模态上下文编码的对话情感识别方法及系统 Pending CN114463688A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210377011.6A CN114463688A (zh) 2022-04-12 2022-04-12 一种跨模态上下文编码的对话情感识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210377011.6A CN114463688A (zh) 2022-04-12 2022-04-12 一种跨模态上下文编码的对话情感识别方法及系统

Publications (1)

Publication Number Publication Date
CN114463688A true CN114463688A (zh) 2022-05-10

Family

ID=81417545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210377011.6A Pending CN114463688A (zh) 2022-04-12 2022-04-12 一种跨模态上下文编码的对话情感识别方法及系统

Country Status (1)

Country Link
CN (1) CN114463688A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969458A (zh) * 2022-06-28 2022-08-30 昆明理工大学 基于文本指导的层级自适应融合的多模态情感分析方法
CN115496077A (zh) * 2022-11-18 2022-12-20 之江实验室 一种基于模态观察和评分的多模态情感分析方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN111091044A (zh) * 2019-10-25 2020-05-01 武汉大学 一种面向网约车的车内危险场景识别方法
CN111626116A (zh) * 2020-04-21 2020-09-04 泉州装备制造研究所 基于融合多注意力机制和Graph的视频语义分析方法
CN112559835A (zh) * 2021-02-23 2021-03-26 中国科学院自动化研究所 多模态情感识别方法
WO2021072875A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN112862005A (zh) * 2021-03-19 2021-05-28 北京百度网讯科技有限公司 视频的分类方法、装置、电子设备和存储介质
CN113420807A (zh) * 2021-06-22 2021-09-21 哈尔滨理工大学 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
CN113571097A (zh) * 2021-09-28 2021-10-29 之江实验室 一种说话人自适应的多视角对话情感识别方法及系统
CN113609289A (zh) * 2021-07-06 2021-11-05 河南工业大学 一种基于多模态对话文本的情感识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
WO2021072875A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN111091044A (zh) * 2019-10-25 2020-05-01 武汉大学 一种面向网约车的车内危险场景识别方法
CN111626116A (zh) * 2020-04-21 2020-09-04 泉州装备制造研究所 基于融合多注意力机制和Graph的视频语义分析方法
CN112559835A (zh) * 2021-02-23 2021-03-26 中国科学院自动化研究所 多模态情感识别方法
CN112862005A (zh) * 2021-03-19 2021-05-28 北京百度网讯科技有限公司 视频的分类方法、装置、电子设备和存储介质
CN113420807A (zh) * 2021-06-22 2021-09-21 哈尔滨理工大学 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
CN113609289A (zh) * 2021-07-06 2021-11-05 河南工业大学 一种基于多模态对话文本的情感识别方法
CN113571097A (zh) * 2021-09-28 2021-10-29 之江实验室 一种说话人自适应的多视角对话情感识别方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MINGXING TAN,QUIC V.LE: "EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks", 《ARXIV:1905.11946V5》 *
刘启元: "基于多模态信息融合的情感分析方法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
朱晨光: "《机器阅读理解 算法与实践》", 31 March 2020, 机械工业出版社 *
李太豪 裴冠雄: "情感计算:让机器拥有"情商"", 《张江科技评论》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969458A (zh) * 2022-06-28 2022-08-30 昆明理工大学 基于文本指导的层级自适应融合的多模态情感分析方法
CN114969458B (zh) * 2022-06-28 2024-04-26 昆明理工大学 基于文本指导的层级自适应融合的多模态情感分析方法
CN115496077A (zh) * 2022-11-18 2022-12-20 之江实验室 一种基于模态观察和评分的多模态情感分析方法和装置

Similar Documents

Publication Publication Date Title
CN113205817B (zh) 语音语义识别方法、系统、设备及介质
CN105760852A (zh) 一种融合脸部表情和语音的驾驶员情感实时识别方法
CN111862977A (zh) 一种语音对话处理方法和系统
CN114463688A (zh) 一种跨模态上下文编码的对话情感识别方法及系统
CN112037773B (zh) 一种n最优口语语义识别方法、装置及电子设备
CN114998670B (zh) 多模态信息预训练方法及系统
CN115964467A (zh) 一种融合视觉情境的富语义对话生成方法
CN112597841B (zh) 一种基于门机制多模态融合的情感分析方法
CN115577161A (zh) 融合情感资源的多模态情感分析模型
CN112101044B (zh) 一种意图识别方法、装置及电子设备
Zhang et al. Multi-head attention fusion networks for multi-modal speech emotion recognition
CN113344036A (zh) 一种基于动态词嵌入的多模态Transformer的图像描述方法
CN112233680A (zh) 说话人角色识别方法、装置、电子设备及存储介质
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN113761377A (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
Hrúz et al. Automatic fingersign-to-speech translation system
CN115964638A (zh) 多模态社交数据情感分类方法、系统、终端、设备及应用
CN115730203A (zh) 一种基于全局感知跨模态特征融合网络的语音情感识别方法
CN114446324A (zh) 一种基于声学和文本特征的多模态情感识别方法
CN116860943A (zh) 对话风格感知与主题引导的多轮对话方法及系统
CN116611459A (zh) 翻译模型的训练方法、装置、电子设备及存储介质
CN116721449A (zh) 视频识别模型的训练方法、视频识别方法、装置以及设备
CN111160512A (zh) 基于生成式对抗网络构建双判别器对话生成模型的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220510