CN114463688A

CN114463688A - 一种跨模态上下文编码的对话情感识别方法及系统

Info

Publication number: CN114463688A
Application number: CN202210377011.6A
Authority: CN
Inventors: 李太豪; 阮玉平; 张晓宁; 黄剑韬; 郑书凯
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-05-10

Abstract

本发明公开一种跨模态上下文编码的对话情感识别方法及系统，该方法包括：步骤S1，将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码，得到各语句对应的视觉模态、语音模态及文本模态表征向量序列；步骤S2，将多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码，得到对话中各语句的单模态上下文编码表征；步骤S3，将对话中各语句的单模态上下文编码表征进行两两组合编码，得到对话中各语句跨模态融合的上下文编码；步骤S4，将跨模态融合的上下文编码表征进行自适应的信息汇总，并对语句的情感类别进行判断。本发明能够有效提升对话情感的识别精度。

Description

一种跨模态上下文编码的对话情感识别方法及系统

技术领域

本发明属于人工智能领域，涉及一种跨模态上下文编码的对话情感识别方法及系统。

背景技术

对话机器人作为人工智能领域的重要研究方向，赋予机器人拟人化的情感计算能力近来引起了学术界和产业界的广泛关注。通常说话人的情感表达是通过多种外在载体融合表现的，如视觉、语音及语言文字等，因此基于多模态信息的对话情感识别成为领域内的研究热点之一，其难点在于：1)不同模态信息存在缺失、相悖等情形；2）异构多模态信息的有效融合；3）跨模态信息融合与多轮对话交互上下文建模有机融合。

现有主流方法大多采用不同模态特征向量简单拼接的方式进行跨模态信息的融合，其存在两方面问题：1）无法应对多模态信息融合推理时存在的模态缺失、模态相悖等问题；2）多模态融合与多轮对话交互上下文建模是两个独立的过程，难以在对话交互场景下实现多模态信息的深度融合与理解。

因此，如何有效解决多轮对话场景中不同模态信息融合的上下文编码问题，对用户情感状态进行建模，进而提高说话人情感识别的精确度，是一项亟待解决的问题。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种跨模态上下文编码的对话情感识别方法及系统，能够有效处理多轮对话中不同模态信息的融合问题，通过对对话语句进行模态内及跨模态的上下文编码，有效提升对话情感的识别精度，其具体技术方案如下：

一种跨模态上下文编码的对话情感识别方法，包括以下步骤：

步骤S1，将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码，得到各语句对应的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列；

步骤S2，将多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码，得到对话中各语句的单模态上下文编码表征；

步骤S3，将对话中各语句的单模态上下文编码表征进行两两组合编码，得到对话中各语句跨模态融合的上下文编码；

步骤S4，将跨模态融合的上下文编码表征进行自适应的信息汇总，并对语句的情感类别进行判断。

进一步的，所述步骤S1具体包括以下步骤：

步骤S11，将原始多轮对话的视频切分成n个语句片段

，并标注其对应的说话人ID序列

，提取每个语句片段

对应的视频图像帧序列

、语音波形信号

及语音进行文本转写后的文本语句

，i=1，2，…n，n为整数；

步骤S12，对视频图像帧序列

中的视频图像帧进行人脸检测，提取说话人人脸图片表征向量，得到视觉模态表征向量序列

；

步骤S13，提取语音波形信号

中语音信号帧的fbank滤波器组语音特征，通过LSTM循环神经网络得到语音模态表征向量序列

；

步骤S14，利用预训练模型BERT提取文本语句

的文本语义特征，得到文本模态表征向量序列

。

进一步的，步骤S12具体为：

对于语句片段

对应的视频图像帧序列

，设其包含

张图片，即表达式：

使用开源人脸检测工具对

中的每帧图像进行人脸区域标定，并截取对应的人脸区域图像，得到只包含人脸的图像帧序列，表达式为：

针对人脸图片帧序列

，统一规整其中每张图片的尺寸，并输入到开源预训练模型EfficientNet-B1中，取该模型最后一个隐层输出作为输入图片的表征向量；

将

中所有人脸图片表征的最大值池化向量

作为语句片段

的视觉模态表征向量，得到视觉模态表征向量序列

。

进一步的，步骤S13具体为：

对语句片段

对应的语音波形信号

,抽取其fbank滤波器组语音特征，得到语音特征向量序列，表达式为：

将语音特征向量序列

输入到单层的LSTM循环神经网络中，设定隐层维度，取编码后的LSTM隐层状态的最大值池化向量

作为语句片段

的语音模态表征向量，得到语音模态表征向量序列，表达式为：

。

进一步的，步骤S14具体为：

对语句片段

对应的文本语句

，将其输入到中文预训练语言模型BERT中，取最后一层编码表征向量

作为语句片段

的文本模态表征向量，得到文本模态表征向量序列，表达式为：

。

进一步的，所述步骤S2具体包括以下步骤：

步骤S21，根据步骤S11中得到的说话人ID序列，通过定义一个说话人embedding嵌入层，将说话人ID序列映射为说话人embedding嵌入向量序列

，表达式为：

步骤S22，将步骤S21中得到的说话人embedding嵌入向量序列

与步骤S12、步骤S13、步骤S14中得到的各个单模态表征向量序列

、

、

进行拼接，分别得到融入说话人身份信息的视觉模态表征、音频模态表征及文本模态表征，表达式为：

表示融入说话人身份信息的视觉模态表征，

表示融入说话人身份信息的音频模态表征，

表示融入说话人身份信息的文本模态表征，

表示融入说话人身份信息的视觉、音频或文本模态表征序列；

步骤S23，将步骤S22中得到的多轮对话语句的单模态表征向量序列

、

、

分别输入到对应的单层LSTM循环神经网络中进行编码，设定隐层维度，得到各对话语句对应的单模态上下文表征向量

，从而得到各对话语句对应的单模态上下文表征序列，表达式为：

。

进一步的，所述步骤S3具体包括以下步骤：

步骤S31，将步骤S23中得到的多轮对话单模态上下文表征向量序列

、

、

进行跨模态两两组合，并输入到单层的Transformer编码网络中，得到编码输出

、

，表达式为：

步骤S32，将步骤S31中得到的

、

进行拼接，作为对话语句的跨模态融合的上下文编码表征，表达式为：

。

进一步的，所述步骤S4具体包括以下步骤：

步骤S41，将跨模态融合的上下文编码表征

、

、

作为向量序列

输入到单层Multi-Head Attention多头注意力网络中，该网络的编码输出经过池化层后，输入到单层的全连接网络，得到语句片段

的m维特征向量

,其中m表示情感类别数；

步骤S42，将特征向量

作为softmax算子的自变量，计算softmax的最终值，作为语句

属于每一类情感的概率值，最后取类别概率值最大的作为最终情感类别，其中Softmax的计算公式如下：

其中

为常量，j,k=1,2，…m。

一种跨模态上下文编码的对话情感识别系统，包括：多轮对话预处理模块、模态内上下文编码模块、跨模态上下文编码模块、情感识别模块，所述多轮对话预处理模块，用于对原始多轮对话视频进行语句切分，并抽取各语句对应的视觉、语音及文本单模态表征，得到视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列；

所述模态内上下文编码模块，用于对多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码，即将不同模态表征与说话人embedding嵌入向量拼接，然后利用LSTM循环神经网络进行上下文编码，得到对话中各语句的单模态上下文编码表征；

所述跨模态上下文编码模块，用于将对话中各语句的单模态上下文编码表征进行两两组合编码，即利用Transformer网络进行不同模态两两组合的上下文融合编码，得到对话中各语句跨模态融合的上下文编码表征；

所述情感识别模块，用于对跨模态融合的上下文编码表征进行汇总融合，并预测对话语句的情感类别。

进一步的，所述视觉模态表征向量序列的获取具体采用以下方式：通过对视频图像帧进行人脸检测，并利用预训练模型EfficientNet-B1抽取说话人人脸图片表征向量得到；所述语音模态表征向量序列的获取具体采用以下方式：通过提取语音帧的fbank滤波器组语音特征，采用LSTM循环神经网络得到；所述文本模态表征向量序列的获取具体采用以下方式：通过预训练模型BERT提取文本语义特征得到。

本发明的优点如下：

1、本发明的对话情感识别方法，在提取说话人视觉信息时，通过利用人脸检测工具，将说话人脸部区域图像抠出，在有效提取与情感相关的人脸表情特征的同时，以去除无关视觉特征的干扰。

2、本发明的对话情感识别方法，在进行单模态特征上下文编码时，通过拼接说话人embedding嵌入向量，有效的在多轮对话上下文编码过程中，引入了说话人身份信息。

3、本发明的对话情感识别方法，通过基于Transformer网络的（Query，Key，Value）查询注意力机制，具体通过将不同模态进行两两组合，并将其分别设为Query矩阵、Key矩阵、Value矩阵来实现跨模态融合与对话上下文编码的有机融合。

附图说明

图1为本发明的对话情感识别方法的流程示意图；

图2为本发明的对话情感识别的网络结构示意图；

图3为本发明的对话情感识别系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。

如图1和图2所示，一种跨模态上下文编码的对话情感识别方法，包括以下步骤：

步骤S1，单模态表征抽取：将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码，得到各语句对应的视觉模态表征向量、语音模态表征向量及文本模态表征向量。具体地，包括如下步骤：

步骤S11，将原始多轮对话的视频切分成n个语句片段

，并标注其对应的说话人ID序列

；针对每个语句片段

，提取其对应的视频图像帧序列

、语音波形信号

及语音进行文本转写后的文本语句

，i=1，2，…n，n为整数。

步骤S12，对视频图像帧序列

中的视频图像帧进行人脸检测，提取说话人人脸图片表征向量，得到视觉模态表征向量序列；

针对步骤S11中提取的对话语句的原始视觉模态信息，即语句片段

对应的视频图像帧序列

，设其包含

张图片，即表达式：

使用开源人脸检测工具对

针对上述人脸图片帧序列

，对其中每张图片的尺寸统一规整到

，并输入到开源预训练模型EfficientNet-B1中，取该模型最后一个隐层输出作为输入图片的表征向量；

将

中所有人脸图片表征的最大值池化向量

作为语句片段

的视觉模态表征向量，向量维度为1280，得到视觉模态表征向量序列

；

步骤S13，提取语音波形信号

中语音信号帧的fbank滤波器组语音特征，通过LSTM循环神经网络得到语音模态表征向量序列；

针对步骤S11中提取的对话语句原始音频模态信息，即语句片段

对应的语音波形信号

,抽取其128维的fbank（Filterbank，滤波器组特征）语音特征，其中帧长设50ms，帧间交叠时长设为12.5ms，得到语音特征向量序列，表达式为：

。

将上述语音特征向量序列

输入到单层的LSTM循环神经网络中，隐层维度设为768，取编码后的LSTM隐层状态的最大值池化向量

作为语句片段

步骤S14，步骤S14，利用预训练模型BERT提取文本语句

的文本语义特征，得到文本模态表征向量序列；

针对步骤S11中提取的对话语句原始文本信息，即片段

对应的文本语句

，将其输入到中文预训练语言模型BERT中，取字符“[CLS]”的最后一层编码表征向量

作为语句片段

的文本模态表征向量，维度为768，得到文本模态表征向量序列，表达式为：

步骤S2，模态内上下文编码：对多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码，得到对话中各语句的单模态上下文编码表征。具体地，包括如下步骤：

步骤S21，针对步骤S11中得到的说话人ID序列，通过定义一个说话人embedding嵌入层，将说话人ID序列映射为说话人embedding嵌入向量序列

，维度设为32，表达式为：

步骤S22，将步骤S21中得到的说话人embedding嵌入向量序列

、

、

表示融入说话人身份信息的视觉模态表征，

表示融入说话人身份信息的音频模态表征，

表示融入说话人身份信息的文本模态表征，

、

、

分别输入到对应的单层LSTM循环神经网络中进行编码，隐层维度设为768，得到各对话语句对应的单模态上下文表征向量

。

步骤S3，跨模态交互上下文编码：将对话中各语句的单模态上下文编码表征进行两两组合编码，得到对话中各语句跨模态融合的上下文编码。具体地，包括如下步骤：

步骤S31，针对步骤S23中得到的多轮对话单模态上下文表征向量序列

、

、

、

，该网络Head数目设为8，隐层维度设为768，表达式为：

步骤S32，将步骤S31中得到的

、

进行拼接，作为对话语句的跨模态融合的上下文编码表征：

。

步骤S4，将跨模态融合的上下文编码表征进行自适应的信息汇总，并对语句的情感类别进行判断。具体地，包括如下步骤：

步骤S41，将步骤S32中得到的跨模态融合的上下文编码表征

、

、

作为向量序列

输入到单层Multi-Head Attention多头注意力网络中，该网络Head数设为1，前向隐层维度设为768，该网络的编码输出经过池化层后，输入到单层的全连接网络，得到语句片段

的m维特征向量

,其中m表示情感类别数；

步骤S42，将步骤S41得到的特征向量

作为softmax算子的自变量，计算softmax的最终值，作为语句

其中

为常量，j,k=1,2，…m。

与前述一种跨模态上下文编码的对话情感识别方法的实施例相对应，本发明还提供了一种跨模态上下文编码的对话情感识别系统的实施例。

如图3所示，本发明实施例提供的一种跨模态上下文编码的对话情感识别系统，包括：多轮对话预处理模块、模态内上下文编码模块、跨模态上下文编码模块、情感识别模块，用于实现上述实施例中的一种跨模态上下文编码的对话情感识别方法。

具体的，所述多轮对话预处理模块，用于对原始多轮对话视频进行语句切分，并抽取各语句对应的视觉、语音及文本单模态表征，得到视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列。具体为：针对视觉模态信息，对视频图像帧进行人脸检测，并利用预训练模型EfficientNet-B1抽取说话人人脸图片表征向量，得到视觉模态表征向量序列；针对语音模态信息，提取语音帧的fbank滤波器组语音特征，通过LSTM循环神经网络得到语音模态表征向量序列；针对文本模态信息，利用预训练模型BERT提取文本语义特征，得到文本模态表征向量序列。

所述模态内上下文编码模块，用于对多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码，即将不同模态表征与说话人embedding嵌入向量拼接，然后利用LSTM循环神经网络进行上下文编码，得到对话中各语句的单模态上下文编码表征。

所述跨模态上下文编码模块，用于将对话中各语句的单模态上下文编码表征进行两两组合编码，即利用Transformer网络进行不同模态两两组合的上下文融合编码，得到对话中各语句跨模态融合的上下文编码表征。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种跨模态上下文编码的对话情感识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种跨模态上下文编码的对话情感识别方法，其特征在于，所述步骤S1具体包括以下步骤：

步骤S11，将原始多轮对话的视频切分成n个语句片段

，并标注其对应的说话人ID序列

，提取每个语句片段

对应的视频图像帧序列

、语音波形信号

及语音进行文本转写后的文本语句

，i=1，2，…n，n为整数；

步骤S12，对视频图像帧序列

；

步骤S13，提取语音波形信号

；

步骤S14，利用预训练模型BERT提取文本语句

的文本语义特征，得到文本模态表征向量序列

。

3.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法，其特征在于，步骤S12具体为：

对于语句片段

对应的视频图像帧序列

，设其包含

张图片，即表达式：

使用开源人脸检测工具对

针对人脸图片帧序列

将

中所有人脸图片表征的最大值池化向量

作为语句片段

的视觉模态表征向量，得到视觉模态表征向量序列

。

4.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法，其特征在于，步骤S13具体为：

对语句片段

对应的语音波形信号

将语音特征向量序列

作为语句片段

。

5.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法，其特征在于，步骤S14具体为：

对语句片段

对应的文本语句

作为语句片段

。

6.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法，其特征在于，所述步骤S2具体包括以下步骤：

步骤S21，根据步骤S11中得到的说话人ID序列，通过定义一个说话人嵌入层，将说话人ID序列映射为说话人嵌入向量序列

，表达式为：

步骤S22，将步骤S21中得到的说话人嵌入向量序列

、

、

表示融入说话人身份信息的视觉模态表征，

表示融入说话人身份信息的音频模态表征，

表示融入说话人身份信息的文本模态表征，

、

、

。

7.如权利要求6所述的一种跨模态上下文编码的对话情感识别方法，其特征在于，所述步骤S3具体包括以下步骤：

、

、

、

，表达式为：

步骤S32，将步骤S31中得到的

、

。

8.如权利要求7所述的一种跨模态上下文编码的对话情感识别方法，其特征在于，所述步骤S4具体包括以下步骤：

步骤S41，将跨模态融合的上下文编码表征

、

、

作为向量序列

输入到单层多头注意力网络中，该网络的编码输出经过池化层后，输入到单层的全连接网络，得到语句片段

的m维特征向量

,其中m表示情感类别数；

步骤S42，将特征向量

作为softmax算子的自变量，计算softmax的最终值，作为语句

其中

为常量，j,k=1,2，…m。

9.一种跨模态上下文编码的对话情感识别系统，包括：多轮对话预处理模块、模态内上下文编码模块、跨模态上下文编码模块、情感识别模块，其特征在于，所述多轮对话预处理模块，用于对原始多轮对话视频进行语句切分，并抽取各语句对应的视觉、语音及文本单模态表征，得到视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列；

所述模态内上下文编码模块，用于对多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码，即将不同模态表征与说话人嵌入向量拼接，然后利用LSTM循环神经网络进行上下文编码，得到对话中各语句的单模态上下文编码表征；

10.如权利要求9所述的一种跨模态上下文编码的对话情感识别系统，其特征在于，所述视觉模态表征向量序列的获取具体采用以下方式：通过对视频图像帧进行人脸检测，并利用预训练模型EfficientNet-B1抽取说话人人脸图片表征向量得到；所述语音模态表征向量序列的获取具体采用以下方式：通过提取语音帧的fbank滤波器组语音特征，采用LSTM循环神经网络得到；所述文本模态表征向量序列的获取具体采用以下方式：通过预训练模型BERT提取文本语义特征得到。