CN113704552A

CN113704552A - 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备

Info

Publication number: CN113704552A
Application number: CN202111012714.0A
Authority: CN
Inventors: 韩纪庆; 钱凡; 郑铁然; 郑贵滨
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-26

Abstract

一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备，它属于机器的多模态感知技术领域。本发明解决了现有情感分析技术需要人工对各模态序列进行对齐标注的问题。本发明对现有大规模预训练语言模型的多模态情感分析方法进行改进，使本发明方法不需要人工的对齐标注，因而适合目前大规模数据量、未对齐的多模态序列场景的情形，极大地提高了其实用性。而且，将本发明提出的方法在公开的最常使用的多模态情感分析的2个数据集上进行验证，结果表明其分类性能较基线系统有很大提高。本发明可以应用于情感分析。

Description

一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备

技术领域

本发明属于机器的多模态感知技术领域，具体涉及一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备。

背景技术

多模态情感分析是指通过对来自视频文件中的语音、文本、面部表情进行分析处理，以识别出视频中人物的情感倾向。多模态情感分析在人机交互、健康医疗、商品推荐等方面有着广泛的应用前景。由于每个模态固有的采样率差异，以及各个模态中语义基元的长度不同，导致各个模态序列间通常并不能按时间顺序一一对齐。

现有的采用大规模文本预训练模型的情感分析技术，都是基于人工的对齐标注。然而，人工的对齐标注需要大量的人力和时间成本，这使得现有的技术难以应用于目前大规模数据量的情形，也影响了现有技术的实用性。

发明内容

本发明的目的是为解决现有情感分析技术需要人工对各模态序列进行对齐标注的问题，而提出了一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备。

本发明为解决上述技术问题所采取的技术方案是：

一种基于跨模态自动对齐和预训练语言模型的情感分析方法，所述方法具体包括以下步骤：

步骤1、提取输入视频中的音频模态情感特征；

利用

表示第i帧音频的情感特征，

将提取的各帧音频的情感特征表示为音频情感特征序列

T_a代表音频序列长度，

代表实数域；

提取输入视频中的视觉模态情感特征；

利用

表示第j帧图像的情感特征，

将提取的各帧图像的情感特征表示为视觉情感特征序列

T_v为图像帧数；

步骤2、采用预训练好的BERT模型提取输入视频的词向量序列，将提取出的词向量序列和音频情感特征序列、视觉情感特征序列进行自动对齐；

步骤3、对词向量序列进行修正

利用自适应门函数和步骤2的自动对齐结果对词向量序列进行修正，获得修正后的词向量序列；

步骤4、情感预测

将修正后的词向量序列作为预训练好的BERT模型的第二层的输入，修正后的词向量序列依次经过预训练好的BERT模型的后续结构，得到输入视频的情感倾向。

一种基于跨模态自动对齐和预训练语言模型的情感分析系统，所述系统用于执行一种基于跨模态自动对齐和预训练语言模型的情感分析方法。

一种设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现一种基于跨模态自动对齐和预训练语言模型的情感分析方法。

本发明的有益效果是：本发明对现有大规模预训练语言模型的多模态情感分析方法进行改进，使本发明方法不需要人工的对齐标注，因而适合目前大规模数据量、未对齐的多模态序列场景的情形，极大地提高了其实用性。

而且，将本发明提出的方法在公开的最常使用的多模态情感分析的2个数据集上进行验证，结果表明其分类性能较基线系统有很大提高。

附图说明

图1为词向量偏移的示意图；

非语言行为会对词的语义产生影响，导致词向量在语义空间中的位置发生改变，新词向量等于旧词向量加上一个由非语言信息得到的位移向量；

图2为本发明的基于自动对齐和大规模预训练语言模型的情感分析方法的流程图；

其中，×12表示左边的模块堆叠12次；

图3为图2中编码器层详细配置的示意图；

图4为跨模态自动对齐方法的示意图。

具体实施方式

具体实施方式一、结合图2和图3说明本实施方式。本实施方式所述的一种基于跨模态自动对齐和预训练语言模型的情感分析方法，假设在数据集中，输入视频包含语言、音频和视觉3种模态，即本发明的“多模态”，所述方法具体包括以下步骤：

步骤1、提取输入视频中的音频模态情感特征；

利用

表示第i帧音频的情感特征，

将提取的各帧音频的情感特征表示为音频情感特征序列

T_a代表音频序列长度，

代表实数域；

提取输入视频中的视觉模态情感特征；

利用

表示第j帧图像的情感特征，

将提取的各帧图像的情感特征表示为视觉情感特征序列

T_v为图像帧数；

步骤2、采用预训练好的BERT模型提取输入视频的高阶词向量序列，将提取出的词向量序列和音频情感特征序列、视觉情感特征序列进行自动对齐；

步骤3、对词向量序列进行修正

步骤4、情感预测

在获得修正后的词向量w_k′之后，为获得整个视频的情感倾向，将修正的词向量w_k′输入到后续的预训练模型中，通过分类器，即得到视频的情感倾向。

其中，y表示输入视频的情感类别。

具体实施方式二：本实施方式与具体实施方式一不同的是，所述音频模态情感特征采用COVAREP工具包提取。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述视觉模态情感特征采用Facet库提取。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述音频的情感特征是由梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)、音高参数(Pitch)、声门参数、峰斜率参数和最大分散商参数形成的向量。

本发明提取的每帧音频的情感特征均是74维特征。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述图像的情感特征是由面部运动单元参数、面部特征点参数、头部姿势参数和视线追踪参数形成的向量。

本发明提取的每帧图像的情感特征均是35维特征。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：结合图4说明本实施方式。本实施方式与具体实施方式一至五之一不同的是，所述步骤2的具体过程为：

将预训练好的BERT模型的第一层输出作为输入视频的词向量序列

其中，w_k代表序列中的第k个词向量，T_l代表词向量序列的长度；

其中，

表示第k个词在词典中的索引，

代表自然数，

是得到的高阶词向量，d是词向量维度；

将音频情感特征序列

映射到词向量序列所在的语义空间，得到映射后的特征序列

其中，f_a(·)为音频情感特征序列

对应的映射函数，

为

对应的映射后情感特征；

分别计算词向量w_k与各帧音频对应的映射后情感特征

的语义相似度，再对计算出的语义相似度进行归一化处理，将获得的归一化处理结果作为对应帧音频情感特征的权重；

根据权重对提取的各帧音频的情感特征进行加权求和，得到与词向量w_k对应的音频情感特征

其中，

代表第1帧音频的情感特征的权重，即词向量w_k与第1帧音频对应的映射后情感特征

的语义相似度对应的归一化处理结果；

横跨整个时间幅度，进而得到与词向量序列

对齐的音频情感特征序列

将视觉情感特征序列

映射到词向量序列所在的语义空间，得到映射后的特征序列

其中，f_v(·)为特征序列

对应的映射函数，

为

对应的映射后情感特征；

分别计算词向量w_k与各帧图像对应的映射后情感特征

的语义相似度，再对计算出的语义相似度进行归一化处理，将获得的归一化处理结果作为对应帧图像情感特征的权重；

根据权重对提取的各帧图像的情感特征进行加权求和，得到与词向量w_k对应的视觉情感特征

其中，

代表第1帧图像的情感特征的权重，即词向量w_k与第1帧图像对应的映射后情感特征

的语义相似度对应的归一化处理结果；

横跨整个时间幅度，进而得到与词向量序列

对齐的视觉情感特征序列

将

作为词向量序列和音频情感特征序列、视觉情感特征序列自动对齐的结果。

本实施方式能捕捉到跨模态元素之间的长时依赖，针对未对齐的多模态序列，有助于获得更全面、准确的对齐表示。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是，所述对计算出的语义相似度进行归一化处理，是通过softmax函数进行的。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：结合图1说明本实施方式。本实施方式与具体实施方式一至七之一不同的是，所述步骤3的具体过程为：

将

和

通过自适应门函数，得到词向量w_k对应的位移向量h_k；

其中，h(·)为自适应门函数；

根据位移向量h_k对词向量w_k进行修正，获得修正后的词向量w_k′：

w′_k＝w_k+αh_k (7)

其中，α为超参数，α≤1；

同理，对词向量序列中的每个词向量进行处理，分别获得词向量序列中每个词向量对应的修正后词向量。

每个词的基本语义由其所在语义空间中的位置决定，在没有其它模态的情况下，所有的词向量都位于语言流形上。但事实上，非语言行为会对词的语义产生影响，导致词向量在语义空间中的位置发生改变，得到的新的位置向量是原来的位置向量和由非语言信息得到的位移向量之间的加和。对这样的过程进行建模能获得融合了非语言信息的、更精细的词表示，进而有助于最终的情感预测。

其它步骤及参数与具体实施方式一至七之一相同。

具体实施方式九：本实施方式为一种基于跨模态自动对齐和预训练语言模型的情感分析系统，所述系统用于执行一种基于跨模态自动对齐和预训练语言模型的情感分析方法。

具体实施方式十：本实施方式为一种设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现一种基于跨模态自动对齐和预训练语言模型的情感分析方法。

为验证本发明所提出方法的有效性，在目前公开的最常使用的2个数据集CMU-MOSI和CMU-MOSEI上进行验证。如表1所示，本发明所提出的方法在2个数据集所有度量准则下均优于基线系统的结果。因此，实验结果充分验证了本发明方法的有效性。

表1本发明方法与基线系统在公开数据集上的分类性能比较

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。