CN115496077B

CN115496077B - 一种基于模态观察和评分的多模态情感分析方法和装置

Info

Publication number: CN115496077B
Application number: CN202211442584.9A
Authority: CN
Inventors: 廖龙飞; 黄刚; 华炜; 韩佳易; 周舟; 李永福
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-04-18
Anticipated expiration: 2042-11-18
Also published as: CN115496077A

Abstract

本发明公开一种基于模态观察和评分的多模态情感分析方法和装置，该方法包括：步骤一，获取不同模态原始数据，针对不同模态特点提取模态特征表示；步骤二，使用模态观察模块对各模态信息进行初步融合，获得模态融合权重和模态学习权重；步骤三，基于模态融合权重和单模态特征表示，构建多模态特征表示和多模态代理特征表示；步骤四，使用模态评分模块对多模态特征表示和多模态代理特征表示进行情感打分，结合模态学习权重，基于多任务学习框架完成情感分析模型的训练。本发明不仅能够完成多模态情感分析任务，也能够完成各个单模态情感分析任务，能够做到一次训练、多处使用，从而减轻训练负担，大大提升使用效率和多模态情感分析效果。

Description

一种基于模态观察和评分的多模态情感分析方法和装置

技术领域

本发明涉及到多模态情感分析领域，尤其涉及一种基于模态观察和评分的多模态情感分析方法和装置。

背景技术

近年来互联网快速发展，社交网络上不同模态的数据呈爆炸性增长。在情感分析研究领域，情感表达可以源于文本、视觉、语音等不同模态的数据。传统的情感分析方法一般基于单模态数据，识别效果容易受到模态噪声的影响，有一定的局限性。相对于传统的单模态情感分析，多模态情感分析可以利用不同模态数据的信息，从而能更加全面、准确地进行情感识别，保证识别结果的鲁棒性。然而，由于不同模态的数据差异性较大，如何进行有效的多模态数据融合从而提升最终情感分析的效果，仍然处于研究中。在现有的多模态情感的研究中，大多是设计模态特征融合方法，没有充分衡量不同模态数据间的差异性和互补性对最终融合结果造成的影响，导致多模态特征质量不高，情感分析效果有待提高。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种基于模态观察和评分的多模态情感分析方法和装置，其具体技术方案如下：

一种基于模态观察和评分的多模态情感分析方法，包括以下步骤：

步骤一，获取不同模态原始数据，针对不同模态特点提取模态特征表示；

步骤二，使用模态观察模块对各模态信息进行初步融合，获得模态融合权重和模态学习权重；

步骤三，基于模态融合权重和单模态特征表示，构建多模态特征表示和多模态代理特征表示；

步骤四，使用模态评分模块对多模态特征表示和多模态代理特征表示进行情感打分，结合模态学习权重，基于多任务学习框架完成情感分析模型的训练。

进一步的，所述步骤一具体包括以下子步骤：

步骤1.1，采集现有的带有情感标记的多模态数据集，具体为：截取影音片段，通过剪辑分离出片段数据中的文本模态数据、视觉模态数据和语音模态数据，并进行人工情感标注，标注出对应的对应的文本模态情感标签、视觉模态情感标签、语音模态情感标签，以及多模态情感标签；

步骤1.2，根据不同模态的数据特点，提取各模态数据的特征表示。

进一步的，所述步骤1.2具体为：

对于文本模态数据，首先通过字典对文本字符进行编码，并添加特殊字符[cls]和[sep]；然后通过预训练好的BERT模型得到词向量序列，其中表示特殊字符[cls]的词向量，表示第i个词向量，表示特殊字符[sep]的词向量，以作为初始文本模态特征表示，通过一个三层神经网络 F _t得到文本模态特征表示；

对于视觉模态数据，首先把视频转换成图像帧集合，通过人脸检测技术得到人脸图像集合；再使用OpenFace提取每张人脸图像的特征向量，得到人脸特征序列，其中代表第i个人脸特征向量，对人脸特征序列求均值得到初始视觉模态特征表示，通过一个三层神经网络 F _v得到视觉模态特征表示；

对于语音模态数据，通过Python库librosa提取过零率、梅尔倒谱系数、CQT色谱图，得到语音特征序列，其中表示对应时间步的语音特征，对语音特征序列求均值得到初始语音模态特征表示，通过一个三层神经网络 F _a得到语音模态特征表示。

进一步的，所述步骤二具体包括以下子步骤：

步骤2.1，将文本模态特征表示、视觉模态特征表示、语音模态特征表示，通过拼接得到初步模态融合表征；

步骤2.2，把初步模态融合特征表示通过一个前馈神经网络得到模态权重观察向量，其中表示对应单模态观察分数，具体表达式如下：

，

其中和是模态观察模块可学习参数；

再通过模态观察分数，计算模态融合权重，表达式为：

，

其中范围在0到1之间，越大表示模态在模态融合中贡献越大；

在模态融合权重基础上进行模态学习权重的计算，具体是通过在1个批次的训练数据中对每个样本做加权平均，然后通过指数函数求得，表达式为：

，

其中代表在训练数据的批次大小。

进一步的，所述步骤三具体包括以下子步骤：

步骤3.1，通过文本模态特征表示、视觉模态特征表示、语音模态特征表示，结合文本模态融合权重、视觉模态融合权重、语音模态融合权重，得到多模态特征表示表达式为：

；

步骤3.2，引入三个零向量分别作为文本代理特征表示、语音代理特征表示和视觉代理特征表示，其维度与文本模态特征表示、视觉模态特征表示、语音模态特征表示分别保持一致，通过任一单模态特征表示和其他两个模态的单模态代理特征表示进行拼接，得到多模态代理特征表示，表达式为：

。

进一步的，所述步骤四具体为：

基于多模态特征表示和多模态代理特征表示，通过模态评分模块得到不同模态组合的情感评分，其中模态评分模块采用一个三层的前馈神经网络，代表对应的模态情感评分，范围在-1到1之间；对于得到的不同模态情感评分，结合所得到的模态学习权重，使用多任务学习框架对情感分析模型进行训练，训练过程中的损失函数表达式为：

，

其中代表回归损失函数。

一种基于模态观察和评分的多模态情感分析装置，包括一个或多个处理器，用于实现所述的一种基于模态观察和评分的多模态情感分析方法。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现所述的一种基于模态观察和评分的多模态情感分析方法。

与现有技术相比，本发明具有如下优点：

（1）本发明同时使用单模态情感标签与多模态情感标签来约束模型，能够削弱模态间信息冲突，增强模态间信息共鸣，提升多模态情感分析效果。

（2）本发明提出了模态观察模块和模态评分模块两大模块，其中模态观察模块能够学习模态融合权重和模态学习权重，从前向对多模态特征进行增强；模态评分模块能够对多模态特征表示和多模态代理特征表示进行情感打分，从后向驱动增强多模态特征，两大模块分别从前向和后向增强多模态特征，最终提升情感分析效果。

（3）本发明的方法在多任务学习框架的驱使训练下，不仅能够完成多模态情感分析任务，也能够完成各个单模态情感分析任务，能够做到一次训练、多处使用，从而减轻训练负担，大大提升使用效率。

附图说明

图1为本发明的一种基于模态观察和评分的多模态情感分析方法流程示意图；

图2为本发明的一种基于模态观察和评分的多模态情感分析装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1所示，本发明的一种基于模态观察和评分的多模态情感分析方法，包括以下步骤：

步骤一，获取不同模态原始数据，针对不同模态特点提取模态特征表示，具体包括以下子步骤：

步骤1.1，采集现有的带有情感标记的多模态数据集。

本实施例对30部电影进行根据语音对话段的utterance级别切割，所截取片段长度在10s内，并通过剪辑分离出文本模态数据、视觉模态数据和语音模态数据，对切割的utterance进行人工情感标注，标注出每个utterance对应的多模态情感标签，以及各单模态情感标签：文本模态情感标签、视觉模态情感标签、语音模态情感标签。

本实施例根据不同模态的数据特点，提取不同模态数据的特征表示，具体如下：

对于视觉模态数据，首先把视频转换成图像帧集合，通过人脸检测技术得到人脸图像集合；再使用OpenFace提取每张人脸图像的特征向量，得到人脸特征序列，其中代表第i个人脸特征向量，对人脸特征序列求均值得到初始视觉模态特征表示，通过一个三层神经网络 F _v得到视觉模态特征表示。

步骤二，使用模态观察模块对各模态信息进行初步融合，获得模态融合权重和模态学习权重，具体包括以下子步骤：

步骤2.1，获取初步模态融合表征：使用到文本模态特征表示、视觉模态特征表示、语音模态特征表示，把三种模态特征表示通过拼接得到初步模态融合表征。

步骤2.2，获得模态融合权重和模态学习权重，具体为：把初步模态融合特征表示通过一个前馈神经网络得到模态权重观察向量，其中表示对应单模态观察分数，具体表达式如下：

，

其中和是模态观察模块可学习参数；

再通过模态观察分数，计算模态融合权重，表达式为：

，

其中范围在0到1之间，越大表示模态在模态融合中贡献越大。

在模态融合权重基础上进行模态学习权重的计算，具体是通过在1个batch（批次）的训练数据中对每个样本做加权平均，然后通过指数函数求得，表达式为：

，

其中代表在训练数据的batch size（批次大小）。

步骤三，基于模态融合权重和单模态特征表示，构建多模态特征表示和多模态代理特征表示，具体包括以下子步骤：

步骤3.1，构建多模态特征表示。

通过文本模态特征表示、视觉模态特征表示、语音模态特征表示，结合文本模态融合权重、视觉模态融合权重、语音模态融合权重，得到多模态特征表示，表达式为：

；

步骤3.2，构建多模态代理特征表示。

为了单模态信息与多模态信息对齐，引入三个零向量分别作为文本代理特征表示、语音代理特征表示和视觉代理特征表示，其维度与文本模态特征表示、视觉模态特征表示、语音模态特征表示分别保持一致，通过任一单模态特征表示和其他两个模态的单模态代理特征表示进行拼接，得到多模态代理特征表示，表达式为：

。

步骤四，使用模态评分模块对多模态特征表示和多模态代理特征表示进行情感打分，结合模态学习权重，基于多任务学习框架完成模型训练。

具体的，基于多模态特征表示和多模态代理特征表示，通过模态评分模块得到不同模态的情感评分，表达式为：

，

其中模态评分模块由一个三层的前馈神经网络实现，代表对应的模态情感评分，范围在-1到1之间；对于得到的不同模态情感评分，结合所得到的模态学习权重，使用多任务学习框架对模型进行训练，训练过程中的损失函数表达式为：

，

其中代表回归损失函数，此处选用均方误差；

使用多任务学习框架在总损失函数的约束下进行训练。

本发明还包括一种基于模态观察和评分的多模态情感分析系统，该系统结合模态观察模块和模态评分模块，以多模态特征情感评分损失作为主任务，多模态代理特征情感评分作为辅助任务，训练后得到的模型能够充分利用不同模态间的共性，削弱模态间的冲突，最终得到信息增强的多模态情感特征。

与前述一种基于模态观察和评分的多模态情感分析方法的实施例相对应，本发明还提供了一种基于模态观察和评分的多模态情感分析装置的实施例。

参见图2，本发明实施例提供的一种基于模态观察和评分的多模态情感分析装置，包括一个或多个处理器，用于实现上述实施例中的一种基于模态观察和评分的多模态情感分析方法。

本发明一种基于模态观察和评分的多模态情感分析装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图2所示，为本发明的一种基于模态观察和评分的多模态情感分析装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于模态观察和评分的多模态情感分析方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于模态观察和评分的多模态情感分析方法，其特征在于，包括以下步骤：

步骤四，使用模态评分模块对多模态特征表示和多模态代理特征表示进行情感打分，结合模态学习权重，基于多任务学习框架完成情感分析模型的训练；

所述步骤一具体包括以下子步骤：

步骤1.1，采集现有的带有情感标记的多模态数据集，具体为：截取影音片段，通过剪辑分离出片段数据中的文本模态数据、视觉模态数据和语音模态数据，并进行人工情感标注，标注出对应的文本模态情感标签、视觉模态情感标签、语音模态情感标签，以及多模态情感标签；

步骤1.2，根据不同模态的数据特点，提取各模态数据的特征表示；

所述步骤1.2具体为：

对于文本模态数据，首先通过字典对文本字符进行编码，并添加特殊字符cls和sep；然后通过预训练好的BERT模型得到词向量序列W＝{w_cls，w₁，w₂，...，w_n，w_sep}，其中w_cls表示特殊字符cls的词向量，w_j表示第j个词向量，w_sep表示特殊字符sep的词向量，以w_cls作为初始文本模态特征表示

通过一个三层神经网络F_t得到文本模态特征表示

对于视觉模态数据，首先把视频转换成图像帧集合IMG＝{img₁,img₂,...,img_r}，通过人脸检测技术得到人脸图像集合F＝{f₁,f₂,...,f_r}；再使用OpenFace提取每张人脸图像的特征向量，得到人脸特征序列V＝{v₁,v₂,...,v_r}，其中v_i代表第i个人脸特征向量，对人脸特征序列求均值得到初始视觉模态特征表示