CN117251785A

CN117251785A - 基于多任务学习的多模态情感分析和情绪识别方法及系统

Info

Publication number: CN117251785A
Application number: CN202311507210.5A
Authority: CN
Inventors: 张传雷; 赵洪伟; 可婷; 李建荣
Original assignee: Tiankeda Tianjin Science Park Co ltd
Current assignee: Tiankeda Tianjin Science Park Co ltd
Priority date: 2023-11-14
Filing date: 2023-11-14
Publication date: 2023-12-19

Abstract

本发明提供了一种基于多任务学习的多模态情感分析和情绪识别方法及系统，首先，利用特征私有层对每个模态的数据进行特征提取，所述特征私有层包括情感特征提取层和情绪特征提取层，分别用于提取情感特征和情绪特征；然后利用特征融合层将不同模态的特征向量进行特征融合，最后根据融合的特征，进行相应的情感识别。本发明的有益效果是：提升了多模态情感分析的结果，通过同时训练多个相关的任务，提高了模型的泛化能力和性能。通过多任务学习，可以有效地利用不同任务之间的共享特征和互补信息，提高模型在情感分析上的准确性和鲁棒性。

Description

基于多任务学习的多模态情感分析和情绪识别方法及系统

技术领域

本发明涉及情感识别领域，尤其涉及一种基于多任务学习的多模态情感分析和情绪识别方法及系统。

背景技术

情感分析是一种计算方法，用于分析人们对某些目标对象的观点、情感、情绪、评价和态度。它是自然语言处理、数据挖掘、文本挖掘和信息检索等领域的重要研究课题，随着互联网和社交媒体的发展，人们可以在网上发表自己的评论、反馈、建议和意见，这些数据包含了丰富的观点信息，对于理解人们的需求、偏好、满意度和情绪有着重要的价值。现有的研究方法是将情感分析和情绪识别作为两个单独的任务进行识别或分类，忽略了情感和情绪之间的关联性，导致了识别或分类准确度较低，因此，亟需研究一种能考虑到情感和情绪之间的关联性来进行情感和情绪识别或分类的方法。

发明内容

为了解决上述问题，本发明提供了一种基于多任务学习的多模态情感分析和情绪识别方法，采用多任务框架下的共享-私有模式对这两项任务进行建模。首先，情感分析和情绪识别分别使用私有层提取各自的特征。其次，特征融合层使用一个共享的 Bi-LSTM（长短期记忆网络）网络和句间注意力网络，分别对文本中的每个句子进行编码，从而得到句子级别的语义表示。最后，使用特征私有层和特征融合层进行情感分析和情绪识别来提升多模态情感分析的结果，在数据集CMU-MOSEI上的实验结果表明，模型取得了相当的性能，证明了多任务学习在多模态情感分析中的有效性。

一种基于多任务学习的多模态情感分析和情绪识别方法，主要包括：

S1：利用特征私有层对每个模态的数据进行特征提取，所述特征私有层包括情感特征提取层和情绪特征提取层，分别用于提取情感特征和情绪特征；

S2：利用特征融合层将提取的特征进行特征融合；

S3：根据融合的特征，进行相应的情感识别。

进一步地，步骤S2中，所述特征融合层使用一个共享的Bi-LSTM和句间注意力网络，分别对文本中的每个句子进行编码，从而得到句子级别的语义表示，所述Bi-LSTM可以捕捉句子中的前后上下文信息，句间注意力网络可以根据不同任务的需求，动态地调整每个句子在文档中的重要性。

进一步地，步骤S1中，所述情感特征提取层采用基于NRC情感词典的特征提取的步骤如下：

首先，对文本进行分词，去除停用词和标点符号，得到单词序列；

然后，将每个单词与NRC情感词典进行匹配，如果匹配成功，则记录该单词所属的情感类别；

最后，根据每个单词所属的情感类别，计算文本在每种情感上的得分，作为文本的情感特征向量；

情绪特征提取层采用LSTM网络提取层，是采用Bi-LSTM捕获上下文之间的语义交互关系，Bi-LSTM中设有词嵌入矩阵，词汇表的大小为/>，维度为/>，Bi-LSTM包括前向网络和反向网络，可以同时捕捉到单词/>上文依赖和下文依赖关系，所述上文依赖关系为：

所述下文依赖关系为：

每一步的隐藏层输出为：

基于LSTM网络提取层的整体输出为：

其中，h_n为第n维的中间层的单元数，LSTM()表示LSTM网络，表示第i个单词，/>表示上文依赖关系，/>表示下文依赖关系，/>表示/>与/>的拼接，/>表示隐藏层的输出，表示Bi-LSTM的输出。

进一步地，句间注意力网络的计算过程如下：

其中，是上一层Bi-LSTM的输出，/>和/>为句间注意力网络可学习的参数，()表示双曲正切函数，/>表示词语的权重，/>为经过/>()函数归一化后的权重，为加权后的输出，/>表示第i个词语的权重，i=1,2,…,n；

特征融合层的计算过程如下所示：

其中，表示情感特征，/>分别表示情绪特征，/>表示/>与/>的拼接融合，表示特征的联合表征，/>表示/>和每个单独特征计算完注意力后的表征，/>表示注意力机制。

进一步地，所述情感识别包括情感分析任务和情绪识别任务，情感分析任务采用情感分类层完成，情绪识别任务采用情绪识别分类层完成，情感分类层和情绪识别分类层均利用softmax()函数作为分类函数。

进一步地，情感识别的总损失为：

其中，和/>均为超参数，/>为情绪分类损失的权重系数，用于多任务学习过程中调节每个任务的重要性，/>用于调节正则化的程度，/>表示情感识别任务中的参数，表示交叉熵损失函数，/>表示损失函数；

其中，N表示样本数，e表示情绪识别任务，s表示情感分类任务，表示预测值/>表示真实值。

一种基于多任务学习的多模态情感分析和情绪识别系统，包括：

特征提取模块，用于采用特征私有层对每个模态的数据进行特征提取，所述特征私有层包括情感特征提取层和情绪特征提取层，分别用于提取情感特征和情绪特征；

特征融合模块，用于采用特征融合层将提取的特征进行特征融合；

情感识别模块，用于根据融合的特征，进行相应的情感识别，所述情感识别包括情感分析任务和情绪识别任务，情感分析任务采用情感分类层完成，情绪识别任务采用情绪识别分类层完成，情感分类层和情绪识别分类层均利用softmax()函数作为分类函数。

进一步地，特征融合模块中，所述特征融合层使用一个共享的Bi-LSTM和句间注意力网络，分别对文本中的每个句子进行编码，从而得到句子级别的语义表示，所述Bi-LSTM可以捕捉句子中的前后上下文信息，句间注意力网络可以根据不同任务的需求，动态地调整每个句子在文档中的重要性。

进一步地，所述情感特征提取层基于NRC情感词典的特征提取的步骤如下：

所述下文依赖关系为：

每一步的隐藏层输出为：

基于LSTM网络提取层的整体输出为：

进一步地，注意力网络的计算过程如下：

特征融合层的计算过程如下所示：

本发明提供的技术方案带来的有益效果是：本发明研究目标利用多任务学习的策略提升多模态情感分析的结果，多任务学习是一种机器学习方法，通过同时训练多个相关的任务，来提高模型的泛化能力和性能。情感分析的多任务学习是指将情感分析作为主任务，同时利用其他辅助任务来增强模型的情感理解能力。本发明将情绪识别作为辅助任务，来帮助模型学习文本中的情感表达方式、主观程度、观点持有者等信息。通过多任务学习，可以有效地利用不同任务之间的共享特征和互补信息，提高模型在情感分析上的准确性和鲁棒性。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例中基于多任务学习的多模态情感分析和情绪识别方法的流程图；

图2是本发明实施例中基于多任务学习的多模态情感分析和情绪识别的架构图；

图3是本发明实施例中情绪融合层的示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

本发明的实施例提供了一种基于多任务学习的多模态情感分析和情绪识别方法及系统。本发明建立了基于多任务学习的多模态情感分析框架，将情绪识别作为情感分析的辅助任务，采用私有-共享的多任务学习框架进行建模，特征私有层分别用来提取情感分析的特征（情感特征）和情绪类别的特征（情绪特征）。特征融合层，用来融合情感特征和情绪特征。最后设计分类层，设计了针对多任务学习使用的损失函数。本发明最后为实验及结果分析，并进行了消融实验。

1.1 模型整体框架

请参考图1-2，一种基于多任务学习的多模态情感分析和情绪识别方法的整体框架包括三个部分：特征提取、特征融合和输出。

首先，对每个模态的数据进行预处理和编码，利用特征私有层提取有用的特征向量。例如，对于文本模态，可以使用预训练的语言模型（如BERT）来获取句子表示；对于语音和视频模态，可以使用卷积神经网络或循环神经网络来捕捉时序信息。

然后，利用特征融合层进行特征融合，将不同模态的特征向量进行有效地组合，形成一个综合的情感表示。特征融合的方法有很多，如张量融合、记忆融合、注意力机制等。特征融合的目标是保留每个模态的独立信息，同时增强不同模态之间的相关信息。

最后，进行结果的输出，即根据综合的情感表示，进行相应的情感识别任务。输出可以是离散的类别（如正面、负面、中性），也可以是连续的值（如愤怒度、悲伤度等）。输出层通常使用全连接层或softmax层来实现。

1.2 特征私有层：

多任务学习中的特征提取包括主任务的特征提取和辅助任务的特征提取，即如图1所示的情感特征提取层和情绪特征提取层。如图3所示，情绪特征提取层主要负责学习多模态任务中的情绪信息，它主要包含两个部分：基于NRC情感词典的特征提取和基于LSTM特征提取，具体如下：

基于NRC情感词典的特征提取采用的是一种利用NRC情感词典来提取文本中的情感特征的方法。NRC情感词典是一种包含英语中8种基本情感（生气、恐惧、希望、信任、惊奇、悲伤、高兴和反感）和2种极性（正面和负面）的词典，每个单词都被标注了它所属的情感类别。基于NRC情感词典的特征提取的步骤如下：

最后，根据每个单词所属的情感类别，计算文本在每种情感上的得分，作为文本的情感特征向量。

基于NRC情感词典的特征提取可以有效地捕捉文本中隐含或显式表达的不同类型的情绪，并且可以应用于不同领域和任务中，例如文本分类、文本摘要、文本生成等。

基于LSTM的特征提取选用双向长短期记忆网络（Bi-LSTM）来捕获上下文之间的语义交互关系。Bi-LSTM是一种循环神经网络，它可以利用前向和后向两个方向上的信息来处理序列数据。Bi-LSTM由两个独立的LSTM组成，分别接收正序和逆序的输入序列，并将两个输出向量拼接起来作为最终的特征表示。Bi-LSTM可以有效地解决传统LSTM的单向性问题，即只能利用过去的信息而忽略未来的信息。Bi-LSTM的神经注意机制可以自动关注对分类有决定性影响的单词，捕获句子中最重要的语义信息，而无需使用额外的知识和NLP系统。

设词嵌入矩阵，其中为词汇表大小，为多种预训练向量的维度之和。对于时间步有单词，Bi-LSTM能够同时学习单词的前文依赖关系和后文依赖关系。

词嵌入矩阵为，词汇表的大小为/>，维度为/>。Bi-LSTM包括前向网络和反向网路，可以同时捕捉到单词/>上文依赖和下文依赖关系。

前向网络的上文依赖关系为：

反向网络的下文依赖关系为：

每一步的隐藏层输出为：

整句话的输出为：

其中h_n为第n维的中间层的单元数，LSTM（）表示LSTM网络，表示第i个单词，/>表示上文依赖关系，/>表示下文依赖关系，/>表示隐藏层的输出，/>表示Bi-LSTM的输出。

1.3 特征融合层：

特征融合层即为情绪-情感特征共享层，是一种多模态学习的方法，用于提高多模态数据（如文本、语音、视频等）的情绪识别性能。所述多模态学习的方法的基本思想是，不同模态的数据中存在一些共同的情绪和情感特征，可以通过一个共享的网络层来学习和提取，从而增强不同模态数据之间的互补性和协调性。同时，该方法也可以利用不同模态数据之间的差异性，通过特征私有层来学习和保留各自独有的特征。通过这种方式，可以充分利用多模态数据中蕴含的丰富信息，提高情绪识别任务的准确率和鲁棒性。

特征融合层使用设置的一个共享的Bi-LSTM和句间注意力网络，分别对文本中的每个句子进行编码，从而得到句子级别的语义表示。Bi-LSTM可以捕捉句子中的前后上下文信息，而句间注意力网络可以根据不同任务的需求，动态地调整每个句子在文档中的重要性。通过这种方式，特征融合层可以有效地利用文本中的层次结构和语义关系，提高模型在不同任务上的泛化能力。

注意力网络的计算过程如下：

其中，是上一层的输出，/>和/>为网络可学习的参数，/>()表示双曲正切函数，/>表示词语的权重，/>为经过/>函数归一化后的权重，/>为加权后的输出，/>表示第i个词语的权重，i=1,2,…,n。

特征融合层的计算过程如下所示：

其中，表示情感特征，/>分别表示情绪特征，/>表示特征的联合表征，/>表示/>和每个单独特征计算完注意力后的表征，/>表示注意力机制。

1.4分类层

1.4.1 情感分类层

将特征融合层和情感特征提取层的输出作为分类层的输入，同时利用softmax()函数作为分类函数。

损失函数为：

其中，N表示样本数，e表示情绪（emotion）识别任务，s表示情感（sentiment）分类任务，表示预测值/>表示真实值。

特征融合层将情感特征提取层提取来的信息和情绪特征提取层进行融合，其中使用高阶参数共享网络对情绪信息和情感极性共同包含的信息进行建模，学习两者之间的相互关系。

1.4.2 情绪识别分类层

情绪识别分类层利用特征融合层和情绪特征提取层两者的输出作为情绪识别分类层的输入，利用softmax()函数作为分类函数。

其中，表示情绪识别分类层的输出，/>表示特征融合层的输出，/>表示情绪特征提取层的输出。

损失函数为交叉熵损失函数：

整体模型的训练总损失为：

其中超参数为情绪分类损失的权重系数，用于多任务学习过程中调节每个任务的重要性，/>用于调节正则化的程度。

1.5 实验及结果分析

1.5.1 数据集与实验设置

如表1所示，使用MOSEI数据集，CMU-MOSEI数据集由3,229个视频组成，涵盖了超过1,000个在线YouTube演讲者的23,000个语料。训练、验证和测试集分别包括16216、1835和4625个语料。每个语料都有6个情感值，分别代表危险、厌恶、恐惧、快乐、悲伤和惊讶的程度。

在实验中，预训练词向量模型采用的是Bert语言模型，在训练的过程中将被冻结，不再进行更新，学习率设置为10^-3，Dropout设置为0.4，Bi-LSTM的隐藏层单元数为128，使用Adam优化器进行模型优化。评价指标采用准确率（Accuracy）和召回率(Recall)和F1值来进行性能的评价。

表1 MOSEI数据集统计

1.5.2 实验结果分析

本发明在MOSEI数据集上进行验证，表2为实验结果，相较于使用传统的方法，结合多任务学习的情感分析方法能够注意到情绪识别的语义信息，效果得到提升。

将两个任务使用共享-私有模式的多任务学习框架，使用特征融合层融合情感信息和情绪信息，之后使用注意力网络进行权重分配，使用共享层的特征和情感特征私有层的特征联合预测视频片段的情感极性，准确率和F1值相较于原先的SOTA模型提升了2%，平均绝对误差下降了0.057，相关性指标也提升了0.038。

表2 实验结果

1.5.3 消融实验

为了验证多任务学习的有效性，在CMU-MOSI数据集上进行了消融实验，得到的结果为，单任务学习的准确率和多任务学习的准确率分别为83.98%和84.2%，单任务学习的F1值和多任务学习的F1值分别为85.42%和85.62%，单任务学习的平均绝对误差和多任务学习的平均绝对误差分别为0.528和0.501，单任务学习的相关性和多任务学习的相关性分别为0.779和0.79，由此可知，对比于单任务学习，多任务学习的准确度和F1值提升了1%左右，平均绝对误差降低0.027，相关性提升了0.011。

本发明的有益效果是：本发明研究目标利用多任务学习的策略提升多模态情感分析的结果，多任务学习是一种机器学习方法，通过同时训练多个相关的任务，来提高模型的泛化能力和性能。情感分析的多任务学习是指将情感分析作为主任务，同时利用其他辅助任务来增强模型的情感理解能力。本发明将情绪识别作为辅助任务，来帮助模型学习文本中的情感表达方式、主观程度、观点持有者等信息。通过多任务学习，可以有效地利用不同任务之间的共享特征和互补信息，提高模型在情感分析上的准确性和鲁棒性。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多任务学习的多模态情感分析和情绪识别方法，其特征在于：包括：

S2：利用特征融合层将提取的特征进行特征融合；

S3：根据融合的特征，进行相应的情感识别。

2.如权利要求1所述的一种基于多任务学习的多模态情感分析和情绪识别方法，其特征在于：步骤S2中，特征融合层使用一个共享的Bi-LSTM和句间注意力网络，分别对文本中的每个句子进行编码，从而得到句子级别的语义表示，所述Bi-LSTM可以捕捉句子中的前后上下文信息，句间注意力网络可以根据不同任务的需求，动态地调整每个句子在文档中的重要性。

3.如权利要求1所述的一种基于多任务学习的多模态情感分析和情绪识别方法，其特征在于：步骤S1中，情感特征提取层采用基于NRC情感词典的情感特征提取的步骤如下：

情绪特征提取层采用LSTM网络提取层，是采用Bi-LSTM捕获上下文之间的语义交互关系，Bi-LSTM中设有词嵌入矩阵，词汇表的大小为/>，维度为/>，Bi-LSTM包括前向网络和反向网络，可以同时捕捉到单词/>上文依赖关系和下文依赖关系，上文依赖关系/>为：

下文依赖关系为：

每一步的隐藏层输出为：

基于LSTM网络提取层的整体输出为：

其中，h_n为第n维的中间层的单元数，LSTM()表示LSTM网络，表示第i个单词，/>表示上文依赖关系，/>表示下文依赖关系，/>表示隐藏层的输出，/>表示/>与/>的拼接，/>表示Bi-LSTM的输出。

4.如权利要求2所述的一种基于多任务学习的多模态情感分析和情绪识别方法，其特征在于：句间注意力网络的计算过程如下：

其中，是上一层Bi-LSTM的输出，/>和/>为句间注意力网络可学习的参数，/>()表示双曲正切函数，/>表示词语的权重，/>为经过/>()函数归一化后的权重，/>为加权后的输出，/>表示第i个词语的权重，i=1,2,…,n；

特征融合层的计算过程如下所示：

5.如权利要求4所述的一种基于多任务学习的多模态情感分析和情绪识别方法，其特征在于：所述情感识别包括情感分析任务和情绪识别任务，情感分析任务采用情感分类层完成，情绪识别任务采用情绪识别分类层完成，情感分类层和情绪识别分类层均利用softmax()函数作为分类函数。

6.如权利要求5所述的一种基于多任务学习的多模态情感分析和情绪识别方法，其特征在于：情感识别的总损失为：

其中，和/>均为超参数，/>为情绪分类损失的权重系数，用于多任务学习过程中调节每个任务的重要性，/>用于调节正则化的程度，/>表示情感识别任务中的参数，/>表示交叉熵损失函数，/>表示损失函数；

7.一种基于多任务学习的多模态情感分析和情绪识别系统，其特征在于：包括：

8.如权利要求7所述的一种基于多任务学习的多模态情感分析和情绪识别系统，其特征在于：特征融合模块中，特征融合层使用一个共享的Bi-LSTM和句间注意力网络，分别对文本中的每个句子进行编码，从而得到句子级别的语义表示，所述Bi-LSTM可以捕捉句子中的前后上下文信息，句间注意力网络可以根据不同任务的需求，动态地调整每个句子在文档中的重要性。

9.如权利要求7所述的一种基于多任务学习的多模态情感分析和情绪识别系统，其特征在于：情感特征提取层采用基于NRC情感词典的特征提取的步骤如下：

情绪特征提取层采用LSTM网络提取层，是采用Bi-LSTM捕获上下文之间的语义交互关系，Bi-LSTM中设有词嵌入矩阵，词汇表的大小为/>，维度为/>，Bi-LSTM包括前向网络和反向网络，可以同时捕捉到单词/>上文依赖关系和下文依赖关系，上文依赖关系为：

下文依赖关系为：

每一步的隐藏层输出为：

基于LSTM网络提取层的整体输出为：

其中，h_n为第n维的中间层的单元数，LSTM()表示LSTM网络，表示第i个单词，/>表示上文依赖关系，/>表示下文依赖关系，/>表示/>与/>的拼接，/>表示隐藏层的输出，/>表示Bi-LSTM的输出。

10.如权利要求8所述的一种基于多任务学习的多模态情感分析和情绪识别系统，其特征在于：注意力网络的计算过程如下：

特征融合层的计算过程如下所示：