CN117251785A - 基于多任务学习的多模态情感分析和情绪识别方法及系统 - Google Patents
基于多任务学习的多模态情感分析和情绪识别方法及系统 Download PDFInfo
- Publication number
- CN117251785A CN117251785A CN202311507210.5A CN202311507210A CN117251785A CN 117251785 A CN117251785 A CN 117251785A CN 202311507210 A CN202311507210 A CN 202311507210A CN 117251785 A CN117251785 A CN 117251785A
- Authority
- CN
- China
- Prior art keywords
- emotion
- layer
- representing
- lstm
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 173
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 69
- 238000004458 analytical method Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 54
- 230000004927 fusion Effects 0.000 claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 15
- 230000002996 emotional effect Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000000295 complement effect Effects 0.000 abstract description 3
- 239000010410 layer Substances 0.000 description 83
- 238000002474 experimental method Methods 0.000 description 6
- 238000002679 ablation Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010063659 Aversion Diseases 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于多任务学习的多模态情感分析和情绪识别方法及系统,首先,利用特征私有层对每个模态的数据进行特征提取,所述特征私有层包括情感特征提取层和情绪特征提取层,分别用于提取情感特征和情绪特征;然后利用特征融合层将不同模态的特征向量进行特征融合,最后根据融合的特征,进行相应的情感识别。本发明的有益效果是:提升了多模态情感分析的结果,通过同时训练多个相关的任务,提高了模型的泛化能力和性能。通过多任务学习,可以有效地利用不同任务之间的共享特征和互补信息,提高模型在情感分析上的准确性和鲁棒性。
Description
技术领域
本发明涉及情感识别领域,尤其涉及一种基于多任务学习的多模态情感分析和情绪识别方法及系统。
背景技术
情感分析是一种计算方法,用于分析人们对某些目标对象的观点、情感、情绪、评价和态度。它是自然语言处理、数据挖掘、文本挖掘和信息检索等领域的重要研究课题,随着互联网和社交媒体的发展,人们可以在网上发表自己的评论、反馈、建议和意见,这些数据包含了丰富的观点信息,对于理解人们的需求、偏好、满意度和情绪有着重要的价值。现有的研究方法是将情感分析和情绪识别作为两个单独的任务进行识别或分类,忽略了情感和情绪之间的关联性,导致了识别或分类准确度较低,因此,亟需研究一种能考虑到情感和情绪之间的关联性来进行情感和情绪识别或分类的方法。
发明内容
为了解决上述问题,本发明提供了一种基于多任务学习的多模态情感分析和情绪识别方法,采用多任务框架下的共享-私有模式对这两项任务进行建模。首先,情感分析和情绪识别分别使用私有层提取各自的特征。其次,特征融合层使用一个共享的 Bi-LSTM(长短期记忆网络) 网络和句间注意力网络,分别对文本中的每个句子进行编码,从而得到句子级别的语义表示。最后,使用特征私有层和特征融合层进行情感分析和情绪识别来提升多模态情感分析的结果,在数据集CMU-MOSEI上的实验结果表明,模型取得了相当的性能,证明了多任务学习在多模态情感分析中的有效性。
一种基于多任务学习的多模态情感分析和情绪识别方法,主要包括:
S1:利用特征私有层对每个模态的数据进行特征提取,所述特征私有层包括情感特征提取层和情绪特征提取层,分别用于提取情感特征和情绪特征;
S2:利用特征融合层将提取的特征进行特征融合;
S3:根据融合的特征,进行相应的情感识别。
进一步地,步骤S2中,所述特征融合层使用一个共享的Bi-LSTM和句间注意力网络,分别对文本中的每个句子进行编码,从而得到句子级别的语义表示,所述Bi-LSTM可以捕捉句子中的前后上下文信息,句间注意力网络可以根据不同任务的需求,动态地调整每个句子在文档中的重要性。
进一步地,步骤S1中,所述情感特征提取层采用基于NRC情感词典的特征提取的步骤如下:
首先,对文本进行分词,去除停用词和标点符号,得到单词序列;
然后,将每个单词与NRC情感词典进行匹配,如果匹配成功,则记录该单词所属的情感类别;
最后,根据每个单词所属的情感类别,计算文本在每种情感上的得分,作为文本的情感特征向量;
情绪特征提取层采用LSTM网络提取层,是采用Bi-LSTM捕获上下文之间的语义交互关系,Bi-LSTM中设有词嵌入矩阵,词汇表的大小为/>,维度为/>,Bi-LSTM包括前向网络和反向网络,可以同时捕捉到单词/>上文依赖和下文依赖关系,所述上文依赖关系为:
所述下文依赖关系为:
每一步的隐藏层输出为:
基于LSTM网络提取层的整体输出为:
其中,hn为第n维的中间层的单元数,LSTM()表示LSTM网络,表示第i个单词,/>表示上文依赖关系,/>表示下文依赖关系,/>表示/>与/>的拼接,/>表示隐藏层的输出,表示Bi-LSTM的输出。
进一步地,句间注意力网络的计算过程如下:
其中,是上一层Bi-LSTM的输出,/>和/>为句间注意力网络可学习的参数,()表示双曲正切函数,/>表示词语的权重,/>为经过/>()函数归一化后的权重,为加权后的输出,/>表示第i个词语的权重,i=1,2,…,n;
特征融合层的计算过程如下所示:
其中,表示情感特征,/>分别表示情绪特征,/>表示/>与/>的拼接融合,表示特征的联合表征,/>表示/>和每个单独特征计算完注意力后的表征,/>表示注意力机制。
进一步地,所述情感识别包括情感分析任务和情绪识别任务,情感分析任务采用情感分类层完成,情绪识别任务采用情绪识别分类层完成,情感分类层和情绪识别分类层均利用softmax()函数作为分类函数。
进一步地,情感识别的总损失为:
其中,和/>均为超参数,/>为情绪分类损失的权重系数,用于多任务学习过程中调节每个任务的重要性,/>用于调节正则化的程度,/>表示情感识别任务中的参数,表示交叉熵损失函数,/>表示损失函数;
其中,N表示样本数,e表示情绪识别任务,s表示情感分类任务,表示预测值/>表示真实值。
一种基于多任务学习的多模态情感分析和情绪识别系统,包括:
特征提取模块,用于采用特征私有层对每个模态的数据进行特征提取,所述特征私有层包括情感特征提取层和情绪特征提取层,分别用于提取情感特征和情绪特征;
特征融合模块,用于采用特征融合层将提取的特征进行特征融合;
情感识别模块,用于根据融合的特征,进行相应的情感识别,所述情感识别包括情感分析任务和情绪识别任务,情感分析任务采用情感分类层完成,情绪识别任务采用情绪识别分类层完成,情感分类层和情绪识别分类层均利用softmax()函数作为分类函数。
进一步地,特征融合模块中,所述特征融合层使用一个共享的Bi-LSTM和句间注意力网络,分别对文本中的每个句子进行编码,从而得到句子级别的语义表示,所述Bi-LSTM可以捕捉句子中的前后上下文信息,句间注意力网络可以根据不同任务的需求,动态地调整每个句子在文档中的重要性。
进一步地,所述情感特征提取层基于NRC情感词典的特征提取的步骤如下:
首先,对文本进行分词,去除停用词和标点符号,得到单词序列;
然后,将每个单词与NRC情感词典进行匹配,如果匹配成功,则记录该单词所属的情感类别;
最后,根据每个单词所属的情感类别,计算文本在每种情感上的得分,作为文本的情感特征向量;
情绪特征提取层采用LSTM网络提取层,是采用Bi-LSTM捕获上下文之间的语义交互关系,Bi-LSTM中设有词嵌入矩阵,词汇表的大小为/>,维度为/>,Bi-LSTM包括前向网络和反向网络,可以同时捕捉到单词/>上文依赖和下文依赖关系,所述上文依赖关系为:
所述下文依赖关系为:
每一步的隐藏层输出为:
基于LSTM网络提取层的整体输出为:
其中,hn为第n维的中间层的单元数,LSTM()表示LSTM网络,表示第i个单词,/>表示上文依赖关系,/>表示下文依赖关系,/>表示/>与/>的拼接,/>表示隐藏层的输出,表示Bi-LSTM的输出。
进一步地,注意力网络的计算过程如下:
其中,是上一层Bi-LSTM的输出,/>和/>为句间注意力网络可学习的参数,()表示双曲正切函数,/>表示词语的权重,/>为经过/>()函数归一化后的权重,为加权后的输出,/>表示第i个词语的权重,i=1,2,…,n;
特征融合层的计算过程如下所示:
其中,表示情感特征,/>分别表示情绪特征,/>表示/>与/>的拼接融合,表示特征的联合表征,/>表示/>和每个单独特征计算完注意力后的表征,/>表示注意力机制。
本发明提供的技术方案带来的有益效果是:本发明研究目标利用多任务学习的策略提升多模态情感分析的结果,多任务学习是一种机器学习方法,通过同时训练多个相关的任务,来提高模型的泛化能力和性能。情感分析的多任务学习是指将情感分析作为主任务,同时利用其他辅助任务来增强模型的情感理解能力。本发明将情绪识别作为辅助任务,来帮助模型学习文本中的情感表达方式、主观程度、观点持有者等信息。通过多任务学习,可以有效地利用不同任务之间的共享特征和互补信息,提高模型在情感分析上的准确性和鲁棒性。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例中基于多任务学习的多模态情感分析和情绪识别方法的流程图;
图2是本发明实施例中基于多任务学习的多模态情感分析和情绪识别的架构图;
图3是本发明实施例中情绪融合层的示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明的实施例提供了一种基于多任务学习的多模态情感分析和情绪识别方法及系统。本发明建立了基于多任务学习的多模态情感分析框架,将情绪识别作为情感分析的辅助任务,采用私有-共享的多任务学习框架进行建模,特征私有层分别用来提取情感分析的特征(情感特征)和情绪类别的特征(情绪特征)。特征融合层,用来融合情感特征和情绪特征。最后设计分类层,设计了针对多任务学习使用的损失函数。本发明最后为实验及结果分析,并进行了消融实验。
1.1 模型整体框架
请参考图1-2,一种基于多任务学习的多模态情感分析和情绪识别方法的整体框架包括三个部分:特征提取、特征融合和输出。
首先,对每个模态的数据进行预处理和编码,利用特征私有层提取有用的特征向量。例如,对于文本模态,可以使用预训练的语言模型(如BERT)来获取句子表示;对于语音和视频模态,可以使用卷积神经网络或循环神经网络来捕捉时序信息。
然后,利用特征融合层进行特征融合,将不同模态的特征向量进行有效地组合,形成一个综合的情感表示。特征融合的方法有很多,如张量融合、记忆融合、注意力机制等。特征融合的目标是保留每个模态的独立信息,同时增强不同模态之间的相关信息。
最后,进行结果的输出,即根据综合的情感表示,进行相应的情感识别任务。输出可以是离散的类别(如正面、负面、中性),也可以是连续的值(如愤怒度、悲伤度等)。输出层通常使用全连接层或softmax层来实现。
1.2 特征私有层:
多任务学习中的特征提取包括主任务的特征提取和辅助任务的特征提取,即如图1所示的情感特征提取层和情绪特征提取层。如图3所示,情绪特征提取层主要负责学习多模态任务中的情绪信息,它主要包含两个部分:基于NRC情感词典的特征提取和基于LSTM特征提取,具体如下:
基于NRC情感词典的特征提取采用的是一种利用NRC情感词典来提取文本中的情感特征的方法。NRC情感词典是一种包含英语中8种基本情感(生气、恐惧、希望、信任、惊奇、悲伤、高兴和反感)和2种极性(正面和负面)的词典,每个单词都被标注了它所属的情感类别。基于NRC情感词典的特征提取的步骤如下:
首先,对文本进行分词,去除停用词和标点符号,得到单词序列;
然后,将每个单词与NRC情感词典进行匹配,如果匹配成功,则记录该单词所属的情感类别;
最后,根据每个单词所属的情感类别,计算文本在每种情感上的得分,作为文本的情感特征向量。
基于NRC情感词典的特征提取可以有效地捕捉文本中隐含或显式表达的不同类型的情绪,并且可以应用于不同领域和任务中,例如文本分类、文本摘要、文本生成等。
基于LSTM的特征提取选用双向长短期记忆网络(Bi-LSTM)来捕获上下文之间的语义交互关系。Bi-LSTM是一种循环神经网络,它可以利用前向和后向两个方向上的信息来处理序列数据。Bi-LSTM由两个独立的LSTM组成,分别接收正序和逆序的输入序列,并将两个输出向量拼接起来作为最终的特征表示。Bi-LSTM可以有效地解决传统LSTM的单向性问题,即只能利用过去的信息而忽略未来的信息。Bi-LSTM的神经注意机制可以自动关注对分类有决定性影响的单词,捕获句子中最重要的语义信息,而无需使用额外的知识和NLP系统。
设词嵌入矩阵,其中为词汇表大小,为多种预训练向量的维度之和。对于时间步有单词,Bi-LSTM能够同时学习单词的前文依赖关系和后文依赖关系。
词嵌入矩阵为,词汇表的大小为/>,维度为/>。Bi-LSTM包括前向网络和反向网路,可以同时捕捉到单词/>上文依赖和下文依赖关系。
前向网络的上文依赖关系为:
反向网络的下文依赖关系为:
每一步的隐藏层输出为:
整句话的输出为:
其中hn为第n维的中间层的单元数,LSTM()表示LSTM网络,表示第i个单词,/>表示上文依赖关系,/>表示下文依赖关系,/>表示隐藏层的输出,/>表示Bi-LSTM的输出。
1.3 特征融合层:
特征融合层即为情绪-情感特征共享层,是一种多模态学习的方法,用于提高多模态数据(如文本、语音、视频等)的情绪识别性能。所述多模态学习的方法的基本思想是,不同模态的数据中存在一些共同的情绪和情感特征,可以通过一个共享的网络层来学习和提取,从而增强不同模态数据之间的互补性和协调性。同时,该方法也可以利用不同模态数据之间的差异性,通过特征私有层来学习和保留各自独有的特征。通过这种方式,可以充分利用多模态数据中蕴含的丰富信息,提高情绪识别任务的准确率和鲁棒性。
特征融合层使用设置的一个共享的Bi-LSTM和句间注意力网络,分别对文本中的每个句子进行编码,从而得到句子级别的语义表示。Bi-LSTM可以捕捉句子中的前后上下文信息,而句间注意力网络可以根据不同任务的需求,动态地调整每个句子在文档中的重要性。通过这种方式,特征融合层可以有效地利用文本中的层次结构和语义关系,提高模型在不同任务上的泛化能力。
注意力网络的计算过程如下:
其中,是上一层的输出,/>和/>为网络可学习的参数,/>()表示双曲正切函数,/>表示词语的权重,/>为经过/>函数归一化后的权重,/>为加权后的输出,/>表示第i个词语的权重,i=1,2,…,n。
特征融合层的计算过程如下所示:
其中,表示情感特征,/>分别表示情绪特征,/>表示特征的联合表征,/>表示/>和每个单独特征计算完注意力后的表征,/>表示注意力机制。
1.4分类层
1.4.1 情感分类层
将特征融合层和情感特征提取层的输出作为分类层的输入,同时利用softmax()函数作为分类函数。
损失函数为:
其中,N表示样本数,e表示情绪(emotion)识别任务,s表示情感(sentiment)分类任务,表示预测值/>表示真实值。
特征融合层将情感特征提取层提取来的信息和情绪特征提取层进行融合,其中使用高阶参数共享网络对情绪信息和情感极性共同包含的信息进行建模,学习两者之间的相互关系。
1.4.2 情绪识别分类层
情绪识别分类层利用特征融合层和情绪特征提取层两者的输出作为情绪识别分类层的输入,利用softmax()函数作为分类函数。
其中,表示情绪识别分类层的输出,/>表示特征融合层的输出,/>表示情绪特征提取层的输出。
损失函数为交叉熵损失函数:
整体模型的训练总损失为:
其中超参数为情绪分类损失的权重系数,用于多任务学习过程中调节每个任务的重要性,/>用于调节正则化的程度。
1.5 实验及结果分析
1.5.1 数据集与实验设置
如表1所示,使用MOSEI数据集,CMU-MOSEI数据集由3,229个视频组成,涵盖了超过1,000个在线YouTube演讲者的23,000个语料。训练、验证和测试集分别包括16216、1835和4625个语料。每个语料都有6个情感值,分别代表危险、厌恶、恐惧、快乐、悲伤和惊讶的程度。
在实验中,预训练词向量模型采用的是Bert语言模型,在训练的过程中将被冻结,不再进行更新,学习率设置为10-3,Dropout设置为0.4,Bi-LSTM的隐藏层单元数为128,使用Adam优化器进行模型优化。评价指标采用准确率(Accuracy)和召回率(Recall)和F1值来进行性能的评价。
表1 MOSEI数据集统计
1.5.2 实验结果分析
本发明在MOSEI数据集上进行验证,表2为实验结果,相较于使用传统的方法,结合多任务学习的情感分析方法能够注意到情绪识别的语义信息,效果得到提升。
将两个任务使用共享-私有模式的多任务学习框架,使用特征融合层融合情感信息和情绪信息,之后使用注意力网络进行权重分配,使用共享层的特征和情感特征私有层的特征联合预测视频片段的情感极性,准确率和F1值相较于原先的SOTA模型提升了2%,平均绝对误差下降了0.057,相关性指标也提升了0.038。
表2 实验结果
1.5.3 消融实验
为了验证多任务学习的有效性,在CMU-MOSI数据集上进行了消融实验,得到的结果为,单任务学习的准确率和多任务学习的准确率分别为83.98%和84.2%,单任务学习的F1值和多任务学习的F1值分别为85.42%和85.62%,单任务学习的平均绝对误差和多任务学习的平均绝对误差分别为0.528和0.501,单任务学习的相关性和多任务学习的相关性分别为0.779和0.79,由此可知,对比于单任务学习,多任务学习的准确度和F1值提升了1%左右,平均绝对误差降低0.027,相关性提升了0.011。
本发明的有益效果是:本发明研究目标利用多任务学习的策略提升多模态情感分析的结果,多任务学习是一种机器学习方法,通过同时训练多个相关的任务,来提高模型的泛化能力和性能。情感分析的多任务学习是指将情感分析作为主任务,同时利用其他辅助任务来增强模型的情感理解能力。本发明将情绪识别作为辅助任务,来帮助模型学习文本中的情感表达方式、主观程度、观点持有者等信息。通过多任务学习,可以有效地利用不同任务之间的共享特征和互补信息,提高模型在情感分析上的准确性和鲁棒性。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于多任务学习的多模态情感分析和情绪识别方法,其特征在于:包括:
S1:利用特征私有层对每个模态的数据进行特征提取,所述特征私有层包括情感特征提取层和情绪特征提取层,分别用于提取情感特征和情绪特征;
S2:利用特征融合层将提取的特征进行特征融合;
S3:根据融合的特征,进行相应的情感识别。
2.如权利要求1所述的一种基于多任务学习的多模态情感分析和情绪识别方法,其特征在于:步骤S2中,特征融合层使用一个共享的Bi-LSTM和句间注意力网络,分别对文本中的每个句子进行编码,从而得到句子级别的语义表示,所述Bi-LSTM可以捕捉句子中的前后上下文信息,句间注意力网络可以根据不同任务的需求,动态地调整每个句子在文档中的重要性。
3.如权利要求1所述的一种基于多任务学习的多模态情感分析和情绪识别方法,其特征在于:步骤S1中,情感特征提取层采用基于NRC情感词典的情感特征提取的步骤如下:
首先,对文本进行分词,去除停用词和标点符号,得到单词序列;
然后,将每个单词与NRC情感词典进行匹配,如果匹配成功,则记录该单词所属的情感类别;
最后,根据每个单词所属的情感类别,计算文本在每种情感上的得分,作为文本的情感特征向量;
情绪特征提取层采用LSTM网络提取层,是采用Bi-LSTM捕获上下文之间的语义交互关系,Bi-LSTM中设有词嵌入矩阵,词汇表的大小为/>,维度为/>,Bi-LSTM包括前向网络和反向网络,可以同时捕捉到单词/>上文依赖关系和下文依赖关系,上文依赖关系/>为:
下文依赖关系为:
每一步的隐藏层输出为:
基于LSTM网络提取层的整体输出为:
其中,hn为第n维的中间层的单元数,LSTM()表示LSTM网络,表示第i个单词,/>表示上文依赖关系,/>表示下文依赖关系,/>表示隐藏层的输出,/>表示/>与/>的拼接,/>表示Bi-LSTM的输出。
4.如权利要求2所述的一种基于多任务学习的多模态情感分析和情绪识别方法,其特征在于:句间注意力网络的计算过程如下:
其中,是上一层Bi-LSTM的输出,/>和/>为句间注意力网络可学习的参数,/>()表示双曲正切函数,/>表示词语的权重,/>为经过/>()函数归一化后的权重,/>为加权后的输出,/>表示第i个词语的权重,i=1,2,…,n;
特征融合层的计算过程如下所示:
其中,表示情感特征,/>分别表示情绪特征,/>表示特征的联合表征,/>表示/>和每个单独特征计算完注意力后的表征,/>表示注意力机制。
5.如权利要求4所述的一种基于多任务学习的多模态情感分析和情绪识别方法,其特征在于:所述情感识别包括情感分析任务和情绪识别任务,情感分析任务采用情感分类层完成,情绪识别任务采用情绪识别分类层完成,情感分类层和情绪识别分类层均利用softmax()函数作为分类函数。
6.如权利要求5所述的一种基于多任务学习的多模态情感分析和情绪识别方法,其特征在于:情感识别的总损失为:
其中,和/>均为超参数,/>为情绪分类损失的权重系数,用于多任务学习过程中调节每个任务的重要性,/>用于调节正则化的程度,/>表示情感识别任务中的参数,/>表示交叉熵损失函数,/>表示损失函数;
其中,N表示样本数,e表示情绪识别任务,s表示情感分类任务,表示预测值/>表示真实值。
7.一种基于多任务学习的多模态情感分析和情绪识别系统,其特征在于:包括:
特征提取模块,用于采用特征私有层对每个模态的数据进行特征提取,所述特征私有层包括情感特征提取层和情绪特征提取层,分别用于提取情感特征和情绪特征;
特征融合模块,用于采用特征融合层将提取的特征进行特征融合;
情感识别模块,用于根据融合的特征,进行相应的情感识别,所述情感识别包括情感分析任务和情绪识别任务,情感分析任务采用情感分类层完成,情绪识别任务采用情绪识别分类层完成,情感分类层和情绪识别分类层均利用softmax()函数作为分类函数。
8.如权利要求7所述的一种基于多任务学习的多模态情感分析和情绪识别系统,其特征在于:特征融合模块中,特征融合层使用一个共享的Bi-LSTM和句间注意力网络,分别对文本中的每个句子进行编码,从而得到句子级别的语义表示,所述Bi-LSTM可以捕捉句子中的前后上下文信息,句间注意力网络可以根据不同任务的需求,动态地调整每个句子在文档中的重要性。
9.如权利要求7所述的一种基于多任务学习的多模态情感分析和情绪识别系统,其特征在于:情感特征提取层采用基于NRC情感词典的特征提取的步骤如下:
首先,对文本进行分词,去除停用词和标点符号,得到单词序列;
然后,将每个单词与NRC情感词典进行匹配,如果匹配成功,则记录该单词所属的情感类别;
最后,根据每个单词所属的情感类别,计算文本在每种情感上的得分,作为文本的情感特征向量;
情绪特征提取层采用LSTM网络提取层,是采用Bi-LSTM捕获上下文之间的语义交互关系,Bi-LSTM中设有词嵌入矩阵,词汇表的大小为/>,维度为/>,Bi-LSTM包括前向网络和反向网络,可以同时捕捉到单词/>上文依赖关系和下文依赖关系,上文依赖关系为:
下文依赖关系为:
每一步的隐藏层输出为:
基于LSTM网络提取层的整体输出为:
其中,hn为第n维的中间层的单元数,LSTM()表示LSTM网络,表示第i个单词,/>表示上文依赖关系,/>表示下文依赖关系,/>表示/>与/>的拼接,/>表示隐藏层的输出,/>表示Bi-LSTM的输出。
10.如权利要求8所述的一种基于多任务学习的多模态情感分析和情绪识别系统,其特征在于:注意力网络的计算过程如下:
其中,是上一层Bi-LSTM的输出,/>和/>为句间注意力网络可学习的参数,/>()表示双曲正切函数,/>表示词语的权重,/>为经过/>()函数归一化后的权重,/>为加权后的输出,/>表示第i个词语的权重,i=1,2,…,n;
特征融合层的计算过程如下所示:
其中,表示情感特征,/>分别表示情绪特征,/>表示特征的联合表征,/>表示/>和每个单独特征计算完注意力后的表征,/>表示注意力机制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311507210.5A CN117251785A (zh) | 2023-11-14 | 2023-11-14 | 基于多任务学习的多模态情感分析和情绪识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311507210.5A CN117251785A (zh) | 2023-11-14 | 2023-11-14 | 基于多任务学习的多模态情感分析和情绪识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117251785A true CN117251785A (zh) | 2023-12-19 |
Family
ID=89126596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311507210.5A Pending CN117251785A (zh) | 2023-11-14 | 2023-11-14 | 基于多任务学习的多模态情感分析和情绪识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117251785A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651593A (zh) * | 2020-05-08 | 2020-09-11 | 河南理工大学 | 基于词向量和字向量混合模型的文本情感分析方法 |
CN112560503A (zh) * | 2021-02-19 | 2021-03-26 | 中国科学院自动化研究所 | 融合深度特征和时序模型的语义情感分析方法 |
CN114330551A (zh) * | 2021-12-29 | 2022-04-12 | 食品安全与营养(贵州)信息科技有限公司 | 基于多任务学习和注意力层融合的多模态情感分析方法 |
CN114937182A (zh) * | 2022-04-18 | 2022-08-23 | 江西师范大学 | 一种基于情感轮和卷积神经网络的图像情感分布预测方法 |
-
2023
- 2023-11-14 CN CN202311507210.5A patent/CN117251785A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651593A (zh) * | 2020-05-08 | 2020-09-11 | 河南理工大学 | 基于词向量和字向量混合模型的文本情感分析方法 |
CN112560503A (zh) * | 2021-02-19 | 2021-03-26 | 中国科学院自动化研究所 | 融合深度特征和时序模型的语义情感分析方法 |
CN114330551A (zh) * | 2021-12-29 | 2022-04-12 | 食品安全与营养(贵州)信息科技有限公司 | 基于多任务学习和注意力层融合的多模态情感分析方法 |
CN114937182A (zh) * | 2022-04-18 | 2022-08-23 | 江西师范大学 | 一种基于情感轮和卷积神经网络的图像情感分布预测方法 |
Non-Patent Citations (3)
Title |
---|
吴良庆等: ""基于情感信息辅助的多模态情绪识别"", 《北京大学学报(自然科学版)》, vol. 56, no. 1, pages 75 - 81 * |
周炎亮等: "《大数据分析师面试笔试宝典》", 机械工业出版社, pages: 140 - 141 * |
江晨琳等: ""基于情感词和多任务卷积神经网络的文本情感分布学习"", 《中文信息学报》, vol. 37, no. 4, pages 126 - 136 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109753566B (zh) | 基于卷积神经网络的跨领域情感分析的模型训练方法 | |
Abdullah et al. | SEDAT: sentiment and emotion detection in Arabic text using CNN-LSTM deep learning | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN111125333A (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN113435211A (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN112347269A (zh) | 基于BERT和Att-BiLSTM的论点对识别方法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114091466A (zh) | 一种基于Transformer和多任务学习的多模态情感分析方法及系统 | |
Gandhi et al. | Multimodal sentiment analysis: review, application domains and future directions | |
CN116189039A (zh) | 一种全局音频特征增强的模态顺序感知的多模态情感分类方法及系统 | |
Zhao et al. | Knowledge-aware bayesian co-attention for multimodal emotion recognition | |
CN112287687B (zh) | 基于案件属性感知的案件倾向性抽取式摘要方法 | |
CN114416969A (zh) | 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统 | |
CN117851871A (zh) | 一种境外互联网社交阵地多模态数据识别方法 | |
CN112949284B (zh) | 一种基于Transformer模型的文本语义相似度预测方法 | |
CN112579739A (zh) | 基于ELMo嵌入与门控自注意力机制的阅读理解方法 | |
CN115809666B (zh) | 一种融合词典信息和注意力机制的命名实体识别方法 | |
CN111914084A (zh) | 一种基于深度学习的带有情感标签文本生成及评估系统 | |
Srivastava et al. | Image Captioning based on Deep Convolutional Neural Networks and LSTM | |
CN113239678B (zh) | 一种面向答案选择的多角度注意力特征匹配方法及系统 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN115169472A (zh) | 针对多媒体数据的音乐匹配方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |