CN115640530A - 一种基于多任务学习的对话讽刺和情感联合分析方法 - Google Patents
一种基于多任务学习的对话讽刺和情感联合分析方法 Download PDFInfo
- Publication number
- CN115640530A CN115640530A CN202211368781.0A CN202211368781A CN115640530A CN 115640530 A CN115640530 A CN 115640530A CN 202211368781 A CN202211368781 A CN 202211368781A CN 115640530 A CN115640530 A CN 115640530A
- Authority
- CN
- China
- Prior art keywords
- task
- vector
- text
- ironic
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 94
- 238000004458 analytical method Methods 0.000 title claims abstract description 66
- 230000007246 mechanism Effects 0.000 claims abstract description 68
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000002996 emotional effect Effects 0.000 claims abstract description 40
- 230000004927 fusion Effects 0.000 claims abstract description 24
- 230000003993 interaction Effects 0.000 claims abstract description 17
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000002452 interceptive effect Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 108
- 239000010410 layer Substances 0.000 claims description 81
- 238000012549 training Methods 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 125000004122 cyclic group Chemical group 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000008921 facial expression Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 241000609816 Pantholops hodgsonii Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提出了一种基于多任务学习的对话讽刺和情感联合分析方法,其步骤如下:收集多模态对话情感语料集,对文本标签和每段对话的多模态数据进行预处理,对文本、图像和音频分别进行特征提取;采用多头注意力机制将得到的特征进行融合;将融合特征输入交互学习网络,采用基于软参数共享的多任务学习范式学习讽刺任务和情感任务分别获得其底层表示;以讽刺识别为主任务,情感分析为次任务,运用多任务交互方法,在讽刺检测任务中融入情感分析知识,得到讽刺分类和情感分类的结果。本发明能够有效地捕捉不同模态的全局信息;利用多任务学习框架能够同时学习不同任务之间的关联和差异,并通过多任务间的交互,提高讽刺和情感任务分类的准确率。
Description
技术领域
本发明涉及对话情感分类的技术领域,尤其涉及一种基于多任务学习的对话讽刺和情感联合分析方法。
背景技术
随着社交网络的广泛应用,越来越多人与人之间交流以多模态的对话记录产生。在这种对话中,人们经常通过多种方式来表达自己的情感和讽刺态度,如伴随着面部表情的语言、混合着语气的手势等。讽刺是一种表达人类内心情感的隐喻性语言,体现在话语的字面情感与表达的真实情感往往相反。鉴于讽刺与情感是相互关联的,对话中的多模态讽刺和情感联合分析一直是人工智能应用的核心研究课题。在讽刺分析的帮助下,我们更容易掌握会话方的情感状态可以帮助我们适时地采用恰当的话术、行动表达安抚和谅解等。同时讽刺和情感联合分析也能够应用于舆情分析、言论导向预测、传播主题追踪等社会领域。此外,智能对话感情识别的研究,也有助于改善人民的生活水平,提升公共政治决策参与能力,满足人类日益增长的生活追求。本发明主要研究社交平台普遍的对话情感分析,即基于多任务学习的多模态会话讽刺和情感联合分析。
基于多任务学习的多模态对话情感分析主要研究对话过程说话者情感变化的趋势,在借助不同模态(文本、图像、音频)以及相关任务的信息来判断说话者表达的真实情感。其面临的挑战主要在于:(1)如何利用跨模态的信息互补性来获得有效的多模态表示;(2)如何利用相关任务的知识来提高目标情感任务的分类结果。
目前,基于多任务学习的多模态情感分析技术在学术界和工业界已经取得了很多杰出的成果和应用。他们主要专注于研究多个情感任务精细化的分类,利用共享底层表征来构建多任务情感识别的深度学习架构。但是还没有系统地考虑到人们在对话中由于频繁的交互导致情感表达的不确定性,也较少地考虑到不同感情任务之间的差异性。因此在基于多任务学习的多模态对话情感分析领域仍然有很大研究空间。
发明内容
针对现有多模态情感分析没有系统考虑对话中的频繁交互导致情感表达不确定的技术问题,本发明提出一种基于多任务学习的对话讽刺和情感联合分析方法,综合考虑多模态情感对话的特征信息,实现不同感情任务(讽刺和情感)更加准确的分类。
为了达到上述目的,本发明的技术方案是这样实现的:一种基于多任务学习的对话讽刺和情感联合分析方法,其步骤如下:
步骤一:收集多模态对话情感语料集,多模态对话情感语料集包括N个对话样例,每段对话样例以时间为序记录了每个说话者的文本话语、表情图像以及声音;
步骤二:对多模态对话情感语料集的文本标签进行预处理,并将与处理后的多模态对话情感语料集随机分成训练集和测试集;
步骤三:对多模态对话情感语料集中每段对话的多模态数据进行预处理,并对文本、图像和音频三种模态分别进行特征提取;
步骤四:采用多头注意力机制方法将步骤三中得到的文本特征、图像特征和音频特征进行特征融合;
步骤五:将多模态融合特征输入构建的一个由双门控网络和多个全连接层组成的交互学习网络,通过采用基于软参数共享的多任务学习范式学习讽刺任务和情感任务,分别获得讽刺检测任务和情感分析任务的底层表示;
步骤六:以讽刺识别为主任务,情感分析为次任务,运用多任务交互方法,在讽刺检测任务中融入情感分析知识,得到讽刺分类和情感分类的结果。
优选地,所述对多模态对话情感语料集的文本标签标注进行预处理的方法为:
第一步,核查文本语句和对应的视频、音频是否一致,矫正文本拼写错误与不合法字符,并检查对话的上下文对应的文本和视频;
第二步,检查每段标准对话中语句的情感和讽刺的分类标签,情感标签被标注积极、消极或者中性,讽刺标签归纳为讽刺和非讽刺两种标签;
所述训练集中数量:测试集中数量为7:3。
优选地,所述特征提取的方法为:
对于文本特征,将每个对话的文本语句输入到BERT预训练模型得到每句文本语句的词向量表示,用于表示每个语句的文本特征Ht;
对于图像特征,从对话视频中截取话语结束时话语者的那一帧面部表情作为处理的图像数据,然后将图像调整到224*224像素的大小,使用图像预训练模型ResNet-152获取2048维的图像特征Hv;
对于音频特征,从对话视频中提取音频并以.wav格式保存下来,将.wav格式的音频文件采用在YouTube的AudioSet数据预训练得到的VGGish模型进行特征提取,将音频重采样为16kHz单声道音频,再对单声道音频进行短时傅里叶变换得到频谱图,将频谱图映射并且计算得到稳定的mel声谱,mel声谱以固定的时长被组帧,最终得到具有音频语义的128维的特征向量Ha。
优选地,所述步骤四中特征融合的方法为:
(1)设置文本-图像的多头注意力框架,以文本为中心,将文本特征Ht作为查询向量Query,图像特征Hv分别作为键Key和值Value,采用多头注意力机制方法为:
Qti=WtiHt
Kvi=WviHv
Vvi=WsiHv
MHA(Ht,Hv)=Wm[Att(Ht,Hv)1,...,Att(Ht,Hv)m]T
其中,Wm、Wti、Wvi、Wsi表示参数矩阵,m表示多头注意力机制的个数,Att(Ht,Hv)i是文本特征Ht和图像特征Hv的注意力分数,softmax是归一化指数函数,Qti是查询向量,是键值向量,dk是缩放因子;MHA(Ht,Hv)表示多头注意力向量,由m种注意力Att(Ht,Hv)i向量拼接而成;
然后在每层的多头注意力机制后面加入两个残差连接和标准化层以及一个前馈神经网络子层,得到了单个注意力机制层的输出,然后堆叠M个注意力机制层得到文本图像的融合特征向量H(t,v),即:
Z=LN(Ht+MHA(Ht,Hv)
O(t,v)=LN(Ht+FFN(Z));
H(t,v)=OM(t,v)
其中,Z表示第一层标准化层和残差连接的输出,O(t,v)表示单个文本-视觉注意力机制层的输出;LN表示标准化层操作,FFN(Z)表示前馈神经网络子层操作,OM(t,v)由M个输出O(t,v)向量拼接而成的输出;
(2)设置文本-音频的多头注意力框架,将文本特征Ht作为查询向量Query、音频特征Ha分别作为键Key和值Value,在多头注意力机制后连接两个残差连接和标准化层以及一个前馈网络子层获取单个注意力机制层的输出,堆叠M个注意力机制子层得到文本音频的融合特征向量H(t,a),计算方法为:
MHA(Ht,Ha)=Wm[Att(Ht,Ha)1,…,Att(Ht,Ha)m]T
Z=LN(Ht+MHA(Ht,Ha));
O(t,a)=LN(Ht+FFN(Z))
H(t,a)=OM(t,a)
其中,Qti表示查询向量,表示键向量,Vai表示值向量;Wm表示参数矩阵,m表示多头注意力机制的个数;Z表示第一层标准化层和残差连接的输出,LN表示标准化层操作,FFN(Z)表示前馈神经网络子层操作,O(t,a)表示单个文本-音频注意力机制子层的输出,OM(t,a)由M种输出O(t,a)向量拼接而成的向量;
(3)将文本图像的融合特征向量H(t,v)和文本音频的融合特征向量Ha进行拼接得到特征向量Hc,并将特征向量Hc作为查询向量Query、键Key和值Value,经过多头注意力机制方法融合,采用前馈神经网络和具有残差连接的两层规范获得单个注意力机制层的输出结果,堆栈N个相同的注意力机制层最终得到多模态融合特征Hf,计算方法为:
MHA(Hc)=Wn[Att(Hc)1,…,Att(Hc)n]T;
OC=LN(Hc+FNN(LN(Hc+MHA(Hc))))
Hf=ON(c)
其中,Wn表示参数矩阵,n表示多头自注意力机制的个数,每头自注意力机制以特征向量Hc分别作为Query、Key和Value来计算注意力分数,OC表示单层多头自注意力机制的输出;Qci表示查询向量,表示键向量,Vci表示值向量,Att(Hc)i表示第i头注意力机制的输出结果,用来计算特征向量Hc每头的注意力分数,i=1,...,n,ON(c)由N种输出OC向量拼接而成,N表示多头自注意力机制层的个数。
优选地,所述基于软参数共享的多任务学习范式的实现方法为:为讽刺任务和情感任务分别设置一个门控网络,所有的目标任务共享l个全连接层输出的结果,两个门控网络用来学习选择每个全连接层输出的信号权重,通过门控网络输出的分数进行加权组合分别得到不同任务的底层输入表示计算方法为:
Fi(Hf)=WiHf+bi
其中,k表示情感分析或者讽刺识别任务,即k∈(sen,sar),其中,sen表示情感分析任务,sar表示讽刺检测任务,Wi表示不同的参数矩阵,bi是权重偏移,Fi(Hf),i=1,...,l表示第i个全连接层的输出,l表示全连接层的个数;Gk(Hf)用来为l个全连接层的输出分配权重分数,
优选地,所述多任务交互方法为:运用两个门控循环单元组合去学习讽刺识别和情感分析任务的交互,以讽刺任务为主要任务,情感分析为次要任务,从步骤五中获得情感分析任务的底层输入表示作为情感任务的门控循环单元GRUsen的输入,得到包含情感分析任务知识的隐藏向量融入情感任务的信息,将隐藏向量和底层输入表示作为讽刺任务的门控循环单元GRUsar的输入,得到隐藏向量最后将隐藏向量和隐藏向量输入到soft max回归函数分别计算分类的概率,得到讽刺和情感分类的结果。
优选地,得到讽刺和情感分类的结果的方法为:
本发明的有益效果是:在现有的多模态情感对话语料集的基础上,分别提取出文本、图像和音频的特征信息,利用多头注意力机制有效地融合不同模态的特征信息,采用基于软共享参数的多任务范式来学习多任务间的差异性和相同性,并利用多任务交互网络通过融入相关任务的知识,最终得到不同感情任务(讽刺和情感)更加准确的分类结果。
本发明提出了一种基于多头注意力机制的多模态特征融合方法,能够有效地捕捉不同模态的全局信息;本发明设计一种新颖的多任务学习框架能够同时学习不同任务之间的关联和差异,并通过多任务间的交互,提高讽刺和情感任务分类的准确率,也为人工智能系统以及多模态对话情感分析提供了一种新思路。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图。
图2为本发明多模态特征融合方法的结构图。
图3为多任务学习框架结构示意图。
图4为本发明和其他方法的实验对比结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于多任务学习的对话讽刺和情感联合分析方法,步骤如下:
步骤一:收集一个多模态对话情感语料集,多模态对话情感语料集包括N个对话样例,每段对话样例以时间为序记录了每个说话者的文本话语、表情图像以及声音。
在已公开的语料集中整理收集多模态对话情感数据,其中收集的对话要求都被标有情感和讽刺的标签,对语料集的文本标签标注进行预处理,方法如下:
第一步,核查文本语句和对应的视频、音频是否一致,矫正文本拼写错误与不合法字符,并检查对话的上下文对应的文本和视频,得到N=690个标准对话。
第二步,利用Python设计代码去检查每段标准对话中语句的情感和讽刺的分类标签,情感标签只要求被标注积极、消极或者中性,讽刺标签只归纳为讽刺和非讽刺两种标签。如果有其他标签,则将此对话删除。
步骤二:在多模态对话情感语料集中,随机选取70%*690个对话作为训练集,剩下30%*690个对话作为测试集。其中训练集将用于后续模型方法的训练,方便调整模型参数,而测试集用于检验测试模型的性能。目的是在训练集上训练出一个最佳性能的模型方法,将其应用到测试集上,计算其性能。
步骤三:对多模态对话情感语料集中每段对话的多模态数据进行预处理,并对文本、图像和音频三种模态进行特征提取。
数据预处理的方法如下:主要通过人工核查每段对话中说话者的文本,图像(说话时面部表情)和音频的内容是否保持一致和对齐,其中对于一些保持不一致的对话数据,直接舍去。
特征提取的具体方法如下:
第一步,对于文本特征,将每个对话的文本语句输入到BERT预训练模型得到话语的768维向量,用于表示每句话的语义理解。BERT预训练模型得到每句文本语句的词向量表示,用于表示每个语句的文本特征Ht。
第二步,对于图像特征,从对话视频中截取话语结束时话语者的那一帧面部表情作为处理的图像数据,然后将图像调整到224*224像素的大小,使用大型的图像预训练模型ResNet-152来获取2048维的图像特征Hv。
第三步,对于音频特征,首先使用python软件中第三方库ffmpeg和MoviePy从对话视频中提取音频并以.wav格式保存下来,采用在YouTube的AudioSet数据预训练得到的VGGish模型进行特征提取,将.wav格式的音频文件作为输入,将音频重采样为16kHz单声道音频,再对音频进行短时傅里叶变换得到频谱图,通过将频谱图映射并且计算得到稳定的mel声谱,mel声谱主要是利用梅尔标度滤波器组对原声谱图进行映射,来得到合适大小的音频特征,然后这些特征以固定的时长被组帧,最终得到具有音频语义的128维高维特征向量Ha。
步骤四:采用多头注意力机制(Multi-head Attention Mechanism)方法将步骤三中得到的文本特征Ht、图像特征Hv和音频特征Ha进行特征融合。
如图2所示,设计了一个以文本中心的多模态融合子网络,将文本作为主要分支(目标),并将图像和语音作为补充通道。具体步骤如下:
第一步:设置文本-图像的多头注意力框架,以文本为中心,将文本特征Ht作为查询向量Query,图像特征Hv分别作为键Key和值Value,采用多头注意力机制方法为:
Qti=WtiHt
Kvi=WviHv
Vvi=WsiHv
MHA(Ht,Hv)=Wm[Att(Ht,Hv)1,…,Att(Ht,Hv)m]T
其中,Wm、Wti、Wvi、Wsi表示参数矩阵,初始值由编写模型代码中随机生成,并在训练过程中自动调整到恰当的值,m表示多头注意力机制的个数,本发明设置为8个。Att(Ht,Hv)i是计算文本特征Ht和图像特征Hv的注意力分数,softmax是归一化指数函数,作用是将输出值归一化,Qti是查询向量,是键值向量,dk是缩放因子,表示的向量维度长度。MHA(Ht,Hv)表示多头注意力向量,由8种注意力Att(Ht,Hv)i向量拼接而成。
然后在每层的多头注意力机制后面加入两个残差连接和标准化层LN以及一个前馈神经网络子层FNN,得到了单个注意力机制层的输出,然后堆叠M个注意力机制层得到最终的文本图像的融合特征向量H(t,v),即:
Z=LN(Ht+MHA(Ht,Hv)
O(t,v)=LN(Ht+FFN(Z))
H(t,v)=OM(t,v)
其中,Z表示第一层标准化层和残差连接的输出,O(t,v)表示单个文本-视觉注意力机制层的输出。LN表示标准化层操作,作用是将神经网络中隐藏层归一化为标准正态分布,保证数据特征分布的稳定性,加快模型的收敛速度。FFN(Z)表示前馈神经网络子层,通过线性变换将数据映射到高纬度的空间再映射到低纬度的空间,提取更深层次的特征。OM(t,v)是由M个输出O(t,v)向量拼接而成的输出,在本发明中M设置为6个。
第二步:与文本-视觉注意力机制类似,设置文本-音频的多头注意力框架,将文本特征Ht作为查询向量Query,音频特征Ha分别作为键Key和值Value,在多头注意力机制后连接两个残差连接和标准化层以及一个前馈网络子层获取单个注意力机制层的输,最后堆叠M个注意力机制子层得到文本音频的融合特征向量H(t,a),具体计算方法为:
MHA(Ht,Ha)=Wm[Att(Ht,Ha)1,…,Att(Ht,Ha)m]T
Z=LN(Ht+MHA(Ht,Ha))
O(t,a)=LN(Ht+FFN(Z))
H(t,a)=OM(t,a)
其中,Qti表示查询向量,表示键向量,Vai表示值向量。Wm表示参数矩阵,初始值由编写模型代码随机生成,在训练过程中自己调整到恰当的值,m表示多头注意力机制的个数,本发明设置为8个。Z表示第一层标准化层和残差连接的输出,LN表示标准化层操作,作用是将神经网络中隐藏层归一化为标准正态分布,保证数据特征分布的稳定性,加快模型的收敛速度。FFN(Z)表示前馈神经网络子层,通过线性变换将数据映射到高纬度的空间再映射到低纬度的空间,提取更深层次的特征。O(t,a)表示单个文本-音频注意力机制子层的输出,OM(t,a)是由M种输出O(t,a)向量拼接而成的向量,在本发明中M设置为6个。
第三步:将文本图像的融合特征向量H(t,v)和文本音频的融合特征向量Ha进行拼接得到特征向量Hc,并将其自身作为查询向量Query、键Key和值Value,经过多头注意力机制方法融合,采用前馈神经网络和具有残差连接的两层规范获得单个注意力机制层的输出结果,堆栈N个相同的注意力机制层最终得到多模态融合特征Hf,计算方法为:
MHA(Hc)=Wn[Att(Hc)1,…,Att(Hc)n]T
OC=LN(Hc+FNN(LN(Hc+MHA(Hc))))
Hf=ON(c)
其中,Wn表示参数矩阵,初始值由编写模型代码中随机生成,在训练过程中自己调整到恰当的值,n表示多头自注意力机制的个数,每头自注意力机制以特征向量Hc分别作为Query、Key和Value来计算注意力分数,本发明设置为8个。OC表示单层多头自注意力机制的输出。Qci表示查询向量,表示键向量,Vci表示值向量,Att(Hc)i表示第i头注意力机制的输出结果,用来计算特征向量Hc每头的注意力分数,i=1,...,n,ON(c)是由N种输出OC向量拼接而成,N表示多头自注意力机制层的个数,在本发明中,N设置为6个。
步骤五:将多模态融合特征Hf输入构建的一个由双门控网络和多个全连接层组成的交互学习网络,通过采用基于软参数共享的多任务学习范式学习讽刺任务和情感任务,分别获得了讽刺检测任务和情感分析任务的底层表示。
将步骤四获得的多模态融合特征Hf输入到多任务学习框架来学习讽刺和情感任务之间的相关性和差异性。如图3所示,在讽刺检测和情感分析中引入了一种基于软参数共享的多任务学习范式,交互学习网络就是具体描述基于软参数共享范式而设置的网络,并开发了一个由一个混合网络和多个全连接层(Fully Connected Layer,FCs)组成的交互学习网络。具体来说,为每个目标任务设置一个门控网络Gating network,所有的目标任务共享n个全连接层输出的结果,其中门控网络Gate I和Gate II用来学习选择每个全连接层输出的信号权重。每个全连接层都有其擅长的学习方向,最后通过门控网络输出的分数进行加权组合分别得到不同任务的底层输入表示,即计算方法为:
Fi(Hf)=WiHf+bi
其中,k表示情感分析或者讽刺识别任务,即k∈(sen,sar),其中,sen表示情感分析任务,sar表示讽刺检测任务,Wi表示不同的参数矩阵,bi是权重偏移,参数矩阵和权重偏移的初始值均由模型随机生成,在模型训练过程中自己调整到恰当的值。Fi(Hf),i=1,…,l,表示第i个全连接层的输出,l表示全连接层的个数,在本发明中,l的值设为3。Gk(Hf)用来为n个全连接层的输出分配权重分数,
本发明采用了一种基于软参数共享的多任务学习范式,分别为讽刺检测和情感分析任务构建一个学习网络,每个任务通过门控网络来对不同全连接层的输出进行加权组合,并通过模型训练来调整权重分数得到适合不同任务的底层输入表示,能够同时学习讽刺识别和情感分析任务之间的相关性和差异性。
步骤六:以讽刺识别为主任务,情感分析为次任务,运用多任务交互方法,在讽刺检测任务中融入情感分析知识,首先从处理情感分析任务的门控循环单元GRUsen获得包含情感分析任务知识隐藏向量将情感分析任务知识隐藏向量和情感分析任务的底层输入表示作为讽刺检测任务的门控循环单元GRUsar的输入,获得隐藏向量最后通过回归函数softmax分别获得每句话的情感和讽刺分类结果。
运用两个门控循环单元(Gated Recurrent Unit,GRU)组合去学习讽刺识别和情感分析任务的交互,通过学习相关任务的信息来提高主任务的分类效果。如图3所示,以讽刺任务为主要任务,情感分析为次要任务,首先从步骤五中获得情感分析任务的底层输入表示作为情感任务的门控循环单元GRUsen的输入,得到隐藏向量融入情感任务的信息,将隐藏向量和作为讽刺任务的门控循环单元GRUsar的输入,得到隐藏向量最后将隐藏向量和隐藏向量输入到softmax回归函数分别计算分类的概率,得到讽刺和情感分类的结果。具体方法如下:
本发明通过多任务交互的方式来提高目标任务的分类效果,最终获得不同任务的分类结果,对比CNN、BiLSTM---来自于文献[Zhou P,Shi W,Tian J,Qi Z,etal.Attention-based bidirectional long short-term memory networks for relationclassification[C].In Proceedings of the 54th Annual Meeting of theAssociation for Computational Linguistics,2016.]、SVM+BERT---来自于文献[DevlinJ,Chang M.W,Lee K,and Toutanova K.Bert:Pre-training of deep bidirectionaltransformers for language understanding[C].In NAACL-HLT 2019:AnnualConference of the North American Chapter of the Association for ComputationalLinguistics,2019,pp.4171–4186.]、RCNN-RoBERTa---来自于文献[Potamias R.A,SiolasG,and Stafylopatis A.G.A transformer-based approach to irony and sarcasmdetection[J].Neural Computing and Applications,2020,pp.1–12.]、EfficientNet---来自于文献[Tan M and Le Q.V,Efficientnet:Rethinking model scaling forconvolutional neural networks[C].In International Conference on MachineLearning,2019,pp.6105–6114.]、UPB-MTL---来自于文献[Vlad G.A,Zaharia G.E,CercelD.C,Chiru C.G,and Matu S.T.Upb at semeval-2020task 8:Joint textual and visualmodeling in a multi-task learning architecture for memotion analysis[C].InProceedings of the Fourteenth Workshop on Semantic Evaluation,2020,pp.1208–1214.]、A-TML---来自于文献[Chauhan D.S,Ekbal D.S R,A,and Bhattacharyya P,Sentiment and emotion help sarcasm?a multi-task learning framework for multi-modal sarcasm,sentiment and emotion analysis[C].In Proceedings of the 58thAnnual Meeting of the Association for Computational Linguistic,2020,pp.4351–4360.]等多个先进的基线的结果,可以非常直观的观察到本发明的先进性,如图4所示,由图4可知,本发明在讽刺分类和情感分析的分类概率分别到达了52.15和73.12,均高于其他算法。
本发明收集多模态(图像、文本、声音)对话情感语料集,并将其划分为训练集和测试集;通过不同的预训练模型对语料集中三个模态数据进行特征提取;采用多头注意力机制方法去融合三个模态特征,进而捕获不同模态的全局信息;将融合特征输入到多任务学习框架去获取更优的特征表示,其中采用全连接层神经网络对输入的融合特征通过内部隐藏层进行不同的线性映射来输出不同维度特征表示,一个双门控网络(Gating Network)去计算出每个全连接层输出的权重分数,然后每个任务依据权重分数来对每个全连接层的输出进行加权求和得到底层表示;最后采用两个门控循环单元(Gated Recurrent Unit,GRU)组合去学习讽刺识别和情感分析任务的交互,两个不同任务的门控循环单元GRU分别融入对方任务携带的隐藏信息,最终通过Softmax回归函数分别获得讽刺二分类结果(讽刺和非讽刺)和情感极性的三分类结果(积极、消极和中性)。本发明从对话过程中多模态特征融合和多任务学习这两个方面进行了较为系统地考虑,提出了一种先进的方法,采用多头注意力机制去捕捉不同模态的全局信息,利用多任务学习框架同时学习不同任务之间的关联和差异,并通过多任务间的交互方法,去计算对话过程中说话者的情感状态,利用多个情感任务的信息交互有效地提高了不同任务(情感分析、讽刺识别)预测分类的准确率,也为人工智能系统以及多模态对话情感分析提供了一种新思路。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于多任务学习的对话讽刺和情感联合分析方法,其特征在于,其步骤如下:
步骤一:收集多模态对话情感语料集,多模态对话情感语料集包括N个对话样例,每段对话样例以时间为序记录了每个说话者的文本话语、表情图像以及声音;
步骤二:对多模态对话情感语料集的文本标签进行预处理,并将与处理后的多模态对话情感语料集随机分成训练集和测试集;
步骤三:对多模态对话情感语料集中每段对话的多模态数据进行预处理,并对文本、图像和音频三种模态分别进行特征提取;
步骤四:采用多头注意力机制方法将步骤三中得到的文本特征、图像特征和音频特征进行特征融合;
步骤五:将多模态融合特征输入构建的一个由双门控网络和多个全连接层组成的交互学习网络,通过采用基于软参数共享的多任务学习范式学习讽刺任务和情感任务,分别获得讽刺检测任务和情感分析任务的底层表示;
步骤六:以讽刺识别为主任务,情感分析为次任务,运用多任务交互方法,在讽刺检测任务中融入情感分析知识,得到讽刺分类和情感分类的结果。
2.根据权利要求1所述的基于多任务学习的对话讽刺和情感联合分析方法,其特征在于,所述对多模态对话情感语料集的文本标签标注进行预处理的方法为:
第一步,核查文本语句和对应的视频、音频是否一致,矫正文本拼写错误与不合法字符,并检查对话的上下文对应的文本和视频;
第二步,检查每段标准对话中语句的情感和讽刺的分类标签,情感标签被标注积极、消极或者中性,讽刺标签归纳为讽刺和非讽刺两种标签;
所述训练集中数量:测试集中数量为7:3。
3.根据权利要求1或2所述的基于多任务学习的对话讽刺和情感联合分析方法,其特征在于,所述特征提取的方法为:
对于文本特征,将每个对话的文本语句输入到BERT预训练模型得到每句文本语句的词向量表示,用于表示每个语句的文本特征Ht;
对于图像特征,从对话视频中截取话语结束时话语者的那一帧面部表情作为处理的图像数据,然后将图像调整到224*224像素的大小,使用图像预训练模型ResNet-152获取2048维的图像特征Hv;
对于音频特征,从对话视频中提取音频并以.wav格式保存下来,将.wav格式的音频文件采用在YouTube的AudioSet数据预训练得到的VGGish模型进行特征提取,将音频重采样为16kHz单声道音频,再对单声道音频进行短时傅里叶变换得到频谱图,将频谱图映射并且计算得到稳定的mel声谱,mel声谱以固定的时长被组帧,最终得到具有音频语义的128维的特征向量Ha。
4.根据权利要求3所述的基于多任务学习的对话讽刺和情感联合分析方法,其特征在于,所述步骤四中特征融合的方法为:
(1)设置文本-图像的多头注意力框架,以文本为中心,将文本特征Ht作为查询向量Query,图像特征Hv分别作为键Key和值Value,采用多头注意力机制方法为:
MHA(Ht,Hv)=Wm[Att(Ht,Hv)1,…,Att(Ht,Hv)m]T
其中,Wm、Wti、Wvi、Wsi表示参数矩阵,m表示多头注意力机制的个数,Att(Ht,Hv)i是文本特征Ht和图像特征Hv的注意力分数,softmax是归一化指数函数,Qti是查询向量,是键值向量,dk是缩放因子;MHA(Ht,Hv)表示多头注意力向量,由m种注意力Att(Ht,Hv)i向量拼接而成;
然后在每层的多头注意力机制后面加入两个残差连接和标准化层以及一个前馈神经网络子层,得到了单个注意力机制层的输出,然后堆叠M个注意力机制层得到文本图像的融合特征向量H(t,v),即:
其中,Z表示第一层标准化层和残差连接的输出,O(t,v)表示单个文本-视觉注意力机制层的输出;LN表示标准化层操作,FFN(Z)表示前馈神经网络子层操作,OM(t,v)由M个输出O(t,v)向量拼接而成的输出;
(2)设置文本-音频的多头注意力框架,将文本特征Ht作为查询向量Query、音频特征Ha分别作为键Key和值Value,在多头注意力机制后连接两个残差连接和标准化层以及一个前馈网络子层获取单个注意力机制层的输出,堆叠M个注意力机制子层得到文本音频的融合特征向量H(t,a),计算方法为:
其中,Qti表示查询向量,表示键向量,Vai表示值向量;Wm表示参数矩阵,m表示多头注意力机制的个数;Z表示第一层标准化层和残差连接的输出,LN表示标准化层操作,FFN(Z)表示前馈神经网络子层操作,O(t,a)表示单个文本-音频注意力机制子层的输出,OM(t,a)由M种输出O(t,a)向量拼接而成的向量;
(3)将文本图像的融合特征向量H(t,v)和文本音频的融合特征向量Ha进行拼接得到特征向量Hc,并将特征向量Hc作为查询向量Query、键Key和值Value,经过多头注意力机制方法融合,采用前馈神经网络和具有残差连接的两层规范获得单个注意力机制层的输出结果,堆栈N个相同的注意力机制层最终得到多模态融合特征Hf,计算方法为:
5.根据权利要求4所述的基于多任务学习的对话讽刺和情感联合分析方法,其特征在于,所述基于软参数共享的多任务学习范式的实现方法为:为讽刺任务和情感任务分别设置一个门控网络,所有的目标任务共享l个全连接层输出的结果,两个门控网络用来学习选择每个全连接层输出的信号权重,通过门控网络输出的分数进行加权组合分别得到不同任务的底层输入表示计算方法为:
Fi(Hf)=WiHf+bi
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211368781.0A CN115640530A (zh) | 2022-11-03 | 2022-11-03 | 一种基于多任务学习的对话讽刺和情感联合分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211368781.0A CN115640530A (zh) | 2022-11-03 | 2022-11-03 | 一种基于多任务学习的对话讽刺和情感联合分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115640530A true CN115640530A (zh) | 2023-01-24 |
Family
ID=84946404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211368781.0A Pending CN115640530A (zh) | 2022-11-03 | 2022-11-03 | 一种基于多任务学习的对话讽刺和情感联合分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115640530A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116415137A (zh) * | 2023-06-08 | 2023-07-11 | 讯飞医疗科技股份有限公司 | 基于多模态特征的情绪定量方法、装置、设备及存储介质 |
CN117235605A (zh) * | 2023-11-10 | 2023-12-15 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于多模态注意力融合的敏感信息分类方法及装置 |
CN117371456A (zh) * | 2023-10-10 | 2024-01-09 | 国网江苏省电力有限公司南通供电分公司 | 一种基于特征融合的多模态讽刺检测方法及系统 |
CN117633587A (zh) * | 2023-11-20 | 2024-03-01 | 北京理工大学珠海学院 | 基于迁移学习的音频和文本的宽时间范畴情感识别方法 |
CN118197324A (zh) * | 2024-05-16 | 2024-06-14 | 江西广播电视网络传媒有限公司 | 对话语料提取方法、系统、计算机及存储介质 |
-
2022
- 2022-11-03 CN CN202211368781.0A patent/CN115640530A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116415137A (zh) * | 2023-06-08 | 2023-07-11 | 讯飞医疗科技股份有限公司 | 基于多模态特征的情绪定量方法、装置、设备及存储介质 |
CN116415137B (zh) * | 2023-06-08 | 2023-10-10 | 讯飞医疗科技股份有限公司 | 基于多模态特征的情绪定量方法、装置、设备及存储介质 |
CN117371456A (zh) * | 2023-10-10 | 2024-01-09 | 国网江苏省电力有限公司南通供电分公司 | 一种基于特征融合的多模态讽刺检测方法及系统 |
CN117235605A (zh) * | 2023-11-10 | 2023-12-15 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于多模态注意力融合的敏感信息分类方法及装置 |
CN117235605B (zh) * | 2023-11-10 | 2024-02-02 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于多模态注意力融合的敏感信息分类方法及装置 |
CN117633587A (zh) * | 2023-11-20 | 2024-03-01 | 北京理工大学珠海学院 | 基于迁移学习的音频和文本的宽时间范畴情感识别方法 |
CN118197324A (zh) * | 2024-05-16 | 2024-06-14 | 江西广播电视网络传媒有限公司 | 对话语料提取方法、系统、计算机及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728997B (zh) | 一种基于情景感知的多模态抑郁症检测系统 | |
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
Audhkhasi et al. | End-to-end ASR-free keyword search from speech | |
Chernykh et al. | Emotion recognition from speech with recurrent neural networks | |
CN113205817B (zh) | 语音语义识别方法、系统、设备及介质 | |
Vashisht et al. | Speech recognition using machine learning | |
CN115640530A (zh) | 一种基于多任务学习的对话讽刺和情感联合分析方法 | |
US20180358005A1 (en) | System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system | |
CN111898670B (zh) | 多模态情感识别方法、装置、设备及存储介质 | |
Li et al. | Learning fine-grained cross modality excitement for speech emotion recognition | |
Wang et al. | Learning Mutual Correlation in Multimodal Transformer for Speech Emotion Recognition. | |
US11132994B1 (en) | Multi-domain dialog state tracking | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
Kumar et al. | A comprehensive review of recent automatic speech summarization and keyword identification techniques | |
WO2023226239A1 (zh) | 对象情绪的分析方法、装置和电子设备 | |
CN114220461A (zh) | 客服话术的引导方法、装置、设备及存储介质 | |
Qian et al. | Spoken language understanding of human-machine conversations for language learning applications | |
CN117765981A (zh) | 一种基于语音文本跨模态融合的情感识别方法及系统 | |
Xu et al. | A comprehensive survey of automated audio captioning | |
Ai et al. | A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning | |
Mehra et al. | Deep fusion framework for speech command recognition using acoustic and linguistic features | |
CN113393841B (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
Yun et al. | End-to-end emotional speech recognition using acoustic model adaptation based on knowledge distillation | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN116361442A (zh) | 基于人工智能的营业厅数据分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |