CN113535957A - 基于双重知识交互和多任务学习的对话情绪识别网络模型、构建方法、电子设备及存储介质 - Google Patents

基于双重知识交互和多任务学习的对话情绪识别网络模型、构建方法、电子设备及存储介质 Download PDF

Info

Publication number
CN113535957A
CN113535957A CN202110850763.5A CN202110850763A CN113535957A CN 113535957 A CN113535957 A CN 113535957A CN 202110850763 A CN202110850763 A CN 202110850763A CN 113535957 A CN113535957 A CN 113535957A
Authority
CN
China
Prior art keywords
knowledge
emotion
task
utterance
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110850763.5A
Other languages
English (en)
Other versions
CN113535957B (zh
Inventor
孙承杰
解云鹤
刘秉权
季振洲
刘远超
单丽莉
林磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110850763.5A priority Critical patent/CN113535957B/zh
Publication of CN113535957A publication Critical patent/CN113535957A/zh
Application granted granted Critical
Publication of CN113535957B publication Critical patent/CN113535957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于双重知识交互和多任务学习的对话情绪识别网络模型、构建方法、电子设备及存储介质,属于自然语言处理技术领域。解决了现有Emotion Recognition in Conversation(ERC)模型忽视了话语和知识的直接交互;使用与主任务弱相关的辅助任务,只能为ERC任务提供有限的情感信息的问题。本申请利用一个大规模知识图谱中的常识知识来增强词级别表示。使用一个自匹配模块整合知识表示和话语表示,允许二者进行复杂交互。将短语级别的情感极性强度预测任务作为辅助任务。该辅助任务的标签来自情感词典的情感极性强度值,明显与ERC任务高度相关,为目标话语的情绪感知提供了直接指导信息。

Description

基于双重知识交互和多任务学习的对话情绪识别网络模型、 构建方法、电子设备及存储介质
技术领域
本申请涉及一种对话情绪识别网络模型、构建方法、电子设备及存储介质,尤其涉及一种基于双重知识交互和情感极性强度感知多任务学习的对话情绪识别网络模型、构建方法、电子设备及存储介质,属于自然语言处理技术领域。
背景技术
由于公开可获取对话数据的爆炸式增长,对话情绪识别在最近几年引起了自然语言处理领域的广泛关注。对话情绪识别旨在识别对话中每一个话语的情感,这个任务要求机器理解对话中情绪表达的方式。由于ERC模型能够使机器理解人类对话中的情感,进而使得机器生成情绪连贯的回复,因此ERC任务拥有广泛的应用领域,例如社交媒体分析和对话生成。
与普通句子级别的情绪识别不同,对话语境建模对于ERC任务是非常关键的。早期基于循环神经网络的ERC工作采用记忆网络来存储对话历史信息。考虑到ERC任务需要对对话参与者之间的交互进行建模,很多工作采用基于循环神经网络(RNN)对对话中的话语进行序列建模,例如文献Devamanyu Hazarika,Soujanya Poria,Amir Zadeh,Erik Cambria,Louis-Philippe Morency,and Roger Zimmermann.2018b.Conversational memorynetwork for emotion recognition in dyadic dialogue videos.In Proceedings ofthe 2018Conference of the North American Chapter of the Association forComputational Linguistics:Human Language Technologies,Volume 1(Long Papers),pages 2122–2132,New Orleans,Louisiana.Association for ComputationalLinguistics和Devamanyu Hazarika,Soujanya Poria,Rada Mihalcea,Erik Cambria,andRoger Zimmermann.2018a.Icon:Interactive conversational memory network formultimodal emotion detection.pages 2594–2604。基于这些早期模型,文献NavonilMajumder,Soujanya Poria,Devamanyu Hazarika,Rada Mihalcea,Alexander Gelbukh,and Erik Cambria.2019.Dialoguernn:An attentive rnn for emotion detection inconversations.Proceedings of the AAAI Conference on Artificial Intelligence,33(01):6818–6825.提出了一个基于RNN的模型DialogueRNN实现对对话参与者状态和情绪动态的建模。Transformer作为强大的表示学习模型也已经在很多工作中被用来建模输入序列,相较早期工作取得了性能上的提升。同时为了更好地建模上下文信息和话语间依赖关系,一些结构例如记忆网络和图神经网络也被用于话语表示学习。随着最近预训练语言模型(PLM)的发展,例如文献Devlin J,Chang M W,Lee K,et al.BERT:Pre-training ofDeep Bidirectional Transformers for Language Understanding[C]//NAACL.2019:4171-4186.和Yang Z,Dai Z,Yang Y,et al.XLNet:generalized autoregressivepretraining for language understanding[C]//NIPS.2019:5753-5763.许多下游任务的性能已经获得了巨大提升,例如对话系统和阅读理解。但研究表明预训练语言模型可能缺失某些维度的常识知识,这些知识可以通过外部引入来补充。此外,受限于当前可用的高质量数据集的规模,一些工作尝试通过引入任务相关的知识来提升模型的性能。
因此,最近大部分的基于预训练语言模型的工作采用层次化结构,通过预训练语言模型来获得词级别或话语级别的表示,然后采用其它模块实现知识补充。一些工作显式地向模型中引入结构化的常识知识,并形成知识增强的表示,例如从大规模知识图谱中显式地抽取常识知识并将其与词表示进行拼接。对于较为抽象的或非结构化的知识,一些工作通过利用多任务学习来隐式地弥补模型缺失的知识维度,例如对话主题信息识别和话语-说话者关系识别等。还有一些工作提出任务相关的预训练任务来提升模型泛化性。
然而,引入常识知识时,现有模型没有考虑话语和知识表示的内部交互,而是直接将二者拼接。这种做法可能会导致内部情绪推理的缺失。除此之外,大部分多任务学习的辅助任务都是弱相关的,例如对话主题识别和话语-说话者关系识别,并不能提供情绪相关的直接信息。
综合以上,在过去的几年里,对话情绪识别(ERC)受到了自然语言处理领域的广泛关注,因为它有着广泛的应用前景。最近,大部分的ERC模型集中于利用常识知识或多任务学习来帮助复杂的情绪推理。然而,这些模型忽视了话语和知识的直接交互。此外,这些模型均使用与主任务弱相关的辅助任务,只能为ERC任务提供有限的情感信息。
发明内容
有鉴于此,本申请提供一种基于双重知识交互和多任务学习的对话情绪识别网络模型、构建方法、设备及存储介质,以解决现有ERC模型忽视了话语和知识的直接交互;模型均使用与主任务弱相关的辅助任务,只能为ERC任务提供有限的情感信息的问题。
本申请的技术方案是这样实现的:
方案一:基于双重知识交互和多任务学习的对话情绪识别网络模型,包括:
任务定义模块,用于给定对话数据集中一个对话的集合,在给定对话历史信息的情况下,预测每一个目标话语的情绪标签;
编码器,采用XLNet编码器建模对话历史信息;
知识整合模块,用于常识知识的抽取,并基于图注意力网络得到知识增强表示;
自匹配模块,用于话语-知识间的交互;
对话情绪识别模块,结合对话历史信息预测当前目标话语的情绪标签;
情感极性强度预测任务模块,用于向模型中引入与主任务强相关的知识,并利用多任务学习的设置来结合主任务和辅助任务。
方案二:基于双重知识交互和多任务学习的对话情绪识别网络模型构建方法,包括:
步骤一,给定对话数据集中一个对话的集合,在给定对话历史信息的情况下,预测每一个目标话语的情绪标签;
步骤二,采用XLNet编码器建模对话历史信息;
步骤三,常识知识的抽取,并基于图注意力网络得到知识增强表示;
步骤四,基于自注意力机制的自匹配模块实现话语-知识间的交互;
步骤五,对话情绪识别任务,结合对话历史信息预测当前目标话语的情绪标签;
步骤六,情感极性强度预测任务,向模型中引入与主任务强相关的知识,并利用多任务学习的设置来结合主任务和辅助任务;
所述方案二是基于方案一所述对话情绪识别网络模型实现的。
进一步地,所述步骤一中,将对话情绪识别任务定义如下:给定
Figure BDA0003182405950000041
其中,i=1,...,N,j=1,...,Ni,代表对话数据集中一个对话对{话语,标签}的集合;对话X中包含N个话语,每一个话语Xi中包含Ni个词,表示为
Figure BDA0003182405950000051
每一个Xi由p(Xi)∈P发出,其中,P是说话者的集合;离散值Yi∈S被用来表示情绪标签,其中S表示情绪标签的集合,并且|S|=hc,其中hc是预定义情绪的数量;对话情绪识别任务的目标是在给定对话历史信息的情况下预测每一个目标话语Xi的情绪标签Yi
进一步地,所述步骤二中,使用XLNet获取词表示,对于时刻i,在当前话语Xi之前添加符号“[CLS]”来表示话语的开始:
Figure BDA0003182405950000052
此后xi通过编码层:
Figure BDA0003182405950000053
其中
Figure BDA0003182405950000054
Dh表示XLNet-base的输入维度,embedding表示获取相应初始词向量的编码操作;编码层的输出
Figure BDA0003182405950000055
被当作XLNet第一层的输入状态同时,作为步骤三中知识整合阶段知识图谱的表示来源。
得到输入状态
Figure BDA0003182405950000056
之后,采用L层Transformer结构进行词级别的编码,其中L是一个超参数;遵循XLNet的设置,每个自注意力层都利用片段级递归机制实现上一时刻i-1的语境记忆mi-1的整合;利用公式(2)表示:
Figure BDA0003182405950000057
其中
Figure BDA0003182405950000058
是词级别的话语表示,Dm是预定义的最大记忆长度,encoder表示编码过程。
进一步地,所述步骤三中,使用ConceptNet作为模型中的常识知识库;首先常识知识库的知识抽取过程如下:对于词t,根据其在ConceptNet中的邻居节点抽取其相应子图gt;对于gt,丢弃停用词或者不在编码层词典V中的概念,并移除置信分数小于1的断言以降低噪声的影响;gt={(c11),(c22),...,(ckk)},其中ci表示t的第i个相连的概念,ωi表示二者间的置信分数;
然后采用图注意力机制获取知识表示,根据所述知识抽取过程,对于每一个非停用词
Figure BDA0003182405950000061
获得其概念图
Figure BDA0003182405950000062
对于
Figure BDA0003182405950000063
Figure BDA0003182405950000064
cp表示
Figure BDA0003182405950000065
对应概念子图中的任意邻居节点,通过公式(1)中的编码层获得其表示
Figure BDA0003182405950000066
Figure BDA0003182405950000067
用公式(3)、(4)、(5)计算第j个词相应的知识表示
Figure BDA0003182405950000068
Figure BDA0003182405950000069
Figure BDA00031824059500000610
Figure BDA00031824059500000611
其中
Figure BDA00031824059500000612
“·”表示内积操作,
Figure BDA00031824059500000613
表示
Figure BDA00031824059500000614
中的概念的数量,
Figure BDA00031824059500000615
Figure BDA00031824059500000616
分别是词
Figure BDA00031824059500000617
及其概念邻居节点cp的初始表示,由公式(1)得到,tp表示
Figure BDA00031824059500000618
Figure BDA00031824059500000619
的内积,αp表示
Figure BDA00031824059500000620
Figure BDA00031824059500000621
的相似度,wp表示概念邻居节点cp的置信度分数,由ConceptNet给出;如果
Figure BDA00031824059500000622
为第j个词相应的知识表示,将
Figure BDA00031824059500000623
设置为所有节点表示的平均值。
进一步地,所述步骤四中,采用自匹配模块来实现话语和知识的内部交互;利用步骤二中经获得的词级别的话语表示
Figure BDA00031824059500000624
和第j个词相应的知识表示
Figure BDA00031824059500000625
获得话语xi的词级别知识增强表示ui;具体地,对于每个
Figure BDA00031824059500000626
首先获得话语与知识的拼接向量
Figure BDA00031824059500000627
Figure BDA00031824059500000628
其中[;]表示拼接操作,
Figure BDA00031824059500000629
表示第j个词相应的词级别的话语表示,
Figure BDA00031824059500000630
并且
Figure BDA00031824059500000631
自注意力机制可以使表示之间实现内部交互,因此利用一个基于自注意力机制的自匹配模块。对于同一个话语中的两个词
Figure BDA0003182405950000071
Figure BDA0003182405950000072
通过三线性函数计算相似度:
Figure BDA0003182405950000073
其中
Figure BDA0003182405950000074
是模型参数,“⊙”表示矩阵对应位置元素乘积操作,
Figure BDA0003182405950000075
表示当前话语Xi中的第m个词,
Figure BDA0003182405950000076
表示
Figure BDA0003182405950000077
对应的词表示与知识表示的拼接向量;进而获得相似度矩阵
Figure BDA0003182405950000078
其中
Figure BDA0003182405950000079
是该矩阵的第i行第j列元素;然后根据公式(8)获得自注意力矩阵Q:
Figure BDA00031824059500000710
其中
Figure BDA00031824059500000711
是Q矩阵的第j行第m列元素;
此外,为了实现间接交互,对Q执行如下操作:
Figure BDA00031824059500000712
获得Q和
Figure BDA00031824059500000713
后,为每一个
Figure BDA00031824059500000714
计算两个知识扩展向量:
Figure BDA00031824059500000715
Figure BDA00031824059500000716
其中
Figure BDA00031824059500000717
Figure BDA00031824059500000718
分别是经过直接交互和间接交互后
Figure BDA00031824059500000719
的更新表示,
Figure BDA00031824059500000720
Figure BDA00031824059500000721
矩阵的第j行第m列元素;拼接两个知识扩展向量以实现充分交互:
Figure BDA00031824059500000722
其中
Figure BDA00031824059500000723
并且
Figure BDA00031824059500000724
表示自匹配输出矩阵C的第i行第j列元素。C结合了语义和知识,对情绪推理过程有很大益处。
进一步地,所述步骤五中,首先,采用大规模情感词典SenticNet作为知识源,从情感词典中向模型引入知识,将SenticNet的情绪标签和语义加入到抽取的常识知识库中作为补充;SenticNet包含二十万条短语和其相关的情感信息。对于SenticNet中的每一个情感短语si,均包含一个四元组<极性标签,极性强度值,情绪标签,语义>。极性标签表示该短语的极性属于积极或消极。极性强度值用于表示si的极性强度程度。情绪标签是一系列预定义的情绪描述词。语义表示语义相关的概念集合。将情绪标签和语义加入到抽取的常识知识库中作为补充。
然后,采用短语级别的情感极性强度值预测任务作为副任务;具体地,该任务为一个话语中所有在SenticNet出现的短语预测情感极性强度值;对于xi,基于n-gram模型抽取集合
Figure BDA0003182405950000081
n=1,2,...,Ng,其中Ng是一个超参数;对于
Figure BDA0003182405950000082
其中
Figure BDA0003182405950000083
表示Ei的第k个短语,记录其在话语中的开始和结束位置
Figure BDA0003182405950000084
以及相应的极性值
Figure BDA0003182405950000085
对于每一个话语xi具有带有情感极性强度标注的短语级集合
Figure BDA0003182405950000086
其中
Figure BDA0003182405950000087
表示目标话语xi中包含SenticNet短语的个数;
对于每一个话语xi,公式(2)获得其词级别表示
Figure BDA0003182405950000088
对第k个SenticNet短语
Figure BDA0003182405950000089
执行短语级别的最大池化操作来获得其话语级表示
Figure BDA00031824059500000810
Figure BDA00031824059500000811
Figure BDA00031824059500000812
其中
Figure BDA00031824059500000813
是模型参数,h表示预定义的隐层维度,[:]表示矩阵的切片操作,maxpooling表示最大池化操作;计算最终的预测分数:
Figure BDA00031824059500000814
其中
Figure BDA00031824059500000815
都是模型参数,作为训练目标,计算标准均方误差:
Figure BDA0003182405950000091
对于话语通过步骤4自匹配模块获得了词级别知识增强表示ci;通过最大池化操作计算话语级别的表示:
Figure BDA0003182405950000092
其中
Figure BDA0003182405950000093
Figure BDA0003182405950000094
是模型参数;通过公式(18)计算最终的情绪分布概率:
Figure BDA0003182405950000095
其中
Figure BDA0003182405950000096
Figure BDA0003182405950000097
是模型参数;softmax表示softmax操作;
使用标准交叉熵损失函数计算ERC任务的loss:
Figure BDA0003182405950000098
获得了主任务ERC的lossm和副任务SPP的lossa,使用公式(20)计算任务总体的loss:
Figure BDA0003182405950000099
其中∈∈[0,1]是lossa预定义的权重系数。
方案三:一种电子设备,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行方案一所述方法的步骤。
方案四:一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现方案一所述方法的步骤。
本申请有益效果体现在:
1.首先,本申请采用一个语境感知和依赖感知的编码器建模对话历史信息。其次,本申请利用一个大规模知识图谱的常识知识来增强词级别的表示。然后,本申请使用一个自匹配模块来结合常识知识表示和话语表示,这允许二者进行更复杂的交互。此外,本申请还提出了将短语级别的情感极性强度预测任务作为副任务。这个辅助任务利用了来自情感词典的情感极性强度值,明显与ERC任务高度相关,为目标话语的情绪探测提供了直接指导信息;
2.本申请通过实验表明常识知识引入、自匹配模块和情感极性强度预测任务均对情绪推理有积极作用,并且本申请的模型在基准数据集上的表现超过了现有最佳模型。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例一提供的一种基于双重知识交互和多任务学习的对话情绪识别网络模型框图;
图2为本申请实施例二提供的一种基于双重知识交互和多任务学习的对话情绪识别网络模型构建流程图;图2(a)展示了gt的一个实例图,图2(b)是四元组的一个实例图;
图3为本申请的一种电子设备的结构示意图;
图4为本申请验证实验中两个来自IEMOCAP数据集测试过程中的典型例子示意图;
图5为本申请验证实验中展示的在IEMOCAP数据集上的测试结果的混淆矩阵图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关申请,而非对该申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与申请相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
实施例一
本申请实施例一提供了一种基于双重知识交互和多任务学习的对话情绪识别网络模型(参见图1),包括:任务定义模块,用于给定对话数据集中一个对话的集合,在给定对话历史信息的情况下,预测每一个目标话语的情绪标签;编码器,采用XLNet编码器建模对话历史信息;知识整合模块,用于常识知识的抽取,并基于图注意力网络得到知识增强表示;自匹配模块,用于话语-知识间的交互;对话情绪识别模块,结合对话历史信息预测当前目标话语的情绪标签;情感极性强度预测任务模块,用于向模型中引入与主任务强相关的知识,并利用多任务学习的设置来结合主任务和辅助任务。
实施例二
本申请实施例二提供了一种基于双重知识交互和多任务学习的对话情绪识别网络模型构建方法(参见图2),该方法具体为:
步骤一,给定对话数据集中一个对话的集合,在给定对话历史信息的情况下,预测每一个目标话语的情绪标签;
将对话情绪识别任务定义如下:给定
Figure BDA0003182405950000111
其中i=1,...,N,j=1,...,Ni,代表对话数据集中一个对话对{话语,标签}的集合。对话X中包含N个话语,每一个话语Xi中包含Ni个词,表示为
Figure BDA0003182405950000112
每一个Xi由p(Xi)∈P发出,其中P是说话者的集合。离散值Yi∈S被用来表示情绪标签,其中S表示情绪标签的集合,并且|S|=hc。对话情绪识别任务的目标是在给定对话历史信息的情况下预测每一个目标话语Xi的情绪标签Yi
步骤二,采用XLNet编码器建模对话历史信息;
使用XLNet获取词表示。对于时刻i,本申请在当前话语Xi之前添加符号“[CLS]”来表示话语的开始:
Figure BDA0003182405950000121
此后xi通过一个编码层:
Figure BDA0003182405950000122
其中
Figure BDA0003182405950000123
Dh表示XLNet-base的输入维度。编码层的输出
Figure BDA0003182405950000124
被当作XLNet第一层的输入状态同时也是知识整合阶段知识图谱的表示来源。
得到输入状态
Figure BDA0003182405950000125
之后,采用L层Transformer结构进行词级别的编码,其中L是一个超参数。遵循XLNet的设置,每个自注意力层都利用片段级递归机制实现上一时刻i-1的语境记忆mi-1的整合。本申请利用以下公式表示这个过程:
Figure BDA0003182405950000126
其中
Figure BDA0003182405950000127
Dm是预定义的最大记忆长度,encoder表示编码过程。
步骤三,常识知识的抽取,并基于图注意力网络得到知识增强表示;
在这一步骤中本申请示出显性知识整合过程。本申请使用ConceptNet作为本申请模型中的常识知识库。ConceptNet是一个大规模多语言的常识知识图谱,其中每一个节点表示一个短语级别的概念,每一条边表示一个关系。每一个四元组<概念1,关系,概念2,权重>表示一个断言,其中权重表示一个关于该断言的置信分数。本申请只使用该知识图谱的英文部分,其中包括590万条断言,310万个概念和38个关系。
本申请首先介绍知识抽取过程。对于词t,本申请根据其在ConceptNet中的邻居节点抽取其相应子图gt。对于gt,本申请丢弃停用词或者不在步骤二编码层词典V中的概念,并移除置信分数小于1的断言以降低噪声的影响。gt={(c11),(c22),...,(ckk)},其中ci表示t的第i个相连的概念,ωi表示二者间的置信分数。图2(a)展示了gt的一个实例。
本申请采用图注意力机制获取知识表示。根据上述知识抽取过程,对于每一个非停用词
Figure BDA0003182405950000131
本申请可以获得其概念图
Figure BDA0003182405950000132
对于
Figure BDA0003182405950000133
Figure BDA0003182405950000134
本申请通过公式(1)中的编码层获得其表示
Figure BDA0003182405950000135
Figure BDA0003182405950000136
本申请用如下方式计算知识表示
Figure BDA0003182405950000137
Figure BDA0003182405950000138
Figure BDA0003182405950000139
Figure BDA00031824059500001310
其中
Figure BDA00031824059500001311
“·”表示内积操作,
Figure BDA00031824059500001312
表示
Figure BDA00031824059500001313
中的概念的数量。如果
Figure BDA00031824059500001314
本申请将
Figure BDA00031824059500001315
设置为所有节点表示的平均值。
步骤四,基于自注意力机制的自匹配模块实现话语-知识间的交互;
该步骤提出一个自匹配模块来实现话语和知识的内部交互。本申请已经获得了词级别的话语表示
Figure BDA00031824059500001316
(步骤二中)和xi的词级别知识表示ki(步骤三中),其中
Figure BDA00031824059500001317
表示第j个词相应的知识表示。利用以上结果可以获得话语xi的词级别知识增强表示ui。具体来说,对于每个
Figure BDA00031824059500001318
本申请首先获得话语与知识的拼接向量
Figure BDA00031824059500001319
Figure BDA00031824059500001320
其中[;]表示拼接操作,
Figure BDA0003182405950000141
并且
Figure BDA0003182405950000142
自注意力机制可以使表示之间实现内部交互,因此本申请利用一个基于自注意力机制的自匹配模块。对于同一个话语中的两个词
Figure BDA0003182405950000143
Figure BDA0003182405950000144
本申请通过一个三线性函数计算它们的相似度:
Figure BDA0003182405950000145
其中
Figure BDA0003182405950000146
是模型参数,“⊙”表示矩阵对应位置元素乘积操作。进而本申请可以获得相似度矩阵
Figure BDA0003182405950000147
其中
Figure BDA0003182405950000148
是该矩阵的第i行第j列元素。然后本申请使用如下公式获得自注意力矩阵Q:
Figure BDA0003182405950000149
其中
Figure BDA00031824059500001410
是Q矩阵的第j行第m列元素。此外,间接的交互也可以帮助模型学习更深层的语义关系。直觉上,使用间接交互后,所有的词都可以通过该话语中的中间词进行交互。为了实现间接交互,本申请对Q执行如下操作:
Figure BDA00031824059500001411
本申请获得Q和
Figure BDA00031824059500001412
后,本申请为每一个
Figure BDA00031824059500001413
计算两个知识扩展向量:
Figure BDA00031824059500001414
Figure BDA00031824059500001415
其中
Figure BDA00031824059500001416
Figure BDA00031824059500001417
矩阵的第j行第m列元素。本申请使用不同的方式拼接这两个扩展向量以实现充分交互:
Figure BDA00031824059500001418
其中
Figure BDA00031824059500001419
并且
Figure BDA00031824059500001420
表示自匹配输出矩阵C的第i行第j列元素。C结合了语义和知识,对情绪推理过程有很大益处。
步骤五,对话情绪识别任务,结合对话历史信息预测当前目标话语的情绪标签;
步骤六,情感极性强度预测任务,向模型中引入与主任务强相关的知识,并利用多任务学习的设置来结合主任务和辅助任务。
该步骤中隐式地从情感词典中向模型引入知识。本申请采用大规模情感词典SenticNet作为知识源。SenticNet包含二十万条短语和其相关的情感信息。对于SenticNet中的每一个情感短语si,均包含一个四元组<极性标签,极性强度值,情绪标签,语义>。极性标签表示该短语的极性属于积极或消极。极性强度值用于表示si的极性强度程度。情绪标签是一系列预定义的情绪描述词。语义表示语义相关的概念集合。图2(b)是此四元组的一个例子。本申请将情绪标签和语义加入到步骤三中抽取的常识知识库中作为补充。
本申请提出了一个短语级别的情感极性强度值预测任务作为副任务。具体地,该任务为一个话语中所有在SenticNet出现地短语预测情感极性强度值。对于xi,本申请基于n-gram模型抽取集合
Figure BDA0003182405950000151
n=1,2,...,Ng,其中Ng是一个超参数。对于
Figure BDA0003182405950000152
其中
Figure BDA0003182405950000153
表示Ei的第k个短语,本申请记录它们在话语中的开始和结束位置
Figure BDA0003182405950000154
以及相应的极性值
Figure BDA0003182405950000155
因此,对于每一个话语xi本申请有
Figure BDA0003182405950000156
其中
Figure BDA0003182405950000157
表示目标话语xi中包含SenticNet短语的个数。
对于每一个话语xi,本申请通过公式(2)获得其词级别表示
Figure BDA0003182405950000158
对第k个SenticNet短语
Figure BDA0003182405950000159
本申请执行短语级别的最大池化操作来获得其表示
Figure BDA00031824059500001510
Figure BDA00031824059500001511
Figure BDA00031824059500001512
其中
Figure BDA00031824059500001513
是模型参数,h表示预定义的隐层维度,[:]表示矩阵的切片操作。maxpooling表示最大池化操作。本申请计算最终的预测分数:
Figure BDA0003182405950000161
其中
Figure BDA0003182405950000162
都是模型参数。作为训练目标,本申请为该任务计算标准均方误差:
Figure BDA0003182405950000163
对于话语xi,本申请已经通过自匹配模块(步骤4中)获得了它的词级别知识增强表示ci。本申请通过最大池化操作计算它的话语级别的表示:
Figure BDA0003182405950000164
其中
Figure BDA0003182405950000165
Figure BDA0003182405950000166
是模型参数。本申请通过如下方式计算最终的情绪分布概率:
Figure BDA0003182405950000167
其中
Figure BDA0003182405950000168
Figure BDA0003182405950000169
是模型参数。softmax表示softmax操作。
本申请使用标准交叉熵损失函数计算ERC任务的loss:
Figure BDA00031824059500001610
本申请已经获得了主任务ERC的lossm和副任务SPP的lossa,本申请使用如下的式子计算任务总体的loss:
Figure BDA00031824059500001611
其中∈∈[0,1]是lossa预定义的权重系数。
实施例三
本申请实施例三提供一种电子设备,参见图3,电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:一个或者多个处理器或者处理单元,用于存储能够在处理器上运行的计算机程序的存储器,连接不同系统组件(包括存储器、一个或者多个处理器或者处理单元)的总线。
其中,所述一个或者多个处理器或者处理单元用于运行所述计算机程序时,执行实施例二所述方法的步骤。所述处理器所用类型包括中央处理器、通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。
其中,总线表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
实施例四
本申请实施例四提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例二所述方法的步骤。
需要说明的是,本申请所示的存储介质可以是计算机可读信号介质或者存储介质或者是上述两者的任意组合。存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。存储介质还可以是存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
对本申请进行效果验证
1实验设置(例如数据集、基线模型、评价指标和实现细节等)如下:
1.1数据集
本申请在如下三个常用的ERC数据集上验证本申请的模型。它们的相关统计数据在表1中列出。
表1:各数据集的相关统计数据
Figure BDA0003182405950000181
IEMOCAP:一个多模态二人对话数据集,包含情绪类别neutral,happiness,sadness,anger,frustrated和excited。
MELD:一个在EmotionLines数据集基础上扩展的多模态数据集,从电视剧老友记的台词中收集得来。该数据集包含标签neutral,happiness,surprise,sadness,anger,disgust和fear。
DailyDialog:来自人类撰写的日常对话,没有说话人信息。该数据包含标签neutral,happiness,surprise,sadness,anger,disgust和none。
1.2基线模型和最佳模型
使用本申请的模型与如下的模型相比较:
BERT_BASE:由BERT-BASE的预训练后的参数初始化,该模型被精调用于ERC任务。上文话语和当前话语直接拼接作为输入。BERT形成表示被用于情绪分类任务。
DialogueRNN:DialogueRNN使用两个GRU来建模说话者状态和对话的整体上下文。第三个GRU被用于追踪情绪状态。该模型被期待可以在多方参与的对话中建模说话者间关系。
DialogueGCN:第一个在ERC任务上使用基于图的结构来建模对话中话语关系的模型。该模型使用话语表示作为节点,并将不同种的话语间关系建模为边。使用该对话级别的图,一个图卷积网络被用于特征提取。
KET:第一个使用上下文敏感的有效注意力机制来结合常识知识到话语表示中的模型。该模型还利用一个层级的transformer来建模上下文话语。
AGHMN:该模型使用一个层级记忆网络来建模和存储上下文表示。在每一个时间步,该上下文记忆网络经由一个基于注意力机制的GRU模块结合进行情绪探测。
KATIML:基于一个增量式的transformer,该模型使用一个双重级别的图注意力机制来引入常识知识,使用多任务学习设置来解决标签不均衡问题。
RGAT:基于图结构模型设计,该模型提升了对话图的关系建模,并且添加相对位置编码来向图结构中引入序列信息。
1.3其它实验设置
本申请使用Huggingface的XLNet令牌解析器来令牌化和预处理所有数据集、ConceptNet和SenticNet,与XLNet保持相同的词表。对于ConceptNet和SenticNet,不在词表中的词直接被丢弃。对于超参数设置,Dh=768,h=300,L=12,Ng=4,hc和Dm取决于数据集。本申请在训练过程中使用AdamW优化器。本申请只讨论文本模态。对于数据集IEMOCAP和MELD,本申请使用加权F1值作为评价指标;对于DailyDialog,本申请使用micro-F1值作为评测指标。本申请报告的实验结果均来自在测试集上的5次随机运行。
2结果与分析
2.1总体结果分析
表2:本文模型,部分基线模型和当前最佳模型在IEMOCAP测试集上各个标签及其加权平均F1值。
Figure BDA0003182405950000201
本申请将每一个情绪上最好的两个结果加粗。
表3:MELD和DailyDialog测试集上的模型表现比较
Figure BDA0003182405950000202
Figure BDA0003182405950000211
本申请已加粗最好的结果。
本申请模型、基线模型和当前最佳模型的性能列在表2和表3中。根据实验结果,在基线模型和最佳模型中,RGAT和DialogueGCN在测试集上的表现优于其它模型。这两个模型均通过设计模块建模对话中的各种依赖关系。它们的成功表明对话语境建模对于ERC任务是必要的。本申请还注意到KET等模型提升了基于Transformer模型上的表现,因为它们显示地引入常识知识。除此之外,KAITML利用辅助任务来结合任务相关的信息,也获得了性能上的提升。
试验结果表明本文模型在三个数据集上均刷新了最佳性能。在DailyDialog取得了56.18%的结果,相比BERT取得了3.06%左右的提升。原因是本申请采用常识知识和情感词典弥补了预训练语言模型中缺失的知识维度。在MELD上,本文模型取得了62.57%的结果,相比同样利用常识知识的KET有4.39%的提升。这归功于自匹配模块带来的知识增强表示之间的内部交互。对于IEMOCAP数据集,本申请的模型取得66.40%的结果,相比同样采用多任务学习的KAITML取得4.97%的提升。这主要是因为本文辅助任务和ERC任务是强相关的,而KAITML采用了弱相关的任务。
2.2特定情绪结果分析
基线模型和本申请模型在IEMOCAP数据集上的具体情绪测试结果在表2中。本申请将每一个情绪上最好的两个结果进行加粗。从这些结果可以看出,本申请模型在大部分情绪上都位于前两名。具体来说,在情绪“失望”和“中性”上,本申请的模型取得了最好的结果67.78%和65.44%。本申请相信在“中性”上取得了最佳结果的原因是情感词典为情感极性的确定提供了直接的指导。除此之外,常识知识为形成情绪推理链条提供信息,有利于细粒度情绪的判断,例如“失望”。
2.3实例分析
参见图4:两个来自IEMOCAP数据集测试过程中的典型例子。“主任务”表示本文模型去掉辅助任务。和“仅主任务”相连的方框表示关键词的8个注意力值最高的常识概念。和“本申请模型”相连的方框表示极性敏感的预测结果。
本申请提供两个具体例子来研究情感词典和常识知识的影响,相关的例子在图4中。这些典例来自IEMOCAP数据集的实际测试过程。在例子1中,引入“miss”和“husband”等常识概念后。模型可以更加深入地理解“married”的语义。情感极性强度预测器给短语“getting_married”分配了很强的积极性,考虑到短语前的“not”后模型可以捕捉到强烈的消极性。在例子2中,模型没有通过常识知识获得直接的情绪相关的信息。但是情感极性强度预测器给词“cheap”分配了强烈的消极性,模型成功地给该话语打上“angry”的标签。实例分析表明两种知识源均可帮助情绪推理,并少有冗余。
2.4误差分析
参见图5中展示了在IEMOCAP数据集上的测试结果的混淆矩阵。可以看出主要的错误判断都来自同一情感极性的情感,例如“快乐”和“激动”,并且很少有跨情感极性的误判,例如“激动”和“愤怒”,这表明很少有严重的错误。
2.5销蚀实验
本申请为设计的模块进行销蚀实验。本申请通过移除一些关键组成部分自匹配,常识知识和情感词典来分析它们的影响。“-自匹配”代表话语表示部分和知识表示部分直接拼接。“-常识知识”表示常识知识引入和自匹配均被移除。对于“-情感词典”,本申请移除情感极性强度预测任务和多任务设置。在两个代表性数据集IEMOCAP和MELD上的结果如表4所示。
本申请可以观察到每一个部分被移除时本申请的模型在IEMOCAP和MELD数据集上的表现都有所下降。对于这两个数据集,当自匹配模块被移除时,结果都有相当的下降,甚至比不包含任何知识引入模块的表现还差。这个结果表明自匹配对于模型通过充分的词级别交互理解常识知识非常关键,没有这种交互,常识知识甚至会向推理过程引入噪音。
对于IEMOCAP数据集,移除情感词典后模型表现下降更多。IEMOCAP的每个对话中包含更多的话语数(50左右)。这种情况下模型需要更复杂的情绪推理,为情感识别提供强相关信息的情感词典会发挥更大的作用。该数据集中70%的话语中都拥有至少一个SenticNet短语,平均每个话语包含2.2个短语。对于MELD数据集,常识知识为该任务带来更大的积极影响。因为MELD的每一个对话拥有更短少的话语(8.5左右),常识知识可以丰富语义信息。对于情感词典,该数据集中仅有65%的话语包含至少一个SenticNet短语并且平均每个话语包含1.9个短语,这表明相比于IEMOCAP,MELD获得了较少的来自SenticNet的信息。
表4:在IEMOCAP和MELD上的销蚀实验结果
Figure BDA0003182405950000231
Figure BDA0003182405950000241
综合以上,本申请提出了一个基于双重知识交互和情感极性强度感知多任务学习的模型,用于对话情绪识别任务。为了弥补预训练语言模型缺失的知识维度,本申请提出一个知识整合模块来结合词级别的常识知识,并使用一个自匹配模块实现话语和知识间的充分交互。本申请通过多任务学习引入来自情感词典的知识,为ERC任务提供了强相关的信息。实验分析表明这两种知识源都对模型表现有积极影响。本申请的模型在典型数据集上的表现超越了当前最佳的模型。
以上所述的实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的实施例而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.基于双重知识交互和多任务学习的对话情绪识别网络模型,其特征在于,包括:
任务定义模块,用于给定对话数据集中一个对话的集合,在给定对话历史信息的情况下,预测每一个目标话语的情绪标签;
编码器,采用XLNet编码器建模对话历史信息;
知识整合模块,用于常识知识的抽取,并基于图注意力网络得到知识增强表示;
自匹配模块,用于话语-知识间的交互;
对话情绪识别模块,结合对话历史信息预测当前目标话语的情绪标签;
情感极性强度预测任务模块,用于向模型中引入与主任务强相关的知识,并利用多任务学习的设置来结合主任务和辅助任务。
2.基于双重知识交互和多任务学习的对话情绪识别网络模型构建方法,其特征在于,包括:
步骤一,给定对话数据集中一个对话的集合,在给定对话历史信息的情况下,预测每一个目标话语的情绪标签;
步骤二,采用XLNet编码器建模对话历史信息;
步骤三,常识知识的抽取,并基于图注意力网络得到知识增强表示;
步骤四,基于自注意力机制的自匹配模块实现话语-知识间的交互;
步骤五,对话情绪识别任务,结合对话历史信息预测当前目标话语的情绪标签;
步骤六,情感极性强度预测任务,向模型中引入与主任务强相关的知识,并利用多任务学习的设置来结合主任务和辅助任务;
所述方法是基于权利要求1所述的对话情绪识别网络模型实现的。
3.根据权利要求2所述的基于双重知识交互和多任务学习的对话情绪识别网络模型构建方法,其特征在于,所述步骤一中,将对话情绪识别任务定义如下:给定
Figure FDA0003182405940000021
其中,i=1,...,N,j=1,...,Ni,代表对话数据集中一个对话对{话语,标签}的集合;对话X中包含N个话语,每一个话语Xi中包含Ni个词,表示为
Figure FDA0003182405940000022
每一个Xi由p(Xi)∈P发出,其中,P是说话者的集合;离散值Yi∈S被用来表示情绪标签,其中S表示情绪标签的集合,并且|S|=hc,其中hc是预定义情绪的数量;对话情绪识别任务的目标是在给定对话历史信息的情况下预测每一个目标话语Xi的情绪标签Yi
4.根据权利要求3所述的基于双重知识交互和多任务学习的对话情绪识别网络模型构建方法,其特征在于,所述步骤二中,使用XLNet获取词表示,对于时刻i,在当前话语Xi之前添加符号“[CLS]”来表示话语的开始:
Figure FDA0003182405940000023
此后xi通过编码层:
Figure FDA0003182405940000024
其中
Figure FDA0003182405940000025
Dh表示XLNet-base的输入维度,embedding表示获取相应初始词向量的编码操作;编码层的输出
Figure FDA00031824059400000210
被当作XLNet第一层的输入状态;
得到输入状态
Figure FDA0003182405940000026
之后,采用L层Transformer结构进行词级别的编码,其中L是一个超参数;遵循XLNet的设置,每个自注意力层都利用片段级递归机制实现上一时刻i-1的语境记忆mi-1的整合;利用公式(2)表示:
Figure FDA0003182405940000027
其中
Figure FDA0003182405940000028
Figure FDA0003182405940000029
是词级别的话语表示,Dm是预定义的最大记忆长度,encoder表示编码过程。
5.根据权利要求4所述的基于双重知识交互和多任务学习的对话情绪识别网络模型构建方法,其特征在于,所述步骤三中,使用ConceptNet作为模型中的常识知识库;首先常识知识库的知识抽取过程如下:对于词t,根据其在ConceptNet中的邻居节点抽取其相应子图gt;对于gt,丢弃停用词或者不在编码层词典V中的概念,并移除置信分数小于1的断言以降低噪声的影响;gt={(c11),(c22),...,(ckk)},其中ci表示t的第i个相连的概念,ωi表示二者间的置信分数;
然后采用图注意力机制获取知识表示,根据所述知识抽取过程,对于每一个非停用词
Figure FDA0003182405940000031
获得其概念图
Figure FDA0003182405940000032
对于
Figure FDA0003182405940000033
Figure FDA0003182405940000034
cp表示
Figure FDA0003182405940000035
对应概念子图中的任意邻居节点,通过公式(1)中的编码层获得其表示
Figure FDA0003182405940000036
Figure FDA0003182405940000037
用公式(3)、(4)、(5)计算第j个词相应的知识表示
Figure FDA0003182405940000038
Figure FDA0003182405940000039
Figure FDA00031824059400000310
Figure FDA00031824059400000311
其中
Figure FDA00031824059400000312
“·”表示内积操作,
Figure FDA00031824059400000313
表示
Figure FDA00031824059400000314
中的概念的数量,
Figure FDA00031824059400000315
Figure FDA00031824059400000316
分别是词
Figure FDA00031824059400000317
及其概念邻居节点cp的初始表示,由公式(1)得到,tp表示
Figure FDA00031824059400000318
Figure FDA00031824059400000319
的内积,αp表示
Figure FDA00031824059400000320
Figure FDA00031824059400000321
的相似度,wp表示概念邻居节点cp的置信度分数,由ConceptNet给出;如果
Figure FDA00031824059400000322
Figure FDA00031824059400000323
为第j个词相应的知识表示,将
Figure FDA00031824059400000324
设置为所有节点表示的平均值。
6.根据权利要求5所述的基于双重知识交互和多任务学习的对话情绪识别网络模型构建方法,其特征在于,所述步骤四中,采用自匹配模块来实现话语和知识的内部交互;利用步骤二中经获得的词级别的话语表示
Figure FDA00031824059400000325
和第j个词相应的知识表示
Figure FDA0003182405940000041
获得话语xi的词级别知识增强表示ui;具体地,对于每个
Figure FDA0003182405940000042
首先获得话语与知识的拼接向量
Figure FDA0003182405940000043
Figure FDA0003182405940000044
其中[;]表示拼接操作,
Figure FDA0003182405940000045
表示第j个词相应的词级别的话语表示,
Figure FDA0003182405940000046
并且
Figure FDA00031824059400000430
对于同一个话语中的两个词
Figure FDA0003182405940000047
Figure FDA0003182405940000048
通过三线性函数计算相似度:
Figure FDA0003182405940000049
其中
Figure FDA00031824059400000410
是模型参数,“⊙”表示矩阵对应位置元素乘积操作,
Figure FDA00031824059400000411
表示当前话语Xi中的第m个词,
Figure FDA00031824059400000412
表示
Figure FDA00031824059400000413
对应的词表示与知识表示的拼接向量;进而获得相似度矩阵
Figure FDA00031824059400000414
其中
Figure FDA00031824059400000415
是该矩阵的第i行第j列元素;然后根据公式(8)获得自注意力矩阵Q:
Figure FDA00031824059400000416
其中
Figure FDA00031824059400000417
是Q矩阵的第j行第m列元素;
此外,为了实现间接交互,对Q执行如下操作:
Figure FDA00031824059400000418
获得Q和
Figure FDA00031824059400000419
后,为每一个
Figure FDA00031824059400000420
计算两个知识扩展向量:
Figure FDA00031824059400000421
Figure FDA00031824059400000422
其中
Figure FDA00031824059400000423
Figure FDA00031824059400000424
Figure FDA00031824059400000425
分别是经过直接交互和间接交互后
Figure FDA00031824059400000426
的更新表示,
Figure FDA00031824059400000427
Figure FDA00031824059400000428
矩阵的第j行第m列元素;拼接两个知识扩展向量以实现充分交互:
Figure FDA00031824059400000429
其中
Figure FDA0003182405940000051
并且
Figure FDA0003182405940000052
表示自匹配输出矩阵C的第i行第j列元素。
7.根据权利要求6所述的基于双重知识交互和多任务学习的对话情绪识别网络模型构建方法,其特征在于,所述步骤五中,采用大规模情感词典SenticNet作为知识源,从情感词典中向模型引入知识,将SenticNet的情绪标签和语义加入到抽取的常识知识库中作为补充。
8.根据权利要求7所述的基于双重知识交互和多任务学习的对话情绪识别网络模型构建方法,其特征在于,所述步骤五中,采用短语级别的情感极性强度值预测任务作为副任务;具体地,该任务为一个话语中所有在SenticNet出现的短语预测情感极性强度值;对于xi,基于n-gram模型抽取集合
Figure FDA0003182405940000053
其中Ng是一个超参数;对于
Figure FDA0003182405940000054
其中
Figure FDA0003182405940000055
表示Ei的第k个短语,记录其在话语中的开始和结束位置
Figure FDA0003182405940000056
以及相应的极性值
Figure FDA0003182405940000057
对于每一个话语xi具有带有情感极性强度标注的短语级集合
Figure FDA0003182405940000058
其中
Figure FDA0003182405940000059
表示目标话语xi中包含SenticNet短语的个数;
对于每一个话语xi,公式(2)获得其词级别表示
Figure FDA00031824059400000510
对第k个SenticNet短语
Figure FDA00031824059400000511
执行短语级别的最大池化操作来获得其话语级表示
Figure FDA00031824059400000512
Figure FDA00031824059400000513
Figure FDA00031824059400000514
其中
Figure FDA00031824059400000515
是模型参数,h表示预定义的隐层维度,[:]表示矩阵的切片操作,maxpooling表示最大池化操作;计算最终的预测分数:
Figure FDA00031824059400000516
其中
Figure FDA00031824059400000517
都是模型参数,作为训练目标,计算标准均方误差:
Figure FDA0003182405940000061
对于话语通过步骤4自匹配模块获得了词级别知识增强表示ci;通过最大池化操作计算话语级别的表示:
Figure FDA0003182405940000062
其中
Figure FDA0003182405940000063
Figure FDA0003182405940000064
是模型参数;通过公式(18)计算最终的情绪分布概率:
Figure FDA0003182405940000065
其中
Figure FDA0003182405940000066
Figure FDA0003182405940000067
是模型参数;softmax表示softmax操作;
使用标准交叉熵损失函数计算ERC任务的loss:
Figure FDA0003182405940000068
获得了主任务ERC的lossm和副任务SPP的lossa,使用公式(20)计算任务总体的loss:
Figure FDA0003182405940000069
其中∈∈[0,1]是lossa预定义的权重系数。
9.一种电子设备,其特征在于:包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行权利要求2至8任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求2至8任一项所述方法的步骤。
CN202110850763.5A 2021-07-27 2021-07-27 基于双重知识交互和多任务学习的对话情绪识别网络模型系统、构建方法、设备及存储介质 Active CN113535957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110850763.5A CN113535957B (zh) 2021-07-27 2021-07-27 基于双重知识交互和多任务学习的对话情绪识别网络模型系统、构建方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110850763.5A CN113535957B (zh) 2021-07-27 2021-07-27 基于双重知识交互和多任务学习的对话情绪识别网络模型系统、构建方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113535957A true CN113535957A (zh) 2021-10-22
CN113535957B CN113535957B (zh) 2022-08-02

Family

ID=78089210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110850763.5A Active CN113535957B (zh) 2021-07-27 2021-07-27 基于双重知识交互和多任务学习的对话情绪识别网络模型系统、构建方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113535957B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987179A (zh) * 2021-10-27 2022-01-28 哈尔滨工业大学 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
CN114328956A (zh) * 2021-12-23 2022-04-12 北京百度网讯科技有限公司 文本信息的确定方法、装置、电子设备及存储介质
CN114417814A (zh) * 2021-12-14 2022-04-29 桂林电子科技大学 一种基于情感知识增强的词语分布式表示学习系统
CN115730070A (zh) * 2022-11-25 2023-03-03 重庆邮电大学 一种人机共情对话方法、系统、电子设备和介质
CN115841119A (zh) * 2023-02-21 2023-03-24 中国科学技术大学 一种基于图结构的情绪原因提取方法
CN116757195A (zh) * 2023-06-25 2023-09-15 哈尔滨工业大学 一种基于提示学习的隐性情感识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740310A (zh) * 2015-12-21 2016-07-06 哈尔滨工业大学 一种用于问答系统中的自动答案摘要方法及系统
CN108334583A (zh) * 2018-01-26 2018-07-27 上海智臻智能网络科技股份有限公司 情感交互方法及装置、计算机可读存储介质、计算机设备
CN109299267A (zh) * 2018-10-16 2019-02-01 山西大学 一种文本对话的情绪识别与预测方法
US20190109878A1 (en) * 2017-10-05 2019-04-11 Accenture Global Solutions Limited Natural language processing artificial intelligence network and data security system
CN111651609A (zh) * 2020-04-24 2020-09-11 中国电力科学研究院有限公司 一种融合知识图谱和情感监督的多轮对话方法及系统
CN112001185A (zh) * 2020-08-26 2020-11-27 重庆理工大学 一种结合中文句法和图卷积神经网络的情感分类方法
CN112100325A (zh) * 2020-08-28 2020-12-18 广州探迹科技有限公司 一种基于分层门控循环单元的人机对话情感分析方法
CN112488887A (zh) * 2020-12-02 2021-03-12 广州大学 一种基于知识图谱的学习者画像的生成方法与装置
CN113051916A (zh) * 2021-04-23 2021-06-29 东南大学 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740310A (zh) * 2015-12-21 2016-07-06 哈尔滨工业大学 一种用于问答系统中的自动答案摘要方法及系统
US20190109878A1 (en) * 2017-10-05 2019-04-11 Accenture Global Solutions Limited Natural language processing artificial intelligence network and data security system
CN108334583A (zh) * 2018-01-26 2018-07-27 上海智臻智能网络科技股份有限公司 情感交互方法及装置、计算机可读存储介质、计算机设备
CN109299267A (zh) * 2018-10-16 2019-02-01 山西大学 一种文本对话的情绪识别与预测方法
CN111651609A (zh) * 2020-04-24 2020-09-11 中国电力科学研究院有限公司 一种融合知识图谱和情感监督的多轮对话方法及系统
CN112001185A (zh) * 2020-08-26 2020-11-27 重庆理工大学 一种结合中文句法和图卷积神经网络的情感分类方法
CN112100325A (zh) * 2020-08-28 2020-12-18 广州探迹科技有限公司 一种基于分层门控循环单元的人机对话情感分析方法
CN112488887A (zh) * 2020-12-02 2021-03-12 广州大学 一种基于知识图谱的学习者画像的生成方法与装置
CN113051916A (zh) * 2021-04-23 2021-06-29 东南大学 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
FELIX HAMBORG等: "Automated Identification of Media Bias by Word Choice and Labeling in News Articles", 《网页在线公开:HTTPS://IEEEXPLORE.IEEE.ORG/STAMP/STAMP.JSP?TP=&ARNUMBER=8791197》 *
FELIX HAMBORG等: "Automated Identification of Media Bias by Word Choice and Labeling in News Articles", 《网页在线公开:HTTPS://IEEEXPLORE.IEEE.ORG/STAMP/STAMP.JSP?TP=&ARNUMBER=8791197》, 8 August 2019 (2019-08-08), pages 1 - 10 *
JUNZO WATADA等: "Speech Recognition in a Multi-speaker Environment by using Hidden Markov Model and Mel-frequency Approach", 《网页在线公开:HTTPS://IEEEXPLORE.IEEE.ORG/STAMP/STAMP.JSP?TP=&ARNUMBER=8008645》, 15 August 2017 (2017-08-15), pages 1 - 4 *
ZHANG XIAOHUI等: "Research on Sentiment Recognition Technology for Power Intelligent Customer Service System", 《电子器件》, vol. 43, no. 5, 31 October 2020 (2020-10-31), pages 1061 - 1065 *
孙承杰等: "一种基于弱监督学习的论坛帖子对话行为分类方法", 《中文信息学报》, vol. 28, no. 6, 19 November 2014 (2014-11-19), pages 156 - 161 *
李少博: "基于知识拷贝机制的生成式对话模型", 《中文信息学报》, vol. 35, no. 2, 23 March 2021 (2021-03-23), pages 107 - 115 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987179A (zh) * 2021-10-27 2022-01-28 哈尔滨工业大学 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
CN113987179B (zh) * 2021-10-27 2024-03-22 哈尔滨工业大学 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
CN114417814A (zh) * 2021-12-14 2022-04-29 桂林电子科技大学 一种基于情感知识增强的词语分布式表示学习系统
CN114417814B (zh) * 2021-12-14 2022-11-15 桂林电子科技大学 一种基于情感知识增强的词语分布式表示学习系统
CN114328956A (zh) * 2021-12-23 2022-04-12 北京百度网讯科技有限公司 文本信息的确定方法、装置、电子设备及存储介质
CN114328956B (zh) * 2021-12-23 2023-02-28 北京百度网讯科技有限公司 文本信息的确定方法、装置、电子设备及存储介质
CN115730070A (zh) * 2022-11-25 2023-03-03 重庆邮电大学 一种人机共情对话方法、系统、电子设备和介质
CN115730070B (zh) * 2022-11-25 2023-08-08 重庆邮电大学 一种人机共情对话方法、系统、电子设备和介质
CN115841119A (zh) * 2023-02-21 2023-03-24 中国科学技术大学 一种基于图结构的情绪原因提取方法
CN115841119B (zh) * 2023-02-21 2023-06-16 中国科学技术大学 一种基于图结构的情绪原因提取方法
CN116757195A (zh) * 2023-06-25 2023-09-15 哈尔滨工业大学 一种基于提示学习的隐性情感识别方法

Also Published As

Publication number Publication date
CN113535957B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN113535957B (zh) 基于双重知识交互和多任务学习的对话情绪识别网络模型系统、构建方法、设备及存储介质
US10614106B2 (en) Automated tool for question generation
Dos Santos et al. Deep convolutional neural networks for sentiment analysis of short texts
CN113987179B (zh) 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
Zhang et al. Ynu-hpcc at semeval-2018 task 1: Bilstm with attention based sentiment analysis for affect in tweets
Sahu et al. Multi-Modal Learning for Speech Emotion Recognition: An Analysis and Comparison of ASR Outputs with Ground Truth Transcription.
CN114722838A (zh) 基于常识感知和层次化多任务学习的对话情感识别方法
CN111460132A (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN112860871B (zh) 自然语言理解模型训练方法、自然语言理解方法及装置
CN115640530A (zh) 一种基于多任务学习的对话讽刺和情感联合分析方法
Chen et al. SpeechFormer++: A hierarchical efficient framework for paralinguistic speech processing
Bai et al. A universal bert-based front-end model for mandarin text-to-speech synthesis
Dai et al. Weakly-supervised multi-task learning for multimodal affect recognition
Goncalves et al. Improving speech emotion recognition using self-supervised learning with domain-specific audiovisual tasks
CN111949762B (zh) 基于上下文情感对话的方法和系统、存储介质
CN113065350A (zh) 一种基于注意力神经网络的生物医学文本词义消岐方法
Chen et al. Audio captioning with meshed-memory transformer
Dunn et al. Context-sensitive visualization of deep learning natural language processing models
Ramnath et al. Worldly wise (WoW)-cross-lingual knowledge fusion for fact-based visual spoken-question answering
Hu et al. Enhanced word embedding method in text classification
Tseng et al. Av-superb: A multi-task evaluation benchmark for audio-visual representation models
CN115858728A (zh) 一种基于多模态数据的情感分析方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
Lian et al. Domain adversarial learning for emotion recognition
Kumar et al. ManuBERT: A Pretrained Manufacturing Science Language Representation Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant