CN115221301A - 联合多任务学习的对话情感分类和对话行为识别方法 - Google Patents
联合多任务学习的对话情感分类和对话行为识别方法 Download PDFInfo
- Publication number
- CN115221301A CN115221301A CN202210850676.4A CN202210850676A CN115221301A CN 115221301 A CN115221301 A CN 115221301A CN 202210850676 A CN202210850676 A CN 202210850676A CN 115221301 A CN115221301 A CN 115221301A
- Authority
- CN
- China
- Prior art keywords
- emotion
- sentence
- representation
- behavior
- statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 223
- 230000006399 behavior Effects 0.000 title claims abstract description 174
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000002996 emotional effect Effects 0.000 claims abstract description 30
- 230000000644 propagated effect Effects 0.000 claims abstract description 21
- 230000003542 behavioural effect Effects 0.000 claims abstract description 12
- 230000014509 gene expression Effects 0.000 claims description 60
- 238000012549 training Methods 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 19
- 230000008447 perception Effects 0.000 claims description 13
- 238000006116 polymerization reaction Methods 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000005251 gamma ray Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 241001522296 Erithacus rubecula Species 0.000 claims description 2
- 238000000844 transformation Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 18
- 125000002015 acyclic group Chemical group 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 17
- 230000009133 cooperative interaction Effects 0.000 description 9
- 230000001953 sensory effect Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 230000007935 neutral effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 241001619461 Poria <basidiomycete fungus> Species 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000010415 tropism Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明具体涉及联合多任务学习的对话情感分类和对话行为识别方法,包括:获取包含各个说话者语句的待测对话文本;将待测对话文本输入经过训练的预测模型中,输出待测对话文本各个语句的预测情感标签和预测行为标签;预测模型捕捉说话者随时间变化的情感线索和行为线索;将情感任务和行为任务进行有向无环图传播以对话的信息传播,并在每次有向无环图传播后对情感任务和行为任务进行交互;最后预测待测对话文本各个语句的预测情感标签和预测行为标签;基于待测对话文本对话情感分类和对话行为识别的结果分析说话者的情感和行为。本发明能够按照对话时间顺序建模说话者的信息,并能够充分建模整个对话的上下文信息。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及联合多任务学习的对话情感分类和对话行为识别方法。
背景技术
对话情感分类(Dialogue sentiment classification,DSC)和对话行为识别(Dialogue act recognition,DAR)是对话系统中两个具有挑战性的任务。DSC旨在预测对话中每个语句的情感标签(如积极、消极和中性等),DAR旨在预测每个语句的行为标签(如同意、询问和陈述等),通过对话情感分类和对话行为识别的结果能够分析说话者的情感和行为,这能够用于对话系统生成适当的共情回复,也可以用于一些舆情分析、心理咨询和热点观察等。
申请人发现,DSC和DAR这两项任务密切相关,可以通过共同执行而相互促进。在早期的工作中,现有技术提出了多任务框架来联合建模这两个任务,其中两个任务共享一个编码器,以此来隐式建模两个任务的相关性。然而简单的多任务学习框架只是通过共享潜在表示来隐式地建模两个任务之间的相互联系,无法取得理想的结果,甚至低于一些独立建模两个任务的工作。同时,现有技术中还出现了将对话行为、谓词和情感的识别整合到统一的模型中,明确建模两个任务之间的相互作用,但他们的框架仅考虑当前的语句。最近,现有技术中出现了通过上下文感知的动态卷积网络来捕获关键局部上下文的技术方案以及交互图框架,其中,相同任务内语句连接和不同任务间语句连接的全连通图被构造并迭代更新,实现了在一个统一的体系结构中同时建模上下文信息和交互信息。
然而,上述现有方案虽然产生了显著的效果,但是他们还存在一些缺陷:1)现有方案没有按照对话时间顺序建模说话者的信息。现有说话者感知的编码器只是简单地构建了一个连接相同说话者的无向图再进行图传播,而没有考虑时间顺序,也没有单独建模说话者的情感和行为线索,导致对话情感分类和对话行为识别的准确性偏低。2)对整个对话的上下文建模不充分。现有方案仅是将图注意力网络(GAT)应用于一个无向的图,该图是一个任务内的上下文语句和跨任务的语句构成的全连通图,无法区分相同还是不同说话者之间的互动关系,导致对话情感分类和对话行为识别的有效性不好。因此,如何设计一种能够按照对话时间顺序建模说话者信息且能够充分建模整个对话上下文表示的方法是亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种联合多任务学习的对话情感分类和对话行为识别方法,以能够按照对话时间顺序建模说话者的信息,并能够充分建模整个对话的上下文信息,从而能够提高对话情感分类和对话行为识别的准确性和有效性,进而能够更好的分析说话者的情感和行为,以应用于共情回复、舆情分析、心理咨询和热点观察等领域。
为了解决上述技术问题,本发明采用了如下的技术方案:
联合多任务学习的对话情感分类和对话行为识别方法,包括以下步骤:
S1:获取包含各个说话者语句的待测对话文本;
S2:将待测对话文本输入经过训练的预测模型中,输出待测对话文本各个语句的预测情感标签和预测行为标签;
预测模型首先编码得到待测对话文本的语句初始表示;然后基于语句初始表示捕捉说话者随时间变化的情感线索和行为线索,得到对话情感和对话行为的初始表示序列;其次分别将对话情感和对话行为的初始表示序列作为情感任务和行为任务来进行有向无环图传播以模拟对话的信息传播,并在每次有向无环图传播后对情感任务和行为任务进行交互,最终得到情感表示序列和行为表示序列;最后通过情感表示序列和行为表示序列预测待测对话文本各个语句的预测情感标签和预测行为标签;
S3:将预测模型输出的各个语句的预测情感标签和预测行为标签作为待测对话文本对话情感分类和对话行为识别的结果;
S4:基于待测对话文本对话情感分类和对话行为识别的结果分析说话者的情感和行为。
优选的,步骤S2中,通过如下步骤训练预测模型:
S201:将作为训练样本的对话文本输入至预测模型中;
S202:将对话文本中各个语句的单词进行单词编码,得到各个语句的语句表示序列;然后对各个语句的语句向量序列进行平均池化操作,得到各个语句的语句总体表示;最后基于各个语句的语句总体表示得到对话文本的语句初始表示;
S203:基于对话文本的语句初始表示得到各个说话者的语句表示序列;然后将各个说话者的语句表示序列输入对应的双向门控循环单元,得到各个说话者感知的语句表示;其次基于各个说话者感知的语句表示映射得到对话文本的感知语句表示;最后将对话文本的感知语句表示输入两个单独的双向门控循环单元,得到对话情感和对话行为的初始表示序列;
S204:将对话情感和对话行为的初始表示序列作为情感任务和行为任务,并分别输入至两个单独的具有若干个有向无环图传播层的无环图网络中传播以模拟对话的信息传播;然后将两个任务在对应有向无环图传播层的输出进行交互;最后分别将两个任务在各个有向无环图传播层的输出进行拼接,得到最终的情感表示序列和行为表示序列;
S205:基于最终的情感表示序列和行为表示序列分别计算情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失,然后基于情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失联合训练预测模型;
S206:重复执行步骤S201至S205,直至预测模型收敛。
优选的,步骤S201中,对话文本U={u1,u2,…,uN}由N个语句ui组成;每个语句的原始输入是一个单词序列,即ui={wi,1,wi,2,…,wi,n},其中n表示语句的长度。
优选的,步骤S202中,具体包括:
1)将对话文本U中各个语句ui的各个单词wi,j映射到向量表示;
2)通过双向门控循环单元生成各个单词wi,j的隐藏状态hi,j,即对单词wi,j进行编码,进而得到单词编码后语句ui的语句向量序列{hi,1,…,hi,n};
3)对语句ui的语句向量序列{hi,1,…,hi,n}中所有单词表示进行平均池化,得到语句ui的语句总体表示ei;
ei=avg_pool(hi,1,…,hi,n);
式中:avg_pool表示平均池化操作;
4)基于对话文本中各个语句的语句总体表示得到对话文本的语句初始表示E={e1,…,eN}。
优选的,步骤S203中,具体包括:
2)将EX和EY分别输入至双向门控循环单元,得到说话者X和Y各个语句的语句表示;
对于说话者X:
4)将说话者X和Y的感知语句表示PX和PY按照对话文本U中原语句序列的顺序映射回去,得到对话文本U的说话者感知语句表示P={p1,…,pN};
5)分别将对话文本的U感知语句表示P输入至两个单独的双向门控循环单元,得到对话情感的初始表示序列S={s1,…,sN}和对话行为的初始表示序列A={a1,…,aN};
S=Bi-LSTMs(P);
A=Bi-LSTMa(P)。
优选的,步骤S204中,具体包括:
1)情感任务:
对于对话情感的初始表示序列S={s1,…,sN};
式中:表示可训练参数;||表示拼接操作;表示语句ui的前驱集合;表示语句ui在(l-1)层的隐藏状态;表示语句ui在(l)层的前驱语句uj的隐藏状态;使用对话情感的初始表示序列S={s1,…,sN}中的si来初始化第(0)层每个语句节点的情感表示
式中:GRU表示门控递归单元;
式中:GRU表示门控递归单元;
2)行为任务:
优选的,有向无环图传播层中,构建有向无环图时满足以下三个约束:
优选的,步骤S205中,情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失的计算逻辑一致;
对于情感分类:
式中:表示第i个语句ui的真实情感标签,用0或1表示,如果样本i的真实情感类别等于c取1,否则取0;表示样本i的情感属于类别c的预测概率的对数值;C表示标签类别总数;表示根据情感表示序列得到的第i个语句ui预测的标签概率分布;softmax表示归一化指数函数,用于多分类过程,它将多个神经元的输出,映射到(0,1)区间内,并且归一化保证和为1;Wf和bf均为可训练参数,即线性转换的权重和偏置;表示情感表示序列中第i个语句ui的情感表示;表示根据情感表示序列得到的第i个语句ui的预测情感标签,即对话文本N个语句的预测情感标签表示为argmax是对函数求参数集合的函数,即求得函数取得最大值所对应的自变量;
式中:P(i)=Ij=i-{i}表示与i类别相同的训练样本,但不包括其自身;I={1,2,...,2N}表示一个双视图批次的所有样本索引集合;i∈I={1,2,...,2N}表示在一个双视图批次里的训练样本索引;SIM(p,i)表示样本对p和i的监督对比损失;A(i)=I-{i,N+i}表示多视图批次中除其自身以外的训练样本;sim(p,i)表示样本p和样本i两个向量之间的余弦相似度;Xi表示在一个双视图批次中的第i个样本;Xp表示在一个双视图批次中的第p个样本;Xa表示在一个双视图批次中的第a个样本;表示用于控制训练样本之间距离的温度系数;表示一个双视图批次的所有样本的表示集合;为复制的情感表示的副本的集合;
式中:表示给定对话文本U,标签序列为Ys的条件概率;表示标签序列Ys的分数;表示一个有效的标签序列y′在情感表示的情况下的分数;表示标签到的转移分数;表示标签在情感表示序列下的发射分数;γs表示所有有效的情感标签序列γs。
优选的,通过如下公式联合情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失得到最终的训练损失,用以训练和优化预测模型的参数;
式中:表示最终的训练损失;分别表示情感分类的交叉熵损失、监督对比损失和CRF损失;分别表示行为识别的交叉熵损失、监督对比损失和CRF损失;α、β、γ、δ均表示超参数,用于控制对应监督对比损失和CRF损失的权重。
本发明中联合多任务学习的对话情感分类和对话行为识别方法,具有如下有益效果:
本发明通过编码得到待测对话文本的语句初始表示,能够提取与对话上下文无关的语句级特征向量,进而通过单独建模说话者的情感线索和行为线索来得到对话情感和对话行为的初始表示序列,使得预测模型能够更好地捕捉说话者的信息,更好的理解同一说话者的情感线索和行为线索如何随着时间变化,即能够按照对话时间顺序建模说话者的信息,从而能够提高对话情感分类和对话行为识别的准确性和有效性,进而能够更好的分析说话者的情感和行为,以应用于共情回复、舆情分析、心理咨询和热点观察等领域。
同时,本发明通过将对话情感和对话行为的初始表示序列作为情感任务和行为任务来进行有向无环图传播以对话的信息传播,使得预测模型能够有效区分相同或不同说话者之间的互动关系,并在每次有向无环图传播后对情感任务和行为任务进行交互,使得情感分类和行为识别两个任务能够互相交互和促进,即能够充分建模整个对话的上下文信息,从而能够提高情感分类和行为识别的有效性。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为联合多任务学习的对话情感分类和对话行为识别方法的逻辑框图;
图2为预测模型(SA-CCGN)的网络构架图;
图3为DAG传播层取不同层数的模型性能示意图;
图4在Mastodon数据集上的学习曲线示意图;
图5为SA-CCGN和Co-GAT在低资源环境的模型性能示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面通过具体实施方式进一步详细的说明:
实施例:
本实施例中公开了一种联合多任务学习的对话情感分类和对话行为识别方法。
如图1所示,联合多任务学习的对话情感分类和对话行为识别方法,包括以下步骤:
S1:获取包含各个说话者语句的待测对话文本;
S2:将待测对话文本输入经过训练的预测模型中,输出待测对话文本各个语句的预测情感标签和预测行为标签;
预测模型首先编码得到待测对话文本的语句初始表示;然后基于语句初始表示捕捉说话者随时间变化的情感线索和行为线索,得到对话情感和对话行为的初始表示序列;其次分别将对话情感和对话行为的初始表示序列作为情感任务和行为任务来进行有向无环图传播以模拟对话的信息传播,并在每次有向无环图传播后对情感任务和行为任务进行交互,最终得到情感表示序列和行为表示序列;最后通过情感表示序列和行为表示序列预测待测对话文本各个语句的预测情感标签和预测行为标签;
S3:将预测模型输出的各个语句的预测情感标签和预测行为标签作为待测对话文本对话情感分类和对话行为识别的结果;
S4:基于待测对话文本对话情感分类和对话行为识别的结果分析说话者的情感和行为。
本实施例中,分析得到说话者的情感和行为后,可以用于下游任务,比如用于对话系统生成适当的共情的回复,获用于舆情分析、心理咨询、热点观察等。其中,基于待测对话文本对话情感分类和对话行为识别的结果分析说话者的情感和行为,以及将说话者的情感和行为用于下游任务均采用现有手段完成,本发明只是为了更好的获取对话文本各个语句的预测情感标签和预测行为标签。
本发明通过编码得到待测对话文本的语句初始表示,能够提取与对话上下文无关的语句级特征向量,进而通过单独建模说话者的情感线索和行为线索来得到对话情感和对话行为的初始表示序列,使得预测模型能够更好地捕捉说话者的信息,更好的理解同一说话者的情感线索和行为线索如何随着时间变化,即能够按照对话时间顺序建模说话者的信息,从而能够提高对话情感分类和对话行为识别的准确性和有效性,进而能够更好的分析说话者的情感和行为,以应用于共情回复、舆情分析、心理咨询和热点观察等领域。
同时,本发明通过将对话情感和对话行为的初始表示序列作为情感任务和行为任务来进行有向无环图传播以对话的信息传播,使得预测模型能够有效区分相同或不同说话者之间的互动关系,并在每次有向无环图传播后对情感任务和行为任务进行交互,使得情感分类和行为识别两个任务能够互相交互和促进,即能够充分建模整个对话的上下文信息,从而能够提高情感分类和行为识别的有效性。
本发明公开的预测模型是一种说话者感知跨任务协同交互图网络(也称为SA-CCGN)。
其中,对话文本U={u1,u2,…,uN}由N个语句ui组成;每个语句的原始输入是一个单词序列,即ui={wi,1,wi,2,…,wi,n},其中n表示语句的长度;和分别是对话文本U对应的情感标签序列和行为标签序列,其中是语句ui的情感标签和行为标签,γs和γa表示情感标签集和行为标签集;在一个对话中,有2个独立的说话者P={pX,pY},其中X、Y代表不同说话者;表示第i个语句ui的对应说话者,其中φ(ui)∈{X,Y}是一个映射函数,它将ui映射到其对应说话者的索引。
如图2所示,通过如下步骤训练预测模型:
S201:将作为训练样本的对话文本输入至预测模型中;
S202:(通过语句编码器)将对话文本中各个语句的单词进行单词编码,得到各个语句的语句向量序列;然后对各个语句的语句向量序列进行平均池化操作,得到各个语句的语句总体表示;最后基于各个语句的语句总体表示得到对话文本的语句初始表示;
S203:(通过说话者感知交互层)基于对话文本的语句初始表示得到各个说话者的语句表示序列;然后将各个说话者的语句表示序列输入双向门控循环单元,得到各个说话者的感知语句表示;其次基于各个说话者的感知语句表示映射得到对话文本的感知语句表示;最后将对话文本的感知语句表示输入双向门控循环单元,得到对话情感和对话行为的初始表示序列;
S204:(通过跨任务协同交互图网络)将对话情感和对话行为的初始表示序列作为情感任务和行为任务,并分别输入至两个单独的具有若干个有向无环图传播层的无环图网络中传播以模拟对话的信息传播;然后将两个任务在对应有向无环图传播层的输出进行交互;最后分别两个任务在各个有向无环图传播层的输出进行拼接,得到最终的情感表示序列和行为表示序列;
S205:基于最终的情感表示序列和行为表示序列分别计算情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失,然后基于情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失联合训练预测模型;
S206:重复执行步骤S201至S205,直至预测模型收敛。
具体的:
语句编码器模块采用了双向门控循环单元(Bi-LSTM)用于提取与对话上下文无关的语句级特征向量。具体包括:
1)用嵌入函数φemb(·)将对话文本U中语句ui的单词wi,j映射到向量表示;
2)通过Bi-LSTM生成单词wi,j的隐藏状态hi,j,即对单词wi,j进行编码,进而得到单词编码后语句ui的语句向量序列{hi,1,…,hi,n};经过双向编码之后,第j个单词的表示为hi,j,即将通过Bi-LSTM的两个方向的表示拼接起来,最后得到编码后的ui的语句向量序列;
3)对语句ui的语句向量序列{hi,1,…,hi,n}中所有单词表示进行平均池化,得到语句ui的语句总体表示ei;
ei=avg_pool(hi,1,…,hi,n);
式中:avg_pool表示平均池化操作;
4)基于对话文本中各个语句的语句总体表示得到对话文本的语句初始表示E={e1,…,eN}。
为了更好地捕捉说话者信息,使用说话者感知交互层来使其随着对话顺序交互,使得预测模型能够更好理解同一说话者的情绪和行为线索如何随着时间变化。具体包括:
2)将EX和EY分别输入至Bi-LSTM,得到说话者X和Y各个语句的语句表示;
对于说话者X(说话者Y的计算逻辑与说话者X一致):
4)将说话者X和Y的感知语句表示PX和PY按照对话文本U中原语句序列的顺序映射回去,得到对话文本U的说话者感知语句表示P={p1,…,pN};
5)分别将对话文本的U感知语句表示P输入至两个单独的Bi-LSTM,得到对话情感的初始表示序列S={s1,…,sN}和对话行为的初始表示序列A={a1,…,aN};
S=Bi-LSTMs(P);
A=Bi-LSTMa(P)。
本发明通过编码得到待测对话文本的语句初始表示,能够提取与对话上下文无关的语句级特征向量,进而通过单独建模说话者的情感线索和行为线索来得到对话情感和对话行为的初始表示序列,使得预测模型能够更好地捕捉说话者的信息,更好的理解同一说话者的情感线索和行为线索如何随着时间变化,即能够按照对话时间顺序建模说话者的信息,从而能够提高情感分类和行为识别的准确性,进而更好的应用于共情回复、舆情分析、心理咨询和热点观察等领域。
本发明设计了一个跨任务协同交互图网络,将语句作为图的节点,通过构建一个有向无环图来模拟一个对话中信息的传播。并在每一次图传播后,使用协同交互层对两个任务进行交互。具体包括:
1、DAG传播层
首先,应用有向无环图(DAG)来模拟对话中的信息传播。形式上,将DAG表示为DAG中的节点是对话中的语句,即边代表语句之间的信息传播,例如,(i,j,rij∈ε)表示信息从ui传播到uj,边关系类型为其中是边的关系类型集。如果两个相连的语句ui和uj由同一说话者说出,则rij=1;如果两个语句由不同说话者说出,则rij=0。
在对话中,信息按时间顺序在说话者的互动中流动,DAG的构造应该模拟对话中的信息传播。特别地,本发明考虑了三个约束来决定在DAG中何时连接两个语句,即将信息从一个语句传播到另一个语句。
DAG传播层中,构建有向无环图时满足以下三个约束:
约束2(远程信息):对于每个语句ui(第一个除外),其远程信息被定义为语句uτ;其中uτ表示与ui相同的说话者所说的前一个语句,即它假设uτ包含应该传播到ui的远程信息,此远程约束表示uτ是远程信息的截止点。
1)情感任务:
对于对话情感的初始表示序列S={s1,…,sN};
式中:表示可训练参数;||表示拼接操作;表示语句ui的前驱集合;表示语句ui在(l-1)层的隐藏状态;表示语句ui在(l)层的前驱语句uj的隐藏状态;使用对话情感的初始表示序列S={s1,…,sN}中的si来初始化第(0)层每个语句节点的情感表示
式中:GRU表示门控递归单元;
式中:GRU表示门控递归单元;
2)行为任务:
2、协同交互层
为了使得情感分类和行为识别两个任务进行充分交互、互相促进。使用协同交互层在每个DAG传播层传播之后对两个任务的表示进行交互。具体来说,使用门控机制(来自Zhao F,Wu Z,Dai X.Attention Transfer Network for Aspect-level SentimentClassification)来确定两种表示的融合比例。
传播过程中,将两个DAG网络中对应DAG传播层输出的表示进行交互后传播至下一个DAG传播层,因此每次DAG传播层的上一层节点表示,使用的是经过协同交互后的新的节点表示,计算注意力权重以及情感节点特征表示和的公式作如下更新:
本发明通过将对话情感和对话行为的初始表示序列作为情感任务和行为任务来进行有向无环图传播以对话的信息传播,使得预测模型能够有效区分相同或不同说话者之间的互动关系,并在每次有向无环图传播后对情感任务和行为任务进行交互,使得情感分类和行为识别两个任务能够互相交互和促进,即能够充分建模整个对话的上下文信息,从而能够提高情感分类和行为识别的有效性。
传统的交叉熵损失函数仅考虑了分类模型预测标签的准确性,而忽略了样本的标签之间的区分度以及标签之前存在的关联。因此,为了充分挖掘样本标签信息,本发明采用交叉熵损失、监督对比损失和CRF损失这3种损失函数联合训练的方式,对模型的训练过程进行监督。在减小分类误差的同时,约束样本的类间距离和类内距离,并通过标签之间的关联性对整个输出标签序列进行约束。
情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失的计算逻辑一致;
对于感分类:
式中:表示第i个语句ui的真实情感标签,用0或1表示,如果样本i的真实情感类别等于c取1,否则取0;表示样本i的情感属于类别c的预测概率的对数值;C表示标签类别总数;表示根据情感表示序列得到的第i个语句ui预测的标签概率分布;softmax表示归一化指数函数,用于多分类过程,它将多个神经元的输出,映射到(0,1)区间内,并且归一化保证和为1;Wf和bf均为可训练参数,即线性转换的权重和偏置;表示情感表示序列中第i个语句ui的情感表示;表示根据情感表示序列得到的第i个语句ui的预测情感标签,即对话文本N个语句的预测情感标签表示为argmax是对函数求参数集合的函数,即求得函数取得最大值所对应的自变量;
需要说明的是,预测行为标签的计算公式与预测情感标签的计算公式一致。
本发明采用了监督对比学习(SCL)(来自Khosla P,Teterwak P,Wang C,etal.Supervised contrastive learning)以缓解相似标签分类的困难,在充分利用标签信息的情况下,使相同情绪的样本具有内聚性,不同情绪的样本相互排斥。监督对比学习将同批次(batch)中所有具有相同标签的样本视为正样本,不同标签的样本视作负样本。如果批次中某一类别只存在一个样本,它不能直接应用于计算损失,所以本发明对情感表示复制一份副本,其梯度被分离。此时,参数优化保持稳定。对于一批有N个训练样本的批次,每个样本通过上述机制操作,以获得多视图2N个样本。
式中:P(i)=Ij=i-{i}表示与i类别相同的训练样本,但不包括其自身;I={1,2,...,2N}表示一个双视图批次的所有样本索引集合;i∈I={1,2,...,2N}表示在一个双视图批次里的训练样本索引;SIM(p,i)表示样本对p和i的监督对比损失;A(i)=I={i,N+i}表示多视图批次中除其自身以外的训练样本;sim(p,i)表示样本p和样本i两个向量之间的余弦相似度;Xi表示在一个双视图批次中的第i个样本;Xp表示在一个双视图批次中的第p个样本;Xa表示在一个双视图批次中的第a个样本;表示用于控制训练样本之间距离的温度系数;表示一个双视图批次的所有样本的表示集合;为复制的情感表示的副本的集合;
式中:表示给定对话文本U,标签序列为Ys的条件概率;表示标签序列Ys的分数;表示一个有效的标签序列y′在情感表示的情况下的分数;表示标签到的转移分数;表示标签在情感表示序列下的发射分数;γs表示所有有效的情感标签序列γs。
通过如下公式联合情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失得到最终的训练损失,用以训练和优化预测模型的参数;
式中:表示最终的训练损失;分别表示情感分类的交叉熵损失、监督对比损失和CRF损失;分别表示行为识别的交叉熵损失、监督对比损失和CRF损失;α、β、γ、δ均表示超参数,用于控制对应监督对比损失和CRF损失的权重。
现有技术主要关注建模标签之间的关联性,而忽略了考虑标签之间的区分度,对于语义相似但不同的情感类别,如“愤怒”和“厌恶”等,模型很难对其进行区分。
因此,本发明基于情感表示序列和行为表示序列分别计算情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失并联合训练预测模型,通过交叉熵损失函数保证了预测模型预测标签的准确性,通过监督对比损失函数使得学习到的不同标签的表示更具有区分度,通过CRF损失函数约束相邻标签序列的产生,即能够在减小分类误差的同时,约束样本的类间距离和类内距离并通过标签之间的关联性对整个输出标签序列进行约束,进而能够利用标签之间的区分度和关联性来使预测模型学习到更为细粒度的表示,从而能够提高预测模型的训练效果和预测性能。
为了更好的说明本发明技术方案的优势,本实施例中公开了如下实验。
1、实验设置
本实验使用验证集来调整超参数,并在训练期间使用AdamW优化器。可调超参数包括学习率、批量大小、随机失活率,DAG传播层的数量和损失权重。对于其他超参数,语句的隐藏表示设置为300维。所有呈现的结果均为5次运行的平均值,实验是在Intel核心CPUI7-9700K 3.6GHz和NVIDIA GeForce GTX 2080TI的硬件上进行的。
2、数据集
本实验在两个公开数据集上进行实验:Mastodon(来自Cerisara C,Jafaritazehjani S,Oluokun A,et al.Multi-task dialog act and sentimentrecognition on Mastodon)和DailyDialog(来自Li Y,Su H,Shen X,et al.DailyDialog:A Manually Labelled Multi-turn Dialogue Dataset)。Mastodon是一个对源自于Mastodon社交网络的英语对话进行注释的数据集。对话中的每个语句被分配了两个标签。一个是情感标签,分为积极、消极和中性3个类别,另一个是行为标签,共有15类,如声明、同意、请求等。DailyDialog是从英语学习者的日常交流中收集的双向对话数据集。它包含7种情绪:中性、愤怒、厌恶等。在DailyDilaog中,那些表现出模棱两可情绪的语句被标注为中性。对于行为标签,分为通知、疑问、建议、接受/拒绝4个类别。
本实验仅利用上述数据集的文本形式进行实验,并且采用原始数据集的训练集/验证集/测试集的划分比例。对于评估指标,遵循Cerisara等人(来自Ghosal D,MajumderN,Mihalcea R,et al.Exploring the Role of Context in Utterance-level Emotion,Act and Intent Classification in Conversations:An Empirical Study)和Qin等人(来自Qin L,Che W,Li Y,et al.Dcr-net:A deep co-interactive relation networkfor joint dialog act recognition and sentiment classification和Qin L,Li Z,CheW,et al.Co-GAT:A Co-Interactive Graph Attention Network for Joint Dialog ActRecognition and Sentiment Classification),对Dailydialog数据集的情感分类和对话行为识别采用宏平均(Macro-average)准确率(Precision,P)和召回率(Recall,R)和F1值,在Mastodon数据集上,忽略了DSC任务中的中性标签,而在DAR任务中,采用了行为特定均值F1分数,由每个对话行为的流行度加权。
3、基线
本实验将提出的模型与一些最先进的基线进行比较,并将所有对比的基线分为三类,包括:1)单独的对话情感分类方法:DialogueRNN(来自Majumder N,Poria S,HazarikaD,et al.Dialoguernn:An attentive rnn for emotion detection in conversations)DialogueGCN(来自Ghosal D,Majumder N,Poria S,et al.DialogueGCN:A GraphConvolutional Neural Network for Emotion Recognition in Conversation);2)单独的对话行为识别方法:HEC(来自Kumar H,Agarwal A,Dasgupta R,et al.Dialogue actsequence labeling using hierarchical encoder with crf[),CRF-ASN(来自Chen Z,Yang R,Zhao Z,et al.Dialogue act recognition via crf-attentive structurednetwork),CASA(来自Raheja V,Tetreault J.Dialogue Act Classification withContext-Aware Self-Attention);(3)对话情感分类和对话行为识别联合模型:JointDAS(来自Cerisara C,Jafaritazehjani S,Oluokun A,et al.Multi-task dialog act andsentiment recognition on Mastodon),IIIM(来自Kim M,Kim H.Integrated neuralnetwork model for identifying speech acts,predicators,and sentiments ofdialogue utterances),DCR-Net(来自Qin L,Che W,Li Y,et al.Dcr-net:A deep co-interactive relation network for joint dialog act recognition and sentimentclassification),Co-GAT(来自Qin L,Li Z,Che W,et al.Co-GAT:A Co-InteractiveGraph Attention Network for Joint Dialog Act Recognition and SentimentClassification)。
4、结果对比和分析
4.1、总体性能实验
本实验在两个公开数据集上进行了实验,被比较的基线的总体性能都如表1所示。表现最优的和次优的结果分别用粗体和下划线表示。
如表1所示,本发明提出的预测模型SA-CCGN与所有基线方法相比,在两个数据集上都表现出更好的性能。与最优的基线Co-GAT相比,SA-CCGN在Mastodon和DailyDialog上DSC任务F1值分别提高了4.57%和3.33%,DAR任务F1值分别提高了2.15%和0.63%。另外,可以发现多任务模型表现有时略差于单任务模型,这可能是因为任务间不恰当或不充分的交互反而会降低模型的性能。
表1在两个数据集上的总体表现(%)
4.2、消融实验
为了验证模型SA-CCGN的每个组成部分的有效性,从SA-CCGN中移除每个部分进行比较,所有的变体都列举如下:(2)w/o说话者感知交互层:去掉了说话者感知交互层,此时模型不再单独捕捉说话者随时间变化的信息。(3)w/o协同交互层:去掉了协同交互层,两个任务进行单独的图传播,不再进行交互。(4)w/o监督对比损失:最后的损失计算只使用两个任务的交叉熵损失及CRF损失。(5)w/o CRF损失:最后的损失计算只使用两个任务的交叉熵损失及监督对比损失。(6)w/o监督对比损失&CRF损失:最后的损失计算只使用两个任务的交叉熵损失。
表2为报告的消融实验的结果,最好的结果使用粗体表示,根据实验结果得到的结论为:(1)与完整的SA-CCGN相比,移除任一组件的SA-CCGN变体的性能都明显下降,这表明每个组件都起到了积极的作用。(2)在所有的数据集上,去除协同交互层将导致相当大的性能下降,例如在Mastodon上两个任务的性能下降分别为0.97%、1.96%、1.25%、4.08%。这证明了本发明的模型对于两个任务的交互是合理且充分的。(3)分别去除监督对比损失和CRF损失,模型表现的下降比例各有不同,可能是因为不同数据集不同任务存在差异性。同时去除监督对比损失和CRF损失,将导致性能更差。
表2消融实验
4.3、参数敏感性实验
DAG传播层的数量L控制了节点信息传播的范围。在这个实验中,把L的层数从0到6依次改变,研究DAG传播层数参数L的敏感性,结果显示在图3中。可以观察到,当增加层数时,性能持续上升,进一步增加L时,性能相对下降。主要原因是当L较小时,DAG的结构信息没有被很好地挖掘,例如,当L=1时,模型聚合来自一跳邻居的信息。然而,过大的L可能会导致模型从图中的所有节点收集信息,使得图节点过于平滑。此外,最佳层数随不同的数据集和不同任务而变化。在DailyDialog上,更多的层数是首选,即L=3或者L=4。而在Mastodon上,相对较少的层数会带来更好的性能,如L=1。原因可能是DailyDialog的平均语句数量比Mastodon更多,L的层数过多会损害模型性能。
4.4、学习曲线实验
本实验进一步Mastodon数据集上进行实验,以研究所提出的模型的收敛速度。图4显示了SA-CCGN模型的学习曲线,报告了在每个迭代次数(epoch)时两个任务的测试集的F1得分和训练集的总loss值。从图4可以看到,SA-CCGN模型收敛得较快,在Mastodon数据集,DAR和DSC任务分别能够在大约10和50个epoch时模型得到收敛。总的来说,SA-CCGN模型的学习曲线较为平滑与稳定,模型具有很好的收敛性和鲁棒性。
4.5、低资源环境下的模型性能
本实验将研究低资源环境下的模型性能。实验选取在DailyDialog数据集,通过从原始训练集中随机选择20%-100%依次递增的样本数量来训练模型,并在原始测试集中进行测试。图5显示了本发明提出的模型SA-CCGN和最具竞争力的基线Co-GAT在不同比例的训练数据上的性能。可以观察到,SA-CCGN始终优于Co-GAT。训练数据的比例小时,相对于Co-GAT有显著提升,例如,在训练数据比例为20%、40%时DSC任务的性能改进分别为21%、25%。实验结果验证了本发明模型在低资源环境仍具有良好的性能。
4.6、计算效率对比实验
在实际应用中,除了性能外,参数数量、时间成本和所需的GPU内存也是重要因素。以Mastodon为试验基准,将本发明提出的模型SA-CCGN与最新的SOTA(Co-GAT)在这些因素上进行了比较,结果如表3所示。值得注意的是,尽管本发明模型在两个任务达到性能上都超过了SOTA,但它将参数数量和所需的GPU内存减少了约1/2,因为Co-GAT的两个任务之间是通过一个全连通的无向图进行传播,而SA-CCGN则在两个任务分别进行传播后再可适应地协同交互,训练成本较低。因此,在实际应用中本发明提出模型是更有效的。
表3 SA-CCGN和Co-GAT的计算效率对比
5、总结
综上,本发明能够充分利用对话中包含的说话者信息、时间信息和标签信息等显式信息和隐式信息,从而能够进一步提高情感分类和行为识别的准确性和有效性。
并且,通过实验证明了本发明所提出模型的有效性,并且超越了现有的基线,达到了最先进的性能。
最后需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制技术方案,本领域的普通技术人员应当理解,那些对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.联合多任务学习的对话情感分类和对话行为识别方法,其特征在于,包括以下步骤:
S1:获取包含各个说话者语句的待测对话文本;
S2:将待测对话文本输入经过训练的预测模型中,输出待测对话文本各个语句的预测情感标签和预测行为标签;
预测模型首先编码得到待测对话文本的语句初始表示;然后基于语句初始表示捕捉说话者随时间变化的情感线索和行为线索,得到对话情感和对话行为的初始表示序列;其次分别将对话情感和对话行为的初始表示序列作为情感任务和行为任务来进行有向无环图传播以模拟对话的信息传播,并在每次有向无环图传播后对情感任务和行为任务进行交互,最终得到情感表示序列和行为表示序列;最后通过情感表示序列和行为表示序列预测待测对话文本各个语句的预测情感标签和预测行为标签;
S3:将预测模型输出的各个语句的预测情感标签和预测行为标签作为待测对话文本对话情感分类和对话行为识别的结果;
S4:基于待测对话文本对话情感分类和对话行为识别的结果分析说话者的情感和行为。
2.如权利要求1所述的联合多任务学习的对话情感分类和对话行为识别方法,其特征在于:步骤S2中,通过如下步骤训练预测模型:
S201:将作为训练样本的对话文本输入至预测模型中;
S202:将对话文本中各个语句的单词进行单词编码,得到各个语句的语句表示序列;然后对各个语句的语句向量序列进行平均池化操作,得到各个语句的语句总体表示;最后基于各个语句的语句总体表示得到对话文本的语句初始表示;
S203:基于对话文本的语句初始表示得到各个说话者的语句表示序列;然后将各个说话者的语句表示序列输入对应的双向门控循环单元,得到各个说话者感知的语句表示;其次基于各个说话者感知的语句表示映射得到对话文本的感知语句表示;最后将对话文本的感知语句表示输入两个单独的双向门控循环单元,得到对话情感和对话行为的初始表示序列;
S204:将对话情感和对话行为的初始表示序列作为情感任务和行为任务,并分别输入至两个单独的具有若干个有向无环图传播层的无环图网络中传播以模拟对话的信息传播;然后将两个任务在对应有向无环图传播层的输出进行交互;最后分别将两个任务在各个有向无环图传播层的输出进行拼接,得到最终的情感表示序列和行为表示序列;
S205:基于最终的情感表示序列和行为表示序列分别计算情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失,然后基于情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失联合训练预测模型;
S206:重复执行步骤S201至S205,直至预测模型收敛。
3.如权利要求2所述的联合多任务学习的对话情感分类和对话行为识别方法,其特征在于:步骤S201中,对话文本U={u1,u2,…,uN}由N个语句ui组成;每个语句的原始输入是一个单词序列,即ui={wi,1,wi,2,…,wi,n},其中n表示语句的长度。
4.如权利要求2所述的联合多任务学习的对话情感分类和对话行为识别方法,其特征在于:步骤S202中,具体包括:
1)将对话文本U中各个语句ui的各个单词wi,j映射到向量表示;
2)通过双向门控循环单元生成各个单词wi,j的隐藏状态hi,j,即对单词wi,j进行编码,进而得到单词编码后语句ui的语句向量序列{hi,1,…,hi,n};
3)对语句ui的语句向量序列{hi,1,…,hi,n}中所有单词表示进行平均池化,得到语句ui的语句总体表示ei;
ei=avg_pool(hi,1,…,hi,n);
式中:avg_pool表示平均池化操作;
4)基于对话文本中各个语句的语句总体表示得到对话文本的语句初始表示E={e1,…,eN}。
5.如权利要求4所述的联合多任务学习的对话情感分类和对话行为识别方法,其特征在于:步骤S203中,具体包括:
2)将EX和EY分别输入至双向门控循环单元,得到说话者X和Y各个语句的语句表示;
对于说话者X:
4)将说话者X和Y的感知语句表示PX和PY按照对话文本U中原语句序列的顺序映射回去,得到对话文本U的感知语句表示P={p1,…,pN};
5)分别将对话文本U的说话者感知语句表示P输入至两个单独的双向门控循环单元,得到对话情感的初始表示序列S={s1,…,sN}和对话行为的初始表示序列A={a1,…,aN};
S=Bi-LSTMs(P);
A=Bi-LSTMa(P)。
6.如权利要求5所述的联合多任务学习的对话情感分类和对话行为识别方法,其特征在于:步骤S204中,具体包括:
1)情感任务:
对于对话情感的初始表示序列S={s1,…,sN};
式中:Wα (l)表示可训练参数;||表示拼接操作;表示语句ui的前驱集合;表示语句ui在(l-1)层的隐藏状态;表示语句ui在(l)层的前驱语句uj的隐藏状态;使用对话情感的初始表示序列S={s1,…,sN}中的si来初始化第(0)层每个语句节点的情感表示
式中:GRU表示门控递归单元;
式中:GRU表示门控递归单元;
2)行为任务:
9.如权利要求6所述的联合多任务学习的对话情感分类和对话行为识别方法,其特征在于:步骤S205中,情感分类和行为识别的交叉熵损失、监督对比损失和CRF损失的计算逻辑一致;
对于情感分类:
式中:表示第i个语句ui的真实情感标签,用0或1表示,如果样本i的真实情感类别等于c取1,否则取0;表示样本i的情感属于类别c的预测概率的对数值;C表示标签类别总数;表示根据情感表示序列得到的第i个语句ui预测的标签概率分布;softmax表示归一化指数函数,用于多分类过程,它将多个神经元的输出,映射到(0,1)区间内,并且归一化保证和为1;Wf和bf均为可训练参数,即线性转换的权重和偏置;表示情感表示序列中第i个语句ui的情感表示;表示根据情感表示序列得到的第i个语句ui的预测情感标签,即对话文本N个语句的预测情感标签表示为argmax是对函数求参数集合的函数,即求得函数取得最大值所对应的自变量;
式中:P(i)=Ij=i-{i}表示与i类别相同的训练样本,但不包括其自身;I={1,2,...,2N}表示一个双视图批次的所有样本索引集合;i∈I={1,2,...,2N}表示在一个双视图批次里的训练样本索引;SIM(p,i)表示样本对p和i的监督对比损失;A(i)=I-{i,N+i}表示多视图批次中除其自身以外的训练样本;sim(p,i)表示样本p和样本i两个向量之间的余弦相似度;Xi表示在一个双视图批次中的第i个样本;Xp表示在一个双视图批次中的第p个样本;Xa表示在一个双视图批次中的第a个样本;表示用于控制训练样本之间距离的温度系数;表示一个双视图批次的所有样本的表示集合;为复制的情感表示的副本的集合;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210850676.4A CN115221301B (zh) | 2022-07-19 | 2022-07-19 | 联合多任务学习的对话情感分类和对话行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210850676.4A CN115221301B (zh) | 2022-07-19 | 2022-07-19 | 联合多任务学习的对话情感分类和对话行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115221301A true CN115221301A (zh) | 2022-10-21 |
CN115221301B CN115221301B (zh) | 2024-01-23 |
Family
ID=83611618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210850676.4A Active CN115221301B (zh) | 2022-07-19 | 2022-07-19 | 联合多任务学习的对话情感分类和对话行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115221301B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018073343A (ja) * | 2016-11-04 | 2018-05-10 | トヨタ自動車株式会社 | 感情推定方法 |
CN112069302A (zh) * | 2020-09-15 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 会话意图识别模型的训练方法、会话意图识别方法及装置 |
CN113158051A (zh) * | 2021-04-23 | 2021-07-23 | 山东大学 | 一种基于信息传播和多层上下文信息建模的标签排序方法 |
CN113254576A (zh) * | 2021-04-26 | 2021-08-13 | 中国科学院信息工程研究所 | 一种人类行为与情感的预测、溯源方法及装置 |
CN113934846A (zh) * | 2021-10-18 | 2022-01-14 | 华中师范大学 | 一种联合行为-情感-时序的在线论坛主题建模方法 |
CN114722838A (zh) * | 2022-04-11 | 2022-07-08 | 天津大学 | 基于常识感知和层次化多任务学习的对话情感识别方法 |
-
2022
- 2022-07-19 CN CN202210850676.4A patent/CN115221301B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018073343A (ja) * | 2016-11-04 | 2018-05-10 | トヨタ自動車株式会社 | 感情推定方法 |
CN112069302A (zh) * | 2020-09-15 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 会话意图识别模型的训练方法、会话意图识别方法及装置 |
CN113158051A (zh) * | 2021-04-23 | 2021-07-23 | 山东大学 | 一种基于信息传播和多层上下文信息建模的标签排序方法 |
CN113254576A (zh) * | 2021-04-26 | 2021-08-13 | 中国科学院信息工程研究所 | 一种人类行为与情感的预测、溯源方法及装置 |
CN113934846A (zh) * | 2021-10-18 | 2022-01-14 | 华中师范大学 | 一种联合行为-情感-时序的在线论坛主题建模方法 |
CN114722838A (zh) * | 2022-04-11 | 2022-07-08 | 天津大学 | 基于常识感知和层次化多任务学习的对话情感识别方法 |
Non-Patent Citations (1)
Title |
---|
蔡国永;夏彬彬;: "基于卷积神经网络的图文融合媒体情感预测", 计算机应用, no. 02 * |
Also Published As
Publication number | Publication date |
---|---|
CN115221301B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gan et al. | Sparse attention based separable dilated convolutional neural network for targeted sentiment analysis | |
CN109992779B (zh) | 一种基于cnn的情感分析方法、装置、设备及存储介质 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN112329474B (zh) | 融合注意力的方面级用户评论文本情感分析方法及系统 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN109446331A (zh) | 一种文本情绪分类模型建立方法及文本情绪分类方法 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN112687374B (zh) | 一种基于文本和图像信息联合计算的心理危机预警方法 | |
Zhao et al. | Deep multi-task learning with relational attention for business success prediction | |
CN113449204B (zh) | 基于局部聚合图注意力网络的社会事件分类方法、装置 | |
Wu et al. | Optimized deep learning framework for water distribution data-driven modeling | |
CN111090735A (zh) | 一种基于知识图谱的智能问答方法及其性能评价方法 | |
CN113919440A (zh) | 一种融合双重注意力机制和图卷积社交网络谣言检测系统 | |
CN110889505A (zh) | 一种图文序列匹配的跨媒体综合推理方法和系统 | |
Chen et al. | A review and roadmap of deep learning causal discovery in different variable paradigms | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
Zhao et al. | Safe semi-supervised classification algorithm combined with active learning sampling strategy | |
CN116775860A (zh) | 基于对抗性框架的无监督意见摘要生成方法及系统 | |
Hantke et al. | Trustability-based dynamic active learning for crowdsourced labelling of emotional audio data | |
Uvaliyeva et al. | The Development of the Staking-Ensemble of Methods for Analyzing Academic Data | |
CN114357160B (zh) | 基于生成传播结构特征的早期谣言检测方法及装置 | |
CN113190733B (zh) | 基于多平台的网络事件流行度预测方法与系统 | |
CN115221301B (zh) | 联合多任务学习的对话情感分类和对话行为识别方法 | |
Alghalibi et al. | Deep Tweets Analyzer Model for Twitter Mood Visualization and Prediction Based Deep Learning Approach | |
Dai et al. | Sentiment Analysis of Comment Texts Based on CNN-BiGRU-Attention |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |