CN116258134A - 一种基于卷积联合模型的对话情感识别方法 - Google Patents

一种基于卷积联合模型的对话情感识别方法 Download PDF

Info

Publication number
CN116258134A
CN116258134A CN202310443460.0A CN202310443460A CN116258134A CN 116258134 A CN116258134 A CN 116258134A CN 202310443460 A CN202310443460 A CN 202310443460A CN 116258134 A CN116258134 A CN 116258134A
Authority
CN
China
Prior art keywords
topic
representing
input
vector
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310443460.0A
Other languages
English (en)
Other versions
CN116258134B (zh
Inventor
宋彦
胡博
田元贺
徐浩培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310443460.0A priority Critical patent/CN116258134B/zh
Publication of CN116258134A publication Critical patent/CN116258134A/zh
Application granted granted Critical
Publication of CN116258134B publication Critical patent/CN116258134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于卷积联合模型的对话情感识别方法,所述卷积联合模型包括神经主题模型和注意力关系图网络模型,所述对话情感识别方法包括如下步骤:将对话中语句输入到已训练完成的卷积联合模型中,以输出对话中语句对应的情感类别;该对话情感识别方法充分利用了语句的隐含主题信息强化对话语句间的信息交互以及其特征表示,促进解码器预测出情感类别。

Description

一种基于卷积联合模型的对话情感识别方法
技术领域
本发明涉及对话情感识别技术领域,尤其涉及一种基于卷积联合模型的对话情感识别方法。
背景技术
对话的情感识别指的是识别对话中所有语句的情感类别,现有的方法往往倾向于直接对输入语句之间进行关系建模或者仅引入词语级别的外部知识增强语句表征后再进行处理,但是对话的特点是主题跳转,结构松散,信息冗余等,所以现有的对话情感识别方法无法适应对话中各语句主题间复杂的交互关系,因而无法充分融合主题相似语句的上下文信息进行深度推理以实现准确的情感识别。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于卷积联合模型的对话情感识别方法,充分利用了语句的隐含主题信息强化对话语句间的信息交互以及其特征表示,促进解码器预测出情感类别。
本发明提出的一种基于卷积联合模型的对话情感识别方法,所述卷积联合模型包括神经主题模型和注意力关系图网络模型,所述对话情感识别方法包括如下步骤:将对话中语句输入到已训练完成的卷积联合模型中,以输出对话中语句对应的情感类别;
所述卷积联合模型的训练过程如下:
S1:构建输入对话
Figure SMS_1
,将所述输入对话/>
Figure SMS_2
编码以得到输入对话/>
Figure SMS_3
中所有语句/>
Figure SMS_4
的编码向量/>
Figure SMS_5
,/>
Figure SMS_6
n为对话中语句的总数;
S2:利用所述给定数据集的先验参数
Figure SMS_7
和/>
Figure SMS_8
提取潜在主题分布/>
Figure SMS_9
,以无监督方式训练变分自编码器的神经主题模型,得到主题特征矩阵/>
Figure SMS_10
,其中/>
Figure SMS_11
和/>
Figure SMS_12
分别表示词汇表大小和主题的个数;
S3:利用主题特征矩阵
Figure SMS_13
将输入对话/>
Figure SMS_14
中语句/>
Figure SMS_15
的所有词映射为词编码,通过平均池化,得到所述语句/>
Figure SMS_16
的编码/>
Figure SMS_17
,基于所述编码/>
Figure SMS_18
计算每个主题的自注意力系数/>
Figure SMS_19
S4:利用多层感知器计算主题特征矩阵
Figure SMS_20
中每个主题的表征,得到主题记忆力表征/>
Figure SMS_21
,利用自注意力系数/>
Figure SMS_22
对所述主题记忆力表征/>
Figure SMS_23
进行聚合得到语句/>
Figure SMS_24
的主题表征向量/>
Figure SMS_25
S5:将输入对话
Figure SMS_27
中/>
Figure SMS_30
个语句和对应的/>
Figure SMS_32
个主题特征作为注意力关系图网络模型的节点,同时将语句的编码向量/>
Figure SMS_28
和主题表征向量/>
Figure SMS_31
作为注意力关系图网络模型中的/>
Figure SMS_34
个初始节点表征,记作/>
Figure SMS_36
,其中当/>
Figure SMS_26
时,/>
Figure SMS_29
,当
Figure SMS_33
时,/>
Figure SMS_35
;/>
S6:根据注意力关系图网络模型中的不同节点的相互连接以及作用关系,得到节点间的邻接矩阵
Figure SMS_39
和关系矩阵/>
Figure SMS_41
,并使用注意力关系图网络模型对邻接矩阵/>
Figure SMS_45
和关系矩阵/>
Figure SMS_38
进行建模,其中/>
Figure SMS_40
为任意两个节点/>
Figure SMS_44
之间的边,如果两个节点/>
Figure SMS_46
相连则/>
Figure SMS_37
为1,否则/>
Figure SMS_42
为0,/>
Figure SMS_43
表示边/>
Figure SMS_47
所标记的值;
S7:的邻接矩阵
Figure SMS_50
和关系矩阵/>
Figure SMS_52
,将所述注意力关系图网络模型中最后一层输出的节点表征/>
Figure SMS_53
和语句/>
Figure SMS_49
在步骤S1中对应的编码向量/>
Figure SMS_51
进行粘连,得到语句/>
Figure SMS_55
的增强隐向量/>
Figure SMS_56
,将所述增强隐向量/>
Figure SMS_48
通过解码器输出预测向量/>
Figure SMS_54
,选择所述预测向量/>
Figure SMS_57
中得分最高的情感类别作为语句/>
Figure SMS_58
的预测情感类别;
其中利用所述给定数据集的先验参数
Figure SMS_59
和/>
Figure SMS_60
提取潜在主题分布/>
Figure SMS_61
,得到主题特征矩阵/>
Figure SMS_62
中,参与的公式具体如下:
Figure SMS_63
Figure SMS_64
Figure SMS_65
Figure SMS_66
Figure SMS_67
Figure SMS_68
其中,
Figure SMS_86
表示给定数据集中输入语句/>
Figure SMS_89
中第/>
Figure SMS_92
个词/>
Figure SMS_70
对应词汇表中各单词的预测概率,/>
Figure SMS_75
表示给定数据集中输入语句/>
Figure SMS_78
中第/>
Figure SMS_81
个词/>
Figure SMS_77
的主题分布,/>
Figure SMS_82
表示可训练的主题特征矩阵,/>
Figure SMS_85
表示可训练的向量,/>
Figure SMS_88
和/>
Figure SMS_87
表示给定数据集的先验参数,/>
Figure SMS_90
是一个随机变量,/>
Figure SMS_91
表示多层感知器,/>
Figure SMS_93
表示给定数据集中输入语句/>
Figure SMS_72
对应的独热编码,/>
Figure SMS_76
表示独热编码/>
Figure SMS_79
的隐含表示,/>
Figure SMS_83
为第/>
Figure SMS_69
个词/>
Figure SMS_73
的隐含表示,词/>
Figure SMS_80
为给定数据集中输入语句/>
Figure SMS_84
中的词,/>
Figure SMS_71
表示对给定数据集中输入语句/>
Figure SMS_74
中所有词的进行独热编码。
进一步地,在步骤S1:构建输入对话
Figure SMS_94
,将所述输入对话/>
Figure SMS_95
编码以得到输入对话/>
Figure SMS_96
中所有语句/>
Figure SMS_97
的编码向量/>
Figure SMS_98
中,具体包括:
将输入对话
Figure SMS_99
输入到Roberta编码器中进行编码,得到输入对话C中所有语句的初始编码向量/>
Figure SMS_100
将所有语句对应的初始编码向量
Figure SMS_101
输入到/>
Figure SMS_102
网络,得到所有语句/>
Figure SMS_103
的编码向量/>
Figure SMS_104
进一步地,在步骤S2:利用所述给定数据集的先验参数
Figure SMS_105
和/>
Figure SMS_106
提取潜在主题分布/>
Figure SMS_107
,以无监督方式训练变分自编码器的神经主题模型,得到主题特征矩阵/>
Figure SMS_108
中,具体包括:/>
另外给定数据集,将给定数据集输入到变分自编码器的神经主题模型中,神经主题模型对给定数据集做如下处理:
将给定数据集中的输入语句
Figure SMS_109
进行处理得到独热编码/>
Figure SMS_110
,将独热编码/>
Figure SMS_111
传递到多层感知器得到所述输入语句X的隐含表示/>
Figure SMS_112
基于隐含表示
Figure SMS_114
对潜在主题分布Z的先验参数/>
Figure SMS_117
和/>
Figure SMS_120
进行估计,从先验参数/>
Figure SMS_113
和/>
Figure SMS_116
表示的主题分布Z中随机抽取/>
Figure SMS_119
作为所述输入语句/>
Figure SMS_122
的潜在主题表示,其中隐含表示/>
Figure SMS_115
为第
Figure SMS_118
个词/>
Figure SMS_121
的隐含表示,词/>
Figure SMS_123
为输入语句X中的词;
基于可训练的主题特征矩阵
Figure SMS_124
和可训练的向量/>
Figure SMS_125
,对潜在主题表示/>
Figure SMS_126
进行线性变换和/>
Figure SMS_127
函数运算后,得到词的预测概率/>
Figure SMS_128
以无监督的方式训练所述神经主题模型,然后得到主题特征矩阵
Figure SMS_129
Figure SMS_130
的每一行是词汇表中第/>
Figure SMS_131
个词嵌入/>
Figure SMS_132
,每一列是词汇表中第/>
Figure SMS_133
个主题嵌入/>
Figure SMS_134
进一步地,在步骤S3:利用主题特征矩阵
Figure SMS_135
将输入对话/>
Figure SMS_136
中语句/>
Figure SMS_137
的所有词映射为词编码,通过平均池化,得到所述语句/>
Figure SMS_138
的编码/>
Figure SMS_139
,基于所述编码/>
Figure SMS_140
计算每个主题的自注意力系数/>
Figure SMS_141
中,具体包括:
利用主题特征矩阵
Figure SMS_142
将输入对话/>
Figure SMS_143
中语句/>
Figure SMS_144
的所有词映射为词编码/>
Figure SMS_145
Figure SMS_146
,/>
Figure SMS_147
为语句/>
Figure SMS_148
中词的总数;
对词编码
Figure SMS_151
进行平均池化,获得语句/>
Figure SMS_152
的编码/>
Figure SMS_155
,语句/>
Figure SMS_149
的第/>
Figure SMS_154
个主题为编码/>
Figure SMS_157
在第/>
Figure SMS_158
个维度的数值/>
Figure SMS_150
,基于多层感知器对数值/>
Figure SMS_153
的维度进行拓展得到拓展向量/>
Figure SMS_156
基于拓展向量
Figure SMS_159
和编码向量/>
Figure SMS_160
,计算得到每个主题的自注意力系数/>
Figure SMS_161
进一步地,所述编码
Figure SMS_162
的公式如下:
Figure SMS_163
Figure SMS_164
Figure SMS_165
其中,
Figure SMS_166
表示平均池化,/>
Figure SMS_169
表示第/>
Figure SMS_173
个语句与第/>
Figure SMS_168
个主题相关的概率,/>
Figure SMS_170
表示对数值/>
Figure SMS_172
的维度进行拓展后得到的拓展向量,/>
Figure SMS_174
表示/>
Figure SMS_167
函数,/>
Figure SMS_171
表示多层感知器,用于将单个概率数值映射为高维度的向量。
进一步地,所述主题记忆力表征
Figure SMS_175
的计算公式如下:
Figure SMS_176
Figure SMS_177
其中,
Figure SMS_178
为主题特征矩阵/>
Figure SMS_179
中的第/>
Figure SMS_180
个主题嵌入,/>
Figure SMS_181
表示多层感知器,用于将每个主题嵌入映射为向量/>
Figure SMS_182
的维度,/>
Figure SMS_183
表示主题的个数。
进一步地,在步骤S6中,具体包括:
根据注意力关系图网络模型中的不同节点的相互连接以及作用关系,得到节点间的邻接矩阵
Figure SMS_184
和关系矩阵/>
Figure SMS_185
基于邻接矩阵
Figure SMS_188
和关系矩阵/>
Figure SMS_191
,利用注意力关系图网络模型/>
Figure SMS_192
对/>
Figure SMS_186
个初始节点进行建模,其中/>
Figure SMS_189
中的每一节点对/>
Figure SMS_194
都可映射到邻接矩阵/>
Figure SMS_196
中的一个元素/>
Figure SMS_187
,而元素/>
Figure SMS_190
可映射到关系矩阵/>
Figure SMS_193
中的一个元素/>
Figure SMS_195
所述关系矩阵
Figure SMS_197
中元素的值有三种类型:话语-话语、主题-主题、主题-话语,所述三种类型作为注意力关系图网络模型的边类型,每个所述边类型包括不同种类的值;
对于边类型为话语-话语,根据节点对
Figure SMS_198
对应的语句对/>
Figure SMS_199
在对话/>
Figure SMS_200
中是否相邻、在对话/>
Figure SMS_201
中的先后顺序、是否来自同一说话者,得到八种类型的值:相邻-将来-自身,相邻-将来-其他人,相邻-过去-自身,相邻-过去-其他人,远离-将来-自身,远离-将来-其他人,远离-过去-自身,远离-过去-其他人;
对于边类型为主题-主题,根据节点对
Figure SMS_202
对应的语句对/>
Figure SMS_203
在对话/>
Figure SMS_204
中是否相邻,得到四种类型的值:相邻-将来,相邻-过去,远离-将来,远离-过去;
对于边类型为主题-话语,引入单独类型的值:影响。
进一步地,在步骤S7中,对于每个节点表征
Figure SMS_205
,将与节点/>
Figure SMS_206
有连接的其他节点
Figure SMS_207
的信息聚合到节点/>
Figure SMS_208
中,输出更新后的节点表征/>
Figure SMS_209
Figure SMS_210
Figure SMS_211
其中,
Figure SMS_229
表示节点/>
Figure SMS_233
在第/>
Figure SMS_237
层注意力关系图网络模型中对应的节点表征,/>
Figure SMS_214
为节点/>
Figure SMS_218
在第/>
Figure SMS_221
层注意力关系图网络模型中对应的节点表征,/>
Figure SMS_224
是与节点/>
Figure SMS_212
有连接的其他节点的集合,/>
Figure SMS_217
是关系矩阵/>
Figure SMS_220
中起始节点为/>
Figure SMS_226
的可能值的集合,/>
Figure SMS_228
是注意力关系图网络模型第/>
Figure SMS_231
层中用于自连接的矩阵,/>
Figure SMS_235
是第/>
Figure SMS_239
层注意力关系图网络模型中,当前节点/>
Figure SMS_232
在关系/>
Figure SMS_236
条件下用于提取其他节点/>
Figure SMS_241
信息的矩阵,/>
Figure SMS_246
为节点/>
Figure SMS_215
在第/>
Figure SMS_216
层注意力关系图网络模型中对应的节点表征,/>
Figure SMS_222
为节点/>
Figure SMS_225
在第/>
Figure SMS_242
层注意力关系图网络模型中对应的节点表征,/>
Figure SMS_245
表示第/>
Figure SMS_248
层注意力关系图网络模型中节点/>
Figure SMS_252
对/>
Figure SMS_243
聚合信息系数,/>
Figure SMS_247
表示节点/>
Figure SMS_250
与/>
Figure SMS_253
之间是否有连接,如果有连接则/>
Figure SMS_227
为0,否则/>
Figure SMS_230
为1,/>
Figure SMS_234
表示节点/>
Figure SMS_238
与/>
Figure SMS_240
之间是否有连接,如果有连接则/>
Figure SMS_244
为0,否则/>
Figure SMS_249
为1,/>
Figure SMS_251
表示注意力关系图网络模型中所有节点的集合;/>
Figure SMS_213
表示/>
Figure SMS_219
中第/>
Figure SMS_223
个节点。
进一步地,所述增强隐向量
Figure SMS_254
计算公式如下:
Figure SMS_255
预测向量
Figure SMS_256
的计算公式如下:
Figure SMS_257
其中,
Figure SMS_258
的每个维度的值表示对应维度代表的情感类别的打分,/>
Figure SMS_259
和/>
Figure SMS_260
为可预测的向量,用于将增强隐向量/>
Figure SMS_261
维度映射到情感类别的数量,/>
Figure SMS_262
表示张量之间的连接。
进一步地,通过损失函数训练卷积联合模型收敛到最佳状态,具体为:
将输入对话
Figure SMS_263
中所有语句/>
Figure SMS_264
对应的预测向量/>
Figure SMS_265
进行聚合,得到预测向量集合/>
Figure SMS_266
将预测向量集合
Figure SMS_267
与输入对话/>
Figure SMS_268
对应的真实情感类别集/>
Figure SMS_269
求取交叉熵,得到卷积联合模型的损失函数,通过最小化所述损失函数,使卷积联合模型达到收敛状态;
所述损失函数
Figure SMS_270
公式如下:
Figure SMS_271
其中,
Figure SMS_272
为情感总数,/>
Figure SMS_275
表示卷积联合模型预测语句/>
Figure SMS_280
属于情感类别集合为/>
Figure SMS_273
中第/>
Figure SMS_276
个情感/>
Figure SMS_278
的概率,/>
Figure SMS_281
表示语句/>
Figure SMS_274
实际是否属于情感类别/>
Figure SMS_277
,若属于则/>
Figure SMS_279
为1,否则
Figure SMS_282
为0。
本发明提供的一种基于卷积联合模型的对话情感识别方法的优点在于:本发明结构中提供的一种基于卷积联合模型的对话情感识别方法,利用神经主题模型提取语句主题特征,使得具有相似主题的对话语句可以互相利用各自的上下文信息进行联合推理,解决对话主题跳转多、信息冗余等问题,提升话语语句表征质量;通过注意力关系图网络模型实现关系驱动的语句信息和主题信息的融合,获得增强的特征表示,提升了注意力关系图网络模型对于对话进行情感识别的性能。
附图说明
图1为本发明的结构示意图;
图2为卷积联合模型的构建框架图。
具体实施方式
下面,通过具体实施例对本发明的技术方案进行详细说明,在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
如图1和2所示,本发明提出的一种基于卷积联合模型的对话情感识别方法,将对话中语句输入到已训练完成的卷积联合模型中,以输出对话中语句对应的情感类别;所述卷积联合模型包括依次连接的编辑器、神经主题模型、注意力关系图网络模型和解码器,以通过解码器输出,情感类别。
本实施例利用神经主题模型(主体为变分自编码器)引入外部主题知识提取各语句的主题特征,并通过注意力关系图网络模型实现语句之间,主题特征之间,以及语句和主题特征之间的关系建模,充分利用了语句的隐含主题信息强化对话语句间的信息交互以及其特征表示,促进解码器预测出情感类别,利用卷积联合模型输出情感类别具体如下:
为便于对卷积联合模型训练过程进行细致的描述,引入如下符号标记:
情感类别集合为
Figure SMS_283
,其中/>
Figure SMS_284
为第/>
Figure SMS_285
个情感,/>
Figure SMS_286
为情感总数;
输入对话记为
Figure SMS_287
,其中/>
Figure SMS_288
为对话中第/>
Figure SMS_289
个语句,/>
Figure SMS_290
为对话中语句的总数;
输入对话
Figure SMS_291
对应的真实情感类别集记为/>
Figure SMS_292
,其中
Figure SMS_293
表示语句/>
Figure SMS_294
是否对应于情感类别/>
Figure SMS_295
记注意力关系图网络模型为
Figure SMS_296
,其中E为注意力关系图网络模型中节点集合,A为节点间的邻接矩阵,R为节点间的关系矩阵,注意力关系图网络模型的层数记为L。
所述卷积联合模型的训练过程如下:
S1:构建输入对话
Figure SMS_297
,将所述输入对话/>
Figure SMS_298
编码以得到输入对话/>
Figure SMS_299
中所有语句/>
Figure SMS_300
的编码向量/>
Figure SMS_301
,/>
Figure SMS_302
n为对话中语句的总数,具体包括步骤S11至S12;
S11:将输入对话
Figure SMS_303
中/>
Figure SMS_304
个语句输入到Roberta编码器中进行编码,得到输入对话/>
Figure SMS_305
中所有语句的初始编码向量/>
Figure SMS_306
S12:将所有语句对应的初始编码向量
Figure SMS_307
输入到/>
Figure SMS_308
网络,得到所有语句/>
Figure SMS_309
的编码向量/>
Figure SMS_310
,其中/>
Figure SMS_311
网络是现有的双向长短记忆网络;
通过步骤S11至S12对输入对话
Figure SMS_312
中/>
Figure SMS_313
个语句进行编码。Roberta编码器通过深层次的文本编码和丰富的语义表示帮助BiLSTM(双向长短期记忆网络)模型更好地理解语句中的词语和语义信息;而BiLSTM模型则通过序列建模和长期依赖建模能力捕捉对话的上下文结构和语句间的长距离依赖关系;结合二者(Roberta编码器和BiLSTM模型),可以更好地处理语句中的复杂语义关系,从而提高语句编码的质量和表达能力。
S2:利用所述给定数据集的先验参数
Figure SMS_314
和/>
Figure SMS_315
提取潜在主题分布/>
Figure SMS_316
,以无监督方式训练变分自编码器的神经主题模型,得到主题特征矩阵/>
Figure SMS_317
,其中/>
Figure SMS_318
和/>
Figure SMS_319
分别表示词汇表大小和主题的个数;
另外给定数据集,将给定数据集输入到变分自编码器的神经主题模型中,神经主题模型对给定数据集做如下处理,具体包括步骤S21至S4:
S21:另外给定数据集,将给定数据集中的输入语句
Figure SMS_320
进行处理得到独热编码/>
Figure SMS_321
,将独热编码/>
Figure SMS_322
传递到多层感知器得到所述输入语句/>
Figure SMS_323
的隐含表示/>
Figure SMS_324
Figure SMS_325
/>
Figure SMS_326
其中,
Figure SMS_327
表示给定数据集中语句/>
Figure SMS_331
对应的独热编码,/>
Figure SMS_332
表示多层感知器,
Figure SMS_329
,/>
Figure SMS_330
表示独热编码/>
Figure SMS_333
的隐含表示,/>
Figure SMS_334
表示对输入语句/>
Figure SMS_328
中所有词的进行独热编码;
需要说明的是,该另外给定数据集与构建输入对话
Figure SMS_335
不属于同一训练集,另外给定数据集具体可以表示为另外输入语句/>
Figure SMS_336
,/>
Figure SMS_337
(/>
Figure SMS_338
)表示输入语句/>
Figure SMS_339
中的词(该词具体与输入语句/>
Figure SMS_340
中的字是对应的)。
S22:基于隐含表示
Figure SMS_342
对潜在主题分布Z的先验参数/>
Figure SMS_346
和/>
Figure SMS_349
进行估计,从先验参数/>
Figure SMS_343
和/>
Figure SMS_345
表示的主题分布Z中随机抽取/>
Figure SMS_347
作为所述输入语句/>
Figure SMS_351
的潜在主题表示,其中隐含表示/>
Figure SMS_341
为第/>
Figure SMS_344
个词/>
Figure SMS_348
的隐含表示,词/>
Figure SMS_350
为输入语句X中的词,具体为:
Figure SMS_352
Figure SMS_353
Figure SMS_354
其中,
Figure SMS_355
和/>
Figure SMS_356
表示给定数据集的先验参数,/>
Figure SMS_357
是一个随机变量,可以理解的是,/>
Figure SMS_358
是第/>
Figure SMS_359
个词/>
Figure SMS_360
在/>
Figure SMS_361
中对应的隐含表示;
S23:基于可训练的主题特征矩阵
Figure SMS_362
和可训练的向量/>
Figure SMS_363
,对潜在主题表示/>
Figure SMS_364
进行线性变换和/>
Figure SMS_365
函数运算后,得到词的预测概率/>
Figure SMS_366
Figure SMS_367
其中,
Figure SMS_368
表示输入语句第/>
Figure SMS_371
个词/>
Figure SMS_374
对应词汇表中各单词的预测概率,可用于后续基于VAE无监督的方式训练神经主题模型中参数学习;/>
Figure SMS_370
为输入语句第/>
Figure SMS_373
个词/>
Figure SMS_375
的主题分布,可用于参与后续基于VAE无监督的方式训练神经主题模型中参数学习;
Figure SMS_377
表示可训练的主题特征矩阵,/>
Figure SMS_369
表示可训练的向量,在神经主题模型训练过程中优化/>
Figure SMS_372
和/>
Figure SMS_376
这两个可学习参数,以使得神经主题模型达到期望输出;
S24:以无监督的方式训练所述神经主题模型,然后得到主题特征矩阵
Figure SMS_378
,/>
Figure SMS_379
的每一行是词汇表中第/>
Figure SMS_380
个词嵌入/>
Figure SMS_381
,每一列是主题词表中第/>
Figure SMS_382
个主题嵌入/>
Figure SMS_383
步骤S21中给定数据集经过S21至S23的数据处理后作为步骤S24中神经主题模型的输入,并以无监督的方式对神经主题模型进行训练。
其中,
Figure SMS_385
和/>
Figure SMS_387
分别为词汇表大小和主题的个数,/>
Figure SMS_389
的每一行都可以看作是特定单词的一个词嵌入(设第/>
Figure SMS_386
个词嵌入为/>
Figure SMS_388
),嵌入的每一个维度都对应于该词与某个特定主题相关的概率值,同样的,/>
Figure SMS_390
的每一列都可以看作是对某个特定主题的一个主题嵌入(设第/>
Figure SMS_391
个主题嵌入为/>
Figure SMS_384
),其每个维度都对应于该主题与某个特定词相关的概率值。
通过步骤S21至S24,对主题模型的主题特征矩阵进行训练,训练得到的主题特征矩阵每一行代表词的嵌入,每一列代表主题的嵌入,因此词的表征和主题的表征通过主题特征矩阵被自然地联系起来;主题特征矩阵的每个元素描述了某对词与主题之间的相关性,而词的表征和主题的表征只是主题特征矩阵的信息在不同维度的体现;利用得到的主题特征矩阵,可以对某个词表征(语句表征)求得它对应的主题表征,该主题表征每个维度的值代表该词(语句)与各个主题相关的概率值。
S3:利用主题特征矩阵
Figure SMS_392
将输入对话/>
Figure SMS_393
中语句/>
Figure SMS_394
的所有词映射为词编码,通过平均池化,得到所述语句/>
Figure SMS_395
的编码/>
Figure SMS_396
,基于所述编码/>
Figure SMS_397
计算每个主题的自注意力系数/>
Figure SMS_398
,具体包括步骤S31至S33:
S31:利用主题特征矩阵
Figure SMS_399
将输入对话/>
Figure SMS_400
中语句/>
Figure SMS_401
的所有词映射为词编码/>
Figure SMS_402
Figure SMS_403
,/>
Figure SMS_404
为语句/>
Figure SMS_405
中词的总数;
S32:对词编码
Figure SMS_407
进行平均池化,获得语句/>
Figure SMS_410
的编码/>
Figure SMS_413
,语句/>
Figure SMS_408
的第/>
Figure SMS_409
个主题为编码/>
Figure SMS_412
在第/>
Figure SMS_415
个维度的数值/>
Figure SMS_406
,基于多层感知器对数值/>
Figure SMS_411
的维度进行拓展得到拓展向量
Figure SMS_414
由于编码
Figure SMS_418
是所有主题特征矩阵投射的词编码/>
Figure SMS_419
平均池化后的结果,编码/>
Figure SMS_424
也保留了词编码/>
Figure SMS_417
的特性,即每个维度表示与某个主题的相关性,即:编码/>
Figure SMS_420
是语句/>
Figure SMS_423
的编码向量,它的每个维度代表/>
Figure SMS_425
与相应主题相关的概率/>
Figure SMS_416
,即/>
Figure SMS_421
为向量表示,/>
Figure SMS_422
为数值表示;
Figure SMS_426
Figure SMS_427
其中,
Figure SMS_430
表示平均池化,/>
Figure SMS_431
表示第/>
Figure SMS_435
个语句与第/>
Figure SMS_428
个主题相关的概率,/>
Figure SMS_432
表示对数值/>
Figure SMS_434
的维度进行拓展后得到的拓展向量,/>
Figure SMS_436
表示/>
Figure SMS_429
函数,/>
Figure SMS_433
表示多层感知器,用于将单个概率数值映射为高维度的向量。
S33:基于拓展向量
Figure SMS_437
和编码向量/>
Figure SMS_438
,计算得到每个主题的自注意力系数/>
Figure SMS_439
Figure SMS_440
其中,
Figure SMS_441
表示/>
Figure SMS_442
函数,/>
Figure SMS_443
表示多层感知器。
S4:利用多层感知器计算主题特征矩阵
Figure SMS_444
中每个主题的表征,得到主题记忆力表征/>
Figure SMS_445
,利用自注意力系数/>
Figure SMS_446
对所述主题记忆力表征/>
Figure SMS_447
进行聚合得到语句/>
Figure SMS_448
的主题表征向量/>
Figure SMS_449
Figure SMS_450
/>
Figure SMS_451
其中,
Figure SMS_454
为主题特征矩阵/>
Figure SMS_455
中的第/>
Figure SMS_459
个主题嵌入,/>
Figure SMS_453
表示多层感知器,用于将每个主题嵌入映射为向量/>
Figure SMS_457
的维度,/>
Figure SMS_458
表示主题的个数;需要说明的是,/>
Figure SMS_460
与主题特征矩阵有关,即与/>
Figure SMS_452
有关,和语句编码/>
Figure SMS_456
不同。
通过步骤S2至S4对神经主题模型中的主题特征矩阵进行训练以及话语主题特征提取(主题表征向量),实现对神经主题模型的有效训练。
步骤S2至S4提供了一种神经主题模型增强对话语句表征机制,利用神经主题模型提取语句主题特征,使得具有相似主题的对话语句可以互相利用各自的上下文信息进行联合推理,解决对话主题跳转多、信息冗余等问题,提升话语语句表征质量。
S5:将输入对话
Figure SMS_463
中/>
Figure SMS_466
个语句和对应的/>
Figure SMS_469
个主题特征作为注意力关系图网络模型的节点,同时将语句的编码向量/>
Figure SMS_462
和主题表征向量/>
Figure SMS_464
作为注意力关系图网络模型中的/>
Figure SMS_467
个初始节点表征,记作/>
Figure SMS_470
,其中当/>
Figure SMS_461
时,/>
Figure SMS_465
,当
Figure SMS_468
时,/>
Figure SMS_471
S6:根据注意力关系图网络模型中的不同节点的相互连接以及作用关系,得到节点间的邻接矩阵
Figure SMS_474
和关系矩阵/>
Figure SMS_477
,并使用注意力关系图网络模型对邻接矩阵/>
Figure SMS_478
和关系矩阵/>
Figure SMS_472
进行建模,其中/>
Figure SMS_476
为任意两个节点/>
Figure SMS_479
之间的边,如果两个节点/>
Figure SMS_481
相连则/>
Figure SMS_473
为1,否则/>
Figure SMS_475
为0,/>
Figure SMS_480
表示边/>
Figure SMS_482
所标记的值,具体包括:
S61:根据注意力关系图网络模型中的不同节点的相互连接以及作用关系,得到节点间的邻接矩阵
Figure SMS_483
和关系矩阵/>
Figure SMS_484
S62:基于邻接矩阵
Figure SMS_485
和关系矩阵/>
Figure SMS_488
,为充分利用对话中各语句以及各主题特征之间的关系,利用注意力关系图网络模型/>
Figure SMS_492
对/>
Figure SMS_486
个初始节点进行建模,其中/>
Figure SMS_489
中的每一节点对/>
Figure SMS_491
都可映射到邻接矩阵/>
Figure SMS_494
中的一个元素/>
Figure SMS_487
,而元素/>
Figure SMS_490
可映射到关系矩阵/>
Figure SMS_493
中的一个元素/>
Figure SMS_495
其中,所述关系矩阵
Figure SMS_496
中元素的值有三种类型:话语-话语、主题-主题、主题-话语,所述三种类型作为注意力关系图网络模型的边类型,每个所述边类型包括不同种类的值;
对于边类型为话语-话语,根据节点对
Figure SMS_497
对应的语句对/>
Figure SMS_498
在对话/>
Figure SMS_499
中是否相邻、在对话/>
Figure SMS_500
中的先后顺序、是否来自同一说话者,得到八种类型的值:相邻-将来-自身,相邻-将来-其他人,相邻-过去-自身,相邻-过去-其他人,远离-将来-自身,远离-将来-其他人,远离-过去-自身,远离-过去-其他人;
对于边类型为主题-主题,根据节点对
Figure SMS_501
对应的语句对/>
Figure SMS_502
在对话/>
Figure SMS_503
中是否相邻,得到四种类型的值:相邻-将来,相邻-过去,远离-将来,远离-过去;/>
对于边类型为主题-话语,引入单独类型的值:影响。
S7:基于邻接矩阵
Figure SMS_504
和关系矩阵/>
Figure SMS_508
,将所述注意力关系图网络模型中最后一层输出的节点表征/>
Figure SMS_511
和语句/>
Figure SMS_506
在步骤S1中对应的编码向量/>
Figure SMS_509
进行粘连,得到语句/>
Figure SMS_512
的增强隐向量/>
Figure SMS_513
,将所述增强隐向量/>
Figure SMS_505
通过解码器输出预测向量/>
Figure SMS_507
,选择所述预测向量/>
Figure SMS_510
中得分最高的情感类别作为语句/>
Figure SMS_514
的预测情感类别;
对于每个节点表征
Figure SMS_515
,将与节点/>
Figure SMS_516
有连接的其他节点/>
Figure SMS_517
的信息聚合到节点
Figure SMS_518
中,输出更新后的节点表征/>
Figure SMS_519
Figure SMS_520
Figure SMS_521
Figure SMS_522
Figure SMS_523
其中,
Figure SMS_543
表示节点/>
Figure SMS_547
在第/>
Figure SMS_550
层注意力关系图网络模型中对应的节点表征,/>
Figure SMS_524
为节点/>
Figure SMS_528
在第/>
Figure SMS_535
层注意力关系图网络模型中对应的节点表征,/>
Figure SMS_539
是与节点/>
Figure SMS_552
有连接的其他节点的集合,/>
Figure SMS_556
是关系矩阵/>
Figure SMS_559
中起始节点为/>
Figure SMS_562
的可能值的集合,/>
Figure SMS_558
是注意力关系图网络模型第/>
Figure SMS_561
层中用于自连接的矩阵,/>
Figure SMS_564
是第/>
Figure SMS_565
层注意力关系图网络模型中,当前节点/>
Figure SMS_542
在关系/>
Figure SMS_546
条件下用于提取其他节点/>
Figure SMS_548
信息的矩阵,/>
Figure SMS_555
为节点/>
Figure SMS_527
在第/>
Figure SMS_529
层注意力关系图网络模型中对应的节点表征,/>
Figure SMS_534
为节点/>
Figure SMS_538
在第/>
Figure SMS_526
层注意力关系图网络模型中对应的节点表征,/>
Figure SMS_531
表示第/>
Figure SMS_533
层注意力关系图网络模型中节点/>
Figure SMS_536
对/>
Figure SMS_541
聚合信息系数,/>
Figure SMS_544
表示节点/>
Figure SMS_551
与/>
Figure SMS_553
之间是否有连接,如果有连接则/>
Figure SMS_540
为0,否则/>
Figure SMS_545
为1,/>
Figure SMS_549
表示节点/>
Figure SMS_554
与/>
Figure SMS_557
之间是否有连接,如果有连接则/>
Figure SMS_560
为0,否则/>
Figure SMS_563
为1,/>
Figure SMS_566
表示注意力关系图网络模型中所有节点的集合;/>
Figure SMS_525
表示/>
Figure SMS_530
中第/>
Figure SMS_532
个节点,/>
Figure SMS_537
表示张量之间的连接。
根据步骤S5至S7,通过注意力关系图网络模型实现关系驱动的对话语句信息和主题信息的融合,获得增强的特征表示,提升了注意力关系图网络模型对于对话进行情感识别的性能。
通过步骤S1至S7将神经主题模型和注意力关系图网络模型进行联合,神经主体模型输出的主题表征向量参与到注意力关系图网络模型的初始节点表征中,使得最终的卷积联合模型可以有效实现对对话情感的识别准确性和高效性。
在本实施例中,通过损失函数训练卷积联合模型收敛到最佳状态,具体为:
将输入对话
Figure SMS_567
中所有语句/>
Figure SMS_568
对应的预测向量/>
Figure SMS_569
进行聚合,得到预测向量集合/>
Figure SMS_570
将预测向量集合
Figure SMS_571
与输入对话/>
Figure SMS_572
对应的真实情感类别集/>
Figure SMS_573
求取交叉熵,得到卷积联合模型的损失函数,通过最小化所述损失函数,使卷积联合模型达到收敛状态;
所述损失函数
Figure SMS_574
公式如下:
Figure SMS_575
其中
Figure SMS_577
为情感总数,/>
Figure SMS_579
表示卷积联合模型预测语句/>
Figure SMS_582
属于情感类别集合为/>
Figure SMS_578
中第/>
Figure SMS_581
个情感/>
Figure SMS_583
的概率,/>
Figure SMS_585
表示语句/>
Figure SMS_576
实际是否属于情感类别/>
Figure SMS_580
,若属于则/>
Figure SMS_584
为1,否则
Figure SMS_586
为0。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于卷积联合模型的对话情感识别方法,其特征在于,所述卷积联合模型包括神经主题模型和注意力关系图网络模型,所述对话情感识别方法包括如下步骤:将对话中语句输入到已训练完成的卷积联合模型中,以输出对话中语句对应的情感类别;
所述卷积联合模型的训练过程如下:
S1:构建输入对话
Figure QLYQS_1
,将所述输入对话/>
Figure QLYQS_2
编码以得到输入对话/>
Figure QLYQS_3
中所有语句/>
Figure QLYQS_4
的编码向量/>
Figure QLYQS_5
,/>
Figure QLYQS_6
,/>
Figure QLYQS_7
为对话中语句的总数;
S2:利用给定数据集的先验参数
Figure QLYQS_8
和/>
Figure QLYQS_9
提取潜在主题分布/>
Figure QLYQS_10
,以无监督方式训练变分自编码器的神经主题模型,得到主题特征矩阵/>
Figure QLYQS_11
,其中/>
Figure QLYQS_12
和/>
Figure QLYQS_13
分别表示词汇表大小和主题的个数;
S3:利用主题特征矩阵
Figure QLYQS_14
将输入对话/>
Figure QLYQS_15
中语句/>
Figure QLYQS_16
的所有词映射为词编码,通过平均池化,得到所述语句/>
Figure QLYQS_17
的编码/>
Figure QLYQS_18
,基于所述编码/>
Figure QLYQS_19
计算每个主题的自注意力系数/>
Figure QLYQS_20
S4:利用多层感知器计算主题特征矩阵
Figure QLYQS_21
中每个主题的表征,得到主题记忆力表征
Figure QLYQS_22
,利用自注意力系数/>
Figure QLYQS_23
对所述主题记忆力表征/>
Figure QLYQS_24
进行聚合得到语句/>
Figure QLYQS_25
的主题表征向量/>
Figure QLYQS_26
S5:将输入对话
Figure QLYQS_29
中/>
Figure QLYQS_30
个语句和对应的/>
Figure QLYQS_33
个主题特征作为注意力关系图网络模型的节点,同时将语句的编码向量/>
Figure QLYQS_28
和主题表征向量/>
Figure QLYQS_31
作为注意力关系图网络模型中的/>
Figure QLYQS_34
个初始节点表征,记作/>
Figure QLYQS_36
,其中当/>
Figure QLYQS_27
时,/>
Figure QLYQS_32
,当
Figure QLYQS_35
时,/>
Figure QLYQS_37
S6:根据注意力关系图网络模型中的不同节点的相互连接以及作用关系,得到节点间的邻接矩阵
Figure QLYQS_40
和关系矩阵/>
Figure QLYQS_42
,并使用注意力关系图网络模型对邻接矩阵/>
Figure QLYQS_46
和关系矩阵/>
Figure QLYQS_39
进行建模,其中/>
Figure QLYQS_41
为任意两个节点/>
Figure QLYQS_45
之间的边,如果两个节点/>
Figure QLYQS_47
相连则/>
Figure QLYQS_38
为1,否则/>
Figure QLYQS_43
为0,/>
Figure QLYQS_44
表示边/>
Figure QLYQS_48
所标记的值;
S7:基于邻接矩阵
Figure QLYQS_50
和关系矩阵/>
Figure QLYQS_53
,将所述注意力关系图网络模型中最后一层输出的节点表征/>
Figure QLYQS_55
和语句/>
Figure QLYQS_49
在步骤S1中对应的编码向量/>
Figure QLYQS_52
进行粘连,得到语句/>
Figure QLYQS_56
的增强隐向量/>
Figure QLYQS_59
,将所述增强隐向量/>
Figure QLYQS_51
通过解码器输出预测向量/>
Figure QLYQS_54
,选择所述预测向量/>
Figure QLYQS_57
中得分最高的情感类别作为语句/>
Figure QLYQS_58
的预测情感类别;
其中利用所述给定数据集的先验参数
Figure QLYQS_60
和/>
Figure QLYQS_61
提取潜在主题分布/>
Figure QLYQS_62
,得到主题特征矩阵
Figure QLYQS_63
中,参与的公式具体如下:
Figure QLYQS_64
Figure QLYQS_65
Figure QLYQS_66
/>
Figure QLYQS_67
Figure QLYQS_68
Figure QLYQS_69
其中,
Figure QLYQS_72
表示给定数据集中输入语句/>
Figure QLYQS_75
中第/>
Figure QLYQS_80
个词/>
Figure QLYQS_70
对应词汇表中各单词的预测概率,
Figure QLYQS_74
表示给定数据集中输入语句/>
Figure QLYQS_78
中第/>
Figure QLYQS_82
个词/>
Figure QLYQS_73
的主题分布,/>
Figure QLYQS_77
表示可训练的主题特征矩阵,
Figure QLYQS_84
表示可训练的向量,/>
Figure QLYQS_90
和/>
Figure QLYQS_83
表示给定数据集的先验参数,/>
Figure QLYQS_87
是一个随机变量,
Figure QLYQS_91
表示多层感知器,/>
Figure QLYQS_93
表示给定数据集中输入语句/>
Figure QLYQS_86
对应的独热编码,/>
Figure QLYQS_88
表示独热编码/>
Figure QLYQS_92
的隐含表示,/>
Figure QLYQS_94
为第/>
Figure QLYQS_71
个词/>
Figure QLYQS_76
的隐含表示,词/>
Figure QLYQS_79
为给定数据集中语句/>
Figure QLYQS_81
中的词,
Figure QLYQS_85
表示对给定数据集中输入语句/>
Figure QLYQS_89
中所有词的进行独热编码。
2.根据权利要求1所述的基于卷积联合模型的对话情感识别方法,其特征在于,在步骤S1:构建输入对话
Figure QLYQS_95
,将所述输入对话/>
Figure QLYQS_96
编码以得到输入对话/>
Figure QLYQS_97
中所有语句/>
Figure QLYQS_98
的编码向量/>
Figure QLYQS_99
中,具体包括:
将输入对话
Figure QLYQS_100
输入到Roberta编码器中进行编码,得到输入对话/>
Figure QLYQS_101
中所有语句的初始编码向量/>
Figure QLYQS_102
将所有语句对应的初始编码向量
Figure QLYQS_103
输入到/>
Figure QLYQS_104
网络,得到所有语句/>
Figure QLYQS_105
的编码向量
Figure QLYQS_106
3.根据权利要求1所述的基于卷积联合模型的对话情感识别方法,其特征在于,在步骤S2:利用所述给定数据集的先验参数
Figure QLYQS_107
和/>
Figure QLYQS_108
提取潜在主题分布/>
Figure QLYQS_109
,以无监督方式训练变分自编码器的神经主题模型,得到主题特征矩阵/>
Figure QLYQS_110
中,具体包括:
另外给定数据集,将给定数据集输入到变分自编码器的神经主题模型中,神经主题模型对给定数据集做如下处理:
将给定数据集中的输入语句
Figure QLYQS_111
进行处理得到独热编码/>
Figure QLYQS_112
,将独热编码/>
Figure QLYQS_113
传递到多层感知器得到所述输入语句/>
Figure QLYQS_114
的隐含表示/>
Figure QLYQS_115
基于隐含表示
Figure QLYQS_117
对潜在主题分布Z的先验参数/>
Figure QLYQS_122
和/>
Figure QLYQS_124
进行估计,从先验参数/>
Figure QLYQS_119
和/>
Figure QLYQS_120
表示的主题分布Z中随机抽取/>
Figure QLYQS_123
作为所述输入语句/>
Figure QLYQS_126
的潜在主题表示,其中隐含表示/>
Figure QLYQS_116
为第/>
Figure QLYQS_121
个词
Figure QLYQS_125
的隐含表示,词/>
Figure QLYQS_127
为输入语句/>
Figure QLYQS_118
中的词;
基于可训练的主题特征矩阵
Figure QLYQS_128
和可训练的向量/>
Figure QLYQS_129
,对潜在主题表示/>
Figure QLYQS_130
进行线性变换和/>
Figure QLYQS_131
函数运算后,得到词的预测概率/>
Figure QLYQS_132
以无监督的方式训练所述神经主题模型,然后得到主题特征矩阵
Figure QLYQS_133
,/>
Figure QLYQS_134
的每一行是词汇表中第/>
Figure QLYQS_135
个词嵌入/>
Figure QLYQS_136
,每一列是词汇表中第/>
Figure QLYQS_137
个主题嵌入/>
Figure QLYQS_138
4.根据权利要求1所述的基于卷积联合模型的对话情感识别方法,其特征在于,在步骤S3:利用主题特征矩阵
Figure QLYQS_139
将输入对话/>
Figure QLYQS_140
中语句/>
Figure QLYQS_141
的所有词映射为词编码,通过平均池化,得到所述语句/>
Figure QLYQS_142
的编码/>
Figure QLYQS_143
,基于所述编码/>
Figure QLYQS_144
计算每个主题的自注意力系数/>
Figure QLYQS_145
中,具体包括:
利用主题特征矩阵
Figure QLYQS_146
将输入对话/>
Figure QLYQS_147
中语句/>
Figure QLYQS_148
的所有词映射为词编码/>
Figure QLYQS_149
,/>
Figure QLYQS_150
Figure QLYQS_151
为语句/>
Figure QLYQS_152
中词的总数;
对词编码
Figure QLYQS_154
进行平均池化,获得语句/>
Figure QLYQS_157
的编码/>
Figure QLYQS_160
,语句/>
Figure QLYQS_153
的第/>
Figure QLYQS_156
个主题为编码/>
Figure QLYQS_159
在第/>
Figure QLYQS_162
个维度的数值/>
Figure QLYQS_155
,基于多层感知器对数值/>
Figure QLYQS_158
的维度进行拓展得到拓展向量/>
Figure QLYQS_161
基于拓展向量
Figure QLYQS_163
和编码向量/>
Figure QLYQS_164
,计算得到每个主题的自注意力系数/>
Figure QLYQS_165
5.根据权利要求4所述的基于卷积联合模型的对话情感识别方法,其特征在于,所述编码
Figure QLYQS_166
的公式如下:
Figure QLYQS_167
Figure QLYQS_168
Figure QLYQS_169
其中,
Figure QLYQS_172
表示平均池化,/>
Figure QLYQS_173
表示/>
Figure QLYQS_176
函数,/>
Figure QLYQS_171
表示第/>
Figure QLYQS_174
个语句与第/>
Figure QLYQS_177
个主题相关的概率,/>
Figure QLYQS_178
表示对数值/>
Figure QLYQS_170
的维度进行拓展后得到的拓展向量,
Figure QLYQS_175
表示多层感知器,用于将单个概率数值映射为高维度的向量。
6.根据权利要求4所述的基于卷积联合模型的对话情感识别方法,其特征在于,所述主题记忆力表征
Figure QLYQS_179
的计算公式如下:
Figure QLYQS_180
Figure QLYQS_181
其中,
Figure QLYQS_182
为主题特征矩阵/>
Figure QLYQS_183
中的第/>
Figure QLYQS_184
个主题嵌入,/>
Figure QLYQS_185
表示多层感知器,用于将每个主题嵌入映射为向量/>
Figure QLYQS_186
的维度,/>
Figure QLYQS_187
表示主题的个数。
7.根据权利要求1所述的基于卷积联合模型的对话情感识别方法,其特征在于,在步骤S6中,具体包括:
根据注意力关系图网络模型中的不同节点的相互连接以及作用关系,得到节点间的邻接矩阵
Figure QLYQS_188
和关系矩阵/>
Figure QLYQS_189
基于邻接矩阵
Figure QLYQS_192
和关系矩阵/>
Figure QLYQS_194
,利用注意力关系图网络模型/>
Figure QLYQS_197
对/>
Figure QLYQS_191
个初始节点进行建模,其中/>
Figure QLYQS_193
中的每一节点对/>
Figure QLYQS_196
都可映射到邻接矩阵/>
Figure QLYQS_199
中的一个元素/>
Figure QLYQS_190
,而元素/>
Figure QLYQS_195
可映射到关系矩阵/>
Figure QLYQS_198
中的一个元素/>
Figure QLYQS_200
所述关系矩阵
Figure QLYQS_201
中元素的值有三种类型:话语-话语、主题-主题、主题-话语,所述三种类型作为注意力关系图网络模型的边类型,每个所述边类型包括不同种类的值;
对于边类型为话语-话语,根据节点对
Figure QLYQS_202
对应的语句对/>
Figure QLYQS_203
在对话/>
Figure QLYQS_204
中是否相邻、在对话/>
Figure QLYQS_205
中的先后顺序、是否来自同一说话者,得到八种类型的值:相邻-将来-自身,相邻-将来-其他人,相邻-过去-自身,相邻-过去-其他人,远离-将来-自身,远离-将来-其他人,远离-过去-自身,远离-过去-其他人;
对于边类型为主题-主题,根据节点对
Figure QLYQS_206
对应的语句对/>
Figure QLYQS_207
在对话/>
Figure QLYQS_208
中是否相邻,得到四种类型的值:相邻-将来,相邻-过去,远离-将来,远离-过去;
对于边类型为主题-话语,引入单独类型的值:影响。
8.根据权利要求7所述的基于卷积联合模型的对话情感识别方法,其特征在于,在步骤S7中,对于每个节点表征
Figure QLYQS_209
,将与节点/>
Figure QLYQS_210
有连接的其他节点/>
Figure QLYQS_211
的信息聚合到节点/>
Figure QLYQS_212
中,输出更新后的节点表征/>
Figure QLYQS_213
Figure QLYQS_214
Figure QLYQS_215
其中,
Figure QLYQS_234
表示节点/>
Figure QLYQS_238
在第/>
Figure QLYQS_245
层注意力关系图网络模型中对应的节点表征,/>
Figure QLYQS_217
为节点/>
Figure QLYQS_222
在第/>
Figure QLYQS_227
层注意力关系图网络模型中对应的节点表征,/>
Figure QLYQS_230
是与节点/>
Figure QLYQS_249
有连接的其他节点的集合,/>
Figure QLYQS_253
是关系矩阵/>
Figure QLYQS_255
中起始节点为/>
Figure QLYQS_256
的可能值的集合,/>
Figure QLYQS_251
是注意力关系图网络模型第/>
Figure QLYQS_252
层中用于自连接的矩阵,/>
Figure QLYQS_254
是第/>
Figure QLYQS_257
层注意力关系图网络模型中,当前节点/>
Figure QLYQS_236
在关系/>
Figure QLYQS_240
条件下用于提取其他节点/>
Figure QLYQS_243
信息的矩阵,/>
Figure QLYQS_246
为节点/>
Figure QLYQS_218
在第/>
Figure QLYQS_223
层注意力关系图网络模型中对应的节点表征,/>
Figure QLYQS_224
为节点/>
Figure QLYQS_231
在第/>
Figure QLYQS_219
层注意力关系图网络模型中对应的节点表征,/>
Figure QLYQS_221
表示第/>
Figure QLYQS_225
层注意力关系图网络模型中节点/>
Figure QLYQS_229
对/>
Figure QLYQS_232
聚合信息系数,
Figure QLYQS_237
表示节点/>
Figure QLYQS_242
与/>
Figure QLYQS_247
之间是否有连接,如果有连接则/>
Figure QLYQS_228
为0,否则/>
Figure QLYQS_233
为1,/>
Figure QLYQS_235
表示节点
Figure QLYQS_239
与/>
Figure QLYQS_241
之间是否有连接,如果有连接则/>
Figure QLYQS_244
为0,否则/>
Figure QLYQS_248
为1,/>
Figure QLYQS_250
表示注意力关系图网络模型中所有节点的集合,/>
Figure QLYQS_216
表示/>
Figure QLYQS_220
中第/>
Figure QLYQS_226
个节点。
9.根据权利要求7所述的基于卷积联合模型的对话情感识别方法,其特征在于,所述增强隐向量
Figure QLYQS_258
计算公式如下:
Figure QLYQS_259
预测向量
Figure QLYQS_260
的计算公式如下:
Figure QLYQS_261
其中,
Figure QLYQS_262
每个维度的值表示对应维度代表的情感类别的打分,/>
Figure QLYQS_263
和/>
Figure QLYQS_264
为可预测的向量,用于将增强隐向量/>
Figure QLYQS_265
维度映射到情感类别的数量,/>
Figure QLYQS_266
表示张量之间的连接。
10.根据权利要求9所述的基于卷积联合模型的对话情感识别方法,其特征在于,通过损失函数训练卷积联合模型收敛到最佳状态,具体为:
将输入对话
Figure QLYQS_267
中所有语句/>
Figure QLYQS_268
对应的预测向量/>
Figure QLYQS_269
进行聚合,得到预测向量集合/>
Figure QLYQS_270
将预测向量集合
Figure QLYQS_271
与输入对话/>
Figure QLYQS_272
对应的真实情感类别集/>
Figure QLYQS_273
求取交叉熵,得到卷积联合模型的损失函数,通过最小化所述损失函数,使卷积联合模型达到收敛状态;
所述损失函数
Figure QLYQS_274
公式如下:
Figure QLYQS_275
其中,
Figure QLYQS_277
为情感总数,/>
Figure QLYQS_279
表示卷积联合模型预测语句/>
Figure QLYQS_283
属于情感类别集合/>
Figure QLYQS_276
中第/>
Figure QLYQS_280
个情感/>
Figure QLYQS_282
的概率,/>
Figure QLYQS_285
表示语句/>
Figure QLYQS_278
实际是否属于情感类别/>
Figure QLYQS_281
,若属于则/>
Figure QLYQS_284
为1,否则/>
Figure QLYQS_286
为0。/>
CN202310443460.0A 2023-04-24 2023-04-24 一种基于卷积联合模型的对话情感识别方法 Active CN116258134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310443460.0A CN116258134B (zh) 2023-04-24 2023-04-24 一种基于卷积联合模型的对话情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310443460.0A CN116258134B (zh) 2023-04-24 2023-04-24 一种基于卷积联合模型的对话情感识别方法

Publications (2)

Publication Number Publication Date
CN116258134A true CN116258134A (zh) 2023-06-13
CN116258134B CN116258134B (zh) 2023-08-29

Family

ID=86679580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310443460.0A Active CN116258134B (zh) 2023-04-24 2023-04-24 一种基于卷积联合模型的对话情感识别方法

Country Status (1)

Country Link
CN (1) CN116258134B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200119410A (ko) * 2019-03-28 2020-10-20 한국과학기술원 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법
CN112445898A (zh) * 2019-08-16 2021-03-05 阿里巴巴集团控股有限公司 对话情感分析方法及装置、存储介质及处理器
WO2021132797A1 (ko) * 2019-12-27 2021-07-01 한국과학기술원 반지도 학습 기반 단어 단위 감정 임베딩과 장단기 기억 모델을 이용한 대화 내에서 발화의 감정 분류 방법
WO2021139107A1 (zh) * 2020-01-10 2021-07-15 平安科技(深圳)有限公司 情感智能识别方法、装置、电子设备及存储介质
CN114385802A (zh) * 2022-01-10 2022-04-22 重庆邮电大学 一种融合主题预测和情感推理的共情对话生成方法
CN114911932A (zh) * 2022-04-22 2022-08-16 南京信息工程大学 基于主题语义增强的异构图结构多会话者情感分析方法
CN115600581A (zh) * 2022-12-13 2023-01-13 中国科学技术大学(Cn) 一种使用句法信息的受控文本生成方法
CN115841119A (zh) * 2023-02-21 2023-03-24 中国科学技术大学 一种基于图结构的情绪原因提取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200119410A (ko) * 2019-03-28 2020-10-20 한국과학기술원 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법
CN112445898A (zh) * 2019-08-16 2021-03-05 阿里巴巴集团控股有限公司 对话情感分析方法及装置、存储介质及处理器
WO2021132797A1 (ko) * 2019-12-27 2021-07-01 한국과학기술원 반지도 학습 기반 단어 단위 감정 임베딩과 장단기 기억 모델을 이용한 대화 내에서 발화의 감정 분류 방법
WO2021139107A1 (zh) * 2020-01-10 2021-07-15 平安科技(深圳)有限公司 情感智能识别方法、装置、电子设备及存储介质
CN114385802A (zh) * 2022-01-10 2022-04-22 重庆邮电大学 一种融合主题预测和情感推理的共情对话生成方法
CN114911932A (zh) * 2022-04-22 2022-08-16 南京信息工程大学 基于主题语义增强的异构图结构多会话者情感分析方法
CN115600581A (zh) * 2022-12-13 2023-01-13 中国科学技术大学(Cn) 一种使用句法信息的受控文本生成方法
CN115841119A (zh) * 2023-02-21 2023-03-24 中国科学技术大学 一种基于图结构的情绪原因提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
林颂策: "基于卷积神经网络和主题模型的文本分类方法研究与实现", 硕士电子期刊, no. 3 *
王建成;徐扬;刘启元;吴良庆;李寿山;: "基于神经主题模型的对话情感分析", 中文信息学报, no. 01 *

Also Published As

Publication number Publication date
CN116258134B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN109543180B (zh) 一种基于注意力机制的文本情感分析方法
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109472031B (zh) 一种基于双记忆注意力的方面级别情感分类模型及方法
CN108363695B (zh) 一种基于双向依赖语法树表征的用户评论属性抽取方法
Shi et al. Unsupervised dialog structure learning
CN111274375B (zh) 一种基于双向gru网络的多轮对话方法及系统
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN114443827A (zh) 基于预训练语言模型的局部信息感知对话方法及系统
CN113435211B (zh) 一种结合外部知识的文本隐式情感分析方法
CN115841119B (zh) 一种基于图结构的情绪原因提取方法
CN112667818A (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN110472245B (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN112612871A (zh) 一种基于序列生成模型的多事件检测方法
CN111444399B (zh) 回复内容的生成方法、装置、设备及可读存储介质
CN111339274B (zh) 对话生成模型训练方法、对话生成方法及装置
CN114625882B (zh) 提高图像文本描述独特多样性的网络构建方法
CN114036298A (zh) 一种基于图卷积神经网络与词向量的节点分类方法
Zhang et al. TS-GCN: Aspect-level sentiment classification model for consumer reviews
CN116258134B (zh) 一种基于卷积联合模型的对话情感识别方法
CN114936723B (zh) 一种基于数据增强的社交网络用户属性预测方法及系统
CN114817566B (zh) 基于情绪嵌入的情绪原因对抽取方法
CN115809666A (zh) 一种融合词典信息和注意力机制的命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant