CN116258134B - 一种基于卷积联合模型的对话情感识别方法 - Google Patents

一种基于卷积联合模型的对话情感识别方法 Download PDF

Info

Publication number
CN116258134B
CN116258134B CN202310443460.0A CN202310443460A CN116258134B CN 116258134 B CN116258134 B CN 116258134B CN 202310443460 A CN202310443460 A CN 202310443460A CN 116258134 B CN116258134 B CN 116258134B
Authority
CN
China
Prior art keywords
topic
representing
sentence
input
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310443460.0A
Other languages
English (en)
Other versions
CN116258134A (zh
Inventor
宋彦
胡博
田元贺
徐浩培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310443460.0A priority Critical patent/CN116258134B/zh
Publication of CN116258134A publication Critical patent/CN116258134A/zh
Application granted granted Critical
Publication of CN116258134B publication Critical patent/CN116258134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于卷积联合模型的对话情感识别方法,所述卷积联合模型包括神经主题模型和注意力关系图网络模型,所述对话情感识别方法包括如下步骤:将对话中语句输入到已训练完成的卷积联合模型中,以输出对话中语句对应的情感类别;该对话情感识别方法充分利用了语句的隐含主题信息强化对话语句间的信息交互以及其特征表示,促进解码器预测出情感类别。

Description

一种基于卷积联合模型的对话情感识别方法
技术领域
本发明涉及对话情感识别技术领域,尤其涉及一种基于卷积联合模型的对话情感识别方法。
背景技术
对话的情感识别指的是识别对话中所有语句的情感类别,现有的方法往往倾向于直接对输入语句之间进行关系建模或者仅引入词语级别的外部知识增强语句表征后再进行处理,但是对话的特点是主题跳转,结构松散,信息冗余等,所以现有的对话情感识别方法无法适应对话中各语句主题间复杂的交互关系,因而无法充分融合主题相似语句的上下文信息进行深度推理以实现准确的情感识别。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于卷积联合模型的对话情感识别方法,充分利用了语句的隐含主题信息强化对话语句间的信息交互以及其特征表示,促进解码器预测出情感类别。
本发明提出的一种基于卷积联合模型的对话情感识别方法,所述卷积联合模型包括神经主题模型和注意力关系图网络模型,所述对话情感识别方法包括如下步骤:将对话中语句输入到已训练完成的卷积联合模型中,以输出对话中语句对应的情感类别;
所述卷积联合模型的训练过程如下:
S1:构建输入对话,将所述输入对话/>编码以得到输入对话/>中所有语句/>的编码向量/>,/>n为对话中语句的总数;
S2:利用所述给定数据集的先验参数和/>提取潜在主题分布/>,以无监督方式训练变分自编码器的神经主题模型,得到主题特征矩阵/>,其中/>和/>分别表示词汇表大小和主题的个数;
S3:利用主题特征矩阵将输入对话/>中语句/>的所有词映射为词编码,通过平均池化,得到所述语句/>的编码/>,基于所述编码/>计算每个主题的自注意力系数/>
S4:利用多层感知器计算主题特征矩阵中每个主题的表征,得到主题记忆力表征/>,利用自注意力系数/>对所述主题记忆力表征/>进行聚合得到语句/>的主题表征向量/>
S5:将输入对话中/>个语句和对应的/>个主题特征作为注意力关系图网络模型的节点,同时将语句的编码向量/>和主题表征向量/>作为注意力关系图网络模型中的/>个初始节点表征,记作/>,其中当/>时,/>,当时,/>
S6:根据注意力关系图网络模型中的不同节点的相互连接以及作用关系,得到节点间的邻接矩阵和关系矩阵/>,并使用注意力关系图网络模型对邻接矩阵/>和关系矩阵/>进行建模,其中/>为任意两个节点/>之间的边,如果两个节点/>相连则/>为1,否则/>为0,/>表示边/>所标记的值;
S7:的邻接矩阵和关系矩阵/>,将所述注意力关系图网络模型中最后一层输出的节点表征/>和语句/>在步骤S1中对应的编码向量/>进行粘连,得到语句/>的增强隐向量/>,将所述增强隐向量/>通过解码器输出预测向量/>,选择所述预测向量/>中得分最高的情感类别作为语句/>的预测情感类别;
其中利用所述给定数据集的先验参数和/>提取潜在主题分布/>,得到主题特征矩阵/>中,参与的公式具体如下:
其中,表示给定数据集中输入语句/>中第/>个词/>对应词汇表中各单词的预测概率,/>表示给定数据集中输入语句/>中第/>个词/>的主题分布,/>表示可训练的主题特征矩阵,/>表示可训练的向量,/>和/>表示给定数据集的先验参数,/>是一个随机变量,/>表示多层感知器,/>表示给定数据集中输入语句/>对应的独热编码,/>表示独热编码/>的隐含表示,/>为第/>个词/>的隐含表示,词/>为给定数据集中输入语句/>中的词,/>表示对给定数据集中输入语句/>中所有词的进行独热编码。
进一步地,在步骤S1:构建输入对话,将所述输入对话/>编码以得到输入对话/>中所有语句/>的编码向量/>中,具体包括:
将输入对话输入到Roberta编码器中进行编码,得到输入对话C中所有语句的初始编码向量/>
将所有语句对应的初始编码向量输入到/>网络,得到所有语句/>的编码向量/>
进一步地,在步骤S2:利用所述给定数据集的先验参数和/>提取潜在主题分布/>,以无监督方式训练变分自编码器的神经主题模型,得到主题特征矩阵/>中,具体包括:
另外给定数据集,将给定数据集输入到变分自编码器的神经主题模型中,神经主题模型对给定数据集做如下处理:
将给定数据集中的输入语句进行处理得到独热编码/>,将独热编码/>传递到多层感知器得到所述输入语句X的隐含表示/>
基于隐含表示对潜在主题分布Z的先验参数/>和/>进行估计,从先验参数/>和/>表示的主题分布Z中随机抽取/>作为所述输入语句/>的潜在主题表示,其中隐含表示/>为第个词/>的隐含表示,词/>为输入语句X中的词;
基于可训练的主题特征矩阵和可训练的向量/>,对潜在主题表示/>进行线性变换和/>函数运算后,得到词的预测概率/>
以无监督的方式训练所述神经主题模型,然后得到主题特征矩阵的每一行是词汇表中第/>个词嵌入/>,每一列是词汇表中第/>个主题嵌入/>
进一步地,在步骤S3:利用主题特征矩阵将输入对话/>中语句/>的所有词映射为词编码,通过平均池化,得到所述语句/>的编码/>,基于所述编码/>计算每个主题的自注意力系数/>中,具体包括:
利用主题特征矩阵将输入对话/>中语句/>的所有词映射为词编码/>,/>为语句/>中词的总数;
对词编码进行平均池化,获得语句/>的编码/>,语句/>的第/>个主题为编码/>在第/>个维度的数值/>,基于多层感知器对数值/>的维度进行拓展得到拓展向量/>
基于拓展向量和编码向量/>,计算得到每个主题的自注意力系数/>
进一步地,所述编码的公式如下:
其中,表示平均池化,/>表示第/>个语句与第/>个主题相关的概率,/>表示对数值/>的维度进行拓展后得到的拓展向量,/>表示/>函数,/>表示多层感知器,用于将单个概率数值映射为高维度的向量。
进一步地,所述主题记忆力表征的计算公式如下:
其中,为主题特征矩阵/>中的第/>个主题嵌入,/>表示多层感知器,用于将每个主题嵌入映射为向量/>的维度,/>表示主题的个数。
进一步地,在步骤S6中,具体包括:
根据注意力关系图网络模型中的不同节点的相互连接以及作用关系,得到节点间的邻接矩阵和关系矩阵/>
基于邻接矩阵和关系矩阵/>,利用注意力关系图网络模型/>对/>个初始节点进行建模,其中/>中的每一节点对/>都可映射到邻接矩阵/>中的一个元素/>,而元素/>可映射到关系矩阵/>中的一个元素/>
所述关系矩阵中元素的值有三种类型:话语-话语、主题-主题、主题-话语,所述三种类型作为注意力关系图网络模型的边类型,每个所述边类型包括不同种类的值;
对于边类型为话语-话语,根据节点对对应的语句对/>在对话/>中是否相邻、在对话/>中的先后顺序、是否来自同一说话者,得到八种类型的值:相邻-将来-自身,相邻-将来-其他人,相邻-过去-自身,相邻-过去-其他人,远离-将来-自身,远离-将来-其他人,远离-过去-自身,远离-过去-其他人;
对于边类型为主题-主题,根据节点对对应的语句对/>在对话/>中是否相邻,得到四种类型的值:相邻-将来,相邻-过去,远离-将来,远离-过去;
对于边类型为主题-话语,引入单独类型的值:影响。
进一步地,在步骤S7中,对于每个节点表征,将与节点/>有连接的其他节点的信息聚合到节点/>中,输出更新后的节点表征/>
其中,表示节点/>在第/>层注意力关系图网络模型中对应的节点表征,/>为节点/>在第/>层注意力关系图网络模型中对应的节点表征,/>是与节点/>有连接的其他节点的集合,/>是关系矩阵/>中起始节点为/>的可能值的集合,/>是注意力关系图网络模型第/>层中用于自连接的矩阵,/>是第/>层注意力关系图网络模型中,当前节点/>在关系/>条件下用于提取其他节点/>信息的矩阵,/>为节点/>在第/>层注意力关系图网络模型中对应的节点表征,/>为节点/>在第/>层注意力关系图网络模型中对应的节点表征,/>表示第/>层注意力关系图网络模型中节点/>对/>聚合信息系数,/>表示节点/>与/>之间是否有连接,如果有连接则/>为0,否则/>为1,/>表示节点/>与/>之间是否有连接,如果有连接则/>为0,否则/>为1,/>表示注意力关系图网络模型中所有节点的集合;/>表示/>中第/>个节点。
进一步地,所述增强隐向量计算公式如下:
预测向量的计算公式如下:
其中,的每个维度的值表示对应维度代表的情感类别的打分,/>和/>为可预测的向量,用于将增强隐向量/>维度映射到情感类别的数量,/>表示张量之间的连接。
进一步地,通过损失函数训练卷积联合模型收敛到最佳状态,具体为:
将输入对话中所有语句/>对应的预测向量/>进行聚合,得到预测向量集合/>
将预测向量集合与输入对话/>对应的真实情感类别集/>求取交叉熵,得到卷积联合模型的损失函数,通过最小化所述损失函数,使卷积联合模型达到收敛状态;
所述损失函数公式如下:
其中,为情感总数,/>表示卷积联合模型预测语句/>属于情感类别集合为/>中第/>个情感/>的概率,/>表示语句/>实际是否属于情感类别/>,若属于则/>为1,否则为0。
本发明提供的一种基于卷积联合模型的对话情感识别方法的优点在于:本发明结构中提供的一种基于卷积联合模型的对话情感识别方法,利用神经主题模型提取语句主题特征,使得具有相似主题的对话语句可以互相利用各自的上下文信息进行联合推理,解决对话主题跳转多、信息冗余等问题,提升话语语句表征质量;通过注意力关系图网络模型实现关系驱动的语句信息和主题信息的融合,获得增强的特征表示,提升了注意力关系图网络模型对于对话进行情感识别的性能。
附图说明
图1为本发明的结构示意图;
图2为卷积联合模型的构建框架图。
具体实施方式
下面,通过具体实施例对本发明的技术方案进行详细说明,在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
如图1和2所示,本发明提出的一种基于卷积联合模型的对话情感识别方法,将对话中语句输入到已训练完成的卷积联合模型中,以输出对话中语句对应的情感类别;所述卷积联合模型包括依次连接的编辑器、神经主题模型、注意力关系图网络模型和解码器,以通过解码器输出,情感类别。
本实施例利用神经主题模型(主体为变分自编码器)引入外部主题知识提取各语句的主题特征,并通过注意力关系图网络模型实现语句之间,主题特征之间,以及语句和主题特征之间的关系建模,充分利用了语句的隐含主题信息强化对话语句间的信息交互以及其特征表示,促进解码器预测出情感类别,利用卷积联合模型输出情感类别具体如下:
为便于对卷积联合模型训练过程进行细致的描述,引入如下符号标记:
情感类别集合为,其中/>为第/>个情感,/>为情感总数;
输入对话记为,其中/>为对话中第/>个语句,/>为对话中语句的总数;
输入对话对应的真实情感类别集记为/>,其中表示语句/>是否对应于情感类别/>
记注意力关系图网络模型为,其中E为注意力关系图网络模型中节点集合,A为节点间的邻接矩阵,R为节点间的关系矩阵,注意力关系图网络模型的层数记为L。
所述卷积联合模型的训练过程如下:
S1:构建输入对话,将所述输入对话/>编码以得到输入对话/>中所有语句/>的编码向量/>,/>n为对话中语句的总数,具体包括步骤S11至S12;
S11:将输入对话中/>个语句输入到Roberta编码器中进行编码,得到输入对话/>中所有语句的初始编码向量/>
S12:将所有语句对应的初始编码向量输入到/>网络,得到所有语句/>的编码向量/>,其中/>网络是现有的双向长短记忆网络;
通过步骤S11至S12对输入对话中/>个语句进行编码。Roberta编码器通过深层次的文本编码和丰富的语义表示帮助BiLSTM(双向长短期记忆网络)模型更好地理解语句中的词语和语义信息;而BiLSTM模型则通过序列建模和长期依赖建模能力捕捉对话的上下文结构和语句间的长距离依赖关系;结合二者(Roberta编码器和BiLSTM模型),可以更好地处理语句中的复杂语义关系,从而提高语句编码的质量和表达能力。
S2:利用所述给定数据集的先验参数和/>提取潜在主题分布/>,以无监督方式训练变分自编码器的神经主题模型,得到主题特征矩阵/>,其中/>和/>分别表示词汇表大小和主题的个数;
另外给定数据集,将给定数据集输入到变分自编码器的神经主题模型中,神经主题模型对给定数据集做如下处理,具体包括步骤S21至S4:
S21:另外给定数据集,将给定数据集中的输入语句进行处理得到独热编码/>,将独热编码/>传递到多层感知器得到所述输入语句/>的隐含表示/>
其中,表示给定数据集中语句/>对应的独热编码,/>表示多层感知器,,/>表示独热编码/>的隐含表示,/>表示对输入语句/>中所有词的进行独热编码;
需要说明的是,该另外给定数据集与构建输入对话不属于同一训练集,另外给定数据集具体可以表示为另外输入语句/>,/>(/>)表示输入语句/>中的词(该词具体与输入语句/>中的字是对应的)。
S22:基于隐含表示对潜在主题分布Z的先验参数/>和/>进行估计,从先验参数/>和/>表示的主题分布Z中随机抽取/>作为所述输入语句/>的潜在主题表示,其中隐含表示/>为第/>个词/>的隐含表示,词/>为输入语句X中的词,具体为:
其中,和/>表示给定数据集的先验参数,/>是一个随机变量,可以理解的是,/>是第/>个词/>在/>中对应的隐含表示;
S23:基于可训练的主题特征矩阵和可训练的向量/>,对潜在主题表示/>进行线性变换和/>函数运算后,得到词的预测概率/>
其中,表示输入语句第/>个词/>对应词汇表中各单词的预测概率,可用于后续基于VAE无监督的方式训练神经主题模型中参数学习;/>为输入语句第/>个词/>的主题分布,可用于参与后续基于VAE无监督的方式训练神经主题模型中参数学习;表示可训练的主题特征矩阵,/>表示可训练的向量,在神经主题模型训练过程中优化/>和/>这两个可学习参数,以使得神经主题模型达到期望输出;
S24:以无监督的方式训练所述神经主题模型,然后得到主题特征矩阵,/>的每一行是词汇表中第/>个词嵌入/>,每一列是主题词表中第/>个主题嵌入/>
步骤S21中给定数据集经过S21至S23的数据处理后作为步骤S24中神经主题模型的输入,并以无监督的方式对神经主题模型进行训练。
其中,和/>分别为词汇表大小和主题的个数,/>的每一行都可以看作是特定单词的一个词嵌入(设第/>个词嵌入为/>),嵌入的每一个维度都对应于该词与某个特定主题相关的概率值,同样的,/>的每一列都可以看作是对某个特定主题的一个主题嵌入(设第/>个主题嵌入为/>),其每个维度都对应于该主题与某个特定词相关的概率值。
通过步骤S21至S24,对主题模型的主题特征矩阵进行训练,训练得到的主题特征矩阵每一行代表词的嵌入,每一列代表主题的嵌入,因此词的表征和主题的表征通过主题特征矩阵被自然地联系起来;主题特征矩阵的每个元素描述了某对词与主题之间的相关性,而词的表征和主题的表征只是主题特征矩阵的信息在不同维度的体现;利用得到的主题特征矩阵,可以对某个词表征(语句表征)求得它对应的主题表征,该主题表征每个维度的值代表该词(语句)与各个主题相关的概率值。
S3:利用主题特征矩阵将输入对话/>中语句/>的所有词映射为词编码,通过平均池化,得到所述语句/>的编码/>,基于所述编码/>计算每个主题的自注意力系数/>,具体包括步骤S31至S33:
S31:利用主题特征矩阵将输入对话/>中语句/>的所有词映射为词编码/>,/>为语句/>中词的总数;
S32:对词编码进行平均池化,获得语句/>的编码/>,语句/>的第/>个主题为编码/>在第/>个维度的数值/>,基于多层感知器对数值/>的维度进行拓展得到拓展向量
由于编码是所有主题特征矩阵投射的词编码/>平均池化后的结果,编码/>也保留了词编码/>的特性,即每个维度表示与某个主题的相关性,即:编码/>是语句/>的编码向量,它的每个维度代表/>与相应主题相关的概率/>,即/>为向量表示,/>为数值表示;
其中,表示平均池化,/>表示第/>个语句与第/>个主题相关的概率,/>表示对数值/>的维度进行拓展后得到的拓展向量,/>表示/>函数,/>表示多层感知器,用于将单个概率数值映射为高维度的向量。
S33:基于拓展向量和编码向量/>,计算得到每个主题的自注意力系数/>
其中,表示/>函数,/>表示多层感知器。
S4:利用多层感知器计算主题特征矩阵中每个主题的表征,得到主题记忆力表征/>,利用自注意力系数/>对所述主题记忆力表征/>进行聚合得到语句/>的主题表征向量/>
其中,为主题特征矩阵/>中的第/>个主题嵌入,/>表示多层感知器,用于将每个主题嵌入映射为向量/>的维度,/>表示主题的个数;需要说明的是,/>与主题特征矩阵有关,即与/>有关,和语句编码/>不同。
通过步骤S2至S4对神经主题模型中的主题特征矩阵进行训练以及话语主题特征提取(主题表征向量),实现对神经主题模型的有效训练。
步骤S2至S4提供了一种神经主题模型增强对话语句表征机制,利用神经主题模型提取语句主题特征,使得具有相似主题的对话语句可以互相利用各自的上下文信息进行联合推理,解决对话主题跳转多、信息冗余等问题,提升话语语句表征质量。
S5:将输入对话中/>个语句和对应的/>个主题特征作为注意力关系图网络模型的节点,同时将语句的编码向量/>和主题表征向量/>作为注意力关系图网络模型中的/>个初始节点表征,记作/>,其中当/>时,/>,当时,/>
S6:根据注意力关系图网络模型中的不同节点的相互连接以及作用关系,得到节点间的邻接矩阵和关系矩阵/>,并使用注意力关系图网络模型对邻接矩阵/>和关系矩阵/>进行建模,其中/>为任意两个节点/>之间的边,如果两个节点/>相连则/>为1,否则/>为0,/>表示边/>所标记的值,具体包括:
S61:根据注意力关系图网络模型中的不同节点的相互连接以及作用关系,得到节点间的邻接矩阵和关系矩阵/>
S62:基于邻接矩阵和关系矩阵/>,为充分利用对话中各语句以及各主题特征之间的关系,利用注意力关系图网络模型/>对/>个初始节点进行建模,其中/>中的每一节点对/>都可映射到邻接矩阵/>中的一个元素/>,而元素/>可映射到关系矩阵/>中的一个元素/>
其中,所述关系矩阵中元素的值有三种类型:话语-话语、主题-主题、主题-话语,所述三种类型作为注意力关系图网络模型的边类型,每个所述边类型包括不同种类的值;
对于边类型为话语-话语,根据节点对对应的语句对/>在对话/>中是否相邻、在对话/>中的先后顺序、是否来自同一说话者,得到八种类型的值:相邻-将来-自身,相邻-将来-其他人,相邻-过去-自身,相邻-过去-其他人,远离-将来-自身,远离-将来-其他人,远离-过去-自身,远离-过去-其他人;
对于边类型为主题-主题,根据节点对对应的语句对/>在对话/>中是否相邻,得到四种类型的值:相邻-将来,相邻-过去,远离-将来,远离-过去;
对于边类型为主题-话语,引入单独类型的值:影响。
S7:基于邻接矩阵和关系矩阵/>,将所述注意力关系图网络模型中最后一层输出的节点表征/>和语句/>在步骤S1中对应的编码向量/>进行粘连,得到语句/>的增强隐向量/>,将所述增强隐向量/>通过解码器输出预测向量/>,选择所述预测向量/>中得分最高的情感类别作为语句/>的预测情感类别;
对于每个节点表征,将与节点/>有连接的其他节点/>的信息聚合到节点中,输出更新后的节点表征/>
其中,表示节点/>在第/>层注意力关系图网络模型中对应的节点表征,/>为节点/>在第/>层注意力关系图网络模型中对应的节点表征,/>是与节点/>有连接的其他节点的集合,/>是关系矩阵/>中起始节点为/>的可能值的集合,/>是注意力关系图网络模型第/>层中用于自连接的矩阵,/>是第/>层注意力关系图网络模型中,当前节点/>在关系/>条件下用于提取其他节点/>信息的矩阵,/>为节点/>在第/>层注意力关系图网络模型中对应的节点表征,/>为节点/>在第/>层注意力关系图网络模型中对应的节点表征,/>表示第/>层注意力关系图网络模型中节点/>对/>聚合信息系数,/>表示节点/>与/>之间是否有连接,如果有连接则/>为0,否则/>为1,/>表示节点/>与/>之间是否有连接,如果有连接则/>为0,否则/>为1,/>表示注意力关系图网络模型中所有节点的集合;/>表示/>中第/>个节点,/>表示张量之间的连接。
根据步骤S5至S7,通过注意力关系图网络模型实现关系驱动的对话语句信息和主题信息的融合,获得增强的特征表示,提升了注意力关系图网络模型对于对话进行情感识别的性能。
通过步骤S1至S7将神经主题模型和注意力关系图网络模型进行联合,神经主体模型输出的主题表征向量参与到注意力关系图网络模型的初始节点表征中,使得最终的卷积联合模型可以有效实现对对话情感的识别准确性和高效性。
在本实施例中,通过损失函数训练卷积联合模型收敛到最佳状态,具体为:
将输入对话中所有语句/>对应的预测向量/>进行聚合,得到预测向量集合/>
将预测向量集合与输入对话/>对应的真实情感类别集/>求取交叉熵,得到卷积联合模型的损失函数,通过最小化所述损失函数,使卷积联合模型达到收敛状态;
所述损失函数公式如下:
其中为情感总数,/>表示卷积联合模型预测语句/>属于情感类别集合为/>中第/>个情感/>的概率,/>表示语句/>实际是否属于情感类别/>,若属于则/>为1,否则为0。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于卷积联合模型的对话情感识别方法,其特征在于,所述卷积联合模型包括神经主题模型和注意力关系图网络模型,所述对话情感识别方法包括如下步骤:将对话中语句输入到已训练完成的卷积联合模型中,以输出对话中语句对应的情感类别;
所述卷积联合模型的训练过程如下:
S1:构建输入对话,将所述输入对话/>编码以得到输入对话/>中所有语句/>的编码向量/>,/>,/>为对话中语句的总数;
S2:利用给定数据集的先验参数和/>提取潜在主题分布/>,以无监督方式训练变分自编码器的神经主题模型,得到主题特征矩阵/>,其中/>和/>分别表示词汇表大小和主题的个数;
S3:利用主题特征矩阵将输入对话/>中语句/>的所有词映射为词编码,通过平均池化,得到所述语句/>的编码/>,基于所述编码/>计算每个主题的自注意力系数/>
S4:利用多层感知器计算主题特征矩阵中每个主题的表征,得到主题记忆力表征,利用自注意力系数/>对所述主题记忆力表征/>进行聚合得到语句/>的主题表征向量/>
S5:将输入对话中/>个语句和对应的/>个主题特征作为注意力关系图网络模型的节点,同时将语句的编码向量/>和主题表征向量/>作为注意力关系图网络模型中的/>个初始节点表征,记作/>,其中当/>时,/>,当时,/>
S6:根据注意力关系图网络模型中的不同节点的相互连接以及作用关系,得到节点间的邻接矩阵和关系矩阵/>,并使用注意力关系图网络模型对邻接矩阵/>和关系矩阵/>进行建模,其中/>为任意两个节点/>之间的边,如果两个节点/>相连则/>为1,否则/>为0,/>表示边/>所标记的值;
S7:基于邻接矩阵和关系矩阵/>,将所述注意力关系图网络模型中最后一层输出的节点表征/>和语句/>在步骤S1中对应的编码向量/>进行粘连,得到语句/>的增强隐向量/>,将所述增强隐向量/>通过解码器输出预测向量/>,选择所述预测向量/>中得分最高的情感类别作为语句/>的预测情感类别;
其中利用所述给定数据集的先验参数和/>提取潜在主题分布/>,得到主题特征矩阵中,参与的公式具体如下:
其中,表示给定数据集中输入语句/>中第/>个词/>对应词汇表中各单词的预测概率,表示给定数据集中输入语句/>中第/>个词/>的主题分布,/>表示可训练的主题特征矩阵,表示可训练的向量,/>和/>表示给定数据集的先验参数,/>是一个随机变量,表示多层感知器,/>表示给定数据集中输入语句/>对应的独热编码,/>表示独热编码/>的隐含表示,/>为第/>个词/>的隐含表示,词/>为给定数据集中语句/>中的词,表示对给定数据集中输入语句/>中所有词的进行独热编码。
2.根据权利要求1所述的基于卷积联合模型的对话情感识别方法,其特征在于,在步骤S1:构建输入对话,将所述输入对话/>编码以得到输入对话/>中所有语句/>的编码向量/>中,具体包括:
将输入对话输入到Roberta编码器中进行编码,得到输入对话/>中所有语句的初始编码向量/>
将所有语句对应的初始编码向量输入到/>网络,得到所有语句/>的编码向量
3.根据权利要求1所述的基于卷积联合模型的对话情感识别方法,其特征在于,在步骤S2:利用所述给定数据集的先验参数和/>提取潜在主题分布/>,以无监督方式训练变分自编码器的神经主题模型,得到主题特征矩阵/>中,具体包括:
另外给定数据集,将给定数据集输入到变分自编码器的神经主题模型中,神经主题模型对给定数据集做如下处理:
将给定数据集中的输入语句进行处理得到独热编码/>,将独热编码/>传递到多层感知器得到所述输入语句/>的隐含表示/>
基于隐含表示对潜在主题分布Z的先验参数/>和/>进行估计,从先验参数/>和/>表示的主题分布Z中随机抽取/>作为所述输入语句/>的潜在主题表示,其中隐含表示/>为第/>个词的隐含表示,词/>为输入语句/>中的词;
基于可训练的主题特征矩阵和可训练的向量/>,对潜在主题表示/>进行线性变换和/>函数运算后,得到词的预测概率/>
以无监督的方式训练所述神经主题模型,然后得到主题特征矩阵,/>的每一行是词汇表中第/>个词嵌入/>,每一列是词汇表中第/>个主题嵌入/>
4.根据权利要求1所述的基于卷积联合模型的对话情感识别方法,其特征在于,在步骤S3:利用主题特征矩阵将输入对话/>中语句/>的所有词映射为词编码,通过平均池化,得到所述语句/>的编码/>,基于所述编码/>计算每个主题的自注意力系数/>中,具体包括:
利用主题特征矩阵将输入对话/>中语句/>的所有词映射为词编码/>,/>为语句/>中词的总数;
对词编码进行平均池化,获得语句/>的编码/>,语句/>的第/>个主题为编码/>在第/>个维度的数值/>,基于多层感知器对数值/>的维度进行拓展得到拓展向量/>
基于拓展向量和编码向量/>,计算得到每个主题的自注意力系数/>
5.根据权利要求4所述的基于卷积联合模型的对话情感识别方法,其特征在于,所述编码的公式如下:
其中,表示平均池化,/>表示/>函数,/>表示第/>个语句与第/>个主题相关的概率,/>表示对数值/>的维度进行拓展后得到的拓展向量,表示多层感知器,用于将单个概率数值映射为高维度的向量。
6.根据权利要求4所述的基于卷积联合模型的对话情感识别方法,其特征在于,所述主题记忆力表征的计算公式如下:
其中,为主题特征矩阵/>中的第/>个主题嵌入,/>表示多层感知器,用于将每个主题嵌入映射为向量/>的维度,/>表示主题的个数。
7.根据权利要求1所述的基于卷积联合模型的对话情感识别方法,其特征在于,在步骤S6中,具体包括:
根据注意力关系图网络模型中的不同节点的相互连接以及作用关系,得到节点间的邻接矩阵和关系矩阵/>
基于邻接矩阵和关系矩阵/>,利用注意力关系图网络模型/>对/>个初始节点进行建模,其中/>中的每一节点对/>都可映射到邻接矩阵/>中的一个元素/>,而元素/>可映射到关系矩阵/>中的一个元素/>
所述关系矩阵中元素的值有三种类型:话语-话语、主题-主题、主题-话语,所述三种类型作为注意力关系图网络模型的边类型,每个所述边类型包括不同种类的值;
对于边类型为话语-话语,根据节点对对应的语句对/>在对话/>中是否相邻、在对话/>中的先后顺序、是否来自同一说话者,得到八种类型的值:相邻-将来-自身,相邻-将来-其他人,相邻-过去-自身,相邻-过去-其他人,远离-将来-自身,远离-将来-其他人,远离-过去-自身,远离-过去-其他人;
对于边类型为主题-主题,根据节点对对应的语句对/>在对话/>中是否相邻,得到四种类型的值:相邻-将来,相邻-过去,远离-将来,远离-过去;
对于边类型为主题-话语,引入单独类型的值:影响。
8.根据权利要求7所述的基于卷积联合模型的对话情感识别方法,其特征在于,在步骤S7中,对于每个节点表征,将与节点/>有连接的其他节点/>的信息聚合到节点/>中,输出更新后的节点表征/>
其中,表示节点/>在第/>层注意力关系图网络模型中对应的节点表征,/>为节点/>在第/>层注意力关系图网络模型中对应的节点表征,/>是与节点/>有连接的其他节点的集合,/>是关系矩阵/>中起始节点为/>的可能值的集合,/>是注意力关系图网络模型第/>层中用于自连接的矩阵,/>是第/>层注意力关系图网络模型中,当前节点/>在关系/>条件下用于提取其他节点/>信息的矩阵,/>为节点/>在第/>层注意力关系图网络模型中对应的节点表征,/>为节点/>在第/>层注意力关系图网络模型中对应的节点表征,/>表示第/>层注意力关系图网络模型中节点/>对/>聚合信息系数,表示节点/>与/>之间是否有连接,如果有连接则/>为0,否则/>为1,/>表示节点与/>之间是否有连接,如果有连接则/>为0,否则/>为1,/>表示注意力关系图网络模型中所有节点的集合,/>表示/>中第/>个节点。
9.根据权利要求7所述的基于卷积联合模型的对话情感识别方法,其特征在于,所述增强隐向量计算公式如下:
预测向量的计算公式如下:
其中,每个维度的值表示对应维度代表的情感类别的打分,/>和/>为可预测的向量,用于将增强隐向量/>维度映射到情感类别的数量,/>表示张量之间的连接。
10.根据权利要求9所述的基于卷积联合模型的对话情感识别方法,其特征在于,通过损失函数训练卷积联合模型收敛到最佳状态,具体为:
将输入对话中所有语句/>对应的预测向量/>进行聚合,得到预测向量集合/>
将预测向量集合与输入对话/>对应的真实情感类别集/>求取交叉熵,得到卷积联合模型的损失函数,通过最小化所述损失函数,使卷积联合模型达到收敛状态;
所述损失函数公式如下:
其中,为情感总数,/>表示卷积联合模型预测语句/>属于情感类别集合/>中第/>个情感/>的概率,/>表示语句/>实际是否属于情感类别/>,若属于则/>为1,否则/>为0。
CN202310443460.0A 2023-04-24 2023-04-24 一种基于卷积联合模型的对话情感识别方法 Active CN116258134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310443460.0A CN116258134B (zh) 2023-04-24 2023-04-24 一种基于卷积联合模型的对话情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310443460.0A CN116258134B (zh) 2023-04-24 2023-04-24 一种基于卷积联合模型的对话情感识别方法

Publications (2)

Publication Number Publication Date
CN116258134A CN116258134A (zh) 2023-06-13
CN116258134B true CN116258134B (zh) 2023-08-29

Family

ID=86679580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310443460.0A Active CN116258134B (zh) 2023-04-24 2023-04-24 一种基于卷积联合模型的对话情感识别方法

Country Status (1)

Country Link
CN (1) CN116258134B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200119410A (ko) * 2019-03-28 2020-10-20 한국과학기술원 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법
CN112445898A (zh) * 2019-08-16 2021-03-05 阿里巴巴集团控股有限公司 对话情感分析方法及装置、存储介质及处理器
WO2021132797A1 (ko) * 2019-12-27 2021-07-01 한국과학기술원 반지도 학습 기반 단어 단위 감정 임베딩과 장단기 기억 모델을 이용한 대화 내에서 발화의 감정 분류 방법
WO2021139107A1 (zh) * 2020-01-10 2021-07-15 平安科技(深圳)有限公司 情感智能识别方法、装置、电子设备及存储介质
CN114385802A (zh) * 2022-01-10 2022-04-22 重庆邮电大学 一种融合主题预测和情感推理的共情对话生成方法
CN114911932A (zh) * 2022-04-22 2022-08-16 南京信息工程大学 基于主题语义增强的异构图结构多会话者情感分析方法
CN115600581A (zh) * 2022-12-13 2023-01-13 中国科学技术大学(Cn) 一种使用句法信息的受控文本生成方法
CN115841119A (zh) * 2023-02-21 2023-03-24 中国科学技术大学 一种基于图结构的情绪原因提取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200119410A (ko) * 2019-03-28 2020-10-20 한국과학기술원 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법
CN112445898A (zh) * 2019-08-16 2021-03-05 阿里巴巴集团控股有限公司 对话情感分析方法及装置、存储介质及处理器
WO2021132797A1 (ko) * 2019-12-27 2021-07-01 한국과학기술원 반지도 학습 기반 단어 단위 감정 임베딩과 장단기 기억 모델을 이용한 대화 내에서 발화의 감정 분류 방법
WO2021139107A1 (zh) * 2020-01-10 2021-07-15 平安科技(深圳)有限公司 情感智能识别方法、装置、电子设备及存储介质
CN114385802A (zh) * 2022-01-10 2022-04-22 重庆邮电大学 一种融合主题预测和情感推理的共情对话生成方法
CN114911932A (zh) * 2022-04-22 2022-08-16 南京信息工程大学 基于主题语义增强的异构图结构多会话者情感分析方法
CN115600581A (zh) * 2022-12-13 2023-01-13 中国科学技术大学(Cn) 一种使用句法信息的受控文本生成方法
CN115841119A (zh) * 2023-02-21 2023-03-24 中国科学技术大学 一种基于图结构的情绪原因提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于神经主题模型的对话情感分析;王建成;徐扬;刘启元;吴良庆;李寿山;;中文信息学报(第01期);全文 *

Also Published As

Publication number Publication date
CN116258134A (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN113254803B (zh) 一种基于多特征异质图神经网络的社交推荐方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN109472031B (zh) 一种基于双记忆注意力的方面级别情感分类模型及方法
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109543180B (zh) 一种基于注意力机制的文本情感分析方法
CN107145977B (zh) 一种对在线社交网络用户进行结构化属性推断的方法
CN112508085B (zh) 基于感知神经网络的社交网络链路预测方法
CN110032630B (zh) 话术推荐设备、方法及模型训练设备
CN108363695B (zh) 一种基于双向依赖语法树表征的用户评论属性抽取方法
CN109522545B (zh) 一种对多轮对话连贯性质量的评估方法
WO2019165944A1 (zh) 基于转移概率网络的商户推荐方法及其系统
CN111414476A (zh) 一种基于多任务学习的属性级情感分析方法
CN111274375A (zh) 一种基于双向gru网络的多轮对话方法及系统
CN111274398A (zh) 一种方面级用户产品评论情感分析方法及系统
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN111444399B (zh) 回复内容的生成方法、装置、设备及可读存储介质
CN113435211B (zh) 一种结合外部知识的文本隐式情感分析方法
CN114625882B (zh) 提高图像文本描述独特多样性的网络构建方法
CN115841119B (zh) 一种基于图结构的情绪原因提取方法
CN110472245B (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN112612871A (zh) 一种基于序列生成模型的多事件检测方法
CN109614611B (zh) 一种融合生成非对抗网络与卷积神经网络的情感分析方法
CN112347756A (zh) 一种基于序列化证据抽取的推理阅读理解方法及系统
CN113987167A (zh) 基于依赖感知图卷积网络的方面级情感分类方法及系统
Zhang et al. TS-GCN: Aspect-level sentiment classification model for consumer reviews

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant