CN116108856B - 基于长短回路认知与显隐情感交互的情感识别方法及系统 - Google Patents

基于长短回路认知与显隐情感交互的情感识别方法及系统 Download PDF

Info

Publication number
CN116108856B
CN116108856B CN202310107383.1A CN202310107383A CN116108856B CN 116108856 B CN116108856 B CN 116108856B CN 202310107383 A CN202310107383 A CN 202310107383A CN 116108856 B CN116108856 B CN 116108856B
Authority
CN
China
Prior art keywords
emotion
long
representing
loop
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310107383.1A
Other languages
English (en)
Other versions
CN116108856A (zh
Inventor
帖千枫
徐向民
陈艺荣
邢晓芬
王琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202310107383.1A priority Critical patent/CN116108856B/zh
Publication of CN116108856A publication Critical patent/CN116108856A/zh
Application granted granted Critical
Publication of CN116108856B publication Critical patent/CN116108856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于长短回路认知与显隐情感交互的情感识别方法及系统,该方法步骤包括:提取对话情感数据集的句子特征向量和说话人序列信息;构建三种长短回路认知关系图,将三种长短回路认知关系图通过邻接矩阵转置再加上单位矩阵,变为对应的长短回路认知关系掩码,将对话的句子特征向量拼接得到话语特征序列,话语特征序列输入到语义编码器中得到情绪的语义特征向量,构建历史情感序列后输入情绪解码器中得到目标话语的情绪特征向量,将目标话语的语义特征向量和情绪特征向量融合,经过softmax函数分类后,选取预测概率最大的类的下标得到预测的情绪。本发明对情感序列进行显式和隐式建模,同时具有隐性和显性建模的优势。

Description

基于长短回路认知与显隐情感交互的情感识别方法及系统
技术领域
本发明涉及对话情感分析领域,具体涉及一种基于长短回路认知与显隐情感交互的情感识别方法及系统。
背景技术
当前的对话情感分析研究主要关注建模上下文敏感和说话人敏感的依赖关系,比如早期工作大多使用了记忆网络和循环神经网络,之后的工作则大部分和图神经网络思想结合来进行更加可解释的建模。但除此之外,对于情绪交互的建模也很重要。目前现有的方案主要单独采用显式或隐式的方法对情感序列进行建模,其中显式的情感交互建模可以强化情感类别之间的情感转换关系,但也会导致从一个时刻到下一个时刻的错误预测的积累;另一方面,对情感交互进行隐式建模可以更多地考虑与情感相关的语境语义,但在对情感过渡进行显著建模方面存在困难。
此外,也有研究结合心理学知识进行这类对话情感分析任务,比如有研究依据情绪认知理论,通过多轮推理模块来提取和整合情绪线索,也有研究建立能模拟话语动机和意图的心理学知识感知交互图,但这些研究较少考虑到人脑产生情绪的长短回路机制。基于浅层的认知注意与高层的认知推理,大脑对外界刺激的认知结果通过大脑中的杏仁体实现融合和整理,并最终输出与刺激对应的情感响应。杏仁体处理情感信息具有时序特性的长短回路机制,短回路对应先天性原始情绪反应,即个体对最近的一次外界刺激作出反应。长回路对应于后天性个体情绪响应,即个体依赖自身性格和记忆等后天性因素进行认知推理,这些后天性因素不仅体现在个体自身的历史话语中,也体现在该个体和其他客体的交互过程中,人脑的长短回路机制在产生情绪时是一个重要因素。
综上所述,许多研究在建模上下文依赖和说话人依赖方面做出了很多贡献,但对显隐式情感交互并结合长短回路机制实现情感识别的方案,在现有方案中却很少涉及到,从而会影响情感识别的准确性。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于长短回路认知与显隐情感交互的情感识别方法及系统,本发明基于语义编码器和情绪解码器对情感序列进行显式和隐式建模,情绪解码器中通过情绪的迭代预测过程显式地模拟情绪交互,同时结合由基于语义编码器产生的隐式情绪表征,同时具有隐性和显性建模的优势。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于长短回路认知与显隐情感交互的情感识别方法,包括下述步骤:
提取对话情感数据集中的句子特征向量;
提取对话情感数据集中的说话人序列信息,构建三种长短回路认知关系图,包括短回路认知关系图、主体长回路关系图和主客体交互长回路关系图,将每段对话的话语作为关系图的节点,所述短回路认知关系图的边集合由从前一句话连接到后一句话的边组成,所述主体长回路关系图的边集合由同一个说话人前序话语连接到该说话人后续的话语的边组成,所述主客体交互长回路关系图的边集合由不同说话人说出的、前序话语连接到后续话语的边组成;
将三种长短回路认知关系图通过邻接矩阵转置再加上单位矩阵,变为对应的长短回路认知关系掩码,包括短回路掩码、主体长回路掩码和主客体交互长回路掩码;
将对话的句子特征向量拼接得到话语特征序列,所述话语特征序列输入到语义编码器中,得到情绪的语义特征向量,所述语义编码器的主体结构基于transformer编码器,其中多头自注意力部分融合长短回路认知关系掩码;
构建历史情感序列,将历史情感序列输入情绪解码器中得到目标话语的情绪特征向量,所述情绪解码器主体结构基于Transformer解码器,其中多头自注意力部分融合长短回路认知关系掩码;
将目标话语的语义特征向量和情绪特征向量融合,经过softmax函数分类后,选取预测概率最大的类的下标得到预测的情绪。
作为优选的技术方案,短回路认知关系图表示为:
其中,表示话语节点集合,/>表示短回路认知关系图的边的集合,边/>表示话语/>和话语/>间的联系;
主体长回路关系图表示为:
其中,表示主体长回路关系图的边的集合,/>和/>分别表示说出第ij句话的对象主体;
主客体交互长回路关系图表示为:
其中,表示主客体交互长回路关系图的边的集合。
作为优选的技术方案,所述将三种长短回路认知关系图通过邻接矩阵转置再加上单位矩阵,变为对应的长短回路认知关系掩码,具体表示为:
其中,表示对应的长短回路认知关系掩码,/>表示长短回路认知关系图,/>表示将图改变为邻接矩阵的形式,/>表示单位矩阵。
作为优选的技术方案,所述将对话的句子特征向量拼接得到话语特征序列,具体表示为:
其中,表示输入的句子特征向量序列,/>表示从话语/>得到的特征向量,/>表示进行位置编码的位置嵌入模块。
作为优选的技术方案,所述语义编码器的主体结构基于transformer编码器,其中多头自注意力部分融合长短回路认知关系掩码,具体表示为:
长短回路认知关系掩码自注意力机制设计如下:
其中,Q、K、V、表示输入序列经过线性变换后得到的query,key和value以及缩放因子;
使用多头自注意力不同的头分别实现三种关系掩码自注意力,然后将输出连接起来,具体表示为:
其中,表示第l层转换块第i个注意力头的参数矩阵,/>表示第l层转换块和拼接后的输出相乘的参数矩阵,/>表示第l层的输入,/>表示多头自注意力不同的头;
所述语义编码器包括多层语义编码模块,其中一个语义编码模块定义如下:
其中,表示上一层的输出,/>表示该层的中间状态,/>则表示该层的输出,表示关系掩码,最后一个语义编码模块的输出/>即为语义特征向量。
作为优选的技术方案,所述构建历史情感序列,具体包括:
使用先前预测的情绪序列加上代表序列开始的符号作为输入,即
加入位置嵌入以加强其位置信息得到情绪解码器输入,表示为:
其中,表示序列的开始位置,/>表示预测的话语/>的情绪类别,/>表示进行位置编码的位置嵌入模块。
作为优选的技术方案,所述情绪解码器包括多层情绪解码模块,每层情绪解码模块如以下公式表示:
其中,表示上一层的输出,/>和/>表示该层的两个中间状态,/>表示该层的输出,/>表示关系掩码上方填充了一行0值,左边填充了一列1值,/>表示多头注意力;
长短回路认知关系掩码自注意力机制设计如下:
其中,Q、K、V、表示输入序列经过线性变换后得到的query,key和value以及缩放因子;
使用多头自注意力不同的头分别实现三种关系掩码自注意力,然后将输出连接起来,具体表示为:
其中,表示第l层转换块第i个注意力头的参数矩阵,/>表示第l层转换块和拼接后的输出相乘的参数矩阵,/>表示第l层的输入,/>表示多头自注意力不同的头。
作为优选的技术方案,所述将目标话语的语义特征向量和情绪特征向量融合,经过softmax函数分类后,通过取预测概率最大的类的下标得到预测的情绪,具体表示为:
其中,表示情绪解码器最后一层的输出,/>表示语义编码器最后一层的输出,/>表示最终显隐式信息融合后的特征向量;
将话语对应的最终显隐式信息融合后的特征向量/>传入线性层,经过softmax函数分类后,通过取预测概率最大的类的下标得到预测的情绪,表示为:
其中,表示输出线性层的参数矩阵,/>表示输出线性层的偏置,/>则是数据集对应的情绪类别集合,/>表示预测为各类别的概率组成的向量,/>表示预测概率最大的类别,/>则表示在该向量中找出概率最大的类的下标,得到的/>来表示预测情绪类别。
作为优选的技术方案,还包括训练步骤,采用交叉熵损失函数进行训练,具体表示为:
其中,表示训练集中对话的数量,/>表示第/>个对话中的话语数量,/>表示真实标签,/>表示整个模型的可训练参数集合,/>表示训练集是真实标签的预测概率分数。
本发明还提供一种基于长短回路认知与显隐情感交互的情感识别系统,包括:句子特征向量提取模块、说话人序列信息提取模块、长短回路认知关系图构建模块、长短回路认知关系掩码构建模块、语义特征向量输出模块、历史情感序列构建模块、情绪特征向量输出模块、特征向量融合模块和情绪预测输出模块;
所述句子特征向量提取模块用于提取对话情感数据集中的句子特征向量;
所述说话人序列信息提取模块用于提取对话情感数据集中的说话人序列信息;
所述长短回路认知关系图构建模块用于构建三种长短回路认知关系图,包括短回路认知关系图、主体长回路关系图和主客体交互长回路关系图,将每段对话的话语作为关系图的节点,所述短回路认知关系图的边集合由从前一句话连接到后一句话的边组成,所述主体长回路关系图的边集合由同一个说话人前序话语连接到该说话人后续的话语的边组成,所述主客体交互长回路关系图的边集合由不同说话人说出的、前序话语连接到后续话语的边组成;
所述长短回路认知关系掩码构建模块用于将三种长短回路认知关系图通过邻接矩阵转置再加上单位矩阵,变为对应的长短回路认知关系掩码,包括短回路掩码、主体长回路掩码和主客体交互长回路掩码;
所述语义特征向量输出模块用于输出目标话语的语义特征向量,将对话的句子特征向量拼接得到话语特征序列,所述话语特征序列输入到语义编码器中,得到目标话语的语义特征向量,所述语义编码器的主体结构基于transformer编码器,其中多头自注意力部分融合长短回路认知关系掩码;
所述历史情感序列构建模块用于构建历史情感序列;
所述情绪特征向量输出模块用于将历史情感序列输入情绪解码器中得到目标话语的情绪特征向量,所述情绪解码器主体结构基于Transformer解码器,其中多头自注意力部分融合长短回路认知关系掩码;
所述特征向量融合模块用于将目标话语的语义特征向量和情绪特征向量融合;
所述情绪预测输出模块用于将融合后的特征向量经过softmax函数分类,选取预测概率最大的类的下标得到预测的情绪。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明在深度学习模型中结合了显式情感建模和隐式情感建模的技术方案,解决了显式情感建模可能累积预测错误和隐式情感建模无法对情感过渡进行显著建模的问题,达到了更合理有效地建模对话中的情感过渡的技术效果。
(2)本发明采用将人脑产生情绪的长短回路机制融入Transformer模型里的注意力矩阵的技术方案,解决了图神经网络容易过平滑和参数敏感的技术问题,同时达到了在数据集较少时也能使深度学习模型有效学习到对话结构信息的技术效果。
附图说明
图1为本发明基于长短回路认知与显隐情感交互的情感识别方法的实现过程架构示意图;
图2为本发明通过图结构到矩阵的变换生成三种长短回路认知关系掩码的示意图;
图3为本发明融合了长短回路认知关系掩码的语义编码器的结构示意图;
图4为本发明融合了长短回路认知关系掩码的情绪解码器的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,本实施例提供一种基于长短回路认知与显隐情感交互的情感识别方法,包括下述步骤:
S1:提取对话情感数据集的句子特征向量,本实施例将对话情感数据集的语句以单句文本的形式输入微调后的预训练语言模型,提取其与语义无关的句子特征向量,具体包括下述步骤:
S11:首先将预训练语言模型在对话情感数据集上进行微调,然后固定该预训练语言模型的权重作为特征提取器;
在本实施例中,把对话情感数据集先当作普通的情感数据集,在单句的情感分析任务上做微调。
S12:将语句经过变换后输入特征提取器,将池化输出的向量作为该语句的句子特征向量;
在本实施例中,预训练语言模型为RoBERTa-Large,包括位置编码、Embedding层和24层transformer编码器,当然,预训练语言模型还可采用例如BERT、RoBERTa等预训练语言模型,其网络结构一般以transformer结构为主;本实施例在特征提取时,将每个语句作为一个样本,在每个语句之前加入token位[CLS],再输入微调好的预训练语言模型RoBERTa-Large中,使用特征提取器最后一层[CLS]对应的隐藏特征向量作为该语句的句子特征向量,其维度为1024维;
如图1所示,图中的话语特征序列由每句话的句子特征向量拼接而成,例如,一段三句话的对话 [A:你好 B:你也好 A:你更好],话语序列为[向量1,向量2,向量3],其中三个向量都是1024维,每个向量代表一句话;
在本实施例中,对话情感数据集可以通过收集网络或者电视剧种的对话内容得到,再标注每句话的情感,对话情感数据集可采用MELD、IEMOCAP数据集。
S2:从对话情感数据集中提取说话人序列信息,输入一段对话的说话人序列信息,通过图结构到矩阵的变换生成三种长短回路认知关系掩码,具体包括下述步骤:
S21:如图2所示,输入一段对话的说话人序列信息,其中,/>表示说出第N句话的对象主体,构建三种长短回路认知关系图;
模拟大脑由前一个时刻的外界刺激引起个体即时反应的短回路认知机制,构建只关注当前话语和前一句的短回路认知关系图;模拟长回路认知机制,构建只关注由同一主体说出的历史话语的主体长回路关系图,并构建关注客体历史话语和主体当前反应的主客体交互长回路关系图;
具体地,每段对话的认知关系图被表示为,其中,/>表示话语,/>表示话语节点集合。其中/>,/>表示节点的集合,边/>表示了话语/>和/>间的联系,体现了对话话语间的认知关系机制。分别表示短回路认知关系图、主体长回路关系图、主客体交互长回路关系图的边的集合。为了模拟一句话语的表达只能受之前的话语影响,而不能受后一个话语的影响,本实施例定义/>
根据文中定义,短回路认知关系图则可以表示为如下公式,表明短回路认知关系只关注当前话语和前一句的关系,即短回路认知关系图的边集合只包含从前一句话连接到后一句话的边:
而主体长回路关系图可以表示为以下公式,表明了对于说出话语主体/>,该关系图只关心由同一主体说出的历史话语和话语/>的关系,即主体长回路关系图的边集合只包括同一个说话人前序话语连接到该说话人后续的话语的边:
最后主客体交互长回路关系图可以表示如下,表明了对于说出话语的主体/>,该关系图关心除了主体之外的客体历史话语和话语/>的关系,即主客体交互长回路关系图的边集合/>只包括由不同说话人说出的,前序话语连接到后续话语的边:
以上的关系图、/>、/>统一称为长短回路认知关系图/>
结合图2所示,图中展示了一个包含五句话的对话样本,其说话人序列为,/>、/>、/>分别表示参与这段对话的三个对象主体,即说话人序列表示的是这段对话中的五句话依次是由对象主体/>、/>、/>、/>、/>说出来的;
S22:将三种长短回路认知关系图通过邻接矩阵转置再加上单位矩阵,变为对应的关系掩码,即短回路掩码、主体长回路掩码、主客体交互长回路掩码:
其中,表示长短回路认知关系图,/>表示将图改变为邻接矩阵的形式,加上单位矩阵/>表示总是关注当前话语自身,T则表示矩阵转置操作,得到符合注意力矩阵的形式。/>表示由长短回路认知关系图经过图结构到矩阵的变换得到的长短回路认知关系掩码;
S3:将一段对话里每句话的特征拼接得到话语特征序列,如图3所示,将话语特征序列通过线性层和位置嵌入模块后,输入融合了长短回路认知关系掩码的语义编码器中,得到和情绪相关的语义特征向量序列,即情绪的隐式表征,具体包括下述步骤:
S31:输入一段对话的句子特征向量,通过线性层变成符合模型隐藏向量维度的句子嵌入,再通过位置嵌入模块得到带有时序信息的句子向量特征序列:
其中,表示输入的句子特征向量序列,其中,/>表示从/>得到的特征向量,在本实施例中是1024维的向量,/>则表示位置嵌入模块;
在本实施例中,位置嵌入模块进行位置编码,有不同的实现方式,可以采用固定的位置编码函数或者可学习的模型参数,位置嵌入模块将位置映射为和句子向量特征序列形状一致的向量序列,再相加,就在输入中加入了时序信息。
S32:将得到的句子向量特征序列输入融合了长短回路认知关系掩码的语义编码器中,语义编码器和transformer的编码器类似,由多层语义编码模块组成,但多头自注意力部分通过GMSA融合了长短回路认知关系掩码,长短回路认知关系掩码自注意力机制设计如下:
公式中的Q、K、V、和自注意力机制定义相同,代表输入序列经过线性变换后得到的query,key和value以及缩放因子。
为了通过子空间对不同长短回路认知关系下的注意力进行建模,使用多头自注意力不同的头分别实现三种关系掩码自注意力,然后将输出连接起来,具体表示为:
其中,表示第l层转换块第i个注意力头的参数矩阵,/>表示第l层转换块和拼接后的输出相乘的参数矩阵,/>表示第l层的输入。此外,三种/>被平均分给多头注意力的不同头,在实施例中/>、/>、/>被分别加给多头注意力机制的前6个注意力头,中间5个注意力头,以及最后5个注意力头。语义编码器其余部分则和transformer编码器部分一样使用了残差连接、层间规范化和FFN,其中一个语义编码模块定义如下:
其中,表示上一层的输出,/>表示该层的中间状态,/>则表示该层的输出,表示关系掩码。最后一个语义编码模块的输出/>即和情绪相关的语义特征向量序列,即情绪的隐式表征;
S4:如图4所示,情绪解码器主要由左边的Transformer解码器主体构成,而其中的多头自注意力部分同样通过GMSA融合了长短回路认知关系掩码,将历史情感序列输入情绪解码器中,推断出下一句话的情感,再将这句话结合之前的情感序列作为历史情感序列,输入情绪解码器,再继续推断下一句话的情感,经过这样显式建模情绪交互关系的过程,最后得到目标话语的情绪特征向量,将目标话语的语义特征向量和情绪特征向量相融合,经过线性层,得出目标话语的情绪分类结果,具体包括下述步骤:
S41:使用先前预测的情绪序列加上代表序列开始的符号作为输入,即,其中/>是预测的/>的情绪类别,通过公式中的Embedding从情绪符号Token映射到隐藏状态维度的向量,Embedding相当于一个没有bias的linear层,从而将情绪序列映射为符合模型隐藏特征向量维度的情绪嵌入,然后并加入位置嵌入以加强其位置信息得到情绪解码器输入:
其中,表示序列的开始位置,即beginning of sequence,/>表示位置嵌入模块;
在本实施例中,Transformer解码器解码是一个迭代的过程,先前预测的情绪序列指的是迭代过程中在先的预测。
S42:为了得到最终的情感序列,历史情绪嵌入被输入情绪解码器,情绪解码器结构和transformer解码器相似,由多层情绪解码模块组成,但多头自注意力部分通过GMSA融合了经过填充后的长短回路认知关系掩码,每层情绪解码模块如以下公式表示:
其中,表示上一层的输出,/>和/>用来表示该层的中间状态,/>则表示该层的输出,/>表示关系掩码上方填充了一行0值,左边填充了一列1值,代表/>可以被所有话语关注到。此外,多头注意力/>与多头自注意力类似,但其key和value来自语义编码器的输出,而其query则来自当前情绪解码模块的输入。
S43:通过多层情绪解码模块,输出显式建模情绪交互关系得到的情绪特征向量,将目标话语的语义特征向量和情绪特征向量融合:
其中,表示情绪解码器最后一层的输出,/>表示语义编码器最后一层的输出,/>表示最终显隐式信息融合后的特征向量;
S44:将话语对应的最终显隐式信息融合后的特征向量/>传入线性层,经过softmax函数分类后,通过取预测概率最大的类的下标得到预测的情绪:
其中,表示输出线性层的参数矩阵,/>表示输出线性层的偏置,/>则是数据集对应的情绪类别集合,/>表示预测为各类别的概率组成的向量,/>表示预测概率最大的类别,/>则表示在该向量中找出概率最大的类的下标,得到的/>来表示预测情绪类别。
S45:采用交叉熵损失函数进行模型训练,具体表示为:
其中,表示训练集中对话的数量,/>表示第/>个对话中的话语数量,/>是真实标签,/>表示整个模型的可训练参数集合,/>表示训练集是真实标签的预测概率分数。在训练过程中,训练样本被分成一个个小批量数据,并使用小批量梯度下降进行训练。
在本实施例中,为了加快训练速度,使用teacher-forcing的方法,在训练时采用了历史的真实标签作为情绪解码器的输入,而在预测时采用了迭代预测的方式,每次将之前预测的结果作为历史情感序列输入。
实施例2
本实施例提供一种基于长短回路认知与显隐情感交互的情感识别系统,包括:句子特征向量提取模块、说话人序列信息提取模块、长短回路认知关系图构建模块、长短回路认知关系掩码构建模块、语义特征向量输出模块、历史情感序列构建模块、情绪特征向量输出模块、特征向量融合模块和情绪预测输出模块;
在本实施例中,句子特征向量提取模块用于提取对话情感数据集中的句子特征向量;
在本实施例中,说话人序列信息提取模块用于提取对话情感数据集中的说话人序列信息;
在本实施例中,长短回路认知关系图构建模块用于构建三种长短回路认知关系图,包括短回路认知关系图、主体长回路关系图和主客体交互长回路关系图,将每段对话的话语作为关系图的节点,短回路认知关系图的边集合由从前一句话连接到后一句话的边组成,主体长回路关系图的边集合由同一个说话人前序话语连接到该说话人后续的话语的边组成,主客体交互长回路关系图的边集合由不同说话人说出的、前序话语连接到后续话语的边组成;
在本实施例中,长短回路认知关系掩码构建模块用于将三种长短回路认知关系图通过邻接矩阵转置再加上单位矩阵,变为对应的长短回路认知关系掩码,包括短回路掩码、主体长回路掩码和主客体交互长回路掩码;
在本实施例中,语义特征向量输出模块用于输出目标话语的语义特征向量,将对话的句子特征向量拼接得到话语特征序列,话语特征序列输入到语义编码器中,得到目标话语的语义特征向量,语义编码器的主体结构基于transformer编码器,其中多头自注意力部分融合长短回路认知关系掩码;
在本实施例中,历史情感序列构建模块用于构建历史情感序列;
在本实施例中,情绪特征向量输出模块用于将历史情感序列输入情绪解码器中得到目标话语的情绪特征向量,情绪解码器主体结构基于Transformer解码器,其中多头自注意力部分融合长短回路认知关系掩码;
在本实施例中,特征向量融合模块用于将目标话语的语义特征向量和情绪特征向量融合;
在本实施例中,情绪预测输出模块用于将融合后的特征向量经过softmax函数分类,选取预测概率最大的类的下标得到预测的情绪。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于长短回路认知与显隐情感交互的情感识别方法,其特征在于,包括下述步骤:
提取对话情感数据集中的句子特征向量;
提取对话情感数据集中的说话人序列信息,构建三种长短回路认知关系图,包括短回路认知关系图、主体长回路关系图和主客体交互长回路关系图,将每段对话的话语作为关系图的节点,所述短回路认知关系图的边集合由从前一句话连接到后一句话的边组成,所述主体长回路关系图的边集合由同一个说话人前序话语连接到该说话人后续的话语的边组成,所述主客体交互长回路关系图的边集合由不同说话人说出的、前序话语连接到后续话语的边组成;
将三种长短回路认知关系图通过邻接矩阵转置再加上单位矩阵,变为对应的长短回路认知关系掩码,包括短回路掩码、主体长回路掩码和主客体交互长回路掩码;
将对话的句子特征向量拼接得到话语特征序列,所述话语特征序列输入到语义编码器中,得到情绪的语义特征向量,所述语义编码器的主体结构基于transformer编码器,其中多头自注意力部分融合长短回路认知关系掩码;
构建历史情感序列,将历史情感序列输入情绪解码器中得到目标话语的情绪特征向量,所述情绪解码器主体结构基于Transformer解码器,其中多头自注意力部分融合长短回路认知关系掩码;
将目标话语的语义特征向量和情绪特征向量融合,经过softmax函数分类后,选取预测概率最大的类的下标得到预测的情绪。
2.根据权利要求1所述的基于长短回路认知与显隐情感交互的情感识别方法,其特征在于,短回路认知关系图表示为:
其中,表示话语节点集合,/>表示短回路认知关系图的边的集合,边/>表示话语/>和话语/>间的联系;
主体长回路关系图表示为:
其中,表示主体长回路关系图的边的集合,/>和/>分别表示说出第ij句话的对象主体;
主客体交互长回路关系图表示为:
其中,表示主客体交互长回路关系图的边的集合。
3.根据权利要求1所述的基于长短回路认知与显隐情感交互的情感识别方法,其特征在于,所述将三种长短回路认知关系图通过邻接矩阵转置再加上单位矩阵,变为对应的长短回路认知关系掩码,具体表示为:
其中,表示对应的长短回路认知关系掩码,/>表示长短回路认知关系图,/>表示将图改变为邻接矩阵的形式,/>表示单位矩阵。
4.根据权利要求1所述的基于长短回路认知与显隐情感交互的情感识别方法,其特征在于,所述将对话的句子特征向量拼接得到话语特征序列,具体表示为:
其中,表示输入的句子特征向量序列,/>表示从话语/>得到的特征向量,/>表示进行位置编码的位置嵌入模块。
5.根据权利要求1所述的基于长短回路认知与显隐情感交互的情感识别方法,其特征在于,所述语义编码器的主体结构基于transformer编码器,其中多头自注意力部分融合长短回路认知关系掩码,具体表示为:
长短回路认知关系掩码自注意力机制设计如下:
其中,Q、K、V、表示输入序列经过线性变换后得到的query,key和value以及缩放因子;
使用多头自注意力不同的头分别实现三种关系掩码自注意力,然后将输出连接起来,具体表示为:
其中,表示第l层转换块第i个注意力头的参数矩阵,/>表示第l层转换块和拼接后的输出相乘的参数矩阵,/>表示第l层的输入, />表示多头自注意力不同的头;
所述语义编码器包括多层语义编码模块,其中一个语义编码模块定义如下:
其中,表示上一层的输出,/>表示该层的中间状态,/>则表示该层的输出,表示关系掩码,最后一个语义编码模块的输出/>即为语义特征向量。
6.根据权利要求1所述的基于长短回路认知与显隐情感交互的情感识别方法,其特征在于,所述构建历史情感序列,具体包括:
使用先前预测的情绪序列加上代表序列开始的符号作为输入,即
加入位置嵌入以加强其位置信息得到情绪解码器输入,表示为:
其中,表示序列的开始位置,/>表示预测的话语/>的情绪类别,/>表示进行位置编码的位置嵌入模块。
7.根据权利要求1所述的基于长短回路认知与显隐情感交互的情感识别方法,其特征在于,所述情绪解码器包括多层情绪解码模块,每层情绪解码模块如以下公式表示:
其中,表示上一层的输出,/>和/>表示该层的两个中间状态,/>表示该层的输出,表示关系掩码上方填充了一行0值,左边填充了一列1值, />表示多头注意力;
长短回路认知关系掩码自注意力机制设计如下:
其中,Q、K、V、表示输入序列经过线性变换后得到的query,key和value以及缩放因子;
使用多头自注意力不同的头分别实现三种关系掩码自注意力,然后将输出连接起来,具体表示为:
其中,表示第l层转换块第i个注意力头的参数矩阵,/>表示第l层转换块和拼接后的输出相乘的参数矩阵,/>表示第l层的输入, />表示多头自注意力不同的头。
8.根据权利要求1所述的基于长短回路认知与显隐情感交互的情感识别方法,其特征在于,所述将目标话语的语义特征向量和情绪特征向量融合,经过softmax函数分类后,通过取预测概率最大的类的下标得到预测的情绪,具体表示为:
其中, 表示情绪解码器最后一层的输出, />表示语义编码器最后一层的输出,表示最终显隐式信息融合后的特征向量;
将话语对应的最终显隐式信息融合后的特征向量/>传入线性层,经过softmax函数分类后,通过取预测概率最大的类的下标得到预测的情绪,表示为:
其中, 表示输出线性层的参数矩阵, />表示输出线性层的偏置, />则是数据集对应的情绪类别集合,/>表示预测为各类别的概率组成的向量, />表示预测概率最大的类别, />则表示在该向量中找出概率最大的类的下标,得到的/>来表示预测情绪类别。
9.根据权利要求1所述的基于长短回路认知与显隐情感交互的情感识别方法,其特征在于,还包括训练步骤,采用交叉熵损失函数进行训练,具体表示为:
其中, 表示训练集中对话的数量, />表示第/>个对话中的话语数量, />表示真实标签, />表示整个模型的可训练参数集合, />表示训练集是真实标签的预测概率分数。
10.一种基于长短回路认知与显隐情感交互的情感识别系统,其特征在于,包括:句子特征向量提取模块、说话人序列信息提取模块、长短回路认知关系图构建模块、长短回路认知关系掩码构建模块、语义特征向量输出模块、历史情感序列构建模块、情绪特征向量输出模块、特征向量融合模块和情绪预测输出模块;
所述句子特征向量提取模块用于提取对话情感数据集中的句子特征向量;
所述说话人序列信息提取模块用于提取对话情感数据集中的说话人序列信息;
所述长短回路认知关系图构建模块用于构建三种长短回路认知关系图,包括短回路认知关系图、主体长回路关系图和主客体交互长回路关系图,将每段对话的话语作为关系图的节点,所述短回路认知关系图的边集合由从前一句话连接到后一句话的边组成,所述主体长回路关系图的边集合由同一个说话人前序话语连接到该说话人后续的话语的边组成,所述主客体交互长回路关系图的边集合由不同说话人说出的、前序话语连接到后续话语的边组成;
所述长短回路认知关系掩码构建模块用于将三种长短回路认知关系图通过邻接矩阵转置再加上单位矩阵,变为对应的长短回路认知关系掩码,包括短回路掩码、主体长回路掩码和主客体交互长回路掩码;
所述语义特征向量输出模块用于输出目标话语的语义特征向量,将对话的句子特征向量拼接得到话语特征序列,所述话语特征序列输入到语义编码器中,得到目标话语的语义特征向量,所述语义编码器的主体结构基于transformer编码器,其中多头自注意力部分融合长短回路认知关系掩码;
所述历史情感序列构建模块用于构建历史情感序列;
所述情绪特征向量输出模块用于将历史情感序列输入情绪解码器中得到目标话语的情绪特征向量,所述情绪解码器主体结构基于Transformer解码器,其中多头自注意力部分融合长短回路认知关系掩码;
所述特征向量融合模块用于将目标话语的语义特征向量和情绪特征向量融合;
所述情绪预测输出模块用于将融合后的特征向量经过softmax函数分类,选取预测概率最大的类的下标得到预测的情绪。
CN202310107383.1A 2023-02-14 2023-02-14 基于长短回路认知与显隐情感交互的情感识别方法及系统 Active CN116108856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310107383.1A CN116108856B (zh) 2023-02-14 2023-02-14 基于长短回路认知与显隐情感交互的情感识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310107383.1A CN116108856B (zh) 2023-02-14 2023-02-14 基于长短回路认知与显隐情感交互的情感识别方法及系统

Publications (2)

Publication Number Publication Date
CN116108856A CN116108856A (zh) 2023-05-12
CN116108856B true CN116108856B (zh) 2023-07-18

Family

ID=86263515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310107383.1A Active CN116108856B (zh) 2023-02-14 2023-02-14 基于长短回路认知与显隐情感交互的情感识别方法及系统

Country Status (1)

Country Link
CN (1) CN116108856B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571097A (zh) * 2021-09-28 2021-10-29 之江实验室 一种说话人自适应的多视角对话情感识别方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074913B2 (en) * 2019-01-03 2021-07-27 International Business Machines Corporation Understanding user sentiment using implicit user feedback in adaptive dialog systems
KR102315830B1 (ko) * 2019-12-27 2021-10-22 한국과학기술원 반지도 학습 기반 단어 단위 감정 임베딩과 lstm 모델을 이용한 대화 내에서 발화의 감정 분류 방법
CN113297366B (zh) * 2021-06-22 2023-05-30 中国平安人寿保险股份有限公司 多轮对话的情绪识别模型训练方法、装置、设备及介质
CN113435211B (zh) * 2021-07-19 2022-07-19 北京理工大学 一种结合外部知识的文本隐式情感分析方法
CN115329779B (zh) * 2022-08-10 2023-10-13 天津大学 一种多人对话情感识别方法
CN115690553B (zh) * 2023-01-03 2023-04-11 华南理工大学 一种基于多模态对话内容联合建模的情感分析方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571097A (zh) * 2021-09-28 2021-10-29 之江实验室 一种说话人自适应的多视角对话情感识别方法及系统

Also Published As

Publication number Publication date
CN116108856A (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN108874972B (zh) 一种基于深度学习的多轮情感对话方法
Merdivan et al. Dialogue systems for intelligent human computer interactions
CN111312245B (zh) 一种语音应答方法、装置和存储介质
CN112214591B (zh) 一种对话预测的方法及装置
CN114722838A (zh) 基于常识感知和层次化多任务学习的对话情感识别方法
CN113987179B (zh) 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
CN115964467A (zh) 一种融合视觉情境的富语义对话生成方法
US11475225B2 (en) Method, system, electronic device and storage medium for clarification question generation
CN111966800A (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN111986687B (zh) 基于交互式解码的双语情感对话生成系统
CN114385802A (zh) 一种融合主题预测和情感推理的共情对话生成方法
CN114911932A (zh) 基于主题语义增强的异构图结构多会话者情感分析方法
CN113254625A (zh) 一种基于交互融合的情感对话生成方法及系统
CN114386426B (zh) 一种基于多元语义融合的金牌话术推荐方法及装置
CN116912642A (zh) 基于双模多粒度交互的多模态情感分析方法、设备及介质
CN113656569B (zh) 一种基于上下文信息推理的生成式对话方法
Zhang Ideological and political empowering English teaching: ideological education based on artificial intelligence in classroom emotion recognition
CN114239607A (zh) 一种对话答复方法及装置
CN114005446A (zh) 情感分析方法、相关设备及可读存储介质
Hashana et al. Deep Learning in ChatGPT-A Survey
CN116108856B (zh) 基于长短回路认知与显隐情感交互的情感识别方法及系统
Ai et al. A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning
Jiang et al. An affective chatbot with controlled specific emotion expression
CN117150320B (zh) 对话数字人情感风格相似度评价方法及系统
CN113806506B (zh) 一种面向常识推理的生成式人机对话回复生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant