CN113571097B - 一种说话人自适应的多视角对话情感识别方法及系统 - Google Patents

一种说话人自适应的多视角对话情感识别方法及系统 Download PDF

Info

Publication number
CN113571097B
CN113571097B CN202111141588.9A CN202111141588A CN113571097B CN 113571097 B CN113571097 B CN 113571097B CN 202111141588 A CN202111141588 A CN 202111141588A CN 113571097 B CN113571097 B CN 113571097B
Authority
CN
China
Prior art keywords
speaker
sequence
view
dialog
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111141588.9A
Other languages
English (en)
Other versions
CN113571097A (zh
Inventor
阮玉平
李太豪
汪芬
郑书凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202111141588.9A priority Critical patent/CN113571097B/zh
Publication of CN113571097A publication Critical patent/CN113571097A/zh
Application granted granted Critical
Publication of CN113571097B publication Critical patent/CN113571097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hospice & Palliative Care (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种说话人自适应的多视角对话情感识别方法及系统,方法包括:S1,将多轮对话中,每条对话语句的说话人,映射到对应的说话人ID序列,去除说话人具体身份;S2,对说话人ID标记后的多轮对话,进行融合说话人信息的上下文编码,得到对话中每个语句的上下文编码表征;S3,基于上下文编码表征,进行说话人自适应的多视角全局对话信息融合编码,得到对话的多视角全局融合信息;S4,将多视角的全局融合信息,进行自适应的信息汇总,并对语句最终情感进行识别;系统包括:依次连接的多轮对话预处理模块、上下文编码模块、多视角全局融合编码模块和情感识别模块。

Description

一种说话人自适应的多视角对话情感识别方法及系统
技术领域
本发明涉及人工智能领域,尤其是涉及一种说话人自适应的多视角对话情感识别方法及系统。
背景技术
对话机器人作为人工智能领域的重要研究方向,赋予机器人拟人化的情感计算能力,近来引起了学术界和产业界的广泛关注。多说话人参与的多轮对话作为最普适的对话场景形式,其特点在于:1)参与对话的说话人数不定;2)说话人在对话中发言的次序不定;3)影响说话人的情感状态变迁的因素复杂,不仅存在自身因素、他者因素、还受到整体对话进程的影响。
现有主流方法大多假设对话为两人交替参与的形式,难以拓展到多说话人的场景;针对对话语句的上下文编码,现有方法大多未能有效融入说话人信息;针对说话人情感状态变迁因素复杂的问题,现有方法存在多说话人场景下适用拓展性差、模型结构复杂等问题。
因此,如何有效解决多轮对话场景中多说话人自适应,并从多视角(方面)对用户情感状态进行建模,进而提高说话人情感识别的精确度,是一项亟待解决的问题。
发明内容
为解决现有技术的不足,实现提高对话情感识别精度的目的,本发明采用如下的技术方案:
一种说话人自适应的多视角对话情感识别方法,包括如下步骤:
S1,将多轮对话中,每条对话语句的说话人,映射到对应的说话人ID序列,去除说话人具体身份的同时,保留一段对话中不同说话人之间的区分性;
S2,对进行说话人ID标记后的多轮对话,进行融合说话人信息的上下文编码,得到对话中每个语句的上下文编码表征;
S3,基于上下文编码表征,进行说话人自适应的多视角全局对话信息融合编码,得到对话的多视角全局融合信息,包括如下步骤:
S31,根据说话人ID序列,分别从说话人自身视角、他者视角、全局视角构建维度为
Figure 318300DEST_PATH_IMAGE001
掩码矩阵:
Figure 445656DEST_PATH_IMAGE002
S32,将上下文编码表征,分别输入到不同的单层多头注意力网络:
Figure 142216DEST_PATH_IMAGE003
,三个网络分别接收
Figure 380431DEST_PATH_IMAGE002
作为对应 的注意力控制掩码,分别从不同视角输出对话的多视角全局融合表征向量:
Figure 619782DEST_PATH_IMAGE004
Figure 386881DEST_PATH_IMAGE005
Figure 570738DEST_PATH_IMAGE006
S4,将多视角的全局融合信息,进行自适应的信息汇总,并对语句最终情感进行识别,包括如下步骤:
S41,将语句
Figure 13308DEST_PATH_IMAGE007
多视角全局融合表征向量
Figure 841587DEST_PATH_IMAGE008
Figure 435379DEST_PATH_IMAGE009
,作为向量序列
Figure 716319DEST_PATH_IMAGE010
,输入单层多头注意力网络中,网络的编码输出经过池化层(Pooling) 后,输入到单层的全连接网络(FC),得到语句
Figure 561915DEST_PATH_IMAGE007
的m维特征向量
Figure 510280DEST_PATH_IMAGE011
,其中m表示情感类别数;
S42,将特征向量
Figure 150340DEST_PATH_IMAGE011
进行归一化处理,得到语句
Figure 43209DEST_PATH_IMAGE007
属于每一类情感的概率值,取类 别概率值最大的作为最终情感类别。
进一步地,所述S31中对于
Figure 426917DEST_PATH_IMAGE012
的元素
Figure 964209DEST_PATH_IMAGE013
,其满足如下条件:
Figure 634225DEST_PATH_IMAGE014
对于
Figure 889757DEST_PATH_IMAGE015
的元素
Figure 545997DEST_PATH_IMAGE013
,其满足如下条件:
Figure 328008DEST_PATH_IMAGE016
对于
Figure 44292DEST_PATH_IMAGE017
的元素
Figure 787120DEST_PATH_IMAGE013
,其满足如下条件:
Figure 371685DEST_PATH_IMAGE018
其中i表示注意力机制中查询语句query的索引,j表示注意力机制中接收查找语句key的索引。
进一步地,所述S42中的特征向量
Figure 617989DEST_PATH_IMAGE019
,将其作为Softmax算子的自 变量,计算Softmax的最终值:
Figure 895387DEST_PATH_IMAGE020
其中
Figure 594353DEST_PATH_IMAGE021
为常量,将
Figure 982609DEST_PATH_IMAGE022
作为语句
Figure 83420DEST_PATH_IMAGE007
属于每一类情感的概率值。
进一步地,所述S2包括如下步骤:
S21,将多轮对话中各语句以特定分隔符为间隔拼接起来,得到包含所有对话语句的字符长序列;
S22,根据字符长序列和说话人ID序列,构建对应的说话人ID字符序列;
S23,根据字符长序列,计算用于预训练模型BERT的注意力掩码矩阵
Figure 424663DEST_PATH_IMAGE023
,用于编码阶段,控制字符长序列中每个分隔符只关注到其后紧邻的语句中的字符;针对第 i个语句
Figure 1138DEST_PATH_IMAGE007
中的字符,该mask控制其不能关注未来语句
Figure 802872DEST_PATH_IMAGE024
中的任何字符;
S24,在获取说话人ID标记后的多轮对话的预训练模型BERT中的嵌入阶段,添加说 话人嵌入层,将说话人ID字符序列
Figure 148403DEST_PATH_IMAGE025
映射为说话人ID嵌入向量矩阵
Figure 642969DEST_PATH_IMAGE026
,与 预训练模型BERT中的对话向量矩阵
Figure 582106DEST_PATH_IMAGE027
、对话类型向量矩阵
Figure 577744DEST_PATH_IMAGE028
、对话位置向量矩 阵
Figure 387568DEST_PATH_IMAGE029
进行叠加,并输出至预训练模型BERT的编码阶段;
S25,取各分隔符在预训练模型BERT的编码阶段输出的编码向量,作为对应对话语句的上下文编码表征。
进一步地,所述S21中的分隔符为[SEP],字符长序列为:
Figure 318615DEST_PATH_IMAGE030
其中
Figure 10628DEST_PATH_IMAGE031
表示对话中第i个语句的字符序列,n表示总对话轮次长度。
进一步地,所述S22中说话人ID字符序列为:
Figure 482060DEST_PATH_IMAGE032
其中
Figure 677549DEST_PATH_IMAGE033
表示第i个语句
Figure 513918DEST_PATH_IMAGE007
对应的说话人匿名ID,
Figure 286702DEST_PATH_IMAGE034
表示第i个语句
Figure 233930DEST_PATH_IMAGE007
对应的 字符序列的长度。
进一步地,所述S25中的上下文编码表征,构成融入说话人信息的整体对话语句上下文编码表征矩阵:
Figure 549504DEST_PATH_IMAGE035
其中
Figure 415829DEST_PATH_IMAGE036
表示语句
Figure 816855DEST_PATH_IMAGE007
的上下文编码表征。
进一步地,所述S1包括如下步骤:
S11,将一段长度为n的多轮对话中出现的所有说话人,按其首次发言的先后顺序,构建一个有序列表,所述有序列表包含说话人身份信息;
S12,根据有序列表,构建说话人到说话人ID的映射字典;
S13,根据映射字典,将多轮对话中每条语句的说话人身份,映射到对应的说话人ID,得到与对话语句序列对齐的长度为n的说话人ID序列。
一种说话人自适应的多视角对话情感识别系统,包括依次连接的多轮对话预处理模块、上下文编码模块和情感识别模块,所述上下文编码模块与情感识别模块之间,设有多视角全局融合编码模块;
所述多轮对话预处理模块,对多轮对话中各语句的说话人身份信息,进行统一的说话人ID映射,得到说话人ID序列,去除说话人具体身份的同时,保留该段对话中不同说话人之间的区分性;
所述上下文编码模块,对进行说话人ID标记后的多轮对话,进行融合说话人信息的上下文编码,得到对话中每个语句的上下文编码表征;
所述多视角全局融合编码模块,包括三个单层多头注意力网络,获取上下文编码表征,将三个掩码矩阵作为对应网络的注意力控制掩码,从而对说话人情感变迁因素进行多视角建模,得到说话人自身角度、他者角度、全局角度的对话的多视角全局融合信息,所述三个掩码矩阵,是根据说话人ID序列,从说话人自身视角、他者视角、全局视角构建的掩码矩阵;
所述情感识别模块,对多视角全局融合信息进行汇总,并预测对话语句的情感类别。
进一步地,所述上下文编码模块,包括嵌入层、注意力掩码模块和编码层,嵌入层 包括对话嵌入层、对话类型嵌入层、对话位置嵌入层和说话人嵌入层,用于获取说话人ID标 记后的多轮对话,将各子嵌入层分别对应得到的对话向量矩阵、对话类型向量矩阵、对话位 置向量矩阵和说话人ID嵌入向量矩阵进行叠加,并输出至编码层;注意力掩码模块根据字 符长序列,计算用于预训练模型BERT的注意力掩码矩阵
Figure 426828DEST_PATH_IMAGE023
,并输出至编码层, 所述字符长序列是将多轮对话中各语句以特定分隔符为间隔拼接起来得到的;编码器通过 注意力掩码矩阵,控制字符长序列中每个分隔符只关注到其后紧邻的语句中的字符,针对 第i个语句
Figure 596909DEST_PATH_IMAGE007
中的字符,该mask控制其不能关注未来语句
Figure 509501DEST_PATH_IMAGE024
中的任何字符,取各分隔 符在预训练模型BERT的编码器输出的编码向量,作为对应对话语句的上下文编码表征。
本发明的优势和有益效果在于:
本发明通过将实际多轮对话中的说话人身份映射到统一的说话人ID表,在去除说话人具体身份的同时,保留了一段对话中不同说话人之间的区分性,极大提高了模型在多说话人场景下的适应性、拓展性;通过在模型输入层引入说话人ID相关的embedding层,有效的在对话语句进行上下文编码的过程中,引入了说话人身份信息;通过引入多视角下的Multi-Head Attention网络,并结合不同的注意力控制mask,针对说话人情感变迁因素复杂这一问题,从说话者自身视角、他者视角、全局视角提出了有效的信息融合编码解决方案,该方案同时在多说人场景下具有极高的适应性。
附图说明
图1为本发明的系统结构示意图。
图2为原始BERT模型结构示意图。
图3为本发明的BERT模型结构示意图。
图4为本发明的方法流程图。
图5为本发明的网络结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1所示,一种说话人自适应的多视角对话情感识别系统,包括:
多轮对话预处理模块,用于对多轮对话中各语句的说话人身份信息进行统一的说话人ID映射;
上下文编码模块,基于预训练模型BERT获取融入说话人ID信息的对话语句上下文编码表征。具体为:如图2、图3所示,在原始BERT模型中的Embedding Layer加入额外的针对说话人ID编码的Speaker Embedding层,以此在上下文编码过程中融入说话人ID信息。
多视角全局融合编码模块,分别从说话人自身视角、他者视角、全局视角对对话上下文编码表征进行融合编码。具体为,通过引入多个Multi-Head Attention网络,并结合不同的注意力控制mask,实现对说话人情感变迁因素的多视角建模。
情感识别模块,对多视角全局融合后的对话表征进行汇总综合,并预测对话语句的情感类别。
如图4、图5所示,一种说话人自适应的多视角对话情感识别方法,包括以下步骤:
S1:将多轮对话中的每条对话语句的说话人映射到对应的说话人ID,去除说话人具体身份的同时,保留一段对话中不同说话人之间的区分性。具体地,包括如下步骤:
S1.1:将一段长度为n的多轮对话中出现的所有说话人按其首次发言的先后顺序构建一个有序列表,如:
Figure 522457DEST_PATH_IMAGE037
此列表包含该多轮对话中所有出现的说话人的身份信息(姓名),其中不同说话人在speakers列表中的次序表示该说话人首次发言的先后顺序。
S1.2:根据S1.1中得到的说话人有序列表,构建说话人到说话人ID的映射字典,如:
Figure 811487DEST_PATH_IMAGE038
S1.3:根据S1.2中得到的映射字典,将该多轮对话中每条语句的说话人身份映射到对应的说话人ID,得到与对话语句序列对齐的长度为n的说话人ID序列。
S2:对进行说话人ID标记后的多轮对话进行融合说话人信息的上下文编码,得到对话中每个语句的上下文编码表征。具体的,包括如下步骤:
S2.1:将多轮对话中各语句以特定分隔符“[SEP]”为间隔拼接起来,得到包含所有对话语句的字符长序列:
Figure 695129DEST_PATH_IMAGE039
其中
Figure 303922DEST_PATH_IMAGE031
表示对话中第i个语句的字符序列,n表示总对话轮次长度。例如,原始对 话为{“Evan”:我今天很开心,“Alice”:发生了什么事},则
Figure 148381DEST_PATH_IMAGE040
为“我今天很开心”,
Figure 100157DEST_PATH_IMAGE041
为 “发生了什么事”,
Figure 244830DEST_PATH_IMAGE042
为“
Figure 623859DEST_PATH_IMAGE043
我今天很开心
Figure 221193DEST_PATH_IMAGE043
发生了什么事”,其中“
Figure 117605DEST_PATH_IMAGE043
”整体当 作一个字符,
Figure 975840DEST_PATH_IMAGE042
字符序列长度为14。
S2.2:根据S2.1中得到的对话字符长序列
Figure 932294DEST_PATH_IMAGE042
,构建对应的说话人ID字符序列:
Figure 751346DEST_PATH_IMAGE044
其中
Figure 44924DEST_PATH_IMAGE033
表示第i个语句对应的说话人匿名ID,
Figure 898611DEST_PATH_IMAGE034
表示第i个语句对应的字符序 列的长度。针对S2.1中的实际例子,
Figure 885021DEST_PATH_IMAGE045
为6,
Figure 191369DEST_PATH_IMAGE046
为6,
Figure 429583DEST_PATH_IMAGE047
S2.3:根据S2.1中得到的对话字符长序列
Figure 996831DEST_PATH_IMAGE042
,计算适用于预训练模型BERT的 注意力mask(掩码)矩阵
Figure 29509DEST_PATH_IMAGE023
,掩码矩阵的获取过程通过逻辑控制(代码)实现,结 合BERT中的attention机制使用,该mask矩阵控制
Figure 947786DEST_PATH_IMAGE042
中每个分隔符“[SEP]”只关注到其 后紧邻的语句中的字符;针对第i个语句
Figure 724112DEST_PATH_IMAGE007
中的字符,该mask控制其不能关注未来语句
Figure 411446DEST_PATH_IMAGE024
中的任何字符。针对S2.1中的实际例子,
Figure 615025DEST_PATH_IMAGE042
中的第一个
Figure 895965DEST_PATH_IMAGE048
”字符对应的 mask向量应为
Figure 600616DEST_PATH_IMAGE049
Figure 283401DEST_PATH_IMAGE040
中各字符的mask向量应为
Figure 782515DEST_PATH_IMAGE049
,第二个
Figure 285172DEST_PATH_IMAGE048
”字符对应的mask向量应为
Figure 262355DEST_PATH_IMAGE050
Figure 59367DEST_PATH_IMAGE041
中字符的mask向量应为
Figure 604749DEST_PATH_IMAGE051
,其中“1”表示可以关注,“0”表示不 能关注,
Figure 984914DEST_PATH_IMAGE052
是维度
Figure 641155DEST_PATH_IMAGE053
的0-1矩阵。
S2.4:如图3所示,在预训练模型BERT中的Embedding Layer新定义一个speaker embedding层,该层将S2.2中得到的说话人ID字符序列
Figure 298532DEST_PATH_IMAGE025
映射为说话人ID embedding向量矩阵
Figure 139449DEST_PATH_IMAGE026
,其会与BERT模型中原始定义的token向量矩阵
Figure 616698DEST_PATH_IMAGE027
、 token类型向量矩阵
Figure 201263DEST_PATH_IMAGE028
、token位置向量矩阵
Figure 713147DEST_PATH_IMAGE029
进行叠加输入到后续编码层。
S2.5:取各分隔符“[SEP]”在BERT模型最后一层编码层输出的编码向量,作为对应对话语句的上下文编码表征,得到融入说话人信息的对话整体上下文编码表征矩阵:
Figure 724965DEST_PATH_IMAGE035
其中
Figure 689510DEST_PATH_IMAGE036
表示语句
Figure 953133DEST_PATH_IMAGE007
的上下文编码表征,维度为768。
S3:基于得到的对话语句上下文编码表征,进行说话人自适应的多视角全局对话信息融合编码。具体的,包括如下步骤:
S3.1:根据S1.3中得到的说话人ID序列,分别从说话人自身视角、他者视角、全局 视角构建维度为
Figure 444157DEST_PATH_IMAGE001
0-1 mask矩阵:
Figure 502243DEST_PATH_IMAGE002
,其中对于
Figure 78718DEST_PATH_IMAGE012
的元素
Figure 146031DEST_PATH_IMAGE013
,其满足如下条件:
Figure 101348DEST_PATH_IMAGE054
对于
Figure 720549DEST_PATH_IMAGE015
的元素
Figure 394106DEST_PATH_IMAGE013
,其满足如下条件:
Figure 124165DEST_PATH_IMAGE016
对于
Figure 199568DEST_PATH_IMAGE017
的元素
Figure 989670DEST_PATH_IMAGE013
,其满足如下条件:
Figure 884945DEST_PATH_IMAGE018
其中i表示attention中query语句的index,j表示attention中 key语句的index。 例如,对于长度为3且说话人序列为[“Evan”,“Alice”,“Evan”]的对话,
Figure 418694DEST_PATH_IMAGE055
Figure 614183DEST_PATH_IMAGE056
,
Figure 184973DEST_PATH_IMAGE057
S3.2:将S2.5中得到的对话上下文编码表征
Figure 223336DEST_PATH_IMAGE058
分别输入到3个不 同的单层Multi-Head Attention网络:
Figure 164704DEST_PATH_IMAGE003
,该网络Head数目设为 8,前向隐层维度设为2048;三个网络分别接收S3.1中得到的
Figure 73754DEST_PATH_IMAGE002
作为对应的Attention控制mask;最终3个网络分别从不同视角输出对话的全局融合表征:
Figure 346604DEST_PATH_IMAGE004
Figure 216471DEST_PATH_IMAGE005
Figure 92023DEST_PATH_IMAGE006
, 其中各表征向量维度为768。
S4:将多视角的全局融合信息进行自适应的信息汇总,并对语句最终情感进行识别。具体的,包括如下步骤:
S4.1:将S3.2中得到的语句
Figure 262104DEST_PATH_IMAGE007
的3个不同视角的全局表征向量
Figure 299331DEST_PATH_IMAGE059
作为向量序列
Figure 922073DEST_PATH_IMAGE060
输入到单层Multi-Head Attention网络中,该网络Head数 设为1,前向隐层维度设为2048;该网络的编码输出经过池化层后,输入到单层的全连接网 络,得到语句
Figure 335737DEST_PATH_IMAGE007
的m维特征向量
Figure 360325DEST_PATH_IMAGE011
,其中m表示情感类别数。
S4.2:将S4.1得到的特征向量
Figure 443818DEST_PATH_IMAGE061
作为Softmax算子的自变量,计 算Softmax的最终值,做为语句
Figure 412911DEST_PATH_IMAGE007
属于每一类情感的概率值,最后取类别概率值最大的作为 最终情感类别,其中Softmax的计算公式如下:
Figure 505632DEST_PATH_IMAGE062
其中
Figure 509360DEST_PATH_IMAGE021
为常量。
综上所述,本实施提供的方法,通过在上下文编码中融入说话人信息,并对说话人情感变迁因素从多个视角进行全局信息融合编码,提升了模型在多说话人场景下的适应性及情感建模能力,能够提高最终对话情感识别的精度。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (10)

1.一种说话人自适应的多视角对话情感识别方法,其特征在于包括如下步骤:
S1,将多轮对话中,每条对话语句的说话人,映射到对应的说话人ID序列,去除说话人具体身份;
S2,对进行说话人ID标记后的多轮对话,进行融合说话人信息的上下文编码,得到对话中每个语句的上下文编码表征;
S3,基于上下文编码表征,进行说话人自适应的多视角全局对话信息融合编码,得到对话的多视角全局融合信息,包括如下步骤:
S31,根据说话人ID序列,分别从说话人自身视角、他者视角、全局视角构建掩码矩阵:
Figure DEST_PATH_IMAGE001
S32,将上下文编码表征,分别输入到不同的单层多头注意力网络:
Figure DEST_PATH_IMAGE002
,三个网络分别接收
Figure 551403DEST_PATH_IMAGE001
作为对应的注意力控制掩码,分别输出对话的多视角全局融合表征向量集:
Figure DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
S4,将多视角的全局融合信息,进行自适应的信息汇总,并对语句最终情感进行识别,包括如下步骤:
S41,将语句
Figure DEST_PATH_IMAGE006
多视角全局融合表征向量
Figure DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE008
,作为向量序列
Figure DEST_PATH_IMAGE009
,输入单层多头注意力网络中,网络的编码输出经池化全连接,得到语句
Figure 409156DEST_PATH_IMAGE006
的m维特征向量
Figure DEST_PATH_IMAGE010
,其中m表示情感类别数;
S42,将特征向量
Figure 595418DEST_PATH_IMAGE010
进行归一化处理,得到语句
Figure 443157DEST_PATH_IMAGE006
属于每一类情感的概率值,取类别概 率值最大的作为最终情感类别。
2.根据权利要求1所述的一种说话人自适应的多视角对话情感识别方法,其特征在于 所述S31中对于
Figure DEST_PATH_IMAGE011
的元素
Figure DEST_PATH_IMAGE012
,其满足如下条件:
Figure DEST_PATH_IMAGE013
对于
Figure DEST_PATH_IMAGE014
的元素
Figure 349540DEST_PATH_IMAGE012
,其满足如下条件:
Figure DEST_PATH_IMAGE015
对于
Figure DEST_PATH_IMAGE016
的元素
Figure 783056DEST_PATH_IMAGE012
,其满足如下条件:
Figure DEST_PATH_IMAGE017
其中i表示注意力机制中查询语句query的索引,j表示注意力机制中接收查找语句key的索引。
3.根据权利要求1所述的一种说话人自适应的多视角对话情感识别方法,其特征在于 所述S42中的特征向量
Figure DEST_PATH_IMAGE018
,将其作为Softmax算子的自变量,计算Softmax 的最终值:
Figure DEST_PATH_IMAGE019
其中
Figure DEST_PATH_IMAGE020
为常量,将
Figure DEST_PATH_IMAGE021
作为语句
Figure 689570DEST_PATH_IMAGE006
属于每一类情感的概率值。
4.根据权利要求1所述的一种说话人自适应的多视角对话情感识别方法,其特征在于所述S2包括如下步骤:
S21,将多轮对话中各语句以分隔符为间隔拼接起来,得到包含所有对话语句的字符长序列;
S22,根据字符长序列和说话人ID序列,构建对应的说话人ID字符序列;
S23,根据字符长序列,计算注意力掩码矩阵,用于编码阶段,控制字符长序列中每个分隔符只关注到其后紧邻的语句中的字符;控制其不能关注未来语句中的任何字符;
S24,在获取说话人ID标记后的多轮对话的嵌入阶段,将说话人ID字符序列映射为说话人ID嵌入向量矩阵,与对话向量矩阵、对话类型向量矩阵、对话位置向量矩阵进行叠加,并输出至编码阶段;
S25,取各分隔符在编码阶段输出的编码向量,作为对应对话语句的上下文编码表征。
5.根据权利要求4所述的一种说话人自适应的多视角对话情感识别方法,其特征在于所述S21中的分隔符为[SEP],字符长序列为:
Figure DEST_PATH_IMAGE022
其中
Figure DEST_PATH_IMAGE023
表示对话中第i个语句的字符序列,n表示总对话轮次长度。
6.根据权利要求4所述的一种说话人自适应的多视角对话情感识别方法,其特征在于所述S22中说话人ID字符序列为:
Figure DEST_PATH_IMAGE024
其中
Figure DEST_PATH_IMAGE025
表示第i个语句
Figure 324688DEST_PATH_IMAGE006
对应的说话人ID,
Figure DEST_PATH_IMAGE026
表示第i个语句
Figure 383780DEST_PATH_IMAGE006
对应的字符序列 的长度。
7.根据权利要求4所述的一种说话人自适应的多视角对话情感识别方法,其特征在于所述S25中的上下文编码表征,构成融入说话人信息的对话语句上下文编码表征矩阵:
Figure DEST_PATH_IMAGE027
其中
Figure DEST_PATH_IMAGE028
表示语句
Figure 710899DEST_PATH_IMAGE006
的上下文编码表征。
8.根据权利要求1所述的一种说话人自适应的多视角对话情感识别方法,其特征在于所述S1包括如下步骤:
S11,将长度为n的多轮对话中出现的说话人,按其首次发言的先后顺序,构建有序列表,所述有序列表包含说话人身份信息;
S12,根据有序列表,构建说话人到说话人ID的映射字典;
S13,根据映射字典,将多轮对话中每条语句的说话人身份,映射到对应的说话人ID,得到与对话语句序列对齐的长度为n的说话人ID序列。
9.一种说话人自适应的多视角对话情感识别系统,包括依次连接的多轮对话预处理模块、上下文编码模块和情感识别模块,其特征在于所述上下文编码模块与情感识别模块之间,设有多视角全局融合编码模块;
所述多轮对话预处理模块,对多轮对话中各语句的说话人身份信息,进行说话人ID映射,得到说话人ID序列,去除说话人具体身份;
所述上下文编码模块,对进行说话人ID标记后的多轮对话,进行融合说话人信息的上下文编码,得到对话中每个语句的上下文编码表征;
所述多视角全局融合编码模块,包括三个单层多头注意力网络,获取上下文编码表征,将三个掩码矩阵作为对应网络的注意力控制掩码,得到说话人自身角度、他者角度、全局角度的对话的多视角全局融合信息,所述三个掩码矩阵,是根据说话人ID序列,从说话人自身视角、他者视角、全局视角构建的掩码矩阵;
所述情感识别模块,对多视角全局融合信息进行汇总,并预测对话语句的情感类别。
10.根据权利要求9所述的一种说话人自适应的多视角对话情感识别系统,其特征在于所述上下文编码模块,包括嵌入层、注意力掩码模块和编码层,嵌入层包括对话嵌入层、对话类型嵌入层、对话位置嵌入层和说话人嵌入层,用于获取说话人ID标记后的多轮对话,将各子嵌入层分别对应得到的对话向量矩阵、对话类型向量矩阵、对话位置向量矩阵和说话人ID嵌入向量矩阵进行叠加,并输出至编码层;注意力掩码模块根据字符长序列,计算注意力掩码矩阵,并输出至编码层,所述字符长序列是将多轮对话中各语句以分隔符为间隔拼接起来得到的;编码器通过注意力掩码矩阵,控制字符长序列中每个分隔符只关注到其后紧邻的语句中的字符,控制其不能关注未来语句中的任何字符,取各分隔符在编码器输出的编码向量,作为对应对话语句的上下文编码表征。
CN202111141588.9A 2021-09-28 2021-09-28 一种说话人自适应的多视角对话情感识别方法及系统 Active CN113571097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111141588.9A CN113571097B (zh) 2021-09-28 2021-09-28 一种说话人自适应的多视角对话情感识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111141588.9A CN113571097B (zh) 2021-09-28 2021-09-28 一种说话人自适应的多视角对话情感识别方法及系统

Publications (2)

Publication Number Publication Date
CN113571097A CN113571097A (zh) 2021-10-29
CN113571097B true CN113571097B (zh) 2022-01-18

Family

ID=78174866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111141588.9A Active CN113571097B (zh) 2021-09-28 2021-09-28 一种说话人自适应的多视角对话情感识别方法及系统

Country Status (1)

Country Link
CN (1) CN113571097B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463688A (zh) * 2022-04-12 2022-05-10 之江实验室 一种跨模态上下文编码的对话情感识别方法及系统
CN114757176B (zh) * 2022-05-24 2023-05-02 上海弘玑信息技术有限公司 一种获取目标意图识别模型的方法以及意图识别方法
CN116108856B (zh) * 2023-02-14 2023-07-18 华南理工大学 基于长短回路认知与显隐情感交互的情感识别方法及系统
CN116245197B (zh) * 2023-02-21 2023-11-07 北京数美时代科技有限公司 一种提升语言模型的训练速率的方法、系统、介质及设备
CN118132710A (zh) * 2024-03-11 2024-06-04 中国科学院信息工程研究所 基于多尺度滑动窗口与动态聚合的对话级情感分析方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251406B2 (en) * 2012-06-20 2016-02-02 Yahoo! Inc. Method and system for detecting users' emotions when experiencing a media program
WO2015168606A1 (en) * 2014-05-02 2015-11-05 The Regents Of The University Of Michigan Mood monitoring of bipolar disorder using speech analysis
JP6887102B2 (ja) * 2016-02-29 2021-06-16 パナソニックIpマネジメント株式会社 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法
CN109543039B (zh) * 2018-11-23 2022-04-08 中山大学 一种基于深度网络的自然语言情感分析方法
CN111460143A (zh) * 2020-03-11 2020-07-28 华南理工大学 一种多人对话系统的情绪识别模型
CN111563373B (zh) * 2020-04-13 2023-08-18 中南大学 聚焦属性相关文本的属性级情感分类方法
CN111666761B (zh) * 2020-05-13 2022-12-09 北京大学 细粒度情感分析模型训练方法及装置
CN111966800B (zh) * 2020-07-27 2023-12-12 腾讯科技(深圳)有限公司 情感对话生成方法、装置及情感对话模型训练方法、装置
CN112489635B (zh) * 2020-12-03 2022-11-11 杭州电子科技大学 一种基于增强注意力机制的多模态情感识别方法
CN112597841B (zh) * 2020-12-14 2023-04-18 之江实验室 一种基于门机制多模态融合的情感分析方法
CN112966074B (zh) * 2021-05-17 2021-08-03 华南师范大学 一种情感分析方法、装置、电子设备以及存储介质
CN113297366B (zh) * 2021-06-22 2023-05-30 中国平安人寿保险股份有限公司 多轮对话的情绪识别模型训练方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113571097A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN113571097B (zh) 一种说话人自适应的多视角对话情感识别方法及系统
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN112818646B (zh) 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法
Liu et al. Group gated fusion on attention-based bidirectional alignment for multimodal emotion recognition
Kumar et al. Lipper: Synthesizing thy speech using multi-view lipreading
CN112233680B (zh) 说话人角色识别方法、装置、电子设备及存储介质
Ma et al. Neural TTS stylization with adversarial and collaborative games
CN110390956A (zh) 情感识别网络模型、方法及电子设备
CN115690553B (zh) 一种基于多模态对话内容联合建模的情感分析方法及系统
CN112597841B (zh) 一种基于门机制多模态融合的情感分析方法
Yeh et al. A dialogical emotion decoder for speech emotion recognition in spoken dialog
Kinoshita et al. Tight integration of neural-and clustering-based diarization through deep unfolding of infinite gaussian mixture model
Xiao et al. A Initial Attempt on Task-Specific Adaptation for Deep Neural Network-based Large Vocabulary Continuous Speech Recognition.
CN117765981A (zh) 一种基于语音文本跨模态融合的情感识别方法及系统
Sahu et al. Modeling feature representations for affective speech using generative adversarial networks
CN114463688A (zh) 一种跨模态上下文编码的对话情感识别方法及系统
Li et al. Context-aware Multimodal Fusion for Emotion Recognition.
CN115858726A (zh) 基于互信息方法表示的多阶段多模态情感分析方法
Shin et al. Multi-view attention transfer for efficient speech enhancement
Tanaka et al. Cross-modal transformer-based neural correction models for automatic speech recognition
Ai et al. A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning
CN112489651B (zh) 语音识别方法和电子设备、存储装置
CN117725936A (zh) 一种基于超图网络的长对话情感动态识别方法及系统
CN116628203A (zh) 基于动态互补图卷积网络的对话情感识别方法及系统
Jati et al. An Unsupervised Neural Prediction Framework for Learning Speaker Embeddings Using Recurrent Neural Networks.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant