CN115563290B

CN115563290B - 一种基于语境建模的智能情感识别方法

Info

Publication number: CN115563290B
Application number: CN202211554419.2A
Authority: CN
Inventors: 赵瀚霖; 张汝民; 刘昌松; 孙文韬; 张超意
Original assignee: Guangdong Shuye Intelligent Technology Co ltd
Current assignee: Guangdong Shuye Intelligent Technology Co ltd
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-04-07
Anticipated expiration: 2042-12-06
Also published as: CN115563290A

Abstract

本发明属于心理健康、对话机器人与自然语言处理领域，具体是涉及一种基于语境建模的智能情感识别方法。本发明的目的在于解决当对话文本缺少上下文信息时，现有的感情识别方法无法准确的识别用户情感的问题。主要方案包括将对话文本和用户信息输入信息融合模块进行说话者与聆听者之间关系、用户性格、上下文信息的融合处理，然后输入情感分析模块将情感识别任务转化为填充任务，通过预测[MASK]位置上的词，然后通过词映射对应的情感类型，得到用户精准情感状态。本发明用于对话文本的情感识别。

Description

一种基于语境建模的智能情感识别方法

技术领域

本发明属于心理健康、对话机器人与自然语言处理领域，具体是涉及一种基于语境建模的智能情感识别方法。

背景技术

随着机器人对话技术与自然语言处理技术的发展与推广，出现了多个可识别情感的智能对话系统应用等，具体如下：

专利CN 106683672 A《一种基于情感和语义的智能对话方法及系统》通过获取所述多轮对话信息确定所述用户当前的情感和语义；最后，根据所述用户当前的情感和语义做出符合所述用户当前的情感和语义的回复，这样的对话并未融入用户的个人信息，不能精确得给出用户当前情绪，进而无法给出针对性的回答。

专利CN 112905776 A《一种情感对话模型构建方法、情感对话系统及方法》通过构建情感对话模型、生成器来生成对话回复，判别器来判别所生成的回复文本是属于“通用回复”还是基于情感的回复，可以在一定程度上提高人机交互的用户体验感，但是并没有引入聊天主题等信息，仅能适用于闲聊型对话。

专利CN 111949762 A《基于上下文情感对话的方法和系统、存储介质》通过获取上下文数据集，提取其中的主题类别和情感类别，得到主题关键词概率和情感关键词概率，随之预测回复中的主题关键词和情感关键词，再生成初步的回复，接着得到所述初步的回复的权重值，根据初步的回复和权重，得到最终回复，在这里得到的主题关键词仅通过上下文而没考虑到对话者的性格信息，在情感预测上不够准确。通过专业的心理调查问卷得到用户性格，同时再引入用户性格来进行情感识别会更具针对性和准确性。

目前情感对话系统在情感识别上的准确率还有较大提升空间，其中很重要的一部分原因在于对话内容涉及范围宽泛，对话没有围绕着一个确定的主题，或者是没有考虑到用户的真实情况与顾虑进行回答，会导致同样的回答出自不同身份的人有不一样的情感。

发明内容

本发明的目的在于解决当对话文本缺少上下文信息时，现有的感情识别方法无法准确的识别用户情感的问题。

为了克服上述技术问题，本发明采用以下技术手段：

一种基于语境建模的智能情感识别方法，将对话文本和用户信息输入信息融合模块进行说话者与聆听者之间关系、用户性格、上下文信息的融合处理，然后输入情感分析模块将情感识别任务转化为填充任务，通过预测[MASK]位置上的词，然后通过词映射对应的情感类型，得到用户精准情感状态。

上述技术方案中，信息融合模块包括：

常识性知识提取模块：根据对话文本推理出说话者与聆听者之间的关系类型，然后将其关系类型和原对话文本作为输入，送进常识生成模型得到常识特征；

常识与上下文结合模块：将对话文本与常识特征先拼接再编码的方式得到融合信息，

提示生成模块：将融合信息通过多层感知器进行重塑操作分别生成说话人与聆听者的令牌标记，再将其令牌标记送入时序模型进行编码得到编码顺序特征，进而生成最终的提示嵌入；

用户性格获取模块：通过调查问卷收集用户信息，进而得到用户性格特点对性格信息进行编码得到性格信息嵌入；

信息拼接模块：将提示嵌入、性格信息嵌入、对话文本进行拼接操作到token序列；

情感分析模块：将token序列作为输入送进预训练模型，预训练模型可以根据所有输入的token序列的嵌入，预测最有可能出现在[MASK]位置的词，根据预测到的词映射对应的情感类型，进而实现对情感的预测。

上述技术方案中，用户性格获取模块：

通过调查问卷收集用户性格信息，进而得到用户性格特点，包括开放的，自觉的，外向的，合群的，神经质的性格特点，通过RoBERTa作为预训练模型对性格信息进行编码得到性格信息嵌入m：

;

将

进行复制分别得到

，

代表预训练模型，

代表性格信息，

代表外向、

代表自觉的、

代表神经质。

上述技术方案中，常识性知识提取模块：包括常识知识图谱模块和常识生成模型，其中，

常识知识图谱模块：对于一个对话文本，其包含t个句子，N个对话，将对话文本中的每一句话U_t输入ATOMIC常识知识图谱模块输出三联体{s,r,o}，其中s是主体subject，代表说话者，o是客体object代表聆听者，然后r是关系relation，为关系短语

，由九种不同的if-then关系类型确定得到关系类型对应的反映说话者与聆听者之间关系的关系短语

；

常识生成模型：

将对话文本中的一个对话中的每一句话作为语料U_t，并将语料U_t与关系短语

串联起来，得到说话者与聆听者的关系句集合｛U_t

，对每一个关系句

通过编码器后得到常识特征

，

表示文本中的第t句话u_t与第j种常识类型的嵌入；

其中COMET()代表编码器，

表示对话中第t句中的第k个词，

表示第

种关系类型。

上述技术方案中，常识与上下文结合模块：将对话文本与常识特征先拼接再编码的方式得到融合信息，对于一个对话文本，其包含L个句子，N个对话，每个对话包含t个句子，t<=L，对于每个常识类型j（1≤j≤9），将其与所有句子相关的常识特征连接起来：

,

其中⊕是拼接操作，空心

代表域，

是一个 L*d _c维度的矩阵，d _c是常识特征的维度；

说话者的隐藏嵌入矩阵

：

），

聆听者的隐藏嵌入矩阵

：

），

其中

为一个对话文本，L为一个对话文本中的句子个数，

隐藏嵌入矩阵的维度，

为预定义的代表说话人的线性投影矩阵，

预定义的代表聆听者的线性投影矩阵，

代表transformer编码器。

上述技术方案中，提示生成模块：

融合信息通过多层感知器进行重塑操作分别生成说话人与聆听者的令牌标记，再将其令牌标记送入时序模型进行编码得到编码顺序特征，进而生成最终的提示嵌入；

通过多层感知器进行重塑操作得到说话人相关信息的连续嵌入矩阵E和听者相关对话信息的连续嵌入矩阵P,

;

;

代表重塑操作，MLP()代表多层感知机；

其中

表示E的左半部分,

表示E的右半部分，

代表说话者的提示嵌入的数量；

其中

表示P的左半部分,

表示P的右半部分，

代表聆听者的提示嵌入的数量；

对于一句话U_t取连续嵌入矩阵中的第t个向量来构成它的伪标记的隐藏提示嵌入，表示为[e_t ^l, p_t ^l, p_t ^r ,e_t ^r]，然后使用Bi-LSTM时序模型来获得伪标记的最终提示嵌入：

其中

表示从

中取出的第t个向量，

表示从

中取出的第t个向量；

表示从

中取出的第t个向量，

表示从

中取出的第t个向量。

上述技术方案中，信息拼接模块：将提示嵌入、性格信息嵌入（性格特征）、对话文本进行拼接操作到token序列；

其中 [CLS]符号作为整篇文本的语义表示、 [SEP]是分割符号用于区分不同的向量、[MASK]防止标签泄露。

上述技术方案中，情感分析模块：将信息融合模块获得的token序列作为输入送进预训练模型，预训练模型可以根据所有输入token的嵌入，预测最有可能出现在[MASK]位置的词

，将预测的词

映射到一个情感类别，实现了对一个句子U_t的情感的预测;

预测[MASK]位置的词表示为：

其中

为最大值自变量点集函数，通过argmax（）找出概率最大的那个w作为

，P（[MASK]=w）是w出现在[MASK]位置的预测概率，w是标记器的词汇表V中的一个词。

上述技术方案中，使用RoBERTa作为预训练模型并使用交叉熵损失来训练情感分析模块，具体如下：

其中，log是指求对数，q是训练集Q中的一个对话，L_q是对话q中的句子编号，w_t是对应于句子

的真实情感类别的词，而P(w_t)是w_t出现在句子

的[MASK]位置的估计概率。

因为本发明采用上述技术方案，因此具备以下有益效果：

一、本发明提供一种基与语境建模的智能情感识别方法，涉及情感对话与自然语言处理领域。本发明首先在对话前通过心理调查问卷，得到用户性格特征，然后再根据常识性知识图谱和上下文生成提示，将提示，用户性格，对话语句等嵌入拼接起来构成特征向量进行训练，最终得到准确的情感识别结果。

二、本方法提出了信息融合模块与情感分析模块，在信息融合模块中考虑到了常识、用户性格以及上下文信息等因素，在情感分析模块将情感识别任务转化为填充任务，通过预测[MASK]位置上的词来实现对情感的预测，并且在预测过程中利用了信息融合模块所得到的信息作为提示，提高了预测的准确率和鲁棒性。

三、在以往的情感识别工作中，大多仅提供上下文信息给模型，模型主要依据存储的背景信息对情感进行判断。在本发明中，后续会将性格信息嵌入和提示嵌入等拼接起来一起传进模型训练迭代，这么做的目的是：提示嵌入中包含上下文与常识特征，以常识与上下文作为记忆，模型可以简单推断出一句话中说话者的意图和对聆听者的影响，进而推断说话者的情感，但是不同的人对情感信息有不同的感知和反应方式，这种差异与他们的个性特征有关。引入性格信息后，模型以性格、常识以及上下文作为记忆，经过反复的训练与迭代之后，使得模型可以在捕捉到性格差异后对情绪作出不同的预测。

四、在实际应用场景对话可能有几十句，那这段对话有比较丰富的上下文信息，模型好判断，但是有的对话可能就一两句，这时如果仅用（很少的）上下文信息来判断模型是不好判断的。针对这个问题，本发明加入了常识性特征与用户性格特征，这样就算只有一两句再加上常识特征，模型也可以给出比较准确的判断。

附图说明

图1为发明方法框图；

图2为信息融合模块；

图3为常识性知识提取模块；

图4为常识与上下文结合模块；

图5为提示生成模块；

图6为情感分析模块。

具体实施方式

以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明，但需要注意的是本发明并不仅仅只局限于这些实施方式。相反，对本发明进行的修改或者等同替换，均应涵盖在本发明的权利要求范围当中。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解，没有这些具体细节，本发明同样可以实施。

本发明整体框架如图1所示，主要包括信息融合模块和情感分析模块，通过用户信息和对话文本信息综合信息融合和情感分类算法得到用户精准情感状态。接下来按照模块进行详细介绍：

1、信息融合模块：

信息融合模块整体流程如图2所示，主要包括常识性知识提取模块、常识与上下文结合模块、用户性格获取模块及提示生成模块等，接下来按照子模块进行详细介绍：

1.1、常识性知识提取模块：

在之前的有关情感对话识别的发明专利中，主要是通过上下文信息对情感进行预测，这存在一定的局限性——因为有的对话比较简短，仅通过较短的对话无法准确地推理出参与对话者的情感，仅通过上下文信息模型可能会不知所云，在引入常识性知识后，可以根据上下文信息和常识推断说话者与聆听者之间的关系及情感。例如："X给Y一个赞美"，根据常识可以推断出：X的意图和他人的反应将分别是"X想对Y好"和"Y会感到受宠若惊"。

在此模块中，本发明通过将对话文本送入常识知识图谱模块，推理出说话者与聆听者之间的关系类型，然后将其关系类型和原对话文本作为输入，送进常识生成模型得到常识特征，用于后续模块。

具体地来讲，常识知识图谱模块：对于一个对话文本，其包含t个句子，N个对话，将对话文本中的每一句话U_t输入ATOMIC常识知识图谱模块输出三联体{s,r,o}，其中s是主体subject，代表说话者，o是客体object代表聆听者，然后r是关系relation，为关系短语

；

常识生成模型：

串联起来，得到说话者与聆听者的关系句集合｛U_t

，对每一个关系句

通过编码器后得到常识特征

，

表示文本中的第t句话u_t与第j种常识类型的嵌入；

其中COMET()代表编码器，

表示对话中第t句中的第k个词，

表示第

种关系类型。

1.2常识与上下文结合模块:

将对话文本与常识特征的信息结合起来，为后续生成提示帮助模型更准确地预测情感做支持，我们这里采用先拼接再编码的方式得到融合信息——拼接操作将信息先合并到一起，再通过Transformer编码器根据自注意力机制得到信息之间的关联重要程度，这样可以很好得利用上下文和常识信息。达到的效果是：比传统仅基于对话文本信息的情感识别更精准。

在此模块中，将常识性知识提取模块获得的常识特征与对话文本进行拼接操作，然后再一起输入进编码器进行编码得到融合信息，随后被用作生成最终提示嵌入的基础。

具体来讲，本发明中，将对话文本与常识特征先拼接再编码的方式得到融合信息，对于一个对话文本，其包含L个句子，N个对话，每个对话包含t个句子，t<=L，对于每个常识类型j（1≤j≤9），将其与所有句子相关的常识特征连接起来：

,

其中⊕是拼接操作，空心

代表域，

是一个 L*d _c维度的矩阵，d _c是常识特征的维度；

说话者的隐藏嵌入矩阵

：

），

聆听者的隐藏嵌入矩阵

：

），

其中

为一个对话文本，L为一个对话文本中的句子个数，

隐藏嵌入矩阵的维度，

为预定义的代表说话人的线性投影矩阵，

预定义的代表聆听者的线性投影矩阵，

代表transformer编码器。

1.3用户性格获取模块：

本模块中用户性格通过专业的心理咨询师制定特定心理调查问卷，通过调查问卷收集用户信息，进而得到用户性格特点，包括开放的，自觉的，外向的，合群的，神经质的等性格特点，通过RoBERTa作为预训练模型对性格信息进行编码得到性格信息嵌入m：

;

将

进行复制分别得到

，

代表预训练模型，

代表性格信息，

代表外向、

代表自觉的、

代表神经质。

后续再将性格信息嵌入和提示嵌入等拼接起来一起传进模型进行训练迭代。

1.4提示生成模块:

在此模块中，将常识与上下文结合模块中获得的融合信息通过多层感知器进行重塑操作分别生成说话人与聆听者的令牌标记，再将其令牌标记送入时序模型进行编码得到编码顺序特征，进而生成最终的提示嵌入。

在最后一个预测步骤中，由于目标语料的情感是由预训练模型根据其周围的嵌入来预测中间的特殊令牌而确定的，这里的令牌标记是生成嵌入的中间产物，经过重塑和编码可以得到提示嵌入。其实令牌就是token，Token在计算机身份认证中是令牌（临时）的意思，在词法分析中是标记的意思。

在本发明中，从说话人和聆听者的角度分别生成两组连续提示嵌入，分别表示为E和P。此外，与说话人和聆听者有关的推理常识与对话中的上下文信息混合在一起，并被编码到这些嵌入中，最后被用作预训练模型的情感提示，以预测语词的情感。

;

;

代表重塑操作，MLP()代表多层感知机；

其中

表示E的左半部分,

表示E的右半部分，

代表说话者的提示嵌入的数量；

其中

表示P的左半部分,

表示P的右半部分，

代表聆听者的提示嵌入的数量；

其中

表示从

中取出的第t个向量，

表示从

中取出的第t个向量;

表示从

中取出的第t个向量，

表示从

中取出的第t个向量。

1.5信息拼接模块

在此模块中，为了引导模型更好地利用从其预训练中获得的与语料相关的知识，将原来的情感识别任务转换为一个填充任务。

具体来说，在预训练中，原始语料中的一些标记被一个特殊的标记[MASK]以一定的概率掩盖。然后，模型根据其上下文标记来预测被屏蔽的标记是什么内容。根据这一任务的原理，将对应于m_t的[MASK]与u_t的[w₁ ^tw₂ ^t...w_k ^t]标记序列和提示的伪标记以及说话者和聆听者的性格嵌入一起送入RoBERTa模型。

将提示嵌入、性格信息嵌入（性格特征）、对话文本进行拼接操作到token序列；

。

其中 [CLS]符号作为整篇文本的语义表示、 [SEP]是分割符号用于区分不同的向量、[MASK]防止标签泄露，[m^l] ,[m^r]分别是说话人和听众的性格嵌入。

情感分析模块

将信息融合模块获得的token序列作为输入送进预训练模型，预训练模型可以根据所有输入token的嵌入，预测最有可能出现在[MASK]位置的词

，将预测的词

映射到一个情感类别，实现了对一个句子U_t的情感的预测;

预测[MASK]位置的词表示为：

其中

使用RoBERTa作为预训练模型并使用交叉熵损失来训练情感分析模块，具体如下：

的真实情感类别的词，而P(w_t)是w_t出现在句子

的[MASK]位置的估计概率。