CN110706785B

CN110706785B - 基于对话的情感调节方法和系统

Info

Publication number: CN110706785B
Application number: CN201910807841.6A
Authority: CN
Inventors: 孙晓; 裴正蒙; 任福继
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2022-03-15
Anticipated expiration: 2039-08-29
Also published as: CN110706785A

Abstract

本发明提供基于对话的情感调节方法和系统，涉及数据处理领域。包括以下步骤：获取用户的历史对话数据和实时对话数据；对历史对话数据进行预处理，得到情感序列；基于情感序列获取用户在不同情感刺激下的情感转移概率分布；基于实时对话数据获取当前情感状态；基于强化学习方法对情感转移概率分布进行处理，以最大化当前情感状态调节到预设的目标情感状态的价值为目标，获取刺激情感；将刺激情感给予用户，使得用户从当前情感状态调节到预设的目标情感状态。本发明可以准确分析并调节人们的情感。

Description

基于对话的情感调节方法和系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于对话的情感调节方法和系统。

背景技术

在当前的社会环境下，人们对于自己的情感总是很难掌控。例如在交流过程中可能会造成人们的情感变得失落甚至愤怒。对于人们自身来说，一般很难主观转变情感。因此，将用户从一些负面的情感状态引导至一个正面的情感状态是当前研究的一个重点。

现有技术中，一般通过研究用户的情感状态，并找出合理的情感迁移，以及利用该情感迁移将用户从一些情感状态引导至目标情感状态，达到调整用户情感状态的目的。

然而本申请的发明人发现，人们的情感会因为对话交流而改变，通过分析人们的对话进一步挖掘情感状态是很有必要的，因此现有技术存在分析并调节人们的情感时存在不够准确的缺点。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于对话的情感调节方法和系统，解决了现有技术不能准确分析并调节人们的情感的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明解决其技术问题所提供的一种基于对话的情感调节方法，所述调节方法由计算机执行，包括以下步骤：

获取用户的历史对话数据和实时对话数据；

对所述历史对话数据进行预处理，得到情感序列；基于所述情感序列获取用户在不同情感刺激下的情感转移概率分布；

基于所述实时对话数据获取当前情感状态；

基于强化学习方法对所述情感转移概率分布进行处理，以将所述当前情感状态调节到预设的目标情感状态的价值最大化为目标，获取刺激情感；

将所述刺激情感给予用户，使得用户从当前情感状态调节到预设的目标情感状态。

优选的，用户的情感状态包括：快乐，自然，惊讶，悲伤和生气。

优选的，所述情感序列的获取方法为：

基于采样统计方法对所述历史对话数据进行处理，得到对话者A与对话者B的情绪转移三元组特征：A的情绪-B的情绪-A的新情绪，其中，A的情绪为状态特征，B的情绪为刺激特征；所述情绪转移三元组特征即为对话者A的一个情感序列；

所述情感转移概率分布的获取方法为：

统计所述情绪转移三元组特征的频率，所述频率即为对话者A的一个情感转移概率，统计对话者A的所有情感转移概率，得到对话者A的情感转移概率分布。

优选的，所述刺激情感的获取方法包括：

S401、基于所述情感转移概率分布获取所述当前情感状态转换到外界刺激情感的第一概率值和外界刺激情感转换到预设的目标情感状态的第二概率值；

S402、基于所述第一概率值获取所述当前情感状态转换到外界刺激情感的第一价值；基于所述第一概率值和所述第二概率值获取所述当前情感状态转换到预设的目标情感状态的第二价值；

S403、以最大化所述第一价值和所述第二价值为目标，得到所述刺激情感。

优选的，在S402中，所述第一价值的获取方法为：

其中：

π(a_t|s_t)为Agent采取的刺激情感；

ρ(s_t+1|a_t,t)为按照某一刺激情感的调节概率；

r_t+1+v_π(s_t+1)为第一长期回报值；

所述第二价值的获取方法为：

其中：

ρ(s_t+1|s_t,a_t)为按照当前状态s_t和刺激a_t得到下一状态的调节概率；

ρ(a_t+1|s_t+1)是下一刺激情感a_t+1对下一状态s_t+1的调节概率；

r_t+1+q_π(s_t+1,a_t+1)是第二长期回报值。

优选的，在S403中，最大化所述第一价值为：

其中：

argmax为取最大值函数；

v_π(s)为第一价值；

最大化所述第二价值为：

a*＝argmax_aq_π(s,a)

其中：

argmax为取最大值函数；

q_π(s,a)为第二价值。

本发明解决其技术问题所提供的一种基于对话的情感调节系统，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，所述至少一个存储单元中存储有至少一条指令，所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤：

获取用户的历史对话数据和实时对话数据；

基于所述实时对话数据获取当前情感状态；

优选的，所述刺激情感的获取方法包括：

优选的，在S402中，所述第一价值的获取方法为：

其中：

π(a_t|s_t)为Agent采取的刺激情感；

ρ(s_t+1|a_t,s_t)为按照某一刺激情感的调节概率；

r_t+1+v_π(s_t+1)为第一长期回报值；

所述第二价值的获取方法为：

其中：

ρ(a_t+1|s_t+1)是下一刺激情感a_t+1对下一状态s_t+1的调节概率；

r_t+1+q_π(s_t+1,a_t+1)是第二长期回报值。

优选的，在S403中，最大化所述第一价值为：

其中：

argmax为取最大值函数；

v_π(s)为第一价值；

最大化所述第二价值为：

a*＝argmax_aq_π(s,a)

其中：

argmax为取最大值函数；

q_π(s,a)为第二价值。

(三)有益效果

本发明提供了一种基于对话的情感调节方法和系统。与现有技术相比，具备以下有益效果：

本发明通过获取用户的历史对话数据和当前情感状态；获取用户的历史对话数据和实时对话数据；对历史对话数据进行预处理，得到情感序列；基于情感序列获取用户在不同情感刺激下的情感转移概率分布；基于实时对话数据获取当前情感状态；基于强化学习方法对情感转移概率分布进行处理，以最大化当前情感状态调节到预设的目标情感状态的价值为目标，获取刺激情感；将刺激情感给予用户，使得用户从当前情感状态调节到预设的目标情感状态。本发明通过历史分析用户的对话数据，可以准确判断用户当前的情感状态；通过强化学习的方法可以使用户合理的从当前情感状态过渡到目标状态，从而实现用户情感的调节，有利于医疗机构进行心理疾病的辅助治疗以及心理咨询等。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于对话的情感调节方法的整体流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于对话的情感调节方法和系统，解决了不能准确分析并调节人们的情感的问题问题，实现人们情感的准确分析以及调节。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例通过获取用户的历史对话数据和实时对话数据；对历史对话数据进行预处理，得到情感序列；基于情感序列获取用户在不同情感刺激下的情感转移概率分布；基于实时对话数据获取当前情感状态；基于强化学习方法对情感转移概率分布进行处理，以最大化当前情感状态调节到预设的目标情感状态的价值为目标，获取刺激情感；将刺激情感给予用户，使得用户从当前情感状态调节到预设的目标情感状态。本发明实施例通过历史分析用户的对话数据，可以准确判断用户当前的情感状态；通过强化学习的方法可以使用户合理的从当前情感状态过渡到目标状态，从而实现用户情感的调节，有利于医疗机构进行心理疾病的辅助治疗以及心理咨询等。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供了一种基于对话的情感调节方法，该方法由计算机执行，如图1所示，包括以下步骤：

S1、获取用户的历史对话数据和实时对话数据；

S2、对上述历史对话数据进行预处理，得到情感序列；基于上述情感序列获取用户在不同情感刺激下的情感转移概率分布；

S3、基于上述实时对话数据获取当前情感状态；

S4、基于强化学习方法对上述情感转移概率分布进行处理，以将上述当前情感状态调节到预设的目标情感状态的价值最大化为目标，获取刺激情感；

S5、将上述刺激情感给予用户，使得用户从当前情感状态调节到预设的目标情感状态。

下面对各步骤进行具体分析。

在步骤S1中，获取用户的历史对话数据和实时对话数据。

具体的，可以在互联网上获取用户历史的对话信息和实时的对话信息。

在步骤S2中，对上述历史对话数据进行预处理，得到情感序列；基于上述情感序列获取用户在不同情感刺激下的情感转移概率分布。

具体的，情感序列的获取方法为：基于采样统计方法对历史对话数据进行处理，得到对话者A与对话者B的情绪转移三元组特征：A的情绪-B的情绪-A的新情绪。其中：A的情绪为状态特征，B的情绪为刺激特征。

上述情绪转移三元组特征即为对话者A的一个情感序列。

情感转移概率分布表示一个人从某种情感状态经过外界的情感刺激后调节至下一种情感状态的概率。

情感转移概率分布的获取方法为：

统计上述情绪转移三元组特征的频率，该频率即为对话者A的一个情感转移概率，统计对话者A的所有情感转移概率，得到对话者A的情感转移概率分布。

在步骤S3中，基于上述实时对话数据获取当前情感状态。

其中，用户的情感状态包括：快乐，自然，惊讶，悲伤和生气。

根据用户的实时对话数据可分析得出用户此时的情感状态。

在步骤S4中，基于强化学习方法对上述情感转移概率分布进行处理，以最大化上述当前情感状态调节到预设的目标情感状态的价值为目标，获取刺激情感。

在本发明实施例中，采用的强化学习方法为马尔科夫决策过程，利用马尔科夫决策模拟用户与外界刺激情感之间的作用。

具体的，马尔科夫决策过程主要由一个四元组构成：

S：一组有限的状态。

A：一组有限的动作或者是状态可用的动作

T：状态调节函数,表示状态s在动作a的状态下到达s`的概率

T(s`|s，a)＝Pr(s_t+1＝s`|s_t＝s，a_t＝a)

R：回报值，用R(s，a)表示用户在状态s执行行动a可以获得的收益。

在本发明实施例中，用s_t表示t时刻个人的情感状态，a_t表示t时刻外界的刺激情感。

具体的，对于用户来说，个人的情感状态调节可以用一条状态-刺激链来表示：

{s₀，a₀，s₁，a₁，……，s_t-1，a_t-1，s_t}

这条链包含了两种状态的转换，一种是从当前情感状态到外界刺激情感的转换，表示个人接收外界的情绪刺激，可能会产生的下一个情绪状态；另一种是从外界刺激情感到目标情感状态的转换，表示外界的刺激策略，给定不同的情绪刺激，期望个人达到目标情绪的期望值最大。

具体的，S4包括以下步骤：

S401、基于上述情感转移概率分布获取上述当前情感状态转换到外界刺激情感的第一概率值和外界刺激情感转换到预设的目标情感状态的第二概率值。

a_t＝argmaxa_t，_iρ(a_t，i|{s₀，a₀，s₁，a₁，……，s_t-1，a_t-1，s_t})

上述公式这个是马尔科夫依赖性的推导公式，表示当前状态的取值只和前一个状态有关，不和更早的状态产生联系。

将上述公式化简，使得当前选择的刺激情感只依赖当前的状态，和之前的状态变化无关：

a_t＝argmaxa_iρ((a_i|s_t)

S402、基于上述第一概率值获取上述当前情感状态转换到外界刺激情感的第一价值；基于上述第一概率值和上述第二概率值获取上述当前情感状态转换到预设的目标情感状态的第二价值。

具体的，在设定目标状态的情况下，需要为用户找到一个策略，指定其在状态s时所要进行的操作。对于策略的选择，需要最大化设定的回报值的累积函数，通常是有限范围内的回报值的折扣之和：

Reward＝∑k＝₀γ^kr_t+k+1

其中：

k是指当前状态后的各个回报值，r_t为t时刻用户的收益，y为折扣率，用来收敛长期回报率。

根据第一概率值和第一长期回报值求得第一价值，第一价值指：已知当前情感状态s，按照某种情感调节行动产生的长期回报期望。

其中：

π(a_t|s_t)为Agent采取的刺激情感；

ρ(s_t+1|a_t,s_t)为按照某一刺激情感的调节概率；

r_t+1+v_π(s_t+1)为第一长期回报值。

根据第一概率值，第二概率值和第二长期回报值求得第二价值，第二价值指：已知当前情感状态以及刺激情感a，按照某种策略行动产生的长期回报期望。

其中：

ρ(s_t+1|s_t,a_t)为按照当前状态s_t和刺激a_t得到下一状态的调节概率，即第一概率值；

ρ(a_t+1|s_t+1)是下一刺激情感a_t+1对下一状态s_t+1的调节概率，即第二概率值；

r_t+1+q_π(s_t+1,a_t+1)是第二长期回报值。

S403、以最大化上述第一价值和所述第二价值为目标，得到上述刺激情感。

具体的，依次将每一个情感状态设定为目标状态。综合所有情感考虑，分别以自然，开心，伤心，生气，惊喜为目标情感，然后计算其他情感到目标情感的价值最大的刺激情感，综合考量模型以不同的情绪为目标情绪的策略。

首先计算当前最大可能的使情绪转移到目标情绪的刺激策略。具体的，使得从其他情感状态调节到目标状态的价值最大化：

其中：

argmax为取最大值函数；

v_π(s)为第一价值。

对每一情感状态，最大化所述第二价值为：

a*＝argmax_aq_π(s,a)

其中：

argmax为取最大值函数；

q_π(s,a)为第二价值。

当一种情感设定为目标情感后，我们计算其他情感状态到目标情感状态刺激情感的价值，并将价值最大的刺激情感当做刺激情感。

在步骤S5中，将上述刺激情感给予用户，使得用户从当前情感状态调节到预设的目标情感状态。

本发明实施例还提供了一种基于对话的情感调节系统，上述系统包括计算机，上述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，上述至少一个存储单元中存储有至少一条指令，上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤：

S1、获取用户的历史对话数据和实时对话数据；

S3、基于上述实时对话数据获取当前情感状态；

可理解的是，本发明实施例提供的上述调节系统与上述调节方法相对应，其有关内容的解释、举例、有益效果等部分可以参考基于对话的情感调节方法中的相应内容，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于对话的情感调节方法，其特征在于，所述调节方法由计算机执行，包括以下步骤：

获取用户的历史对话数据和实时对话数据；

基于所述实时对话数据获取当前情感状态；

将所述刺激情感给予用户，使得用户从当前情感状态调节到预设的目标情感状态；

所述刺激情感的获取方法包括：

2.如权利要求1所述的调节方法，其特征在于，用户的情感状态包括：快乐，自然，惊讶，悲伤和生气。

3.如权利要求1所述的调节方法，其特征在于，所述情感序列的获取方法为：

所述情感转移概率分布的获取方法为：

4.如权利要求1所述的调节方法，其特征在于，在S402中，所述第一价值的获取方法为：

其中：

s_t为当前状态，a_t为当前刺激情感；

π(a_t|s_t)为Agent采取的刺激情感；

ρ(s_t+1|a_t，s_t)为按照某一刺激情感的调节概率；

r_t+1+v_π(s_t+1)为第一长期回报值；

所述第二价值的获取方法为：

其中：

s_t+1为下一状态，a_t+1为下一刺激情感；

ρ(s_t+1|s_t，a_t)为按照当前状态s_t和刺激a_t得到下一状态的调节概率；

ρ(a_t+1|s_t+1)是下一刺激情感a_t+1对下一状态s_t+1的调节概率；

r_t+1+q_π(s_t+1，a_t+1)是第二长期回报值。

5.如权利要求4所述的调节方法，其特征在于，在S403中，最大化所述第一价值为：

其中：

argmax为取最大值函数；

v_π(s)为第一价值；

最大化所述第二价值为：

a^*＝argmax_aq_π(s，a)

其中：

argmax为取最大值函数；

q_π(s，a)为第二价值。

6.一种基于对话的情感调节系统，其特征在于，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

获取用户的历史对话数据和实时对话数据；

基于所述实时对话数据获取当前情感状态；

所述刺激情感的获取方法包括：

7.如权利要求6 所述的调节系统，其特征在于，在S402中，所述第一价值的获取方法为：

其中：

π(a_t|s_t)为Agent采取的刺激情感；

ρ(s_t+1|a_t，s_t)为按照某一刺激情感的调节概率；

r_t+1+v_π(s_t+1)为第一长期回报值；

所述第二价值的获取方法为：

其中：

ρ(a_t+1|s_t+1)是下一刺激情感a_t+1对下一状态s_t+1的调节概率；

r_t+1+q_π(s_t+1，a_t+1)是第二长期回报值。

8.如权利要求7所述的调节系统，其特征在于，在S403中，最大化所述第一价值为：

其中：

argmax为取最大值函数；

v_π(s)为第一价值；

最大化所述第二价值为：

a^*＝argmax_aq_π(s，a)

其中：

argmax为取最大值函数；

q_π(s，a)为第二价值。