CN113539275A

CN113539275A - 确定话术的方法、装置以及存储介质

Info

Publication number: CN113539275A
Application number: CN202010323488.7A
Authority: CN
Inventors: 乔宏利; 杨春勇; 靳丁南; 权圣
Original assignee: Beijing Finite Element Technology Co Ltd
Current assignee: Beijing Finite Element Technology Co Ltd
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2021-10-22
Anticipated expiration: 2040-04-22
Also published as: CN113539275B

Abstract

本申请公开了一种确定话术的方法、装置以及存储介质。其中，该方法包括：确定交互对象对于交互意图产生的第一情绪类别，其中第一情绪类别分为正面情绪类别和负面情绪类别；在第一情绪类别属于负面情绪类别的情况下，从与第一情绪类别对应的话术集合中确定用于回复交互对象的目标话术，其中话术集合中每条话术对应有由机器学习算法计算的收益值；以及利用与目标话术对应的第一音频回复交互对象。

Description

确定话术的方法、装置以及存储介质

技术领域

本申请涉及互联网和机器学习技术领域，特别是涉及一种确定话术的方法、装置以及存储介质。

背景技术

基于话术的语音机器人是任务型语音机器人的主要技术方案，即通过任务话术的提炼和配置，使得机器人按固定话术跟用户做语音对话，并根据用户反馈做有限的分支话术管理，最终目标是达成特定的沟通目标。

要让语音机器人跟用户沟通更自然，持续时间更长，达成任务概率更高，机器人需要对用户的反馈做出对应的处理。例如用户的负面情感表达，用户对机器人话术的负面情感，需要机器人给出对应的安抚话术，来让对话中用户情绪平滑到可以继续进行下去。然而，现有技术中的话术平滑方式因为其任务明确、话术固定、流程可控，极大方便了机器人使用方。但是对机器人聊天对象用户来说，这样的机器人体验并不友好。机器人不能对用户的情绪变化做出有效及时的反馈，用户很可能中途挂断电话甚至将机器人加入通信黑名单。

针对上述的现有技术中存在的机器人语音交互过程中的平滑话术内容比较固定、灵活性较差，因此不能很好的针对用户的负面情感做出应对的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种确定话术的方法、装置以及存储介质，以至少解决现有技术中存在的机器人语音交互过程中的平滑话术内容比较固定、灵活性较差，因此不能很好的针对用户的负面情感做出应对的技术问题。

根据本公开实施例的一个方面，提供了一种确定话术的方法，包括：确定交互对象对于交互意图产生的第一情绪类别，其中第一情绪类别分为正面情绪类别和负面情绪类别；在第一情绪类别属于负面情绪类别的情况下，从与第一情绪类别对应的话术集合中确定用于回复交互对象的目标话术，其中话术集合中每条话术对应有由机器学习算法计算的收益值；以及利用与目标话术对应的第一音频回复交互对象。

根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

根据本公开实施例的另一个方面，还提供了一种确定话术的装置，包括：第一情绪确定模块，用于确定交互对象对于交互意图产生的第一情绪类别，其中第一情绪类别分为正面情绪类别和负面情绪类别；话术确定模块，用于在第一情绪类别属于负面情绪类别的情况下，从与第一情绪类别对应的话术集合中确定用于回复交互对象的目标话术，其中话术集合中每条话术对应有由机器学习算法计算的收益值；以及音频交互模块，用于利用与目标话术对应的第一音频回复交互对象。

根据本公开实施例的另一个方面，还提供了一种确定话术的装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：确定交互对象对于交互意图产生的第一情绪类别，其中第一情绪类别分为正面情绪类别和负面情绪类别；在第一情绪类别属于负面情绪类别的情况下，从与第一情绪类别对应的话术集合中确定用于回复交互对象的目标话术，其中话术集合中每条话术对应有由机器学习算法计算的收益值；以及利用与目标话术对应的第一音频回复交互对象。

在本公开实施例中，可以针对交互对象的负面情绪类别，从对应的话术集合中确定用于安抚交互对象的目标话术。由于其话术集合中的每条话术都对应有由机器学习算法计算得到的收益值，因此可以针对交互对象的情绪灵活的选择合适的安抚话术。与现有技术中采用固定形式的安抚话术相比，本方案可以利用机器学习的算法计算各个话术的收益值，然后根据收益值的高低灵活的确定安抚话术，因此能够更加贴合交互对象的情绪，使得平滑安抚的效果更好，进而解决了现有技术中存在的机器人语音交互过程中的平滑话术内容比较固定、灵活性较差，因此不能很好的针对用户的负面情感做出应对的技术问题。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图；

图2是根据本公开实施例1的第一个方面所述的确定话术的方法的流程示意图；

图3是根据本公开实施例1所述的收益表的示意图；

图4是根据本公开实施例1所述的确定话术过程的流程图；

图5是根据本公开实施例1所述的收益表的学习过程的流程图；

图6示出了电销机器人的操作流程的示意图；

图7是根据本公开实施例2所述的确定话术的装置的示意图；以及

图8是根据本公开实施例3所述的确定话术的装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本实施例，提供了一种确定话术的方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现确定话术的方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的确定话术的方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的确定话术的方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。

在上述运行环境下，根据本实施例的第一个方面，提供了一种确定话术的方法，该方法例如可以应用到语音机器人系统，基于预设的话术通过语音机器人可以与交互对象进行交互。图2示出了该方法的流程示意图，参考图2所示，该方法包括：

S202：确定交互对象对于交互意图产生的第一情绪类别，其中第一情绪类别分为正面情绪类别和负面情绪类别；

S204：在第一情绪类别属于负面情绪类别的情况下，从与第一情绪类别对应的话术集合中确定用于回复交互对象的目标话术，其中话术集合中每条话术对应有由机器学习算法计算的收益值；以及

S206：利用与目标话术对应的第一音频回复交互对象。

正如背景技术中所述的，要让语音机器人跟用户沟通更自然，持续时间更长，达成任务概率更高，机器人需要对用户的反馈做出对应的处理。例如用户的负面情感表达，用户对机器人话术的负面情感，需要机器人给出对应的安抚话术，来让对话中用户情绪平滑到可以继续进行下去。然而，现有技术中的话术平滑方式因为其任务明确、话术固定、流程可控，极大方便了机器人使用方。但是对机器人聊天对象用户来说，这样的机器人体验并不友好。机器人不能对用户的情绪变化做出有效及时的反馈，用户很可能中途挂断电话甚至将机器人加入通信黑名单。

针对背景技术中存在的技术问题，本实施例技术方案在步骤S202中，系统首先确定交互对象对于交互意图产生的第一情绪类别。例如：在机器人与交互对象的交互过程中，交互对象可能针对机器人的某个意图话术进行反馈、打断、回复，在这种情况下系统需要确定交互对象对于交互意图产生的第一情绪类别。确定情绪类别的方式可以是通过预置的现有技术中的语音情感识别模型，例如是直接针对语音媒体的模型，也可以是对语音ASR内容的情绪识别，或者两者的结合使用，此处不做具体限定。其中，第一情绪类别包括多种情绪中的一种或多种，例如：高兴、愤怒、生气等情绪，并且其情绪可以分为正面情绪和负面情绪，对于负面情绪类别，需要对交互对象的负面情绪进行平滑或者安抚，使得交互过程可以继续进行。

进一步地，系统判断第一情绪类别是否为负面情绪，在第一情绪类别为负面情绪的情况下，系统从与第一情绪类别对应的话术集合中确定用于回复交互对象的目标话术。在一个具体实例中，第一情绪类别为“愤怒”，其对应的话术集合例如包括：“**不会说话，您先别生气”、“请您先冷静一下”；第一情绪类别为“厌烦”，其对应的话术集合例如包括：“谢谢您的耐心，简单点和您说”、“打扰到您实在不好意思，谢谢您”；第一情绪类别为“紧张”，其对应的话术集合例如包括：“您先别急，我随时为您服务”、“只是通知一下，您不要紧张”。在话术集合中每条话术对应有由机器学习算法计算的收益值，例如：每条话术对应的收益值可以由Q-learning算法计算得到的，图3示出了收益值对应的收益表(对应于Q-learning算法的Q值表)，参考图3所示，假设该任务型语音机器人，其任务话术有M种语言意图(例如包括：自我介绍、核实对方身份、申明对方欠款事实、确认对方缴纳意愿、确认对方缴纳时间、解释清缴方式、申明欠缴后果、结束语)，而对于某种需要平滑或者安抚的情感A(对应于第一情绪类别)，有N种平滑话数(话术集合)。V(M,N)就是针对情感A，在M意图下采用N话术的收益值(平滑收益)，其可以利用Q-learning算法计算得到，并且每一种情绪类别对应于一张收益表，然后根据收益表确定用于回复交互对象的目标话术。

最终，系统利用与目标话术对应的第一音频回复交互对象。例如：针对交互对象的愤怒情绪(第一情绪类别)，利用“**不会说话，您先别生气”音频(第二音频)对该交互对象进行安抚。

从而通过这种方式，系统可以针对交互对象的负面情绪类别，从对应的话术集合中确定用于安抚交互对象的目标话术。由于其话术集合中的每条话术都对应有由机器学习算法计算得到的收益值，因此可以针对交互对象的情绪灵活的选择合适的安抚话术。与现有技术中采用固定形式的安抚话术相比，本方案可以利用机器学习的算法计算各个话术的收益值，然后根据收益值的高低灵活的确定安抚话术，因此能够更加贴合交互对象的情绪，使得平滑安抚的效果更好，进而解决了现有技术中存在的机器人语音交互过程中的平滑话术内容比较固定、灵活性较差，因此不能很好的针对用户的负面情感做出应对的技术问题。

可选地，从与第一情绪类别对应的话术集合中确定用于回复交互对象的目标话术，包括：在预定数值范围内生成一个随机数；根据预先设置的用于确定目标话术的贪婪系数以及随机数，随机从话术集合中确定目标话术或者确定收益值最大的话术作为目标话术。

具体地，图4示出了确定话术过程的流程图，参考图4所示，首先确定机器人上一个业务话术的意图1(例如：核实身份信息)，用户情感A(对应于第一情绪类别)。进一步地，在判断用户情感A为待平滑情感(即负面情感)的情况下，首先确定情绪类别对应的收益表(即，获取A情感对应的平滑收益表)，然后选择目标话术。在从与第一情绪类别对应的话术集合(收益表)中确定用于回复交互对象的目标话术的操作中，系统首先在预定数值范围内生成一个随机数，即本次确定目标话术的方式为随机的，通过随机数确定本次确定话术的方式。然后，根据预先设置的用于确定目标话术的贪婪系数以及随机数，随机从话术集合中确定目标话术或者确定收益值最大的话术作为目标话术。即，话术选择时遵循ε贪婪原则，即预设贪婪系数ε；按该概率从所述收益表中选择最大收益的平滑话术(即：将随机数与贪婪系数进行比较)，否则(概率之外的情况)从收益表中随机选择一个平滑话术。选择最大收益的平滑话术，就是从所述待平滑情感A的所述收益表中，依据之前机器人任务话术意图I，找到表中该意图所在行中收益值最大的平滑话术。

可选地，根据预先设置的用于确定目标话术的贪婪系数以及随机数，随机从话术集合中确定目标话术或者确定收益值最大的话术作为目标话术，包括：根据贪婪系数确定用于确定目标话术的数值区间；以及在随机数位于数值区间的情况下，确定收益值最大的话术作为目标话术，否则随机从话术集合中确定目标话术。

具体地，参考图4所示，在根据预先设置的用于确定目标话术的贪婪系数以及随机数，随机从话术集合中确定目标话术或者确定收益值最大的话术作为目标话术的操作中，首先根据贪婪系数确定用于确定目标话术的数值区间，贪婪动作是贪婪系数控制比例的动作。在一个具体实例中，在预定数值区间(0-1)假设贪婪系数是0.9，根据贪婪系数确定数值区间[0,0.9]，我们每次做话术选择时，先随机一个小数(即随机数)，当这个小数落在[0,0.9]区间时，则执行最优化推荐动作，即贪婪动作；随机到[0.9,1.0]区间时即执行探索动作，即从所有可选安抚话术中随机一个话术推荐出去。探索动作主要目的是探索，也就是把一些原本不可能推荐的话术向交互对象推荐，根据交互对象的反馈来进一步学习Q值表(即收益表)；贪婪动作是按照Q值表最优收益情况给出的推荐动作，是理论上当前情况下最好的动作。当然Q值表在系统运行中不断学习迭代，其状态收益值不断收敛的，所以这个贪婪动作也是不断变得更有效的。从而，通过贪婪原则确定目标话术的操作中，可以考虑到不被推荐的话术对收益值的影响，因此可以使结果更加有效。

可选地，还包括：接收交互对象针对第一音频进行回复的第二音频；根据第二音频确定交互对象针对第一音频产生的第二情绪类别；以及基于第二情绪类别，利用机器学习算法对与第一情绪类别对应的话术集合中话术的收益值进行更新。

具体地，该方法还包括接收交互对象针对第一音频进行回复的第二音频，即接收交互对象对安抚话术回复的音频(第二音频)，然后根据第二音频确定交互对象产生的第二情绪类别，即针对安抚话术的情绪。其确定的方式可以是通过预置的现有技术中的语音情感识别模型，例如是直接针对语音媒体的模型，也可以是对语音ASR内容的情绪识别，或者两者的结合使用，此处不做具体限定。通过第二音频对应的情绪可以确定安抚话术对交互对象的影响效果。最终，系统基于第二情绪类别，利用机器学习算法对与第一情绪类别对应的话术集合中话术的收益值进行更新，例如：利用Q-learning算法对与第一情绪类别对应的话术集合中话术的收益值进行更新。

从而通过这种方式，可以根据交互对象对安抚话术的反馈不断的进行学习然后对收益表中话术对应的收益值进行更新迭代，因此可以不断提升目标话术的准确性，进而提升话术安抚的效果。

可选地，基于第二情绪类别，利用机器学习算法对与第一情绪类别对应的话术集合中话术的收益值进行更新，包括：在第二情绪类别为正面情绪的情况下，增加目标话术对应的收益值；在第二情绪类别为区别于第一情绪类别的负面情绪的情况下，保持目标话术对应的收益值；以及在第二情绪类别与第一情绪类别相同的情况下，降低目标话术对应的收益值。

具体地，图5示出了收益表的学习过程的流程图，参考图5所示，设系统选定的平滑话术是C(目标话术)，意图为I。语音机器人播放所选平滑话术C之后，接收用户反馈语音内容(第三音频)，然后根据第三音频判断此时的交互对象的情感状态A’，并用A’计算和更新所述用户情感A的平滑话术收益表上，<I,C>位置的值。然后继续播放语音机器人下一个任务话术。其中，所述A对应平滑话术收益表计算过程如下：

首先判断A’是否是一种待平滑情感。如果A’不是待平滑情感(即第二情绪类别为正面情绪)，则说明上一步骤选择的平滑话术C有效，平滑激励值V(I,C)为预设的正数-奖励值；如果A’是一种待平滑情感，但是A’不等于A(即第二情绪类别为区别于第一情绪类别的负面情绪，是其它负面情绪)，则平滑效果不能估计，平滑激励值V(I,C)为0值；如果情感A’跟情感A是相同的，则说明平滑话术C无效，平滑激励值V(I,C)为预设的负数-惩罚值。然后，计算所述A的平滑话术收益表项Q(I,C)的更新值。

此外，播放完平滑话术C(目标话术对应的第二音频)之后，有可能不能直接得到交互对象的语音反馈；在播放下一个机器人任务话术之前的短暂预设时间中，若交互对象没有声音反馈，则认为平滑话术有效，交互对象愿意继续沟通，在计算时按照平滑有效的正数激励值计算，并继续播放下一个机器人任务话术。如果播放完平滑话术之后用户主动挂断电话或中断通话，则认为平滑情感失败，用户不再继续对话，在计算时，按照平滑无效的负数激励值计算。从而通过这种方式，可以通过正负激励值的方式对收益表进行学习，学习的过程更加简单快捷。

可选地，在第一情绪类别属于正面情绪类别的情况下，还包括：根据预先编排的话术顺序，继续与交互对象进行音频交互。

具体地，第一情绪类别包括正面情绪和负面情绪，参考图4所示，在确定交互对象对于交互意图产生的第一情绪类别为正面情绪的情况下，系统根据预先编排的话术顺序，继续与交互对象进行音频交互。在第一情绪类别为负面情绪的情况下，进行上述的目标话术的选择过程。从而，只针对负面情绪进行话术安抚，可以减少系统资源占用，提升交互的效率。

可选地，上述的机器学习算法为Q-learning算法。

下面以电销机器人为例，说明本发明的一种实现方案，图6示出了电销机器人的操作流程，参考图6所示：

假定依照当前电销机器人的任务话术配置，其任务话术意图如下：

【

I1＝开头语问候

I2＝自我及厂商介绍

I3＝用户基本情况确认

I4＝产品推介

I5＝联系方式告知

I6＝结束语问候

】

假定通过历史数据分析或者对音频进行分析，在该机器人电销场景下，用户最容易发生的负面情绪是

【

A1＝厌烦

A2＝焦急

A3＝怀疑

】

假定通过人工客服历史数据统计，该机器人电销场景下，用户发生上述负面情绪时，最有效的安抚话术集合分别对应是ScA1,ScA2,ScA3

步骤0、平滑话术收益表初始化。如上所述假设需求场景，对A1，A2，A3三类待平滑情感分别初始化各自的平滑话术收益表TA1，TA2，TA3，表列对应情感下所有可用平滑话术C1，C2，…；表行对应当前机器人的意图集合[I1,I2,I3,I4,I5,I6]；表中初始收益值都是零。初始化平滑话术贪婪系数ε，初始化Q函数各系数，为各自的特定值。

下面示例说明，当语音机器人播放的上一个任务话术意图为Ix,播放后收到客户语音反馈，然后调用到本系统：

步骤1、用户语音音频数据，调用预设的语音情感分类/预测系统，得到用户情绪X；

步骤2、判断X是否为待平滑情感:X∈[A1,A2,A3]？若不是，则直接返回，让语音机器人继续后续任务话术语音播放。否则(下文均假定X＝A1)：

步骤3、用贪婪系数做概率，随机当前是否贪婪动作，若不是，则从用户待平滑情感A1的平滑话术集合ScA1中，等概率的随机到一个平滑话术，得到平滑话术C；否则：

步骤4、从用户待平滑情感A1对应的平滑话术收益表TA1中，查找意图Ix行的所有值，找到该行值最大那个值的位置，其对应平滑话术作为平滑话术C。

步骤5、语音机器人播放平滑话术C，并在预设时间内等待用户反馈，用来执行TA1表的学习计算，并继续播放下一个任务话术。其中关于TA1表的学习过程如下：

步骤5.1-1若用户挂断电话，则认为平滑话术失败，需要对本次推荐做出惩罚，激励值V(I,C)为预设负数值；否则

步骤5.1-2若用户没有发出声音，且等待反馈时间已经超时，可以继续播放下一个任务话术，则认为平滑话术有效，激励值V(C,I)为预设正数值；否则(即收到用户声音)

步骤5.1-3调用所述的语音情感分类/预测系统，得到用户情绪X’,并对X’做判断处理：若X’不是待平滑情感：即

则认为平滑有效，激励值V(I,C)为预设正值，否则：

步骤5.1-4若X’是跟A1不同的待平滑情感【它是A2，或者A3】，无法评估平滑话术是否有效，激励值V(I,C)＝0；否则：

步骤5.1-5若X’还是待平滑情感A1不变，则认为推荐C做平滑话术无效，给出负面激励，V(I,C)为预设的负数值。

步骤5.1-6将V(I,C)值，代入Q-learning的累积收益计算公式，计算得到TA1表中I意图下C平滑话术的累积收益值Q(I,C)；用它替换TA1表中相同位置的原有值。

本方案针对任务型语音机器人，增加了一套情感检测平滑机制。该平滑系统在必要情况下，能通过嵌入式的平滑话术，稳定客户的情绪情感，让通话可以继续进行，降低用户挂断率和提高机器人任务完成率。

本方案对同一种待平滑情感，支持多种不同平滑话术的使用。一般的用户发生某种情绪的原因各异，但通常跟通话上下文和通话场景有关，相应的平滑用户情感的话术也应该是多种。对用户的同一个待平滑情感，本发明能够在每个特定对话场景下，针对性的选用有效平滑话术。在选择平滑话术时，使用强化学习理念方法，选择策略是不断学习进化的。一方面较高的贪婪概率下，绝大部分场景下的用户情绪都得到了机器学到的最佳情感平滑话术服务，另一方面能够使系统自身能不断的学习选择策略，来使得平滑话术的选择，不断趋近于机器人整体对话任务目标的最优化。本方案设计具有极大的适应性，可扩展性。一方面因为机器人平滑话术语音，是插入式的，可以在需要的时候插入机器人配置的任何两个任务话术节点之间，跟语音机器人的任务话术配置自身无关，所以话术机器人的配置发生变化时，本系统也能适应；另一方面当话术机器人的话术意图集合，以及针对每种情感的平滑话术发生扩展时，只需要对应调整平滑话术收益表即可适配。

此外，参考图1所示，根据本实施例的第二个方面，提供了一种存储介质。所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行以上任意一项所述的方法。

从而根据本实施例，系统可以针对交互对象的负面情绪类别，从对应的话术集合中确定用于安抚交互对象的目标话术。由于其话术集合中的每条话术都对应有由机器学习算法计算得到的收益值，因此可以针对交互对象的情绪灵活的选择合适的安抚话术。与现有技术中采用固定形式的安抚话术相比，本方案可以利用机器学习的算法计算各个话术的收益值，然后根据收益值的高低灵活的确定安抚话术，因此能够更加贴合交互对象的情绪，使得平滑安抚的效果更好，进而解决了现有技术中存在的机器人语音交互过程中的平滑话术内容比较固定、灵活性较差，因此不能很好的针对用户的负面情感做出应对的技术问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图7示出了根据本实施例所述的确定话术的装置700，该装置700与根据实施例1的第一个方面所述的方法相对应。参考图7所示，该装置700包括：第一情绪确定模块710，用于确定交互对象对于交互意图产生的第一情绪类别，其中第一情绪类别分为正面情绪类别和负面情绪类别；话术确定模块720，用于在第一情绪类别属于负面情绪类别的情况下，从与第一情绪类别对应的话术集合中确定用于回复交互对象的目标话术，其中话术集合中每条话术对应有由机器学习算法计算的收益值；以及音频交互模块730，用于利用与目标话术对应的第一音频回复交互对象。

可选地，话术确定模块720，包括：生成子模块，用于在预定数值范围内生成一个随机数；确定子模块，用于根据预先设置的用于确定目标话术的贪婪系数以及随机数，随机从话术集合中确定目标话术或者确定收益值最大的话术作为目标话术。

可选地，确定子模块，包括：第一确定单元，用于根据贪婪系数确定用于确定目标话术的数值区间；以及第二确定单元，用于在随机数位于数值区间的情况下，确定收益值最大的话术作为目标话术，否则随机从话术集合中确定目标话术。

可选地，装置700还包括：音频接收模块，用于接收交互对象针对第一音频进行回复的第二音频；第二情绪确定子模块，用于根据第二音频确定交互对象针对第一音频产生的第二情绪类别；以及更新模块，用于基于第二情绪类别，利用机器学习算法对与第一情绪类别对应的话术集合中话术的收益值进行更新。

可选地，更新模块，包括：第一更新子模块，用于在第二情绪类别为正面情绪的情况下，增加目标话术对应的收益值；第二更新子模块，用于在第二情绪类别为区别于第一情绪类别的负面情绪的情况下，保持目标话术对应的收益值；以及第三更新子模块，用于在第二情绪类别与第一情绪类别相同的情况下，降低目标话术对应的收益值。

可选地，在第一情绪类别属于正面情绪类别的情况下，还包括：继续交互模块，用于根据预先编排的话术顺序，继续与交互对象进行音频交互。

可选地，机器学习算法为Q-learning算法。

从而根据本实施例，装置700可以针对交互对象的负面情绪类别，从对应的话术集合中确定用于安抚交互对象的目标话术。由于其话术集合中的每条话术都对应有由机器学习算法计算得到的收益值，因此可以针对交互对象的情绪灵活的选择合适的安抚话术。与现有技术中采用固定形式的安抚话术相比，本方案可以利用机器学习的算法计算各个话术的收益值，然后根据收益值的高低灵活的确定安抚话术，因此能够更加贴合交互对象的情绪，使得平滑安抚的效果更好，进而解决了现有技术中存在的机器人语音交互过程中的平滑话术内容比较固定、灵活性较差，因此不能很好的针对用户的负面情感做出应对的技术问题。

实施例3

图8示出了根据本实施例所述的确定话术的装置800，该装置800与根据实施例1的第一个方面所述的方法相对应。参考图8所示，该装置800包括：处理器810；以及存储器820，与处理器810连接，用于为处理器810提供处理以下处理步骤的指令：确定交互对象对于交互意图产生的第一情绪类别，其中第一情绪类别分为正面情绪类别和负面情绪类别；在第一情绪类别属于负面情绪类别的情况下，从与第一情绪类别对应的话术集合中确定用于回复交互对象的目标话术，其中话术集合中每条话术对应有由机器学习算法计算的收益值；以及利用与目标话术对应的第一音频回复交互对象。

可选地，存储器820还用于为处理器810提供处理以下处理步骤的指令：接收交互对象针对第一音频进行回复的第二音频；根据第二音频确定交互对象针对第一音频产生的第二情绪类别；以及基于第二情绪类别，利用机器学习算法对与第一情绪类别对应的话术集合中话术的收益值进行更新。

可选地，机器学习算法为Q-learning算法。

从而根据本实施例，装置800可以针对交互对象的负面情绪类别，从对应的话术集合中确定用于安抚交互对象的目标话术。由于其话术集合中的每条话术都对应有由机器学习算法计算得到的收益值，因此可以针对交互对象的情绪灵活的选择合适的安抚话术。与现有技术中采用固定形式的安抚话术相比，本方案可以利用机器学习的算法计算各个话术的收益值，然后根据收益值的高低灵活的确定安抚话术，因此能够更加贴合交互对象的情绪，使得平滑安抚的效果更好，进而解决了现有技术中存在的机器人语音交互过程中的平滑话术内容比较固定、灵活性较差，因此不能很好的针对用户的负面情感做出应对的技术问题。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种确定话术的方法，其特征在于，包括：

确定交互对象对于交互意图产生的第一情绪类别，其中所述第一情绪类别分为正面情绪类别和负面情绪类别；

在所述第一情绪类别属于所述负面情绪类别的情况下，从与所述第一情绪类别对应的话术集合中确定用于回复所述交互对象的目标话术，其中所述话术集合中每条话术对应有由机器学习算法计算的收益值；以及

利用与所述目标话术对应的第一音频回复所述交互对象。

2.根据权利要求1所述的方法，其特征在于，从与所述第一情绪类别对应的话术集合中确定用于回复所述交互对象的目标话术，包括：

在预定数值范围内生成一个随机数；

根据预先设置的用于确定目标话术的贪婪系数以及所述随机数，随机从所述话术集合中确定所述目标话术或者确定收益值最大的话术作为所述目标话术。

3.根据权利要求2所述的方法，其特征在于，根据预先设置的用于确定目标话术的贪婪系数以及所述随机数，随机从所述话术集合中确定所述目标话术或者确定收益值最大的话术作为所述目标话术，包括：

根据所述贪婪系数确定用于确定目标话术的数值区间；以及

在所述随机数位于所述数值区间的情况下，确定收益值最大的话术作为所述目标话术，否则随机从所述话术集合中确定所述目标话术。

4.根据权利要求1所述的方法，其特征在于，还包括：

接收所述交互对象针对所述第一音频进行回复的第二音频；

根据所述第二音频确定所述交互对象针对所述第一音频产生的第二情绪类别；以及

基于所述第二情绪类别，利用所述机器学习算法对与所述第一情绪类别对应的话术集合中话术的收益值进行更新。

5.根据权利要求4所述的方法，其特征在于，基于所述第二情绪类别，利用机器学习算法对与所述第一情绪类别对应的话术集合中话术的收益值进行更新，包括：

在所述第二情绪类别为所述正面情绪的情况下，增加所述目标话术对应的收益值；

在所述第二情绪类别为区别于所述第一情绪类别的负面情绪的情况下，保持所述目标话术对应的收益值；以及

在所述第二情绪类别与所述第一情绪类别相同的情况下，降低所述目标话术对应的收益值。

6.根据权利要求1所述的方法，其特征在于，在所述第一情绪类别属于所述正面情绪类别的情况下，还包括：

根据预先编排的话术顺序，继续与所述交互对象进行音频交互。

7.根据权利要求1-6任意一项所述的方法，其特征在于，所述机器学习算法为Q-learning算法。

8.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至7中任意一项所述的方法。

9.一种确定话术的装置，其特征在于，包括：

第一情绪确定模块，用于确定交互对象对于交互意图产生的第一情绪类别，其中所述第一情绪类别分为正面情绪类别和负面情绪类别；

话术确定模块，用于在所述第一情绪类别属于所述负面情绪类别的情况下，从与所述第一情绪类别对应的话术集合中确定用于回复所述交互对象的目标话术，其中所述话术集合中每条话术对应有由机器学习算法计算的收益值；以及

音频交互模块，用于利用与所述目标话术对应的第一音频回复所述交互对象。

10.一种确定话术的装置，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

利用与所述目标话术对应的第一音频回复所述交互对象。