CN111400466A

CN111400466A - 一种基于强化学习的智能对话方法及装置

Info

Publication number: CN111400466A
Application number: CN202010146607.6A
Authority: CN
Inventors: 唐杰聪; 张磊; 罗樋; 郭锐鹏
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2020-07-10

Abstract

本发明提供一种基于强化学习的智能对话方法及装置，所述方法包括：接收用户输入的话语；根据所述用户输入的话语，获得多个应答动作；根据所述用户输入的话语、所述多个应答动作以及应答选择模型，获得所述用户输入的话语对应的最佳应答动作；其中，所述应答选择模型是基于话语样本训练数据以及强化学习模型训练后获得的；根据所述用户输入的话语对应的最佳应答动作，生成应答话语。所述装置用于执行上述方法。本发明实施例提供的基于强化学习的智能对话方法及装置，提高了对用户输入的话语的应答的准确性。

Description

一种基于强化学习的智能对话方法及装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于强化学习的智能对话方法及装置。

背景技术

随着人工智能技术发展，智能对话系统越来越普遍，广泛应用于智能客服、个人助理、社交聊天等领域。

由于设计人员的思维局限性以及数据、存储、计算能力的限制，智能对话系统无法完全考虑到用户提出的各式各样的问题。当智能对话系统遇到设计之初未考虑到的问题时，针对上述问题的应答动作可以被看作是随机应答，往往无法正确回应用户提出的问题，使用户感到答非所问。对此，现有技术中智能对话系统的解决方法是根据智能对话系统上线运行后积累的用户反馈信息在每一次的系统版本更新中进行针对性的优化。对某个错误应答的问题最早要在下一个版本上修复，而每个系统版本更新又有着大量的模型代码修改及相应的上线测试，以至于同样的错误应答会长时间存在于系统之上，这种解决办法难免更新不及时，需要较长的周期解决智能对话系统出现的问题。

发明内容

针对现有技术中的问题，本发明实施例提供一种基于强化学习的智能对话方法及装置，能够至少部分地解决现有技术中存在的问题。

一方面，本发明提出一种基于强化学习的智能对话方法，包括：

接收用户输入的话语；

根据所述用户输入的话语，获得多个应答动作；

根据所述用户输入的话语、所述多个应答动作以及应答选择模型，获得所述用户输入的话语对应的最佳应答动作；其中，所述应答选择模型是基于话语样本训练数据以及强化学习模型训练后获得的；

根据所述用户输入的话语对应的最佳应答动作，生成应答话语。

另一方面，本发明提供一种基于强化学习的智能对话装置，包括：

接收单元，用于接收用户输入的话语；

获得单元，用于根据所述用户输入的话语，获得多个应答动作；

选择单元，用于根据所述用户输入的话语、所述多个应答动作以及应答选择模型，获得所述用户输入的话语对应的最佳应答动作；其中，所述应答选择模型是基于话语样本训练数据以及强化学习模型训练后获得的；

生成单元，用于根据所述用户输入的话语对应的最佳应答动作，生成应答话语。

再一方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例所述基于强化学习的智能对话方法的步骤。

又一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一实施例所述基于强化学习的智能对话方法的步骤。

本发明实施例提供的基于强化学习的智能对话方法及装置，能够接收用户输入的话语，根据用户输入的话语，获得多个应答动作，根据用户输入的话语、多个应答动作以及应答选择模型，获得用户输入的话语对应的最佳应答动作，根据用户输入的话语对应的最佳应答动作，生成应答话语，通过应答选择模型从多个应答动作中选择出合适的应答动作以生成应答话语，提高了对用户输入的话语的应答的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明一实施例提供的基于强化学习的智能对话方法的流程示意图。

图2是本发明另一实施例提供的基于强化学习的智能对话方法的流程示意图。

图3是本发明再一实施例提供的基于强化学习的智能对话方法的流程示意图。

图4是本发明一实施例提供的基于强化学习的智能对话装置的结构示意图。

图5是本发明另一实施例提供的基于强化学习的智能对话装置的结构示意图。

图6是本发明再一实施例提供的基于强化学习的智能对话装置的结构示意图。

图7是本发明又一实施例提供的基于强化学习的智能对话装置的结构示意图。

图8是本发明一实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

图1是本发明一实施例提供的基于强化学习的智能对话方法的流程示意图，如图1所示，本发明实施例提供的基于强化学习的智能对话方法，包括：

S101、接收用户输入的话语；

具体地，用户可以通过客户端以语音或者文字的输入形式提出自己的问题，所述客户端会将上述问题作为用户输入的话语发送给服务器，所述服务器会接收所述用户输入的话语。用户输入的话语是为了让所述服务器知道用户想要知道什么。其中，所述客户端包括但不限于台式机、笔记本电脑、智能手机、平板电脑等。本发明实施例提供的基于强化学习的智能对话方法的执行主体包括但不限于服务器。

S102、根据所述用户输入的话语，获得多个应答动作；

具体地，所述服务器在接收到所述用户输入的话语之后，会对所述用户输入的话语进行分析，转换成计算机能够理解的形式，获得所述用户输入的话语的状态，然后根据所述用户输入的话语的状态，获得多个应答动作。所述应答动作是一种应答策略，是预先设置的。其中，通过所述用户输入的话语的状态，获得多个应答动作的具体实现过程为现有技术，此处不进行赘述。

例如，可以预先设置所述用户输入的话语的状态对应的多个应答动作，根据所述用户输入的话语的状态查找获得多个应答动作。

S103、根据所述用户输入的话语、所述多个应答动作以及应答选择模型，获得所述用户输入的话语对应的最佳应答动作；其中，所述应答选择模型是基于话语样本训练数据以及强化学习模型训练后获得的；

具体地，所述服务器在获得所述多个应答动作之后，将所述用户输入的话语、所述多个应答动作输入到应答选择模型中，经过所述应答选择模型的处理，可以输出所述用户输入的话语对应的最佳应答动作，所述最佳应答动作是所述多个应答动作之中的一个。其中，所述应答选择模型是基于话语样本训练数据以及强化学习模型训练后获得的，所述话语样本训练数据包括预设数量条话语训练数据，每条话语训练数据包括单回合话语数据以及用户满意度。所述强化学习模型是根据强化学习算法建立的模型，所述强化学习算法包括但不限于DQN算法、DDPG算法、IMPALA算法、A2C算法、GA3C算法等。

S104、根据所述用户输入的话语对应的最佳应答动作，生成应答话语。

具体地，所述服务器在获得所述用户输入的话语对应的最佳应答动作之后，会根据所述最佳应答动作生成应答话语，所述应答话语是对所述用户输入的话语的回应，即对用户所提出的问题的回答。其中，所述应答话语可以在预设的应答模版上替换信息槽位生成，或者使用将所述最佳应答动作输入到预先设置的神经网络模型中生成所述应答话语。所述服务器在获得所述应答话语之后，可以将所述应答话语发送给所述客户端。

本发明实施例提供的基于强化学习的智能对话方法，能够接收用户输入的话语，根据用户输入的话语，获得多个应答动作，根据用户输入的话语、多个应答动作以及应答选择模型，获得用户输入的话语对应的最佳应答动作，根据用户输入的话语对应的最佳应答动作，生成应答话语，通过应答选择模型从多个应答动作中选择出合适的应答动作以生成应答话语，提高了对用户输入的话语的应答的准确性。

图2是本发明另一实施例提供的基于强化学习的智能对话方法的流程示意图，如图2所示，在上述各实施例的基础上，进一步地，基于话语样本训练数据以及强化学习模型训练获得所述应答选择模型的步骤包括：

S201、获取所述话语样本训练数据，所述话语样本训练数据包括预设数量条话语训练数据，每条话语训练数据包括单回合话语数据以及用户满意度；

具体地，所述服务器可以获取所述话语样本训练数据，所述话语样本训练包括预设数量条话语训练数据，每条话语训练数据包括单回合话语数据以及用户满意度。所述单回合话语数据包括用户输入的话语以及用户输入的话语对应的多个应答动作，所述用户满意度是指用户对所述用户输入话语对应的应答话语的满意程度，所述用户满意度可以分为不满意、正常和满意三个类别。其中，所述预设数量根据实际经验进行设置，本发明实施例不做限定。

例如，可以人工或者在线收集所述话语样本训练数据，提供给所述服务器。

S202、根据所述预设数量条话语训练数据以及所述强化学习模型，训练获得待确定应答选择模型；

具体地，所述服务器在获取到所述预设数量条话语训练数据之后，将所述预设数量条话语训练数据输入到所述强化学习模型，训练所述强化学习模型至收敛或者所述强化学习模型的内部参数的迭代次数达到预设次数，停止模型训练，获得待确定应答选择模型。其中，所述预设次数根据实际需要进行设置，本发明实施例不做限定。

S203、若判断获知所述待确定应答选择模型通过话语样本测试数据的评估，则将所述待确定应答选择模型作为所述应答选择模型。

具体地，所述服务器在训练获得所述待确定应答选择模型之后，可以通过话语样本测试数据对所述待确定应答选择模型进行评估，即将所述话语样本测试数据包括的每条话语测试数据的测试话语和多个应答动作输入到所述待确定应答选择模型中，获得每条话语测试数据对应的测试应答动作，然后将每条话语测试数据对应的测试应答动作与每条话语测试数据的目标应答动作进行比较，如果所述话语测试数据对应的测试应答动作与所述话语测试数据的目标应答动相同，那么该条话语测试数据应答正确，如果所述话语测试数据对应的测试应答动作与所述话语测试数据的目标应答动不相同，那么该条话语测试数据应答错误。所述服务器会统计所述待确定应答选择模型对所述话语样本测试数据应答正确的数量，然后用应答正确的数量除以所述话语样本测试数据包括的话语测试数据的条数，获得所述待确定应答选择模型的准确率。将所述待确定应答选择模型的准确率与评估阈值进行比较，如果所述待确定应答选择模型的准确率大于所述评估阈值，那么所述待确定应答选择模型通过话语样本测试数据的评估，可以将所述待确定应答选择模型作为所述应答选择模型。如果所述待确定应答选择模型的准确率小于等于所述评估阈值，那么所述待确定应答选择模型不能通过话语样本测试数据的评估，可以重新获取话语样本训练数据，基于重新获取的话语样本训练数据以及所述强化学习模型，重新训练获得待确定应答选择模型进行评估。

其中，所述话语样本测试数据是预先设置的，所述话语样本测试数据包括多条话语测试数据，每条话语测试数据包括测试话语、多个应答动作和目标应答动作。所述话语样本测试数据包括的话语测试数据的条数根据实际需要进行设置，本发明实施例不做限定。所述评估阈值根据实际经验进行设置，本发明实施例不做限定。

图3是本发明再一实施例提供的基于强化学习的智能对话方法的流程示意图，如图3所示，在上述各实施例的基础上，进一步地，所述获取话语样本训练数据包括：

S2011、在线收集所述用户输入的话语、所述多个应答动作以及所述用户对所述应答话语的反馈话语；

具体地，所述服务器可以在线收集所述用户输入的话语和所述多个应答动作，以及所述用户对所述应答话语的反馈话语。所述服务器在获得所述应答话语之后，可以将所述应答话语发送给所述客户端，所述客户通过是客户端收到所述应答话语之后，可以对所述应答话语做出反应，通过所述客户端向所述服务器发送所述应答话语的反馈话语，所述服务器可以接收到所述用户对所述应答话语的反馈话语。

S2012、根据所述用户对所述应答话语的反应话语以及情感分析模型，获得所述应答话语的用户满意度；

具体地，所述服务器在获得所述用户对所述应答话语的反应话语之后，将所述用户对所述应答话语的反应话语输入到情感分析模型中，可以输出所述应答话语的用户满意度，即通过对所述用户对所述应答话语的反应话语的分析，得到用户对应答话语的满意程度。其中，所述情感分析模型是预先训练获得的，是包含语义分析特征的神经网络模型，采用的神经网络结构根据实际需要进行设置，本发明实施例不做限定。

例如，响应所述用户输入的话语，所述服务器生成的应答话语是供用户进行选择的多个问题，所述服务器将上述多个问题发送给客户端显示出来，如果所述用户从所述多个问题中选择了一个问题，上述一个问题作为用户对上述多个问题的反馈话语由所述客户端发送给所述服务器，所述服务器将上述一个问题输入到预设的情感分析模型中，所述情感分析模型判断出上述一个问题是上述多个问题中的一个，那么确认所述用户对作为应答话语的上述多个问题满意。如果所述用户没有进行选择或者输入了其它话语，所述服务器可以判断出所述用户对作为应答话语的上述多个问题不满意。

S2013、将所述用户输入的话语和所述多个应答动作作为所述单回合话语数据，并将所述应答话语的用户满意度作为单回合话语数据对应的用户满意度。

具体地，所述服务器会将所述用户输入的话语和所述用户输入的话语对应的多个应答动作，作为所述单回合话语数据，并将所述用户输入的话语对应的应答话语的用户满意度作为所述单回合话语数据对应的用户满意度，从而获得一条话语训练数据。当所述服务器收集到所述预设数量条话语训练数据之后，就可以基于所述预设数量条话语训练数据进行所述应答选择模型的训练。

在上述各实施例的基础上，进一步地，所述根据所述预设数量条话语训练数据以及所述强化学习模型，训练获得待确定应答选择模型包括：

根据所述预设数量条话语训练数据以及多个强化学习模型，训练获得多个待确定应答选择模型；

相应地，所述若判断获知所述待确定应答选择模型通过话语样本测试数据的评估，则将所述待确定应答选择模型作为所述应答选择模型包括：

根据所述话语样本测试数据对所述多个待确定应答选择模型进行评估，获得通过评估的待确定应答选择模型；

从通过评估的待确定应答选择模型中选择准确率最高的待确定应答选择模型，作为所述应答选择模型。

具体地，所述服务器在根据所述预设数量条话语训练数据以及所述强化学习模型进行所述待确定应答选择模型的训练时，可以采用不同的强化学习模型，根据每个强化学习模型以及所述预设数量条话语训练数据训练出一个待确定应答选择模型，从而可以获得多个待确定应答选择模型。其中，不同的强化学习模型，可以是采用不同强化学习算法的强化学习模型，也可以是采用相同的强化学习算法但超参数不同的强化学习模型，根据实际需要进行设置，本发明实施例不做限定。通过训练出多个待确定应答选择模型，以避免单个模型训练出现异常时无法获得待确定应答选择模型。

所述服务器在获得所述多个待确定应答选择模型之后，由于最终需要使用的所述应答选择模型只有一个，需要从多个待确定应答选择模型中选择出一个待确定应答选择模型作为所述应答选择模型。所述服务器会通过话语样本测试数据对所述待确定应答选择模型进行评估，获得通过评估的待确定应答选择模型。可理解的是，如果所述多个待确定应答选择模型都没有通过评估，那么需要重新获取话语样本训练数据，重新进行待确定应答选择模型的训练。如果所述多个待确定应答选择模型只有一个待确定应答选择模型通过评估，那么可以直接将其作为所述应答选择模型。其中，每个待确定应答选择模型的具体评估过程与步骤S203对所述待确定应答选择模型的评估过程类似，此处不进行赘述。

如果所述多个待确定应答选择模型，有多个待确定应答选择模型通过评估，那么可以比较通过评估的待确定应答选择模型的准确率，从中选择准确率最高的待确定应答选择模型作为所述应答选择模型。从多个通过评估的待确定应答选择模型中选择准确率最高的待确定应答选择模型作为应答选择模型，可以降低出现答非所问的几率，提高对用户输入的话语的应答的准确性，避免用户体验不佳。

在上述各实施例的基础上，进一步地，本发明实施例提供的基于强化学习的智能对话方法还包括：

更新所述话语样本训练数据，并根据更新后的话语样本训练数据重新训练获得所述应答选择模型。

具体地，本发明实施例提供的基于强化学习的智能对话方法在投入使用之后，可以收集所述用户输入的话语，所述用户输入的话语对应的多个应答动作，以及所述用户对所述应答话语的反馈话语，将收集到的用户输入的话语以及对应的多个应答动作作为单回合话语数据，将所述用户对所述应答话语的反馈话语作为单回合话语数据对应的用户满意度，获得新的话语训练数据。所述服务器可以从新收集的话语训练数据中抽出一部分话语训练数据，并从以前的话语样本训练数据中抽出一部分话语训练数据更新之前训练所述应答选择模型的所述话语样本训练数据，获得更新后的话语样本训练数据，然后根据更新后的话语样本训练数据重新训练获得所述应答选择模型。使用重新获得的应答选择模型进行最佳应答动作的选择。所述应答选择模型重新训练的具体过程与之前所述应答选择模型的训练过程类似，此处不进行赘述。其中，在更新所述话语样本训练数据时，新收集的话语训练数据抽取的比例可以多一些，以前的话语训练数据抽取的比例可以少一些，使重新训练的应答选择模型能够适应新的变化，新收集的话语训练数据和以前的话语训练数据抽取的比例根据实际需要进行设置，本发明实施例不做限定。

所述应答选择模型可以定期根据更新后的话语样本训练数据重新训练，也可以在满足触发条件之后根据更新后的话语样本训练数据重新训练，所述触发条件例如为统计预设时间段内所述应答话语的用户满意度为不满意的累计次数，当累计次数大于不满意阈值时，根据更新后的话语样本训练数据重新训练获得所述应答选择模型。对所述应答选择模型自动进行重新训练，可以及时更新应答选择模型，减少出现答非所问的几率，提高对用户输入的话语的应答的准确性，提升用户体验。

图4是本发明一实施例提供的基于强化学习的智能对话装置的结构示意图，如图4所示，在上述各实施例的基础上，进一步地，本发明实施例提供的基于强化学习的智能对话装置包括接收单元401、获得单元402、选择单元403和生成单元404，其中：

接收单元401用于接收用户输入的话语；获得单元402用于根据所述用户输入的话语，获得多个应答动作；选择单元403用于根据所述用户输入的话语、所述多个应答动作以及应答选择模型，获得所述用户输入的话语对应的最佳应答动作；其中，所述应答选择模型是基于话语样本训练数据以及强化学习模型训练后获得的；生成单元404用于根据所述用户输入的话语对应的最佳应答动作，生成应答话语。

具体地，用户可以通过客户端以语音或者文字的输入形式提出自己的问题，所述客户端会将上述问题作为用户输入的话语发送给接收单元401，接收单元401会接收所述用户输入的话语。用户输入的话语是为了让基于强化学习的智能对话装置知道用户想要知道什么。其中，所述客户端包括但不限于台式机、笔记本电脑、智能手机、平板电脑等。

在接收到所述用户输入的话语之后，获得单元402会对所述用户输入的话语进行分析，转换成计算机能够理解的形式，获得所述用户输入的话语的状态，然后根据所述用户输入的话语的状态，获得多个应答动作。所述应答动作是一种应答策略，是预先设置的。其中，通过所述用户输入的话语的状态，获得多个应答动作的具体实现过程为现有技术，此处不进行赘述。

在获得所述多个应答动作之后，选择单元403将所述用户输入的话语、所述多个应答动作输入到应答选择模型中，经过所述应答选择模型的处理，可以输出所述用户输入的话语对应的最佳应答动作，所述最佳应答动作是所述多个应答动作之中的一个。其中，所述应答选择模型是基于话语样本训练数据以及强化学习模型训练后获得的，所述话语样本训练数据包括预设数量条话语训练数据，每条话语训练数据包括单回合话语数据以及用户满意度。所述强化学习模型是根据强化学习算法建立的模型，所述强化学习算法包括但不限于DQN算法、DDPG算法、IMPALA算法、A2C算法、GA3C算法等。

在获得所述用户输入的话语对应的最佳应答动作之后，生成单元404会根据所述最佳应答动作生成应答话语，所述应答话语是对所述用户输入的话语的回应，即对用户所提出的问题的回答。其中，所述应答话语可以在预设的应答模版上替换信息槽位生成，或者使用将所述最佳应答动作输入到预先设置的神经网络模型中生成所述应答话语。生成单元404在获得所述应答话语之后，可以将所述应答话语发送给所述客户端。

本发明实施例提供的基于强化学习的智能对话装置，能够接收用户输入的话语，根据用户输入的话语，获得多个应答动作，根据用户输入的话语、多个应答动作以及应答选择模型，获得用户输入的话语对应的最佳应答动作，根据用户输入的话语对应的最佳应答动作，生成应答话语，通过应答选择模型从多个应答动作中选择出合适的应答动作以生成应答话语，提高了对用户输入的话语的应答的准确性。

图5是本发明另一实施例提供的基于强化学习的智能对话装置的结构示意图，如图5所示，在上述各实施例的基础上，进一步地，本发明实施例提供的基于强化学习的智能对话装置还包括获取单元405、训练单元406和评估单元407，其中：

获取单元405用于获取所述话语样本训练数据，所述话语样本训练数据包括预设数量条话语训练数据，每条话语训练数据包括单回合话语数据以及用户满意度；训练单元406用于根据所述预设数量条话语训练数据以及所述强化学习模型，训练获得待确定应答选择模型；评估单元407用于在判断获知所述待确定应答选择模型通过话语样本测试数据的评估之后，将所述待确定应答选择模型作为所述应答选择模型。

具体地，获取单元405可以获取所述话语样本训练数据，所述话语样本训练包括预设数量条话语训练数据，每条话语训练数据包括单回合话语数据以及用户满意度。所述单回合话语数据包括用户输入的话语以及用户输入的话语对应的多个应答动作，所述用户满意度是指用户对所述用户输入话语对应的应答话语的满意程度，所述用户满意度可以分为不满意、正常和满意三个类别。其中，所述预设数量根据实际经验进行设置，本发明实施例不做限定。

在获取到所述预设数量条话语训练数据之后，训练单元406将所述预设数量条话语训练数据输入到所述强化学习模型，训练所述强化学习模型至收敛或者所述强化学习模型的内部参数的迭代次数达到预设次数，停止模型训练，获得待确定应答选择模型。其中，所述预设次数根据实际需要进行设置，本发明实施例不做限定。

在训练获得所述待确定应答选择模型之后，评估单元407可以通过话语样本测试数据对所述待确定应答选择模型进行评估，即将所述话语样本测试数据包括的每条话语测试数据的测试话语和多个应答动作输入到所述待确定应答选择模型中，获得每条话语测试数据对应的测试应答动作，然后将每条话语测试数据对应的测试应答动作与每条话语测试数据的目标应答动作进行比较，如果所述话语测试数据对应的测试应答动作与所述话语测试数据的目标应答动相同，那么该条话语测试数据应答正确，如果所述话语测试数据对应的测试应答动作与所述话语测试数据的目标应答动不相同，那么该条话语测试数据应答错误。评估单元407会统计所述待确定应答选择模型对所述话语样本测试数据应答正确的数量，然后用应答正确的数量除以所述话语样本测试数据包括的话语测试数据的条数，获得所述待确定应答选择模型的准确率。将所述待确定应答选择模型的准确率与评估阈值进行比较，如果所述待确定应答选择模型的准确率大于所述评估阈值，那么所述待确定应答选择模型通过话语样本测试数据的评估，可以将所述待确定应答选择模型作为所述应答选择模型。如果所述待确定应答选择模型的准确率小于等于所述评估阈值，那么所述待确定应答选择模型不能通过话语样本测试数据的评估，可以重新获取话语样本训练数据，基于重新获取的话语样本训练数据以及所述强化学习模型，重新训练获得待确定应答选择模型进行评估。

图6是本发明再一实施例提供的基于强化学习的智能对话装置的结构示意图，如图6所示，在上述各实施例的基础上，进一步地，获取单元405包括收集子单元4051、获得子单元4052和数据组合子单元4053，其中：

收集子单元4051用于在线收集所述用户输入的话语、所述多个应答动作以及所述用户对所述应答话语的反馈话语；获得子单元4052用于根据所述用户对所述应答话语的反应话语以及情感分析模型，获得所述应答话语的用户满意度；数据组合子单元4053用于将所述用户输入的话语和所述多个应答动作作为所述单回合话语数据，并将所述应答话语的用户满意度作为所述单回合话语数据的用户满意度。

具体地，收集子单元4051可以在线收集所述用户输入的话语和所述多个应答动作，以及所述用户对所述应答话语的反馈话语。收集子单元4051在获得所述应答话语之后，可以将所述应答话语发送给所述客户端，所述客户通过是客户端收到所述应答话语之后，可以对所述应答话语做出反应，通过所述客户端向收集子单元4051发送所述应答话语的反馈话语，收集子单元4051可以接收到所述用户对所述应答话语的反馈话语。

在获得所述用户对所述应答话语的反应话语之后，获得子单元4052将所述用户对所述应答话语的反应话语输入到情感分析模型中，可以输出所述应答话语的用户满意度，即通过对所述用户对所述应答话语的反应话语的分析，得到用户对应答话语的满意程度。其中，所述情感分析模型是预先训练获得的，是包含语义分析特征的神经网络模型，采用的神经网络结构根据实际需要进行设置，本发明实施例不做限定。

数据组合子单元4053会将所述用户输入的话语和所述用户输入的话语对应的多个应答动作，作为所述单回合话语数据，并将所述用户输入的话语对应的应答话语的用户满意度作为所述单回合话语数据对应的用户满意度，从而获得一条话语训练数据。当数据组合子单元4053收集到所述预设数量条话语训练数据之后，就可以基于所述预设数量条话语训练数据进行所述应答选择模型的训练。

在上述各实施例的基础上，进一步地，训练单元406具体用于：

根据所述预设数量条话语训练数据以及不同的强化学习模型，训练获得多个待确定应答选择模型；

相应地，评估单元407具体用于：

具体地，训练单元406在根据所述预设数量条话语训练数据以及所述强化学习模型进行所述待确定应答选择模型的训练时，可以采用不同的强化学习模型，根据每个强化学习模型以及所述预设数量条话语训练数据训练出一个待确定应答选择模型，从而可以获得多个待确定应答选择模型。其中，不同的强化学习模型，可以是采用不同强化学习算法的强化学习模型，也可以是采用相同的强化学习算法但超参数不同的强化学习模型，根据实际需要进行设置，本发明实施例不做限定。通过训练出多个待确定应答选择模型，以避免单个模型训练出现异常时无法获得待确定应答选择模型。

在获得所述多个待确定应答选择模型之后，由于最终需要使用的所述应答选择模型只有一个，评估单元407需要从多个待确定应答选择模型中选择出一个待确定应答选择模型作为所述应答选择模型。评估单元407会通过话语样本测试数据对所述待确定应答选择模型进行评估，获得通过评估的待确定应答选择模型。可理解的是，如果所述多个待确定应答选择模型都没有通过评估，那么需要重新获取话语样本训练数据，重新进行待确定应答选择模型的训练。如果所述多个待确定应答选择模型只有一个待确定应答选择模型通过评估，那么可以直接将其作为所述应答选择模型。其中，每个待确定应答选择模型的具体评估过程与步骤S203对所述待确定应答选择模型的评估过程类似，此处不进行赘述。

如果所述多个待确定应答选择模型，有多个待确定应答选择模型通过评估，那么评估单元407可以比较通过评估的待确定应答选择模型的准确率，从中选择准确率最高的待确定应答选择模型作为所述应答选择模型。从多个通过评估的待确定应答选择模型中选择准确率最高的待确定应答选择模型作为应答选择模型，可以降低出现答非所问的几率，提高对用户输入的话语的应答的准确性，避免用户体验不佳。

图7是本发明又一实施例提供的基于强化学习的智能对话装置的结构示意图，在上述各实施例的基础上，进一步地，本发明实施例提供的基于强化学习的智能对话装置还包括：

更新单元408用于更新所述话语样本训练数据，并根据更新后的话语样本训练数据重新训练获得所述应答选择模型。

具体地，本发明实施例提供的基于强化学习的智能对话方法在投入使用之后，更新单元408可以收集所述用户输入的话语，所述用户输入的话语对应的多个应答动作，以及所述用户对所述应答话语的反馈话语，将收集到的用户输入的话语以及对应的多个应答动作作为单回合话语数据，将所述用户对所述应答话语的反馈话语作为单回合话语数据对应的用户满意度，获得新的话语训练数据。更新单元408可以从新收集的话语训练数据中抽出一部分话语训练数据，并从以前的话语样本训练数据中抽出一部分话语训练数据更新之前训练所述应答选择模型的所述话语样本训练数据，获得更新后的话语样本训练数据，然后根据更新后的话语样本训练数据重新训练获得所述应答选择模型。使用重新获得的应答选择模型进行最佳应答动作的选择。所述应答选择模型重新训练的具体过程与之前所述应答选择模型的训练过程类似，此处不进行赘述。其中，在更新所述话语样本训练数据时，新收集的话语训练数据抽取的比例可以多一些，以前的话语训练数据抽取的比例可以少一些，使重新训练的应答选择模型能够适应新的变化，新收集的话语训练数据和以前的话语训练数据抽取的比例根据实际需要进行设置，本发明实施例不做限定。

本发明实施例提供的基于强化学习的智能对话装置的实施例具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图8是本发明一实施例提供的电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)801、通信接口(Communications Interface)802、存储器(memory)803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信。处理器801可以调用存储器803中的逻辑指令，以执行如下方法：接收用户输入的话语；根据所述用户输入的话语，获得多个应答动作；根据所述用户输入的话语、所述多个应答动作以及应答选择模型，获得所述用户输入的话语对应的最佳应答动作；其中，所述应答选择模型是基于话语样本训练数据以及强化学习模型训练后获得的；根据所述用户输入的话语对应的最佳应答动作，生成应答话语。

此外，上述的存储器803中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：接收用户输入的话语；根据所述用户输入的话语，获得多个应答动作；根据所述用户输入的话语、所述多个应答动作以及应答选择模型，获得所述用户输入的话语对应的最佳应答动作；其中，所述应答选择模型是基于话语样本训练数据以及强化学习模型训练后获得的；根据所述用户输入的话语对应的最佳应答动作，生成应答话语。

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述各方法实施例所提供的方法，例如包括：接收用户输入的话语；根据所述用户输入的话语，获得多个应答动作；根据所述用户输入的话语、所述多个应答动作以及应答选择模型，获得所述用户输入的话语对应的最佳应答动作；其中，所述应答选择模型是基于话语样本训练数据以及强化学习模型训练后获得的；根据所述用户输入的话语对应的最佳应答动作，生成应答话语。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在本说明书的描述中，参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的智能对话方法，其特征在于，包括：

接收用户输入的话语；

根据所述用户输入的话语，获得多个应答动作；

2.根据权利要求1所述的方法，其特征在于，基于话语样本训练数据以及强化学习模型训练获得所述应答选择模型的步骤包括：

获取所述话语样本训练数据，所述话语样本训练数据包括预设数量条话语训练数据，每条话语训练数据包括单回合话语数据以及用户满意度；

根据所述预设数量条话语训练数据以及所述强化学习模型，训练获得待确定应答选择模型；

若判断获知所述待确定应答选择模型通过话语样本测试数据的评估，则将所述待确定应答选择模型作为所述应答选择模型。

3.根据权利要求2所述的方法，其特征在于，所述获取话语样本训练数据包括：

在线收集所述用户输入的话语、所述多个应答动作以及所述用户对所述应答话语的反馈话语；

根据所述用户对所述应答话语的反应话语以及情感分析模型，获得所述应答话语的用户满意度；

将所述用户输入的话语和所述多个应答动作作为所述单回合话语数据，并将所述应答话语的用户满意度作为所述单回合话语数据的用户满意度。

4.根据权利要求2所述的方法，其特征在于，所述根据所述预设数量条话语训练数据以及所述强化学习模型，训练获得待确定应答选择模型包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，还包括：

6.一种基于强化学习的智能对话装置，其特征在于，包括：

接收单元，用于接收用户输入的话语；

7.根据权利要求6所述的装置，其特征在于，还包括：

获取单元，用于获取所述话语样本训练数据，所述话语样本训练数据包括预设数量条话语训练数据，每条话语训练数据包括单回合话语数据以及用户满意度；

训练单元，用于根据所述预设数量条话语训练数据以及所述强化学习模型，训练获得待确定应答选择模型；

评估单元，用于在判断获知所述待确定应答选择模型通过话语样本测试数据的评估之后，将所述待确定应答选择模型作为所述应答选择模型。

8.根据权利要求7所述的装置，其特征在于，所述获取单元包括：

收集子单元，用于在线收集所述用户输入的话语、所述多个应答动作以及所述用户对所述应答话语的反馈话语；

获得子单元，用于根据所述用户对所述应答话语的反应话语以及情感分析模型，获得所述应答话语的用户满意度；

数据组合子单元，用于将所述用户输入的话语和所述多个应答动作作为所述单回合话语数据，并将所述应答话语的用户满意度作为所述单回合话语数据的用户满意度。

9.根据权利要求7所述的装置，其特征在于，所述训练单元具体用于：

相应地，所述评估单元具体用于：

10.根据权利要求6至9任一项所述的装置，其特征在于，还包括：

更新单元，用于更新所述话语样本训练数据，并根据更新后的话语样本训练数据重新训练获得所述应答选择模型。

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。