CN113806512A

CN113806512A - 机器人对话模型的训练方法、装置、设备及存储介质

Info

Publication number: CN113806512A
Application number: CN202111162452.6A
Authority: CN
Inventors: 岑志彬
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2021-12-17

Abstract

本发明涉及人工智能，提供一种机器人对话模型的训练方法、装置、计算机设备及存储介质。方法包括：通过预设的训练后的用户模拟器以及预设的机器人对话模型进行对话生成真实经验；通过真实经验以及预设的用户对话数据样本集对预设的用户对话模型进行训练，得到训练后的用户对话模型；通过训练后的用户对话模型与预设的机器人对话模型进行对话，并根据对对话进行评分，得到模拟经验；根据模拟经验、真实经验以及用户对话数据样本集分别对预设的机器人对话模型进行训练，得到训练后的机器人对话模型。本方案可以通过用户模拟器以及用户对话模型扩充训练语料，通过扩充后的训练语料对机器人对话模型进行训练，可以提高机器人对话模型的对话质量。

Description

机器人对话模型的训练方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种机器人对话模型的训练方法、装置、计算机设备及存储介质。

背景技术

对话机器人作为自然语言处理领域的重要组成部分，它可以为用户提供框架性的即时消息传递服务，也可以为用户提供快速的机器会话服务，解决用户工作和生活中的问题。

随着技术的不断发展，用户体验在人工智能(Artificial Intelligence，AI)中的表现也被日渐重视，所以需要训练出回答更精确的机器人对话模型，现有技术中，需要通过现有的对话语料对机器人对话模型进行强化学习，从而得到训练后的机器人对话模型，但是现有的对话语料非常稀缺，所以直接使用现有的对话语料对机器人对话模型进行强化学习，会导致训练出来的机器人对话模型的对话质量差。

发明内容

本发明实施例提供了一种机器人对话模型的训练方法、装置、计算机设备及存储介质，可以提高机器人对话模型的对话质量。

第一方面，本发明实施例提供了一种机器人对话模型的训练方法，其包括：

通过预设的训练后的用户模拟器以及预设的机器人对话模型进行对话生成真实经验；

通过所述真实经验以及预设的用户对话数据样本集对预设的用户对话模型进行训练，得到训练后的用户对话模型；

通过所述训练后的用户对话模型与所述预设的机器人对话模型进行对话，并根据预设的评分规则对所述对话进行评分，得到模拟经验；

根据所述模拟经验、所述真实经验以及所述用户对话数据样本集分别对所述预设的机器人对话模型进行训练，得到训练后的机器人对话模型。

第二方面，本发明实施例还提供了一种机器人对话模型的训练装置，其包括：

生成单元，用于通过预设的训练后的用户模拟器以及预设的机器人对话模型进行对话生成真实经验；

第一训练单元，用于通过所述真实经验以及预设的用户对话数据样本集对预设的用户对话模型进行训练，得到训练后的用户对话模型；

处理单元，用于通过所述训练后的用户对话模型与所述预设的机器人对话模型进行对话，并根据预设的评分规则对所述对话进行评分，得到模拟经验；

第二训练单元，用于根据所述模拟经验、所述真实经验以及所述用户对话数据样本集分别对所述预设的机器人对话模型进行训练，得到训练后的机器人对话模型。

第三方面，本发明实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现上述方法。

本发明实施例提供了一种机器人对话模型的训练方法、装置、计算机设备及存储介质。其中，所述方法包括：通过预设的训练后的用户模拟器以及预设的机器人对话模型进行对话生成真实经验；通过所述真实经验以及预设的用户对话数据样本集对预设的用户对话模型进行训练，得到训练后的用户对话模型；通过所述训练后的用户对话模型与所述预设的机器人对话模型进行对话，并根据预设的评分规则对所述对话进行评分，得到模拟经验；根据所述模拟经验、所述真实经验以及所述用户对话数据样本集分别对所述预设的机器人对话模型进行训练，得到训练后的机器人对话模型。本方案可以通过用户模拟器以及用户对话模型扩充训练语料，通过扩充后的训练语料对机器人对话模型进行训练，可以提高机器人对话模型的对话质量。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的机器人对话模型的训练方法的应用场景示意图；

图2为本发明实施例提供的机器人对话模型的训练方法的流程示意图；

图3为本发明实施例提供的机器人对话模型的训练方法的一子流程示意图；

图4为本发明实施例提供的机器人对话模型的训练方法的另一子流程示意图；

图5为本发明实施例提供的机器人对话模型的训练方法另一子流程示意图；

图6为本发明另一实施例提供的机器人对话模型的训练装置的示意性框图；

图7为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本发明实施例提供了一种机器人对话模型的训练方法、装置、计算机设备及存储介质。

该机器人对话模型的训练方法的执行主体可以是本发明实施例提供的机器人对话模型的训练装置，或者集成了该机器人对话模型的训练装置的计算机设备，其中，该机器人对话模型的训练装置可以采用硬件或者软件的方式实现，该计算机设备可以为终端或服务器，该终端可以是智能手机、平板电脑、掌上电脑、或者笔记本电脑等。

请参阅图1，图1为本发明实施例提供的机器人对话模型的训练方法的应用场景示意图。该机器人对话模型的训练方法应用于计算机设备中，该计算机设备配置有训练框架，如图1所示，该训练框架包括机器人对话模型、用户模拟器以及用户对话模型，该计算机设备10通过预设的训练后的用户模拟器以及预设的机器人对话模型进行对话生成真实经验；通过真实经验以及预设的用户对话数据样本集对预设的用户对话模型进行训练，得到训练后的用户对话模型；通过训练后的用户对话模型与预设的机器人对话模型进行对话，并对对话进行奖励，得到模拟经验；根据模拟经验、真实经验以及用户对话数据样本集分别对预设的机器人对话模型进行训练，得到训练后的机器人对话模型。

本实施例中的机器人对话模型的训练方法的训练框架包括训练后的用户模拟器、预设的机器人对话模型以及用户对话模型，以下分别对本实施例涉及的各个模型进行说明：

用户模拟器(User Simulator，US)：该用户模拟器为针对特定领域场景(例如保险领域的场景)进行训练后的用户模拟器，其中，训练后的用户模拟器中设置有多个问题文本，以及每个问题文本对应的多个回答文本，该用户模拟器可以用于与预设的机器人对话模型进行交互，生成真实经验。

机器人对话模型：为基于深度确定性策略网络(Deep Deterministic PolicyGradient，DDPG)的网络模型，其中，预设的机器人对话模型为根据用户对话数据样本集进行过初步强化学习，具有一定的对话能力的机器人对话模型，但对话能力后续需要提高，本方案的主要目的为提高该机器人对话模型的对话能力，提高对话质量。

用户对话模型：即世界模型，是结合了Q-learning和深度学习网络的一个网络结构模型，为一个多任务分类的神经网络模型，训练后的用户对话模型可以围绕用户目标，通过与预设的机器人对话模型的对话生成不同组合的对话语料，并且根据生成的对话语料进行奖励得到模拟经验。

图2是本发明实施例提供的机器人对话模型的训练方法的流程示意图。如图2所示，该方法包括以下步骤S110-140。

110、通过预设的训练后的用户模拟器以及预设的机器人对话模型进行对话生成真实经验。

具体地，本实施例需要从机器人对话模型对应的用户目标数据库中获取用户目标(即机器人对话模型当前需要进行训练的对话意图)，然后预设的训练后的用户模拟器以及预设的机器人对话模型围绕着该用户目标进行交互并生成真实经验。

其中，用户目标G由语义槽组成，该语义槽包括约束语义槽C和请求语义槽R，其中，C表示一组约束语义槽，用户可以用它进行约束搜索。以预订电影票的任务为例，约束语义槽通常包括电影的购票数量、日期等；R表示请求语义槽，用户可以用它请求某个具体语义槽的值，请求语义槽通常包含影院的位置、开始时间等。

120、通过真实经验以及预设的用户对话数据样本集对预设的用户对话模型进行训练，得到训练后的用户对话模型。

本实施例需要通过真实经验以及预设的用户对话数据样本集分别对预设的用户对话模型进行训练，以使得用户对话模型的表现更贴近真实用户。

其中，由于训练后的用户对话模型根据真实经验以及预设的用户对话数据样本集训练得到，所以训练后的用户对话模型与预设的机器人对话模型相互关联，使得训练后的用户对话模型与机器人对话模型可以进行对话交互。

其中，本实施例中的用户对话数据样本集为标准的对话数据集，该对话数据样本集中包含有标准的问答对话。

请参阅图3，在一些实施例中，具体地，步骤S120包括：

S121、根据所述真实经验以及所述预设的用户对话数据样本集对所述预设的用户对话模型进行训练，并获取所述预设的用户对话模型的训练周期数以及对话成功率。

其中，根据所述模拟经验、所述真实经验以及所述用户对话数据样本集分别对所述预设的机器人对话模型进行训练具体包括通过真实经验对预设的用户对话模型进行强化学习，以及通过用户对话数据样本集对预设的用户对话模型进行监督学习。

即，本实施例中，需要通过真实经验对用户对话模型进行强化学习，以及通过用户对话数据样本集对预设的用户对话模型进行监督学习，其中，两种学习可以同步进行，并且，每进行一个周期的用户对话模型训练，就统计一次训练周期数(第二训练周期)以及对话成功率(第二对话成功率)，其中，该训练周期数为用户对话模型的训练周期总数，每次通过真实经验对用户对话模型进行强化学习，以及通过用户对话数据样本集对预设的用户对话模型进行监督学习作为一次训练周期。

其中，该成功率为根据最近预设次数的对话周期得到的对话成功率，其中，该预设次数可以为50，也可以为其他数值，具体数值此处不做限定，该对话周期为完成一次用户目标的对话周期，其中，完成一次对话周期的对话状态包括成功状态以及失败状态。

S122、根据训练周期数以及对话成功率判断预设的用户对话模型是否训练完成，若是，则执行步骤S123，若否，则返回执行步骤S121。

在一些实施例中，具体地，步骤S122包括：根据训练周期数以及预设的训练周期数与分数的对应关系确定轮数分数；并根据成功率以及预设的成功率与分数的对应关系确定成功率分数；根据轮数分数、预设的轮数权重、成功率分数以及预设的成功率权重确定模型分数；若模型分数大于或等于预设的分数阈值，则确定预设的用户对话模型训练完成；若模型分数小于预设的分数阈值，则确定预设的用户对话模型未训练完成。

在另一些实施例中，在判断预设的用户对话模型是否训练完成还需要结合人工打分，此时，需要根据轮数分数、成功率分数以及人工打分分数及分别对应的权重确定模型分数。

S123、将预设的用户对话模型确定为训练后的用户对话模型。

如果预设的用户对话模型训练完成，则此时可以将根据当前训练周期训练完的预设的用户对话模型确定为训练后的用户对话模型，其中，训练后的用户对话模型的对话表现贴近真实用户，具备与机器人对话模型的对话能力。

如果预设的用户对话模型未训练完成，则需要继续对预设的用户对话模型进行训练，直到当前用户模型训练完成。

130、通过训练后的用户对话模型与预设的机器人对话模型进行对话，并根据预设的评分规则对对话进行评分，得到模拟经验。

需要说明的是，本实施例中训练后的用户对话模型的输出为预设的机器人对话模型的输入，预设的机器人对话模型的输出为训练后的用户对话模型的输入，本实施例通过训练后的用户对话模型与预设的机器人对话模型进行交互，可以生成大量模拟经验，并将生成的模拟经验存在缓存器中，后续在对预设的机器人对话模型进行训练时，再从缓存器中获取模拟经验进行模型训练。

本实施例中，训练后的用户对话模型与预设的机器人对话模型进行交互时，不仅可以产生对话数据，还会对对话数据进行评分，得到奖励值，以评估此对话的好坏。

请参阅图4，在一些实施例中，具体地，步骤S130包括:

S131、从预设的用户目标数据库中获取用户目标。

其中，该用户目标即步骤S110中提及的用户目标。

S132、根据用户目标触发预设的机器人对话模型以及训练后的用户对话模型进入与用户目标对应的对话工作状态。

即，此时预设的机器人对话模型以及用户对话模型将围绕着用户目标进行对话交互。

S133、在每轮对话中，将当前轮次的当前对话状态以及上一轮次的机器响应输入训练后的用户对话模型进行对话处理，得到当前轮次的用户响应。

本实施例中，将预设的机器人对话模型与用户对话模型的一次交互作为一轮对话，本实施例将当前对话状态以及上一轮次的机器响应输入用户对话模型进行对话选择，然后输出当前轮次的用户响应，其中，机器响应为机器人对话模型的对话响应，用户响应为用户对话模型输出的对话响应。

其中，当前对话状态中包括对应用户目标的语义槽填充情况，在一些实施例中，当前对话状态还包括上一轮次的机器响应对应的议程类型。

S134、根据当前轮次的用户响应对当前对话状态进行更新，得到更新后对话状态。

具体地，步骤S134包括：通过对用户响应进行语义分析确定用户响应的槽值；根据槽值对当前对话状态中语义槽的对应槽位进行填充，得到更新后对话状态，语义槽为用户目标对应的语义槽。

其中，根据槽值对当前对话状态中语义槽的对应槽位进行填充，得到更新后对话状态，包括：将槽值填充至当前对话状态中语义槽的对应槽位中，得到语义槽填充情况；若语义槽填充情况为语义槽已填充满，并且当前总对话轮次小于或等于预设的轮数阈值，则确定更新后对话状态为成功状态(可结束对话)；若语义槽填充情况为语义槽未填充满，并且当前总对话轮次小于或等于预设的轮数阈值，则确定更新后对话状态为对话进行中状态(可继续对话)；若语义槽填充情况为语义槽未填充满，并且当前总对话轮次大于预设的轮数阈值(例如 40)，则确定更新后对话状态为失败状态(可结束对话)，即更新后对话状态的状态类型包括成功状态、对话进行中状态以及失败状态。

其中，该更新后对话状态包括状态类型，在一些实施例中，该更新后对话状态还包括当前轮次的用户响应的议程类型。

S135、根据所述预设的评分规则以及当前对话状态对上一轮次的机器响应进行评分，得到奖励值。

在一些实施例中，具体地，步骤S135包括：确定上一轮次的机器响应对应的槽值是否填充进当前对话状态中用户目标对应的语义槽的对应槽位中，得到语义槽填充结果；获取当前总对话轮次；基于所述预设的评分规则，根据当前对话状态、语义槽填充结果以及当前总对话轮次生成奖励值。

其中，该语义槽填充结果包括：上一轮次的机器响应对应的槽值填充进对应槽位中或上一轮次的机器响应对应的槽值没有填充进对应槽位中。

其中，在该预设的评分规则中当前对话状态中语义槽填充越多，当前总对话轮次越小，则奖励值越大，反之奖励值越小，语义槽填充结果为填充进对应槽位，奖励值加分，语义槽填充结果为没有填充进对应槽位，奖励值减分。

当上一轮次的机器响应对应的槽值填充进与当前对话状态中语义槽的对应槽位中时，则说明上一轮次的机器响应与本实施例中用户目标对应的槽位相对应，机器人对话模型输出的机器响应为用户目标需要的响应。当上一轮次的机器响应对应的槽值没有填充进与当前对话状态中语义槽的对应槽位中，则说明上一轮次的机器响应的槽值对应的槽位在接收到上一轮次的机器响应之前就已经被填充，或者上一轮次的机器响应对应槽值与目标用户对应的槽位均不对应。

S136、根据当前对话状态、当前轮次的用户响应、更新后对话状态以及奖励值生成模拟经验。

即生成的模拟经验包括：当前对话状态、当前轮次的用户响应、更新后对话状态以及奖励值。

在一些实施例中，由于当前对话状态包括上一轮次的机器响应对应的议程类型，更新后对话状态包括当前轮次的用户响应的议程类型，所以后续机器人对话模型在根据模拟经验进行训练的时候，还可以判断两个对话状态中的议程类型是否一致，若不一致，则说明对话发生的状态转移，此时训练时需要对当前模拟经验进行对应的扣分处理。

其中，本实施例中的训练后的用户对话模型以及预设的机器人对话模型需要进行多轮对话，得到同一用户目标，不同历史行为下的对话组合，可以扩充训练语料的丰富程度。

本实施例可以通过用户模拟器以及预设的机器人对话模型进行对话生成真实经验，通过生成的真实经验对语料进行扩充，并通过训练后的用户对话模型对与预设的机器人对话模型进行对话生成的模拟经验，进一步对语料进行了扩充，其中，模拟经验不仅包括对话信息，还包含对话状态以及对话的奖励值，增加了样本多样性，奖励值的大小可以直接反应机器人对话模型上一轮次对话的好坏，所以机器人对话模型结合奖励值对模型进行训练，可以加快机器人对话模型的训练速度，所以本实施例不仅解决了训练预料稀缺的问题，还进一步提高模型训练的精度以及提高模型训练的速度。

本实施例中，将得到的模拟经验存储至缓冲器中，后续再通缓存器中提取模拟经验进行预设的机器人对话模型的训练。

140、根据模拟经验、真实经验以及用户对话数据样本集分别对预设的机器人对话模型进行训练，得到训练后的机器人对话模型。

请参阅图5，在一些实施例中，具体地，步骤S140包括：

S141、根据模拟经验、真实经验以及用户对话数据样本集分别对预设的机器人对话模型进行训练，并获取预设的机器人对话模型的训练周期数以及对话成功率。

具体地，根据模拟经验对该预设的机器人对话模型人进行间接强化学习，根据真实经验对预设的机器人对话模型进行直接强化学习以及根据用户对话数据样本集对预设的机器人对话模型进行对抗学习，并且每进行一个周期的机器人对话模型训练，就统计一次训练周期数(第一训练周期数)以及对话成功率 (第一对话成功率)，其中，该训练周期数为机器人对话模型的训练周期总数，每次通过步骤S140对机器人对话模型进行训练作为一次训练周期。

其中，该成功率为根据最近预设次数的对话周期得到的对话成功率，其中，该预设次数可以为50，也可以为其他数值，具体数值此处不做限定，该对话周期为完成一次用户目标的对话周期，其中，完成一次对话周期的对话状态包括成功状态以及失败状态，对话成功率为成功状态的对话周期占总对话周期数的概率。

S142、根据训练周期数以及对话成功率判断预设的机器人对话模型是否训练完成，若是，则执行步骤S143，若否，则返回执行步骤S141。

其中，步骤S142与步骤S122的判断过程类似，具体此处不做赘述。

S143、将预设的机器人对话模型确定为训练后的机器人对话模型。

需要说明的是，本实施例用户对话数据样本集以及真实经验中的对话信息包括文本信息以及用户与机器人对话模型进行对话前用户对于应用程序 (Application，App)的操作行为数据，例如用户先在APP上搜索商品，浏览网页信息等，这些均作为对话历史，以扩展输入的信息维度，将这些信息加入到机器人对话模型的训练中，进一步提高机器人对话模型的训练精度。

需要说明的是，预设的机器人对话模型，在选择动作时采用确定性策略比较适合于连续性任务，但是训练后的机器人对话模型训练时采用的是双网络机制(即机器人对话模型与用户对话模型)，训练过程预设的机器人对话模型会分别对这两个网络进行参数学习，所以训练后的机器人对话模型输出层的结构会使其适合于处理文本动作离散的对话任务。在保险领域的对话任务中，大部分的任务都属于离散型的任务，因此需要将深度确定性策略网络进行改进和优化。

综上所述，本实施例通过预设的训练后的用户模拟器以及预设的机器人对话模型进行对话生成真实经验；通过真实经验以及预设的用户对话数据样本集对预设的用户对话模型进行训练，得到训练后的用户对话模型；通过训练后的用户对话模型与预设的机器人对话模型进行对话，并根据预设的评分规则对对话进行评分，得到模拟经验，模拟经验包含对话信息、对话状态以及奖励值；根据模拟经验、真实经验以及用户对话数据样本集分别对预设的机器人对话模型进行训练，得到训练后的机器人对话模型。本实施例可以通过用户模拟器以及用户对话模型扩充训练语料，通过扩充后的训练语料对机器人对话模型进行训练，可以提高机器人对话模型的对话质量。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

图6是本发明实施例提供的一种机器人对话模型的训练装置的示意性框图。如图6所示，对应于以上机器人对话模型的训练方法，本发明还提供一种机器人对话模型的训练装置。该机器人对话模型的训练装置包括用于执行上述机器人对话模型的训练方法的单元，该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地，请参阅图6，该机器人对话模型的训练装置包括生成单元601、第一训练单元602、处理单元603、以及第二训练单元604。

生成单元601，用于通过预设的训练后的用户模拟器以及预设的机器人对话模型进行对话生成真实经验；

第一训练单元602，用于通过所述真实经验以及预设的用户对话数据样本集对预设的用户对话模型进行训练，得到训练后的用户对话模型；

处理单元603，用于通过所述训练后的用户对话模型与所述预设的机器人对话模型进行对话，并根据预设的评分规则对所述对话进行评分，得到模拟经验；

第二训练单元604，用于根据所述模拟经验、所述真实经验以及所述用户对话数据样本集分别对所述预设的机器人对话模型进行训练，得到训练后的机器人对话模型。

在一些实施例中，所述处理单元603具体用于：

从预设的用户目标数据库中获取用户目标；

根据所述用户目标触发所述预设的机器人对话模型以及所述训练后的用户对话模型进入与用户目标对应的对话工作状态；

在每轮对话中，将当前轮次的当前对话状态以及上一轮次的机器响应输入所述训练后的用户对话模型进行对话处理，得到所述当前轮次的用户响应，所述机器响应为所述预设的机器人对话模型输出的对话响应；

根据所述当前轮次的用户响应对所述当前对话状态进行更新，得到更新后对话状态；

根据所述预设的评分规则以及所述当前对话状态对所述上一轮次的机器响应进行评分，得到奖励值；

根据所述当前对话状态、所述当前轮次的用户响应、所述更新后对话状态以及所述奖励值生成所述模拟经验。

在一些实施例中，所述处理单元603进一步具体用于：

通过对所述用户响应进行语义分析确定所述用户响应的槽值；

根据所述槽值对当前对话状态中所述用户目标对应的语义槽的对应槽位进行填充，得到所述更新后对话状态，所述语义槽为所述用户目标对应的语义槽。

在一些实施例中，所述处理单元603还进一步具体用于：

将所述槽值填充至所述当前对话状态中所述用户目标对应的语义槽的对应槽位中，得到语义槽填充情况；

若所述语义槽填充情况为所述语义槽已填充满，并且当前总对话轮次小于或等于预设的轮数阈值，则确定所述更新后对话状态为成功状态；

若所述语义槽填充情况为所述语义槽未填充满，并且当前总对话轮次小于或等于预设的轮数阈值，则确定所述更新后对话状态为对话进行中状态；

若所述语义槽填充情况为所述语义槽未填充满，并且当前总对话轮次大于预设的轮数阈值，则确定所述更新后对话状态为失败状态。

在一些实施例中，所述处理单元603还进一步具体用于：

确定所述上一轮次的机器响应对应的槽值是否填充进所述当前对话状态中所述用户目标对应的语义槽的对应槽位中，得到语义槽填充结果；

获取当前总对话轮次；

基于所述预设的评分规则，根据所述当前对话状态、所述语义槽填充结果以及所述当前总对话轮次生成所述奖励值。

在一些实施例中，所述第第二训练单元604具体用于：

根据所述模拟经验、所述真实经验以及所述用户对话数据样本集分别对所述预设的机器人对话模型进行训练，并获取所述预设的机器人对话模型的第一训练周期数以及第一对话成功率；

根据所述第一训练周期数以及所述第一对话成功率判断所述预设的机器人对话模型是否训练完成；

若所述预设的机器人对话模型训练完成，则将所述预设的机器人对话模型确定为所述训练后的机器人对话模型。

在一些实施例中，所述第一训练单元602具体用于：

根据所述真实经验以及所述预设的用户对话数据样本集对所述预设的用户对话模型进行训练，并获取所述预设的用户对话模型的第二训练周期数以及第二对话成功率；

根据所述第二训练周期数以及所述第二对话成功率判断所述预设的用户对话模型是否训练完成；

若所述预设的用户对话模型已训练完成，则将所述预设的用户对话模型确定为所述训练后的用户对话模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述机器人对话模型的训练装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述机器人对话模型的训练装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7是本发明实施例提供的一种计算机设备的示意性框图。该计算机设备700可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图7，该计算机设备700包括通过系统总线701连接的处理器702、存储器和网络接口705，其中，存储器可以包括非易失性存储介质703和内存储器 704。

该非易失性存储介质703可存储操作系统7031和计算机程序7032。该计算机程序7032包括程序指令，该程序指令被执行时，可使得处理器702执行一种机器人对话模型的训练方法。

该处理器702用于提供计算和控制能力，以支撑整个计算机设备700的运行。

该内存储器704为非易失性存储介质703中的计算机程序7032的运行提供环境，该计算机程序7032被处理器702执行时，可使得处理器702执行一种机器人对话模型的训练方法。

该网络接口705用于与其它设备进行网络通信。本领域技术人员可以理解，图7中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备700的限定，具体的计算机设备700可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器702用于运行存储在存储器中的计算机程序7032，以实现如下步骤：

在一些实施例中，处理器702在实现所述过所述训练后的用户对话模型与所述预设的机器人对话模型进行对话，并根据预设的评分规则对所述对话进行评分，得到模拟经验步骤时，具体实现如下步骤：

从预设的用户目标数据库中获取用户目标；

在一些实施例中，处理器702在实现所述根据所述当前轮次的用户响应对所述当前对话状态进行更新，得到更新后对话状态步骤时，具体实现如下步骤：

根据所述槽值对当前对话状态中所述用户目标对应的语义槽的对应槽位进行填充，得到所述更新后对话状态。

在一些实施例中，处理器702在实现所述根据所述槽值对当前对话状态中所述用户目标对应的语义槽的对应槽位进行填充，得到所述更新后对话状态步骤时，具体实现如下步骤：

在一些实施例中，处理器702在实现所述根据所述预设的评分规则以及所述当前对话状态对所述上一轮次的机器响应进行评分，得到奖励值步骤时，具体实现如下步骤：

获取当前总对话轮次；

在一些实施例中，处理器702在实现所述据所述模拟经验、所述真实经验以及所述用户对话数据样本集分别对所述预设的机器人对话模型进行训练，得到训练后的机器人对话模型步骤时，具体实现如下步骤：

在一些实施例中，处理器702在实现所述通过所述真实经验以及预设的用户对话数据样本集对预设的用户对话模型进行训练，得到训练后的用户对话模型步骤时，具体实现如下步骤：

应当理解，在本发明实施例中，处理器702可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器702还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤：

在一些实施例中，所述处理器在执行所述程序指令而实现所述通过所述训练后的用户对话模型与所述预设的机器人对话模型进行对话，并根据预设的评分规则对所述对话进行评分，得到模拟经验步骤时，具体实现如下步骤：

从预设的用户目标数据库中获取用户目标；

在一些实施例中，所述处理器在执行所述程序指令而实现所述根据所述当前轮次的用户响应对所述当前对话状态进行更新，得到更新后对话状态步骤时，具体实现如下步骤：

在一些实施例中，所述处理器在执行所述程序指令而实现所述根据所述槽值对当前对话状态中所述用户目标对应的语义槽的对应槽位进行填充，得到所述更新后对话状态步骤时，具体实现如下步骤：

在一些实施例中，所述处理器在执行所述程序指令而实现所述根据所述预设的评分规则以及所述当前对话状态对所述上一轮次的机器响应进行评分，得到奖励值步骤时，具体实现如下步骤：

获取当前总对话轮次；

在一些实施例中，所述处理器在执行所述程序指令而实现所述根据所述模拟经验、所述真实经验以及所述用户对话数据样本集分别对所述预设的机器人对话模型进行训练，得到训练后的机器人对话模型步骤时，具体实现如下步骤：

在一些实施例中，所述处理器在执行所述程序指令而实现所述通过所述真实经验以及预设的用户对话数据样本集对预设的用户对话模型进行训练，得到训练后的用户对话模型步骤时，具体实现如下步骤：

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory， ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等) 执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种机器人对话模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过所述训练后的用户对话模型与所述预设的机器人对话模型进行对话，并根据预设的评分规则对所述对话进行评分，得到模拟经验，包括：

从预设的用户目标数据库中获取用户目标；

3.根据权利要求2所述的方法，其特征在于，所述根据所述当前轮次的用户响应对所述当前对话状态进行更新，得到更新后对话状态，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述槽值对当前对话状态中所述用户目标对应的语义槽的对应槽位进行填充，得到所述更新后对话状态，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述预设的评分规则以及所述当前对话状态对所述上一轮次的机器响应进行评分，得到奖励值，包括：

获取当前总对话轮次；

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述模拟经验、所述真实经验以及所述用户对话数据样本集分别对所述预设的机器人对话模型进行训练，得到训练后的机器人对话模型，包括：

7.根据权利要求1至5中任一项所述的方法，其特征在于，所述通过所述真实经验以及预设的用户对话数据样本集对预设的用户对话模型进行训练，得到训练后的用户对话模型，包括：

8.一种机器人对话模型的训练装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现如权利要求1-7中任一项所述的方法。