CN109460463B

CN109460463B - 基于数据处理的模型训练方法、装置、终端及存储介质

Info

Publication number: CN109460463B
Application number: CN201811364712.6A
Authority: CN
Inventors: 毕野; 黄博; 吴振宇; 王建明; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2023-06-20
Anticipated expiration: 2038-11-15
Also published as: CN109460463A

Abstract

本发明实施例公开了一种基于数据处理的模型训练方法、装置、终端及存储介质，应用于数据处理技术领域。其中，方法包括：基于至少一个虚拟对话系统产生的对话数据构建第一训练数据集，并根据第一训练数据集进行根据输入对话确定生成回复的模型训练得到初始模型以及初始模型的奖励函数；根据强化学习算法和第一训练数据集对初始模型进行第一强化训练，得到中间模型；基于至少一个真实对话系统产生的对话数据构建第二训练数据集，并根据强化学习算法和第二训练数据集对中间模型进行第二强化训练，得到目标模型。本发明实施例可以使得训练得到的目标模型考虑回复的广度和深度，减少万能回复，从而可以提升回复的丰富度和前瞻性。

Description

基于数据处理的模型训练方法、装置、终端及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及基于数据处理的模型训练方法、装置、终端及存储介质。

背景技术

人机交互(Human–Computer Interaction，HCI)是指人与计算机之间使用某种对话语言，以一定的交互方式确定人与计算机之间的信息交换过程。随着人机交互技术的发展，越来越多的基于人机交互技术的智能产品应运而生，例如聊天机器人等。这些智能产品可以和用户进行聊天交流，并根据用户的问题生成相应的回答信息。但是，目前智能产品在和用户进行聊天的过程中，通常采用MLE(Maximum Likelihood Estimate，极大似然估计方法)模型的对话系统与用户进行多轮对话，实践表明，该MLE系统所产生的回复通常不考虑前瞻性，针对用户的问题，容易产生万能回复，从而使得整个聊天过程陷入死循环，用户的体验感较差。

发明内容

本发明实施例提供了一种基于数据处理的模型训练方法、装置、终端及计算机可读存储介质，可以使得训练得到的目标模型考虑回复的广度和深度，减少万能回复，从而可以提升回复的丰富度和前瞻性。

一方面，本发明实施例提供了一种基于数据处理的模型训练方法，该基于数据处理的模型训练方法包括：

基于至少一个虚拟对话系统产生的对话数据构建第一训练数据集，并根据所述第一训练数据集进行根据输入对话确定生成回复的模型训练得到初始模型以及所述初始模型的奖励函数，其中，所述初始模型的奖励函数和所述第一训练数据集用于在第一强化训练中确定所述初始模型的训练方向；

根据强化学习算法和所述第一训练数据集对所述初始模型进行第一强化训练，得到中间模型，其中，所述第一强化训练中的奖励函数采用所述初始模型的奖励函数；

基于至少一个真实对话系统产生的对话数据构建第二训练数据集，并根据所述强化学习算法和所述第二训练数据集对所述中间模型进行第二强化训练，得到目标模型，其中，所述第二强化训练中的奖励函数定义为1。

另一方面，本发明实施例提供了一种基于数据处理的模型训练装置，该基于数据处理的模型训练装置包括：

训练单元，用于基于至少一个虚拟对话系统产生的对话数据构建第一训练数据集，并根据所述第一训练数据集进行根据输入对话确定生成回复的模型训练得到初始模型以及所述初始模型的奖励函数，其中，所述初始模型的奖励函数和所述第一训练数据集用于在第一强化训练中确定所述初始模型的训练方向；

强化单元，用于根据强化学习算法和所述第一训练数据集对所述初始模型进行第一强化训练，得到中间模型，其中，所述第一强化训练中的奖励函数采用所述初始模型的奖励函数；

所述强化单元，用于基于至少一个真实对话系统产生的对话数据构建第二训练数据集，并根据所述强化学习算法和所述第二训练数据集对所述中间模型进行第二强化训练，得到目标模型，其中，所述第二强化训练中的奖励函数定义为1。

再一方面，本发明实施例提供了一种终端，该终端包括输入设备、输出设备、存储器以及处理器，所述处理器、所述输入设备、所述输出设备和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如下步骤：

再一方面，本发明实施例提供了一种计算机可读存储介质，该计算机存储介质存储有计算机程序。该计算机程序包括至少一条程序指令，该至少一条程序指令可由一处理器加载，并用于执行如下步骤：

本发明实施例在进行模型训练的过程中，可以基于至少一个虚拟对话系统产生的对话数据构建第一训练数据集，并根据第一训练数据集进行根据输入对话确定生成回复的模型训练得到初始模型以及初始模型的奖励函数；根据强化学习算法和第一训练数据集对初始模型进行第一强化训练，得到中间模型；基于至少一个真实对话系统产生的对话数据构建第二训练数据集，并根据强化学习算法和第二训练数据集对中间模型进行第二强化训练，得到目标模型。本发明实施例引入深度强化学习算法进行多次强化训练，可以使得训练得到的目标模型考虑回复的广度和深度，减少万能回复，从而可以提升回复的丰富度和前瞻性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍。

图1是本发明实施例提供的一种基于数据处理的模型训练方法的流程示意图；

图2是本发明另一实施例提供的一种基于数据处理的模型训练方法的流程示意图；

图3a是本发明实施例提供的一种目标模型的应用场景图；

图3b是本发明实施例提供的一种目标模型的应用场景图；

图4是本发明实施例提供的一种基于数据处理的模型训练装置的结构示意图；

图5是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

本发明实施例提出了一种基于数据处理的模型训练方法，通过该基于数据处理的模型训练方法可以训练得到目标模型，该目标模型是一个可生成回复语句的模型，该目标模型可以运用在终端与用户的聊天对话中，此处的终端可以包括但不限于：智能手机、膝上计算机、平板电脑、台式计算机等智能设备，以及基于聊天对话的聊天设备，例如聊天机器人等等。具体的，终端在和用户进行聊天对话的过程中，可以在用户界面获取用户输入的对话语句，然后调用目标模型根据用户输入的对话语句生成目标回复，并输出目标回复以供用户查看，从而实现终端与用户的聊天对话。

请参见图1，是本发明实施例提供的一种基于数据处理的模型训练方法的流程示意图，该基于数据处理的模型训练方法可以由上述的终端来执行。如图1所示，该基于数据处理的模型训练方法可以包括以下步骤S101-S103：

S101，基于至少一个虚拟对话系统产生的对话数据构建第一训练数据集，并根据第一训练数据集进行根据输入对话确定生成回复的模型训练得到初始模型以及初始模型的奖励函数，其中，所述初始模型的奖励函数和所述第一训练数据集用于在第一强化训练中确定所述初始模型的训练方向。

具体实施过程中，终端可以在虚拟对话系统中构建两个虚拟的代理(agents)，使得这两个虚拟的agents进行虚拟的聊天对话。获取这两个虚拟的agents之间的对话数据，并采用该对话数据构建第一训练数据集，该第一训练数据集的形式可以表示为：{P₁,Q₁,P₂,Q₂,…P_n,Q_n}。

两个虚拟的agents进行虚拟的聊天对话的过程可以如下：首先，可以任意选取一语句作为输入，将该语句输入给给第一个agent(简称P)。agent(P)在接收到该语句后，可以通过虚拟对话系统中的编码器网络把该语句编码成一个第一隐层向量，然后通过虚拟对话系统中的译码器网络根据该第一隐层向量生成回复P₁。在得到P₁之后，agent(P)可以将该P₁输出给第二个agent(简称Q)。agent(Q)在接收到P₁之后，可以把P₁和对话历史融合，通过虚拟对话系统中的编码器网络编码得到一个第二隐层向量(相当于更新了对话的状态)，然后通过虚拟对话系统中的译码器网络根据该第二隐层向量生成回复Q₁。在得到Q₁之后，agent(Q)可以将该Q₁输出给agent(P)，再由该agent(P)生成回复P₂。在得到P₂之后，agent(P)又可以将该P₂输出给agent(Q)，再由该agent(Q)生成回复Q₂。以上的对话过程不断被重复，从而可以得到多个对话数据，并采用该对话数据构建第一训练数据集。

在得到第一训练数据集之后，可以根据该第一训练数据集进行根据输入对话确定生成回复的模型训练得到初始模型以及初始模型的奖励函数，该初始模型的奖励函数由至少一个奖励维度构成，该奖励维度包括以下任一个维度：第一相似性维度、第二相似性维度、语义连贯性维度或者回复前瞻性维度。其中，第一相似度维度是指模型生成的生成回复与万能回复之间的相似性的维度；第二相似性维度是指模型当前生成的生成回复与模型上一次生成的生成回复之间的相似性的维度；语义连贯性维度是指模型生成的生成回复的语义连贯性的维度；回复前瞻性维度是指统计模型生成的生成回复引导对话轮数的数量的维度。

S102，根据强化学习算法和第一训练数据集对初始模型进行第一强化训练，得到中间模型，其中，第一强化训练中的奖励函数采用初始模型的奖励函数。

此处的强化学习算法可以包括但不限于：Policy Gradient算法、Actor Critic算法、Q-learning算法，等等。根据强化学习算法和第一训练数据集对初始模型进行第一强化训练，得到中间模型的具体实施方式可以是：采用初始模型根据第一训练数据集中的目标虚拟语句生成第二生成回复，并根据目标虚拟语句和第二生成回复计算第一强化训练中的奖励函数的值，该目标虚拟语句为第一训练数据集中的任意一个虚拟语句；将第一强化训练中的奖励函数的值代入强化学习算法中，以得到损失函数的梯度值；根据损失函数的梯度值更新初始模型的模型参数，并将模型参数更新后的初始模型作为中间模型。

在根据目标虚拟语句和第二生成回复计算第一强化训练中的奖励函数的值时，可以根据目标虚拟语句和第二生成回复分别计算第一强化学习中的奖励函数的各奖励维度下的奖励值，然后根据各奖励维度下的奖励值确定第一强化训练中的奖励函数的值。由于在强化学习中，很容易因为奖励函数的设定不当，导致模型难以被正确且合理的训练，并且若奖励函数的值太大，容易使得奖励函数产生爆炸，因此在计算得到各奖励维度下的奖励值之后，可以对各奖励维度下的奖励值进行裁剪和正则化处理，使得裁剪且正则化后的奖励值满足预设区间，例如[0,1]，从而防止奖励函数爆炸。

相应的，根据所述目标虚拟语句和所述第二生成回复计算所述第一强化训练中的奖励函数的值的具体实施方式可以是：根据目标虚拟语句和第二生成回复分别计算第一强化学习中的奖励函数的各奖励维度下的奖励值；采用裁剪函数算法(例如clip裁剪函数算法)分别对各奖励维度下的奖励值进行裁剪处理，得到各奖励维度下的裁剪后的奖励值；分别对各奖励维度下的裁剪后的奖励值进行正则化处理，使得各奖励维度下的裁剪且正则化后的奖励值满足预设区间；根据各奖励维度下的裁剪且正则化后的奖励值确定第一强化训练中的奖励函数的值。

需要说明的是，可以对初始模型进行M次的第一强化训练，M的取值可以根据实际的业务需求设置，例如M可以取值为20。

S103，基于至少一个真实对话系统产生的对话数据构建第二训练数据集，并根据强化学习算法和第二训练数据集对中间模型进行第二强化训练，得到目标模型，其中，第二强化训练中的奖励函数定义为1。

此处的真实对话系统可以是指互联网上的各大问答网站或者各大对话网站所对应的系统，可以从这些真实对话系统中提取用户输入的真实对话数据，并采用提取到的对话数据构建第二训练数据集。此处的第二训练数据集包括至少一对真实语料，每对真实语料包括一个真实语句和一个真实回复。由于第二训练数据集是根据真实对话系统中产生的对话数据构建的，因此第二训练数据集中的每一对聊天问答语料均是真实且实际存在的聊天对话语料，所谓的真实且实际存在的聊天对话语料是指由用户曾在真实对话系统中输入的语句以及该真实对话系统针对该语句所输出的标准回复所构成的语料。例如，用户曾在某真实对话系统中输入“故宫在什么地方”，此时真实对话系统针对该语句所输出的标准回复为“北京”，那么“故宫在什么地方”以及“北京”即可作为真实且实际存在的聊天对话语料。

在得到第二训练数据集之后，可以根据强化学习算法和第二训练数据集对中间模型进行第二强化训练，得到目标模型，具体的：可以采用中间模型根据第二训练数据集中的目标真实语句生成目标生成回复；根据目标生成回复和目标真实语句对应的目标真实回复计算中间模型的损失函数的损失值，并将第二强化训练中的奖励函数的值代入强化学习算法中，以得到中间模型的损失函数的梯度值；根据中间模型的损失函数的梯度值和损失值更新中间模型的模型参数，并将模型参数更新后的中间模型作为目标模型。

实践表明：奖励函数的值越大，说明生成的回复越贴近人类的真实语言。在第二强化训练过程中，引入真实对话语料，可以使得中间模型学习到真实对话语料的特征，从而可以更快更好地进行模型参数的更新，提高模型训练的速率。需要说明的是，在实际的模型训练过程中，步骤S102和步骤S103可以重复执行多个周期，每个周期可以包括M次步骤S102和N次步骤S103。其中M和N的取值均可根据实际需求设置，例如M取值20，N取值1，即执行20次步骤S102后，执行步骤S103。

本发明实施例在进行模型训练的过程中，可以基于至少一个虚拟对话系统产生的对话数据构建第一训练数据集，并根据第一训练数据集进行模型训练得到初始模型以及初始模型的奖励函数；根据强化学习算法和第一训练数据集对初始模型进行第一强化训练，得到中间模型；基于至少一个真实对话系统产生的对话数据构建第二训练数据集，并根据强化学习算法和第二训练数据集对中间模型进行第二强化训练，得到目标模型。本发明实施例引入深度强化学习算法进行多次强化训练，可以使得训练得到的目标模型考虑回复的广度和深度，减少万能回复，从而可以提升回复的丰富度和前瞻性。

请参见图2，是本发明实施例提供的另一种基于数据处理的模型训练方法的流程示意图，该基于数据处理的模型训练方法可以由上述终端来执行。如图2所示，该基于数据处理的模型训练方法可以包括以下步骤S201-S205：

S201，基于至少一个虚拟对话系统产生的对话数据构建第一训练数据集，并根据第一训练数据集进行根据输入对话确定生成回复的模型训练得到初始模型以及初始模型的奖励函数，其中，所述初始模型的奖励函数和所述第一训练数据集用于在第一强化训练中确定初始模型的训练方向。

此处的第一训练数据集包括至少一对对话语料，各对话语料按着预设顺序排列，每对对话语料包括一个虚拟语句和一个虚拟回复。根据第一训练数据集进行根据输入对话确定生成回复的模型训练得到初始模型的具体实施方式可以包括如下步骤s11-s12：

s11，采用第一训练数据集对预设的原始模型进行根据输入对话确定生成回复的模型训练，得到训练后的模型。

此处的预设的原始模型包括编码器模型和解码器模型，该编码器模型和该解码器模型为双向网络模型，例如可以均选用Bi-GRU双向GRU模型作为编码器模型和解码器模型，此处的Bi-GRU双向GRU模型是一种可以识别倒装句结构的模型。由于用户在输入对话语句时，可能使得该对话语句为倒装句结构，即与正常的语句结构不一样，例如用户输入的对话语句为“去哪里今天”，而正常的语句结构为“今天去哪里”，采用Bi-GRU双向GRU模型可以识别出倒装句结构的对话语句，从而可以丰富训练后的模型的功能，进而可以提高最终训练得到的目标模型的鲁棒性。

在一种实施方式中，原始模型的编码器模型和解码器模型的架构不一致，即编码器模型和解码器模型中的模型参数不一致。由于编码器模型和解码器模型的模型参数不一致，因此在后续对原始模型的训练过程中所需训练并更新的模型参数更多，从而可以提高最终训练得到的目标模型的鲁棒性以及性能，使得训练得到的目标模型所生成的目标回复更加贴近于人类的语言，更具真实性。

在采用第一训练数据集对预设的原始模型进行根据输入对话确定生成回复的模型训练，得到训练后的模型时，可以将第一训练数据集输入至原始模型中。原始模型在接收到该第一训练数据集之后，原始模型中的编码器模型可以将第一训练数据集中的各对对话语料中的虚拟语句编码成特征向量，然后由解码器模型根据该特征向量进行解码处理，以确定该虚拟语句所对应的相应回复。然后判断该相应回复和第一训练数据集中的该虚拟语句所对应的虚拟回复是否一致：若不一致，则不断更新原始模型中的编码器模型和解码器模型的模型参数，直至更新后的原始模型所确定出的虚拟语句所对应的相应回复可以与第一训练数据集中的该虚拟语句所对应的虚拟回复一致，此时可将更新后的原始模型作为训练后的模型；若一致，则说明该原始模型可以准确地确定出该虚拟语句对应的相应回复，此时可直接将该原始模型作为训练后的模型。

s12，根据训练后的模型和第一训练数据集，构建初始模型的模型框架，以确定初始模型，其中，初始模型的模型框架由环境、行为、状态空间、初始模型的奖励函数以及策略构成。

具体的，可以将训练后的模型定义为初始模型的模型框架的环境，并根据训练后的模型生成的各生成回复所对应的概率分布确定初始模型的模型框架的策略，此处的策略为将概率分布中概率值最大的生成回复作为待输出的目标回复的策略。其中，所谓的概率分布是指生成的各生成回复分别在由训练后的模型生成的所有生成回复构成的生成回复集合中的概率值的分布；例如，训练后的模型生成了3个生成回复，分别是回复a(概率为0.25)、回复b(概率为0.5)以及回复c(概率为0.25)，那么概率分布为{0.25，0.5，0.25}。

采用训练后的模型根据第一训练数据集中的目标虚拟语句生成第一生成回复，将第一生成回复定义为初始模型的模型框架的行为，该目标虚拟语句为第一训练数据集中的任意一个虚拟语句；从第一训练数据集中获取目标对话语料，并将目标对话语料定义为初始模型的模型框架的状态空间，该目标对话语料为第一训练数据集中位于目标虚拟语句之前，且紧邻目标虚拟语句的对话语料。例如，目标虚拟语句为Pi，那么目标对话语料为{P_i-1，Q_i-1}。

由前述可知，初始模型的奖励函数可以由至少一个奖励维度构成，此处的奖励维度可以包括以下任一个维度：第一相似性维度、第二相似性维度、语义连贯性维度或回复前瞻性维度。本发明实施例以初始模型的奖励函数(rewards)由以上四个奖励维度构成为例，那么可以将初始模型的奖励函数设计为：rewards＝w1*r1+w2*r2+w3*r3+w4*r4；其中，w1、w2、w3以及w4均为权重，均可以设定为0.25；r1可用于表示第一相似性维度下的奖励值，r2可用于表示第二相似性维度下的奖励值，r3可用于表示语义连贯性维度下的奖励值，r4可用于表示回复前瞻性维度下的奖励值。

本发明实施例在初始模型的奖励函数中引入r3和r4，可以使得训练得到的中间模型所生成的回复的语义连贯性以及前瞻性更好，从而可以促进更多轮的对话，提升对话效果。需要说明的是，在其他实施例，初始模型的奖励函数也可以由以上的其中两个奖励维度构成，例如rewards＝w3*r3+w4*r4，或者rewards＝w2*r2+w4*r4；也可由以上的其中三个奖励维度构成，例如rewards＝w1*r1+w3*r3+w4*r4，等等。

S202，根据强化学习算法和第一训练数据集对初始模型进行第一强化训练，得到中间模型，其中，第一强化训练中的奖励函数采用初始模型的奖励函数。

具体的，可以采用初始模型根据第一训练数据集中的目标虚拟语句生成第二生成回复，并根据目标虚拟语句和第二生成回复计算第一强化训练中的奖励函数的值，该目标虚拟语句为第一训练数据集中的任意一个虚拟语句；将第一强化训练中的奖励函数的值代入强化学习算法中，以得到损失函数的梯度值；根据损失函数的梯度值更新初始模型的模型参数，并将模型参数更新后的初始模型作为中间模型。

在根据目标虚拟语句和第二生成回复计算第一强化训练中的奖励函数的值时，可以先根据目标虚拟语句和第二生成回复分别计算第一强化学习中的奖励函数的各奖励维度下的奖励值。具体的，在计算第一相似性维度下的奖励值(r1)时，可以获取预设的万能回复集合，该万能回复集合是根据预先收集常用的万能回复构建得到的；然后分别计算第二生成回复与万能回复集合中的各个万能回复之间的相似性，并将计算得到的各个相似性的均值作为r1。

在计算第二相似性维度下的奖励值(r2)时，可以将当前的第二生成回复用向量a表示，以及将初始模型上一次生成的生成回复用向量b表示；然后采用相似性算法计算向量a和向量b之间的相似性，将计算得到的相似性作为r2。此处的相似性算法包括但不限于：余弦相似度算法、欧式距离算法或者汉明距离算法，等等。

在计算语义连贯性维度下的奖励值(r3)时，可以采用互信息指标算法计算目标虚拟语句和第二生成回复之间的互信息指标。即可以将目标虚拟语句和第二生成回复代入该互信息指标算法中，将互信息指标算法计算得到的值作为r3。

在计算回复前瞻性维度下的奖励值(r4)时，可以基于monte carlo算法(MonteCarlo method)，随机选用一个对话生成模型对该第二生成回复进行T次对话模拟，每次对话模拟均可得到一个对话轮数的数量，将T次多轮模拟的对话轮数的数量的均值作为r4。例如，随机选用一个对话生成模型对第二生成回复进行了3次对话模拟，第一次对话模拟总共进行了3轮对话便出现了万能回复，第二次对话模拟总共进行了4轮对话便出现了万能回复，第三次对话模拟总共进行了2轮对话便出现了万能回复；那么这3轮对话模型的对话轮数的数量依次为：3、4、2；那么r4＝(3+4+2)/3＝3。

在得到各奖励维度下的奖励值后，可以根据各奖励维度下的奖励值确定第一强化训练中的奖励函数的值。具体的，可以将各奖励维度下的奖励值依次代入式“rewards＝w1*r1+w2*r2+w3*r3+w4*r4”中，计算得到奖励函数的值。

S203，基于至少一个真实对话系统产生的对话数据构建第二训练数据集，并根据强化学习算法和第二训练数据集对中间模型进行第二强化训练，得到目标模型，其中，第二强化训练中的奖励函数定义为1。

需要说明的是，步骤S203可以参见上述发明实施例的步骤S103，本发明实施例不再赘述。

S204，若检测到用户对话请求，则获取用户输入的对话语句。

在一种实施方式中，若终端检测到用户打开终端的聊天对话功能的操作时，则可以认为是检测到了用户的对话请求。再一种实施方式中，若终端检测到用户在聊天对话界面进行语句输入的操作，则可以认为是检测到了用户的对话请求，此处的语句输入的操作可以包括但不限于：语音操作、手写操作、键盘操作，等等。

在检测到用户的对话请求之后，可以获取用户输入的对话语句。具体的终端在获取用户输入的对话语句时，可以获取用户的语音信息，从该语音信息中提取出对话语句；例如，用户对着终端说出“你好，你知道电脑的组件有哪些吗？”，终端可以获取到该语音信息，并从该语音信息中提取出对话语句为“电脑的组件有哪些”。在一种实施方式中，终端也可以获取用户输入的文本信息，从该文本信息中提取出对话语句；例如，终端可以给用户提供一个对话界面，以使得用户可以在该对话界面中输入文本信息“你好，你知道电脑的组件有哪些吗？”，终端可以检测到用户的输入操作，并获取用户输入的文本信息，然后从该文本信息中提取出对话语句为“电脑的组件有哪些”。

S205，调用目标模型根据对话语句生成目标回复，并输出目标回复以供用户查看。

在获取到用户输入的对话语句之后，可以调用目标模型根据该对话语句生成目标回复，并输出该目标回复。其中，输出目标回复的方式可以是：语音输出、文本输出，等等。

例如，用户可以打开与终端进行聊天对话的用户界面，如图3a所示。然后用户可以在该用户界面输入对话语句，如图3b所示。终端检测到用户的输入操作之后，可以认为是检测到了用户的对话请求，此时可以获取用户输入的对话语句，并调用目标模型根据该对话语句生成目标回复。最后可以在用户界面中输出该目标回复，以实现和用户的聊天对话，如图3b所示。

请参见图4，是本发明实施例提供的一种基于数据处理的模型训练装置的结构示意图。如图4所示，本发明实施例中的装置可以包括：

训练单元101，用于基于至少一个虚拟对话系统产生的对话数据构建第一训练数据集，并根据所述第一训练数据集进行根据输入对话确定生成回复的模型训练得到初始模型以及所述初始模型的奖励函数，其中，所述初始模型的奖励函数和所述第一训练数据集用于在第一强化训练中确定所述初始模型的训练方向；

强化单元102，用于根据强化学习算法和所述第一训练数据集对所述初始模型进行所述第一强化训练，得到中间模型，其中，所述第一强化训练中的奖励函数采用所述初始模型的奖励函数；

所述强化单元102，用于基于至少一个真实对话系统产生的对话数据构建第二训练数据集，并根据所述强化学习算法和所述第二训练数据集对所述中间模型进行第二强化训练，得到目标模型，其中，所述第二强化训练中的奖励函数定义为1。

在一种实施方式中，所述初始模型的奖励函数由至少一个奖励维度构成，所述奖励维度包括以下任一个维度：第一相似性维度、第二相似性维度、语义连贯性维度或者回复前瞻性维度；

其中，所述第一相似度维度是指模型生成的生成回复与万能回复之间的相似性的维度；所述第二相似性维度是指模型当前生成的生成回复与模型上一次生成的生成回复之间的相似性的维度；所述语义连贯性维度是指模型生成的生成回复的语义连贯性的维度；所述回复前瞻性维度是指统计模型生成的生成回复引导对话轮数的数量的维度。

再一种实施方式中，所述训练单元101在用于根据所述第一训练数据集进行根据输入对话确定生成回复的模型训练得到初始模型时，具体用于：

采用所述第一训练数据集对预设的原始模型进行根据输入对话确定生成回复的模型训练，得到训练后的模型，所述预设的原始模型包括编码器模型和解码器模型，所述编码器模型和所述解码器模型为双向网络模型；

根据所述训练后的模型和所述第一训练数据集，构建初始模型的模型框架，以确定所述初始模型，其中，所述初始模型的模型框架由环境、行为、状态空间、所述初始模型的奖励函数以及策略构成。

再一种实施方式中，所述第一训练数据集包括至少一对对话语料，各对话语料按着预设顺序排列，每对对话语料包括一个虚拟语句和一个虚拟回复；所述训练单元101在用于根据所述训练后的模型和所述第一训练数据集，构建初始模型的模型框架时，具体用于：

将所述训练后的模型定义为所述初始模型的模型框架的环境，并根据所述训练后的模型生成的各生成回复所对应的概率分布确定所述初始模型的模型框架的策略，所述策略为将所述概率分布中概率值最大的生成回复作为待输出的目标回复的策略；

采用所述训练后的模型根据所述第一训练数据集中的目标虚拟语句生成第一生成回复，将所述第一生成回复定义为所述初始模型的模型框架的行为，所述目标虚拟语句为所述第一训练数据集中的任意一个虚拟语句；

从所述第一训练数据集中获取目标对话语料，并将所述目标对话语料定义为所述初始模型的模型框架的状态空间，所述目标对话语料为所述第一训练数据集中位于所述目标虚拟语句之前，且紧邻所述目标虚拟语句的对话语料。

再一种实施方式中，所述强化单元102在用于根据强化学习算法和所述第一训练数据集对所述初始模型进行所述第一强化训练，得到中间模型时，具体用于：

采用所述初始模型根据所述第一训练数据集中的目标虚拟语句生成第二生成回复，并根据所述目标虚拟语句和所述第二生成回复计算所述第一强化训练中的奖励函数的值，所述目标虚拟语句为所述第一训练数据集中的任意一个虚拟语句；

将所述第一强化训练中的奖励函数的值代入强化学习算法中，以得到损失函数的梯度值；

根据所述损失函数的梯度值更新所述初始模型的模型参数，并将模型参数更新后的初始模型作为中间模型。

再一种实施方式中，所述强化单元102在用于根据所述目标虚拟语句和所述第二生成回复计算所述第一强化训练中的奖励函数的值时，具体用于：

根据所述目标虚拟语句和所述第二生成回复分别计算所述第一强化学习中的奖励函数的各奖励维度下的奖励值；

采用裁剪函数算法分别对所述各奖励维度下的奖励值进行裁剪处理，得到所述各奖励维度下的裁剪后的奖励值；

分别对所述各奖励维度下的裁剪后的奖励值进行正则化处理，使得所述各奖励维度下的裁剪且正则化后的奖励值满足预设区间；

根据所述各奖励维度下的裁剪且正则化后的奖励值确定所述第一强化训练中的奖励函数的值。

再一种实施方式中，所述装置可以包括处理单元103，用于：

若检测到用户的对话请求，则获取所述用户输入的对话语句；

调用所述目标模型根据所述对话语句生成目标回复，并输出所述目标回复以供所述用户查看。

基于上述所描述的基于数据处理的模型训练方法以及装置，本发明实施例还提出了一种终端，该终端可以用于实现上述的基于数据处理的模型训练方法。请参见图5，是本发明实施例提供的一种终端的结构示意图。如图5所示，该终端包括输入设备201、输出设备202、存储器203以及处理器204，所述输入设备201、所述输出设备202、所述存储器203可以和所述处理器204相互连接，其中，所述存储器203可以用于存储计算机程序，所述计算机程序包括程序指令，该计算机程序包括程序指令。再一种实施方式中，输入设备201、输出设备202、存储器203以及处理器204可通过总线的方式相互连接。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，该程序可存储于一计算机可读存储介质中，该程序包括至少一条程序指令，该至少一条程序指令是由该处理器204加载，并用于执行如下步骤：

根据强化学习算法和所述第一训练数据集对所述初始模型进行所述第一强化训练，得到中间模型，其中，所述第一强化训练中的奖励函数采用所述初始模型的奖励函数；

在一种实施方式中，在根据所述第一训练数据集进行根据输入对话确定生成回复的模型训练得到初始模型时，该至少一条程序指令可由处理器204加载并用于执行：

再一种实施方式中，所述第一训练数据集包括至少一对对话语料，各对话语料按着预设顺序排列，每对对话语料包括一个虚拟语句和一个虚拟回复；在根据所述训练后的模型和所述第一训练数据集，构建初始模型的模型框架时，该至少一条程序指令可由处理器204加载并用于执行：

再一种实施方式中，在根据强化学习算法和所述第一训练数据集对所述初始模型进行所述第一强化训练，得到中间模型时，该至少一条程序指令可由处理器204加载并用于执行：

再一种实施方式中，在根据所述目标虚拟语句和所述第二生成回复计算所述第一强化训练中的奖励函数的值时，该至少一条程序指令可由处理器204加载并用于执行：

再一种实施方式中，该至少一条程序指令还可由处理器204加载并用于执行：

本发明实施例还提供了一种计算机存储介质，所述该计算机存储介质存储有计算机程序。该计算机程序包括至少一条程序指令，该至少一条程序指令可由一处理器加载，并用于执行上述所描述的基于数据处理的模型训练方法。

该计算机存储介质是一种记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括服务器中的内置存储介质，当然也可以包括服务器所支持的扩展存储介质。在一个实施例中，该计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或者随机存储记忆体(Random Access Memory，RAM)等等。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于申请所涵盖的范围。

Claims

1.一种基于数据处理的模型训练方法，其特征在于，包括：

基于至少一个虚拟对话系统产生的对话数据构建第一训练数据集，所述第一训练数据集包括至少一对对话语料，各对话语料按着预设顺序排列，每对对话语料包括一个虚拟语句和一个虚拟回复；

采用所述第一训练数据集对预设的原始模型进行根据输入对话确定生成回复的模型训练，得到训练后的模型；

根据所述训练后的模型和所述第一训练数据集，构建初始模型的模型框架，以确定所述初始模型；所述模型框架由环境、行为、状态空间、所述初始模型的奖励函数以及策略构成；其中，所述环境为所述训练后的模型，所述行为为所述训练后的模型根据所述第一训练数据集中的目标虚拟语句生成的第一生成回复，所述状态空间为所述第一训练数据集中的目标对话预料，所述策略用于指示输出所述训练后的模型生成的概率值最大的生成回复，所述初始模型的奖励函数和所述第一训练数据集用于在第一强化训练中确定所述初始模型的训练方向；

2.如权利要求1所述的方法，其特征在于，所述初始模型的奖励函数由至少一个奖励维度构成，所述奖励维度包括以下任一个维度：第一相似性维度、第二相似性维度、语义连贯性维度或者回复前瞻性维度；

3.如权利要求1或2所述的方法，其特征在于，所述预设的原始模型包括编码器模型和解码器模型，所述编码器模型和所述解码器模型为双向网络模型。

4.如权利要求3所述的方法，其特征在于，所述根据所述训练后的模型和所述第一训练数据集，构建初始模型的模型框架，包括：

5.如权利要求2所述的方法，其特征在于，所述根据强化学习算法和所述第一训练数据集对所述初始模型进行所述第一强化训练，得到中间模型，包括：

6.如权利要求5所述的方法，其特征在于，所述根据所述目标虚拟语句和所述第二生成回复计算所述第一强化训练中的奖励函数的值，包括：

根据所述目标虚拟语句和所述第二生成回复分别计算所述第一强化训练中的奖励函数的各奖励维度下的奖励值；

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种基于数据处理的模型训练装置，其特征在于，包括：

训练单元，用于基于至少一个虚拟对话系统产生的对话数据构建第一训练数据集，所述第一训练数据集包括至少一对对话语料，各对话语料按着预设顺序排列，每对对话语料包括一个虚拟语句和一个虚拟回复；采用所述第一训练数据集对预设的原始模型进行根据输入对话确定生成回复的模型训练，得到训练后的模型；根据所述训练后的模型和所述第一训练数据集，构建初始模型的模型框架，以确定所述初始模型；所述模型框架由环境、行为、状态空间、所述初始模型的奖励函数以及策略构成；其中，所述环境为所述训练后的模型，所述行为为所述训练后的模型根据所述第一训练数据集中的目标虚拟语句生成的第一生成回复，所述状态空间为所述第一训练数据集中的目标对话预料，所述策略用于指示输出所述训练后的模型生成的概率值最大的生成回复，所述初始模型的奖励函数和所述第一训练数据集用于在第一强化训练中确定所述初始模型的训练方向；

强化单元，用于根据强化学习算法和所述第一训练数据集对所述初始模型进行所述第一强化训练，得到中间模型，其中，所述第一强化训练中的奖励函数采用所述初始模型的奖励函数；

9.一种终端，其特征在于，包括输入设备、输出设备、存储器以及处理器，所述处理器、所述输入设备、所述输出设备和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。