CN110188331A

CN110188331A - 模型训练方法、对话系统评价方法、装置、设备及存储介质

Info

Publication number: CN110188331A
Application number: CN201910476873.2A
Authority: CN
Inventors: 涂润
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-08-30
Anticipated expiration: 2039-06-03
Also published as: CN110188331B

Abstract

本申请实施例公开了一种模型训练方法、装置及设备，其中，该方法包括：获取预训练的对话生成模型，该对话生成模型包括编码器和解码器；构建对话系统评价模型，该对话系统评价模型以问题和回复作为输入，以回复对应的评分作为输出；根据对话生成模型中编码器的参数对对话系统评价模型中编码器进行参数初始化；根据第一训练样本集对初始化后的对话系统评价模型进行训练，得到满足训练结束条件的对话系统评价模型，其中，第一训练样本集中每一训练样本包括问题、回复以及所述回复对应的标注评分。经该方法训练得到的对话系统评价模型能够从语义相关性的角度评价对话系统的回复质量，提高对于对话回复评价的可靠性。

Description

模型训练方法、对话系统评价方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种模型训练方法、对话系统评价方法、装置、设备及存储介质。

背景技术

聊天机器人作为人工智能技术的重要应用，已经广泛应用于各类具体场景，比如客服、私人助理、知识问答、陪聊等。目前，聊天机器人按照用途可分为任务型和非任务型的聊天机器人，不同用途的聊天机器人的实现技术不太相同。

其中，非任务型聊天机器人通过非任务型对话系统与用户进行交互，关于非任务型对话系统的回复质量的评价，通常有两种常用的评价方法，一种是人工评价方法，其需要大量人力对系统回复质量进行人工评价，人工评价可靠性高，但人工评价的效率高，尤其是随着数据量的爆炸式增长，则系统评价的人工成本和时间成本也随之增长，难以满足实际业务需求。

另一种是采用BELU(Bilingual Evaluation understudy)值等技术指标进行自动评价，而BELU值的计算是通过比较系统的回复与已有(人工)回复的重合度，具体是分别比较两类回复之间任一单位片段(n-gram)的重合度，其值越大，说明两类回复的重合度越高、回复质量越好，其值越小，说明两类回复的重合度越低、回复质量越差，单使用BELU值只能从字面上评估系统回复与已有(人工)回复的相似性，即仅具备语句字面相关性的表达能力，导致利用当前技术指标来评价系统的回复质量不够准确。

发明内容

本申请实施例提供了一种模型训练方法，用于训练对话系统评价模型，经该模型训练方法训练得到的对话系统评价模型能够从语义相关性的角度评价对话系统的回复质量，提高回复评价的可靠性。

有鉴于此，本申请第一方面提供了一种模型训练方法，包括：

获取预训练的对话生成模型，所述对话生成模型包括编码器和解码器；

构建对话系统评价模型，所述对话系统评价模型以问题和回复作为两路输入，以回复对应的评分作为一路输出；

根据所述对话生成模型中编码器的参数对所述对话系统评价模型中编码器进行参数初始化；

根据第一训练样本集对初始化后的所述对话系统评价模型进行训练，得到满足训练结束条件的所述对话系统评价模型，其中，所述第一训练样本集中每一训练样本包括问题、回复以及所述回复对应的标注评分。

本申请第二方面提供了一种对话系统评价方法，包括：

获取对话系统中的问答对，所述问答对包括用户提问的问题和对话系统的回复；

以所述问答对中的问题和回复作为预训练的对话系统评价模型的两路输入，获得所述对话系统评价模型输出的与所述问答对对应的预测评分。

本申请第三方面提供了一种模型训练装置，包括：

第一获取模块，用于获取预训练的对话生成模型，所述对话生成模型包括编码器和解码器；

第一构建模块，用于构建对话系统评价模型，所述对话系统评价模型以问题和回复作为两路输入，以回复对应的评分作为一路输出；

初始化模块，用于根据所述对话生成模型中编码器的参数对所述对话系统评价模型中编码器进行参数初始化；

训练模块，用于根据第一训练样本集对初始化后的所述对话系统评价模型进行训练，得到满足训练结束条件的所述对话系统评价模型，其中，所述第一训练样本集中每一训练样本包括问题、回复以及所述回复对应的标注评分。

本申请第四方面提供了一种对话系统评价装置，包括：

获取模块，用于获取对话系统中的问答对，所述问答对包括用户提问的问题和对话系统的回复；

评价模块，用于以所述问答对中的问题和回复作为预训练的对话系统评价模型的两路输入，获得所述对话系统评价模型输出的与所述问答对对应的预测评分。

本申请第五方面提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行如上述第一方面所述的模型训练方法的步骤或者第二方面所述的对话系统评价方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的模型训练方法的步骤或者第二方面所述的对话系统评价方法的步骤。

本申请第五方面提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述第一方面所述的模型训练方法的步骤或者第二方面所述的对话系统评价方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

在本申请实施例提供的模型训练方法中，先获取预训练的对话生成模型，并且构建用于评价对话回复质量的对话系统评价模型，该对话系统评价模型以问题和回复作为输入，以该回复对应的评分作为输出；然后，根据对话生成模型中编码器的参数，对对话系统评价模型中编码器进行参数初始化；进而，利用第一训练样本集对参数初始化后的对话系统评价模型进行训练，直至获得满足训练结束条件的对话系统评价模型，第一训练样本集中每一训练样本包括问题、回复以及该回复对应的标注评分。上述模型训练方法在对对话系统评价模型进行训练之前，先通过迁移学习的方式，将对话生成模型的编码器部分迁移至对话系统评价模型中，使得对话系统评价模型初步具备识别语义相关性的功能，进而，利用少量有标签的训练样本(即包括问题、回复以及回复对应的标注评分的训练样本)对该对话系统评价模型进行训练，提高对话系统评价模型的模型性能，使得该对话系统评价模型能够从语义相关性的角度，对对话系统针对问题做出的回复进行评分，相比仅通过文字重合度对对话回复进行评分的方式，本申请中的对话系统评价模型能够从语义相关性的角度对对话回复进行评分，极大程度上提高了对于对话回复评价的可靠性。

附图说明

图1为本申请实施例提供的模型训练方法的架构示意图；

图2为本申请实施例提供的模型训练方法的流程示意图

图3为本申请实施例提供的对话生成模型的结构示意图；

图4为本申请实施例提供的对话系统评价模型的结构示意图；

图5为本申请实施例提供的对话系统评价方法的流程示意图；

图6为本申请实施例提供的模型训练方法及对话系统评价方法的应用场景示意图；

图7为本申请实施例提供的第一种模型训练装置的结构示意图；

图8为本申请实施例提供的第二种模型训练装置的结构示意图；

图9为本申请实施例提供的第三种模型训练装置的结构示意图；

图10为本申请实施例提供的第四种模型训练装置的结构示意图；

图11为本申请实施例提供的第一种对话系统评价装置的结构示意图；

图12为本申请实施例提供的第二种对话系统评价装置的结构示意图；

图13为本申请实施例提供的终端设备的结构示意图；

图14为本申请实施例提供的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中，通常采用人工评价的方法或者依据BELU值等技术指标进行评价的方法，对对话系统做出的对话回复的质量进行评价。但是，人工评价的方法所需耗费的人工成本和时间成本极高，通常难以满足实际业务需求；而依据BELU值等技术指标评价对话回复质量的方法，在评价对话系统回复质量时仅关注系统回复与标准回复(人工标注的回复)之间的文字重合度，在很多情况下，利用文字重合度的高低单纯地表征对话回复质量的好坏是不合理的，例如，“你真的很聪明”和“你真的很不聪明”之间的文字重合度很高，但是二者却表达了完全相反的意思，可见，这种依据BELU值等技术指标评价对话回复质量的方法经常无法准确地评价对话回复的质量。

针对上述相关技术存在的问题，本申请实施例提供了一种模型训练方法，该方法在训练对话系统评价模型之前，先通过迁移学习的方式，将对话生成模型的编码器部分迁移至对话系统评价模型中，使得该对话系统评价模型初步具备识别语义相关性的功能；在此基础上，进一步利用少量包括有问题、回复以及回复对应的标注评分的训练样本，对该对话系统评价模型进行训练，提高该对话系统评价模型识别语义相关性的性能，使得该对话系统评价模型能够从语义相关性的角度，对对话系统针对问题做出的回复进行评分，相比人工评价的方法和依据BELU值等技术指标进行评价的方法，采用经上述模型训练方法训练得到的对话系统评价模型对对话回复进行评价，既能够提高对于对话回复的评价效率，减少人工成本和时间成本，又能够保证对于对话回复质量评价的准确性和可靠性。

基于上述本申请实施例提出的对话系统评价模型，本申请还提供了一种适用于该对话系统评价模型的对话系统评价方法。具体的，先获取对话系统中的问答对，该问答对中包括用户提出的问题以及对话系统针对该问题作出的回复；然后，将该问答对中的问题和回复分别输入对话系统评价模型中的两路输入通道，经该对话系统评价模型分析处理后，获得该对话系统评价模型输出的与该问答对对应的预测评分。如此，利用该对话系统评价模型对问答对中的问题与回复之间的语义相关度进行评价，并基于此确定回复对应的评分，保证对于对话系统回复功能的评价更为准确可靠。

应理解，本申请实施例提供的模型训练方法和对话系统评价方法通常应用于具备数据分析处理能力的设备，该设备具体可以为终端设备或者服务器；其中，终端设备具体可以为计算机、个人数字助理(Personal Digital Assitant，PDA)、平板电脑、智能手机等；服务器具体可以应用服务器，也可以为Web服务器，在实际部署时，该服务器可以为独立服务器，也可以为集群服务器。

为了便于理解本申请实施例提供的技术方案，下面对本申请实施例提供的模型训练方法的实现架构进行介绍。

参见图1，图1为本申请实施例提供的模型训练方法的实现架构示意图。如图1所示，在对对话系统评价模型120进行训练之前，需要先获取预训练的对话生成模型110，该对话生成模型110中包括编码器111和解码器112。该对话生成模型110通常是利用无监督训练算法，采用大量语料样本训练得到的神经网络模型，其具备根据输入的句子，预测与该句子语义相关的下一个句子的功能。

对话生成模型110也可以称为对话模型，在本申请中该对话生成模型110可以是开放域的对话生成模型，也可以是特定领域的对话生成模型；对话生成模型110用于通过神经网络获得符合自然语言的对话表示和生成的方式，在应用中，该对话生成模型110的输入为语句，输出为与该输入语句语义相关的回答，以生成对话。对话生成模型110可以采用序列到序列(Sequence to Sequence，seq2seq)框架，即序列到序列模型Seq2Seq模型，该Seq2Seq模型可以直接进行端到端的训练，只要给定足够的语料，Seq2Seq模型就可以从这些语料当中自己学习符合自然语言的对话表示和生成的方式，该Seq2Seq模型在应用中使用神经网络将一个序列映射到另一个序列。

构建对话系统评价模型120，该对话系统评价模型120以用户提出的问题和对话系统针对该问题作出的回复作为输入，即该对话系统评价模型120包括两路输入，一路为问题，另一路为对话系统针对该问题的回复；该对话系统评价模型120以回复对应的评分作为输出。

进而，利用对话生成模型110中编码器111的参数，对对话系统评价模型120中编码器121的参数进行初始化，即通过迁移学习的方式，将对话生成模型110中编码器111的参数赋值给对话系统评价模型120中的编码器121，从而使得该对话系统评价模型120初步具备识别语义相关性的能力。

完成对于对话系统评价模型120中编码器121的参数初始化后，利用第一训练样本集对该对话系统评价模型120进行训练，以获得满足训练结束条件的对话系统评价模型120，该第一训练样本集中的每一训练样本包括问题、回复以及该回复对应的评分。由于在对对话系统评价模型120进行训练之前，已经利用对话生成模型110中编码器111的参数对对话系统评价模型120中编码器121的参数进行了初始化，使得该对话系统评价模型120初步具备了语义相关性的识别功能，因此，在对对话系统评价模型120进行训练时，仅利用少量的训练样本对该对话系统评价模型120进行训练，即可使得该对话系统评价模型120能够从语义相关性的角度，对问题对应的回复进行准确地评价。

应理解，上述图1所示的模型训练方法的实现架构仅为一种示例，在实际应用中，对话生成模型110中除了编码器和解码器外还可以包含其他结构，对话系统评价模型120中除了编码器外还可以包含其他结构，在此不对对话生成模型110和对话系统评价模型120的具体结构做任何限定。

下面通过实施例对本申请提供的模型训练方法进行介绍。

参见图2，图2为本申请实施例提供的模型训练方法的流程示意图。为了便于描述，下述实施例以服务器作为执行主体进行描述，应理解，该模型训练方法的执行主体并不仅限于服务器，还可以为终端设备等其他具备数据分析处理能力的设备。如图2所示，该模型训练方法包括以下步骤：

步骤201：获取预训练的对话生成模型，所述对话生成模型包括编码器和解码器。

服务器在对对话系统评价模型进行训练之前，需要先获取预训练的对话生成模型，该对话生成模型通常包括编码器和解码器，其中，对话生成模型中编码器的参数后续可以作为初始化对话系统评价模型中编码器参数的依据。

上述对话生成模型具备根据输入的句子预测与该句子语义相关的下一个句子的能力，其输入的句子序列与输出的句子序列的长度可以相等，也可以不等。对话生成模型至少包括两个循环神经网络(Recurrent Neural Network，RNN)，一个RNN作为编码器(encoder)，负责将输入序列压缩成指定长度的向量，并将该向量作为输入序列对应的语义特征向量，另一个RNN作为解码器(decoder)，负责根据编码得到的语义特征向量生成指定的输出序列。

需要说明的是，在实际应用中，训练对话生成模型的执行主体与训练对话系统评价模型的执行主体可以相同，即可以利用同一设备(如服务器、终端设备等)完成对于对话生成模型的训练，以及对于对话系统评价模型的训练。当然，训练对话生成模型的执行主体与训练对话系统评价模型的执行主体也可以不同，即可以先通过某个设备利用相关训练样本集完成对于对话生成模型的训练，进而，在需要训练对话系统评价模型时，用于训练对话系统评价模型的设备可以从用于训练对话生成模型的设备处，获取其训练得到的对话生成模型。在此不对用于训练对话生成模型的执行主体做任何限定。

为了便于进一步了解本申请中的对话生成模型，下面以服务器作为执行主体为例，对对话生成模型的训练方法进行介绍。

在一种可能的实现方式中，可以基于分层神经网络(Hierarchical RecurrentEncoder-Decoder，HRED)模型训练本申请实施例中的对话生成模型。具体的，可以先构建以问题作为输入、以回复作为输出的HRED模型，并且获取包括大量语料的第二训练样本集；进而，通过无监督训练算法，根据第二训练样本集中的训练样本对该HRED模型进行训练，以得到参数处于收敛态的HRED模型作为本申请实施例中的对话生成模型。

HRED模型使用分层的seq2seq模型构造多轮对话，encoder RNN用于针对输入句子编码其句子层面的信息，并且将最后一个时刻的隐层向量确定为输入句子的编码向量，作为下一层RNN的输入向量。中间层的上下文(context)RNN用于编码整个对话的状态、意图等对话层面的信息，中间层每个时刻输入encoder RNN输出的编码向量，以使context RNN的隐藏层向量可以记住之前的对话信息，形成上下文向量。最终，将该上下文向量作为decoder RNN的输入向量，使得解码过程能够同时结合句子层面信息与对话层面信息。

需要说明的是，在编码和解码阶段，处理每个句子的RNN结构完全相同而且共享参数，以生成一般化的语言模型；并且，在解码阶段，每个时刻均会将context RNN的输出与该时刻的输入并联一起作为输入，以保证每个解码时刻均可以引入上下文向量。

具体训练该HRED模型时，服务器需要先构建以问题作为输入，以回复作为输出的HRED模型。根据以该HRED模型作为初始化基础的对话系统评价模型所适用的应用场景获取相关语料，即获取在该应用场景内产生的语料组成第二训练样本集。进而，采用无监督训练算法，根据该第二训练样本集对HRED模型进行反复迭代训练，直至该HRED模型的参数处于收敛态为止，最终，将该参数处于收敛态的HRED模型作为本申请实施例中的对话生成模型。

应理解，在实际应用中，可以先构建HRED模型，后获取第二训练样本集，也可以先获取第二训练样本集，后构建HRED模型，还可以同时执行构建HRED模型和获取第二训练样本集的操作，在此不对构建HRED模型和获取第二训练样本集的执行顺序做任何限定。

在另一种可能的实现方式中，可以基于用于生成对话的分层潜在变量编解码器(Variable Hierarchical Recurrent Encoder-Decoder，VHRED)模型训练本申请实施例中的对话生成模型。具体的，可以先构建以问题作为输入、以回复作为输出的VHRED模型，并且获取包括大量语料的第二训练样本集；进而，通过无监督训练算法，根据第二训练样本集中的训练样本对VHRED模型进行训练，以得到参数处于收敛态的VHRED模型作为本申请实施例中的对话生成模型。

VHRED模型实质上是在HRED模型中的context RNN环节中引入了一个高斯随机变量，由此来改善模型产生回答的多样性。HRED模型中唯一变化的因素就是因输出序列概率分布的不同而导致输出发生变化，这在多轮对话中通常无法满足对话响应的多样性需求，因为一旦输出的第一个词确定之后，后面的单词基本上都是根据语言模型确定的，而且每个编码时刻的隐层向量更倾向于记住短期依赖而不是全局信息，因此，为了引入更多的变化因素，相应地引入变分编码的思想，在context RNN环节加入一个高斯随机变量，以增加响应的多样性。

所引入的高斯随机变量的均值和方差都是根据context RNN的隐层向量计算得到的，将该隐层向量传入一个两层神经网络增加一定的变化性，然后将该神经网络的输出与一个矩阵相乘得到均值，再将该输出与另一个矩阵相乘经过一个softplus函数得到方差。确定出均值和方差后便可经过采样得到高斯随机变量，将该高斯随机变量与context RNN拼接即相当于加入了噪声，可以在一定程度上增加模型的变化性。

具体训练该VHRED模型时，可以参考图3所示的训练架构。如图3所示，服务器构建得到以问题作为输入、以回复作为输出的VHRED模型，并且根据以该VHRED模型作为初始化基础的对话系统评价模型所适用的应用场景获取相关语料，即获取在该应用场景内产生的语料组成第二训练样本集。进而，采用无监督训练算法，将语料中的每个句子作为encoderRNN的输入，经过encoder RNN和context RNN抽象后，得到context隐藏层向量作为当前句子对应的语义特征向量，该语义特征向量经decoder RNN解码后，得到所预测的当前句子的下一个句子。

应理解，在实际应用中，可以先构建VHRED模型，后获取第二训练样本集，也可以先获取第二训练样本集，后构建VHRED模型，还可以同时执行构建VHRED模型和获取第二训练样本集的操作，在此不对构建VHRED模型和获取第二训练样本集的执行顺序做任何限定。

需要说明的是，在实际应用中，除了可以采用上述两种可能的实现方式训练对话生成模型外，也可以采用其他实现方式训练对话生成模型，在此不对训练对话生成模型的方式做任何限定。

根据上述两种可能的实现方式的相关描述可知，服务器为了训练得到对话生成模型，均需要获取包括大量语料的第二训练样本集，以利用该第二训练样本集对对话生成模型进行训练。具体获取第二训练样本集时，服务器可以通过网络爬虫的方式从网页上爬取文本资源，进而对所爬取的文本进行语句拆分，将每个句子作为一个训练样本，生成第二训练样本集。

具体的，服务器可以先确定对话系统评价模型所要评价的对话系统适用的应用场景，进而通过网络爬虫的方式从网页上爬取与该应用场景相关的文本资源；例如，假设对话系统评价模型用于评价客服类对话系统的对话回复质量，那么，在训练该对话系统评价模型之前，可以先通过网络爬虫的方式从网页上爬取大量属于客服类对话的文本资源；又例如，假设对话系统评价模型用于评价知识问答类对话系统的对话回复质量，那么，在训练该对话系统评价模型之前，可以先通过网络爬虫的方式从网页上爬取大量属于知识问答类对话的文本资源，等等。当然，如果对话系统评价模型用于评价开放式对话系统的对话回复质量，则服务器可以从网页上爬取各种类型的文本资源。

从网络上爬取到用于组成第二训练样本集的文本资源后，服务器进一步按照各文本中语句的排列顺序将各文本拆分成多个句子，将每个句子作为一个训练样本，以组成第二训练样本集。

应理解，上述生成第二训练样本集的方式仅为一种示例，在实际应用中，除了可以根据从网页上爬取的文本资源生成第二训练样本集外，还可以通过其他方式获取相关文本资源生成第二训练样本集，如从相关数据库中获取文本资源等，在此不对生成第二训练样本集的方式做任何限定。

步骤202：构建对话系统评价模型，所述对话系统评价模型以问题和回复作为两路输入，以回复对应的评分作为一路输出。

服务器构建对话系统评价模型，该对话系统评价模型用于对对话系统针对某一问题作出的回复相应地进行评分，该对话系统评价模型以问题和回复作为两路输入，以回复对应的评分作为一路输出。应理解，输入至对话系统评价模型中的问题通常为用户提出的问题，输入至对话系统评价模型中的回复通常是对话系统针对用户提出的问题作出的回复，而对话系统评价模型输出的评分即为对对话系统所作出的回复的评分，该评分具体是根据问题与回复之间的语义相关性确定的。

参见图4，图4为本申请实施例提供的一种对话系统评价模型的结构示意图。如图4所示，该对话系统评价模型包括两路输入，一路为用户输入的问题，另一路为对话系统针对该问题作出的回复；该对话系统评价模型包括一路输出，为对话系统评价模型针对该回复作出的评分。

应理解，图4所示的对话系统评价模型的结构仅为一种示例，在实际应用中，对话系统评价模型还可以为其他结构，在此不对对话系统评价模型的结构做具体限定。

需要说明的是，本申请实施例中对话系统评价模型中确定回复对应的评分所采用的计算公式如式(1)所示：

其中，score(c,r)即为对话系统评价模型输出的评分，c为输入的问题，r为输入的答复，矩阵M作为变换矩阵，其中的参数是在训练对话系统评价模型过程中学习得到的，α表示偏置参数，β用于将评分进行归一化处理，以将评分缩放至一个特定的区间内。

应理解，在实际应用中，除了可以采用式(1)计算针对回复做出的评分外，还可以采用其他方式确定针对回复所做出的评分，在此不对对话系统评价模型做出评分的方式做具体限定。

需要说明的是，在实际应用中，可以先执行步骤201，后执行步骤202，也可以先执行步骤202，后执行步骤201，还可以同时执行步骤201和步骤202，在此不对步骤201和步骤202的执行顺序做任何限定。

步骤203：根据所述对话生成模型中编码器的参数对所述对话系统评价模型中编码器进行参数初始化。

服务器经步骤201获取到的对话生成模型为经历过预训练的对话生成模型，该对话生成模型中的参数预先已通过无监督学习的方式利用第二训练样本集中的语料训练过。为了减轻对于步骤202构建得到的对话系统评价模型的训练任务，即保证利用少量的训练样本即可完成对于对话系统评价模型的训练，此时，服务器可以通过迁移学习的方式，将预训练的对话生成模型中编码器的参数直接赋值给对话系统评价模型中编码器的参数，从而实现对于对话系统评价模型中编码器的参数初始化。

由于预训练的对话生成模型已具备根据输入的句子，预测与该句子语义相关的下一个句子的功能，因此，将该预训练的对话生成模型中编码器的参数赋值给对话系统评价模型中的编码器，可以使得该对话系统评价模型初步具备识别语义相关性的功能。

步骤204：根据第一训练样本集对初始化后的所述对话系统评价模型进行训练，得到满足训练结束条件的所述对话系统评价模型，其中，所述第一训练样本集中每一训练样本包括问题、回复以及所述回复对应的标注评分。

完成对于对话系统评价模型中编码器参数的初始化后，服务器进一步利用包括有问题、回复以及回复对应的标注评分的第一训练样本集，对初始化后的对话系统评价模型进行迭代训练，以逐步优化对话系统评价模型的模型性能，最终获得满足训练结束条件的对话系统评价模型，该对话系统评价模型能够从语义相关性的角度，对对话系统针对某问题作出的回复进行准确地评分。

应理解，上述第一训练样本集中每个训练样本均包括问题、回复以及回复对应的标注评分，其中，问题通常为用户所提出的问题，回复为对话系统针对用户所提出的问题作出的回复，回复对应的标注评分通常是人工结合问题与回复之间的语义相关度，按照预设的评分标准作出的评分，其具有绝对的准确性。

服务器具体训练对话系统评价模型时，对于第一训练样本集中每一训练样本，均将该训练样本中的问题和回复输入对话系统评价模型，以获得经对话系统评价模型处理输出的预测评分；然后，根据第一训练样本集中每一训练样本对应的预测评分和标注评分之间的均方误差确定损失函数，该损失函数包括均方误差和正则项；进而，采用随机梯度下降算法，利用损失函数对对话系统评价模型的参数进行调整，直到获得满足训练结束条件的对话系统评价模型。

具体的，在训练对话系统评价模型的过程中，服务器利用对话系统评价模型输出的预测评分与训练样本中的标注评分之间的误差作为损失量，并且在损失函数后面增加了一个L1范式作为正则项，以在实际应用中防止过拟合训练，保证基于第一训练样本集可以训练得到能够准确评分的对话系统评价模型。训练过程中所采用的损失函数具体可以如式(2)所示：

其中，表示对话系统评价模型计算出的评分，human_i表示人工标注的评分，γ表示正则项参数，其为一个可调参数，θ表示表示对话系统评价模型中的参数。

应理解，在实际应用中，除了可以采用公式(2)所示的损失函数对对话系统评价模型进行训练外，还可以采用其他形式的损失函数对对话系统评价模型进行训练，在此不对所采用的损失函数的形式做任何限定。

具体判断对话系统评价模型是否满足训练结束条件时，可以利用测试样本对第一模型进行验证，该第一模型是利用第一训练样本集中的训练样本对对话系统评价模型进行第一轮训练优化得到的模型；具体的，服务器将测试样本中的问题和回复输入该第一模型，利用该第一模型对输入的问题和回复进行相应地处理，得到针对该回复的预测评分；进而，根据测试样本中回复对应的标注评分与第一模型输出的预测评分计算预测准确率，当预测准确率大于预设阈值时，即可认为该第一模型的模型性能较好已能够满足需求，则可以根据该第一模型的模型参数以及模型结构，生成对话系统评价模型。

需要说明的是，上述预设阈值可以根据实际情况进行设定，在此不对该预设阈值做具体限定。

此外，判断对话系统评价模型是否满足训练结束条件时，还可以根据经多轮训练得到的多个模型，确定是否继续对模型进行训练，以获得模型性能最优的对话系统评价模型。具体的，可以利用测试样本分别对经多轮训练得到的多个对话系统评价模型进行验证，若判断经各轮训练得到的模型的预测准确率之间的差距较小，则认为对话系统评价模型的性能已经没有提升空间，可以选取预测准确率最高的对话系统评价模型，作为最终训练得到的对话系统评价模型；若经各轮训练得到的对话系统评价模型的预测准确率之间具有较大的差距，则认为该对话系统评价模型的性能还有提升的空间，可继续对该对话系统评价模型进行训练，直到获得模型性能最稳定且最优的对话系统评价模型。

需要说明的是，为了保证对话系统评价模型始终能够准确地对对话系统做出的回复进行评分，在将对话系统评价模型投入实际使用中后，服务器还可以进一步采集对话系统评价模型使用过程中产生的评测数据，以利用这些评测数据对对话系统评价模型做进一步优化训练，保障对话系统评价模型的模型性能。由于实际业务中更加关注负样本数据，因此采集用于优化训练的评测数据时通常主要采集负样本数据。

具体的，服务器可以采集对话系统评价模型对对话系统进行评测得到的评测数据，该评测数据中包括问题、回复以及回复对应的预测评分；然后，从评测数据中筛选出负样本，并根据筛选得到的负样本对第一训练样本集进行更新；进而，基于更新后的第一训练样本集，对对话系统评价模型进行再训练。

在模型应用阶段，对话系统评价模型会根据用户输入的问题和对话系统做出的回复，相应地确定该回复对应的预测评分，服务器采集上述应用阶段中的问题、回复以及回复对应的预测评分作为评测数据，以利用这些评测数据更新第一训练样本集。具体的，服务器可以从所采集的评测数据中，筛选出预测评分低于预设分数值的评测数据作为负样本，并将所筛选出的负样本添加至第一训练样本集中，从而实现对于第一训练样本集的更新。当需要对对话系统评价模型进行优化训练时，服务器即可利用更新后的第一训练样本集，按照步骤204所述的训练方法对对话系统评价模型进行二次训练，以对对话系统评价模型的模型性能进行优化。

应理解，上述预设分数值可以根据实际需求进行设定，在此不对该预设分数值做具体限定。

应理解，在实际应用中，服务器可以定期对对话系统评价模型进行一次优化训练，例如，每隔一周或一个月对对话系统评价模型进行一次优化训练；当然，服务器也可以在检测到对话系统评价模型的模型性能下降时，利用更新后的第一训练样本集对对话系统评价模型进行优化训练，在此不对优化训练对话系统评价模型的时机做任何限定。

上述模型训练方法在训练对话系统评价模型之前，先通过迁移学习的方式，将对话生成模型的编码器部分迁移至对话系统评价模型中，使得该对话系统评价模型初步具备识别语义相关性的功能；在此基础上，进一步利用少量包括有问题、回复以及回复对应的标注评分的训练样本，对该对话系统评价模型进行训练，提高该对话系统评价模型识别语义相关性的性能，使得该对话系统评价模型能够从语义相关性的角度，对对话系统针对问题做出的回复进行评分，相比人工评价的方法和依据BELU值等技术指标进行评价的方法，采用经上述模型训练方法训练得到的对话系统评价模型对对话回复进行评价，既能够提高对于对话回复的评价效率，减少人工成本和时间成本，又能够保证对于对话回复质量评价的准确性和可靠性。

针对采用上述模型训练方法训练得到的对话系统评价模型，本申请还相应地提出了一种应用该对话系统评价模型对对话系统的回复质量进行评价的方法。

参见图5，图5为本申请实施例提供的对话系统评价方法的流程示意图。为了便于描述，下述实施例仍以服务器为作为执行主体进行描述，应理解，该对话系统评价方法的执行主体并不仅限于服务器，还可以终端设备等其他具备数据分析处理能力的设备。如图5所示，该对话系统评价方法包括以下步骤：

步骤501：获取对话系统中的问答对，所述问答对包括用户提问的问题和对话系统的回复。

通常情况下，对话系统运行在终端设备端，用户可以通过终端设备以语音或者文字的形式输入自身提出的问题，相应地，终端设备中运行的对话系统将针对用户提出的问题作出回复。

服务器若要利用对话系统评价模型对对话系统作出的回复进行评分，则需要相应地从终端设备处获取用户提出的问题以及对话系统相应作出的回复，以组成对话系统评价模型的输入内容—问答对。

应理解，在实际应用中，可以预先设置终端设备具备反馈问答对的功能，即在终端设备利用对话系统针对用户提出的问题作出回复后，终端设备即需将用户提出的问题以及对话系统作出的回复相应地通过网络传输至服务器，以使服务器可以对该对话系统作出的回复进行评分。当然，服务器可以通过向终端设备发送问答对获取请求的方式，请求从终端设备处获取问答对，在此不对服务器获取问答对的方式做任何限定。

需要说明的是，在一些可能的情况下，对话系统以及对话系统评价模型可以均运行在同一设备上，例如，均运行在服务器上或者均运行在终端设备上；此时，对话系统可以在针对用户提出的问题作出一次回复后，即相应地将用户提出的问题和自身作出的回复传输至对话系统评价模型，以利用该对话系统评价模型针对此次回复进行打分。

步骤502：以所述问答对中的问题和回复作为预训练的对话系统评价模型的两路输入，获得所述对话系统评价模型输出的与所述问答对对应的预测评分。

服务器获取到问答对后，将该问答对中的问题和回复分别输入至对话系统评价模型中，该对话系统评价模型是利用图2所示的模型训练方法训练得到的，经对话系统评价模型分析处理后，得到与所输入的问答对相对应的预测评分。

应理解，经图2所示的模型训练方法训练得到的对话系统评价模型包括两路输入，一路为问题，另一路为回复；相应地，在利用对话系统评价模型对问答对进行评分时，可以将问答对中的问题输入问题输入通道，将问答对中的回复输入回复输入通道，进而，利用对话系统评价模型针对输入的问题和回复相应地进行评分。

需要说明的是，在应用对话系统评价模型评价对话系统做出的回复的质量时，服务器还可以同时收集多组由问答对和预测评分组成的评测数据，以利用这些评测数据对训练对话系统评价模型时使用的第一训练样本集进行更新，保证在后续需要对对话系统评价模型进行优化训练时，可以利用更加丰富的训练样本对该对话系统评价模型进行优化训练。

具体的，服务器可以从所收集的多组评测数据中，筛选出预测评分低于预测分数值的评测数据作为负样本，进而，将所筛选出的负样本添加到第一训练样本集中，实现对于第一训练样本集的更新。在后续需要对对话系统评价模型进行优化训练时，可以直接利用该第一训练样本集对对话系统评价模型进行优化训练。

应理解，在实际应用中，若对话系统评价模型在预设时间段内针对某个对话系统多次测出其预测评分低于预设分数值，则说明该对话系统针对用户提出的问题作出的回复准确度较低，需要对该对话系统进行进一步的优化训练，以提高该对话系统的性能，使其能够针对用户提出的问题作出合理准确的答复。

针对图2所示的模型训练方法训练得到的对话系统评价模型，本申请还提供了一种利用该对话系统评价模型对对话系统回复性能进行评价的方法。具体的，先获取对话系统中的问答对，该问答对中包括用户提出的问题以及对话系统针对该问题作出的回复；然后，将该问答对中的问题和回复分别输入对话系统评价模型中的两路输入通道，经该对话系统评价模型分析处理后，获得该对话系统评价模型输出的与该问答对对应的预测评分。如此，利用该对话系统评价模型对问答对中的问题与回复之间的语义相关度进行评价，并基于此确定回复对应的评分，保证对于对话系统回复功能的评价更为准确可靠。

为了便于进一步理解本申请实施例提供的模型训练方法和对话系统评价方法，下面以本申请实施例提供的方法应用于对开放式对话系统的对话回复性能进行测试的应用场景为例，对本申请实施例提供的方法做整体性介绍。

参见图6，图6为本申请实施例提供的对话系统评价方法的一种示例性的应用场景示意图。如图6所示，该应用场景中包括：终端设备610和服务器620。其中，终端设备610上运行有开放式对话系统，该开放式对话系统可以根据用户所提出的任意问题作出相应的回复。服务器620用于训练对话系统评价模型，以及利用对话系统评价模型对开放式对话系统的对话回复进行评分。

在模型训练阶段，服务器620需要先通过网络爬虫的方式从网页上爬取各种文本资源，并对所爬取的文本按照其中句子的排列顺序进行语句拆分，将拆分得到的每个句子作为一个训练样本，生成第二训练样本集。进而，通过无监督训练算法，利用第二训练样本集对已构建好的VHRED模型进行训练，得到参数处于收敛态的VHRED模型作为对话生成模型，该对话生成模型是以问题作为输入、以回复作为输出的模型。

进而，服务器620可以通过迁移学习的方式，将对话生成模型中编码器的参数赋值给已构建完成的对话系统评价模型，从而实现对于对话系统评价模型中编码器的参数初始化；该对话系统评价模型是以问题和回复作为输入，以回复对应的评分作为输出的模型。接着，利用包括少量训练样本(训练样本包括问题、回复以及回复对应的标注评分)的第一训练样本集对初始化后的对话系统评价模型进行训练，以得到满足训练结束条件的对话系统评价模型，即得到可以投入实际应用的对话系统评价模型。

在模型应用阶段，终端设备610可以利用自身运行的开放式对话系统，针对用户提出的问题相应地做出回复，并将用户提出的问题以及自身做出的回复作为问答对传输至服务器620。服务器620将问答对中的问题和回复输入对话系统评价模型，对话系统评价模型对输入的问题以及回复进行分析处理后，相应地输出预测评分，该预测评分能够表征问答对中回复与问题之间的语义相关性。

此外，服务器620还可以将终端设备610传输过来的问答对和对话系统评价模型输出的预测评分作为一组评测数据，如此收集多组评测数据，并从所收集的评测数据中筛选出负样本，利用该负样本对第一训练样本集进行更新。相应地，服务器620在需要对对话系统评价模型进行优化训练时，可以利用更新后的第一训练样本集对对话系统评价模型进行优化训练。

经发明人实验证明，本申请实施例中的对话系统评价模型不仅能够有效地提高对于对话回复质量的评分效率，还能够保证准确地对对话系统的对话回复质量进行评价。

具体的，采用人工评分的方式对对话系统的回复质量进行评价时，两个测评人员一天仅能完成对于1000对问答对的评分，而本申请实施例中的对话系统评价模型可以在半个小时内完成对于10000对问答对的评分，评分效率大大提升。

本申请实施例提供的对话系统评价模型基于表1所示的评分标准对问答对进行评分时，可以达到75％的综合评分准确率，即该对话系统评价模型能够保证对于测试样本集中75％的问答对进行准确地评分，并且，在另外25％的与人工标注的评分相左的测评数据中，80％的评分结果与人工标注的评分之间的误差小于等于1分，可见，本申请实施例中的对话系统评价模型做出的评分结果具有较高的可信度。

表1

针对上文描述的模型训练方法和对话系统评价方法，本申请还提供了对应的模型训练装置和对话系统评价装置，以使上述模型训练方方法和对话系统评价方法在实际中得以应用和实现。

参见图7，图7是与上文图2所示的模型训练方法对应的一种模型训练装置700的结构示意图，该模型训练装置700包括：

第一获取模块701，用于获取预训练的对话生成模型，所述对话生成模型包括编码器和解码器；

第一构建模块702，用于构建对话系统评价模型，所述对话系统评价模型以问题和回复作为两路输入，以回复对应的评分作为一路输出；

初始化模块703，用于根据所述对话生成模型中编码器的参数对所述对话系统评价模型中编码器进行参数初始化；

训练模块704，用于根据第一训练样本集对初始化后的所述对话系统评价模型进行训练，得到满足训练结束条件的所述对话系统评价模型，其中，所述第一训练样本集中每一训练样本包括问题、回复以及所述回复对应的标注评分。

可选的，在上述图7所示的模型训练装置的基础上，参见图8，图8为本申请实施例提供的另一种模型训练装置的结构示意图。如图8所示，该模型训练装置800还包括：

第二构建模块801，用于构建分层神经网络模型，所述分层神经网络模型以问题作为输入，以回复作为输出；

第二获取模块802，用于获取第二训练样本集，所述第二训练样本集中每一训练样本包括语料；

第二训练模块803，用于通过无监督训练算法，根据所述第二训练样本集对所述分层神经网络模型进行训练，得到参数处于收敛态的所述分层神经网络模型作为所述对话生成模型。

可选的，在上述图7所示的模型训练装置的基础上，参见图9，图9为本申请实施例提供的另一种模型训练装置的结构示意图。如图9所示，该模型训练装置900还包括：

第三构建模块901，用于构建用于生成对话的分层潜在变量编解码器模型，所述分层潜在变量编解码器模型以问题作为输入，以回复作为输出；

第三获取模块902，用于获取第二训练样本集，所述第二训练样本集中每一训练样本包括语料；

第三训练模块903，用于通过无监督训练算法，根据所述第二训练样本集对述分层潜在变量编解码器模型进行训练，得到参数处于收敛态所述分层潜在变量编解码器模型作为所述对话生成模型。

可选的，在上述图8或图9所示的模型训练装置的基础上，所述第二获取模块802或所述第三获取模块902具体用于：

通过网络爬虫方式从网页上爬取文本资源；

对所述文本进行语句拆分，将每个句子作为一个训练样本，生成所述第二训练样本集。

可选的，在上述图7所示的模型训练装置的基础上，参见图10，图10为本申请实施例提供的另一种模型训练装置的结构示意图。如图10所示，该模型训练装置1000还包括：

采集模块1001，用于采集所述对话系统评价模型对对话系统进行评测得到的评测数据，所述评测数据包括问题和回复以及回复对应的预测评分；

筛选模块1002，用于从所述评测数据中筛选出负样本，根据筛选的负样本更新所述第一样本数据集；

优化模块1003，用于基于更新后的所述第一训练数据集，对所述对话系统评价模型进行再训练。

可选的，在上述图7所示的模型训练装置的基础上，所述训练模块704具体用于：

对于所述第一训练样本集中每一训练样本，将训练样本中问题和回复输入所述对话系统评价模型，获得所述对话系统评价模型输出的预测评分；

根据所述第一训练样本集中每一训练样本对应的预测评分和标注评分之间的均方误差，确定损失函数，所述损失函数包括均方误差和正则项；

根据随机梯度下降算法，利用所述损失函数对所述对话系统评价模型的参数进行调整，直到得到满足训练结束条件的所述对话系统评价模型。

上述模型训练装置在训练对话系统评价模型之前，先通过迁移学习的方式，将对话生成模型的编码器部分迁移至对话系统评价模型中，使得该对话系统评价模型初步具备识别语义相关性的功能；在此基础上，进一步利用少量包括有问题、回复以及回复对应的标注评分的训练样本，对该对话系统评价模型进行训练，提高该对话系统评价模型识别语义相关性的性能，使得该对话系统评价模型能够从语义相关性的角度，对对话系统针对问题做出的回复进行评分，采用利用上述模型训练装置训练得到的对话系统评价模型对对话回复进行评价，既能够提高对于对话回复的评价效率，减少人工成本和时间成本，又能够保证对于对话回复质量评价的准确性和可靠性。

参见图11，图11是与上文图2所示的对话系统评价方法对应的一种对话系统评价装置1100的结构示意图，该对话系统评价装置1100包括：

获取模块1101，用于获取对话系统中的问答对，所述问答对包括用户提问的问题和对话系统的回复；

评价模块1102，用于以所述问答对中的问题和回复作为预训练的对话系统评价模型的两路输入，获得所述对话系统评价模型输出的与所述问答对对应的预测评分。

可选的，在上述图11所示的对话系统评价装置的基础上，参见图12，图12为本申请实施例提供的另一种对话系统评价装置的结构示意图。如图12所示，该对话系统评价装置1200还包括：

收集模块1201，用于以所述问答对和对应的预测评分作为一组评测数据，收集多组评测数据；

筛选模块1202，用于从所述多组评测数据中筛选出负样本，根据筛选的负样本更新用于训练所述对话系统评价模型的第一训练样本集。

上述对话系统评价装置利用该对话系统评价模型对问答对中的问题与回复之间的语义相关度进行评价，并基于此确定回复对应的评分，保证对于对话系统回复功能的评价更为准确可靠。

本申请实施例还提供了一种用于训练模型的设备和用于评价对话系统的设备，用于训练模型的设备和用于评价对话系统的设备具体可以是终端或服务器，下面将从硬件实体化的角度对本申请实施例提供的上述设备进行介绍。

本申请实施例还提供了一种设备，如图13所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：Personal Digital Assistant，英文缩写：PDA)、销售终端(英文全称：Point of Sales，英文缩写：POS)、车载电脑等任意终端设备，以终端为手机为例：

图13示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图13，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1310、存储器1320、输入单元1330、显示单元1340、传感器1350、音频电路1360、无线保真(英文全称：wirelessfidelity，英文缩写：WiFi)模块1370、处理器1380、以及电源1390等部件。本领域技术人员可以理解，图13中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1320可用于存储软件程序以及模块，处理器1380通过运行存储在存储器1320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1320内的软件程序和/或模块，以及调用存储在存储器1320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1380可包括一个或多个处理单元；优选的，处理器1380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1380中。

在本申请实施例中，该终端所包括的处理器1380还具有以下功能：

可选的，所述处理器1380还用于执行本申请实施例提供的模型训练方法的任意一种实现方式的步骤。

在本申请实施例中，该终端所包括的处理器1380还可以具有以下功能：

可选的，所述处理器1380还用于执行本申请实施例提供的对话系统评价方法的任意一种实现方式的步骤。

本申请实施例还提供了另一种设备，该设备可以是服务器，图14是本申请实施例提供的一种服务器结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

可选的，CPU 1422还可以用于执行本申请实施例中模型训练方法的任意一种实现方式的步骤。

其中，CPU 1422还可以用于执行如下步骤：

可选的，CPU 1422还可以用于执行本申请实施例中对话系统评价方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种模型训练方法或对话系统评价方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种模型训练方法或对话系统评价方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

构建分层神经网络模型，所述分层神经网络模型以问题作为输入，以回复作为输出；

获取第二训练样本集，所述第二训练样本集中每一训练样本包括语料；

通过无监督训练算法，根据所述第二训练样本集对所述分层神经网络模型进行训练，得到参数处于收敛态的所述分层神经网络模型作为所述对话生成模型。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

构建用于生成对话的分层潜在变量编解码器模型，所述分层潜在变量编解码器模型以问题作为输入，以回复作为输出；

通过无监督训练算法，根据所述第二训练样本集对述分层潜在变量编解码器模型进行训练，得到参数处于收敛态所述分层潜在变量编解码器模型作为所述对话生成模型。

4.根据权利要求2或3所述的方法，其特征在于，所述获取第二训练样本集，包括：

通过网络爬虫方式从网页上爬取文本资源；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采集所述对话系统评价模型对对话系统进行评测得到的评测数据，所述评测数据包括问题和回复以及回复对应的预测评分；

从所述评测数据中筛选出负样本，根据筛选的负样本更新所述第一训练样本集；

基于更新后的所述第一训练样本集，对所述对话系统评价模型进行再训练。

6.根据权利要求1所述的方法，其特征在于，所述根据第一训练样本集对初始化后的所述对话系统评价模型进行训练，得到满足训练结束条件的所述对话系统评价模型，包括：

7.一种对话系统评价方法，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，还包括：

以所述问答对和对应的预测评分作为一组评测数据，收集多组评测数据；

从所述多组评测数据中筛选出负样本，根据筛选的负样本更新用于训练所述对话系统评价模型的第一训练样本集。

9.一种模型训练装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

第二构建模块，用于构建分层神经网络模型，所述分层神经网络模型以问题作为输入，以回复作为输出；

第二获取模块，用于获取第二训练样本集，所述第二训练样本集中每一训练样本包括语料；

第二训练模块，用于通过无监督训练算法，根据所述第二训练样本集对所述分层神经网络模型进行训练，得到参数处于收敛态的所述分层神经网络模型作为所述对话生成模型。

11.根据权利要求9所述的装置，其特征在于，所述装置还包括：

第三构建模块，用于构建用于生成对话的分层潜在变量编解码器模型，所述分层潜在变量编解码器模型以问题作为输入，以回复作为输出；

第三获取模块，用于获取第二训练样本集，所述第二训练样本集中每一训练样本包括语料；

第三训练模块，用于通过无监督训练算法，根据所述第二训练样本集对述分层潜在变量编解码器模型进行训练，得到参数处于收敛态所述分层潜在变量编解码器模型作为所述对话生成模型。

12.根据权利要求9所述的装置，其特征在于，所述装置还包括：

采集模块，用于采集所述对话系统评价模型对对话系统进行评测得到的评测数据，所述评测数据包括问题和回复以及回复对应的预测评分；

筛选模块，用于从所述评测数据中筛选出负样本，根据筛选的负样本更新所述第一样本数据集；

优化模块，用于基于更新后的所述第一训练数据集，对所述对话系统评价模型进行再训练。

13.一种对话系统评价装置，其特征在于，包括：

14.一种设备，其特征在于，包括：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至8任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至8任一项所述的方法。