CN108984679A

CN108984679A - 对话生成模型的训练方法和装置

Info

Publication number: CN108984679A
Application number: CN201810713549.3A
Authority: CN
Inventors: 连荣忠; 彭金华; 马宗阳; 姜迪; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-12-11
Anticipated expiration: 2038-06-29
Also published as: CN108984679B

Abstract

本发明提出一种对话生成模型的训练方法和装置，其中，方法包括：获取对话生成模型根据对话上文生成的目标回复，对目标回复和对话上文之间的语言连贯性进行评价，得到评价信息，根据评价信息，对对话生成模型进行训练。通过连贯性模型对目标回复和对话上文进行连贯性评价，根据该评价信息调整模型训练的参数，以使得训练完成的对话生成模型生成的目标回复和上文具有连贯性，且兼顾生成效率，解决现有技术中生成的对话回复与上文没有连贯性，生成效率低下的技术问题。

Description

对话生成模型的训练方法和装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种对话生成模型的训练方法和装置。

背景技术

通用对话系统作为人工智能的重要场景，得到越来越多的关注，通用对话系统通过人机交互以一问一答的方式为用户智能提供信息服务，因此，对话的生成是一个重要环节。

目前采用最多的是自然语言生成技术，但是自然语言生成技术至少存在两种方式。一种方式是在生成的过程中加入关键词进行辅助，或者采用最大互信息(MaximumMutual Information,MMI)的方法对生成结果进行筛选。但是这种方式由于从问话中提取关键词是很难实现，而采用最大互信息会上千倍的增加处理时间，效率较低。另一种方式采用的是对抗生成的方式，但这样方式导致生成的回复往往与对话上文缺乏关联性，对话不连贯。

因此，在对话生成的人工智能领域，需要能提供一种能兼顾生成效率，以及连贯性的方法。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种对话生成模型的训练方法，以实现通过连贯性模型对目标回复和对话上文进行连贯性评价，根据该评价信息调整对话生成模型训练的参数，以使得训练完成的对话生成模型生成的回复和上文具有较好的连贯性，同时无需关键词，生成效率较高。

本发明的第二个目的在于提出一种对话生成模型的训练装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种对话生成模型的训练方法，包括：

获取对话生成模型根据对话上文生成的目标回复；

对所述目标回复和所述对话上文之间的语言连贯性进行评价，得到评价信息；

根据所述评价信息，对所述对话生成模型进行训练。

为达上述目的，本发明第二方面实施例提出了一种对话生成模型的训练装置，包括：

获取模块，用于获取对话生成模型根据对话上文生成的目标回复；

处理模块，用于对所述目标回复和所述对话上文之间的语言连贯性进行评价，得到评价信息；

训练模块，用于根据所述评价信息，对所述对话生成模型进行训练。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如第一方面所述的对话生成模型的训练方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现如第一方面所述的对话生成模型的训练方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当计算机程序产品中的指令由处理器执行时，实现如第一方面所述的对话生成模型的训练方法。

本发明实施例所提供的技术方案可以包含如下的有益效果：

获取对话生成模型根据对话上文生成的目标回复，对目标回复和对话上文之间的语言连贯性进行评价，得到评价信息，根据评价信息，对对话生成模型进行训练。通过连贯性模型对目标回复和对话上文进行连贯性评价，根据该评价信息调整对话生成模型训练的参数，以使得训练完成的对话生成模型生成的回复和上文具有较好的连贯性，同时兼顾了生成效率。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种对话生成模型的训练方法的流程示意图；

图2为本发明实施例所提供的生成模型训练的框架示意图；

图3为本发明实施例所提供的另一种对话生成模型的训练方法的流程示意图；

图4为本发明实施例所提供的一种seq2seq框架的结构示意图；

图5为本发明实施例所提供的评价信息生成的结构示意图；

图6为本发明实施例所提供的一种对话生成模型的训练装置的结构示意图；以及

图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的对话生成模型的训练方法和装置。

图1为本发明实施例所提供的一种对话生成模型的训练方法的流程示意图。

如图1所示，该方法包括以下步骤：

步骤101，获取对话生成模型根据对话上文生成的目标回复。

作为一种可能的实现方式，对话生成模型采用的是seq2seq的框架，seq2seq包含编码器和解码器两个阶段，具体地，采用对话生成模型的编辑器对对话上文进行编码，得到特征向量，将特征向量输入对话生成模型的解码器，得到目标回复。

步骤102，对目标回复和对话上文之间的语言连贯性进行评价，得到评价信息。

其中，评价信息用于指示生成的目标回复与输入的对话上文之间的语言连贯性。

具体地，根据对话上文中的多个分词与目标回复中的多个分词，生成匹配矩阵，其中，匹配矩阵中的元素，用于指示对话上文中一个分词与目标回复中的一个分词之间的匹配度，作为一种可能的实现方式，匹配操作可以采用余弦相似度算法计算对话上文中一个分词与目标回复中对应的一个分词之间的匹配度，将匹配矩阵输入神经网络模型，得到评价信息，其中，神经网络模型已经学习得到匹配矩阵与评价信息之间的映射关系。

步骤103，根据评价信息，对对话生成模型进行训练。

具体地，根据目标回复与预设的参考回复之间的差异，确定损失函数值，根据语言连贯性进行评价得到的评价值，判断目标回复与对话上文是否连贯，若连贯，以减小损失函数值的方式调整对话生成模型的参数，当损失函数值的取值最小时，模型参数确定，模型训练完成；若不连贯，以增加损失函数值的方式调整对话生成模型的参数，也就是说，在不连贯时，当前的模型调整方向是错误的，需要向相反的方向调整生成模型的参数，以增加损失函数值的方式调整对话生成模型的参数以使得调整后的生成模型的参数对应较小的损失函数值，当损失函数值的取值最小时，生成模型的参数确定，模型训练完成。

以一个具体的例子，来对本申请实施例的对话生成模型的训练方法进行说明，图2为本发明实施例所提供的生成模型训练的框架示意图，如图2所示，例如，对话上文为：周末要不要一起去看电影？将该对话上文输入对话生成模型中，得到的目标回复可能为3种，分别为：1)我也这么觉得；2)好啊，一起去看；3)牛奶很好喝。不同的目标回复与对话上文之间的语言连贯性不同，对应的评价信息则不同，作为一种可能的表示方式，评价信息可用评价分值表示，当目标回复为：我也这么觉得，得到的评价信息对应的评价分值为0，当目标回复为：好啊，一起去看，得到的评价信息对应的评价分值为0.8，当目标回复为：牛奶很好喝，得到的评价信息对应的评价分值为-0.75，根据该评价信息，可对对话生成模型进行训练，通过训练使得对话生成模型生成的目标回复和上文的连贯性更好，提高了回复信息的准确度。

本发明实施例的对话生成模型的训练方法中，获取对话生成模型根据对话上文生成的目标回复，对目标回复和对话上文之间的语言连贯性进行评价，得到评价信息，根据评价信息，对对话生成模型进行训练。通过连贯性模型对目标回复和对话上文进行连贯性评价，根据该评价信息调整对话生成模型训练的参数，以使得训练完成的对话生成模型生成的回复和上文具有较好的连贯性，提高了回复信息的准确度，同时生成效率也较高。

为了清楚说明上一实施例，本发明实施例提供了另一种对话生成模型的训练方法，进一步清楚的解释了如何利用语言连贯性对目标回复和对话上文之间的语言连贯性进行评价，得到评价信息，并根据评价信息，对生成模型进行训练的过程，图3为本发明实施例所提供的另一种对话生成模型的训练方法的流程示意图。

如图3所示，该方法可以包括以下步骤：

步骤201，获取对话生成模型根据对话上文生成的目标回复。

作为一种可能的实现方式，对话生成模型采用的是seq2seq的框架，seq2seq包含编码器(encoder)和解码器(decoder)两个阶段，采用对话生成模型的编辑器对对话上文进行编码，得到特征向量，将特征向量输入对话生成模型的解码器，得到目标回复。

图4为本发明实施例所提供的一种seq2seq框架的结构示意图，其中，编码器和解码器采用的是循环神经网络单元LSTM-RNN，如图4所示，左边的为编码器，用于对用户输入语句进行编码，提取出它的特征向量，右边的为解码器，在上文条件概率的基础上，逐一生成回复单词。例如，用户输入了一个语句为“你，好，吗”，经过编码器后，得到它的特征向量W，然后解码器在W的基础上开始解码，通过计算词表中所有单词V在上文中的概率：argmaxP(y₁|x)，y₁∈V，x为逐一输出的回复的单词，选择概率最大的作为生成的第一个单词，也就是图中所示的单词“我”，对于接下来要产生的第二个单词，也需要计算词表中所有单词V在上文中的概率：arg max P(y₂|x,y₁),y₂∈V，而此时上文已经变成了(x,y₁)，同样选择概率最大的作为生成的第二个单词，也就是图中所示的单词“很”，循环执行，直到产生的单词为停止符号“EOL”，目标回复的生成过程结束，得到的目标回复即为：我很好。

步骤202，根据对话上文中的多个分词与目标回复中的多个分词，生成匹配矩阵。

具体地，将对话上文和目标回复进行分词处理，得到对话上文对应的多个分词，以及目标回复对应的多个分词，根据对话上文中多个分词与目标回复中多个分词，进行匹配操作，作为一种可能的实现方式，匹配操作可以采用余弦相似度算法计算生成对应的匹配矩阵。

步骤203，将匹配矩阵输入神经网络模型，得到评价信息。

图5为本发明实施例所提供的评价信息生成的结构示意图，如图5所示，将匹配矩阵输入神经网络的卷积层和池化层，得到多层矩阵，将多层矩阵转化为一维向量后，输入神经网络模型的多层感知器，得到评价信息。

步骤204，根据目标回复与预设的参考回复之间的差异，确定损失函数值。

如图2所示，对话上文为“周末要不要一起去看电影”，目标回复可能为1)我也这么觉得；2)好啊，一起去看；3)牛奶很好喝。预设的参考回复为：好啊，周末一起去看，根据目标回复与预设的参考回复之间的差异，可确定对应的损失函数值，例如，目标回复1)与预设的参考回复之间的差异较大，可确定对应的损失函数值较大，目标回复2)与预设的参考回复之间的差异较小，可确定对应的损失函数值较大，标回复3)与预设的参考回复之间的差异较大，可确定对应的损失函数值较大。

步骤205，根据评价信息，判断目标回复与对话上文是否连贯，若连贯，执行步骤206，若不连贯，执行步骤207。

步骤206，以减小损失函数值的方式调整对话生成模型的参数，完成对生成模型的训练。

具体地，目标回复可转化为向量，对应向量空间中的点，参考回复也可以转化为向量，对应向量空间中的点，向量空间中的这两个点之间的连线长度对应差异程度，两个点之间的有向线段的方向是由目标回复指向参考回复，指示差异较小的方向，根据两个点的差异程度和有向线段的方向，可确定对应的损失函数值，损失函数值指示了有向线段的方向，根据损失函数值携带的有向线段的方向信息确定目标回复与参考回复之间的差异减小方向，而评价信息的连贯性决定了当前参数调整的方向，若评价信息是连贯的，那么根据目标回复与参考回复之间的差异减小方向调整对话生成模型的参数，通过调整对话生成模型的参数，不断的减少损失函数值，当损失函数值降到最小并不再减小时，模型的参数确定，生成模型训练完成，通过以减小损失函数值的方式调整对话生成模型的参数，使得调整后得到的生成模型的参数生成的目标回复和预设的参考回复之间的差异度较小，提高了目标回复与对话上文之间的语言连贯性。

步骤207，以增加损失函数值的方式调整对话生成模型的参数完成对生成模型的训练。

具体地，目标回复可转化为向量，对应向量空间中的点，参考回复也可以转化为向量，对应向量空间中的点，向量空间中的这两个点之间的连线长度对应差异程度，两个点之间的有向线段的方向是由目标回复指向参考回复，指示差异较小的方向，根据两个点的差异程度和有向线段的方向，可确定对应的损失函数值，损失函数值指示了有向线段的方向，根据损失函数值携带的有向线段的方向信息确定目标回复与参考回复之间的差异增大方向，而评价信息的连贯性决定了当前参数调整的方向，若评价信息不连贯，那么根据目标回复与参考回复之间的差异增大方向调整对话生成模型的参数，以使得调整后的生成模型的参数对应增大的损失函数值，无论是否连贯，在调整模型参数后，采用前述方式，在调整后的模型参数基础上继续对模型进行训练，直至损失函数值收敛至最小时，模型训练完成，提高了目标回复与对话上文之间的语言连贯性，同时兼顾了生成效率。

需要说明的是，当目标回复与对话上文不连贯时，那么根据目标回复与参考回复之间的差异减小方向调整参数是错误的，需要反向调整生成模型的参数，即根据差异增大方向，调整对话生成模型的参数。

本发明实施例的对话生成模型的训练方法中，获取对话生成模型根据对话上文生成的目标回复，对目标回复和对话上文之间的语言连贯性进行评价，得到评价信息，根据评价信息，对对话生成模型进行训练。通过连贯性模型对目标回复和对话上文进行连贯性评价，根据该评价信息确定目标回复和参考回复之间的差异减小方向，或者差异增大方向，并根据差异减小方向或者是差异增大方向，调整损失函数，使得损失函数值为最小，得到对应的对话生成模型的训练参数，以使得训练完成的对话生成模型生成的回复和上文具有较好的连贯性，同时兼顾了生成效率。

为了实现上述实施例，本发明还提出一种对话生成模型的训练装置。

图6为本发明实施例所提供的一种对话生成模型的训练装置的结构示意图。

如图6所示，该装置包括：获取模块61、处理模块62和训练模块63。

获取模块61，用于获取对话生成模型根据对话上文生成的目标回复。

处理模块62，用于对目标回复和对话上文之间的语言连贯性进行评价，得到评价信息。

训练模块63，用于根据评价信息，对对话生成模型进行训练。

进一步，作为一种可能的实现方式，上述处理模块62，具体用于：

根据所述对话上文中的多个分词与所述目标回复中的多个分词，生成匹配矩阵；其中，所述匹配矩阵中的元素，用于指示所述对话上文中一个分词与所述目标回复中的一个分词之间的匹配度；

将所述匹配矩阵输入神经网络模型，得到所述评价信息；其中，所述神经网络模型已学习得到所述匹配矩阵与评价信息之间的映射关系。

作为一种可能的实现方式，上述处理模块62，还可以用于：

将所述匹配矩阵输入神经网络的卷积层和池化层，得到多层矩阵；

将所述多层矩阵转化为一维向量后，输入所述神经网络模型的多层感知器，得到所述评价信息。

作为一种可能的实现方式，匹配度包括余弦相似度。

作为一种可能的实现方式，上述训练模块63，具体用于：

根据所述目标回复与预设的参考回复之间的差异，确定损失函数值；

根据所述评价信息，判断所述目标回复与所述对话上文是否连贯；

若连贯，以减小所述损失函数值的方式调整所述对话生成模型的参数；

若不连贯，以增加所述损失函数值的方式调整所述对话生成模型的参数。

作为一种可能的实现方式，上述训练模块63，具体还用于：

根据所述损失函数值，确定所述目标回复与所述参考回复之间的差异减小方向；

根据所述差异减小方向，调整所述对话生成模型的参数。

作为一种可能的实现方式，上述训练模块63，具体还用于：

根据所述损失函数值，确定所述目标回复与所述参考回复之间的差异增大方向；

根据所述差异增大方向，调整所述对话生成模型的参数。

作为一种可能的实现方式，上述获取模块61，具体用于：

采用所述对话生成模型的编码器对所述对话上文进行编码，得到特征向量；

将所述特征向量输入所述对话生成模型的解码器，得到所述目标回复。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

上述对对话生成模型的训练装置的模块的划分，仅用于举例说明，在其它实施例中，该装置还可以按照需求划分为其它模块，以完成上述对话生成模型的训练装置的全部或部分功能。

本发明实施例的对话生成模型的训练装置中，获取对话生成模型根据对话上文生成的目标回复，对目标回复和对话上文之间的语言连贯性进行评价，得到评价信息，根据评价信息，对对话生成模型进行训练。通过连贯性模型对目标回复和对话上文进行连贯性评价，根据该评价信息调整对话生成模型训练的参数，以使得训练完成的对话生成模型生成的回复和上文具有较好的连贯性，同时真实性较高，提高了回复信息的准确度。

为了实现上述实施例，本发明还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行该程序时，实现如前述方法实施例所述的对话生成模型的训练方法。

图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现如前述方法实施例所述的对话生成模型的训练方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，实现如前述方法实施例所述的对话生成模型的训练方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种对话生成模型的训练方法，其特征在于，所述方法包括以下步骤：

获取对话生成模型根据对话上文生成的目标回复；

根据所述评价信息，对所述对话生成模型进行训练。

2.根据权利要求1所述的训练方法，其特征在于，对所述目标回复和所述对话上文之间的语言连贯性进行评价，得到评价信息，包括：

3.根据权利要求2所述的训练方法，其特征在于，所述将所述匹配矩阵输入神经网络模型，得到所述评价信息，包括：

4.根据权利要求2所述的训练方法，其特征在于，所述匹配度包括余弦相似度。

5.根据权利要求1-4任一项所述的训练方法，其特征在于，所述根据所述评价信息，对所述对话生成模型进行训练，包括：

6.根据权利要求5所述的训练方法，其特征在于，所述以减小所述损失函数值的方式调整所述对话生成模型的参数，包括：

根据所述差异减小方向，调整所述对话生成模型的参数。

7.根据权利要求5所述的训练方法，其特征在于，所述以增大所述损失函数值的方式调整所述对话生成模型的参数，包括：

根据所述差异增大方向，调整所述对话生成模型的参数。

8.根据权利要求1-4任一项所述的训练方法，其特征在于，所述获取对话生成模型根据对话上文生成的目标回复，包括：

9.一种对话生成模型的训练装置，其特征在于，包括：

10.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-8中任一所述的对话生成模型的训练方法。

11.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的对话生成模型的训练方法。

12.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由处理器执行时，执行如权利要求1-8中任一所述的对话生成模型的训练方法。