CN110245222B

CN110245222B - 对话模型训练方法及装置、对话生成方法及装置

Info

Publication number: CN110245222B
Application number: CN201910524279.6A
Authority: CN
Inventors: 王凡; 谢珉; 彭金华; 何径舟; 吴华
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2021-08-10
Anticipated expiration: 2039-06-17
Also published as: CN110245222A

Abstract

本发明实施例提出一种对话模型训练方法及装置、对话生成方法及装置。对话模型训练方法，包括：将第一语句、第二语句及第一语句的预设知识语句输入对话模型；第二语句为第一语句的参考答复语句；根据第一语句及预设知识语句，利用对话模型确定所述预设知识语句与所述第一语句的预估相关概率；根据所述第一语句、所述第二语句及所述预设知识语句，利用所述对话模型确定所述预设知识语句与所述第一语句的参考相关概率；根据所述预估相关概率和所述参考相关概率，获得第一优化方案；根据所述第一优化方案，优化所述对话模型。本发明实施例能够对对话模型进行有效的优化训练，使得使用该对话模型生成的对话更符合显示生活中的对话且包含实际信息。

Description

对话模型训练方法及装置、对话生成方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种对话模型训练方法及装置、对话生成方法及装置。

背景技术

目前的机器人对话的回复生成技术容易导致安全回复的生成，比如针对一个语句，生成“嗯”，“是啊”之类没有实际意义的回复语句。业界通常会引入额外知识的工作来解决这个问题。具体来说，这些方法在生成回复的时候，会参考一个候选知识的集合，通过在对话中融入额外知识的技术，生成多样的有信息量的回复。其中，知识选择往往是通过计算上文与候选知识的相似度，即先验信息，来进行的。但是，如果仅仅基于这种先验信息，会发现有多条候选知识都与上文有关，因而很难进行准确的知识选择，导致在训练过程中引入不必要的噪声使得模型不能很好利用知识。

发明内容

本发明实施例提供一种对话模型训练方法及装置、对话生成方法及装置，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种对话模型训练方法，包括：

将第一语句、第二语句及第一语句的预设知识语句输入对话模型；所述第二语句为所述第一语句的参考答复语句；

根据所述第一语句及所述预设知识语句，利用所述对话模型确定所述预设知识语句与所述第一语句的预估相关概率；根据所述第一语句、所述第二语句及所述预设知识语句，利用所述对话模型确定所述预设知识语句与所述第一语句的参考相关概率；

根据所述预估相关概率和所述参考相关概率，获得第一优化方案；

根据所述第一优化方案，优化所述对话模型。

在一种实施方式中，所述将第一语句、第二语句及第一语句的预设知识语句输入对话模型之后，还包括：

利用对话模型分别对第一语句、第二语句及第一语句的预设知识语句进行编码，得到第一语句的语句向量、第二语句的语句向量、预设知识语句的语句向量；

所述根据所述第一语句、预设知识语句，利用所述对话模型确定所述预设知识语句与所述第一语句的预估相关概率，包括：根据所述第一语句的语句向量和所述预设知识语句的语句向量，确定所述预估相关概率；

根据所述第一语句、所述第二语句及所述预设知识语句，利用所述对话模型确定所述预设知识语句与所述第一语句的参考相关概率，包括：根据所述第一语句的语句向量、第二语句的语句向量，获得所述第一语句和所述第二语句的结合向量；根据所述结合向量和所述预设知识语句的语句向量，确定所述参考相关概率。

在一种实施方式中，所述方法还包括：

根据第一语句获得第一语句的加权向量；根据所述参考相关概率在所述预设知识语句中确定与所述第一语句相关的所述预设知识语句；

根据所述加权向量和所述与所述第一语句相关的所述预设知识语句，确定参考输出语句；根据所述参考输出语句和所述第二语句，获得第二优化方案；根据所述第二优化方案，优化所述对话模型；

和/或，根据所述与第一语句相关的预设知识语句，获得答案中的预估词；根据所述预估词和所述第二语句，获得第三优化方案；根据所述第三优化方案，优化所述对话模型。

在一种实施方式中，所述对话模型包括：上文编码器、知识编码器、知识管理器及解码器；

所述上文编码器用于对输入的第一语句进行编码，得到所述第一语句的语句向量和加权语句向量；

所述知识编码器用于对输入的预设知识语句进行编码，得到所述预设知识语句的语句向量；还用于对所述第二语句进行编码，得到所述第二语句的语句向量；

所述知识管理器用于根据所述预设知识语句的语句向量、第一语句的语句向量，确定所述预估相关概率；还用于根据所述预设知识语句的语句向量、第一语句的语句向量和第二语句的语句向量，确定所述参考相关概率；以及用于根据所述参考相关概率确定与所述第一语句相关的预设知识语句；

所述解码器用于根据所述加权语句向量和所述第一语句相关的预设知识语句向量，生成所述参考输出语句。

第二方面，本发明实施例提供一种对话生成方法，包括：

将第三语句和第三语句的预设知识语句输入对话模型；

获得第三语句的参考答复语句，所述第三语句的参考答复语句为所述对话模型根据所述第三语句及所述第三语句的预设知识语句输出的；

所述对话模型为本发明任意一项实施例提供的对话模型优化方法优化后的所述对话模型。

所述上文编码器用于对输入的第三语句进行编码，得到所述第三语句的语句向量和加权语句向量；

所述知识编码器用于对输入的预设知识语句进行编码，得到所述预设知识语句的语句向量；

所述知识管理器用于根据所述预设知识语句的语句向量、第一语句的语句向量和第二语句的语句向量，确定与所述第三语句相关的预估知识语句；

所述解码器用于根据所述加权语句向量和所述预估知识语句，生成所述参考答复语句。

第三方面，本发明实施例提供一种对话模型训练装置，包括：

输入模块：用于将第一语句、第二语句及第一语句的预设知识语句输入对话模型；所述第二语句为所述第一语句的参考答复语句；

预估概率计算模块：用于根据所述第一语句及所述预设知识语句，利用所述对话模型确定所述预设知识语句与所述第一语句的预估相关概率；

参考概率计算模块：用于根据所述第一语句、所述第二语句及所述预设知识语句，利用所述对话模型确定所述预设知识语句与所述第一语句的参考相关概率；

第一优化方案获得模块：用于根据所述预估相关概率和所述参考相关概率，获得第一优化方案；

第一优化模块：用于根据所述第一优化方案，优化所述对话模型。

在一种实施方式中，所述装置还包括：

编码模块：用于利用对话模型分别对第一语句、第二语句及第一语句的预设知识语句进行编码，得到第一语句的语句向量、第二语句的语句向量、预设知识语句的语句向量；

所述预估概率计算模块还用于：根据所述第一语句的语句向量和所述预设知识语句的语句向量，确定所述预估相关概率；

所述参考概率计算模块还用于：根据所述第一语句的语句向量、第二语句的语句向量，获得所述第一语句和所述第二语句的结合向量；根据所述结合向量和所述预设知识语句的语句向量，确定所述参考相关概率。

在一种实施方式中，所述装置还包括：

加权向量模块：用于根据第一语句获得第一语句的加权向量；根据所述参考相关概率在所述预设知识语句中确定与所述第一语句相关的所述预设知识语句；

第三优化模块：用于根据所述加权向量和所述与所述第一语句相关的所述预设知识语句，确定参考输出语句；根据所述参考输出语句和所述第二语句，获得第二优化方案；根据所述第二优化方案，优化所述对话模型；

第四优化模块：用于根据所述与第一语句相关的预设知识语句，获得答案中的预估词；根据所述预估词和所述第二语句，获得第三优化方案；根据所述第三优化方案，优化所述对话模型。

第四方面，本发明实施例提供一种对话生成装置，包括：

输入模块：用于将第三语句和第三语句的预设知识语句输入对话模型；

答复语句获得模块：用于获得第三语句的参考答复语句，所述第三语句的参考答复语句为所述对话模型根据所述第三语句及所述第三语句的预设知识语句输出的；

所述对话模型为本发明任意一项实施例提供的对话模型训练方法优化后的所述对话模型。

所述解码器用于根据所述加权语句向量和所述预估知识语句，生成所述答复语句。

第五方面，本发明实施例提供了一种对话模型训练设备，所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述设备的结构中包括处理器和存储器，所述存储器用于存储支持所述设备执行上述对话模型训练方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述装置还可以包括通信接口，用于与其他设备或通信网络通信。

第六方面，本发明实施例提供了一种对话生成设备，所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

本发明实施例提供了一种计算机可读存储介质，用于存储对话模型训练装置所用的计算机软件指令，其包括用于执行上述对话模型训练方法所涉及的程序。

本发明实施例提供了一种计算机可读存储介质，用于存储对话生成装置所用的计算机软件指令，其包括用于执行上述对话生成方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：本发明实施例结合第二语句确定参考相关概率，该参考相关概率能够给对话模型提供一个比较标准的对话生成参考方案。根据参考相关概率和预估相关概率对对话模型进行训练，缩小预估相关概率和参考相关概率之间的差距，能够使得对话模型在选择相关知识语句时，更接近实际情况中做出的选择。

上述技术方案中的另一个技术方案具有如下优点或有益效果：

第二语句根据真实对话产生，或者根据给定标准语句产生，能够考虑到真实回复中知识使用情况，因此能够在对话模型训练过程中提供更准确的知道信息。同时，根据参考相关概率优化的对话模型，能够生成具有实际信息和意义的回复语句，使得对话内容更加丰富。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的对话模型训练方法的流程图。

图2示出根据本发明实施例的对话模型训练方法的流程图。

图3示出根据本发明实施例的模型示意图。

图4示出根据本发明实施例的模型示意图。

图5示出根据本发明实施例的模型示意图。

图6示出根据本发明实施例的对话生成方法的流程图。

图7A示出根据本发明实施例的对话模型训练装置的结构框图。

图7B示出根据本发明实施例的对话模型训练装置的结构框图。

图8示出根据本发明实施例的对话生成装置示意图。

图9示出根据本发明实施例的对话模型训练设备的结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本发明实施例的对话模型训练方法的流程图。如图1所示，该对话模型训练方法包括：

步骤S11：将第一语句、第二语句及第一语句的预设知识语句输入对话模型；所述第二语句为所述第一语句的参考答复语句。

步骤S12：根据所述第一语句及所述预设知识语句，利用所述对话模型确定所述预设知识语句与所述第一语句的预估相关概率；根据所述第一语句、所述第二语句及所述预设知识语句，利用所述对话模型确定所述预设知识语句与所述第一语句的参考相关概率。

步骤S13：根据所述预估相关概率和所述参考相关概率，获得第一优化方案。

步骤S14：根据所述第一优化方案，优化所述对话模型。

在本发明实施例中，第二语句为给定的参考答复语句，即已知第二语句与第一语句相关，且第二语句中包含预设知识语句的信息。预设知识语句，可以包含多个语句。例如，预设知识语句可以是：A、我喜欢吃辣椒。B、我想当一个记者，但是实际上我是个销售员。C、我的鞋号是6码。第一语句为，“我不喜欢乐队，但是我喜欢阅读。”第二语句可以是“我喜欢写作。我想成为一个记者，但是实际上我是个销售员。”从而第二语句与预设知识语句C有关联。第二语句为一个参考标准，可以是预先生成的第一语句的答复语句，既与第一语句有着一定的对应关系，可能出现在实际对话中，又融合了预设知识语句，具有实际含义。

在本发明实施例中，预设知识语句与第一语句的预估相关概率，反映了每个预设知识语句与第一语句是否相关的可能性。预估相关概率，可以是根据第一语句和预设知识语句的内容，判断每个预设知识语句与第一语句是否相关的可能性。参考相关概率，为根据给定的答复，即第二语句，结合第一语句、预设知识语句判断每个预设知识语句与第一语句是否相关的可能性。由于第二语句为已知的答复语句，因此结合了第二语句的内容确定的参考相关概率，具有更高的准确性。在优化对话模型时，对比参考相关概率和预估相关概率，可知预估相关概率的偏差，从而能够生成优化方案，对对话模型进行优化。

在本发明一种示例中，第一语句和第二语句可以根据公开的对话数据集上的实际对话生成。例如，可以根据公开的对话数据集Personachat选择对话例子，将对话例子里的对话语句作为第一语句和第二语句。Personachat公开数据集上包含多组对话数据，每一组对话数据由两个人的对话组成，其中，每个人会有一个描述其个人信息的简介，即预设知识语句。利用了不同的预设知识语句，可以生成截然不同的回复。例如，预设知识语句可以是：A、我有一个海豹摆件。B、我想当一个记者，但是实际上我是个销售员。C、我的鞋号是6码。第一语句为，“我不喜欢海豹乐队，但是我喜欢阅读。”第二语句可以是“我喜欢写作。我想成为一个记者，但是实际上我是个销售员。”根据不同的预设知识语句生成的回复一次是：D、你的生日是哪天？E、我买了一双6码的鞋。F、我是一个好记者。G、我也喜欢阅读，想成为一名记者，但是我现在是一个销售员。在回复D中，没有利用预设知识语句，生成的是一个安全回复。而E-G的回复更有信息量。A和C均有可能被识别为与第一语句相关的预设知识语句，如果没有考虑到后验信息，仅仅考虑先验信息，很难生成一个合适的答复。如果用错误的预设知识语句，或者与真实回复不相关的预设知识语句，去训练模型，那么训练过程对于模型的优化起不到实际有效的作用。另外，同样重要的是如果将正确的知识，恰到好处的融入回复生成。比如，虽然回复F也利用了正确的知识B，但是它与上文的相关性和连贯性都较差。只有回复G，不仅选择对了正确的知识，并且将该知识合理的运用在了回复生成当中。

在本发明实施例中预设知识语句和第一语句为先验信息，第二语句作为后验信息，若只根据先验信息生成答复语句，则有时候很难选择到正确的知识。而选择了错误的知识，可能会导致回复语句产生的质量较差。本发明实施例结合第二语句确定参考相关概率，该参考相关概率能够给对话模型提供一个比较标准的对话生成参考方案。根据参考相关概率和预估相关概率对对话模型进行训练，缩小预估相关概率和参考相关概率之间的差距，能够使得对话模型在选择相关预设知识语句时，更接近实际情况中做出的选择。第二语句根据真实对话产生，或者根据给定标准语句产生，能够考虑到真实回复中知识使用情况，因此能够在对话模型训练过程中提供更准确的知道信息。同时，根据参考相关概率优化的对话模型，能够生成具有实际信息和意义的回复语句，使得对话内容更加丰富。

图2示出根据本发明实施例的对话模型优化方法的流程图。本实施例中的步骤S11、S13、S14可以参见上述实施例中的相关描述，在此不再赘述。

与上述实施例的不同之处在于，如图2所示，所述将第一语句、第二语句及第一语句的预设知识语句输入对话模型之后，还包括：

步骤S21：利用对话模型分别对第一语句、第二语句及第一语句的预设知识语句进行编码，得到第一语句的语句向量、第二语句的语句向量、预设知识语句的语句向量；

所述根据所述第一语句、预设知识语句，利用所述对话模型确定所述预设知识语句与所述第一语句的预估相关概率，包括步骤S22：根据所述第一语句的语句向量和所述预设知识语句的语句向量，确定所述预估相关概率；

根据所述第一语句、所述第二语句及所述预设知识语句，利用所述对话模型确定所述预设知识语句与所述第一语句的参考相关概率，包括步骤S23：根据所述第一语句的语句向量、第二语句的语句向量，获得所述第一语句和所述第二语句的结合向量；根据所述结合向量和所述预设知识语句的语句向量，确定所述参考相关概率。

在本发明实施例中，对话模型对输入的语句进行处理，将语句映射到数字空间，使得后续相关概率的计算更加简便和客观。在本发明一种示例中，第一语句的语句向量为x，第二语句的语句向量为y，则第一语句和第二语句的结合向量为(x，y)，参考相关概率既体现了预设知识语句与第一语句是否相关的可能性，又体现了预设知识语句与第二语句是否相关的可能性。

在一种实施方式中，所述方法还包括：

在本发明实施例中，参考输出语句为对话模型在实际对话应用中可能产生的答复语句。答案中的预估词，可以是根据第一语句相关的预设知识语句获得关键词，该关键词反映第一语句的答复语句中可能包含的信息；还可以是第一语句的答复语句中可能包含的所有的信息。

在本发明一种示例中，对话模型对语句进行编码形成语句向量，以及对语句向量进行解码，形成语句时，可能存在一定的转换误差，使得转换出的语句与真实语句存在一定偏差。例如，预设知识语句可以是：A、我喜欢吃辣椒。B、我想当一个记者，但是实际上我是个销售员。C、我的鞋号是6码。第一语句为，“我不喜欢乐队，但是我喜欢阅读。”第二语句可以是“我喜欢写作。我想成为一个记者，但是实际上我是个销售员。”对话模型在预设知识语句中选择了相关的预设知识语句B，但是根据B生成的参考输出语句为：“我是一个销售员”。根据第一语句和相关的预设知识语句，获得的答案中的预估词包括“销售员”，但实际上第二语句中的预估词包括“写作”、“记者”、“销售员”。虽然使用了正确的预设知识语句，但是并没有生成与第一语句相关的答复语句，参考输出语句以及参考输出语句中的预估词均与第二语句存在一定的差异。因此在一种实施例中，还需要根据上述第二优化方案或者第三优化方案，对对话模型进行进一步优化。

在一种实施方式中，参照图3所示，所述对话模型包括：上文编码器31、知识编码器32、知识管理器33及解码器34；

所述上文编码器31用于对输入的第一语句进行编码，得到所述第一语句的语句向量和加权语句向量；

所述知识编码器32用于对输入的预设知识语句进行编码，得到所述预设知识语句的语句向量；还用于对所述第二语句进行编码，得到所述第二语句的语句向量；

所述知识管理器33用于根据所述预设知识语句的语句向量、第一语句的语句向量，确定所述预估相关概率；还用于根据所述预设知识语句的语句向量、第一语句的语句向量和第二语句的语句向量，确定所述参考相关概率；以及用于根据所述参考相关概率确定与所述第一语句相关的预设知识语句；

所述解码器34用于将所述加权语句向量和所述第一语句相关的预设知识语句进行解码，生成所述参考输出语句。

在本发明一种示例中，上文编码器和知识编码器都采用了经典的双向GRU(GatedRecurrent Unit，有门循环单元)结构。

在本发明实施例中，所述知识管理器还可以用于比较所述参考相关概率和预估相关概率，生成第一优化方案。

在一种示例中，对话模型的结构参照图4所示。包括上文编码器41、知识编码器42、知识管理器43和解码器44。知识管理器43进一步包括先验知识模块45和后验知识模块46。上文编码器41用于对输入的第一语句X进行编码，得到第一语句的语句向量x和加权语句向量C_t。知识编码器42用于对输入的预设知识语句K₁-K_n进行编码，得到预设知识语句的语句向量k₁-k_n；还用于对所述第二语句进行编码Y，得到所述第二语句的语句向量y。知识管理器43根据第一语句的语句向量x、第二语句的语句向量y和预设知识语句的语句向量k₁-k_n，确定与第一语句相关的预设知识语句k_i，解码器44用于将加权语句向量C_t和第一语句相关的预设知识语句向量k₁-k_n进行解码，生成所述参考输出语句。

在另一种示例中，对话模型的结构参照图5所示。包括上文编码器51、知识编码器52、知识管理器53和解码器54。上文编码器51用于对输入的第一语句X进行编码，得到第一语句的语句向量x和加权语句向量C_t。其中，加权语句向量C_t根据注意力机制得到。知识编码器52用于对输入的预设知识语句K₁-K_n进行编码，得到预设知识语句的语句向量k₁-k_n；还用于对所述第二语句进行编码Y，得到所述第二语句的语句向量y。知识管理器53根据第一语句的语句向量x和预设知识语句的语句向量k₁-k_n生成预估相关概率；还根据第一语句的语句向量x、第二语句的语句向量y和预设知识语句的语句向量k₁-k_n，生成参考相关概率。进一步还用于根据参考相关概率确定与第一语句相关的预设知识语句k_i。在本示例中，采用语句向量k₁-k_n和语句向量x的点乘表示预设知识语句与第一语句的预估相关概率p(k|x)，某个预设知识语句的预估相关概率越大，表示相关性越大。对话模型还包括两个多层感知器MLP 55(Multiple Layer Perception，多层感知器)。其中一个MLP 55用于将第二语句的语句向量y和第一语句的语句向量x映射为结合向量(x，y)，然后根据结合向量(x，y)和预设知识语句的语句向量k₁-k_n选择出与第一语句相关的预设知识语句k_i。在本示例中，采用采用语句向量k₁-k_n和结合向量(x，y)的点乘表示预设知识语句与第一语句的参考相关概率p(k|x，y)。相比预估相关概率，参考相关概率更加准确。知识管理器进一步还用于根据参考相关概率确定与第一语句相关的预设知识语句k_i，知识的选择可称为知识采样。根据参考相关概率p(k|x，y)，可以通过归一化指数函数Gumbel Softmax选择与第一语句相关的预设知识语句k₂。解码器54用于将加权语句向量C_t和第一语句相关的预设知识语句k₂进行解码，生成所述参考输出语句。在本发明一种示例中，解码器54可以采用传统的GRU解码器，它将选取的预设知识语句与生成的回复拼接起来，送入解码器中，从而强制知识参与回复语句生成。在另一种示例中，解码器54还可以采用传统的HGFU(Hierarchical Gated Fusion Unit，分层设门的聚合单元)，使得解码器能够自由决定知识是否参与回复生成、参与多少回复生成。

仍然参照图5，对话模型还包括KL Div(Kullback-Leibler divergence，库尔贝克散度)损失单元58、NLL(Negative Log-Likelyhood，负对数似然)损失单元56、BOW(BagOfWord，词袋)损失单元57。KL Div损失单元58用于计算预估相关概率和参考相关概率之间的差异。NLL损失单元56用于根据加权语句向量C_t、与第一语句相关的知识k₂计算参考输出语句和第二语句之间的差异。BOW损失单元57用于计算预估词w和第二语句之间的差异，预估词w根据与第一语句相关的预设知识语句k₂计算。MLP 55，用于将知识编码器52编码的第二语句的语句向量y和上下文编码器51编码的第一语句的语句向量x映射为第一语句和第二语句的结合向量(x，y)，还用于将于第一语句相关的预设知识语句k₂映射为预估词w。

本发明实施例还提供一种对话生成方法，如图6所示，该对话生成方法包括：

步骤S61：将第三语句和第三语句的预设知识语句输入对话模型。

步骤S62：获得第三语句的参考答复语句，所述第三语句的参考答复语句为所述对话模型根据所述第三语句及所述第三语句的预设知识语句输出的。

所述对话模型为根据本发明任意一项实施例所提供的模型优化方法优化后的所述对话模型。

所述知识管理器用于根据所述上文编码器和所述知识编码器输入的语句向量，确定与所述第三语句相关的预估知识语句；

所述解码器用于将所述加权语句向量和所述预估知识语句进行解码，生成所述参考答复语句。

对话模型的结构，可以参照图4、图5以及相关描述。

本发明实施例还提供一种对话模型训练装置，如图7A所示，包括：

输入模块71：用于将第一语句、第二语句及第一语句的预设知识语句输入对话模型；所述第二语句为所述第一语句的参考答复语句；

预估概率计算模块72：用于根据所述第一语句及所述预设知识语句，利用所述对话模型确定所述预设知识语句与所述第一语句的预估相关概率；

参考概率计算模块73：用于根据所述第一语句、所述第二语句及所述预设知识语句，利用所述对话模型确定所述预设知识语句与所述第一语句的参考相关概率；

第一优化方案获得模块74：用于根据所述预估相关概率和所述参考相关概率，获得第一优化方案；

第一优化模块75：用于根据所述第一优化方案，优化所述对话模型。

在一种实施方式中，参照图7B，所述装置还包括：

编码模块76：用于利用对话模型分别对第一语句、第二语句及第一语句的预设知识语句进行编码，得到第一语句的语句向量、第二语句的语句向量、预设知识语句的语句向量；

所述预估概率计算模块72还用于：根据所述第一语句的语句向量和所述预设知识语句的语句向量，确定所述预估相关概率；

所述参考概率计算模块73还用于：根据所述第一语句的语句向量、第二语句的语句向量，获得所述第一语句和所述第二语句的结合向量；根据所述结合向量和所述预设知识语句的语句向量，确定所述参考相关概率。

在一种实施方式中，所述装置还包括：

本发明实施例还提供一种对话生成装置，如图8所示包括：

输入模块81：用于将第三语句和第三语句的预设知识语句输入对话模型；

答复语句获得模块82：用于获得第三语句的参考答复语句，所述第三语句的参考答复语句为所述对话模型根据所述第三语句及所述第三语句的预设知识语句输出的；

所述对话模型为本发明任意一项实施例优化后的所述对话模型。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图9示出根据本发明实施例的设备的结构框图。如图9所示，该设备包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的对话模型训练方法。所述存储器910和处理器920的数量可以为一个或多个。

该设备还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA，Extended IndustryStandardArchitecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例还提供一种对话生成设备，结构可以参照图9所示的结构。包括能够执行本发明任意一项实施例所提供的对话生成方法的步骤。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种对话模型训练方法，其特征在于，包括：

根据所述第一语句及所述第一语句的预设知识语句，利用所述对话模型确定所述第一语句的预设知识语句与所述第一语句的预估相关概率；根据所述第一语句、所述第二语句及所述第一语句的预设知识语句，利用所述对话模型确定所述第一语句的预设知识语句与所述第一语句的参考相关概率；

根据所述预估相关概率和所述参考相关概率的偏差，获得第一优化方案；

根据所述第一优化方案，优化所述对话模型。

2.根据权利要求1所述的方法，其特征在于，所述将第一语句、第二语句及第一语句的预设知识语句输入对话模型之后，还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

和/或，根据所述与所述第一语句相关的所述预设知识语句，获得答案中的预估词；根据所述预估词和所述第二语句，获得第三优化方案；根据所述第三优化方案，优化所述对话模型。

4.根据权利要求3所述的方法，其特征在于，所述对话模型包括：上文编码器、知识编码器、知识管理器及解码器；

所述知识管理器用于根据所述预设知识语句的语句向量、第一语句的语句向量，确定所述预估相关概率；还用于根据所述预设知识语句的语句向量、所述第一语句的语句向量和所述第二语句的语句向量，确定所述参考相关概率；以及用于根据所述参考相关概率确定与所述第一语句相关的所述预设知识语句；

所述解码器用于根据所述加权语句向量和所述第一语句相关的预设知识语句的语句向量，生成所述参考输出语句。

5.一种对话生成方法，其特征在于，包括：

将第三语句和第三语句的预设知识语句输入对话模型；

获得第三语句的参考答复语句，所述第三语句的参考答复语句为所述对话模型根据所述第三语句及所述第三语句的预设知识语句确定的；

所述对话模型为采用权利要求1至4中任意一种方法优化后的对话模型。

6.根据权利要求5所述的方法，其特征在于，所述对话模型包括：上文编码器、知识编码器、知识管理器及解码器；

7.一种对话模型训练装置，其特征在于，包括：

预估概率计算模块：用于根据所述第一语句及所述第一语句的预设知识语句，利用所述对话模型确定所述第一语句的预设知识语句与所述第一语句的预估相关概率；

参考概率计算模块：用于根据所述第一语句、所述第二语句及所述第一语句的预设知识语句，利用所述对话模型确定所述第一语句的预设知识语句与所述第一语句的参考相关概率；

第一优化模块：用于根据所述第一优化方案，优化所述对话模型，使得后续获得的预估相关概率与对应的参考相关概率接近。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第四优化模块：用于根据所述与第一语句相关的所述预设知识语句，获得答案中的预估词；根据所述预估词和所述第二语句，获得第三优化方案；根据所述第三优化方案，优化所述对话模型。

10.根据权利要求9所述的装置，其特征在于，所述对话模型包括：上文编码器、知识编码器、知识管理器及解码器；

所述知识管理器用于根据所述预设知识语句的语句向量、第一语句的语句向量，确定所述预估相关概率；还用于根据所述预设知识语句的语句向量、第一语句的语句向量和第二语句的语句向量，确定所述参考相关概率；以及用于根据所述参考相关概率确定与所述第一语句相关的所述预设知识语句；

所述解码器用于根据所述加权语句向量和所述第一语句相关的所述预设知识语句向量，生成所述参考输出语句。

11.一种对话生成装置，其特征在于，包括：

所述对话模型为权利要求7至10中任意一项优化后的所述对话模型。

12.根据权利要求11所述的装置，其特征在于，所述对话模型包括：上文编码器、知识编码器、知识管理器及解码器；

13.一种对话模型优化设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至4中任一项所述的方法。

14.一种对话生成设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求5至6中任一项所述的方法。

15.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述的方法。