CN110188182A

CN110188182A - 模型训练方法、对话生成方法、装置、设备及介质

Info

Publication number: CN110188182A
Application number: CN201910470526.9A
Authority: CN
Inventors: 杨敏; 闭玮; 刘晓江; 陈磊; 黄婷婷
Original assignee: Shenzhen Institute of Advanced Technology of CAS; Tencent Cyber Tianjin Co Ltd
Current assignee: Shenzhen Institute of Advanced Technology of CAS; Tencent Cyber Tianjin Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-08-30
Anticipated expiration: 2039-05-31
Also published as: US11875126B2; WO2020238985A1; US20210342551A1; CN110188182B

Abstract

本申请公开一种对话生成模型训练方法，包括：获取对话数据集，所述对话数据集中的对话数据包括问句和所述问句对应的标注回复；基于所述对话数据集中的所述问句，通过构建的对话生成模型中的编码器获得所述问句的编码表示，通过所述对话生成模型中的解码器融合所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息，获得所述对话生成模型输出的所述问句对应的预测回复；基于所述问句对应的预测回复和标注回复确定损失函数，通过损失函数调整所述对话生成模型的参数直到所述对话生成模型的损失函数处于收敛。该方法使得模型能够更好融合知识信息，从而提高对话生成准确性和合理性。本申请还公开对话生成方法、装置、设备及介质。

Description

模型训练方法、对话生成方法、装置、设备及介质

技术领域

本申请涉及机器学习技术领域，尤其涉及一种对话生成模型训练方法、对话生成方法、装置、设备及计算机存储介质。

背景技术

开放域对话生成任务是指在开放领域内机器根据对话的问句生成对应的回复，因其强大的功能和广泛的应用场景，近来受到越来越多的关注和研究。

目前开放域对话生成任务通常依赖对话生成模型来实现，而为了使得对话生成模型能够生成具有更多信息量且更合理的回复，业内研究提出在开放域对话生成任务中融合外部常识知识库信息能够使得生成的回复更加合理且更加富有信息量。

但是，相关技术中提出的融合外部常识知识库信息的方式，是比较粗粒度的融合，其只考虑到将问句中实体关联到外部知识融合到回复生成中，其并未考虑到更细粒度的融合，并未考虑外部知识的准确性以及合理性，这种融合效果并不好，还不能满足实际应用需求。因此，如何更好地融合外部常识知识库是开放域对话生成领域发展亟需解决的技术问题。

发明内容

本申请提供了一种对话生成模型训练方法，其通过迁移学习知识库问答模型中的知识信息训练对话生成模型，利用知识库问答模型的高精准性，更好地融合知识信息，从而提高对话生成准确性。本申请还提供了对话生成方法以及对应的装置、设备、介质及计算机程序产品。

有鉴于此，本申请第一方面提供了一种对话生成模型训练方法，所述方法包括：

获取对话数据集，所述对话数据集中的对话数据包括问句和所述问句对应的标注回复；

基于所述对话数据集中的所述问句，通过构建的对话生成模型中的编码器获得所述问句的编码表示，通过所述对话生成模型中的解码器融合所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息，获得所述对话生成模型输出的所述问句对应的预测回复；

基于所述问句对应的预测回复和标注回复确定损失函数，通过损失函数调整所述对话生成模型的参数直到所述对话生成模型的损失函数处于收敛。

本申请第二方面提供一种对话生成模型训练方法，所述方法包括：

接收终端发送的待回答的问句；

通过预训练的对话生成模型中的编码器获得所述问句的编码表示，通过所述对话生成模型中的解码器融合所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息，获得所述对话生成模型输出的所述问句对应的预测回复；

向所述终端发送所述预测回复。

本申请第三方面提供一种对话生成模型训练装置，所述装置包括：

获取模块，用于获取对话数据集，所述对话数据集中的对话数据包括问句和所述问句对应的标注回复；

训练模块，用于基于所述对话数据集中的所述问句，通过构建的对话生成模型中的编码器获得所述问句的编码表示，通过所述对话生成模型中的解码器融合所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息，获得所述对话生成模型输出的所述问句对应的预测回复，基于所述问句对应的预测回复和标注回复确定损失函数，通过损失函数调整所述对话生成模型的参数直到所述对话生成模型的损失函数处于收敛。

可选的，所述装置还包括：

第一迁移模块，用于获取所述问句的上下文注意力向量，将所述问句的上下文注意力向量输入所述知识库问答模型中的多层感知机网络中，通过所述多层感知机网络获得所述问句的增强注意力向量，将所述问句的增强注意力向量作为针对所述问句从知识库问答模型中迁移学习的知识信息。

可选的，所述装置还包括：

第二迁移模块，用于将所述问句输入所述知识库问答模型，获取所述知识库问答模型中编码器输出的编码表示，作为所述问句的第二编码表示；

确定模块，用于确定所述问句的相似问句对应的回复作为相似候选回复，根据所述相似候选回复的词嵌入表示和所述问句的第一编码表示确定互注意力，作为所述问句的第三编码表示；

则所述训练模块具体用于：

将所述通过所述对话生成模型中的编码器获得所述问句的编码表示，作为所述问句的第一编码表示；

将所述问句的第二编码表示和第三编码表示中至少一个，与所述问句的第一编码表示进行拼接，将拼接后的编码表示作为所述问句的综合编码表示；

通过所述对话生成模型中的解码器融合所述问句的综合编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息。

可选的，所述装置还包括：

知识库问答模型构建模块，用于构建端到端结构的神经网络模型，基于通用数据集和常识知识库训练所述神经网络模型，在训练过程中通过铰链损失函数调整所述神经网络模型的参数，直到所述神经网络模型的损失函数处于收敛，将处于收敛状态的神经网络模型作为所述知识库问答模型。

可选的，所述训练模块在通过构建的对话生成模型中的编码器获得所述问句的编码表示时，具体用于:

通过构建的对话生成模型基于词嵌入模型确定所述问句的词嵌入表示，根据所述词嵌入表示通过双向长短期记忆网络编码得到隐藏层状态表示，将所述隐藏层状态表示作为所述问句的编码表示。

本申请第四方面提供一种对话生成装置，所述装置包括：

接收模块，用于接收终端发送的待回答的问句；

生成模块，用于通过预训练的对话生成模型中的编码器获得所述问句的编码表示，通过所述对话生成模型中的解码器融合所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息，获得所述对话生成模型输出的所述问句对应的预测回复；

发送模块，用于向所述终端发送所述预测回复。

可选的，所述装置还包括：

可选的，所述第一迁移模块在通过所述多层感知机网络获得所述问句的增强注意力向量具体用于：

获取所述多层感知机网络基于所述问句的上下文注意力向量和从知识库词表中各词分别迁移到的知识信息；

根据所述问句的上下文注意力向量和所述知识库中词表中各词的实体嵌入表示，确定所述问句的增强注意力向量。

可选的，所述第一迁移模块在获得所述对话生成模型输出的所述问句对应的预测回复时具体用于：

获得所述对话生成模型中解码器的隐藏层状态表示；

将所述对话生成模型中解码器的隐藏层状态表示和所述增强注意力向量输入所述对话生成模型中分类层；

根据所述分类层输出的预测单词分布生成所述问句对应的预测回复。

可选的，所述第一迁移模块在获得所述对话生成模型中解码器的隐藏层状态表示时具体用于：

将所述对话生成模型中编码器针对所述问句中最后一个词的隐藏状态表示，作为所述对话生成模型中解码器的初始状态并将预设符号作为初始符号；

根据所述对话生成模型中解码器的上一时间步状态和上一时间步生成的符号对应的词嵌入表示以及所述对话生成模型中编码器的当前时间步生成的注意力向量作为所述对话生成模型中解码器的输入，获得所述对话生成模型中解码器在当前时间步的隐藏层状态表示。

可选的，所述装置还包括：

则所述生成模块具体用于：

通过所述对话生成模型中的解码器融合所述问句的综合编码表示和针对所述问句从所述知识库问答模型中迁移学习的知识信息。

本申请第五方面提供一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行本申请第一方面所述的对话生成模型训练方法或第二方面所述的对话生成方法。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面所述的对话生成模型训练方法或第二方面所述的对话生成方法。

本申请第五方面提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行本申请第一方面所述的对话生成模型训练方法或第二方面所述的对话生成方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种对话生成模型训练方法，在训练模型时，首先获取对话数据集，对话数据集中的对话数据包括问句和问句对应的标注回复，然后基于所述对话数据集中的所述问句，通过构建的对话生成模型中的编码器获得所述问句的编码表示，接着通过所述对话生成模型中的解码器融合所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息，由于知识库问答模型中的知识信息具有较高的精准性，因此，对话生成模型融合该知识信息输出的所述问句对应的预测回复具有较高的精准性，基于该预测回复和标注回复确定的损失函数调整对话生成模型参数以实现模型训练，一方面提高了模型的训练效率，另一方面提高了模型的精准度。

基于上述模型训练方法训练得到的对话生成模型，本申请实施例还提供了一种对话生成方法，该对话生成模型将知识库问答模型中的知识信息迁移到开放域对话生成任务中，通过利用知识库问答模型的高精准性，使得模型能够更好地融合知识信息，从而提高对话生成准确性和合理性。

附图说明

图1为本申请实施例中对话生成模型训练方法的场景架构图；

图2为本申请实施例中对话生成模型训练方法的流程图；

图3为本申请实施例中对话生成方法的场景架构图；

图4为本申请实施例中对话生成方法的流程图；

图5为本申请实施例中对话生成模型的结构示意图；

图6为本申请实施例中对话生成方法的流程图；

图7为本申请实施例中对话生成方法的应用场景示意图；

图8为本申请实施例中对话生成模型训练装置的结构示意图；

图9为本申请实施例中对话生成模型训练装置的结构示意图；

图10为本申请实施例中对话生成模型训练装置的结构示意图；

图11为本申请实施例中对话生成模型训练装置的结构示意图；

图12为本申请实施例中对话生成装置的结构示意图；

图13为本申请实施例中对话生成装置的结构示意图；

图14为本申请实施例中对话生成装置的结构示意图；

图15为本申请实施例中设备的一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

针对将问句中实体关联到外部知识以将外部知识融合到回复中，存在的融合效果不好、不能满足实际应用需求的问题，本申请提供了一种对话生成模型训练方法，该方法在训练对话生成模型时，从知识库问答模型(Knowledge Base Question Answering，KBQA)中迁移针对问句的知识信息，由于知识库问答模型具有较好的精准性，因此，在融合所述问句的编码表示和针对所述问句的知识信息时具有较好的融合效果，该对话生成模型基于融合信息能够输出针对所述问句的预测回复，基于该预测回复和对话数据集中对话数据携带的标注回复可以确定损失函数，基于该损失函数调整对话生成模型的参数实现模型训练，提高了训练效率和精准度，使得模型能够满足实际应用需求。

可以理解，本申请提供的对话生成模型训练方法可以应用于任意具有数据处理能力的处理设备，该处理设备可以是终端，也可以是服务器。其中，终端可以是桌面终端，也可以是智能手机、平板电脑等便携式移动终端，还可以是车载终端，或者增强现实(AugmentedReality，AR)终端、虚拟现实(Virtual Reality，VR)终端，本申请对此不作限定。

其中，处理设备可以独立存在，也可以是以集群的形式存在。在实际应用时，上述对话生成模型训练方法可以以计算机程序的形式存储于处理设备中，处理设备通过执行应用程序实现本申请的对话生成模型训练方法。需要说明的是，计算机程序可以是独立的应用程序，也可以是集成于其他程序上的功能模块、插件、小程序等等。

为了使得本申请的技术方案更加清楚、易于理解，下面将以处理设备为服务器作为示例，结合具体场景对本申请提供的对话生成模型训练方法进行介绍。

参见图1所示的对话生成模型训练方法的场景架构图，该场景中包括服务器10和样本库20，其中，样本库20中存储有对话数据集，服务器10从样本库20中获取对话数据集进行模型训练。

具体地，对话数据集中的对话数据包括文件和所述问句对应的标注回复，服务器10基于所述对话数据集中的所述问句，通过构建的对话生成模型中的编码器获得所述问句的编码表示，通过所述对话生成模型中的解码器融合所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息，获得所述对话生成模型输出的所述问句对应的预测回复；然后基于所述问句对应的预测回复和标注回复确定损失函数，通过损失函数调整所述对话生成模型的参数直到所述对话生成模型的损失函数处于收敛。

接下来，将从服务器的角度对本申请实施例提供的对话生成模型训练方法的各个步骤进行详细说明。

参见图2所示的对话生成模型训练方法的流程图，该方法包括：

S201：获取对话数据集。

所述对话数据集中的对话数据包括问句和所述问句对应的标注回复。该对话数据集中每一组对话数据作为一个训练样本，用于训练对话生成模型。在实际应用时，对话数据集可以是已有的数据集，如reddit单轮对话数据集，也可以是服务器从网络中爬取问句，并对所述问句标注对应的回复而生成的。

S202：基于所述对话数据集中的所述问句，通过构建的对话生成模型中的编码器获得所述问句的编码表示，通过所述对话生成模型中的解码器融合所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息，获得所述对话生成模型输出的所述问句对应的预测回复。

可以理解，对话生成模型是一种基于编码器-解码器结构的网络模型，该对话生成模型以问句为输入，以针对该问句的回复为输出。服务器通过编码器对输入模型的问句进行编码获得所述问句的编码表示，解码器将所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息进行融合，并对融合后的信息解码以便生成所述问句对应的预测回复。

在具体实现时，服务器可以通过构建的对话生成模型基于词嵌入模型确定所述问句的词嵌入表示，然后根据所述词嵌入表示通过双向长短期记忆网络(BidirectionalLong Short-Term Memory，BiLSTM)编码得到隐藏层状态表示，将所述隐藏层状态表示作为所述问句的编码表示。

考虑到对话生成模型是一种序列到序列(Sequence-to-Sequence,Seq2Seq)框架的模型，输入该对话生成模型的问句可以通过单词序列的形式呈现，如问句X＝{x₁,x₂,…x_Tx}，该对话生成模型输出的答复也可以通过单词序列的形式呈现，如答复Y＝{y₁,y₂,…y_Ty}，如此，训练对话生成模型实质上是对条件概率P(Y|X)进行建模。

具体到本申请，服务器在建模P(Y|X)时是结合知识库问答模型实现的。其中，知识库问答模型是一种基于知识库的问答模型。知识库也称作知识图谱，是一种以知识为主要单位，以实体为主要载体，包含着对万千事物的认知与各类事实的庞大数据库。知识库中的知识一般以三元组形式呈现，该三元组具体表现为<头实体，关系，尾实体>，其中，实体是指人、地点或者特定概念等，关系是指头实体和尾实体的逻辑关系。作为一个示例，中国的首都是北京，可以通过如下三元组表征：<中国，首都，北京>。

在实际应用时，服务器从知识库问答模型中迁移学习针对所述问句的知识信息。具体地，服务器获取所述问句的上下文注意力向量，将所述问句的上下文注意力向量输入所述知识库问答模型中的多层感知机(Multi-Layer Perception)网络中；通过所述MLP获得所述问句的增强注意力向量，将所述问句的增强注意力向量作为针对所述问句从知识库问答模型中迁移学习的知识信息。

如此，服务器通过对话生成模型中的解码器融合所述问句的编码表示和所述增强注意力向量，针对融合后的向量可以通过对话生成模型中的分类器如softmax进行单词概率分布预测，从而获得所述对话生成模型输出的所述问句对应的预测回复。

S203：基于所述问句对应的预测回复和标注回复确定损失函数，通过损失函数调整所述对话生成模型的参数直到所述对话生成模型的损失函数处于收敛。

在本实施例中，损失函数用于表征预测回复和标注回复的不一致程度。可以理解，损失函数具有多种类型，在实际应用时可以根据需求选择相应类型的损失函数。作为一个示例，服务器可以采用交叉熵损失函数进行模型训练。换言之，服务器可以将预测回复的单词分布与标注回复的单词分布的交叉熵作为对话生成模型的损失函数，具体如下：

其中，L为损失函数，θ代表模型所有参数集合，D代表包含<问句(post),回复(response)>序列对的训练集，T_y代表生成回复的长度，x、y、t分别代表问句(post)、回复(response)以及解码时间步。

在具体实现时，服务器根据问句对应的预测回复和标注回复确定损失函数，然后基于该损失函数调整对话生成模型的参数，直至对话生成模型的损失函数处于收敛状态，如此，即实现了对话生成模型的训练。

由上可知，本申请实施例提供了一种对话生成模型的训练方法，该方法在训练对话生成模型时，从知识库问答模型中迁移针对问句的知识信息，由于知识库问答模型具有较好的精准性，因此，在融合所述问句的编码表示和针对所述问句的知识信息时具有较好的融合效果，该对话生成模型基于融合信息能够输出针对所述问句的预测回复，基于该预测回复和对话数据集中对话数据携带的标注回复可以确定损失函数，基于该损失函数调整对话生成模型的参数实现模型训练，提高了训练效率和精准度，使得模型能够满足实际应用需求。

可以理解，服务器除了可以利用迁移学习从知识库问答模型迁移知识信息，还可以利用迁移学习从知识库问答模型迁移针对问句的句子建模表示，将其与编码器对问句编码所得编码表示结合，如此可以提高编码表示的精准度，从而提高对话生成模型回复生成的准确性和合理性。

具体地，服务器将通过对话生成模型中的编码器获得所述问句的编码表示，作为所述问句的第一编码表示，服务器还将问句输入至知识库问答模型，获取所述知识库问答模型中编码器输出的编码表示，作为所述问句的第二编码表示，然后将所述问句的第一编码表示和所述问句的第二编码表示进行拼接，将拼接后的编码表示作为所述问句的综合编码表示，在解码过程中，服务器通过对话生成模型中的解码器融合所述问句的综合编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息进行解码。

在一些可能的实现方式中，服务器还可以引入回复引导注意力机制生成问句的编码表示。其中，回复引导注意力机制是指检索出与问句对应的相似问句，将所述相似问句对应的回复作为问句的相似候选回复，基于相似候选回复的词嵌入表示和第一编码表示确定互注意力，作为问句的第三编码表示。如此，服务器可以将所述问句的第一编码表示和所述问句的第三编码表示进行拼接，将拼接后的编码表示作为所述问句的综合编码表示，通过所述对话生成模型中的解码器融合所述问句的综合编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息进行解码。

在实际应用时，服务器还可以将所述问句的第一编码表示、所述问句的第二编码表示以及所述问句的第三编码表示进行拼接，将拼接后的编码表示作为所述问句的综合编码表示，接着通过所述对话生成模型中的解码器融合所述问句的综合编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息。

可以理解，图2所示实施例中知识库问答模型可以是预先构建的。本申请还提供了一种构建知识库问答模型的实现方式。具体地，服务器构建端到端结构的神经网络模型，然后基于通用数据集和常识知识库训练所述神经网络模型，其中，通用数据集可以是SimpleQuestions，常识知识库可以是freebase-FB2M，在训练过程中通过铰链损失函数Hingeloss调整所述神经网络模型的参数，直到所述神经网络模型的损失函数处于收敛，将处于收敛状态的神经网络模型作为所述知识库问答模型。

在一个示例中，Hinge loss具体可以为：

loss＝max{0,λ-S(q，G⁺)+S(q,G^-)} (2)

其中，q表征问句，G代表候选知识答案集，G⁺代表正例集合，G^-代表负例集合，S代表q与G中正例集合或负例集合的关联度，λ为超参数。

以上为本申请实施例提供对话生成模型训练方法的具体实现方式，基于上述实现方式训练得到的对话生成模型，本申请还提供了一种对话生成方法，下面结合具体实施例进行说明。

可以理解，本申请提供的对话生成方法可以应用于服务器，对话生成方法以计算机程序的形式存储于服务器中，服务器通过执行该计算机程序实现本申请的对话生成方法。

为了方便理解，本申请还将结合具体场景对该对话生成方法进行说明。

参见图3所示的对话生成方法的场景架构图，该场景中包括服务器10和终端20，其中，服务器10接收终端发送的待回答的问句，通过预训练的对话生成模型中的编码器获得所述问句的编码表示，通过所述对话生成模型中的解码器融合所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息，获得所述对话生成模型输出的所述问句对应的预测回复；接着，服务器10向所述终端20发送所述预测回复，指示所述终端20显示预测回复，从而实现与用户的智能交互。

接下来，从服务器的角度对本申请实施例提供的对话生成方法的各个步骤进行详细说明。

参见图4所示的对话生成方法的流程图，该方法包括：

S401：接收终端发送的待回答的问句。

在具体实现时，终端的显示界面承载有输入控件和/或选择控件，用户可以通过输入控件输入问句，或者通过选择控件选择问句，终端响应于用户的输入操作或者选择操作，向服务器发送问句，该问句即为待回答的问句。

其中，用户在输入问句或者选择问句时，可以输入或选择一个问句，也可以输入或选择多个问句，问句的数量并不影响本申请的具体实现。

S402：通过预训练的对话生成模型中的编码器获得所述问句的编码表示，通过所述对话生成模型中的解码器融合所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息，获得所述对话生成模型输出的所述问句对应的预测回复。

S403：向所述终端发送所述预测回复。

具体地，服务器内置对话生成模型，服务器利用对话生成模型的编码器对问句进行编码，获得所述问句的编码表示，接着利用对话生成模型的解码器融合所述问句的编码表示和所述针对所述问句从知识库问答模型中迁移学习的知识信息，通过利用对话生成模型的分类器对解码后信息分类，从而获得所述对话生成模型输出的所述问句对应的预测回复。

针对编码过程，本申请提供了多种实现方式获得所述问句的编码表示，下面分别进行说明。

第一种实现方式为，利用对话生成模型的编码器编码生成第一编码表示，将该第一编码表示作为所述问句的编码表示。在具体实现时，服务器可以通过构建的对话生成模型基于词嵌入模型确定所述问句的词嵌入表示，根据所述词嵌入表示通过BiLSTM编码得到隐藏层状态表示，将所述隐藏层状态表示作为所述问句的第一编码表示，如此即得到所述问句的编码表示。

第二种实现方式为，服务器将所述问句输入所述知识库问答模型，获取所述知识库问答模型中编码器输出的编码表示，作为所述问句的第二编码表示，该第二编码表示即为从KBQA中迁移学习得到针对问句的句子建模表示，将所述问句的第一编码表示和所述问句的第二编码表示进行拼接，将拼接后的编码表示作为所述问句的综合编码表示。

第三种实现方式为，服务器确定所述问句的相似问句对应的回复作为相似候选回复，根据所述相似候选回复的词嵌入表示和所述问句的第一编码表示确定互注意力，作为所述问句的第三编码表示，然后将所述问句的第一编码表示和所述问句的第三编码表示进行拼接，将拼接后的编码表示作为所述问句的综合编码表示。

第四种实现方式为，将所述问句的第一编码表示、第二编码表示和所述问句的第三编码表示进行拼接，将拼接后的编码表示作为所述问句的综合编码表示。

针对解码过程，服务器引入从知识库问答模型迁移学习得到的针对所述问句的知识信息进行融合，具有较好的融合效果。具体地，服务器获取所述问句的上下文注意力向量，将所述问句的上下文注意力向量输入所述知识库问答模型中的MLP网络中，通过所述MLP网络获得所述问句的增强注意力向量，将所述问句的增强注意力向量作为针对所述问句从知识库问答模型中迁移学习的知识信息。如此，服务器通过对话生成模型中的解码器融合所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息，以获得所述对话生成模型输出的所述问句对应的预测回复。

在基于MLP网络获得所述问句的增强注意力向量时，具体可以通过如下方式实现：获取所述MLP网络基于所述问句的上下文注意力向量和从知识库词表中各词分别迁移得到的知识信息，根据所述上下文注意力向量和所述知识库词表中各词的实体嵌入表示，确定问句的增强注意力向量。

在实际应用时，服务器获得对话生成模型中解码器的隐藏层状态表示，然后将所述对话生成模型中解码器的隐藏层状态表示和上述增强注意力向量输入所述对话生成模型中分类层如softmax层，根据所述分类层输出的预测单词分布生成所述问句对应的预测回复。

其中，获得对话生成模型中解码器的隐藏层状态表示具体可以通过如下方式实现：将所述对话生成模型中编码器针对所述问句中最后一个词的隐藏状态表示，作为所述对话生成模型中解码器的初始状态并将预设符号作为初始符号(start of sentence，SOS)，根据所述对话生成模型中解码器的上一时间步状态和上一时间步生成的符号对应的词嵌入表示以及所述对话生成模型中编码器的当前时间步生成的注意力向量作为所述对话生成模型中解码器的输入，获得所述对话生成模型中解码器在当前时间步的隐藏层状态表示。

需要说明的是，解码第一时间步时，由于没有上一时间步的状态，此时可以采用初始状态作为上一时间步的状态，解码第一时间步时也没有第一时间步的生成词，此时可以将SOS作为上一时间步的生成词。

需要说明的是，解码器融合的所述问句的编码表示是上述编码过程中获得的编码表示。也即，采用第一种实现方式编码时，则解码器融合的是第一编码表示，采用第二种实现方式、第三种实现方式或第四种实现方式时，则解码器融合的是拼接得到的综合编码表示。

由上可知，本申请实施例提供了一种对话生成方法，该方法是基于对话生成模型实现的，该对话生成模型将知识库问答模型中的知识信息迁移到开放域对话生成任务中，通过利用知识库问答模型的高精准性，使得模型能够更好地融合知识信息，从而提高对话生成准确性和合理性。

为了使得本申请的技术方案更加清楚、易于理解，本申请还提供了对话生成方法更为具体的实施例，下面将结合对话生成模型的结构进行说明。

参见图5所示的对话生成模型的结构示意图，以及图6所示的训练对话生成模型的方法流程图，如图5所示，对话生成模型主要由两大模块组成：知识库问答(KBQA)模块和对话生成模块。

在KBQA模块中，服务器先确定问题Q和候选知识答案K的嵌入表示，针对问题Q，采用BiLSTM对其嵌入表示进行编码，再进行拼接，得到问题Q的编码表示，针对候选知识答案K，通过其编码层编码得到候选知识答案的编码表示，基于问题Q和候选知识答案K的编码表示计算语义相似度，MLP能够基于语义相似度匹配结果筛选最佳候选答案，作为针对所述问题Q的答案A。

在对话生成模块中，确定问句的嵌入表示，然后利用BiLSTM对其嵌入表示进行编码，再进行拼接，得到问句的第一编码表示，此外，从KBQA中迁移学习得到问句建模表示，即问句的第二编码表示，以及基于问句P确定上下文注意力向量，基于上下文注意力向量和回复引导注意力机制确定问句的第三编码表示，将上述第一编码表示、第二编码表示和第三编码表示拼接得到综合编码表示，对话生成模块中的解码器融合该综合编码表示和基于该对话生成模块的从KBQA的MLP中迁移学习得到的针对问句的知识信息，生成回复Y。

对话生成模型的训练过程包括两部分，首先预训练KBQA，如图6中S601和S602所示，然后基于预训练的KBQA训练对话生成模型，如图6中S603和S604所示，该方法包括：

S601：针对通用数据集，服务器分别对问题和该问题对应的候选知识答案进行编码，得到所述问题的编码表示和所述候选知识答案的编码表示。

具体地，通用数据集如Simple Questions中包括多组问答数据，每组问答数据包括问题Q和该问题Q对应的候选知识答案集G，其中，问题Q对应的候选知识答案集可以分为正例集合G⁺和负例集合G^-，正例集合是指元素为正确答案的集合，负例集合是指元素为错误答案的集合，在训练KBQA时，针对每一个问题Q，正例集合为正确标注答案，负例集合为在常识知识库freebase-FB2M中随机采样20个错误答案。候选知识答案集G中至少包括一条正例，服务器分别对问题和候选知识答案进行编码以用于模型训练。

在对问题进行编码时，服务器针对问题Q，分别从词级别和依存级别进行编码，接着将词级别和依存级别得到的两种表示进行叠加，得到问题Q的编码表示。

其中，词级别编码具体是对问题Q利用预训练的通用词向量(Global Vectors forWord Representation，GloVe)转换得到词嵌入表示，然后使用BiLSTM对词嵌入表示进行编码，再将通过BiLSTM编码得到的表示拼接，从而得到问题Q的词级别表示，具体计算过程参见如下公式：

其中，为问题Q中第i个词的词嵌入表示，为词级别上问题Q经过反向LSTM得到的编码表示，为词级别上问题Q经过正向LSTM得到的编码表示。

在本实施例中，为了更好地表征问题Q中的依存关系，先将问题Q中所有实体替换为<E>后得到问题Q’，针对问题Q’中的依存关系用带方向的依存标签进行替换，得到替换后的问题Q”，例如，将{what is the best movie in the<E>}替换成接着利用GloVe转换得到词嵌入表示，然后使用BiLSTM对词嵌入表示进行编码，再将通过BiLSTM编码得到的表示拼接，从而得到问题Q的依存级别表示，具体参见如下公式：

其中，为依存级别上问题Q经过反向LSTM得到的编码表示，为依存级别上问题Q经过正向LSTM得到的编码表示。

将上述公式(4)和公式(6)叠加，可以得到问题Q的编码表示如下：

q＝q^(tok)+q^(dep) (7)

针对候选知识答案的编码，该候选知识答案可以通过三元组表征，考虑到知识三元组的编码表示，服务器可以从词级别和知识级别对候选知识答案进行编码，然后将将词级别和依存级别得到的两种表示进行叠加，得到候选知识答案的编码表示。

针对词级别编码，将知识三元组视为单个词的组合，给定单词序列使用预训练的GloVe将每个单词转换为对应的词嵌入表示，该词嵌入表示通过向量进行表征，然后对n个单词的向量取平均值，作为该知识三元组在词级别的嵌入表示p^(w)，也即候选知识答案的嵌入表示。

针对知识级别编码，将知识三元组视为一个整体，给定知识三元组，通过神经网络自动学习到的知识嵌入表示方法得到知识级别的嵌入表示p^(id)。

如此，将词级别和知识级别的嵌入表示进行叠加，得到候选知识答案的编码表示如下：

p＝p^(w)+p^(id) (8)

S602：通过问题和候选知识答案的编码表示，计算出二者间的语义匹配相似度，根据所述语义匹配相似度确定最佳答案，基于该最佳答案可以确定损失函数，基于损失函数调整神经网络模型的参数，直至所述神经网络模型的损失函数处于收敛。

给定候选知识答案集的向量表示G＝{p⁽¹⁾,…,p^(N)}，为了计算问题和候选知识答案间的语义匹配相似度，服务器采用S-MART作为实体链接工具，以得到每个问题Q关于候选知识答案集中所有实体的链接分数S_ent，将实体链接的结果即S_ent、问题以及候选知识答案的表示作为特征输入到一个MLP网络中，MLP网络输出问题Q与候选知识答案集G中每一个候选知识答案的关联度，该关联度S(q⁽ⁱ⁾,p⁽ⁱ⁾)可以作为语义匹配相似度：

S(q⁽ⁱ⁾,p⁽ⁱ⁾)＝MLP([q⁽ⁱ⁾；pⁱ；S_ent]) (9)

在具体实现时，服务器可以基于最佳答案确定当前损失函数，如上述公式(2)所示，服务器基于该损失函数Hinge loss对神经网络模型的参数进行调整，可以极大化正例集合与负例集合之间的间距，当模型的损失函数Hinge loss处于收敛时，服务器可以将收敛的神经网络模型作为KBQA模型，用于后续对话生成模型的训练。

S603：针对reddit数据集，服务器通过对话生成模型自身的编码器对问句编码获得第一编码表示，从预训练的KBQA迁移学习得到针对问句的第二编码表示，通过回复引导注意力机制得到针对问句的第三编码表示，将第一编码表示、第二编码表示和第三编码表示拼接得到综合编码表示。

具体地，reddit数据集中包括对话数据，每组对话数据包括问句以及问句对应的标注回复。假设问句的单词序列为X＝{x₁,x₂,…x_Tx}，首先基于GloVe转换得到每一个单词x_t的词嵌入表示e(x_t),然后利用BiLSTM编码得到其隐藏层状态表示，作为第一编码表示，具体如下:

h_t＝BiLSTM(e(x_t),h_t-1) (10)

进一步地，服务器还使用预训练的KBQA中对问题Q进行编码的BiLSTM对问句再次编码，得到迁移学习后的问句表示，即第二编码表示，如下所示：

其中，表征针对问句的词级别表示，表征针对问句的依存级别表示。

此外，为了更好地辅助对话回复的生成，本申请还提出一种回复引导注意例机制，服务器采用检索工具，如Lucene，检索与问句最相似的k个问句，将其对应的k个回复作为候选回复，计算第i个候选回复的嵌入表示e(Y_i)关于当前问句隐藏层状态表示的互注意力：

其中，f是非线性激活函数，作为一个示例，其可以采用tanh函数。

接着，对这k个隐藏层状态表示进行加权平均，以得到回复引导注意例机制的最终隐藏层状态表示，即第三编码表示，如下所示：

将上述公式(11)至(13)叠加，得到问句的综合编码表示：

S604：通过对话生成模型的解码器融合问句的综合编码表示以及从KBQA模型中迁移学习得到的知识信息，得到预测回复，基于预测回复和标注回复确定损失函数，通过损失函数调整所述对话生成模型的参数直到所述对话生成模型的损失函数处于收敛。

具体地，解码器选用LSTM，则解码器的隐藏层状态计算过程为：

s_t＝LSTM(s_t-1，[c_t；e(y_t-1)]) (15)

其中，s_t-1为解码时间步为t-1时解码器的隐藏层状态表示，e(y_t-1)为第t-1个生成词的词嵌入表示。c_t为解码时间步为t时的上下文注意力向量，其计算过程为：

其中，e_tk是第t-1时刻解码器隐藏层状态表示与编码器第k时刻隐藏层状态表示的相似度，其是关于s_t-1和h_k的函数，其中，V_b、W_b和U_b是函数关系中要学习的参数，tanh是双曲函数；同理，e_tj是第t-1时刻解码器隐藏层状态表示与编码器第j时刻隐藏层状态表示的相似度，j取值为1至T_x(包含端点在内)的正整数，其中，T_x是指问句转换为词序列时词的个数；a_tk是解码器第t时刻在编码器第k时刻的注意力权重，其可以基于上述相似度计算得到。

在Seq2Seq框架中，为了从KBQA模型中迁移知识信息，服务器将上下文注意力向量送入到之前预训练的KBQA模型中的MLP网络中：

其中，r_k为迁移学习得到知识信息，其是将上下文注意力向量送入预训练的KBQA中所述MLP网络输出的结果，e_k为知识库中的实体嵌入表示，为问句的实体链接分数，为基于KBQA模型迁移后的增强注意力向量，|V_k|为知识库的词表大小。

最后，将解码器的隐藏层状态表示s_t和增强注意力向量a～_t送入softmax层，以产生预测的单词分布，从而生成最终的对话回复：

其中，W₀、W_p和b₀为要学习的参数。

可以理解，本申请提供的对话生成方法可以应用于人工智能(ArtificialIntelligence，AI)的多个场景中，例如，应用于聊天机器人、智能客服助手、新闻自动评论等等。

为了使得本申请的技术方案更加清楚、易于理解，下面结合智能客服助手的应用场景对本申请的对话生成方法进行介绍。

参见图7所示的对话生成方法的场景图，该场景中包括服务器10和终端20，服务器10为购物平台方服务器，该服务器10内置有对话生成模型，当用户通过终端20提问时，服务器10可以基于该对话生成模型生成与用户提出的问句对应的回复，并将该回复发送至终端20，从而实现智能客户服务。

具体地，用户通过终端20提供的客服界面21输入问句22，即“这条裤子码数正吗”，终端20接收到用户输入的问句，将该问句确定为待回答的问句，并向服务器10发送该待回答的问句，请求对应的回复。

服务器10接收到终端20发送的待回答的问句，将文句输入至对话生成模型，通过对话生成模型中的编码器对待回答的文句进行编码，得到该待回答问句的编码表示，其中，该编码表示具体为对话生成模型自身的编码器编码所得的第一编码表示、从知识库问答模型中迁移学习得到的第二编码表示以及基于回复引导注意力机制确定的第三编码表示拼接生成的综合编码表示，服务器10还将该问句的上下文注意力向量，将问句的上下文注意力向量输入知识库问答模型中的MLP网络中，通过MLP网络获得该问句的增强注意力向量，将其作为针对所述问句从知识库问答模型中迁移学习的知识信息。

服务器10通过对话生成模型中的解码器融合该待回答的问句的综合编码表示和从知识库问答模型中迁移学习到的知识信息，然后将解码器的隐藏层状态表示和增强注意力向量送入softmax层，以产生预测的单词分布，从而生成最终的对话回复，也即预测回复23，服务器10向终端20发送该预测回复23，终端20显示该预测回复23，以便用户查看。

以上为本申请实施例提供的对话生成模型训练方法和对话生成方法的具体实现方式，基于此，本申请实施例还提供了对应的装置，下面将从功能模块化的角度，对本申请实施例提供的上述装置进行介绍。

参见图8所示的对话生成模型训练装置的结构示意图，该装置800包括：

获取模块810，用于获取对话数据集，所述对话数据集中的对话数据包括问句和所述问句对应的标注回复；

训练模块820，用于基于所述对话数据集中的所述问句，通过构建的对话生成模型中的编码器获得所述问句的编码表示，通过所述对话生成模型中的解码器融合所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息，获得所述对话生成模型输出的所述问句对应的预测回复，基于所述问句对应的预测回复和标注回复确定损失函数，通过损失函数调整所述对话生成模型的参数直到所述对话生成模型的损失函数处于收敛。

可选的，参见图9，图9为本申请实施例提供的对话生成模型训练装置的一个结构示意图，在图8所示结构的基础上，所述装置800还包括：

第一迁移模块830，用于获取所述问句的上下文注意力向量，将所述问句的上下文注意力向量输入所述知识库问答模型中的多层感知机网络中，通过所述多层感知机网络获得所述问句的增强注意力向量，将所述问句的增强注意力向量作为针对所述问句从知识库问答模型中迁移学习的知识信息。

可选的，参见图10，图10为本申请实施例提供的对话生成模型训练装置的一个结构示意图，在图8所示结构的基础上，所述装置800还包括：

第二迁移模块840，用于将所述问句输入所述知识库问答模型，获取所述知识库问答模型中编码器输出的编码表示，作为所述问句的第二编码表示；

确定模块850，用于确定所述问句的相似问句对应的回复作为相似候选回复，根据所述相似候选回复的词嵌入表示和所述问句的第一编码表示确定互注意力，作为所述问句的第三编码表示；

所述训练模块820具体用于:

可选的，参见图11，图11为本申请实施例提供的对话生成模型训练装置的一个结构示意图，在图8所示结构的基础上，所述装置800还包括：

知识库问答模型构建模块860，用于构建端到端结构的神经网络模型，基于通用数据集和常识知识库训练所述神经网络模型，在训练过程中通过铰链损失函数调整所述神经网络模型的参数，直到所述神经网络模型的损失函数处于收敛，将处于收敛状态的神经网络模型作为所述知识库问答模型。

其中，图11也可以是在图9或图10基础上还包括上述知识库问答模型构建模块。

可选的，所述训练模块820在通过构建的对话生成模型中的编码器获得所述问句的编码表示时，具体用于:

接下来，参见图12所示的对话生成装置的结构示意图，该装置1200包括：

接收模块1210，用于接收终端发送的待回答的问句；

生成模块1220，用于通过预训练的对话生成模型中的编码器获得所述问句的编码表示，通过所述对话生成模型中的解码器融合所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息，获得所述对话生成模型输出的所述问句对应的预测回复；

发送模块1230，用于向所述终端发送所述预测回复。

可选的，参见图13，图13为本申请实施例提供的对话生成装置的一个结构示意图，在图12所示结构的基础上，所述装置1200还包括：

第一迁移模块1240，用于获取所述问句的上下文注意力向量，将所述问句的上下文注意力向量输入所述知识库问答模型中的多层感知机网络中，通过所述多层感知机网络获得所述问句的增强注意力向量，将所述问句的增强注意力向量作为针对所述问句从知识库问答模型中迁移学习的知识信息。

可选的，所述第一迁移模块1240在通过所述多层感知机网络获得所述问句的增强注意力向量具体用于：

根据所述问句的上下文注意力向量和所述知识库词表中各词的实体嵌入表示，确定所述问句的增强注意力向量。

可选的，所述第一迁移模块1240在获得所述对话生成模型输出的所述问句对应的预测回复时具体用于：

获得所述对话生成模型中解码器的隐藏层状态表示；

将所述对话生成模型中解码器的隐藏层状态表示和增强注意力向量输入所述对话生成模型中分类层；

可选的，所述第一迁移模块1240在获得所述对话生成模型中解码器的隐藏层状态表示时具体用于：

可选的，参见图14，图14为本申请实施例提供的对话生成装置的一个结构示意图，在图12所示结构的基础上，所述装置1200还包括：

第二迁移模块1250，用于将所述问句输入所述知识库问答模型，获取所述知识库问答模型中编码器输出的编码表示，作为所述问句的第二编码表示；

确定模块1260，用于确定所述问句的相似问句对应的回复作为相似候选回复，根据所述相似候选回复的词嵌入表示和所述问句的第一编码表示确定互注意力，作为所述问句的第三编码表示；

则所述生成1220模块具体用于：

基于本申请提供的上述方法和装置的具体实现方式，本申请实施例还提供了用于对话生成模型训练的设备和对话生成的设备，下面将从硬件实体化的角度对本申请实施例提供的上述设备进行介绍。

图15是本申请实施例提供的一种设备的结构示意图，该设备可以为服务器，该服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1522(例如，一个或一个以上处理器)和存储器1532，一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中，存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1522可以设置为与存储介质1530通信，在服务器1500上执行存储介质1530中的一系列指令操作。

服务器1500还可以包括一个或一个以上电源1526，一个或一个以上有线或无线网络接口1550，一个或一个以上输入输出接口1558，和/或，一个或一个以上操作系统1541，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图15所示的服务器结构。

其中，CPU 1522用于执行如下步骤：

可选的，所述CPU 1522还用于执行本申请提供的对话生成模型训练方法的任意一种实现方式的步骤。

本申请还提供了另一种设备，该设备用于生成对话，其具有与图15相同的结构，在该设备中，所述CPU 1522用于执行如下步骤：

接收终端发送的待回答的问句；

向所述终端发送所述预测回复。

可选的，所述CPU 1522还用于执行本申请提供的对话生成方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的对话生成模型训练方法或者对话生成方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的对话生成模型训练方法或者对话生成方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种对话生成模型训练方法，其特征在于，包括：

获取对话数据集，所述对话数据集中每一对话数据包括问句和所述问句对应的标注回复；

基于所述问句对应的预测回复和标注回复确定损失函数，通过所述损失函数调整所述对话生成模型的参数直到所述损失函数处于收敛。

2.根据权利要求1所述的方法，其特征在于，所述针对所述问句从知识库问答模型中迁移学习得到知识信息，包括：

获取所述问句的上下文注意力向量，将所述问句的上下文注意力向量输入所述知识库问答模型中的多层感知机网络中；

通过所述多层感知机网络获得所述问句的增强注意力向量，将所述问句的增强注意力向量作为针对所述问句从知识库问答模型中迁移学习的知识信息。

3.根据权利要求1所述的方法，其特征在于，将所述通过所述对话生成模型中的编码器获得所述问句的编码表示，作为所述问句的第一编码表示，则所述方法还包括：

将所述问句输入所述知识库问答模型，获取所述知识库问答模型中编码器输出的编码表示，作为所述问句的第二编码表示；

确定所述问句的相似问句对应的回复作为相似候选回复，根据所述相似候选回复的词嵌入表示和所述问句的第一编码表示确定互注意力，作为所述问句的第三编码表示；

则所述通过所述对话生成模型中的解码器融合所述问句的编码表示和从知识库问答模型中迁移学习的知识信息，包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

构建端到端结构的神经网络模型；

基于通用数据集和常识知识库训练所述神经网络模型，在训练过程中通过铰链损失函数调整所述神经网络模型的参数，直到所述铰链损失函数处于收敛，将处于收敛状态的神经网络模型作为所述知识库问答模型。

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述通过构建的对话生成模型中的编码器获得所述问句的编码表示，包括：

6.一种对话生成方法，其特征在于，包括：

接收终端发送的待回答的问句；

通过预训练的对话生成模型中的编码器获得所述问句的编码表示；

通过所述对话生成模型中的解码器融合所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息，获得所述对话生成模型输出的所述问句对应的预测回复；

向所述终端发送所述预测回复。

7.根据权利要求6所述的方法，其特征在于，所述针对所述问句从知识库问答模型中迁移学习得到知识信息，包括：

获取所述问句的上下文注意力向量；

将所述问句的上下文注意力向量输入所述知识库问答模型中的多层感知机网络中；

8.根据权利要求7所述的方法，其特征在于，所述通过所述多层感知机网络获得所述问句的增强注意力向量，包括：

9.根据权利要求8所述的方法，其特征在于，所述获得所述对话生成模型输出的所述问句对应的预测回复，包括：

获得所述对话生成模型中解码器的隐藏层状态表示；

10.根据权利要求9所述的方法，其特征在于，所述获得所述对话生成模型中解码器的隐藏层状态表示，包括：

11.根据权利要求7所述的方法，其特征在于，所述将所述通过所述对话生成模型中的编码器获得所述问句的编码表示，作为所述问句的第一编码表示，则所述方法还包括：

12.一种对话生成模型训练装置，其特征在于，包括：

训练模块，用于基于所述对话数据集中的所述问句，通过构建的对话生成模型中的编码器获得所述问句的编码表示，通过所述对话生成模型中的解码器融合所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息，获得所述对话生成模型输出的所述问句对应的预测回复，基于所述问句对应的预测回复和标注回复确定损失函数，通过所述损失函数调整所述对话生成模型的参数直到所述损失函数处于收敛。

13.一种对话生成装置，其特征在于，包括：

接收模块，用于接收终端发送的待回答的问句；

发送模块，用于向所述终端发送所述预测回复。

14.一种设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至11任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至11任一项所述的方法。