CN117093676A

CN117093676A - 对话生成模型的训练、对话生成方法、装置以及介质

Info

Publication number: CN117093676A
Application number: CN202210498027.2A
Authority: CN
Inventors: 陈宏申; 占浩澜; 张海楠; 丁卓冶; 龙波
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2023-11-21

Abstract

本公开提供了一种对话生成模型的训练、对话生成方法、装置以及存储介质，其中的训练方法包括：使用第一隐变量生成模型并基于历史对话内容信息和知识选择历史信息，生成第一变分隐变量；使用第二隐变量生成模型并基于历史对话内容信息和历史回复信息，生成第二变分隐变量；使用知识选取模型并基于第一变分隐变量、历史对话内容信息和知识信息集合，生成知识选取信息；根据知识选取信息、历史对话内容信息以及第二变分隐变量，获得回复预测信息，基于回复预测信息进行调整处理。本公开的方法、装置以及存储介质，能够对知识选择和生成回复进行有效协同处理，增加对于相关知识的获取能力，提高获取知识信息的准确度，提高提问与回复的匹配度。

Description

对话生成模型的训练、对话生成方法、装置以及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种对话生成模型的训练、对话生成方法、装置以及存储介质。

背景技术

随着电子商务的发展，越来越多的用户选择网络购物，由此带来了巨大的客户售后需求的增长。近年来，随着人工智能技术的迅速发展，自动对话生成系统越来越多地被应用在电子商务的场景下，来帮助缓解日益增长的客户需求压力。目前，现有的对话系统通过采集海量的人工客服对话数据，用此来训练大规模深度学习(Deep Learning)模型，对用户的需求目标进行准确地提取和捕捉，理解客户的需求,并模拟自然人给出相应的回复。但是，现有的对话系统无法对外部知识进行有效地融合，存在交互能力差和生成知识不相关的回复等问题。

发明内容

有鉴于此，本发明要解决的一个技术问题是提供一种对话生成模型的训练、对话生成方法、装置以及存储介质。

根据本公开的第一方面，提供一种对话生成模型的训练方法，其中，所述对话生成模型包括：第一隐变量生成模型、第二隐变量生成模型和知识选取模型；所述训练方法包括：获取历史对话内容信息、历史回复信息和知识选择历史信息，用以作为训练样本；使用所述第一隐变量生成模型并基于所述历史对话内容信息和所述知识选择历史信息，生成第一变分隐变量；使用所述第二隐变量生成模型并基于所述历史对话内容信息和所述历史回复信息，生成第二变分隐变量；使用所述知识选取模型并基于所述第一变分隐变量、所述历史对话内容信息和知识信息集合，生成知识选取信息；根据所述知识选取信息、所述历史对话内容信息以及所述第二变分隐变量，获得回复预测信息；使用损失函数并基于所述回复预测信息与所述历史回复信息比对结果，对所述对话生成模型进行调整处理。

可选地，所述知识选取模型包括：启发式匹配模型和预测模型；所述使用所述知识选取模型并基于所述第一变分隐变量、所述历史对话内容信息和知识信息集合，生成知识选取信息包括：使用所述启发式匹配模型并基于所述第一变分隐变量、所述历史对话内容信息和知识信息集合，生成知识选取中间变量信息；使用所述预测模型并基于所述知识选取中间变量信息，生成所述知识选取信息。

可选地，所述使用所述第一隐变量生成模型并基于所述历史对话内容信息和所述知识语句选择信息，生成第一变分隐变量包括：使用第一编码模块对所述历史对话内容信息进行编码处理，生成对话内容编码信息；使用第二编码模块对所述知识选择历史信息进行编码处理，生成知识选择编码信息；将所述对话内容编码信息和所述知识选择编码信息输入所述第一隐变量生成模型，生成所述第一变分隐变量。

可选地，所述使用所述第二隐变量生成模型并基于所述历史对话内容信息和所述历史回复信息，生成第二变分隐变量包括：使用第三编码模块对所述历史回复信息进行编码处理，生成历史回复编码信息；将所述对话内容编码信息和所述历史回复信息输入所述第二隐变量生成模型，生成所述第二变分隐变量。

可选地，使用所述启发式匹配模型并基于所述第一变分隐变量、所述历史对话内容信息和知识信息集合，生成知识选取中间变量信息包括：使用第四编码模块对所述知识信息集合进行编码处理，生成知识集合编码信息；将所述第一变分隐变量、所述对话内容编码信息和所述知识集合编码信息输入所述启发式匹配模型，获得所述知识选取中间变量信息。

可选地，所述根据所述知识选取信息、所述历史对话内容信息以及所述第二变分隐变量，获得回复预测信息包括：使用第五编码模块对所述知识选取信息进行编码处理，生成知识选取编码信息；将所述知识选取编码信息和所述对话内容编码信息以及所述第二变分隐变量输入解码器，获得所述回复预测信息。

可选地，所述第一变分隐变量包括：基于分类分布的变分隐变量；所述第二变分隐变量包括：基于正太分布的变分隐变量；所述损失函数包括：交叉熵损失函数。

根据本公开的第二方面，提供一种对话生成方法，包括：获取训练好的对话生成模型；其中，所述对话生成模型是通过如上所述的训练方法训练得到，所述对话生成模型包括：第一隐变量生成模型、第二隐变量生成模型和知识选取模型；使用所述第一隐变量生成模型并基于对话内容信息，生成第一变分隐变量；使用所述第二隐变量生成模型并基于所述对话内容信息，生成第二变分隐变量；使用所述知识选取模型并基于所述第一变分隐变量、所述对话内容信息和知识信息集合，生成知识选取信息；根据所述知识选取信息、所述对话内容信息以及所述第二变分隐变量，获得回复预测信息。

可选地，所述知识选取模型包括：启发式匹配模型和预测模型；所述使用所述知识选取模型并基于所述第一变分隐变量、所述对话内容信息和知识信息集合，生成知识选取信息包括：使用所述启发式匹配模型并基于所述第一变分隐变量、所述对话内容信息和知识信息集合，生成知识选取中间变量信息；使用所述预测模型并基于所述知识选取中间变量信息，生成所述知识选取信息。

可选地，所述使用所述第一隐变量生成模型并基于对话内容信息，生成第一变分隐变量包括：使用第一编码模块对所述对话内容信息进行编码处理，生成对话内容编码信息；将所述对话内容编码信息输入所述第一隐变量生成模型，生成所述第一变分隐变量。

可选地，所述使用所述第二隐变量生成模型并基于所述对话内容信息，生成第二变分隐变量包括：将所述对话内容编码信息输入所述第二隐变量生成模型，生成所述第二变分隐变量。

可选地，所述使用所述启发式匹配模型并基于所述第一变分隐变量、所述对话内容信息和知识信息集合，生成知识选取中间变量信息包括：使用第四编码模块对所述知识信息集合进行编码处理，生成知识集合编码信息；将所述第一变分隐变量、所述对话内容编码信息和所述知识集合编码信息输入所述启发式匹配模型，获得所述知识选取中间变量信息。

可选地，所述根据所述知识选取信息、所述对话内容信息以及所述第二变分隐变量，获得回复预测信息包括：使用第五编码模块对所述知识选取信息进行编码处理，生成知识选取编码信息；将所述知识选取编码信息和所述对话内容编码信息以及所述第二变分隐变量输入解码器，获得所述回复预测信息。

可选地，所述第一变分隐变量包括：基于分类分布的变分隐变量；所述第二变分隐变量包括：基于正太分布的变分隐变量。

根据本公开的第三方面，提供一种对话生成模型的训练装置，其中，所述对话生成模型包括：第一隐变量生成模型、第二隐变量生成模型和知识选取模型；所述训练装置包括：训练样本获取模块，用于获取历史对话内容信息、历史回复信息和知识选择历史信息，用以作为训练样本；第一变量生成模块，用于使用所述第一隐变量生成模型并基于所述历史对话内容信息和所述知识选择历史信息，生成第一变分隐变量；第二变量生成模块，用于使用所述第二隐变量生成模型并基于所述历史对话内容信息和所述历史回复信息，生成第二变分隐变量；第一知识确定模块，用于使用所述知识选取模型并基于所述第一变分隐变量、所述历史对话内容信息和知识信息集合，生成知识选取信息；第一回复预测模块，用于根据所述知识选取信息、所述历史对话内容信息以及所述第二变分隐变量，获得回复预测信息；模型调整模块，用于使用损失函数并基于所述回复预测信息与所述历史回复信息比对结果，对所述对话生成模型进行调整处理。

根据本公开的第四方面，提供一种对话生成装置，包括：模型获取模块，用于获取训练好的对话生成模型；其中，所述对话生成模型是通过如上所述的训练方法训练得到，所述对话生成模型包括：第一隐变量生成模型、第二隐变量生成模型和知识选取模型；第三变量生成模块，用于使用所述第一隐变量生成模型并基于对话内容信息，生成第一变分隐变量；第四变量生成模块，用于使用所述第二隐变量生成模型并基于所述对话内容信息，生成第二变分隐变量；第二知识确定模块，用于使用所述知识选取模型并基于所述第一变分隐变量、所述对话内容信息和知识信息集合，生成知识选取信息；第二回复预测模块，用于根据所述知识选取信息、所述对话内容信息以及所述第二变分隐变量，获得回复预测信息。

根据本公开的第五方面，提供一种对话生成模型的训练装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的第六方面，提供一种对话生成装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的第七方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如上的方法。

本公开的对话生成模型的训练、对话生成方法、装置以及存储介质，通过构建基于协同隐变量进行建模的对话生成模型，能够对知识选择和生成回复进行有效协同处理，增加对于相关知识的获取能力，提高获取知识信息的准确度，提高用户提问与回复的匹配度，解决了生成与知识无关的对话回复等问题，提高了用户的使用感受度。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为根据本公开的对话生成模型的训练方法的一个实施例的流程示意图；

图2为对话生成模型的一个实施例的原理框架示意图；

图3为根据本公开的对话生成模型的训练方法以及对话生成方法的数据交互流程示意图；

图4为根据本公开的对话生成方法的一个实施例的流程示意图；

图5为根据本公开的对话生成模型的训练装置的一个实施例的模块示意图；

图6为根据本公开的对话生成装置的一个实施例的模块示意图；

图7为根据本公开的对话生成模型的训练装置的另一个实施例的模块示意图；

图8为根据本公开的对话生成装置的另一个实施例的模块示意图。

具体实施方式

下面参照附图对本公开进行更全面的描述，其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。下面结合各个图和实施例对本公开的技术方案进行多方面的描述。

下文中的“第一”、“第二”等仅用于描述上相区别，并没有其它特殊的含义。

知识驱动型对话系统(Knowledge-driven Dialogue Systems)可以利用海量的外部知识源，例如用户画像、用户喜好、购物历史等，更好地理解用户的意图和目标。随着自然语言处理(Natural Language Processing)和深度学习(Deep Learning)技术地发展，知识驱动型对话生成系统可以有多种模型。

基于后验知识选择的对话生成模型：后验知识选择是利用对话内容中的未来信息来辅助知识选择的过程，能够显著提升知识选择与对话内容之间的相关性。基于序列化知识选择的对话生成模型：序列化知识选择模型能够在多轮对话中跟踪并保存不同对话轮次中的相关知识内容，能够有效地保存历史上已经选择出来的知识，并为未来的知识选择提供参考。

基于知识蒸馏策略的对话生成模型：基于知识蒸馏策略的对话模型能够在利用对话内容的未来信息的同时，增加知识选择的多样性，对话内容通过多样的候选知识选择提供了可能。基于对偶式知识交互的对话生成模型：对偶式知识交互型对话模型通过对偶交互的方式，准确地捕捉了知识跟踪(Knowledge Tracking)和知识迁移(KnowledgeShifting)两个过程，不仅能够很好地保存对历史信息地跟踪，也能很好地对未来知识信息进行选择。

现有技术的知识驱动型对话生成系统具有下面的缺点：

过分关注知识选择，而忽略了基于知识的对话回复生成：知识选择的过程是知识驱动对话系统的必然过程，同时它也和对话回复生成过程天然具有耦合性。目前现有的工作大多集中在如何挑选合适的外部知识，而忽略了如何将外部知识进行有效引入到回复生成过程中，从而造成了对话系统能够有效地进行知识的挑选，却常常产生知识无关的对话回复内容，使得外部知识对对话系统的增强作用大大削弱。

忽略了知识选择和对话回复生成的交互过程：现有的方法为了能够将选择出来的知识向对话内容中进行融合，通常采用指针网络(Pointer Network)来将部分的知识内容进行复刻，常常会导致生成的对话回复不流畅也不通顺。此问题是由于忽略了知识选择和对话回复生成之间的交互过程而导致的，需要提升对知识选择和对话回复生成的交互。

图1为根据本公开的对话生成模型的训练方法的一个实施例的流程示意图，对话生成模型包括第一隐变量生成模型、第二隐变量生成模型和知识选取模型等；如图1所示：

步骤101，获取历史对话内容信息、历史回复信息和知识选择历史信息，用以作为训练样本。

在一个实施例中，历史对话内容信息可以为用户与人工客服的历史对话数据，历史回复信息为针对历史对话数据中的用户提问，人工客服需要回复的信息。预先设置知识信息集合，知识信息集合包括多个知识信息，例如，知识信息为“星期六和日是周末”、“北京是首都”等语句。知识选择历史信息为在对话生成模型针对历史对话数据中的用户提问生成历史回复信息时，在知识信息集合中选取的知识信息。

步骤102，使用第一隐变量生成模型并基于历史对话内容信息和知识选择历史信息，生成第一变分隐变量。第一隐变量生成模型可以为多种，例如为MLP(MultilayerPerceptron，多层感知机)模型等多种神经网络模型。

步骤103，使用第二隐变量生成模型并基于历史对话内容信息和历史回复信息，生成第二变分隐变量。第二隐变量生成模型可以为多种，例如为MLP(MultilayerPerceptron，多层感知机)模型等多种神经网络模型。

步骤104，使用知识选取模型并基于第一变分隐变量、历史对话内容信息和知识信息集合，生成知识选取信息。

在一个实施例中，知识选取模型可以为多种模型，知识选取模型生成的知识选取信息为知识选取模型在知识信息集合中选取的知识信息。

步骤105，使用损失函数并根据知识选取信息、历史对话内容信息以及第二变分隐变量，获得回复预测信息。

在一个实施例中，第一变分隐变量包括基于分类分布的变分隐变量等，第二变分隐变量包括基于正太分布的变分隐变量。回复预测信息为对话生成模型针对用户与人工客服的历史对话数据中的用户提问，预测出的人工客服需要回复的信息。

步骤106，使用损失函数并基于回复预测信息与历史回复信息比对结果，对对话生成模型进行调整处理。损失函数可以为交叉熵损失函数等。

可以采用现有的多种模型调整方法，根据回复预测信息与历史回复信息进行比对确定的差异信息并使用交叉熵损失函数等损失函数，对第一隐变量生成模型、第二隐变量生成模型和知识选取模型等模型的参数进行调整，用以使回复预测信息与历史回复信息相同，或者使回复预测信息与历史回复信息之间的差异在允许范围内。

在一个实施例中，如图2所示，对话生成模型为基于协同隐变量建模的新型知识驱动对话生成模型，分配了两个变分隐变量，分别为第一变分隐变量z_k和第二变分隐变量z_r。第一变分隐变量z_k和第二变分隐变量z_r分别用于建模知识选择和对话回复生成。建立第一变分隐变量z_k和第二变分隐变量z_r，以及对话历史内容c、外部知识(知识选择历史信息或知识选择信息)k和对话回复r之间的依赖关系。

外部知识k的选择依赖于对话的历史内容c和z_k，使用如图2中的点画线以及箭头表征此依赖关系。对话回复(回复预测信息)r的生成则依赖于对话的历史内容c、外部知识k和第二变分隐变量z_r，使用如图2中的实线以及箭头表征此依赖关系。对应对话生成模型的训练过程中的依赖关系，通过如图2中的虚线以及箭头进行表征。

根据如图2中的依赖关系对对话生成模型进行训练，使得对话生成模型能够达到协同处理知识选择和对话回复生成这两个步骤，使知识驱动型的对话生成模型在知识选择和回复生成这两个步骤中都能获得良好的表现。

在一个实施例中，生成第一变分隐变量可以采用多种方法。例如，使用第一编码模块对历史对话内容信息进行编码处理，生成对话内容编码信息。使用第二编码模块对知识选择历史信息进行编码处理，生成知识选择编码信息。将对话内容编码信息和知识选择编码信息输入第一隐变量生成模型，生成第一变分隐变量。

生成第二变分隐变量可以采用多种方法。例如，使用第三编码模块对历史回复信息进行编码处理，生成历史回复编码信息。将对话内容编码信息和历史回复信息输入第二隐变量生成模型，生成第二变分隐变量。可以使用两个KL散度损失函数在训练过程中分别指导知识选择过程中第一变分隐变量和回复生成过程中第二变分隐变量的生成构建过程。

知识选取模型包括启发式匹配模型和预测模型等；启发式匹配模型可以为现有的多种启发式匹配模型；预测模型可以为多种模型，例如包括两个神经网络模型等。使用启发式匹配模型并基于第一变分隐变量、历史对话内容信息和知识信息集合，生成知识选取中间变量信息。使用预测模型并基于知识选取中间变量信息，生成知识选取信息。

生成知识选取中间变量信息可以有多种方法。例如，使用第四编码模块对知识信息集合进行编码处理，生成知识集合编码信息。将第一变分隐变量、对话内容编码信息和知识集合编码信息输入启发式匹配模型，获得知识选取中间变量信息。

获得回复预测信息可以采用多种方法。例如，使用第五编码模块对知识选取信息进行编码处理，生成知识选取编码信息。将知识选取编码信息和对话内容编码信息以及第二变分隐变量输入解码器，获得回复预测信息。

在一个实施例中，如图3所示，图3中的虚线以及箭头表征模型训练时的数据输入。历史对话内容信息c为“你的幸运数字是多少？我的幸运数值是7，你的呢？”，历史回复信息r为“-哦！原来如此，我知道它是在6和8中间的”，知识选择历史信息k为“数字7是在6和8中间的”。

编码模块可以采用多种编码模块，例如为BERT(Bidirectional EncoderRepresentation from Transformers)编码器等。使用第一编码模块BERT编码器1对历史对话内容信息C“你的幸运数字是多少？我的幸运数值是7，你的呢？”进行编码处理，生成对话内容编码信息h_c。

使用第二编码模块BERT编码器2对知识选择历史信息k“数字7是在6和8中间的”进行编码处理，生成知识选择编码信息h_k。将对话内容编码信息h_c和知识选择编码信息h_k输入第一隐变量生成模型MLP1，生成第一变分隐变量z_k。

使用第三编码模块BERT编码器3对历史回复信息r“哦！原来如此，我知道它是在6和8中间的”进行编码处理，生成历史回复编码信息h_r。将对话内容编码信息h_c和历史回复信息h_r输入第二隐变量生成模型MLP2，生成第二变分隐变量z_r。

使用第四编码模块BERT编码器4对知识信息集合KP进行编码处理，生成知识集合编码信息h_kp。将第一变分隐变量z_k、对话内容编码信息h_c和知识集合编码信息h_kp输入现有的启发式匹配搜索模型，获得知识选取中间变量信息h_cat。

预测模型包括现有的两个线性(神经)网络；解码器可以为多种，例如为现有的Transformer编码器等。将知识选取中间变量信息h_cat输入两个线性网络，线性网络生成知识选取信息的启示和终止位置，生成知识选取信息ks“数字7在6和8之间”。

使用第五编码模块BERT编码器5对知识选取信息进行编码处理“数字7在6和8之间”，生成知识选取编码信息h_ks。将知识选取编码信息h_ks和对话内容编码信息h_c以及第二变分隐变量z_r输入Transformer编码器，获得回复预测信息“哦！原来如此，我知道它是在6和8中间的”。

在模型训练时可使用现有的多种方法，使用损失函数并基于回复预测信息与历史回复信息比对结果，对对话生成模型的各个组成模型的参数进行联合调整处理，以使回复预测信息与历史回复信息相同或相近。

例如，损失函数包括交叉熵损失函数等，交叉熵损失函数可以为多种。使用交叉熵损失函数在训练过程中指导对话回复生成过程中的回复预测信息和历史回复信息之间的对比结果，用于对对话生成模型进行整体调整处理。可以使用现有的交叉熵损失函数训练方法，基于交叉熵损失函数并根据回复预测信息和历史回复信息以及对比结果，计算样本损失函数值，基于样本损失函数值对对话生成模型的参数进行整体调整处理，以使回复预测信息和历史回复信息之间对比差异降低到最小或在差异度允许范围内。

在一个实施例中，定义一组对话C由两个参与者完成，包含|c|个对话历史信息(词语)组成C＝c₁，..，c_|c|。知识候选集合(知识信息集合)KP中包含|k|条知识短句(知识信息)KP＝k₁，..，k_|K|，每一条知识信息是短句k_i，k_i包含M个词语。对话生成模型每一次从知识库KP中挑选与对话历史信息C最契合的一条知识短句k_i。

在训练样本集合中，每一条对话历史信息c都有一条对应的知识信息k与之匹配，在训练阶段，通过各个模型的损失函数进行调整，使模型拟合正确的知识信息。对话生成模型根据对话历史信息C和选出的知识信息k_i，生成与知识和对话历史信息相关的回复r。

如图3所示，采用预训练模型编码器(BERT Encoder)将对话历史信息C和知识库KP中的每一条知识短句k_i进行编码。BERT编码器同时考量了句子中每一个词语的文本信息，位置信息和轮次信息，编码之后得到h_c和h_k。

在模型训练阶段，需要得到对应的对话回复的表示h_r，用于监督模型的训练。分别基于高斯分布(Gaussian Distribution)和类别分布(Categorical Distribution)，构建对话回复和知识选择的变分隐变量z_r和z_k。

通过先验网络(Prior Network)和后验网络(Posterior Network)分别针对模型预测和训练阶段，可以利用现有的KL散度函数来调和先验网络和后验网络之间的参数。在训练阶段，由先验网络和后验网络分别产生两个独立的隐变量分布，在损失函数中，利用现有的KL散度函数缩小两个独立隐变量分布之间的差异，从而使得先验分布向后验分布进行逼近的目的。

基于MLP模型，对话回复隐变量z_r能够根据对话内容表示h_c，引入对高斯分布的随机采样，生成变分隐变量z_r，z_r＝μ_r+∑⊙σ_r.其中，σ_r是标准高斯变量，μ_r和∑由一个前馈神经网络确定。在先验网络中，根据h_c进行计算；在后验网络中，根据h_c和h_r计算。μ_r是均值，∑是受限对角协方差矩阵，⊙是softplus函数。同理，基于MLP模型，知识隐变量z_k根据会话内容表示h_c，引入类别分布的随机采样，生成变分隐变量z_k。

基于采样出来的协同隐变量z_r和z_k，首先得到需要后续进行知识选择的中间变量其中/>代表相乘符号。然后，将得到的中间变量h_cat分别送入两个线性预测模型去预测在知识库KP中知识短句的起始词语和终止词语的位置，并根据预测得到的位置将知识短句抽取出来，形成最终所需要的知识k。

例如，将中间变量hcat分别送入两个现有的线性预测模型Linear，线性预测模型会将hcat转换成一个低维度的向量，并最终通过softmax挑选出概率分数值最大的位置，作为知识短句的起始和终止位置。因为每个对话内容的知识短句个数有限，所以其侯选位置也是也有限的(512个)，相当于从512个类别中预测起始和终止的位置。

将hc和hk的向量表示拼接起来输入现有的Transformer解码器模型，Transformer解码器模型首先进行attention操作，并经由softmax函数，从词表若干个词中选择当前概率分数值最大的一个词，作为当前解码步的词语。将当前解码的词语和之前的hc和hk循环输入Transformer解码器模型中，直至整个句子解码完毕。

例如，利用已有的对话历史内容C对应的表示h_c，和选择出来的知识短句k对应的表示h_k，进行逐步解码得到最终对话回复中的每一个词语。在解码完毕之后，得到最终的对话回复句子r＝TransformerDecoder(h_c，h_k)。

图4为根据本公开的对话生成方法的一个实施例的流程示意图，如图4所示：

步骤401，获取训练好的对话生成模型；其中，对话生成模型是通过如上的训练方法训练得到，对话生成模型包括：第一隐变量生成模型、第二隐变量生成模型和知识选取模型等。

步骤402，使用第一隐变量生成模型并基于对话内容信息，生成第一变分隐变量。

步骤403，使用第二隐变量生成模型并基于对话内容信息，生成第二变分隐变量。

步骤404，使用知识选取模型并基于第一变分隐变量、对话内容信息和知识信息集合，生成知识选取信息。

步骤405，根据知识选取信息、对话内容信息以及第二变分隐变量，获得回复预测信息。

在一个实施例中，使用第一编码模块对对话内容信息进行编码处理，生成对话内容编码信息。将对话内容编码信息输入第一隐变量生成模型，生成第一变分隐变量。将对话内容编码信息输入第二隐变量生成模型，生成第二变分隐变量。

知识选取模型包括启发式匹配模型和预测模型等。使用启发式匹配模型并基于第一变分隐变量、对话内容信息和知识信息集合，生成知识选取中间变量信息。使用预测模型并基于知识选取中间变量信息，生成知识选取信息。

生成知识选取中间变量信息可以采用多种方法。例如，使用第四编码模块对知识信息集合进行编码处理，生成知识集合编码信息。将第一变分隐变量、对话内容编码信息和知识集合编码信息输入启发式匹配模型，获得知识选取中间变量信息。

使用第五编码模块对知识选取信息进行编码处理，生成知识选取编码信息；将知识选取编码信息和对话内容编码信息以及第二变分隐变量输入解码器，获得回复预测信息。

在一个实施例中，如图3所示，对话内容信息C为“你的幸运数字是多少？我的幸运数值是7，你的呢？”。使用第一编码模块BERT编码器1对对话内容信息C“你的幸运数字是多少？我的幸运数值是7，你的呢？”进行编码处理，生成对话内容编码信息h_c。

将对话内容编码信息h_c输入第一隐变量生成模型MLP1，生成第一变分隐变量z_k。将对话内容编码信息h_c输入第二隐变量生成模型MLP2，生成第二变分隐变量z_r。

使用第四编码模块BERT编码器4对知识信息集合KP进行编码处理，生成知识集合编码信息h_kp。将第一变分隐变量z_k、对话内容编码信息h_c和知识集合编码信息h_kp输入启发式匹配模型Heuristic Mathing，获得知识选取中间变量信息h_cat。

将知识选取中间变量信息h_cat输入线性模型，通过线性模型生成知识选取信息ks“数字7是在6和8中间”。使用第五编码模块BERT编码器5对知识选取信息“数字7是在6和8中间”进行编码处理，生成知识选取编码信息h_ks。或者，通过使用第五编码模块BERT编码器5对对话内容信息C进行编码处理。

将知识选取编码信息h_ks和对话内容编码信息h_c以及第二变分隐变量z_r输入Transformer编码器，通过Transformer编码器获得回复预测信息“哦！原来如此，我知道它是在8和6之间”。

上述实施例的对话生成模型的训练方法以及对话生成方法，通过构建基于协同隐变量进行建模的对话生成模型，能够对知识选择和生成回复进行有效协同处理，增加对于相关知识的获取能力，提高获取知识信息的准确度，提高用户提问与回复的匹配度，解决了生成与知识无关的对话回复等问题，提升用户的使用感受度，

在一个实施例中，如图5所示，本公开提供一种对话生成模型的训练装置50，包括训练样本获取模块51、第一变量生成模块52、第二变量生成模块53、第一知识确定模块54、第一回复预测模块55和模型调整模块56。

训练样本获取模块51获取历史对话内容信息、历史回复信息和知识选择历史信息，用以作为训练样本。第一变量生成模块52使用第一隐变量生成模型并基于历史对话内容信息和知识选择历史信息，生成第一变分隐变量。第二变量生成模块53使用第二隐变量生成模型并基于历史对话内容信息和历史回复信息，生成第二变分隐变量。

第一知识确定模块54使用知识选取模型并基于第一变分隐变量、历史对话内容信息和知识信息集合，生成知识选取信息。第一回复预测模块55根据知识选取信息、历史对话内容信息以及第二变分隐变量，获得回复预测信息。模型调整模块56使用损失函数并基于回复预测信息与历史回复信息比对结果，对对话生成模型进行调整处理。

在一个实施例中，知识选取模型包括启发式匹配模型和预测模型等。第一知识确定模块54使用启发式匹配模型并基于第一变分隐变量、历史对话内容信息和知识信息集合，生成知识选取中间变量信息。第一知识确定模块54使用预测模型并基于知识选取中间变量信息，生成知识选取信息。

第一变量生成模块52使用第一编码模块对历史对话内容信息进行编码处理，生成对话内容编码信息。第一变量生成模块52使用第二编码模块对知识选择历史信息进行编码处理，生成知识选择编码信息。第一变量生成模块52将对话内容编码信息和知识选择编码信息输入第一隐变量生成模型，生成第一变分隐变量。

第二变量生成模块53使用第三编码模块对历史回复信息进行编码处理，生成历史回复编码信息。第二变量生成模块53将对话内容编码信息和历史回复信息输入第二隐变量生成模型，生成第二变分隐变量。

在一个实施例中，第一知识确定模块54使用第四编码模块对知识信息集合进行编码处理，生成知识集合编码信息。第一知识确定模块54将第一变分隐变量、对话内容编码信息和知识集合编码信息输入启发式匹配模型，获得知识选取中间变量信息。

第一回复预测模块55使用第五编码模块对知识选取信息进行编码处理，生成知识选取编码信息。第一回复预测模块55将知识选取编码信息和对话内容编码信息以及第二变分隐变量输入解码器，获得回复预测信息。

在一个实施例中，如图6所示，本公开提供一种对话生成装置60，包括：模型获取模块61、第三变量生成模块62、第四变量生成模块63、第二知识确定模块64和第二回复预测模块65。

模型获取模块61获取训练好的对话生成模型。第三变量生成模块62使用第一隐变量生成模型并基于对话内容信息，生成第一变分隐变量。第四变量生成模块63使用第二隐变量生成模型并基于对话内容信息，生成第二变分隐变量。第二知识确定模块64使用知识选取模型并基于第一变分隐变量、对话内容信息和知识信息集合，生成知识选取信息。第二回复预测模块65根据知识选取信息、对话内容信息以及第二变分隐变量，获得回复预测信息。

在一个实施例中，知识选取模型包括启发式匹配模型和预测模型等；第二知识确定模块64使用启发式匹配模型并基于第一变分隐变量、对话内容信息和知识信息集合，生成知识选取中间变量信息。第二知识确定模块64使用预测模型并基于知识选取中间变量信息，生成知识选取信息。

第三变量生成模块62使用第一编码模块对对话内容信息进行编码处理，生成对话内容编码信息。第三变量生成模块62将对话内容编码信息输入第一隐变量生成模型，生成第一变分隐变量。第四变量生成模块63将对话内容编码信息输入第二隐变量生成模型，生成第二变分隐变量。

第二知识确定模块64使用第四编码模块对知识信息集合进行编码处理，生成知识集合编码信息。第二知识确定模块64将第一变分隐变量、对话内容编码信息和知识集合编码信息输入启发式匹配模型，获得知识选取中间变量信息。

第二回复预测模块65使用第五编码模块对知识选取信息进行编码处理，生成知识选取编码信息。第二回复预测模块65将知识选取编码信息和对话内容编码信息以及第二变分隐变量输入解码器，获得回复预测信息。

在一个实施例中，如图7所示，本公开提供一种对话生成模型的训练装置可包括存储器72、处理器71、通信接口73以及总线74。存储器72用于存储指令，处理器71耦合到存储器72，处理器71被配置为基于存储器72存储的指令执行实现上述的对话生成模型的训练方法。

存储器72可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器72也可以是存储器阵列。存储器72还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器71可以为中央处理器CPU，或专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本公开的对话生成模型的训练方法的一个或多个集成电路。

在一个实施例中，如图8所示，本公开提供一种对话生成装置可包括存储器82、处理器81、通信接口83以及总线84。存储器82用于存储指令，处理器81耦合到存储器82，处理器81被配置为基于存储器82存储的指令执行实现上述的对话生成方法。

存储器82可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器82也可以是存储器阵列。存储器82还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器81可以为中央处理器CPU，或专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本公开的对话生成方法的一个或多个集成电路。

在一个实施例中，本公开提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上任一个实施例中的方法。

上述实施例中的对话生成模型的训练、对话生成方法、装置以及存储介质，通过构建基于协同隐变量进行建模的对话生成模型，能够对知识选择和生成回复进行有效协同处理，增加对于相关知识的获取能力，提高获取知识信息的准确度，提高用户提问与回复的匹配度，解决了生成与知识无关的对话回复等问题，提高了用户的使用感受度。

可以使用许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种对话生成模型的训练方法，其中，对话生成模型包括：第一隐变量生成模型、第二隐变量生成模型和知识选取模型；所述训练方法包括：

获取历史对话内容信息、历史回复信息和知识选择历史信息，用以作为训练样本；

使用所述第一隐变量生成模型并基于所述历史对话内容信息和所述知识选择历史信息，生成第一变分隐变量；

使用所述第二隐变量生成模型并基于所述历史对话内容信息和所述历史回复信息，生成第二变分隐变量；

使用所述知识选取模型并基于所述第一变分隐变量、所述历史对话内容信息和知识信息集合，生成知识选取信息；

根据所述知识选取信息、所述历史对话内容信息以及所述第二变分隐变量，获得回复预测信息；

使用损失函数并基于所述回复预测信息与所述历史回复信息比对结果，对所述对话生成模型进行调整处理。

2.如权利要求1所述的训练方法，其中，所述知识选取模型包括：启发式匹配模型和预测模型；所述使用所述知识选取模型并基于所述第一变分隐变量、所述历史对话内容信息和知识信息集合，生成知识选取信息包括：

使用所述启发式匹配模型并基于所述第一变分隐变量、所述历史对话内容信息和知识信息集合，生成知识选取中间变量信息；

使用所述预测模型并基于所述知识选取中间变量信息，生成所述知识选取信息。

3.如权利要求2所述的训练方法，所述使用所述第一隐变量生成模型并基于所述历史对话内容信息和所述知识语句选择信息，生成第一变分隐变量包括：

使用第一编码模块对所述历史对话内容信息进行编码处理，生成对话内容编码信息；

使用第二编码模块对所述知识选择历史信息进行编码处理，生成知识选择编码信息；

将所述对话内容编码信息和所述知识选择编码信息输入所述第一隐变量生成模型，生成所述第一变分隐变量。

4.如权利要求3所述的训练方法，所述使用所述第二隐变量生成模型并基于所述历史对话内容信息和所述历史回复信息，生成第二变分隐变量包括：

使用第三编码模块对所述历史回复信息进行编码处理，生成历史回复编码信息；

将所述对话内容编码信息和所述历史回复信息输入所述第二隐变量生成模型，生成所述第二变分隐变量。

5.如权利要求3所述的训练方法，使用所述启发式匹配模型并基于所述第一变分隐变量、所述历史对话内容信息和知识信息集合，生成知识选取中间变量信息包括：

使用第四编码模块对所述知识信息集合进行编码处理，生成知识集合编码信息；

将所述第一变分隐变量、所述对话内容编码信息和所述知识集合编码信息输入所述启发式匹配模型，获得所述知识选取中间变量信息。

6.如权利要求3所述的训练方法，所述根据所述知识选取信息、所述历史对话内容信息以及所述第二变分隐变量，获得回复预测信息包括：

使用第五编码模块对所述知识选取信息进行编码处理，生成知识选取编码信息；

将所述知识选取编码信息和所述对话内容编码信息以及所述第二变分隐变量输入解码器，获得所述回复预测信息。

7.如权利要求1至6中任一项所述的训练方法，其中，

所述第一变分隐变量包括：基于分类分布的变分隐变量；

所述第二变分隐变量包括：基于正太分布的变分隐变量；

所述损失函数包括：交叉熵损失函数。

8.一种对话生成方法，包括：

获取训练好的对话生成模型；其中，所述对话生成模型是通过权利要求1至7中任一项所述的训练方法训练得到，所述对话生成模型包括：第一隐变量生成模型、第二隐变量生成模型和知识选取模型；

使用所述第一隐变量生成模型并基于对话内容信息，生成第一变分隐变量；

使用所述第二隐变量生成模型并基于所述对话内容信息，生成第二变分隐变量；

使用所述知识选取模型并基于所述第一变分隐变量、所述对话内容信息和知识信息集合，生成知识选取信息；

根据所述知识选取信息、所述对话内容信息以及所述第二变分隐变量，获得回复预测信息。

9.如权利要求8所述的方法，其中，所述知识选取模型包括：启发式匹配模型和预测模型；所述使用所述知识选取模型并基于所述第一变分隐变量、所述对话内容信息和知识信息集合，生成知识选取信息包括：

使用所述启发式匹配模型并基于所述第一变分隐变量、所述对话内容信息和知识信息集合，生成知识选取中间变量信息；

10.如权利要求9所述的方法，所述使用所述第一隐变量生成模型并基于对话内容信息，生成第一变分隐变量包括：

使用第一编码模块对所述对话内容信息进行编码处理，生成对话内容编码信息；

将所述对话内容编码信息输入所述第一隐变量生成模型，生成所述第一变分隐变量。

11.如权利要求10所述的方法，所述使用所述第二隐变量生成模型并基于所述对话内容信息，生成第二变分隐变量包括：

将所述对话内容编码信息输入所述第二隐变量生成模型，生成所述第二变分隐变量。

12.如权利要求10所述的方法，所述使用所述启发式匹配模型并基于所述第一变分隐变量、所述对话内容信息和知识信息集合，生成知识选取中间变量信息包括：

13.如权利要求10所述的方法，所述根据所述知识选取信息、所述对话内容信息以及所述第二变分隐变量，获得回复预测信息包括：

14.如权利要求8至13中任一项所述的方法，其中，

所述第一变分隐变量包括：基于分类分布的变分隐变量；

所述第二变分隐变量包括：基于正太分布的变分隐变量。

15.一种对话生成模型的训练装置，其中，所述对话生成模型包括：第一隐变量生成模型、第二隐变量生成模型和知识选取模型；所述训练装置包括：

训练样本获取模块，用于获取历史对话内容信息、历史回复信息和知识选择历史信息，用以作为训练样本；

第一变量生成模块，用于使用所述第一隐变量生成模型并基于所述历史对话内容信息和所述知识选择历史信息，生成第一变分隐变量；

第二变量生成模块，用于使用所述第二隐变量生成模型并基于所述历史对话内容信息和所述历史回复信息，生成第二变分隐变量；

第一知识确定模块，用于使用所述知识选取模型并基于所述第一变分隐变量、所述历史对话内容信息和知识信息集合，生成知识选取信息；

第一回复预测模块，用于根据所述知识选取信息、所述历史对话内容信息以及所述第二变分隐变量，获得回复预测信息；

模型调整模块，用于使用损失函数并基于所述回复预测信息与所述历史回复信息比对结果，对所述对话生成模型进行调整处理。

16.一种对话生成装置，包括：

模型获取模块，用于获取训练好的对话生成模型；其中，所述对话生成模型是通过权利要求1至7中任一项所述的训练方法训练得到，所述对话生成模型包括：第一隐变量生成模型、第二隐变量生成模型和知识选取模型；

第三变量生成模块，用于使用所述第一隐变量生成模型并基于对话内容信息，生成第一变分隐变量；

第四变量生成模块，用于使用所述第二隐变量生成模型并基于所述对话内容信息，生成第二变分隐变量；

第二知识确定模块，用于使用所述知识选取模型并基于所述第一变分隐变量、所述对话内容信息和知识信息集合，生成知识选取信息；

第二回复预测模块，用于根据所述知识选取信息、所述对话内容信息以及所述第二变分隐变量，获得回复预测信息。

17.一种对话生成模型的训练装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至7中任一项所述的方法。

18.一种对话生成装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求8至14中任一项所述的方法。

19.一种计算机可读存储介质，所述计算机可读存储介质非暂时性地存储有计算机指令，所述指令被处理器执行如权利要求1至14中任一项所述的方法。