CN116361431A

CN116361431A - 模型训练方法、对话生成方法、电子设备和相关装置

Info

Publication number: CN116361431A
Application number: CN202310122499.2A
Authority: CN
Inventors: 赵英秀; 郁博文; 余海洋; 黄非; 李永彬
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-01-19
Filing date: 2023-01-19
Publication date: 2023-06-30

Abstract

本申请实施例提供了一种模型训练方法、对话生成方法、电子设备和相关装置，该模型训练方法包括：获取预训练数据集，其中，所述预训练数据集包括多个预训练样本，所述预训练样本包括第一知识信息、第一历史对话信息、第一查询信息和第一回复信息；通过所述预训练数据集对第一模型进行训练，获得第二模型，其中，所述第一模型为预训练的文本到文本模型，所述第二模型用于根据输入的第二历史对话信息和第二查询信息从第二知识信息中查找支撑知识，并根据所述第二历史对话信息、所述第二查询信息和所述支撑知识生成第二回复信息。本方案能够提高对话生成模型所生成回复信息与查询信息的对应性。

Description

模型训练方法、对话生成方法、电子设备和相关装置

技术领域

本申请实施例涉及机器学习技术领域，尤其涉及一种模型训练方法、对话生成方法、电子设备和相关装置。

背景技术

智能对话机器人是一种经由语音或文字进行人机对话的系统，能够模拟人类进行对话，适用于智能客服、智能办公助理、智能售前服务等场景，能够替代人工解决部分咨询问题。智能对话机器人基于对话生成模型实现，对话生成模型可以根据机器人与用户的历史对话及用户的当前查询信息，生成回复信息。

目前，对话生成模型通过对预训练的文本到文本(Text-To-Text TransferTransformer，T5)模型进行微调训练获得。

然而，通过对T5模型进行微调训练获得对话生成模型，由于T5模型本身与对话任务不相关，使得该对话生成模型生成的回复信息存在多样性差、不流畅、不含有知识等问题，导致对话生成模型所生成回复信息与查询信息的对应性较差。

发明内容

有鉴于此，本申请实施例提供一种模型训练方法、装置、预训练模型、电子设备和存储介质，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种模型训练方法，包括：获取预训练数据集，其中，所述预训练数据集包括多个预训练样本，所述预训练样本包括第一知识信息、第一历史对话信息、第一查询信息和第一回复信息；通过所述预训练数据集对第一模型进行训练，获得第二模型，其中，所述第一模型为预训练的文本到文本模型，所述第二模型用于根据输入的第二历史对话信息和第二查询信息从第二知识信息中查找支撑知识，并根据所述第二历史对话信息、所述第二查询信息和所述支撑知识生成第二回复信息。

根据本申请实施例的第二方面，提供了一种对话生成方法，包括：获取第二查询信息；将所述第二查询信息和相对应的第二历史对话信息输入对话生成模型，以使所述对话生成模型根据所述第二历史对话信息和所述第二查询信息从第二知识信息中查找支撑知识、并根据所述第二历史对话信息、所述第二查询信息和所述支撑知识生成第二回复信息；输出所述第二回复信息。

根据本申请实施例的第三方面，提供了一种模型训练装置，包括：第一获取单元，用于获取预训练数据集，其中，所述预训练数据集包括多个预训练样本，所述预训练样本包括第一知识信息、第一历史对话信息、第一查询信息和第一回复信息；训练单元，用于通过所述预训练数据集对第一模型进行训练，获得第二模型，其中，所述第一模型为预训练的文本到文本模型，所述第二模型用于根据输入的第二历史对话信息和第二查询信息从第二知识信息中查找支撑知识，并根据所述第二历史对话信息、所述第二查询信息和所述支撑知识生成第二回复信息。

根据本申请实施例的第四方面，提供了一种对话生成装置，包括：第二获取单元，用于获取第二历史对话信息和第二查询信息；查找单元，用于根据所述第二历史对话信息和所述第二查询信息，从第二知识信息中查找支撑知识；生成单元，用于根据所述第二历史对话信息、所述第二查询信息和所述支撑知识，生成第二回复信息。

根据本申请实施例的第五方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；存储器用于存放至少一可执行指令，可执行指令使处理器执行上述第一方面或第二方面所述方法对应的操作。

根据本申请实施例的第六方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面或第二方面所述的方法。

根据本申请实施例的第七方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行上述第一方面或第二方面所述的方法。

由上述技术方案可知，第一模型为预训练的文本到文本模型，通过预训练数据集对第一模型进行训练获得第二模型，预训练数据集中的预训练样本包括第一知识信息、第一历史对话信息、第一查询信息和第一回复信息，使得第二模型能够根据输入的第二历史对话信息和第二查询信息从第二知识信息中查找支撑知识，并根据第二历史对话信息、第二查询信息和查找到的支撑知识生成第二回复信息。由于第二模型基于预训练样本训练获得，使得第二模型与对话任务存在相关性，而且第二模型可以基于支撑知识生成回复信息，所以基于第二模型进行微调获得的对话生成模型，可以基于知识信息中的知识来生成回复信息，使得对话生成模型生成的回复信息具有较强的多样性、流畅且含有知识，从而能够应对复杂的问答场景，提高对话生成模型所生成回复信息与查询信息的对应性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例所应用示例性系统的示意图；

图2是本申请一个实施例的模型训练方法的流程图；

图3是本申请一个实施例的第一模型训练方法的流程图；

图4是本申请另一个实施例的第一模型训练方法的流程图；

图5是本申请一个实施例的对话生成方法的流程图；

图6是本申请一个实施例的模型训练装置的示意图；

图7是本申请一个实施例的对话生成装置的示意图；

图8是本申请一个实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本申请进行描述，但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质，公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。

首先，对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释。

知识信息：知识信息是指包括有知识的数据载体，知识信息包括的知识为相应对话场景下可能涉及的专业知识等，比如知识信息可以是产品说明书、软件开发文档、日志、知识库等。知识信息可以是数据库中以不同格式保存的多媒体文件，比如文档、图像等。

历史对话信息：历史对话信息是指两人对话场景或多人对话场景中，各对话人的对话内容中除最后一轮对话内容之外的其余对话内容。比如，对话人A和对话人B进行了5轮对话，在对话过程中对话人A提出问题，对话人B回复对话人A提出的问题，则前4轮对话中对话人A提出的问题和对话人B给出的回复为历史对话信息。

查询信息：查询信息是指两人对话场景或多人对话场景中，最后一轮对话内容中的提问内容或查询内容。比如，对话人A和对话人B进行了5轮对话，在对话过程中对话人A提出问题，对话人B回复对话人A提出的问题，则对话人A在第5轮对话中的提问内容为查询信息。

回复信息：回复信息是指两人对话场景或多人对话场景中，最后一轮对话内容中的回复内容。比如，对话人A和对话人B进行了5轮对话，在对话过程中对话人A提出问题，对话人B回复对话人A提出的问题，则对话人B在第5轮对话中的回复内容为回复信息。

支撑知识：支撑知识是支撑对话生成模型生成回复信息的知识，支撑知识从知识信息中抽取，支撑知识可以是知识信息中的一段话、一句话或一句话的一部分等。

示例性系统

图1示出了一种适用于本申请实施例的模型训练方法的示例性系统。如图1所示，该系统可以包括云服务端102、通信网络104和至少一个用户设备106，图1中示例为多个用户设备106。需要说明的是，本申请实施例的方案既可应用于云服务端102，也可应用于用户设备106。

云服务端102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的设备，包括但不限于分布式存储系统设备、服务器集群、计算云服务端集群等。在一些实施例中，云服务端102可以执行任何适当的功能。例如，在一些实施例中，云服务端102可以用于模型的训练。作为可选的示例，在一些实施例中，云服务端102可以通过包括知识信息、历史对话信息、查询信息和回复信息的预训练样本，对预训练的文本到文本(Text-To-Text)模型进行训练，获得可以根据输入的历史对话信息和当前查询信息从至少一个知识信息中查找支撑知识，并根据历史对话信息、当前对话信息和支撑知识生成回复信息的模型，所训练出的模型经微调后可用于智能对话机器人。

通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络104能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(Wide AreaNetwork，WAN)、局域网(Local Area Network，LAN)、无线网络、数字订户线路(DigitalSubscriber Line，DSL)网络、帧中继网络、异步转移模式(Asynchronous Transfer Mode，ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如通信链路112)连接到通信网络104，该通信网络104能够经由一个或多个通信链路(例如通信链路114)被链接到云服务端102。通信链路可以是适合于在云服务端102与用户设备106之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

用户设备106可以包括适合于进行交互的任何一个或多个用户设备。在一些实施例中，当由云服务端102进行模型训练时，在云服务端102训练获得可根据输入的历史对话信息和当前查询信息从至少一个知识信息中查找支撑知识，并根据历史对话信息、当前对话信息和支撑知识生成回复信息的模型后，该模型发送给用户设备106，用户设备106通过相应对话场景的场景数据集对接收到的模型进行微调，获得可用于智能对话机器人的对话生成模型。在另一些实施例中，用户设备106可以在本地进行模型预训练和微调。用户设备106通过预训练数据集对文本到文本模型进行训练，获得可以根据输入的历史对话信息和当前查询信息从至少一个知识信息中查找支撑知识，并根据历史对话信息、当前对话信息和支撑知识生成回复信息的模型，然后通过相应对话场景的场景数据集对接收到的模型进行微调，获得可用于智能对话机器人的对话生成模型。用户设备106可以包括任何合适类型的设备，例如，用户设备106可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、车辆系统和/或任何其他合适类型的用户设备。

本申请实施例主要着眼于云服务端102或用户设备106进行模型训练的过程，在后文中会对模型训练的过程进行详细描述。

模型训练方法

基于上述系统，本申请实施例提供了一种模型训练方法，该模型训练方法可由上述云服务端102或用户设备106执行。以下通过多个实施例对该模型训练方法进行详细说明。

图2是本申请一个实施例的模型训练方法的流程图。如图2所示，该模型训练方法包括如下步骤：

步骤201、获取预训练数据集。

预训练数据集包括多个预训练样本，预训练样本包括第一知识信息、第一历史对话信息、第一查询信息和第一回复信息。

预训练样本可以从社交网站上获取。针对社交网站上一个主题或帖子提取用户的对话，获取第一历史对话信息、第一查询信息和第一回复信息。如果一个主题或帖子里包括统一资源定位符(Uniform Resource Locator，URL)，则获取该URL对应的文档内容作为预训练样本的额外知识，即将URL对应的文档内容作为预训练样本包括的第一知识信息。通过上述方式可以获得多个包括第一知识信息、第一历史对话信息、第一查询信息和第一回复信息的预训练样本。

应理解，一个主题或帖子里可能包括多个URL，不同的URL对应不同的文档内容，在一些实施例中，可以将各URL对应的文档内容均作为预训练样本包括的第一知识信息，在另一些实施例中，可以对各URL对应的文档内容进行筛选，筛选出一个与第一历史对话信息、第一查询信息和第一回复信息相关性较强的URL作为目标URL，进而将目标URL对应的文档内容作为预训练样本包括的第一知识信息。

步骤202、通过预训练数据集对第一模型进行训练，获得第二模型。

第一模型为预训练的文本到文本(Text-To-Text)模型，第一模型可以将文本作为输入，并生成新的文本。第一模型通过公开数据集训练获得，比如第一模型可以通过超大型干净抓取数据集(Colossal Clean Crawled Corpus，C4)训练获得，第一模型可以是统一的文本到文本Transformer(Text-To-Text Transfer Transformer，T5)模型。

第二模型以第二历史对话信息、第二查询信息和第二知识信息作为输入，根据第二历史对话信息和第二查询信息从第二知识信息中查找支撑知识，进而根据输入的第二历史对话信息、第二查询信息和查找到的支撑知识，生成相对应的第二回复信息。

第二模型作为预训练模型，在智能对话机器人应用场景中，可以在第二模型的基础上进行模型微调，获得可用于智能对话机器人的对话生成模型。应理解，在第二模型的基础上进行模型微调，可以是通过场景数据集对第二模型进行微调，也可以先对第二模型作进一步预训练，然后在通过场景数据集对进一步预训练的模型进行微调，对此本申请实施例不作限定。

在本申请实施例中，第一模型为预训练的文本到文本模型，通过预训练数据集对第一模型进行训练获得第二模型，预训练数据集中的预训练样本包括第一知识信息、第一历史对话信息、第一查询信息和第一回复信息，使得第二模型能够根据输入的第二历史对话信息和第二查询信息从第二知识信息中查找支撑知识，并根据第二历史对话信息、第二查询信息和查找到的支撑知识生成第二回复信息。由于第二模型基于预训练样本训练获得，使得第二模型与对话任务存在相关性，而且第二模型可以基于支撑知识生成回复信息，所以基于第二模型进行微调获得的对话生成模型，可以基于知识信息中的知识来生成回复信息，使得对话生成模型生成的回复信息具有较强的多样性、流畅且含有知识，从而能够应对复杂的问答场景，提高对话生成模型所生成回复信息与查询信息的对应性。

在一种可能的实现方式中，预训练样本包括的第一知识信息、第一历史对话信息、第一查询信息和第一回复信息包括相同的标签，不同预训练样本中第一知识信息、第一历史对话信息、第一查询信息和第一回复信息可以包括相同或不同的标签。

标签用于指示第一知识信息、第一历史对话信息、第一查询信息和第一回复信息的内容相关性，具有相同标签的第一知识信息、第一历史对话信息、第一查询信息和第一回复信息的内容相关性较强。标签是具有意义的字、词或短语，一个预训练样本可以对应一个或多个标签。

在获取预训练数据集时，可以根据所包括第一知识信息、第一历史对话信息、第一查询信息和第一回复信息是否具有相同的标签，对获取到的预训练样本进行筛选，筛选出所包括第一知识信息、第一历史对话信息、第一查询信息和第一回复信息具有相同标签的预训练样本，进而获得由所筛选出的各预训练样本构成的预训练数据集。

在本申请实施例中，同一预训练样本包括的第一知识信息、第一历史对话信息、第一查询信息和第一回复信息包括有相同的标签，保证预训练样本包括的文本与用户对话内容存在较强的相关性，从而通过预训练样本对第一模型进行训练获得第二模型时，使得第二模型能够根据第二知识信息、第二历史对话信息、第二查询信息与回复信息的相关性来查找支撑知识并生成第二回复信息，保证所生成第二回复信息的准确性。

图3是本申请一个实施例的第一模型训练方法的流程图。如图3所示，该第一模型训练方法包括如下步骤：

步骤301、将预训练样本包括的第一知识信息、第一历史对话信息和第一查询信息输入第一模型，获得第一模型从第一知识信息中查找到的支撑知识样本，并获得第一模型根据输入的第一历史对话信息、第一查询信息和支撑知识样本生成的回复信息样本。

在通过预训练数据集对第一模型进行训练获得第二模型时，预训练样本包括的第一知识信息、第一历史对话信息和第一查询信息为特征，预训练样本包括的第一回复信息为标签。在对第一模型进行训练的过程中，将预训练样本包括的第一知识信息、第一历史对话信息和第一查询信息输入第一模型后，第一模型可以根据输入的第一知识信息、第一历史对话信息和第一查询信息，从输入的第一查询信息中查找支撑知识样本，并根据输入的第一历史对话信息、第一查询信息和查找到的支撑知识样本生成回复信息样本，从而可以获取到第一模型查找到的支撑知识样本及生成的回复信息样本。

步骤302、根据支撑知识样本，确定第一模型的第一损失。

在获取到第一模型输出的支撑知识样本后，可以根据支撑知识样本与对话内容的相关性确定第一模型的第一损失，对话内容可由第一历史对话信息和第一查询信息确定。本申请实施例不对确定第一损失的方法作限定，可以使用任意适合于计算第一损失的损失函数来计算第一损失，比如可以根据支撑知识样本与第一历史对话信息、第一查询信息和第一回复信息所包括相同标签的数量，来确定第一损失。

步骤303、根据第一回复信息和回复信息样本，确定第一模型的第二损失。

在获取到第一模型输出的回复信息样本后，可以根据回复信息样本与预训练样本包括的第一回复信息的相似性，来确定第一模型的第二损失。本申请实施例不对确定第二损失的方法作限定，可以使用任意合适于计算第二损失的损失函数来计算第二损失，比如可以计算回复信息样本与第一回复信息之间的欧氏距离，作为第二损失。

步骤304、根据第一损失和第二损失对第一模型进行训练，获得第二模型。

在针对一个预训练样本获得第一损失和第二损失后，根据第一损失和第二损失对第一模型的模型参数进行调整，实现对第一模型的训练。依次通过预训练数据集中的各预训练样本对第一模型进行训练，直至已通过预训练样本集中的各预训练样本对第一模型训练，或者第一模型已收敛，获得第二模型。

在本申请实施例中，将预训练样本输入第一模型后，获得第一模型从第一知识信息中查找的支撑知识样本和生产的回复信息样本，根据支撑知识样本确定第一损失，并根据第一模型输出的回复信息样本和第一回复信息确定第二损失，进而联合第一损失和第二损失对第一模型进行训练，获得第二模型。由于第一模型从第一知识信息中查找到的支撑知识样本是为了后续基于支撑知识样本生成回复信息样本，所以查找支撑知识样本的准确性会影响所生成回复信息样本的准确性，而第一损失可以指示第一模型查找支撑知识样本的准确性，第二损失可以指示第一模型生成回复信息样本的准确性，联合第一损失和第二损失对第一模型进行训练，可以保证所训练出的第二模型生成第二回复信息的准确性。

图4是本申请另一个实施例的第一模型训练方法的流程图。如图4所示，该第一模型训练方法包括如下步骤：

步骤401、将预训练样本包括的第一知识信息、第一历史对话信息和第一查询信息输入第一模型，获得第一模型从第一知识信息中确定出的参考知识信息。

在一些应用场景下，用于供对话生成模型生成对话时参考知识有多个，此时对话生成模型需要根据第二历史对话信息、第二查询信息从多个备选知识信息中查找参考知识信息，进而基于查找到的参考知识信息来生成第二回复信息。而对话生成模型基于第二模型获得，所以在对第一模型进行训练获得第二模型时，需要训练第一模型从多个备选知识信息中查找与第一历史对话信息和第一查询信息存在较强相关性的参考知识信息的能力。

第一知识信息包括多个子知识信息，在将第一历史对话信息、第一查询信息和第一知识信息输入第一模型后，第一模型可以从第一知识信息中确定与第一历史对话信息和第一查询信息相关性较强的子知识信息作为参考知识信息，进而从参考知识信息中提取支撑知识样本，所以参考知识信息包括支撑知识样本。

在训练第一模型的过程中，将预训练样本包括的第一历史对话信息、第一查询信息和第一知识信息输入第一模型，获得第一模型从第一知识信息中确定出的参考知识信息。

步骤402、将参考知识信息、第一历史对话信息和第一查询信息输入第一模型，获得第一模型从参考知识信息中查找到的支撑知识样本，并获得第一模型根据输入的第一历史对话信息、第一查询信息和查找到的支撑知识样本生成的回复信息样本。

步骤403、根据支撑知识样本，确定第一模型的第一损失。

步骤404、根据第一回复信息和回复信息样本，确定第一模型的第二损失。

需要说明的是，上述步骤402至步骤404可参考前述实施例中的步骤301至步骤303，在此不再进行赘述。

步骤405、根据参考知识信息，确定第一模型的第三损失。

在获取到第一模型从第一知识信息中确定出的参考知识信息后，可以根据参考知识信息与对话内容的相关性确定第一模型的第三损失。本申请实施例不对确定第三损失的方法作限定，可以使用任意适合于计算第三损失的损失函数来计算第三损失，比如可以根据参考知识信息与第一历史对话信息、第一查询信息所包括相同标签的数量，来确定第一模型的第三损失。

步骤406、根据第一损失、第二损失和第三损失对第一模型进行训练，获得第二模型。

在针对一个预训练样本获得第一损失、第二损失和第三损失后，根据第一损失、第二损失和第三损失对第一模型的模型参数进行调整，实现对第一模型的训练。依次通过预训练数据集中的各预训练样本对第一模型进行训练，直至已通过预训练数据集中的各预训练样本对第一模型训练，或者第一模型已收敛，获得第二模型。

在本申请实施例中，训练第一模型的过程中，获取第一损失、第二损失和第三损失，第一损失指示第一模型查找支撑知识样本的准确性，第二损失指示第一模型生成回复信息样本的准确性，第三损失指示第一模型查找参考知识信息的准确性，而查找参考知识信息和查找支撑知识样本都是为了生成回复信息样本，所以联合第一损失、第二损失和第三损失对第一模型进行训练，可以保证训练出的第二模型所生成第二回复信息的准确性。

需要说明的是，对话生成模型从多个知识信息中查找参考知识信息的能力，可以在训练第一模型的过程中进行训练，即在预训练过程中训练，也可以在对模型进行微调获得对话生成模型的过程中进行训练，即在下游具体应用场景中训练。

在一种可能的实现方式中，在获取到的第二模型后，可以获取场景数据集，进而根据预训练数据集和场景数据集，基于半监督学习策略对第二模型进行训练，获得第三模型。其中，场景数据集包括来自对话场景的多个场景训练样本，场景训练样本包括第三知识信息、第三历史对话信息、第三查询信息和第三回复信息，对话场景是对话生成模型的应用场景。

在本申请实施例中，根据预训练数据集和场景数据集，基于半监督学习策略对第二模型进行训练，获得第三模型，进而后续可以通过对第三模型进行微调而获得对话生成模型，由于场景数据集包括来自对话场景的多个场景训练样本，而对话场景是对话生成模型的应用场景，所以基于半监督学习策略对第二模型进行训练，可以缩小预训练和下游微调时存在的代沟，使得预训练过程和下游微调过程中数据分布、数据标准类型和数据质量相匹配，进而在基于第三模型进行微调所获得对话生成模型后，对话生成模型能够根据第二历史对话信息和第二查询信息准确地生成第二回复信息。

在一种可能的实现方式中，在基于半监督学习策略对第二模型进行训练获得第三模型时，可以基于第二模型分别构建第四模型和第五模型，然后将第四模型和第五模型交替作为老师模型和学生模型执行如下操作：

将预训练样本包括的第一知识信息、第一历史对话信息和第一查询信息输入老师模型，将老师模型输出的回复信息与该预训练样本包括的第一知识信息、第一历史对话信息和第一查询信息进行组合，获得伪标签样本，并通过各伪标签样本和各场景训练样本对学生模型进行训练。

通过多轮将第四模型和第五模型交替作为老师模型和学生模型进行训练后，将训练完成的第四模型或第五模型确定为第三模型。

第四模型和第五模型基于第二模型构建，可以直接将第二模型分别作为第四模型和第五模型，也可以直接将第二模型作为第四模型，而在第二模型基础上加入噪声后作为第五模型。

将第四模型和第五模型交替作为老师模型和学生模型进行训练，如果当前轮训练将第四模型作为老师模型，而将第五模型作为学生模型，则在当前轮训练结束后，将经当前轮训练的第五模型作为下一轮训练中的老师模型，而将当前轮训练中作为老师模型的第四模型作为下一轮训练中的学生模型。如果当前轮训练将第五模型作为老师模型，而将第四模型作为学生模型，则在当前轮训练结束后，将经当前轮训练的第四模型作为下一轮训练中的老师模型，而将当前轮训练中作为老师模型的第五模型作为下一轮训练中的学生模型。

在一轮训练中，通过老师模型为预训练数据集中的各预训练样本生成回复信息，回复信息即为老师模型生成的标签，将老师模型生成的回复信息与相应预训练样本包括的第一知识信息、第一历史对话信息和第一查询信息进行组合获得伪标签样本，进而通过获得的各伪标签样本和各场景训练样本对当前轮中的学生模型进行训练。

通过交替作为老师模型和学生模型对第四模型和第五模型进行训练，直至训练的轮数达到预设轮数，或者第四模型和/或第五模型收敛，将训练完成的第四模型或第五模型作为第三模型。

在本申请实施例中，基于第二模型构建第四模型和第五模型，将第四模型和第五模型交替作为老师模型和学生模型，老师模型为预训练样本生成回复信息，将老师模型生成的回复信息与相应预训练样本包括的第一知识信息、第一历史对话信息和第一查询信息进行组合获得伪标签样本，通过获得的各伪标签样本和各场景训练样本对学生模型进行训练，可以提升对预训练样本的利用，在预训练样本数量有限的情况下对模型进行充分训练，提高对模型进行预训练的效果。

在一种可能的实现方式中，在获得第三模型后，可以通过场景数据集对第三模型进行微调，获得适用于对话场景的对话生成模型。

在本申请实施例中，由于场景数据集包括对话场景的多个场景训练样本，对话场景是对话生成模型的应用场景，通过场景数据集对第三模型进行微调获得对话生成模型，使得对话生成模型能够适用于对话场景下的对话生成，保证对话生成模型所生成回复信息的准确性。

对话生成方法

基于前述实施例中的示例性系统，本申请实施例提供了一种对话生成方法，该对话生成方法可由示例性系统中的云服务端或用户设备执行。

图5是本申请一个实施例的对话生成方法的流程图。如图5所示，该对话生成方法包括如下步骤：

步骤501、获得第二查询信息。

在多轮对话场景下，第二查询信息是用户在当前轮对话中输入的提问信息或查询信息。

步骤502、将第二查询信息和相对应的第二历史对话信息输入对话生成模型，以使对话生成模型根据第二历史对话信息和第二查询信息从第二知识信息中查找支撑知识、并根据第二历史对话信息、第二查询信息和支撑知识生成第二回复信息。

在多轮对话场景下，第二历史对话信息时当前轮对话之前各轮对话的问答信息。第二回复信息是对话生成模型针对第二查询信息生成的回复信息。对话生成模型以第二历史对话信息、第二查询信息和第二知识信息为输入，以第二回复信息为输出。对话生成模型可以通过对上述实施例中的第二模型或第三模型进行微调获得。

步骤503、输出第二回复信息。

在获得对话生成模型输出的第二回复信息后，将第二回复信息作为用对第二查询信息的答复信息输出，实现对话功能。

在本申请实施例中，对话生成模型能够根据输入的第二历史对话信息和第二查询信息从第二知识信息中查找支撑知识，并根据第二历史对话信息、第二查询信息和查找到的支撑知识生成第二回复信息。由于对话生成模型可以基于支撑知识生成回复信息，所以对话生成模型可以基于知识信息中的知识来生成回复信息，使得对话生成模型生成的回复信息具有较强的多样性、流畅且含有知识，从而能够应对复杂的问答场景，提高对话生成模型所生成回复信息与查询信息的对应性。

在一种可能的实现方式中，在获取第二查询信息时，可以对接收到的语音查询指令进行语音识别，以获得第二查询信息，或者，还可以直接直接文本形式的第二查询信息。相对应地，在输出第二回复信息时，可以将第二回复信息转换为语音回复信息后输出，或者，还可以直接以文本形式输出第二回复信息。

在本申请实施例中，用户可以通过语音输入第二查询信息，也可以通过文本输入设备输入文本形式的第二查询信息，在向用户发送第二回复信息时，可以通过音频输出设备输出第二回复信息，也可以通过显示屏、投影仪、打印机等输出文本形式的第二回复信息，使得该对话生成方法具有较强的实用性。

需要说明的是，本申请实施例中的对话生成方法基于对话生成模型实现，对话生成模型可基于前述实施例中的模型训练方法获得，所以本申请实施例中的对话生成方法是前述模型训练方法的具体应用，对话生成模型的训练方法可参见前述实施例中的描述，在此不再进行赘述。

模型训练装置

对应于上述方法实施例，图6示出了本申请一个实施例的模型训练装置的示意图。如图6所示，该模型训练装置600包括：

第一获取单元601，用于获取预训练数据集，其中，预训练数据集包括多个预训练样本，预训练样本包括第一知识信息、第一历史对话信息、第一查询信息和第一回复信息；

训练单元602，用于通过预训练数据集对第一模型进行训练，获得第二模型，其中，第一模型为预训练的文本到文本模型，第二模型用于根据输入的第二历史对话信息和第二查询信息从第二知识信息中查找支撑知识，并根据第二历史对话信息、第二查询信息和支撑知识生成第二回复信息。

在本申请实施例中，第一模型为预训练的文本到文本模型，训练单元602通过预训练数据集对第一模型进行训练获得第二模型，第一获取单元601获取到的预训练数据集中的预训练样本包括第一知识信息、第一历史对话信息、第一查询信息和第一回复信息，使得第二模型能够根据输入的第二历史对话信息和第二查询信息从第二知识信息中查找支撑知识，并根据第二历史对话信息、第二查询信息和查找到的支撑知识生成第二回复信息。由于第二模型基于预训练样本训练获得，使得第二模型与对话任务存在相关性，而且第二模型可以基于支撑知识生成回复信息，所以基于第二模型进行微调获得的对话生成模型，可以基于知识信息中的知识来生成回复信息，使得对话生成模型生成的回复信息具有较强的多样性、流畅且含有知识，从而能够应对复杂的问答场景，提高对话生成模型所生成回复信息与查询信息的对应性

需要说明的是，本实施例的模型训练装置用于实现前述方法实施例中的模型训练方法，并具有相应的方法实施例的有益效果，在此不再赘述。

对话生成装置

对应于上述对话生成方法实施例，本申请实施例提供了一种对话生成装置。图7是本申请一个实施例的对话生成装置的示意图。如图7所示，该对话生成装置700包括：

第二获取单元701，用于获取第二历史对话信息和第二查询信息；

查找单元702，用于根据第二历史对话信息和第二查询信息，从第二知识信息中查找支撑知识；

生成单元703，用于根据第二历史对话信息、第二查询信息和支撑知识，生成第二回复信息。

在本申请实施例中，第二获取单元701获取到第二历史对话信息和第二查询信息后，查找单元702可以根据第二历史对话信息和第二查询信息从第二知识信息中查找支撑知识，进而生成单元703可以根据第二历史对话信息、第二查询信息和支撑知识生成第二回复信息。对话生成装置可以基于知识信息中的知识来生成回复信息，使得生成的回复信息具有较强的多样性、流畅且含有知识，从而能够应对复杂的问答场景，提高所生成回复信息与查询信息的对应性。

需要说明的是，本申请实施例中的对话生成装置可实现前述实施例中第二模型、第三模型或对话生成模型的功能，对话生成装置生成第二回复信息的具体过程可参见前述方法实施例中的描述，在此不再进行赘述。

电子设备

图8是本申请实施例提供的一种电子设备的示意性框图，本申请具体实施例并不对电子设备的具体实现做限定。如图8所示，该电子设备可以包括：处理器(processor)802、通信接口(Communications Interface)804、存储器(memory)806、以及通信总线808。其中：

处理器802、通信接口804、以及存储器806通过通信总线808完成相互间的通信。

通信接口804，用于与其它电子设备或服务器进行通信。

处理器802，用于执行程序810，具体可以执行前述任一模型训练方法实施例或对话生成实施例中的相关步骤。

具体地，程序810可以包括程序代码，该程序代码包括计算机操作指令。

处理器802可能是CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

RISC-V是一种基于精简指令集(RISC)原则的开源指令集架构，其可以应用于单片机和FPGA芯片等各个方面，具体可应用在物联网安全、工业控制、手机、个人计算机等领域，且由于其在设计时考虑了小型、快速、低功耗的现实情况，使得其尤其适用于仓库规模云计算机、高端移动电话和微小嵌入式系统等现代计算设备。随着人工智能物联网AIoT的兴起，RISC-V指令集架构也受到越来越多的关注和支持，并有望成为下一代广泛应用的CPU架构。

本申请实施例中的计算机操作指令可以是基于RISC-V指令集架构的计算机操作指令，对应地，处理器802可以基于RISC-V的指令集设计。具体地，本申请实施例提供的电子设备中的处理器的芯片可以为采用RISC-V指令集设计的芯片，该芯片可基于所配置的指令执行可执行代码，进而实现上述实施例中的模型训练方法。

存储器806，用于存放程序810。存储器806可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序810具体可以用于使得处理器802执行前述任一实施例中的模型训练方法或对话生成方法。

程序810中各步骤的具体实现可以参见前述任一模型训练方法实施例或对话生成方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本申请实施例的电子设备，第一模型为预训练的文本到文本模型，通过预训练数据集对第一模型进行训练获得第二模型，预训练数据集中的预训练样本包括第一知识信息、第一历史对话信息、第一查询信息和第一回复信息，使得第二模型能够根据输入的第二历史对话信息和第二查询信息从第二知识信息中查找支撑知识，并根据第二历史对话信息、第二查询信息和查找到的支撑知识生成第二回复信息。由于第二模型基于预训练样本训练获得，使得第二模型与对话任务存在相关性，而且第二模型可以基于支撑知识生成回复信息，所以基于第二模型进行微调获得的对话生成模型，可以基于知识信息中的知识来生成回复信息，使得对话生成模型生成的回复信息具有较强的多样性、流畅且含有知识，从而能够应对复杂的问答场景，提高对话生成模型所生成回复信息与查询信息的对应性。

计算机存储介质

本申请还提供了一种计算机可读存储介质，存储用于使一机器执行如本文所述的模型训练方法或对话生成方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本申请的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

计算机程序产品

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

需要说明的是，本公开实施例所涉及到的与用户有关的信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于对模型进行训练的样本数据、用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种模型训练方法，其特征在于，包括：

获取预训练数据集，其中，所述预训练数据集包括多个预训练样本，所述预训练样本包括第一知识信息、第一历史对话信息、第一查询信息和第一回复信息；

通过所述预训练数据集对第一模型进行训练，获得第二模型，其中，所述第一模型为预训练的文本到文本模型，所述第二模型用于根据输入的第二历史对话信息和第二查询信息从第二知识信息中查找支撑知识，并根据所述第二历史对话信息、所述第二查询信息和所述支撑知识生成第二回复信息。

2.根据权利要求1所述的方法，其特征在于，所述第一知识信息、所述第一历史对话信息、所述第一查询信息和所述第一回复信息包括相同的标签。

3.根据权利要求1所述的方法，其特征在于，所述通过所述预训练数据集对第一模型进行训练，获得第二模型，包括：

将所述预训练样本包括的所述第一知识信息、所述第一历史对话信息和所述第一查询信息输入所述第一模型，获得所述第一模型从所述第一知识信息中查找到的支撑知识样本，并获得所述第一模型根据输入的所述第一历史对话信息、所述第一查询信息和所述支撑知识样本生成的回复信息样本；

根据所述支撑知识样本，确定所述第一模型的第一损失；

根据所述第一回复信息和所述回复信息样本，确定所述第一模型的第二损失；

根据所述第一损失和所述第二损失对所述第一模型进行训练，获得所述第二模型。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一损失和所述第二损失对所述第一模型进行训练，获得所述第二模型，包括：

将所述预训练样本包括的所述第一历史对话信息、所述第一查询信息和所述第一知识信息输入所述第一模型，获得所述第一模型从所述第一知识信息中确定出的参考知识信息，其中，所述参考知识信息包括所述支撑知识样本；

根据所述参考知识信息，确定所述第一模型的第三损失；

根据所述第一损失、所述第二损失和所述第三损失对所述第一模型进行训练，获得所述第二模型。

5.根据权利要求1-4中任一所述的方法，其特征在于，所述方法还包括：

获取场景数据集，其中，所述场景数据集包括来自对话场景的多个场景训练样本，所述场景训练样本包括第三知识信息、第三历史对话信息、第三查询信息和第三回复信息；

根据所述预训练数据集和所述场景数据集，基于半监督学习策略对所述第二模型进行训练，获得第三模型。

6.根据权利要求5所述的方法，其特征在于，所述根据所述预训练数据集和所述场景数据集，基于半监督学习策略对所述第二模型进行训练，获得第三模型，包括：

基于所述第二模型分别构建第四模型和第五模型；

将所述第四模型和所述第五模型交替作为老师模型和学生模型执行如下操作：将所述预训练样本包括的所述第一知识信息、所述第一历史对话信息和所述第一查询信息输入所述老师模型，将所述老师模型输出的回复信息与该预训练样本包括的所述第一知识信息、所述第一历史对话信息和所述第一查询信息进行组合，获得伪标签样本，并通过所述伪标签样本和所述场景训练样本对所述学生模型进行训练；

将训练完成的所述第四模型或所述第五模型确定为所述第三模型。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

通过所述场景数据集对所述第三模型进行微调，获得适用于所述对话场景的对话生成模型。

8.一种对话生成方法，其特征在于，包括：

获取第二查询信息；

将所述第二查询信息和相对应的第二历史对话信息输入对话生成模型，以使所述对话生成模型根据所述第二历史对话信息和所述第二查询信息从第二知识信息中查找支撑知识、并根据所述第二历史对话信息、所述第二查询信息和所述支撑知识生成第二回复信息；

输出所述第二回复信息。

9.根据权利要求8所述的方法，其特征在于，

所述获取第二查询信息，包括：对接收到的语音查询指令进行语音识别获得所述第二查询信息，或者，接收文本形式的所述第二查询信息；

和/或，

所述输出所述第二回复信息，包括：将所述第二回复信息转换为语音回复信息后输出，或者，以文本形式输出所述第二回复信息。

10.一种模型训练装置，其特征在于，包括：

第一获取单元，用于获取预训练数据集，其中，所述预训练数据集包括多个预训练样本，所述预训练样本包括第一知识信息、第一历史对话信息、第一查询信息和第一回复信息；

训练单元，用于通过所述预训练数据集对第一模型进行训练，获得第二模型，其中，所述第一模型为预训练的文本到文本模型，所述第二模型用于根据输入的第二历史对话信息和第二查询信息从第二知识信息中查找支撑知识，并根据所述第二历史对话信息、所述第二查询信息和所述支撑知识生成第二回复信息。

11.一种对话生成装置，其特征在于，包括：

第二获取单元，用于获取第二历史对话信息和第二查询信息；

查找单元，用于根据所述第二历史对话信息和所述第二查询信息，从第二知识信息中查找支撑知识；

生成单元，用于根据所述第二历史对话信息、所述第二查询信息和所述支撑知识，生成第二回复信息。

12.一种电子设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行如权利要求1-9中任一项方法对应的操作。

13.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，该程序被处理器执行时实现如权利要求1-9中任一项的方法。

14.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令指示计算设备执行如权利要求1-9中任一项的方法。