CN113569017B

CN113569017B - 一种模型处理方法、装置、电子设备及存储介质

Info

Publication number: CN113569017B
Application number: CN202110121381.9A
Authority: CN
Inventors: 邱耀; 张金超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2024-05-10
Anticipated expiration: 2041-01-28
Also published as: CN113569017A

Abstract

本申请实施例公开了一种模型处理方法、装置、电子设备及介质，可应用于可应用于人工智能领域。其中方法包括：获取训练数据，获取预训练模型，并在所述预训练模型中增加第一分类器与第二分类器，得到待处理模型，通过所述训练数据对所述待处理模型进行迭代训练，得到目标处理模型；在所述目标处理模型中删除所述第一分类器和所述第二分类器，并依照目标对话任务对删除所述第一分类器与所述第二分类器后的目标处理模型进行微调，得到目标对话处理模型。采用本申请实施例，可以在对预训练模型进行微调之前，提升预训练模型对对话数据的理解能力，有利于克服直接对预训练模型微调时产生灾难性遗忘的问题。

Description

一种模型处理方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能领域，具体涉及自然语言处理技术领域，尤其涉及一种模型处理方法、一种模型处理装置、一种电子设备及一种计算机存储介质。

背景技术

随着计算机科学与人工智能的日益发展，自然语言处理技术得到巨大的提升。目前，当需要将一个预训练模型应用于目标对话任务时，通常分为两个处理阶段，第一阶段为获取预训练模型，第二阶段基于目标对话任务对预训练模型进行微调(fine-tuning)，但由于预训练的训练数据与目标对话任务的训练数据存在较大差异，从而导致预训练模型在微调阶段丢失一部分自身在预训练时学到的知识(即灾难性遗忘)，使得微调得到的对话处理模型在目标对话任务中性能较差，不能较好地理解对话上下文信息。

发明内容

本申请实施例提供了一种模型处理方法、装置、电子设备及介质，可以在对预训练模型进行微调之前，提升预训练模型对对话数据的理解能力，有利于克服直接对预训练模型微调时产生灾难性遗忘的问题。

一方面，本申请实施例提供了一种模型处理方法，该方法包括：

获取训练数据，所述训练数据包括多个连贯性不同的历史对话数据，任一个历史对话数据包括多个对话轮次的对话数据；

获取预训练模型，并在所述预训练模型中增加第一分类器与第二分类器，得到待处理模型，所述第一分类器用于确定输入所述待处理模型的目标历史对话数据的连贯性，所述第二分类器用于确定所述目标历史对话数据中各对话轮次的连贯性；

通过所述训练数据对所述待处理模型进行迭代训练，得到目标处理模型；

在所述目标处理模型中删除所述第一分类器和所述第二分类器，并依照目标对话任务对删除所述第一分类器与所述第二分类器后的目标处理模型进行微调，得到目标对话处理模型。

另一方面，本申请实施例提供了一种模型处理装置，该装置包括：

获取模块，用于获取训练数据，所述训练数据包括多个连贯性不同的历史对话数据，任一个历史对话数据包括多个对话轮次的对话数据；

所述获取模块，还用于获取预训练模型，并在所述预训练模型中增加第一分类器与第二分类器，得到待处理模型，所述第一分类器用于确定输入所述待处理模型的目标历史对话数据的连贯性，所述第二分类器用于确定所述目标历史对话数据中各对话轮次的连贯性；

所述处理模块，还用于通过所述训练数据对所述待处理模型进行迭代训练，得到目标处理模型；

所述处理模块，还用于在所述目标处理模型中删除所述第一分类器和所述第二分类器，并依照目标对话任务对删除所述第一分类器与所述第二分类器后的目标处理模型进行微调，得到目标对话处理模型。

再一方面，本申请实施例提供了一种电子设备，其特征在于，所述电子设备包括处理器和存储装置，所述处理器与所述存储装置相互连接，其中，所述存储装置用于存储计算机程序指令，所述处理器被配置用于执行如下步骤：

又一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如下步骤：

本申请实施例在预训练模型的基础上增加第一分类器和第二分类器得到待处理模型，通过训练数据基于待处理模型进行训练，也就是说，在预训练与微调之间增加一个训练阶段，通过增加的训练阶段预测目标历史对话数据的连贯性和目标历史对话数据中各轮次对话数据的连贯性，从而使得模型在进行微调之前学到一般化的理解对话上下文信息的能力，再对与训练模型进行微调，从而可以将目标对话处理模型用于目标对话任务。由此可以在对预训练模型进行微调之前，提升预训练模型对对话数据的理解能力，有利于克服直接对预训练模型微调时产生灾难性遗忘的问题。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种对话系统的结构示意图；

图2是本发明实施例提供的一种模型处理方法的流程示意图；

图3是本发明实施例提供的一种待处理模型的结构示意图；

图4是本发明实施例提供的另一种模型处理方法的流程示意图；

图5是本发明实施例提供的一种待处理模型的结构示意图；

图6是本发明实施例提供的一种模型处理装置的结构示意图；

图7是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

目前，当需要将一个预训练模型应用于下游任务(例如目标对话任务)时，通常分为两个处理阶段，第一阶段为获取预训练模型，第二阶段为基于目标对话任务进行微调。该预训练模型可以是GPT、T5、GPT2、DialogGPT等预训练模型，微调是根据目标对话任务对与训练模型进行细微的调整，该目标对话任务可以是指闲聊型对话任务、也可以是任务型对话任务。但这样的训练方式通常存在两个问题，一个是预训练的训练数据与目标对话任务的训练数据存在较大差异，另一个是预训练的损失函数与目标对话任务的损失函数不一致，从而导致在对预训练进行微调时容易产生灾难性遗忘问题，得到的对话处理模型在目标对话任务中性能较差，不能较好地理解对话上下文信息。

基于上述描述，本申请实施例提出一种模型处理方案，在预训练与微调之间新增一个训练阶段，具体的，在预训练模型的基础上增加第一分类器和第二分类器得到待处理模型，通过训练数据基于待处理模型进行训练，预测目标历史对话数据的连贯性和目标历史对话数据中各轮次对话数据的连贯性，再基于目标对话任务对删除第一分类器与第二分类器的目标处理模型进行微调，由此可以，有助于在模型微调之前提升模型对对话数据的理解能力，有利于防止直接对预训练模型进行微调产生灾难性遗忘的情况。本申请实施例提出的技术方案描述的目标对话任务可以是任务型对话，也可以是闲聊型对话，具有较强的普适性，只要是用到了预训练模型的对话任务都可以采用本申请的技术方案进行模型处理。

本申请的技术方案可运用在电子设备中，该电子设备可以是终端，也可以是服务器，或者也可以是用于模型处理的其他设备，本申请不做限定。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请的技术方案可应用于自然语言处理(Nature Language processing,NLP)领域，是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

此处以将本方案应用于一个传统的任务型对话系统为例，对方案进行阐述。请参照图1，一个对话系统一般会包括三个模块：语言理解(NLU)模块、对话管理(DM)模块、语音生成(NLG)模块。NLU负责从用户输入的文本数据中提取意图和槽位；DM负责对话状态追踪并判断接下来的系统行为；NLG根据上一步判断的系统行为和数据库检索结果，生成通顺的问题答复。在对对话系统中，通常会涉及到意图识别、回复生成等任务。为了实现任务型对话的能力，需要通过训练数据对上述系统进行训练，在对上述三个模型进行训练时，本方案通过在预训练与微调之间增加一个训练阶段，即在预训练模型上增加第一分类器和第二分类器进行历史对话数据的连贯性预测，从而可以增加最终得到的目标对话处理模型对对话数据的理解能力，再依照任务型对话任务对经过第二阶段训练的预训练模型进行微调，从而得到目标对话处理模型，那么该目标对话处理模型就可以实现任务型对话的效果，接收用户输入的用户问题，从而生成问题答复，实现用户的需求或达成一个或多个特定的目标。其中，该预训练模型可以是任意现有的预训练模型，如GPT、T5、GPT2、DialogGPT等预训练模型，用户可以根据目标对话任务选择合适的预训练模型，也可以是用户自行训练的预训练模型，此处不做限制。

在一种可能的实施方式中，本申请提出的技术方案中，若获取的预训练模型为DialogGPT预训练模型，能够使得训练得到的目标对话处理模型具有更好的效果，因为DialogGPT预训练模型能够很好的解决上述由于预训练的训练数据数据与目标对话任务的训练数据不一致而导致的灾难性遗忘问题。具体的，在DialogGPT预训练模型上增加第一分类器和第二分类器进行历史对话数据的连贯性预测，增加模型对对话数据的理解能力，再将训练好的模型进行微调，从而可以大大减少灾难性遗忘的问题，提升模型的性能。

可以理解，上述场景仅是作为示例，并不构成对于本申请实施例提供的技术方案的应用场景的限定，本申请的技术方案还可应用于其他场景。例如，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

基于上述的描述，本申请实施例提出一种模型处理方法。请参见图2，该模型处理方法可以包括步骤201-204：

201、获取训练数据。

其中，该训练数据包括多个连贯性不同的历史对话数据，任一个历史对话数据包括多个对话轮次的对话数据。该历史对话数据在一些场景中也可被称为对话历史、源句子、source等。该连贯性不同的历史对话数据是指，在训练数据中，有的历史对话数据是连贯的，有的历史对话数据是不连贯的，该连贯性用于描述在历史对话中各轮次的对话之间是否连贯，如，各轮次间的对话数据是否关于相关场景，或者，各轮次间的对话数据是否都用于表达相关意图。例如，一个历史对话数据中存在3个对话轮次的对话数据：对话轮次一“A：我们今天去哪儿吃饭呀？B：我们去学校食堂吃饭吧。”对话轮次二“A:我们今天吃什么呀？B：我建议我们今天吃炒饭。”对话轮次三“A：你今天考了多少分呀？B：我考了98分”，显然，对话伦次三描述的内容关于考试内容，与对话轮次一与对话轮次二关于吃饭的内容，那么对话伦次三描述的内容与对话轮次一、对话轮次二描述的内容均不相关，则表示该历史对话数据不连贯，该对话轮次三为不连贯对话轮次。

该训练数据的获取方式可以是：获取连贯的样本对话数据，再对样本对话数据进行处理，得到具有多个连贯性不同的历史对话数据的训练数据，该样本对话数据可以是从各网站中抓取，也可以从电子书籍或文章中获取的数据，还可以直接获取现有的对话数据集；该训练数据的获取方式还可以是直接获取的具有多个连贯性不同的历史对话数据的样本对话数据，根据样本对话数据得到训练数据，此处不做限制。

在一种可能的实施方式中，训练数据的获取可以包括以下步骤：获取样本对话数据，该样本对话数据包括多个历史对话数据，任一个历史对话数据包括多个对话轮次的对话数据；根据目标替换规则从该样本对话数据中确定目标数量的历史对话数据，并对目标数量的历史对话数据中目标对话轮次的对话数据进行替换；对目标数量的历史对话数据和目标对话轮次的对话数据添加连贯性标签信息；根据连贯性标签信息和替换后的样本对话数据得到训练数据。

其中，该连贯性标签信息用于指示对应的历史对话数据不连贯，以及目标对话轮次的对话数据不连贯，以便于与第一分类器、第二分类器的预测结果进行对比。该样本对话数据的获取方式可以是从各网站中抓取，也可以从电子书籍或文章中获取的数据，还可以是直接获取现有的对话数据集，此处不做限制。该目标替换规则用于指示在对对话数据进行替换时的规则，该目标替换规则可以包括目标数量的历史对话数据是如何确定的规则，也可以包括对话数据进行替换的数据来源，还可以包括目标对话轮次的对话数据如何确定，此处不做限制。其中，该目标数量的历史对话数据可以是通过随机函数确定，也可以是根据一定规律进行确定，如每隔一定数量的历史对话数据确定一个历史对话数据，此处不做限制；该对对话数据进行替换的数据的来源可以是从样本对话数据中其他历史对话数据的数据，也可以是根据与样本对话数据获取的不同方式获取的数据，如将一篇文章作为数据来源，此处不做限制；该目标轮次的对话数据可以通过随机函数进行确定，也可以根据一定规律进行确定，如将每隔历史对话数据中第二轮对话轮次的对话数据指定为目标轮次的对话数据，此处不做限制。在一些可能的场景中，随机将历史对话数据中目标对话轮次的数据进行替换的操作可以简称为RTR(Random turner placement)，如果一个历史对话数据被执行了RTR操作，那么这个历史对话数据就是一个不连贯的历史对话数据(IcD，Incoherence Dialog)，被替换的目标对话轮次简称为(IcT，Incoherence turn)。

可选的，训练数据的获取还可以包括：获取具有多个连贯性不同的历史对话数据的样本对话数据，对样本对话数据人为构建连贯性标签信息，从而根据连贯性标签信息和替换后的样本对话数据得到训练数据，该连贯性标签用于指示对应的历史对话数据不连贯，以及目标对话轮次的对话数据不连贯。

此处以通过随机函数确定进行替换的历史对话数据为例，对训练数据的获取进行阐述。用户从各网站上通过爬虫技术获取样本对话数据，该样本对话数据包括1000个历史对话数据，根据目标替换规则，可以从该1000个历史对话数据中，通过随机函数确定目标数量为历史对话数据总数的50％的历史对话数据，也就是500个历史对话数据，并对目标数量的历史对话数据中目标对话轮次的对话数据进行替换。例如，对样本对话数据中的所有历史对话数据进行从1-1000进行编号，通过随机函数从1-1000中确定500个数字，则确定的数字对应的历史对话数据则为选中的目标数量的对话数据，并对目标数量的历史对话数据中目标对话轮次的对话数据进行替换，该目标对话轮次的确定方法可以参照目标数量的对话数据的确定方法，即对选中的历史对话数据中的各对话轮次进行编号，通过随机函数确定一个数字，则确定的数字对应的历史对话数据则为目标轮次。在一些可能的场景中，目标数量的历史对话数据和目标轮次还可以通过其他方式进行确定，此处仅作为举例说明。然后对进行替换的历史对话数据和目标轮次的对话数据添加连贯性标签信息(该连贯性标签信息用于指示对应的历史对话数据不连贯，以及目标对话轮次的对话数据不连贯)，根据连贯性标签信息和替换后的样本对话数据得到训练数据，也就是说，训练数据中包含多个连贯性不同的历史对话数据和连贯性标签。

202、获取预训练模型，并在所述预训练模型中增加第一分类器与第二分类器，得到待处理模型。

其中，该预训练模型是DialogGPT、BERT、GPT2、T5等等。该第一分类器用于确定输入该待处理模型的目标历史对话数据的连贯性，该第二分类器用于确定该目标历史对话数据中各对话轮次的连贯性。在一些可能的场景中，该第一分类器的也可以说是用于对话连贯性预测(DCP，Dialog CoherencePrediction)，该第二分类器也可以说是用于不连贯位置预测(IPP，IncoherencePositionPrediction)。

请参见图3，图3为该待处理模型的结构示意图，通常预训练模型具有编码器，该编码器可以用于将输入的历史对话数据编码为表示向量。在预训练模型中增加第一分类器与第二分类器，可以表现为将编码器的输出的表示向量输入第一分类器或第二分类器，然后由第一分类器或第二分类器输出预测值。

203、通过所述训练数据对所述待处理模型进行迭代训练，得到目标处理模型。

通过训练数据对所待处理模型进行迭代训练可以是指，每次训练输入一个历史对话数据进入待处理模型进行训练，从而得到预测值，再根据预测值与实际值进行比较，从而确定第一分类器与第二分类器的损失函数，并依据损失函数更新待处理模型的网络参数，然后再将另一个历史对话数据输入更新网络参数后的待处理模型进行训练，从而得到预测值，再根据预测值与实际值进行比较，从而确定第一分类器与第二分类器的损失函数，并依据损失函数更新待处理模型的网络参数，并一直重复该操作，直到满足预设条件，停止训练。其中，该预测值可以包括第一预测值与第二预测值，该第一预测值通过第一分类器得到，用于指示第一分类器预测的输入的历史对话数据的连贯性，该第二预测值通过第二分类器得到，用于指示第二分类器预测的输入的历史对话数据中各对话轮次的对话数据的连贯性。该实际值用于指示输入的历史对话数据的真实连贯性，该真实连贯性可通过连贯性标签确定，若输入的历史对话数据的存在连贯性标签，则该历史对话数据不连贯，若不连贯的历史对话数据中的对话轮次存在连贯性标签，则该对话轮次不连贯。

此处以训练数据中的目标历史对话数据为例，对针对待处理模型进行训练的过程进行详细阐述。

在一种可能的实施方式中，通过目标历史对话数据对待处理模型进行训练可以包括如下步骤：将训练数据中的目标历史对话数据输入待处理模型；通过第一分类器确定目标历史对话数据的连贯性，得到第一预测值；通过第二分类器确定目标历史对话数据中各对话轮次的连贯性，得到第二预测值；根据第一预测值、第二预测值，更新待处理模型的网络参数；根据更新后的网络参数对待处理模型进行迭代训练，得到目标处理模型。

204、在所述目标处理模型中删除所述第一分类器和所述第二分类器，并依照目标对话任务对删除所述第一分类器与所述第二分类器后的目标处理模型进行微调，得到目标对话处理模型。

其中，该目标对对话任务旨在理解用户输入的语言，然后生成一个合理的回复，该目标对话任务可以是闲聊型对话任务，也可以是任务型对话任务。闲聊型对话任务是根据用户输入的语言，生成符合上下文情景的回复即可，如聊天机器人与用户进行对话的任务；任务型对话是根据用户输入的语言，生成的回复需要达成一个或多个特定的目标，如用户发出语音指令请求终端进行打车服务，通过该目标对话处理模型生成回复确定打车上车地点和终点位置，从而实现为用户呼叫打车服务。

在目标处理模型中删除第一分类器和第二分类器，换句话说，也就是，将目标处理模型的模型结构还原为预训练模型的模型结构，但是与训练模型与删除第一分类器与第二分类器的目标处理模型的网络参数不同，该删除第一分类器与第二分类器的目标处理模型能够理解对话上下文信息。

在一种可能的实施方式中，对删除第一分类器与第二分类器的目标处理模型进行微调会根据目标对话任务采取不同的微调方式。可以是对删除第一分类器与第二分类器的目标处理模型的结构进行少量调整，如增加一些softmax层或线性层，再获取与目标对话任务相关性很大的数据进行训练，即可得到目标对话处理模型。例如，针对任务型对话任务进行微调可以为，在目标对话处理模型的基础上细微地调整模型结构，使得目标对话处理模型能够自动生成语句，然后获取该任务型对话数据的相关领域的样本数据，如要训练一个购物平台的问答系统，则可以获取与各种商品以及购物相关的数据，并对该数据标记意图、槽位等信息，将标记后的数据输入进行调整的目标对话处理模型进行训练，从而使得模型能够根据用户输入的用户问题自动生成回复。

请参见图4，是本发明实施例提供的另一种模型处理方法的流程示意图。该模型处理方法可以由电子设备执行。如图4所示，该模型处理方法可包括以下步骤401-406：

401、获取训练数据，获取预训练模型，并在所述预训练模型中增加第一分类器与第二分类器，得到待处理模型。

此步骤参照步骤201-202描述，此处不做赘述。

402、将所述训练数据中的目标历史对话数据输入待处理模型。

其中，目标历史对话数据包括多个对话轮次的对话数据，任一对话轮次的对话数据包括:在任一对话轮次中的用户问题以及针对该用户问题的问题答复。在一些可能的场景中，该用户问题不一定为问题，该问题答复也不一定是针对用户问题的问题答复，用户问题也可被称为用户句子、用户语句等，问题答复也可被称为系统回答、系统句子、答复、target等，此处不做限制。

在一种可能的实施方式中，将目标历史对话数据输入待处理模型可以包括以下步骤：在目标历史对话数据对应的字段前添加历史对话开始标记，该历史对话标记用于指示目标历史对话数据的开始；在目标历史对话数据的各个对话轮次对应的字段后添加对话轮次结束标记，该对话轮次标记用于指示对应的对话轮次的结束；在各对话轮次的用户问题对应的字段前添加用户问题标记，在问题答复前添加问题答复标记；将带有历史对话开始标记、对话轮次结束标记、用户问题标记、问题答复标记的目标历史对话数据输入待处理模型。其中，在一些可能场景中，该在目标历史对话数据中添加的标记也可以称为token、令牌、标签、标识等等。

例如，一段目标历史对话数据为“用户问题：请问现在还有空房间吗。问题答复：有的，请问您需要预几间房？用户问题：我需要3间单间，请问多少钱呀？问题答复：普通客房100元1间，高级客房500元1间，请问您想预定哪种？用户问题：我要3间普通房间就好。问题答复：好的，已经为您预定3间普通客房。”在这段目标历史对话数据中，具有3个轮次的对话数据，历史对话开始标记为<cls>，对话轮次结束标记<eot>，用户问题标记<user>、问题答复标记<sys>，那么该目标历史数据变为：“<cls><user>请问现在还有空房间吗。<sys>有的，请问您需要预几间房？<eot><user>我需要3间单间，请问多少钱呀？<sys>普通客房100元1间，高级客房500元1间，请问您想预定哪种？<eot><user>我要3间普通房间就好。<sys>好的，已经为您预定3间普通客房。<eot>”

403、通过第一分类器确定所述目标历史对话数据的连贯性，得到第一预测值，通过第二分类器确定所述目标历史对话数据中各对话轮次的连贯性，得到第二预测值。

在一种可能的实施方式中，通过第一分类器确定目标历史对话数据的连贯性，得到第一预测值，可以包括以下步骤：将目标历史对话数据输入编码器，根据该编码器得到目标历史对话数据对应的第一表示向量；将第一表示向量输入第一分类器，通过第一分类器确定目标历史对话数据不连贯的第一概率，根据第一概率确定第一预测值。在一些可能的场景中，该编码器也被称为encoder。其中，根据该编码器得到目标历史对话数据对应的第一表示向量，可以是根据编码器得到目标历史对话数据中对话开始标记对应的表示向量，再根据该对话开始标记对应的表示向量得到第一表示向量，该对话开始标记对应的表示向量能够携带整个目标历史对话数据的信息。该第一概率用于表示目标历史对话数据不连贯的概率。该第一预测值用于指示第一分类器预测的目标历史对话数据的连贯性。具体的，编码器在对对话数据进行编码时，每一个词都能够生成一个向量，但是由于该编码器是一个transformer，那么该对话开始标记对应的表示向量就是第一表示向量。在实际应用中，该第一表示向量通常为为高维向量，以便于能够表示长句子的特征。

可选的，该第一分类器可以是由一个全连接层和非线性层组成的分类器。具体的，可以把该第一分类器建模为一个文本二分类任务，确定目标历史对话数据是连贯或是不连贯。

在一种可能的实施方式中，通过第二分类器确定目标历史对话数据中各对话轮次的连贯性，得到第二预测值，可以包括以下步骤：将目标历史对话数据输入编码器，根据编码器得到目标历史对话数据中各对话轮次的对话数据对应的第二表示向量；将第二表示向量输入第二分类器，通过第二分类器确定目标历史对话数据中各对话轮次的对话数据不连贯的第二概率，根据第二概率确定第二预测值。在一些可能的场景中，该编码器也可被称为encoder。其中，根据该编码器得到目标历史对话数据对应的第二表示向量，可以是根据编码器得到目标历史对话数据中各对话轮次结束标记对应的表示向量，根据各对话轮次结束标记对应的表示向量得到第二表示向量，该对话轮次结束标记对应的表示向量能够携带目标历史对话数据中对应的对话轮次的对话数据的信息。该第二概率用于表示目标历史对话数据中对话轮次不连贯的概率。该第二预测值用于指示第二分类器预测的对话轮次的连贯性。在实际应用中，该第二表示向量通常为高维向量，以便于能够表示长句子的特征。

可选的，该第二分类器可以是由一个全连接层和非线性层组成的分类器。具体的，可以把该第二分类器建模为一个类似序列标注任务，确定目标历史对话数据各个对话轮次是连贯或是不连贯。

404、根据所述第一预测值、第二预测值，更新所述待处理模型的网络参数。

其中，待处理模型的网络参数是指模型中的能够通过训练进行调整的参数。具体的，根据第一预测值、第二预测值与实际值进行比较，根据比较得到的结果对待处理模型的网络参数进行更新。例如，若目标历史对话数据的第一预测值为Yes，即表示该目标历史对话数据连贯，若第一预测值为No，则表示该目标历史对话数据不连贯，若目标历史对话数据中的对话轮次的第二预测值为Yes，则表示，该对话轮次的对话数据连贯，若第二预测值为No，则表示该对话轮次的对话数据不连贯。该实际值用于指示历史对话数据的真实连贯性，该真实连贯性可通过连贯性标签确定，若第一预测值或第二预测值与连贯性标签都指示目标历史对话数据连贯，则说明第一分类器或第二分类器预测正确，若第一预测值或第二预测值与连贯性标签指示不同，则说明第一分类器或第二分类器预测错误，然后根据这个预测结果去调整网络参数。

在一种可能的实施方式中，更新该待处理模型的网络参数还可以包括一下步骤：基于第一预测值与连贯性标签信息，确定第一分类器的第一损失函数；基于第二预测值与连贯性标签信息，确定第二分类器的第二损失函数；基于第一损失函数、第二损失函数更新待处理训练模型的网络参数。其中，该第一损失函数与第二损失函数都可以采用交叉熵损失函数(cross entropy loss)，损失函数用于描述预测值与真实值之间的损失，或者说是描述预测值与真实值之间的差异。具体的，该连贯性标签信息用于指示目标历史对话数据中的真实连贯性，通过连贯性标签信息分别与第一预测值、第二预测值进行计算，则可以得到第一损失函数和第二损失函数的参数值，从而根据第一损失函数和第二损失函数更新待处理模型的网络参数。

405、根据更新后的网络参数对所述待处理模型进行迭代训练，得到目标处理模型。

具体的，将更新后的网络参数带入待处理模型中，再将训练数据中另一个历史对话数据输入更新网络参数的待处理模型进行训练，得到预测值，从而再次对网络参数进行更新，以此进行迭代训练，从而得到目标处理模型。

在一种可能的实施方式中，在将更新后的网络参数带入待处理模型中，再输入另一个历史对话数据进行训练，确定第一损失函数和第二损失函数，通过第一损失函数和第二损失函数对网络参数进行更新，以此进行迭代训练，直到待处理模型满足预设条件，则可以停止训练，从而得到目标处理模型。该预设条件可以是指第一损失函数和第二损失函数趋于稳定，即采用不同目标历史对话数据进行训练得到的损失函数之间的差异小于一定数值，也可以是指训练次数达到一定数值，此处不做限制。

406、在所述目标处理模型中删除所述第一分类器和所述第二分类器，并依照目标对话任务对删除所述第一分类器与所述第二分类器后的目标处理模型进行微调，得到目标对话处理模型。

此步骤可以参照步骤204，此处不做赘述。

此处以通过T5预训练模型为基础模型(base model)例，对本申请实施例提出的方法进行详细阐述。请参见图5，T5预训练模型包括T5编码器(T5 Encoder)和T5解码器(T5Decoder)，在T5编码器上连接第一分类器执行DCP任务，连接第二分类器执行IPP任务，从而得到待处理模型，对目标历史对话数据添加各类标记，并将添加标记的目标历史对话数据输入待处理模型，输入的目标历史对话数据如图5所示；然后通过编码器对输入的目标历史对话数据进行编码，将编码得到的第一表示向量和第二表示向量分别输入第一分类器和第二分类器进行处理，显然，由于一个历史对胡按数据存在多个对话轮次的对话数据，则需要对每个对话轮次对应的第二表示向量分别进行输入并处理。在经过对目标历史对话数据的处理后，还可以继续输入训练数据中的其他历史对话数据，进行迭代训练，从而得到目标模型，然后删除第一分类器和第二分类器，并根据目标对话任务对删除第一分类器和第二分类器的目标模型进行微调，最终得到目标对话处理模型，使得目标对话处理模型在输入语句后，能够准确提取语句的特征，理解语言的意思，从而完成目标对话任务，输出目标对话任务的结果。

基于上述模型处理方法实施例的描述，本申请实施例还公开了一种模型处理装置，该装置可以配置于上述的电子设备中，例如装置可以是运行于电子设备中的一个计算机程序(包括程序代码)。该模型处理装置可以执行图2、图4所示的方法。请参见图6，所述装置可以运行如下模块：

获取模块601，用于获取训练数据，所述训练数据包括多个连贯性不同的历史对话数据，任一个历史对话数据包括多个对话轮次的对话数据；

所述获取模块601，还用于获取预训练模型，并在所述预训练模型中增加第一分类器与第二分类器，得到待处理模型，所述第一分类器用于确定输入所述待处理模型的目标历史对话数据的连贯性，所述第二分类器用于确定所述目标历史对话数据中各对话轮次的连贯性；

所述处理模块602，还用于通过所述训练数据对所述待处理模型进行迭代训练，得到目标处理模型；

所述处理模块602，还用于在所述目标处理模型中删除所述第一分类器和所述第二分类器，并依照目标对话任务对删除所述第一分类器与所述第二分类器后的目标处理模型进行微调，得到目标对话处理模型。

在一种实施方式中，在所述获取训练数据之前，所述获取模块601还用于获取样本对话数据，所述样本对话数据包括多个历史对话数据，任一个历史对话数据包括多个对话轮次的对话数据；所述获取模块601，用于根据目标替换规则从所述样本对话数据中确定目标数量的历史对话数据，并对所述目标数量的历史对话数据中目标对话轮次的对话数据进行替换；对所述目标数量的历史对话数据和所述目标对话轮次的对话数据添加连贯性标签信息；根据所述连贯性标签信息和替换后的样本对话数据得到训练数据。

在一种实施方式中，所述获取模块601，用于将所述训练数据中的目标历史对话数据输入待处理模型；通过第一分类器确定所述目标历史对话数据的连贯性，得到第一预测值；通过第二分类器确定所述目标历史对话数据中各对话轮次的连贯性，得到第二预测值；根据所述第一预测值、第二预测值，更新所述待处理模型的网络参数；根据更新后的网络参数对所述待处理模型进行迭代训练，得到目标处理模型。

在一种实施方式中，所述获取模块601，用于将所述目标历史对话数据输入所述编码器，根据所述编码器得到所述目标历史对话数据对应的第一表示向量；将所述第一表示向量输入所述第一分类器，通过所述第一分类器确定所述目标历史对话数据不连贯的第一概率，根据所述第一概率确定第一预测值。

在一种实施方式中，所述获取模块601，用于将所述目标历史对话数据输入所述编码器，根据所述编码器得到所述目标历史对话数据中各对话轮次的对话数据对应的第二表示向量；将所述第二表示向量输入所述第二分类器，通过所述第二分类器确定所述目标历史对话数据中各对话轮次的对话数据不连贯的第二概率，根据所述第二概率确定第二预测值。

在一种实施方式中，任一对话轮次的对话数据包括:在所述任一对话轮次中的用户问题以及针对所述用户问题的问题答复，所述获取模块601，用于在所述目标历史对话数据对应的字段前添加历史对话开始标记，所述历史对话标记用于指示所述目标历史对话数据的开始；在所述目标历史对话数据的各个对话轮次对应的字段后添加对话轮次结束标记，所述对话轮次标记用于指示对应的对话轮次的结束；在各对话轮次的所述用户问题对应的字段前添加用户问题标记，在所述问题答复前添加问题答复标记；将带有所述历史对话开始标记、所述对话轮次结束标记、所述用户问题标记、所述问题答复标记的目标历史对话数据输入所述待处理模型。

在一种实施方式中，在所述将带有所述历史对话开始标记、所述对话轮次结束标记、所述用户问题标记、所述问题答复标记的目标历史对话数据输入所述待处理模型之后，所述获取模块601，用于根据所述编码器得到所述目标历史对话数据中所述对话开始标记对应的表示向量，根据所述对话开始标记对应的表示向量得到所述第一表示向量；根据所述编码器得到所述目标历史对话数据中各对话轮次结束标记对应的表示向量，根据所述各对话轮次结束标记对应的表示向量得到所述第二表示向量。

在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现，本申请不做限定。

再请参见图7，是本申请实施例的一种电子设备的结构示意图，本申请实施例的所述电子设备包括供电模块等结构，并包括处理器701以及存储装置702。可选的，该电子设备还可包括网络接口703。其中，所述处理器701、存储装置702以及网络接口703之间可以交互数据，网络接口703受所述处理器的控制用于收发消息，存储器702用于存储计算机程序，所述计算机程序包括程序指令，处理器701用于执行存储器702存储的程序指令。其中，处理器701被配置用于调用所述程序指令执行上述方法。

所述存储装置702可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置702也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；所述存储装置702还可以包括上述种类的存储器的组合。

所述处理器701可以是中央处理器701(central processing unit，CPU)。在一个实施例中，所述处理器701还可以是图形处理器701(Graphics Processing Unit，GPU)。所述处理器701也可以是由CPU和GPU的组合。

在一个实施例中，所述存储装置702用于存储程序指令。所述处理器701可以调用所述程序指令，执行以下步骤：

在一种实施方式中，在所述获取训练数据之前，所述处理器701还可用于执行：获取样本对话数据，所述样本对话数据包括多个历史对话数据，任一个历史对话数据包括多个对话轮次的对话数据；根据目标替换规则从所述样本对话数据中确定目标数量的历史对话数据，并对所述目标数量的历史对话数据中目标对话轮次的对话数据进行替换；对所述目标数量的历史对话数据和所述目标对话轮次的对话数据添加连贯性标签信息；根据所述连贯性标签信息和替换后的样本对话数据得到训练数据。

在一种实施方式中，所述处理器701还可用于执行：将所述训练数据中的目标历史对话数据输入待处理模型；通过第一分类器确定所述目标历史对话数据的连贯性，得到第一预测值；通过第二分类器确定所述目标历史对话数据中各对话轮次的连贯性，得到第二预测值；根据所述第一预测值、第二预测值，更新所述待处理模型的网络参数；根据更新后的网络参数对所述待处理模型进行迭代训练，得到目标处理模型。

在一种实施方式中，所述处理器701还可用于执行：将所述目标历史对话数据输入所述编码器，根据所述编码器得到所述目标历史对话数据对应的第一表示向量；将所述第一表示向量输入所述第一分类器，通过所述第一分类器确定所述目标历史对话数据不连贯的第一概率，根据所述第一概率确定第一预测值。

在一种实施方式中，所述处理器701还可用于执行：将所述目标历史对话数据输入所述编码器，根据所述编码器得到所述目标历史对话数据中各对话轮次的对话数据对应的第二表示向量；将所述第二表示向量输入所述第二分类器，通过所述第二分类器确定所述目标历史对话数据中各对话轮次的对话数据不连贯的第二概率，根据所述第二概率确定第二预测值。

在一种实施方式中，所述处理器701还可用于执行：在所述目标历史对话数据对应的字段前添加历史对话开始标记，所述历史对话标记用于指示所述目标历史对话数据的开始；在所述目标历史对话数据的各个对话轮次对应的字段后添加对话轮次结束标记，所述对话轮次标记用于指示对应的对话轮次的结束；在各对话轮次的所述用户问题对应的字段前添加用户问题标记，在所述问题答复前添加问题答复标记；将带有所述历史对话开始标记、所述对话轮次结束标记、所述用户问题标记、所述问题答复标记的目标历史对话数据输入所述待处理模型。

在一种实施方式中，在所述将带有所述历史对话开始标记、所述对话轮次结束标记、所述用户问题标记、所述问题答复标记的目标历史对话数据输入所述待处理模型之后，所述处理器701还可用于执行：根据所述编码器得到所述目标历史对话数据中所述对话开始标记对应的表示向量，根据所述对话开始标记对应的表示向量得到所述第一表示向量；根据所述编码器得到所述目标历史对话数据中各对话轮次结束标记对应的表示向量，根据所述各对话轮次结束标记对应的表示向量得到所述第二表示向量。

具体实现中，本申请实施例中所描述的装置、处理器701、存储装置702等可执行上述方法实施例所描述的实现方式，也可执行本申请实施例所描述的实现方式，在此不再赘述。

本申请实施例中还提供一种计算机(可读)存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，可执行上述方法实施例中所执行的部分或全部步骤。可选的，该计算机存储介质可以是易失性的，也可以是非易失性的。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序指令，该程序指令可存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该程序指令，处理器执行该程序指令，使得该计算机执行上述数据展示方法中所执行的部分或全部步骤，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机存储介质中，该计算机存储介质可以为计算机可读存储介质，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于本申请所涵盖的范围。

Claims

1.一种模型处理方法，其特征在于，包括：

2.根据权利要求1所述方法，其特征在于，所述获取训练数据之前，所述方法还包括：

获取样本对话数据，所述样本对话数据包括多个历史对话数据，任一个历史对话数据包括多个对话轮次的对话数据；

根据目标替换规则从所述样本对话数据中确定目标数量的历史对话数据，并对所述目标数量的历史对话数据中目标对话轮次的对话数据进行替换；

对所述目标数量的历史对话数据和所述目标对话轮次的对话数据添加连贯性标签信息；

根据所述连贯性标签信息和替换后的样本对话数据得到训练数据。

3.根据权利要求1所述方法，其特征在于，所述通过所述训练数据对所述待处理模型进行迭代训练，得到目标处理模型，包括：

将所述训练数据中的目标历史对话数据输入待处理模型；

通过第一分类器确定所述目标历史对话数据的连贯性，得到第一预测值；

通过第二分类器确定所述目标历史对话数据中各对话轮次的连贯性，得到第二预测值；

根据所述第一预测值、第二预测值，更新所述待处理模型的网络参数；

根据更新后的网络参数对所述待处理模型进行迭代训练，得到目标处理模型。

4.根据权利要求3所述方法，其特征在于，所述待处理模型包括编码器，所述通过第一分类器确定所述目标历史对话数据的连贯性，得到第一预测值，包括：

将所述目标历史对话数据输入所述编码器，根据所述编码器得到所述目标历史对话数据对应的第一表示向量；

将所述第一表示向量输入所述第一分类器，通过所述第一分类器确定所述目标历史对话数据不连贯的第一概率，根据所述第一概率确定第一预测值。

5.根据权利要求3所述方法，其特征在于，所述待处理模型包括编码器，所述通过第二分类器确定所述目标历史对话数据中各对话轮次的连贯性，得到第二预测值，包括：

将所述目标历史对话数据输入所述编码器，根据所述编码器得到所述目标历史对话数据中各对话轮次的对话数据对应的第二表示向量；

将所述第二表示向量输入所述第二分类器，通过所述第二分类器确定所述目标历史对话数据中各对话轮次的对话数据不连贯的第二概率，根据所述第二概率确定第二预测值。

6.根据权利要求3所述方法，其特征在于，任一对话轮次的对话数据包括:在所述任一对话轮次中的用户问题以及针对所述用户问题的问题答复，所述将所述训练数据中的目标历史对话数据输入待处理模型，包括：

在所述目标历史对话数据对应的字段前添加历史对话开始标记，所述历史对话开始标记用于指示所述目标历史对话数据的开始；

在所述目标历史对话数据的各个对话轮次对应的字段后添加对话轮次结束标记，所述对话轮次结束标记用于指示对应的对话轮次的结束；

在各对话轮次的所述用户问题对应的字段前添加用户问题标记，在所述问题答复前添加问题答复标记；

将带有所述历史对话开始标记、所述对话轮次结束标记、所述用户问题标记、所述问题答复标记的目标历史对话数据输入所述待处理模型。

7.根据权利要求6所述方法，其特征在于，所述待处理模型包括编码器，在所述将带有所述历史对话开始标记、所述对话轮次结束标记、所述用户问题标记、所述问题答复标记的目标历史对话数据输入所述待处理模型之后，所述方法还包括：

根据所述编码器得到所述目标历史对话数据中所述历史对话开始标记对应的表示向量，根据所述历史对话开始标记对应的表示向量得到第一表示向量；

根据所述编码器得到所述目标历史对话数据中各对话轮次结束标记对应的表示向量，根据所述各对话轮次结束标记对应的表示向量得到第二表示向量。

8.一种针对对话数据的预训练装置，其特征在于，包括：

处理模块，用于通过所述训练数据对所述待处理模型进行迭代训练，得到目标处理模型；

9.一种电子设备，其特征在于，包括处理器和存储装置，所述处理器与所述存储装置相互连接，其中，所述存储装置用于存储计算机程序指令，所述处理器被配置用于执行所述程序指令，实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1-7任一项所述的方法。