CN115358213A

CN115358213A - 模型数据处理及模型预训练方法、电子设备及存储介质

Info

Publication number: CN115358213A
Application number: CN202211286164.6A
Authority: CN
Inventors: 张庆林; 陈谦; 王雯; 邓憧
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2022-11-18

Abstract

本申请实施例提供了一种模型数据处理及模型预训练方法、电子设备及存储介质，其中，模型数据处理方法包括：对待处理的文本数据进行分句处理，获得对应的多个文本分句；针对每个文本分句，进行分词处理，获得每个文本分句对应的多个分词；根据每个文本分句及其分词对应的词向量，进行词袋聚合，获得每个文本分句对应的句向量；对每个句向量进行编码，获得每个文本分句对应的句编码向量；根据所述句编码向量，进行任务处理。通过本申请实施例，大幅提升了基于预训练语言模型进行下游任务迁移后，下游任务的执行效率和表现效果。

Description

模型数据处理及模型预训练方法、电子设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种模型数据处理及模型预训练方法、电子设备及计算机存储介质。

背景技术

随着自然语言处理NLP技术的发展，语言模型预训练越来越成为NLP的重要组成部分，通常，预训练阶段的语言模型也被称为预训练语言模型。一个经过较好预训练的预训练语言模型，经过基于下游任务样本数据的微调即可有效适用于下游任务，极大地提升了对下游任务使用的模型的训练效率，降低了训练成本。

但目前的预训练语言模型一次只能处理较短长度的文本（如，通常在500-1000个字的文本），但在很多场景下，都存在着需要对长文本进行处理的情况。例如，会议、访谈、演讲等场景的语音转写通常都是超长文本（通常都在1万字以上），因此目前的预训练语言模型在长文本自然语言处理任务上的效果和效率都受到了明显的性能限制，导致应用于下游任务时也效果不佳。

发明内容

有鉴于此，本申请实施例提供一种模型数据处理及模型预训练方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种模型数据处理方法，包括：对待处理的文本数据进行分句处理，获得对应的多个文本分句；针对每个文本分句，进行分词处理，获得每个文本分句对应的多个分词；根据每个文本分句及其分词对应的词向量，进行词袋聚合，获得每个文本分句对应的句向量；对每个句向量进行编码，获得每个文本分句对应的句编码向量；根据所述句编码向量，进行任务处理。

根据本申请实施例的第二方面，提供了一种模型预训练方法，包括：将文本样本数据输入预训练语言模型；通过所述预训练语言模型对所述文本样本数据进行分句处理，获得对应的多个文本样本分句；针对每个文本样本分句，进行分词处理，获得每个文本样本分句对应的多个分词；根据每个文本样本分句及其分词对应的词向量，进行词袋聚合，获得每个文本样本分句对应的句向量；对每个句向量进行编码，获得每个文本样本分句对应的句编码向量；根据所述句编码向量，执行预设的预训练任务，根据任务执行结果对所述预训练语言模型进行训练。

根据本申请实施例的第三方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面所述方法对应的操作。

根据本申请实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面所述的方法。

根据本申请实施例提供的方案，在对文本数据尤其是长文本数据进行处理时，与传统的以单个的字词为单位不同，以分句为单位进行编码处理。与传统方式以字词为单位进行编码时，需要消耗大量的计算量和内存的方式相比，本申请方案中将文本数据切分为多个文本分句，基于每个文本分句中的分词的词向量进行词袋聚合，以使得进行编码的向量为句向量，由此将消耗计算量和内存的那部分数据处理从字词粒度提升到词袋粒度，从而大幅提升了基于预训练语言模型进行下游任务迁移后，这些下游任务的执行效率和表现效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为适用本申请实施例的方案的示例性系统的示意图；

图2A为根据本申请实施例一的一种模型预训练方法的步骤流程图；

图2B为图2A所示实施例中的一种模型结构及基于该模型结果的模型训练过程的示意图；

图3A为根据本申请实施例二的一种模型数据处理方法的步骤流程图；

图3B为图3A所示实施例中的一种场景示例的分组示意图；

图4为根据本申请实施例三的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

图1示出了一种适用本申请实施例方案的示例性系统。如图1所示，该系统100可以包括云服务端102、通信网络104和/或一个或多个用户设备106，图1中示例为多个用户设备。

云服务端102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的设备，包括但不限于分布式存储系统设备、服务器集群、计算云服务端集群等。在一些实施例中，云服务端102可以执行任何适当的功能。例如，在一些实施例中，云服务端102可以用于基于预训练语言模型的迁移，执行相应的与文本数据有关的下游任务。作为可选的示例，在一些实施例中，云服务端102可以被用于以文本数据中的分句为单位，进行编码以获得相应的句编码向量，基于该句编码向量，执行下游任务。作为另一示例，在一些实施例中，云服务端102可以被用于基于文本数据的分句中的词向量，通过词袋聚合的方式，获得对应的句向量，进而基于该句向量进行编码，获得句编码向量后进行下游任务的处理。作为另一示例，在一些实施例中，云服务端102可以被用于对预训练语言模型进行预训练，在训练完成后进行任务迁移。

在一些实施例中，通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络104能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如，通信链路112)连接到通信网络104，该通信网络104能够经由一个或多个通信链路(例如，通信链路114)被链接到云服务端102。通信链路可以是适合于在用户设备106和云服务端102之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

用户设备106可以包括适合于与用户交互，以接收相应的需要进行处理的文本数据，并将该文本数据发送至云服务端102以进行任务处理的任何一个或多个用户设备。在一些实施例中，用户设备106还可以接收云服务端102反馈的任务处理结果。在一些实施例中，用户设备106可以包括任何合适类型的设备。例如，在一些实施例中，用户设备106可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、游戏控制台、媒体播放器、车辆娱乐系统和/或任何其他合适类型的用户设备。

为便于理解本申请实施例的方案，以下，基于上述系统，首先对本申请实施例中的预训练语言模型的训练过程进行说明。再对基于训练完成的预训练语言模型进行下游任务迁移后，下游任务的任务处理过程进行说明。

实施例一

本实施例示出了一种预训练语言模型的模型预训练方法的过程，以下结合图2A和图2B对该过程进行说明。

首先，对本申请实施例中的预训练语言模型的结构进行说明，如图2B所示。

由图2B中可见，该预训练语言模型包括：分句部分、分词部分、词向量映射部分、词袋聚合部分、词袋编码器部分和输出层任务学习部分。用于对预训练语言模型进行训练的文本样本数据被输入预训练语言模型后，通过该预训练语言模型各个部分的处理，获得相应的文本预测结果，基于该文本预测结果可对预训练语言模型进行训练。

例如，在文本样本数据被输入到预训练语言模型之后，预训练语言模型的分句部分于对文本样本数据进行分句处理，获得对应的多个文本样本分句；分词部分针对每个文本样本分句，进行分词处理，获得每个文本样本分句对应的多个分词；词向量映射部分对每个文本样本分句中的分词进行词向量映射，获得每个文本样本分句中的分词对应的词向量；词袋聚合部分根据每个文本样本分句及其分词对应的词向量，进行词袋聚合，获得每个文本样本分句对应的句向量；词袋编码器部分对每个句向量进行编码，获得每个文本样本分句对应的句编码向量；输出层任务学习部分根据句编码向量，执行预设的预训练任务，并反馈任务执行结果，以使预训练语言模型根据所述任务执行结果进行训练。

以下，基于图2B中所示的预训练语言模型，对本实施例的模型预训练方法进行说明，如图2A所示，该方法包括以下步骤：

步骤S202：将文本样本数据输入预训练语言模型。

本实施例的模型训练方法可适用于任意长度的文本数据，尤其是长文本数据（通常意指1000字词以上，可选地，可为2000字词以上），但不限于长文本数据，普通长度的文本数据或短文本数据也可适用本实施例的模型训练方案。为说明本申请方案在处理长文本方面的优势，本申请的多个实施例中，均以长文本数据为例进行说明。

该文本样本数据可以通过任意方式获得，如从某些已有的文本样本数据集中，或者从网络或平台上收集获得，或者通过语音转换为文本获得，等等，本申请实施例不对文本样本数据的获得方式进行限制。

步骤S204：通过预训练语言模型对文本样本数据进行分句处理，获得对应的多个文本样本分句。

文本样本数据在输入预训练语言模型后，首先进行分句处理，在预训练语言模型采用如图2B中所示的结构时，该文本样本数据首先通过分句部分进行处理，以获得该文本样本数据对应的多个文本样本分句。

需要说明的是，该分句部分可通过任意适当的模型或算法实现。在一种可行方式中，对文本样本数据的分句处理可按照预设的分句识别规则，对文本样本数据进行分句识别；根据分句识别结果，获得对应的多个文本样本分句。其中，按照预设的分句识别规则，对文本样本数据进行分句识别可以实现为：按照预设的分句符号，对文本样本数据进行分句识别；或者，对文本样本数据进行语义分析，根据分析结果对文本样本数据进行分句识别；或者，根据文本样本数据对应的多个用户标识，对文本样本数据进行分句识别。

当采用按照预设的分句符号，对文本样本数据进行分句识别的方式时，可以预设分句符号集合，其中存储有多种分句符号（如逗号、或句号、或分号等），则可遍历文本样本数据，确定其中的分句符号位置，再基于确定的分句符号位置进行分句分割，获得多个文本样本分句。也可以使用预先训练完成的、可进行分句符号检测的神经网络模型，对该文本样本数据进行分句符号检测，并根据检测结果进行分句分割，获得多个文本样本分句。通过这种方式，实现简单，分句获得效率高。

示例性地，假设有文本样本数据“孙悟空占山为王,号为美猴王。苦于无兵刃,遂去东海龙宫求取,龙王及兄弟送他一支如意金箍棒及一身披挂。又与牛魔王等结为兄弟,日逐讲文论式,弦歌欢舞。一日被阴司按勾去,遂大闹幽冥,于生死上勾去所有猴属之名。龙王、地藏王上天庭告状,太白金星建议招安孙悟空,玉帝准奏。”本示例中，假设以“。”作为分句符号，则可获得对应的五个分句，分别为：分句1“孙悟空占山为王,号为美猴王。”；分句2“苦于无兵刃,遂去东海龙宫求取,龙王及兄弟送他一支如意金箍棒及一身披挂。”；分句3“又与牛魔王等结为兄弟,日逐讲文论式,弦歌欢舞。”；分句4“一日被阴司按勾去,遂大闹幽冥,于生死上勾去所有猴属之名。”；分句5“龙王、地藏王上天庭告状,太白金星建议招安孙悟空,玉帝准奏。”。当然，在实际应用中，也可以“，”为分句符号，则基于上述文本样本数据，将获得更多个文本样本分句。

当采用对文本样本数据进行语义分析，根据分析结果对文本样本数据进行分句识别的方式时，可以采用具有语义分析功能的神经网络模型或者语义分析算法，对文本样本数据进行语义分析，根据语义分析结果将文本样本数据分割为多个文本样本分句。通过这种基于语义进行分割的方式，一个分句可以表达一个相对完整的语义，分句的语义表征更为准确，方便后续的模型数据处理。

仍以上述文本样本数据为示例，假设使用语义分析神经网络模型（如CNN模型等）对其进行语义分析后，获得的语义分析结果为：语义表达1“孙悟空占山为王,号为美猴王。”；语义表达2“苦于无兵刃,遂去东海龙宫求取,龙王及兄弟送他一支如意金箍棒及一身披挂。”；语义表达3“又与牛魔王等结为兄弟,日逐讲文论式,弦歌欢舞。”；语义表达4“一日被阴司按勾去,遂大闹幽冥,于生死上勾去所有猴属之名。龙王、地藏王上天庭告状,太白金星建议招安孙悟空,玉帝准奏。”。则，可以基于该语义分析结果，将该文本样本数据分割为四个文本样本分句。

在某些场景下，可能存在多个用户之间的交互文本，如客户客服场景、医患场景、电子商务场景中等等。此种情况下的文本数据或者文本样本数据通常还包括有相应的用户信息，如用户标识。则，可以根据文本样本数据对应的多个用户标识，对文本样本数据进行分句识别，根据识别结果将文本样本数据划分为多个文本样本分句。通过这种方式获得的各个分句可以更为有效地表征其对应的用户的表达语义和意图，更为准确地表征分句的含义，方便后续的模型数据处理。

示例性地，假设有文本样本数据“客户A：您好，我想请问下XXX（服装）都有哪些尺寸；客服B：在的，亲，XXX现在有XS、S、M和L号哦。亲是否方便告知一下身高和体重呢；客户A：160CM，60KG；客服B：好咧~这边建议亲选S码，这款型号偏大一些；客户A：好的，多谢了。”则，可以基于用户标识，本示例中为“客户A”和“客服B”来进行分句划分。在该示例中，上述文本样本数据将被划分为五个文本样本分句，分别为：分句1“客户A：您好，我想请问下XXX（服装）都有哪些尺寸”；分句2“客服B：在的，亲，XXX现在有XS、S、M和L号哦。亲是否方便告知一下身高和体重呢”；分句3“客户A：160CM，60KG”；分句4“客服B：好咧~这边建议亲选S码，这款型号偏大一些”；分句5“客户A：好的，多谢了。”。

可见，当采用不同的分句识别方式时，获得的结果可能相同，也可能不同，但最终均是以句子为单位进行后续处理，因此，也均适用于本申请实施例的方案。

步骤S206：针对每个文本样本分句，进行分词处理，获得每个文本样本分句对应的多个分词。

针对每个文本样本分句的分词处理可采用常规方式实现，示例性地，在一种可行方式中，可以每个字为一个分词，如“孙悟空占山为王,号为美猴王。”将被处理为12个分词，每个字为一个分词。在另一种可行方式中，可以以相对完整含义的词为单位进行分词，如“孙悟空占山为王,号为美猴王。”将被划分为“孙悟空”、“占山”、“为王”、“号为”、“美猴王”。上述方式均可适用于本申请实施例的方案。

当采用如图2B所示的预训练语言模型时，本步骤可通过该预训练语言模型的分词部分进行处理。示例性地，如图2B中所示，将获得多个文本样本分句，图2B中示意为多个椭圆框，每个文本样本分句具有多个分词，如图2B中，每个椭圆框中具有多个分词，分别示意为“w1,w2,w3,w4,w5……”。

步骤S208：根据每个文本样本分句及其分词对应的词向量，进行词袋聚合，获得每个文本样本分句对应的句向量。

本实施例中，可采用任意适当方式标识每个文本样本分句与其分词的对应关系，如，建立每个文本样本分句与其分词形成的分词集合之间的映射关系；或者，为每个文本样本分句的分词进行分句标识，以标示多个分词同属于一个分句的形式，等等。在此基础上，可获得每个文本样本分句中的每个分词的词向量；再以文本样本分句为单位，对其分词对应的词向量进行词袋聚合，即可获得该文本样本分句对应的句向量。

其中，词袋（Bag of Words，BOW）是一种文本表示的方法，本申请实施例中，使用词袋表示一个分句单位，同属于同一个词袋的多个分词属于同一个分句，当分词采用向量形式表示时，同属于同一个词袋的多个分词向量属于同一个分句。词袋聚合意指针对每一个词袋，对其中的分词对应的分词向量进行聚合，从而获得每一个词袋对应的向量，因词袋与分句具有一一对应关系，因此，某个词袋对应的向量也可以理解为某个分句对应的向量，即该分句的句向量。

本申请实施例中，词袋聚合的具体实现池化聚合的方式实现，如，平均池化操作、最大池化操作、加权求和池化操作等。

当采用如图2B中所示的预训练语言模型时，可通过词向量映射部分实现对每个文本样本分句的分词进行词向量映射，以获得对应的词向量；进而，可通过词袋聚合部分，以词袋为单位，对每个词袋中的分词的词向量进行词袋聚合，从而获得每个文本样本分句对应的句向量。在一个具体实现方式中，词袋聚合部分可以以每个文本样本分句为单位（也即以词袋为单位），对该文本样本分句中的分词对应的词向量进行池化聚合操作；根据池化聚合操作结果，获得每个文本样本分句对应的句向量。通过词袋聚合处理，可以将分词向量聚合为句向量，使得预训练语言模型对文本数据的处理从字词粒度提升到句子粒度，大大降低针对文本数据处理的时耗和内存消耗。

可选地，词袋聚合操作可以具体实现为以下之一：平均池化操作、最大池化操作、加权求和池化操作。

其中，平均池化操作是针对每一个词袋，将其中的词向量进行平均池化操作，如每个向量维度取均值，最终获得一个多维的均值特征矩阵，以其作为该词袋（即训练阶段的文本样本分句）对应的句向量。通过这种方式，获得的句向量能够较为全面和客观地反映该词袋所代表的分句的分句特征。

最大池化操作是针对每一个词袋，取其中所有的词向量中的最大值，如每个向量维度的最大值，最终获得一个多维的最大值特征矩阵，以其作为该词袋（即训练阶段的文本样本分句）对应的句向量。通过这种方式，能够更加快速和简单地确定词袋所代表的分句的分句特征，且该最大值反映了该分句的最突出的特征，较有代表性。

加权求和池化操作同样是针对每一个词袋，根据模型训练过程中获得的权重参数，对其中的词向量进行加权求和处理，如每个向量维度的加权求和结果，最终获得一个多维的特征矩阵，以其作为该词袋（即训练阶段的文本样本分句）对应的句向量。通过这种方式，使用模型训练获得的参数来对特征进行处理，获得的结果更为准确和有效。

需要说明的是，虽然获得分词后即可进行词向量映射、词袋聚合等后续的处理，但为了提升模型的泛化性和鲁棒性，以使其在预训练完成后可以更高效地进行任务迁移，有效适用于下游任务。在一种可行方式中，根据每个文本样本分句及其分词对应的词向量，进行词袋聚合可以实现为：在获得每个文本样本分句及其分词对应的词向量之后，对多个文本样本分句中的至少部分样本分句中的分词向量进行掩码处理，和/或，调整多个文本样本分句的顺序；对进行了掩码处理和/或顺序调整后的多个文本样本分句进行词袋聚合。通过掩码处理和/或顺序调整处理，能够使得模型的后续预测处理能够更有效地利用文本样本数据的各个分句的信息，从而使得训练获得的预训练语言模型更具泛化性和鲁棒性。

其中，在针对一个文本样本数据进行训练的过程中，可以仅进行掩码处理，也可以仅进行调整顺序的处理，较优地，可以同时进行掩码处理和调整顺序的处理，以使训练完成的模型更为强壮。

在对多个文本样本分句中的至少部分样本分句中的分词向量进行掩码处理时，可以随机选择多个文本样本分句中的至少一个分句，对其词向量进行随机掩码处理；也可以选择全部的文本样本分句，针对其中的每一个分句的词向量均进行随机掩码处理。示例性地，假设，共有三个文本样本分句，每一个文本样本分句均包含有五个词向量，示例为{w1，w2，w3，w4，w5}，若随机选择了对第一和第二个文本样本分句进行随机掩码处理，假设第一个文本样本分句随机选择了w3进行掩码，第二个文本样本分句随机选择了w2进行掩码，则经掩码后的三个文本样本分句分别为：{w1，w2，mask，w4，w5}，{w1，mask，w3，w4，w5}，{w1，w2，w3，w4，w5}。而若对三个文本样本分句均进行随机掩码处理，仍假设第一个文本样本分句随机选择了w3进行掩码，第二个文本样本分句随机选择了w2进行掩码，再假设第三个文本样本分句随机选择了w5进行掩码，则经掩码后的三个文本样本分句分别为：{w1，w2，mask，w4，w5}，{w1，mask，w3，w4，w5}，{w1，w2，w3，w4，mask}。

而对于进行分句顺序的调整，同样可以选择随机调整顺序的方式，仍以上述三个文本样本分句为例，假设随机将第二和第三个文本样本分句调换顺序，若未进行掩码处理，则调换顺序后，三个文本样本分句为：原第一个文本样本分句{w1，w2，w3，w4，w5}-->原第三个文本样本分句{w1，w3，w3，w4，w5}-->原第二个文本样本分句{w1，w2，w3，w4，w5}。而若同时进行了掩码，仍以上述掩码后的文本样本分句为例，则调换顺序后，三个文本样本分句为：{w1，w2，mask，w4，w5}-->{w1，w2，w3，w4，mask}-->{w1，mask，w3，w4，w5}。

若进行了上述掩码处理和/或顺序调整的处理，则根据每个文本样本分句及其分词对应的词向量，进行词袋聚合，获得每个文本样本分句对应的句向量将实现为：根据进行了掩码处理和/或顺序调整处理后的每个文本样本分句及其分词对应的词向量，进行词袋聚合，获得每个文本样本分句对应的句向量。

图2B中，获得的句向量分别示意为Sent1、Sent2、……Sent9……，其中，Sent1对应于第一个词袋（第一个文本样本分句），Sent2对应于第二个词袋，依此类推。

需要说明的是，本申请实施例中，若无特殊说明，“多个”、“多种”与“多”有关的数量均意指两个及两个以上。

步骤S210：对每个句向量进行编码，获得每个文本样本分句对应的句编码向量。

在通过词袋聚合获得每个文本样本分句对应的句向量后，整个文本样本数据对应的多个文本样本分句的多个句向量形成句向量序列。该句向量序列将被输入如图2B中所示的词袋编码器部分，通过词袋编码器进行特征提取，输出每个句向量对应的句编码向量，也即，每个文本样本分句对应的句编码向量。

在实际应用中，该词袋编码器部分的编码器可以为任意适当的编码器，包括但不限于Transformer编码器。

图2B中，获得的句编码向量分别示意为R1、R2、R3……R9……，分别为对Sent1、Sent2、……Sent9……编码后获得。

步骤S212：根据句编码向量，执行预设的预训练任务，根据任务执行结果对预训练语言模型进行训练。

在获得了多个句编码向量后，可基于该多个句编码向量执行相应的预训练任务，本实施例中，会根据该多个句编码向量，进行文本预测处理；并基于文本预测处理结果，同时执行预设的至少两项兼容性预训练任务。其中，兼容性预训练任务意指可并行执行，并且其中任一任务的执行导致的模型参数的调整可适用于所有任务，并且，对所有任务都有效果提升作用。由此，既可提高模型训练效率，又可提高模型的强壮性和泛化性。

在一种可行方式中，上述基于文本预测处理结果，同时执行预设的至少两项兼容性预训练任务可以实现为：基于文本预测处理结果，执行判断预测出的文本分句中是否存在字词异常的预训练任务，以及，执行判断预测出的多个文本分句之间的排列顺序是否正确的预训练任务。

当采用如图2B中所示的预训练语言模型时，预训练任务的执行及后续训练处理可通过其输出层任务学习部分实现。在一个示例中，如图2B所示，上述判断预测出的文本分句中是否存在字词异常的预训练任务被示意为“袋内组合”任务，以判断当前预测出的文本分句中是否缺少或多出了某个字词，或者，存在错误的字词。上述判断预测出的多个文本分句之间的排列顺序是否正确的预训练任务在图2B中被示意为“袋间排列”任务，以判断预测出的多个文本分句的排列顺序是否是正确的排列顺序，也即，是否与原始文本样本数据中的多个分句的排列顺序一致。

基于上述任务的任务执行结果，以及预设的损失函数，可获得相应的损失值。进而，可基于该损失值可对预训练语言模型进行参数调整。其中，损失函数可由本领域技术人员根据实际情况灵活设置，可应用于多训练任务的自监督损失函数均可适用。

上述对预训练语言模型的预训练过程循环迭代，直至满足预设的训练终止条件，如，达到预设的训练次数，或者，损失值满足预设阈值，等。

完成了预训练阶段的训练后，预训练语言模型可迁移至下游任务，基于下游任务的训练样本进行模型微调，即可使用。示例性地，下游任务包括但不限于：长文本分割任务、篇章结构解析任务、长文本关键句抽取任务、基于会议语音的会议记录生成任务、交互语音的文本转换任务、机器翻译任务，等等与文本处理相关的任务。

通过本实施例，一方面，以分句为单位进行预训练语言模型的训练，使得预训练语言模型对文本数据的处理从字词粒度提升到句子粒度，大大降低针对文本数据处理的时耗和内存消耗；另一方面，通过至少两项兼容性的预训练任务对模型进行训练，大大提升了训练完成的模型的强壮性、泛化性和鲁棒性，进而提高了预训练语言模型迁移至下游任务后，在各个下游任务上的性能。

实施例二

本实施例基于实施例一中训练并迁移完成的预训练模型，对其在执行下游任务时的模型数据处理过程进行说明。

参照图3A，示出了根据本申请实施例二的一种模型数据处理方法的步骤流程图。

本实施例的模型数据处理方法包括以下步骤：

步骤S302：对待处理的文本数据进行分句处理，获得对应的多个文本分句。

其中，待处理的文本数据可以为任意类型、语种、和长度的文本，但如前所述，本申请实施例方案对长文本数据的处理具有较佳的效果。此外，该文本数据既可以为原始即为文本形式的数据，也可以为语音转换成的文本数据。

本实施例中，对文本数据的分句处理可以包括：按照预设的分句识别规则，对待处理的文本数据进行分句识别；根据分句识别结果，获得对应的多个文本分句。

其中，按照预设的分句识别规则，对待处理的文本数据进行分句识别可以实现为：按照预设的分句符号，对待处理的文本数据进行分句识别；或者，对待处理的文本数据进行语义分析，根据分析结果对待处理的文本数据进行分句识别；或者，根据待处理的文本数据对应的多个用户标识，对待处理的文本数据进行分句识别。

当采用按照预设的分句符号，对待处理的文本数据进行分句识别的方式时，可以预设分句符号集合，其中存储有多种分句符号（如逗号、或句号、或分号等），则可遍历待处理的文本数据，确定其中的分句符号位置，再基于确定的分句符号位置进行分句分割，获得多个文本分句。也可以使用预先训练完成的、可进行分句符号检测的神经网络模型，对该待处理的文本数据进行分句符号检测，并根据检测结果进行分句分割，获得多个文本分句。通过这种方式，实现简单，分句获得效率高。

当采用对待处理的文本数据进行语义分析，根据分析结果对待处理的文本数据进行分句识别的方式时，可以采用具有语义分析功能的神经网络模型或者语义分析算法，对待处理的文本数据进行语义分析，根据语义分析结果将待处理的文本数据分割为多个文本分句。通过这种基于语义进行分割的方式，一个分句可以表达一个相对完整的语义，分句的语义表征更为准确，方便后续的模型数据处理。

对于存在多个用户之间的交互文本场景下的分句分割，可以根据待处理的文本数据对应的多个用户标识，对待处理的文本数据进行分句识别，根据识别结果将待处理的文本数据划分为多个文本分句。通过这种方式获得的各个分句可以更为有效地表征其对应的用户的表达语义和意图，更为准确地表征分句的含义，方便后续的模型数据处理。

当采用不同的分句识别方式时，获得的结果可能相同，也可能不同，但最终均是以句子为单位进行后续处理，因此，也均适用于本申请实施例的方案。

步骤S304：针对每个文本分句，进行分词处理，获得每个文本分句对应的多个分词。

针对每个文本样本分句的分词处理可采用常规方式实现，在一种可行方式中，可以每个字为一个分词，如“孙悟空占山为王,号为美猴王。”将被处理为12个分词，每个字为一个分词。在另一种可行方式中，可以以相对完整含义的词为单位进行分词，如“孙悟空占山为王,号为美猴王。”将被划分为“孙悟空”、“占山”、“为王”、“号为”、“美猴王”。上述方式均可适用于本申请实施例的方案。

步骤S306：根据每个文本分句及其分词对应的词向量，进行词袋聚合，获得每个文本分句对应的句向量。

在一种可行方式中，可以以每个文本分句为单位，对该文本分句中的分词对应的词向量进行池化聚合操作；根据池化聚合操作结果，获得每个文本分句对应的句向量。其中，池化聚合操作包括以下之一：平均池化操作、最大池化操作、加权求和池化操作。

平均池化操作是针对每一个文本分句，将其分词的词向量进行平均池化操作，如每个向量维度取均值，最终获得一个多维的均值特征矩阵，以其作为该文本分句对应的句向量。通过这种方式，获得的句向量能够较为全面和客观地反映该文本分句的分句特征。

最大池化操作是针对每一个文本分句，取其所有的词向量中的最大值，如每个向量维度的最大值，最终获得一个多维的最大值特征矩阵，以其作为该文本分句对应的句向量。通过这种方式，能够更加快速和简单地确定文本分句的分句特征，且该最大值反映了该分句的最突出的特征，较有代表性。

加权求和池化操作同样是针对每一个文本分句，根据训练完成的预训练语言模型的模型参数，对其中的词向量进行加权求和处理，如每个向量维度的加权求和结果，最终获得一个多维的特征矩阵，以其作为该文本分句对应的句向量。通过这种方式，使用模型参数来对特征进行处理，获得的结果更为准确和有效。

步骤S308：对每个句向量进行编码，获得每个文本分句对应的句编码向量。

在通过词袋聚合获得每个文本分句对应的句向量后，整个文本数据对应的多个文本分句的多个句向量形成句向量序列。对该句向量序列通过编码方式进行特征提取，输出每个句向量对应的句编码向量，也即，每个文本分句对应的句编码向量。

步骤S310：根据句编码向量，进行任务处理。

在获得了多个句编码向量后，可基于该多个句编码向量进行任务处理，包括但不限于：长文本分割任务、篇章结构解析任务、长文本关键句抽取任务、基于会议语音的会议记录生成任务、交互语音的文本转换任务、机器翻译任务，等等与文本处理相关的任务。

以下，结合图2B中所示的“模型结构”部分所示出的预训练语言模型结构，对上述模型数据处理过程进行示例性说明，如图3B所示。此外，为与前述预训练阶段的预训练语言模型进行区分，本示例中，以机器翻译为下游任务示例，将进行了任务迁移后的预训练语言模型称为机器翻译模型。

本示例中，待处理的文本数据设定为“孙悟空占山为王,号为美猴王。苦于无兵刃,遂去东海龙宫求取,龙王及兄弟送他一支如意金箍棒及一身披挂。又与牛魔王等结为兄弟,日逐讲文论式,弦歌欢舞。一日被阴司按勾去,遂大闹幽冥,于生死上勾去所有猴属之名。龙王、地藏王上天庭告状,太白金星建议招安孙悟空,玉帝准奏。”，该文本数据被输入机器翻译模型中后，先通过其分句部分进行处理，以获得对应的五个文本分句，分别为：分句1“孙悟空占山为王,号为美猴王。”；分句2“苦于无兵刃,遂去东海龙宫求取,龙王及兄弟送他一支如意金箍棒及一身披挂。”；分句3“又与牛魔王等结为兄弟,日逐讲文论式,弦歌欢舞。”；分句4“一日被阴司按勾去,遂大闹幽冥,于生死上勾去所有猴属之名。”；分句5“龙王、地藏王上天庭告状,太白金星建议招安孙悟空,玉帝准奏。”。

进而，通过机器翻译模型的分词部分，针对每个文本分句进行分词处理，生成每个文本分句对应的多个分词。为便于说明，本示例中将分句1对应的多个分词简单示意为“w11,w12,w13,w14,w15……”，将分句2对应的多个分词简单示意为“w21,w22,w23,w24,w25……”，将分句3对应的多个分词简单示意为“w31,w32,w33,w34,w35……”，将分句4对应的多个分词简单示意为“w41,w42,w43,w44,w45……”，将分句5对应的多个分词简单示意为“w51,w52,w53,w54,w55……”。

在生成了每个文本分句对应的多个分词后，通过机器翻译模型的词向量映射部分实现对每个文本分句的分词进行词向量映射，以获得对应的词向量。本示例中，分别示意为：分句1的多个分词向量“ew11,ew12,ew13,ew14,ew15……”，分句2的多个分词向量“ew21,ew22,ew23,ew24,ew25……”，分句3的多个分词向量“ew31,ew32,ew33,ew34,ew35……”，分句4的多个分词向量“ew41,ew42,ew43,ew44,ew45……”，分句5的多个分词向量“ew51,ew52,ew53,ew54,ew55……”。

接着，通过机器翻译模型的词袋聚合部分，以每个文本分句为单位，对每个每个文本分句的分词的词向量进行词袋聚合，获得每个文本分句对应的句向量，图3B中分别示意为Sent1、Sent2、Sent3、Sent4、Sent5。这五个句向量形成句向量序列{ Sent1、Sent2、Sent3、Sent4、Sent5}。

继而，通过机器翻译模型中的词袋编码器部分对句向量序列{ Sent1、Sent2、Sent3、Sent4、Sent5}进行编码，获得对应的句编码向量，图3B中示意为{ R1、R2、R3、R4、R5}。

基于该句编码向量{ R1、R2、R3、R4、R5}进行机器翻译，本示例中，设定机器翻译模型将中文翻译为英文。在具体实现时，词袋编码器部分后接解码器，包括但不限于基于Transformer结构的解码器，通过该解码器对句编码向量进行解码，以输出对应的英文。示例性地，如“SUNWUKONG is called the Monkey King after he occupied the mountain.Suffering from lack of weapons, he goes to the Dragon Palace in the EastChina Sea to ask for them……”。

可见，通过本实施例，在对文本数据尤其是长文本数据进行处理时，与传统的以单个的字词为单位不同，以分句为单位进行编码处理。与传统方式以字词为单位进行编码时，需要消耗大量的计算量和内存的方式相比，本申请方案中将文本数据切分为多个文本分句，基于每个文本分句中的分词的词向量进行词袋聚合，以使得进行编码的向量为句向量，由此将消耗计算量和内存的那部分数据处理从字词粒度提升到词袋粒度，从而大幅提升了基于预训练语言模型进行下游任务迁移后，这些下游任务的执行效率和表现效果。

实施例三

参照图4，示出了根据本申请实施例三的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图4所示，该电子设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它电子设备或服务器进行通信。

处理器402，用于执行程序410，具体可以执行上述任一方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是CPU，或者是特定集成电路ASIC（Application SpecificIntegrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行前述多个方法实施例中任一实施例所描述的方法对应的操作。

程序410中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，并具有相应的有益效果，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一方法对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种模型数据处理方法，包括：

对待处理的文本数据进行分句处理，获得对应的多个文本分句；

针对每个文本分句，进行分词处理，获得每个文本分句对应的多个分词；

根据每个文本分句及其分词对应的词向量，进行词袋聚合，获得每个文本分句对应的句向量；

对每个句向量进行编码，获得每个文本分句对应的句编码向量；

根据所述句编码向量，进行任务处理。

2.根据权利要求1所述的方法，其中，所述根据每个文本分句及其分词对应的词向量，进行词袋聚合，获得每个文本分句对应的句向量，包括：

以每个文本分句为单位，对该文本分句中的分词对应的词向量进行池化聚合操作；

根据池化聚合操作结果，获得每个文本分句对应的句向量。

3.根据权利要求2所述的方法，其中，所述池化聚合操作包括以下之一：平均池化操作、最大池化操作、加权求和池化操作。

4.根据权利要求1-3任一项所述的方法，其中，所述对待处理的文本数据进行分句处理，获得对应的多个文本分句，包括：

按照预设的分句识别规则，对待处理的文本数据进行分句识别；

根据分句识别结果，获得对应的多个文本分句。

5.根据权利要求4所述的方法，其中，所述按照预设的分句识别规则，对待处理的文本数据进行分句识别，包括：

按照预设的分句符号，对待处理的文本数据进行分句识别；

或者，

对待处理的文本数据进行语义分析，根据分析结果对所述待处理的文本数据进行分句识别；

或者，

根据待处理的文本数据对应的多个用户标识，对所述待处理的文本数据进行分句识别。

6.一种模型预训练方法，包括：

将文本样本数据输入预训练语言模型；

通过所述预训练语言模型对所述文本样本数据进行分句处理，获得对应的多个文本样本分句；针对每个文本样本分句，进行分词处理，获得每个文本样本分句对应的多个分词；根据每个文本样本分句及其分词对应的词向量，进行词袋聚合，获得每个文本样本分句对应的句向量；对每个句向量进行编码，获得每个文本样本分句对应的句编码向量；

根据所述句编码向量，执行预设的预训练任务，根据任务执行结果对所述预训练语言模型进行训练。

7.根据权利要求6所述的方法，其中，所述根据每个文本样本分句及其分词对应的词向量，进行词袋聚合，包括：

在获得每个文本样本分句及其分词对应的词向量之后，对多个文本样本分句中的至少部分样本分句中的分词向量进行掩码处理，和/或，调整所述多个文本样本分句的顺序；

对进行了掩码处理和/或顺序调整后的多个文本样本分句进行词袋聚合。

8.根据权利要求7所述的方法，其中，所述根据所述句编码向量，执行预设的预训练任务，包括：

根据所述句编码向量，进行文本预测处理；

基于文本预测处理结果，同时执行预设的至少两项兼容性预训练任务。

9.根据权利要求8所述的方法，其中，所述基于文本预测处理结果，同时执行预设的至少两项兼容性预训练任务，包括：

基于文本预测处理结果，执行判断预测出的文本分句中是否存在字词异常的预训练任务，以及，执行判断预测出的多个文本分句之间的排列顺序是否正确的预训练任务。

10.根据权利要求6-9任一项所述的方法，其中，所述预训练语言模型包括：分句部分、分词部分、词向量映射部分、词袋聚合部分、词袋编码器部分和输出层任务学习部分；

其中，

所述分句部分，用于对所述文本样本数据进行分句处理，获得对应的多个文本样本分句；

所述分词部分，用于针对每个文本样本分句，进行分词处理，获得每个文本样本分句对应的多个分词；

所述词向量映射部分，用于对每个文本样本分句中的分词进行词向量映射，获得每个文本样本分句中的分词对应的词向量；

所述词袋聚合部分，用于根据每个文本样本分句及其分词对应的词向量，进行词袋聚合，获得每个文本样本分句对应的句向量；

所述词袋编码器部分，用于对每个句向量进行编码，获得每个文本样本分句对应的句编码向量；

所述输出层任务学习部分，用于根据所述句编码向量，执行预设的预训练任务，并反馈任务执行结果，以使所述预训练语言模型根据所述任务执行结果进行训练。

11.根据权利要求10所述的方法，其中，所述词袋聚合部分，用于以每个文本样本分句为单位，对该文本样本分句中的分词对应的词向量进行池化聚合操作；根据池化聚合操作结果，获得每个文本样本分句对应的句向量。

12.根据权利要求11所述的方法，其中，所述池化聚合操作包括以下之一：平均池化操作、最大池化操作、加权求和池化操作。

13.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-12中任一项所述的方法对应的操作。

14.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-12中任一所述的方法。