CN113361712B

CN113361712B - 特征确定模型的训练方法、语义分析方法、装置及电子设备

Info

Publication number: CN113361712B
Application number: CN202110746978.2A
Authority: CN
Inventors: 尚骏远; 王硕寰; 丁思宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-07-21
Anticipated expiration: 2041-06-30
Also published as: JP2022110134A; US20220327290A1; CN113361712A

Abstract

本公开提供了一种特征确定模型的训练方法，涉及深度学习和自然语言处理的技术领域。具体方案包括：由特征确定模型包括的多级特征确定层确定预训练文本包括的多个片段中的每个片段的特征向量；以及根据特征向量执行对特征确定模型的预训练，由多级特征确定层确定预训练文本包括的每个片段的特征向量包括：由当前级特征确定层，根据由当前级特征确定层针对在前片段确定的在前片段特征向量和由在前级特征确定层针对一个片段确定的在前级特征向量，确定针对一个片段的当前级特征向量。本公开还提供了一种针对目标任务对特征确定模型进行训练的方法、一种针对目标任务的语义分析方法、装置、电子设备、计算机存储介质以及计算机程序产品。

Description

特征确定模型的训练方法、语义分析方法、装置及电子设备

技术领域

本公开涉及深度学习和自然语言处理的技术领域，具体地，涉及文本分析，更具体地，涉及一种文本分析模型的训练方法、一种针对目标任务对特征确定模型进行训练的方法、一种针对目标任务的语义分析方法、装置、电子设备、计算机存储介质以及计算机程序产品。

背景技术

随着人工智能领域的飞速发展，自然语言处理技术作为人工智能领域的磐石，得到越来越多的关注。通过超强算力在海量文本数据上训练超大参数量的模型，可以使训练出的模型具有多任务、少样本的通用语义理解能力。然而，由于系统计算能力有限，导致在这种庞大模型下的参数调整变得困难。

发明内容

本公开提供了一种特征确定模型的训练方法、一种针对目标任务对特征确定模型进行训练的方法、一种针对目标任务的语义分析方法、装置、电子设备、计算机存储介质以及计算机程序产品。

根据本公开的一方面，提供了一种对特征确定模型进行预训练的方法，所述特征确定模型包括多级特征确定层，所述方法包括：

由多级特征确定层确定预训练文本包括的多个片段中的每个片段的特征向量；以及

根据所述特征向量执行对所述特征确定模型的预训练，

其中，所述由多级特征确定层确定预训练文本包括的多个片段中的每个片段的特征向量包括：由当前级特征确定层针对多个片段中的一个片段，

根据由所述当前级特征确定层针对所述一个片段的在前片段确定的在前片段特征向量和由所述当前级特征确定层的在前级特征确定层针对所述一个片段确定的在前级特征向量，确定针对所述一个片段的当前级特征向量。

根据本公开的另一方面，提供了一种针对目标任务对特征确定模型进行训练的方法，包括：

由特征确定模型确定待处理文本的特征向量；以及

基于所述待处理文本的特征向量，预测所述待处理文本针对所述目标任务的分析结果；以及

基于所述分析结果，调整所述特征确定模型，以使所述分析结果的损失值收敛，

其中，所述特征确定模型包括多级特征确定层，所述待处理文本包括多个片段；

其中，所述由特征确定模型确定待处理文本的特征向量包括：由当前级特征确定层针对多个片段中的一个片段，

根据本公开的再一方面，提供了一种针对目标任务的语义分析方法，包括：

由特征确定模型确定待处理文本的特征向量；以及

基于所述待处理文本的特征向量，获得所述待处理文本针对目标任务的分析结果，

其中所述特征确定模型是根据上述示例实施例所述的方法训练的。

根据本公开的另一方面，提供了一种对特征确定模型进行预训练的装置，所述特征确定模型包括多级特征确定层，所述装置包括：

特征向量确定模块，被配置为由多级特征确定层确定预训练文本包括的多个片段中的每个片段的特征向量；以及

预训练模块，被配置为根据所述特征向量执行对所述特征确定模型的预训练，

其中，所述特征向量确定模块被进一步配置为：由当前级特征确定层，根据由所述当前级特征确定层针对所述一个片段的在前片段确定的在前片段特征向量和由所述当前级特征确定层的在前级特征确定层针对所述一个片段确定的在前级特征向量，确定针对所述一个片段的当前级特征向量。

根据本公开的另一方面，提供了一种针对目标任务对特征确定模型进行训练的装置，包括：

特征向量确定模块，被配置为由特征确定模型确定待处理文本的特征向量；以及

分析结果预测模块，被配置为基于所述待处理文本的特征向量，预测所述待处理文本针对所述目标任务的分析结果；以及

调整模块，被配置为基于所述分析结果，调整所述特征确定模型，以使所述分析结果的损失值收敛，

根据本公开的又一方面，提供了一种针对目标任务的语义分析装置，包括：

分析结果获得模块，被配置为基于所述待处理文本的特征向量，获得所述待处理文本针对目标任务的分析结果，

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开示例实施例的对特征确定模型进行预训练的方法的流程图；

图2A是根据本公开示例实施例的特征确定模型的一个示例的示意图；

图2B示出了对图2A所示的特征确定模型执行预训练的示例示意图；

图3A是根据本公开示例实施例的特征确定模型的另一示例的示意图；

图3B示出了对图3A所示的特征确定模型执行预训练的示例示意图；

图4是根据本公开示例实施例的针对目标任务对特征确定模型进行训练的方法的流程图；

图5是根据本公开示例实施例的针对目标任务的语义分析方法的流程图；

图6是根据本公开示例实施例的对特征确定模型进行预训练的装置的框图；

图7是根据本公开示例实施例的针对目标任务对特征确定模型进行训练的装置的框图；

图8是根据本公开示例实施例的针对目标任务的语义分析装置的框图；以及

图9是用来实现本公开实施例的电子设备的另一示例的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

通过超强算力在海量文本数据上训练超大参数量的模型，可以使预先训练出的模型具有多任务、少样本的通用语义理解能力。

本公开的示例实施例提供了一种对特征确定模型进行预训练的方法。图1是根据本公开示例实施例的对特征确定模型进行预训练的方法的流程图。特征确定模型可以是包括多级特征确定层的模型，例如，ERNIE-DOC模型、BERT模型等。多级特征确定层可以是用于逐级提取特征向量的多个编码层。

如图1所示，对特征确定模型进行预训练的方法100可以包括步骤S110和步骤S120。

在步骤S110，由特征确定模型所包括的多级特征确定层确定预训练文本包括的多个片段中的每个片段的特征向量。例如，预训练文本包括的多个片段可以是顺序排列的，并被依次输入特征确定模型的多级特征确定层中。预训练文本可以是无标签或弱标签的文本数据。换言之，预训练文本可以是经由各种途径采集的用于各领域的海量文本数据，而无需是针对特定训练目标准备的训练数据。通过采用无标签或弱标签的文本数据进行训练，根据本公开示例实施例所述的训练方法而训练出的特征确定模型具有通用语义分析能力。

在一个示例中，由特征确定模型所包括的多级特征确定层确定预训练文本包括的多个片段中的每个片段的特征向量的步骤可以包括：由当前级特征确定层，根据由当前级特征确定层针对当前片段的在前片段确定的在前片段特征向量和由当前级特征确定层的在前级特征确定层针对当前片段确定的在前级特征向量，确定针对当前片段的当前级特征向量。

例如，当由诸如第q级特征确定层的当前级特征确定层确定针对诸如第p个片段的当前片段的当前级特征向量时，第q级特征确定层可以根据由第q级特征确定层针对第p-1个片段确定的在前片段特征向量和由第q-1级特征确定层针对第p个片段确定的第q-1级特征向量，确定第p个片段的第q级特征向量，其中1＜p≤M且1＜q≤N，且M为多个片段的数目，N为特征确定层的数目。尽管在该示例中将在前片段示例性地表示为紧邻当前片段的在前片段且将在前级示例性地表示为紧邻当前级的在前级，但是本公开不限于此，在前片段可以是与当前片段相隔若干个片段的片段，且在前级可以是与当前级相隔若干级的级别。

在步骤S120，根据确定的特征向量执行对所述特征确定模型的预训练。例如，可以根据预设的与编码层对应的解码网络，对特征向量进行预测，以得到与特征向量对应的预测分析结果，从而执行预训练。

由于基于在前片段特征向量和在前级特征向量二者来确定当前级特征向量，所以根据本公开示例实施例的训练方法而训练出的特征确定模型具有结合上下文的能力，从而能够更准确地确定当前级特征向量。这样，就可以避免人工输入提示词的问题，提高了效率和准确率。

图2A是根据本公开示例实施例的特征确定模型的一个示例的示意图。

如图2A所示，特征确定模型可以包括多级特征确定层，例如，第一级特征确定层201、第二级特征确定层202和第三级特征确定层203。本领域技术人员应清楚，尽管在本说明书中将特征确定模型示例地示出为包括三级特征确定层，但是本公开不限于此，根据本公开的示例实施例的特征确定模型可以包括更多或更少的特征确定层。

此外，在图2A所示的特征确定模型中，对于第q级特征确定层而言，在确定针对第p个片段的第q级特征向量时，第q级特征确定层可以不仅接收由第q-1级特征确定层针对第p个片段确定的第q-1级特征向量，而且还可以获取第q级特征确定层针对第p-1个片段确定的第q级特征向量，并基于此确定第p个片段的第q级特征向量，其中1＜p≤M且1＜q≤N，且M为多个片段的数目，N为特征确定层的数目。由此可见，在图2A所示的特征确定模型中，当前级特征确定层能够结合自身关于在前片段的特征向量的记忆，来确定针对当前片段的当前级特征向量。

图2B示出了对图2A所示的特征确定模型执行预训练的示例示意图。如图2B所示，预训练文本20首先被划分为多个片段S1至S4。片段S1至S4可以是通过对例如长文本的预训练文本20进行滑动分片而生成的短文本。片段S1至S4可以被依次输入特征确定模型，以便确定与片段S1至S4相对应的特征向量。本领域技术人员可以理解，图2B所示仅为示例，本公开实施例不局限于此。

例如，当将片段S1输入特征确定模型时，首先，第一级特征确定层201可以得到针对片段S1的第一级特征向量P(S1，1)。随后，第二级特征确定层202基于来自第一级特征确定层201的第一级特征向量P(S1，1)可以得到第二级特征向量P(S1，2)。第三级特征确定层203基于来自第二级特征确定层202的第二级特征向量P(S1，2)，可以得到第三级特征向量P(S1，3)。

当将片段S2输入特征确定模型时，第一级特征确定层201可以得到针对片段S2的第一级特征向量P(S2，1)；随后，第二级特征确定层202可以基于针对片段S2的第一级特征向量P(S2，1)(或被称为“在前级特征向量”)以及针对片段S1的第二级特征向量P(S1，2)(或被称为“在前片段特征向量”)，得到针对片段S2的第二级特征向量P(S2，2)；且第三级特征确定层203可以基于针对片段S2的第二级特征向量P(S2，2)以及针对片段S1的第三级特征向量P(S1，3)，得到针对片段S2的第三级特征向量P(S2，3)。

类似地，当将片段S3输入特征确定模型时，第一级特征确定层201可以得到针对片段S3的第一级特征向量P(S3，1)；随后，第二级特征确定层202可以基于针对片段S3的第一级特征向量P(S3，1)以及针对片段S2的第二级特征向量P(S2，2)，得到针对片段S3的第二级特征向量P(S3，2)；且第三级特征确定层203可以基于针对片段S3的第二级特征向量P(S3，2)以及针对片段S2的第三级特征向量P(S2，3)，得到针对片段S3的第三级特征向量P(S3，3)。

当将片段S4输入特征确定模型时，第一级特征确定层201可以得到针对片段S4的第一级特征向量P(S4，1)。随后，第二级特征确定层202可以基于针对片段S4的第一级特征向量P(S4，1)以及针对片段S3的第二级特征向量P(S3，2)，得到针对片段S4的第二级特征向量P(S4，2)。第三级特征确定层203可以基于针对片段S4的第二级特征向量P(S4，2)以及针对片段S3的第三级特征向量P(S3，3)，得到针对片段S4的第三级特征向量P(S4，3)。

以上述方式得到的针对片段S4的第三级特征向量P(S4，3)能够包含全部在前片段的信息。因此，根据本公开示例实施例所述的训练方法而训练出的特征确定模型具有结合上下文的能力，从而能够更准确地确定当前级特征向量。因此，可以避免人工输入提示词的问题，提高了效率和准确率。

图3A是根据本公开示例实施例的特征确定模型的另一示例的示意图。类似于图2A，图3A示出的特征确定模型可以包括多级特征确定层，例如，第一级特征确定层301、第二级特征确定层302和第三级特征确定层303。

与图2A所示的示例不同，图3A所示的特征确定模型可以附加地包括多个参数化模型，以便对存储有在前片段的特征向量的列表进行参数化，使得当需要调整特征确定模型时，能够通过调整参数化模型的参数来实现调整特征确定模型。存储有在前片段的特征向量的列表可以被称为存储结构或Memory结构。参数化模型用于对Memory结构进行参数化，使得能够通过调整参数化模型的参数来实现调整特征确定模型。此外，可以通过控制参数化模型的规模，来实现仅通过调整参数化模型的少量参数就适配特定目标任务的效果。

可以利用循环神经网络(recurrent neural network，RNN)模型或变换(transformer)模型等多种模型来实现参数化模型。

由于特征确定模型的较低级特征确定层通常能够学习到更通用的特征向量或更通用的知识，而较高级特征确定层往往能够学习到与特定任务相关的特征向量或知识，所以可以有区别地配置针对不同特征确定层的参数化模型。例如，将针对较低级特征确定层的参数化模型设计为具有较少的参数且将对较高级特征确定层的参数化模型设计为具有较多的参数，以便支持在不破坏特征确定模型的通用语义分析能力的基础上适配多种任务的需求。

如图3A所示，多个参数化模型可以包括针对较低级特征确定层的第一参数化模型304和针对较高级特征确定层的第二参数化模型305。如上所述，第一参数化模型304和第二参数化模型305可以是不同配置的，其中第一参数化模型304被配置为具有较少的参数，且第二参数化模型305被配置为具有比第一参数化模型304更多的参数。

图3B示出了对图3A所示的特征确定模型执行预训练的示例示意图。如图3B所示，当将预训练文本30的片段S1输入特征确定模型时，类似于图2B所示，可以得到针对片段S1的第一级特征向量P(S1，1)、第二级特征向量P(S1，2)和第三级特征向量P(S1，3)。

当将片段S2输入特征确定模型时，第一级特征确定层301可以得到针对片段S2的第一级特征向量P(S2，1)。随后，第二级特征确定层302可以基于特征向量P(S2，1)以及来自第一参数化模型304的针对片段S1的第二级特征向量的参数化结果P(S1，2)_P，得到针对片段S2的第二级特征向量P’(S2，2)。第三级特征确定层303可以基于针对片段S2的第二级特征向量P’(S2，2)以及来自第二参数化模型305的针对片段S1的第三级特征向量的参数化结果P(S1，3)_P，得到针对片段S2的第三级特征向量P’(S2，3)。

类似地，当将片段S3输入特征确定模型时，第一级特征确定层301可以得到针对片段S3的第一级特征向量P(S3，1)。第二级特征确定层302可以基于特征向量P(S3，1)以及参数化结果P(S2，2)_P，得到针对片段S3的第二级特征向量P’(S3，2)；且第三级特征确定层303可以基于特征向量P’(S3，2)以及参数化结果P(S2，3)_P，得到针对片段S3的第三级特征向量P’(S3，3)。

当将片段S4输入特征确定模型时，第一级特征确定层301可以得到针对片段S4的第一级特征向量P(S4，1)；第二级特征确定层302可以基于特征向量P(S4，1)以及参数化结果P(S3，2)_P，得到针对片段S4的第二级特征向量P’(S4，2)。第三级特征确定层303可以基于特征向量P’(S4，2)以及参数化结果P(S3，3)_P，得到针对片段S4的第三级特征向量P’(S4，3)。

如上所述，根据上述示例实施例所述的方法训练出的特征确定模型不仅具备结合上下文的能力，而且在适配下游任务时，能够通过调整参数化模型的参数来实现调整特征确定模型。此外，通过控制参数化模型的少量参数，就可以实现调整特征确定模型以适配特定目标任务的效果。

在另一示例中，根据本公开示例实施例的训练方法还可以包括：在由多级特征确定层确定多个片段中的第一个片段的特征向量之前，插入虚拟片段，作为第一个片段的在前片段，以便支持第一个片段能够同样参考在前片段的信息。在这种情况下，可以由多级特征确定层确定虚拟片段的特征向量，且在由多级特征确定层确定多个片段中的第一个片段的特征向量时，由当前级特征确定层根据由当前级特征确定层针对虚拟片段确定的虚拟片段特征向量和由在前级特征确定层针对第一个片段确定的在前级特征向量，确定针对第一个片段的当前级特征向量。通过设置虚拟片段，可以支持第一个片段也能够利用在前片段的信息，从而使预训练和微调的输入范式能够得到统一。

本公开的示例实施例还提供了一种针对目标任务对特征确定模型进行训练的方法。图4是根据本公开示例实施例的针对目标任务对特征确定模型进行训练的方法的流程图。

如图4所示，所述方法400可以包括以下操作。

在步骤S410，由特征确定模型确定待处理文本的特征向量。如上所述，特征确定模型包括多级特征确定层，且待处理文本包括多个片段。多个片段是顺序排列的并被依次输入特征确定模型。

当由当前级特征确定层确定针对某个片段的当前级特征向量时，可以根据由当前级特征确定层针对在前片段确定的在前片段特征向量和由在前级特征确定层针对该片段确定的在前级特征向量，确定针对该片段的当前级特征向量。例如，当第q级特征确定层确定针对第p个片段的第q级特征向量时，可以根据由第q级特征确定层针对第p-1个片段确定的第q级特征向量和由第q-1级特征确定层针对第p个片段确定的第q-1级特征向量，来确定第p个片段的第q级特征向量，其中1＜p≤M且1＜q≤N，M为多个片段的数目，N为特征确定层的数目。

在另一示例中，当特征确定模型还包括参数化模型时，还可以由参数化模型对在前片段特征向量进行参数化，以得到在前片段特征向量的参数化结果，并根据参数化结果和在前级特征向量，确定针对该片段的当前级特征向量。

在步骤S420，基于待处理文本的特征向量，预测待处理文本针对该目标任务的分析结果。例如，可以针对目标任务的分析模型分析待处理文本的特征向量，以预测待处理文本针对该目标任务的分析结果。

在步骤S430，基于分析结果，调整特征确定模型，以使预测得到的分析结果的损失值收敛。例如，在特征确定模型还包括诸如RNN模型或Transformer模型的参数化模型的情况下，可以通过基于该分析结果调整循环神经网络RNN模型或transformer模型中的权重，来调整参数化结果，从而改变由当前级特征确定层针对该片段确定的当前级特征向量，达到调整特征确定模型以适配下游目标任务的目的。

在另一示例中，根据本公开示例实施例的训练方法还可以附加地包括：在由多级特征确定层确定多个片段中的第一个片段的特征向量之前，插入虚拟片段；以及由多级特征确定层确定虚拟片段的特征向量。在这种情况下，当由多级特征确定层确定多个片段中的第一个片段的特征向量时，当前级特征确定层可以根据由当前级特征确定层针对虚拟片段确定的虚拟片段特征向量和由在前级特征确定层针对第一个片段确定的在前级特征向量，确定针对第一个片段的当前级特征向量。

以上描述了针对目标任务对特征确定模型进行训练的方法。通过结合目标任务基于在前片段特征向量和在前级特征向量二者确定当前级特征向量，根据本公开示例实施例所述的方法训练出的特征确定模型能够结合上下文的信息，从而能够针对特定目标任务快速收敛。此外，通过经由参数化模型调整特征确定模型，使得能够减少需要调整的参数量，从而便于将特征确定模型适配到特定目标任务，而不破坏原始模型结构。另外，通过设置虚拟片段，根据本公开示例实施例所述的训练方法能够保持预训练与微调输入的一致性。根据本公开的示例实施例还提供了一种针对目标任务的语义分析方法。图5是根据本公开示例实施例的针对目标任务的语义分析方法500的流程图。如图5所示，根据本公开示例实施例的针对目标任务的语义分析方法500方法可以包括以下操作。

在步骤S510，由特征确定模型确定待处理文本的特征向量。

在步骤S520，基于待处理文本的特征向量，获得待处理文本针对目标任务的分析结果。特征确定模型是根据本公开的上述示例实施例所述的方法而训练的。

根据本公开示例实施例的针对目标任务的语义分析方法，通过结合目标任务基于在前片段特征向量和在前级特征向量二者确定当前级特征向量，能够结合上下文信息，从而获得更准确的分析结果。

此外，本公开的示例实施例还提供了一种对特征确定模型进行预训练的装置。图6是根据本公开示例实施例的对特征确定模型进行预训练的装置的框图。特征确定模型可以是包括多级特征确定层的模型，例如，ERNIE-DOC模型、BERT模型等。多级特征确定层可以是用于逐级提取特征向量的多个编码层。

如图6所示，装置600可以包括特征向量确定模块610和预训练模块620。

特征向量确定模块610可以被配置为由多级特征确定层确定预训练文本包括的多个片段中的每个片段的特征向量。预训练文本包括的多个片段可以是顺序排列的，并被依次输入特征确定模型的多级特征确定层中。预训练文本可以是无标签或弱标签的文本数据。换言之，预训练文本可以是经由各种途径采集的用于各领域的海量文本数据，而无需是针对特定训练目标准备的训练数据。

预训练模块620可以被配置为根据确定的特征向量执行对特征确定模型的预训练。例如，可以根据预设的与编码层对应的解码网络，对特征向量进行预测，以得到与特征向量对应的预测分析结果。

在一个示例中，特征向量确定模块610可以被进一步配置为：由当前级特征确定层，根据由当前级特征确定层针对该片段的在前片段确定的在前片段特征向量和由当前级特征确定层的在前级特征确定层针对该片段确定的在前级特征向量，确定针对该片段的当前级特征向量。例如，当由诸如第q级特征确定层的当前级特征确定层确定针对诸如第p个片段的当前片段的当前级特征向量时，第q级特征确定层可以根据由第q级特征确定层针对第p-1个片段确定的在前片段特征向量和由第q-1级特征确定层针对第p个片段确定的第q-1级特征向量，确定第p个片段的第q级特征向量，其中1＜p≤M且1＜q≤N，且M为多个片段的数目，N为特征确定层的数目。

在另一示例中，当特征确定模型附加地包括用于对存储有在前片段的特征向量的列表进行参数化的多个参数化模型时，特征向量确定模块610可以被进一步配置为：由参数化模型对在前片段特征向量进行参数化，以得到在前片段特征向量的参数化结果；并根据参数化结果和在前级特征向量，确定针对该片段的当前级特征向量。

如上所述，由根据上述示例实施例的装置训练出的特征确定模型不仅具备结合上下文的能力，而且在适配下游任务时，能够通过调整参数化模型的参数来实现调整特征确定模型。此外，通过控制参数化模型的少量参数，就可以实现调整特征确定模型以适配特定目标任务的效果。

本公开的示例实施例还提供了一种针对目标任务对特征确定模型进行训练的装置。图7是根据本公开示例实施例的针对目标任务对特征确定模型进行训练的装置的框图。特征确定模型包括多级特征确定层，且待处理文本包括多个片段。

所述装置700可以包括特征向量确定模块710、分析结果预测模块720和调整模块730。

特征向量确定模块710可以被配置为由特征确定模型确定待处理文本的特征向量。特征向量确定模块710可以被进一步配置为：由当前级特征确定层，根据由当前级特征确定层针对当前片段的在前片段确定的在前片段特征向量和由当前级特征确定层的在前级特征确定层针对该片段确定的在前级特征向量，确定针对该片段的当前级特征向量。在另一示例中，当特征确定模型还包括参数化模型时，特征向量确定模块710可以还可以由参数化模型对在前片段特征向量进行参数化，以得到在前片段特征向量的参数化结果，并根据参数化结果和在前级特征向量，确定针对当前片段的当前级特征向量。

分析结果预测模块720可以被配置为基于待处理文本的特征向量，预测待处理文本针对该目标任务的分析结果。例如，可以用针对目标任务的分析模型分析待处理文本的特征向量，以预测待处理文本针对该目标任务的分析结果。

调整模块730可以被配置为基于预测得到的分析结果，调整特征确定模型，以使分析结果的损失值收敛。例如，在特征确定模型还包括参数化模型的情况下，可以通过基于分析结果调整循环神经网络RNN模型或transformer模型中的权重，来调整参数化结果，从而改变由当前级特征确定层针对当前片段确定的当前级特征向量，达到调整特征确定模型以适配下游目标任务的目的。

以上描述了针对目标任务对特征确定模型进行训练的装置。通过结合目标任务基于在前片段特征向量和在前级特征向量二者确定当前级特征向量，根据本公开示例实施例所述的装置训练出的特征确定模型能够结合上下文的信息，从而能够针对特定目标任务快速收敛。此外，通过经由参数化模型调整特征确定模型，使得能够减少需要调整的参数量，从而便于将特征确定模型适配到特定目标任务，而不破坏原始模型结构。

本公开的示例实施例还提供了一种针对目标任务的语义分析装置。图8是根据本公开示例实施例的针对目标任务的语义分析装置的框图。

如图8所示，所述装置800可以包括：特征向量确定模块810和分析结果获得模块820。

特征向量确定模块810可以被配置为由特征确定模型确定待处理文本的特征向量。分析结果获得模块820可以被配置为基于待处理文本的特征向量，获得待处理文本针对目标任务的分析结果，其中所述特征确定模型是根据本公开的上述示例实施例所述的方法而训练的。

根据本公开示例实施例的针对目标任务的语义分析装置，通过结合目标任务基于在前片段特征向量和在前级特征向量二者确定当前级特征向量，能够结合上下文信息，从而获得更准确的分析结果。

本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和步骤，例如，如图2A至图5所示的方法和步骤。例如，在一些实施例中，图2A至图5所示的方法和步骤可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行如上所述的方法和步骤。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种对特征确定模型进行预训练的方法，所述特征确定模型包括多级特征确定层，所述方法包括：

根据所述特征向量执行对所述特征确定模型的预训练，

根据由所述当前级特征确定层针对所述一个片段的在前片段确定的在前片段特征向量和由所述当前级特征确定层的在前级特征确定层针对所述一个片段确定的在前级特征向量，确定针对所述一个片段的当前级特征向量，

其中，所述特征确定模型还包括多个参数化模型，其中通过循环神经网络RNN模型或transformer模型来实现各参数化模型，

其中，所述确定针对所述一个片段的当前级特征向量包括：

由所述多个参数化模型中的至少一个对在前片段特征向量进行参数化，以得到在前片段特征向量的参数化结果；以及

根据所述参数化结果和在前级特征向量，确定针对所述一个片段的当前级特征向量，

其中，所述方法还包括：

在由所述多级特征确定层确定所述多个片段中的第一个片段的特征向量之前，插入虚拟片段；以及

由所述多级特征确定层确定所述虚拟片段的特征向量，并且，

其中，所述由所述多级特征确定层确定所述多个片段中的第一个片段的特征向量包括：由当前级特征确定层，根据由所述当前级特征确定层针对所述虚拟片段确定的虚拟片段特征向量和由所述在前级特征确定层针对所述第一个片段确定的在前级特征向量，确定针对所述第一个片段的当前级特征向量，

其中，所述多个参数化模型包括针对较低级特征确定层的第一参数化模型和针对较高级特征确定层的第二参数化模型，其中，所述第一参数化模型和所述第二参数化模型是不同配置的，所述第一参数化模型被配置为具有较少的参数，且所述第二参数化模型被配置为具有比所述第一参数化模型更多的参数。

2.根据权利要求1所述的方法，其中，所述确定针对所述一个片段的当前级特征向量包括：

由第q级特征确定层针对第p个片段，根据由第q级特征确定层针对第p-1个片段确定的在前片段特征向量和由第q-1级特征确定层针对第p个片段确定的在前级特征向量，确定第p个片段的当前级特征向量，其中1＜p≤M且1＜q≤N，M为多个片段的数目，N为特征确定层的数目。

3.根据权利要求1所述的方法，其中，所述多个片段是顺序排列的。

4.一种针对目标任务对特征确定模型进行训练的方法，包括：

由特征确定模型确定待处理文本的特征向量；以及

其中，所述确定针对所述一个片段的当前级特征向量包括：

其中，所述方法还包括：

5.根据权利要求4所述的方法，其中，所述基于所述分析结果，调整所述特征确定模型以使所述分析结果的损失值收敛包括：

通过基于所述分析结果调整所述循环神经网络RNN模型或transformer模型中的权重，来调整所述参数化结果，以改变由所述当前级特征确定层针对所述一个片段确定的当前级特征向量。

6.根据权利要求4所述的方法，其中，所述确定针对所述一个片段的当前级特征向量包括：

7.根据权利要求4所述的方法，其中，所述多个片段是顺序排列的。

8.一种针对目标任务的语义分析方法，包括：

由特征确定模型确定待处理文本的特征向量；以及

其中所述特征确定模型是根据权利要求4至7中任一项所述的方法训练的。

9.一种对特征确定模型进行预训练的装置，所述特征确定模型包括多级特征确定层，所述装置包括：

其中，所述特征向量确定模块被进一步配置为：由当前级特征确定层针对多个片段中的一个片段，根据由所述当前级特征确定层针对所述一个片段的在前片段确定的在前片段特征向量和由所述当前级特征确定层的在前级特征确定层针对所述一个片段确定的在前级特征向量，确定针对所述一个片段的当前级特征向量，

其中，所述特征确定模型还包括多个参数化模型，其中，通过循环神经网络RNN模型或transformer模型来实现各参数化模型，

其中，所述确定针对所述一个片段的当前级特征向量包括：

其中，所述特征向量确定模块还被配置为包括：

10.一种针对目标任务对特征确定模型进行训练的装置，包括：

其中，所述确定针对所述一个片段的当前级特征向量包括：

其中，所述特征向量确定模块被进一步配置为：

11.一种针对目标任务的语义分析装置，包括：

12.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。