CN112232089A

CN112232089A - 语义表示模型的预训练方法、设备和存储介质

Info

Publication number: CN112232089A
Application number: CN202011468648.3A
Authority: CN
Inventors: 丁思宇; 王硕寰; 尚骏远; 孙宇; �田�浩; 吴华; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-01-15
Anticipated expiration: 2040-12-15
Also published as: CN112232089B

Abstract

本申请公开了语义表示模型的预训练方法、设备和存储介质，涉及深度学习、自然语言处理等人工智能技术领域。具体实现方案为：在结合当前文本片段对语义表示模型进行预训练的过程中，针对语义表示模型中的每层编码层，可结合当前文本片段在对应下一层编码层输出的特征向量，以及上一个文本片段在比对应下一层编码层层级高的编码层上的特征向量，确定当前文本片段在对应编码层上的特征向量，直至获取当前文本片段在最后一层编码层上的语义向量，并结合当前文本片段的语义向量对语义表示模型进行预训练，由此，提出了一种对语义表示模型进行预训练的新方式，从而可使得所预训练出的语义表示模型准确。

Description

语义表示模型的预训练方法、设备和存储介质

技术领域

本申请涉及计算机技术领域，具体涉及深度学习、自然语言处理等人工智能技术领域，尤其涉及语义表示模型的预训练方法、设备和存储介质。

背景技术

目前，NLP(Natural Language Processing，自然语言处理)是人工智能领域的一个重要的研究方向。通过预训练的语义表示模型大幅提升了各类NLP任务的效果，（例如文本匹配、文本生成、情感分类、文本摘要、问答、检索等）。

相关技术中，为了使得语义表示模型可以准确表示长文本对应的语义，通常在训练语义表示模型的过程中，基于固定长度对长文本进行分段，然后，结合分段结果对语义表示模型进行预训练。由于根据固定的长度来划分文本，从而导致分割出来的片段在语义上是不完整的，即，存在上下文碎片问题。因此，在对语义表示模型进行训练过程中，如何解决上下文碎片问题对语义表示模型进行预训练是十分重要的。

发明内容

本申请提供了一种用于语义表示模型的预训练方法、设备和存储介质。

根据本申请的一方面，提供了一种语义表示模型的预训练方法，包括：针对语义表示模型中的第j层编码层，获取当前文本片段在第i层编码层上的第一特征向量，其中，j为小于或者等于M的正整数，所述i等于所述j减1，所述M为所述语义表示模型的编码层的总层数；根据所述第i层编码层上，获取上一个文本片段在第k层编码层上的第二特征向量，其中，所述k为小于或者等于M的正整数，且所述k大于所述i；根据所述第一特征向量和所述第二特征向量，确定所述当前文本片段在所述第j层编码层上的第三特征向量，重复上述步骤直至获得所述当前文本片段在第M层编码层上的语义向量；根据所述语义向量，对所述语义表示模型进行预训练。

根据本申请的另一方面，提供了一种语义表示模型的预训练装置，包括：第一获取模块，用于针对语义表示模型中的第j层编码层，获取当前文本片段在第i层编码层上的第一特征向量，其中，j为小于或者等于M的正整数，所述i等于所述j减1，所述M为所述语义表示模型的编码层的总层数；第二获取模块，用于根据所述第i层编码层上，获取上一个文本片段在第k层编码层上的第二特征向量，其中，所述k为小于或者等于M的正整数，且所述k大于所述i；第一确定模块，用于根据所述第一特征向量和所述第二特征向量，确定所述当前文本片段在所述第j层编码层上的第三特征向量，重复上述步骤直至获得所述当前文本片段在第M层编码层上的语义向量；预训练模块，用于根据所述语义向量，对所述语义表示模型进行预训练。

根据本申请的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请的语义表示模型的预训练方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请实施例公开的语义表示模型的预训练方法。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请的语义表示模型的预训练方法。

上述申请中的一个实施例具有如下优点或有益效果：

在结合当前文本片段对语义表示模型进行预训练的过程中，针对语义表示模型中的每层编码层，可结合当前文本片段在对应下一层编码层输出的特征向量，以及上一个文本片段在比对应下一层编码层层级高的编码层上的特征向量，确定当前文本片段在对应编码层上的特征向量，直至获取当前文本片段在最后一层编码层上的语义向量，并结合当前文本片段的语义向量对语义表示模型进行预训练，由此，提出了一种对语义表示模型进行预训练的新方式，从而可使得所预训练出的语义表示模型准确。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例提供的一种语义表示模型的预训练方法的流程示意图；

图2是M层编码层与其对应的输入的对应关系示例图；

图3是根据本申请第二实施例的一种语义表示模型的预训练方法的流程示意图；

图4是根据本申请第三实施例提供的一种语义表示模型的预训练装置的结构示意图；

图5是根据本申请第四实施例提供的一种语义表示模型的预训练装置的结构示意图；

图6是用来实现本申请实施例的语义表示模型的预训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的语义表示模型的预训练方法、设备和存储介质。

图1是根据本申请第一实施例提供的一种语义表示模型的预训练方法的流程示意图。

如图1所示，该语义表示模型的预训练方法可以包括：

步骤101，针对语义表示模型中的第j层编码层，获取当前文本片段在第i层编码层上的第一特征向量，其中，j为小于或者等于M的正整数，i等于j减1，M为语义表示模型的编码层的总层数。

其中，需要说明的是，上述语义表示模型的预训练方法的执行主体为语义表示模型的预训练装置，该语义表示模型的预训练装置可以由软件和/或硬件的方式实现，该实施例中的语义表示模型的预训练装置可以配置在电子设备中，本实施例中的电子设备可以包括终端设备和服务器等设备，该实施例对电子设备不作限定。

其中，本实施例中以语义表示模型可以是基于Transformer-XL（TransformereXtra Long，翻译超长长度）结构的语义表示模型为例进行描述。

其中，基于Transformer-XL结构的语义表示模型包括M层编码层。其中，每层编码层中均包括基于Transformer的编码结构，对应编码结构对输入内容进行编码，并将输出结果输入至对应的下一层编码层进行处理。

作为一示例，基于Transformer-XL结构的语义表示模型可以包括12（即M为12）层编码层，其中，12层编码层的编码结构是相同，每层编码层均是对输入进行特征提取，但是每层所提取到的特征的抽象程度是不同的。比如，第1层编码层至第3层编码层，可提取当前文本片段每个单词本身的意思，对应地后，后续几层编码层，可提取当前文本片段的语法信息，例如，主谓宾等信息，对于一些高层编码层，可提取当前文本片段的流畅度等信息。

步骤102，根据第i层编码层上，获取上一个文本片段在第k层编码层上的第二特征向量，其中，k为小于或者等于M的正整数，且k大于i。

在本申请的一个实施例中，上述上一个文本片段可通过多种方式获取，举例说明如下：

作为一种示例性的实施方式，为了可结合上一个文本片段准确确定出当前文本片段的语义，避免出现上下文碎片化，造成语义不完整的情况，例如，对于上一个文本片段为“我有一只猫”，当前文本片段为“它不喜欢吃鱼”，如果不结合上下文本片段进行分析，当前文本片段中的“它”的语义是不清楚的。因此，在本申请的一个实施例中，上述上一个文本片段的获取方式可以为：获取当前文本片段所属于的样本文本；获取与样本文本对应的文本片段序列；根据当前文本片段，从文本片段序列中，获取与当前文本片段相邻的上一个文本片段。

在本申请一个实施例中，获取与样本文本对应的文本片段序列的一种可能实现方式可以为：获取语义表示模型的长度阈值；在样本文本的文本长度超过长度阈值的情况下，根据长度阈值，对样本文本进行分段，以得到样本文本的文本片段序列。

在本实施例中，结合语义表示模型的长度阈值，对超过该长度阈值的样本文本进行分段，从而可准确确定出样本文本对应的文本片段序列，继而方便后续基于该文本片段序列，确定出当前文本片段对应的上一个文本片段。

作为另一示例性的实施方式，上述上一个文本片段的获取方式还可以为：在上述语义表示模型中包括记忆网络的情况下，可基于记忆网络，获取当前文本片段对应的上一个文本片段，可以理解的是，当前文本片段与上一个文本片段在样本文本中相邻的。

其中，上述记忆网络用于对应文本片段在各层编码层的特征向量进行保存。

其中，在本实施例中，k比i大多少是预先设定的，例如，k可以比i大1，或者，k可以比i大2等。其中，可以理解的是，k比i大1，表示对于第j层编码层而言，第j层编码层的输入为第j-1（即，i）层编码层输出的特征向量，和上一个文本片段在第j层编码上的特征向量。

其中，可以理解的是，对于k比i大1的情况而言，表示对于第j层编码层而言，第j层编码层的输入为第j-1（即，i）层编码层输出的特征向量，和上一个文本片段在第j+1层编码上的特征向量。

为了使得可以清楚地理解本申请，M个编码层中每个编码层与两个输入之间的关系进行示例。其中，图2中的a图，表示在对k比i大1的情况下，所对应的编码层与两个输入的关系，图2中的b图，表示在k比i大2的情况下，所对应的编码层与两个输入的关系。

步骤103，根据第一特征向量和第二特征向量，确定当前文本片段在第j层编码层上的第三特征向量，重复上述步骤直至获得当前文本片段在第M层编码层上的语义向量。

本实施例中，在语义表示模型中的第j层编码层，结合当前文本片段在第j-1层编码上的特征向量，以及上一个文本片段在比第j-1层编码层层级高的编码层上的特征向量，来确定出当前文本片段在第j层编码层上的特征向量，从而实现了高层隐层状态传给底层，从而使得可基于上一个文本片段在高层上的特征向量和当前文本片段在底层上的特征向量，准确确定出当前文本片段的特征向量，由此，结合上一个文本片段准确确定当前文本片段的语义。

步骤104，根据语义向量，对语义表示模型进行预训练。

本申请实施例的语义表示模型的预训练方法，在结合当前文本片段对语义表示模型进行预训练的过程中，针对语义表示模型中的每层编码层，可结合当前文本片段在对应下一层编码层输出的特征向量，以及上一个文本片段在比对应下一层编码层层级高的编码层上的特征向量，确定当前文本片段在对应编码层上的特征向量，直至获取当前文本片段在最后一层编码层上的语义向量，并结合当前文本片段的语义向量对语义表示模型进行预训练，由此，提出了一种对语义表示模型进行预训练的新方式，从而可使得所预训练出的语义表示模型准确。

图3是根据本申请第二实施例提供的一种语义表示模型的预训练方法的流程示意图。该实施例对图1所实施例的进一步细化或者优化。

如图3所示，该语义表示模型的预训练方法可以包括：

步骤301，针对语义表示模型中的第j层编码层，获取当前文本片段在第i层编码层上的第一特征向量，其中，j为小于或者等于M的正整数，i等于j减1，M为语义表示模型的编码层的总层数。

步骤302，根据第i层编码层上，获取上一个文本片段在第k层编码层上的第二特征向量，其中，k为小于或者等于M的正整数，且k大于i。

在本申请的一个实施例中，为了使得后续预训练后的语义表示模型在对待处理长文本的当前文本片段进行语义表示的过程中，可结合该待处理长文本的上一个文本片段进行语义表示，本实施例中的语义表示模型中可以包括记忆网络。

在本申请的一个实施例中，在语义表示模型中可以包括记忆网络的情况下，根据第i层编码层上，获取上一个文本片段在第k层编码层上的第二特征向量的一种可能实现方式为：根据当前片段，从记忆网络中，获取与当前片段对应的上一个文本片段。根据第i层编码层，确定对应的第k层编码层。根据第k层编码层和上一个文本片段，从记忆网络中，获取上一个文本片段在第k层编码层上的第二特征向量。

在本实施例中，通过语义表示模型中的记忆网络对各个文本片段在各层编码层上的特征向量进行存储，从而使得在获取上一个文本片段在第k层编码层上的第二特征向量，可基于语义表示模型内部中的记忆网络，准确获取上一个文本片段在第k层编码层上的第二特征向量。

在本申请的一个实施例中，在不同应用场景中，上述根据第i层编码层，确定对应的第k层编码层的实现方式不同，举例说明如下：

作为一种示例，根据第i层编码层，确定对应的第k层编码层的一种可能实现方式为：获取为语义表示模型所设置的层级差；将层级差与第i层编码层对应的层级i进行相加，并根据相加结果，确定对应的第k层编码层。

例如，层级差为1，对于当前文本片段的第5层编码层而言，i等于4，对应地，可确定上一个文本片段对应的编码层为5（即4加上1所得到的值），对于第5层编码层而言，其对应的输入包括两个，输入A为第4层编码层针对当前文本片段输出的特征向量，输入B为上一个文本片段在第5层编码层上的特征向量。

在本实施例中，结合为语义表示模型所设置的层级差以及第i层编码层对应的层级，准确确定出上一个文本片段所对应的第k层编码层，方便后续可基于所确定出的第k层编码层，从记忆网络中准确获取上一个文本片段在第k层编码层上的特征向量。

作为另一种示例，根据第i层编码层，确定对应的第k层编码层的另一种可能实现方式为：根据预先保存的编码层对应关系，基于第i层编码层所对应的层级i，确定出对应的编码层层级，并根据所确定出的编码层层级，得到第k层编码层。

步骤303，根据第一特征向量和第二特征向量，确定当前文本片段在第j层编码层上的第三特征向量，重复上述步骤直至获得当前文本片段在第M层编码层上的语义向量。

步骤304，根据预设的解码网络，对语义向量进行文本片段预测，以得到与语义向量对应的预测文本片段。

步骤305，根据当前文本片段和预测文本片段之间的差异信息，对各个编码层的参数以及解码网络的参数进行调整。

在本申请一个实施例中，可根据当前文本片段和预测文本片段之间的差异信息，对各个编码层的参数以及解码网络的参数进行调整，直至当前文本片段和预测文本片段之间的差异信息小于预设差异阈值，此时，说明语义表示模型已预训练好。

本申请实施例的语义表示模型的预训练方法，在结合当前文本片段对语义表示模型进行预训练的过程中，针对语义表示模型中的每层编码层，可结合当前文本片段在对应下一层编码层输出的特征向量，以及上一个文本片段在比对应下一层编码层层级高的编码层上的特征向量，确定当前文本片段在对应编码层上的特征向量，直至获取当前文本片段在最后一层编码层上的语义向量，并根据预设的解码网络，对语义向量进行文本片段预测，以得到与语义向量对应的预测文本片段，然后，根据当前文本片段和预测文本片段之间的差异信息，对各个编码层的参数以及解码网络的参数进行调整，直至预训练结束。由此，结合上一文本片段的语义信息对当前文本片段进行预训练，使得模型的底层训练可以使用上一个文本片段的高层的语义信息。

另外，可以理解的是，本实施例是通过对记忆网络中的错层传递机制进行修改，从而使得记忆网络所输出的特征向的编码层比当前编码层的原始输入所对应的编码层的层级高，并未改变语义表示模型的模型结构，因此，没有增加模型的训练成本。

另外，可以理解的是，在语义表示模型的长度阈值为L，语义表示模型中的编码层的总层数为M的情况下，本实施例中的语义表示模型中的记忆网络可传递距离可由N*L增加为无限长，更有益于长文本任务。

为了实现上述实施例，本申请实施例还提供一种语义表示模型的预训练装置。

图4是根据本申请第三实施例提供的一种语义表示模型的预训练装置的结构示意图。

如图4所示，该语义表示模型的预训练装置400可以包括第一获取模块401、第二获取模块402、第一确定模块403和预训练模块404，其中：

第一获取模块401，用于针对语义表示模型中的第j层编码层，获取当前文本片段在第i层编码层上的第一特征向量，其中，j为小于或者等于M的正整数，i等于j减1，M为语义表示模型的编码层的总层数。

第二获取模块402，用于根据第i层编码层上，获取上一个文本片段在第k层编码层上的第二特征向量，其中，k为小于或者等于M的正整数，且k大于i。

第一确定模块403，用于根据第一特征向量和第二特征向量，确定当前文本片段在第j层编码层上的第三特征向量，重复上述步骤直至获得当前文本片段在第M层编码层上的语义向量。

预训练模块404，用于根据语义向量，对语义表示模型进行预训练。

其中，需要说明的是，前述对语义表示模型的预训练方法实施例的解释说明也适用于本实施例，本实施对此不再赘述。

本申请实施例的语义表示模型的预训练装置，在结合当前文本片段对语义表示模型进行预训练的过程中，针对语义表示模型中的每层编码层，可结合当前文本片段在对应下一层编码层输出的特征向量，以及上一个文本片段在比对应下一层编码层层级高的编码层上的特征向量，确定当前文本片段在对应编码层上的特征向量，直至获取当前文本片段在最后一层编码层上的语义向量，并结合当前文本片段的语义向量对语义表示模型进行预训练，由此，提出了一种对语义表示模型进行预训练的新方式，从而可使得所预训练出的语义表示模型准确从而可使得所预训练出的语义表示模型准确。

在本申请的一个实施例中，如图5所示，该语义表示模型的预训练装置可以包括：第一获取模块501、第二获取模块502、第一确定模块503、预训练模块504、第三获取模块505、第四获取模块506和第五获取模块507，其中，第二获取模块502可以包括第一获取单元5021，确定单元5022和第二获取单元5023，其中：

其中，关于第一获取模块501、第一确定模块503、预训练模块504的详细描述请参考图4所示实施例中第一获取模块401、第一确定模块403、预训练模块404的说明，此处不再进行描述。

在本申请的一个实施例中，上述预训练模块504，具体用于：根据预设的解码网络，对语义向量进行文本片段预测，以得到与语义向量对应的预测文本片段；根据当前文本片段和预测文本片段之间的差异信息，对各个编码层的参数以及解码网络的参数进行调整。

在本申请的一个实施例中，第三获取模块505，用于获取当前文本片段所属于的样本文本。

第四获取模块506，用于获取与样本文本对应的文本片段序列。

第五获取模块507，用于根据当前文本片段，从文本片段序列中，获取与当前文本片段相邻的上一个文本片段。

在本申请的一个实施例中，上述第四获取模块506，具体用于：获取语义表示模型的长度阈值；在样本文本的文本长度超过长度阈值的情况下，根据长度阈值，对样本文本进行分段，以得到样本文本的文本片段序列。

在本申请的一个实施例中，上述语义表示模型包括记忆网络，上述第一获取单元5021，用于根据当前片段，从记忆网络中，获取与当前片段对应的上一个文本片段；

确定单元5022，用于根据第i层编码层，确定对应的第k层编码层；

第二获取单元5023，用于根据第k层编码层和上一个文本片段，从记忆网络中，获取上一个文本片段在第k层编码层上的第二特征向量。

在本申请的一个实施例中，上述确定单元5022，具体用于：获取为语义表示模型所设置的层级差；将层级差与第i层编码层对应的层级i进行相加，并根据相加结果，确定对应的第k层编码层。

其中，需要说明的是，前述对语义表示模型的预训练方法实施例的解释说明也适用于本实施例中的语义表示模型的预训练装置，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的语义表示模型的预训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示图形用户界面（Graphical User Interface，简称GUI）的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统）。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的语义表示模型的预训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语义表示模型的预训练方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语义表示模型的预训练方法对应的程序指令/模块（例如，附图4所示的第一获取模块401、第二获取模块402、第一确定模块403和预训练模块404）。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语义表示模型的预训练方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语义表示模型的预训练的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至语义表示模型的预训练的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语义表示模型的预训练的方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与语义表示模型的预训练的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。该显示设备可以包括但不限于，液晶显示器（LCD）、发光二极管（LED）显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC（Application Specific Integrated Circuit，专用集成电路）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序（也称作程序、软件、软件应用、或者代码）包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置（例如，磁盘、光盘、存储器、可编程逻辑装置（PLD，Programmable Logic Device）），包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（Local Area Network，LAN）、广域网（Wide Area Network，WAN）、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"Virtual Private Server"，或简称 "VPS"）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本申请实施例的技术方案，在结合当前文本片段对语义表示模型进行预训练的过程中，针对语义表示模型中的每层编码层，可结合当前文本片段在对应下一层编码层输出的特征向量，以及上一个文本片段在比对应下一层编码层层级高的编码层上的特征向量，确定当前文本片段在对应编码层上的特征向量，直至获取当前文本片段在最后一层编码层上的语义向量，并结合当前文本片段的语义向量对语义表示模型进行预训练，由此，提出了一种对语义表示模型进行预训练的新方式，从而可使得所预训练出的语义表示模型准确从而可使得所预训练出的语义表示模型准确。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语义表示模型的预训练方法，包括：

针对语义表示模型中的第j层编码层，获取当前文本片段在第i层编码层上的第一特征向量，其中，j为小于或者等于M的正整数，所述i等于所述j减1，所述M为所述语义表示模型的编码层的总层数；

根据所述第i层编码层上，获取上一个文本片段在第k层编码层上的第二特征向量，其中，所述k为小于或者等于M的正整数，且所述k大于所述i；

根据所述第一特征向量和所述第二特征向量，确定所述当前文本片段在所述第j层编码层上的第三特征向量，重复上述步骤直至获得所述当前文本片段在第M层编码层上的语义向量；

根据所述语义向量，对所述语义表示模型进行预训练。

2.根据权利要求1所述的方法，其中，所述根据所述语义向量，对所述语义表示模型进行预训练，包括：

根据预设的解码网络，对所述语义向量进行文本片段预测，以得到与所述语义向量对应的预测文本片段；

根据所述当前文本片段和所述预测文本片段之间的差异信息，对各个编码层的参数以及所述解码网络的参数进行调整。

3.根据权利要求1所述的方法，其中，所述上一个文本片段的获取方式为：

获取所述当前文本片段所属于的样本文本；

获取与所述样本文本对应的文本片段序列；

根据所述当前文本片段，从所述文本片段序列中，获取与所述当前文本片段相邻的上一个文本片段。

4.根据权利要求3所述的方法，其中，所述获取与所述样本文本对应的文本片段序列，包括：

获取所述语义表示模型的长度阈值；

在所述样本文本的文本长度超过所述长度阈值的情况下，根据所述长度阈值，对所述样本文本进行分段，以得到所述样本文本的文本片段序列。

5.根据权利要求1-4任一项所述的方法，其中，所述语义表示模型包括记忆网络，所述根据所述第i层编码层上，获取上一个文本片段在第k层编码层上的第二特征向量，包括：

根据所述当前片段，从所述记忆网络中，获取与所述当前片段对应的上一个文本片段；

根据所述第i层编码层，确定对应的第k层编码层；

根据所述第k层编码层和所述上一个文本片段，从所述记忆网络中，获取所述上一个文本片段在第k层编码层上的第二特征向量。

6.根据权利要求5所述的方法，其中，所述根据所述第i层编码层，确定对应的第k层编码层，包括：

获取为所述语义表示模型所设置的层级差；

将所述层级差与所述第i层编码层对应的层级i进行相加，并根据相加结果，确定对应的第k层编码层。

7.一种语义表示模型的预训练装置，包括：

第一获取模块，用于针对语义表示模型中的第j层编码层，获取当前文本片段在第i层编码层上的第一特征向量，其中，j为小于或者等于M的正整数，所述i等于所述j减1，所述M为所述语义表示模型的编码层的总层数；

第二获取模块，用于根据所述第i层编码层上，获取上一个文本片段在第k层编码层上的第二特征向量，其中，所述k为小于或者等于M的正整数，且所述k大于所述i；

第一确定模块，用于根据所述第一特征向量和所述第二特征向量，确定所述当前文本片段在所述第j层编码层上的第三特征向量，重复上述步骤直至获得所述当前文本片段在第M层编码层上的语义向量；

预训练模块，用于根据所述语义向量，对所述语义表示模型进行预训练。

8.根据权利要求7所述的装置，其中，所述预训练模块，具体用于：

9.根据权利要求7所述的装置，其中，所述装置还包括：

第三获取模块，用于获取所述当前文本片段所属于的样本文本；

第四获取模块，用于获取与所述样本文本对应的文本片段序列；

第五获取模块，用于根据所述当前文本片段，从所述文本片段序列中，获取与所述当前文本片段相邻的上一个文本片段。

10.根据权利要求9所述的装置，其中，所述第四获取模块，具体用于：

获取所述语义表示模型的长度阈值；

11.根据权利要求7-10任一项所述的装置，其中，所述语义表示模型包括记忆网络，所述第二获取模块，包括：

第一获取单元，用于根据所述当前片段，从所述记忆网络中，获取与所述当前片段对应的上一个文本片段；

确定单元，用于根据所述第i层编码层，确定对应的第k层编码层；

第二获取单元，用于根据所述第k层编码层和所述上一个文本片段，从所述记忆网络中，获取所述上一个文本片段在第k层编码层上的第二特征向量。

12.根据权利要求11所述的装置，其中，所述确定单元，具体用于：

获取为所述语义表示模型所设置的层级差；

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。