CN114707591A

CN114707591A - 数据处理方法和数据处理模型的训练方法、装置

Info

Publication number: CN114707591A
Application number: CN202210316513.8A
Authority: CN
Inventors: 尉德利
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-07-05
Anticipated expiration: 2042-03-28
Also published as: CN114707591B

Abstract

本公开提供了一种数据处理方法和数据处理模型的训练方法和装置，涉及人工智能领域，具体涉及深度学习、图像处理和计算机视觉技术领域，可应用于人脸识别等场景。数据处理方法的具体实现方案为：采用数据处理模型包括的第一映射层对基于待处理数据得到的输入数据进行处理，得到第一值特征；采用数据处理模型包括的第一自注意力层对第一值特征进行加权处理，得到第一注意力特征；以及至少基于第一注意力特征，采用数据处理模型包括的预测层得到针对待处理数据的预测数据，其中，第一自注意力层采用可学习的自注意力矩阵对第一值特征进行加权处理。

Description

数据处理方法和数据处理模型的训练方法、装置

技术领域

本公开涉及人工智能领域，具体涉及计算机视觉、图像处理和计算机视觉技术领域，可应用于人脸识别等场景下。

背景技术

随着计算机技术和网络技术的发展，深度学习技术在众多领域得到了广泛应用。例如，可以采用深度学习技术提取多媒体数据的特征，以对多媒体数据进行分类或内容理解等。特征提取精度的提高通常会导致深度学习模型的计算复杂度增加。

发明内容

本公开旨在提供一种数据处理方法和数据处理模型的训练方法、装置、电子设备、存储介质，以在保证处理精度的同时，降低数据处理的复杂度。

根据本公开的一个方面，提供了一种数据处理方法，包括：采用数据处理模型包括的第一映射层对基于待处理数据得到的输入数据进行处理，得到第一值特征；采用数据处理模型包括的第一自注意力层对第一值特征进行加权处理，得到第一注意力特征；以及至少基于第一注意力特征，采用数据处理模型包括的预测层得到针对待处理数据的预测数据，其中，第一自注意力层采用可学习的自注意力矩阵对第一值特征进行加权处理。

根据本公开的另一个方面，提供了一种数据处理模型的训练方法，其中，数据处理模型包括第一映射层和第一自注意力层；该方法包括：采用第一映射层对基于待处理数据得到的第一输入数据进行处理，得到第一值特征；采用第一自注意力层对第一值特征进行加权处理，得到第一注意力特征；采用教师模型包括的第二映射层对基于待处理数据得到的第二输入数据进行处理，得到第一查询特征、第一键特征和第二值特征；根据第一查询特征和第一键特征，采用教师模型包括的第二自注意力层对第二值特征进行加权处理，得到第二注意力特征；以及至少根据第一注意力特征和第二注意力特征，对数据处理模型进行训练，其中，第一自注意力层采用可学习的自注意力矩阵对第一值特征进行加权处理。

根据本公开的一个方面，提供了一种数据处理装置，包括：第一映射模块，用于采用数据处理模型包括的第一映射层对基于待处理数据得到的输入数据进行处理，得到第一值特征；第一注意力模块，用于采用数据处理模型包括的第一自注意力层对第一值特征进行加权处理，得到第一注意力特征；以及预测模块，用于至少基于第一注意力特征，采用数据处理模型包括的预测层得到针对待处理数据的预测数据，其中，第一自注意力层采用可学习的自注意力矩阵对第一值特征进行处理。

根据本公开的一个方面，提供了一种数据处理模型的训练装置，其中，数据处理模型包括第一映射层和第一自注意力层；该装置包括：第一映射模块，用于采用第一映射层对基于待处理数据得到的第一输入数据进行处理，得到第一值特征；第一注意力模块，用于采用第一自注意力层对第一值特征进行加权处理，得到第一注意力特征；第二映射模块，用于采用教师模型包括的第二映射层对基于待处理数据得到的第二输入数据进行处理，得到第一查询特征、第一键特征和第二值特征；第二注意力模块，用于根据第一查询特征和第一键特征，采用教师模型包括的第二自注意力层对第二值特征进行加权处理，得到第二注意力特征；以及模型训练模块，用于至少根据第一注意力特征和第二注意力特征，对数据处理模型进行训练，其中，第一自注意力层采用可学习的自注意力矩阵对第一值特征进行加权处理。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的数据处理方法和/或数据处理模型的训练方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的数据处理方法和/或数据处理模型的训练方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现本公开提供的数据处理方法和/或数据处理模型的训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的数据处理方法和数据处理模型的训练方法、装置的应用场景示意图；

图2是根据本公开实施例的数据处理方法的流程示意图；

图3是根据本公开实施例的数据处理模型中编码器的结构示意图；

图4是根据本公开实施例的数据处理模型的训练方法的流程示意图；

图5是根据本公开实施例的数据处理模型的训练方法的原理示意图；

图6是根据本公开实施例的数据处理装置的结构框图；

图7是根据本公开实施例的数据处理模型的训练装置的结构框图；以及

图8是用来实施本公开实施例的数据处理方法和/或数据处理模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种数据处理方法，包括值特征提取阶段、注意力特征获得阶段和预测阶段。在值特征提取阶段中，采用数据处理模型包括的第一映射层对基于待处理数据得到的输入数据进行处理，得到第一值特征。在注意力特征获得阶段中，采用数据处理模型包括的第一自注意力层对第一值特征进行加权处理，得到第一注意力特征。其中，第一自注意力层采用可学习的自注意力矩阵对第一值特征进行加权处理。在预测阶段中，至少基于第一注意力特征，采用数据处理模型包括的预测层得到针对待处理数据的预测数据。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的数据处理方法和数据处理模型的训练方法、装置的应用场景示意图。

如图1所示，该实施例的应用场景100可以包括电子设备110，该电子设备110可以为具有处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。

该电子设备110例如可以对输入的多媒体数据120进行处理，得到处理结果130。例如，多媒体数据120可以为图像，对多媒体数据120的处理可以包括对图像进行目标检测、图像分割或图像分类等。相应地，处理结果130可以包括预测得到的目标位置、预测得到的掩膜图像或预测得到的图像类别等预测数据。例如，多媒体数据120可以为文本，对多媒体数据120的处理可以包括对文本进行文本分类、文本翻译等。相应地，处理结果130可以包括预测得到的文本类别或预测得到的翻译文本等预测数据。

在一实施例中，电子设备110可以采用数据处理模型140来对多媒体数据120进行处理。其中，数据处理模型140可以与多媒体数据120的类型相匹配。例如，若多媒体数据120为图像，则数据处理模型可以包括目标检测模型、语义分割模型或图像分类模型等。若多媒体数据120为文本，则数据处理模型可以包括文本翻译模型或文本分类模型等。可以理解的是，该数据处理模型可以为采用自注意力机制构建的模型。例如，在多媒体数据为图像时，数据处理模型可以包括视觉(Vision)Transformer模型。在多媒体数据为文本时，数据处理模型可以包括预训练的语言表征模型(Bidirectional Encoder Representation fromTransformer，BERT)等。

在一实施例中，数据处理模型140例如可以由服务器150训练得到。电子设备110可以通过网络与服务器150通信连接，以向服务器150发送模型获取请求。相应地，服务器150可以响应于该请求将训练好的数据处理模型140发送给电子设备110。

在一实施例中，电子设备110还可以将输入的多媒体数据120发送给服务器150，由服务器150对该多媒体数据120进行处理，从而得到处理结果。

需要说明的是，本公开提供的数据处理方法可以由电子设备110执行，也可以由服务器150执行。相应地，本公开提供的数据处理装置可以设置在电子设备110中，也可以设置在服务器150中。本公开提供的数据处理模型的训练方法可以由服务器150执行。相应地，本公开提供的数据处理模型的训练装置可以设置在服务器150中。

应该理解，图1中的电子设备110、多媒体数据120和服务器150的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的电子设备110、多媒体数据120和服务器150。

以下将结合图1，通过以下图2～图3对本公开提供的数据处理方法进行详细描述。

图2是根据本公开实施例的数据处理方法的流程示意图。

如图2所示，该实施例的数据处理方法200可以包括操作S210～操作S230。

在操作S210，采用数据处理模型包括的第一映射层对基于待处理数据得到的输入数据进行处理，得到第一值特征。

在操作S220，采用数据处理模型包括的第一自注意力层对第一值特征进行加权处理，得到第一注意力特征。

根据本公开的实施例，待处理数据可以为前文描述的任意类型的多媒体数据。数据处理模型可以为基于自注意力机制构建的任意模型，该数据处理模型的类型与多媒体数据的类型相匹配。

例如，数据处理模型中可以包括Transformer结构，该Transformer结构中包括编码部分和解码部分。其中，编码部分可以由多层的编码器组成，解码部分可以由多层的解码器组成。每个编码器和/或每个解码器可以包括第一网络。该第一网络至少包括有第一映射层和第一自注意力层。其中，第一映射层用于对输入数据进行处理，得到第一值特征。

可以理解的是，编码部分中，第一层编码器中第一映射层的输入数据为待处理数据的嵌入特征，第一层编码器之后的编码器所包括的第一映射层的输入数据为前一层编码器输出的特征。类似地，解码部分中，第一层解码器中第一映射层的输入数据包括多层的编码器中最后一层编码器的输出特征和已解码得到的数据的嵌入特征，第一层解码器之后的解码器所包括的第一映射层的输入数据为前一层解码器输出的特征和最后一层编码器的输出特征。

可以理解的是，数据处理模型还可以仅包括Transformer结构的编码器，或者仅包括Transformer结构的解码器，本公开对此不做限定。在数据处理模型中仅包括Transformer结构的解码器时，该解码器的输入数据包括数据处理模型包括的除Transformer结构的编码器外任意类型的编码器所输出的编码特征。

对于数据处理模型中的每个第一网络，该每个第一网络中第一自注意力层的输入为该每个第一网络中第一映射层输出的第一值特征。该每个第一网络中第一自注意力层用于采用可学习的自注意力矩阵对第一值特征进行处理。具体地，可以采用该可学习的自注意力矩阵对输入的第一值特征进行加权处理。例如，可以由该每个第一网络所属的编码器或解码器输出第一注意力特征。

在操作S230，至少基于第一注意力特征，采用数据处理模型包括的预测层得到针对待处理数据的预测数据。

根据本公开的实施例，数据处理模型可以包括在Transformer结构之后设置的逻辑回归层，该逻辑回归层可以作为预测层。该实施例可以将Transformer结构输出的特征作为该预测层的输入，由该预测层输出预测数据。可以理解的是，该预测数据与数据处理模型对待处理数据执行的处理操作相匹配。

例如，若数据处理模型用于对待处理数据进行分类，则该预测数据包括待处理数据属于多个预定类别中每个类别的概率值所构成的概率向量。若数据处理模型用于对图像进行目标检测，则该预测数据包括目标对象的包围框信息和目标对象的类别概率向量。其中，包围框信息可以包括目标对象的包围框在图像中的位置信息，类别概率向量即为图像中的目标对象属于多个预定类别中每个类别的概率值所构成的概率向量。例如，若数据处理模型用于对文本进行翻译，则该预测数据包括翻译文本的嵌入特征等。

本公开实施例中的第一网络通过设置采用可学习的自注意力矩阵对第一值特征进行处理的第一自注意力层，可以使得第一网络中的第一映射层仅需对输入的数据进行一次映射得到第一值特征；而无需映射得到键特征和查询特征。相应地，第一自注意力层也无需对键特征和查询特征进行运算从而得到自注意力矩阵。因此，可以降低包括第一网络的数据处理模型的计算复杂度，降低对数据处理所依赖的硬件设备的性能要求，利于提高数据处理效率和数据处理方法的推广。

以下将结合图3，对本公开提供的数据处理模型中编码部分的编码层进行详细描述，以更好地理解数据处理模型中第一网络的工作原理。可以理解的是，解码部分的解码层的工作原理与该编码层的工作原理类似，在此不再详述。

图3是根据本公开实施例的编码层的结构示意图。

根据本公开的实施例，如图3所示，在该实施例300中，每个编码层中包括的第一网络310可以包括第一映射层311和第一自注意力层312。

其中，第一映射层311用于对输入该编码层的输入数据301进行映射转换，从而得到第一值特征。具体地，该第一映射层311中设置有可学习的矩阵参数，该实施例可以将该矩阵参数与输入数据301点乘，从而得到第一值特征。例如，第一值特征可以采用以下公式(1)计算得到：

V_1＝f_inputW_v1。公式(1)

其中，V_1为第一值特征，f_input为输入数据301，W_v1为第一映射层311中的可学习的参数矩阵。

其中，第一自注意力层312例如可以包括依次连接的注意力层(Attention)3121、第一求和&归一化层(Add&Norm)3122、前向反馈层(Feed Forward)3123和第二求和&归一化层(Add&Norm)3124。其中，注意力层3121设置有可学习的自注意力矩阵，用于采用该可学习的自注意力矩阵对输入的第一值特征进行加权处理，第一求和&归一化层3122的输入包括注意力层3121输出的加权后特征和输入数据301，用于对输入数据进行求和及归一化处理。前向反馈层3123的输入为第一求和&归一化层3122的输出特征，第二求和&归一化层3124的输入为前向反馈层3123的输出特征和第一求和&归一化层3122的输入特征，用于对输入的两个特征求和并进行归一化处理。可以理解的是，该第一自注意力层312与Transformer结构中采用的常规自注意力层的区别在于注意力层3121的输入仅包括值特征，且该注意力层3121设置有可学习的自注意力矩阵。

在一实施例中，可以采用多头自注意力机制来提取待处理数据的特征。即，该实施例中的每个编码层可以设置多个第一网络310。以扩展编码层专注于输入数据中不同位置处数据的能力。

在一实施例中，多头自注意力机制可以采用第一网络与Transformer结构中采用的常规自注意力模块相结合的机制。相应地，该实施例中，数据处理模型还包括有第二网络，该第二网络即为Transformer结构中采用的常规自注意力模块。如图3所示，第二网络320可以包括第二映射层和第二自注意力层322。

其中，采用第二映射层对输入数据301进行处理，可以得到查询特征Q、键特征K和第二值特征V_2。将该查询特征Q、键特征K和第二值特征V_2输入第二自注意力层322，该第二自注意力层322根据查询特征Q和键特征K对第二值特征V_2进行加权处理后，可以输出第二注意力特征。

其中，第二映射层实质上可以为三个映射层321_1～321_3构成的结构。该三个映射层321_1～321_3分别用于对输入数据301进行处理，以分别得到查询特征Q、键特征K和第二值特征V_2。具体地，该三个映射层321_1～321_3可以分别设置有可学习的参数矩阵。例如，映射层3211可以采用以下公式(2)计算得到查询特征Q，映射层321_2可以采用以下公式(3)计算得到键特征K，映射层321_3可以采用以下公式(4)计算得到第二值特征V_2：

Q＝f_inputW_Q；公式(2)

K＝f_inputW_K；公式(3)

V_2＝f_inputW_V2。公式(4)

其中，f_input为输入数据301，W_O、W_K、W_V2分别为映射层321_1、映射层321_2和映射层321_3中的可学习的参数矩阵。

其中，第二自注意力层322例如可以采用以下公式(5)计算得到自注意力矩阵，并根据该自注意力矩阵对第二值特征V_2进行加权处理。

其中，C为查询特征或键特征的通道数，weigh为自注意力矩阵。采用自注意力矩阵对第二值特征V_2进行加权处理后，可以经由与第一求和&归一化层3122、前向反馈层3123和第二求和&归一化层3124所执行的操作类似的操作，得到第二注意力特征。

在一实施例中，每个编码层可以包括第一预定数量的第一网络310和第二预定数量的第二网络320，从而得到第一预定数量的第一注意力特征和第二预定数量的第二注意力特征。在得到第一注意力特征和第二注意力特征后，该每个编码层还可以对该第一注意力特征和第二注意力特征进行融合，得到融合后特征。具体地，如图3所示，每个编码层还可以调用concat()函数对得到的所有第一注意力特征和第二注意力特征进行拼接，随后采用映射层330对拼接得到的特征进行处理，从而得到该每个编码层输出的编码特征。如此，在得到待处理数据的预测数据时，可以将该编码特征作为融合后特征，并基于该融合后特征，采用预测层得到预测数据。具体地，该编码特征可以经由解码器处理后，将解码器的输出特征作为预测层的输入，由预测层输出预测数据。

可以理解的是，在待处理数据为图像时，该实施例中的数据处理模型可以与Vision Transformer模型类似，区别在于，该实施例中的数据处理模型中编码器或解码器采用的自注意机制是通过第一网络或第一网络与第二网络相结合的方式实现的，而VisionTransformer模型中编码器或解码器采用的自注意力机制是通过第二网络来实现的。

为了便于数据处理方法的实施，本公开还提供了一种数据处理模型的训练方法，以下将结合图4～图5对本公开提供的数据处理模型的训练方法进行详细描述。

图4是根据本公开实施例的数据处理模型的训练方法的流程示意图。

如图4所示，该实施例的数据处理模型的训练方法400可以包括操作S410～操作S450。其中，数据处理模型包括前述的第一网络，第一网络包括第一映射层和第一自注意力层。

在操作S410，采用第一映射层对基于待处理数据得到的第一输入数据进行处理，得到第一值特征。

在操作S420，采用第一自注意力层对第一值特征进行加权处理，得到第一注意力特征。

可以理解的是，操作S410与前文描述的操作S210类似，操作S420与前文描述的操作S220类似，在此不再赘述。

在操作S430，采用教师模型包括的第二映射层对基于待处理数据得到的第二输入数据进行处理，得到第一查询特征、第一键特征和第二值特征。

根据本公开的实施例，教师模型与数据处理模型的结构类似，区别在于，教师模型中的自注意力机制是采用前文描述的第二网络实现的。即，教师模型包括前述的第二映射层和第二自注意力层。例如，在待处理数据为图像时，该教师模型可以为VisionTransformer模型等。在待处理数据为文本时，教师模型可以为Bert模型等。该操作S430与操作S410类似，区别在于第一映射层可以仅采用上述公式(1)得到第一值特征，而第二映射层需要采用上述公式(2)～(4)得到第一查询特征、第一键特征和第二值特征。

需要说明的是，若操作S410中的第一映射层为数据处理模型中编码部分的第一个编码器所包括的映射层，操作S420中的第二映射层为教师模型中编码部分的第一个编码器所包括的映射层，则第一输入数据和第二输入数据均为待处理数据的嵌入特征，即第一输入数据与第二输入数据为相同的数据。但若第一映射层为数据处理模型中第一个编码器之后的编码器所包括的映射层，第二映射层为教师模型中第一个编码器之后的编码器所包括的映射层，则第一输入数据和第二输入数据为不同的数据。再者，操作S410中的第一映射层在数据处理模型中的设置位置可以与操作S430中的第二映射层在教师模型中的设置位置相同。

在操作S440，根据第一查询特征和第一键特征，采用教师模型包括的第二自注意力层对第二值特征进行加权处理，得到第二注意力特征。

根据本公开的实施例，操作S440与操作S420类似，区别在于第一自注意力层仅需采用可学习的自注意力矩阵对第一值特征进行加权，而第二自注意力层需要先采用上述公式(5)对第一查询特征和第一键特征进行运算，从而得到自注意力矩阵，随后再采用自注意力矩阵对第二值特征进行加权。

需要说明的是，操作S440中的第二自注意力层和操作S430中的第二映射层属于同一个第二网络。操作S440中的第二自注意力层在教师模型中的位置与操作S420中的第一自注意力层在数据处理模型中的位置相同。

在操作S450，至少根据第一注意力特征和第二注意力特征，对数据处理模型进行训练。

根据本公开的实施例，该实施例可以根据第一注意力特征和第二注意力特征之间的差异，先确定数据处理模型的损失值。随后通过最小化损失值，采用反向传播算法来调整数据处理模型中的网络参数，从而实现对数据处理模型的训练。其中，第一注意力特征和第二注意力特征之间的差异可以采用两个特征之间的KL散度(Kullback-Leiblerdivergence)或均方误差(Mean-Square Error)等来表示，并将该KL散度或MSE的取值作为数据处理模型的损失值。

本公开实施例通过采用教师模型输出的注意力特征作为监督信号，来训练数据处理模型，可以提高数据处理模型的精度，使得数据处理模型中第一自注意力层所采用的可学习的自注意力矩阵可以学习到教师模型所学习到的知识。如此，可以使得训练得到的数据处理模型能够在降低计算复杂度的同时，具有较高的处理精度。

在一实施例中，可以采用多头自注意力机制来提取待处理数据的特征。例如，与前文描述的实施例300类似，该实施例中数据处理模型中的编码层可以设置多个第一网络，或者该编码层可以采用第一网络与第二网络相结合的自注意力机制。以扩展编码层专注于输入数据中不同位置处数据的能力。类似地，数据处理模型中的解码层也可以设置多个第一网络，或者采用第一网络与第二网络相结合的自注意力机制。

例如，以编码层采用第一网络与第二网络相结合的自注意力机制为例，该实施例在对数据处理模型进行训练时，还可以采用数据处理模型中第二网络包括的第三映射层对前述的第一输入数据进行处理，得到第二查询特征、第二键特征和第三值特征。随后，根据第二查询特征和第二键特征，采用数据处理模型中第二网络包括的第三自注意力层对第三值特征进行加权处理，得到第三注意力特征。相应地，该实施例中，教师模型中的编码层可以设置有多个第二网络。例如，该教师模型中每个编码层包括的第二网络的总个数为第一个数，学生模型中与该教师模型中每个编码层位于相同位置的编码层所包括的第一网络与第二网络的总个数为第二个数，且该第一个数与第二个数相等。在该实施例中，教师模型包括的第二自注意力层的总个数与数据处理模型中包括的第一自注意力层和第三自注意力层的总个数可以相等，即教师模型中包括的第二网络的总个数与数据处理模型中包括的第一网络和第二网络的总个数相等。

如此，该实施例在对数据处理模型进行训练时，可以先融合数据处理模型中编码层得到的所有第一注意力特征和所有第三注意力特征，得到第一融合特征。同时，融合教师模型中编码层得到的所有第二注意力特征，得到第二融合特征。最后，根据第一融合特征与第二融合特征之间的差异，对数据处理模型进行训练。其中，第一融合特征与第二融合特征之间的差异可以采用KL散度或MSE的取值来表示。通过最小化第一融合特征与第二融合特征之间的差异，来训练数据处理模型。

可以理解的是，在待处理数据为文本时，该实施例还可以对待处理文本进行预处理，使得作为待处理数据的文本具有预定长度。这是由于若直接采用第一自注意力层对待处理文本进行处理，则由于待处理的多个文本通常不等长，则无法确定第一自注意力层所采用的可学习的自注意力矩阵的尺寸，无法学习到较高精度的自注意力矩阵。而通过将作为待处理数据的文本设置为预定长度，可以使得该第一自注意力层能够在对文本进行处理的数据处理模型中适用。其中，预定长度与可学习的自注意力矩阵的尺寸相关联。例如，对于该预定长度的文本，第二网络采用上述的公式(5)所得到的自注意力矩阵的尺寸应小于该可学习的自注意力矩阵的尺寸。

图5是根据本公开实施例的数据处理模型的训练方法的原理示意图。

如图5所示，以数据处理模型510包括编码部分、解码部分和第一预测层513为例，设定编码部分包括堆叠的N个第一编码层511，每个第一编码层包括多个第一网络，且解码部分包括堆叠的M个第一解码层，每个第一解码层512包括多个第一网络。该实施例500中，可以将待处理数据输入堆叠的N个第一编码层511中位于第一层的第一编码层中，经由N个第一编码层511和M个第一解码层512依次处理后，可以得到第一注意力特征。类似地，教师模型520包括编码部分、解码部分和第二预测层523，教师模型520的编码部分包括堆叠的N个第二编码层521，每个第二编码层包括多个第二网络，且教师模型520中的解码部分包括堆叠的M个第二解码层522，每个第二解码层522包括多个第二网络。将待处理数据输入堆叠的N个第二编码层521中位于第一层的第一编码层中，经由N个第二编码层521和M个第二解码层522依次处理后，可以得到第二注意力特征。其中，第一预测层513与第二预测层523的结构相同，区别仅在于学习得到的网络参数可能不同。

随后，在得到第一注意力特征后，可以将第一注意力特征输入第一预测层513，由第一预测层513输出针对待处理数据的第一预测数据。类似地，在得到第二注意力特征后，可以将第二注意力特征输入第二预测层523中，由第二预测层523输出针对待处理数据的第二预测数据。

在得到第一预测数据和第二预测数据后，该实施例可以根据该第一预测数据和第二预测数据之间的差异，来对数据处理模型510进行训练。通过该方式，可以使得完成训练的数据处理模型510能够学习到教师模型的数据处理能力，完成基于教师模型对学生模型的自蒸馏训练，便于提高完成训练的数据处理模型510的精度和泛化性。例如，可以根据该第一预测数据和第二预测数据之间的差异，确定自蒸馏训练的蒸馏损失值L_distill 531。随后通过最小化蒸馏损失值531，来调整数据处理模型的网络参数。其中，第一预测数据和第二预测数据之间的差异例如可以采用KL散度或者MSE来表示。例如，设定第一预测数据为y，第二预测数据为y’，则蒸馏损失值L_distill 531可以采用以下公式(6)计算得到：

L_distill＝KL(y||y′)。公式(6)

在一实施例中，在确定蒸馏损失值L_distill 531时，除了考虑第一预测数据和第二预测数据之间的差异外，还可以考虑第一注意力特征与第二注意力特征之间的差异。以此，可以更为全面的体现蒸馏损失，便于使得数据处理模型510更为精准地学习教师模型的数据处理能力。例如，上述公式(6)得到的蒸馏损失值531还可以由两部分KL散度的加权和来表示。两部分KL散度分别为第一注意力特征与第二注意力特征之间的KL散度和第一预测数据和第二预测数据之间的KL散度。

在一实施例中，在训练数据处理模型510时，待处理数据501可以为样本数据，该待处理数据501可以具有指示真值数据502的标签。其中，该真值数据与数据处理模型510得到的第一预测数据相关联。例如，若第一预测数据为类别概率向量，则真值数据可以为待处理数据的真实类别。若第一预测数据为包围框的位置信息，则真值数据为目标对象的真实包围框的坐标信息。若第一预测数据为翻译文本的嵌入特征，真值数据为待处理数据的真实翻译文本。可以理解的是，上述真值数据仅作为示例以利于理解本公开，本公开对此不做限定。

基于此，该实施例还可以根据第一预测数据与真值数据502之间的差异，来确定数据处理模型510的任务损失值L_task 532。通过最小化该任务损失值L_task 532，来对数据处理模型510进行训练。如此，可以使得训练得到的数据处理模型510执行数据处理任务的精度更高。其中，例如可以采用交叉熵损失函数来确定任务损失值L_task 532，设定第一预测数据为y，真值数据为y^t，该实施例可以采用以下公式(7)来计算任务损失值L_task 532：

L_task＝CrossEntropy(y，y^t)。公式(7)

在一实施例中，还可以综合考虑任务损失值L_task 532和蒸馏损失值L_distill 531，来对数据处理模型510进行训练。例如，该实施例可以将任务损失值L_task 532和蒸馏损失值L_distill 531的加权和作为数据处理模型510的总损失值，通过最小化该总损失值来对数据处理模型510进行训练。

可以理解的是，上述第一编码层511和第一解码层512均包括多个第一网络仅作为示例以利于理解本公开，例如，可以仅第一编码层包括多个第一网络，如此，前述第一注意力特征为数据处理模型中的编码部分输出的特征，第二注意力特征为教师模型中的编码部分输出的特征。

可以理解的是，根据第一预测数据的不同，任务损失可以采用不同的损失函数。例如，若第一预测数据包括目标对象的包围框的位置信息，则可以采用MSE、L1损失函数等表计算任务损失值532。

基于本公开提供的数据处理方法，本公开还提供了一种数据处理装置。以下将结合图6对该装置进行详细描述。

图6是根据本公开实施例的数据处理装置的结构框图。

如图6所示，该实施例的数据处理装置600可以包括第一映射模块610、第一注意力模块620和预测模块630。

第一映射模块610用于采用数据处理模型包括的第一映射层对基于待处理数据得到的输入数据进行处理，得到第一值特征。在一实施例中，第一映射模块610可以用于执行前文描述的操作S210，在此不再赘述。

第一注意力模块620用于采用数据处理模型包括的第一自注意力层对第一值特征进行加权处理，得到第一注意力特征。其中，第一自注意力层采用可学习的自注意力矩阵对第一值特征进行加权处理。在一实施例中，第一注意力模块620可以用于执行前文描述的操作S220，在此不再赘述。

预测模块630用于至少基于第一注意力特征，采用数据处理模型包括的预测层得到针对待处理数据的预测数据。在一实施例中，预测模块630可以用于执行前文描述的操作S230，在此不再赘述。

根据本公开的实施例，数据处理模型还包括第二映射层和第二自注意力层。上述数据处理装置600还可以包括第二映射模块和第二注意力模块。第二映射模块用于采用第二映射层对输入数据进行处理，得到查询特征、键特征和第二值特征。第二注意力模块用于根据查询特征和键特征，采用第二自注意力层对第二值特征进行加权处理，得到第二注意力特征。上述预测模块630可以包括融合子模块和预测子模块。融合子模块用于融合第一注意力特征和第二注意力特征，得到融合后特征。预测子模块用于基于融合后特征，采用预测层得到预测数据。

基于本公开提供的数据处理模型的训练方法，本公开还提供了一种数据处理模型的训练装置，以下将结合图7对该装置进行详细描述。

图7是根据本公开实施例的数据处理模型的训练装置的结构框图。

如图7所示，该实施例的数据处理模型的训练装置700可以包括第一映射模块710、第一注意力模块720、第二映射模块730、第二注意力模块740和模型训练模块750。其中，数据处理模型包括第一映射层和第一自注意力层。

第一映射模块710用于采用第一映射层对基于待处理数据得到的第一输入数据进行处理，得到第一值特征。在一实施例中，第一映射模块710可以用于执行前文描述的操作S410，在此不再赘述。

第一注意力模块720用于采用第一自注意力层对第一值特征进行加权处理，得到第一注意力特征。其中，第一自注意力层采用可学习的自注意力矩阵对第一值特征进行处理。在一实施例中，第一注意力模块720可以用于执行前文描述的操作S420，在此不再赘述。

第二映射模块730用于采用教师模型包括的第二映射层对基于待处理数据得到的第二输入数据进行处理，得到第一查询特征、第一键特征和第二值特征。在一实施例中，第二映射模块730可以用于执行前文描述的操作S430，在此不再赘述。

第二注意力模块740用于根据第一查询特征和第一键特征，采用教师模型包括的第二自注意力层对第二值特征进行加权处理，得到第二注意力特征。在一实施例中，第二注意力模块740可以用于执行前文描述的操作S440，在此不再赘述。

模型训练模块750用于至少根据第一注意力特征和第二注意力特征，对数据处理模型进行训练。在一实施例中，模型训练模块750可以用于执行前文描述的操作S450，在此不再赘述。

根据本公开的实施例，数据处理模型还包括第一预测层；教师模型还包括第二预测层。上述模型训练模块750可以包括第一预测子模块、第二预测子模块和第一训练子模块。第一预测子模块用于至少基于第一注意力特征，采用第一预测层得到针对待处理数据的第一预测数据。第二预测子模块用于基于第二注意力特征，采用第二预测层得到针对待处理数据的第二预测数据。第一训练子模块用于根据第一预测数据与第二预测数据之间的差异，对数据处理模型进行训练。其中，针对数据处理模型，除第一映射层和第一自注意力层外的其他结构与教师模型中除第二映射层和第二自注意力层外的其他结构相同。

根据本公开的实施例，待处理数据具有指示真值数据的标签。上述模型训练模块750还用于根据第一预测数据与真值数据之间的差异，对数据处理模型进行训练。

根据本公开的实施例，数据处理模型还包括第三映射层和第三自注意力层；教师模型包括多个第二自注意力层。数据处理模型包括的第一自注意力层与第三自注意力层的总个数与教师模型包括的多个第二自注意力层的个数相等。上述数据处理模型的训练装置700还可以包括第三映射模块和第三注意力模块。第三映射模块用于采用第三映射层对第一输入数据进行处理，得到第二查询特征、第二键特征和第三值特征。第三注意力模块用于根据第二查询特征和第二键特征，采用第三自注意力层对第三值特征进行加权处理，得到第三注意力特征。其中，上述模型训练模块750可以包括第一融合子模块、第二融合子模块和第二训练子模块。第一融合子模块用于融合第一注意力特征和第三注意力特征，得到第一融合特征。第二融合子模块用于融合多个第二自注意力层得到的多个第二注意力特征，得到第二融合特征。第二训练子模块用于根据第一融合特征与第二融合特征之间的差异，对数据处理模型进行训练。

根据本公开的实施例，上述模型训练模块750用于根据第一注意力特征与第二注意力特征之间的差异，对数据处理模型进行训练。

根据本公开的实施例，上述数据处理模型的训练装置700还可以包括预处理模块，用于对待处理文本进行预处理，得到预定长度的文本，作为待处理数据。其中，预定长度与可学习的自注意力矩阵的尺寸相关联。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开实施例的数据处理方法和/或数据处理模型的训练方法的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如数据处理方法和/或数据处理模型的训练方法。例如，在一些实施例中，数据处理方法和/或数据处理模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的数据处理方法和/或数据处理模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据处理方法和/或数据处理模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据处理方法，包括：

采用数据处理模型包括的第一映射层对基于待处理数据得到的输入数据进行处理，得到第一值特征；

采用所述数据处理模型包括的第一自注意力层对所述第一值特征进行加权处理，得到第一注意力特征；以及

至少基于所述第一注意力特征，采用所述数据处理模型包括的预测层得到针对所述待处理数据的预测数据，

其中，所述第一自注意力层采用可学习的自注意力矩阵对所述第一值特征进行加权处理。

2.根据权利要求1所述的方法，其中，所述数据处理模型还包括第二映射层和第二自注意力层；所述方法还包括：

采用所述第二映射层对所述输入数据进行处理，得到查询特征、键特征和第二值特征；以及

根据所述查询特征和所述键特征，采用所述第二自注意力层对所述第二值特征进行加权处理，得到第二注意力特征；

其中，所述至少基于所述第一注意力特征，采用所述数据处理模型包括的预测层得到针对所述待处理数据的预测数据包括：

融合所述第一注意力特征和所述第二注意力特征，得到融合后特征；以及

基于所述融合后特征，采用所述预测层得到所述预测数据。

3.一种数据处理模型的训练方法，其中，所述数据处理模型包括第一映射层和第一自注意力层；所述方法包括：

采用所述第一映射层对基于待处理数据得到的第一输入数据进行处理，得到第一值特征；

采用所述第一自注意力层对所述第一值特征进行加权处理，得到第一注意力特征；

采用教师模型包括的第二映射层对基于所述待处理数据得到的第二输入数据进行处理，得到第一查询特征、第一键特征和第二值特征；

根据所述第一查询特征和所述第一键特征，采用所述教师模型包括的第二自注意力层对所述第二值特征进行加权处理，得到第二注意力特征；以及

至少根据所述第一注意力特征和所述第二注意力特征，对所述数据处理模型进行训练，

4.根据权利要求3所述的方法，其中，所述数据处理模型还包括第一预测层；所述教师模型还包括第二预测层；所述根据所述第一注意力特征和所述第二注意力特征，对所述数据处理模型进行训练包括：

至少基于所述第一注意力特征，采用所述第一预测层得到针对所述待处理数据的第一预测数据；

基于所述第二注意力特征，采用所述第二预测层得到针对所述待处理数据的第二预测数据；以及

根据所述第一预测数据与所述第二预测数据之间的差异，对所述数据处理模型进行训练，

其中，针对所述数据处理模型，除所述第一映射层和所述第一自注意力层外的其他结构与所述教师模型中除所述第二映射层和所述第二自注意力层外的其他结构相同。

5.根据权利要求4所述的方法，其中，所述待处理数据具有指示真值数据的标签；所述方法还包括：

根据所述第一预测数据与所述真值数据之间的差异，对所述数据处理模型进行训练。

6.根据权利要求3所述的方法，其中，所述数据处理模型还包括第三映射层和第三自注意力层；所述教师模型包括多个所述第二自注意力层；所述数据处理模型包括的所述第一自注意力层及所述第三自注意力层的总个数与所述教师模型包括的多个所述第二自注意力层的个数相等；所述方法还包括：

采用所述第三映射层对所述第一输入数据进行处理，得到第二查询特征、第二键特征和第三值特征；以及

根据所述第二查询特征和所述第二键特征，采用所述第三自注意力层对所述第三值特征进行加权处理，得到第三注意力特征；

其中，所述至少根据所述第一注意力特征和所述第二注意力特征，对所述数据处理模型进行训练包括：

融合所述第一注意力特征和所述第三注意力特征，得到第一融合特征；

融合采用多个所述第二自注意力层得到的多个所述第二注意力特征，得到第二融合特征；以及

根据所述第一融合特征与所述第二融合特征之间的差异，对所述数据处理模型进行训练。

7.根据权利要求3～6中任一项所述的方法，其中，所述至少根据所述第一注意力特征和所述第二注意力特征，对所述数据处理模型进行训练包括：

根据所述第一注意力特征与所述第二注意力特征之间的差异，对所述数据处理模型进行训练。

8.根据权利要求3所述的方法，还包括：

对待处理文本进行预处理，得到预定长度的文本，作为所述待处理数据，

其中，所述预定长度与所述可学习的自注意力矩阵的尺寸相关联。

9.一种数据处理装置，包括：

第一映射模块，用于采用数据处理模型包括的第一映射层对基于待处理数据得到的输入数据进行处理，得到第一值特征；

第一注意力模块，用于采用所述数据处理模型包括的第一自注意力层对所述第一值特征进行加权处理，得到第一注意力特征；以及

预测模块，用于至少基于所述第一注意力特征，采用所述数据处理模型包括的预测层得到针对所述待处理数据的预测数据，

10.根据权利要求9所述的装置，其中，所述数据处理模型还包括第二映射层和第二自注意力层；所述装置还包括：

第二映射模块，用于采用所述第二映射层对所述输入数据进行处理，得到查询特征、键特征和第二值特征；以及

第二注意力模块，用于根据所述查询特征和所述键特征，采用所述第二自注意力层对所述第二值特征进行加权处理，得到第二注意力特征；

其中，所述预测模块包括：

融合子模块，用于融合所述第一注意力特征和所述第二注意力特征，得到融合后特征；以及

预测子模块，用于基于所述融合后特征，采用所述预测层得到所述预测数据。

11.一种数据处理模型的训练装置，其中，所述数据处理模型包括第一映射层和第一自注意力层；所述装置包括：

第一映射模块，用于采用所述第一映射层对基于待处理数据得到的第一输入数据进行处理，得到第一值特征；

第一注意力模块，用于采用所述第一自注意力层对所述第一值特征进行加权处理，得到第一注意力特征；

第二映射模块，用于采用教师模型包括的第二映射层对基于所述待处理数据得到的第二输入数据进行处理，得到第一查询特征、第一键特征和第二值特征；

第二注意力模块，用于根据所述第一查询特征和所述第一键特征，采用所述教师模型包括的第二自注意力层对所述第二值特征进行加权处理，得到第二注意力特征；以及

模型训练模块，用于至少根据所述第一注意力特征和所述第二注意力特征，对所述数据处理模型进行训练，

12.根据权利要求11所述的装置，其中，所述数据处理模型还包括第一预测层；所述教师模型还包括第二预测层；所述模型训练模块包括：

第一预测子模块，用于至少基于所述第一注意力特征，采用所述第一预测层得到针对所述待处理数据的第一预测数据；

第二预测子模块，用于基于所述第二注意力特征，采用所述第二预测层得到针对所述待处理数据的第二预测数据；以及

第一训练子模块，用于根据所述第一预测数据与所述第二预测数据之间的差异，对所述数据处理模型进行训练，

13.根据权利要求12所述的装置，其中，所述待处理数据具有指示真值数据的标签；所述模型训练模块还用于：

14.根据权利要求11所述的装置，其中，所述数据处理模型还包括所述第三映射层和第三自注意力层；所述教师模型包括多个所述第二自注意力层；所述数据处理模型包括的所述第一自注意力层及所述第三自注意力层的总个数与所述教师模型包括的多个所述第二自注意力层的个数相等；所述装置还包括：

第三映射模块，用于采用所述第三映射层对所述第一输入数据进行处理，得到第二查询特征、第二键特征和第三值特征；以及

第三注意力模块，用于根据所述第二查询特征和所述第二键特征，采用所述第三自注意力层对所述第三值特征进行加权处理，得到第三注意力特征；

其中，所述模型训练模块包括：

第一融合子模块，用于融合所述第一注意力特征和所述第三注意力特征，得到第一融合特征；

第二融合子模块，用于融合采用多个所述第二自注意力层得到的多个所述第二注意力特征，得到第二融合特征；以及

第二训练子模块，用于根据所述第一融合特征与所述第二融合特征之间的差异，对所述数据处理模型进行训练。

15.根据权利要求11～13中任一项所述的装置，其中，所述模型训练模块用于：

16.根据权利要求11所述的装置，还包括：

预处理模块，用于对待处理文本进行预处理，得到预定长度的文本，作为所述待处理数据，

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现根据权利要求1～8中任一项所述方法的步骤。