CN113298083A

CN113298083A - 一种数据处理方法及装置

Info

Publication number: CN113298083A
Application number: CN202110212564.1A
Authority: CN
Inventors: 程文华; 吕倪祺; 游亮; 龙欣
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-08-24
Also published as: WO2022179424A1; US20240303970A1

Abstract

本申请提供了一种数据处理方法及装置。在本申请中，基于数据处理网络对输入数据处理，得到中间数据，获取注意力网络输出的固定的注意力特征，固定的注意力特征是至少使用初始化的注意力特征训练模型后得到的，初始化的注意力特征中的包括的各个注意力权重中不全相同，基于模型中的数据聚合网络、根据固定的注意力特征对中间数据处理，得到输出数据，固定的注意力网络之前不接任何输入，即注意力网络输出的注意力特征与输入数据无关。固定的注意力特征不仅能让模型中更重要的参数发挥更大的作用，提高模型准确度，并能定位出参数的重要性，也有利于模型进一步地压缩，另外也规避了某一些归一化层给传统注意力网络带来的输入特征相同的问题。

Description

一种数据处理方法及装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种数据处理方法及装置。

背景技术

随着技术的飞速发展，需要对图像、文本、视频以及音频等数据分类的需求越来越大，例如，针对图像而言，目前对图像分类的一种方式是提取图像的特征、建立分类空间、选择适当的分类模型，例如，CNN(Convolutional Neural Networks，卷积神经网络)等，基于图像的特征和分类空间对分类模型训练，然后基于训练后的分类模型对图像进行分类。

然而，在很多情况下，图像分类非常依赖图像的局部特征，例如，图像中的物体的局部特征等。但是，而现有的分类模型主要基于图像的全局特征对图像分类，导致分类准确度较低。

发明内容

为了至少提高分类准确度，本申请示出了一种数据处理方法及装置。

第一方面，本申请示出了一种数据处理方法，应用于模型，所述模型至少包括数据处理网络、注意力网络以及数据聚合网络，所述方法包括：

基于所述数据处理网络对输入数据处理，得到中间数据；

获取所述注意力网络输出的固定的注意力特征，所述固定的注意力特征是至少使用初始化的注意力特征训练所述模型后得到的，所述初始化的注意力特征中的包括的各个注意力权重中不全相同；

基于所述模型中的数据聚合网络、根据所述固定的注意力特征对所述中间数据处理，得到输出数据。

在一个可选的实现方式中，所述初始化的注意力特征包括一层注意力权重，所述一层注意力权重中的多个注意力权重不全相同；

或者，

所述初始化的注意力特征包括至少两层注意力权重，不同层的注意力权重不全相同。

在一个可选的实现方式中，所述方法还包括：

获取样本输入数据集，所述样本输入数据集中包括至少一个样本输入数据；

构建模型的网络结构，所述网络结构至少包括数据处理网络、注意力网络以及数据聚合网络，所述注意力网络用于输出注意力特征，其中，所述样本输入数据未向所述注意力网络输入；

使用所述样本数据集中的样本输入数据对所述模型中的网络参数进行训练，直至所述网络参数收敛，得到所述模型。

在一个可选的实现方式中，所述数据处理网络用于获取所述样本输入数据并对所述样本输入数据进行处理，得到样本中间数据；

所述注意力网络用于输出注意力特征，输出的注意力特征包括多个注意力权重；

所述数据聚合网络用于根据所述注意力网络输出的注意力特征对所述样本中间数据进行处理，得到样本输出结果。

在一个可选的实现方式中，所述模型的输入端包括所述数据处理网络的输入端；

所述数据处理网络的输出端与所述数据聚合网络的输入端连接；

所述注意力网络的输出端与所述数据聚合网络的输入端连接；

所述模型的输出端包括所述数据聚合网络的输出端。

在一个可选的实现方式中，所述方法还包括：

在开始对所述模型中的网络参数进行训练之后，根据所述注意力网络对所述数据处理网络中的通道进行删减。

在一个可选的实现方式中，所述根据所述注意力网络对所述数据处理网络中的通道进行删减，包括：

获取注意力网络中的各个通道的注意力权重；

根据所述注意力权重对所述数据处理网络中的通道进行删减。

在一个可选的实现方式中，所述根据所述注意力权重对所述数据处理网络中的通道进行删减，包括：

对于所述注意力网络中的任意一个通道，判断所述注意力网络中的所述通道的注意力权重是否小于预设删减通道阈值，在所述注意力网络中的所述通道的注意力权重小于预设删减通道阈值的情况下，删减所述注意力网络中的所述通道在所述数据处理网络中对应的通道。

在一个可选的实现方式中，所述方法还包括：

在所述注意力网络中的所述通道的注意力权重小于预设删减通道阈值的情况下，获取所述数据处理网络中剩余的通道的第一数量，以及获取所述注意力网络中的所述通道在所述数据处理网络中对应的通道的第二数量；

判断所述第一数量与所述第二数量之间的差值是否大于或等于预设最低通道阈值；

在所述差值大于或等于预设最低通道阈值的情况下，再执行所述删减所述注意力网络中的所述通道在所述数据处理网络中对应的通道的步骤。

第二方面，本申请示出了一种数据处理装置，应用于模型，所述模型至少包括数据处理网络、注意力网络以及数据聚合网络，所述装置包括：

第一处理模块，用于基于所述数据处理网络对输入数据处理，得到中间数据；

第一获取模块，用于获取所述注意力网络输出的固定的注意力特征，所述固定的注意力特征是至少使用初始化的注意力特征训练所述模型后得到的，所述初始化的注意力特征中的包括的各个注意力权重中不全相同；

第二处理模块，用于基于所述模型中的数据聚合网络、根据所述固定的注意力特征对所述中间数据处理，得到输出数据。

或者，

在一个可选的实现方式中，所述装置还包括：

第二获取模块，用于获取样本输入数据集，所述样本输入数据集中包括至少一个样本输入数据；

构建模块，用于构建模型的网络结构，所述网络结构至少包括数据处理网络、注意力网络以及数据聚合网络，所述注意力网络用于输出注意力特征，其中，所述样本输入数据未向所述注意力网络输入；

训练模块，用于使用所述样本数据集中的样本输入数据对所述模型中的网络参数进行训练，直至所述网络参数收敛，得到所述模型。

所述模型的输出端包括所述数据聚合网络的输出端。

在一个可选的实现方式中，所述装置还包括：

删减模块，用于在开始对所述模型中的网络参数进行训练之后，根据所述注意力网络对所述数据处理网络中的通道进行删减。

在一个可选的实现方式中，所述删减模块包括：

获取单元，用于获取注意力网络中的各个通道的注意力权重；

删减单元，用于根据所述注意力权重对所述数据处理网络中的通道进行删减。

在一个可选的实现方式中，所述删减单元包括：

第一判断子单元，用于对于所述注意力网络中的任意一个通道，判断所述注意力网络中的所述通道的注意力权重是否小于预设删减通道阈值；

删减子单元，用于在所述注意力网络中的所述通道的注意力权重小于预设删减通道阈值的情况下，删减所述注意力网络中的所述通道在所述数据处理网络中对应的通道。

在一个可选的实现方式中，所述删减单元还包括：

获取子单元，用于在所述注意力网络中的所述通道的注意力权重小于预设删减通道阈值的情况下，获取所述数据处理网络中剩余的通道的第一数量，以及获取所述注意力网络中的所述通道在所述数据处理网络中对应的通道的第二数量；

第二判断子单元，用于判断所述第一数量与所述第二数量之间的差值是否大于或等于预设最低通道阈值；

所述删减子单元还用于在所述差值大于或等于预设最低通道阈值的情况下，删减所述注意力网络中的所述通道在所述数据处理网络中对应的通道。

第三方面，本申请示出了一种电子设备，所述电子设备包括：

处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如第一方面所述的数据处理方法。

第四方面，本申请示出了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如第一方面所述的数据处理方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请中，模型至少包括数据处理网络、注意力网络以及数据聚合网络，基于数据处理网络对输入数据处理，得到中间数据，获取注意力网络输出的固定的注意力特征，固定的注意力特征是至少使用初始化的注意力特征训练模型后得到的，初始化的注意力特征中的包括的各个注意力权重中不全相同，基于模型中的数据聚合网络、根据固定的注意力特征对中间数据处理，得到输出数据，注意力网络输出的固定的注意力特征与输入数据无关。

在本申请中，在注意力网络之前可以不设置归一化网络，进而也就可以不使用归一化网络对输入数据中的各个局部特征进行归一化处理，进而也就不会出现归一化后的各个局部特征相同的情况，本申请中的注意力网络输出的固定的注意力特征与输入数据无关。

如此，在之前模型的过程中，注意力网络输出的初始化的注意力特征会反向地至少影响数据处理网络中的中的网络参数和/或数据聚合网络中的网络参数，且由于注意力网络输出的初始化的注意力特征初始化的注意力特征包括一层注意力权重，一层注意力权重中的多个注意力权重不全相同；或者，初始化的注意力特征包括至少两层注意力权重，不同层的注意力权重不全相同。因此，可以使得数据处理网络和/或数据聚合网络可以学习到各个通道的重要性，以提升训练出的模型的建模能力。

例如，可以使得训练出的模型能够得到输入数据中的各个的局部特征的重要性(价值)，如此使得模型根据输入数据中的各个局部特征的重要性(价值)可以提高对输入数据进行处理后得到的数据结果的准确度。

例如，在输入数据为图像的情况下，训练出的模型能够得到可以得到图像中的不同的通道对于图像分类的重要性(价值)，因此，结合固定的注意特征可以提高对图像的分类的准确度等。

附图说明

图1是本申请一示例性实施例示出的一种数据处理方法的流程示意图。

图2是本申请一示例性实施例示出的一种模型训练方法的流程示意图。

图3是本申请一示例性实施例示出的一种模型的结构示意图。

图4是本申请一示例性实施例示出的一种模型删减方法的流程示意图。

图5是本申请一示例性实施例示出的一种模型删减方法的流程示意图。

图6是本申请一示例性实施例示出的一种模型删减方法的流程示意图。

图7是本申请一示例性实施例示出的一种数据处理装置的结构框图。

图8是本申请一示例性实施例提供的装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

为了提高分类准确度，在一种方式中，可以在分类模型中引入注意力层，例如，向分类模型中的卷积层输入的输入特征(图像的特征)也可以输入给注意力层，注意力层根据输入特征获取注意力特征，并将注意力特征输入给卷积层，分类模型可以结合卷积层输出的特征以及注意力特征获取图像的分类。

在这种方式中，基于注意力层可以获取图像中的更多的局部特征，例如，注意力特征可以体现出图像中的不同的区域对于图像分类的重要性(价值)，以及图像中的不同的通道的对于图像分类的重要性(价值)，如此，将图像的局部特征和图像的全局特征结合可以得到图像的更多的特征，根据图像的更多的特征可以提高图像的分类准确度。

然而，在这种方式中，注意力特征是注意力层根据输入特征(图像的特征)得到的，也即，注意力层输出的注意力特征是与图像的特征强相关的。

但是在一些情况下，例如，在注意力层之前会设置一些归一化层，用于对输入特征中的不同的局部特征进行归一化(例如Instance Normalization等)，归一化后的输入特征中的不同的局部特征有时候可能是相同的，这对于注意力层而言，其面对各个相同的局部特征，是无法学习出局部特征对于图像分类的重要性(价值)的，如此，注意力层根据归一化后的输入特征输出的注意力特征中的各个注意力权重之间不存在差异。这样，就使得注意力层无法确定出图像中的不同的区域对于图像分类的重要性(价值)以及图像中的不同的通道的对于图像分类的重要性(价值)，进而注意力层输出的注意力特征就无法体现出图像中的不同的区域对于图像分类的重要性(价值)以及图像中的不同的通道的对于图像分类的重要性(价值)。

例如，假设输入数据为图像，需要使用分类模型对图像进行分类，图像的特征矩阵为三维矩阵，三维矩阵中包括多个二维矩阵，每一个二维矩阵对应不同的通道，例如，R(Red，红色)通道、G(Green，绿色)通道以及B(Blue)通道等，在注意力层对三维矩阵处理之前，对于三维矩阵中包括的任意一个二维矩阵，可以计算该二维矩阵中的各个数值的平均值，并使用平均值替换该二维矩阵中的各个数值，得到归一化后的该二维矩阵，对于三维矩阵中包括的其他每一个二维矩阵，同样执行上述操作，从而得到归一化后的每一个二维矩阵，然后注意力层再对归一化后的每一个二维矩阵组成的三维矩阵进行处理，得到注意力特征。

然而，有时候归一化后的不同二维矩阵中的数值(平均值)相同，这就会导致对于注意力层而言，其面对各个包括的数值相同的二维矩阵，是无法学习出各个通道对于图像分类的重要性(价值)的，如此，注意力层根据归一化后的每一个二维矩阵输出的注意力特征中的各个通道对应的注意力权重之间不存在差异。

这样，就使得注意力层无法确定出图像中的不同的通道的对于图像分类的重要性(价值)，进而注意力层输出的注意力特征就无法体现出图像中的不同的通道的对于图像分类的重要性(价值)。

可见，在这些情况下，注意力层对于图像的分类仍旧没有太大的贡献，导致图像的分类准确度仍旧较低。

因此，为了至少提高分类准确度，图1示出了本申请一种数据处理方法的流程示意图，该方法应用于电子设备中。

其中，电子设备可以包括前端设备或后端设备等，前端设备可以包括广大用户可直接操控的设备，例如手机、平板电脑、笔记本电脑、台式电脑、智能手表以及智能眼镜等，后端设备可以包括各种服务提供商可直接操控而用户不直接操控的设备，例如，后台服务器或云端等。

其中，该方法应用于模型，模型至少包括数据处理网络、注意力网络以及数据聚合网络，参见图1，该方法可以包括：

在步骤S101中，基于数据处理网络对输入数据处理，得到中间数据。

在本申请中，模型包括：CNN、RNN(Recurrent Neural Network，循环神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)等，当然，还可以包括其他结构的模型，本申请对此不加以限定，不再一一举例。

本申请中的模型可以用于识别图像中的目标物体、对图像进行分类、对文本进行语义识别、对语音进行语义识别以及在多个商品中根据用户的信息获取筛选用户感兴趣的商品等，当然，也可以用于其他可行的场景，本申请对此不加以限定，不再一一举例。

在本申请中，数据处理网络可以包括至少一个卷积层、至少一个池化层、至少一个激活函数以及至少一个全连接层等，也可以是数据处理网络包括至少一个卷积层、至少一个池化层、至少一个激活函数以及至少一个全连接层中的至少一者等。本申请对数据处理网络中包括的网络层的种类和数量不做限定，具体可以根据实际情况而定。

在本申请中，数据处理网络用于对输入数据进行计算，得到中间数据，具体计算方式可以由数据处理网络中包括的网络层来确定。

输入数据可以包括图像、视频、音频以及文本等等，具体可以根据实际应用场景而定，本申请对此不加以限定。

其中，卷积层可以通过卷积操作提取数据的不同特征，浅层的卷积层可以提取诸如边缘或线条等低级特征，深层的卷积层可以提取高级特征等。

池化层可以位于卷积层之后，用于对局部接受域进行池化操作以获取具有空间不变性的特征等。

全连接层一般位于卷积层、池化层以及激活函数之后，用于整合卷积层、池化层以及激活函数中具有类别区分性的特征。

当然，数据处理网络中还可以包括具有其他作用的网络层，本申请对此不加以限定，例如归一化网络(softmax)等，不再一一举例。

本申请中，事先可以训练模型，在将模型训练完毕之后，即可将模型部署在线上应用，在接收到线上的输入数据之后，就可以借助模型按照本申请的流程来对输入数据处理。

其中，模型的具体训练流程可以参见图2所示的实施例，在此不做详述。

在步骤S102中，获取注意力网络输出的固定的注意力特征，固定的注意力特征是至少使用初始化的注意力特征训练模型后得到的，初始化的注意力特征中的包括的各个注意力权重中不全相同。

在一种可能的情况下，固定的注意力特征包括一层注意力权重，该一层注意力权重中的多个注意力权重可以不全相同；该一层注意力权重中的不同的注意力权重分别用于处理输入数据的不同的局部特征。

或者，在另一种可能的情况下，固定的注意力特征的注意力特征包括至少两层注意力权重，不同层的注意力权重可以不全相同。不同层的注意力权重分别用于处理输入数据的不同的局部特征。

在本申请中，模型中至少包括数据处理网络、注意力网络以及特征聚合网络，当然，还可以根据实际需求在模型中设置其他网络，本申请对此不加以限定。

本申请以模型包括数据处理网络、注意力网络以及特征聚合网络为例进行举例说明，但不作为对本申请保护范围的限制。

在本申请中，注意力网络输出的注意力特征可以是固定的且与输入数据无关，或者说，注意力网络输出的注意力特征与模型当前需要处理的输入数据无关，也即，注意力网络输出的注意力特征不随模型需要处理的输入数据的变化而变化。

例如，在模型分别处理不同的输入数据的情况下，模型中的注意力网络输出的注意力特征都是固定的。

其中，模型中的注意力网络输出的注意力特征是在事先训练模型的过程中确定出的，例如，模型在事先在训练完毕之后，注意力网络可以输出的注意力特征即固定了，这样，在模型上线之后，注意力网络即可以输出固定的注意力特征。

在本申请另一实施例中，在模型上线之后，如果根据实际需求需要使用一些数据对模型更新，则在对模型更新完毕之后，模型中的注意力网络输出的注意力特征可能会发生变化，也即，与之前输出的注意力特征可能会不同，如果发生变化，则之后注意力网络每次在需要输出注意力特征时会输出变化后的注意力特征。

其中，本申请对步骤S101以及步骤S102之间的执行先后顺序不做限定，可以先执行步骤S101再执行步骤S102，或者，先执行步骤S102再执行步骤S101，或者，同时执行步骤S101以及步骤S102。

在步骤S103中，基于模型中的数据聚合网络、根据固定的注意力特征对中间数据处理，得到输出数据。

在本申请一个实施例中，数据聚合网络可以包括Scale函数，用于计算两个数据之间的乘积，例如，用于计算注意力网络输出的固定的注意力特征和数据处理网络输出的中间数据之间的乘积。

例如，在一个例子中，假设模型用于对图像分类，输入数据为图像，数据处理网络可以根据图像获取H*W*C结构(维度)的特征矩阵(三维矩阵)。

其中，H为图像的高度(图像中的一列包括的像素点的数量)，W为图像的宽度(图像中的一行包括的像素点的数量)，C为图像包括的颜色通道的数量。

数据处理网络对H*W*C结构(维度)的特征矩阵处理后，得到H*W*C结构的中间特征层数据，注意力网络输出1*1*C结构的注意力特征，在注意力特征的“C”维度上具有多个注意力权重，各个注意力权重分别对应相应特征层不同的通道，例如R(Red，红色)通道、G(Green，绿色)通道以及B(Blue，蓝色)通道等。

如此，在根据固定的注意力特征对中间数据处理时，使得可以在H*W*C结构的中间数据中的C个不同通道的H*W结构(维度)的二维矩阵中，侧重价值更大的通道的H*W的二维矩阵，也即，侧重对图像分类的重要性(价值)更高的通道的H*W的二维矩阵，从而可以提高分类精准度。

在本申请一个实施例中，参见图2，训练模型的流程包括：

在步骤S201中，获取样本输入数据集，样本输入数据集中包括至少一个样本输入数据。

样本输入数据可以包括：图像、视频、音频以及文本等等，具体可以根据实际应用场景而定，本申请对此不加以限定。

在一种可能的情况下，样本输入数据集还可以样本输入数据的标注数据，标注数据可以根据模型的实际应用而定。例如，假设模型用于识别图像中的目标物体，则样本输入数据可以为图像，且图像的标注数据为图像中的目标物体，再例如，假设模型用于对图像进行分类，则样本输入数据可以为图像，且图像的标注数据为图像的类别，又例如，假设模型用于在多个商品中根据用户的信息获取筛选用户感兴趣的商品等，则样本输入数据可以为用户的信息，且用户的信息的标注数据为用户感兴趣的商品。

在步骤S202中，构建模型的网络结构，网络结构至少包括数据处理网络、注意力网络以及数据聚合网络，注意力网络用于输出初始化的注意力特征，其中，样本输入数据未向注意力网络输入。

在本申请一个实施例中，模型的输入端包括数据处理网络的输入端。数据处理网络的输出端与数据聚合网络的输入端连接。注意力网络的输出端与数据聚合网络的输入端连接。模型的输出端包括数据聚合网络的输出端。

具体地，数据处理网络用于获取样本输入数据并对样本输入数据进行处理，得到样本中间数据。注意力网络用于输出初始化的注意力特征，初始化的注意力特征包括一层注意力权重，一层注意力权重中的多个注意力权重不全相同；或者，初始化的注意力特征包括至少两层注意力权重，不同层的注意力权重不全相同。数据聚合网络用于根据注意力网络输出的初始化的注意力特征对样本中间数据进行处理，得到样本输出结果。

其中，以一个例子对模型的网络结构进行举例说明，但不作为对本申请保护范围的限制。

例如，参见图3，模型包括数据处理网络、注意力网络、归一化网络、数据聚合网络、数据处理网络包括残差网络，残差网络中可以包括卷积层等，当然，可以包括其他网络层，本例子不再一一举例。

具体地，注意力网络的输出端连接归一化网络的输入端，归一化网络的输出端连接数据聚合网络的输入端，数据处理网络的输出端连接数据聚合网络的输入端，数据聚合网络的输出端连接全连接层的输入端，全连接层的输出端为模型的输出端，模型的输入端包括数据处理网络的输入端以及全连接层的输入端，也即，输入数据分别会输入数据处理网络以及全连接层。全连接层用于将输入数据以及数据聚合网络输出的数据叠加(例如将两个特征矩阵相加等)，得到输出结果。

归一化网络包括sigmoid函数等，其用于将注意力网络输出的注意力特征中的注意力权重归一化至特定的区间内，便于后续参与运算，特定的区间包括区间(0，1)等，本申请对具体的区间不做限定。

数据处理网络对H*W*C结构(维度)的特征矩阵处理后，得到H*W*C结构的中间数据，并将其输入给特征聚合网络。

注意力网络输出1*1*C结构的注意力特征，并将其输入给特征聚合网络。

其中，在注意力特征的“C”维度上具有多个注意力权重，各个注意力权重不全相同，各个注意力权重对应图像的不同的通道，例如R(Red，红色)通道、G(Green，绿色)通道以及B(Blue，蓝色)通道等。

数据聚合网络将H*W*C结构(维度)的特征矩阵与1*1*C结构的注意力特征相乘，得到H*W*C结构(维度)的特征矩阵，并将其输入给全连接层。

其中，输入数据也输入给了全连接层，因此，全连接层可以获取图像的原始的H*W*C结构(维度)的特征矩阵，并将其与数据聚合网络输出的H*W*C结构(维度)的特征矩阵叠加，得到H*W*C结构(维度)的输出数据。其中，叠加的方式可以为特征矩阵中的相同位置上的数据相加等。

在步骤S203中，使用样本数据集中的样本输入数据对模型中的网络参数进行训练，直至网络参数收敛，得到模型。

在模型的网络结构构建出之后，就可以根据样本输入数据集对模型中的网络参数进行训练。

在训练过程中，可以在模型输入样本输入数据，以使模型中的数据处理网络对样本输入数据处理，得到样本中间数据，并将其输入给数据聚合网络，然后模型中的注意力网络输出的初始化的注意力特征给归一化网络，归一化网络将注意力特征中的各个注意力权重归一化至特定的区间内，并将归一化后的注意力特征输入数据聚合网络，注意力网络输出的初始化的注意力特征与样本输入数据无关，其可以是开发人员人工设置的注意力特征等，之后模型中的数据聚合网络可以根据归一化后的注意力特征对样本中间数据处理，得到处理结果，并将处理结果输入至全连接层，样本输入数据也会输入至全连接层。全连接层可以将样本输入数据以及数据聚合网络输出的处理结果数据叠加(例如将两个特征矩阵相加等)，得到样本输出结果。

然后可以借助损失函数(例如交叉熵损失函数等)并基于样本输出数据(还可以借助样本输入数据的标注数据)优化模型中的网络参数，例如，优化数据处理网络中的各个网络层的网络参数，以及优化数据聚合网络中的网络参数，以及，优化注意力网络，以改变使得注意力网络之后可以输出的注意力特征，也即，注意力网络之后输出的注意力特征可能不是初始化的注意力特征，经过至少一轮训练之后，直至模型中的网络参数收敛，从而就可以完成训练，得到的模型即可上线使用。

在对网络参数优化时可以使用ADAM(Adaptive Moment Estimation，自适应矩估计)等梯度优化算法等，本申请对具体的优化算法不做限定。

如此，在训练模型的过程中，注意力网络输出的初始化的注意力特征会反向地至少影响数据处理网络中的中的网络参数和/或数据聚合网络中的网络参数，且由于注意力网络输出的初始化的注意力特征初始化的注意力特征包括一层注意力权重，一层注意力权重中的多个注意力权重不全相同；或者，初始化的注意力特征包括至少两层注意力权重，不同层的注意力权重不全相同。因此，可以使得数据处理网络和/或数据聚合网络可以学习到各个通道的重要性，以提升训练出的模型的建模能力。

在本申请中，模型中的数据处理网络中包括的一些网络层中具有多个通道，例如，卷积层中可以包括多个通道，全连接层中也可以包括多个通道等，不同的通道在对输入数据处理的过程所起到的作用不尽相同，例如，一些通道对输入数据处理的过程所起到的作用较大，例如，一些通道对提高输出数据的准确性的作用较大，而另一些通道对输入数据处理的过程所起到的作用较小，例如，另一些通道对提高输出数据的准确性的作用较小。

可见，在这种情况下，模型中的数据处理网络中参数较冗余，在电子设备中加载模型需要占据电子设备中较多的系统资源，且电子设备运行模型需要占用电子设备较多的计算资源，以及，由于模型中的数据处理网络中参数冗余且由于模型在处理数据时往往需要使用到全部的网络参数，因此会导致模型中的数据处理网络处理数据的效率较低。

因此，为了节省电子设备的系统资源和计算资源，以及提高模型中的数据处理网络处理数据的效率，在本申请另一实施例中，在开始对模型中的网络参数进行训练之后，可以对模型进行压缩。

例如，在开始对模型中的网络参数进行训练之后，可以根据注意力网络对数据处理网络中的通道进行删减。具体删减哪些通道可以参见之后所示的实施例。

具体地，在本申请一个实施例中，参见图4，根据注意力网络对数据处理网络中的通道进行删减的流程，包括：

在步骤S301中，获取注意力网络中的各个通道的注意力权重。

其中，在训练模型的过程中，对于每一轮训练，模型对样本输入数据处理得到样本输出数据，然后经由损失函数对样本输出数据以及样本输入数据进行对比处理，并将对比处理结果会反馈到注意力网络中，以优化注意力网络的注意力权重，经过多轮训练之后，注意力网络中的注意力权重会被不断优化，直至经过损失函数确定出模型中的网络参数收敛时训练完毕，此时注意力网络中的各个通道的注意力权重就已经确定，如此，可以直接从注意力网络中获取各个通道的注意力权重，例如，R通道的注意力权重，G通道的注意力权重以及B通道的注意力权重等。

在步骤S302中，根据注意力网络中的各个通道的注意力权重对数据处理网络中的通道进行删减。

例如，在本申请中，在开始对模型中的网络参数进行训练之后，可以实时或者周期性地检测模型中的网络参数是否收敛。

在模型中的网络参数收敛的情况下，则说明模型中的网络参数已经趋于稳定，之后模型中的网络参数可以不再优化，如此可以开始根据注意力网络对数据处理网络中的通道进行删减。

在模型中的网络参数未收敛的情况下，则说明模型中的网络参数未趋于稳定，之后还需要对模型中的网络参数进行优化，如此，可以先不根据注意力网络对数据处理网络中的通道进行删减，可以继续对模型训练，例如，继续优化模型中的网络参数，直至模型中的网络参数收敛，再开始根据注意力网络对数据处理网络中的通道进行删减。

如果是在训练模型的过程中根据注意力网络对数据处理网络中的通道进行删减，则由于训练模型的过程中模型中的网络参数还未趋于稳定，例如，注意力网络中的注意力权重还未趋于稳定等，则可能会出现将数据处理网络中本不应该删除的通道删除的情况，这就出现了错误删除的情况，会给模型带来损失。

而在本申请实施例中，在模型训练完毕之后再对模型中的数据处理网络中的通道进行删减，可以提高对通道删减的准确度，以避免给模型带来损失。

通过本申请实施例，通过注意力网络实现对模型中的数据处理网络中的通道进行删减，以精简模型中的数据处理网络中的通道，由于通道中包括至少一个网络参数，如此，减少了模型中的数据处理网络中的网络参数，这样，减少了在电子设备中加载模型需要占据电子设备中的系统资源，且减少了电子设备运行模型需要占用电子设备的计算资源，以及，会提高模型中的处理数据网络处理数据的效率。

在本申请的一个实施例中，对于注意力网络中的任意一个通道，可以按照如下图5的方式来根据注意力网络中的该通道对应的注意力权重对数据处理网络中的通道进行删减。对于注意力网络中的其他每一个通道，同样如此。

例如，可以从注意力网络中的多个通道中选择一个通道，然后按照如下图5的方式来根据注意力网络中的该一个通道的注意力权重对数据处理网络中的通道进行删减，然后在注意力网络中的多个通道中选择另一个通道，按照如下图5的方式来根据注意力网络中的另一个通道的注意力权重对数据处理网络中的通道进行删减，以此类推，直至对注意力网络中的每一个通道均执行上述操作为止。

其中，在每一轮从注意力网络中的多个通道中选择一个通道时，可以将注意力网络中的多个通道按照各自的注意力权重由低至高的顺序排序，并按照排序的顺序选择通道，例如，第一次选择注意力权重最低的通道，第二次选择注意力权重次低的通道，依次类推。

其中，参见图5，在步骤S302中，对于注意力网络中的任意一个通道，可以执行如下流程，对于注意力网络中的其他每一个通道，同样如此。

具体流程包括：

在步骤S401中，判断该通道的注意力权重是否小于预设删减通道阈值。

在本申请中，可以事先设置预设删减通道阈值，例如，假设注意力权重的范围位于区间(0，1)中，则可以设置预设删减通道阈值为区间(0，1)中的一个数值，例如，0.05、0.1或0.15等，具体可以根据实际情况而定，本申请对此不加以限定。

在一个实施例中，模型中的数据处理网络中可以具有多个通道，模型中的注意力网络中可以具有多个通道，注意力网络中的每一个通道都在数据处理网络上对应至少一个通道，且注意力网络中的不同的通道在数据处理网络上对应的通道可以不重合。

在一个例子中，数据处理网络中的通道的数量与注意力网络中的通道的数量相同，则数据处理网络中的通道与注意力网络中的通道之间一一对应。

在该通道的注意力权重小于预设删减通道阈值的情况下，在步骤S402中，删减该通道在数据处理网络中对应的通道。

本实施例中，通过参考注意力网络中的各个通道的注意力权重与预设删减通道阈值之间的大小，来对模型中的数据处理网络中的通道进行删减，可以避免删除模型中的数据处理网络中的重要的通道，提高了删除的准确度，实现了对模型的精准压缩。

然而，如果对模型中的数据处理网络中的过多的通道进行删减，则可能会导致模型中的通道损失过多而影响模型的性能。

因此，为了避免模型中的通道损失过多而影响模型的性能，在本申请一个实施例中，可以对注意力权重最低的一个或多个通道在数据处理网络中对应的通道进行删减，以避免对模型中的数据处理网络中过多的通道进行删减，进而避免模型中的数据处理网络中通道损失过多而影响模型的性能，因此可以将预设删减通道阈值可以设置的较小等。

或者，在本申请另一实施例中，在图5所示的实施例的基础之上，在本申请又一实施例中，参见图6，该方法还包括：

在该通道的注意力权重小于预设删减通道阈值的情况下，在步骤S501中，获取数据处理网络中剩余的通道的第一数量，以及获取该通道在数据处理网络中对应的通道的第二数量。

在步骤S502中，判断第一数量与第二数量之间的差值是否大于或等于预设最低通道阈值。

在本申请一个实施例中，在构建模型的网络结构时可以确定模型中的数据处理网络中包括的通道的数量，在模型中的数据处理网络中包括的通道的数量确定之后，可以设置预设最低通道阈值，预设最低通道阈值小于模型中的数据处理网络中包括的通道的数量。

例如，可以人工根据经验设置预设最低通道阈值，在一个例子中，假设如模型中的数据处理网络中包括的通道的数量为128，则可以设置预设最低通道阈值小于128，例如可以为125、120、115或110等，具体可以根据实际情况而定，本申请对此不加以限定。

在该差值大于或等于预设最低通道阈值的情况下，再执行步骤S402：删减该通道在数据处理网络中对应的通道。

在该差值小于预设最低通道阈值的情况下，则可以不执行步骤S402，可以结束删减流程。

在本申请中，通过第一数量与第二数量之间的差值是否大于或等于预设最低通道阈值来决定是否需要进行通道的删减，并在该差值小于预设最低通道阈值的情况下时不再删减，也即，当前的通道的数量已经达到最低时不再删减，从而可以避免对模型中的数据处理网络中的过多的通道进行删减，进而可以避免模型中的数据处理网络中的通道损失过多而影响模型的性能。

参照图7，示出了本申请一种数据处理装置的实施例的结构框图，应用于模型，所述模型至少包括数据处理网络、注意力网络以及数据聚合网络，所述装置具体可以包括如下模块：

第一处理模块11，用于基于所述数据处理网络对输入数据处理，得到中间数据；

第一获取模块12，用于获取所述注意力网络输出的固定的注意力特征，所述固定的注意力特征是至少使用初始化的注意力特征训练所述模型后得到的，所述初始化的注意力特征中的包括的各个注意力权重中不全相同；

第二处理模块13，用于基于所述模型中的数据聚合网络、根据所述固定的注意力特征对所述中间数据处理，得到输出数据。

或者，

在一个可选的实现方式中，所述装置还包括：

所述模型的输出端包括所述数据聚合网络的输出端。

在一个可选的实现方式中，所述装置还包括：

在一个可选的实现方式中，所述删减模块包括：

在一个可选的实现方式中，所述删减单元包括：

在一个可选的实现方式中，所述删减单元还包括：

处理器；和

与现有技术相比，本申请实施例包括以下优点：

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括服务器、网关、子设备等，子设备为物联网设备等设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括服务器(集群)、终端设备如IoT设备等电子设备。

图8示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1300。

对于一个实施例，图8示出了示例性装置1300，该装置具有一个或多个处理器1302、被耦合到(一个或多个)处理器1302中的至少一个的控制模块(芯片组)1304、被耦合到控制模块1304的存储器1306、被耦合到控制模块1304的非易失性存储器(NVM)/存储设备1308、被耦合到控制模块1304的一个或多个输入/输出设备1310，和被耦合到控制模块1306的网络接口1312。

处理器1302可包括一个或多个单核或多核处理器，处理器1302可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置1300能够作为本申请实施例中所述网关等服务器设备。

在一些实施例中，装置1300可包括具有指令1314的一个或多个计算机可读介质(例如，存储器1306或NVM/存储设备1308)和与该一个或多个计算机可读介质相合并被配置为执行指令1314以实现模块从而执行本公开中所述的动作的一个或多个处理器1302。

对于一个实施例，控制模块1304可包括任意适当的接口控制器，以向(一个或多个)处理器1302中的至少一个和/或与控制模块1304通信的任意适当的设备或组件提供任意适当的接口。

控制模块1304可包括存储器控制器模块，以向存储器1306提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器1306可被用于例如为装置1300加载和存储数据和/或指令1314。对于一个实施例，存储器1306可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器1306可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块1304可包括一个或多个输入/输出控制器，以向NVM/存储设备1308及(一个或多个)输入/输出设备1310提供接口。

例如，NVM/存储设备1308可被用于存储数据和/或指令1314。NVM/存储设备1308可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备1308可包括在物理上作为装置1300被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备1308可通过网络经由(一个或多个)输入/输出设备1310进行访问。

(一个或多个)输入/输出设备1310可为装置1300提供接口以与任意其他适当的设备通信，输入/输出设备1310可以包括通信组件、拼音组件、传感器组件等。网络接口1312可为装置1300提供接口以通过一个或多个网络通信，装置1300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，装置1300可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置1300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置1300包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

本申请实施例提供了一种电子设备，包括：一个或多个处理器；和，其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行如本申请中一个或多个所述的数据处理方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、和流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例和落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种数据处理方法及装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据处理方法，应用于模型，所述模型至少包括数据处理网络、注意力网络以及数据聚合网络，所述方法包括：

基于所述数据处理网络对输入数据处理，得到中间数据；

2.根据权利要求1所述的方法，所述初始化的注意力特征包括一层注意力权重，所述一层注意力权重中的多个注意力权重不全相同；

或者，

3.根据权利要求1所述的方法，所述方法还包括：

4.根据权利要求3所述的方法，所述数据处理网络用于获取所述样本输入数据并对所述样本输入数据进行处理，得到样本中间数据；

5.根据权利要求3或4所述的方法，所述模型的输入端包括所述数据处理网络的输入端；

所述模型的输出端包括所述数据聚合网络的输出端。

6.根据权利要求3所述的方法，所述方法还包括：

7.根据权利要求6所述的方法，所述根据所述注意力网络对所述数据处理网络中的通道进行删减，包括：

获取注意力网络中的各个通道的注意力权重；

8.根据权利要求7所述的方法，所述根据所述注意力权重对所述数据处理网络中的通道进行删减，包括：

9.根据权利要求8所述的方法，所述方法还包括：

10.一种数据处理装置，应用于模型，所述模型至少包括数据处理网络、注意力网络以及数据聚合网络，所述装置包括：

11.根据权利要求10所述的装置，所述初始化的注意力特征包括一层注意力权重，所述一层注意力权重中的多个注意力权重不全相同；

或者，

12.根据权利要求10所述的装置，所述装置还包括：

13.根据权利要求12所述的装置，所述数据处理网络用于获取所述样本输入数据并对所述样本输入数据进行处理，得到样本中间数据；

14.根据权利要求12或13所述的装置，所述模型的输入端包括所述数据处理网络的输入端；

所述模型的输出端包括所述数据聚合网络的输出端。

15.根据权利要求12所述的装置，所述装置还包括：

16.根据权利要求15所述的装置，所述删减模块包括：

17.根据权利要求16所述的装置，所述删减单元包括：

18.根据权利要求17所述的装置，所述删减单元还包括：

19.一种电子设备，所述电子设备包括：

处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-9中一个或多个所述的数据处理方法。

20.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-9中一个或多个所述的数据处理方法。