CN115759226A

CN115759226A - 一种视觉网络模型的训练方法、装置、设备及存储介质

Info

Publication number: CN115759226A
Application number: CN202211367603.6A
Authority: CN
Inventors: 聂学成; 李伯男; 许清泉; 刘洛麒
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-03-07

Abstract

本申请提供一种视觉网络模型的训练方法、装置、设备及存储介质，涉及图像处理技术领域。若检测到视觉网络模型接收到输入的一个训练实例，则随机对视觉网络模型中多个自注意力神经网络层中的特征检测器进行禁用处理，得到处理后的视觉网络模型；其中，一个训练实例为具有预设图像处理任务的标签的样本图像；根据一个训练实例，对处理后的视觉网络模型进行训练，得到目标视觉网络模型，目标视觉网络模型用于对待处理图像执行预设图像处理任务。从而，通过对随机禁用处理，有效地抑制了图像处理局部过拟合等情况，提高了视觉网络模型的性能，扩展视觉网络模型的通用性。

Description

一种视觉网络模型的训练方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种视觉网络模型的训练方法、装置、设备及存储介质。

背景技术

视觉Transformer(ViT)在各种视觉任务中，如图像识别、目标检测、人体姿态估计等方面取得了巨大的成功。现有技术中，主要集中在特征块划分、架构设计和任务扩展方面的研究，然而，如何有效提高自注意力层机制的鲁棒性却被忽视了，特别的基于随机禁用的技术。

与卷积神经网络(CNN)不同，视觉Transformer中的随机禁用直接利用了为自然语言处理所设计的原始Transformer中的禁用技术包，该技术将注意力权重设置为操作单元，所有层的禁用概率都保持不变。尽管这种设计非常简单，但这种普通的设计面临一些问题。首先，在softmax归一化后，由于对非禁用单元进行平均操作，它打破了注意力权重的概率分布，但由于无法有效地惩罚峰值分数，因此它仍然在过度拟合局部特定模式。第二，这种技术对恒定的禁用概率非常敏感，因为高禁用概率会导致高级表征中语义信息的缺失，而低禁用概率会导致低级特征的过拟合。由此，降低了视觉Transformer的性能，限制了视觉Transformer的通用性。

发明内容

本发明的目的在于，针对上述现有技术中的不足，本申请提供了一种睡眠意图检测方法、装置、设备及存储介质，以解决现有技术中视觉网络模型性能差、通用性低等问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供一种视觉网络模型的训练方法，所述视觉网络模型包括：依次连接的多个自注意力神经网络层；每个自注意力神经网络层由多个特征检测器组成；所述方法包括：

若检测到所述视觉网络模型接收到输入的一个训练实例，则随机对所述视觉网络模型中所述多个自注意力神经网络层中的特征检测器进行禁用处理，得到处理后的视觉网络模型；其中，所述一个训练实例为具有预设图像处理任务的标签的样本图像；

根据所述一个训练实例，对所述处理后的视觉网络模型进行训练，得到目标视觉网络模型，所述目标视觉网络模型用于对待处理图像执行预设图像处理任务。

可选地，所述随机对所述视觉网络模型中所述多个自注意力神经网络层中的特征检测器进行禁用处理，得到处理后的视觉网络模型，包括：

根据随机数，确定所述多个自注意力神经网络层的禁用概率；

根据每个自注意力神经网络层的禁用概率，对所述每个自注意力神经网络层中的特征检测器进行禁用处理，得到所述处理后的视觉网络模型。

可选地，所述根据每个自注意力神经网络层的禁用概率，对所述每个自注意力神经网络层中的特征检测器进行禁用处理，得到所述处理后的视觉网络模型，包括：

根据所述每个自注意力神经网络层的禁用概率，对所述每个自注意力神经网络层中各个特征检测器的键值进行调整，以指示所述各个特征检测器是否被禁用。

可选地，所述根据所述一个训练实例，对所述处理后的视觉网络模型进行训练，得到目标视觉网络模型之前，所述方法还包括：

根据所述每个自注意力神经网络层的禁用概率，确定所述每个自注意力神经网络层中各特征检测器的禁用系数；

根据所述每个自注意力神经网络层中各特征检测器的禁用系数、查询向量、键值向量和权值向量，计算所述每个自注意力神经网络层的自注意力参数；

所述根据所述一个训练实例，对所述处理后的视觉网络模型进行训练，得到目标视觉网络模型，包括：

根据所述一个训练实例，采用所述多个自注意力神经网络层的自注意力参数，对所述处理后的视觉网络模型进行训练，得到所述目标视觉网络模型。

可选地，所述根据所述一个训练实例，采用所述多个自注意力神经网络层的自注意力参数，对所述处理后的视觉网络模型进行训练，得到所述目标视觉网络模型，包括：

根据预设的平滑系数，对所述多个自注意力神经网络层的自注意力参数进行平滑处理；

根据所述一个训练实例，采用平滑处理后的自注意力参数，对所述处理后的视觉网络模型进行训练，得到所述目标视觉网络模型。

可选地，所述根据所述每个自注意力神经网络层中各特征检测器的禁用系数、查询向量、键值向量和权值向量，计算所述每个自注意力神经网络层的自注意力参数，包括：

根据所述每个自注意力神经网络层中各特征检测器的查询向量和键值向量，计算所述每个自注意力神经网络层中各特征检测器的自注意力权重；

根据所述每个自注意力神经网络层中各特征检测器的自注意力权重和权值向量，计算所述每个自注意力神经网络层的自注意力参数。

可选地，所述根据预设的平滑系数，对所述多个自注意力神经网络层的自注意力参数进行平滑处理之前，所述方法还包括：

根据所述每个自注意力神经网络层中各特征检测器的禁用系数和自注意力权重，计算所述平滑系数。

第二方面，本申请实施例提供一种视觉网络模型的训练装置，所述视觉网络模型包括：依次连接的多个自注意力神经网络层；每个自注意力神经网络层由多个特征检测器组成；所述装置包括：

禁用模块，用于若检测到所述视觉网络模型接收到输入的一个训练实例，则随机对所述视觉网络模型中所述多个自注意力神经网络层中的特征检测器进行禁用处理，得到处理后的视觉网络模型；其中，所述一个训练实例为具有预设图像处理任务的标签的样本图像；

训练模块，用于根据所述一个训练实例，对所述处理后的视觉网络模型进行训练，得到目标视觉网络模型，所述目标视觉网络模型用于对待处理图像执行预设图像处理任务。

第三方面，本申请实施例提供一种电子设备，包括：处理器、存储介质，所述处理器与所述存储介质之间通过总线通信连接，所述存储介质存储有所述处理器可执行的程序指令，所述处理器调用存储介质中存储的程序，以执行如第一方面任一所述的视觉网络模型的训练方法的步骤。

第四方面，本申请实施例提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面任一所述的视觉网络模型的训练方法的步骤。

相对于现有技术而言，本申请具有以下有益效果：

本申请提供一种视觉网络模型的训练方法、装置、设备及存储介质，若检测到视觉网络模型接收到输入的一个训练实例，则随机对视觉网络模型中多个自注意力神经网络层中的特征检测器进行禁用处理，得到处理后的视觉网络模型；其中，一个训练实例为具有预设图像处理任务的标签的样本图像；根据一个训练实例，对处理后的视觉网络模型进行训练，得到目标视觉网络模型，目标视觉网络模型用于对待处理图像执行预设图像处理任务。从而，通过对随机禁用处理，有效地抑制了图像处理局部过拟合等情况，提高了视觉网络模型的性能，扩展视觉网络模型的通用性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请提供的一种视觉网络模型的训练方法的流程示意图；

图2为本申请提供的一种对视觉网络模型进行随机禁用处理的方法的流程示意图；

图3为本申请提供的一种计算自注意力参数的方法的流程示意图；

图4为本申请提供的一种引入平滑系数的视觉网络模型训练方法的流程示意图；

图5为本申请提供的另一种计算自注意力参数的方法的流程示意图；

图6为本申请提供的一种视觉网络模型的训练装置的示意图；

图7为本申请提供的一种电子设备的示意图。

图标：禁用模块601、训练模块602、处理器701、存储介质702。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

为提高视觉网络模型的性能，扩展视觉网络模型的通用性，本申请提供了一种视觉网络模型的训练方法、装置、设备及存储介质。

如下通过具体示例对本申请中的视觉网络模型进行解释说明。视觉网络模型包括：依次连接的多个自注意力神经网络层；每个自注意力神经网络层由多个特征检测器组成。

示例地，视觉网络模型可以为Transformer(变换器)模型，Transformer模型是一种基于神经网络模型并采用自注意力机制的深度学习模型，这一机制可以按输入数据各部分重要性的不同而分配不同的权重。进而，视觉网络模型包括：输入层、多个自注意力神经网络层、输出层。视觉网络模型在图像处理阶段，先将图像切分为多个图像块(例如，切分为四等份、九等份)，将图像块作为一个训练实例输入至视觉网络模型中，输入层将图像块的特征拆分为多个特征块，将特征块传输至多个自注意力神经网络层进行处理，并将处理后的多个特征块合至输出层并输出最终的处理结果。

每个自注意力神经网络层由多个特征检测器组成。每层之间的特征检测器相互连接，可以将层i特征检测器的输出作为输入提供给层i+1的一个或多个特征检测器。多层中的每一层的一个特征检测做成一个特征检测器子集，该特征检测器子集表征了子集内多个特征检测器处理特征块的处理链路。

示例地，特征检测器由多个神经元组成，每个特征检测器可视为模型中的一个处理节点，每个特征检测器的处理能力与其内部的每个神经元的激活函数、权重相关。

示例地，每个特征检测器都具有相应的查询向量、键值向量和权值向量，查询向量、键值向量和权值向量是特征检测器的输入向量在不同维度或不同空间上的表征特征。查询向量、键值向量和权值向量共同作用，可以得到特征检测器的输出。可以理解的是，根据查询向量、键值向量可以计算得到特征检测器权重，再根据权重和权值向量得到特征检测器的输入向量。

在训练阶段，视觉网络训练学习每个特征检测器的最佳权重，然后可以将最佳权重配置于视觉网络模型，应用于测试数据。视觉网络模型应用于包括图像分类、对象识别和语音识别等。

如下通过具体示例对本申请提供的一种视觉网络模型的训练方法进行解释说明。图1为本申请提供的一种视觉网络模型的训练方法的流程示意图。该方法的执行主体为电子设备，该电子设备可以为具有计算处理功能的设备，如：台式电脑、笔记本电脑等。示例地，该电子设备用于计算处理的软件层包括：开关模块，开关模块用于控制多个自注意力神经网络层中的特征检测器禁用/启用。

如图1所示，该方法包括：

S101、若检测到视觉网络模型接收到输入的一个训练实例，则随机对视觉网络模型中多个自注意力神经网络层中的特征检测器进行禁用处理，得到处理后的视觉网络模型。

其中，一个训练实例为具有预设图像处理任务的标签的样本图像。

检测到视觉网络模型接收到输入的一个训练实例，即，要开始进行视觉网络模型训练。为提高视觉网络模型的性能，在模型训练开始时，开关模块随机对视觉网络模型中多个自注意力神经网络层中的特征检测器进行禁用处理，得到处理后的视觉网络模型。其中，对特征检测器进行禁用处理是指：将该特征检测器禁用，该特征检测器被禁用之后，包含该特征检测器的特征检测器子集就被禁用，停止进行图像处理。

示例地，在视觉网络模型处理训练实例的过程中，将模型的处理逻辑等效地看做数学计算的过程，而每个特征检测器可视为模型中的一个处理节点，每个特征检测器也以自身对应的相关参数参与到整个模型的数学运算中。而开关模块可以随机地选择特征检测器，并禁止这些特征检测器的相关参数参与整个模型的数学运算，则最终的模型处理结果未涉及这些特征检测器的处理过程。因此，从实际意义上来看，在本次模型处理数据的过程中，这些特征检测器是被禁用了。需要说明的是，开关模块与自注意力神经网络层中的特征检测器并无物理连接关系，开关模块只是控制特征检测器的相关参数是否参与整个模型的数学运算，以实现禁用/启用特征检测器。

通过对多个特征检测器进行随机禁用处理，使得视觉网络模型的图像处理能力基于随机禁用后的剩余多个特征检测器而确定。以此，通过多次随机禁用处理，使得视觉网络模型的处理能力随着随机禁用结果的变化而变化。

通过对特征检测器禁用，实现对输入至特征检测器的特征块进行禁用，以平衡不同特征块对预设图像处理任务的影响，由于特征块由图像块的特征拆分而来，进而平衡不同图像块对预设图像处理任务的影响，从而有效抑制图像处理局部过拟合问题。

示例地，每次输入一个训练实例，都随机对多个特征检测器进行禁用处理。也可以针对多次输入的多个训练实例，采用同一种禁用处理规则，即每次输入训练实例时，禁用的特征检测器和启用的特征检测器都保持一致。

示例地，为提高随机禁用效率，可将一个自注意力神经网络层中的多个特征检测器分为多个特征检测单元，其中，一个特征检测单元包括多个特征检测器。同一个特征检测单元中的多个特征检测器禁用状态保持一致，可以都被选择为禁用状态，也可以都被选择为启用状态。

S102、根据一个训练实例，对处理后的视觉网络模型进行训练，得到目标视觉网络模型，目标视觉网络模型用于对待处理图像执行预设图像处理任务。

处理后的视觉网络模型已经完成了多个特征检测器的禁用，可根据输入的训练实例，对处理后的视觉网络模型进行训练。若一个训练实例已被视觉网络模型学习，则开启所有的特征检测器，以准备输入下一个训练实例。经过多次训练，学习每个特征检测器的最佳权重，然后可以将最佳权重配置于视觉网络模型，得到目标视觉网络模型。可基于目标视觉网络模型对待处理图像执行预设图像处理任务。

综上，在本实施例中，若检测到视觉网络模型接收到输入的一个训练实例，则随机对视觉网络模型中多个自注意力神经网络层中的特征检测器进行禁用处理，得到处理后的视觉网络模型；其中，一个训练实例为具有预设图像处理任务的标签的样本图像；根据一个训练实例，对处理后的视觉网络模型进行训练，得到目标视觉网络模型，目标视觉网络模型用于对待处理图像执行预设图像处理任务。从而，通过对随机禁用处理，有效地抑制了图像处理局部过拟合等情况，提高了视觉网络模型的性能，扩展视觉网络模型的通用性。

在上述图1对应的实施例的基础上，本申请还提供了一种对视觉网络模型进行随机禁用处理的方法。图2为本申请提供的一种对视觉网络模型进行随机禁用处理的方法的流程示意图。示例地，该电子设备用于计算处理的软件层还包括：随机数生成模块，随机数生成模块用于生成随机数，并将随机数发送至开关模块，开关模块用于根据随机数控制多个自注意力神经网络层中的特征检测器禁用/启用。

如图2所示，S101中的随机对视觉网络模型中多个自注意力神经网络层中的特征检测器进行禁用处理，得到处理后的视觉网络模型，包括：

S201、根据随机数，确定多个自注意力神经网络层的禁用概率。

若检测到视觉网络模型接收到输入的一个训练实例，则对于当前进行的模型训练过程，随机数生成模块生成每个自注意力神经网络层的随机数。开关模块根据每个自注意力神经网络层的随机数确定每个自注意力神经网络层的禁用概率。

示例地，随机数可以为：0、1、2、3、4、5、6、7、8、9、10，对应的禁用概率为：0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1。此处只是一种示例，并不限定随机数的生成方式，只要可以根号随机数确定禁用概率即可。

S202、根据每个自注意力神经网络层的禁用概率，对每个自注意力神经网络层中的特征检测器进行禁用处理，得到处理后的视觉网络模型。

开关模块根据每个自注意力神经网络层的禁用概率以及特征检测器数量可以确定每个自注意力神经网络层的特征检测器禁用数量。开关模块根据对应的禁用数量，在该自注意力神经网络层的多个特征检测器中随机选取禁用数量个特征检测器进行禁用处理。

示例地，若自注意力神经网络层的禁用概率为0.5，特征检测器数量为20，确定特征检测器禁用数量为10，则在该自注意力神经网络层的多个特征检测器中随机选取10个特征检测器进行禁用处理。

示例地，在设置禁用概率的基础上，还可以依层线性衰减的策略来设置禁用概率，即浅层拥有较高的禁用概率，深层拥有较低的禁用概率。其中，从输入层至输出层的方向，自注意力神经网络层由浅层变至深层，也就是说，浅层为靠近输入层的自注意力神经网络层，深层为靠近输出层的自注意力神经网络层。通常来说，参数量较大的神经网络层通常更易受到过拟合的困扰，因此，为拥有较大参数量的神经网络层也可以设置更高的禁用概率。

进一步地，自注意力神经网络层的每个特征检测器包括：输入子层、隐藏子层。在对特征检测器设置随机禁用的基础上，还可以根据禁用概率对自注意力神经网络层中的输入子层、隐藏子层进行随机禁用。示例地，隐藏子层的禁用概率大于输入子层的禁用概率，隐藏子层可以以0.5的概率选择性地禁用，而输入子层可以以0.2的概率选择性地禁用。

进一步地，若要舍弃掉隐藏子层的某个特定特征检测器，则控制隐藏子层的所有特征检测器禁用/启用，进而控制特定特征检测器禁用，而对输入子层的特征检测器不做控制要求，即，隐藏子层的特定特征检测器一定是禁用状态，而对该特征检测器前一位的输入子层内的特征检测器不做任何限制。若要舍弃掉输入子层的某个特定特征检测器，则控制输入子层的所有特征检测器禁用/启用，进而控制特定特征检测器禁用，而对隐藏子层的特征检测器不做控制要求，即，输入子层的特定特征检测器一定是禁用状态，而对该特征检测器后一位的隐藏子层内的特征检测器不做任何限制。

综上，在本实施例中，根据随机数，确定多个自注意力神经网络层的禁用概率；根据每个自注意力神经网络层的禁用概率，对每个自注意力神经网络层中的特征检测器进行禁用处理，得到处理后的视觉网络模型。从而，通过设置禁用概率，提供了禁用效率。

在上述图2对应的实施例的基础上，本申请还提供了一种对特征检测器进行随机禁用处理的方法。S202中的根据每个自注意力神经网络层的禁用概率，对每个自注意力神经网络层中的特征检测器进行禁用处理，得到处理后的视觉网络模型，包括：

根据每个自注意力神经网络层的禁用概率，对每个自注意力神经网络层中各个特征检测器的键值进行调整，以指示各个特征检测器是否被禁用。

由于根据查询向量、键值向量可以计算得到特征检测器权重，再根据权重和权值向量得到特征检测器的输入向量。因此，对特征检测器的键值进行调整，进而可以对特征检测器的输入向量进行调整，以指示各个特征检测器是否被禁用。

示例地，根据禁用概率以及随机选择确定该特征检测器被禁用时，可通过开关模块将特征检测器的键值(键值向量)调整为0(0向量)，使得计算得到的特征检测器输入向量为0向量，这会导致计算得到的特征检测器的权重为0，即，特征检测器的权值对整个模型的数学运算没有任何影响，相当于在模型处理数据的过程中特征检测器未被使用，则完成了对特征检测器的禁用；若确定该特征检测器不被禁用时，则不对特征检测器的键值做任何调整，正常得到特征检测器输入向量，特征检测器处于启用状态。

综上，在本实施例中，根据每个自注意力神经网络层的禁用概率，对每个自注意力神经网络层中各个特征检测器的键值进行调整，以指示各个特征检测器是否被禁用。从而，更加便捷地完成特征检测器禁用。

在上述图2对应的实施例的基础上，本申请还提供了一种计算自注意力参数的方法。图3为本申请提供的一种计算自注意力参数的方法的流程示意图。如图3所示，在S102中的根据一个训练实例，对处理后的视觉网络模型进行训练，得到目标视觉网络模型之前，该方法还包括：

S301、根据每个自注意力神经网络层的禁用概率，确定每个自注意力神经网络层中各特征检测器的禁用系数。

采用禁用概率，表征了权重峰值特征检测器和低权重特征检测器之间的比例，以更好地惩罚权重峰值特征检测器和提高低权重特征检测器所占的比例。

具体地，我们为每一个特征块设置一个禁用系数d_j，根据每个自注意力神经网络层的禁用概率确定禁用的特征检测器以及启用的特征检测器。若特征检测器被禁用，则将该特征检测器的禁用系数设置为0，若特征检测器未被禁用，则将该特征检测器的禁用系数设置为(-∞)。

S302、根据每个自注意力神经网络层中各特征检测器的禁用系数、查询向量、键值向量和权值向量，计算每个自注意力神经网络层的自注意力参数。

多个自注意力神经网络层中各特征检测器的禁用系数、查询向量、键值向量和权值向量可以表征视觉网络模型。综合考虑每个自注意力神经网络层中各特征检测器的禁用系数、查询向量、键值向量和权值向量对该自注意力层的图像处理能力的影响。并计算得到每个自注意力神经网络层的自注意力参数。自注意力参数可表征该自注意力神经网络层的在图像处理中的重要性。

此外，S102中的根据一个训练实例，对处理后的视觉网络模型进行训练，得到目标视觉网络模型，包括：

S303、根据一个训练实例，采用多个自注意力神经网络层的自注意力参数，对处理后的视觉网络模型进行训练，得到目标视觉网络模型。

自注意力参数以数的形式表征了该自注意力神经网络层的在图像处理中的重要性。则可使用自注意力参数代替该自注意力层，根据一个训练实例，采用多个自注意力神经网络层的自注意力参数，对处理后的视觉网络模型进行训练，得到目标视觉网络模型。

综上，在本实施例中，根据每个自注意力神经网络层的禁用概率，确定每个自注意力神经网络层中各特征检测器的禁用系数；根据每个自注意力神经网络层中各特征检测器的禁用系数、查询向量、键值向量和权值向量，计算每个自注意力神经网络层的自注意力参数；根据一个训练实例，采用多个自注意力神经网络层的自注意力参数，对处理后的视觉网络模型进行训练，得到目标视觉网络模型。从而，计算自注意力参数，通过参数、向量等形式表征视觉网络模型，使得模型训练更加精准。

在上述图3对应的实施例的基础上，本申请还提供了一种引入平滑系数的视觉网络模型训练方法。图4为本申请提供的一种引入平滑系数的视觉网络模型训练方法的流程示意图。如图4所示，在S303中的根据一个训练实例，采用多个自注意力神经网络层的自注意力参数，对处理后的视觉网络模型进行训练，得到目标视觉网络模型，包括：

S401、根据预设的平滑系数，对多个自注意力神经网络层的自注意力参数进行平滑处理。

在计算得到自注意力参数，还可以引入预设的平滑系数，对自注意力参数进行平滑处理。从而达到惩罚权重峰值特征检测器和提高低权重特征检测器的效果。以使得平滑处理之后的自注意力参数能更好地表征视觉网络模型。

示例地，将原自注意力参数与预设的平滑系数相乘，得到平滑处理后的自注意力参数。

S402、根据一个训练实例，采用平滑处理后的自注意力参数，对处理后的视觉网络模型进行训练，得到目标视觉网络模型。

平滑处理后的自注意力参数能更好地表征视觉网络模型。根据一个训练实例，采用平滑处理后的自注意力参数，对处理后的视觉网络模型进行训练，得到目标视觉网络模型。

综上，在本实施例中，根据预设的平滑系数，对多个自注意力神经网络层的自注意力参数进行平滑处理；根据一个训练实例，采用平滑处理后的自注意力参数，对处理后的视觉网络模型进行训练，得到目标视觉网络模型。从而，精准地训练得到目标视觉网络模型。

在上述图4对应的实施例的基础上，本申请还提供了另一种计算自注意力参数的方法。图5为本申请提供的另一种计算自注意力参数的方法的流程示意图。如图5所示，在S302中的根据每个自注意力神经网络层中各特征检测器的禁用系数、查询向量、键值向量和权值向量，计算每个自注意力神经网络层的自注意力参数，包括：

S501、根据每个自注意力神经网络层中各特征检测器的查询向量和键值向量，计算每个自注意力神经网络层中各特征检测器的自注意力权重。

特征检测器的自注意力权重的具体计算方式如下公式(1)所示：

其中，p_j为自注意力权重，q为查询向量，k为键值向量，n_hn_w为该自注意力神经网络层中各特征检测器的数量，scale为尺度系数。

S502、根据每个自注意力神经网络层中各特征检测器的自注意力权重和权值向量，计算每个自注意力神经网络层的自注意力参数。

特征检测器的自注意力参数的具体计算方式如下公式(2)所示：

其中，o为自注意力参数，v为权值向量。

综上，在本实施例中，根据每个自注意力神经网络层中各特征检测器的查询向量和键值向量，计算每个自注意力神经网络层中各特征检测器的自注意力权重；根据每个自注意力神经网络层中各特征检测器的自注意力权重和权值向量，计算每个自注意力神经网络层的自注意力参数。从而，精准地得到每个自注意力神经网络层的自注意力参数。

在上述图5对应的实施例的基础上，本申请还提供了一种计算平滑系数的方法。在S401中的根据预设的平滑系数，对多个自注意力神经网络层的自注意力参数进行平滑处理之前，方法还包括：

根据每个自注意力神经网络层中各特征检测器的禁用系数和自注意力权重，计算平滑系数。

平滑系数的具体计算方式如下公式(3)所示：

其中，a为平滑系数，d_j为禁用系数。

综上，在本实施例中，根据每个自注意力神经网络层中各特征检测器的禁用系数和自注意力权重，计算平滑系数。从而，精准地得到平滑系数。

下述对用以执行的本申请所提供的视觉网络模型的训练装置、设备及存储介质等进行说明，其具体的实现过程以及技术效果参见上述，下述不再赘述。

图6为本申请提供的一种视觉网络模型的训练装置的示意图。如图6所示，视觉网络模型包括：依次连接的多个自注意力神经网络层；每个自注意力神经网络层由多个特征检测器组成；该装置包括：

禁用模块601，用于若检测到视觉网络模型接收到输入的一个训练实例，则随机对视觉网络模型中多个自注意力神经网络层中的特征检测器进行禁用处理，得到处理后的视觉网络模型；其中，一个训练实例为具有预设图像处理任务的标签的样本图像。

训练模块602，用于根据一个训练实例，对处理后的视觉网络模型进行训练，得到目标视觉网络模型，目标视觉网络模型用于对待处理图像执行预设图像处理任务。

进一步地，禁用模块601，具体用于根据随机数，确定多个自注意力神经网络层的禁用概率；根据每个自注意力神经网络层的禁用概率，对每个自注意力神经网络层中的特征检测器进行禁用处理，得到处理后的视觉网络模型。

进一步地，禁用模块601，具体还用于根据每个自注意力神经网络层的禁用概率，对每个自注意力神经网络层中各个特征检测器的键值进行调整，以指示各个特征检测器是否被禁用。

进一步地，禁用模块601，具体用于根据每个自注意力神经网络层的禁用概率，确定每个自注意力神经网络层中各特征检测器的禁用系数；根据每个自注意力神经网络层中各特征检测器的禁用系数、查询向量、键值向量和权值向量，计算每个自注意力神经网络层的自注意力参数；根据一个训练实例，采用多个自注意力神经网络层的自注意力参数，对处理后的视觉网络模型进行训练，得到目标视觉网络模型。

进一步地，禁用模块601，具体用于根据预设的平滑系数，对多个自注意力神经网络层的自注意力参数进行平滑处理；根据一个训练实例，采用平滑处理后的自注意力参数，对处理后的视觉网络模型进行训练，得到目标视觉网络模型。

进一步地，禁用模块601，具体用于根据每个自注意力神经网络层中各特征检测器的查询向量和键值向量，计算每个自注意力神经网络层中各特征检测器的自注意力权重；根据每个自注意力神经网络层中各特征检测器的自注意力权重和权值向量，计算每个自注意力神经网络层的自注意力参数。

进一步地，禁用模块601，具体用于根据每个自注意力神经网络层中各特征检测器的禁用系数和自注意力权重，计算平滑系数。

图7为本申请提供的一种电子设备的示意图，该电子设备可以是具备计算处理功能的设备。

该电子设备包括：处理器701、存储介质702。处理器701和存储介质702通过总线连接。

存储介质702用于存储程序，处理器701调用存储介质702存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种视觉网络模型的训练方法，其特征在于，所述视觉网络模型包括：依次连接的多个自注意力神经网络层；每个自注意力神经网络层由多个特征检测器组成；所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述随机对所述视觉网络模型中所述多个自注意力神经网络层中的特征检测器进行禁用处理，得到处理后的视觉网络模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据每个自注意力神经网络层的禁用概率，对所述每个自注意力神经网络层中的特征检测器进行禁用处理，得到所述处理后的视觉网络模型，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述一个训练实例，对所述处理后的视觉网络模型进行训练，得到目标视觉网络模型之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述一个训练实例，采用所述多个自注意力神经网络层的自注意力参数，对所述处理后的视觉网络模型进行训练，得到所述目标视觉网络模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述每个自注意力神经网络层中各特征检测器的禁用系数、查询向量、键值向量和权值向量，计算所述每个自注意力神经网络层的自注意力参数，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据预设的平滑系数，对所述多个自注意力神经网络层的自注意力参数进行平滑处理之前，所述方法还包括：

8.一种视觉网络模型的训练装置，其特征在于，所述视觉网络模型包括：依次连接的多个自注意力神经网络层；每个自注意力神经网络层由多个特征检测器组成；所述装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储介质，所述处理器与所述存储介质之间通过总线通信连接，所述存储介质存储有所述处理器可执行的程序指令，所述处理器调用存储介质中存储的程序，以执行如权利要求1至7任一所述的视觉网络模型的训练方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述的视觉网络模型的训练方法的步骤。