CN111242176A

CN111242176A - 计算机视觉任务的处理方法、装置及电子系统

Info

Publication number: CN111242176A
Application number: CN201911425961.6A
Authority: CN
Inventors: 张培圳
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-06-05
Anticipated expiration: 2039-12-31
Also published as: CN111242176B

Abstract

本发明提供了一种计算机视觉任务的处理方法、装置及电子系统，在获取待处理图像后，将待处理图像输入至预先训练完成的网络模型中，输出待处理图像对应的特征数据；进而基于特征数据，完成预设的视觉任务。本发明采用的网络模型包括主干网络和注意力模块，该注意力模块从预设的模块结构空间中搜索得到，模块结构空间中包括多种操作算子以及多种数据融合方式；相对于人工设置注意力模块结构的方式，这种搜索的方式可以快速得到与目标计算机视觉任务相匹配的注意力模块的结构，提高了确定注意力模块的效率，同时，通过搜索得到的注意力模块的结构，与目标计算机视觉任务更加匹配，以利于从整体上提高处理计算机视觉任务的网络模型的性能。

Description

计算机视觉任务的处理方法、装置及电子系统

技术领域

本发明涉及神经网络技术领域，尤其是涉及一种计算机视觉任务的处理方法、装置及电子系统。

背景技术

在基于深度学习的计算机视觉和自然语言处理领域，注意力机制被广泛应用。注意力机制可以让模型专注于对目标任务更有用的输入信息，该目标任务可以为分类任务、检测任务、分割任务等。具体地，模型在处理特征数据的过程中，模型中的注意力模块可以将一部分特征数据增强，从而更好地完成目标任务，使模型的性能和效果更佳。

然而，传统的注意力模块通常由工程师人工设置得到；需要工程师针对特定任务不断调整注意力模块的相关参数，较为依赖工程师的先验知识；不论是注意力模块的模块结构还是数据融合方式，每调整一次都需要让模型推理一次，并且基于推理结果再次调整，因此这种人工设置注意力模块的方式需要耗费大量的时间和计算资源。

发明内容

有鉴于此，本发明的目的在于提供一种计算机视觉任务的处理方法、装置及电子系统，以在确保处理计算机视觉任务的网络模型的性能的同时，提高确定该模型中注意力模块的效率。

第一方面，本发明实施例提供了一种计算机视觉任务的处理方法，该方法包括：获取待处理图像，将待处理图像输入至预先训练完成的网络模型中，输出待处理图像对应的特征数据；基于特征数据，完成预设的计算机视觉任务；其中，上述网络模型包括主干网络和注意力模块；注意力模块从预设的模块结构空间中确定；模块结构空间中包括多种操作算子以及多种数据融合方式。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，上述注意力模块包括：按照预设顺序排列的、多种操作算子中至少一部分操作算子；上述注意力模块还包括：多种数据融合方式中至少一部分数据融合方式；该数据融合方式用于：融合输入至注意力模块的特征数据和注意力模块输出的特征数据；如果注意力模块中的操作算子组成多条路径，数据融合方式还用于：融合每条路径输出的特征数据。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，上述模块结构空间包括：按照预设顺序排列的多层搜索层，每层搜索层包括多种操作算子或多种数据融合方式；针对于每层搜索层，如果当前层的搜索层包括多种操作算子，注意力模块包括当前层的搜索中的至少一种操作算子；如果当前层的搜索层包括多种数据融合方式，注意力模块包括当前层的搜索中的至少一种数据融合方式。

结合第一方面至第一方面的第二种可能的实施方式中的任意一种，本发明实施例提供了第一方面的第三种可能的实施方式，其中，上述操作算子包括：全局平均池化算子、全连接算子、卷积算子、张量变形算子、带孔卷积算子、软最大化算子和空算子中的一种或多种；上述数据融合方式包括：逐点相加、逐点相乘、矩阵相乘和空操作中的一种或多种。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，上述注意力模块，具体通过下述方式确定：从模块结构空间中确定多个初始模块；在模块结构空间对应的综合模块结构中，基于预设的训练样本以及每个初始模块对应的主干网络，逐一训练多个初始模块；在训练过程中，每个初始模块在综合模块结构的当前参数基础上训练；多个初始模块训练结束后，从模块结构空间对应的综合模块结构中确定注意力模块。

结合第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，基于预设的训练样本以及每个初始模块对应的主干网络，逐一训练多个初始模块的步骤，包括：如果计算机视觉任务包括目标检测任务，基于预设的目标分类任务对应的训练样本，以及每个初始模块对应的主干网络，逐一训练多个初始模块；从模块结构空间中再次确定多个初始模块；基于目标检测任务对应的训练样本，以及每个再次确定的初始模块对应的主干网络，逐一训练再次确定的多个初始模块。

结合第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，从模块结构空间对应的综合模块结构中确定注意力模块的步骤，包括：从模块结构空间对应的综合模块结构中确定多个备选模块；调整多个备选模块的模块结构，得到多个变异模块；根据多个备选模块和多个变异模块，确定注意力模块。

结合第一方面的第六种可能的实施方式，本发明实施例提供了第一方面的第七种可能的实施方式，其中，从模块结构空间对应的综合模块结构中确定多个备选模块的步骤，包括：从模块结构空间对应的综合模块结构中随机选取多个模块结构；基于预设的验证样本以及每个模块结构对应的主干网络，逐一验证选取的多个模块结构，得到每个模块结构对应的主干网络的准确率；根据每个模块结构对应的主干网络的准确率，从选取的多个模块结构中确定多个备选模块。

结合第一方面的第六种可能的实施方式，本发明实施例提供了第一方面的第八种可能的实施方式，其中，根据多个备选模块和多个变异模块，确定注意力模块的步骤，包括：将多个备选模块和多个变异模块确定为模块集合；基于预设的验证样本，以及模块集合中每个模块对应的主干网络，逐一验证模块集合中的每个模块，得到模块集合中每个模块对应的准确率；根据模块集合中每个模块对应的准确率，从模块集合中确定出更新的多个备选模块；继续执行调整多个备选模块的模块结构，得到多个变异模块的步骤，直至确定出更新的多个备选模块的次数达到预设的次数阈值；从最后一次确定出的多个备选模块中选取准确率最高的模块，将选取出的模块确定为注意力模块。

结合第一方面的第四种可能的实施方式至第一方面的第八种可能的实施方式中的任意一种，本发明实施例提供了第一方面的第九种可能的实施方式，其中，从模块结构空间对应的综合模块结构中确定注意力模块的步骤之后，上述方法还包括：基于预设的训练样本，训练注意力模块以及注意力模块对应的主干网络，直至注意力模块对应的主干网络的损失值收敛，得到训练后的注意力模块。

第二方面，本发明实施例还提供一种计算机视觉任务的处理装置，该装置包括：图像输出模块，用于获取待处理图像，将待处理图像输入至预先训练完成的网络模型中，输出待处理图像对应的特征数据；任务完成模块，用于基于特征数据，完成预设的计算机视觉任务；其中，网络模型包括主干网络和注意力模块；注意力模块从预设的模块结构空间中确定；模块结构空间中包括多种操作算子以及多种数据融合方式。

第三方面，本发明实施例还提供一种电子系统，该电子系统包括：图像采集设备、处理设备和存储装置；图像采集设备，用于获取预览视频帧或图像数据；存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行上述计算机视觉任务的处理方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行如上述计算机视觉任务的处理方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供了一种计算机视觉任务的处理方法、装置及电子系统，在获取待处理图像后，将待处理图像输入至预先训练完成的网络模型中，输出待处理图像对应的特征数据；进而基于特征数据，完成预设的计算机视觉任务；该方式采用的网络模型包括主干网络和注意力模块，该注意力模块从预设的模块结构空间中搜索得到，模块结构空间中包括多种操作算子以及多种数据融合方式；相对于人工设置注意力模块结构的方式，这种搜索的方式可以快速得到与目标计算机视觉任务相匹配的注意力模块的结构，提高了确定注意力模块的效率，同时，通过搜索得到的注意力模块的结构，与目标计算机视觉任务更加匹配，以利于从整体上提高处理计算机视觉任务的网络模型的性能。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子系统的结构示意图；

图2为本发明实施例提供的一种计算机视觉任务的处理方法的流程图；

图3为本发明实施例提供的计算机视觉任务的处理中，一种网络模型的结构示意图；

图4为本发明实施例提供的计算机视觉任务的处理中，另一种网络模型的结构示意图；

图5为本发明实施例提供的计算机视觉任务的处理中，一种注意力模块的结构示意图；

图6为本发明实施例提供的计算机视觉任务的处理中，另一种注意力模块的数据流向图；

图7为本发明实施例提供的计算机视觉任务的处理中，另一种注意力模块的数据流向图；

图8为本发明实施例提供的计算机视觉任务的处理中，一种模块结构空间的结构示意图；

图9为本发明实施例提供的一种计算机视觉任务的处理中，注意力模块的确定方法的流程图；

图10为本发明实施例提供的另一种计算机视觉任务的处理中，注意力模块的确定方法的流程图；

图11为本发明实施例提供的另一种计算机视觉任务的处理方法中，四种注意力模块的数据流向图；

图12为本发明实施例提供的一种shuffle模块的数据流向图；

图13为本发明实施例提供的一种计算机视觉任务的处理装置的结构示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在基于深度学习的计算机视觉和自然语言处理领域，注意力机制被广泛用于。该机制可以让模型专注于对目标任务有用的输入信息。上述目标任务可以为对目标进行分类、检测或分割等；此时该目标任务的处理对象通常为图像或视频等，该目标任务也可以被称为计算机视觉任务。具体地，当神经网络模型中包含基于注意力机制的注意力模型时，在神经网络模型对处理对象的处理过程得到中间特征图会通过注意力模块得到“增强”的特征，最终达到更好的效果。

然而，传统的注意力模块通常由工程师人工设置得到，其结构为工程师针对特定任务所调校，缺乏通用性。在计算机视觉领域(计算机视觉任务通常属于该领域)中，注意力模块常可分为两个子部分，即通道注意力和空间注意力。相关技术中，对注意力模块这两个子部分特征间的融合方式也并没有深入研究。融合方式的确定通常采用手工调校，非常依赖工程师的先验知识，还需要耗费大量的尝试时间。

基于上述技术问题，本发明实施例提供了一种计算机视觉任务的处理方法、装置及电子系统，该技术可以应用于服务器、计算机、相机、手机、平板电脑、车辆中控设备等多种设备中，该技术可采用相应的软件和硬件实现，以下对本发明实施例进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的计算机视觉任务的处理方法、装置及电子系统的示例电子系统100。

如图1所示的一种电子系统的结构示意图，电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子系统100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子系统也可以具有其他组件和结构。

所述处理设备102可以是网关，也可以为智能终端，或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对所述电子系统100中的其它组件的数据进行处理，还可以控制所述电子系统100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集设备110可以采集预览视频帧或图片数据，并且将采集到的预览视频帧或图片数据存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的计算机视觉任务的处理方法、装置及电子系统的示例电子系统中的各器件可以集成设置，也可以分散设置，诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体，而将图像采集设备110设置于可以采集到目标图像的指定位置。当上述电子系统中的各器件集成设置时，该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。

实施例二：

本实施例提供了一种计算机视觉任务的处理方法，该方法由上述电子系统中的处理设备执行；该处理设备可以是具有数据处理能力的任何设备或芯片。该处理设备可以独立对接收到的信息进行处理，也可以与服务器相连，共同对信息进行分析处理，并将处理结果上传至云端。

如图2所示，该方法包括如下步骤：

步骤S200，获取待处理图像，将待处理图像输入至预先训练完成的网络模型中，输出待处理图像对应的特征数据。

上述待处理图像可以是预先下载保存的图像，也可以是由摄像机等采集设备直接采集得到的图像。上述网络模型输出的特征数据与视频任务的内容相对应；例如，当视频任务为目标检测时，上述网络模型可以输出待处理图像的用于目标检测的特征数据。

其中，网络模型包括主干网络和注意力模块；该主干网络可以为CNN(Convolutional Neural Networks，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)、DNN(Deep Neural Network，深度神经网络)等网络模型，主要用于对待处理图像进行特征提取处理。

主干网络和注意力模块可以以串联的方式连接，如图3所示；当主干网络包括多个串联的网络单元时(如主干网络为循环神经网络时)，可以将注意力模块设置于每个网络单元的设定位置上；如图4所示，以主干网络包括3个网络单元为例，注意力模块1设置在网络单元1内部的某个位置，注意力模块2设置在网络单元2内部的某个位置，注意力模块3设置在网络单元3内部的某个位置，然后网络单元1、网络单元2及网络单元3再进行串联，最终由此结构输出融合后的特征数据；其中，注意力模块1、注意力模块2及注意力模块3可以相同，也可以不同。

上述注意力模块可以从预设的模块结构空间中确定；模块结构空间中包括多种操作算子以及多种数据融合方式。获取上述操作算子的过程可以为：将在计算机视觉任务中，已有的注意力模块进行拆分，得到简单的网络结构，如单层卷积层、单层池化层等，将这些简单的网络结构作为操作算子。在这些注意力模块中还会存在一些数据融合操作，如矩阵相乘、逐点相加等，在拆解注意力模块的过程中，将这些数据融合操作确定为对应的数据融合方式，保存在模块结构空间中。

在模块结构空间中，可以根据拆解注意力模块的过程中，各个部分的拆解顺序，将操作算子和数据融合方式保存在不同的层级，形成多层级的结构；假设已有的注意力模块的结构为一个卷积层、一个带孔卷积层及一个卷积层依次连接，在对注意力模块进行拆解后，得到一个卷积层、一个带孔卷积层及一个卷积层，则可以分别把它们保存在模块结构空间中的第一层级、第二层级及第三层级。

在模块结构空间中确定当前计算机视觉任务的网络模型中的注意力模块时，可以依次从模块结构空间中各个层级随机选取至少一个操作算子或数据融合方式，按照层级顺序连接起来，生成初始的注意力模块，再对初始的注意力模块进行训练，得到训练后的注意力模块；对训练后的注意力模块的性能进行测试，如果能满足预设的要求，可以采用该注意力模块。需要注意的是，上述数据融合方式还包括空操作的数据融合方式，即对数据不进行处理，因此，如果选取到空操作，可能会出现跨层级的操作算子或数据融合方式的连接。

在生成初始的注意力模块时，由于模块结构空间中包括多个多种操作算子以及多种数据融合方式，可以生成多个初始的注意力模块，并分别进行训练，最后选取性能较好的训练后的注意力模块作为当前计算机视觉任务的网络模型中的注意力模块。

在对初始的注意力模块进行训练时，可以将初始的注意力模块设置于已有的主干网络的设置位置，组成测试网络；通过测试网络进行与当前的计算机视觉任务相关的训练，以对注意力模块的参数进行训练。上述主干网络可以为当前计算机视觉任务的已经确定的主干网络，也可以为与当前计算机视觉任务相关的其他网络模型。为了提高训练结果的通用性，可以首先将初始的注意力模块设置于较为通用的主干网络进行训练，如超网络中，并根据训练后的注意力模块更新模块结构空间，然后将训练后的注意力模块设置于当前计算机视觉任务的已经确定的主干网络的设置位置，再进行训练，以对注意力模块的参数进行微调，与当前的网络模型更好地匹配。

步骤S202，基于特征数据，完成预设的计算机视觉任务。

具体而言，可以根据预设的计算机视觉任务的内容，设置对应的网络结构对特征数据进行处理，得到该计算机视觉任务对应的结果。例如，当计算机视觉任务为对待处理图片进行目标分类时，上述对应的网络结构可以为预先训练好的分类器，该分类器通过该特征数据对待处理图像进行分类，得到分类结构。

本发明实施例提供了一种计算机视觉任务的处理方法，在获取待处理图像后，将待处理图像输入至预先训练完成的网络模型中，输出待处理图像对应的特征数据；进而基于特征数据，完成预设的计算机视觉任务；该方式采用的网络模型包括主干网络和注意力模块，该注意力模块从预设的模块结构空间中搜索得到，模块结构空间中包括多种操作算子以及多种数据融合方式；相对于人工设置注意力模块结构的方式，这种搜索的方式可以快速得到与目标计算机视觉任务相匹配的注意力模块的结构，提高了确定注意力模块的效率，同时，通过搜索得到的注意力模块的结构，与目标计算机视觉任务更加匹配，以利于从整体上提高处理计算机视觉任务的网络模型的性能。

实施例三：

本发明实施例还提供了一种计算机视觉任务的处理中，注意力模块的确定方法，该方法在上述实施例方法的基础上实现；该方法主要描述了基于预设的模块结构空间，确定计算机视觉任务处理的网络模型中的注意力模块的具体实现过程。

上述注意力模块可以包括按照预设顺序排列的、多种操作算子中至少一部分操作算子；以注意力模块包括依次连接的操作算子1、操作算子2及操作算子3为例，其结构示意图如图5所示；注意力模块还可以包括多种数据融合方式中至少一部分数据融合方式；该数据融合方式用于融合输入至注意力模块的特征数据和注意力模块输出的特征数据；以注意力模块包括依次连接的操作算子4、操作算子5及数据融合方式1为例，其数据流向如图6所示，输入特征数据分别输入操作算子4及数据融合方式1中，通过操作算子4及操作算子处理后的中间特征数据也输入至数据融合方式1，最后由数据融合方式1对中间数据及输入特征数据进行融合处理得到输出特征数据。

如果注意力模块中的操作算子组成多条路径，数据融合方式还用于融合每条路径输出的特征数据；以注意力模块包括操作算子6、操作算子7、操作算子8、操作算子9及数据融合方式2为例，操作算子6与操作算子7连接，操作算子8与操作算子9连接，形成两条路径，输入特征数据分别输入这两条路径后，将两条路径的中间特征数据1及中间特征数据2通过数据融合方式2进行融合处理，得到输出特征数据，其数据流向如图7所示。

上述模块结构空间中包括按照预设顺序排列的多层搜索层，每层搜索层包括多种操作算子或多种数据融合方式。同一搜索层也可能同时包括多个操作算子和数据融合方式。上述预设顺序与在拆解已有的注意力模块的过程中产生的网络结构相关。当前搜索层中的操作算子或数据融合方式可以和其他搜索层中的操作算子的种类有所重叠。

以模块结构空间包括四层搜索层为例，假设第一搜索层包括第一算子、第二算子及第三算子，其中第一算子、第二算子及第三算子分别为不同的操作算子；第二搜索层包括第四算子、第一融合方式及第二融合方式；第四算子可以和上述三个算子中的一个相同，也可以和三个算子均不同；第一融合方式和第二融合方式不同；第三搜索层包括第五算子、第六算子、及第七算子；第四搜索层包括第三融合方式、第四融合方式及第五融合方式；基于上述假设，模块结构空间的结构示意图如图8所示。

上述操作算子可以包括全局平均池化算子、全连接算子、卷积算子、张量变形算子、带孔卷积算子、软最大化算子和空算子中的一种或多种；如算子的名称所示，全局平均池化算子用于对输入的特征数据进行全局平均池化处理，卷积算子用于对输入的特征数据进行卷积处理，等等。

上述数据融合方式可以包括逐点相加、逐点相乘、矩阵相乘和空操作中的一种或多种。上述数据融合方式通常针对于至少两组特征数据，进行对应的数据融合处理，如进行逐点相加、逐点相乘等。

如图9所示，上述注意力模块的确定方法包括以下步骤：

步骤S900，从模块结构空间中确定多个初始模块。

上述确定初始模块的过程即为在上述模块结构空间进行逐层搜索，并将搜索到的操作算子或数据融合方式依次连接的过程；在进行逐层搜索时，可以随机在当前层选取至少一个操作算子或数据融合方式。由于模块结构空间中每一层都包括多个操作算子或数据融合方式，可以确定多个初始模块。

采用上述方式确定的初始模块中，针对于每层搜索层，如果当前层的搜索层包括多种操作算子，初始模块包括当前层的搜索中的至少一种操作算子；如果当前层的搜索层包括多种数据融合方式，初始模块包括当前层的搜索中的至少一种数据融合方式。同样地，基于该初始模块训练得到的注意力模块的结构也具有上述特征。

步骤S902，在模块结构空间对应的综合模块结构中，基于预设的训练样本以及每个初始模块对应的主干网络，逐一训练多个初始模块；在训练过程中，每个初始模块在综合模块结构的当前参数基础上训练。

上述综合模块结构中可以包含上述模块结构空间；同时，上述综合模块结构还可以包括其他搜索层，通过在这些搜索层可以生成能够基于计算机视觉任务生成对应主干网络；上述综合模块结构可以认为是一种超网络，在超网络中搜索网络结构生成每个初始模块的主干网络的过程与在模块结构空间中确定初始模块的过程类似；上述每个初始模块对应的主干网络可能部分相同，也可能均不相同。基于上述方法生成的主干网络对初始模块进行训练，可以提高训练得到的注意力模块的通用性。

在基于预设的训练样本以及每个初始模块对应的主干网络逐一训练初始模块的过程中，对初始模块对应的主干网络也进行了训练，主干网络的参数也有所改变；如果当前的初始模块对应的主干网络与上一个训练的初始模块对应的主干网络的网络结构相同或有所重叠时，当前训练的初始模块对应的主干网络的网络结构参数与训练后的综合模块结构中的网络结构参数保持一致，即当前的初始模块在综合模块结构的当前参数基础上训练。

上述训练样本与预设的计算机视觉任务相关，如计算机视觉任务为目标分类，该训练样本也为用于目标分类的网络模型的训练数据，如大量标注了分类信息的训练图像。由于目标分类、目标检测及目标分割这些计算机视觉任务在数据处理过程中有一定的相似性，也可能采用其他较为基础的计算机视觉任务的训练样本对当前计算机视觉任务的初始模块进行训练；如可以采用目标分类的训练样本对计算机视觉任务为目标检测的初始模块进行分类。

步骤S904，多个初始模块训练结束后，从模块结构空间对应的综合模块结构中确定注意力模块。

在训练结束后，得到了在综合模块结构中的各个初始模块对应的训练好的注意力模块。可以对各个初始模块对应的主干网络进行性能检测，选取性能较好的主干网络中的注意力模块作为备选的注意力模块。可以基于备选的几个注意力模块及预设的处理方式，生成新的注意力模块，如将备选的注意力模块中任意两个进行部分网络结构交换等。

在验证备选的注意力模块及基于备选的注意力模块生成的新的注意力模块的性能时，可以将各个注意力模块分别与当前计算机视觉任务的主干网络组成网络模型，基于预设的验证样本，对各个网络模型的性能进行检测，将性能最好的网络模型中的注意力模块确定为当前计算机视觉任务的网络模型中的注意力模块。

本发明实施例提供了一种计算机视觉任务的处理中，注意力模块的确定方法，首先从模块结构空间中确定多个初始模块，然后在模块结构空间对应的综合模块结构中，基于预设的训练样本以及每个初始模块对应的主干网络，逐一训练多个初始模块；在多个初始模块训练结束后，从模块结构空间对应的综合模块结构中确定注意力模块。该方式对从模块结构空间中确定的多个初始模块及对应的主干网络进行训练，再基于训练得到的注意力模块确定当前计算机视觉任务的注意力模块，该方式无需人为参与，提高了确定注意力模块过程的效率，同时确保了处理计算机视觉任务的网络模型的性能。

实施例四：

本发明实施例还提供了另一种计算机视觉任务的处理中，注意力模块的确定方法，该方法在上述实施例方法的基础上实现；该方法主要描述了如果计算机视觉任务为目标检测任务时，基于预设的训练样本以及每个初始模块对应的主干网络，逐一训练多个初始模块的具体实现过程，以及初始模块训练结束后，从模块结构空间对应的综合模块结构中确定注意力模块的具体实现过程。如图10所示，该方法包括以下步骤：

步骤S1000，从模块结构空间中确定多个初始模块。

步骤S1002，在模块结构空间对应的综合模块结构中，基于预设的目标分类任务对应的训练样本，以及每个初始模块对应的主干网络，逐一训练多个初始模块。

根据历史经验，当计算机视觉任务为目标检测任务时，可以首先通过目标分类任务的训练样本对初始模块进行训练，得到训练好的注意力模块，该注意力模块对应一定的权重；再通过目标检测任务的训练样本对训练好的注意力模块进行训练，以对其权重进行微调，可以获得性能较好的用于目标检测任务的注意力模块。上述主干网络可以为基于综合模块结构获得的用于处理目标分类任务的网络结构，将各个初始模块设置于对应的主干网络的设定位置，得到用于处理目标分类任务的网络模型；通过目标分类任务对应的训练样本(如标注有分类信息的图片)对网络模型的参数进行训练，从而对各个初始模块的参数进行训练。

步骤S1004，从模块结构空间中再次确定多个初始模块；其中，再次确定多个初始模块的过程与初次确定初始模块的过程类似，此时确定的初始模块中的各个操作算子及数据融合方式的参数是经过训练的，与其最优参数更为接近。

步骤S1006，在模块结构空间对应的综合模块结构中，基于目标检测任务对应的训练样本，以及每个再次确定的初始模块对应的主干网络，逐一训练再次确定的多个初始模块。

上述主干网络可以为基于综合模块结构获得的用于处理目标检测任务的网络结构；上述训练再次确定的多个初始模块的过程中采用目标检测任务对应的训练样本作为训练数据，其具体实现过程与步骤S1002中训练多个初始模块的过程类似。

步骤S1008，多个初始模块训练结束后，从模块结构空间对应的综合模块结构中确定多个备选模块。

具体而言，上述步骤S1008可以通过以下方式实现：

(1)从模块结构空间对应的综合模块结构中随机选取多个模块结构；上述模块结构可以为经过训练的初始模块，也可以为基于经过训练的初始模块生成的模块结构，如对两个训练好的初始模块进行部分网络结构交换得到的模块结构。

(2)基于预设的验证样本以及每个模块结构对应的主干网络，逐一验证选取的多个模块结构，得到每个模块结构对应的主干网络的准确率；具体而言，当计算机视觉任务为目标分类时，可以将待分类图像作为验证样本，将多个待分类图像输入到每个主干网络中，得到分类结果，将分类结果与待分类图片的真实分类情况进行比较，统计各个主干网络的分类准确率。

(3)根据每个模块结构对应的主干网络的准确率，从选取的多个模块结构中确定多个备选模块。具体而言，可根据对注意力模块的性能需求，设定一定的准确率阈值；将准确率超过一定阈值的主干网络对应的模块结构确定为备选模块。

步骤S1010，调整多个备选模块的模块结构，得到多个变异模块。

上述调整过程可以参考遗传算法(也称为进化算法)，将备选模块作为“初始染色体”，对备选模块进行“变异”或“交叉”操作。上述“变异”操作指将备选模块的模块结构的某个部分进行随机变化，如将备选模块的一个操作算子由另一个操作算子代替，形成新的模块结构，该模块结构即为上述变异模块。上述“交叉”操作指选取两个备选模块，将两个备选模块中的部分网络结构互相交换；如一个备选模块包括6个依次连接操作算子，另一个备选模块也包括6个依次连接的操作算子；将第一个备选模块的前3个操作算子与第二个备选模块的前3个操作算子互换，形成两个新的模块结构，这两个新的模块结构即为上述变异模块。

步骤S1012，根据多个备选模块和多个变异模块，确定注意力模块。

具体而言，上述步骤S1012可以通过以下方式实现：

(1)将多个备选模块和多个变异模块确定为模块集合。

(2)基于预设的验证样本，以及模块集合中每个模块对应的主干网络，逐一验证模块集合中的每个模块，得到模块集合中每个模块对应的准确率；上述每个模块对应的准确率可以以该模块对应的主干网络的准确率表示。可以将验证样本输入至各个主干网络中，得到输出结果后，将输出结果与实际情况进行比较后得到主干网络的准确率。

(3)根据模块集合中每个模块对应的准确率，从模块集合中确定出更新的多个备选模块；具体而言，可以预先设定准确率阈值，将准确率大于准确率阈值的模块确定为更新的备选模块。

(4)继续执行调整多个备选模块的模块结构，得到多个变异模块的步骤，直至确定出更新的多个备选模块的次数达到预设的次数阈值；在多次确定更新的多个备选模块的过程中，可以适当逐次提高准确率阈值，以得到性能更优的备选模块。

(5)从最后一次确定出的多个备选模块中选取准确率最高的模块，将选取出的模块确定为注意力模块。

步骤S1014，基于预设的训练样本，训练注意力模块以及注意力模块对应的主干网络，直至注意力模块对应的主干网络的损失值收敛，得到训练后的注意力模块。

上述预设的训练样本与预设的计算机视觉任务相对应；如计算机视觉任务为目标检测任务，训练样本可以为多个标注了目标位置信息的图片。上述注意力模块对应的主干网络可以为该计算机视觉任务中已经确定了的网络结构，将注意力模块设置于主干网络的设定位置，得到该计算机视觉任务的网络模型。将训练样本输入至该网络模型，输出处理结果，将处理结果与预先确定的样本信息(如上述标注的目标位置信息)进行比较，确定损失值；根据该损失值多次训练该网络模型，直至损失值收敛，得到训练后的网络模型；该网络模型中包括训练后的主干网络及训练后的注意力模块。

本发明实施例提供了一种计算机视觉任务的处理中，注意力模块的确定方法，首先从模块结构空间中确定多个初始模块，然后在模块结构空间对应的综合模块结构中，基于预设的训练样本以及每个初始模块对应的主干网络，逐一训练多个初始模块；在多个初始模块训练结束后，从模块结构空间对应的综合模块结构中确定多个备选模块，再基于备选模块得到变异模块，从备选模块及变异模块中再次确定准确率较高的备选模块，经过多次变异优化的过程，最后将准确率最高的备选模块确定为注意力模块。该方式通过对初始模块的训练，以及对训练后的模块结构多次变异及选优，得到了性能较好的注意力模块，保证了处理计算机视觉任务的网络模型的性能。

实施例五：

本发明实施例还提供了另一种计算机视觉任务的处理方法，该方法在上述实施例方法的基础上实现。

该方法旨在将计算机视觉中的注意力模块进行拆分，并定义一系列的细粒度注意力强化特征之间的融合方式。对此施加架构搜索，得到相比人为设计更加通用的注意力模块结构。该方式在目标任务上效果更佳而且节省了试错的成本(盲目尝试带来的计算资源消耗等)。

该方法首先对计算机视觉领域中优良的注意力模块进行细粒度的通道和空间拆解，并泛化到更一般的形式。同时还定义了一系列的融合算子(相当于上述实施例中的数据融合方式)；基于细粒度注意力模块和算子集合联合构成了注意力搜索空间(相当于上述实施例中的模块结构空间)；进一步基于权重共享的超网络训练，和进化算法搜索，该方法可以有效搜索出对当前计算机视觉任务性能优良的新颖注意力结构。实验标的任务为图像分类和物体检测。

采用图像分类(相当于上述实施例中的目标分类)及物体检测(相当于上述实施例中的物体分类)的计算机视觉任务对上述方法进行实验验证，实验结果表明，在图像分类和目标检测任务上，基于上述方法确定的细粒度注意模块搜索均获取了优良的结构，目标分类的准确率和目标检测的精度均有长足的进步。

图11中显示了四种基于上述方式得到的注意力模块，其中左侧两个注意力模块的类别为通道注意力，右侧两个注意力模块的类别为空间注意力。图11中，各个操作算子英文简称的含义为：H，W，C，分别全称为height，width，channel number，即输入特征图张量的高、宽及通道数；gap，全称global average pooling，表示全局平均池化操作；fc，全称fully connected layer，表示全连接层操作；conv，全称convolution layer，表示卷积层操作；reshape，张量变形层；dilated conv，全称dilated convolution layer，表示带孔卷积层操作；softmax，软最大化，是一种归一化函数；MatMul，全称matrix multiplication，表示矩阵相乘操作。

上述基于注意力模块拆解得到的注意力搜索空间包含两部分：

(1)多个通道注意力子模块及空间注意力子模块(可以认为是通过操作算子依次连接得到的子模块)。通道注意力子模块主要用于增强特征数据的类别信息，空间注意力子模块主要用于增强特征数据的位置信息。对于输入的维度为H×W×C(即高度为H，宽度为W，通道数为C)的特征图张量，通道注意力子模块得到维度为1x1xC的输出特征，空间注意力子模块得到HxWx1的输出特征。这些输出特征根据输入维度广播后均可得到维度为HxWxC的注意力特征。

(2)对通道注意力特征和空间注意力特征，以及输入特征之间的融合操作，包含逐点加、归一化后逐点乘、矩阵乘等操作。

基于上述注意力搜索空间实现的注意力模块的确定方法具体包括如下步骤：

步骤一：将上述注意力搜索空间作为操作列表编码入超网络中，并通过图像分类的训练样本(也称为数据集)对超网络进行预训练；将上述注意力搜索空间编码入超网络后，上述超网络相当于上述实施例中的综合模块结构。

具体而言，可以选取ShuffleNet v2作为超网络，此时训练过程具有一般性。在ShuffleNet 2中包括多个串联的shuffle模块，其中shuffle模块具有两个分支，可以在右分支末尾加入该自适应细粒度注意力搜索模块attention(这是网络注意力嵌入的标准范式)，并保证网络其他部分结构不变。如图12所示，shuffle指代特征图的通道维度分段重排，split指通道分离，可以把输入通道对半分；depth-wise指代深度可分卷积，conv 1×1，表示卷积核为1的卷积层。

在整个超网络的训练进程中，在每一次训练迭代，将随机采样出搜索空间的一条“路径”(相当于上述实施例中的初始模块)，并训练该路径上涉及的模块(相当于上述操作算子)对应的可学习参数。在训练过程中，采用损失函数用于计算图像分类损失。由于通道注意力模块的裨益，通过可视化结果显示，图像前后景整体葆有较好的清晰度。

步骤二：在对超网络进行训练使得超网络收敛后，再通过目标检测任务的训练样本(也称为数据集)进行训练，对超网络的参数进行微调。

在上述训练过程中，采用与通过图像分类的训练样本对超网络训练过程中同样的采样训练机制，损失函数为经注意力编码用于计算回归和分类损失的损失函数。实际实现中，不同于图像分类，目标检测更具挑战性。前者着重于对图像整体的上下文信息进行感知。而一个好的目标检测超网络需要在不同深度特征图处对潜在物体的信息进行高效编码。这些特征图对应着不同大小的感受野。在感受野较小的浅层特征图处，空间注意力能自适应地赋予目标前景较大的编码权重，并抑制周遭背景的噪点，有利于对物体位置和边缘的感知。在感受野较大的深层特征图处，降采样不可避免会导致特征粗糙，而使用通道注意力能对物体像素分类的语义进行增强。具体的注意力选择与搭配，依托于超网络的自适应学习。

实践表明，基于混合注意力搜索空间的超网络训练阶段就已经能显著提升在测试集上的泛化性能。可视化特征图显示，注意力搜索空间在物体轮廓清晰度的增强和像素值对比度提升上有不俗的效果。

步骤三：基于步骤二训练得到的注意力超网络模型，采用进化算法针对检测meanaverage precision(简称mAP，各类平均精度)指标进行路径搜索，并更新当前遇到过的最优注意力路径(相当于上述实施例中多次确定更新的备选模块的过程)。

具体地，可以采样遗传算法，初始化若干“染色体”，每个染色体对应于超网络中的一条路径，即使用着某种细粒度注意力操作的组合的网络实例(相当于上述实施例中训练好的初始模块)。每个这样的染色体或说网络实例在验证数据集上会有一个得分(相当于上述实施例中的准确率)。在进化过程中，抛弃得分比较低的染色体(对应于抛弃表现不佳的细粒度注意力选择，即抛弃准确率较低的注意力模块)，保留得分较高的注意力模块。每一次迭代的最后，可以对保留下来的染色体进行“变异”和“交叉”，获得新的注意力选择(相当于上述变异模块)补充。“变异”指的是，某个染色体对应的shuffleNet v2网络实例的随机若干个shuffle block的注意力选择随机变化。“交叉”指的是，取两个染色体，创造一个新的染色体，新的染色体对应的网络实例中的每个shuffle block中的注意力选择要么与第一个染色体相同，要么与第二个染色体相同，按概率均匀选取。

步骤四：取出步骤三搜索过程记录得到的最优路径，该路径对应于自动设计出的注意力模块和融合方式的具体选择。据此，可以初始化出具体的网络模型，并在图像分类和检测数据集上重新训练。最终便得到了目标模型及相应的注意力模块。

实验表明，通过上述方法得到的模型无论在分类还是检测任务上，都要比已有注意力模块的对照组都表现出更高的准确率和精度。

实施例六：

对应于上述一种计算机视觉任务的处理方法实施例，本发明实施例提供了一种计算机视觉任务的处理装置，如图13所示，该装置包括：

图像输出模块1300，用于获取待处理图像，将待处理图像输入至预先训练完成的网络模型中，输出待处理图像对应的特征数据；

任务完成模块1302，用于基于特征数据，完成预设的计算机视觉任务；其中，上述网络模型包括主干网络和注意力模块；注意力模块从预设的模块结构空间中确定；模块结构空间中包括多种操作算子以及多种数据融合方式。

具体地，上述注意力模块包括：按照预设顺序排列的、多种操作算子中至少一部分操作算子；上述注意力模块还包括：多种数据融合方式中至少一部分数据融合方式；数据融合方式用于：融合输入至注意力模块的特征数据和注意力模块输出的特征数据；如果注意力模块中的操作算子组成多条路径，该数据融合方式还用于：融合每条路径输出的特征数据。

具体地，上述模块结构空间包括：按照预设顺序排列的多层搜索层，每层搜索层包括多种操作算子或多种数据融合方式；针对于每层搜索层，如果当前层的搜索层包括多种操作算子，注意力模块包括当前层的搜索中的至少一种操作算子；如果当前层的搜索层包括多种数据融合方式，注意力模块包括当前层的搜索中的至少一种数据融合方式。

具体地，上述操作算子包括：全局平均池化算子、全连接算子、卷积算子、张量变形算子、带孔卷积算子、软最大化算子和空算子中的一种或多种；上述数据融合方式包括：逐点相加、逐点相乘、矩阵相乘和空操作中的一种或多种。

具体地，上述装置还包括注意力模块确定模块，该注意力模块确定模块包括：初始模块确定单元，用于从模块结构空间中确定多个初始模块；训练单元，用于在模块结构空间对应的综合模块结构中，基于预设的训练样本以及每个初始模块对应的主干网络，逐一训练多个初始模块；在训练过程中，每个初始模块在综合模块结构的当前参数基础上训练；注意力模块确定单元，用于多个初始模块训练结束后，从模块结构空间对应的综合模块结构中确定注意力模块。

进一步地，上述训练单元还用于：如果计算机视觉任务包括目标检测任务，基于预设的目标分类任务对应的训练样本，以及每个初始模块对应的主干网络，逐一训练多个初始模块；从模块结构空间中再次确定多个初始模块；基于目标检测任务对应的训练样本，以及每个再次确定的初始模块对应的主干网络，逐一训练再次确定的多个初始模块。

进一步地，上述注意力模块确定单元还用于：从模块结构空间对应的综合模块结构中确定多个备选模块；调整多个备选模块的模块结构，得到多个变异模块；根据多个备选模块和多个变异模块，确定注意力模块。

进一步地，上述注意力模块确定单元还用于：从模块结构空间对应的综合模块结构中随机选取多个模块结构；基于预设的验证样本以及每个模块结构对应的主干网络，逐一验证选取的多个模块结构，得到每个模块结构对应的主干网络的准确率；根据每个模块结构对应的主干网络的准确率，从选取的多个模块结构中确定多个备选模块。

进一步地，上述注意力模块确定单元还用于：将多个备选模块和多个变异模块确定为模块集合；基于预设的验证样本，以及模块集合中每个模块对应的主干网络，逐一验证模块集合中的每个模块，得到模块集合中每个模块对应的准确率；根据模块集合中每个模块对应的准确率，从模块集合中确定出更新的多个备选模块；继续执行调整多个备选模块的模块结构，得到多个变异模块的步骤，直至确定出更新的多个备选模块的次数达到预设的次数阈值；从最后一次确定出的多个备选模块中选取准确率最高的模块，将选取出的模块确定为注意力模块。

进一步地，上述装置还包括：主干网络训练模块，用于基于预设的训练样本，训练注意力模块以及注意力模块对应的主干网络，直至注意力模块对应的主干网络的损失值收敛，得到训练后的注意力模块。

本发明实施例提供的计算机视觉任务的处理装置，与上述实施例提供的计算机视觉任务的处理方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

实施例七：

本发明实施例提供了一种电子系统，该电子系统包括：图像采集设备、处理设备和存储装置；图像采集设备，用于获取预览视频帧或图像数据；存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行如上述计算机视觉任务的处理方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

进一步，本实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行如上述计算机视觉任务的处理方法的步骤。

本发明实施例所提供的一种计算机视觉任务的处理方法、装置和电子系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种计算机视觉任务的处理方法，其特征在于，所述方法包括：

获取待处理图像，将所述待处理图像输入至预先训练完成的网络模型中，输出所述待处理图像对应的特征数据；

基于所述特征数据，完成预设的计算机视觉任务；

其中，所述网络模型包括主干网络和注意力模块；所述注意力模块从预设的模块结构空间中确定；所述模块结构空间中包括多种操作算子以及多种数据融合方式。

2.根据权利要求1所述的方法，其特征在于，所述注意力模块包括：按照预设顺序排列的、所述多种操作算子中至少一部分操作算子；

所述注意力模块还包括：所述多种数据融合方式中至少一部分数据融合方式；所述数据融合方式用于：融合输入至所述注意力模块的特征数据和所述注意力模块输出的特征数据；如果所述注意力模块中的操作算子组成多条路径，所述数据融合方式还用于：融合每条路径输出的特征数据。

3.根据权利要求1所述的方法，其特征在于，所述模块结构空间包括：按照预设顺序排列的多层搜索层，每层所述搜索层包括多种操作算子或多种数据融合方式；

针对于每层所述搜索层，如果当前层的搜索层包括多种操作算子，所述注意力模块包括所述当前层的搜索中的至少一种操作算子；如果当前层的搜索层包括多种数据融合方式，所述注意力模块包括所述当前层的搜索中的至少一种数据融合方式。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述操作算子包括：全局平均池化算子、全连接算子、卷积算子、张量变形算子、带孔卷积算子、软最大化算子和空算子中的一种或多种；

所述数据融合方式包括：逐点相加、逐点相乘、矩阵相乘和空操作中的一种或多种。

5.根据权利要求1所述的方法，其特征在于，所述注意力模块，具体通过下述方式确定：

从所述模块结构空间中确定多个初始模块；

在所述模块结构空间对应的综合模块结构中，基于预设的训练样本以及每个所述初始模块对应的主干网络，逐一训练所述多个初始模块；在训练过程中，每个所述初始模块在所述综合模块结构的当前参数基础上训练；

所述多个初始模块训练结束后，从所述模块结构空间对应的综合模块结构中确定所述注意力模块。

6.根据权利要求5所述的方法，其特征在于，基于预设的训练样本以及每个所述初始模块对应的主干网络，逐一训练所述多个初始模块的步骤，包括：

如果所述计算机视觉任务包括目标检测任务，基于预设的目标分类任务对应的训练样本，以及每个所述初始模块对应的主干网络，逐一训练所述多个初始模块；

从所述模块结构空间中再次确定多个初始模块；

基于所述目标检测任务对应的训练样本，以及每个再次确定的所述初始模块对应的主干网络，逐一训练再次确定的所述多个初始模块。

7.根据权利要求5所述的方法，其特征在于，从所述模块结构空间对应的综合模块结构中确定所述注意力模块的步骤，包括：

从所述模块结构空间对应的综合模块结构中确定多个备选模块；

调整所述多个备选模块的模块结构，得到多个变异模块；

根据所述多个备选模块和所述多个变异模块，确定所述注意力模块。

8.根据权利要求7所述的方法，其特征在于，从所述模块结构空间对应的综合模块结构中确定多个备选模块的步骤，包括：

从所述模块结构空间对应的综合模块结构中随机选取多个模块结构；

基于预设的验证样本以及每个所述模块结构对应的主干网络，逐一验证选取的所述多个模块结构，得到每个所述模块结构对应的主干网络的准确率；

根据每个所述模块结构对应的主干网络的准确率，从选取的所述多个模块结构中确定多个备选模块。

9.根据权利要求7所述的方法，其特征在于，根据所述多个备选模块和所述多个变异模块，确定所述注意力模块的步骤，包括：

将所述多个备选模块和所述多个变异模块确定为模块集合；

基于预设的验证样本，以及所述模块集合中每个模块对应的主干网络，逐一验证所述模块集合中的每个模块，得到所述模块集合中每个模块对应的准确率；

根据所述模块集合中每个模块对应的准确率，从所述模块集合中确定出更新的多个备选模块；

继续执行调整所述多个备选模块的模块结构，得到多个变异模块的步骤，直至所述确定出更新的多个备选模块的次数达到预设的次数阈值；

从最后一次确定出的多个备选模块中选取准确率最高的模块，将选取出的模块确定为所述注意力模块。

10.根据权利要求5-9任一项所述的方法，其特征在于，从所述模块结构空间对应的综合模块结构中确定所述注意力模块的步骤之后，所述方法还包括：

基于预设的训练样本，训练所述注意力模块以及所述注意力模块对应的主干网络，直至所述注意力模块对应的主干网络的损失值收敛，得到训练后的所述注意力模块。

11.一种计算机视觉任务的处理装置，其特征在于，所述装置包括：

图像输出模块，用于获取待处理图像，将所述待处理图像输入至预先训练完成的网络模型中，输出所述待处理图像对应的特征数据；

任务完成模块，用于基于所述特征数据，完成预设的计算机视觉任务；

12.一种电子系统，其特征在于，所述电子系统包括：图像采集设备、处理设备和存储装置；

所述图像采集设备，用于获取预览视频帧或图像数据；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理设备运行时执行如权利要求1至10任一项所述的计算机视觉任务的处理方法。

13.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理设备运行时执行如权利要求1至10任一项所述的计算机视觉任务的处理方法的步骤。