CN114418069A

CN114418069A - 一种编码器的训练方法、装置及存储介质

Info

Publication number: CN114418069A
Application number: CN202210061366.4A
Authority: CN
Inventors: 宋奕兵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-04-29
Anticipated expiration: 2042-01-19
Also published as: CN114418069B

Abstract

本申请公开了一种编码器的训练方法以及相关装置，应用于人工智能的计算机视觉领域。通过获取训练图像；对训练图像进行处理操作不同的样本；进一步的将不同的样本分别输入对应的编码器进行特征提取得到特征向量；然后将特征向量输入目标解码器得到对应的预测信息；进而基于预测信息进行损失函数计算，以对第一编码器进行训练。从而实现兼顾全局信息与局部信息的编码器训练过程，通过编码器进行局部特征的提取，并采用目标解码器中的注意力模块进行全局特征的关联，使得训练后的编码器提的特征向量更加精确度，提高图像识别的准确性。

Description

一种编码器的训练方法、装置及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种编码器的训练方法、装置及存储介质。

背景技术

随着人工智能和机器学习技术的快速发展，基于预训练的编码器进行特征提取已经成为常用的图像识别任务的操作流程。

一般，对于编码器的训练过程可以设计“编码器-解码器”(encoder-decoder)的串联结构，以此为基础先将输入图片提取特征到高维空间，再将高维空间的向量通过解码器还原出原图片的样子。通过生成图片和输入图片在像素量级上的对比，便可以间接地进行编码器的学习。

但是，通过生成图片和输入图片在像素量级上进行对比的过程主要关注于局部特征，对于一些复杂的图像处理任务，基于局部特征进行识别可能造成识别对象的丢失，影响图像识别的准确性。

发明内容

有鉴于此，本申请提供一种编码器的训练方法，可以有效提高图像识别的准确性。

本申请第一方面提供一种编码器的训练方法，可以应用于终端设备中包含编码器的训练功能的系统或程序中，具体包括：

获取训练图像；

对该训练图像进行处理操作，以得到第一样本和第二样本，该第一样本和该第二样本采用的处理操作不同；

将该第一样本输入第一编码器进行特征提取得到第一特征向量，并将该第二样本输入第二编码器进行特征提取得到第二特征向量；

将该第一特征向量输入目标解码器得到第一预测信息，并将该第二特征向量输入该目标解码器得到第二预测信息，该目标解码器包含至少两个串行的注意力模块，该注意力模块用于提取该第一特征向量的全局信息和该第二特征向量的全局信息；

将该第一预测信息与该第二预测信息输入目标损失函数，以对该第一编码器进行训练。

可选的，在本申请一些可能的实现方式中，该对该训练图像进行处理操作，以得到第一样本和第二样本，包括：

确定该训练图像的类型；

基于该训练图像的类型获取预设方式集合，该预设方式集合包含至少两个类别的处理方式；

基于不同的该处理方式分别对该训练图像进行处理操作，以得到该第一样本和该第二样本。

可选的，在本申请一些可能的实现方式中，该将该第一特征向量输入目标解码器得到第一预测信息，并将该第二特征向量输入该目标解码器得到第二预测信息，包括：

基于第一映射器将该第一特征向量映射为第一目标向量，并基于第二映射器将该第二特征向量映射为第二目标向量，该第一目标向量的维度数大于该第一特征向量，该第二目标向量的维度数大于该第二特征向量，该第二映射器的映射维度基于该第一映射器传导所得；

将该第一目标向量输入该目标解码器得到该第一预测信息，并将该第二目标向量输入该目标解码器得到该第二预测信息。

可选的，在本申请一些可能的实现方式中，该方法还包括：

获取目标任务在图像识别过程中采用的目标特征维度；

基于该目标特征维度对该第一映射器进行映射维度配置，以使得该第一映射器将该目标特征维度传导至该第二映射器进行映射维度配置；

基于映射维度配置后的该第一映射器将该第一特征向量映射为第一目标向量，并基于映射维度配置后的该第二映射器将该第二特征向量映射为第二目标向量。

将该第一特征向量输入该目标解码器中的第一全连接层得到第一分类向量，并将该第二特征向量输入该目标解码器中的第二全连接层得到第二分类向量；

将该第一分类向量输入该多头注意力层提取该第一特征向量的全局信息，并将该第二分类向量输入该多头注意力层提取该第二特征向量的全局信息；

将该第一特征向量的全局信息输入该第三全连接层得到该第一预测信息，并将该第二特征向量的全局信息输入该第三全连接层得到该第二预测信息。

可选的，在本申请一些可能的实现方式中，该方法还包括：

获取目标任务对应的特征分布信息；

提取该特征分布信息对应的注意力分布，以确定空间关注度；

基于该空间关注度对该目标解码器对应的注意力模块数量进行配置。

可选的，在本申请一些可能的实现方式中，该方法还包括：

获取该多头注意力层中配置的位置编码参数；

为该位置编码参数配置调整参数，以使得该位置编码参数在对第一编码器进行训练过程中进行参数调整。

可选的，在本申请一些可能的实现方式中，该将该第一预测信息与该第二预测信息输入目标损失函数，以对该第一编码器进行训练，包括：

将该第一预测信息与该第二预测信息输入该目标损失函数，以使得该第一预测信息与该第二预测信息在目标维度的特征距离进行靠近；

基于该特征距离的靠近过程确定网络参数；

根据该网络参数进行反向传播，以对该第一编码器进行训练。

可选的，在本申请一些可能的实现方式中，该方法还包括：

确定该第一编码器在训练过程中对应的参数信息；

将该参数信息迁移至第二编码器，以对该第二编码器进行训练。

可选的，在本申请一些可能的实现方式中，该方法还包括：

获取用于计算该网络参数的候选计算方式；

分别基于该候选计算方式进行网络参数的确定，以确定候选参数集合；

通过该候选参数集合中的网络参数分别对第一编码器进行训练，以得到候选编码器集合；

基于评估任务对该候选编码器集合中的编码器进行能力评估，以确定目标编码器；

确定该目标编码器对应的目标计算方式，以对该第一编码器的训练过程进行配置，该目标计算方式包括点积计算、二范数计算或一范数计算。

可选的，在本申请一些可能的实现方式中，该方法还包括：

对该训练图像进行处理操作，以得到第三样本，该第三样本、该第一样本和该第二样本所采用的处理操作不同；

将该第三样本输入第三编码器进行特征提取得到第三特征向量；

将该第三特征向量输入目标解码器得到第三预测信息；

将该第一预测信息与该第三预测信息输入该目标损失函数，以对训练后的该第一编码器进行参数调整。

可选的，在本申请一些可能的实现方式中，该第一编码器为卷积神经网络，该方法还包括：

获取待识别图像；

将该待识别图像输入该卷积神经网络进行特征提取，以得到目标特征；

基于该目标特征执行图像处理任务，以得到任务处理结果，该图像处理任务包括图像识别任务、图像分割任务或图像检测任务。

本申请第二方面提供一种编码器的训练装置，包括：获取单元，用于获取训练图像；

处理单元，用于对该训练图像进行处理操作，以得到第一样本和第二样本，该第一样本和该第二样本采用的处理操作不同；

训练单元，用于将该第一样本输入第一编码器进行特征提取得到第一特征向量，并将该第二样本输入第二编码器进行特征提取得到第二特征向量；

该训练单元，还用于将该第一特征向量输入目标解码器得到第一预测信息，并将该第二特征向量输入该目标解码器得到第二预测信息，该目标解码器包含至少两个串行的注意力模块，该注意力模块用于提取该第一特征向量的全局信息和该第二特征向量的全局信息；

该训练单元，还用于将该第一预测信息与该第二预测信息输入目标损失函数，以对该第一编码器进行训练。

可选的，在本申请一些可能的实现方式中，可选的，在本申请一些可能的实现方式中，该处理单元，具体用于确定该训练图像的类型；

该处理单元，具体用于基于该训练图像的类型获取预设方式集合，该预设方式集合包含至少两个类别的处理方式；

该处理单元，具体用于基于不同的该处理方式分别对该训练图像进行处理操作，以得到该第一样本和该第二样本。

可选的，在本申请一些可能的实现方式中，该训练单元，具体用于基于第一映射器将该第一特征向量映射为第一目标向量，并基于第二映射器将该第二特征向量映射为第二目标向量，该第一目标向量的维度数大于该第一特征向量，该第二目标向量的维度数大于该第二特征向量，该第二映射器的映射维度基于该第一映射器传导所得；

该训练单元，具体用于将该第一目标向量输入该目标解码器得到该第一预测信息，并将该第二目标向量输入该目标解码器得到该第二预测信息。

可选的，在本申请一些可能的实现方式中，该训练单元，具体用于获取目标任务在图像识别过程中采用的目标特征维度；

该训练单元，具体用于基于该目标特征维度对该第一映射器进行映射维度配置，以使得该第一映射器将该目标特征维度传导至该第二映射器进行映射维度配置；

该训练单元，具体用于基于映射维度配置后的该第一映射器将该第一特征向量映射为第一目标向量，并基于映射维度配置后的该第二映射器将该第二特征向量映射为第二目标向量。

可选的，在本申请一些可能的实现方式中，该训练单元，具体用于将该第一特征向量输入该目标解码器中的第一全连接层得到第一分类向量，并将该第二特征向量输入该目标解码器中的第二全连接层得到第二分类向量；

该训练单元，具体用于将该第一分类向量输入该多头注意力层提取该第一特征向量的全局信息，并将该第二分类向量输入该多头注意力层提取该第二特征向量的全局信息；

该训练单元，具体用于将该第一特征向量的全局信息输入该第三全连接层得到该第一预测信息，并将该第二特征向量的全局信息输入该第三全连接层得到该第二预测信息。

可选的，在本申请一些可能的实现方式中，该训练单元，具体用于获取目标任务对应的特征分布信息；

该训练单元，具体用于提取该特征分布信息对应的注意力分布，以确定空间关注度；

该训练单元，具体用于基于该空间关注度对该目标解码器对应的注意力模块数量进行配置。

可选的，在本申请一些可能的实现方式中，该训练单元，具体用于获取该多头注意力层中配置的位置编码参数；

该训练单元，具体用于为该位置编码参数配置调整参数，以使得该位置编码参数在对第一编码器进行训练过程中进行参数调整。

可选的，在本申请一些可能的实现方式中，该训练单元，具体用于将该第一预测信息与该第二预测信息输入该目标损失函数，以使得该第一预测信息与该第二预测信息在目标维度的特征距离进行靠近；

该训练单元，具体用于基于该特征距离的靠近过程确定网络参数；

该训练单元，具体用于根据该网络参数进行反向传播，以对该第一编码器进行训练。

可选的，在本申请一些可能的实现方式中，该训练单元，具体用于确定该第一编码器在训练过程中对应的参数信息；

该训练单元，具体用于将该参数信息迁移至第二编码器，以对该第二编码器进行训练。

可选的，在本申请一些可能的实现方式中，该训练单元，具体用于获取用于计算该网络参数的候选计算方式；

该训练单元，具体用于分别基于该候选计算方式进行网络参数的确定，以确定候选参数集合；

该训练单元，具体用于通过该候选参数集合中的网络参数分别对第一编码器进行训练，以得到候选编码器集合；

该训练单元，具体用于基于评估任务对该候选编码器集合中的编码器进行能力评估，以确定目标编码器；

该训练单元，具体用于确定该目标编码器对应的目标计算方式，以对该第一编码器的训练过程进行配置，该目标计算方式包括点积计算、二范数计算或一范数计算。

可选的，在本申请一些可能的实现方式中，该训练单元，具体用于对该训练图像进行处理操作，以得到第三样本，该第三样本、该第一样本和该第二样本所采用的处理操作不同；

该训练单元，具体用于将该第三样本输入第三编码器进行特征提取得到第三特征向量；

该训练单元，具体用于将该第三特征向量输入目标解码器得到第三预测信息；

该训练单元，具体用于将该第一预测信息与该第三预测信息输入该目标损失函数，以对训练后的该第一编码器进行参数调整。

可选的，在本申请一些可能的实现方式中，该第一编码器为卷积神经网络，该训练单元，具体用于获取待识别图像；

该训练单元，具体用于将该待识别图像输入该卷积神经网络进行特征提取，以得到目标特征；

该训练单元，具体用于基于该目标特征执行图像处理任务，以得到任务处理结果，该图像处理任务包括图像识别任务、图像分割任务或图像检测任务。

本申请第三方面提供一种计算机设备，包括：存储器、处理器以及总线系统；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的编码器的训练方法。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的编码器的训练方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的编码器的训练方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过获取训练图像；然后对训练图像进行处理操作，以得到第一样本和第二样本，该第一样本和第二样本采用的处理操作不同；进一步的将第一样本输入第一编码器进行特征提取得到第一特征向量，并将第二样本输入第二编码器进行特征提取得到第二特征向量；然后将第一特征向量输入目标解码器得到第一预测信息，并将第二特征向量输入目标解码器得到第二预测信息，目标解码器包含至少两个串行的注意力模块，注意力模块用于提取第一特征向量的全局信息和第二特征向量的全局信息；进而将第一预测信息与第二预测信息输入目标损失函数，以对第一编码器进行训练。从而实现兼顾全局信息与局部信息的编码器训练过程，通过编码器进行局部特征的提取，然后通过目标解码器中的注意力模块进行全局特征的关联以得到全局信息，使得训练后的编码器既能够关注局部信息，又能够有效地兼顾全局信息，从而提高特征向量提取的精确度，提高图像识别的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为编码器的训练系统运行的网络架构图；

图2为本申请实施例提供的一种编码器的训练的流程架构图；

图3为本申请实施例提供的一种编码器的训练方法的流程图；

图4为本申请实施例提供的一种编码器的训练方法的场景示意图；

图5为本申请实施例提供的另一种编码器的训练方法的模型结构示意图；

图6为本申请实施例提供的另一种编码器的训练方法的模型结构示意图；

图7为本申请实施例提供的另一种编码器的训练方法的模型结构示意图；

图8为本申请实施例提供的另一种编码器的训练方法的模型结构示意图；

图9为本申请实施例提供的另一种编码器的训练方法的模型结构示意图；

图10为本申请实施例提供的另一种编码器的训练方法的流程图；

图11为本申请实施例提供的一种编码器的训练装置的结构示意图；

图12为本申请实施例提供的一种终端设备的结构示意图；

图13为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

本申请实施例提供了一种编码器的训练方法以及相关装置，可以应用于终端设备中包含编码器的训练功能的系统或程序中。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例中可能出现的一些名词进行解释。

语言理解的深度双向变换器预训练(Bidirectional Encoder Representationsfrom Transformers，BERT)：一种预训练模型，其主要结构是双向的Transformer模块。该预训练模型主要运用在自然语言的相关任务领域。

深度自注意力变换网络(Transformer)：一种编码器，也是首个得到广泛关注的深度自注意力变换网络，该网络提取的特征具有比较好的空间专注度性质。

卷积神经网络(Convolutional Neural Network,CNN)：一种由卷积数学运算构建的前馈神经网络，其网络内部的神经元可以响应输入图像的部分区域，一半主要运用在自然图像的相关任务领域。

自监督学习：自监督学习主要是利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。

表征学习：一个学习特征的技术的集合，将原始数据转换成为能够被机器学习来有效开发的一种形式。

映射器(Projector)：一个简单的多层感知机网络，主要由全连接层、激活层和标准化层组成。

多头注意力层(Multi-head attention,MHA)：Transformer网络中一个特殊的结构，其中包含多个点积运算，该层的特殊设计使得Transformer网络能够输出具有全局信息的特征。

应理解，本申请提供的编码器的训练方法可以应用于终端设备中包含编码器的训练功能的系统或程序中，例如图像管理，具体的，编码器的训练系统可以运行于如图1所示的网络架构中，如图1所示，是编码器的训练系统运行的网络架构图，如图可知，编码器的训练系统可以提供与多个信息源的编码器的训练过程，即通过终端侧的图像识别请求或训练请求触发服务器进行编码器的训练，训练后的编码器可以适配于终端侧所需求的图像识别任务；可以理解的是，图1中示出了多种终端设备，终端设备可以为计算机设备，在实际场景中可以有更多或更少种类的终端设备参与到编码器的训练的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多模型训练交互的场景中，具体服务器数量因实际场景而定。

本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，终端以及服务器可以连接组成区块链网络，本申请在此不做限制。

可以理解的是，上述编码器的训练系统可以运行于个人移动终端，例如：作为图像管理这样的应用，也可以运行于服务器，还可以作为运行于第三方设备以提供编码器的训练，以得到信息源的编码器的训练处理结果；具体的编码器的训练系统可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的系统部件进行运行，还可以作为云端服务程序的一种，本实施例可应用于云技术、自动驾驶等场景，具体运作模式因实际场景而定，此处不做限定。

为了解决上述问题，本申请提出了一种编码器的训练方法，应用于计算机视觉技术中，计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、检测和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

具体的，该方法应用于图2所示的编码器的训练的流程框架中，如图2所示，为本申请实施例提供的一种编码器的训练的流程架构图，图中示出了为了保证终端图像识别任务的执行，可以在服务器侧进行相应编码器的配置，具体通过训练图像的提取，并进行不同的预处理得到训练样本，然后进行双路结构的编码器+目标解码器的训练过程，从而对编码器进行训练配置。

具体的，本实施例中的编码器可用于训练数据缺乏标注信息的应用场景。比如将本实施例的算法框架应用于互联网的图像识别，可以通过训练互联网上数以亿计的无标注图像，从而学习到一个更高质量的特征提取器，以适用于其余视觉下游任务。

在一种可能的场景中，本实施例中的编码器为CNN，而目标解码器为Transformer，即本实施例提供了一种基于Transformer辅助的自监督视觉表征学习框架。该框架借鉴了BERT大规模预训练模型的做法，将Transformer结构引入到了现有的视觉自监督框架之中，并引入了新的训练策略。本实施例所设计的自监督表征学习训练框架能够让CNN编码器学习到更有效、更高质量的高维特征(high-level feature)。同时，通过大量实验证明，在本实施例提出的算法框架下训练得到的CNN编码器能够很好地在多种下游任务上取得更好的表现。当下的视觉自监督训练框架主要是利用CNN编码器设计相应的辅助任务(pretext)，从而使得CNN编码器能够在不同输入信息中(视觉图像信息)提取到有效的特征。但是由于CNN编码器网络本身具有一定的局限性，在仅用CNN编码器设计的自监督框架之下，训练得到的编码器在多种下游任务中无法取得较为良好的表现。在自监督领域中，由Transformer结构构件的BERT框架被一致认为是一种有效的学习框架。

可以理解的是，本实施例以CNN编码器为基础，通过进一步引入Transformer的结构(如图1的顶端)，将CNN的提取特征解码到高维空间之中，并在高维空间中针对Transformer输出的特征进行损失函数的设计，旨在拉近同一样本在高维空间的距离，从而使得CNN编码器既能够关注局部信息，又能够有效地兼顾全局信息。在本发明设计下训练得到的CNN编码器，可以在下游的图像分类，图像检测以及图像分割任务上均得到更好的性能。

可以理解的是，本申请所提供的方法可以为一种程序的写入，以作为硬件系统中的一种处理逻辑，也可以作为一种编码器的训练装置，采用集成或外接的方式实现上述处理逻辑。作为一种实现方式，该编码器的训练装置通过获取训练图像；然后对训练图像进行处理操作，以得到第一样本和第二样本，该第一样本和第二样本采用的处理操作不同；进一步的将第一样本输入第一编码器进行特征提取得到第一特征向量，并将第二样本输入第二编码器进行特征提取得到第二特征向量；然后将第一特征向量输入目标解码器得到第一预测信息，并将第二特征向量输入目标解码器得到第二预测信息，目标解码器包含至少两个串行的注意力模块，注意力模块用于提取第一特征向量的全局信息和第二特征向量的全局信息；进而将第一预测信息与第二预测信息输入目标损失函数，以对第一编码器进行训练。从而实现兼顾全局信息与局部信息的编码器训练过程，通过编码器进行局部特征的提取，然后通过目标解码器中的注意力模块进行全局特征的关联以得到全局信息，使得训练后的编码器既能够关注局部信息，又能够有效地兼顾全局信息，从而提高特征向量提取的精确度，提高图像识别的准确性。

本申请实施例提供的方案涉及人工智能的计算机视觉技术，具体通过如下实施例进行说明：

结合上述流程架构，下面将对本申请中编码器的训练方法进行介绍，请参阅图3，图3为本申请实施例提供的一种编码器的训练方法的流程图，该训练方法可以是由服务器执行的，本申请实施例至少包括以下步骤：

301、获取训练图像。

本实施例中，训练图像可以是基于目标任务(图像识别任务)配置的，例如图像识别任务主要涉及人物场景，则训练图像可以是包含人物特征的图像集合；或图像识别任务主要涉及目标应用的场景识别，则训练图像可以是目标应用在历史记录中涉及的图像集合，具体图像来源因实际场景而定，此处不作限定。

302、对训练图像进行处理操作，以得到第一样本和第二样本。

本实施例中，第一样本和第二样本采用的处理操作不同，即第一样本和第二样本为同一图像采用不同图像预处理操作所得的样本。

在本实施例中，图像预处理的一方面是消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性、最大限度地简化数据，从而改进特征提取、图像分割、匹配和识别的可靠性。另一方面，通过不同的预处理方式处理同一训练图像，是为了构建编码器对于同一图像在特征维度空间里特征之间的关联性，即将同一特征在不同特征维度进行关联。

具体的，由于图像预处理可以包含不同处理类型的方式，为了提高样本之间的差异度，以使得后续学习过程中特征之间的关联性更加广泛，可以进行不同类型的图像预处理过程，即首先确定训练图像的类型；然后基于训练图像的类型获取预设方式集合，该预设方式集合包含至少两个类别的处理方式；进而基于不同的处理方式分别对训练图像进行处理操作，以得到第一样本和第二样本。其中，处理方式可以包含灰度化处理方式、几何变换处理方式以及图像增强处理方式中的一种或多种。

具体的，对于灰度化处理方式，即在RGB模型中，如果R＝G＝B时，则彩色表示一种灰度颜色，其中R＝G＝B的值叫灰度值，因此，灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮度值)，灰度范围为0-255。一般有分量法最大值法平均值法加权平均法四种方法对彩色图像进行灰度化。

可以理解的是，对彩色图像进行处理时，其往往需要对三个通道依次进行处理，时间开销将会很大。因此，为了达到提高整个应用系统的处理速度的目的，需要减少所需处理的数据量。

具体减少处理的数据量可以采用分量法，即将彩色图像中的三分量的亮度作为三个灰度图像的灰度值，可根据应用需要选取一种灰度图像。

f1(i,j)＝R(i,j)f2(i,j)＝G(i,j)f3(i,j)＝B(i,j)

其中，fk(i,j)(k＝1,2,3)为转换后的灰度图像在(i,j)处的灰度值。

另外，对于彩色图像，可以采用彩色图的三分量灰度图进行处理，即R分量灰度图、G分量灰度图或B分量灰度图。

另外，还可以通过最大值法减少处理的数据量，即将彩色图像中的三分量亮度的最大值作为灰度图的灰度值。

另外，还可以通过平均值法减少处理的数据量，即将彩色图像中的三分量亮度求平均得到一个灰度值。

另外，还可以通过加权平均法减少处理的数据量，即根据重要性及其它指标，将三个分量以不同的权值进行加权平均。由于人眼对绿色的敏感最高，对蓝色敏感最低，因此，按下式对RGB三分量进行加权平均能得到较合理的灰度图像。

在另一种可能的场景中，对于几何变换处理方式，即通过平移、转置、镜像、旋转、缩放等几何变换对采集的图像进行处理，用于改正图像采集系统的系统误差和仪器位置(成像角度、透视关系乃至镜头自身原因)的随机误差。此外，还需要使用灰度插值算法，因为按照这种变换关系进行计算，输出图像的像素可能被映射到输入图像的非整数坐标上。通常采用的方法有最近邻插值、双线性插值和双三次插值。

在另一种可能的场景中，对于图像增强处理方式，即增强图像中的有用信息，它可以是一个失真的过程，其目的是要改善图像的视觉效果，针对给定图像的应用场合，有目的地强调图像的整体或局部特性，将原来不清晰的图像变得清晰或强调某些感兴趣的特征，扩大图像中不同物体特征之间的差别，抑制不感兴趣的特征，使之改善图像质量、丰富信息量，加强图像判读和识别效果，满足某些特殊分析的需要。图像增强算法可分成两大类：空间域法和频率域法。

具体的，空间域法是一种直接图像增强算法，分为点运算算法和邻域去噪算法。点运算算法即灰度级校正、灰度变换(又叫对比度拉伸)和直方图修正等。邻域增强算法分为图像平滑和锐化两种。平滑常用算法有均值滤波、中值滤波、空域滤波。锐化常用算法有梯度算子法、二阶导数算子法、高通滤波、掩模匹配法等。

具体的，频率域法是一种间接图像增强算法，常用的频域增强方法有低通滤波器和高通滤波器。低频滤波器有理想低通滤波器、巴特沃斯低通滤波器、高斯低通滤波器、指数滤波器等。高通滤波器有理想高通滤波器、巴特沃斯高通滤波器、高斯高通滤波器、指数滤波器。

应当注意力的，具体采用的预处理方式可以是上述方式中的一种或多种的组合，具体处理方式因实际场景而定。

303、将第一样本输入第一编码器进行特征提取得到第一特征向量，并将第二样本输入第二编码器进行特征提取得到第二特征向量。

本实施例中，第一编码器和第二编码器即用于对相应的输入样本进行局部特征的提取，其对任意的CNN编码器均具有一定的适用性，因此在CNN编码器的选取上有着很好的灵活性。例如，ResNet50，ResNet101以及ResNet152皆可以作为本实施例的CNN编码器。同样，其余基于卷积层的深度网络结构也能够当作本实施例的编码器，例如VGG，GoogleNet等，具体的编码器形式可以是上述示例中的任意一种，下述实施例中以CNN为例进行说明，并不作限定。

具体的，本实施例中的训练框架如图4所示，图4为本申请实施例提供的一种编码器的训练方法的场景示意图；图中示出了一种以第一编码器和第二编码器为基础的双路结构，通过进一步引入目标解码器(Transformer)的结构(如图1的顶端)，将第一编码器和第二编码器的提取特征解码到高维空间之中，并在高维空间中针对Transformer输出的第一预测信息以及第二预测信息进行相互预测，即进行损失函数的计算，旨在拉近同一样本在高维空间的距离，从而使得CNN编码器既能够关注局部信息，又能够有效地兼顾全局信息。

304、将第一特征向量输入目标解码器得到第一预测信息，并将第二特征向量输入目标解码器得到第二预测信息。

本实施例中，目标解码器包含至少两个串行的注意力模块，注意力模块用于提取第一特征向量的全局信息和第二特征向量的全局信息；

具体的，本实施例中注意力模块的结构如图5所示，图5为本申请实施例提供的另一种编码器的训练方法的模型结构示意图；即对于目标解码器中的一个注意力模块首先将第一特征向量输入目标解码器中的第一全连接层得到第一分类向量，并将第二特征向量输入目标解码器中的第二全连接层得到第二分类向量；然后将第一分类向量输入多头注意力层提取第一特征向量的全局信息，并将第二分类向量输入多头注意力层提取第二特征向量的全局信息；进而将第一特征向量的全局信息输入第三全连接层得到第一预测信息，并将第二特征向量的全局信息输入第三全连接层得到第二预测信息，具体的，对于将第一特征向量的全局信息输入第三全连接层得到第一预测信息的过程即将第一特征向量的全局信息输入第二注意力模块模块重复上述过程，从而得到第一预测信息，具体的注意力模块数量因实际场景而定。

可以理解的是，本实施例注意力模块对于样本的处理过程即首先进行图像分块，分别提取Query，Key，Value，然后通过Query与Key矩阵相乘提取相关权重，并归一化，之后与Value点乘，最后与原输入残差求和，进而进行接下来的损失函数的计算。其中，MHA层利用多个查询Query＝[q1,…,qM]来平行地计算从输入信息中选取多个信息。即每个注意力关注输入信息的不同部分，然后再进行拼接利用多头注意力扩展了模型集中于不同位置的能力，并将不同位置的特征进行关联，从而使得编码器可以具有学习到图像特征的全局信息能力。

在一种可能的场景中，目标解码器即为Transformer结构，下面结合图6进行说明。图6为本申请实施例提供的另一种编码器的训练方法的模型结构示意图；图中示出了注意力模块以编码器输出的高维向量

为输入，进行全连接后输入多头注意力层(Multi-head attention,MHA)，MHA层可以很好地学习到兼具全局信息以及空间关注度的特征。并输出兼具全局信息以及空间关注度的特征。本实施例所设计的Transformer主要包括4个串行的注意力模块(attention block)，其中单个注意力模块如图6所示。其中，单个block主要包含由一个全连接层(fully connected layers，FC)，一个MHA层以及额外一个全连接层(fully connected layers，FC)组成。

另外，对于Transformer结构可以设计的更为复杂，例如使用更多的注意力模块(attention block)。具体的，注意力模块的数量可以根据目标任务的识别需求进行配置。即首先获取目标任务对应的特征分布信息，例如重点特征集合；然后提取特征分布信息对应的注意力分布，以确定空间关注度；进而基于空间关注度对目标解码器对应的注意力模块数量进行配置，从而提高编码器在目标任务中的适配性。

在另一种可能的场景中，Transformer结构中的位置编码模块(如图6的pos模块)，可以有多种设计，例如在pos模块里引入可学习的参数，即首先获取多头注意力层中配置的位置编码参数；然后为位置编码参数配置调整参数，以使得位置编码参数在对第一编码器进行训练过程中进行参数调整，从而提高注意力模块在进行图像分块过程中的准确性。

305、将第一预测信息与第二预测信息输入目标损失函数，以对第一编码器进行训练。

本实施例中，损失函数作用于第一预测信息

第二预测信息

其主要目的是拉近

在高维空间的距离，以达到互相预测的目的，本实施例中主要选用点积的数学操作进行计算，且该损失函数主要用于更新Transformer网络参数以及双路CNN编码器的其中一路网络参数。

具体的，对第一编码器进行训练的过程即首先第一预测信息与第二预测信息输入目标损失函数，以使得第一预测信息与第二预测信息在目标维度的特征距离进行靠近；然后基于特征距离的靠近过程确定网络参数；进而根据网络参数进行反向传播，以对第一编码器进行训练。

在一种可能的场景中，第一特征向量和第二特征向量在输入目标解码器之前，还可以进行高维映射的过程，即使得编码器学习到训练图像中更多的高维特征，具体的训练框架如图7所示，图7为本申请实施例提供的另一种编码器的训练方法的模型结构示意图；即在特征向量输入目标解码器之前进行映射器的高维映射操作，即首先基于第一映射器将第一特征向量映射为第一目标向量，并基于第二映射器将第二特征向量映射为第二目标向量，该第一目标向量的维度数大于第一特征向量，第二目标向量的维度数大于第二特征向量，第二映射器的映射维度基于第一映射器传导所得；然后将第一目标向量输入目标解码器得到第一预测信息，并将第二目标向量输入目标解码器得到第二预测信息。

具体的，映射器(projector)主要结构为多层感知器(Multilayer Perceptron，MLP)。进一步的，本实施例中的映射器主要包含两个全线性连接层(fully connectedlayers，FC)，一个激活层，以及一个标准化层(Batch Normalization，BN)。

下面，结合第一编码器和第二编码器为CNN模型，目标编码器为Transformer的场景进行说明，如图8所示。图8为本申请实施例提供的另一种编码器的训练方法的模型结构示意图；图中示出了训练框架主要包括两个CNN编码器，两个映射器(projector)以及一个Transformer结构的解码器。

首先将输入图片x进行两次不同的预处理得到两个正样本x₁,x₂。其次双路结构上的两个CNN编码器分别提取x_A,x_B的两组特征，得到

后续将特征向量

输入到对应的映射器得到相应更高维特征

至此，双路的CNN编码器已完成全部的特征提取工作，后续其引入Transformer的结构，该结构以

为输入，输出

引入该结构是希望

能通过Transformer达到互相预测的目的，即通过Transformer使得

能够预测另一正样本的高维特征

同时使得

能够预测同一正样本的高维特征

至此，算法框架的前项过程已经完成，后续通过对

进行针对性的损失函数设计(见3.2.4节)进行反向传播，以更新部分网络参数。本实施例在反向传播过程中，仅更新Transformer以及双路CNN编码器的其中一路，而双路CNN编码器的另外一路将利用动量更新的数学手段进行。

在训练过程中，双路CNN编码器的另一路分支主要通过动量更新的方式来更新参数。所谓动量更新指的主要是利用当前损失函数更新的CNN编码器的网络参数，以及其之前时刻的网络参数信息，来动量更新其另一路分支的网络参数，即首先确定第一编码器在训练过程中对应的参数信息；然后将参数信息迁移至第二编码器，以对第二编码器进行训练，从而提高参数调整的效率。

另外，对于T_xA,T_xB的损失函数也可以采用二范数，一范数等数学运算进行。

在一种可能的场景中，为了提高损失函数计算的准确性，可以对不同的计算方式进行比较评估，即首先获取用于计算网络参数的候选计算方式；然后分别基于候选计算方式进行网络参数的确定，以确定候选参数集合；并通过候选参数集合中的网络参数分别对第一编码器进行训练，以得到候选编码器集合；进一步的基于评估任务对候选编码器集合中的编码器进行能力评估，以确定目标编码器；进而确定目标编码器对应的目标计算方式，以对第一编码器的训练过程进行配置；其中，目标计算方式包括点积计算、二范数计算或一范数计算，从而提高计算方式与不同编码器训练任务的适配性。

上述实施例介绍了基于CNN的双路结构，而在本实施例中还可以是三路或更多路的结构组成，即出第一路外的其他路都是为了对第一路的编码器进行相似度计算以达到相互预测的目的。

下面，以三路结构为例进行说明，即首先对于对训练图像进行处理操作，以得到第三样本，第三样本、第一样本和第二样本所采用的处理操作不同；然后将第三样本输入第三编码器进行特征提取得到第三特征向量；并将第三特征向量输入目标解码器得到第三预测信息；进而将第一预测信息与第三预测信息输入目标损失函数，以对训练后的第一编码器进行参数调整，从而实现同一图像的三路高维信息的相互预测过程。

具体的，三路结构如图9所示，图9为本申请实施例提供的另一种编码器的训练方法的模型结构示意图；图中示出了训练框架主要包括三个CNN编码器，三个映射器(projector)以及一个Transformer结构的解码器。首先将输入图片进行三种不同的预处理，其次将不同预处理后的样本分别输入三个CNN编码器得到三个特征向量，后续利用三个映射器(projector)将CNN提取的特征向量分别映射到更高维度的特征，最后利用Transformer结构的解码器对上述特征进行计算并输出三个高维特征向量T_xA,T_xB,T_xC。

本实施例通过设计损失函数，拉近同一样本特征向量T_xA,T_xB,T_xC在高维空间上的距离，达到三个特征互相预测的目的。在这样的设计下，CNN编码器能够具有对图像全局的感知信息，从而让CNN编码器能够在不同输入信息下皆可以学习到有效的特征，这将更有利于一些需要感知全局信息的下游任务，例如图像检测，图像分割等等。总的而言，该算法框架通过引入Transformer的结构到视觉的自监督任务之上，同时针对性设计了Transformer解码器的结构，以及相应的损失函数，从而能够帮助CNN编码器达到很好的自监督视觉表征学习的效果。

本实施例通过对第一编码器进行训练，使得第一编码器具有图像局部信息以及全局信息的表征能力；在识别过程中，通过获取待识别图像；然后将待识别图像输入卷积神经网络进行特征提取，以得到目标特征；进而基于目标特征执行图像处理任务，以得到任务处理结果，图像处理任务包括图像识别任务、图像分割任务或图像检测任务，具体的任务因实际场景而定，此处不作限定。

本实施例在自监督算法框架下引入了Transformer的结构。利用Transformer编码器特有的全局特征以及空间专注度特征，以此来帮助CNN编码器提取的高位特征向量进行相互的预测，从而更有效地帮助CNN编码器进行学习。通过下游任务的实际测试表明，在本实施例提出的算法框架下训练得到的CNN编码器有着更高的性能。同时本实施例对于不同的CNN编码器均能起到正面的性能提升作用，所以本实施例具有一定的普适性。

结合上述实施例可知，通过获取训练图像；然后对训练图像进行处理操作，以得到第一样本和第二样本，该第一样本和第二样本采用的处理操作不同；进一步的将第一样本输入第一编码器进行特征提取得到第一特征向量，并将第二样本输入第二编码器进行特征提取得到第二特征向量；然后将第一特征向量输入目标解码器得到第一预测信息，并将第二特征向量输入目标解码器得到第二预测信息，目标解码器包含至少两个串行的注意力模块，注意力模块用于提取第一特征向量的全局信息和第二特征向量的全局信息；进而将第一预测信息与第二预测信息输入目标损失函数，以对第一编码器进行训练。从而实现兼顾全局信息与局部信息的编码器训练过程，通过编码器进行局部特征的提取，然后通过目标解码器中的注意力模块进行全局特征的关联以得到全局信息，使得训练后的编码器既能够关注局部信息，又能够有效地兼顾全局信息，从而提高特征向量提取的精确度，提高图像识别的准确性。

在一种可能的实施例中，本实施例可用于训练数据缺乏标注信息的应用场景。比如将本实施例的算法框架应用于互联网的图像识别，可以通过训练互联网上数以亿计的无标注图像，从而学习到一个更高质量的特征提取器，以适用于其余视觉下游任务。下面对该场景进行说明。请参阅图10，图10为本申请实施例提供的另一种编码器的训练方法的流程图，本申请实施例至少包括以下步骤：

1001、图像识别任务配置。

本实施例中，图像识别任务还可以包括图像分割任务或图像检测任务中的一种或多种，具体任务类型因实际场景而定。

1002、获取训练图像。

1003、对训练图像进行处理操作，以得到第一样本和第二样本。

1004、将第一样本输入第一编码器进行特征提取得到第一特征向量，并将第二样本输入第二编码器进行特征提取得到第二特征向量。

本实施例中，步骤1002-1004的过程与图3所示实施例的步骤301-303相似，具体描述可以进行参考，此处不作赘述。

1005、确定图像识别任务采用的目标特征维度。

本实施例中，目标特征维度基于图像特征进行维度判断所得，其中，图像特征主要有图像的颜色特征、纹理特征、形状特征和空间关系特征。

具体的，颜色特征是一种全局特征，描述了图像或图像区域所对应的景物的表面性质。另外，纹理特征也是一种全局特征，它也描述了图像或图像区域所对应景物的表面性质。但由于纹理只是一种物体表面的特性，并不能完全反映出物体的本质属性，所以仅仅利用纹理特征是无法获得高层次图像内容的。与颜色特征不同，纹理特征不是基于像素点的特征，它需要在包含多个像素点的区域中进行统计计算。

进一步的，形状特征有两类表示方法，一类是轮廓特征，另一类是区域特征。图像的轮廓特征主要针对物体的外边界，而图像的区域特征则关系到整个形状区域。

在一些可能的场景中，图像特征还包括空间关系，空间关系是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系，这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等。通常空间位置信息可以分为两类：相对空间位置信息和绝对空间位置信息。前一种关系强调的是目标之间的相对情况，如上下左右关系等，后一种关系强调的是目标之间的距离大小以及方位。

1006、基于第一映射器将第一特征向量映射为第一目标向量，并基于第二映射器将第二特征向量映射为第二目标向量。

本实施例中，第一映射器的维度通过终端发送的目标特征维度进行配置，即首先获取目标任务在图像识别过程中采用的目标特征维度；然后基于目标特征维度对第一映射器进行映射维度配置，以使得第一映射器将目标特征维度传导至第二映射器进行映射维度配置；然后基于映射维度配置后的第一映射器将第一特征向量映射为第一目标向量，并基于映射维度配置后的第二映射器将第二特征向量映射为第二目标向量，从而保证了编码器训练过程与目标任务的适配性。

本实施例中，映射器的主要结构为多层感知器(Multilayer Perceptron，MLP)。进一步的，本实施例中的映射器主要包含两个全线性连接层(fully connected layers，FC)，一个激活层，以及一个标准化层(Batch Normalization，BN)。

1007、将第一目标向量输入目标解码器得到第一预测信息，并将第二目标向量输入目标解码器得到第二预测信息。

1008、将第一预测信息与第二预测信息输入目标损失函数，以对第一编码器进行训练。

本实施例中，对于第一编码器进行训练的过程与图3所示实施例的步骤305相似，具体特征描述可以进行参考，此处不作赘述。

1009、配置训练后的第一编码器。

本实施例中，终端通过接收服务器发送的训练后的第一编码器进行图像特征向量的提取，即对图像进行表征的过程。

1010、执行图像识别任务。

本实施例中，终端基于训练后的第一编码器进行特征向量的提取后，可以进行对象的识别、检测或分割，具体任务因实际场景而定。

1011、性能评估，并进行调整。

本实施例中，通过对于图像识别任务中识别准确率的判定，得到性能评估结果，以便于相关人员对服务器侧编码器的训练框架进行参数调整，具体参数调整的过程包括但不限于注意力模块数量的调整、位置编码方式的调整或损失函数计算方式的调整。

本实施例中，综合考量了基于Transformer自监督框架，以及基于CNN编码器自监督框架的优点，并结合目标任务的实际需求；通过在传统的基于CNN编码器的自监督框架中引入Transformer的结构，将CNN编码器提取的两个特征向量进一步预测到高维特征之中，从而实现两个高维特征向量的互相预测。这样的结构设计能够更有效地学习到更高质量的，同时兼顾输入图像局部和全局信息的CNN编码器。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图11，图11为本申请实施例提供的一种编码器的训练装置的结构示意图，编码器的训练装置1100包括：

获取单元1101，用于获取训练图像；

处理单元1102，用于对该训练图像进行处理操作，以得到第一样本和第二样本，该第一样本和该第二样本采用的处理操作不同；

训练单元1103，用于将该第一样本输入第一编码器进行特征提取得到第一特征向量，并将该第二样本输入第二编码器进行特征提取得到第二特征向量；

该训练单元1103，还用于将该第一特征向量输入目标解码器得到第一预测信息，并将该第二特征向量输入该目标解码器得到第二预测信息，该目标解码器包含至少两个串行的注意力模块，该注意力模块用于提取该第一特征向量的全局信息和该第二特征向量的全局信息；

该训练单元1103，还用于将该第一预测信息与该第二预测信息输入目标损失函数，以对该第一编码器进行训练。

可选的，在本申请一些可能的实现方式中，可选的，在本申请一些可能的实现方式中，该处理单元1102，具体用于确定该训练图像的类型；

该处理单元1102，具体用于基于该训练图像的类型获取预设方式集合，该预设方式集合包含至少两个类别的处理方式；

该处理单元1102，具体用于基于不同的该处理方式分别对该训练图像进行处理操作，以得到该第一样本和该第二样本。

可选的，在本申请一些可能的实现方式中，该训练单元1103，具体用于基于第一映射器将该第一特征向量映射为第一目标向量，并基于第二映射器将该第二特征向量映射为第二目标向量，该第一目标向量的维度数大于该第一特征向量，该第二目标向量的维度数大于该第二特征向量，该第二映射器的映射维度基于该第一映射器传导所得；

该训练单元1103，具体用于将该第一目标向量输入该目标解码器得到该第一预测信息，并将该第二目标向量输入该目标解码器得到该第二预测信息。

可选的，在本申请一些可能的实现方式中，该训练单元1103，具体用于获取目标任务在图像识别过程中采用的目标特征维度；

该训练单元1103，具体用于基于该目标特征维度对该第一映射器进行映射维度配置，以使得该第一映射器将该目标特征维度传导至该第二映射器进行映射维度配置；

该训练单元1103，具体用于基于映射维度配置后的该第一映射器将该第一特征向量映射为第一目标向量，并基于映射维度配置后的该第二映射器将该第二特征向量映射为第二目标向量。

可选的，在本申请一些可能的实现方式中，该训练单元1103，具体用于将该第一特征向量输入该目标解码器中的第一全连接层得到第一分类向量，并将该第二特征向量输入该目标解码器中的第二全连接层得到第二分类向量；

该训练单元1103，具体用于将该第一分类向量输入该多头注意力层提取该第一特征向量的全局信息，并将该第二分类向量输入该多头注意力层提取该第二特征向量的全局信息；

该训练单元1103，具体用于将该第一特征向量的全局信息输入该第三全连接层得到该第一预测信息，并将该第二特征向量的全局信息输入该第三全连接层得到该第二预测信息。

可选的，在本申请一些可能的实现方式中，该训练单元1103，具体用于获取目标任务对应的特征分布信息；

该训练单元1103，具体用于提取该特征分布信息对应的注意力分布，以确定空间关注度；

该训练单元1103，具体用于基于该空间关注度对该目标解码器对应的注意力模块数量进行配置。

可选的，在本申请一些可能的实现方式中，该训练单元1103，具体用于获取该多头注意力层中配置的位置编码参数；

该训练单元1103，具体用于为该位置编码参数配置调整参数，以使得该位置编码参数在对第一编码器进行训练过程中进行参数调整。

可选的，在本申请一些可能的实现方式中，该训练单元1103，具体用于将该第一预测信息与该第二预测信息输入该目标损失函数，以使得该第一预测信息与该第二预测信息在目标维度的特征距离进行靠近；

该训练单元1103，具体用于基于该特征距离的靠近过程确定网络参数；

该训练单元1103，具体用于根据该网络参数进行反向传播，以对该第一编码器进行训练。

可选的，在本申请一些可能的实现方式中，该训练单元1103，具体用于确定该第一编码器在训练过程中对应的参数信息；

该训练单元1103，具体用于将该参数信息迁移至第二编码器，以对该第二编码器进行训练。

可选的，在本申请一些可能的实现方式中，该训练单元1103，具体用于获取用于计算该网络参数的候选计算方式；

该训练单元1103，具体用于分别基于该候选计算方式进行网络参数的确定，以确定候选参数集合；

该训练单元1103，具体用于通过该候选参数集合中的网络参数分别对第一编码器进行训练，以得到候选编码器集合；

该训练单元1103，具体用于基于评估任务对该候选编码器集合中的编码器进行能力评估，以确定目标编码器；

该训练单元1103，具体用于确定该目标编码器对应的目标计算方式，以对该第一编码器的训练过程进行配置，该目标计算方式包括点积计算、二范数计算或一范数计算。

可选的，在本申请一些可能的实现方式中，该训练单元1103，具体用于对该训练图像进行处理操作，以得到第三样本，该第三样本、该第一样本和该第二样本所采用的处理操作不同；

该训练单元1103，具体用于将该第三样本输入第三编码器进行特征提取得到第三特征向量；

该训练单元1103，具体用于将该第三特征向量输入目标解码器得到第三预测信息；

该训练单元1103，具体用于将该第一预测信息与该第三预测信息输入该目标损失函数，以对训练后的该第一编码器进行参数调整。

可选的，在本申请一些可能的实现方式中，该第一编码器为卷积神经网络，该训练单元1103，具体用于获取待识别图像；

该训练单元1103，具体用于将该待识别图像输入该卷积神经网络进行特征提取，以得到目标特征；

该训练单元1103，具体用于基于该目标特征执行图像处理任务，以得到任务处理结果，该图像处理任务包括图像识别任务、图像分割任务或图像检测任务。

本申请实施例还提供了一种终端设备，如图12所示，是本申请实施例提供的另一种终端设备的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端(point of sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图12示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图12，手机包括：射频(radio frequency，RF)电路1210、存储器1220、输入单元1230、显示单元1240、传感器1250、音频电路1260、无线保真(wireless fidelity，WiFi)模块1270、处理器1280、以及电源1290等部件。本领域技术人员可以理解，图12中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图12对手机的各个构成部件进行具体的介绍：

RF电路1210可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1280处理；另外，将设计上行的数据发送给基站。通常，RF电路1210包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路1210还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器1220可用于存储软件程序以及模块，处理器1280通过运行存储在存储器1220的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1230可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1230可包括触控面板1231以及其他输入设备1232。触控面板1231，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1231上或在触控面板1231附近的操作，以及在触控面板1231上一定范围内的隔空触控操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1231可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1280，并能接收处理器1280发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1231。除了触控面板1231，输入单元1230还可以包括其他输入设备1232。具体地，其他输入设备1232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1240可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1240可包括显示面板1241，可选的，可以采用液晶显示器(liquidcrystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板1241。进一步的，触控面板1231可覆盖显示面板1241，当触控面板1231检测到在其上或附近的触摸操作后，传送给处理器1280以确定触摸事件的类型，随后处理器1280根据触摸事件的类型在显示面板1241上提供相应的视觉输出。虽然在图12中，触控面板1231与显示面板1241是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1231与显示面板1241集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1250，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1241的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1241和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1260、扬声器1261，传声器1262可提供用户与手机之间的音频接口。音频电路1260可将接收到的音频数据转换后的电信号，传输到扬声器1261，由扬声器1261转换为声音信号输出；另一方面，传声器1262将收集的声音信号转换为电信号，由音频电路1260接收后转换为音频数据，再将音频数据输出处理器1280处理后，经RF电路1210以发送给比如另一手机，或者将音频数据输出至存储器1220以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块1270，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1280是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1220内的软件程序和/或模块，以及调用存储在存储器1220内的数据，执行手机的各种功能和处理数据。可选的，处理器1280可包括一个或多个处理单元；可选的，处理器1280可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1280中。

手机还包括给各个部件供电的电源1290(比如电池)，可选的，电源可以通过电源管理系统与处理器1280逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1280还具有执行如上述页面处理方法的各个步骤的功能。

本申请实施例还提供了一种服务器，请参阅图13，图13是本申请实施例提供的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1322(例如，一个或一个以上处理器)和存储器1332，一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中，存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1322可以设置为与存储介质1330通信，在服务器1300上执行存储介质1330中的一系列指令操作。

服务器1300还可以包括一个或一个以上电源1326，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1358，和/或，一个或一个以上操作系统1341，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由管理装置所执行的步骤可以基于该图13所示的服务器结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有编码器的训练指令，当其在计算机上运行时，使得计算机执行如前述图3至图10所示实施例描述的方法中编码器的训练装置所执行的步骤。

本申请实施例中还提供一种包括编码器的训练指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3至图10所示实施例描述的方法中编码器的训练装置所执行的步骤。

本申请实施例还提供了一种编码器的训练系统，所述编码器的训练系统可以包含图11所描述实施例中的编码器的训练装置，或图12所描述实施例中的终端设备，或者图13所描述的服务器。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，编码器的训练装置，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种编码器的训练方法，其特征在于，包括：

获取训练图像；

对所述训练图像进行处理操作，以得到第一样本和第二样本，所述第一样本和所述第二样本采用的处理操作不同；

将所述第一样本输入第一编码器进行特征提取得到第一特征向量，并将所述第二样本输入第二编码器进行特征提取得到第二特征向量；

将所述第一特征向量输入目标解码器得到第一预测信息，并将所述第二特征向量输入所述目标解码器得到第二预测信息，所述目标解码器包含至少两个串行的注意力模块，所述注意力模块用于提取所述第一特征向量的全局信息和所述第二特征向量的全局信息；

将所述第一预测信息与所述第二预测信息输入目标损失函数，以对所述第一编码器进行训练。

2.根据权利要求1所述的方法，其特征在于，所述对所述训练图像进行处理操作，以得到第一样本和第二样本，包括：

确定所述训练图像的类型；

基于所述训练图像的类型获取预设方式集合，所述预设方式集合包含至少两个类别的处理方式；

基于不同的所述处理方式分别对所述训练图像进行处理操作，以得到所述第一样本和所述第二样本。

3.根据权利要求1所述的方法，其特征在于，所述将所述第一特征向量输入目标解码器得到第一预测信息，并将所述第二特征向量输入所述目标解码器得到第二预测信息，包括：

基于第一映射器将所述第一特征向量映射为第一目标向量，并基于第二映射器将所述第二特征向量映射为第二目标向量，所述第一目标向量的维度数大于所述第一特征向量，所述第二目标向量的维度数大于所述第二特征向量，所述第二映射器的映射维度基于所述第一映射器传导所得；

将所述第一目标向量输入所述目标解码器得到所述第一预测信息，并将所述第二目标向量输入所述目标解码器得到所述第二预测信息。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取目标任务在图像识别过程中采用的目标特征维度；

基于所述目标特征维度对所述第一映射器进行映射维度配置，以使得所述第一映射器将所述目标特征维度传导至所述第二映射器进行映射维度配置；

基于映射维度配置后的所述第一映射器将所述第一特征向量映射为第一目标向量，并基于映射维度配置后的所述第二映射器将所述第二特征向量映射为第二目标向量。

5.根据权利要求1所述的方法，其特征在于，所述将所述第一特征向量输入目标解码器得到第一预测信息，并将所述第二特征向量输入所述目标解码器得到第二预测信息，包括：

将所述第一特征向量输入所述目标解码器中的第一全连接层得到第一分类向量，并将所述第二特征向量输入所述目标解码器中的第二全连接层得到第二分类向量；

将所述第一分类向量输入所述多头注意力层提取所述第一特征向量的全局信息，并将所述第二分类向量输入所述多头注意力层提取所述第二特征向量的全局信息；

将所述第一特征向量的全局信息输入所述第三全连接层得到所述第一预测信息，并将所述第二特征向量的全局信息输入所述第三全连接层得到所述第二预测信息。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取目标任务对应的特征分布信息；

提取所述特征分布信息对应的注意力分布，以确定空间关注度；

基于所述空间关注度对所述目标解码器对应的注意力模块数量进行配置。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取所述多头注意力层中配置的位置编码参数；

为所述位置编码参数配置调整参数，以使得所述位置编码参数在对第一编码器进行训练过程中进行参数调整。

8.根据权利要求1所述的方法，其特征在于，所述将所述第一预测信息与所述第二预测信息输入目标损失函数，以对所述第一编码器进行训练，包括：

将所述第一预测信息与所述第二预测信息输入所述目标损失函数，以使得所述第一预测信息与所述第二预测信息在目标维度的特征距离进行靠近；

基于所述特征距离的靠近过程确定网络参数；

根据所述网络参数进行反向传播，以对所述第一编码器进行训练。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

确定所述第一编码器在训练过程中对应的参数信息；

将所述参数信息迁移至第二编码器，以对所述第二编码器进行训练。

10.根据权利要求8所述的方法，其特征在于，所述方法还包括：

获取用于计算所述网络参数的候选计算方式；

分别基于所述候选计算方式进行网络参数的确定，以确定候选参数集合；

通过所述候选参数集合中的网络参数分别对第一编码器进行训练，以得到候选编码器集合；

基于评估任务对所述候选编码器集合中的编码器进行能力评估，以确定目标编码器；

确定所述目标编码器对应的目标计算方式，以对所述第一编码器的训练过程进行配置，所述目标计算方式包括点积计算、二范数计算或一范数计算。

11.根据权利要求1-10任一项所述的方法，其特征在于，所述方法还包括：

对所述训练图像进行处理操作，以得到第三样本，所述第三样本、所述第一样本和所述第二样本所采用的处理操作不同；

将所述第三样本输入第三编码器进行特征提取得到第三特征向量；

将所述第三特征向量输入目标解码器得到第三预测信息；

将所述第一预测信息与所述第三预测信息输入所述目标损失函数，以对训练后的所述第一编码器进行参数调整。

12.根据权利要求1-10任一项所述的方法，其特征在于，所述第一编码器为卷积神经网络，所述方法还包括：

获取待识别图像；

将所述待识别图像输入所述卷积神经网络进行特征提取，以得到目标特征；

基于所述目标特征执行图像处理任务，以得到任务处理结果，所述图像处理任务包括图像识别任务、图像分割任务或图像检测任务。

13.一种编码器的训练装置，其特征在于，包括：

获取单元，用于获取训练图像；

处理单元，用于对所述训练图像进行处理操作，以得到第一样本和第二样本，所述第一样本和所述第二样本采用的处理操作不同；

训练单元，用于将所述第一样本输入第一编码器进行特征提取得到第一特征向量，并将所述第二样本输入第二编码器进行特征提取得到第二特征向量；

所述训练单元，还用于将所述第一特征向量输入目标解码器得到第一预测信息，并将所述第二特征向量输入所述目标解码器得到第二预测信息，所述目标解码器包含至少两个串行的注意力模块，所述注意力模块用于提取所述第一特征向量的全局信息和所述第二特征向量的全局信息；

所述训练单元，还用于将所述第一预测信息与所述第二预测信息输入目标损失函数，以对所述第一编码器进行训练。

14.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至12任一项所述的编码器的训练方法。

15.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1至12任一项所述的编码器的训练方法。