CN114677565A

CN114677565A - 特征提取网络的训练方法和图像处理方法、装置

Info

Publication number: CN114677565A
Application number: CN202210371602.2A
Authority: CN
Inventors: 谌强
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-06-28
Anticipated expiration: 2042-04-08
Also published as: CN114677565B

Abstract

本公开提供了一种特征提取网络的训练方法和图像处理方法、装置，涉及人工智能领域，具体涉及深度学习、计算机视觉和图像处理等技术领域。特征提取网络的训练方法的具体实现方案为：采用特征提取网络得到待处理图像的第一特征图；采用特征提取网络的教师模型得到待处理图像的第二特征图；针对第一特征图和第二特征图中的每个特征图，根据每个特征图中像素之间的关联关系，确定对应每个特征图的关联特征图；以及根据对应第一特征图的关联特征图和对应第二特征图的关联特征图，对特征提取网络进行训练。

Description

特征提取网络的训练方法和图像处理方法、装置

技术领域

本公开涉及人工智能领域，具体涉及深度学习、计算机视觉和图像处理等技术领域，尤其涉及一种特征提取网络的训练方法和图像处理方法、装置、电子设备和存储介质。

背景技术

随着计算机技术和网络技术的发展，深度学习技术在众多领域得到了广泛应用。例如，可以采用深度学习技术提取图像的特征图，以对图像进行目标检测、语义分割、目标关键点检测和分类等。

发明内容

本公开旨在提供一种鲁棒性强且复杂度较低的特征提取网络的训练方法和图像和处理方法、装置、电子设备、存储介质。

根据本公开的一个方面，提供了一种特征提取网络的训练方法，包括：采用特征提取网络得到待处理图像的第一特征图；采用特征提取网络的教师模型得到待处理图像的第二特征图；针对第一特征图和第二特征图中的每个特征图，根据每个特征图中像素之间的关联关系，确定对应每个特征图的关联特征图；以及根据对应第一特征图的关联特征图和对应第二特征图的关联特征图，对特征提取网络进行训练。

根据本公开的一个方面，提供了一种图像处理方法，包括：将待处理图像输入特征提取网络，得到待处理图像的特征图；以及根据特征图，得到针对待处理图像的预测数据，其中，特征提取网络是采用本公开提供的特征提取网络的训练方法训练得到的。

根据本公开的一个方面，提供了一种特征提取网络的训练装置，包括：第一特征提取模块，用于采用特征提取网络得到待处理图像的第一特征图；第二特征提取模块，用于采用特征提取网络的教师模型得到待处理图像的第二特征图；关联特征确定模块，用于针对第一特征图和第二特征图中的每个特征图，根据每个特征图中像素之间的关联关系，确定对应每个特征图的关联特征图；以及网络训练模块，用于根据对应第一特征图的关联特征图和对应第二特征图的关联特征图，对特征提取网络进行训练。

根据本公开的一个方面，提供了一种图像处理装置，包括：特征提取模块，用于将待处理图像输入特征提取网络，得到待处理图像的特征图；以及数据预测模块，用于根据特征图，确定针对待处理图像的预测数据，其中，特征提取网络是采用本公开提供的特征提取网络的训练装置训练得到的。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的特征提取网络的训练方法和/或图像处理方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的特征提取网络的训练方法和/或图像处理方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序/指令，计算机程序/指令在被处理器执行时实现本公开提供的特征提取网络的训练方法和/或图像处理方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的特征提取网络的训练方法和图像处理方法、装置的应用场景示意图；

图2是根据本公开实施例的特征提取网络的训练方法的流程示意图；

图3是根据本公开实施例的特征提取网络的训练方法的原理示意图；

图4是根据本公开实施例的得到处理后特征图的原理示意图；

图5是根据本公开实施例的确定对应每个特征图的关联特征图的原理示意图；

图6是根据本公开实施例的图像处理方法的流程示意图；

图7是根据本公开实施例的特征提取网络的训练装置的结构框图；

图8是根据本公开实施例的图像处理装置的结构框图；以及

图9是用来实施本公开实施例的特征提取网络的训练方法和/或图像处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种特征提取网络的训练方法，包括：第一特征提取阶段、第二特征提取阶段、关联特征确定阶段和网络训练阶段。在第一特征提取阶段中，采用特征提取网络得到待处理图像的第一特征图。在第二特征提取阶段中，采用特征提取网络的教师模型得到待处理图像的第二特征图。在关联特征确定阶段中，针对第一特征图和第二特征图中的每个特征图，根据每个特征图中像素之间的关联关系，确定对应每个特征图的关联特征图。在网络训练阶段中，根据对应第一特征图的关联特征图和对应第二特征图的关联特征图，对特征提取网络进行训练。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的特征提取网络的训练方法和图像处理方法、装置的应用场景示意图。

如图1所示，该实施例的应用场景100可以包括电子设备110，该电子设备110可以为具有处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。

该电子设备110例如可以对输入的图像120进行处理，以得到预测结果。例如，电子设备110可以先提取图像120的特征图，随后根据该特征图确定针对图像120的预测数据130。可以理解的是，在不同的图像处理任务中，预测数据130可以不同。例如，在目标检测任务中，预测数据130可以包括图像120中包括的目标对象的类别概率和目标对象的包围框在图像120中的位置信息。例如，在关键点检测任务中，预测数据可以包括图像120中目标对象的轮廓的多个关键点在图像120中的位置信息。例如，在图像分割任务中，预测数据130可以包括图像中各像素的类别概率(对应图像分割任务包括的语义分割任务)，或者预测数据130可以包括针对目标对象的掩码图像及掩码图像的类别信息(对应图像分割任务包括的实例分割任务)。例如，在图像分类任务中，预测数据130可以包括图像120的类别概率。

在一实施例中，该电子设备110例如可以采用图像处理模型140来对图像进行处理，可以根据不同的图像处理任务采用不同的图像处理模型。例如，在目标检测任务中，图像处理模型可以包括区域卷积神经网络模型(Region-based Convolution NeuralNetworks，R-CNN)或RetinaNet等。例如，在图像分割任务中，图像处理模型可以包括基于像素分类的语义分割模型，也可以包括实例分割模型。其中，语义分割模型可以包括全卷积网络(Fully Convolutional Network，FCN)等。实例分割模型可以包括快速卷积神经网络(Fast-CNN)等。例如，在关键点检测任务中，图像处理模型可以包括卷积姿态机(Convolutional Pose Machines，CPM)等。例如，在图像分类任务中，图像处理模型可以包括VGG(Visual Geometry Group)系列模型等。可以理解的是，该些图像处理模型140中均包括特征提取网络，且在不同的图像处理任务中，图像处理模型可以采用相同的特征提取网络，本公开对此不做限定。

例如，该图像处理模型140例如可以由服务器150训练得到。服务器150例如可以先对图像处理模型140中的特征提取网络进行预训练，随后对整个图像处理模型进行训练。或者，服务器150可以对整个图像处理模型140进行训练。

其中，在特征提取网络或图像处理模型的训练过程中，可以采用知识蒸馏(Knowledge Distillation)的原理来完成训练。知识蒸馏旨在把一个大模型或者多个模型学到的知识迁移到另一个轻量级单模型上，方便部署。在蒸馏的过程中，将大模型或者多个模型称为教师模型(teacher)，轻量级单模型称为学生模型(Student)。

例如，电子设备110可以通过网络与服务器150通信连接，以向服务器150发送模型获取请求。相应地，服务器150可以响应于该请求将训练得到的图像处理模型140发送给电子设备110。

在一实施例中，电子设备110还可以将输入的图像120发送给服务器150，由服务器150对该图像120进行处理，从而得到预测数据130。

需要说明的是，本公开提供的特征提取网络的训练方法可以由服务器150执行。相应地，本公开提供的特征提取网络的训练装置可以设置在服务器150中。本公开提供的图像处理方法可以由电子设备110执行，也可以由服务器150执行。相应地，本公开提供的图像处理装置可以设置在电子设备110中，也可以设置在服务器150中。

应该理解，图1中的电子设备110和服务器150的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的电子设备110和服务器150。

以下将结合图2～图5对本公开提供的特征提取网络的训练方法进行详细描述。

图2是根据本公开的实施例的特征提取网络的训练方法的流程示意图。

如图2所示，该实施例的方法200可以包括操作S210～操作S240。

在操作S210，采用特征提取网络得到待处理图像的第一特征图。

根据本公开的实施例，特征提取网络例如可以为前文描述的各种图像处理模型的骨干网络。例如，该特征提取网络可以包括特征金字塔网络(Feature Pyramid Networks，FPN)、空间金字塔池化网络(Spatial Pyramid Pooling，SPP)、U-Net、DarkNet系列网络或ResNet系列网络等。

该实施例可以将特征提取网络输入特征提取网络，由特征提取网络输出第一特征图。可以理解的是，在特征提取网络为特征金字塔网络等包括多个层级的特征层的网络时，该第一特征图可以包括最后层级的特征层所输出的特征图。该实施例还可以将待处理图像输入图像处理模型，将图像处理模型中的特征提取网络输出的数据作为第一特征图。

在操作S220，采用特征提取网络的教师模型得到待处理图像的第二特征图。

根据本公开的实施例，教师模型的结构与特征提取网络的结构类似，区别仅在于，教师模型的深度比特征提取网络的深度深，教师模型包括的网络参数比特征提取网络包括的网络参数多。该教师模型可以采用有监督的方式预先训练得到。

在一实施例中，教师模型可以为图像处理模型的教师模型，由该教师模型中的特征提取网络输出第二特征图。其中，教师模型和图像处理模型除了特征提取网络外，均包括预测网络，且两个模型中包括的两个预测网络可以具有相同的网络结构且具有相同数量的网络参数。

该实施例可以将待处理图像输入教师模型，由教师模型输出第二特征图。其中，第二特征图与第一特征图类似，在教师模型为包括多个层级的特征层的网络时，第二特征图可以包括教师模型中最后层级的特征层所输出的特征图。

在操作S230，针对第一特征图和第二特征图中的每个特征图，根据每个特征图中像素之间的关联关系，确定对应每个特征图的关联特征图。

根据本公开的实施例，可以针对第一特征图和第二特征图中的每个特征图，得到一个关联特征图。该实施例可以采用每个像素与其他像素之间的像素值差值，来表示该每个像素与其他像素之间的关联关系。或者，可以采用每个像素与其他像素之间的相似度，来表示该每个像素与其他像素之间的关联关系。其中，相似度例如可以采用余弦相似度、杰卡德相似系数等。

在一实施例中，可以针对每个特征图中的每个像素，根据该每个像素与其相邻像素之间的关联关系，来得到每个特征图的关联特征图。针对每个像素，其相邻像素例如可以为n个，该实施例可以将该每个像素与其n个相邻像素之间的相似度构成一个对应该每个像素的相似度组，并采用该相似度组表示该每个像素与每个特征图中其他像素之间的关联关系。对应每个特征图中所有像素的所有相似度组，根据相似度组所对应的像素在每个特征图中的位置排列，即可构成对应该每个特征图的关联特征图。

在操作S240，根据对应第一特征图的关联特征图和对应第二特征图的关联特征图，对特征提取网络进行训练。

根据本公开的实施例，可以先确定对应第一特征图的关联特征图与对应第二特征图的关联特征图之间的差异，将该差异作为特征提取网络的损失值。该实施例可以以最小化该损失值为目标，采用反向传播算法调整特征提取网络的网络参数，从而实现对特征提取网络的训练。

其中，对应第一特征图的关联特征图与对应第二特征图的关联特征图之间的差异可以采用两个关联特征图之间的均方误差(Mean Square Error，MSE)或平均绝对误差(Mean Absolute Deviation，MAD)等来表示。

本公开实施例在采用知识蒸馏的方式时，通过比较教师模型输出的特征图的关联特征图与特征提取网络输出的特征图的关联特征图，来对特征提取网络进行训练，可以使得特征提取网络输出的特征图中像素的关联关系与教师模型输出的特征图中像素的关联关系趋于一致，从而可以使得特征提取网络学习到教师模型学习到的知识。相较于根据第一特征图与第二特征图之间的差异来训练特征提取网络的技术方案，可以降低训练特征提取网络时的约束，并因此可以在一定程度上提高训练得到的特征提取网络的鲁棒性。

图3是根据本公开实施例的特征提取网络的训练方法的原理示意图。

根据本公开的实施例，在采用特征提取网络得到第一特征图之前，例如可以先对待处理图像进行数据增强处理，随后将数据增强处理后的图像输入特征提取网络，得到第一特征图。通过该方式，可以在一定程度上提高训练得到的特征提取模型的训练精度。其中，数据增强处理可以采用几何变换方法来实现，也可以采用像素变换方法来实现。其中，几何变换方法可以包括翻转、旋转和/或平移等。像素变换方法可以包括加椒盐噪声、加高斯噪声、调节亮度、调节饱和度和/或调整白平衡等。

在一实施例中，如图3所示，该实施例300可以采用随机掩码对待处理图像311中的部分像素进行掩码处理，从而得到掩码后图像312，通过将该掩码后图像312输入特征提取网络(即学生模型)302，从而得到第一特征图。可以理解的是，待处理图像311可以直接作为教师模型301的输入，以由教师模型301输出前述的第二特征图。

根据本公开的实施例，在采用随机掩码对待处理图像中的部分像素进行掩码处理时，可以先将待处理图像311划分为多个图像块。随后随机地将划分得到的多个图像块中的某些图像块替换为黑色的图像块，从而得到掩码后图像312。其中，划分得到的多个图像块中每个图像块的大小可以根据实际需求进行设定，例如可以将图像块等分为多个图像块，每个图像块的大小为4×4，本公开对此不做限定。

本公开实施例通过采用随机掩码的方式来对待处理图像进行掩码处理，并将该掩码处理后的图像作为特征提取网络的输入来得到第一特征图，可以达到对待处理图像中物体的位置消除噪声的效果。如此，在采用教师模型对特征提取网络知识蒸馏的过程中，可以使得特征提取网络更好的学习到与物体位置相关的知识。如此，在将训练得到的特征提取网络应用于目标检测、图像分割和关键点检测等对位置敏感的任务时，特征提取网络会表现的更为鲁棒。

基于此，本公开实施例中，特征提取网络可以属于以下模型中的至少一个模型：目标检测模型、图像分割模型、关键点检测模型。

在一实施例中，特征提取网络和教师模型可以均为特征金字塔网络等具有多层级特征层的网络。在对特征提取模型进行训练时，可以综合考虑多层级特征层输出的特征图，以此提高特征提取网络的训练精度。

示例性地，第一特征图可以包括不同尺度下的多个第一子特征图，第二特征图包括分别与多个第一子特征图具有相同尺度的多个第二子特征图。该实施例可以针对多个第一子特征图和多个第二子特征图中的每个子特征图，根据该每个子特征图中像素之间的关联关系，确定对应该每个子特征图的一个关联特征图。随后，根据具有相同尺度的第一子特征图和第二子特征图所对应的两个关联特征图之间的差异，对特征提取网络进行训练。

例如，如图3所示，在实施例300中，学生模型302和教师模型301均包括四个层级的特征层。待处理图像311经由教师模型中四个层级的特征层的处理，可以得到尺度依次增大的特征图321、特征图322、特征图323和特征图324。该四个特征图可以作为第二特征图包括的四个第二子特征图。类似的，掩码后图像312经由学生模型中四个层级的特征层的处理，可以得到尺度依次增大的特征图331、特征图332、特征图333和特征图334。该四个特征图可以作为第一特征图包括的四个第一子特征图。其中，特征图331与特征图321为具有相同尺度的两个特征图，特征图332与特征图322为具有相同尺度的两个特征图，特征图333与特征图323为具有相同尺度的两个特征图，特征图334与特征图324为具有相同尺度的两个特征图。该实施例可以将具有相同尺度的两个特征图构成一个特征图对，总计得到四个特征图对。针对每个特征图对，可以先确定对应该每个特征图对中每个特征图的关联特征图，得到的两个关联特征图。随后，可以计算该两个关联特征图之间的差异，如此，针对每个特征图对，可以得到一个差异。该实施例可以对针对四个特征图对的四个差异计算加权和，将该加权和作为学生模型302的损失值。

图4是根据本公开实施例的得到处理后特征图的原理示意图。

根据本公开的实施例，可以先采用非线性激活函数对该第一特征图进行非线性处理，得到处理后特征图。随后根据该处理后特征图中像素之间的关联关系，来确定对应第一特征图的关联特征图。其中，非线性处理例如可以采用修正线性单元(Rectified LinearUnit，ReLU)、双曲正切函数(hyperbolic tangent function，tanh)或Sigmoid函数等来实现。通过根据非线性处理后的特征图来确定关联特征图，可以在一定程度上提高训练得到的特征提取模型的鲁棒性。

根据本公开的实施例，在采用随机掩码对待处理图像处理后得到特征提取模型的输入时，通过对该第一特征图进行非线性处理，还可以在一定程度上使得非线性处理后的特征图能够表征被掩码遮挡的像素的特征。如此，可以在一定程度上提高得到的对应第一特征图的关联特征图的表达能力。

在一实施例中，还可以先采用非线性激活函数对该第二特征图进行非线性处理，得到处理后特征图。随后根据该处理后特征图中像素之间的关联关系，来确定对应第二特征图的关联特征图。如此，可以为第二特征图引入非线性，使得处理后的特征图仅保留第二特征图中与教师模型的特征层相关性强的特征，去掉第二特征图中与教师模型的特征层相关性弱的特征。从而在根据对应第二特征图的关联特征图训练特征提取模型时，可以使得特征提取模型倾向于学习重要的知识，提高特征提取模型的训练精度和训练速率。

在一实施例中，可以对第一特征图和第二特征图中的每个特征图进行卷积处理，随后根据该卷积处理后的特征图来确定对应该每个特征图的关联特征图。如此，可以将第一特征图和第二特征图投射到相同的特征空间，且通过根据该卷积处理后的特征图确定作为训练依据的关联特征图，可以提高训练得到的特征提取网络的精度。

在一实施例中，在对第一特征图和第二特征图中的任一特征图进行非线性处理之前，例如可以先对该对任一特征图进行卷积处理，得到映射后特征图。随后再对该映射后特征图进行非线性处理。通过该方式，可以使得映射后特征图的表达能力强于任一特征图像。如此，通过对该映射后特征图进行非线性处理，并根据非线性处理后的特征图来确定作为训练依据的关联特征图，可以在提高训练得到的特征提取网络的鲁棒性的同时，提高特征提取网络的精度和表达能力的效率。

在一实施例中，如图4所示，在该实施例400中，可以先对任一特征图进行第一卷积处理，得到映射后特征图。随后对映射后特征图进行非线性处理，得到非线性特征图。最后对非线性特征图再进行第二卷积处理，从而得到处理后特征图。根据该处理后特征图中像素之间的关联关系，即可确定对应该任一特征图的关联特征图。

示例性地，对于第一特征图410_1，可以将该第一特征图410_1输入3×3的第一卷积层(3×3 Conv)401中，将该第一卷积层401的输出作为非线性激活层(ReLU)402的输入，将非线性激活层402的输出作为×3的第二卷积层(3×3 Conv)403的输入，由第二卷积层403输出对应第一特征图410_1的处理后特征图4102。类似地，可以将第二特征图420_1输入第一卷积层401中，依次经由第一卷积层401、非线性激活层402和第二卷积层403处理后，由第二卷积层403输出对应第二特征图420_1的处理后特征图420_2。经由第一卷积层401的处理，可以提高特征图的表达能力，经由非线性激活层402的处理，可以为特征图引入非线性信息，经由第二卷积层403的处理，可以将特征图投影至预定的特征空间。如此，得到的处理后特征图410_2与处理后特征图420_2位于相同的特征空间。从而可以提高根据对应第一特征图的关联特征图和对应第二特征图的关联特征图之间的差异，确定的特征提取网络的损失值的精度，利于提高训练得到的特征提取网络的精度和鲁棒性。

在得到处理后特征图410_2与处理后特征图420_2后，即可根据处理后特征图410_2中像素之间的关联关系，来确定对应第一特征图410_1的关联特征图。类似地，可以根据处理后特征图420_2中像素之间的关联关系，来确定对应第二特征图420_1的关联特征图。

图5是根据本公开实施例的确定每个特征图的关联特征图的原理示意图。

在确定对应每个特征图的关联特征图时，可以针对该每个特征图中的每个像素，先根据该每个像素与其相邻像素之间的相似度，确定对应该每个像素的关联特征。随后，根据对应每个特征图中所有像素的所有关联特征，来确定对应该每个特征图的关联特征图。

如图5所示，在该实施例500中，对于每个特征图中的像素510，与该像素510相邻的像素为八个，即图中填充阴影的八个像素。该实施例可以确定像素510与该八个像素中每个像素的相似度，得到八个相似度。该八个相似度即可作为对应像素510的关联特征。类似地，针对每个特征图中的每个像素，均可以得到该关联特征。该实施例可以将所有像素的关联特征根据像素在每个特征图中的位置排列，从而得到关联特征图。例如，若每个特征图的尺寸为H×W，该实施例可以将对应每个像素的关联特征所包括的八个相似度，根据该每个像素在每个特征图中的位置，在通道维度排列，针对每个像素得到1×1×8的关联特征。如此，对应每个特征图的关联特征图的尺寸为H×W×8。可以理解的是，在计算每个像素与其相邻像素之间的相似度之前，例如还可以对每个特征图中每个像素的特征值进行归一化处理，随后根据归一化处理后的特征计算相似度。其中，每个像素的特征值例如可以由一个特征向量表示。该实施例可以采用L2范数归一化方法来对每个像素的特征值进行归一化处理，使得表示每个像素的特征值的特征向量的模长为1。如此，可以将各个像素的特征值统一至相同的量纲，提高确定的关联特征图的精度。

需要说明的是，对于每个特征图中的边缘像素，由于其相邻像素的个数小于八个，则该实施例500在确定关联特征图之前，还可以对该每个特征图进行扩充，例如采用特征值0扩充该每个特征图，以使得每个特征图中的边缘像素在扩充后的特征图中的相邻像素均为八个。需要说明的是，确定的尺寸为H×W×8的关联特征图中，每个通道表示的相似度为所有像素与同一方位的相邻像素之间的相似度，例如，八个通道中的第一个通道所表示的相似度为：所有像素与其左上角的相邻像素之间的相似度。

可以理解的是，在采用前述实施例的方法得到对应每个特征图的处理后特征图后，根据该处理后特征图中像素之间的关联关系确定关联特征图的原理与图5描述的原理类似。在每个特征图包括多个子特征图时，确定对应每个子特征图的关联特征图的原理与图5描述的原理类似，在此不再赘述。

基于本公开提供的特征提取网络的训练方法，本公开还提供了一种图像处理方法，以下将结合图6对该图像处理方法进行详细描述。

图6是根据本公开实施例的图像处理方法的流程示意图。

如图6所示，该实施例的图像处理方法600包括操作S610～操作S620。

在操作S610，将待处理图像输入特征提取网络，得到待处理图像的特征图。

根据本公开的实施例，该操作S610与前文描述的操作S210类似，在此不再赘述。需要说明的是，在特征提取网络包括多个层级的特征层时，该操作S610得到的特征图可以仅为最后一个层级的特征层所输出的特征图，也可以为多个层级输出的多个特征图。

在操作S620，根据特征图，得到针对待处理图像的预测数据。

根据本公开的实施例，可以将特征图输入与图像处理任务匹配的预测网络中，由预测网络输出预测数据。可以理解的是，预测网络与特征提取网络即可构成前文描述的图像处理模型。

例如，在目标检测任务中，预测网络可以包括分类子网络和包围框位置回归子网络。特征图经由分类子网络处理后，分类子网络可以得到图像中物体的类别概率向量，特征图经由包围框位置回归子网络处理后，包围框位置回归子网络可以输出图像中物体的包围框在图像中的位置信息。该位置信息例如可以包括包围框的中心点在图像中的位置，以及包围框的高度和宽度。如此，得到的类别概率向量和位置信息即可构成预测数据。可以理解的是，在操作S610得到的特征图为多个时，可以针对每个特征图，均经由预测网络处理，得到针对该每个特征图的预测数据。最后，融合针对多个特征图的多个预测数据，得到针对待处理图像的预测数据。

可以理解的是，在语义分割任务中，预测数据包括图像中各像素的类别概率向量。在关键点检测任务中，预测数据包括图像中物体轮廓的多个关键点的位置信息。

基于本公开提供的特征提取网络的训练方法，本公开还提供了一种特征提取网络的训练装置，以下将结合图7对该装置进行详细描述。

图7是根据本公开实施例的特征提取网络的训练装置的结构框图。

如图7所示，该实施例的特征提取网络的训练装置700可以包括第一特征提取模块710、第二特征提取模块720、关联特征确定模块730和网络训练模块740。

第一特征提取模块710用于采用特征提取网络得到待处理图像的第一特征图。在一实施例中，第一特征提取模块710可以用于执行前文描述的操作S210，在此不再赘述。

第二特征提取模块720用于采用特征提取网络的教师模型得到待处理图像的第二特征图。在一实施例中，第二特征提取模块720可以用于执行前文描述的操作S220，在此不再赘述。

关联特征确定模块730用于针对第一特征图和第二特征图中的每个特征图，根据每个特征图中像素之间的关联关系，确定对应每个特征图的关联特征图。在一实施例中，关联特征确定模块730可以用于执行前文描述的操作S230，在此不再赘述。

网络训练模块740用于根据对应第一特征图的关联特征图和对应第二特征图的关联特征图，对特征提取网络进行训练。在一实施例中，网络训练模块740可以用于执行前文描述的操作S240，在此不再赘述。

根据本公开的实施例，上述第一特征提取模块710可以包括掩码处理子模块和特征提取子模块。掩码处理子模块用于采用随机掩码对待处理图像中的部分像素进行掩码处理，得到掩码后图像。特征提取子模块用于将掩码后图像输入特征提取网络，得到第一特征图。

根据本公开的实施例，针对第一特征图，上述关联特征确定模块730可以包括处理子模块和关联特征确定子模块。处理子模块用于针对每个特征图，采用非线性处理得到处理后特征图。关联特征确定子模块用于根据处理后特征图中像素之间的关联关系，确定对应每个特征图的关联特征图。

根据本公开的实施例，关联特征确定模块730可以包括处理子模块和关联特征确定子模块。处理子模块用于针对每个特征图，采用非线性处理得到处理后特征图。关联特征确定子模块用于根据处理后特征图中像素之间的关联关系，确定对应每个特征图的关联特征图。

根据本公开的实施例，关联特征确定子模块包括特征确定单元和图确定单元。特征确定单元用于针对处理后特征图中的每个像素，根据每个像素与每个像素的相邻像素之间的相似度，确定对应每个像素的关联特征。图确定单元用于根据对应处理后特征图中所有像素的所有关联特征，得到对应每个特征图的关联特征图。

根据本公开的实施例，处理子模块可以包括第一卷积处理单元和非线性处理单元。第一卷积处理单元用于对每个特征图进行第一卷积处理，得到映射后特征图。非线性处理单元用于针对映射后特征图，采用非线性处理得到处理后特征图。

根据本公开的实施例，非线性处理单元可以包括非线性处理子单元和卷积处理子单元。非线性处理子单元用于对映射后特征图进行非线性处理，得到非线性特征图。卷积处理子单元用于对非线性特征图进行第二卷积处理，得到处理后特征图。

根据本公开的实施例，第一特征图包括不同尺度下的多个第一子特征图；第二特征图包括分别与多个第一子特征图具有相同尺度的多个第二子特征图。上述关联特征确定模块730具体可以用于根据每个特征图包括的每个子特征图中像素之间的关联关系，确定对应每个子特征图的关联特征图。上述网络训练模块740具体可以用于根据具有相同尺度的第一子特征图和第二子特征图所对应的两个关联特征图之间的差异，对特征提取网络进行训练。

根据本公开的实施例，特征提取网络属于以下模型中的至少一个模型：目标检测模型、图像分割模型、关键点检测模型。

基于本公开提供的图像处理方法，本公开还提供了一种图像处理装置，以下将结合图8对该装置进行详细描述。

图8是根据本公开实施例的图像处理装置的结构框图。

如图8所示，该实施例的图像处理装置800可以包括特征提取模块810和数据预测模块820。

特征提取模块810用于将待处理图像输入特征提取网络，得到待处理图像的特征图。在一实施例中，特征提取模块810可以用于执行前文描述的操作S610，在此不再赘述。

数据预测模块820用于根据特征图，确定针对待处理图像的预测数据。在一实施例中，数据预测模块820可以用于执行前文描述的操作S620，在此不再赘述。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开实施例的特征提取网络的训练方法和/或图像处理方法的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如特征提取网络的训练方法和/或图像处理方法。例如，在一些实施例中，特征提取网络的训练方法和/或图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的特征提取网络的训练方法和/或图像处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行特征提取网络的训练方法和/或图像处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种特征提取网络的训练方法，包括：

采用特征提取网络得到待处理图像的第一特征图；

采用所述特征提取网络的教师模型得到所述待处理图像的第二特征图；

针对所述第一特征图和所述第二特征图中的每个特征图，根据所述每个特征图中像素之间的关联关系，确定对应所述每个特征图的关联特征图；以及

根据对应所述第一特征图的关联特征图和对应所述第二特征图的关联特征图，对所述特征提取网络进行训练。

2.根据权利要求1所述的方法，其中，所述采用特征提取网络得到待处理图像的第一特征图包括：

采用随机掩码对所述待处理图像中的部分像素进行掩码处理，得到掩码后图像；以及

将所述掩码后图像输入所述特征提取网络，得到所述第一特征图。

3.根据权利要求1所述的方法，其中，针对所述第一特征图，根据所述每个特征图中像素之间的关联关系，确定对应所述每个特征图的关联特征图包括：

针对所述每个特征图，采用非线性处理得到处理后特征图；以及

根据所述处理后特征图中像素之间的关联关系，确定对应所述每个特征图的关联特征图。

4.根据权利要求1所述的方法，其中，根据所述每个特征图中像素之间的关联关系，确定对应所述每个特征图的关联特征图包括：

5.根据权利要求3或4所述的方法，其中，所述根据所述处理后特征图中像素之间的关联关系，确定对应所述每个特征图的关联特征图包括：

针对所述处理后特征图中的每个像素，根据所述每个像素与所述每个像素的相邻像素之间的相似度，确定对应所述每个像素的关联特征；以及

根据对应所述处理后特征图中所有像素的所有关联特征，得到对应所述每个特征图的关联特征图。

6.根据权利要求3或4所述的方法，其中，所述针对所述每个特征图，采用非线性处理得到处理后特征图包括：

对所述每个特征图进行第一卷积处理，得到映射后特征图；以及

针对所述映射后特征图，采用非线性处理得到所述处理后特征图。

7.根据权利要求6所述的方法，其中，所述针对所述映射后特征图，采用非线性处理得到所述处理后特征图包括：

对所述映射后特征图进行非线性处理，得到非线性特征图；以及

对所述非线性特征图进行第二卷积处理，得到所述处理后特征图。

8.根据权利要求1所述的方法，其中，所述第一特征图包括不同尺度下的多个第一子特征图；所述第二特征图包括分别与所述多个第一子特征图具有相同尺度的多个第二子特征图；其中：

根据所述每个特征图中像素之间的关联关系，确定对应所述每个特征图的关联特征图包括：根据所述每个特征图包括的每个子特征图中像素之间的关联关系，确定对应所述每个子特征图的关联特征图；

根据对应所述第一特征图的关联特征图和对应所述第二特征图的关联特征图，对所述特征提取网络进行训练包括：根据具有相同尺度的第一子特征图和第二子特征图所对应的两个关联特征图之间的差异，对所述特征提取网络进行训练。

9.根据权利要求2所述的方法，其中，所述特征提取网络属于以下模型中的至少一个模型：目标检测模型、图像分割模型、关键点检测模型。

10.一种图像处理方法，包括：

将待处理图像输入特征提取网络，得到所述待处理图像的特征图；以及

根据所述特征图，得到针对所述待处理图像的预测数据，

其中，所述特征提取网络是采用权利要求1～9中任一项的方法训练得到的。

11.一种特征提取网络的训练装置，包括：

第一特征提取模块，用于采用特征提取网络得到待处理图像的第一特征图；

第二特征提取模块，用于采用所述特征提取网络的教师模型得到所述待处理图像的第二特征图；

关联特征确定模块，用于针对所述第一特征图和所述第二特征图中的每个特征图，根据所述每个特征图中像素之间的关联关系，确定对应所述每个特征图的关联特征图；以及

网络训练模块，用于根据对应所述第一特征图的关联特征图和对应所述第二特征图的关联特征图，对所述特征提取网络进行训练。

12.根据权利要求11所述的装置，其中，所述第一特征提取模块包括：

掩码处理子模块，用于采用随机掩码对所述待处理图像中的部分像素进行掩码处理，得到掩码后图像；以及

特征提取子模块，用于将所述掩码后图像输入所述特征提取网络，得到所述第一特征图。

13.根据权利要求11所述的装置，其中，针对所述第一特征图；所述关联特征确定模块包括：

处理子模块，用于针对所述每个特征图，采用非线性处理得到处理后特征图；以及

关联特征确定子模块，用于根据所述处理后特征图中像素之间的关联关系，确定对应所述每个特征图的关联特征图。

14.根据权利要求11所述的装置，其中，所述关联特征确定模块包括：

15.根据权利要求13或14所述的装置，其中，所述关联特征确定子模块包括：

特征确定单元，用于针对所述处理后特征图中的每个像素，根据所述每个像素与所述每个像素的相邻像素之间的相似度，确定对应所述每个像素的关联特征；以及

图确定单元，用于根据对应所述处理后特征图中所有像素的所有关联特征，得到对应所述每个特征图的关联特征图。

16.根据权利要求13或14所述的装置，其中，所述处理子模块包括：

第一卷积处理单元，用于对所述每个特征图进行第一卷积处理，得到映射后特征图；以及

非线性处理单元，用于针对所述映射后特征图，采用非线性处理得到所述处理后特征图。

17.根据权利要求16所述的装置，其中，所述非线性处理单元包括：

非线性处理子单元，用于对所述映射后特征图进行非线性处理，得到非线性特征图；以及

卷积处理子单元，用于对所述非线性特征图进行第二卷积处理，得到所述处理后特征图。

18.根据权利要求11所述的装置，其中，所述第一特征图包括不同尺度下的多个第一子特征图；所述第二特征图包括分别与所述多个第一子特征图具有相同尺度的多个第二子特征图；其中：

所述关联特征确定模块用于：根据所述每个特征图包括的每个子特征图中像素之间的关联关系，确定对应所述每个子特征图的关联特征图；

所述网络训练模块用于：根据具有相同尺度的第一子特征图和第二子特征图所对应的两个关联特征图之间的差异，对所述特征提取网络进行训练。

19.根据权利要求12所述的装置，其中，所述特征提取网络属于以下模型中的至少一个模型：目标检测模型、图像分割模型、关键点检测模型。

20.一种图像处理装置，包括：

特征提取模块，用于将待处理图像输入特征提取网络，得到所述待处理图像的特征图；以及

数据预测模块，用于根据所述特征图，确定针对所述待处理图像的预测数据，

其中，所述特征提取网络是采用权利要求11～19中任一项的装置训练得到的。

21.一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行权利要求1～10中任一项的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行根据权利要求1～10中任一项的方法。

23.一种计算机程序产品，包括计算机程序/指令，计算机程序/指令在被处理器执行时实现根据权利要求1～10中任一项方法的步骤。