CN112732967B

CN112732967B - 图像自动标注方法、系统及电子设备

Info

Publication number: CN112732967B
Application number: CN202110023565.1A
Authority: CN
Inventors: 陈灯; 吴琼; 魏巍; 张彦铎; 吴云韬; 于宝成; 刘玮; 段功豪; 周华兵; 彭丽
Original assignee: Wuhan Yinxing Technology Co ltd; Wuhan Institute of Technology
Current assignee: Wuhan Yinxing Technology Co ltd; Wuhan Institute of Technology
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2022-04-29
Anticipated expiration: 2041-01-08
Also published as: CN112732967A

Abstract

本发明涉及一种图像自动标注方法、系统及电子设备，接收待标记图像，将待标记图像输入到自动图像标注模型中，以使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理，得到第K级第三图像特征图，并使所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理，得到所述待标记图像的语义标签，其中K为正整数。利用自动图像标注模型对待标记图像进行处理，可以方便快捷地对待标记图像进行标注，还可以在进行图像标注时能够提供不同比例的图像特征来对图像进行标注，从而使得对图像的注释更为全面。

Description

图像自动标注方法、系统及电子设备

技术领域

本发明涉及计算机视觉和人工智能技术领域，尤其涉及一种图像自动标注方法、系统及电子设备。

背景技术

自动图像标注方法被认为是解决原始图像及其语义信息之间语义鸿沟问题的一种有效方案，它是通过利用已经标注好关键词的训练集图像自动学习语义概念空间与视觉特征空间之间的潜在对应关系或映射模型，然后可以通过构造的映射模型来预测未标注的图像的语义信息。

现有的一些方法都是通过传统的机器学习和深度学习算法来构建语义概念空间到视觉特征空间的映射，例如，通过利用改进的FCM聚类算法将不同语义的图像数据集划分为不同的类，然后通过计算找到图像到类中聚类中心距离最近的一个类，统计类中出现次数最多的标注词即为图像的标注词；再例如，通过卷积神经网络提取图像特征，然后根据视觉距离计算邻域图像各个标签的贡献值并排序得到语义的关键词。

传统基于机器学习的图像注释方法中使用的图像特征无法表示不同抽象级别的视觉概念。而对于基于深度学习的图像注释方法，研究人员使用预训练的卷积神经网络提取图像特征进行图像标注，或者对图像标注基准数据集上的预训练卷积神经网络进行微调，以共同获得特征表示和分类器。研究人员使用的所有基本卷积神经网络都是为单标签图像分类任务设计的，也就是说，在这些卷积神经网络中，仅最后一层的输出特征用作分类器的输入，与卷积神经网络计算的底层特征图相比，顶层特征图对应于更高级别的抽象视觉概念。这意味着现有模型中仅分类器使用了最抽象的功能。

对于图像注释，使用的标签应是多种多样的，并且应具有不同的抽象级别。同时，在图像标注中，图像中物体的大小是不同的，并且相应的特征在不同的尺度上。例如，“云”和“苹果”可以用卷积神经网路底部区域的纹理和颜色来描述，但是需要从卷积神经网络的顶层学习更抽象的特征，例如“水果”和“花”。也就是说，现有的自动图像标注方法在进行图像标注时，仅能标注出最抽象的特征，不能提供不同维度的图像特征来对图像进行一个更全面的注释。

发明内容

为了克服现有的针对自动图像标注方法不能提供不同维度的图像特征来对图像进行一个更全面的注释的问题，本发明提供了一种图像自动标注方法、系统及电子设备。

第一方面，为了解决上述技术问题，本发明提供了一种图像自动标注方法，包括以下步骤：

接收待标记图像；

将待标记图像输入到自动图像标注模型中，以使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理，得到第K级第三图像特征图，并使所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理，得到所述待标记图像的语义标签，其中K为正整数。

本发明提供的图像自动标注方法的有益效果是：通过利用自动图像标注模型对待标记图像进行处理，可以方便快捷地对待标记图像进行标注，此外，通过自动图像标注模型中含有的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络以及第二标签预测网络对待标记图像进行处理，使得在进行图像标注时能够提供不同比例的图像特征来对图像进行标注，从而使得对图像的注释更为全面。

在上述技术方案的基础上，本发明的一种图像自动标注方法还可以做如下改进。

进一步，还包括：

获取实验数据集和预训练模型，所述实验数据集包括多个语义标签；

根据卷积注意力网络、多尺度特征融合分支网络、标签预测网络和主干卷积神经网络构建自动图像标注网络；

将所述预训练模型加载到所述自动图像标注网络中的主干卷积神经网络中，得到第一主干卷积神经网络；

利用所述实验数据集对所述自动图像标注网络中的卷积注意力网络、多尺度特征融合分支网络、标签预测网络共同进行训练，得到第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络；

利用所述实验数据集对含有所述第一主干卷积神经网络、第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络的自动图像标注网络进行训练，得到含有第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络和第二标签预测网络的自动图像标注模型。

其中，预训练模型可以直接从现有的资源中下载得到，也可以利用现有的数据集对卷积神经网络进行训练得到。

采用上述进一步方案的有益效果是：利用实验数据集对自动图像标注网络进行训练，可以使得自动图像标注网络中的卷积注意力网络、多尺度特征融合分支网络、标签预测网络和主干卷积神经网络均具有合适的权重，从而得到一个各个网络之间有机结合的自动图像标注模型，同时使得在后续能使用更多不同的图像特征来对图像进行标注。

进一步，使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理，得到第K级第三图像特征图，包括：

利用所述自动图像标注模型中的第二主干卷积神经网络对所述待标记图像进行编码，得到第1级第一图像特征图至第K级第一图像特征图；

利用所述自动图像标注模型中的第二卷积注意力网络分别对所述第1级第一图像特征图至第K级第一图像特征图进行处理，得到第1级第二图像特征图至第K级第二图像特征图；

根据所述自动图像标注模型中的第二多尺度特征融合分支网络和所述第1级第二图像特征图至第K级第二图像特征图，得到第2级第三图像特征图至第K级第三图像特征图，其中，K为正整数。

采用上述进一步方案的有益效果是：通过第二主干卷积神经网络对待标记图像进行编码，可以提取出待标记图像在不同维度的特征；通过第二卷积注意力网络对第二主干卷积神经网络提取出的不同维度的特征图进行处理，可以减少待标记图像中的干扰，在提高模型的识别能力的同时提高模型的鲁棒性；利用第二多尺度特征融合分支网络对第二卷积注意力网络处理后的特征图进行才处理，可以得到最终融合形成的第K级第三图像特征图，从而方便后续得到待标记图像在不同维度上的语义标签。

进一步，利用所述自动图像标注模型中的第二主干卷积神经网络对所述待标记图像进行编码，得到第1级第一图像特征图至第K级第一图像特征图，包括：

根据第一公式对所述待标记图像进行编码，得到第1级第一图像特征图至第K级第一图像特征图，所述第一公式为：F_n＝M_n(F_n-1)，

其中，1≤n≤K，n为正整数，F_n为第n级第一图像特征图，F_n-1为第n-1级第一图像特征图，当n＝1时，F_n-1即F₀为待标记图像的图像特征图，M_n表示的由卷积、池化、批归一化和激活函数组成的第一复合函数。

采用上述进一步方案的有益效果是：利用第一公式的第一复合函数对待标记图像进行处理，其中，卷积和池化可以提取出待标记图像多维度的特征并进行计算，批归一化可以提高处理的精度和速度，激活函数为模型加入非线性因素，从而使得能够提高对特征进行分类的准确性。

进一步，所述自动图像标注模型中的第二卷积注意力网络分别对所述1至K级第一图像特征图进行处理，得到第1级第一图像特征图至第K级第二图像特征图，包括：

根据第二公式得到第m级一维通道注意力图M_C(F_m)，所述第二公式为：M_C(F_m)＝σ(MLP(AvgPool(F_m)+MLP(MaxPool(F_m))；

根据第三公式得到第m级通道注意特征F_m′，所述第三公式为：F_m'＝F_m×M_C(F_m)；

根据第四公式得到第m级二维空间注意力图M_S(F_m')，所述第四公式为：M_S(F_m')＝σ(f^7×7([AvgPool(F_m'),MaxPool(F_m')]))；

根据第五公式得到第m级第二图像特征图F_m″，所述第五公式为：F_m″＝F_m'×M_S(F_m')；

直至得到第K级第二图像特征图；

其中，MLP表示多层感知器，AvgPool表示平均池化，MaxPool表示最大池化，σ表示sigmoid函数，f^7×7为一个卷积核大小为7×7的卷积层，1≤m≤K，m为正整数，K为正整数,F_m为第m级第一图像特征图。

采用上述进一步方案的有益效果是：通过第二卷积注意力网络的第二公式和第三公式，可以使得在对所有第一图像特征图进行处理时，自动图像标注模型能够选择出更有益于后续标注的图像特征信息；通过第二卷积注意力网络的第四公式和第五公式，可以减少图像背景对标注的干扰，提高自动图像标注模型的识别精度及鲁棒性。

进一步，根据所述自动图像标注模型中的第二多尺度特征融合分支网络和所述第1级第二图像特征图至第K级第二图像特征图，得到第2级第三图像特征图至第K级第三图像特征图，包括：

根据第六公式将第k-1级第三图像特征图与第k级第二图像特征图进行融合，所述第六公式为：

直至得到第K级第三图像特征图，其中，

表示第k级第三图像特征图，F″_k表示第k级第二图像特征图，

表示第k-1级第三图像特征图，2≤k≤K，且当k＝2时，

即第1级第三图像特征图为第1级第二图像特征图，

表示由卷积，批归一化和激活函数组成的第二复合函数，

表示由卷积，批归一化和激活函数组成的第三复合函数。

采用上述进一步方案的有益效果是：通过第六公式将第二图像特征图和第三图像特征图进行层层维度的融合，可以减少随着网络加深而导致的特征信息丢失，在提高检测精度的同时也方便后续得到待标记图像在不同维度上的语义标签。

进一步，所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理，得到所述待标记图像的语义标签，包括：

利用所述自动图像标注模型中第二标签预测网络的平均池化层提取所述第K级第三图像特征图的图像特征向量

利用所述自动图像标注模型中第二标签预测网络的全连接层和sigmoid函数对所述第K级第三图像特征图的图像特征向量进行处理，计算出所述自动图像标注模型中第二标签预测网络的每个语义标签的标注概率，并判断所述每个语义标签的标注概率是否大于或等于第一预设标签阈值；

若是，则将该标注概率对应的语义标签作为所述待标记图像的语义标签，直至得到所有的语义标签。

采用上述进一步方案的有益效果是：在平均池化层提取出图像特征向量后，通过全连接层和sigmoid函数可以对进行图像特征向量逻辑回归，也就是计算第二标签预测网络的每个语义标签的标注概率，并判断每个标注概率是否符合预设条件，从而得到待标记图像的语义标签。

第二方面，本发明提供了一种图像自动标注系统，包括接收模块和标注模块；

所述接收模块用于接收待标记图像；

所述标注模块用于将待标记图像输入到自动图像标注模型中，以使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理，得到第K级第三图像特征图，并使所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理，得到所述待标记图像的语义标签，其中K为正整数。

本发明提供的图像自动标注系统的有益效果是：通过利用标注模块中的自动图像标注模型对待标记图像进行处理，可以方便快捷地对待标记图像进行标注，此外，通过自动图像标注模型中含有的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络以及第二标签预测网络对待标记图像进行处理，使得在进行图像标注时能够提供不同比例的图像特征来对图像进行标注，从而使得对图像的注释更为全面。

在上述技术方案的基础上，本发明的一种图像自动标注系统还可以做如下改进。

进一步，还包括训练模块，

所述训练模块用于获取实验数据集和预训练模型，所述实验数据集包括多个语义标签；

根据卷积注意力网络、多尺度特征融合分支网络和标签预测网络和主干卷积神经网络构建自动图像标注网络；

采用上述进一步方案的有益效果是：训练模块利用实验数据集对自动图像标注网络进行训练，可以使得自动图像标注网络中的卷积注意力网络、多尺度特征融合分支网络、标签预测网络和主干卷积神经网络均具有合适的权重，从而得到一个各个网络之间有机结合的自动图像标注模型，同时使得在后续能使用更多不同的图像特征来对图像进行标注。

第三方面，本发明还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，所述处理器执行所述程序时实现上述任一项所述的一种图像自动标注方法的步骤。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面结合附图和实施例对本发明作进一步说明。

图1为本发明实施例的一种图像自动标注方法的流程示意图；

图2为本发明实施例的另一种图像自动标注方法的流程示意图；

图3为本发明实施例的一种图像自动标注系统的结构示意图；

图4为本发明实施例的训练模块的结构示意图；

图5为本发明实施例的一种电子设备的结构示意图。

具体实施方式

下列实施例是对本发明的进一步解释和补充，对本发明不构成任何限制。

以下结合附图描述本发明实施例的图像自动标注方法。

如图1所示，本发明实施例的一种图像自动标注方法，包括如下步骤：

S1、接收待标记图像；

S2、将待标记图像输入到自动图像标注模型中，以使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理，得到第K级第三图像特征图，并使所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理，得到所述待标记图像的语义标签，其中K为正整数。

通过利用自动图像标注模型对待标记图像进行处理，可以方便快捷地对待标记图像进行标注，此外，通过自动图像标注模型中含有的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络以及第二标签预测网络对待标记图像进行处理，使得在进行图像标注时能够提供不同比例的图像特征来对图像进行标注，从而使得对图像的注释更为全面。

优选地，还包括：

S01、获取实验数据集和预训练模型，所述实验数据集包括多个语义标签；

S02、根据卷积注意力网络、多尺度特征融合分支网络、标签预测网络和主干卷积神经网络构建自动图像标注网络；

S03、将所述预训练模型加载到所述自动图像标注网络中的主干卷积神经网络中，得到第一主干卷积神经网络；

S04、利用所述实验数据集对所述自动图像标注网络中的卷积注意力网络、多尺度特征融合分支网络、标签预测网络共同进行训练，得到第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络；

S05、利用所述实验数据集对含有所述第一主干卷积神经网络、第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络的自动图像标注网络进行训练，得到含有第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络和第二标签预测网络的自动图像标注模型。

利用实验数据集对自动图像标注网络进行训练，可以使得自动图像标注网络中的卷积注意力网络、多尺度特征融合分支网络、标签预测网络和主干卷积神经网络均具有合适的权重，从而得到一个各个网络之间有机结合的自动图像标注模型，同时使得在后续能使用更多不同的图像特征来对图像进行标注

其中，实验数据集为MSCOCO数据集等现有的公开的图像数据集，预训练模型可以直接从现有的资源中下载得到，也可以利用现有的数据集对卷积神经网络进行训练得到。

具体地，如图2所示，在本实施例中，获取的实验数据集包括ImageNet数据集和MSCOCO数据集，

1)根据卷积注意力网络、多尺度特征融合分支网络、标签预测网络和主干卷积神经网络构建形成自动图像标注网络，其中主干卷积神经网络为卷积神经网络ResNet101；

2)利用ImageNet数据集对另一卷积神经网络ResNet101进行训练，得到ResNet101预训练模型；

3)将ResNet101预训练模型加载到自动图像标注网络的主干卷积神经网络中，该主干卷积神经网络因此具有了一定的初始权重，此时具有一定初始权重的主干卷积神经网络为第一主干卷积神经网络；

4)利用MSCOCO数据集对自动图像标注网络中的卷积注意力网络、多尺度特征融合分支网络、标签预测网络共同进行训练，当训练到第一阈值时，停止训练，此时卷积注意力网络、多尺度特征融合分支网络、标签预测网络均具有了一定的初始权重，为第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络。

其中，第一阈值是通过观察训练数据而人为设定的，是可以根据实际情况而更改的；

5)利用所述MSCOCO数据集对含有第一主干卷积神经网络、第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络的自动图像标注网络进行训练，在训练中，第一主干卷积神经网络、第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络不断更新着自身的权重，当自动图像标注网络达到预设状态时，停止训练，得到含有第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络和第二标签预测网络的自动图像标注模型。在得到自动图像标注模型后，如图2所示，将待标记图像输入到自动图像标注模型中，最后输出语义标签。

其中，当自动图像标注网络趋于稳定时即为达到预设状态，而自动图像标注网络趋于稳定的状态是通过训练数据观察而得来的，因此预设状态也是人为设定的；

在训练过程中，本实施例中还同时使用了混类数据增强函数mixup提升自动图像标注模型的精度以及降低自动图像标注模型的过拟合；此外，在训练过程中，还可以使用交叉熵损失函数对自动图像标注模型进行优化。

优选地，S2包括：

S21、利用所述自动图像标注模型中的第二主干卷积神经网络对所述待标记图像进行编码，得到第1级第一图像特征图至第K级第一图像特征图；

S22、利用所述自动图像标注模型中的第二卷积注意力网络分别对所述第1级第一图像特征图至第K级第一图像特征图进行处理，得到第1级第二图像特征图至第K级第二图像特征图；

S23、根据所述自动图像标注模型中的第二多尺度特征融合分支网络和所述第1级第二图像特征图至第K级第二图像特征图，得到第2级第三图像特征图至第K级第三图像特征图，其中，K为正整数。

通过第二主干卷积神经网络对待标记图像进行编码，可以提取出待标记图像在不同维度的特征；通过第二卷积注意力网络对第二主干卷积神经网络提取出的不同维度的特征图进行处理，可以减少待标记图像中的干扰，在提高模型的识别能力的同时提高模型的鲁棒性；利用第二多尺度特征融合分支网络对第二卷积注意力网络处理后的特征图进行才处理，可以得到最终融合形成的第K级第三图像特征图，从而方便后续得到待标记图像在不同维度上的语义标签。

具体地，S21包括：

根据第一公式对待标记图像进行编码，得到第1级第一图像特征图至第K级第一图像特征图，第一公式为：

F_n＝M_n(F_n-1)

利用第一公式的第一复合函数对待标记图像进行处理，其中，卷积和池化可以提取出待标记图像多维度的特征并进行计算，批归一化可以提高处理的精度和速度，激活函数为模型加入非线性因素，从而使得能够提高对特征进行分类的准确性。

具体地，S22包括：

将步骤S21中提取出的所有第一图像特征图依次输入到第二卷积注意力网络的通道注意力模块中，根据第二公式对第m级第一图像特征图进行平均池化和最大池化来聚合第m级第一图像特征图空间信息，然后将聚合后得到的第m级第一图像特征图空间信息转发到共享网络，共享网络通过逐元素求和进行合并，得到第m级一维通道注意力图M_C(F_m)，第二公式为：

M_C(F_m)＝σ(MLP(AvgPool(F_m)+MLP(MaxPool(F_m))

然后，根据第三公式将第m级一维通道注意力图M_C(F_m)与第m级第一图像特征图相乘，得到第m级通道注意特征F_m′，第三公式为：

F_m'＝F_m×M_C(F_m)

将第m级通道注意特征F_m′输入到第二卷积注意力网络的空间注意力模块中，根据第四公式使用平均池化和最大池化来聚合第m级通道注意特征F_m′，并将聚合后的特征连接起来，通过卷积层得到第m级二维空间注意力图M_S(F_m')，第四公式为：

M_S(F_m')＝σ(f^7×7([AvgPool(F_m'),MaxPool(F_m')]))；

根据第五公式将第m级二维空间注意力图M_S(F_m')与第m级通道注意特征F_m'相乘得到第m级第二图像特征图F_m″，第五公式为：

F_m″＝F_m'×M_S(F_m')

直至得到第K级第二图像特征图。

其中，共享网络由一个具有一个隐藏层的多层感知器MLP组成，MLP表示多层感知器，AvgPool表示平均池化，MaxPool表示最大池化，σ表示sigmoid函数，f^7×7为一个卷积核大小为7×7的卷积层，1≤m≤K，m为正整数，K为正整数,F_m为第m级第一图像特征图。

通过第二卷积注意力网络的第二公式和第三公式，可以使得在对所有第一图像特征图进行处理时，自动图像标注模型能够选择出更有益于后续标注的图像特征信息；通过第二卷积注意力网络的第四公式和第五公式，可以减少图像背景对标注的干扰，提高自动图像标注模型的识别精度及鲁棒性。

具体地，S23包括：

根据第六公式将第k-1级第三图像特征图与第k级第二图像特征图进行融合，第六公式为：

直至得到第K级第三图像特征图，

其中，

表示第k-1级第三图像特征图，2≤k≤K；

当k＝2时，

也就是说，第1级第三图像特征图就是第1级第二图像特征图；

表示由卷积，批归一化和激活函数组成的第二复合函数，

表示由卷积，批归一化和激活函数组成的第三复合函数，其中，

中使用3×3的卷积核来使F″_k和

具有相同维度的大小，

中使用1×1的卷积核，不仅可以增加通道数量和非线性特性，还可以减少参数数量，方便计算。

通过第六公式将第二图像特征图和第三图像特征图进行层层维度的融合，可以减少随着网络加深而导致的特征信息丢失，在提高检测精度的同时也方便后续得到待标记图像在不同维度上的语义标签。

优选地，还包括：

S24、利用所述自动图像标注模型中第二标签预测网络的平均池化层提取所述第K级第三图像特征图的图像特征向量

在平均池化层提取出图像特征向量后，通过全连接层和sigmoid函数可以对进行图像特征向量逻辑回归，也就是计算第二标签预测网络的每个语义标签的标注概率，并判断每个标注概率是否符合预设条件，从而得到待标记图像的语义标签。其中，第一预设标签阈值是人为设定的，可以根据具体情况改变。

在上述各实施例中，虽然对步骤进行了编号，如S1、S2等，但只是本申请给出的具体实施例，本领域的技术人员可根据实际情况对调整S1、S2等的执行顺序，此也在本发明的保护范围内，可以理解，在一些实施例中，可以包含如上述各实施方式中的部分或全部。

如图3所示，本发明实施例的一种图像自动标注系统，包括接收模块210和标注模块220，

接收模块210用于接收待标记图像；

标注模块220用于将待标记图像输入到自动图像标注模型中，以使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理，得到第K级第三图像特征图，并使所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理，得到所述待标记图像的语义标签，其中K为正整数。

通过利用标注模块中的自动图像标注模型对待标记图像进行处理，可以方便快捷地对待标记图像进行标注，此外，通过自动图像标注模型中含有的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络以及第二标签预测网络对待标记图像进行处理，使得在进行图像标注时能够提供不同比例的图像特征来对图像进行标注，从而使得对图像的注释更为全面。

进一步，还包括训练模块200，

所述训练模块200用于获取实验数据集和预训练模型，所述实验数据集包括多个语义标签；

优选地，如图4所示，所述训练模块200中还包括第一训练模块201、第二训练模块202、第三训练模块203，标签预测模块204；

第一训练模块201用于利用所述自动图像标注模型中的第二主干卷积神经网络对所述待标记图像进行编码，得到第1级第一图像特征图至第K级第一图像特征图；

具体地，根据第一公式对所述待标记图像进行编码，得到第1级第一图像特征图至第K级第一图像特征图，第一公式为：

F_n＝M_n(F_n-1)

第二训练模块202用于利用所述自动图像标注模型中的第二卷积注意力网络分别对所述第1级第一图像特征图至第K级第一图像特征图进行处理，得到第1级第二图像特征图至第K级第二图像特征图。

具体地，根据第二公式得到第m级一维通道注意力图M_C(F_m)，第二公式为：

M_C(F_m)＝σ(MLP(AvgPool(F_m)+MLP(MaxPool(F_m))

根据第三公式得到第m级通道注意特征F_m′，第三公式为：

F_m'＝F_m×M_C(F_m)

根据第四公式得到第m级二维空间注意力图M_S(F_m')，第四公式为：

M_S(F_m')＝σ(f^7×7([AvgPool(F_m'),MaxPool(F_m')]))；

根据第五公式得到第m级第二图像特征图F_m″，第五公式为：

F_m″＝F_m'×M_S(F_m')；

直至得到第K级第二图像特征图；

第三训练模块203用于根据所述自动图像标注模型中的第二多尺度特征融合分支网络和所述第1级第二图像特征图至第K级第二图像特征图，得到第2级第三图像特征图至第K级第三图像特征图，其中，K为正整数。

具体地，根据第六公式将第k-1级第三图像特征图与第k级第二图像特征图进行融合，第六公式为：

直至得到第K级第三图像特征图，其中，

表示第k-1级第三图像特征图，2≤k≤K，且当k＝2时，

即第1级第三图像特征图为第1级第二图像特征图，

表示由卷积，批归一化和激活函数组成的第二复合函数，

表示由卷积，批归一化和激活函数组成的第三复合函数。

标签预测模块204用于利用所述自动图像标注模型中第二标签预测网络的平均池化层提取所述第K级第三图像特征图的图像特征向量；

上述关于本发明的一种图像自动标注系统中的各参数和各个单元模块实现相应功能的步骤，可参考上文中关于一种图像自动标注方法的实施例中的各参数和步骤，在此不做赘述。

如图5所示，本发明实施例的一种电子设备300，包括存储器310、处理器320及存储在所述存储器310上并在所述处理器320上运行的程序330，所述处理器320执行所述程序330时实现上述任一图像自动标注方法的部分或全部步骤。

其中，电子设备300可以选用电脑、手机等，相对应地，其程序330为电脑软件或手机APP等，且上述关于本发明的一种电子设备300中的各参数和步骤，可参考上文中一种图像自动标注方法的实施例中的各参数和步骤，在此不做赘述。

所属技术领域的技术人员知道，本发明可以实现为系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种图像自动标注方法，其特征在于，包括以下步骤：

接收待标记图像；

将待标记图像输入到自动图像标注模型中，以使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理，得到第K级第三图像特征图，并使所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理，得到所述待标记图像的语义标签，其中K为正整数；

使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理，得到第K级第三图像特征图，包括：

根据所述自动图像标注模型中的第二多尺度特征融合分支网络和所述第1级第二图像特征图至第K级第二图像特征图，得到第2级第三图像特征图至第K级第三图像特征图，其中，K为正整数；

根据所述自动图像标注模型中的第二多尺度特征融合分支网络和所述第1级第二图像特征图至第K级第二图像特征图，得到第2级第三图像特征图至第K级第三图像特征图，包括：

直至得到第K级第三图像特征图，其中，

表示第k级第三图像特征图，F”_k表示第k级第二图像特征图，

表示第k-1级第三图像特征图，2≤k≤K，且当k＝2时，F₁ ^f＝F₁”即第1级第三图像特征图为第1级第二图像特征图，

表示由卷积，批归一化和激活函数组成的第二复合函数，

表示由卷积，批归一化和激活函数组成的第三复合函数。

2.根据权利要求1所述的一种图像自动标注方法，其特征在于，还包括：

3.根据权利要求1所述的一种图像自动标注方法，其特征在于，利用所述自动图像标注模型中的第二主干卷积神经网络对所述待标记图像进行编码，得到第1级第一图像特征图至第K级第一图像特征图，包括：

4.根据权利要求3所述的一种图像自动标注方法，其特征在于，所述自动图像标注模型中的第二卷积注意力网络分别对所述1至K级第一图像特征图进行处理，得到第1级第一图像特征图至第K级第二图像特征图，包括：

根据第三公式得到第m级通道注意特征F_m’，所述第三公式为：F_m'＝F_m×M_C(F_m)；

根据第五公式得到第m级第二图像特征图F_m”，所述第五公式为：F_m”＝F_m'×M_S(F_m')；

直至得到第K级第二图像特征图；

5.根据权利要求1-4任一项所述的一种图像自动标注方法，其特征在于，所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理，得到所述待标记图像的语义标签，包括：

6.一种图像自动标注系统，其特征在于，包括接收模块和标注模块；

所述接收模块用于接收待标记图像；

所述标注模块用于将待标记图像输入到自动图像标注模型中，以使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理，得到第K级第三图像特征图，并使所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理，得到所述待标记图像的语义标签，其中K为正整数；

还包括训练模块；

所述训练模块用于利用所述自动图像标注模型中的第二主干卷积神经网络对所述待标记图像进行编码，得到第1级第一图像特征图至第K级第一图像特征图；利用所述自动图像标注模型中的第二卷积注意力网络分别对所述第1级第一图像特征图至第K级第一图像特征图进行处理，得到第1级第二图像特征图至第K级第二图像特征图；根据所述自动图像标注模型中的第二多尺度特征融合分支网络和所述第1级第二图像特征图至第K级第二图像特征图，得到第2级第三图像特征图至第K级第三图像特征图，其中，K为正整数；

所述训练模块具体用于根据第六公式将第k-1级第三图像特征图与第k级第二图像特征图进行融合，所述第六公式为：

直至得到第K级第三图像特征图，其中，

表示由卷积，批归一化和激活函数组成的第二复合函数，

表示由卷积，批归一化和激活函数组成的第三复合函数。

7.根据权利要求6所述的一种图像自动标注系统，其特征在于，

所述训练模块还用于获取实验数据集和预训练模型，所述实验数据集包括多个语义标签；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述的一种图像自动标注方法的步骤。