CN110110800A

CN110110800A - 自动图像标注方法、装置、设备及计算机可读存储介质

Info

Publication number: CN110110800A
Application number: CN201910399689.2A
Authority: CN
Inventors: 陈沅涛; 陈曦; 谷科; 张建明; 陶家俊
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2019-08-09
Anticipated expiration: 2039-05-14
Also published as: CN110110800B

Abstract

本发明实施例公开了一种自动图像标注方法、装置、设备及计算机可读存储介质。其中，方法包括将待标注图像输入至预先构建的深度学习网络模型中，提取深度学习网络模型中间层输出的卷积结果；基于卷积结果，通过稀疏编码生成待标注图像的图像视觉特征向量；计算图像视觉特征向量与预先构建的文本词汇视觉特征向量库中的各文本词汇的文本视觉特征向量的相似度，最后将满足相似度条件的文本词汇作为标注词，自动对待标注图像进行图像标注。本申请无需大规模数据集训练模型，时空开销较小，有效降低了深度特征数据和硬件门槛要求条件，还有利于扩大深度学习应用范围。

Description

自动图像标注方法、装置、设备及计算机可读存储介质

技术领域

本发明实施例涉及图像标注技术领域，特别是涉及一种自动图像标注方法、装置、设备及计算机可读存储介质。

背景技术

近二十年以来，自动图像标注一直是计算机视觉领域的研究热点问题。图像标注效果取决于标注模型和视觉特征向量，视觉特征向量质量决定了图像标注质量上限。近些年来，随着图像标注模型越来越趋于成熟，视觉特征向量已经成为图像标注效果的决定性因素。

传统计算机视觉领域的图像特征均为领域专家设计的人工特征，人工特征质量依赖专家领域知识和相关经验，在复杂计算机视觉应用中间，人工特征很难提取出高质量特征向量。鉴于此，相关技术通过构建基于卷积神经网络的深度学习模型提取图像特征。深度学习所提取特征称之为深度特征，与人工特征相区别的是，深度学习特征是端到端特征提取过程，无需人工参与和干预。对于图像特征提取而言，输入端输入原始图像，通过复杂的模型训练后，模型可以在输出端直接输出高质量的深度特征。例如表1所示是基于深度学习的图像标注模型与传统标注模型的效果对比，实验数据集均为Corel5K。

表1基于深度学习的标注模型与传统标注模型的效果对比(Corel5k)

从表1的已有公开实验数据可见，深度学习方法相较于传统图像标注方法，效果虽然有所提高但并不十分显著，特别是当网络模型较复杂时，如VGG-16网络，由于小规模图像数据无法满足复杂网络结构模型的训练，导致标注性能出现降低现象。如果没有足够训练数据支撑，由于过拟合现象等原因，这些复杂网络模型并不能获得理想标注效果，甚至越复杂网络结构的深度学习模型其标注性能越低。同时，这种深度学习训练方法需要较大时间开销以及较高硬件配置条件。

尽管理论上很多深度学习模型已有比较完善的理论基础和科学性较高的网络结构，但如果没有足够训练数据作为支撑条件，这些复杂网络模型并不能获取理想图像标注效果，同时深度模型训练所需较高时空开销和较高硬件配置条件使其应用受到诸多限制约束。

发明内容

本公开实施例提供了一种自动图像标注方法、装置、设备及计算机可读存储介质，无需大规模数据集训练模型，有效降低了深度特征数据和硬件门槛要求条件，还有利于扩大深度学习应用范围。

为解决上述技术问题，本发明实施例提供以下技术方案：

本发明实施例一方面提供了一种自动图像标注方法，包括：

将待标注图像输入至预先构建的深度学习网络模型中，并提取所述深度学习网络模型中间层输出的卷积结果；

基于所述卷积结果，通过稀疏编码生成所述待标注图像的图像视觉特征向量；

计算所述图像视觉特征向量与预先构建的文本词汇视觉特征向量库中的各文本词汇的文本视觉特征向量的相似度；

将满足相似度条件的文本词汇作为标注词，自动对所述待标注图像进行图像标注。

可选的，所述文本词汇视觉特征向量库的构建过程包括：

文本词汇视觉特征向量库包括M个词汇，利用第一公式表示所述文本词汇视觉特征向量库中第j个词汇w_j基于正例图像集的视觉特征向量所述第一公式为：

式中，利用第二公式表示所述词汇w_j的视觉特征向量所述第二公式为：

为所述正例图像集I中每i张正例图像的特征向量，s_j为所述词汇w_j的正例图像集合，N为正例图像个数；所述正例图像集表示为所述正例图像集I中每张正例图像由第三公式表示，所述第三公式为：

式中，为词汇特征向量，a为布尔类型。

可选的，所述基于所述卷积结果，通过稀疏编码生成所述待标注图像的图像视觉特征向量包括：

将所述卷积结果进行规格化并转化为二维特征矩阵；

利用聚类算法对所述二维特征矩阵进行聚类处理，得到所述待标注图像的多个视觉词汇；

利用所述聚类算法产生的多个聚类中心点将所述二维特征矩阵进行局部聚合向量编码，以得到所述待标注图像的图像视觉特征向量。

可选的，所述利用聚类算法对所述二维特征矩阵进行聚类处理之前，还包括：

利用主成分分析对所述二维特征矩阵进行约减处理，以用于执行后续聚类操作。

可选的，所述利用聚类算法对所述二维特征矩阵进行聚类处理为：

利用K-Means聚类算法对经过降维处理的二维特征矩阵进行聚类处理。

可选的，所述待标注图像的图像视觉特征向量利用第四公式表示，所述第四公式为：

式中，f_i为所述待标注图像的图块特征，[C₁,C₂,…,C_m]为各聚类中心点，m为所述待标注图像的视觉词汇总个数。

可选的，所述计算所述图像视觉特征向量与预先构建的文本词汇视觉特征向量库中的各文本词汇的文本视觉特征向量的相似度为：

利用第五公式依次计算所述图像视觉特征向量和各文本词汇的文本视觉特征向量的相似度，所述第五公式为：

式中，I_o为所述待标注图像，为所述图像视觉特征向量，w_j为所述文本词汇视觉特征向量库第j个词汇，为所述词汇w_j的文本视觉特征向量。

本发明实施例另一方面提供了一种自动图像标注装置，包括：

中间层特征提取模块，用于将待标注图像输入至预先构建的深度学习网络模型中，并提取所述深度学习网络模型中间层输出的卷积结果；

图像视觉特征向量生成模块，用于基于所述卷积结果，通过稀疏编码生成所述待标注图像的图像视觉特征向量；

相似度计算模块，用于计算所述图像视觉特征向量与预先构建的文本词汇视觉特征向量库中的各文本词汇的文本视觉特征向量的相似度；

图像标注模块，用于将满足相似度条件的文本词汇作为标注词，自动对所述待标注图像进行图像标注。

本发明实施例还提供了一种自动图像标注设备，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述自动图像标注方法的步骤。

本发明实施例最后还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有自动图像标注程序，所述自动图像标注程序被处理器执行时实现如前任一项所述自动图像标注方法的步骤。

本申请提供的技术方案的优点在于，由于深度学习网络模型中间层刻画的是图像的区域或局部特征，卷积核感受野小，个数偏多，其输出的卷积特征更善于描述多个对象或复杂图像中对象特征，不需要大规模训练样本集也可得到精准的图像特征；且直接提取中间层特征可以避免深度学习网络模型的全连接层产生较高时空开销，从而降低特征生成和图像标注过程的时空复杂度，时空开销较小，更适合于大规模数据集的处理和在线标注，有效降低了深度特征数据和硬件门槛要求条件，还有利于扩大深度学习应用范围；由于测试图像最终标注词汇取决于文本词汇视觉特征向量，而不是训练图像特征向量，还有助于缓解训练数据类别不均衡问题。

此外，本发明实施例还针对自动图像标注方法提供了相应的实现装置、设备及计算机可读存储介质，进一步使得所述方法更具有实用性，所述装置、设备及计算机可读存储介质具有相应的优点。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

为了更清楚的说明本发明实施例或相关技术的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种自动图像标注方法的流程示意图；

图2为本发明实施例提供的自动图像标注装置的一种具体实施方式结构图；

图3为本发明实施例提供的自动图像标注装置的另一种具体实施方式结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

本申请的发明人经过研究发现，目前围绕深度学习开展图像标注的研究主要分为三类：(1)设计新的网络结构或改进已有模型，如通过修改损失函数、输出类别个数等方法，使用目标数据集进行训练，使得原有模型适合图像标注；(2)基于预训练模型的微调型，仅仅修改在较大数据集上已训练好的网络模型的全连接层和输出层使其适应目标数据集，而其他网络结构和参数保持不变，即在现有网络权重的基础上对网络进行微调，如迁移学习类方法；(3)直接使用预训练模型完成目标数据集的特征提取，然后再使用其他复杂算法完成标注，或把深度特征与其他特征融合进行图像标注。如著名的图像标注模型CMRM和MBRM的提出者R.Manmatha团队提出将深度学习特征应用于JEC、2PKNN等复杂图像标注算法，并能够取得较好标注效果。

然而，这类方法取得较好效果的主因是后续复杂标注模型或多种特征融合条件。依然没有解决在数据集较小的情况下，如何提取适合于图像标注的高质量深度特征，以及如何设计高效的标注模型。针对上述问题，本申请在资源受限、数据量不足的情况下，提取高质量深度特征，并提出有针对性的图像标注有效模型。

在介绍了本发明实施例的技术方案后，下面详细的说明本申请的各种非限制性实施方式。

首先参见图1，图1为本发明实施例提供的一种自动图像标注方法的流程示意图，本发明实施例可包括以下内容：

S101：将待标注图像输入至预先构建的深度学习网络模型中，并提取深度学习网络模型中间层输出的卷积结果。

可以理解的是，深度学习模型所提取端到端特征可视作图像全局特征，这种方法在图像分类领域取得极大成功，但在图像标注领域并没有取得显著研究成果。在基于深度学习图像分类中，仅使用模型末端输出层的全局特征，而忽略中间层的输出特征，因此称为端到端模型。然而根据深度学习理论可知，深度学习模型在对图像特征进行层层抽象时，每层都有其自身价值所在，它们的感受野范围不同，提取特征所描述范围不同，网络模型末端的全连接层刻画的是图像的全局视觉特征，而中间层刻画的是图像的区域或局部特征。深度学习中间层卷积核感受野小，感受野决定某一层输出结果中一个元素所对应的输入层的区域大小，但个数偏多，这些中间层卷积核更易捕获局部或区域方面特征。可见，中间层特征更善于描述多个对象或复杂图像中对象特征，而且直接提取中间层特征可以避免深度学习的全连接层产生较高时空开销。

在本实施例中，深度学习网络模型可采用相关技术中任何在一种结构的深度学习网络模型，例如卷积神经网络模型等，本申请对此不做任何限定。网络模型的构建过程和特征的提取过程可参阅相关技术中记载的实现过程，此处，便不再赘述。

S102：基于卷积结果，通过稀疏编码生成待标注图像的图像视觉特征向量。

在提取得到待标注图像的卷积特征后，可采用任何一种稀疏编码算法进行编码处理，得到相应的视觉特征向量。

通常来说，人工特征向量为底层视觉的统计量等，其视觉模式不够显著，语义级别较低。因此，基于人工特征向量的图像分类/标注模型往往较抽象、算法较复杂、时空代价较大。与传统的人工特征相比，深度学习中间层特征视觉模式显著、语义级别较高，采用视觉词典等稀疏编码方式后，其视觉和语义刻画能力较强。如果能为每个文本词汇构造视觉特征向量，那么，传统的图像标注问题中计算词汇隶属于图像的置信度问题就转换为计算两个视觉特征向量(文本词汇视觉特征向量和图像视觉特征向量)的相似度问题了。基于这种文本词汇视觉特征向量标注方法的时空开销非常小，且与训练数据集规模无关。与传统方法相比，更适合处理大规模数据集。

S103：计算图像视觉特征向量与预先构建的文本词汇视觉特征向量库中的各文本词汇的文本视觉特征向量的相似度。

本实施例中，文本词汇视觉特征向量库中为预先构建的，包括多个文本词汇，每个文本词汇对应一个文本视觉特征向量，文本词汇视觉向量库中包含的文本词汇足够多，以可包括对待标注图像中的标注词。

S104：将满足相似度条件的文本词汇作为标注词，自动对待标注图像进行图像标注。

可以理解的是，待标注图像的图像视觉特征向量与文本词汇视觉特征向量库中的某个、某几个词汇的文本视觉特征向量的相似度越大，则这几个词汇有极大概率为待标注图像的标注词，可取视觉相似度最大的若干词汇作为图像的标注词。

在本申请中，本领域技术人员可根据具体应用场景、用户需求等条件预先设定相似度阈值，将图像视觉特征向量与文本视觉特征向量相似度值不小于相似度阈值的文本词汇选择出来，作为标注词。或者可将图像视觉特征向量与文本词汇视觉特征向量库中的每个文本词汇的文本视觉特征向量的相似度值按照从大到小进行排序，排序之后选择排序在前的a个文本词汇作为标注词，a的大小同样可根据具体应用场景、用户需求等条件预先设定。在得到标注词后，可利用任何一种自动图像标注方法对待标注图像进行图像标注。

在本发明实施例提供的技术方案中，由于深度学习网络模型中间层刻画的是图像的区域或局部特征，卷积核感受野小，个数偏多，其输出的卷积特征更善于描述多个对象或复杂图像中对象特征，不需要大规模训练样本集也可得到精准的图像特征；且直接提取中间层特征可以避免深度学习网络模型的全连接层产生较高时空开销，从而降低特征生成和图像标注过程的时空复杂度，时空开销较小，更适合于大规模数据集的处理和在线标注，有效降低了深度特征数据和硬件门槛要求条件，还有利于扩大深度学习应用范围；由于测试图像最终标注词汇取决于文本词汇视觉特征向量，而不是训练图像特征向量，还有助于缓解训练数据类别不均衡问题。

在一种实施方式中，可将提取的待标注图像的中间层卷积特征表示为F∈R^(K×W×H)，K表示特征图的个数，W和H分别代表特征图的宽和高。为了便于后续图像处理方便，可对卷积特征进行规格化处理并转化为二维特征矩阵，转化后的二维特征矩阵可表示为F_(W×H,K)。为了降低后续图像处理难度，提高数据处理效率，还可通过降维处理使得二维特征矩阵规模减小，可选的，可利用主成分分析(Principal Component Analysis，PCA)进行约减，实现二维特征矩阵的降维处理。为了便于后续标注词的准确确定，还可将二维特征矩阵表示为词袋向量，可使用但并不限定K-Means聚类算法对经过降维处理的二维特征矩阵进行聚类处理，构造出待标注图像的m个视觉词汇，然后根据视觉词袋原理，将待标注图像表示为m维的词袋向量。在使用聚类算法对二维特征矩阵进行聚类操作之后，会生成相应的聚类中心点，利用这些聚类中心点可将降维后的二维特征向量进行稀疏编码处理，可使用但并不限制利用VLAD(Vector of Locally Aggregated Descriptors，局部聚合向量)编码二维特征向量，从而转化为待标注图像的视觉特征向量。若二维特征向量并为进行降维处理，则此处直至对二维特征向量进行稀疏编码即可，经过稀疏编码的二维特征向量可表示为：

式中，f_i为待标注图像的图块特征，[C₁,C₂,…,C_m]为各聚类中心点，m为待标注图像的视觉词汇总个数。

一般来说，若有M个视觉词汇的话，视觉词典表示方法相当于构造一个M维的视觉特征空间，每个图像均是该空间中的一个对象，因此图像可以由M个基底特征向量线性表示。从语义角度看，每幅图像可以视为若干个文本概念的组合，如果每个文本概念w都可以表示成同一特征空间中的特征向量的话，那么任一图像I的特征向量可以视为若干个文本语义词汇特征向量的线性和，也即可以利用下述公式(1)进行表示：

其中，系数a_j表示为布尔类型，若图像中有对应词汇则为1，否则为0，举例来说，如图像中包含词汇w_j、w_M，则该图像I的特征向量可以表示为：

当已知图像特征向量以及其所包含的词汇信息时候，可以根据矩阵知识求出每个文本词汇的视觉向量。但该方程组求解存在如下困难：1)理想情况下，所有语义对象的特征向量都是线性无关的，它们可以作为该语义空间的基底向量，但事实上，不同概念之间会有相关视觉模式，因此，这一假设很难严格成立；2)大多数图像数据集词汇分布不均衡，一些低频词汇对应的图像个数远低于向量维数；3)当特征向量维数较高的时候，求解的时空复杂度过高。因此，很难采用传统的矩阵方法或机器学习方法求解。

针对深度学习中间层特征的区域或局部调整描述能力强、区分度大，且具有一定语义刻画能力，鉴于此，本申请可采用基于正例样本均值向量的快速标注方法，具体来说，尽管无法直接对方程式求解，但针对深度学习中间层特征的特点，任一文本词汇的特征向量可由包含该词汇的所有图像特征向量的均值近似表示。

文本词汇视觉特征向量库包括M个词汇，为词汇特征向量，正例图像集包含N张正例图像，那么正例图像集可表示为以词汇w_j为例，若正例图像集的N张正例图像均包含词汇w_j，则N张图像都由语义概念特征向量表示的话，可以形成下述方程组形式：

可选的，可利用下述公式表示词汇w_j的视觉特征向量

为正例图像集I中每i张正例图像的特征向量，s_j为词汇w_j的正例图像集合。将公式(2)代入公式(3)中，则可由公式(4)表示：

由上式可知，当图像规模增大的时候，第j个词汇的系数越接近于1，而其他向量的系数越来越接近于0。数据集规模越大，则包含词汇的图像子集规模也越大，公式(4)计算出的越接近于词汇w_j的向量也就是说，数据集规模越大，正例均值向量法所构造的词汇视觉特征向量越接近于词汇w_j的真实特征向量因此，根据公式(3)生成所有关键词的正例均值向量，实现文本语义概念向视觉词汇向量表示的转换，从而可以构造出文本词汇的视觉特征向量库。

在另外一些实施方式中，可利用下述公式依次计算图像视觉特征向量和各文本词汇的文本视觉特征向量的相似度：

式中，I_o为待标注图像，为图像视觉特征向量，w_j为文本词汇视觉特征向量库第j个词汇，为词汇w_j的文本视觉特征向量。当然，也可采用其他相似度计算方法，这并不影响本申请的实现。

最后，为了准确、客观地比较并评价本申请的技术方案的各项性能，本申请还提供验证性的实施例，可包括下述内容：

实验数据集可采用图像标注领域最常用实验数据集，例如经典数据集Corel5k和IAPR TC-12。Corel5k数据集规模较小，包括了4500幅训练图像、500幅测试图像，共包含260个语义概念，该数据集规模大于很多实际应用中的真实数据集；IAPR TC-12数据集规模较大，共有19623幅图像，其中包括训练图像17663幅，测试图像1960幅，数据集内共包含291个语义概念。本申请方法的实验系统平台是64位Windows 10操作系统，硬件配置为3.60GHZ的i7-3790CPU、NVIDA GeForce GTX 1080显卡、8GB内存，软件环境是Matlab 2016a版本。

性能评价指标采用图像标注领域最广泛的查准率、查全率、F1值(F1-Score)和N+。为了客观评价本申请所提取的深度学习中间卷积层特征的性能，将实验的结果与使用传统人工特征经典图像标注模型例如MBRM模型和JEC模型，以及将深度学习特征应用于JEC、2PKNN等复杂标注算法的结果进行了比较。与JEC中深度学习网络模型相同，本申请深度学习网络模型均采用VGG-16网络，根据网络结构及卷积核等信息，选用Conv5-2层数据作为图像的局部特征信息。预训练数据集为ILSVRC-2012。在较小规模数据集Corel5k和较大规模数据集IAPR TC-12上完成的实验结果分别如表2、表3所示。

表2基于Corel5k数据集的实验结果性能对比表

表3基于ILSVRC-2012数据集的实验结果性能对比表

由表2和表3中实验结果可知，无论是在较小规模数据集Corel5k，还是在较大数据集IAPR TC-12中，本申请技术方案的性能指标不仅优于采用人工特征的标注模型MBRM和JEC，也优于使用深度学习端到端特征的标注模型JEC和2PKNN。表2实验结果表明在较小规模数据集Corel5k中本申请标注效果略优于其他方法，表3实验结果表明在较大规模数据集IAPR TC-12中本申请标明均优于其他方法，综合评价指标F1值分别比MBRM、JEC(人工特征)、JEC(深度特征)、2PKNN(深度特征)提升了63％、35％、60％、32％。这印证了，公式(3)和公式(4)中推理，图像数据集规模越大，所构造的越接近于目标词汇w_j的特征向量因此，采用该方法所完成的图像标注效果越好。

由于2PKNN和JEC涉及多种人工特征模型复杂度较高，现有相关资料中均未给出这些特征的时间开销，且模型较复杂，实验环节未能在同一实验环境下完成对比实验，因此表2和表3仅对比了这些算法的标注效果，而没有列出时间开销，但理论上，这些算法的时间复杂度、空间复杂度均大于本申请的技术方案。本申请所提出方法无需训练深度学习模型，Corel5k测试图像数据集特征提取时间为55秒，而传统的端到端的深度学习微调方法模型训练时间是8小时，测试图像数据特征提取时间为70秒。在较大规模数据集IAPR TC-12中，本申请测试图像特征提取时间为330秒，而传统的端到端的深度学习微调方法模型训练时间是10小时，测试图像数据特征提取时间为360秒。若测试图像个数为T、训练图像个数为N、数据集中所包含词汇个数为W，JEC和2PKNN时间复杂度为O(TN)，而本申请时间复杂度为O(TW)，由于数据集中训练图像个数N远大于词汇个数W，如：Corel5k(4500幅训练图像、260个词汇)、IAPR TC-12(17825幅训练图像、291个词汇)、LSVRC-2012(120万幅训练图像，1000个词汇)，因此，标注阶段本申请技术方案的时间开销也明显低于JEC和2PKNN，远低于MBRM等标注模型。

通过计算测试图像与所有文本词汇的视觉特征向量相似度，并取相似度最大的若干词汇作为标注词。IAPR TC-12数据集上的实验结果表明，本申请技术方案提出改进方法F1值比采用端到端深度特征的2PKNN和JEC分别提高32％和60％，改进效果明显。

本发明实施例还针对自动图像标注方法提供了相应的实现装置，进一步使得所述方法更具有实用性。下面对本发明实施例提供的自动图像标注装置进行介绍，下文描述的自动图像标注装置与上文描述的自动图像标注方法可相互对应参照。

参见图2，图2为本发明实施例提供的自动图像标注装置在一种具体实施方式下的结构图，该装置可包括：

中间层特征提取模块201，用于将待标注图像输入至预先构建的深度学习网络模型中，并提取深度学习网络模型中间层输出的卷积结果。

图像视觉特征向量生成模块202，用于基于卷积结果，通过稀疏编码生成待标注图像的图像视觉特征向量。

相似度计算模块203，用于计算图像视觉特征向量与预先构建的文本词汇视觉特征向量库中的各文本词汇的文本视觉特征向量的相似度。

图像标注模块204，用于将满足相似度条件的文本词汇作为标注词，自动对待标注图像进行图像标注。

可选的，在本实施例的一些实施方式中，请参阅图3，所述装置还可以包括文本词汇视觉特征向量库预构建模块205，所述文本词汇视觉特征向量库预构建模块205可为文本词汇视觉特征向量库包括M个词汇，利用下述公式表示文本词汇视觉特征向量库中第j个词汇w_j基于正例图像集的视觉特征向量的模块：

式中，所述词汇w_j的视觉特征向量为：i＝1，2，…，N；

为正例图像集I中每i张正例图像的特征向量，s_j为词汇w_j的正例图像集合，N为正例图像个数；正例图像集表示为正例图像集I中每张正例图像由下述公式表示：

为词汇特征向量，a为布尔类型。

在另外一些实施方式中，所述图像视觉特征向量生成模块202可包括格式转化子模块、聚类处理子模块及稀疏编码子模块；

转化子模块用于将卷积结果进行规格化并转化为二维特征矩阵；

聚类处理子模块用于利用聚类算法对二维特征矩阵进行聚类处理，得到待标注图像的多个视觉词汇；

稀疏编码子模块用于利用聚类算法产生的多个聚类中心点将二维特征矩阵进行局部聚合向量编码，以得到待标注图像的图像视觉特征向量。

在本实施例的一些具体实施方式中，所述图像视觉特征向量生成模块202例如还可以包括降维子模块，用于利用主成分分析对所述二维特征矩阵进行约减处理，以用于执行后续聚类操作。

可选的，所述相似度计算模块203还可为利用下述公式依次计算图像视觉特征向量和各文本词汇的文本视觉特征向量的相似度的模块：

式中，I_o为待标注图像，为图像视觉特征向量，w_j为文本词汇视觉特征向量库第j个词汇，为词汇w_j的文本视觉特征向量。

本发明实施例所述自动图像标注装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

由上可知，本发明实施例无需大规模数据集训练模型，有效降低了深度特征数据和硬件门槛要求条件，还有利于扩大深度学习应用范围。

本发明实施例还提供了一种自动图像标注设备，具体可包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序以实现如上任意一实施例所述自动图像标注方法的步骤。

本发明实施例所述自动图像标注设备的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，存储有自动图像标注程序，所述自动图像标注程序被处理器执行时如上任意一实施例所述自动图像标注方法的步骤。

本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种自动图像标注方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种自动图像标注方法，其特征在于，包括：

2.根据权利要求1所述的自动图像标注方法，其特征在于，所述文本词汇视觉特征向量库的构建过程包括：

文本词汇视觉特征向量库包括M个词汇，利用第一公式表示所述文本词汇视觉特征向量库中第j个词汇w_j基于正例图像集的视觉特征向量其中，所述第一公式为：

式中，为词汇特征向量，a为布尔类型。

3.根据权利要求1所述的自动图像标注方法，其特征在于，所述基于所述卷积结果，通过稀疏编码生成所述待标注图像的图像视觉特征向量包括：

将所述卷积结果进行规格化并转化为二维特征矩阵；

4.根据权利要求3所述的自动图像标注方法，其特征在于，所述利用聚类算法对所述二维特征矩阵进行聚类处理之前，还包括：

5.根据权利要求4所述的自动图像标注方法，其特征在于，所述利用聚类算法对所述二维特征矩阵进行聚类处理为：

6.根据权利要求3-5任意一项所述的自动图像标注方法，其特征在于，所述待标注图像的图像视觉特征向量利用第四公式表示，所述第四公式为：

7.根据权利要求1-5任意一项所述的自动图像标注方法，其特征在于，所述计算所述图像视觉特征向量与预先构建的文本词汇视觉特征向量库中的各文本词汇的文本视觉特征向量的相似度为：

8.一种自动图像标注装置，其特征在于，包括：

9.一种自动图像标注设备，其特征在于，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7任一项所述自动图像标注方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有自动图像标注程序，所述自动图像标注程序被处理器执行时实现如权利要求1至7任一项所述自动图像标注方法的步骤。