CN111177444A

CN111177444A - 一种图像标记方法及电子设备

Info

Publication number: CN111177444A
Application number: CN202010000428.1A
Authority: CN
Inventors: 孙科; 储朱涛; 贺鹏飞; 王文强; 何彩洋; 施佳
Original assignee: Hangzhou Chuangjiang Information Technology Co ltd
Current assignee: Hangzhou Chuangjiang Information Technology Co ltd
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2020-05-19

Abstract

本发明提供了一种图像标记方法及电子设备，涉及图像挖掘技术领域，主要解决了对图像进行精准描述的技术问题。该发明包括：获取待标记图像的标签集，所述标签集包括至少一个所述图像的已有标签；对所述标签集内的标签进行过滤，得到过滤后的标签；根据所述过滤后的标签，计算标签间的视觉相似度矩阵和语义相似度矩阵；根据所述视觉相似度矩阵和语义相似度矩阵计算混合相似度矩阵，并对所述混合相似度矩阵进行聚类，得到所述待标记图像的视觉主题，所述视觉主题包括至少一个所述过滤后的标签；采用所述视觉主题标记所述待标记图像。因此，本发明不需要引入额外的数据来训练，充分利用公开的预训练算法模型；具有操作性强，计算速度快，效果好特点。

Description

一种图像标记方法及电子设备

技术领域

本发明涉及图像挖掘技术领域，尤其涉及一种图像标记方法及电子设备。

背景技术

互联网技术的飞速发展使得人们越来越喜爱将自己的生活与见闻拍摄图片或视频发布在各大社交网站上。在网站上存储的海量图像数据中，图像对应的用户标签在描述图像内容、方便用户检索兴趣图像方面起着举足轻重的作用。然而，由于每个人描述和看待事物的角度不同，往往会有不同的标签描述相似图像的现象出现，这给图像存储和处理的网站服务器产生了很大的压力。此外，并且所有的标签都与特定的视觉内容有比较强的关联，如“棒极了”、“漂亮”之类的标签，无法将之与很具体的图像联系起来，然而这类标签却经常出现在各大社交网站之中。

社交网络为了方便图像的存储和检索，会将图像与对应的标签进行特征的描述和编码，用来存储在数据服务器上提供服务。在图像标签的编码方式上一般采用“一位独热”编码方式(one-hot encoding)，即将所有独立的标签作为一个整体的序列进行排列。例如给定一幅图像，它的标签描述编码就是一个很长的数字序列，若图像中包含某几个标签，则序列中对应的标签位置的数值为1，其余位置数值为0。给定一个图像的集合，那么生成的标签编码序列就是一个非常稀疏的编码矩阵(encoding matrix)，矩阵里只有少量位置值为1，大部分位置的数值都为0。存储和处理这样的矩阵对于计算机来说耗时耗力，并且对于图像和标签的处理算法也带来了较大的困难。有一些工作尝试使用降维方法减少图像标签的数量，从而降低标签编码矩阵的维度，然而此类方法只是基于概率上的理论，而标签之间的内在联系往往是被忽略的。

因此，针对图像标签存在的问题，需要有一种更合适的内容描述和编码方法来对图像进行精准描述。

发明内容

本发明其中一个目的是为了提出一种图像标记方法及电子设备，解决了现有技术中对图像进行精准描述的技术问题。本发明优选实施方案中能够达到诸多有益效果，具体见下文阐述。

为实现上述目的，本发明提供了以下技术方案：

本发明的一种图像标记方法，其包括：

获取待标记图像的标签集，所述标签集包括至少一个所述图像的已有标签；

对所述标签集内的标签进行过滤，得到过滤后的标签；

根据所述过滤后的标签，计算标签间的视觉相似度矩阵和语义相似度矩阵；

根据所述视觉相似度矩阵和语义相似度矩阵计算混合相似度矩阵，并对所述混合相似度矩阵进行聚类，得到所述待标记图像的视觉主题，所述视觉主题包括至少一个所述过滤后的标签；

采用所述视觉主题标记所述待标记图像。

进一步的，所述对所述标签集内的标签进行过滤，得到过滤后的标签，包括：

获取所述标签集内的各个标签对应的VCDL，所述VCDL根据各个标签和所述各个标签已标记的图像集确定；其中，VCDL为视觉内容描述级别，用于衡量标签的描述能力；

在所述标签集内去除低于预设阈值的VCDL对应的标签，得到过滤后的标签。

进一步的，所述获取所述标签集内的各个标签对应的VCDL，包括：

分别将所述标签集内的各个标签作为当前标签，获取所述当前标签已标记的图像集，所述图像集包括至少一个图像；

分别将所述图像集中的各个图像作为当前图像，根据图像的视觉特征，采用K近邻算法，确定所述当前图像的K个近邻图像；

根据所述K个近邻图像和所述当前标签，计算所述当前图像与其他图像的相似度值；

根据所述相似度值确定所述当前标签对应的VCDL。

进一步的，所述根据所述相似度值确定所述当前标签对应的VCDL，包括：

将所述当前标签对应的出现次数最多的所述相似度值，确定为所述当前标签对应的VCDL。

进一步的，所述根据所述过滤后的标签，计算标签间的视觉相似度矩阵和语义相似度矩阵，包括：

对所述过滤后的标签进行两两计算，得到两个过滤后的标签之间的豪斯多夫距离，并将每个所述豪斯多夫距离作为一个元素值，生成视觉距离矩阵；对所述视觉距离矩阵进行转换，得到视觉相似度矩阵，其中，所述视觉相似度矩阵中的元素值与所述视觉距离矩阵中相应位置的元素值成反比关系；和/或，

对所述过滤后的标签进行两两计算，得到两个过滤后的标签之间的词向量距离，并将每个所述词向量距离作为一个元素值，生成语义距离矩阵；对所述语义距离矩阵进行转换，得到语义相似度矩阵，其中，所述语义相似度矩阵中的元素值与所述语义距离矩阵中相应位置的元素值成反比关系。

进一步的，所述对所述过滤后的标签进行两两计算，得到两个过滤后的标签之间的豪斯多夫距离，包括：

获取各个过滤后的标签对应的视觉特征，采用豪斯多夫距离计算算法，对所述视觉特征进行两两计算，得到两个过滤后的标签之间的豪斯多夫距离。

进一步的，所述对所述过滤后的标签进行两两计算，得到两个过滤后的标签之间的词向量距离，包括：

采用预先建立的词向量模型，将各个过滤后的标签转换为词向量，采用余弦距离计算算法，对所述词向量进行两两计算，得到两个过滤后的标签之间的词向量距离。

进一步的，所述根据所述视觉相似度矩阵和语义相似度矩阵计算混合相似度矩阵，包括：

对所述视觉相似度矩阵和语义相似度矩阵的同一位置的元素进行加权求和，将加权求和值作为混合相似度矩阵的相应位置的元素值。

进一步的，所述对所述混合相似度矩阵进行聚类，得到所述待标记图像的视觉主题，包括：

将所述混合相似度矩阵作为谱聚类算法的相似度矩阵，采用谱聚类算法对所述混合相似度矩阵进行聚类，得到聚类结果，所述聚类结果包括至少一个类别，每个类别对应一组标签组合；

将每个类别对应的标签组合作为所述待标记图像的视觉主题。

本发明还有一种电子设备，其包括：处理器和存储器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器执行时，执行上面所述的方法。

本发明提供的一种图像标记方法及电子设备至少具有如下有益技术效果：

本发明对待标记图像的标签集，首先，进行过滤，去掉部分无效标签，初步筛选出标签；再根据过滤后的标签，计算标签间的视觉相似度矩阵和语义相似度矩阵；然后，根据视觉相似度矩阵和语义相似度矩阵计算出混合相似度矩阵，并通过谱聚类算法得到视觉主题；最后，用视觉主题标记待标记图像。因此，本发明具有如下特点：

1.本发明是基于无监督的流程执行，不需要引入额外的数据来训练，充分利用公开的预训练算法模型。

2.本发明具有易于实现，速度快，效果好等特点。

3.本发明生成的视觉主题可以代替标签作为图像的语义表示，并且可以方便地嵌入到各类任务中，比如基于关键字的图像搜索、基于内容的图像搜索、图标标注等。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种图像标记方法的流程图；

图2是本发明一种电子设备的结构示意图；

图中，100-处理器，200-存储器。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

参见图1，本发明是一种图像标记方法，其包括：

S1：获取待标记图像的标签集，所述标签集包括至少一个所述图像的已有标签；

S2：对所述标签集内的标签进行过滤，得到过滤后的标签；

S3：根据所述过滤后的标签，计算标签间的视觉相似度矩阵和语义相似度矩阵；

S4：根据所述视觉相似度矩阵和语义相似度矩阵计算混合相似度矩阵，并对所述混合相似度矩阵进行聚类，得到所述待标记图像的视觉主题，所述视觉主题包括至少一个所述过滤后的标签；

S5：采用所述视觉主题标记所述待标记图像。

可以理解的是，一个视觉主题是一个包含某些标签的集合，该集合能描述一组较为相似的图像内容，并且集合内的标签在语义理解方面也是相似的；则视觉主题是代替图像的标签作为图像内容的语义描述。

本发明对待标记图像的标签集，首先，进行过滤，去掉部分无效标签，初步筛选出标签；再根据过滤后的标签，分别度量图像标签在视觉空间上和在语义空间上的相似度，即计算标签间的视觉相似度矩阵和语义相似度矩阵；然后，根据视觉相似度矩阵和语义相似度矩阵计算出混合相似度矩阵，并通过谱聚类算法得到视觉主题；最后，用视觉主题标记待标记图像。本发明是基于无监督学习的从图像和对应标签库中挖掘视觉主题的方法。因此，本发明不需要引入额外的数据来训练，充分利用公开的预训练算法模型，且具有算法易于实现，计算运行速度快，效率高，效果好等特点。本发明生成的视觉主题比标签更加贴近人对于图像视觉内容的理解。

本发明着重于挖掘图像对应标签的深层次关系，使用无监督的学习方法来为不同的图像集挖掘其相应的视觉主题集合，来作为该图像集的独有描述。无监督学习是指本发明在挖掘视觉主题时，并没有所谓“正确”参考对象，而是通过度量图像标签的相似度来决定输出的结果。并且，本发明使用视觉主题来代替图像标签作为图像内容的语义描述，相对于图像标签，视觉主题结构更紧密、更精准并且效率更高。

对所述标签集内的标签进行过滤，得到过滤后的标签，包括：

获取所述标签集内的各个标签对应的VCDL，所述VCDL根据各个标签和所述各个标签已标记的图像集确定；

需要说明的是，VCDL是视觉内容描述级别，下文有具体介绍。

过滤后的标签，是去除了无效或者描述图像内容能力差的标签，为后续挖掘视觉主题进行了初步的筛选，初步提高了标签的描述能力的精准度。

获取所述标签集内的各个标签对应的VCDL，包括：

根据所述相似度值确定所述当前标签对应的VCDL。

根据所述相似度值确定所述当前标签对应的VCDL，包括：

步骤S1及S2的具体实施方式如下：

步骤S1中，获取待标记图像的标签集，即给定一个图像集和图像集对应的标签集，且所述标签集包括至少一个所述图像的已有标签。

步骤S2，对所述标签集内的标签进行过滤，得到过滤后的标签。

首先，给定一个标签t_i和图像集F_i＝set{f_i1,f_i2,...,f_ij,...,f_in}，

其中，f_ij是图像集中每个图像通过ResNet模型提取的视觉特征向量，表示每个图像；i为标签的序号和图像集的序号，j为视觉特征在图像集中的序号，n为图像集所包含的视觉特征的数量。

需要说明的是，视觉特征表示图像的视觉内容，即图像特征，存储形式为向量，称为视觉特征向量。视觉特征包括至少一项以下特征：

HOG特征、SIFT特征、SURF特征、ORB特征、LBP特征、HAAR特征。

视觉特征提取自一个在公开海量图像库(ImageNet)上面训练好的公开深度学习模型ResNet。ResNet模型在图像分类任务上表现很好，可以准确地表征图像的视觉特征。其中，ImageNet是根据WordNet层次结构组织的图像数据集。

ResNet模型通过使用多个有参层来学习输入输出之间的残差表示，而非像一般CNN网络(如Alexnet/VGG等)那样使用有参层来直接尝试学习输入、输出之间的映射。实验表明使用一般意义上的有参层来直接学习残差比直接学习输入、输出间映射要容易得多，收敛速度更快，效率更高，则ResNet模型能通过使用更多的层来达到更高的分类精度。因此，Resnet模型已经成为一般计算机视觉领域问题中的基础特征提取网络，且具有高效率、高效果的特点。

其次，计算视觉特征之间的余弦距离；通过视觉特征之间的余弦距离，初步筛选出距离每个视觉特征的K个近邻图像，其中，K<n。

例如：若两幅图像分别对应的视觉特征向量为a和b，计算a和b的余弦距离：

其中，Q为视觉特征向量的维度，a_q和b_q分别指视觉特征向量a和b中第q个维度的值。上式简化之后的a^T指视觉特征向量a的转置，||a||和||b||为视觉特征向量a和b的模，a^T·b为向量的点积操作。

然后，基于初步筛选出距离每个视觉特征的K个近邻图像，计算图像f_ij和F_i中其他图像的相似度；

其中，K为图像f_ij的近邻图像的个数，k为K个近邻图像的序号，f_ijk为第k个近邻图像；

δ(t_i,f_ijk)是指标函数，其值为1时，f_ijk对应的标签中也有标签t_i，表示与图像f_ij相似的图像f_ijk也包含相同标签t_i，否则，δ(t_i,f_ijk)＝0；

为系数权重惩罚，使得离图像f_ij更近的近邻图像能够获得较高的权重；

因此，sim(f_ij,F_i)衡量了图像集F_i中标签t_i对f_ij内容的描述能力，计算出描述能力值。

接着，以此类推，计算出图像集F_i中的每一图像对标签t_i的描述能力值，用sim(f_ij,F_i)来表示；对所有的sim(f_ij,F_i)取中位数为最终结果，最终结果称为视觉内容描述级别(visual content description level，VCDL)，其中，中位数表示出现次数最多的标签。

视觉内容描述级别取值较大的标签对于其关联的图像集有较好的描述能力，反之，则描述能力较差。

最后，过滤掉描述能力较差的标签。则对于图像集和标签集中所有的标签都计算VCDL，并且设定阈值，来弃用VCDL低于阈值的标签。阈值的具体数值需要根据具体使用的图像和标签集来决定。

本发明对标签集内的标签进行过滤，得到过滤后的标签的过程，是基于K近邻算法提出的，这里可以称过滤标签的算法为加权K近邻度量算法。该方法对于标签过滤方面具有一定的通用性，具有操作便捷、简单实用、运行速度快，效果好的特点。

步骤S3中，根据所述过滤后的标签，计算标签间的视觉相似度矩阵和语义相似度矩阵，包括：

对所述过滤后的标签进行两两计算，得到两个过滤后的标签之间的豪斯多夫距离，并将每个所述豪斯多夫距离作为一个元素值，生成视觉距离矩阵；对所述视觉距离矩阵进行转换，得到视觉相似度矩阵，其中，所述视觉相似度矩阵中的元素值与所述视觉距离矩阵中相应位置的元素值成反比关系；

和/或，

对所述过滤后的标签进行两两计算，得到两个过滤后的标签之间的豪斯多夫距离，包括：

对所述过滤后的标签进行两两计算，得到两个过滤后的标签之间的词向量距离，包括：

步骤S3的具体实施方式如下：

1、针对过滤后的标签，求标签之间的豪斯多夫距离。

通过豪斯多夫距离算法，计算得出每两个标签之间的豪斯多夫距离，如下：

其中，c和d为高维视觉空间中分别对应标签C和标签D的视觉特征向量，即；dist(c,d)为视觉特征c和d之间的距离度量，且通过欧氏距离进行度量；|C|为标签C的图像的数量；

并且，h′_mod(C,D)和h′_mod(D,C)的值有可能是不相同的，则取两者之间较大的值。

将每两个标签之间的豪斯多夫距离表示为距离矩阵M_vdist，其中，M_vdist中的行和列的标识均为标签名，M_vdist中数值为对应两个标签的豪斯多夫距离；

将M_vdist中的所有数值归一化到范围[0，1]，并且用1减去每个归一化后的数值，由此，将M_vdist转化为视觉相似度矩阵M_vsim；M_vsim中较大的值表示对应的两个标签在视觉空间上较为相似。

2、针对过滤后的标签，求标签之间的词向量距离。

在词嵌入模型中，每个标签的单词均为一个固定长度的N维词向量；词向量里每一维的值在初始时都是随机生成，词嵌入模型算法会根据输入的文本文章来调整每个单词对应词向量的值，直到词嵌入模型算法收敛；

使用语料库，基于词嵌入模型，训练一个skip-gram模型，即跳连模式的神经网络语言模型，经过训练后，固定每个词的词向量的值，则固定的词向量的值作为该词的语义特征；其中，语料库能为英文版维基百科文章或其他词典、文章；

计算语义特征之间的相似度，选取余弦距离作为距离度量方式；

计算得到语义空间上的标签距离矩阵M_sdist，用数值1分别减去M_sdist中所有的数值，就得到语义相似度矩阵M_ssim，M_ssim中较大的值代表对应的两个图像标签在语义空间上较为相似。其中，M_sdist矩阵中的数值表示对应的两个标签的特征向量之间的语义相似度的值，矩阵中的行和列的标识均为标签名，即若行列用i和j来代表，表示对应的两个标签序号。

本发明从视觉空间和语义空间上，分别基于豪斯多夫距离和余弦距离，计算出标签的视觉相似度矩阵和语义相似度矩阵。因此，本发明提出基于修正豪斯多夫距离的标签视觉相似度的度量算法，并将其应用在图像语义理解方面，在领域内有一定的创新性。而且，本发明的视觉相似度矩阵和语义相似度矩阵是针对过滤后的标签进行计算的，得到的结果准确度高，并且排除了大部分噪声的干扰，具有较好的鲁棒性。此外，本发明在不同的数据集上都可以取得较好的结果，具有一定的通用性。

步骤S4中，根据所述视觉相似度矩阵和语义相似度矩阵计算混合相似度矩阵，包括：

步骤S4中，对所述混合相似度矩阵进行聚类，得到所述待标记图像的视觉主题，包括：

步骤S4的具体实施方式如下：

引入参数α来控制视觉相似度矩阵M_vsim和语义相似度矩阵M_ssim，在混合相似度矩阵M_joint中的比例：

M_joint＝α*M_vsim+(1-α)*M_ssim (3)

其中，α取值为0到1。

需要说明的是，参数α的取值由具体使用的图像集和标签数据库而定。一般而言，从经验来讲，α取值在0.3以下的效果比较好。

将M_joint进行谱聚类算法：

输入：n个样本点X＝{x₁,x₂,...,x_n}和聚类簇的数目p；

输出：聚类簇A₁,A₂,...,A_p；

(1)求得相似度矩阵

本发明将M_joint作为谱聚类算法的相似度矩阵；

一般情况，使用下面公式计算n*n的相似度矩阵W：

其中，g和l分别表示下角标，n为n*n矩阵的行数或列数；

W为s_gl组成的相似度矩阵。

(2)使用下面公式计算度矩阵V；

即相似度矩阵W的每一行元素之和；

V为v_g组成的n*n对角矩阵。

(3)计算拉普拉斯矩阵L＝V-W；

(4)计算L的特征值，将特征值从小到大排序，取前p个特征值，并计算前p个特征值的特征向量u₁,u₂,...,u_p；

(5)将上面的p个列向量组成矩阵U＝{u₁,u₂,...,u_p},U∈R^n*p；

(6)令y_g∈R^p是矩阵U的第g行的向量，其中，g＝1,2,...,n；

(7)使用k-means算法将新样本点Y＝{y₁,y₂,...,y_n}聚类成簇Z₁,Z₂,...,Z_p；

(8)输出簇A₁,A₂,...,A_p，其中，A_g＝{l|y_l∈Z_g}；

需要说明的是，上面算法是未标准化的谱聚类算法的描述。

首先，根据相似度矩阵W，计算度矩阵V，接着计算拉普拉斯矩阵L，然后求L的特征值和特征向量，取特征值最大的p个保留下来，将这p个特征向量组合成矩阵U，用y_g代表U里面的每一行，然后对所有的y_g做k-means聚类，得到了簇Z₁,Z₂,...,Z_p。簇Z₁,Z₂,...,Z_p中的每个矩阵里面存着的序号，就是对应标签的序号，其中，y_g的个数，是跟标签的个数一样的，例如，y₁是第一个标签，y₂是第二个标签。

因此，聚类结果包括至少一个类别，每个类别对应一组标签组合；将每个类别对应的标签组合作为所述待标记图像的视觉主题。

本发明的谱聚类算法的优点是：

1)谱聚类只需要数据之间的相似度矩阵，因此对于处理稀疏数据的聚类很有效。这点传统聚类算法比如K-Means很难做到。

2)由于使用了降维，因此在处理高维数据聚类时的复杂度比传统聚类算法好。

参见图2，本发明还包括一种电子设备，其包括：处理器100和存储器200，所述存储器200中存储有计算机程序，当所述计算机程序被所述处理器100执行时，执行上述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像标记方法，其特征在于，包括：

对所述标签集内的标签进行过滤，得到过滤后的标签；

采用所述视觉主题标记所述待标记图像。

2.根据权利要求1所述的图像标记方法，其特征在于，所述对所述标签集内的标签进行过滤，得到过滤后的标签，包括：

3.根据权利要求2所述的图像标记方法，其特征在于，所述获取所述标签集内的各个标签对应的VCDL，包括：

根据所述相似度值确定所述当前标签对应的VCDL。

4.根据权利要求3所述的图像标记方法，其特征在于，所述根据所述相似度值确定所述当前标签对应的VCDL，包括：

5.根据权利要求1所述的图像标记方法，其特征在于，所述根据所述过滤后的标签，计算标签间的视觉相似度矩阵和语义相似度矩阵，包括：

6.根据权利要求5所述的图像标记方法，其特征在于，所述对所述过滤后的标签进行两两计算，得到两个过滤后的标签之间的豪斯多夫距离，包括：

7.根据权利要求5所述的图像标记方法，其特征在于，所述对所述过滤后的标签进行两两计算，得到两个过滤后的标签之间的词向量距离，包括：

8.根据权利要求1所述的图像标记方法，其特征在于，所述根据所述视觉相似度矩阵和语义相似度矩阵计算混合相似度矩阵，包括：

9.根据权利要求1所述的图像标记方法，其特征在于，所述对所述混合相似度矩阵进行聚类，得到所述待标记图像的视觉主题，包括：

10.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器执行时，执行如权利要求1-9任一项所述的方法。