CN111090763B

CN111090763B - 一种图片自动标签方法及装置

Info

Publication number: CN111090763B
Application number: CN201911157849.9A
Authority: CN
Inventors: 杨巍; 陈韬; 齐欣
Original assignee: Beijing Vision Elephant Technology Co ltd
Current assignee: Beijing Vision Elephant Technology Co ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2024-04-05
Anticipated expiration: 2039-11-22
Also published as: CN111090763A

Abstract

本发明公开一种图片自动标签方法及装置，涉及图片处理技术领域，能够实现对图片的多标签同时标记，在保证标签效率的同时提高标签的准确率。该方法包括：基于图库数据训练多模态的特征提取模型；根据每张图片与标签组及分类的对应关系，构建图片与标签组的视觉语义相似最近邻索引；通过特征提取模型提取待检图片的特征得到特征向量，并基于所述特征向量与视觉语义相似最近邻索引从图库数据中匹配出相似图片；根据相似图片对应标签组中关键词的频率及权重，从中筛选出待检图片的初始标签；采用预先训练的词向量模型对初始标签进行标签过滤和权重排序，得到待检图片的最终标签组。该装置应用有上述方案所提的方法。

Description

一种图片自动标签方法及装置

技术领域

本发明涉及图片处理技术领域，尤其涉及一种图片自动标签方法及装置。

背景技术

近年来随着摄像终端的极度普及、自媒体的蓬勃发展以及互联网资源的极大丰富，图库行业如何有效审核、检索、抽取和组织版权媒体内容成为一大挑战。图像元数据中的关键词标签对海量图像的审核、检索和组织起到关键作用，但是，人工生产标签的过程繁琐复杂，因此自动标签的生成一直是计算机视觉和人工智能的重点研究领域，图像标签的自动生成有广泛的应用场景，可高效提升图像编审人工效率，并可优化自媒体原创图片生产数据的结构化。

现有的图片自动标签技术多基于单一标签模型训练而成，若要实现对图片的多标签标记，则需训练多种类型的标签模型分别标记，显然现有的图片自动标签技术存在标签效率低和准确率差的缺陷。

发明内容

本发明的目的在于提供一种图片自动标签方法及装置，能够实现对图片的多标签同时标记，在保证标签效率的同时提高标签的准确率。

为了实现上述目的，本发明的一方面提供一种图片自动标签方法，包括：

基于图库数据训练多模态的特征提取模型，所述图库数据包括多张图片以及每张图片对应的标签组及分类；

根据每张图片与标签组及分类的对应关系，构建图片与标签组的视觉语义相似最近邻索引；

通过特征提取模型提取待检图片的特征得到特征向量，并基于所述特征向量与视觉语义相似最近邻索引从图库数据中匹配出相似图片；

根据相似图片对应标签组中关键词的频率及权重，从中筛选出待检图片的初始标签；

采用预先训练的词向量模型对初始标签进行标签过滤和权重排序，得到待检图片的最终标签组。

优选地，所述词向量模型的训练方法为：

采集用户的关键词搜索数据及对应下载的图片数据；

统计被下载图片数据与关键词搜索数据的对应关系，数据清洗后根据关键词的搜索次数为被下载图片的关键词配置权重，以构建训练数据库；

基于训练数据库采用Word2Vec模型和/或TF-IDF模型训练所述词向量模型。

优选地，基于图库数据训练多模态的特征提取模型的方法包括：

将图片对应标签组中各关键词的权重作为每张图片的多标签分类真值；

利用深度学习框架对多个多标签分类真值训练得到特征提取模型。

优选地，根据每张图片与标签组及分类的对应关系，构建图片与标签组的视觉语义相似最近邻索引的方法包括：

基于图库数据中每张图片与标签组及分类的对应关系，构建高维特征向量；

通过基于图片和基于量化相结合的方式为高维特征向量建立距离度量的视觉语义相似最近邻索引。

优选地，基于所述特征向量与视觉语义相似最近邻索引从图库数据中筛选出相似图片的方法包括：

将待检图片的特征向量通过乘积量化法转化为哈希值；

基于哈希值通过HNSW近邻图从图库数据中找到最近邻特征对应的相似图片。

优选地，根据相似图片对应标签组中关键词的频率及权重，从中筛选出待检图片的初始标签的方法包括：

汇总相似图片对应标签组中的关键词，同时针对每个关键词出现的频率及权重进行加权平均计算，得到关键词排序；

根据预设阈值对上述排序的关键词进行截断筛选，将保留下的关键词作为待检图片的初始标签。

与现有技术相比，本发明提供的图片自动标签方法具有以下有益效果：

本发明提供的图片自动标签方法中，由于图库数据中包括多张图片以及与每张图片对应的标签组及分类数据，且每张图片的标签组又由多个不同权重的关键词构成，然后基于上述历史图库中的数据训练得到多任务、多模态的特征提取模型，接着根据每张图片与标签组及分类的对应关系，构建图片与标签组的视觉语义相似最近邻索引，在获取到待检图片后利用特征提取模型提取其中的特征向量，并结合视觉语义相似最近邻索引从图库数据中匹配出相似图片，在对相似图片对应标签组中关键词的频率及权重计算分析后得到待检图片的初始标签，最后利用词向量模型对初始标签进行标签过滤和权重排序，使得初始标签组中的互斥词被过滤掉，而保留下的相似词根据词频的不同赋予相应的权重并排序，最终得到待检图片的最终标签组。

可见，使用本发明提供的图片自动标签方法，能够实现对图片的多标签自动标注，提升了标签的效率，而通过将特征提取模型、词向量模型、视觉语义相似最近邻索引技术的结合应用能够保证标签的准确率。

本发明的另一方面提供一种图片自动标签装置，应用于上述技术方案提到的图片自动标签方法中，该装置包括:

特征提取模型训练单元，用于基于图库数据训练多模态的特征提取模型，所述图库数据包括多张图片以及每张图片对应的标签组及分类；

最近邻索引构建单元，用于根据每张图片与标签组及分类的对应关系，构建图片与标签组的视觉语义相似最近邻索引；

筛选单元，用于通过特征提取模型提取待检图片的特征得到特征向量，并基于所述特征向量与视觉语义相似最近邻索引从图库数据中匹配出相似图片；

初始标签识别单元，用于根据相似图片对应标签组中关键词的频率及权重，从中筛选出待检图片的初始标签；

标签组生成单元，采用预先训练的词向量模型对初始标签进行标签过滤和权重排序，得到待检图片的最终标签组。

优选地，还包括词向量模型训练单元，所述词向量模型训练单元包括：

数据采集模块，用于采集用户的关键词搜索数据及对应下载的图片数据；

数据处理模块，用于统计被下载图片数据与关键词搜索数据的对应关系，数据清洗后根据关键词的搜索次数为被下载图片的关键词配置权重，以构建训练数据库；

训练模块，基于训练数据库采用Word2Vec模型和/或TF-IDF模型训练所述词向量模型。

优选地，所述初始标签识别单元包括：

排序模块，用于汇总相似图片对应标签组中的关键词，同时针对每个关键词出现的频率及权重进行加权平均计算，得到关键词排序；

初始标签筛选模块，用于根据预设阈值对上述排序的关键词进行截断筛选，将保留下的关键词作为待检图片的初始标签。

与现有技术相比，本发明提供的图片自动标签装置的有益效果与上述技术方案提供的图片自动标签方法的有益效果相同，在此不做赘述。

本发明的第三方面提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述图片自动标签方法的步骤。

与现有技术相比，本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的图片自动标签方法的有益效果相同，在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例一中图片自动标签方法的流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

请参阅图1，本实施例提供一种图片自动标签方法，包括：基于图库数据训练多模态的特征提取模型，图库数据包括多张图片以及每张图片对应的标签组及分类；根据每张图片与标签组及分类的对应关系，构建图片与标签组的视觉语义相似最近邻索引；通过特征提取模型提取待检图片的特征得到特征向量，并基于特征向量与视觉语义相似最近邻索引从图库数据中匹配出相似图片；根据相似图片对应标签组中关键词的频率及权重，从中筛选出待检图片的初始标签；采用预先训练的词向量模型对初始标签进行标签过滤和权重排序，得到待检图片的最终标签组。

本实施例提供的图片自动标签方法中，由于图库数据中包括多张图片以及与每张图片对应的标签组及分类数据，且每张图片的标签组又由多个不同权重的关键词构成，然后基于上述历史图库中的数据训练得到多任务、多模态的特征提取模型，接着根据每张图片与标签组及分类的对应关系，构建图片与标签组的视觉语义相似最近邻索引，在获取到待检图片后利用特征提取模型提取其中的特征向量，并结合视觉语义相似最近邻索引从图库数据中匹配出相似图片，在对相似图片对应标签组中关键词的频率及权重计算分析后得到待检图片的初始标签，最后利用词向量模型对初始标签进行标签过滤和权重排序，使得初始标签组中的互斥词被过滤掉，而保留下的相似词根据词频的不同赋予相应的权重并排序，最终得到待检图片的最终标签组。

可见，使用本实施例提供的图片自动标签方法，能够实现对图片的多标签自动标注，提升了标签的效率，而通过将特征提取模型、词向量模型、视觉语义相似最近邻索引技术的结合应用能够保证标签的准确率。

上述实施例中词向量模型的训练方法为：

采集用户的关键词搜索数据及对应下载的图片数据；统计被下载图片数据与关键词搜索数据的对应关系，数据清洗后根据关键词的搜索次数为被下载图片的关键词配置权重，以构建训练数据库；基于训练数据库采用Word2Vec模型和/或TF-IDF模型训练所述词向量模型。

具体实施时，一张被下载图片可以对应多个关键词搜索数据，数据清洗后去掉明显无关的关键词搜索数据，之后统计保留下的每个关键词的搜索次数为各关键词配置权重，例如，某一关键词搜索到被下载图片的次数越多则该关键词对应的权重配置越高，反之亦然，最终形成带有关键词权重的训练图片数据库，通过采用Word2Vec模型和/或TF-IDF模型训练得到可识别语义关联和词频的词向量模型。需要说明的是，实际应用中为关键词配置权重还可参考其他维度，如，关键词的搜索点赞次数、收藏次数等，本实施例对此不做限制。

上述实施例中基于图库数据训练多模态的特征提取模型的方法包括：

将图片对应标签组中各关键词的权重作为每张图片的多标签分类真值；利用深度学习框架对多个多标签分类真值训练得到特征提取模型。

具体实施时，将各图片对应关键词的列表作为多标签模型的分类，同时将训练数据库中对应图片的关键词的权重作为每张图片的多标签分类真值，选用任一种深度学习框架进行特征提取模型的训练。同时，为了进一步增强特征提取能力，对重要性较高的类别需增加单独的模型训练，如单独训练人脸识别模型和人脸特征识别模型等。

进一步地，上述实施例中根据每张图片与标签组及分类的对应关系，构建图片与标签组的视觉语义相似最近邻索引的方法包括：

基于图库数据中每张图片与标签组及分类的对应关系，构建高维特征向量；通过基于图片和基于量化相结合的方式为高维特征向量建立距离度量的视觉语义相似最近邻索引。

具体实施时，通过基于图和基于量化的方式为特征提取模型产生的高维特征向量建立距离度量的视觉语义相似最近邻索引。例如，使用HNSW近邻图技术结合乘积量化方法OPQ，先通过OPQ将高维特征转化为低维量化哈希值，再构建近邻图进行近似搜索加速得到视觉语义相似最近邻索引。

上述实施例中基于所述特征向量与视觉语义相似最近邻索引从图库数据中筛选出相似图片的方法包括：

将待检图片的特征向量通过乘积量化法转化为哈希值；基于哈希值通过HNSW近邻图从图库数据中找到最近邻特征对应的相似图片。

具体实施时，通过特征提取模型提取待检图片的特征得到特征向量，通过视觉语义相似最近邻索引和图像特征比对算法进行近似值计算，计算过程为先将待检图片的特征向量通过OPQ转化为哈希值，然后通过HNSW近邻图找到最近邻特征，最终从图库数据中筛选出相似图片。

进一步地，上述实施例中根据相似图片对应标签组中关键词的频率及权重，从中筛选出待检图片的初始标签的方法包括：

汇总相似图片对应标签组中的关键词，同时针对每个关键词出现的频率及权重进行加权平均计算，得到关键词排序；根据预设阈值对上述排序的关键词进行截断筛选，将保留下的关键词作为待检图片的初始标签。其中，截断筛选的目的是为了去燥，以剔除明显无关的关键词。上述频率及权重加权平均计算的方法为本领域技术人员熟知的算法，本实施例对此不做赘述，预设的阈值大小可根据关键词的识别准确度灵活调节，本实施例对此不做限制。

具体地，上述实施例中采用预先训练的词向量模型对初始标签进行标签过滤和权重排序，得到待检图片的最终标签组的方法包括：

利用词向量模型将初始标签中的每个关键词标签转化为特征向量，通过对特征向量计算距离，并结合词典信息得到相似词和互斥词，实现对初始标签中相似关键词的保留以及对互斥关键词剔除，达到标签过滤的目的；同时，利用词向量模型识别关键词的词频，将词频高的关键词权重升高，词频低的关键词权重降低，实现对关键词的权重排序，最终得到待检图片的最终标签组。通过此步骤能够确保对图像自动标签的准确性。

实施例二

本实施例提供一种图片自动标签装置，包括：

特征提取模型训练单元，用于基于图库数据训练多模态的特征提取模型，图库数据包括多张图片以及每张图片对应的标签组及分类；

筛选单元，用于通过特征提取模型提取待检图片的特征得到特征向量，并基于特征向量与视觉语义相似最近邻索引从图库数据中匹配出相似图片；

优选地，还包括词向量模型训练单元，词向量模型训练单元包括：

训练模块，基于训练数据库采用Word2Vec模型和/或TF-IDF模型训练词向量模型。

优选地，初始标签识别单元包括：

与现有技术相比，本发明实施例提供的图片自动标签装置的有益效果与上述实施例一提供的图片自动标签方法的有益效果相同，在此不做赘述。

实施例三

本实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述图片自动标签方法的步骤。

与现有技术相比，本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的图片自动标签方法的有益效果相同，在此不做赘述。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图片自动标签方法，其特征在于，包括：

采用预先训练的词向量模型对初始标签进行标签过滤和权重排序，得到待检图片的最终标签组；

所述词向量模型的训练方法为：

采集用户的关键词搜索数据及对应下载的图片数据；

基于训练数据库采用Word2Vec模型和/或TF-IDF模型训练所述词向量模型；

所述根据相似图片对应标签组中关键词的频率及权重，从中筛选出待检图片的初始标签的方法包括：

2.根据权利要求1所述的图片自动标签方法，其特征在于，基于图库数据训练多模态的特征提取模型的方法包括：

3.根据权利要求1所述的图片自动标签方法，其特征在于，根据每张图片与标签组及分类的对应关系，构建图片与标签组的视觉语义相似最近邻索引的方法包括：

4.根据权利要求1所述的图片自动标签方法，其特征在于，基于所述特征向量与视觉语义相似最近邻索引从图库数据中筛选出相似图片的方法包括：

将待检图片的特征向量通过乘积量化法转化为哈希值；

5.一种图片自动标签装置，其特征在于，包括：

标签组生成单元，采用预先训练的词向量模型对初始标签进行标签过滤和权重排序，得到待检图片的最终标签组；

还包括词向量模型训练单元，所述词向量模型训练单元包括：

训练模块，基于训练数据库采用Word2Vec模型和/或TF-IDF模型训练所述词向量模型；

所述初始标签识别单元包括：

6.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，计算机程序被处理器运行时执行上述权利要求1至4任一项所述方法的步骤。