CN109271539A - 一种基于深度学习的图像自动标注方法及装置 - Google Patents

一种基于深度学习的图像自动标注方法及装置 Download PDF

Info

Publication number
CN109271539A
CN109271539A CN201811007151.4A CN201811007151A CN109271539A CN 109271539 A CN109271539 A CN 109271539A CN 201811007151 A CN201811007151 A CN 201811007151A CN 109271539 A CN109271539 A CN 109271539A
Authority
CN
China
Prior art keywords
image
marked
label
library
tally set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811007151.4A
Other languages
English (en)
Other versions
CN109271539B (zh
Inventor
程起敏
许圆
张倩
邵康
李森
李金玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201811007151.4A priority Critical patent/CN109271539B/zh
Publication of CN109271539A publication Critical patent/CN109271539A/zh
Application granted granted Critical
Publication of CN109271539B publication Critical patent/CN109271539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的图像自动标注方法及装置,包括:利用深度学习技术提取待标注图像的视觉特征;利用图像库构建待标注图像的候选标签集,并利用深度学习技术从待标注图像的候选标签集中提取待标注图像的语义特征;融合待标注图像的视觉特征和语义特征以得到待标注图像的高层特征;根据待标注图像的高层特征,利用深度学习技术计算图像库中各标签在标注待标注图像时的概率;根据待标注图像的高层特征,利用深度学习技术预测待标注图像所需的标签个数;根据所计算的标签概率和所预测的标签个数,利用概率最高的前N个标签对待标注图像进行标注;本发明能够建立低层特征和高层语义标签之间的联系,从而提升图像标注的准确度。

Description

一种基于深度学习的图像自动标注方法及装置
技术领域
本发明属于图像处理领域,更具体地,涉及一种基于深度学习的图像自动标注方法及装置。
背景技术
图像是对客观对象的写真,生动地描述了对象在视觉方面的信息,是最重要的信息源之一。图像标注,就是给图像标注一些丰富的、恰当的可以准确描述图像内容的关键词。由于能够在语义层面描述图像,图像标注不仅在图像分析与理解领域有着广泛的应用,在城市管理、生物医学工程等相关学科也有着广泛的应用。
传统的图像标注,主要是通过人工的方式来给图像标注若干关键词。而在当前的大数据时代,由于存在耗时、费力、主观性强等缺点,人工标注的方式已经不再适用了。图像自动标注可以有效的弥补这些缺点。图像自动标注技术大多通过图像的语义内容或探索图像视觉特征以及语义特征之间的相似性,从关键词词典中选择合适的标签,对待标注图像进行标注。其关键就在于建立低层特征和高层语义标签之间的联系。
现有的基于生成模型的图像自动标注方法通过计算图像特征和词典中标签的联合概率来给待标注的图像标注关键词。但是,这种图像自动标注方法存在两个主要的问题:一是对于预测的标签的最优性无法保证;二是很难用生成模型去捕捉图像特征和标签之间的复杂的关系。另外大部分的图像自动标注算法都是给待标注图像标注固定个数的标签。但在现实中,不同的图像的标签个数是不固定的。统一给每幅图像标注相同数目的标签,会导致例如一些内容丰富的图像没有得到完全的表示,而一些内容相对简单的图像却被标注了过多的标签的问题,因而这种统一的标注方式会影响标注模型的准确度。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于深度学习的图像自动标注方法及装置,其目的在于,通过建立低层特征和高层语义标签之间的联系,得到待标注图像各标签的概率并灵活预测需标注的标签个数,并由此完成图像的自动标注,从而提升图像标注的准确度。
为实现上述目的,按照本发明的一个方面,提供了一种基于深度学习的图像自动标注方法,用于完成对待标注图像的自动标注,包括如下步骤:
(1)利用深度学习技术提取待标注图像的视觉特征;
(2)利用图像库构建待标注图像的候选标签集,并利用深度学习技术从待标注图像的候选标签集中提取待标注图像的语义特征;
(3)融合待标注图像的视觉特征和语义特征以得到待标注图像的高层特征;
(4)根据待标注图像的高层特征,利用深度学习技术计算图像库中各标签在标注待标注图像时的概率;
(5)根据待标注图像的高层特征,利用深度学习技术预测待标注图像所需的标签个数;
(6)根据所计算的标签概率和所预测的标签个数,利用概率最高的前N个标签对待标注图像进行标注;
其中,图像库中的图像为已标注标签的图像,候选标签集包括图像库中的多个标签,N为利用深度学习技术预测的标签个数。
进一步地,步骤(2)中,利用图像库构建待标注图像的候选标签集,包括:
获得图像库中每个标签出现的次数;
对于待标注图像,根据图像距离计算待标注图像与图像库中其余图像的相似性,从而得到与待标注图像相似性最高的m幅图像;
从m幅图像中获得与待标注图像相似性最高的n幅图像,并获得在这n幅图像中出现的p1个标签;
若p1≥k,则根据图像库中每个标签出现的次数从p1个标签中获得出现次数最高的k个标签,作为k个候选标签,从而构建待标注图像的候选标签集;否则,获得在m幅图像中出现的p2个标签,并根据图像库中每个标签出现的次数从p2个标签中获得出现次数最高的k个标签,作为k个候选标签,从而得到该图像的候选标签集;
其中,k为预设的候选标签集大小,且m、n及k满足:k≤m,n≤m。
进一步地,步骤(1)包括:利用基于卷积神经网络的视觉特征提取模型提取待标注图像的视觉特征;
视觉特征提取模型的训练方法包括:
(11)构建基于卷积神经网络的第一神经网络模型,用于提取图像的视觉特征;
(12)利用图像库训练第一神经网络,从而得到视觉特征提取模型。
进一步地,步骤(2)包括:利用图像库构建待标注图像的候选标签集,并利用基于多层感知机的语义特征提取模型从待标注图像的候选标签集中提取待标注图像的语义特征;
语义特征提取模型的训练方法包括如下步骤:
(21)构建图像库中每一幅图像的候选标签集;
(22)构建基于多层感知机的第二神经网络模型,用于从图像的候选标签集中提取图像的语义特征;
(23)利用已构建候选标签集的图像库训练第二神经网络模型,从而得到语义特征提取模型。
进一步地,步骤(3)包括:利用一个全连接层融合待标注图像的视觉特征和语义特征以得到待标注图像的高层特征。
进一步地,步骤(4)包括:根据待标注图像的高层特征,利用基于多层感知机的多目标分类模型计算图像库中各标签在标注待标注图像时的概率;
多目标分类模型的训练方法包括:
(41)对于图像库中的图像I,利用视觉特征提取模型提取其视觉特征;
(42)构建图像I的候选标签集L,并利用候选标签集L和语义特征提取模型提取图像I的语义特征;
(43)融合图像I的视觉特征和语义特征以得到图像I的高层特征;
(44)对于图像库中的每一幅图像,执行步骤(1)~(3),从而提取图像库中每一幅图像的高层特征;
(45)构建基于多层感知机的第三神经网络模型,用于根据图像的高层特征计算图像库中各标签在标注图像时的概率;
(46)利用已提取图像高层特征的图像库训练第三神经网络模型,从而得到多目标分类模型。
进一步地,步骤(5)包括:根据待标注图像的高层特征,利用基于多层感知机的标签个数预测模型预测待标注图像所需的标签个数;
标签个数预测模型的训练方法包括:
(51)对于图像库中的图像I,利用视觉特征提取模型提取其视觉特征;
(52)构建图像I的候选标签集L,并利用候选标签集L和语义特征提取模型提取图像I的语义特征;
(53)融合图像I的视觉特征和语义特征以得到图像I的高层特征;
(54)对于图像库中的每一幅图像,执行步骤(1)~(3),从而提取图像库中每一幅图像的高层特征;
(55)构建基于多层感知机的第四神经网络模型,用于根据图像的高层特征预测图像所需的标签个数;
(56)利用已提取图像高层特征的图像库训练第四神经网络模型,从而得到标签个数预测模型。
按照本发明的第二方面,提供了一种基于深度学习的图像自动标注装置,用于完成对待标注图像的自动标注,包括:
视觉特征提取模块,用于利用深度学习技术提取待标注图像的视觉特征;
候选标签集构建模块,用于利用图像库构建待标注图像的候选标签集;
语义特征提取模块,用于利用深度学习技术从待标注图像的候选标签集中提取待标注图像的语义特征;
特征融合模块,用于融合待标注图像的视觉特征和语义特征以得到待标注图像的高层特征;
多目标分类模块,用于根据待标注图像的高层特征,利用深度学习技术计算图像库中各标签在标注待标注图像时的概率;
标签个数预测模块,用于根据待标注图像的高层特征,利用深度学习技术预测待标注图像所需的标签个数;
标注模块,用于根据多目标分类模块所计算的标签概率和标签个数预测模块所预测的标签个数,利用概率最高的前N个标签对待标注图像进行标注;
其中,图像库中的图像为已标注标签的图像,候选标签集包括图像库中的多个标签,N为标签个数预测模块所预测的标签个数。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明先分别提取图像的视觉特征和语义特征,然后通过将视觉特征和语义特征融合得到图像的高层特征,并利用图像的高层特征确定用于标注图像的标签。由于图像的高层特征能够更加准确而详尽的表示图像内容,因此本发明能够提高图像标注准确度。
(2)本发明对于待标注图像,分别利用神经网络模型计算标签的概率并预测待标注图像的标签个数,然后结合所计算的标签概率和所预测的标签个数对图像进行标注。由于针对不同内容的图像预测其标签个数,能够使得图像标注的标签个数与其内容复杂度更为契合,因此本发明能够针对图像内容的不确定性,有效提高图像标注的性能。
附图说明
图1为本发明实施例提供的图像自动标注方法流程图;
图2为本发明实施例提供的图像自动标注装置示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了一种图像自动标注方法及装置,其整体思路在于:分别提取图像的视觉特征和语义特征,并通过融合图像的视觉特征和语义特征得到图像的高层特征;根据图像的高层特征计算图像库中各标签在标注待标注图像时的概率并预测待标注图像的标签个数,然后结合所计算的标签的概率和所预测的标签个数,完成对图像的自动标注。
本发明所提供的图像自动标注方法,用于完成对待标注图像的自动标注,如图1所示,包括如下步骤:
(1)利用深度学习技术提取待标注图像的视觉特征;
在一个可选的实施方式中,步骤(1)具体包括:利用基于卷积神经网络(Convolutional Neural Network,CNN)的视觉特征提取模型提取待标注图像的视觉特征;
视觉特征提取模型的训练方法包括:
(11)构建基于卷积神经网络的第一神经网络模型,用于提取图像的视觉特征;其中,卷神经网络可为AlexNet网络、LeNet网络、GoogLeNet网络、VGG网络、Inception网络、ResNet网络、Inception-Resnet-V2网络或其他卷积神经网络;在本实施例中,卷积神经网络为Inception-Resnet-V2网络,使用Inception-Resnet-V2网络提取图像的视觉特征,一方面能够在极大的提高训练速度的同时大幅度的提高分类准确率,另一方面能够增加网络的非线性;
(12)利用图像库训练第一神经网络,从而得到视觉特征提取模型;
(2)利用图像库构建待标注图像的候选标签集,并利用深度学习技术从待标注图像的候选标签集中提取待标注图像的语义特征;
在一个可选的实施方式中,步骤(2)中利用图像库构建待标注图像的候选标签集,包括:获得图像库中每个标签出现的次数;
对于待标注图像,根据图像距离计算待标注图像与图像库中其余图像的相似性,从而得到与待标注图像相似性最高的m幅图像;其中,用于计算图像相似性的图像距离可以为街区距离、欧式距离、无穷范数、直方图相交、二次式距离、马氏距离、EMD距离或其他图像距离;
从m幅图像中获得与待标注图像相似性最高的n幅图像,并获得在这n幅图像中出现的p1个标签;
若p1≥k,则根据图像库中每个标签出现的次数从p1个标签中获得出现次数最高的k个标签,作为k个候选标签,从而构建待标注图像的候选标签集;否则,获得在m幅图像中出现的p2个标签,并根据图像库中每个标签出现的次数从p2个标签中获得出现次数最高的k个标签,作为k个候选标签,从而得到该图像的候选标签集;
其中,k为预设的候选标签集大小,且m、n及k满足:k≤m,n≤m;
基于上述构建候选标签集的方法,步骤(2)具体包括:利用图像库构建待标注图像的候选标签集,并利用基于多层感知机(Multi-LayerPerceptron,MLP)的语义特征提取模型从待标注图像的候选标签集中提取待标注图像的语义特征;
语义特征提取模型的训练方法包括如下步骤:
(21)构建图像库中每一幅图像的候选标签集;
(22)构建基于多层感知机的第二神经网络模型,用于从图像的候选标签集中提取图像的语义特征;其中,第二神经网络模型包含两个隐藏层,且激活函数采用Relu函数;
(23)利用已构建候选标签集的图像库训练第二神经网络模型,从而得到语义特征提取模型;
(3)融合待标注图像的视觉特征和语义特征以得到待标注图像的高层特征;
在一个可选的实施方式中,步骤(3)具体包括:利用一个全连接层(FC)融合待标注图像的视觉特征和语义特征以得到待标注图像的高层特征;应当理解的是,除了全连接层外,其他用于实现特征融合的方式也可用于融合待标注图像的视觉特征和语义特征以得到待标注图像的高层特征;
(4)根据待标注图像的高层特征,利用深度学习技术计算图像库中各标签在标注待标注图像时的概率;
在一个可选的实施方式中,步骤(4)具体包括:根据待标注图像的高层特征,利用基于多层感知机的多目标分类模型计算图像库中各标签在标注待标注图像时的概率;
多目标分类模型的训练方法包括:
(41)对于图像库中的图像I,利用视觉特征提取模型提取其视觉特征;
(42)构建图像I的候选标签集L,并利用候选标签集L和语义特征提取模型提取图像I的语义特征;
(43)融合图像I的视觉特征和语义特征以得到图像I的高层特征;
(44)对于图像库中的每一幅图像,执行步骤(1)~(3),从而提取图像库中每一幅图像的高层特征;
(45)构建基于多层感知机的第三神经网络模型,用于根据图像的高层特征计算图像库中各标签在标注图像时的概率;
(46)利用已提取图像高层特征的图像库训练第三神经网络模型,从而得到多目标分类模型;训练过程中,采用交叉熵作为损失函数;
(5)根据待标注图像的高层特征,深度学习技术预测待标注图像所需的标签个数;
在一个可选的实施方式中,步骤(5)具体包括:根据待标注图像的高层特征,利用基于多层感知机的标签个数预测模型预测待标注图像所需的标签个数;
标签个数预测模型的训练方法包括:
(51)对于图像库中的图像I,利用视觉特征提取模型提取其视觉特征;
(52)构建图像I的候选标签集L,并利用候选标签集L和语义特征提取模型提取图像I的语义特征;
(53)融合图像I的视觉特征和语义特征以得到图像I的高层特征;
(54)对于图像库中的每一幅图像,执行步骤(1)~(3),从而提取图像库中每一幅图像的高层特征;
(55)构建基于多层感知机的第四神经网络模型,用于根据图像的高层特征预测图像所需的标签个数;第四神经网络模型包括两个隐藏层,分别有512和256个神经元,并且为了避免出现过拟合的情况,在隐藏层中对所有神经元进行dropout,且概率设置为0.5;
(56)利用已提取图像高层特征的图像库训练第四神经网络模型,从而得到标签个数预测模型;
(6)根据所计算的标签概率和所预测的标签个数,利用概率最高的前N个标签对待标注图像进行标注;
其中,图像库中的图像为已标注标签的图像,候选标签集包括图像库中的多个标签,N为利用深度学习技术预测的标签个数。
本发明还提供了一种图像自动标注装置,用于完成对待标注图像的自动标注,如图2所示,包括:
视觉特征提取模块,用于利用深度学习技术提取待标注图像的视觉特征;
候选标签集构建模块,用于利用图像库构建待标注图像的候选标签集;
语义特征提取模块,用于利用深度学习技术提从待标注图像的候选标签集中取待标注图像的语义特征;
特征融合模块,用于融合待标注图像的视觉特征和语义特征以得到待标注图像的高层特征;
多目标分类模块,用于根据待标注图像的高层特征,利用深度学习技术计算图像库中各标签在标注待标注图像时的概率;
标签个数预测模块,用于根据待标注图像的高层特征,利用深度学习技术预测待标注图像所需的标签个数;
标注模块,用于根据多目标分类模块所计算的标签概率和标签个数预测模块所预测的标签个数,利用概率最高的前N个标签对待标注图像进行标注;
其中,图像库中的图像为已标注标签的图像,候选标签集包括图像库中的多个标签,N为标签个数预测模块所预测的标签个数;
在本实施例中,各模块的具体实施方式可参考以上方法实施例中的相关解释,在此不再复述。
利用带有81个主题标签NUS-WIDE图像库进行标注性能测试,NUS-WIDE图像库的各项参数如表1所示:
表1 NUS-WIDE图像库的各项参数
现有的比较经典的基于深度网络的图像自动标注模型包括:(1)CNN模型,即仅利用卷积神经网络提取的图像视觉特征进行图像标注的模型;(2)CNN+softmax模型,其主要思想即利用CNN特征通过softmax函数进行多目标分类从而进行标注。
利用NUS-WIDE图像库,将本发明所提供的图像自动标注方法与利用上述两种图像自动标注模型进行图像标注的方法进行对比分析,评价指标包括:每个标签的查全率(c_R)和查准率(c_P),每幅图像的查全率(i_R)和查准率(i_P),每个标签的F1-score(c_F1)以及每幅图像的F1-score(i_F1);对比分析的结果如表2所示:
表2对比分析结果
表2所示的结果显示,本发明所提供的基于深度学习的图像自动标注方法,其各项评价指标均优于其余两种现有的模型;由此可知,本发明所提供的图像自动标注方法通过融合图像的视觉特征和语义特征得到图像的高层特征;根据图像的高层特征计算图像库中各标签在标注待标注图像时的概率并预测待标注图像的标签个数,然后结合所计算的标签的概率和所预测的标签个数,完成对图像的自动标注,能够有效提升图像标注的准确度和标注性能。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度学习的图像自动标注方法,用于完成对待标注图像的自动标注,其特征在于,包括如下步骤:
(1)利用深度学习技术提取所述待标注图像的视觉特征;
(2)利用图像库构建所述待标注图像的候选标签集,并利用深度学习技术从所述待标注图像的候选标签集中提取所述待标注图像的语义特征;
(3)融合所述待标注图像的视觉特征和语义特征以得到所述待标注图像的高层特征;
(4)根据所述待标注图像的高层特征,利用深度学习技术计算所述图像库中各标签在标注所述待标注图像时的概率;
(5)根据所述待标注图像的高层特征,利用深度学习技术预测所述待标注图像所需的标签个数;
(6)根据所计算的标签概率和所预测的标签个数,利用概率最高的前N个标签对所述待标注图像进行标注;
其中,所述图像库中的图像为已标注标签的图像,所述候选标签集包括所述图像库中的多个标签,N为利用深度学习技术预测的标签个数。
2.如权利要求1所述的图像自动标注方法,其特征在于,所述步骤(2)中,利用图像库构建所述待标注图像的候选标签集,包括:
获得所述图像库中每个标签出现的次数;
对于所述待标注图像,根据图像距离计算所述待标注图像与所述图像库中其余图像的相似性,从而得到与所述待标注图像相似性最高的m幅图像;
从所述m幅图像中获得与所述待标注图像相似性最高的n幅图像,并获得在这n幅图像中出现的p1个标签;
若p1≥k,则根据所述图像库中每个标签出现的次数从所述p1个标签中获得出现次数最高的k个标签,作为k个候选标签,从而构建所述待标注图像的候选标签集;否则,获得在所述m幅图像中出现的p2个标签,并根据所述图像库中每个标签出现的次数从所述p2个标签中获得出现次数最高的k个标签,作为k个候选标签,从而得到该图像的候选标签集;
其中,k为预设的候选标签集大小,且m、n及k满足:k≤m,n≤m。
3.如权利要求1或2所述的基于深度学习的图像自动标注方法,其特征在于,所述步骤(1)包括:利用基于卷积神经网络的视觉特征提取模型提取所述待标注图像的视觉特征;
所述视觉特征提取模型的训练方法包括:
(11)构建基于卷积神经网络的第一神经网络模型,用于提取图像的视觉特征;
(12)利用所述图像库训练所述第一神经网络,从而得到所述视觉特征提取模型。
4.如权利要求1或2所述的基于深度学习的图像自动标注方法,其特征在于,所述步骤(2)包括:利用图像库构建所述待标注图像的候选标签集,并利用基于多层感知机的语义特征提取模型从所述待标注图像的候选标签集中提取所述待标注图像的语义特征;
所述语义特征提取模型的训练方法包括如下步骤:
(21)构建所述图像库中每一幅图像的候选标签集;
(22)构建基于多层感知机的第二神经网络模型,用于从图像的候选标签集中提取图像的语义特征;
(23)利用已构建候选标签集的所述图像库训练所述第二神经网络模型,从而得到所述语义特征提取模型。
5.如权利要求1或2所述的基于深度学习的图像自动标注方法,其特征在于,所述步骤(3)包括:利用一个全连接层融合所述待标注图像的视觉特征和语义特征以得到所述待标注图像的高层特征。
6.如权利要求1或2所述的基于深度学习的图像自动标注方法,其特征在于,所述步骤(4)包括:根据所述待标注图像的高层特征,利用基于多层感知机的多目标分类模型计算所述图像库中各标签在标注所述待标注图像时的概率;
所述多目标分类模型的训练方法包括:
(41)对于所述图像库中的图像I,利用所述视觉特征提取模型提取其视觉特征;
(42)构建所述图像I的候选标签集L,并利用所述候选标签集L和所述语义特征提取模型提取所述图像I的语义特征;
(43)融合所述图像I的视觉特征和语义特征以得到所述图像I的高层特征;
(44)对于所述图像库中的每一幅图像,执行步骤(1)~(3),从而提取所述图像库中每一幅图像的高层特征;
(45)构建基于多层感知机的第三神经网络模型,用于根据图像的高层特征计算所述图像库中各标签在标注图像时的概率;
(46)利用已提取图像高层特征的所述图像库训练所述第三神经网络模型,从而得到所述多目标分类模型。
7.如权利要求1或2所述的基于深度学习的图像自动标注方法,其特征在于,所述步骤(5)包括:根据所述待标注图像的高层特征,利用基于多层感知机的标签个数预测模型预测所述待标注图像所需的标签个数;
所述标签个数预测模型的训练方法包括:
(51)对于所述图像库中的图像I,利用所述视觉特征提取模型提取其视觉特征;
(52)构建所述图像I的候选标签集L,并利用所述候选标签集L和所述语义特征提取模型提取所述图像I的语义特征;
(53)融合所述图像I的视觉特征和语义特征以得到所述图像I的高层特征;
(54)对于所述图像库中的每一幅图像,执行步骤(1)~(3),从而提取所述图像库中每一幅图像的高层特征;
(55)构建基于多层感知机的第四神经网络模型,用于根据图像的高层特征预测图像所需的标签个数;
(56)利用已提取图像高层特征的所述图像库训练所述第四神经网络模型,从而得到所述标签个数预测模型。
8.一种基于深度学习的图像自动标注装置,用于完成对待标注图像的自动标注,其特征在于,包括:
视觉特征提取模块,用于利用深度学习技术提取所述待标注图像的视觉特征;
候选标签集构建模块,用于利用图像库构建所述待标注图像的候选标签集;
语义特征提取模块,用于利用深度学习技术从所述待标注图像的候选标签集中提取所述待标注图像的语义特征;
特征融合模块,用于融合所述待标注图像的视觉特征和语义特征以得到所述待标注图像的高层特征;
多目标分类模块,用于根据所述待标注图像的高层特征,利用深度学习技术计算所述图像库中各标签在标注所述待标注图像时的概率;
标签个数预测模块,用于根据所述待标注图像的高层特征,利用深度学习技术预测所述待标注图像所需的标签个数;
标注模块,用于根据所述多目标分类模块所计算的标签概率和所述标签个数预测模块所预测的标签个数,利用概率最高的前N个标签对所述待标注图像进行标注;
其中,所述图像库中的图像为已标注标签的图像,所述候选标签集包括所述图像库中的多个标签,N为所述标签个数预测模块所预测的标签个数。
CN201811007151.4A 2018-08-31 2018-08-31 一种基于深度学习的图像自动标注方法及装置 Active CN109271539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811007151.4A CN109271539B (zh) 2018-08-31 2018-08-31 一种基于深度学习的图像自动标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811007151.4A CN109271539B (zh) 2018-08-31 2018-08-31 一种基于深度学习的图像自动标注方法及装置

Publications (2)

Publication Number Publication Date
CN109271539A true CN109271539A (zh) 2019-01-25
CN109271539B CN109271539B (zh) 2020-11-24

Family

ID=65155052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811007151.4A Active CN109271539B (zh) 2018-08-31 2018-08-31 一种基于深度学习的图像自动标注方法及装置

Country Status (1)

Country Link
CN (1) CN109271539B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297933A (zh) * 2019-07-01 2019-10-01 山东浪潮人工智能研究院有限公司 一种基于深度学习的主题标签推荐方法及工具
CN110298345A (zh) * 2019-07-05 2019-10-01 福州大学 一种医学图像数据集的感兴趣区域自动标注方法
CN111080625A (zh) * 2019-12-18 2020-04-28 北京推想科技有限公司 肺部影像条索检测模型的训练方法及其训练装置
CN111080551A (zh) * 2019-12-13 2020-04-28 太原科技大学 基于深度卷积特征和语义近邻的多标签图像补全方法
CN111353542A (zh) * 2020-03-03 2020-06-30 腾讯科技(深圳)有限公司 图像分类模型的训练方法、装置、计算机设备和存储介质
CN111797910A (zh) * 2020-06-22 2020-10-20 浙江大学 一种基于平均偏汉明损失的多维标签预测方法
CN112433729A (zh) * 2020-12-14 2021-03-02 四川长虹电器股份有限公司 一种ui图像自动标注方法及装置
CN112749723A (zh) * 2019-10-31 2021-05-04 顺丰科技有限公司 样本标注方法、装置、计算机设备和存储介质
CN113077434A (zh) * 2021-03-30 2021-07-06 零氪智慧医疗科技(天津)有限公司 基于多模态信息的肺癌识别方法、装置及存储介质
CN114299348A (zh) * 2022-02-21 2022-04-08 山东力聚机器人科技股份有限公司 一种基于修复自监督任务的图像分类方法及装置
CN114757307A (zh) * 2022-06-14 2022-07-15 中国电力科学研究院有限公司 一种人工智能自动训练方法、系统、装置及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936892A (zh) * 2006-10-17 2007-03-28 浙江大学 图像内容语义标注方法
US20070156617A1 (en) * 2005-12-29 2007-07-05 Microsoft Corporation Partitioning data elements
US20120148162A1 (en) * 2010-12-09 2012-06-14 The Hong Kong University Of Science And Technology Joint semantic segmentation of images and scan data
CN104021224A (zh) * 2014-06-25 2014-09-03 中国科学院自动化研究所 基于逐层标签融合深度网络的图像标注方法
CN104166982A (zh) * 2014-06-30 2014-11-26 复旦大学 基于典型相关性分析的图像优化聚类方法
CN105678340A (zh) * 2016-01-20 2016-06-15 福州大学 一种基于增强型栈式自动编码器的自动图像标注方法
US20160350930A1 (en) * 2015-05-28 2016-12-01 Adobe Systems Incorporated Joint Depth Estimation and Semantic Segmentation from a Single Image
CN106250915A (zh) * 2016-07-22 2016-12-21 福州大学 一种融合深度特征和语义邻域的自动图像标注方法
CN107590167A (zh) * 2017-01-18 2018-01-16 南京邮电大学 一种基于归纳型矩阵补全的大规模社交图像自动标注算法
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN108009279A (zh) * 2017-12-20 2018-05-08 华东理工大学 一种基于空间位置关系图匹配的图像区域标签修正方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070156617A1 (en) * 2005-12-29 2007-07-05 Microsoft Corporation Partitioning data elements
CN1936892A (zh) * 2006-10-17 2007-03-28 浙江大学 图像内容语义标注方法
US20120148162A1 (en) * 2010-12-09 2012-06-14 The Hong Kong University Of Science And Technology Joint semantic segmentation of images and scan data
CN104021224A (zh) * 2014-06-25 2014-09-03 中国科学院自动化研究所 基于逐层标签融合深度网络的图像标注方法
CN104166982A (zh) * 2014-06-30 2014-11-26 复旦大学 基于典型相关性分析的图像优化聚类方法
US20160350930A1 (en) * 2015-05-28 2016-12-01 Adobe Systems Incorporated Joint Depth Estimation and Semantic Segmentation from a Single Image
CN105678340A (zh) * 2016-01-20 2016-06-15 福州大学 一种基于增强型栈式自动编码器的自动图像标注方法
CN106250915A (zh) * 2016-07-22 2016-12-21 福州大学 一种融合深度特征和语义邻域的自动图像标注方法
CN107590167A (zh) * 2017-01-18 2018-01-16 南京邮电大学 一种基于归纳型矩阵补全的大规模社交图像自动标注算法
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN108009279A (zh) * 2017-12-20 2018-05-08 华东理工大学 一种基于空间位置关系图匹配的图像区域标签修正方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾明明: "基于图像特征及上下文的图像标注算法研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297933A (zh) * 2019-07-01 2019-10-01 山东浪潮人工智能研究院有限公司 一种基于深度学习的主题标签推荐方法及工具
CN110298345A (zh) * 2019-07-05 2019-10-01 福州大学 一种医学图像数据集的感兴趣区域自动标注方法
CN112749723A (zh) * 2019-10-31 2021-05-04 顺丰科技有限公司 样本标注方法、装置、计算机设备和存储介质
CN111080551A (zh) * 2019-12-13 2020-04-28 太原科技大学 基于深度卷积特征和语义近邻的多标签图像补全方法
CN111080551B (zh) * 2019-12-13 2023-05-05 太原科技大学 基于深度卷积特征和语义近邻的多标签图像补全方法
CN111080625A (zh) * 2019-12-18 2020-04-28 北京推想科技有限公司 肺部影像条索检测模型的训练方法及其训练装置
CN111080625B (zh) * 2019-12-18 2020-12-29 推想医疗科技股份有限公司 肺部影像条索检测模型的训练方法及其训练装置
CN111353542A (zh) * 2020-03-03 2020-06-30 腾讯科技(深圳)有限公司 图像分类模型的训练方法、装置、计算机设备和存储介质
CN111353542B (zh) * 2020-03-03 2023-09-19 腾讯科技(深圳)有限公司 图像分类模型的训练方法、装置、计算机设备和存储介质
CN111797910B (zh) * 2020-06-22 2023-04-07 浙江大学 一种基于平均偏汉明损失的多维标签预测方法
CN111797910A (zh) * 2020-06-22 2020-10-20 浙江大学 一种基于平均偏汉明损失的多维标签预测方法
CN112433729A (zh) * 2020-12-14 2021-03-02 四川长虹电器股份有限公司 一种ui图像自动标注方法及装置
CN113077434A (zh) * 2021-03-30 2021-07-06 零氪智慧医疗科技(天津)有限公司 基于多模态信息的肺癌识别方法、装置及存储介质
CN113077434B (zh) * 2021-03-30 2023-01-24 零氪智慧医疗科技(天津)有限公司 基于多模态信息的肺癌识别方法、装置及存储介质
CN114299348A (zh) * 2022-02-21 2022-04-08 山东力聚机器人科技股份有限公司 一种基于修复自监督任务的图像分类方法及装置
CN114757307A (zh) * 2022-06-14 2022-07-15 中国电力科学研究院有限公司 一种人工智能自动训练方法、系统、装置及存储介质
CN114757307B (zh) * 2022-06-14 2022-09-06 中国电力科学研究院有限公司 一种人工智能自动训练方法、系统、装置及存储介质

Also Published As

Publication number Publication date
CN109271539B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN109271539A (zh) 一种基于深度学习的图像自动标注方法及装置
Yang et al. Visual sentiment prediction based on automatic discovery of affective regions
CN112084331B (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN111858954B (zh) 面向任务的文本生成图像网络模型
Yuan et al. Video summarization by learning deep side semantic embedding
Ren et al. Joint image-text representation by gaussian visual-semantic embedding
US20060218192A1 (en) Method and System for Providing Information Services Related to Multimodal Inputs
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
Chen et al. A multi-channel deep neural network for relation extraction
Wang et al. Structure-aware generation network for recipe generation from images
CN113704546A (zh) 基于空间时序特征的视频自然语言文本检索方法
KR20170004154A (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
US8370323B2 (en) Providing information services related to multimodal inputs
Abdul-Rashid et al. Shrec’18 track: 2d image-based 3d scene retrieval
CN112364168A (zh) 一种基于多属性信息融合的舆情分类方法
Qi et al. A semantic feature for human motion retrieval
CN117251551B (zh) 一种基于大语言模型的自然语言处理系统及方法
Ji et al. Attention based meta path fusion for heterogeneous information network embedding
Huang et al. Coarse-to-fine Image Aesthetics Assessment With Dynamic Attribute Selection
Varlik et al. Filtering airborne LIDAR data by using fully convolutional networks
US20240028952A1 (en) Apparatus for attribute path generation
Qi et al. Video captioning via a symmetric bidirectional decoder
Zheng et al. Fine-grained image classification based on TinyVit object location and graph convolution network
Xu et al. Incorporating forward and backward instances in a bi-lstm-cnn model for relation classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant