CN107967480B - 一种基于标签语义的显著对象提取方法 - Google Patents
一种基于标签语义的显著对象提取方法 Download PDFInfo
- Publication number
- CN107967480B CN107967480B CN201610912497.3A CN201610912497A CN107967480B CN 107967480 B CN107967480 B CN 107967480B CN 201610912497 A CN201610912497 A CN 201610912497A CN 107967480 B CN107967480 B CN 107967480B
- Authority
- CN
- China
- Prior art keywords
- pixel
- super
- image
- tag
- ith
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000001514 detection method Methods 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 230000000007 visual effect Effects 0.000 claims description 33
- 238000004364 calculation method Methods 0.000 claims description 32
- 230000003993 interaction Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 8
- 238000002372 labelling Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 241000283070 Equus zebra Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000282376 Panthera tigris Species 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于标签语义的显著对象提取方法,包括以下步骤:进行训练,进行测试,得到最终的显著图,所述训练包括以下子步骤,输入训练集,对图像I进行超像素分割。本发明首先挑出标签中的对象标签,通过对象标签对应的对象检测子进行检测,得到基于标签语义的显著性特征,并将标签语义信息和基于外观的显著性特征融合起来进行显著对象的检测。由于标签语义信息是高级语义信息,更能改善传统的显著对象检测方法。
Description
技术领域
本发明涉及数字图像处理的技术领域,特别是一种基于标签语义的显著对象提取方法。
背景技术
标签的语义虽然在图像标注领域已经得到了广泛应用,但是,标签信息通常和显著对象提取任务是分开处理的,应用在显著对象提取上的工作并不多。
文献[Wen Wang,Congyan Lang,Songhe Feng.Contextualizing Tag Rankingand Saliency Detection for Social Images.Advances in Multimedia ModelingLecture Notes in Computer Science Volume 7733,2013,pp 428-435.]和文献[Zhu,G.,Wang,Q.,Yuan,Y.Tag-saliency:Combining bottom-up and top-down information forsaliency detection.Computer Vision and Image Understanding,2014,118(1):40-49.],这两篇论文里面均用到了标签语义信息。
文献[Wen Wang,Congyan Lang,Songhe Feng.Contextualizing Tag Rankingand Saliency Detection for Social Images.Advances in Multimedia ModelingLecture Notes in Computer Science Volume 7733,2013,pp 428-435.]将标签排序任务和显著性检测任务整合在一起,迭代地进行标签排序和显著性检测任务。
文献[Zhu,G.,Wang,Q.,Yuan,Y.Tag-saliency:Combining bottom-up and top-down information for saliency detection.Computer Vision and ImageUnderstanding,2014,118(1):40-49.]提出Tag-Saliency模型,通过基于层次的过分割和自动标注技术进行多媒体数据的标注。
这两篇文献的共同缺点是显著性标注的效果依赖于区域标注,依靠多示例学习的方法不容易泛化;而且,这两篇文献均没有考虑到标签之间的上下文关系。我们的工作所要解决的主要问题是采用新的标签特征表示方法,并考虑标签之间的上下文关系,并与图像的低级特征进行融合,提高显著对象的提取效果。
发明内容
为了解决上述的技术问题,本发明提出高级语义标签和底层外观特征融合的显著对象提取方法。首先对图像进行超像素分割;提取每个超像素的外观特征,进行基于外观特征的显著性计算;找出标签中的对象标签,通过对象标签对应的对象检测子进行检测,进行标签语义的显著性计算;最后通过CRF模型并将标签语义信息和基于外观的显著性特征融合起来,得到最终的显著图。由于标签语义信息是高级语义信息,所以本发明更能改善传统的显著对象检测方法。
本发明提供一种基于标签语义的显著对象提取方法,包括以下步骤:
步骤1:进行训练;
所述训练包括以下子步骤:
步骤11:输入训练集;
步骤12:对图像I进行超像素分割;
步骤2:进行测试;
步骤3:得到最终的显著性。
优选的是,所述步骤1还包括以下步骤:
步骤13:提取所述图像的基于外观的视觉特征;
步骤14:进行基于所述图像外观特征的显著性计算;
步骤15:找到标签中的对象标签;
步骤16:进行基于所述标签语义的显著性特征计算;
步骤17:对所述训练集中的所述图片进行CRF建模。
在上述任一方案中优选的是,所述步骤12还为图像I被分割为M个超像素,每个超像素表示为Ri,1≤i≤M。
在上述任一方案中优选的是,所述步骤13还为第i个超像素的外观视觉特征为vi,在第k维的特征通道上的特征可以表示为vi k。
在上述任一方案中优选的是,所述步骤14还为第i个超像素在第k维的特征通道上的显著性的计算方法如下:
其中,D(vi k,vj k)代表超像素Ri和超像素Rj在第k维的特征通道上的差异。wij代表空间距离权重,计算方法为
pi代表超像素Ri的平均位置。αj代表超像素Rj的归一化的面积。
在上述任一方案中优选的是,所述步骤15还为对对象标签对应的对象检测子进行对象检测。
在上述任一方案中优选的是,所述步骤16还为第k个对象检测子检测完毕后,图像中的超像素包含检测子对象的可能性为如果超像素多于一半的区域被包含在第i个矩形框里,则fk i=1,如果超像素没有被包含在第i个矩形框里或少于一半的区域被包含在第i个矩形框里,fk i=0。对每个超像素计算得到的可能性可以看做是一种先验特征。X个对象检测子都检测完毕后,每个超像素得到X维特征。X维的特征归一化后表示为t,t∈RX,t的每一维代表超像素属于每一类特定对象的概率。计算得到的概率即为标签语义显著性特征。
在上述任一方案中优选的是,所述步骤17还为对目标函数进行训练,得出训练模型。
在上述任一方案中优选的是,S代表此图像I的显著图,si代表图像I中第i个超像素的显著值;ti∈RX代表图像I中第i个超像素的标签概率向量,X代表图像集的标签集合的标签总个数,tij∈[0,1],1≤j≤X代表第j个标签在第i个超像素出现的概率;xi代表图像I中第i个超像素的视觉特征。
在上述任一方案中优选的是,采用条件随机场模型(CRF)对图像的显著对象提取进行建模。在模型中,显著值由图像外观特征、标签的语义内容以及相邻区域的相互作用决定。
Z是概率归一化因子,也称为划分函数。Ui是一元项,Bij是二元项。
一元项Ui描述了图像I中第i个超像素的显著值同时由视觉特征xi和标签语义特征ti决定,可以由下面泛化的线性预测模型来描述,
其中,δ(·)是sigmoid函数,δ(z)=1/(1+e-z)。模型参数wt和wf表示权重,反映了视觉特征xi和标签语义特征ti在计算显著性时起了多大的作用。
Bij是二元项,表明一个区域的显著性不仅由区域的内容决定,而且依赖于和其他区域之间的空间关系,这里区域的内容不仅包括区域的外观特征,还包括区域的语义内容。
二元项Bij的计算如下面公式所示。
其中,vt和vf分别代表标签语义和视觉外观特征的权重。函数u代表空间约束关系。
在上述任一方案中优选的是,所述测试包括如下步骤:
步骤21:输入一幅图像I;
步骤22。对图像I进行超像素分割;
步骤23:提取图像的基于外观的特征;
步骤24:进行基于图像外观特征的显著性计算;
步骤25:找到标签中的对象标签,通过对象检测子进行对象检测;
步骤26:进行基于图像标签语义特征的显著性计算。
在上述任一方案中优选的是,所述步骤22为图像I被分割为M个超像素,每个超像素表示为Ri,1≤i≤M。
在上述任一方案中优选的是,所述步骤23为第i个超像素的外观视觉特征为vi,在第k维的特征通道上的特征可以表示为vi k。
在上述任一方案中优选的是,所述步骤24还为第i个超像素在第k维的特征通道上的显著性的计算方法如下:
其中,D(vi k,vj k)代表超像素Ri和超像素Rj在第k维的特征通道上的差异。wij代表空间距离权重,计算方法为
pi代表超像素Ri的平均位置。αj代表超像素Rj的归一化的面积。
在上述任一方案中优选的是,所述26还为第k个对象检测子检测完毕后,图像中的超像素包含检测子对象的可能性为如果超像素多于一半的区域被包含在第i个矩形框里,则fk i=1,如果超像素没有被包含在第i个矩形框里或少于一半的区域被包含在第i个矩形框里,fk i=0。对每个超像素计算得到的可能性可以看做是一种先验特征。在通过X个对象检测子都检测完毕后,每个超像素得到X维特征。X维的特征归一化后表示为t,t∈RX,t的每一维代表超像素属于每一类特定对象的概率。计算得到的概率可以看做是语义显著性特征。
在上述任一方案中优选的是,所述步骤3还为将基于外观的显著性和基于标签语义的显著性输入训练模型进行计算。
本发明通过CRF模型对显著对象检测进行建模,考虑到了标签之间的上下文关系。
附图说明
图1为按照本发明的基于标签语义的显著对象提取方法的训练过程的一优选实施例的流程图。
图2为按照本发明的基于标签语义的显著对象提取方法的测试过程的一优选实施例的流程图。
图3为按照本发明的基于标签语义的显著对象提取方法的一优选实施例的总流程图。
图4为按照本发明的基于标签语义的显著对象提取方法的外观特征和基于外观的一优选实施例的显著性计算图表展示图。
图5为按照本发明的基于标签语义的显著对象提取方法的一优选实施例和23种流行方法进行比较的PR曲线图。
图6为按照本发明的基于标签语义的显著对象提取方法的一优选实施例和23种流行方法进行比较的ROC曲线图。
图7为按照本发明的基于标签语义的显著对象提取方法的一优选实施例和23种流行方法进行比较的视觉效果对比图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1所示,训练过程如下:
执行步骤100,输入训练集,对训练集中的每张图像进行下面的操作。
执行步骤110,对图像I进行超像素分割;
图像I被分割为M个超像素,每个超像素表示为Ri,1≤i≤M。
执行步骤120,提取图像的基于外观的视觉特征;
第i个超像素的外观视觉特征为vi,在第k维的特征通道上的特征可以表示为vi k。
执行步骤130,进行基于图像外观特征的显著性计算;
第i个超像素在第k维的特征通道上的显著性的计算方法如下:
其中,D(vi k,vj k)代表超像素Ri和超像素Rj在第k维的特征通道上的差异。wij代表空间距离权重,计算方法为
pi代表超像素Ri的平均位置。αj代表超像素Rj的归一化的面积。
执行步骤140,找到标签中的对象标签,通过对象标签对应的对象检测子进行对象检测;
假设有X个对象检测子,对于第k个对象检测子,选取最可能包含特定对象的N个矩形框;第i个窗口包含特定对象的概率为pk i,1≤k≤X,1≤i≤N。至少一半区域在窗口内的超像素和包含它的窗口区域具有相同的概率值pk i。
执行步骤150,进行基于标签语义特征的显著性计算;
第k个对象检测子检测完毕后,图像中的超像素包含检测子对象的可能性为如果超像素多于一半的区域被包含在第i个矩形框里,则fk i=1,如果超像素没有被包含在第i个矩形框里或少于一半的区域被包含在第i个矩形框里,fk i=0。对每个超像素计算得到的可能性可以看做是一种先验特征。X个对象检测子都检测完毕后,每个超像素得到X维特征。X维的特征归一化后表示为t,t∈RX,t的每一维代表超像素属于每一类特定对象的概率。计算得到的概率即为标签语义显著性特征。
执行步骤160,对训练集中的图片进行CRF建模,并对目标函数进行训练,得出训练模型。
S代表此图像I的显著图,si代表图像I中第i个超像素的显著值;ti∈RX代表图像I中第i个超像素的标签概率向量,X代表图像集的标签集合的标签总个数,tij∈[0,1],1≤j≤X代表第j个标签在第i个超像素出现的概率;xi代表图像I中第i个超像素的视觉特征。
采用条件随机场模型(CRF)对图像的显著对象提取进行建模。在模型中,显著值由图像外观特征、标签的语义内容以及相邻区域的相互作用决定。
Z是概率归一化因子,也称为划分函数。Ui是一元项,Bij是二元项。
一元项Ui描述了图像I中第i个超像素的显著值同时由视觉特征xi和标签语义特征ti决定,可以由下面泛化的线性预测模型来描述,
其中,δ(·)是sigmoid函数,δ(z)=1/(1+e-z)。模型参数wt和wf表示权重,反映了视觉特征xi和标签语义特征ti在计算显著性时起了多大的作用。
Bij是二元项,表明一个区域的显著性不仅由区域的内容决定,而且依赖于和其他区域之间的空间关系,这里区域的内容不仅包括区域的外观特征,还包括区域的语义内容。
二元项Bij的计算如下面公式所示。
其中,vt和vf分别代表标签语义和视觉外观特征的权重。函数u代表空间约束关系。例如,如果区域i在区域j的左上方,则u(xi,xj)=[xi;xj],u(ti,tj)=[ti;tj];如果区域i在区域j的右下方,则u(xi,xj)=[xj;xi],u(ti,tj)=[tj;ti]。
求P(s|x,t)的最大值得到为训练模型。
实施例二
如图2所示,测试过程如下:
执行步骤200,输入一幅图像I;
执行步骤210,对图像I进行超像素分割;
图像I被分割为M个超像素,每个超像素表示为Ri,1≤i≤M。
执行步骤220,提取图像的基于外观的特征;
第i个超像素的外观视觉特征为vi,在第k维的特征通道上的特征可以表示为vi k。
执行步骤230,进行基于图像外观特征的显著性计算;
第i个超像素在第k维的特征通道上的显著性的计算方法如下:
其中,D(vi k,vj k)代表超像素Ri和超像素Rj在第k维的特征通道上的差异。wij代表空间距离权重,计算方法为
pi代表超像素Ri的平均位置。αj代表超像素Rj的归一化的面积。
执行步骤240,通过对象检测子进行对象检测;
假设有X个对象检测子,对于第k个对象检测子,选取最可能包含特定对象的N个矩形框;第i个窗口包含特定对象的概率为pk i,1≤k≤X,1≤i≤N。至少一半区域在窗口内的超像素和包含它的窗口区域具有相同的概率值pk i。
执行步骤250,进行基于图像标签语义特征的显著性计算;
第k个对象检测子检测完毕后,图像中的超像素包含检测子对象的可能性为如果超像素多于一半的区域被包含在第i个矩形框里,则fk i=1,如果超像素没有被包含在第i个矩形框里或少于一半的区域被包含在第i个矩形框里,fk i=0。对每个超像素计算得到的可能性可以看做是一种先验特征。在通过X个对象检测子都检测完毕后,每个超像素得到X维特征。X维的特征归一化后表示为t,t∈RX,t的每一维代表超像素属于每一类特定对象的概率。计算得到的概率可以看做是语义显著性特征。
执行步骤260,将基于外观的显著性特征和基于标签语义的显著性特征输入模型,得到最终的显著图。
实施例三
如图3所示,可以很清晰的看到是如何得到最终的显著图的。
第一步,先进行训练过程,对图片集中的人和花草的图像300进行超像素分割,得到图像310。将图像310进行外观特征提取,得到图像311,再将图像311进行外观显著性特征计算,得到图像312。将图像310进行标签特征提取,得到图像313,再将图像313进行基于标签语义的显著性特征计算,得到图像314。将图像312和图像314一起进行模拟训练,得到权重向量320。
第二步,进行测试过程。对人物图像330进行超像素分割,得到图像340。将图像340进行外观特征提取,得到图像341,再将图像341进行外观显著性特征计算,得到图像342。将图像340进行标签特征提取,得到图像343,再将图像343进行标记性计算,得到图像344。将图像342和图像344结合权重向量320进行融合,得到最终的显著图350。
实施例四
如图4所示,构建了3000幅来源于Flickr社交网站的图像数据集,每张图片都带有标签信息,实验以此数据集为对象。通过SLIC超像素分割方法对图像进行分割,提取每个区域的外观特征,外观特征包括颜色和纹理特征。采用的颜色特征空间有RGB,HSV和L*a*b*;采用的纹理特征为LBP特征和LM滤波池的响应特征。然后计算基于外观图像特征的显著性计算,最后得到29维特征向量ff1。
选择了20个对象标签,包括bear,birds,boats,buildings,cars,cat,computer,coral,cow,dog,elk,fish,flowers,fox,horses,person,plane,tiger,train,zebra;选取和对象标签相对应的20RCNN对象检测子进行标签语义特征的提取,在提取的时候选取前2000个包含对象概率最大的矩形框。通过标签语义显著性计算得到图像中每个超像素的标签语义显著性ff2。
最后将29维的基于外观特征的显著性特征ff1和20维的基于标签语义显著性特征ff2带输入训练模型进行显著性的计算。
实施例五
如图5、6所示,以ROC曲线和PR曲线作为评价指标,本发明所提的基于标签语义的显著对象提取方法(简称TBS)在构建的数据库上进行实验,实验结果如下:可以看到,TBS的PR曲线和ROC曲线均高于其他所有方法。
实施例六
如图7所示,选择一些典型的图片进行TBS方法和23种流行方法的视觉效果对比,GT为人工对原图进行显著性提取方法得到最理想的图像。TB为本发明所提的基于标签语义的显著对象提取方法。其他23种流行方法包括TD、SVO、SS、SMD、SF、SEG、SBF、RC、PCA、MR、MC、LRR、HS、HM、GS、GC、FT、DSR、DFRI、CB、CA、BL、VD。这23种流行方法的检测结果存在下面四种问题:(1)有些方法检测得到的显著对象是不完整的,如LRR、GS;(2)有些方法的检测结果包含了非显著对象的部分,如SS、TD;(3)有些方法的检测结果边界是模糊不清的,如SS、SVO、SEG;(4)有些方法只能高亮地显示显著对象的边缘,并不是整个显著区域,如CA、PCA。然而,由于本发明的TBS方法由于考虑了标签及标签之间的上下文关系,所以TBS方法得到的显著对象相对完整、均匀高亮。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法、装置和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (11)
1.一种基于标签语义的显著对象提取方法,包括以下步骤:
步骤1:进行训练;
所述训练包括以下子步骤:
步骤11:输入训练集;
步骤12:对训练集中的每一幅图像I进行超像素分割;
步骤13:提取所述图像I的超像素的基于外观的视觉特征;
步骤14:进行所述基于外观的视觉特征的显著性计算,得到视觉显著性特征;
步骤15:找到所述图像I对应标签中的对象标签;
步骤16:进行基于所述对象标签语义的显著性特征计算,得到标签语义显著性特征;第k个对象检测子检测时,图像中的超像素包含检测子对象的可能性为如果超像素多于一半的区域被包含在第i个矩形框里,则fk i=1,如果超像素没有被包含在第i个矩形框里或少于一半的区域被包含在第i个矩形框里,fk i=0,对每个超像素计算得到的可能性是一种先验特征,X个对象检测子都检测完毕后,每个超像素得到X维特征,X维的特征归一化后表示为t,t∈RX,t的每一维代表超像素属于每一类特定对象的概率,计算得到的概率即为标签语义显著性特征,其中,N为矩形框的个数,pk i为第i个窗口包含特定对象的概率;
步骤17:对步骤14和步骤16当中得到的显著性特征进行条件随机场模型建模;
步骤2:使用所述模型参数对测试图像进行测试;
步骤3:得到所述测试图像的最终的显著值。
2.如权利要求1所述的基于标签语义的显著对象提取方法,其特征在于:在所述步骤12中图像I被分割为M个超像素,每个超像素表示为Ri,1≤i≤M。
4.如权利要求1所述的基于标签语义的显著对象提取方法,其特征在于:所述步骤16还包括对对象标签对应的对象检测子进行对象检测。
5.如权利要求1所述的基于标签语义的显著对象提取方法,其特征在于:所述步骤17还包括对目标函数进行训练,得出训练模型。
6.如权利要求5所述的基于标签语义的显著对象提取方法,其特征在于:采用条件随机场模型对图像的显著对象提取进行建模,在模型中,显著值由视觉特征、标签的语义内容以及相邻区域的相互作用决定,
Z是概率归一化因子,也称为划分函数,Ui是一元项,Bij是二元项,
一元项Ui描述了图像I中第i个超像素的显著值同时由视觉显著性特征xi和标签语义显著性特征ti决定,由下面泛化的线性预测模型来描述,
其中,δ(·)是sigmoid函数,δ(z)=1/(1+e-z),模型参数wt和wf表示权重,反映了视觉显著性特征xi和标签语义显著性特征ti在计算显著性时起了多大的作用,
Bij是二元项,表明一个区域的显著性不仅由区域的内容决定,而且依赖于和其他区域之间的空间关系,这里区域的内容不仅包括区域的视觉特征,还包括区域的语义内容,
二元项Bij的计算如下面公式所示,
S代表图像I的显著图,si代表图像I中第i个超像素的显著值;ti代表图像I中第i个超像素的基于标签语义的显著性特征,ti∈RX,xi代表从图像I中第i个超像素的视觉特征计算得到基于外观的视觉显著性特征。
7.如权利要求1所述的基于标签语义的显著对象提取方法,其特征在于:所述测试包括如下步骤:
步骤21:输入一幅测试图像;
步骤22:对所述测试图像进行超像素分割;
步骤23:提取所述测试图像的超像素的基于外观的视觉特征;
步骤24:进行所述基于外观的视觉特征的显著性计算,得到视觉显著性特征;
步骤25:找到所述测试图像对应标签中的对象标签,通过对象检测子进行对象检测;
步骤26:进行基于图像标签语义特征的显著性计算,得到标签语义显著性特征。
8.如权利要求7所述的基于标签语义的显著对象提取方法,其特征在于:在所述步骤22中所述测试图像被分割为M个超像素,每个超像素表示为Ri,1≤i≤M。
11.如权利要求1所述的基于标签语义的显著对象提取方法,其特征在于:所述步骤3还包括将基于外观的显著性特征和基于标签语义的显著性特征输入训练模型进行计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610912497.3A CN107967480B (zh) | 2016-10-19 | 2016-10-19 | 一种基于标签语义的显著对象提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610912497.3A CN107967480B (zh) | 2016-10-19 | 2016-10-19 | 一种基于标签语义的显著对象提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107967480A CN107967480A (zh) | 2018-04-27 |
CN107967480B true CN107967480B (zh) | 2020-06-30 |
Family
ID=61996902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610912497.3A Expired - Fee Related CN107967480B (zh) | 2016-10-19 | 2016-10-19 | 一种基于标签语义的显著对象提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107967480B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765882B (zh) * | 2019-09-25 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种视频标签确定方法、装置、服务器及存储介质 |
JP7215390B2 (ja) * | 2019-10-10 | 2023-01-31 | トヨタ自動車株式会社 | 路上障害物検知装置、路上障害物検知方法、及び路上障害物検知プログラム |
CN111583279A (zh) * | 2020-05-12 | 2020-08-25 | 重庆理工大学 | 一种基于pcba的超像素图像分割方法 |
CN111666952B (zh) * | 2020-05-22 | 2023-10-24 | 北京腾信软创科技股份有限公司 | 一种基于标签上下文的显著区域提取方法及系统 |
CN111666954A (zh) * | 2020-06-05 | 2020-09-15 | 北京联合大学 | 一种显著区域的联合学习提取方法及系统 |
CN113936147A (zh) * | 2021-10-26 | 2022-01-14 | 北京联合大学 | 一种社群图像的显著区域提取方法及系统 |
CN114596287A (zh) * | 2022-03-11 | 2022-06-07 | 百果园技术(新加坡)有限公司 | 图像质量确定方法、装置、设备和存储介质 |
CN115952312B (zh) * | 2022-12-02 | 2024-07-19 | 北京工业大学 | 一种图像标签的自动标注与排序方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101877007A (zh) * | 2010-05-18 | 2010-11-03 | 南京师范大学 | 融合空间方位关系语义的遥感图像检索方法 |
CN102222237A (zh) * | 2011-07-14 | 2011-10-19 | 北京工业大学 | 手语视频的相似度评估模型的建立方法 |
CN105389584A (zh) * | 2015-10-13 | 2016-03-09 | 西北工业大学 | 基于卷积神经网络与语义转移联合模型的街景语义标注方法 |
CN105913456A (zh) * | 2016-04-12 | 2016-08-31 | 西安电子科技大学 | 基于区域分割的视频显著性检测方法 |
-
2016
- 2016-10-19 CN CN201610912497.3A patent/CN107967480B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101877007A (zh) * | 2010-05-18 | 2010-11-03 | 南京师范大学 | 融合空间方位关系语义的遥感图像检索方法 |
CN102222237A (zh) * | 2011-07-14 | 2011-10-19 | 北京工业大学 | 手语视频的相似度评估模型的建立方法 |
CN105389584A (zh) * | 2015-10-13 | 2016-03-09 | 西北工业大学 | 基于卷积神经网络与语义转移联合模型的街景语义标注方法 |
CN105913456A (zh) * | 2016-04-12 | 2016-08-31 | 西安电子科技大学 | 基于区域分割的视频显著性检测方法 |
Non-Patent Citations (2)
Title |
---|
Contextualizing Tag Ranking and Saliency Detection for Social Images;Wen Wang 等;《Springer-Verlag Berlin Heidelberg 2013》;20131231;第428-435页 * |
Tag-Saliency: Combining bottom-up and top-down information for saliency detection;Guokang Zhu 等;《Computer Vision and Image Understanding》;20141231;第40-49页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107967480A (zh) | 2018-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107967480B (zh) | 一种基于标签语义的显著对象提取方法 | |
CN109670429B (zh) | 一种基于实例分割的监控视频多目标人脸检测方法及系统 | |
Tong et al. | Salient object detection via global and local cues | |
CN106327469B (zh) | 一种语义标签引导的视频对象分割方法 | |
CN109426805B (zh) | 用于对象检测的方法、设备和计算机程序产品 | |
US11640714B2 (en) | Video panoptic segmentation | |
CN102334118B (zh) | 基于用户兴趣学习的个性化广告推送方法与系统 | |
Liang et al. | Counting crowd flow based on feature points | |
CN106127197B (zh) | 基于显著标签排序的图像显著性目标检测方法和装置 | |
CN110298297A (zh) | 火焰识别方法和装置 | |
CN113111716B (zh) | 一种基于深度学习的遥感影像半自动标注方法和装置 | |
CN110378911B (zh) | 基于候选区域和邻域分类器的弱监督图像语义分割方法 | |
Santiago et al. | 2D segmentation using a robust active shape model with the EM algorithm | |
Tu et al. | A new spatio-temporal saliency-based video object segmentation | |
CN107622280B (zh) | 基于场景分类的模块化处方式图像显著性检测方法 | |
CN113435319B (zh) | 一种联合多目标跟踪和行人角度识别的分类方法 | |
Li et al. | Primary video object segmentation via complementary CNNs and neighborhood reversible flow | |
CN111523421A (zh) | 基于深度学习融合各种交互信息的多人行为检测方法及系统 | |
Lu et al. | Superthermal: Matching thermal as visible through thermal feature exploration | |
Inthiyaz et al. | Flower segmentation with level sets evolution controlled by colour, texture and shape features | |
CN108647703B (zh) | 一种基于显著性的分类图像库的类型判断方法 | |
CN109034258A (zh) | 基于特定物体像素梯度图的弱监督目标检测方法 | |
CN113221770A (zh) | 基于多特征混合学习的跨域行人重识别方法及系统 | |
Park et al. | Tracking non-rigid objects using probabilistic Hausdorff distance matching | |
CN108665000A (zh) | 一种基于不确定性分析的数字图像自动标注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200630 |