CN107967480A - 一种基于标签语义的显著对象提取方法 - Google Patents

一种基于标签语义的显著对象提取方法 Download PDF

Info

Publication number
CN107967480A
CN107967480A CN201610912497.3A CN201610912497A CN107967480A CN 107967480 A CN107967480 A CN 107967480A CN 201610912497 A CN201610912497 A CN 201610912497A CN 107967480 A CN107967480 A CN 107967480A
Authority
CN
China
Prior art keywords
msub
mrow
super
pixel
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610912497.3A
Other languages
English (en)
Other versions
CN107967480B (zh
Inventor
梁晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Original Assignee
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University filed Critical Beijing Union University
Priority to CN201610912497.3A priority Critical patent/CN107967480B/zh
Publication of CN107967480A publication Critical patent/CN107967480A/zh
Application granted granted Critical
Publication of CN107967480B publication Critical patent/CN107967480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Abstract

本发明提供一种基于标签语义的显著对象提取方法,包括以下步骤:进行训练,进行测试,得到最终的显著图,所述训练包括以下子步骤,输入训练集,对图像I进行超像素分割。本发明首先挑出标签中的对象标签,通过对象标签对应的对象检测子进行检测,得到基于标签语义的显著性特征,并将标签语义信息和基于外观的显著性特征融合起来进行显著对象的检测。由于标签语义信息是高级语义信息,更能改善传统的显著对象检测方法。

Description

一种基于标签语义的显著对象提取方法
技术领域
本发明涉及数字图像处理的技术领域,特别是一种基于标签语义的显著对象提取方法。
背景技术
标签的语义虽然在图像标注领域已经得到了广泛应用,但是,标签信息通常和显著对象提取任务是分开处理的,应用在显著对象提取上的工作并不多。
文献[Wen Wang,Congyan Lang,Songhe Feng.Contextualizing Tag Rankingand Saliency Detection for Social Images.Advances in Multimedia ModelingLecture Notes in Computer Science Volume 7733,2013,pp 428-435.]和文献[Zhu,G.,Wang,Q.,Yuan,Y.Tag-saliency:Combining bottom-up and top-down information forsaliency detection.Computer Vision and Image Understanding,2014,118(1):40-49.],这两篇论文里面均用到了标签语义信息。
文献[Wen Wang,Congyan Lang,Songhe Feng.Contextualizing Tag Rankingand Saliency Detection for Social Images.Advances in Multimedia ModelingLecture Notes in Computer Science Volume 7733,2013,pp 428-435.]将标签排序任务和显著性检测任务整合在一起,迭代地进行标签排序和显著性检测任务。
文献[Zhu,G.,Wang,Q.,Yuan,Y.Tag-saliency:Combining bottom-up and top-down information for saliency detection.Computer Vision and ImageUnderstanding,2014,118(1):40-49.]提出Tag-Saliency模型,通过基于层次的过分割和自动标注技术进行多媒体数据的标注。
这两篇文献的共同缺点是显著性标注的效果依赖于区域标注,依靠多示例学习的方法不容易泛化;而且,这两篇文献均没有考虑到标签之间的上下文关系。我们的工作所要解决的主要问题是采用新的标签特征表示方法,并考虑标签之间的上下文关系,并与图像的低级特征进行融合,提高显著对象的提取效果。
发明内容
为了解决上述的技术问题,本发明提出高级语义标签和底层外观特征融合的显著对象提取方法。首先对图像进行超像素分割;提取每个超像素的外观特征,进行基于外观特征的显著性计算;找出标签中的对象标签,通过对象标签对应的对象检测子进行检测,进行标签语义的显著性计算;最后通过CRF模型并将标签语义信息和基于外观的显著性特征融合起来,得到最终的显著图。由于标签语义信息是高级语义信息,所以本发明更能改善传统的显著对象检测方法。
本发明提供一种基于标签语义的显著对象提取方法,包括以下步骤:
步骤1:进行训练;
所述训练包括以下子步骤:
步骤11:输入训练集;
步骤12:对图像I进行超像素分割;
步骤2:进行测试;
步骤3:得到最终的显著性。
优选的是,所述步骤1还包括以下步骤:
步骤13:提取所述图像的基于外观的视觉特征;
步骤14:进行基于所述图像外观特征的显著性计算;
步骤15:找到标签中的对象标签;
步骤16:进行基于所述标签语义的显著性特征计算;
步骤17:对所述训练集中的所述图片进行CRF建模。
在上述任一方案中优选的是,所述步骤12还为图像I被分割为M个超像素,每个超像素表示为Ri,1≤i≤M。
在上述任一方案中优选的是,所述步骤13还为第i个超像素的外观视觉特征为vi,在第k维的特征通道上的特征可以表示为vi k
在上述任一方案中优选的是,所述步骤14还为第i个超像素在第k维的特征通道上的显著性的计算方法如下:
其中,D(vi k,vj k)代表超像素Ri和超像素Rj在第k维的特征通道上的差异。wij代表空间距离权重,计算方法为
pi代表超像素Ri的平均位置。αj代表超像素Rj的归一化的面积。
在上述任一方案中优选的是,所述步骤15还为对对象标签对应的对象检测子进行对象检测。
在上述任一方案中优选的是,所述步骤16还为第k个对象检测子检测完毕后,图像中的超像素包含检测子对象的可能性为如果超像素多于一半的区域被包含在第i个矩形框里,则fk i=1,如果超像素没有被包含在第i个矩形框里或少于一半的区域被包含在第i个矩形框里,fk i=0。对每个超像素计算得到的可能性可以看做是一种先验特征。X个对象检测子都检测完毕后,每个超像素得到X维特征。X维的特征归一化后表示为t,t∈RX,t的每一维代表超像素属于每一类特定对象的概率。计算得到的概率即为标签语义显著性特征。
在上述任一方案中优选的是,所述步骤17还为对目标函数进行训练,得出训练模型。
在上述任一方案中优选的是,S代表此图像I的显著图,si代表图像I中第i个超像素的显著值;ti∈RX代表图像I中第i个超像素的标签概率向量,X代表图像集的标签集合的标签总个数,tij∈[0,1],1≤j≤X代表第j个标签在第i个超像素出现的概率;xi代表图像I中第i个超像素的视觉特征。
在上述任一方案中优选的是,采用条件随机场模型(CRF)对图像的显著对象提取进行建模。在模型中,显著值由图像外观特征、标签的语义内容以及相邻区域的相互作用决定。
Z是概率归一化因子,也称为划分函数。Ui是一元项,Bij是二元项。
一元项Ui描述了图像I中第i个超像素的显著值同时由视觉特征xi和标签语义特征ti决定,可以由下面泛化的线性预测模型来描述,
其中,δ(·)是sigmoid函数,δ(z)=1/(1+e-z)。模型参数wt和wf表示权重,反映了视觉特征xi和标签语义特征ti在计算显著性时起了多大的作用。
Bij是二元项,表明一个区域的显著性不仅由区域的内容决定,而且依赖于和其他区域之间的空间关系,这里区域的内容不仅包括区域的外观特征,还包括区域的语义内容。
二元项Bij的计算如下面公式所示。
其中,vt和vf分别代表标签语义和视觉外观特征的权重。函数u代表空间约束关系。
在上述任一方案中优选的是,所述测试包括如下步骤:
步骤21:输入一幅图像I;
步骤22。对图像I进行超像素分割;
步骤23:提取图像的基于外观的特征;
步骤24:进行基于图像外观特征的显著性计算;
步骤25:找到标签中的对象标签,通过对象检测子进行对象检测;
步骤26:进行基于图像标签语义特征的显著性计算。
在上述任一方案中优选的是,所述步骤22为图像I被分割为M个超像素,每个超像素表示为Ri,1≤i≤M。
在上述任一方案中优选的是,所述步骤23为第i个超像素的外观视觉特征为vi,在第k维的特征通道上的特征可以表示为vi k
在上述任一方案中优选的是,所述步骤24还为第i个超像素在第k维的特征通道上的显著性的计算方法如下:
其中,D(vi k,vj k)代表超像素Ri和超像素Rj在第k维的特征通道上的差异。wij代表空间距离权重,计算方法为
pi代表超像素Ri的平均位置。αj代表超像素Rj的归一化的面积。
在上述任一方案中优选的是,所述26还为第k个对象检测子检测完毕后,图像中的超像素包含检测子对象的可能性为如果超像素多于一半的区域被包含在第i个矩形框里,则fk i=1,如果超像素没有被包含在第i个矩形框里或少于一半的区域被包含在第i个矩形框里,fk i=0。对每个超像素计算得到的可能性可以看做是一种先验特征。在通过X个对象检测子都检测完毕后,每个超像素得到X维特征。X维的特征归一化后表示为t,t∈RX,t的每一维代表超像素属于每一类特定对象的概率。计算得到的概率可以看做是语义显著性特征。
在上述任一方案中优选的是,所述步骤3还为将基于外观的显著性和基于标签语义的显著性输入训练模型进行计算。
本发明通过CRF模型对显著对象检测进行建模,考虑到了标签之间的上下文关系。
附图说明
图1为按照本发明的基于标签语义的显著对象提取方法的训练过程的一优选实施例的流程图。
图2为按照本发明的基于标签语义的显著对象提取方法的测试过程的一优选实施例的流程图。
图3为按照本发明的基于标签语义的显著对象提取方法的一优选实施例的总流程图。
图4为按照本发明的基于标签语义的显著对象提取方法的外观特征和基于外观的一优选实施例的显著性计算图表展示图。
图5为按照本发明的基于标签语义的显著对象提取方法的一优选实施例和23种流行方法进行比较的PR曲线图。
图6为按照本发明的基于标签语义的显著对象提取方法的一优选实施例和23种流行方法进行比较的ROC曲线图。
图7为按照本发明的基于标签语义的显著对象提取方法的一优选实施例和23种流行方法进行比较的视觉效果对比图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1所示,训练过程如下:
执行步骤100,输入训练集,对训练集中的每张图像进行下面的操作。
执行步骤110,对图像I进行超像素分割;
图像I被分割为M个超像素,每个超像素表示为Ri,1≤i≤M。
执行步骤120,提取图像的基于外观的视觉特征;
第i个超像素的外观视觉特征为vi,在第k维的特征通道上的特征可以表示为vi k
执行步骤130,进行基于图像外观特征的显著性计算;
第i个超像素在第k维的特征通道上的显著性的计算方法如下:
其中,D(vi k,vj k)代表超像素Ri和超像素Rj在第k维的特征通道上的差异。wij代表空间距离权重,计算方法为
pi代表超像素Ri的平均位置。αj代表超像素Rj的归一化的面积。
执行步骤140,找到标签中的对象标签,通过对象标签对应的对象检测子进行对象检测;
假设有X个对象检测子,对于第k个对象检测子,选取最可能包含特定对象的N个矩形框;第i个窗口包含特定对象的概率为pk i,1≤k≤X,1≤i≤N。至少一半区域在窗口内的超像素和包含它的窗口区域具有相同的概率值pk i
执行步骤150,进行基于标签语义特征的显著性计算;
第k个对象检测子检测完毕后,图像中的超像素包含检测子对象的可能性为如果超像素多于一半的区域被包含在第i个矩形框里,则fk i=1,如果超像素没有被包含在第i个矩形框里或少于一半的区域被包含在第i个矩形框里,fk i=0。对每个超像素计算得到的可能性可以看做是一种先验特征。X个对象检测子都检测完毕后,每个超像素得到X维特征。X维的特征归一化后表示为t,t∈RX,t的每一维代表超像素属于每一类特定对象的概率。计算得到的概率即为标签语义显著性特征。
执行步骤160,对训练集中的图片进行CRF建模,并对目标函数进行训练,得出训练模型。
S代表此图像I的显著图,si代表图像I中第i个超像素的显著值;ti∈RX代表图像I中第i个超像素的标签概率向量,X代表图像集的标签集合的标签总个数,tij∈[0,1],1≤j≤X代表第j个标签在第i个超像素出现的概率;xi代表图像I中第i个超像素的视觉特征。
采用条件随机场模型(CRF)对图像的显著对象提取进行建模。在模型中,显著值由图像外观特征、标签的语义内容以及相邻区域的相互作用决定。
Z是概率归一化因子,也称为划分函数。Ui是一元项,Bij是二元项。
一元项Ui描述了图像I中第i个超像素的显著值同时由视觉特征xi和标签语义特征ti决定,可以由下面泛化的线性预测模型来描述,
其中,δ(·)是sigmoid函数,δ(z)=1/(1+e-z)。模型参数wt和wf表示权重,反映了视觉特征xi和标签语义特征ti在计算显著性时起了多大的作用。
Bij是二元项,表明一个区域的显著性不仅由区域的内容决定,而且依赖于和其他区域之间的空间关系,这里区域的内容不仅包括区域的外观特征,还包括区域的语义内容。
二元项Bij的计算如下面公式所示。
其中,vt和vf分别代表标签语义和视觉外观特征的权重。函数u代表空间约束关系。例如,如果区域i在区域j的左上方,则u(xi,xj)=[xi;xj],u(ti,tj)=[ti;tj];如果区域i在区域j的右下方,则u(xi,xj)=[xj;xi],u(ti,tj)=[tj;ti]。
求P(s|x,t)的最大值得到为训练模型。
实施例二
如图2所示,测试过程如下:
执行步骤200,输入一幅图像I;
执行步骤210,对图像I进行超像素分割;
图像I被分割为M个超像素,每个超像素表示为Ri,1≤i≤M。
执行步骤220,提取图像的基于外观的特征;
第i个超像素的外观视觉特征为vi,在第k维的特征通道上的特征可以表示为vi k
执行步骤230,进行基于图像外观特征的显著性计算;
第i个超像素在第k维的特征通道上的显著性的计算方法如下:
其中,D(vi k,vj k)代表超像素Ri和超像素Rj在第k维的特征通道上的差异。wij代表空间距离权重,计算方法为
pi代表超像素Ri的平均位置。αj代表超像素Rj的归一化的面积。
执行步骤240,通过对象检测子进行对象检测;
假设有X个对象检测子,对于第k个对象检测子,选取最可能包含特定对象的N个矩形框;第i个窗口包含特定对象的概率为pk i,1≤k≤X,1≤i≤N。至少一半区域在窗口内的超像素和包含它的窗口区域具有相同的概率值pk i
执行步骤250,进行基于图像标签语义特征的显著性计算;
第k个对象检测子检测完毕后,图像中的超像素包含检测子对象的可能性为如果超像素多于一半的区域被包含在第i个矩形框里,则fk i=1,如果超像素没有被包含在第i个矩形框里或少于一半的区域被包含在第i个矩形框里,fk i=0。对每个超像素计算得到的可能性可以看做是一种先验特征。在通过X个对象检测子都检测完毕后,每个超像素得到X维特征。X维的特征归一化后表示为t,t∈RX,t的每一维代表超像素属于每一类特定对象的概率。计算得到的概率可以看做是语义显著性特征。
执行步骤260,将基于外观的显著性特征和基于标签语义的显著性特征输入模型,得到最终的显著图。
实施例三
如图3所示,可以很清晰的看到是如何得到最终的显著图的。
第一步,先进行训练过程,对图片集中的人和花草的图像300进行超像素分割,得到图像310。将图像310进行外观特征提取,得到图像311,再将图像311进行外观显著性特征计算,得到图像312。将图像310进行标签特征提取,得到图像313,再将图像313进行基于标签语义的显著性特征计算,得到图像314。将图像312和图像314一起进行模拟训练,得到权重向量320。
第二步,进行测试过程。对人物图像330进行超像素分割,得到图像340。将图像340进行外观特征提取,得到图像341,再将图像341进行外观显著性特征计算,得到图像342。将图像340进行标签特征提取,得到图像343,再将图像343进行标记性计算,得到图像344。将图像342和图像344结合权重向量320进行融合,得到最终的显著图350。
实施例四
如图4所示,构建了3000幅来源于Flickr社交网站的图像数据集,每张图片都带有标签信息,实验以此数据集为对象。通过SLIC超像素分割方法对图像进行分割,提取每个区域的外观特征,外观特征包括颜色和纹理特征。采用的颜色特征空间有RGB,HSV和L*a*b*;采用的纹理特征为LBP特征和LM滤波池的响应特征。然后计算基于外观图像特征的显著性计算,最后得到29维特征向量ff1
选择了20个对象标签,包括bear,birds,boats,buildings,cars,cat,computer,coral,cow,dog,elk,fish,flowers,fox,horses,person,plane,tiger,train,zebra;选取和对象标签相对应的20RCNN对象检测子进行标签语义特征的提取,在提取的时候选取前2000个包含对象概率最大的矩形框。通过标签语义显著性计算得到图像中每个超像素的标签语义显著性ff2
最后将29维的基于外观特征的显著性特征ff1和20维的基于标签语义显著性特征ff2带输入训练模型进行显著性的计算。
实施例五
如图5、6所示,以ROC曲线和PR曲线作为评价指标,本发明所提的基于标签语义的显著对象提取方法(简称TBS)在构建的数据库上进行实验,实验结果如下:可以看到,TBS的PR曲线和ROC曲线均高于其他所有方法。
实施例六
如图7所示,选择一些典型的图片进行TBS方法和23种流行方法的视觉效果对比,GT为人工对原图进行显著性提取方法得到最理想的图像。TB为本发明所提的基于标签语义的显著对象提取方法。其他23种流行方法包括TD、SVO、SS、SMD、SF、SEG、SBF、RC、PCA、MR、MC、LRR、HS、HM、GS、GC、FT、DSR、DFRI、CB、CA、BL、VD。这23种流行方法的检测结果存在下面四种问题:(1)有些方法检测得到的显著对象是不完整的,如LRR、GS;(2)有些方法的检测结果包含了非显著对象的部分,如SS、TD;(3)有些方法的检测结果边界是模糊不清的,如SS、SVO、SEG;(4)有些方法只能高亮地显示显著对象的边缘,并不是整个显著区域,如CA、PCA。然而,由于本发明的TBS方法由于考虑了标签及标签之间的上下文关系,所以TBS方法得到的显著对象相对完整、均匀高亮。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法、装置和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种基于标签语义的显著对象提取方法,包括以下步骤:
步骤1:进行训练;
所述训练包括以下子步骤:
步骤11:输入训练集;
步骤12:对图像I进行超像素分割;
步骤2:进行测试;
步骤3:得到最终的显著值。
2.如权利要求1所述的基于标签语义的显著对象提取方法,其特征在于:
所述步骤1还包括以下步骤:
步骤13:提取所述图像的基于外观的视觉特征;
步骤14:进行基于所述图像外观特征的显著性计算;
步骤15:找到标签中的对象标签;
步骤16:进行基于所述标签语义的显著性特征计算;
步骤17:对所述训练集中的所述图片进行CRF建模。
3.如权利要求1所述的基于标签语义的显著对象提取方法,其特征在于:所述步骤12还为图像I被分割为M个超像素,每个超像素表示为Ri,1≤i≤M。
4.如权利要求2所述的基于标签语义的显著对象提取方法,其特征在于:所述步骤13还为第i个超像素的外观视觉特征为vi,在第k维的特征通道上的特征可以表示为vi k
5.如权利要求2所述的基于标签语义的显著对象提取方法,其特征在于:所述步骤14还为第i个超像素在第k维的特征通道上的显著性的计算方法如下:
<mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>&amp;alpha;</mi> <mi>j</mi> </msub> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mi>D</mi> <mrow> <mo>(</mo> <msup> <msub> <mi>v</mi> <mi>i</mi> </msub> <mi>k</mi> </msup> <mo>,</mo> <msup> <msub> <mi>v</mi> <mi>j</mi> </msub> <mi>k</mi> </msup> <mo>)</mo> </mrow> </mrow>
其中,D(vi k,vj k)代表超像素Ri和超像素Rj在第k维的特征通道上的差异。wij代表空间距离权重,计算方法为
<mrow> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </msup> </mrow>
pi代表超像素Ri的平均位置。αj代表超像素Rj的归一化的面积。
6.如权利要求2所述的基于标签语义的显著对象提取方法,其特征在于:所述步骤15还为对对象标签对应的对象检测子进行对象检测。
7.如权利要求2所述的基于标签语义的显著对象提取方法,其特征在于:所述步骤16还为第k个对象检测子检测完毕后,图像中的超像素包含检测子对象的可能性为如果超像素多于一半的区域被包含在第i个矩形框里,则fk i=1,如果超像素没有被包含在第i个矩形框里或少于一半的区域被包含在第i个矩形框里,fk i=0。对每个超像素计算得到的可能性可以看做是一种先验特征。X个对象检测子都检测完毕后,每个超像素得到X维特征。X维的特征归一化后表示为t,t∈RX,t的每一维代表超像素属于每一类特定对象的概率。计算得到的概率即为标签语义显著性特征。
8.如权利要求2所述的基于标签语义的显著对象提取方法,其特征在于:所述步骤17还为对目标函数进行训练,得出训练模型。
9.如权利要求8所述的基于标签语义的显著对象提取方法,其特征在于:S代表此图像I的显著图,si代表图像I中第i个超像素的显著值;ti∈RX代表图像I中第i个超像素的标签概率向量,X代表图像集的标签集合的标签总个数,tij∈[0,1],1≤j≤X代表第j个标签在第i个超像素出现的概率;xi代表图像I中第i个超像素的视觉特征。
10.如权利要求7所述的基于标签语义的显著对象提取方法,其特征在于:采用条件随机场模型(CRF)对图像的显著对象提取进行建模。在模型中,显著值由图像外观特征、标签的语义内容以及相邻区域的相互作用决定。
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>|</mo> <mi>x</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>Z</mi> </mfrac> <mi>exp</mi> <mrow> <mo>(</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>&amp;Element;</mo> <mi>I</mi> </mrow> </munder> <msub> <mi>U</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>;</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>&amp;Element;</mo> <mi>I</mi> </mrow> </munder> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>&amp;Element;</mo> <msub> <mi>N</mi> <mi>i</mi> </msub> </mrow> </munder> <msub> <mi>B</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>;</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow>
Z是概率归一化因子,也称为划分函数。Ui是一元项,Bij是二元项。
一元项Ui描述了图像I中第i个超像素的显著值同时由视觉特征xi和标签语义特征ti决定,可以由下面泛化的线性预测模型来描述,
<mrow> <msub> <mi>U</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>;</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mi>t</mi> <mi>T</mi> </msubsup> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mi>f</mi> <mi>T</mi> </msubsup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>
其中,δ(·)是sigmoid函数,δ(z)=1/(1+e-z)。模型参数wt和wf表示权重,反映了视觉特征xi和标签语义特征ti在计算显著性时起了多大的作用。
Bij是二元项,表明一个区域的显著性不仅由区域的内容决定,而且依赖于和其他区域之间的空间关系,这里区域的内容不仅包括区域的外观特征,还包括区域的语义内容。
二元项Bij的计算如下面公式所示。
<mrow> <msub> <mi>B</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>&amp;CenterDot;</mo> <msubsup> <mi>v</mi> <mi>t</mi> <mi>T</mi> </msubsup> <mi>u</mi> <mo>(</mo> <mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mi>&amp;delta;</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>&amp;CenterDot;</mo> <msubsup> <mi>v</mi> <mi>f</mi> <mi>T</mi> </msubsup> <mi>u</mi> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
其中,vt和vf分别代表标签语义和视觉外观特征的权重。函数u代表空间约束关系。
CN201610912497.3A 2016-10-19 2016-10-19 一种基于标签语义的显著对象提取方法 Active CN107967480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610912497.3A CN107967480B (zh) 2016-10-19 2016-10-19 一种基于标签语义的显著对象提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610912497.3A CN107967480B (zh) 2016-10-19 2016-10-19 一种基于标签语义的显著对象提取方法

Publications (2)

Publication Number Publication Date
CN107967480A true CN107967480A (zh) 2018-04-27
CN107967480B CN107967480B (zh) 2020-06-30

Family

ID=61996902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610912497.3A Active CN107967480B (zh) 2016-10-19 2016-10-19 一种基于标签语义的显著对象提取方法

Country Status (1)

Country Link
CN (1) CN107967480B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765882A (zh) * 2019-09-25 2020-02-07 腾讯科技(深圳)有限公司 一种视频标签确定方法、装置、服务器及存储介质
CN111583279A (zh) * 2020-05-12 2020-08-25 重庆理工大学 一种基于pcba的超像素图像分割方法
CN111666954A (zh) * 2020-06-05 2020-09-15 北京联合大学 一种显著区域的联合学习提取方法及系统
CN111666952A (zh) * 2020-05-22 2020-09-15 北京联合大学 一种基于标签上下文的显著区域提取方法及系统
CN112651274A (zh) * 2019-10-10 2021-04-13 丰田自动车株式会社 路上障碍物检测装置、路上障碍物检测方法及记录介质
CN115952312A (zh) * 2022-12-02 2023-04-11 北京工业大学 一种图像标签的自动标注与排序方法
WO2023169318A1 (zh) * 2022-03-11 2023-09-14 百果园技术(新加坡)有限公司 图像质量确定方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877007A (zh) * 2010-05-18 2010-11-03 南京师范大学 融合空间方位关系语义的遥感图像检索方法
CN102222237A (zh) * 2011-07-14 2011-10-19 北京工业大学 手语视频的相似度评估模型的建立方法
CN105389584A (zh) * 2015-10-13 2016-03-09 西北工业大学 基于卷积神经网络与语义转移联合模型的街景语义标注方法
CN105913456A (zh) * 2016-04-12 2016-08-31 西安电子科技大学 基于区域分割的视频显著性检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877007A (zh) * 2010-05-18 2010-11-03 南京师范大学 融合空间方位关系语义的遥感图像检索方法
CN102222237A (zh) * 2011-07-14 2011-10-19 北京工业大学 手语视频的相似度评估模型的建立方法
CN105389584A (zh) * 2015-10-13 2016-03-09 西北工业大学 基于卷积神经网络与语义转移联合模型的街景语义标注方法
CN105913456A (zh) * 2016-04-12 2016-08-31 西安电子科技大学 基于区域分割的视频显著性检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUOKANG ZHU 等: "Tag-Saliency: Combining bottom-up and top-down information for saliency detection", 《COMPUTER VISION AND IMAGE UNDERSTANDING》 *
WEN WANG 等: "Contextualizing Tag Ranking and Saliency Detection for Social Images", 《SPRINGER-VERLAG BERLIN HEIDELBERG 2013》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765882A (zh) * 2019-09-25 2020-02-07 腾讯科技(深圳)有限公司 一种视频标签确定方法、装置、服务器及存储介质
CN110765882B (zh) * 2019-09-25 2023-04-07 腾讯科技(深圳)有限公司 一种视频标签确定方法、装置、服务器及存储介质
CN112651274A (zh) * 2019-10-10 2021-04-13 丰田自动车株式会社 路上障碍物检测装置、路上障碍物检测方法及记录介质
CN112651274B (zh) * 2019-10-10 2024-03-12 丰田自动车株式会社 路上障碍物检测装置、路上障碍物检测方法及记录介质
CN111583279A (zh) * 2020-05-12 2020-08-25 重庆理工大学 一种基于pcba的超像素图像分割方法
CN111666952A (zh) * 2020-05-22 2020-09-15 北京联合大学 一种基于标签上下文的显著区域提取方法及系统
CN111666952B (zh) * 2020-05-22 2023-10-24 北京腾信软创科技股份有限公司 一种基于标签上下文的显著区域提取方法及系统
CN111666954A (zh) * 2020-06-05 2020-09-15 北京联合大学 一种显著区域的联合学习提取方法及系统
WO2023169318A1 (zh) * 2022-03-11 2023-09-14 百果园技术(新加坡)有限公司 图像质量确定方法、装置、设备和存储介质
CN115952312A (zh) * 2022-12-02 2023-04-11 北京工业大学 一种图像标签的自动标注与排序方法

Also Published As

Publication number Publication date
CN107967480B (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN107967480A (zh) 一种基于标签语义的显著对象提取方法
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN110428428B (zh) 一种图像语义分割方法、电子设备和可读存储介质
Hou et al. Change detection based on deep features and low rank
Tong et al. Salient object detection via global and local cues
CN109711481A (zh) 用于画作多标签识别的神经网络、相关方法、介质和设备
Davis et al. Text and style conditioned GAN for generation of offline handwriting lines
Ni et al. Learning to photograph: A compositional perspective
CN106920243A (zh) 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
US8933962B2 (en) Clipart cartoon techniques
CN106547880A (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN108345850A (zh) 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法
CN108734210A (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN113673338B (zh) 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
CN104751153B (zh) 一种识别场景文字的方法及装置
CN112464781A (zh) 基于图神经网络的文档图像关键信息提取及匹配方法
CN110378911B (zh) 基于候选区域和邻域分类器的弱监督图像语义分割方法
US10572769B2 (en) Automatic image piling
CN110096961A (zh) 一种超像素级别的室内场景语义标注方法
Zhang et al. Research on mine vehicle tracking and detection technology based on YOLOv5
CN107767416A (zh) 一种低分辨率图像中行人朝向的识别方法
Zhang et al. Deep salient object detection by integrating multi-level cues
CN107506792A (zh) 一种半监督的显著对象检测方法
Schnürer et al. Detection of pictorial map objects with convolutional neural networks
CN109993151A (zh) 一种基于多模块全卷积网络的三维视频视觉注意力检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant