CN107967480B

CN107967480B - 一种基于标签语义的显著对象提取方法

Info

Publication number: CN107967480B
Application number: CN201610912497.3A
Authority: CN
Inventors: 梁晔
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2016-10-19
Filing date: 2016-10-19
Publication date: 2020-06-30
Anticipated expiration: 2036-10-19
Also published as: CN107967480A

Abstract

本发明提供一种基于标签语义的显著对象提取方法，包括以下步骤：进行训练，进行测试，得到最终的显著图，所述训练包括以下子步骤，输入训练集，对图像I进行超像素分割。本发明首先挑出标签中的对象标签，通过对象标签对应的对象检测子进行检测，得到基于标签语义的显著性特征，并将标签语义信息和基于外观的显著性特征融合起来进行显著对象的检测。由于标签语义信息是高级语义信息，更能改善传统的显著对象检测方法。

Description

一种基于标签语义的显著对象提取方法

技术领域

本发明涉及数字图像处理的技术领域，特别是一种基于标签语义的显著对象提取方法。

背景技术

标签的语义虽然在图像标注领域已经得到了广泛应用，但是，标签信息通常和显著对象提取任务是分开处理的，应用在显著对象提取上的工作并不多。

文献[Wen Wang,Congyan Lang,Songhe Feng.Contextualizing Tag Rankingand Saliency Detection for Social Images.Advances in Multimedia ModelingLecture Notes in Computer Science Volume 7733,2013,pp 428-435.]和文献[Zhu,G.,Wang,Q.,Yuan,Y.Tag-saliency:Combining bottom-up and top-down information forsaliency detection.Computer Vision and Image Understanding,2014,118(1):40-49.]，这两篇论文里面均用到了标签语义信息。

文献[Wen Wang,Congyan Lang,Songhe Feng.Contextualizing Tag Rankingand Saliency Detection for Social Images.Advances in Multimedia ModelingLecture Notes in Computer Science Volume 7733,2013,pp 428-435.]将标签排序任务和显著性检测任务整合在一起，迭代地进行标签排序和显著性检测任务。

文献[Zhu,G.,Wang,Q.,Yuan,Y.Tag-saliency:Combining bottom-up and top-down information for saliency detection.Computer Vision and ImageUnderstanding,2014,118(1):40-49.]提出Tag-Saliency模型，通过基于层次的过分割和自动标注技术进行多媒体数据的标注。

这两篇文献的共同缺点是显著性标注的效果依赖于区域标注，依靠多示例学习的方法不容易泛化；而且，这两篇文献均没有考虑到标签之间的上下文关系。我们的工作所要解决的主要问题是采用新的标签特征表示方法，并考虑标签之间的上下文关系，并与图像的低级特征进行融合，提高显著对象的提取效果。

发明内容

为了解决上述的技术问题，本发明提出高级语义标签和底层外观特征融合的显著对象提取方法。首先对图像进行超像素分割；提取每个超像素的外观特征，进行基于外观特征的显著性计算；找出标签中的对象标签，通过对象标签对应的对象检测子进行检测，进行标签语义的显著性计算；最后通过CRF模型并将标签语义信息和基于外观的显著性特征融合起来，得到最终的显著图。由于标签语义信息是高级语义信息，所以本发明更能改善传统的显著对象检测方法。

本发明提供一种基于标签语义的显著对象提取方法，包括以下步骤：

步骤1：进行训练；

所述训练包括以下子步骤：

步骤11：输入训练集；

步骤12：对图像I进行超像素分割；

步骤2：进行测试；

步骤3：得到最终的显著性。

优选的是，所述步骤1还包括以下步骤：

步骤13：提取所述图像的基于外观的视觉特征；

步骤14：进行基于所述图像外观特征的显著性计算；

步骤15：找到标签中的对象标签；

步骤16：进行基于所述标签语义的显著性特征计算；

步骤17：对所述训练集中的所述图片进行CRF建模。

在上述任一方案中优选的是，所述步骤12还为图像I被分割为M个超像素,每个超像素表示为R_i，1≤i≤M。

在上述任一方案中优选的是，所述步骤13还为第i个超像素的外观视觉特征为v_i，在第k维的特征通道上的特征可以表示为v_i ^k。

在上述任一方案中优选的是，所述步骤14还为第i个超像素在第k维的特征通道上的显著性的计算方法如下：

其中，D(v_i ^k,v_j ^k)代表超像素R_i和超像素R_j在第k维的特征通道上的差异。w_ij代表空间距离权重，计算方法为

pⁱ代表超像素R_i的平均位置。α_j代表超像素R_j的归一化的面积。

在上述任一方案中优选的是，所述步骤15还为对对象标签对应的对象检测子进行对象检测。

在上述任一方案中优选的是，所述步骤16还为第k个对象检测子检测完毕后，图像中的超像素包含检测子对象的可能性为

如果超像素多于一半的区域被包含在第i个矩形框里，则f_k ⁱ＝1，如果超像素没有被包含在第i个矩形框里或少于一半的区域被包含在第i个矩形框里，f_k ⁱ＝0。对每个超像素计算得到的可能性可以看做是一种先验特征。X个对象检测子都检测完毕后，每个超像素得到X维特征。X维的特征归一化后表示为t,t∈R^X，t的每一维代表超像素属于每一类特定对象的概率。计算得到的概率即为标签语义显著性特征。

在上述任一方案中优选的是，所述步骤17还为对目标函数进行训练，得出训练模型。

在上述任一方案中优选的是，S代表此图像I的显著图，s_i代表图像I中第i个超像素的显著值；t_i∈R^X代表图像I中第i个超像素的标签概率向量，X代表图像集的标签集合的标签总个数，t_ij∈[0,1]，1≤j≤X代表第j个标签在第i个超像素出现的概率；x_i代表图像I中第i个超像素的视觉特征。

在上述任一方案中优选的是，采用条件随机场模型(CRF)对图像的显著对象提取进行建模。在模型中，显著值由图像外观特征、标签的语义内容以及相邻区域的相互作用决定。

Z是概率归一化因子，也称为划分函数。U_i是一元项，B_ij是二元项。

一元项U_i描述了图像I中第i个超像素的显著值同时由视觉特征x_i和标签语义特征t_i决定，可以由下面泛化的线性预测模型来描述，

其中，δ(·)是sigmoid函数，δ(z)＝1/(1+e^-z)。模型参数w_t和w_f表示权重，反映了视觉特征x_i和标签语义特征t_i在计算显著性时起了多大的作用。

B_ij是二元项，表明一个区域的显著性不仅由区域的内容决定，而且依赖于和其他区域之间的空间关系，这里区域的内容不仅包括区域的外观特征，还包括区域的语义内容。

二元项B_ij的计算如下面公式所示。

其中,v_t和v_f分别代表标签语义和视觉外观特征的权重。函数u代表空间约束关系。

在上述任一方案中优选的是，所述测试包括如下步骤：

步骤21：输入一幅图像I；

步骤22。对图像I进行超像素分割；

步骤23：提取图像的基于外观的特征；

步骤24：进行基于图像外观特征的显著性计算；

步骤25：找到标签中的对象标签，通过对象检测子进行对象检测；

步骤26：进行基于图像标签语义特征的显著性计算。

在上述任一方案中优选的是，所述步骤22为图像I被分割为M个超像素,每个超像素表示为R_i，1≤i≤M。

在上述任一方案中优选的是，所述步骤23为第i个超像素的外观视觉特征为v_i，在第k维的特征通道上的特征可以表示为v_i ^k。

在上述任一方案中优选的是，所述步骤24还为第i个超像素在第k维的特征通道上的显著性的计算方法如下：

在上述任一方案中优选的是，所述26还为第k个对象检测子检测完毕后，图像中的超像素包含检测子对象的可能性为

如果超像素多于一半的区域被包含在第i个矩形框里，则f_k ⁱ＝1，如果超像素没有被包含在第i个矩形框里或少于一半的区域被包含在第i个矩形框里，f_k ⁱ＝0。对每个超像素计算得到的可能性可以看做是一种先验特征。在通过X个对象检测子都检测完毕后，每个超像素得到X维特征。X维的特征归一化后表示为t,t∈R^X，t的每一维代表超像素属于每一类特定对象的概率。计算得到的概率可以看做是语义显著性特征。

在上述任一方案中优选的是，所述步骤3还为将基于外观的显著性和基于标签语义的显著性输入训练模型进行计算。

本发明通过CRF模型对显著对象检测进行建模，考虑到了标签之间的上下文关系。

附图说明

图1为按照本发明的基于标签语义的显著对象提取方法的训练过程的一优选实施例的流程图。

图2为按照本发明的基于标签语义的显著对象提取方法的测试过程的一优选实施例的流程图。

图3为按照本发明的基于标签语义的显著对象提取方法的一优选实施例的总流程图。

图4为按照本发明的基于标签语义的显著对象提取方法的外观特征和基于外观的一优选实施例的显著性计算图表展示图。

图5为按照本发明的基于标签语义的显著对象提取方法的一优选实施例和23种流行方法进行比较的PR曲线图。

图6为按照本发明的基于标签语义的显著对象提取方法的一优选实施例和23种流行方法进行比较的ROC曲线图。

图7为按照本发明的基于标签语义的显著对象提取方法的一优选实施例和23种流行方法进行比较的视觉效果对比图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图1所示，训练过程如下：

执行步骤100，输入训练集，对训练集中的每张图像进行下面的操作。

执行步骤110，对图像I进行超像素分割；

图像I被分割为M个超像素,每个超像素表示为R_i，1≤i≤M。

执行步骤120，提取图像的基于外观的视觉特征；

第i个超像素的外观视觉特征为v_i，在第k维的特征通道上的特征可以表示为v_i ^k。

执行步骤130，进行基于图像外观特征的显著性计算；

第i个超像素在第k维的特征通道上的显著性的计算方法如下：

执行步骤140，找到标签中的对象标签，通过对象标签对应的对象检测子进行对象检测；

假设有X个对象检测子，对于第k个对象检测子，选取最可能包含特定对象的N个矩形框；第i个窗口包含特定对象的概率为p_k ⁱ，1≤k≤X,1≤i≤N。至少一半区域在窗口内的超像素和包含它的窗口区域具有相同的概率值p_k ⁱ。

执行步骤150，进行基于标签语义特征的显著性计算；

第k个对象检测子检测完毕后，图像中的超像素包含检测子对象的可能性为

执行步骤160，对训练集中的图片进行CRF建模，并对目标函数进行训练，得出训练模型。

S代表此图像I的显著图，s_i代表图像I中第i个超像素的显著值；t_i∈R^X代表图像I中第i个超像素的标签概率向量，X代表图像集的标签集合的标签总个数，t_ij∈[0,1]，1≤j≤X代表第j个标签在第i个超像素出现的概率；x_i代表图像I中第i个超像素的视觉特征。

采用条件随机场模型(CRF)对图像的显著对象提取进行建模。在模型中，显著值由图像外观特征、标签的语义内容以及相邻区域的相互作用决定。

二元项B_ij的计算如下面公式所示。

其中,v_t和v_f分别代表标签语义和视觉外观特征的权重。函数u代表空间约束关系。例如，如果区域i在区域j的左上方,则u(x_i,x_j)＝[x_i；x_j]，u(t_i,t_j)＝[t_i；t_j]；如果区域i在区域j的右下方,则u(x_i,x_j)＝[x_j；x_i]，u(t_i,t_j)＝[t_j；t_i]。

求P(s|x,t)的最大值得到为训练模型。

实施例二

如图2所示，测试过程如下：

执行步骤200，输入一幅图像I；

执行步骤210，对图像I进行超像素分割；

图像I被分割为M个超像素,每个超像素表示为R_i，1≤i≤M。

执行步骤220，提取图像的基于外观的特征；

执行步骤230，进行基于图像外观特征的显著性计算；

执行步骤240，通过对象检测子进行对象检测；

执行步骤250，进行基于图像标签语义特征的显著性计算；

执行步骤260，将基于外观的显著性特征和基于标签语义的显著性特征输入模型，得到最终的显著图。

实施例三

如图3所示，可以很清晰的看到是如何得到最终的显著图的。

第一步，先进行训练过程，对图片集中的人和花草的图像300进行超像素分割，得到图像310。将图像310进行外观特征提取，得到图像311，再将图像311进行外观显著性特征计算，得到图像312。将图像310进行标签特征提取，得到图像313，再将图像313进行基于标签语义的显著性特征计算，得到图像314。将图像312和图像314一起进行模拟训练，得到权重向量320。

第二步，进行测试过程。对人物图像330进行超像素分割，得到图像340。将图像340进行外观特征提取，得到图像341，再将图像341进行外观显著性特征计算，得到图像342。将图像340进行标签特征提取，得到图像343，再将图像343进行标记性计算，得到图像344。将图像342和图像344结合权重向量320进行融合，得到最终的显著图350。

实施例四

如图4所示，构建了3000幅来源于Flickr社交网站的图像数据集，每张图片都带有标签信息，实验以此数据集为对象。通过SLIC超像素分割方法对图像进行分割，提取每个区域的外观特征，外观特征包括颜色和纹理特征。采用的颜色特征空间有RGB,HSV和L*a*b*；采用的纹理特征为LBP特征和LM滤波池的响应特征。然后计算基于外观图像特征的显著性计算，最后得到29维特征向量ff₁。

选择了20个对象标签，包括bear,birds,boats,buildings,cars,cat,computer,coral,cow,dog,elk,fish,flowers,fox,horses,person,plane,tiger,train,zebra；选取和对象标签相对应的20RCNN对象检测子进行标签语义特征的提取，在提取的时候选取前2000个包含对象概率最大的矩形框。通过标签语义显著性计算得到图像中每个超像素的标签语义显著性ff₂。

最后将29维的基于外观特征的显著性特征ff₁和20维的基于标签语义显著性特征ff₂带输入训练模型进行显著性的计算。

实施例五

如图5、6所示，以ROC曲线和PR曲线作为评价指标，本发明所提的基于标签语义的显著对象提取方法(简称TBS)在构建的数据库上进行实验，实验结果如下：可以看到，TBS的PR曲线和ROC曲线均高于其他所有方法。

实施例六

如图7所示，选择一些典型的图片进行TBS方法和23种流行方法的视觉效果对比，GT为人工对原图进行显著性提取方法得到最理想的图像。TB为本发明所提的基于标签语义的显著对象提取方法。其他23种流行方法包括TD、SVO、SS、SMD、SF、SEG、SBF、RC、PCA、MR、MC、LRR、HS、HM、GS、GC、FT、DSR、DFRI、CB、CA、BL、VD。这23种流行方法的检测结果存在下面四种问题：(1)有些方法检测得到的显著对象是不完整的，如LRR、GS；(2)有些方法的检测结果包含了非显著对象的部分，如SS、TD；(3)有些方法的检测结果边界是模糊不清的，如SS、SVO、SEG；(4)有些方法只能高亮地显示显著对象的边缘，并不是整个显著区域，如CA、PCA。然而，由于本发明的TBS方法由于考虑了标签及标签之间的上下文关系，所以TBS方法得到的显著对象相对完整、均匀高亮。

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法、装置和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于标签语义的显著对象提取方法，包括以下步骤：

步骤1：进行训练；

所述训练包括以下子步骤：

步骤11：输入训练集；

步骤12：对训练集中的每一幅图像I进行超像素分割；

步骤13：提取所述图像I的超像素的基于外观的视觉特征；

步骤14：进行所述基于外观的视觉特征的显著性计算，得到视觉显著性特征；

步骤15：找到所述图像I对应标签中的对象标签；

步骤16：进行基于所述对象标签语义的显著性特征计算，得到标签语义显著性特征；第k个对象检测子检测时，图像中的超像素包含检测子对象的可能性为

如果超像素多于一半的区域被包含在第i个矩形框里，则f_k ⁱ＝1，如果超像素没有被包含在第i个矩形框里或少于一半的区域被包含在第i个矩形框里，f_k ⁱ＝0，对每个超像素计算得到的可能性是一种先验特征，X个对象检测子都检测完毕后，每个超像素得到X维特征，X维的特征归一化后表示为t,t∈R^X，t的每一维代表超像素属于每一类特定对象的概率，计算得到的概率即为标签语义显著性特征，其中，N为矩形框的个数，p_k ⁱ为第i个窗口包含特定对象的概率；

步骤17：对步骤14和步骤16当中得到的显著性特征进行条件随机场模型建模；

步骤2：使用所述模型参数对测试图像进行测试；

步骤3：得到所述测试图像的最终的显著值。

2.如权利要求1所述的基于标签语义的显著对象提取方法，其特征在于：在所述步骤12中图像I被分割为M个超像素,每个超像素表示为R_i，1≤i≤M。

3.如权利要求2所述的基于标签语义的显著对象提取方法，其特征在于：在所述步骤14中第i个超像素在第k维的特征通道上的显著性的计算方法如下：

其中，D(v_i ^k,v_j ^k)代表超像素R_i和超像素R_j在第k维的特征通道上的差异，w_ij代表空间距离权重，计算方法为

p_i代表超像素R_i的平均位置，α_j代表超像素R_j的归一化的面积；v_i为第i个超像素的视觉特征，v_i ^k为在第i个超像素在第k维的特征通道上的视觉特征。

4.如权利要求1所述的基于标签语义的显著对象提取方法，其特征在于：所述步骤16还包括对对象标签对应的对象检测子进行对象检测。

5.如权利要求1所述的基于标签语义的显著对象提取方法，其特征在于：所述步骤17还包括对目标函数进行训练，得出训练模型。

6.如权利要求5所述的基于标签语义的显著对象提取方法，其特征在于：采用条件随机场模型对图像的显著对象提取进行建模，在模型中，显著值由视觉特征、标签的语义内容以及相邻区域的相互作用决定，

Z是概率归一化因子，也称为划分函数，U_i是一元项，B_ij是二元项，

一元项U_i描述了图像I中第i个超像素的显著值同时由视觉显著性特征x_i和标签语义显著性特征t_i决定，由下面泛化的线性预测模型来描述，

其中，δ(·)是sigmoid函数，δ(z)＝1/(1+e^-z)，模型参数w_t和w_f表示权重，反映了视觉显著性特征x_i和标签语义显著性特征t_i在计算显著性时起了多大的作用，

B_ij是二元项，表明一个区域的显著性不仅由区域的内容决定，而且依赖于和其他区域之间的空间关系，这里区域的内容不仅包括区域的视觉特征，还包括区域的语义内容，

二元项B_ij的计算如下面公式所示，

其中,v_t和v_f分别代表标签语义和视觉特征的权重,函数u代表空间约束关系；

S代表图像I的显著图，s_i代表图像I中第i个超像素的显著值；t_i代表图像I中第i个超像素的基于标签语义的显著性特征，t_i∈R^X，x_i代表从图像I中第i个超像素的视觉特征计算得到基于外观的视觉显著性特征。

7.如权利要求1所述的基于标签语义的显著对象提取方法，其特征在于：所述测试包括如下步骤：

步骤21：输入一幅测试图像；

步骤22：对所述测试图像进行超像素分割；

步骤23：提取所述测试图像的超像素的基于外观的视觉特征；

步骤24：进行所述基于外观的视觉特征的显著性计算，得到视觉显著性特征；

步骤25：找到所述测试图像对应标签中的对象标签，通过对象检测子进行对象检测；

步骤26：进行基于图像标签语义特征的显著性计算，得到标签语义显著性特征。

8.如权利要求7所述的基于标签语义的显著对象提取方法，其特征在于：在所述步骤22中所述测试图像被分割为M个超像素,每个超像素表示为R_i，1≤i≤M。

9.如权利要求8所述的基于标签语义的显著对象提取方法，其特征在于：所述步骤24还包括第i个超像素在第k维的特征通道上的显著性的计算方法如下：

p_i代表超像素R_i的平均位置，α_j代表超像素R_j的归一化的面积，v_i为第i个超像素的视觉特征，v_i ^k为在第i个超像素在第k维的特征通道上的视觉特征。

10.如权利要求9所述的基于标签语义的显著对象提取方法，其特征在于：所述步骤26还包括第k个对象检测子检测完毕后，图像中的超像素包含检测子对象的可能性为

如果超像素多于一半的区域被包含在第i个矩形框里，则f_k ⁱ＝1，如果超像素没有被包含在第i个矩形框里或少于一半的区域被包含在第i个矩形框里，f_k ⁱ＝0，对每个超像素计算得到的可能性是一种先验特征，在对X个对象检测子都检测完毕后，每个超像素得到X维特征，X维的特征归一化后表示为t,t∈R^X，t的每一维代表超像素属于每一类特定对象的概率，计算得到的概率是标签语义显著性特征。

11.如权利要求1所述的基于标签语义的显著对象提取方法，其特征在于：所述步骤3还包括将基于外观的显著性特征和基于标签语义的显著性特征输入训练模型进行计算。