CN105354826A

CN105354826A - 一种图像对象共定位及无关样本判定方法

Info

Publication number: CN105354826A
Application number: CN201510643147.7A
Authority: CN
Inventors: 陈小武; 李甲; 王晨; 赵沁平; 张宇
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2015-10-04
Filing date: 2015-10-04
Publication date: 2016-02-24
Anticipated expiration: 2035-10-04
Also published as: CN105354826B

Abstract

本发明涉及一种图像对象共定位及无关样本判定方法，包括以下步骤：输入可能包含同一类物体的图片集，对给定的图片集进行对象性分析，生成对象区域集合；对于区域集合高层语义特征；生成区域特征后，对特征矩阵进行分析，构建全连接的图结构关系；构建比率能量函数对连通图进行统筹规划，构建优化方程，并将每张图片的区域得分限制在0到1之间；利用牛顿迭代法计算优化方程的全局最优解，得到每一张图片的每一个区域的最终得分；根据划分阈值，将区域集合总得分小于阈值的图片作为无关样本排除；选取每张图片的得分最高的区域作为最终的共定位结果。本发明在多类别图像对象协同检测方面有良好的表现，可应用于图像数据库管理，图像对象识别等领域。

Description

一种图像对象共定位及无关样本判定方法

技术领域

本发明属于图像处理、计算机视觉技术领域，是一种图像对象共定位及无关样本判定方法。

背景技术

给定可能包含相同类别物体的输入图片集，图像对象共定位(Co-localization)主要研究在缺乏标注的情景下如何能够从中定位出相似物体的具体位置，以便更好的，更快速地自动识别单一类别的物体。对此首先需要进行无标注图像的对象性(Objectness)分析研究，在2010年，Alexe等人提出了图像对象性的概念，利用显著前景分析等方法在没有任何标注的图像上提取可能包含对象的区域，该方法综合考虑了颜色对比度(ColorContrast)，边缘密度(EdgeDensity)以及超像素跨度(SuperpixelsStraddling)，可以对无标注的图像生成多个检测区域并给出对象性检测得分(Objectnessscore)。

另外需要考虑的是图像显著性检测，2013年Jiang等人提出了一种区域特征整合的显著性检测方法，该方法将显著性检测问题看做一个回归模型，利用多层图像分割结果十分有效地获取图像显著图。

而在特征优化理论方面，最大流最小割定理是图像处理及计算机视觉领域的常用分析算法。最大流最小割定理指：假设N＝(v,e)是一个有向图，其中结点s和t分别是N的起点和终点。在一个网络流中，能够从起点到达终点的最大流量，等于如果从网络中移除就能够导致网络流中断的边的集合的最小容量和。网络流定义f定义为|f|＝sum{f(s,v)}，代表从源点流入汇点的流量。最大流问题即是求得|f|的最大值。在比率函数的应用与优化方面，2014年Bai等人提出了一种结合用户输入与使用比率能量函数优化graphcut图像分割结果的方法。该方法中对于比率函数：

R(x)＝P(x)/Q(x)

令则可将比率能量函数改写为如下线性形式：

E_λ(x)＝E_gc(x)-λU(x)

改写之后的线性形式，可以使用牛顿迭代法对比率能量函数进行迭代优化，而且有较高的迭代效率，且可以获得稳定的等价最优解。

在相关技术方面，2010年，Alexe等人提出了图像对象性的概念，利用显著前景分析等方法在没有任何标注的图像上提取可能包含对象的区域，该方法综合考虑了颜色对比度(ColorContrast)。2010年ShaiBagon等人提出了一种物体协同检测与素描生成方法。输入少量包含同一物体的图片，可以检测出其中包含的物体并且给出一个二值的草图。该算法由两部分组成：(1)通过所有输入图片检测出一个相互一致的总体性的“自相似描述子”(self-similar)。(2)找到这样一个全体性描述子之后，经过转化精炼得到一个最能表现该对象的草图。这些草图适用于检测，检索，协同分割，以及绘图等。在图结构应用方面，2012年ThomasDeselaers等在IJCV上的论文中提出了一种基于属性知识的弱监督学习和定位方法。该方法首先提供一些经过弱标注(WeaklySupervisedLocalization)的图片，物体定位信息并没有给出，弱监督学习需要学习一个物体类别模型，可以被用来决定一张测试图片是否包含一个类别甚至将其定位出来。方法中的定位模型是一个稠密的CRF模型。其中每个训练图片都是一个节点，节点空间大小足以包含图片内的窗口集。其中的单点势能(Unarypotential)测量的是一个窗口包含一个种类物体的可能性，而对于成对点势能(Pairwisepotential)则是表示两个窗口是否包含同一未知类别的物体。

2014年澳大利亚国立大学的ZeeshanHayder等人发明了一种通过建立一个稠密的条件随机场并进行协同检测的方法，该方法旨在利用整个图像集的协同信息解决co-detection的问题，其中关键的步骤在于建立了一个以代表物体之间相似性为边缘值的CRF模型。该方法学习一个相似函数使得可以更有效率地进行能效推断，这与之前许多方法利用贪婪性算法进行搜索计算不同。首先该方法给出了一些物体代表区域，利用事先训练的检测器在保证高度查全率的基础上进行物体检测，然后将检测结果输入全连接的CRF模型，最终计算优化结果。2014年，KevinTang等人提出了一种对真实图像进行共定位的方法，该方法运用了一种图片与包围盒相结合的模型来进行联合求解。首先对输入图片进行对象窗口显著性分析(Objectnessmeasure)，然后生成对象包围盒，将原始输入图片和包围盒(Boundingboxes)信息分别输入各自模型进行处理。最后将两者进行联合求解得到最佳的包围盒信息。包含物体的包围盒标注为1，不包含物体的包围盒标注0。组合两个模型时，需要依靠图像模型来防止包围盒模型受到无关样本的干扰，且模型中需要引入对每个包围盒的先验信息来判断无关样本。

发明内容

根据上述实际需求和关键问题，本发明的目的在于：提出了一种图像对象共定位及无关样本判定方法，在标准测试数据集上有良好的表现。

为完成本发明的目的，本发明采用的技术方案是：图像对象共定位及无关样本判定方法，主要包括如下步骤：

(1)给定由n张图片组成的可能包含同一类物体的图片集：对每张图像使用对象性分析(objectnessmeasure)，对象性分析主要用于对无标注图像提取假设区域，在每输入图像上得到K个对象假设区域，总共n*K个假设区域，每个区域的对象性检测得分为对每个对象假设区域赋予一个二值变量x_i,j(i＝1,2,…,n；j＝1,2,…,K),x_i,j＝1表示第i张图像中的第j个对象区域被选中，x_i,j＝0则表示该区域被认为是无关样本排除。

(2)对给定的图片集中的所有图像的每个像素点均生成128维的densesift特征，后利用Kmeans算法生成1000维的特征字典。根据特征字典对于每个区域均可得到1000维的Bag-of-words特征直方图，每个区域的特征表示为f_i,j(i＝1,2,…,n；j＝1,2,…,K)，f_i,j表示第i张图像中的第j个对象区域的特征，将所有特征组合表示为矩阵形式，可以得到特征矩阵D。

(3)对给定的图片集中的所有图像生成显著图，显著图以灰度图像表示。通过计算第i张图像中的第j个对象区域的的平均灰度得到每个区域显著性检测得分项a_i,j(i＝1,2,…,n；j＝1,2,…,K)。

(4)通过以下几步构建全连接的图结构关系，以比率函数形式：

1、计算区域总得分项作为顶点惩罚值(unarycost)，得到区域对象性得分以及显著性得分后，第i张图像中的第j个对象区域的总得分项u_i,j的计算方式如下：

u_i,j＝-log(φ_i,j+μ·a_i,j)

其中a_i,j为显著性得分，φ_i,j为对象性检测得分，μ为大于0小于1的调节系数，u_i,j为最终的总得分。

2、计算区域特征距离的函数作为边惩罚值(pairwisecost)，对于所有区域的特征距离矩阵S的计算公式如下：

S_k1,k2＝exp(-γχ²(f_k1,f_k2))

其中，f_k1、f_k2分别为第k₁、k₂个假设区域的特征向量。γ为特征系数，取值为(10d)^-1/2，其中d为特征维度，取值为1000。特征距离的计算使用到了卡方距离，卡方距离公式如下：

3、在计算得到特征距离矩阵S后，为了便于进行优化计算，引入拉普拉斯矩阵转换，将特征矩阵S改写为正定矩阵L。拉普拉斯矩阵的计算公式为L＝I-D^-1/2SD^1/2，其中I单位矩阵，D为度矩阵，S为特征矩阵。由于拉普拉斯矩阵是正定的，该优化问题化解成为一个求解凸函数的过程，可以进行有效求解。根据拉普拉斯矩阵和总得分项得到的二次优化问题：

subjecttox∈{0,1},v∈{0,1}

优化式的最终解x为{0,1}二值向量。对于单张图片中所有的区域的解之和，加以一个约束向量v，使得每张图像中的区域解目的在于进行无关样本判定。如此，将二次优化式改写为比率函数形式：

subjecttox∈{0,1},v∈{0,1}

比率函数形式的含义在于最小化能量惩罚项的同时使得每张图像上所有的假设区域的解尽可能偏大，防止0解。

(5)在将表达式改写成为比率函数形式之后，为了便于计算，将自变量松弛为0到1之间的连续值，同时将约束向量也作为自变量加入优化式中，比率函数变为：

subjecttoy∈{0,1}^|y|,

Dy＝0.

其中新自变量y＝[x；v]，L^ext表示为0元素扩展后的拉普拉斯矩阵，u^ext为0元素扩展后的区域得分向量，M为常量，c是系数矩阵使得在改写优化方程后，利用牛顿迭代法计算优化方程的全局最优解。

(6)为了优化比率函数，我们假设E^λ(y)＝P(y)-λQ(y)，其中λ是迭代优化变量，我们提出一种基于牛顿迭代的优化算法，具体的算法步骤为：首先选择初始的y值(可以为0值)，然后计算初始迭代变量λ₀＝R(y₀)。设置迭代优化式y_k+1＝argminy(E^λ(y)),λ_k+1＝R(y_k+1)，直到λ_k＝λ_k-1，输出最优解y*。算法伪代码如下所示：

(7)在获得最优解后，对于每张输入图像选取解x_i,j最大的区域作为图像定位结果，而对于约束项vi小于阈值的输入图像，则作为无关样本排除。

附图说明

图1是本发明的流程图；

图2是本发明中生成对象性检测区域示意图；

图3是本发明中对象区域分析以及全连接结构示意图；图3(a)表示输入图像，图3(b)表示简历全连接图结构，图3(c)表示输出判定结果；

图4是本发明在公共数据集上的检测效果图；图4(a)为检测成功的图片示例，图4(b)为判定失败的图片示例。

具体实施方式

下面结合附图对本发明作详细说明。

参阅图1本发明的过程示意图，本发明的总体目标在于提出了一种图像对象共定位及无关样本判定方法。给定包含同一类别对象的输入图片集，方法不需要人工的手动标注，也不需要冗长的训练过程。最终结果是能很好地定位出输入图像中同一类别的物体。总体的步骤分为(1)生成对象检测区域，获取每个区域的对象性检测得分。(2)计算区域特征以及区域显著度。(3)根据特征距离矩阵、区域对象性得分以及区域显著度构建全连接的图结构。(4)以比率能量函数形式表达图结构。(5)迭代优化得到最优解。(6)排除无关样本选择最优区域作为输出结果。

参阅图2本发明的对于对象假设区域生成过程示意图。对于输入图像集合每张图片生成K个假设区域，同时每张图像获得区域对象性检测得分。获得区域后使用高层语义特征BOW来表达每个区域，并计算每个区域之间的特征距离。在得到两两区域之间特征距离后，建立关于区域的全连接关系图谱。

参阅图3本发明的对象区域全连接结构示意图。如图3所示，黑色加粗边框的区域表示包含物体的区域，而非加粗边框区域则表示无关样本区域。为了有效地识别包含物体区域和无关样本区域，需要统筹检测任意两个区域之间的相似度，同时监测每张图像上所有区域的总有效性。我们选择使用比率能量函数的形式：

式子中M是常量式子，x与v的定义如上文所述，表示区域约束项，保证区域置信度最大，图片整体约束项，保证整体置信度平衡。比率函数可以对所有的区域进行统筹规划。优化过程中采取了基于牛顿迭代的比率函数优化算法，运行效率高，可以有效获取全局最优解。

其中，图3中(a)部分表示输入图像集合，对图像集合生成对象显著检测区域；从图3(a)到图3(b)的过程是构建特征联系图，图3(b)表示一个全连接的特征图结构，顶点表示各个显著检测区域，而边则表示各个区域之间的特征距离。我们通过最优化比率函数的方法对所有特征进行统筹分析，选取最优划分。最终对每个图像得到如图3(c)所示的检测结果图。

参阅图4本发明的实验测试效果图。如图4所示，(a)为检测成功的图片示例，(b)为判定失败的图片示例我们在公共图像数据集VOC2007上测试了方法，在总共六个类别的图片集上均获得了较好的检测效果，同时我们的平均检测准确率比起传统的方法获得了提高，且减少了运行参数，算法有着更好的鲁棒性能。

本发明在保证图像对象共定位的效果好的基础上，框架简单且易于实现，执行时空效率高。提出并实现了基于牛顿迭代的比率函数优化算法，解决了共定位区域无关样本的自动处理问题，提高了共定位效果。本发明自动程度高，减少了用户交互。

以上所述仅为本发明的一些基本说明，依据本发明的技术方案所做的任何等效变换，均应属于本发明的保护范围。

Claims

1.一种图像对象共定位及无关样本判定方法，其特征在于包括如下步骤：

(1)输入可能包含同一类物体的图片集；

(2)对给定的图片集进行对象性分析，生成对象区域集合；

(3)对于区域集合生成高层语义特征以及显著图；

(4)生成区域特征后，对特征矩阵进行分析，构建全连接的图结构关系；

(5)构建比率能量函数对连通图进行统筹规划，构建优化方程；

(6)利用牛顿迭代法计算优化方程的全局最优解；

(7)选取每张图片的得分最高的区域作为最终的共定位结果。

2.根据权利要求1所述的图像对象共定位及无关样本判定方法，其特征在于：步骤(2)中的对图片集进行对象性分析及生成对象区域集合采取以下步骤：

(2.1)针对每一张，使用对象性检测得到K个可能包含对象的假设区域；

(2.2)假设区域均以小于或等于原图尺寸的矩形区域表示，特征包含区域的长、宽，每个区域位于图像中的位置，其中以左上角为原点；以及每张图像的对象性检测得分。

3.根据权利要求1所述的图像对象共定位及无关样本判定方法，其特征在于：步骤(3)中的对假设区域集生成高层语义特征以及显著图采取以下步骤：

(3.1)对图像集合所有图像的每个像素点均生成128维的densesift特征，后利用Kmeans算法生成1000维的特征字典；

(3.2)针对每一个区域，根据特征字典生成1000维的bag-of-words特征直方图；

(3.3)对图像集合所有图像均生成显著分析图；

(3.4)针对每一个区域，计算区域平均灰度值得到对象显著性得分。

4.根据权利要求1所述的图像对象共定位及无关样本判定方法，其特征在于：步骤(4)中的对特征矩阵进行分析，构建全连接的图结构关系包含以下步骤：

(4.1)对于生成的特征矩阵，对于两两特征向量计算特征距离，构成距离矩阵D；同时根据每个假设区域的对象性得分和显著性得分，计算得到所有区域总得分，构成向量U，向量U由对象性检测得分和显著性检测得分a构成；

(4.2)根据距离矩阵和区域得分，构建一个全连接的图结构，以区域得分项作为顶点惩罚值(unarycost)，以区域距离作为边惩罚值(pairwisecost)，表达为一个最小化优化方程式，对于所有区域的最终解为0到1之间的小数；对于单张图片中所有的区域的解之和，加以一个约束向量，同时将约束向量也作为自变量加入优化方程式中。

5.根据权利要求4所述的图像对象共定位及无关样本判定方法，其特征在于：步骤(4.2)中的对最小化优化方程式的构建具有以下特征：

对于优化过程，采取比率函数形式来对图结构进行表达，同时为了较好的排除无关样本影响，引入了对于最终解的约束项；比率函数的分子项为图结构表达项，分母项则是无关样本约束项。

6.根据权利要求1所述的图像对象共定位及无关样本判定方法，其特征在于：步骤(6)中的利用牛顿迭代法计算优化方程的全局最优解包含以下步骤：

将步骤(5)中构建完成的待优化的比率函数重构为一般的线性优化函数，后利用牛顿迭代法进行迭代优化求最优解。

7.根据权利要求1所述的图像对象共定位及无关样本判定方法，其特征在于：步骤(7)中的选最终的共定位结果包含以下步骤：

(7.1)将求解的最终区域集合总得分小于阈值的图片作为无关样本排除；

(7.2)选取每张图片的得分最高的区域作为最终的共定位结果。