CN106951830B

CN106951830B - 一种基于先验条件约束的图像场景多对象标记方法

Info

Publication number: CN106951830B
Application number: CN201710098991.5A
Authority: CN
Inventors: 李青; 袁家政; 梁爱华
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2017-02-23
Filing date: 2017-02-23
Publication date: 2020-12-18
Anticipated expiration: 2037-02-23
Also published as: CN106951830A

Abstract

本发明公开一种基于先验条件约束的图像场景多对象标记方法，包括：确定语义对象群的感兴趣区域；计算测试图像的多维度特征，作为先验外观约束，将像素级多维度特征转化为超像素级多维度特征；构建测试图像感兴趣区域的图模型结构，以感兴趣区域中超像素作为图结构节点，以超像素的邻接关系作为图结构的边，将先验外观约束的对应特征转化为边权重值，计算初始测地线距离，作为节点权重值；进行测地线传播，每一步传播中，确定当前种子点的对象标记，更新它周围相邻点的测地线距离，为下一步传播做准备，直至传播过程结束，得到每个超像素的对象标记。采用本发明的技术方案，将对象的丰富特征作为先验约束来提高对象标记的准确率。

Description

一种基于先验条件约束的图像场景多对象标记方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于先验条件约束的图像场景多对象标记方法。

背景技术

随着社会科技的快速发展，智能手机、平板电脑、照相机等电子设备在社会生活中日益广泛地使用，伴随而来的是图像数据的获取越来越便捷、数据量也越来越庞大，人们对图像处理和应用的需求也日渐丰富，各种图像处理的软件工具也随之而生。在促进经济社会发展的各个行业领域，对图像场景理解的需求得到越来越广泛的重视，例如，在无人驾驶系统中，需要对街道场景进行理解，识别车道线、交通标示、障碍物检测，引导无人驾驶系统的行驶；在旅游智能化系统中，对用户所拍摄照片的内容进行分析理解，推送相关服务信息；在虚拟展示平台，人机交互和增强现实显示，都与图像场景密切相关；在机器人系统中，图像场景理解是机器人视觉的基础。因此，在智能化和信息化快速发展的时代，人们对图像场景理解的需求和应用也随着社会发展而不断的更新，迫切需要深入理解图像内容，并使之更好的为人们的生活服务。

根据国内外科技发展趋势来看，图像场景理解已成为科学技术发展前沿与行业领域应用需求的热点，成为计算机视觉、人工智能、虚拟现实等研究领域的交叉支点。其中，图像场景语义分割或语义标记是该领域的基本问题，同时也是研究难点。随着深度学习、人工智能技术的发展，场景级别的语义分割已经逐渐达到了一个较为理想的状态，甚至能达到90％以上的准确率。但是场景级语义分割在一些具体应用领域还无法达到实用的程度，其原因在于应用领域需要的是更精细、更准确的语义分割，是关于对象实例的识别与分割，而大多数场景语义分割方法还处于场景类别层次的语义分割，即得到的是场景中不同类别的区域，对于多个个体对象的类别内部划分还无法给出准确的结果。

值得鼓舞的是，目前国内外的学者和技术研发人员已经开始关注这一问题，并且普遍认为这是一个值得深入研究的内容，已经开始逐步的开展相关的工作，甚至有学者为对象级语义识别、分割、标记等方向的研究工作提供了专业、公开、通用的数据集，如微软COCO数据集。现有的对象级分割工作大多数仅为将对象分割出来，而缺少了对象的语义信息，如微软剑桥研究院Rother等提出的对象共分割。对于场景中多对象的分割与标记，澳大利亚国立大学的Gould等提出一种基于样例随机场模型的图像多对象分割方法，加拿大多伦多大学的Zhang等人提出了一种无人驾驶系统中的对象级场景语义标记方法。

但是应该看到，对象的语义分割本身难度非常大，它不仅需要语义识别的基础来进行类别与类别的区分，还需要类别内部多个对象之间的划分，而多个对象之间往往表现出多种多样的差异。目前，该方向的工作尚处于一个探索阶段，亟需理论与技术的进一步深入研究。

发明内容

本发明要解决的技术问题是，提供一种基于先验条件约束的图像场景多对象标记方法，将对象的丰富特征作为先验约束来提高对象标记的准确率。

为了实现上述目的，本发明采取了如下技术方案：

一种基于先验条件约束的图像场景多对象标记方法，包括以下步骤：

步骤1、针对待标记的语义类别对象，在训练数据集上利用分类算法训练得到场景各语义类别的识别器和待标记语义类别的对象检测器，利用该检测器得到测试图像的对象识别包围盒，确定待标记对象的数量；

步骤2、在超像素尺度的测试图像上，根据初始粗略语义概率和对象显著性分布图确定语义对象群的感兴趣区域；

步骤3、计算测试图像的多维度特征，作为先验外观约束，包括HOG特征、纹理特征、颜色特征、梯度特征，将像素级多维度特征转化为超像素级多维度特征；

步骤4、构建测试图像感兴趣区域的图模型结构，以感兴趣区域中超像素作为图结构节点，以超像素的邻接关系作为图结构的边，将先验外观约束的对应特征转化为边权重值；根据初始粗略语义概率和对象显著性分布值计算初始测地线距离，作为节点权重值；

步骤5、进行测地线传播，每一步传播中，确定当前种子点的对象标记，更新它周围相邻点的测地线距离，为下一步传播做准备，直至传播过程结束，得到每个超像素的对象标记。

作为优选，所述步骤1中，利用该检测器确定待标记对象数量的方式如下：根据检测器得到的所有对象包围盒的检测分值，选择分值大于设定阈值Tb的包围盒，包围盒的个数即为待标记对象的个数，其中，阈值Tb由训练数据集确定，在训练数据集上检测对象包围盒，统计包围盒分值分布的直方图，以满足直方图80％的包围盒时所对应的分值，作为阈值Tb。

作为优选，所述步骤2中，感兴趣区域由初始粗略语义概率和对象显著性确定，具体方式如下：根据分类算法得到的初始粗略语义概率，统计训练集数据中待标记对象语义的直方图分布，以满足直方图85％的语义概率时所对应的分值，作为语义阈值Tp，对于测试图像中大于该阈值的超像素，认为它在感兴趣区域中；对于一个超像素，如果它所有类别的粗略语义概率中，最大值为待标记语义类别，即认为它最可能属于该类别，即认为它在感兴趣区域中；以同样统计方式确定对象显著性阈值Ts，大于该阈值的超像素认为它在感兴趣区域中。

作为优选，所述步骤3中，将纹理描述符聚为256个类，以词袋形式来表征图像纹理特征；在LAB颜色空间，将颜色特征聚为128类，以词袋形式来表征图像颜色特征；图像HOG视觉特征以8*8的块结构、4像素步长为计算方式，聚为1000个类，以词袋形式来表征图像HOG特征；HOG、纹理、颜色共同构成图像外观差异特征；梯度特征包括水平和垂直两个方向的梯度变化，作为图像多对象之间的边界先验；将所有特征都转化为超像素级别，以这些特征作为超像素之间的特征差异，权重取值如下公式计算：

D(i,j)＝0.1*||F_hog(i)-F_hog(j)||+0.3*||F_tex(i)-F_tex(j)||+0.6*||F_color(i)-F_color(j)||

其中，F_hog(·)、F_tex(·)、F_color(·)分别对应HOG特征、纹理特征、颜色特征，所述梯度特征，作为图像多对象之间的边界先验，为后续测地线距离传播提供边界约束。

作为优选，所述步骤4中，将图模型标记问题通过流行空间中的测地线传播算法来解决，其中图模型结构的节点权重值为初始测地线距离，图模型结构的边权重值为先验约束下的多维度特征值；首先在计算初始测地线距离时，计算方式如下：计算每个节点属于每个对象的概率，对于显著性概率大于Ts同时语义概率大于Tp的节点，它的节点值为三部分之和，即显著性值、语义概率值以及所属对象包围盒的分值；对于其他情况的节点，它的节点值为非该语义类别概率值与非显著性值的和；然后将节点值归一化并转化为初始测地线距离，使之与节点值成反比，即节点值越大测地线距离越小，通过以下公式计算：

geoDis(s,o)＝exp(1-spOP(s,o))

其中，spOP(s,o)表示每个节点即超像素s属于每个对象o的概率，sP(s,l)和sMp(s)分别表示语义概率和显著性，inB(s,o)表示该节点是否在该对象的包围盒内，取值为1或0，Bbox(o)表示该包围盒的分值，geoDis(s,o)表示s到o的初始测地线距离。

作为优选，所述步骤4中，边权重值的计算方式为：相邻两个节点之间的边权重值由纹理、颜色、HOG特征的差值所决定，各特征之间的权重取值体现了对象外观特征的特点。

作为优选，所述步骤5中，当前传播的过程如下：每一次传播开始时，选择当前测地线距离最小的节点以及该测地线距离对应的所属对象，由此确定当前节点即种子点的对象标记；然后选择该种子点的邻接节点中尚未进行标记的那些节点，更新它们到每个对象的测地线距离，然后进行下一次传播过程；其中，更新测地线距离的方式为，如果种子点与当前邻接节点之间的外观差异特征小于外观差异阈值T1并且边界先验值小于阈值边界先验T2，那么两节点之间的边权值为边界先验值，否则取外观差异与边界先验值的线性组合；当种子点到所属对象的测地线距离值与该边权值之和小于当前邻接节点到该对象的测地线距离值时，就以前者之和更新后者的测地线距离值，否则保持原值不变。

本发明的基于先验条件约束的图像场景多对象标记方法，包括：在训练数据集上利用分类算法训练得到各语义类别的识别器和待标记语义类别的对象检测器，并对测试图像进行识别，得到对象识别包围盒，确定待标记对象的数量；在超像素尺度的测试图像上，根据初始粗略语义概率和对象显著性分布图确定语义对象群的感兴趣区域；计算测试图像的多维度特征，作为先验外观约束，包括HOG特征、纹理特征、颜色特征、梯度特征，将像素级多维度特征转化为超像素级多维度特征；构建测试图像感兴趣区域的图模型结构，以感兴趣区域中超像素作为图结构节点，以超像素的邻接关系作为图结构的边，将先验外观约束的对应特征转化为边权重值；根据初始粗略语义概率和对象显著性分布值计算初始测地线距离，作为节点权重值；进行测地线传播，每一步传播中，确定当前种子点的对象标记，更新它周围相邻点的测地线距离，为下一步传播做准备，直至传播过程结束，得到每个超像素的对象标记。本发明能广泛的应用于智慧旅游、智能交通、公共安全、影视娱乐等行业。

附图说明

图1为本发明的方法流程示意图；

图2为本发明的图像显著性检测图；

图3为本发明的结果示意图。

具体实施方式

下面对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

本发明提供了一种基于先验条件约束的图像场景多对象标记方法，该方法在图像场景语义类别识别的基础上进一步得到对象标记的结果。总体流程如下：在训练数据集上利用分类算法训练得到各语义类别的识别器和待标记语义类别的对象检测器，并对测试图像进行识别，得到初始粗略语义概率和对象识别包围盒，确定待标记对象的数量；对图像进行过分割处理，得到超像素集合，对图像进行显著性检测，得到显著性分布图，在超像素级别上根据初始粗略语义概率和对象显著性分布图确定语义对象群的感兴趣区域；计算测试图像的多维度特征作为先验外观约束，包括HOG特征、纹理特征、颜色特征、梯度特征，转化为超像素级多维度特征；在感兴趣区域范围内构件图模型结构，以感兴趣区域中超像素作为图结构节点，以超像素的邻接关系作为图结构的边；根据初始粗略语义概率和对象显著性分布值计算初始测地线距离，作为节点权重值，将先验外观约束的对应特征转化为边权重值；进行测地线传播，每一步传播中，选择具有最小的测地线距离的节点作为种子点，以该距离所对应的对象作为种子点的对象标记确定下来，更新它周围相邻点的测地线距离，为下一步传播做准备，直至传播过程结束，得到每个超像素的对象标记。

根据上述流程，识别部分包括两部分，语义类别识别和对象检测识别。由语义识别模块得到像素点属于每一种语义类别的初始粗略语义概率，由对象检测识别模块得到多个候选对象包围盒，两个识别模块均使用boost算法来进行训练。对于输出的多类别的语义概率，每一个点选择它最大概率的那个类别，由此可以构成一个初始语义概率图。对于输出的多个对象包围盒，选择分值高于阈值Tb的那些构成候选集。Tb的选择方式为：在训练数据集上，检测对象包围盒，统计所有包围盒的分值分布，选择满足80％以上的包围盒的那个分值，作为阈值Tb。由此阈值确定输入测试图像上的对象包围盒候选集，包围盒的个数即要标记的对象数量。

利用TurboSp算法，对测试图像进行过分割处理，得到超像素集合，超像素数量为一千左右的数量级。利用context-aware saliency算法检测图像的显著性，得到降采样后的显著性图，因此需要进行升采样处理。根据降采样后的显著性检测结果，可知该算法处理的结果对原图像进行了缩小。处理后的图像结果为原图像的1/4大小左右，分别是x轴方向1/2，y轴方向1/2，对于原图像维度为单数的轴，取维度值为原维度值减一维后的1/2。因此，采取升采样为降采样逆向过程的线性插值：对于同属于原图像和降采样后图像的像素点，直接将显著性值赋值给原图像。对于不属于采样的原图像像素点，该点的值由其周围四邻域的邻居点的显著性值线性组合得到。由此，即可得到与原图像同样大小的显著性图。

确定感兴趣区域作为对象标记的区域，以外的区域就不作为标记范围。以这个缩小后的区域作为构建随机场模型的区域。因此，首先需要确定感兴趣区域。如图2、3所示，以“马”这个对象类别为例，满足三种情况的超像素都可以作为该区域，一，初始粗略概率最大值为类别“马”的超像素，二，“马”的初始粗略概率值大于Tp的超像素，三，显著性值大于Ts的超像素。Tp和Ts的选择均由训练数据集上统计得到，满足85％以上超像素的对应值即选择为阈值。

提取图像的多维度特征，作为先验外观约束，包括HOG特征、纹理特征、颜色特征、梯度特征。将纹理描述符聚为256个类，以词袋形式来表征图像纹理特征。在LAB颜色空间，将颜色特征聚为128类，以词袋形式来表征图像颜色特征。图像HOG视觉特征以8*8的块结构、4像素步长为计算方式，聚为1000个类，以词袋形式来表征图像HOG特征。HOG、纹理、颜色共同构成图像外观差异特征。将所有特征都转化为超像素级别，以这些特征作为超像素之间的特征差异，权重取值如下公式所示。

其中，F_hog(·)、F_tex(·)、F_color(·)分别对应HOG特征、纹理特征、颜色特征。另外，梯度特征包括水平和垂直两个方向的梯度变化，作为图像多对象之间的边界先验，为后续测地线距离传播提供边界约束。

在前面工作基础上，构建图模型结构下的测地线传播框架。在该框架中，感兴趣区域中的超像素作为节点，超像素的邻接关系作为边，将初始测地线距离值作为图结构节点的权重值，多维度特征差异作为图结构的边权值，从种子点开始将对象标记传播到整个结构空间。首先计算每个节点的初始测地线距离，计算方式如下：计算每个节点属于每个对象的概率，对于显著性概率大于Ts同时语义概率大于Tp的节点，它的节点值为三部分之和，即显著性值、语义概率值以及所属对象包围盒的分值；对于其他情况的节点，它的节点值为非该语义类别概率值与非显著性值的和。将节点值归一化，并转化为初始测地线距离，使之与节点值成反比，即节点值越大测地线距离越小，如以下公式所示。

geoDis(s,o)＝exp(1-spOP(s,o))

其中，spOP(s,o)表示每个节点即超像素s属于每个对象o的概率，sP(s,l)和sMp(s)分别表示语义概率和显著性。inB(s,o)表示该节点是否在该对象的包围盒内，取值为1或0。Bbox(o)表示该包围盒的分值。geoDis(s,o)表示s到o的初始测地线距离。

边权重值的计算方式为：相邻两个节点之间的边权重值由纹理、颜色、HOG特征的差值所决定，各特征之间的权重取值体现了对象外观特征的特点。

在传播过程中，每一次传播开始时，选择当前测地线距离最小的节点作为当前种子点，以该测地线距离对应的所属对象作为当前种子点的对象标记，将该节点剔除出未标记的队列，将该节点属于该对象的测地线距离设置为无限大；然后选择该种子点的邻接节点中尚未进行标记的那些节点，更新它们到每个对象的测地线距离，然后进入下一次传播过程。更新测地线距离时，节点之间的边界特征起到了约束作用，将传播方向指向边界差异小的邻接节点去。如果种子点与当前邻接节点之间的外观差异特征小于外观差异阈值T1并且边界先验值小于阈值边界先验T2，那么两节点之间的边权值为边界先验值，否则取外观差异与边界先验值的线性组合；在边权值确定下来之后，判断是否需要更新测地线距离，当种子点到所属对象的测地线距离值与该边权值之和小于当前邻接节点到该对象的测地线距离值时，就以前者之和更新后者的测地线距离值，否则保持原值不变，如下所示，其中，D(i,j)为特征差异，bdry(i,j)为边界特征。

Claims

1.一种基于先验条件约束的图像场景多对象标记方法，其特征在于，包括以下步骤：

步骤4、构建测试图像感兴趣区域的图模型结构，以感兴趣区域中超像素作为图结构节点，以超像素的邻接关系作为图结构的边，将先验外观约束的对应特征转化为边权重值；根据初始粗略语义概率和对象显著性分布值计算初始测地线距离，作为节点权重值；其中，

所述步骤4中，将图模型标记问题通过流行空间中的测地线传播算法来解决，其中图模型结构的节点权重值为初始测地线距离，图模型结构的边权重值为先验约束下的多维度特征值；首先在计算初始测地线距离时，计算方式如下：计算每个节点属于每个对象的概率，对于显著性概率大于Ts同时语义概率大于Tp的节点，它的节点值为三部分之和，即显著性值、语义概率值以及所属对象包围盒的分值；对于其他情况的节点，它的节点值为非该语义类别概率值与非显著性值的和；然后将节点值归一化并转化为初始测地线距离，使之与节点值成反比，即节点值越大测地线距离越小，通过以下公式计算：

geoDis(s,o)＝exp(1-spOP(s,o))

其中，spOP(s,o)表示每个节点即超像素s属于每个对象o的概率，sP(s,l)和sMp(s)分别表示语义概率和显著性，inB(s,o)表示该节点是否在该对象的包围盒内，取值为1或0，Bbox(o)表示该包围盒的分值，geoDis(s,o)表示s到o的初始测地线距离；

2.如权利要求1所述的基于先验条件约束的图像场景多对象标记方法，其特征在于，所述步骤1中，利用该检测器确定待标记对象数量的方式如下：根据检测器得到的所有对象包围盒的检测分值，选择分值大于设定阈值Tb的包围盒，包围盒的个数即为待标记对象的个数，其中，阈值Tb由训练数据集确定，在训练数据集上检测对象包围盒，统计包围盒分值分布的直方图，以满足直方图80％的包围盒时所对应的分值，作为阈值Tb。

3.如权利要求1所述的基于先验条件约束的图像场景多对象标记方法，其特征在于，所述步骤2中，感兴趣区域由初始粗略语义概率和对象显著性确定，具体方式如下：根据分类算法得到的初始粗略语义概率，统计训练集数据中待标记对象语义的直方图分布，以满足直方图85％的语义概率时所对应的分值，作为语义阈值Tp，对于测试图像中大于该语义阈值Tp的超像素，认为它在感兴趣区域中；对于一个超像素，如果它所有类别的粗略语义概率中，最大值为待标记语义类别，即认为它最可能属于该类别，即认为它在感兴趣区域中；以同样统计方式确定对象显著性阈值Ts，大于该显著性阈值Ts的超像素认为它在感兴趣区域中。

4.如权利要求1所述的基于先验条件约束的图像场景多对象标记方法，其特征在于，所述步骤3中，将纹理描述符聚为256个类，以词袋形式来表征图像纹理特征；在LAB颜色空间，将颜色特征聚为128类，以词袋形式来表征图像颜色特征；图像HOG视觉特征以8*8的块结构、4像素步长为计算方式，聚为1000个类，以词袋形式来表征图像HOG特征；HOG、纹理、颜色共同构成图像外观差异特征；梯度特征包括水平和垂直两个方向的梯度变化，作为图像多对象之间的边界先验；将所有特征都转化为超像素级别，以这些特征作为超像素之间的特征差异，权重取值如下公式计算：

5.如权利要求1所述的基于先验条件约束的图像场景多对象标记方法，其特征在于，所述步骤4中，边权重值的计算方式为：相邻两个节点之间的边权重值由纹理、颜色、HOG特征的差值所决定，各特征之间的权重取值体现了对象外观特征的特点。