CN106570874B

CN106570874B - 一种结合图像局部约束与对象全局约束的图像标记方法

Info

Publication number: CN106570874B
Application number: CN201610987762.4A
Authority: CN
Inventors: 王浩; 郭立君; 张�荣
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2016-11-10
Filing date: 2016-11-10
Publication date: 2021-03-23
Anticipated expiration: 2036-11-10
Also published as: CN106570874A

Abstract

本发明公开了一种结合图像局部约束与对象全局约束的图像标记方法，其获取每幅原始图像的超像素区域节点图像，且在每幅原始图像对应的掩膜图像中找出与对应的超像素区域节点图像中的每个超像素区域节点相对应的掩膜区域，并进行标记；然后利用超像素区域节点图像的特征集合以及掩膜图像所对应的区域标签集合来训练条件随机场模型，利用掩膜图像中的所有掩膜区域标记后得到的图像所对应的虚拟标签集合来训练形状玻尔兹曼机模型，且两者通过方格划分技术将条件随机场模型与形状玻尔兹曼机模型有效结合起来，使得图像局部约束与对象整体约束紧密结合，提高了图像标记的准确率；且其能适用于数据集较小且图像的分辨率较低的情况，计算复杂度低。

Description

一种结合图像局部约束与对象全局约束的图像标记方法

技术领域

本发明涉及一种图像标记技术，尤其是涉及一种结合图像局部约束与对象全局约束的图像标记方法。

背景技术

图像分割与图像标记是计算机视觉中的核心技术，现如今很多计算机视觉中的高层应用都依赖于准确的图像分割结果或者图像标记结果，如对象识别、场景分析应用等。由于图像存在遮挡、阴影、目标与背景特征相似等问题，因此使得图像分割与图像标记一直是计算机视觉中最具有挑战性的任务之一。

作为多种视觉应用的基础和富有挑战性的任务，图像标记技术在计算机视觉领域一直广受关注，如何更好的对图像进行标记，国内外相关机构进行了深入地研究。近年来，由于条件随机场(Conditional Random Field，CRF)能够有效的描述图像局部约束关系，因此条件随机场常常被用于图像标记任务。如：Xuming He,Richard S.Zemel,M.A.Carreira-Perpinan,et al.Multiscale conditional random fields for image labeling[C]//Computer Vision and Pattern Recognition,2004(何旭明、理查德·泽梅尔、米格尔·卡雷拉，基于多尺度条件随机场的图像标记[C]//计算机视觉与模式识别大会，2004)，其提出了用条件随机场分割静态图像，通过引入隐随机变量加入更多的上下文知识以便进行图像分割。又如：Lei Zhang.A unified probabilistic graphical model and itsapplication to image segmentation[C]//Rensselaer Polytechnic Institute,2009(张磊，一种统一的概率图模型及其在图像分割中的应用[C]//伦斯勒理工学院，2009)，其提出了将超像素方法引入条件随机场模型中，通过一种各向异性扩散算法将图像过分割成超像素区域，然后将超像素区域作为条件随机场图模型中的节点，通过参数估计获得给定测试图像的最优标记。条件随机场有效的描述了图像局部约束关系，而对要标记的对象的全局约束关系的描述具有局限性，例如当对象的部分区域边界模糊时，条件随机场仅仅利用了图像局部约束关系，很可能将表观特征相似的背景错标记成对象部分，或者反之，因此引入对象全局约束关系来补充条件随机场的局限很有必要。对象形状约束信息可以作为对象全局约束关系的一种表现形式，最近很多文章都采用了受限的玻尔兹曼机(RBM)或者其扩展模型来获取对象形状约束信息。如：Salakhutdinov R,Hinton G.Deep BoltzmannMachines[J].Journal of Machine Learning Research,2009,5(2):1967–2006(鲁斯兰·萨拉赫丁诺夫、杰弗里·希尔顿，深度玻尔兹曼机[J].机器学习研究杂志，2009，第5期(2)：1967-2006)，其在玻尔兹曼机的基础上提出了深度玻尔兹曼机(DBM)，深度玻尔兹曼机是一个多层的玻尔兹曼机模型，通过多层的玻尔兹曼机进行特征提取获得目标对象的高层语义特征如形状、姿态等。又如：Eslami S M,Heess N,Williams C K,et al.The ShapeBoltzmann Machine:A Strong Model of Object Shape[C]//IEEE Conference onComputer Vision&Pattern Recognition.2012:406-413(阿里·伊斯拉米、黒斯·尼古拉斯、查尔斯肯尼·威廉姆斯，形状玻尔兹曼机：一种鲁棒性强的形状建模模型[C]，IEEE计算机视觉与模式识别会议，2012:406-413)，其提出的形状玻尔兹曼机(ShapeBM)在对象形状建模上取得了较好效果。用对象形状约束来完成图像标记仅仅利用了对象整体约束信息，可能会造成图像的一些局部信息的丢失，不能达到较好的标记效果。

为了获得较好的图像标记效果，近年来有许多方法也在图像局部约束和对象全局约束相结合上做了很多工作。Kae A,Sohn K,Lee H,et al.Augmenting CRFs withBoltzmann Machine Shape Priors for Image Labeling[C]//Computer Vision andPattern Recognition,2013(安德烈·凯、索恩、洪拉克·李、埃里克·米勒，条件随机场结合玻尔兹曼机形状先验的图像标记[C]//计算机视觉与模式识别大会，2013)，其提出通过玻尔兹曼机模型学习人脸形状先验特征作为对象全局约束，并借助于条件随机场分割框架能够融入其他分割线索的特性，将所学到的形状先验融入到条件随机场分割框架中，获得较好的分割与标记效果；该方法要求有比较大的数据集，这样才能使得玻尔兹曼机训练充分得到较好的效果，并且该方法要求数据集中的图像的分辨率较高，以适用于人脸图像的标记。Chen F,Yu H,Hu R,et al.Deep Learning Shape Priors for ObjectSegmentation[C]//Computer Vision and Pattern Recognition,2013(陈飞、于慧敏、胡浩基、曾勋勋，深度学习形状先验的图像分割[C]//计算机视觉与模式识别大会，2013)，其提出将深度玻尔兹曼机模型学到的对象形状先验结合到一个变分分割模型中，通过求其能量函数最小达到分割的效果；该方法将深度学习模型结合到变分分割框架中，造成计算复杂度很大。

基于以上原因，有必要引入一种结合图像局部约束与对象全局约束的图像标记方法，要求该图像标记方法能适用于数据集较小且数据集中的图像的分辨率较低的情况，并且要求该图像标记方法的计算复杂度适中。

发明内容

本发明所要解决的技术问题是提供一种结合图像局部约束与对象全局约束的图像标记方法，其通过形状玻尔兹曼机引入对象全局约束来补充条件随机场在对象标记上的局限性，使得图像标记结果更加准确，其能适用于数据集较小且数据集中的图像的分辨率较低的情况，并且计算复杂度低。

本发明解决上述技术问题所采用的技术方案为：一种结合图像局部约束与对象全局约束的图像标记方法，其特征在于包括以下步骤：

①选取一个图像库，该图像库中包含有M幅原始图像及每幅原始图像对应的掩膜图像，将图像库中的第m幅原始图像记为

将

对应的掩膜图像记为

然后采用超像素分割方法对图像库中的每幅原始图像进行超像素分割，得到图像库中的每幅原始图像对应的超像素区域节点图像，将

对应的超像素区域节点图像记为

将

中的第n_m个超像素区域节点记为

接着在图像库中的每幅原始图像对应的掩膜图像中找出与对应的超像素区域节点图像中的每个超像素区域节点相对应的掩膜区域，对于

在

中找出与

中的每个超像素区域节点相对应的掩膜区域，将在

中找出的与

相对应的掩膜区域记为

再根据图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域中属于前景的像素点的总个数与整个掩膜区域中的像素点的总个数的比例，来确定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签，将

的区域标签记为

最后根据图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签，判定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域为前景区域或为背景区域，对于

若

则将

判定为前景区域，若

则将

判定为背景区域；并将图像库中的每幅原始图像对应的掩膜图像中的所有掩膜区域的区域标签构成一个区域标签集合，将

中的所有掩膜区域的区域标签构成的区域标签集合记为

将

中的所有掩膜区域标记后得到的图像记为

其中，M≥200，1≤m≤M，1≤n_m≤N_m，N_m表示

中的超像素区域节点的总个数，N_m>1；

②提取图像库中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点特征，将

的节点特征记为

然后将图像库中的每幅原始图像对应的超像素区域节点图像中的所有超像素区域节点的节点特征构成一个节点特征集合，将

中的所有超像素区域节点的节点特征构成的节点特征集合记为

其中，

的维数为1×192，

表示

的颜色直方图特征，

表示

的纹理直方图特征，

表示

的位置概率直方图特征，

和

的维数为1×64；

并提取图像库中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点与其相邻的各个超像素区域节点之间的连接边特征，将

与其相邻的第

个超像素区域节点之间的连接边特征记为

然后将图像库中的每幅原始图像对应的超像素区域节点图像中的所有超像素区域节点对应的连接边特征构成一个连接边特征集合，将

中的所有超像素区域节点对应的连接边特征构成的连接边特征集合记为

其中，与

相邻的超像素区域节点是指与

有共同边界的超像素区域节点，

表示

中与

相邻的超像素区域节点的总个数，

的维数为1×3，

表示

与其相邻的第

个超像素区域节点的共同边界上的所有像素点的PB值之和，

表示

的颜色直方图和与

相邻的第

个超像素区域节点的颜色直方图之间的欧氏距离，

表示

的纹理直方图和与

相邻的第

个超像素区域节点的纹理直方图之间的卡方距离；

再将图像库中的每幅原始图像对应的超像素区域节点图像所对应的节点特征集合和连接边特征集合构成图像库中的每幅原始图像对应的超像素区域节点图像的特征集合，将

的特征集合记为

③将图像库中选取的M'幅原始图像及选取的每幅原始图像对应的掩膜图像构成训练集，将训练集中的第m'幅原始图像记为

将

对应的掩膜图像记为

将

对应的超像素区域节点图像记为

将

中的所有掩膜区域标记后得到的图像记为

并将图像库中剩余的M-M'原始图像及剩余的每幅原始图像对应的掩膜图像构成测试集；然后将训练集中的所有原始图像对应的超像素区域节点图像的特征集合及对应的掩膜图像所对应的区域标签集合，输入到条件随机场模型E_crf(Y^truth,X^org)＝E_node(Y^truth,X^node)+E_edge(Y^truth,X^edge)中，通过条件随机场模型计算得到训练集中的每幅原始图像对应的超像素区域节点图像的能量，将

的能量记为

接着根据热统计力学，确定训练集中的每幅原始图像对应的超像素区域节点图像的条件似然概率应满足的条件，

的条件似然概率

应满足的条件为：

之后将训练集中的所有原始图像对应的超像素区域节点图像的最大条件似然概率的表示式描述为：

最后优化

当训练集中的所有原始图像对应的超像素区域节点图像的能量之和最小时即使得

最大时输出条件随机场模型的统一权重参数α和β，得到训练好的条件随机场模型；其中，0.5M≤M'≤0.9M，1≤m'≤M'，Y^truth、X^org、X^node和X^edge均为条件随机场模型的输入参数，Y^truth表示训练集中的任一幅原始图像对应的掩膜图像所对应的区域标签集合，X^org表示训练集中的任一幅原始图像对应的超像素区域节点图像的特征集合，X^node表示训练集中的任一幅原始图像对应的超像素区域节点图像所对应的节点特征集合，X^edge表示训练集中的任一幅原始图像对应的超像素区域节点图像所对应的连接边特征集合，E_node(Y^truth,X^node)表示条件随机场模型的一阶势，E_edge(Y^truth,X^edge)表示条件随机场模型的二阶势，

表示

所对应的区域标签集合，

表示

的特征集合，

表示

所对应的节点特征集合，

表示

所对应的连接边特征集合，exp()表示以自然基数e为底的指数函数，max{}表示取最大值函数；

④获取训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的每个方格的虚拟标签，将

中的第z个方格

的虚拟标签记为

然后将训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的所有方格的虚拟标签构成一个虚拟标签集合，将

中的所有方格的虚拟标签构成的虚拟标签集合记为

接着将训练集中的所有原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像所对应的虚拟标签集合，输入到形状玻尔兹曼机模型

中；之后采用对比散度算法训练形状玻尔兹曼机模型的第一层网络，得到形状玻尔兹曼机模型的第一层网络的输出h^truth,1及形状玻尔兹曼机模型的第一层网络的参数W^truth,1、a^truth和b^truth，

再将形状玻尔兹曼机模型的第一层网络的输出h^truth,1作为形状玻尔兹曼机模型的第二层网络的输入，同样采用对比散度算法训练形状玻尔兹曼机模型的第二层网络，得到形状玻尔兹曼机模型的第二层网络的输出h^truth,2及形状玻尔兹曼机模型的第二层网络的参数W^truth,2和c^truth，

最后采用平均场估计方法对W^truth,1、a^truth、b^truth、W^truth,2和c^truth进行微调优化，将微调优化后对应得到的

和

作为形状玻尔兹曼机模型的最终参数，得到训练好的形状玻尔兹曼机模型；其中，1≤z≤Z，Z表示

中的方格的总个数，

符号

为向上取整符号，1≤n_m'≤N_m'，N_m'表示

中的超像素区域节点的总个数，N_m'>1，

表示

中的第n_m'个掩膜区域的区域标签，

表示

中与

中的第n_m'个掩膜区域

对应的区域

中属于

中的第z个方格

的面积占

的面积的比例，

表示

与

相交的面积，符号“∩”为相交运算符号，

表示

的面积，

表示训练集中的任一幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的所有方格的虚拟标签构成的虚拟标签集合，K表示形状玻尔兹曼机模型的第一层隐节点中的隐节点的总个数，K>1，

表示训练集中的任一幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的第z个方格的虚拟标签，

表示

与形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的连接权重，

表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的值，

表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的偏置值，

表示

的偏置值，U表示形状玻尔兹曼机模型的第二层隐节点中的隐节点的总个数，U>1，

表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点与形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的连接权重，

表示形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的值，

表示形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的偏置值；

⑤将训练好的条件随机场模型中的参数α和β及训练好的形状玻尔兹曼机模型中的参数

和

作为条件随机场与形状玻尔兹曼机联合模型的初始化参数；然后将训练集中的所有原始图像对应的超像素区域节点图像的特征集合及对应的掩膜图像所对应的区域标签集合，输入到条件随机场与形状玻尔兹曼机联合模型

中；接着根据热统计力学，确定训练集中的每幅原始图像对应的超像素区域节点图像的条件似然概率应满足的条件，

的条件似然概率

应满足的条件为：

最后通过平均场估计方法迭代优化

使得

最大时输出条件随机场与形状玻尔兹曼机联合模型的最终参数α_final、β_final、

和

得到训练好的条件随机场与形状玻尔兹曼机联合模型；

⑥将测试集中的所有原始图像对应的超像素区域节点图像的特征集合，输入到训练好的条件随机场与形状玻尔兹曼机联合模型中，训练好的条件随机场与形状玻尔兹曼机联合模型输出测试集中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签；然后将测试集中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签，对应作为测试集中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点标记；再将测试集中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点标记，作为该超像素区域节点中的每个像素点的标记，得到测试集中的每幅原始图像对应的超像素区域节点图像相应的标记图。

所述的步骤①中

其中，

表示

中属于前景的像素点的总个数，

表示

中的像素点的总个数。

所述的步骤③中

其中，1≤n_m'≤N_m'，N_m'表示

中的超像素区域节点的总个数，N_m'>1，

表示

中的第n_m'个掩膜区域的区域标签，1≤d≤192，

表示

中的第n_m'个超像素区域节点的节点特征

中的第d个元素，

表示

的权重，1≤q≤Q，Q表示

中的方格的总个数，

符号

为向上取整符号，

表示

中的第q个方格

中属于

中的第n_m'个超像素区域节点

的面积占

中的第n_m'个超像素区域节点

的面积的比例，

表示

中的第q个方格

与

中的第n_m'个超像素区域节点

相交的面积，符号“∩”为相交运算符号，

表示

中的第n_m'个超像素区域节点

的面积；

所述的步骤③中

其中，1≤j_m'≤J_m'，J_m'表示

中与第n_m'个超像素区域节点相邻的超像素区域节点的总个数，

表示

中与第n_m'个掩膜区域相邻的第j_m'个掩膜区域的区域标签，

表示

中的第n_m'个超像素区域节点与其相邻的第j_m'个超像素区域节点之间的连接边特征

中的第e个元素，

表示

的权重。

中的方格的获取过程为：将

分割成多个相同尺寸大小的方格，若分割方格到

的末端时存在不同尺寸大小的区域，那么将这些区域也分别作为方格，并使

中的方格的总个数Q等于

所述的步骤③中优化

通过置信度传播方法来实现，或通过结合了标准化算法LBFGS的平均场估计方法来实现。

所述的步骤④中

中的方格的获取过程为：将

分割成多个相同尺寸大小的方格，若分割方格到

中的方格的总个数Z的值在取值范围

内。

与现有技术相比，本发明的优点在于：

1)本发明方法有效结合了图像局部约束与对象整体约束，并且结合是基于超像素的，其首先对图像库中的每幅原始图像进行超像素分割，得到图像库中的每幅原始图像对应的超像素区域节点图像，并且在图像库中的每幅原始图像对应的掩膜图像中找出与对应的超像素区域节点图像中的每个超像素区域节点相对应的掩膜区域，并对掩膜区域进行标记；然后利用超像素区域节点图像的特征集合以及掩膜图像所对应的区域标签集合来训练条件随机场模型，利用掩膜图像中的所有掩膜区域标记后得到的图像所对应的虚拟标签集合来训练形状玻尔兹曼机模型，并且两者通过一个方格划分的技术，将条件随机场模型与形状玻尔兹曼机模型有效结合起来，使得图像局部约束与对象整体约束紧密结合，有效的解决了当对象的部分区域边界模糊时，条件随机场仅仅利用了图像局部约束关系，很可能将表观特征相似的背景错标记成对象部分以及仅使用对象形状约束来完成图像标记，仅仅利用了对象整体约束信息，可能会造成图像的一些局部信息的丢失，不能达到较好的标记效果等问题，提高了图像标记的准确率。

2)本发明方法与现有的基于条件随机场与受限的玻尔兹曼机结合的方法相比，由于形状玻尔兹曼机相较于受限的玻尔兹曼机能适用于图像数据集较小且图像数据集中的图像的分辨率较低的情况，使得本发明方法的适用性更广。

3)本发明方法与现有的将深度玻尔兹曼机模型学到的对象形状先验结合到一个变分分割模型的方法相比，本发明方法的计算都是在超像素区域节点上进行的，计算的复杂性相对较低。

附图说明

图1为本发明方法中所采用的条件随机场与形状玻尔兹曼机联合模型的模型图；

图2为形状玻尔兹曼机模型的模型图；

图3a为根据Penn-Fudan Pedestrians数据集构建的测试集中的一幅图像；

图3b为利用条件随机场模型对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图；

图3c为利用空间条件随机场对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图；

图3d为利用本发明方法对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图；

图3e为图3a所示的图像对应的标准掩膜图像；

图4a为根据Penn-Fudan Pedestrians数据集构建的测试集中的另一幅图像；

图4b为利用条件随机场模型对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图；

图4c为利用空间条件随机场对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图；

图4d为利用本发明方法对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图；

图4e为图4a所示的图像对应的标准掩膜图像；

图5a为根据Caltech-UCSD Birds 200数据集构建的测试集中的一幅图像；

图5b为利用条件随机场模型对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图；

图5c为利用空间条件随机场对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图；

图5d为利用本发明方法对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图；

图5e为图5a所示的图像对应的标准掩膜图像；

图6a为根据Caltech-UCSD Birds 200数据集构建的测试集中的另一幅图像；

图6b为利用条件随机场模型对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图；

图6c为利用空间条件随机场对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图；

图6d为利用本发明方法对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图；

图6e为图6a所示的图像对应的标准掩膜图像；

图7为本发明方法的流程框图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种结合图像局部约束与对象全局约束的图像标记方法，其流程框图如图7所示，其包括以下步骤：

将

对应的掩膜图像记为

对应的超像素区域节点图像记为

将

中的第n_m个超像素区域节点记为

在

中找出与

中的每个超像素区域节点相对应的掩膜区域，将在

中找出的与

相对应的掩膜区域记为

的区域标签记为

若

则将

判定为前景区域，若

则将

中的所有掩膜区域的区域标签构成的区域标签集合记为

将

中的所有掩膜区域标记后得到的图像记为

其中，M≥200，在本实施例中对于Penn-Fudan Pedestrians数据集取M＝846，对于Caltech-UCSD Birds 200数据集取M＝6033，1≤m≤M，1≤n_m≤N_m，N_m表示

中的超像素区域节点的总个数，N_m>1，在具体实施时一般可将一幅图像分割成50个以上的超像素区域节点。

表示

中属于前景的像素点的总个数，

表示

中的像素点的总个数。

的节点特征记为

其中，

的维数为1×192，

表示

的颜色直方图特征，

表示

的纹理直方图特征，

表示

的位置概率直方图特征，

和

的维数为1×64；在此，

通过现有的颜色直方图提取方法获取；

通过现有的纹理直方图提取方法获取；

通过采用Kae A,Sohn K,Lee H,et al.Augmenting CRFswith Boltzmann Machine Shape Priors for Image Labeling[C]//Computer Visionand Pattern Recognition,2013(安德烈·凯、索恩、洪拉克·李、埃里克·米勒，条件随机场结合玻尔兹曼机形状先验的图像标记[C]//计算机视觉与模式识别大会，2013)中提出的Normalized histogram of the proportion of a superpixel that falls within eachof the 8*8 grid elements on the image(超像素落在图像8×8网格中每个网格的比例的归一化直方图)技术来获取。

与其相邻的第

个超像素区域节点之间的连接边特征记为

用来衡量

与其相邻的第

个超像素区域节点之间的相似度；然后将图像库中的每幅原始图像对应的超像素区域节点图像中的所有超像素区域节点对应的连接边特征构成一个连接边特征集合，将

其中，与

相邻的超像素区域节点是指与

有共同边界的超像素区域节点，

表示

中与

相邻的超像素区域节点的总个数，

的维数为1×3，

表示

与其相邻的第

个超像素区域节点的共同边界上的所有像素点的PB值(posterior probability of aboundary，边界的后验概率)之和，

表示

的颜色直方图和与

相邻的第

个超像素区域节点的颜色直方图之间的欧氏距离，

表示

的纹理直方图和与

相邻的第

个超像素区域节点的纹理直方图之间的卡方距离；在此，

采用Martin D R,Fowlkes C C,Malik J,et al.Learning to Detect Natural Image Boundaries UsingBrightness and Texture[C].Neural Information Processing Systems,2003(戴维·马丁、查尔斯·福尔克斯、吉腾德拉·马利克，利用亮度和纹理学习自然图像边界检测[C].神经信息处理系统，2003)中提出的方法来获取。

的特征集合记为

③将图像库中随机选取的M'幅原始图像及选取的每幅原始图像对应的掩膜图像构成训练集，将训练集中的第m'幅原始图像记为

将

对应的掩膜图像记为

将

对应的超像素区域节点图像记为

将

中的所有掩膜区域标记后得到的图像记为

的能量记为

的条件似然概率

应满足的条件为：

最后优化

最大时输出条件随机场模型的统一权重参数α和β，得到训练好的条件随机场模型；其中，0.5M≤M'≤0.9M，1≤m'≤M'，Y^truth、X^org、X^node和X^edge均为条件随机场模型的输入参数，Y^truth表示训练集中的任一幅原始图像对应的掩膜图像所对应的区域标签集合，X^org表示训练集中的任一幅原始图像对应的超像素区域节点图像的特征集合，X^node表示训练集中的任一幅原始图像对应的超像素区域节点图像所对应的节点特征集合，X^edge表示训练集中的任一幅原始图像对应的超像素区域节点图像所对应的连接边特征集合，E_no_de(Y^truth,X^node)表示条件随机场模型的一阶势，其用来表述训练集中的任一幅原始图像对应的超像素区域节点图像中的超像素区域节点属于前景或属于背景的似然，E_edge(Y^truth,X^edge)表示条件随机场模型的二阶势，其主要决定了训练集中的任一幅原始图像对应的超像素区域节点图像中相邻的两个超像素区域节点之间如何相互作用的，体现了对象局部约束，

表示

所对应的区域标签集合，

表示

的特征集合，

表示

所对应的节点特征集合，

表示

所对应的连接边特征集合，exp()表示以自然基数e为底的指数函数，max{}表示取最大值函数。

在此具体实施例中，步骤③中

其中，1≤n_m'≤N_m'，N_m'表示

中的超像素区域节点的总个数，N_m'>1，

表示

中的第n_m'个掩膜区域的区域标签，1≤d≤192，

表示

中的第n_m'个超像素区域节点的节点特征

中的第d个元素，

表示

的权重，1≤q≤Q，Q表示

中的方格的总个数，

符号

为向上取整符号，

表示

中的第q个方格

中属于

中的第n_m'个超像素区域节点

的面积占

中的第n_m'个超像素区域节点

的面积的比例，

表示

中的第q个方格

与

中的第n_m'个超像素区域节点

相交的面积，符号“∩”为相交运算符号，

表示

中的第n_m'个超像素区域节点

的面积。在此，

中的方格的获取过程为：将

分割成多个相同尺寸大小的方格，若分割方格到

中的方格的总个数Q等于

在本实施例中，所选的Penn-Fudan Pedestrians数据集中的每幅原始图像对应的超像素区域节点图像中的方格的总个数为529，所选的Caltech-UCSD Birds 200数据集中的每幅原始图像对应的超像素区域节点图像中的方格的总个数为441。

在此具体实施例中，步骤③中

其中，1≤j_m'≤J_m'，J_m'表示

表示

中与第n_m'个掩膜区域相邻的第j_m'个掩膜区域的区域标签，

表示

中的第e个元素，

表示

的权重。

在此具体实施例中，步骤③中优化

通过现有的置信度传播方法(loopy belief propagation)来实现，或通过结合了标准化算法LBFGS的平均场估计(mean-field approximation)方法来实现。

④由于训练集中的每幅原始图像对应的超像素区域节点图像中的超像素区域节点的总个数不固定，而形状玻尔兹曼机模型要求输入层的可见层节点数量是固定的，如果将训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域的区域标签作为形状玻尔兹曼机模型的输入，则会造成与形状玻尔兹曼机模型的输入节点不对应，因此本发明采用方格的虚拟标签来替代掩膜区域的区域标签作为形状玻尔兹曼机模型的输入。获取训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的每个方格的虚拟标签，将

中的第z个方格

的虚拟标签记为

中的所有方格的虚拟标签构成的虚拟标签集合记为

中，图2给出了形状玻尔兹曼机模型的模型图；之后采用现有的对比散度算法训练形状玻尔兹曼机模型的第一层网络，得到形状玻尔兹曼机模型的第一层网络的输出h^truth,1及形状玻尔兹曼机模型的第一层网络的参数W^truth,1、a^truth和b^truth，

再将形状玻尔兹曼机模型的第一层网络的输出h^truth,1作为形状玻尔兹曼机模型的第二层网络的输入，同样采用现有的对比散度算法训练形状玻尔兹曼机模型的第二层网络，得到形状玻尔兹曼机模型的第二层网络的输出h^truth,2及形状玻尔兹曼机模型的第二层网络的参数W^truth,2和c^truth，

最后采用现有的平均场估计方法对W^truth,1、a^truth、b^truth、W^truth,2和c^truth进行微调优化，将微调优化后对应得到的

和

中的方格的总个数，

在本实施例中，Penn-FudanPedestrians数据集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的方格的总个数Z＝900，Caltech-UCSD Birds 200数据集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的方格的总个数Z＝1024，符号

为向上取整符号，1≤n_m'≤N_m'，N_m'表示

中的超像素区域节点的总个数，N_m'>1，在具体实施时一般可将一幅图像分割成50个以上的超像素区域节点，

表示

中的第n_m'个掩膜区域的区域标签，

表示

中与

中的第n_m'个掩膜区域

对应的区域

中属于

中的第z个方格

的面积占

的面积的比例，

表示

与

相交的面积，符号“∩”为相交运算符号，

表示

的面积，

表示训练集中的任一幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的所有方格的虚拟标签构成的虚拟标签集合，K表示形状玻尔兹曼机模型的第一层隐节点中的隐节点的总个数，K>1，在本实施例中，Penn-Fudan Pedestrians数据集中第一层隐节点中的隐节点的总个数K＝500，Caltech-UCSD Birds 200数据集中第一层隐节点中的隐节点的总个数K＝400，

表示

表示

的偏置值，U表示形状玻尔兹曼机模型的第二层隐节点中的隐节点的总个数，U>1，在本实施例中，Penn-Fudan Pedestrians数据集中第二层隐节点中的隐节点的总个数U＝200，Caltech-UCSD Birds 200数据集中第二层隐节点中的隐节点的总个数U＝100，

表示形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的偏置值。

在此具体实施例中，步骤④中

中的方格的获取过程为：将

分割成多个相同尺寸大小的方格，若分割方格到

中的方格的总个数Z的值在取值范围

内。

和

作为条件随机场与形状玻尔兹曼机联合模型(联合模型图如图1所示)的初始化参数；然后将训练集中的所有原始图像对应的超像素区域节点图像的特征集合及对应的掩膜图像所对应的区域标签集合，输入到条件随机场与形状玻尔兹曼机联合模型

的条件似然概率

应满足的条件为：

最后通过现有的平均场估计方法迭代优化

使得

和

得到训练好的条件随机场与形状玻尔兹曼机联合模型。

⑥将测试集中的所有原始图像对应的超像素区域节点图像的特征集合，输入到训练好的条件随机场与形状玻尔兹曼机联合模型中，训练好的条件随机场与形状玻尔兹曼机联合模型输出测试集中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签；然后将测试集中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签，对应作为测试集中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点标记，对于测试集中的第m”幅原始图像，将该原始图像对应的掩膜图像中的第n_m”个掩膜区域的区域标签作为该原始图像对应的超像素区域节点图像中的第n_m”个超像素区域节点的节点标记，其中，1≤m”≤M-M'，1≤n_m”≤N_m”，N_m”表示测试集中的第m”幅原始图像对应的超像素区域节点图像中的超像素区域节点的总个数；再将测试集中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点标记，作为该超像素区域节点中的每个像素点的标记，即若测试集中的第m”幅原始图像对应的超像素区域节点图像中的第n_m”个超像素区域节点的节点标记为1，则将第n_m”个超像素区域节点中的每个像素点的标记都确定为1，得到测试集中的每幅原始图像对应的超像素区域节点图像相应的标记图。

为了进一步验证本发明方法的可行性与有效性，对本发明方法进行实验。

本发明方法对Penn-Fudan Pedestrians数据集和Caltech-UCSD Birds 200数据集中的每幅原始图像对应的超像素区域节点图像中的每个像素点进行标记，来验证标记效果。Penn-Fudan Pedestrians数据集共有170幅原始图像，每幅原始图像中包含有至少一个行人，利用行人检测框标记信息提取出Penn-Fudan Pedestrians数据集中的每幅原始图像中的行人的检测框部分的图像，得到423幅单个行人图像，并将这些单个行人图像的尺寸大小统一为128×256像素，对从Penn-Fudan Pedestrians数据集中提取的423幅单个行人图像进行镜像对称复制形成846幅单个行人图像的数据集，其中500幅图像及每幅图像对应的掩膜图像构成训练集，346幅图像及每幅图像对应的掩膜图像构成测试集。Caltech-UCSDBirds 200数据集中包含有200类鸟类的6033幅原始图像，原始图像拥有粗糙的分割掩膜，因为其掩膜精确度不够，所以采用YANG J,SAFAR S,YANG M H.Max-Margin Boltzmannmachines for object segmentation[C]//IEEE Conference on Computer Vision andPattern Recognition(杨集美、西蒙·萨法、杨明轩，用于对象分割的最大间隔玻尔兹曼机[C]//IEEE计算机视觉与模式识别会议)手动标记出该数据集中的每幅原始图像的准确掩膜。利用检测框标记信息提取出Caltech-UCSD Birds 200数据集中的每幅原始图像中的检测框部分的图像，并将提取出的图像的尺寸大小统一为128×128像素，其中3033幅提取出的图像及各自对应的掩膜图像构成训练集，3000幅提取出的图像及各自对应的掩膜图像构成测试集。

采用标准的条件随机场模型、标准的空间条件随机场(SCRF)、标准的形状玻尔兹曼机模型以及本发明方法分别对上述测试集中的每幅图像对应的超像素区域节点图像中的每个像素点进行标记。上述各方法在CPU为Intel Xeon E5-2650 2.60GHz，内存为128GB的计算机上进行实验。标记准确率的衡量标准如下：

其中，avg_truth表示测试集中的所有图像对应的超像素区域节点图像中标记准确的超像素区域节点的总个数与测试集中的所有图像对应的超像素区域节点图像中的超像素区域节点的总个数的比例，M”表示测试集中的图像的总幅数，M”＝M-M'，Y_m”表示测试集中的第m”幅图像对应的超像素区域节点图像中的超像素区域节点的节点标记结果，OR为异或操作，GT_m”表示测试集中的第m”幅图像对应的超像素区域节点图像中的超像素区域节点的理论标记值，理论标记值的计算方式为本发明方法的步骤①中给出的确定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签的方式，即根据测试集中的每幅图像对应的掩膜图像中的每个掩膜区域中属于前景的像素点的总个数与整个掩膜区域中的像素点的总个数的比例来确定测试集中的每幅图像对应的掩膜图像中的每个掩膜区域的区域标签，再映射到对应的超像素区域节点图像中的超像素区域节点，作为对应的超像素区域节点图像中的超像素区域节点的理论标记值，超像素区域节点图像中的每个超像素区域节点的理论标记值作为该超像素区域节点中的每个像素点的理论标记值。

针对Penn-Fudan Pedestrians数据集，经过多次实验证明，本发明方法设置参数Z＝900、Q＝529、K＝500、U＝200时具有较优的效果。通过10次交叉实验，每次实验的训练集中的500幅图像和测试集中的346幅图像都不完全相同，通过

得到每次实验的标记准确率并通过平均得到本发明方法的最终实验准确率87.90％。在相同实验情况下，相对于标准的条件随机场模型、标准的空间条件随机场(SCRF)、标准的形状玻尔兹曼机模型得到的标记图的标记准确率上都有提高，具体对比结果见表1所列。表1中的误识降低率表示空间条件随机场(SCRF)、形状玻尔兹曼机模型和本发明方法相较于标准的条件随机场模型的错误率减少的程度。图3a给出了根据Penn-Fudan Pedestrians数据集构建的测试集中的一幅图像，图3b给出了利用条件随机场模型对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图，图3c给出了利用空间条件随机场对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图，图3d给出了利用本发明方法对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图，图3e给出了图3a所示的图像对应的标准掩膜图像；图4a给出了根据Penn-Fudan Pedestrians数据集构建的测试集中的另一幅图像，图4b给出了利用条件随机场模型对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图，图4c给出了利用空间条件随机场对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图，图4d给出了利用本发明方法对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图，图4e为图4a所示的图像对应的标准掩膜图像。由于本发明方法结合了对象的整体形状先验，因此相对于未增加对象的整体形状先验的条件随机场模型和空间条件随机场，本发明方法能够调整明显违背对象形状信息的错误标记，从图3a至图3e以及图4a至图4e中可以明显看出，在Penn-Fudan Pedestrians数据集上本发明方法的标记效果与标准掩膜图像图3e，4e最为接近，即本发明方法的标记效果要比条件随机场模型和空间条件随机场的标记效果好。

表1 标准的条件随机场模型、空间条件随机场(SCRF)、形状玻尔兹曼机模型以及本发明方法在Penn-Fudan Pedestrians数据集上的标记准确率对比

针对Caltech-UCSD Birds 200数据集，经过多次实验证明，本发明方法设置参数Z＝1024、Q＝529、K＝400、U＝100时具有较优的效果。通过10次交叉实验，每次实验的训练集中的3033幅图像和测试集中的3000幅图像都不完全相同，通过

得到每次实验的标记准确率并通过平均得到本发明方法的最终实验准确率83.34％。在相同实验情况下，相对于标准的条件随机场模型、空间条件随机场(SCRF)、形状玻尔兹曼机模型得到的标记图的标记准确率上都有提高，具体对比结果见表2所列。表2中的误识降低率表示空间条件随机场(SCRF)、形状玻尔兹曼机模型和本发明方法相较于标准的条件随机场模型的错误率减少的程度。图5a给出了根据Caltech-UCSD Birds 200数据集构建的测试集中的一幅图像，图5b给出了利用条件随机场模型对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图，图5c给出了利用空间条件随机场对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图，图5d给出了利用本发明方法对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图，图5e给出了图5a所示的图像对应的标准掩膜图像；图6a给出了根据Caltech-UCSD Birds 200数据集构建的测试集中的另一幅图像，图6b给出了利用条件随机场模型对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图，图6c给出了利用空间条件随机场对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图，图6d给出了利用本发明方法对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图，图6e给出了图6a所示的图像对应的标准掩膜图像。由于本发明方法结合了对象的整体形状先验，因此相对于未增加对象的整体形状先验的条件随机场模型和空间条件随机场，本发明方法能够调整明显违背对象形状信息的错误标记，从图5a至图5e以及图6a至图6e中可以明显看出，在Caltech-UCSD Birds 200数据集上本发明方法的标记效果与标准掩膜图像图5e，6e最为接近，即本发明方法的标记效果要比条件随机场模型和空间条件随机场的标记效果好。

表2 标准的条件随机场模型、空间条件随机场(SCRF)、形状玻尔兹曼机模型以及本发明方法在Caltech-UCSD Birds 200数据集上的标记准确率对比

对本发明方法的计算复杂度进行分析。条件随机场模型使用置信度传播(loopybelief propagation)算法预测一幅原始图像对应的超像素区域节点图像中的所有像素点标记的时间复杂度是O(EL^C)，E为条件随机场图模型中边的总数量，边数与超像素区域节点的个数N'直接关联，使用Ncut算法估算E为4×N'，L为标签的数量，C为超像素区域节点的平均大小，即

width表示原始图像的宽度，height表示原始图像的高度，width×height表示每幅原始图像大小，由此可得条件随机场预测一幅图像的时间复杂度为

对于形状玻尔兹曼机模型的时间复杂度分为正向学习阶段时间复杂度和反向学习阶段时间复杂度，正向学习阶段时间复杂度为O(Z×K×U×t)，反向学习阶段时间复杂度为O(Z×K×U×CD₁×CD₂)，所以形状玻尔兹曼机模型的时间复杂度为O(Z×K×U×(CD₁+CD₂+t))，其中，Z表示每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的方格的总个数即形状玻尔兹曼机模型的虚拟输入节点个数，K表示第一层隐节点中隐节点的总个数，U表示第二层隐节点中的隐节点的总个数，CD₁和CD₂表示对比散度算法的迭代次数，t表示形状玻尔兹曼机模型的迭代次数。因为条件随机场与形状玻尔兹曼机联合模型的能量函数是条件随机场与形状玻尔兹曼机的能量函数的叠加，即条件随机场与形状玻尔兹曼机的能量函数为线性关系，所以条件随机场与形状玻尔兹曼机联合模型的整体时间复杂度为

即条件随机场与形状玻尔兹曼机联合模型在标记准确率提高的情况下，整体时间复杂度并没有提高。