CN106570874B - 一种结合图像局部约束与对象全局约束的图像标记方法 - Google Patents
一种结合图像局部约束与对象全局约束的图像标记方法 Download PDFInfo
- Publication number
- CN106570874B CN106570874B CN201610987762.4A CN201610987762A CN106570874B CN 106570874 B CN106570874 B CN 106570874B CN 201610987762 A CN201610987762 A CN 201610987762A CN 106570874 B CN106570874 B CN 106570874B
- Authority
- CN
- China
- Prior art keywords
- image
- node
- super
- mask
- pixel region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000012549 training Methods 0.000 claims abstract description 72
- 238000012360 testing method Methods 0.000 claims description 47
- 238000002372 labelling Methods 0.000 claims description 38
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 13
- 238000003709 image segmentation Methods 0.000 claims description 9
- 241000287196 Asthenes Species 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000006386 neutralization reaction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 15
- 238000003909 pattern recognition Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 241000271566 Aves Species 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 239000003550 marker Substances 0.000 description 3
- 239000002904 solvent Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 235000009811 Momordica charantia Nutrition 0.000 description 1
- 244000302512 Momordica charantia Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种结合图像局部约束与对象全局约束的图像标记方法,其获取每幅原始图像的超像素区域节点图像,且在每幅原始图像对应的掩膜图像中找出与对应的超像素区域节点图像中的每个超像素区域节点相对应的掩膜区域,并进行标记;然后利用超像素区域节点图像的特征集合以及掩膜图像所对应的区域标签集合来训练条件随机场模型,利用掩膜图像中的所有掩膜区域标记后得到的图像所对应的虚拟标签集合来训练形状玻尔兹曼机模型,且两者通过方格划分技术将条件随机场模型与形状玻尔兹曼机模型有效结合起来,使得图像局部约束与对象整体约束紧密结合,提高了图像标记的准确率;且其能适用于数据集较小且图像的分辨率较低的情况,计算复杂度低。
Description
技术领域
本发明涉及一种图像标记技术,尤其是涉及一种结合图像局部约束与对象全局约束的图像标记方法。
背景技术
图像分割与图像标记是计算机视觉中的核心技术,现如今很多计算机视觉中的高层应用都依赖于准确的图像分割结果或者图像标记结果,如对象识别、场景分析应用等。由于图像存在遮挡、阴影、目标与背景特征相似等问题,因此使得图像分割与图像标记一直是计算机视觉中最具有挑战性的任务之一。
作为多种视觉应用的基础和富有挑战性的任务,图像标记技术在计算机视觉领域一直广受关注,如何更好的对图像进行标记,国内外相关机构进行了深入地研究。近年来,由于条件随机场(Conditional Random Field,CRF)能够有效的描述图像局部约束关系,因此条件随机场常常被用于图像标记任务。如:Xuming He,Richard S.Zemel,M.A.Carreira-Perpinan,et al.Multiscale conditional random fields for image labeling[C]//Computer Vision and Pattern Recognition,2004(何旭明、理查德·泽梅尔、米格尔·卡雷拉,基于多尺度条件随机场的图像标记[C]//计算机视觉与模式识别大会,2004),其提出了用条件随机场分割静态图像,通过引入隐随机变量加入更多的上下文知识以便进行图像分割。又如:Lei Zhang.A unified probabilistic graphical model and itsapplication to image segmentation[C]//Rensselaer Polytechnic Institute,2009(张磊,一种统一的概率图模型及其在图像分割中的应用[C]//伦斯勒理工学院,2009),其提出了将超像素方法引入条件随机场模型中,通过一种各向异性扩散算法将图像过分割成超像素区域,然后将超像素区域作为条件随机场图模型中的节点,通过参数估计获得给定测试图像的最优标记。条件随机场有效的描述了图像局部约束关系,而对要标记的对象的全局约束关系的描述具有局限性,例如当对象的部分区域边界模糊时,条件随机场仅仅利用了图像局部约束关系,很可能将表观特征相似的背景错标记成对象部分,或者反之,因此引入对象全局约束关系来补充条件随机场的局限很有必要。对象形状约束信息可以作为对象全局约束关系的一种表现形式,最近很多文章都采用了受限的玻尔兹曼机(RBM)或者其扩展模型来获取对象形状约束信息。如:Salakhutdinov R,Hinton G.Deep BoltzmannMachines[J].Journal of Machine Learning Research,2009,5(2):1967–2006(鲁斯兰·萨拉赫丁诺夫、杰弗里·希尔顿,深度玻尔兹曼机[J].机器学习研究杂志,2009,第5期(2):1967-2006),其在玻尔兹曼机的基础上提出了深度玻尔兹曼机(DBM),深度玻尔兹曼机是一个多层的玻尔兹曼机模型,通过多层的玻尔兹曼机进行特征提取获得目标对象的高层语义特征如形状、姿态等。又如:Eslami S M,Heess N,Williams C K,et al.The ShapeBoltzmann Machine:A Strong Model of Object Shape[C]//IEEE Conference onComputer Vision&Pattern Recognition.2012:406-413(阿里·伊斯拉米、黒斯·尼古拉斯、查尔斯肯尼·威廉姆斯,形状玻尔兹曼机:一种鲁棒性强的形状建模模型[C],IEEE计算机视觉与模式识别会议,2012:406-413),其提出的形状玻尔兹曼机(ShapeBM)在对象形状建模上取得了较好效果。用对象形状约束来完成图像标记仅仅利用了对象整体约束信息,可能会造成图像的一些局部信息的丢失,不能达到较好的标记效果。
为了获得较好的图像标记效果,近年来有许多方法也在图像局部约束和对象全局约束相结合上做了很多工作。Kae A,Sohn K,Lee H,et al.Augmenting CRFs withBoltzmann Machine Shape Priors for Image Labeling[C]//Computer Vision andPattern Recognition,2013(安德烈·凯、索恩、洪拉克·李、埃里克·米勒,条件随机场结合玻尔兹曼机形状先验的图像标记[C]//计算机视觉与模式识别大会,2013),其提出通过玻尔兹曼机模型学习人脸形状先验特征作为对象全局约束,并借助于条件随机场分割框架能够融入其他分割线索的特性,将所学到的形状先验融入到条件随机场分割框架中,获得较好的分割与标记效果;该方法要求有比较大的数据集,这样才能使得玻尔兹曼机训练充分得到较好的效果,并且该方法要求数据集中的图像的分辨率较高,以适用于人脸图像的标记。Chen F,Yu H,Hu R,et al.Deep Learning Shape Priors for ObjectSegmentation[C]//Computer Vision and Pattern Recognition,2013(陈飞、于慧敏、胡浩基、曾勋勋,深度学习形状先验的图像分割[C]//计算机视觉与模式识别大会,2013),其提出将深度玻尔兹曼机模型学到的对象形状先验结合到一个变分分割模型中,通过求其能量函数最小达到分割的效果;该方法将深度学习模型结合到变分分割框架中,造成计算复杂度很大。
基于以上原因,有必要引入一种结合图像局部约束与对象全局约束的图像标记方法,要求该图像标记方法能适用于数据集较小且数据集中的图像的分辨率较低的情况,并且要求该图像标记方法的计算复杂度适中。
发明内容
本发明所要解决的技术问题是提供一种结合图像局部约束与对象全局约束的图像标记方法,其通过形状玻尔兹曼机引入对象全局约束来补充条件随机场在对象标记上的局限性,使得图像标记结果更加准确,其能适用于数据集较小且数据集中的图像的分辨率较低的情况,并且计算复杂度低。
本发明解决上述技术问题所采用的技术方案为:一种结合图像局部约束与对象全局约束的图像标记方法,其特征在于包括以下步骤:
①选取一个图像库,该图像库中包含有M幅原始图像及每幅原始图像对应的掩膜图像,将图像库中的第m幅原始图像记为将对应的掩膜图像记为然后采用超像素分割方法对图像库中的每幅原始图像进行超像素分割,得到图像库中的每幅原始图像对应的超像素区域节点图像,将对应的超像素区域节点图像记为将中的第nm个超像素区域节点记为接着在图像库中的每幅原始图像对应的掩膜图像中找出与对应的超像素区域节点图像中的每个超像素区域节点相对应的掩膜区域,对于在中找出与中的每个超像素区域节点相对应的掩膜区域,将在中找出的与相对应的掩膜区域记为再根据图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域中属于前景的像素点的总个数与整个掩膜区域中的像素点的总个数的比例,来确定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,将的区域标签记为最后根据图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,判定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域为前景区域或为背景区域,对于若则将判定为前景区域,若则将判定为背景区域;并将图像库中的每幅原始图像对应的掩膜图像中的所有掩膜区域的区域标签构成一个区域标签集合,将中的所有掩膜区域的区域标签构成的区域标签集合记为将中的所有掩膜区域标记后得到的图像记为其中,M≥200,1≤m≤M,1≤nm≤Nm,Nm表示中的超像素区域节点的总个数,Nm>1;
②提取图像库中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点特征,将的节点特征记为然后将图像库中的每幅原始图像对应的超像素区域节点图像中的所有超像素区域节点的节点特征构成一个节点特征集合,将中的所有超像素区域节点的节点特征构成的节点特征集合记为其中,的维数为1×192,表示的颜色直方图特征,表示的纹理直方图特征,表示的位置概率直方图特征,和的维数为1×64;
并提取图像库中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点与其相邻的各个超像素区域节点之间的连接边特征,将与其相邻的第个超像素区域节点之间的连接边特征记为然后将图像库中的每幅原始图像对应的超像素区域节点图像中的所有超像素区域节点对应的连接边特征构成一个连接边特征集合,将中的所有超像素区域节点对应的连接边特征构成的连接边特征集合记为其中,与相邻的超像素区域节点是指与有共同边界的超像素区域节点, 表示中与相邻的超像素区域节点的总个数,的维数为1×3,表示与其相邻的第个超像素区域节点的共同边界上的所有像素点的PB值之和,表示的颜色直方图和与相邻的第个超像素区域节点的颜色直方图之间的欧氏距离,表示的纹理直方图和与相邻的第个超像素区域节点的纹理直方图之间的卡方距离;
③将图像库中选取的M'幅原始图像及选取的每幅原始图像对应的掩膜图像构成训练集,将训练集中的第m'幅原始图像记为将对应的掩膜图像记为将对应的超像素区域节点图像记为将中的所有掩膜区域标记后得到的图像记为并将图像库中剩余的M-M'原始图像及剩余的每幅原始图像对应的掩膜图像构成测试集;然后将训练集中的所有原始图像对应的超像素区域节点图像的特征集合及对应的掩膜图像所对应的区域标签集合,输入到条件随机场模型Ecrf(Ytruth,Xorg)=Enode(Ytruth,Xnode)+Eedge(Ytruth,Xedge)中,通过条件随机场模型计算得到训练集中的每幅原始图像对应的超像素区域节点图像的能量,将的能量记为接着根据热统计力学,确定训练集中的每幅原始图像对应的超像素区域节点图像的条件似然概率应满足的条件,的条件似然概率应满足的条件为:之后将训练集中的所有原始图像对应的超像素区域节点图像的最大条件似然概率的表示式描述为:最后优化当训练集中的所有原始图像对应的超像素区域节点图像的能量之和最小时即使得最大时输出条件随机场模型的统一权重参数α和β,得到训练好的条件随机场模型;其中,0.5M≤M'≤0.9M,1≤m'≤M',Ytruth、Xorg、Xnode和Xedge均为条件随机场模型的输入参数,Ytruth表示训练集中的任一幅原始图像对应的掩膜图像所对应的区域标签集合,Xorg表示训练集中的任一幅原始图像对应的超像素区域节点图像的特征集合,Xnode表示训练集中的任一幅原始图像对应的超像素区域节点图像所对应的节点特征集合,Xedge表示训练集中的任一幅原始图像对应的超像素区域节点图像所对应的连接边特征集合,Enode(Ytruth,Xnode)表示条件随机场模型的一阶势,Eedge(Ytruth,Xedge)表示条件随机场模型的二阶势,表示所对应的区域标签集合,表示的特征集合,表示所对应的节点特征集合,表示所对应的连接边特征集合,exp()表示以自然基数e为底的指数函数,max{}表示取最大值函数;
④获取训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的每个方格的虚拟标签,将中的第z个方格的虚拟标签记为 然后将训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的所有方格的虚拟标签构成一个虚拟标签集合,将中的所有方格的虚拟标签构成的虚拟标签集合记为接着将训练集中的所有原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像所对应的虚拟标签集合,输入到形状玻尔兹曼机模型中;之后采用对比散度算法训练形状玻尔兹曼机模型的第一层网络,得到形状玻尔兹曼机模型的第一层网络的输出htruth,1及形状玻尔兹曼机模型的第一层网络的参数Wtruth,1、atruth和btruth, 再将形状玻尔兹曼机模型的第一层网络的输出htruth,1作为形状玻尔兹曼机模型的第二层网络的输入,同样采用对比散度算法训练形状玻尔兹曼机模型的第二层网络,得到形状玻尔兹曼机模型的第二层网络的输出htruth,2及形状玻尔兹曼机模型的第二层网络的参数Wtruth,2和ctruth,最后采用平均场估计方法对Wtruth,1、atruth、btruth、Wtruth,2和ctruth进行微调优化,将微调优化后对应得到的和作为形状玻尔兹曼机模型的最终参数,得到训练好的形状玻尔兹曼机模型;其中,1≤z≤Z,Z表示中的方格的总个数,符号为向上取整符号,1≤nm'≤Nm',Nm'表示中的超像素区域节点的总个数,Nm'>1,表示中的第nm'个掩膜区域的区域标签,表示中与中的第nm'个掩膜区域对应的区域中属于中的第z个方格的面积占的面积的比例, 表示与相交的面积,符号“∩”为相交运算符号,表示的面积,表示训练集中的任一幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的所有方格的虚拟标签构成的虚拟标签集合,K表示形状玻尔兹曼机模型的第一层隐节点中的隐节点的总个数,K>1,表示训练集中的任一幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的第z个方格的虚拟标签,表示与形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的连接权重,表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的值,表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的偏置值,表示的偏置值,U表示形状玻尔兹曼机模型的第二层隐节点中的隐节点的总个数,U>1,表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点与形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的连接权重,表示形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的值,表示形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的偏置值;
⑤将训练好的条件随机场模型中的参数α和β及训练好的形状玻尔兹曼机模型中的参数和作为条件随机场与形状玻尔兹曼机联合模型的初始化参数;然后将训练集中的所有原始图像对应的超像素区域节点图像的特征集合及对应的掩膜图像所对应的区域标签集合,输入到条件随机场与形状玻尔兹曼机联合模型中;接着根据热统计力学,确定训练集中的每幅原始图像对应的超像素区域节点图像的条件似然概率应满足的条件,的条件似然概率应满足的条件为:之后将训练集中的所有原始图像对应的超像素区域节点图像的最大条件似然概率的表示式描述为:最后通过平均场估计方法迭代优化使得最大时输出条件随机场与形状玻尔兹曼机联合模型的最终参数αfinal、βfinal、和得到训练好的条件随机场与形状玻尔兹曼机联合模型;
⑥将测试集中的所有原始图像对应的超像素区域节点图像的特征集合,输入到训练好的条件随机场与形状玻尔兹曼机联合模型中,训练好的条件随机场与形状玻尔兹曼机联合模型输出测试集中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签;然后将测试集中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,对应作为测试集中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点标记;再将测试集中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点标记,作为该超像素区域节点中的每个像素点的标记,得到测试集中的每幅原始图像对应的超像素区域节点图像相应的标记图。
所述的步骤③中其中,1≤nm'≤Nm',Nm'表示中的超像素区域节点的总个数,Nm'>1,表示中的第nm'个掩膜区域的区域标签,1≤d≤192,表示中的第nm'个超像素区域节点的节点特征中的第d个元素,表示的权重,1≤q≤Q,Q表示中的方格的总个数,符号为向上取整符号,表示中的第q个方格中属于中的第nm'个超像素区域节点的面积占中的第nm'个超像素区域节点的面积的比例, 表示中的第q个方格与中的第nm'个超像素区域节点相交的面积,符号“∩”为相交运算符号,表示中的第nm'个超像素区域节点的面积;
所述的步骤③中其中,1≤jm'≤Jm',Jm'表示中与第nm'个超像素区域节点相邻的超像素区域节点的总个数,表示中与第nm'个掩膜区域相邻的第jm'个掩膜区域的区域标签,表示中的第nm'个超像素区域节点与其相邻的第jm'个超像素区域节点之间的连接边特征中的第e个元素,表示的权重。
与现有技术相比,本发明的优点在于:
1)本发明方法有效结合了图像局部约束与对象整体约束,并且结合是基于超像素的,其首先对图像库中的每幅原始图像进行超像素分割,得到图像库中的每幅原始图像对应的超像素区域节点图像,并且在图像库中的每幅原始图像对应的掩膜图像中找出与对应的超像素区域节点图像中的每个超像素区域节点相对应的掩膜区域,并对掩膜区域进行标记;然后利用超像素区域节点图像的特征集合以及掩膜图像所对应的区域标签集合来训练条件随机场模型,利用掩膜图像中的所有掩膜区域标记后得到的图像所对应的虚拟标签集合来训练形状玻尔兹曼机模型,并且两者通过一个方格划分的技术,将条件随机场模型与形状玻尔兹曼机模型有效结合起来,使得图像局部约束与对象整体约束紧密结合,有效的解决了当对象的部分区域边界模糊时,条件随机场仅仅利用了图像局部约束关系,很可能将表观特征相似的背景错标记成对象部分以及仅使用对象形状约束来完成图像标记,仅仅利用了对象整体约束信息,可能会造成图像的一些局部信息的丢失,不能达到较好的标记效果等问题,提高了图像标记的准确率。
2)本发明方法与现有的基于条件随机场与受限的玻尔兹曼机结合的方法相比,由于形状玻尔兹曼机相较于受限的玻尔兹曼机能适用于图像数据集较小且图像数据集中的图像的分辨率较低的情况,使得本发明方法的适用性更广。
3)本发明方法与现有的将深度玻尔兹曼机模型学到的对象形状先验结合到一个变分分割模型的方法相比,本发明方法的计算都是在超像素区域节点上进行的,计算的复杂性相对较低。
附图说明
图1为本发明方法中所采用的条件随机场与形状玻尔兹曼机联合模型的模型图;
图2为形状玻尔兹曼机模型的模型图;
图3a为根据Penn-Fudan Pedestrians数据集构建的测试集中的一幅图像;
图3b为利用条件随机场模型对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图3c为利用空间条件随机场对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图3d为利用本发明方法对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图3e为图3a所示的图像对应的标准掩膜图像;
图4a为根据Penn-Fudan Pedestrians数据集构建的测试集中的另一幅图像;
图4b为利用条件随机场模型对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图4c为利用空间条件随机场对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图4d为利用本发明方法对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图4e为图4a所示的图像对应的标准掩膜图像;
图5a为根据Caltech-UCSD Birds 200数据集构建的测试集中的一幅图像;
图5b为利用条件随机场模型对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图5c为利用空间条件随机场对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图5d为利用本发明方法对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图5e为图5a所示的图像对应的标准掩膜图像;
图6a为根据Caltech-UCSD Birds 200数据集构建的测试集中的另一幅图像;
图6b为利用条件随机场模型对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图6c为利用空间条件随机场对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图6d为利用本发明方法对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图6e为图6a所示的图像对应的标准掩膜图像;
图7为本发明方法的流程框图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种结合图像局部约束与对象全局约束的图像标记方法,其流程框图如图7所示,其包括以下步骤:
①选取一个图像库,该图像库中包含有M幅原始图像及每幅原始图像对应的掩膜图像,将图像库中的第m幅原始图像记为将对应的掩膜图像记为然后采用超像素分割方法对图像库中的每幅原始图像进行超像素分割,得到图像库中的每幅原始图像对应的超像素区域节点图像,将对应的超像素区域节点图像记为将中的第nm个超像素区域节点记为接着在图像库中的每幅原始图像对应的掩膜图像中找出与对应的超像素区域节点图像中的每个超像素区域节点相对应的掩膜区域,对于在中找出与中的每个超像素区域节点相对应的掩膜区域,将在中找出的与相对应的掩膜区域记为再根据图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域中属于前景的像素点的总个数与整个掩膜区域中的像素点的总个数的比例,来确定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,将的区域标签记为最后根据图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,判定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域为前景区域或为背景区域,对于若则将判定为前景区域,若则将判定为背景区域;并将图像库中的每幅原始图像对应的掩膜图像中的所有掩膜区域的区域标签构成一个区域标签集合,将中的所有掩膜区域的区域标签构成的区域标签集合记为将中的所有掩膜区域标记后得到的图像记为其中,M≥200,在本实施例中对于Penn-Fudan Pedestrians数据集取M=846,对于Caltech-UCSD Birds 200数据集取M=6033,1≤m≤M,1≤nm≤Nm,Nm表示中的超像素区域节点的总个数,Nm>1,在具体实施时一般可将一幅图像分割成50个以上的超像素区域节点。
②提取图像库中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点特征,将的节点特征记为然后将图像库中的每幅原始图像对应的超像素区域节点图像中的所有超像素区域节点的节点特征构成一个节点特征集合,将中的所有超像素区域节点的节点特征构成的节点特征集合记为其中,的维数为1×192,表示的颜色直方图特征,表示的纹理直方图特征,表示的位置概率直方图特征,和的维数为1×64;在此,通过现有的颜色直方图提取方法获取;通过现有的纹理直方图提取方法获取;通过采用Kae A,Sohn K,Lee H,et al.Augmenting CRFswith Boltzmann Machine Shape Priors for Image Labeling[C]//Computer Visionand Pattern Recognition,2013(安德烈·凯、索恩、洪拉克·李、埃里克·米勒,条件随机场结合玻尔兹曼机形状先验的图像标记[C]//计算机视觉与模式识别大会,2013)中提出的Normalized histogram of the proportion of a superpixel that falls within eachof the 8*8 grid elements on the image(超像素落在图像8×8网格中每个网格的比例的归一化直方图)技术来获取。
并提取图像库中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点与其相邻的各个超像素区域节点之间的连接边特征,将与其相邻的第个超像素区域节点之间的连接边特征记为 用来衡量与其相邻的第个超像素区域节点之间的相似度;然后将图像库中的每幅原始图像对应的超像素区域节点图像中的所有超像素区域节点对应的连接边特征构成一个连接边特征集合,将中的所有超像素区域节点对应的连接边特征构成的连接边特征集合记为其中,与相邻的超像素区域节点是指与有共同边界的超像素区域节点,表示中与相邻的超像素区域节点的总个数,的维数为1×3,表示与其相邻的第个超像素区域节点的共同边界上的所有像素点的PB值(posterior probability of aboundary,边界的后验概率)之和,表示的颜色直方图和与相邻的第个超像素区域节点的颜色直方图之间的欧氏距离,表示的纹理直方图和与相邻的第个超像素区域节点的纹理直方图之间的卡方距离;在此,采用Martin D R,Fowlkes C C,Malik J,et al.Learning to Detect Natural Image Boundaries UsingBrightness and Texture[C].Neural Information Processing Systems,2003(戴维·马丁、查尔斯·福尔克斯、吉腾德拉·马利克,利用亮度和纹理学习自然图像边界检测[C].神经信息处理系统,2003)中提出的方法来获取。
③将图像库中随机选取的M'幅原始图像及选取的每幅原始图像对应的掩膜图像构成训练集,将训练集中的第m'幅原始图像记为将对应的掩膜图像记为将对应的超像素区域节点图像记为将中的所有掩膜区域标记后得到的图像记为并将图像库中剩余的M-M'原始图像及剩余的每幅原始图像对应的掩膜图像构成测试集;然后将训练集中的所有原始图像对应的超像素区域节点图像的特征集合及对应的掩膜图像所对应的区域标签集合,输入到条件随机场模型Ecrf(Ytruth,Xorg)=Enode(Ytruth,Xnode)+Eedge(Ytruth,Xedge)中,通过条件随机场模型计算得到训练集中的每幅原始图像对应的超像素区域节点图像的能量,将的能量记为接着根据热统计力学,确定训练集中的每幅原始图像对应的超像素区域节点图像的条件似然概率应满足的条件,的条件似然概率应满足的条件为:之后将训练集中的所有原始图像对应的超像素区域节点图像的最大条件似然概率的表示式描述为:最后优化当训练集中的所有原始图像对应的超像素区域节点图像的能量之和最小时即使得最大时输出条件随机场模型的统一权重参数α和β,得到训练好的条件随机场模型;其中,0.5M≤M'≤0.9M,1≤m'≤M',Ytruth、Xorg、Xnode和Xedge均为条件随机场模型的输入参数,Ytruth表示训练集中的任一幅原始图像对应的掩膜图像所对应的区域标签集合,Xorg表示训练集中的任一幅原始图像对应的超像素区域节点图像的特征集合,Xnode表示训练集中的任一幅原始图像对应的超像素区域节点图像所对应的节点特征集合,Xedge表示训练集中的任一幅原始图像对应的超像素区域节点图像所对应的连接边特征集合,Enode(Ytruth,Xnode)表示条件随机场模型的一阶势,其用来表述训练集中的任一幅原始图像对应的超像素区域节点图像中的超像素区域节点属于前景或属于背景的似然,Eedge(Ytruth,Xedge)表示条件随机场模型的二阶势,其主要决定了训练集中的任一幅原始图像对应的超像素区域节点图像中相邻的两个超像素区域节点之间如何相互作用的,体现了对象局部约束,表示所对应的区域标签集合,表示的特征集合,表示所对应的节点特征集合,表示所对应的连接边特征集合,exp()表示以自然基数e为底的指数函数,max{}表示取最大值函数。
在此具体实施例中,步骤③中其中,1≤nm'≤Nm',Nm'表示中的超像素区域节点的总个数,Nm'>1,表示中的第nm'个掩膜区域的区域标签,1≤d≤192,表示中的第nm'个超像素区域节点的节点特征中的第d个元素,表示的权重,1≤q≤Q,Q表示中的方格的总个数,符号为向上取整符号,表示中的第q个方格中属于中的第nm'个超像素区域节点的面积占中的第nm'个超像素区域节点的面积的比例,表示中的第q个方格与中的第nm'个超像素区域节点相交的面积,符号“∩”为相交运算符号,表示中的第nm'个超像素区域节点的面积。在此,中的方格的获取过程为:将分割成多个相同尺寸大小的方格,若分割方格到的末端时存在不同尺寸大小的区域,那么将这些区域也分别作为方格,并使中的方格的总个数Q等于在本实施例中,所选的Penn-Fudan Pedestrians数据集中的每幅原始图像对应的超像素区域节点图像中的方格的总个数为529,所选的Caltech-UCSD Birds 200数据集中的每幅原始图像对应的超像素区域节点图像中的方格的总个数为441。
在此具体实施例中,步骤③中其中,1≤jm'≤Jm',Jm'表示中与第nm'个超像素区域节点相邻的超像素区域节点的总个数,表示中与第nm'个掩膜区域相邻的第jm'个掩膜区域的区域标签,表示中的第nm'个超像素区域节点与其相邻的第jm'个超像素区域节点之间的连接边特征中的第e个元素,表示的权重。
在此具体实施例中,步骤③中优化通过现有的置信度传播方法(loopy belief propagation)来实现,或通过结合了标准化算法LBFGS的平均场估计(mean-field approximation)方法来实现。
④由于训练集中的每幅原始图像对应的超像素区域节点图像中的超像素区域节点的总个数不固定,而形状玻尔兹曼机模型要求输入层的可见层节点数量是固定的,如果将训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域的区域标签作为形状玻尔兹曼机模型的输入,则会造成与形状玻尔兹曼机模型的输入节点不对应,因此本发明采用方格的虚拟标签来替代掩膜区域的区域标签作为形状玻尔兹曼机模型的输入。获取训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的每个方格的虚拟标签,将中的第z个方格的虚拟标签记为 然后将训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的所有方格的虚拟标签构成一个虚拟标签集合,将中的所有方格的虚拟标签构成的虚拟标签集合记为接着将训练集中的所有原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像所对应的虚拟标签集合,输入到形状玻尔兹曼机模型中,图2给出了形状玻尔兹曼机模型的模型图;之后采用现有的对比散度算法训练形状玻尔兹曼机模型的第一层网络,得到形状玻尔兹曼机模型的第一层网络的输出htruth,1及形状玻尔兹曼机模型的第一层网络的参数Wtruth,1、atruth和btruth, 再将形状玻尔兹曼机模型的第一层网络的输出htruth,1作为形状玻尔兹曼机模型的第二层网络的输入,同样采用现有的对比散度算法训练形状玻尔兹曼机模型的第二层网络,得到形状玻尔兹曼机模型的第二层网络的输出htruth,2及形状玻尔兹曼机模型的第二层网络的参数Wtruth,2和ctruth, 最后采用现有的平均场估计方法对Wtruth,1、atruth、btruth、Wtruth,2和ctruth进行微调优化,将微调优化后对应得到的和作为形状玻尔兹曼机模型的最终参数,得到训练好的形状玻尔兹曼机模型;其中,1≤z≤Z,Z表示中的方格的总个数,在本实施例中,Penn-FudanPedestrians数据集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的方格的总个数Z=900,Caltech-UCSD Birds 200数据集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的方格的总个数Z=1024,符号为向上取整符号,1≤nm'≤Nm',Nm'表示中的超像素区域节点的总个数,Nm'>1,在具体实施时一般可将一幅图像分割成50个以上的超像素区域节点,表示中的第nm'个掩膜区域的区域标签,表示中与中的第nm'个掩膜区域对应的区域中属于中的第z个方格的面积占的面积的比例,表示与相交的面积,符号“∩”为相交运算符号,表示的面积,表示训练集中的任一幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的所有方格的虚拟标签构成的虚拟标签集合,K表示形状玻尔兹曼机模型的第一层隐节点中的隐节点的总个数,K>1,在本实施例中,Penn-Fudan Pedestrians数据集中第一层隐节点中的隐节点的总个数K=500,Caltech-UCSD Birds 200数据集中第一层隐节点中的隐节点的总个数K=400,表示训练集中的任一幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的第z个方格的虚拟标签,表示与形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的连接权重,表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的值,表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的偏置值,表示的偏置值,U表示形状玻尔兹曼机模型的第二层隐节点中的隐节点的总个数,U>1,在本实施例中,Penn-Fudan Pedestrians数据集中第二层隐节点中的隐节点的总个数U=200,Caltech-UCSD Birds 200数据集中第二层隐节点中的隐节点的总个数U=100,表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点与形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的连接权重,表示形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的值,表示形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的偏置值。
⑤将训练好的条件随机场模型中的参数α和β及训练好的形状玻尔兹曼机模型中的参数和作为条件随机场与形状玻尔兹曼机联合模型(联合模型图如图1所示)的初始化参数;然后将训练集中的所有原始图像对应的超像素区域节点图像的特征集合及对应的掩膜图像所对应的区域标签集合,输入到条件随机场与形状玻尔兹曼机联合模型中;接着根据热统计力学,确定训练集中的每幅原始图像对应的超像素区域节点图像的条件似然概率应满足的条件,的条件似然概率应满足的条件为:之后将训练集中的所有原始图像对应的超像素区域节点图像的最大条件似然概率的表示式描述为:最后通过现有的平均场估计方法迭代优化使得最大时输出条件随机场与形状玻尔兹曼机联合模型的最终参数αfinal、βfinal、和得到训练好的条件随机场与形状玻尔兹曼机联合模型。
⑥将测试集中的所有原始图像对应的超像素区域节点图像的特征集合,输入到训练好的条件随机场与形状玻尔兹曼机联合模型中,训练好的条件随机场与形状玻尔兹曼机联合模型输出测试集中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签;然后将测试集中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,对应作为测试集中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点标记,对于测试集中的第m”幅原始图像,将该原始图像对应的掩膜图像中的第nm”个掩膜区域的区域标签作为该原始图像对应的超像素区域节点图像中的第nm”个超像素区域节点的节点标记,其中,1≤m”≤M-M',1≤nm”≤Nm”,Nm”表示测试集中的第m”幅原始图像对应的超像素区域节点图像中的超像素区域节点的总个数;再将测试集中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点标记,作为该超像素区域节点中的每个像素点的标记,即若测试集中的第m”幅原始图像对应的超像素区域节点图像中的第nm”个超像素区域节点的节点标记为1,则将第nm”个超像素区域节点中的每个像素点的标记都确定为1,得到测试集中的每幅原始图像对应的超像素区域节点图像相应的标记图。
为了进一步验证本发明方法的可行性与有效性,对本发明方法进行实验。
本发明方法对Penn-Fudan Pedestrians数据集和Caltech-UCSD Birds 200数据集中的每幅原始图像对应的超像素区域节点图像中的每个像素点进行标记,来验证标记效果。Penn-Fudan Pedestrians数据集共有170幅原始图像,每幅原始图像中包含有至少一个行人,利用行人检测框标记信息提取出Penn-Fudan Pedestrians数据集中的每幅原始图像中的行人的检测框部分的图像,得到423幅单个行人图像,并将这些单个行人图像的尺寸大小统一为128×256像素,对从Penn-Fudan Pedestrians数据集中提取的423幅单个行人图像进行镜像对称复制形成846幅单个行人图像的数据集,其中500幅图像及每幅图像对应的掩膜图像构成训练集,346幅图像及每幅图像对应的掩膜图像构成测试集。Caltech-UCSDBirds 200数据集中包含有200类鸟类的6033幅原始图像,原始图像拥有粗糙的分割掩膜,因为其掩膜精确度不够,所以采用YANG J,SAFAR S,YANG M H.Max-Margin Boltzmannmachines for object segmentation[C]//IEEE Conference on Computer Vision andPattern Recognition(杨集美、西蒙·萨法、杨明轩,用于对象分割的最大间隔玻尔兹曼机[C]//IEEE计算机视觉与模式识别会议)手动标记出该数据集中的每幅原始图像的准确掩膜。利用检测框标记信息提取出Caltech-UCSD Birds 200数据集中的每幅原始图像中的检测框部分的图像,并将提取出的图像的尺寸大小统一为128×128像素,其中3033幅提取出的图像及各自对应的掩膜图像构成训练集,3000幅提取出的图像及各自对应的掩膜图像构成测试集。
采用标准的条件随机场模型、标准的空间条件随机场(SCRF)、标准的形状玻尔兹曼机模型以及本发明方法分别对上述测试集中的每幅图像对应的超像素区域节点图像中的每个像素点进行标记。上述各方法在CPU为Intel Xeon E5-2650 2.60GHz,内存为128GB的计算机上进行实验。标记准确率的衡量标准如下:其中,avg_truth表示测试集中的所有图像对应的超像素区域节点图像中标记准确的超像素区域节点的总个数与测试集中的所有图像对应的超像素区域节点图像中的超像素区域节点的总个数的比例,M”表示测试集中的图像的总幅数,M”=M-M',Ym”表示测试集中的第m”幅图像对应的超像素区域节点图像中的超像素区域节点的节点标记结果,OR为异或操作,GTm”表示测试集中的第m”幅图像对应的超像素区域节点图像中的超像素区域节点的理论标记值,理论标记值的计算方式为本发明方法的步骤①中给出的确定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签的方式,即根据测试集中的每幅图像对应的掩膜图像中的每个掩膜区域中属于前景的像素点的总个数与整个掩膜区域中的像素点的总个数的比例来确定测试集中的每幅图像对应的掩膜图像中的每个掩膜区域的区域标签,再映射到对应的超像素区域节点图像中的超像素区域节点,作为对应的超像素区域节点图像中的超像素区域节点的理论标记值,超像素区域节点图像中的每个超像素区域节点的理论标记值作为该超像素区域节点中的每个像素点的理论标记值。
针对Penn-Fudan Pedestrians数据集,经过多次实验证明,本发明方法设置参数Z=900、Q=529、K=500、U=200时具有较优的效果。通过10次交叉实验,每次实验的训练集中的500幅图像和测试集中的346幅图像都不完全相同,通过得到每次实验的标记准确率并通过平均得到本发明方法的最终实验准确率87.90%。在相同实验情况下,相对于标准的条件随机场模型、标准的空间条件随机场(SCRF)、标准的形状玻尔兹曼机模型得到的标记图的标记准确率上都有提高,具体对比结果见表1所列。表1中的误识降低率表示空间条件随机场(SCRF)、形状玻尔兹曼机模型和本发明方法相较于标准的条件随机场模型的错误率减少的程度。图3a给出了根据Penn-Fudan Pedestrians数据集构建的测试集中的一幅图像,图3b给出了利用条件随机场模型对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图3c给出了利用空间条件随机场对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图3d给出了利用本发明方法对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图3e给出了图3a所示的图像对应的标准掩膜图像;图4a给出了根据Penn-Fudan Pedestrians数据集构建的测试集中的另一幅图像,图4b给出了利用条件随机场模型对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图4c给出了利用空间条件随机场对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图4d给出了利用本发明方法对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图4e为图4a所示的图像对应的标准掩膜图像。由于本发明方法结合了对象的整体形状先验,因此相对于未增加对象的整体形状先验的条件随机场模型和空间条件随机场,本发明方法能够调整明显违背对象形状信息的错误标记,从图3a至图3e以及图4a至图4e中可以明显看出,在Penn-Fudan Pedestrians数据集上本发明方法的标记效果与标准掩膜图像图3e,4e最为接近,即本发明方法的标记效果要比条件随机场模型和空间条件随机场的标记效果好。
表1 标准的条件随机场模型、空间条件随机场(SCRF)、形状玻尔兹曼机模型以及本发明方法在Penn-Fudan Pedestrians数据集上的标记准确率对比
针对Caltech-UCSD Birds 200数据集,经过多次实验证明,本发明方法设置参数Z=1024、Q=529、K=400、U=100时具有较优的效果。通过10次交叉实验,每次实验的训练集中的3033幅图像和测试集中的3000幅图像都不完全相同,通过得到每次实验的标记准确率并通过平均得到本发明方法的最终实验准确率83.34%。在相同实验情况下,相对于标准的条件随机场模型、空间条件随机场(SCRF)、形状玻尔兹曼机模型得到的标记图的标记准确率上都有提高,具体对比结果见表2所列。表2中的误识降低率表示空间条件随机场(SCRF)、形状玻尔兹曼机模型和本发明方法相较于标准的条件随机场模型的错误率减少的程度。图5a给出了根据Caltech-UCSD Birds 200数据集构建的测试集中的一幅图像,图5b给出了利用条件随机场模型对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图5c给出了利用空间条件随机场对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图5d给出了利用本发明方法对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图5e给出了图5a所示的图像对应的标准掩膜图像;图6a给出了根据Caltech-UCSD Birds 200数据集构建的测试集中的另一幅图像,图6b给出了利用条件随机场模型对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图6c给出了利用空间条件随机场对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图6d给出了利用本发明方法对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图6e给出了图6a所示的图像对应的标准掩膜图像。由于本发明方法结合了对象的整体形状先验,因此相对于未增加对象的整体形状先验的条件随机场模型和空间条件随机场,本发明方法能够调整明显违背对象形状信息的错误标记,从图5a至图5e以及图6a至图6e中可以明显看出,在Caltech-UCSD Birds 200数据集上本发明方法的标记效果与标准掩膜图像图5e,6e最为接近,即本发明方法的标记效果要比条件随机场模型和空间条件随机场的标记效果好。
表2 标准的条件随机场模型、空间条件随机场(SCRF)、形状玻尔兹曼机模型以及本发明方法在Caltech-UCSD Birds 200数据集上的标记准确率对比
对本发明方法的计算复杂度进行分析。条件随机场模型使用置信度传播(loopybelief propagation)算法预测一幅原始图像对应的超像素区域节点图像中的所有像素点标记的时间复杂度是O(ELC),E为条件随机场图模型中边的总数量,边数与超像素区域节点的个数N'直接关联,使用Ncut算法估算E为4×N',L为标签的数量,C为超像素区域节点的平均大小,即width表示原始图像的宽度,height表示原始图像的高度,width×height表示每幅原始图像大小,由此可得条件随机场预测一幅图像的时间复杂度为对于形状玻尔兹曼机模型的时间复杂度分为正向学习阶段时间复杂度和反向学习阶段时间复杂度,正向学习阶段时间复杂度为O(Z×K×U×t),反向学习阶段时间复杂度为O(Z×K×U×CD1×CD2),所以形状玻尔兹曼机模型的时间复杂度为O(Z×K×U×(CD1+CD2+t)),其中,Z表示每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的方格的总个数即形状玻尔兹曼机模型的虚拟输入节点个数,K表示第一层隐节点中隐节点的总个数,U表示第二层隐节点中的隐节点的总个数,CD1和CD2表示对比散度算法的迭代次数,t表示形状玻尔兹曼机模型的迭代次数。因为条件随机场与形状玻尔兹曼机联合模型的能量函数是条件随机场与形状玻尔兹曼机的能量函数的叠加,即条件随机场与形状玻尔兹曼机的能量函数为线性关系,所以条件随机场与形状玻尔兹曼机联合模型的整体时间复杂度为即条件随机场与形状玻尔兹曼机联合模型在标记准确率提高的情况下,整体时间复杂度并没有提高。
Claims (6)
1.一种结合图像局部约束与对象全局约束的图像标记方法,其特征在于包括以下步骤:
①选取一个图像库,该图像库中包含有M幅原始图像及每幅原始图像对应的掩膜图像,将图像库中的第m幅原始图像记为将对应的掩膜图像记为然后采用超像素分割方法对图像库中的每幅原始图像进行超像素分割,得到图像库中的每幅原始图像对应的超像素区域节点图像,将对应的超像素区域节点图像记为将中的第nm个超像素区域节点记为接着在图像库中的每幅原始图像对应的掩膜图像中找出与对应的超像素区域节点图像中的每个超像素区域节点相对应的掩膜区域,对于在中找出与中的每个超像素区域节点相对应的掩膜区域,将在中找出的与相对应的掩膜区域记为再根据图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域中属于前景的像素点的总个数与整个掩膜区域中的像素点的总个数的比例,来确定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,将的区域标签记为最后根据图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,判定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域为前景区域或为背景区域,对于若则将判定为前景区域,若则将判定为背景区域;并将图像库中的每幅原始图像对应的掩膜图像中的所有掩膜区域的区域标签构成一个区域标签集合,将中的所有掩膜区域的区域标签构成的区域标签集合记为 将中的所有掩膜区域标记后得到的图像记为其中,M≥200,1≤m≤M,1≤nm≤Nm,Nm表示中的超像素区域节点的总个数,Nm>1;
②提取图像库中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点特征,将的节点特征记为 然后将图像库中的每幅原始图像对应的超像素区域节点图像中的所有超像素区域节点的节点特征构成一个节点特征集合,将中的所有超像素区域节点的节点特征构成的节点特征集合记为 其中,的维数为1×192,表示的颜色直方图特征,表示的纹理直方图特征,表示的位置概率直方图特征,和的维数为1×64;
并提取图像库中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点与其相邻的各个超像素区域节点之间的连接边特征,将与其相邻的第个超像素区域节点之间的连接边特征记为 然后将图像库中的每幅原始图像对应的超像素区域节点图像中的所有超像素区域节点对应的连接边特征构成一个连接边特征集合,将中的所有超像素区域节点对应的连接边特征构成的连接边特征集合记为 其中,与相邻的超像素区域节点是指与有共同边界的超像素区域节点, 表示中与相邻的超像素区域节点的总个数, 的维数为1×3,表示与其相邻的第个超像素区域节点的共同边界上的所有像素点的PB值即边界的后验概率值之和,表示的颜色直方图和与相邻的第个超像素区域节点的颜色直方图之间的欧氏距离,表示的纹理直方图和与相邻的第个超像素区域节点的纹理直方图之间的卡方距离;
③将图像库中选取的M'幅原始图像及选取的每幅原始图像对应的掩膜图像构成训练集,将训练集中的第m'幅原始图像记为将对应的掩膜图像记为将对应的超像素区域节点图像记为将中的所有掩膜区域标记后得到的图像记为并将图像库中剩余的M-M'原始图像及剩余的每幅原始图像对应的掩膜图像构成测试集;然后将训练集中的所有原始图像对应的超像素区域节点图像的特征集合及对应的掩膜图像所对应的区域标签集合,输入到条件随机场模型Ecrf(Ytruth,Xorg)=Enode(Ytruth,Xnode)+Eedge(Ytruth,Xedge)中,通过条件随机场模型计算得到训练集中的每幅原始图像对应的超像素区域节点图像的能量,将的能量记为 接着根据热统计力学,确定训练集中的每幅原始图像对应的超像素区域节点图像的条件似然概率应满足的条件,的条件似然概率应满足的条件为:之后将训练集中的所有原始图像对应的超像素区域节点图像的最大条件似然概率的表示式描述为:最后优化当训练集中的所有原始图像对应的超像素区域节点图像的能量之和最小时即使得最大时输出条件随机场模型的统一权重参数α和β,得到训练好的条件随机场模型;其中,0.5M≤M'≤0.9M,1≤m'≤M',Ytruth、Xorg、Xnode和Xedge均为条件随机场模型的输入参数,Ytruth表示训练集中的任一幅原始图像对应的掩膜图像所对应的区域标签集合,Xorg表示训练集中的任一幅原始图像对应的超像素区域节点图像的特征集合,Xnode表示训练集中的任一幅原始图像对应的超像素区域节点图像所对应的节点特征集合,Xedge表示训练集中的任一幅原始图像对应的超像素区域节点图像所对应的连接边特征集合,Enode(Ytruth,Xnode)表示条件随机场模型的一阶势,Eedge(Ytruth,Xedge)表示条件随机场模型的二阶势,表示所对应的区域标签集合,表示的特征集合,表示所对应的节点特征集合,表示所对应的连接边特征集合,exp()表示以自然基数e为底的指数函数,max{}表示取最大值函数;
④获取训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的每个方格的虚拟标签,将中的第z个方格的虚拟标签记为 然后将训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的所有方格的虚拟标签构成一个虚拟标签集合,将中的所有方格的虚拟标签构成的虚拟标签集合记为 接着将训练集中的所有原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像所对应的虚拟标签集合,输入到形状玻尔兹曼机模型中;之后采用对比散度算法训练形状玻尔兹曼机模型的第一层网络,得到形状玻尔兹曼机模型的第一层网络的输出htruth,1及形状玻尔兹曼机模型的第一层网络的参数Wtruth,1、atruth和btruth, 再将形状玻尔兹曼机模型的第一层网络的输出htruth,1作为形状玻尔兹曼机模型的第二层网络的输入,同样采用对比散度算法训练形状玻尔兹曼机模型的第二层网络,得到形状玻尔兹曼机模型的第二层网络的输出htruth,2及形状玻尔兹曼机模型的第二层网络的参数Wtruth,2和ctruth,最后采用平均场估计方法对Wtruth,1、atruth、btruth、Wtruth,2和ctruth进行微调优化,将微调优化后对应得到的和作为形状玻尔兹曼机模型的最终参数,得到训练好的形状玻尔兹曼机模型;其中,1≤z≤Z,Z表示中的方格的总个数,符号为向上取整符号,1≤nm'≤Nm',Nm'表示中的超像素区域节点的总个数,Nm'>1,表示中的第nm'个掩膜区域的区域标签,表示中与中的第nm'个掩膜区域对应的区域中属于中的第z个方格的面积占的面积的比例, 表示与相交的面积,符号“∩”为相交运算符号,表示的面积,表示训练集中的任一幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的所有方格的虚拟标签构成的虚拟标签集合,K表示形状玻尔兹曼机模型的第一层隐节点中的隐节点的总个数,K>1,表示训练集中的任一幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的第z个方格的虚拟标签,表示与形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的连接权重,表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的值,表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的偏置值,表示的偏置值,U表示形状玻尔兹曼机模型的第二层隐节点中的隐节点的总个数,U>1,表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点与形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的连接权重,表示形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的值,表示形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的偏置值;
⑤将训练好的条件随机场模型中的参数α和β及训练好的形状玻尔兹曼机模型中的参数和作为条件随机场与形状玻尔兹曼机联合模型的初始化参数;然后将训练集中的所有原始图像对应的超像素区域节点图像的特征集合及对应的掩膜图像所对应的区域标签集合,输入到条件随机场与形状玻尔兹曼机联合模型中;接着根据热统计力学,确定训练集中的每幅原始图像对应的超像素区域节点图像的条件似然概率应满足的条件,的条件似然概率应满足的条件为:之后将训练集中的所有原始图像对应的超像素区域节点图像的最大条件似然概率的表示式描述为:最后通过平均场估计方法迭代优化使得最大时输出条件随机场与形状玻尔兹曼机联合模型的最终参数αfinal、βfinal、和得到训练好的条件随机场与形状玻尔兹曼机联合模型;
⑥将测试集中的所有原始图像对应的超像素区域节点图像的特征集合,输入到训练好的条件随机场与形状玻尔兹曼机联合模型中,训练好的条件随机场与形状玻尔兹曼机联合模型输出测试集中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签;然后将测试集中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,对应作为测试集中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点标记;再将测试集中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点标记,作为该超像素区域节点中的每个像素点的标记,得到测试集中的每幅原始图像对应的超像素区域节点图像相应的标记图。
3.根据权利要求1或2所述的一种结合图像局部约束与对象全局约束的图像标记方法,其特征在于所述的步骤③中其中,1≤nm'≤Nm',Nm'表示中的超像素区域节点的总个数,Nm'>1,表示中的第nm'个掩膜区域的区域标签,1≤d≤192,表示中的第nm'个超像素区域节点的节点特征中的第d个元素,表示的权重,1≤q≤Q,Q表示中的方格的总个数,符号为向上取整符号,表示中的第q个方格中属于中的第nm'个超像素区域节点的面积占中的第nm'个超像素区域节点的面积的比例, 表示中的第q个方格与中的第nm'个超像素区域节点相交的面积,符号“∩”为相交运算符号,表示中的第nm'个超像素区域节点的面积;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610987762.4A CN106570874B (zh) | 2016-11-10 | 2016-11-10 | 一种结合图像局部约束与对象全局约束的图像标记方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610987762.4A CN106570874B (zh) | 2016-11-10 | 2016-11-10 | 一种结合图像局部约束与对象全局约束的图像标记方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106570874A CN106570874A (zh) | 2017-04-19 |
CN106570874B true CN106570874B (zh) | 2021-03-23 |
Family
ID=58540952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610987762.4A Active CN106570874B (zh) | 2016-11-10 | 2016-11-10 | 一种结合图像局部约束与对象全局约束的图像标记方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106570874B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10262236B2 (en) * | 2017-05-02 | 2019-04-16 | General Electric Company | Neural network training image generation system |
CN108053420B (zh) * | 2018-01-05 | 2021-11-02 | 昆明理工大学 | 一种基于有限时空分辨率类无关属性动态场景的分割方法 |
CN108664969B (zh) * | 2018-04-28 | 2022-04-19 | 西安电子科技大学 | 基于条件随机场的路标识别方法 |
CN108921854B (zh) * | 2018-05-22 | 2022-06-21 | 复旦大学 | 一种消化道内镜图像不规则病变区域标注方法及系统 |
CN109409376B (zh) * | 2018-11-05 | 2020-10-30 | 昆山紫东智能科技有限公司 | 针对固废对象的图像分割方法、计算机终端及存储介质 |
CN110009628A (zh) * | 2019-04-12 | 2019-07-12 | 南京大学 | 一种针对连续二维图像中多形态目标的自动检测方法 |
CN110189354B (zh) * | 2019-04-18 | 2021-12-28 | 北京迈格威科技有限公司 | 图像处理方法与图像处理器、图像处理设备及介质 |
CN111160300B (zh) * | 2019-12-31 | 2022-06-28 | 北京理工大学重庆创新中心 | 一种结合全局先验的深度学习高光谱图像显著性检测算法 |
CN112613474B (zh) * | 2020-12-30 | 2022-01-18 | 珠海大横琴科技发展有限公司 | 一种行人重识别的方法和装置 |
CN112734764A (zh) * | 2021-03-31 | 2021-04-30 | 电子科技大学 | 一种基于对抗网络的无监督医学图像分割方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8866936B2 (en) * | 2008-07-24 | 2014-10-21 | Florida State University of Research Foundation | Systems and methods for training an active random field for real-time image denoising |
CN102509338B (zh) * | 2011-09-20 | 2014-05-07 | 北京航空航天大学 | 一种基于轮廓骨架图的视频场景行为生成方法 |
KR101300247B1 (ko) * | 2011-11-11 | 2013-08-26 | 경희대학교 산학협력단 | 마르코프 연쇄 은닉 조건부 랜덤 필드 모델 기반의 패턴 인식 방법 |
US9443314B1 (en) * | 2012-03-29 | 2016-09-13 | Google Inc. | Hierarchical conditional random field model for labeling and segmenting images |
CN105321176A (zh) * | 2015-09-30 | 2016-02-10 | 西安交通大学 | 一种基于分层高阶条件随机场的图像分割方法 |
-
2016
- 2016-11-10 CN CN201610987762.4A patent/CN106570874B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106570874A (zh) | 2017-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106570874B (zh) | 一种结合图像局部约束与对象全局约束的图像标记方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
Korus et al. | Multi-scale fusion for improved localization of malicious tampering in digital images | |
Fu et al. | Fast crowd density estimation with convolutional neural networks | |
CN108764085B (zh) | 基于生成对抗网络的人群计数方法 | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
CN108038435B (zh) | 一种基于卷积神经网络的特征提取与目标跟踪方法 | |
CN109165682B (zh) | 一种融合深度特征和显著性特征的遥感图像场景分类方法 | |
CN108961180B (zh) | 红外图像增强方法及系统 | |
CN108960404B (zh) | 一种基于图像的人群计数方法及设备 | |
WO2022218396A1 (zh) | 图像处理方法、装置和计算机可读存储介质 | |
Xu et al. | Weakly supervised deep semantic segmentation using CNN and ELM with semantic candidate regions | |
JP6107531B2 (ja) | 特徴抽出プログラム及び情報処理装置 | |
Kim et al. | A robust matching network for gradually estimating geometric transformation on remote sensing imagery | |
Cheng et al. | Advanced background subtraction approach using Laplacian distribution model | |
Vora et al. | Iterative spectral clustering for unsupervised object localization | |
Lecca et al. | Comprehensive evaluation of image enhancement for unsupervised image description and matching | |
CN112132892B (zh) | 目标位置标注方法、装置及设备 | |
CN111444816A (zh) | 一种基于Faster RCNN的多尺度密集行人检测方法 | |
CN105160666A (zh) | 基于非平稳分析与条件随机场的sar图像变化检测方法 | |
Wang et al. | Semantic segmentation of sewer pipe defects using deep dilated convolutional neural network | |
Divya et al. | Segmentation of Defected Regions in Leaves using K-Means and OTSU's Method | |
Elashry et al. | Feature matching enhancement using the graph neural network (gnn-ransac) | |
CN116824330A (zh) | 一种基于深度学习的小样本跨域目标检测方法 | |
CN115995024A (zh) | 基于类图神经网络的图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |