CN106570874B - 一种结合图像局部约束与对象全局约束的图像标记方法 - Google Patents

一种结合图像局部约束与对象全局约束的图像标记方法 Download PDF

Info

Publication number
CN106570874B
CN106570874B CN201610987762.4A CN201610987762A CN106570874B CN 106570874 B CN106570874 B CN 106570874B CN 201610987762 A CN201610987762 A CN 201610987762A CN 106570874 B CN106570874 B CN 106570874B
Authority
CN
China
Prior art keywords
image
node
super
mask
pixel region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610987762.4A
Other languages
English (en)
Other versions
CN106570874A (zh
Inventor
王浩
郭立君
张�荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo University
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201610987762.4A priority Critical patent/CN106570874B/zh
Publication of CN106570874A publication Critical patent/CN106570874A/zh
Application granted granted Critical
Publication of CN106570874B publication Critical patent/CN106570874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种结合图像局部约束与对象全局约束的图像标记方法,其获取每幅原始图像的超像素区域节点图像,且在每幅原始图像对应的掩膜图像中找出与对应的超像素区域节点图像中的每个超像素区域节点相对应的掩膜区域,并进行标记;然后利用超像素区域节点图像的特征集合以及掩膜图像所对应的区域标签集合来训练条件随机场模型,利用掩膜图像中的所有掩膜区域标记后得到的图像所对应的虚拟标签集合来训练形状玻尔兹曼机模型,且两者通过方格划分技术将条件随机场模型与形状玻尔兹曼机模型有效结合起来,使得图像局部约束与对象整体约束紧密结合,提高了图像标记的准确率;且其能适用于数据集较小且图像的分辨率较低的情况,计算复杂度低。

Description

一种结合图像局部约束与对象全局约束的图像标记方法
技术领域
本发明涉及一种图像标记技术,尤其是涉及一种结合图像局部约束与对象全局约束的图像标记方法。
背景技术
图像分割与图像标记是计算机视觉中的核心技术,现如今很多计算机视觉中的高层应用都依赖于准确的图像分割结果或者图像标记结果,如对象识别、场景分析应用等。由于图像存在遮挡、阴影、目标与背景特征相似等问题,因此使得图像分割与图像标记一直是计算机视觉中最具有挑战性的任务之一。
作为多种视觉应用的基础和富有挑战性的任务,图像标记技术在计算机视觉领域一直广受关注,如何更好的对图像进行标记,国内外相关机构进行了深入地研究。近年来,由于条件随机场(Conditional Random Field,CRF)能够有效的描述图像局部约束关系,因此条件随机场常常被用于图像标记任务。如:Xuming He,Richard S.Zemel,M.A.Carreira-Perpinan,et al.Multiscale conditional random fields for image labeling[C]//Computer Vision and Pattern Recognition,2004(何旭明、理查德·泽梅尔、米格尔·卡雷拉,基于多尺度条件随机场的图像标记[C]//计算机视觉与模式识别大会,2004),其提出了用条件随机场分割静态图像,通过引入隐随机变量加入更多的上下文知识以便进行图像分割。又如:Lei Zhang.A unified probabilistic graphical model and itsapplication to image segmentation[C]//Rensselaer Polytechnic Institute,2009(张磊,一种统一的概率图模型及其在图像分割中的应用[C]//伦斯勒理工学院,2009),其提出了将超像素方法引入条件随机场模型中,通过一种各向异性扩散算法将图像过分割成超像素区域,然后将超像素区域作为条件随机场图模型中的节点,通过参数估计获得给定测试图像的最优标记。条件随机场有效的描述了图像局部约束关系,而对要标记的对象的全局约束关系的描述具有局限性,例如当对象的部分区域边界模糊时,条件随机场仅仅利用了图像局部约束关系,很可能将表观特征相似的背景错标记成对象部分,或者反之,因此引入对象全局约束关系来补充条件随机场的局限很有必要。对象形状约束信息可以作为对象全局约束关系的一种表现形式,最近很多文章都采用了受限的玻尔兹曼机(RBM)或者其扩展模型来获取对象形状约束信息。如:Salakhutdinov R,Hinton G.Deep BoltzmannMachines[J].Journal of Machine Learning Research,2009,5(2):1967–2006(鲁斯兰·萨拉赫丁诺夫、杰弗里·希尔顿,深度玻尔兹曼机[J].机器学习研究杂志,2009,第5期(2):1967-2006),其在玻尔兹曼机的基础上提出了深度玻尔兹曼机(DBM),深度玻尔兹曼机是一个多层的玻尔兹曼机模型,通过多层的玻尔兹曼机进行特征提取获得目标对象的高层语义特征如形状、姿态等。又如:Eslami S M,Heess N,Williams C K,et al.The ShapeBoltzmann Machine:A Strong Model of Object Shape[C]//IEEE Conference onComputer Vision&Pattern Recognition.2012:406-413(阿里·伊斯拉米、黒斯·尼古拉斯、查尔斯肯尼·威廉姆斯,形状玻尔兹曼机:一种鲁棒性强的形状建模模型[C],IEEE计算机视觉与模式识别会议,2012:406-413),其提出的形状玻尔兹曼机(ShapeBM)在对象形状建模上取得了较好效果。用对象形状约束来完成图像标记仅仅利用了对象整体约束信息,可能会造成图像的一些局部信息的丢失,不能达到较好的标记效果。
为了获得较好的图像标记效果,近年来有许多方法也在图像局部约束和对象全局约束相结合上做了很多工作。Kae A,Sohn K,Lee H,et al.Augmenting CRFs withBoltzmann Machine Shape Priors for Image Labeling[C]//Computer Vision andPattern Recognition,2013(安德烈·凯、索恩、洪拉克·李、埃里克·米勒,条件随机场结合玻尔兹曼机形状先验的图像标记[C]//计算机视觉与模式识别大会,2013),其提出通过玻尔兹曼机模型学习人脸形状先验特征作为对象全局约束,并借助于条件随机场分割框架能够融入其他分割线索的特性,将所学到的形状先验融入到条件随机场分割框架中,获得较好的分割与标记效果;该方法要求有比较大的数据集,这样才能使得玻尔兹曼机训练充分得到较好的效果,并且该方法要求数据集中的图像的分辨率较高,以适用于人脸图像的标记。Chen F,Yu H,Hu R,et al.Deep Learning Shape Priors for ObjectSegmentation[C]//Computer Vision and Pattern Recognition,2013(陈飞、于慧敏、胡浩基、曾勋勋,深度学习形状先验的图像分割[C]//计算机视觉与模式识别大会,2013),其提出将深度玻尔兹曼机模型学到的对象形状先验结合到一个变分分割模型中,通过求其能量函数最小达到分割的效果;该方法将深度学习模型结合到变分分割框架中,造成计算复杂度很大。
基于以上原因,有必要引入一种结合图像局部约束与对象全局约束的图像标记方法,要求该图像标记方法能适用于数据集较小且数据集中的图像的分辨率较低的情况,并且要求该图像标记方法的计算复杂度适中。
发明内容
本发明所要解决的技术问题是提供一种结合图像局部约束与对象全局约束的图像标记方法,其通过形状玻尔兹曼机引入对象全局约束来补充条件随机场在对象标记上的局限性,使得图像标记结果更加准确,其能适用于数据集较小且数据集中的图像的分辨率较低的情况,并且计算复杂度低。
本发明解决上述技术问题所采用的技术方案为:一种结合图像局部约束与对象全局约束的图像标记方法,其特征在于包括以下步骤:
①选取一个图像库,该图像库中包含有M幅原始图像及每幅原始图像对应的掩膜图像,将图像库中的第m幅原始图像记为
Figure BDA0001149352440000031
Figure BDA0001149352440000032
对应的掩膜图像记为
Figure BDA0001149352440000033
然后采用超像素分割方法对图像库中的每幅原始图像进行超像素分割,得到图像库中的每幅原始图像对应的超像素区域节点图像,将
Figure BDA0001149352440000034
对应的超像素区域节点图像记为
Figure BDA0001149352440000035
Figure BDA0001149352440000036
中的第nm个超像素区域节点记为
Figure BDA0001149352440000037
接着在图像库中的每幅原始图像对应的掩膜图像中找出与对应的超像素区域节点图像中的每个超像素区域节点相对应的掩膜区域,对于
Figure BDA0001149352440000038
Figure BDA0001149352440000039
中找出与
Figure BDA00011493524400000310
中的每个超像素区域节点相对应的掩膜区域,将在
Figure BDA00011493524400000311
中找出的与
Figure BDA00011493524400000312
相对应的掩膜区域记为
Figure BDA00011493524400000313
再根据图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域中属于前景的像素点的总个数与整个掩膜区域中的像素点的总个数的比例,来确定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,将
Figure BDA00011493524400000314
的区域标签记为
Figure BDA00011493524400000315
最后根据图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,判定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域为前景区域或为背景区域,对于
Figure BDA00011493524400000316
Figure BDA00011493524400000317
则将
Figure BDA00011493524400000318
判定为前景区域,若
Figure BDA00011493524400000319
则将
Figure BDA00011493524400000320
判定为背景区域;并将图像库中的每幅原始图像对应的掩膜图像中的所有掩膜区域的区域标签构成一个区域标签集合,将
Figure BDA0001149352440000041
中的所有掩膜区域的区域标签构成的区域标签集合记为
Figure BDA0001149352440000042
Figure BDA0001149352440000043
中的所有掩膜区域标记后得到的图像记为
Figure BDA0001149352440000044
其中,M≥200,1≤m≤M,1≤nm≤Nm,Nm表示
Figure BDA0001149352440000045
中的超像素区域节点的总个数,Nm>1;
②提取图像库中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点特征,将
Figure BDA0001149352440000046
的节点特征记为
Figure BDA0001149352440000047
然后将图像库中的每幅原始图像对应的超像素区域节点图像中的所有超像素区域节点的节点特征构成一个节点特征集合,将
Figure BDA0001149352440000048
中的所有超像素区域节点的节点特征构成的节点特征集合记为
Figure BDA0001149352440000049
其中,
Figure BDA00011493524400000410
的维数为1×192,
Figure BDA00011493524400000411
表示
Figure BDA00011493524400000412
的颜色直方图特征,
Figure BDA00011493524400000413
表示
Figure BDA00011493524400000414
的纹理直方图特征,
Figure BDA00011493524400000415
表示
Figure BDA00011493524400000416
的位置概率直方图特征,
Figure BDA00011493524400000417
Figure BDA00011493524400000418
的维数为1×64;
并提取图像库中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点与其相邻的各个超像素区域节点之间的连接边特征,将
Figure BDA00011493524400000419
与其相邻的第
Figure BDA00011493524400000420
个超像素区域节点之间的连接边特征记为
Figure BDA00011493524400000421
然后将图像库中的每幅原始图像对应的超像素区域节点图像中的所有超像素区域节点对应的连接边特征构成一个连接边特征集合,将
Figure BDA00011493524400000422
中的所有超像素区域节点对应的连接边特征构成的连接边特征集合记为
Figure BDA00011493524400000423
其中,与
Figure BDA00011493524400000424
相邻的超像素区域节点是指与
Figure BDA00011493524400000425
有共同边界的超像素区域节点,
Figure BDA00011493524400000426
Figure BDA00011493524400000427
表示
Figure BDA00011493524400000428
中与
Figure BDA00011493524400000429
相邻的超像素区域节点的总个数,
Figure BDA00011493524400000430
的维数为1×3,
Figure BDA00011493524400000431
表示
Figure BDA00011493524400000432
与其相邻的第
Figure BDA00011493524400000433
个超像素区域节点的共同边界上的所有像素点的PB值之和,
Figure BDA00011493524400000434
表示
Figure BDA00011493524400000435
的颜色直方图和与
Figure BDA00011493524400000436
相邻的第
Figure BDA00011493524400000437
个超像素区域节点的颜色直方图之间的欧氏距离,
Figure BDA00011493524400000438
表示
Figure BDA00011493524400000439
的纹理直方图和与
Figure BDA00011493524400000440
相邻的第
Figure BDA00011493524400000441
个超像素区域节点的纹理直方图之间的卡方距离;
再将图像库中的每幅原始图像对应的超像素区域节点图像所对应的节点特征集合和连接边特征集合构成图像库中的每幅原始图像对应的超像素区域节点图像的特征集合,将
Figure BDA0001149352440000051
的特征集合记为
Figure BDA0001149352440000052
③将图像库中选取的M'幅原始图像及选取的每幅原始图像对应的掩膜图像构成训练集,将训练集中的第m'幅原始图像记为
Figure BDA0001149352440000053
Figure BDA0001149352440000054
对应的掩膜图像记为
Figure BDA0001149352440000055
Figure BDA0001149352440000056
对应的超像素区域节点图像记为
Figure BDA0001149352440000057
Figure BDA0001149352440000058
中的所有掩膜区域标记后得到的图像记为
Figure BDA0001149352440000059
并将图像库中剩余的M-M'原始图像及剩余的每幅原始图像对应的掩膜图像构成测试集;然后将训练集中的所有原始图像对应的超像素区域节点图像的特征集合及对应的掩膜图像所对应的区域标签集合,输入到条件随机场模型Ecrf(Ytruth,Xorg)=Enode(Ytruth,Xnode)+Eedge(Ytruth,Xedge)中,通过条件随机场模型计算得到训练集中的每幅原始图像对应的超像素区域节点图像的能量,将
Figure BDA00011493524400000510
的能量记为
Figure BDA00011493524400000511
接着根据热统计力学,确定训练集中的每幅原始图像对应的超像素区域节点图像的条件似然概率应满足的条件,
Figure BDA00011493524400000512
的条件似然概率
Figure BDA00011493524400000513
应满足的条件为:
Figure BDA00011493524400000514
之后将训练集中的所有原始图像对应的超像素区域节点图像的最大条件似然概率的表示式描述为:
Figure BDA00011493524400000515
最后优化
Figure BDA00011493524400000516
当训练集中的所有原始图像对应的超像素区域节点图像的能量之和最小时即使得
Figure BDA00011493524400000517
最大时输出条件随机场模型的统一权重参数α和β,得到训练好的条件随机场模型;其中,0.5M≤M'≤0.9M,1≤m'≤M',Ytruth、Xorg、Xnode和Xedge均为条件随机场模型的输入参数,Ytruth表示训练集中的任一幅原始图像对应的掩膜图像所对应的区域标签集合,Xorg表示训练集中的任一幅原始图像对应的超像素区域节点图像的特征集合,Xnode表示训练集中的任一幅原始图像对应的超像素区域节点图像所对应的节点特征集合,Xedge表示训练集中的任一幅原始图像对应的超像素区域节点图像所对应的连接边特征集合,Enode(Ytruth,Xnode)表示条件随机场模型的一阶势,Eedge(Ytruth,Xedge)表示条件随机场模型的二阶势,
Figure BDA0001149352440000061
表示
Figure BDA0001149352440000062
所对应的区域标签集合,
Figure BDA0001149352440000063
表示
Figure BDA0001149352440000064
的特征集合,
Figure BDA0001149352440000065
表示
Figure BDA0001149352440000066
所对应的节点特征集合,
Figure BDA0001149352440000067
表示
Figure BDA0001149352440000068
所对应的连接边特征集合,exp()表示以自然基数e为底的指数函数,max{}表示取最大值函数;
④获取训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的每个方格的虚拟标签,将
Figure BDA0001149352440000069
中的第z个方格
Figure BDA00011493524400000610
的虚拟标签记为
Figure BDA00011493524400000611
Figure BDA00011493524400000612
然后将训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的所有方格的虚拟标签构成一个虚拟标签集合,将
Figure BDA00011493524400000613
中的所有方格的虚拟标签构成的虚拟标签集合记为
Figure BDA00011493524400000614
接着将训练集中的所有原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像所对应的虚拟标签集合,输入到形状玻尔兹曼机模型
Figure BDA00011493524400000615
中;之后采用对比散度算法训练形状玻尔兹曼机模型的第一层网络,得到形状玻尔兹曼机模型的第一层网络的输出htruth,1及形状玻尔兹曼机模型的第一层网络的参数Wtruth,1、atruth和btruth
Figure BDA00011493524400000616
Figure BDA00011493524400000617
再将形状玻尔兹曼机模型的第一层网络的输出htruth,1作为形状玻尔兹曼机模型的第二层网络的输入,同样采用对比散度算法训练形状玻尔兹曼机模型的第二层网络,得到形状玻尔兹曼机模型的第二层网络的输出htruth,2及形状玻尔兹曼机模型的第二层网络的参数Wtruth,2和ctruth
Figure BDA0001149352440000071
最后采用平均场估计方法对Wtruth,1、atruth、btruth、Wtruth,2和ctruth进行微调优化,将微调优化后对应得到的
Figure BDA0001149352440000072
Figure BDA0001149352440000073
作为形状玻尔兹曼机模型的最终参数,得到训练好的形状玻尔兹曼机模型;其中,1≤z≤Z,Z表示
Figure BDA0001149352440000074
中的方格的总个数,
Figure BDA0001149352440000075
符号
Figure BDA0001149352440000076
为向上取整符号,1≤nm'≤Nm',Nm'表示
Figure BDA0001149352440000077
中的超像素区域节点的总个数,Nm'>1,
Figure BDA0001149352440000078
表示
Figure BDA0001149352440000079
中的第nm'个掩膜区域的区域标签,
Figure BDA00011493524400000710
表示
Figure BDA00011493524400000711
中与
Figure BDA00011493524400000712
中的第nm'个掩膜区域
Figure BDA00011493524400000713
对应的区域
Figure BDA00011493524400000714
中属于
Figure BDA00011493524400000715
中的第z个方格
Figure BDA00011493524400000716
的面积占
Figure BDA00011493524400000717
的面积的比例,
Figure BDA00011493524400000718
Figure BDA00011493524400000719
表示
Figure BDA00011493524400000720
Figure BDA00011493524400000721
相交的面积,符号“∩”为相交运算符号,
Figure BDA00011493524400000722
表示
Figure BDA00011493524400000723
的面积,
Figure BDA00011493524400000724
表示训练集中的任一幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的所有方格的虚拟标签构成的虚拟标签集合,K表示形状玻尔兹曼机模型的第一层隐节点中的隐节点的总个数,K>1,
Figure BDA00011493524400000725
表示训练集中的任一幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的第z个方格的虚拟标签,
Figure BDA00011493524400000726
表示
Figure BDA00011493524400000727
与形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的连接权重,
Figure BDA00011493524400000728
表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的值,
Figure BDA00011493524400000729
表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的偏置值,
Figure BDA00011493524400000730
表示
Figure BDA00011493524400000731
的偏置值,U表示形状玻尔兹曼机模型的第二层隐节点中的隐节点的总个数,U>1,
Figure BDA00011493524400000732
表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点与形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的连接权重,
Figure BDA0001149352440000081
表示形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的值,
Figure BDA0001149352440000082
表示形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的偏置值;
⑤将训练好的条件随机场模型中的参数α和β及训练好的形状玻尔兹曼机模型中的参数
Figure BDA0001149352440000083
Figure BDA0001149352440000084
作为条件随机场与形状玻尔兹曼机联合模型的初始化参数;然后将训练集中的所有原始图像对应的超像素区域节点图像的特征集合及对应的掩膜图像所对应的区域标签集合,输入到条件随机场与形状玻尔兹曼机联合模型
Figure BDA0001149352440000085
中;接着根据热统计力学,确定训练集中的每幅原始图像对应的超像素区域节点图像的条件似然概率应满足的条件,
Figure BDA0001149352440000086
的条件似然概率
Figure BDA0001149352440000087
应满足的条件为:
Figure BDA0001149352440000088
之后将训练集中的所有原始图像对应的超像素区域节点图像的最大条件似然概率的表示式描述为:
Figure BDA0001149352440000089
最后通过平均场估计方法迭代优化
Figure BDA00011493524400000810
使得
Figure BDA00011493524400000811
最大时输出条件随机场与形状玻尔兹曼机联合模型的最终参数αfinal、βfinal
Figure BDA00011493524400000812
Figure BDA00011493524400000813
得到训练好的条件随机场与形状玻尔兹曼机联合模型;
⑥将测试集中的所有原始图像对应的超像素区域节点图像的特征集合,输入到训练好的条件随机场与形状玻尔兹曼机联合模型中,训练好的条件随机场与形状玻尔兹曼机联合模型输出测试集中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签;然后将测试集中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,对应作为测试集中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点标记;再将测试集中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点标记,作为该超像素区域节点中的每个像素点的标记,得到测试集中的每幅原始图像对应的超像素区域节点图像相应的标记图。
所述的步骤①中
Figure BDA0001149352440000091
其中,
Figure BDA0001149352440000092
表示
Figure BDA0001149352440000093
中属于前景的像素点的总个数,
Figure BDA0001149352440000094
表示
Figure BDA0001149352440000095
中的像素点的总个数。
所述的步骤③中
Figure BDA0001149352440000096
其中,1≤nm'≤Nm',Nm'表示
Figure BDA0001149352440000097
中的超像素区域节点的总个数,Nm'>1,
Figure BDA0001149352440000098
表示
Figure BDA0001149352440000099
中的第nm'个掩膜区域的区域标签,1≤d≤192,
Figure BDA00011493524400000910
表示
Figure BDA00011493524400000911
中的第nm'个超像素区域节点的节点特征
Figure BDA00011493524400000912
中的第d个元素,
Figure BDA00011493524400000913
表示
Figure BDA00011493524400000939
的权重,1≤q≤Q,Q表示
Figure BDA00011493524400000914
中的方格的总个数,
Figure BDA00011493524400000915
符号
Figure BDA00011493524400000916
为向上取整符号,
Figure BDA00011493524400000917
表示
Figure BDA00011493524400000918
中的第q个方格
Figure BDA00011493524400000919
中属于
Figure BDA00011493524400000920
中的第nm'个超像素区域节点
Figure BDA00011493524400000921
的面积占
Figure BDA00011493524400000922
中的第nm'个超像素区域节点
Figure BDA00011493524400000923
的面积的比例,
Figure BDA00011493524400000924
Figure BDA00011493524400000925
表示
Figure BDA00011493524400000926
中的第q个方格
Figure BDA00011493524400000927
Figure BDA00011493524400000928
中的第nm'个超像素区域节点
Figure BDA00011493524400000929
相交的面积,符号“∩”为相交运算符号,
Figure BDA00011493524400000930
表示
Figure BDA00011493524400000931
中的第nm'个超像素区域节点
Figure BDA00011493524400000932
的面积;
所述的步骤③中
Figure BDA00011493524400000933
其中,1≤jm'≤Jm',Jm'表示
Figure BDA00011493524400000934
中与第nm'个超像素区域节点相邻的超像素区域节点的总个数,
Figure BDA00011493524400000935
表示
Figure BDA00011493524400000936
中与第nm'个掩膜区域相邻的第jm'个掩膜区域的区域标签,
Figure BDA00011493524400000937
表示
Figure BDA00011493524400000938
中的第nm'个超像素区域节点与其相邻的第jm'个超像素区域节点之间的连接边特征
Figure BDA0001149352440000101
中的第e个元素,
Figure BDA0001149352440000102
表示
Figure BDA0001149352440000103
的权重。
Figure BDA0001149352440000104
中的方格的获取过程为:将
Figure BDA0001149352440000105
分割成多个相同尺寸大小的方格,若分割方格到
Figure BDA0001149352440000106
的末端时存在不同尺寸大小的区域,那么将这些区域也分别作为方格,并使
Figure BDA0001149352440000107
中的方格的总个数Q等于
Figure BDA0001149352440000108
所述的步骤③中优化
Figure BDA0001149352440000109
通过置信度传播方法来实现,或通过结合了标准化算法LBFGS的平均场估计方法来实现。
所述的步骤④中
Figure BDA00011493524400001010
中的方格的获取过程为:将
Figure BDA00011493524400001011
分割成多个相同尺寸大小的方格,若分割方格到
Figure BDA00011493524400001012
的末端时存在不同尺寸大小的区域,那么将这些区域也分别作为方格,并使
Figure BDA00011493524400001013
中的方格的总个数Z的值在取值范围
Figure BDA00011493524400001014
内。
与现有技术相比,本发明的优点在于:
1)本发明方法有效结合了图像局部约束与对象整体约束,并且结合是基于超像素的,其首先对图像库中的每幅原始图像进行超像素分割,得到图像库中的每幅原始图像对应的超像素区域节点图像,并且在图像库中的每幅原始图像对应的掩膜图像中找出与对应的超像素区域节点图像中的每个超像素区域节点相对应的掩膜区域,并对掩膜区域进行标记;然后利用超像素区域节点图像的特征集合以及掩膜图像所对应的区域标签集合来训练条件随机场模型,利用掩膜图像中的所有掩膜区域标记后得到的图像所对应的虚拟标签集合来训练形状玻尔兹曼机模型,并且两者通过一个方格划分的技术,将条件随机场模型与形状玻尔兹曼机模型有效结合起来,使得图像局部约束与对象整体约束紧密结合,有效的解决了当对象的部分区域边界模糊时,条件随机场仅仅利用了图像局部约束关系,很可能将表观特征相似的背景错标记成对象部分以及仅使用对象形状约束来完成图像标记,仅仅利用了对象整体约束信息,可能会造成图像的一些局部信息的丢失,不能达到较好的标记效果等问题,提高了图像标记的准确率。
2)本发明方法与现有的基于条件随机场与受限的玻尔兹曼机结合的方法相比,由于形状玻尔兹曼机相较于受限的玻尔兹曼机能适用于图像数据集较小且图像数据集中的图像的分辨率较低的情况,使得本发明方法的适用性更广。
3)本发明方法与现有的将深度玻尔兹曼机模型学到的对象形状先验结合到一个变分分割模型的方法相比,本发明方法的计算都是在超像素区域节点上进行的,计算的复杂性相对较低。
附图说明
图1为本发明方法中所采用的条件随机场与形状玻尔兹曼机联合模型的模型图;
图2为形状玻尔兹曼机模型的模型图;
图3a为根据Penn-Fudan Pedestrians数据集构建的测试集中的一幅图像;
图3b为利用条件随机场模型对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图3c为利用空间条件随机场对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图3d为利用本发明方法对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图3e为图3a所示的图像对应的标准掩膜图像;
图4a为根据Penn-Fudan Pedestrians数据集构建的测试集中的另一幅图像;
图4b为利用条件随机场模型对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图4c为利用空间条件随机场对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图4d为利用本发明方法对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图4e为图4a所示的图像对应的标准掩膜图像;
图5a为根据Caltech-UCSD Birds 200数据集构建的测试集中的一幅图像;
图5b为利用条件随机场模型对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图5c为利用空间条件随机场对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图5d为利用本发明方法对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图5e为图5a所示的图像对应的标准掩膜图像;
图6a为根据Caltech-UCSD Birds 200数据集构建的测试集中的另一幅图像;
图6b为利用条件随机场模型对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图6c为利用空间条件随机场对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图6d为利用本发明方法对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图;
图6e为图6a所示的图像对应的标准掩膜图像;
图7为本发明方法的流程框图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种结合图像局部约束与对象全局约束的图像标记方法,其流程框图如图7所示,其包括以下步骤:
①选取一个图像库,该图像库中包含有M幅原始图像及每幅原始图像对应的掩膜图像,将图像库中的第m幅原始图像记为
Figure BDA0001149352440000121
Figure BDA0001149352440000122
对应的掩膜图像记为
Figure BDA0001149352440000123
然后采用超像素分割方法对图像库中的每幅原始图像进行超像素分割,得到图像库中的每幅原始图像对应的超像素区域节点图像,将
Figure BDA0001149352440000124
对应的超像素区域节点图像记为
Figure BDA0001149352440000125
Figure BDA0001149352440000126
中的第nm个超像素区域节点记为
Figure BDA0001149352440000127
接着在图像库中的每幅原始图像对应的掩膜图像中找出与对应的超像素区域节点图像中的每个超像素区域节点相对应的掩膜区域,对于
Figure BDA0001149352440000131
Figure BDA0001149352440000132
中找出与
Figure BDA0001149352440000133
中的每个超像素区域节点相对应的掩膜区域,将在
Figure BDA0001149352440000134
中找出的与
Figure BDA0001149352440000135
相对应的掩膜区域记为
Figure BDA0001149352440000136
再根据图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域中属于前景的像素点的总个数与整个掩膜区域中的像素点的总个数的比例,来确定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,将
Figure BDA0001149352440000137
的区域标签记为
Figure BDA0001149352440000138
最后根据图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,判定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域为前景区域或为背景区域,对于
Figure BDA0001149352440000139
Figure BDA00011493524400001310
则将
Figure BDA00011493524400001311
判定为前景区域,若
Figure BDA00011493524400001312
则将
Figure BDA00011493524400001313
判定为背景区域;并将图像库中的每幅原始图像对应的掩膜图像中的所有掩膜区域的区域标签构成一个区域标签集合,将
Figure BDA00011493524400001314
中的所有掩膜区域的区域标签构成的区域标签集合记为
Figure BDA00011493524400001315
Figure BDA00011493524400001316
中的所有掩膜区域标记后得到的图像记为
Figure BDA00011493524400001317
其中,M≥200,在本实施例中对于Penn-Fudan Pedestrians数据集取M=846,对于Caltech-UCSD Birds 200数据集取M=6033,1≤m≤M,1≤nm≤Nm,Nm表示
Figure BDA00011493524400001318
中的超像素区域节点的总个数,Nm>1,在具体实施时一般可将一幅图像分割成50个以上的超像素区域节点。
Figure BDA00011493524400001319
表示
Figure BDA00011493524400001320
中属于前景的像素点的总个数,
Figure BDA00011493524400001321
表示
Figure BDA00011493524400001322
中的像素点的总个数。
②提取图像库中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点特征,将
Figure BDA00011493524400001323
的节点特征记为
Figure BDA00011493524400001324
然后将图像库中的每幅原始图像对应的超像素区域节点图像中的所有超像素区域节点的节点特征构成一个节点特征集合,将
Figure BDA00011493524400001325
中的所有超像素区域节点的节点特征构成的节点特征集合记为
Figure BDA0001149352440000141
其中,
Figure BDA0001149352440000142
的维数为1×192,
Figure BDA0001149352440000143
表示
Figure BDA0001149352440000144
的颜色直方图特征,
Figure BDA0001149352440000145
表示
Figure BDA0001149352440000146
的纹理直方图特征,
Figure BDA0001149352440000147
表示
Figure BDA0001149352440000148
的位置概率直方图特征,
Figure BDA0001149352440000149
Figure BDA00011493524400001410
的维数为1×64;在此,
Figure BDA00011493524400001411
通过现有的颜色直方图提取方法获取;
Figure BDA00011493524400001412
通过现有的纹理直方图提取方法获取;
Figure BDA00011493524400001413
通过采用Kae A,Sohn K,Lee H,et al.Augmenting CRFswith Boltzmann Machine Shape Priors for Image Labeling[C]//Computer Visionand Pattern Recognition,2013(安德烈·凯、索恩、洪拉克·李、埃里克·米勒,条件随机场结合玻尔兹曼机形状先验的图像标记[C]//计算机视觉与模式识别大会,2013)中提出的Normalized histogram of the proportion of a superpixel that falls within eachof the 8*8 grid elements on the image(超像素落在图像8×8网格中每个网格的比例的归一化直方图)技术来获取。
并提取图像库中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点与其相邻的各个超像素区域节点之间的连接边特征,将
Figure BDA00011493524400001414
与其相邻的第
Figure BDA00011493524400001415
个超像素区域节点之间的连接边特征记为
Figure BDA00011493524400001416
Figure BDA00011493524400001417
用来衡量
Figure BDA00011493524400001418
与其相邻的第
Figure BDA00011493524400001419
个超像素区域节点之间的相似度;然后将图像库中的每幅原始图像对应的超像素区域节点图像中的所有超像素区域节点对应的连接边特征构成一个连接边特征集合,将
Figure BDA00011493524400001420
中的所有超像素区域节点对应的连接边特征构成的连接边特征集合记为
Figure BDA00011493524400001421
其中,与
Figure BDA00011493524400001422
相邻的超像素区域节点是指与
Figure BDA00011493524400001423
有共同边界的超像素区域节点,
Figure BDA00011493524400001424
表示
Figure BDA00011493524400001425
中与
Figure BDA00011493524400001426
相邻的超像素区域节点的总个数,
Figure BDA00011493524400001427
的维数为1×3,
Figure BDA00011493524400001428
表示
Figure BDA00011493524400001429
与其相邻的第
Figure BDA00011493524400001430
个超像素区域节点的共同边界上的所有像素点的PB值(posterior probability of aboundary,边界的后验概率)之和,
Figure BDA00011493524400001431
表示
Figure BDA00011493524400001432
的颜色直方图和与
Figure BDA00011493524400001433
相邻的第
Figure BDA00011493524400001434
个超像素区域节点的颜色直方图之间的欧氏距离,
Figure BDA00011493524400001435
表示
Figure BDA00011493524400001436
的纹理直方图和与
Figure BDA00011493524400001437
相邻的第
Figure BDA00011493524400001438
个超像素区域节点的纹理直方图之间的卡方距离;在此,
Figure BDA0001149352440000151
采用Martin D R,Fowlkes C C,Malik J,et al.Learning to Detect Natural Image Boundaries UsingBrightness and Texture[C].Neural Information Processing Systems,2003(戴维·马丁、查尔斯·福尔克斯、吉腾德拉·马利克,利用亮度和纹理学习自然图像边界检测[C].神经信息处理系统,2003)中提出的方法来获取。
再将图像库中的每幅原始图像对应的超像素区域节点图像所对应的节点特征集合和连接边特征集合构成图像库中的每幅原始图像对应的超像素区域节点图像的特征集合,将
Figure BDA0001149352440000152
的特征集合记为
Figure BDA0001149352440000153
③将图像库中随机选取的M'幅原始图像及选取的每幅原始图像对应的掩膜图像构成训练集,将训练集中的第m'幅原始图像记为
Figure BDA0001149352440000154
Figure BDA0001149352440000155
对应的掩膜图像记为
Figure BDA0001149352440000156
Figure BDA0001149352440000157
对应的超像素区域节点图像记为
Figure BDA0001149352440000158
Figure BDA0001149352440000159
中的所有掩膜区域标记后得到的图像记为
Figure BDA00011493524400001510
并将图像库中剩余的M-M'原始图像及剩余的每幅原始图像对应的掩膜图像构成测试集;然后将训练集中的所有原始图像对应的超像素区域节点图像的特征集合及对应的掩膜图像所对应的区域标签集合,输入到条件随机场模型Ecrf(Ytruth,Xorg)=Enode(Ytruth,Xnode)+Eedge(Ytruth,Xedge)中,通过条件随机场模型计算得到训练集中的每幅原始图像对应的超像素区域节点图像的能量,将
Figure BDA00011493524400001511
的能量记为
Figure BDA00011493524400001512
接着根据热统计力学,确定训练集中的每幅原始图像对应的超像素区域节点图像的条件似然概率应满足的条件,
Figure BDA00011493524400001513
的条件似然概率
Figure BDA00011493524400001514
应满足的条件为:
Figure BDA00011493524400001515
之后将训练集中的所有原始图像对应的超像素区域节点图像的最大条件似然概率的表示式描述为:
Figure BDA00011493524400001516
最后优化
Figure BDA00011493524400001517
当训练集中的所有原始图像对应的超像素区域节点图像的能量之和最小时即使得
Figure BDA00011493524400001518
最大时输出条件随机场模型的统一权重参数α和β,得到训练好的条件随机场模型;其中,0.5M≤M'≤0.9M,1≤m'≤M',Ytruth、Xorg、Xnode和Xedge均为条件随机场模型的输入参数,Ytruth表示训练集中的任一幅原始图像对应的掩膜图像所对应的区域标签集合,Xorg表示训练集中的任一幅原始图像对应的超像素区域节点图像的特征集合,Xnode表示训练集中的任一幅原始图像对应的超像素区域节点图像所对应的节点特征集合,Xedge表示训练集中的任一幅原始图像对应的超像素区域节点图像所对应的连接边特征集合,Enode(Ytruth,Xnode)表示条件随机场模型的一阶势,其用来表述训练集中的任一幅原始图像对应的超像素区域节点图像中的超像素区域节点属于前景或属于背景的似然,Eedge(Ytruth,Xedge)表示条件随机场模型的二阶势,其主要决定了训练集中的任一幅原始图像对应的超像素区域节点图像中相邻的两个超像素区域节点之间如何相互作用的,体现了对象局部约束,
Figure BDA0001149352440000161
表示
Figure BDA0001149352440000162
所对应的区域标签集合,
Figure BDA0001149352440000163
表示
Figure BDA0001149352440000164
的特征集合,
Figure BDA0001149352440000165
表示
Figure BDA0001149352440000166
所对应的节点特征集合,
Figure BDA0001149352440000167
表示
Figure BDA0001149352440000168
所对应的连接边特征集合,exp()表示以自然基数e为底的指数函数,max{}表示取最大值函数。
在此具体实施例中,步骤③中
Figure BDA0001149352440000169
其中,1≤nm'≤Nm',Nm'表示
Figure BDA00011493524400001610
中的超像素区域节点的总个数,Nm'>1,
Figure BDA00011493524400001611
表示
Figure BDA00011493524400001612
中的第nm'个掩膜区域的区域标签,1≤d≤192,
Figure BDA00011493524400001613
表示
Figure BDA00011493524400001614
中的第nm'个超像素区域节点的节点特征
Figure BDA00011493524400001615
中的第d个元素,
Figure BDA00011493524400001616
表示
Figure BDA00011493524400001617
的权重,1≤q≤Q,Q表示
Figure BDA00011493524400001618
中的方格的总个数,
Figure BDA00011493524400001619
符号
Figure BDA00011493524400001620
为向上取整符号,
Figure BDA00011493524400001621
表示
Figure BDA00011493524400001622
中的第q个方格
Figure BDA00011493524400001623
中属于
Figure BDA00011493524400001624
中的第nm'个超像素区域节点
Figure BDA00011493524400001625
的面积占
Figure BDA00011493524400001626
中的第nm'个超像素区域节点
Figure BDA0001149352440000171
的面积的比例,
Figure BDA0001149352440000172
表示
Figure BDA0001149352440000173
中的第q个方格
Figure BDA0001149352440000174
Figure BDA0001149352440000175
中的第nm'个超像素区域节点
Figure BDA0001149352440000176
相交的面积,符号“∩”为相交运算符号,
Figure BDA0001149352440000177
表示
Figure BDA0001149352440000178
中的第nm'个超像素区域节点
Figure BDA0001149352440000179
的面积。在此,
Figure BDA00011493524400001710
中的方格的获取过程为:将
Figure BDA00011493524400001711
分割成多个相同尺寸大小的方格,若分割方格到
Figure BDA00011493524400001712
的末端时存在不同尺寸大小的区域,那么将这些区域也分别作为方格,并使
Figure BDA00011493524400001713
中的方格的总个数Q等于
Figure BDA00011493524400001714
在本实施例中,所选的Penn-Fudan Pedestrians数据集中的每幅原始图像对应的超像素区域节点图像中的方格的总个数为529,所选的Caltech-UCSD Birds 200数据集中的每幅原始图像对应的超像素区域节点图像中的方格的总个数为441。
在此具体实施例中,步骤③中
Figure BDA00011493524400001715
其中,1≤jm'≤Jm',Jm'表示
Figure BDA00011493524400001716
中与第nm'个超像素区域节点相邻的超像素区域节点的总个数,
Figure BDA00011493524400001717
表示
Figure BDA00011493524400001718
中与第nm'个掩膜区域相邻的第jm'个掩膜区域的区域标签,
Figure BDA00011493524400001719
表示
Figure BDA00011493524400001720
中的第nm'个超像素区域节点与其相邻的第jm'个超像素区域节点之间的连接边特征
Figure BDA00011493524400001721
中的第e个元素,
Figure BDA00011493524400001722
表示
Figure BDA00011493524400001723
的权重。
在此具体实施例中,步骤③中优化
Figure BDA00011493524400001724
通过现有的置信度传播方法(loopy belief propagation)来实现,或通过结合了标准化算法LBFGS的平均场估计(mean-field approximation)方法来实现。
④由于训练集中的每幅原始图像对应的超像素区域节点图像中的超像素区域节点的总个数不固定,而形状玻尔兹曼机模型要求输入层的可见层节点数量是固定的,如果将训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域的区域标签作为形状玻尔兹曼机模型的输入,则会造成与形状玻尔兹曼机模型的输入节点不对应,因此本发明采用方格的虚拟标签来替代掩膜区域的区域标签作为形状玻尔兹曼机模型的输入。获取训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的每个方格的虚拟标签,将
Figure BDA0001149352440000181
中的第z个方格
Figure BDA0001149352440000182
的虚拟标签记为
Figure BDA0001149352440000183
Figure BDA0001149352440000184
然后将训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的所有方格的虚拟标签构成一个虚拟标签集合,将
Figure BDA00011493524400001813
中的所有方格的虚拟标签构成的虚拟标签集合记为
Figure BDA0001149352440000185
接着将训练集中的所有原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像所对应的虚拟标签集合,输入到形状玻尔兹曼机模型
Figure BDA0001149352440000186
中,图2给出了形状玻尔兹曼机模型的模型图;之后采用现有的对比散度算法训练形状玻尔兹曼机模型的第一层网络,得到形状玻尔兹曼机模型的第一层网络的输出htruth,1及形状玻尔兹曼机模型的第一层网络的参数Wtruth,1、atruth和btruth
Figure BDA0001149352440000187
Figure BDA0001149352440000188
再将形状玻尔兹曼机模型的第一层网络的输出htruth,1作为形状玻尔兹曼机模型的第二层网络的输入,同样采用现有的对比散度算法训练形状玻尔兹曼机模型的第二层网络,得到形状玻尔兹曼机模型的第二层网络的输出htruth,2及形状玻尔兹曼机模型的第二层网络的参数Wtruth,2和ctruth
Figure BDA0001149352440000189
Figure BDA00011493524400001810
最后采用现有的平均场估计方法对Wtruth,1、atruth、btruth、Wtruth,2和ctruth进行微调优化,将微调优化后对应得到的
Figure BDA00011493524400001811
Figure BDA00011493524400001812
作为形状玻尔兹曼机模型的最终参数,得到训练好的形状玻尔兹曼机模型;其中,1≤z≤Z,Z表示
Figure BDA0001149352440000191
中的方格的总个数,
Figure BDA0001149352440000192
在本实施例中,Penn-FudanPedestrians数据集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的方格的总个数Z=900,Caltech-UCSD Birds 200数据集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的方格的总个数Z=1024,符号
Figure BDA0001149352440000193
为向上取整符号,1≤nm'≤Nm',Nm'表示
Figure BDA0001149352440000194
中的超像素区域节点的总个数,Nm'>1,在具体实施时一般可将一幅图像分割成50个以上的超像素区域节点,
Figure BDA0001149352440000195
表示
Figure BDA0001149352440000196
中的第nm'个掩膜区域的区域标签,
Figure BDA0001149352440000197
表示
Figure BDA0001149352440000198
中与
Figure BDA0001149352440000199
中的第nm'个掩膜区域
Figure BDA00011493524400001910
对应的区域
Figure BDA00011493524400001911
中属于
Figure BDA00011493524400001912
中的第z个方格
Figure BDA00011493524400001927
的面积占
Figure BDA00011493524400001913
的面积的比例,
Figure BDA00011493524400001914
表示
Figure BDA00011493524400001915
Figure BDA00011493524400001916
相交的面积,符号“∩”为相交运算符号,
Figure BDA00011493524400001917
表示
Figure BDA00011493524400001918
的面积,
Figure BDA00011493524400001919
表示训练集中的任一幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的所有方格的虚拟标签构成的虚拟标签集合,K表示形状玻尔兹曼机模型的第一层隐节点中的隐节点的总个数,K>1,在本实施例中,Penn-Fudan Pedestrians数据集中第一层隐节点中的隐节点的总个数K=500,Caltech-UCSD Birds 200数据集中第一层隐节点中的隐节点的总个数K=400,
Figure BDA00011493524400001920
表示训练集中的任一幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的第z个方格的虚拟标签,
Figure BDA00011493524400001921
表示
Figure BDA00011493524400001928
与形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的连接权重,
Figure BDA00011493524400001922
表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的值,
Figure BDA00011493524400001923
表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的偏置值,
Figure BDA00011493524400001924
表示
Figure BDA00011493524400001925
的偏置值,U表示形状玻尔兹曼机模型的第二层隐节点中的隐节点的总个数,U>1,在本实施例中,Penn-Fudan Pedestrians数据集中第二层隐节点中的隐节点的总个数U=200,Caltech-UCSD Birds 200数据集中第二层隐节点中的隐节点的总个数U=100,
Figure BDA00011493524400001926
表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点与形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的连接权重,
Figure BDA0001149352440000201
表示形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的值,
Figure BDA0001149352440000202
表示形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的偏置值。
在此具体实施例中,步骤④中
Figure BDA0001149352440000203
中的方格的获取过程为:将
Figure BDA0001149352440000204
分割成多个相同尺寸大小的方格,若分割方格到
Figure BDA0001149352440000205
的末端时存在不同尺寸大小的区域,那么将这些区域也分别作为方格,并使
Figure BDA0001149352440000206
中的方格的总个数Z的值在取值范围
Figure BDA0001149352440000207
内。
⑤将训练好的条件随机场模型中的参数α和β及训练好的形状玻尔兹曼机模型中的参数
Figure BDA0001149352440000208
Figure BDA0001149352440000209
作为条件随机场与形状玻尔兹曼机联合模型(联合模型图如图1所示)的初始化参数;然后将训练集中的所有原始图像对应的超像素区域节点图像的特征集合及对应的掩膜图像所对应的区域标签集合,输入到条件随机场与形状玻尔兹曼机联合模型
Figure BDA00011493524400002010
中;接着根据热统计力学,确定训练集中的每幅原始图像对应的超像素区域节点图像的条件似然概率应满足的条件,
Figure BDA00011493524400002011
的条件似然概率
Figure BDA00011493524400002012
应满足的条件为:
Figure BDA00011493524400002013
之后将训练集中的所有原始图像对应的超像素区域节点图像的最大条件似然概率的表示式描述为:
Figure BDA00011493524400002014
最后通过现有的平均场估计方法迭代优化
Figure BDA00011493524400002015
使得
Figure BDA00011493524400002016
最大时输出条件随机场与形状玻尔兹曼机联合模型的最终参数αfinal、βfinal
Figure BDA00011493524400002017
Figure BDA00011493524400002018
得到训练好的条件随机场与形状玻尔兹曼机联合模型。
⑥将测试集中的所有原始图像对应的超像素区域节点图像的特征集合,输入到训练好的条件随机场与形状玻尔兹曼机联合模型中,训练好的条件随机场与形状玻尔兹曼机联合模型输出测试集中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签;然后将测试集中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,对应作为测试集中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点标记,对于测试集中的第m”幅原始图像,将该原始图像对应的掩膜图像中的第nm”个掩膜区域的区域标签作为该原始图像对应的超像素区域节点图像中的第nm”个超像素区域节点的节点标记,其中,1≤m”≤M-M',1≤nm”≤Nm”,Nm”表示测试集中的第m”幅原始图像对应的超像素区域节点图像中的超像素区域节点的总个数;再将测试集中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点标记,作为该超像素区域节点中的每个像素点的标记,即若测试集中的第m”幅原始图像对应的超像素区域节点图像中的第nm”个超像素区域节点的节点标记为1,则将第nm”个超像素区域节点中的每个像素点的标记都确定为1,得到测试集中的每幅原始图像对应的超像素区域节点图像相应的标记图。
为了进一步验证本发明方法的可行性与有效性,对本发明方法进行实验。
本发明方法对Penn-Fudan Pedestrians数据集和Caltech-UCSD Birds 200数据集中的每幅原始图像对应的超像素区域节点图像中的每个像素点进行标记,来验证标记效果。Penn-Fudan Pedestrians数据集共有170幅原始图像,每幅原始图像中包含有至少一个行人,利用行人检测框标记信息提取出Penn-Fudan Pedestrians数据集中的每幅原始图像中的行人的检测框部分的图像,得到423幅单个行人图像,并将这些单个行人图像的尺寸大小统一为128×256像素,对从Penn-Fudan Pedestrians数据集中提取的423幅单个行人图像进行镜像对称复制形成846幅单个行人图像的数据集,其中500幅图像及每幅图像对应的掩膜图像构成训练集,346幅图像及每幅图像对应的掩膜图像构成测试集。Caltech-UCSDBirds 200数据集中包含有200类鸟类的6033幅原始图像,原始图像拥有粗糙的分割掩膜,因为其掩膜精确度不够,所以采用YANG J,SAFAR S,YANG M H.Max-Margin Boltzmannmachines for object segmentation[C]//IEEE Conference on Computer Vision andPattern Recognition(杨集美、西蒙·萨法、杨明轩,用于对象分割的最大间隔玻尔兹曼机[C]//IEEE计算机视觉与模式识别会议)手动标记出该数据集中的每幅原始图像的准确掩膜。利用检测框标记信息提取出Caltech-UCSD Birds 200数据集中的每幅原始图像中的检测框部分的图像,并将提取出的图像的尺寸大小统一为128×128像素,其中3033幅提取出的图像及各自对应的掩膜图像构成训练集,3000幅提取出的图像及各自对应的掩膜图像构成测试集。
采用标准的条件随机场模型、标准的空间条件随机场(SCRF)、标准的形状玻尔兹曼机模型以及本发明方法分别对上述测试集中的每幅图像对应的超像素区域节点图像中的每个像素点进行标记。上述各方法在CPU为Intel Xeon E5-2650 2.60GHz,内存为128GB的计算机上进行实验。标记准确率的衡量标准如下:
Figure BDA0001149352440000221
其中,avg_truth表示测试集中的所有图像对应的超像素区域节点图像中标记准确的超像素区域节点的总个数与测试集中的所有图像对应的超像素区域节点图像中的超像素区域节点的总个数的比例,M”表示测试集中的图像的总幅数,M”=M-M',Ym”表示测试集中的第m”幅图像对应的超像素区域节点图像中的超像素区域节点的节点标记结果,OR为异或操作,GTm”表示测试集中的第m”幅图像对应的超像素区域节点图像中的超像素区域节点的理论标记值,理论标记值的计算方式为本发明方法的步骤①中给出的确定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签的方式,即根据测试集中的每幅图像对应的掩膜图像中的每个掩膜区域中属于前景的像素点的总个数与整个掩膜区域中的像素点的总个数的比例来确定测试集中的每幅图像对应的掩膜图像中的每个掩膜区域的区域标签,再映射到对应的超像素区域节点图像中的超像素区域节点,作为对应的超像素区域节点图像中的超像素区域节点的理论标记值,超像素区域节点图像中的每个超像素区域节点的理论标记值作为该超像素区域节点中的每个像素点的理论标记值。
针对Penn-Fudan Pedestrians数据集,经过多次实验证明,本发明方法设置参数Z=900、Q=529、K=500、U=200时具有较优的效果。通过10次交叉实验,每次实验的训练集中的500幅图像和测试集中的346幅图像都不完全相同,通过
Figure BDA0001149352440000231
得到每次实验的标记准确率并通过平均得到本发明方法的最终实验准确率87.90%。在相同实验情况下,相对于标准的条件随机场模型、标准的空间条件随机场(SCRF)、标准的形状玻尔兹曼机模型得到的标记图的标记准确率上都有提高,具体对比结果见表1所列。表1中的误识降低率表示空间条件随机场(SCRF)、形状玻尔兹曼机模型和本发明方法相较于标准的条件随机场模型的错误率减少的程度。图3a给出了根据Penn-Fudan Pedestrians数据集构建的测试集中的一幅图像,图3b给出了利用条件随机场模型对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图3c给出了利用空间条件随机场对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图3d给出了利用本发明方法对图3a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图3e给出了图3a所示的图像对应的标准掩膜图像;图4a给出了根据Penn-Fudan Pedestrians数据集构建的测试集中的另一幅图像,图4b给出了利用条件随机场模型对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图4c给出了利用空间条件随机场对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图4d给出了利用本发明方法对图4a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图4e为图4a所示的图像对应的标准掩膜图像。由于本发明方法结合了对象的整体形状先验,因此相对于未增加对象的整体形状先验的条件随机场模型和空间条件随机场,本发明方法能够调整明显违背对象形状信息的错误标记,从图3a至图3e以及图4a至图4e中可以明显看出,在Penn-Fudan Pedestrians数据集上本发明方法的标记效果与标准掩膜图像图3e,4e最为接近,即本发明方法的标记效果要比条件随机场模型和空间条件随机场的标记效果好。
表1 标准的条件随机场模型、空间条件随机场(SCRF)、形状玻尔兹曼机模型以及本发明方法在Penn-Fudan Pedestrians数据集上的标记准确率对比
Figure BDA0001149352440000232
Figure BDA0001149352440000241
针对Caltech-UCSD Birds 200数据集,经过多次实验证明,本发明方法设置参数Z=1024、Q=529、K=400、U=100时具有较优的效果。通过10次交叉实验,每次实验的训练集中的3033幅图像和测试集中的3000幅图像都不完全相同,通过
Figure BDA0001149352440000242
得到每次实验的标记准确率并通过平均得到本发明方法的最终实验准确率83.34%。在相同实验情况下,相对于标准的条件随机场模型、空间条件随机场(SCRF)、形状玻尔兹曼机模型得到的标记图的标记准确率上都有提高,具体对比结果见表2所列。表2中的误识降低率表示空间条件随机场(SCRF)、形状玻尔兹曼机模型和本发明方法相较于标准的条件随机场模型的错误率减少的程度。图5a给出了根据Caltech-UCSD Birds 200数据集构建的测试集中的一幅图像,图5b给出了利用条件随机场模型对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图5c给出了利用空间条件随机场对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图5d给出了利用本发明方法对图5a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图5e给出了图5a所示的图像对应的标准掩膜图像;图6a给出了根据Caltech-UCSD Birds 200数据集构建的测试集中的另一幅图像,图6b给出了利用条件随机场模型对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图6c给出了利用空间条件随机场对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图6d给出了利用本发明方法对图6a所示的图像对应的超像素区域节点图像中的每个像素点进行标记后得到的标记图,图6e给出了图6a所示的图像对应的标准掩膜图像。由于本发明方法结合了对象的整体形状先验,因此相对于未增加对象的整体形状先验的条件随机场模型和空间条件随机场,本发明方法能够调整明显违背对象形状信息的错误标记,从图5a至图5e以及图6a至图6e中可以明显看出,在Caltech-UCSD Birds 200数据集上本发明方法的标记效果与标准掩膜图像图5e,6e最为接近,即本发明方法的标记效果要比条件随机场模型和空间条件随机场的标记效果好。
表2 标准的条件随机场模型、空间条件随机场(SCRF)、形状玻尔兹曼机模型以及本发明方法在Caltech-UCSD Birds 200数据集上的标记准确率对比
Figure BDA0001149352440000251
对本发明方法的计算复杂度进行分析。条件随机场模型使用置信度传播(loopybelief propagation)算法预测一幅原始图像对应的超像素区域节点图像中的所有像素点标记的时间复杂度是O(ELC),E为条件随机场图模型中边的总数量,边数与超像素区域节点的个数N'直接关联,使用Ncut算法估算E为4×N',L为标签的数量,C为超像素区域节点的平均大小,即
Figure BDA0001149352440000252
width表示原始图像的宽度,height表示原始图像的高度,width×height表示每幅原始图像大小,由此可得条件随机场预测一幅图像的时间复杂度为
Figure BDA0001149352440000253
对于形状玻尔兹曼机模型的时间复杂度分为正向学习阶段时间复杂度和反向学习阶段时间复杂度,正向学习阶段时间复杂度为O(Z×K×U×t),反向学习阶段时间复杂度为O(Z×K×U×CD1×CD2),所以形状玻尔兹曼机模型的时间复杂度为O(Z×K×U×(CD1+CD2+t)),其中,Z表示每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的方格的总个数即形状玻尔兹曼机模型的虚拟输入节点个数,K表示第一层隐节点中隐节点的总个数,U表示第二层隐节点中的隐节点的总个数,CD1和CD2表示对比散度算法的迭代次数,t表示形状玻尔兹曼机模型的迭代次数。因为条件随机场与形状玻尔兹曼机联合模型的能量函数是条件随机场与形状玻尔兹曼机的能量函数的叠加,即条件随机场与形状玻尔兹曼机的能量函数为线性关系,所以条件随机场与形状玻尔兹曼机联合模型的整体时间复杂度为
Figure BDA0001149352440000261
即条件随机场与形状玻尔兹曼机联合模型在标记准确率提高的情况下,整体时间复杂度并没有提高。

Claims (6)

1.一种结合图像局部约束与对象全局约束的图像标记方法,其特征在于包括以下步骤:
①选取一个图像库,该图像库中包含有M幅原始图像及每幅原始图像对应的掩膜图像,将图像库中的第m幅原始图像记为
Figure FDA0002759858800000011
Figure FDA0002759858800000012
对应的掩膜图像记为
Figure FDA0002759858800000013
然后采用超像素分割方法对图像库中的每幅原始图像进行超像素分割,得到图像库中的每幅原始图像对应的超像素区域节点图像,将
Figure FDA0002759858800000014
对应的超像素区域节点图像记为
Figure FDA0002759858800000015
Figure FDA0002759858800000016
中的第nm个超像素区域节点记为
Figure FDA0002759858800000017
接着在图像库中的每幅原始图像对应的掩膜图像中找出与对应的超像素区域节点图像中的每个超像素区域节点相对应的掩膜区域,对于
Figure FDA0002759858800000018
Figure FDA0002759858800000019
中找出与
Figure FDA00027598588000000110
中的每个超像素区域节点相对应的掩膜区域,将在
Figure FDA00027598588000000111
中找出的与
Figure FDA00027598588000000112
相对应的掩膜区域记为
Figure FDA00027598588000000113
再根据图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域中属于前景的像素点的总个数与整个掩膜区域中的像素点的总个数的比例,来确定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,将
Figure FDA00027598588000000114
的区域标签记为
Figure FDA00027598588000000115
最后根据图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,判定图像库中的每幅原始图像对应的掩膜图像中的每个掩膜区域为前景区域或为背景区域,对于
Figure FDA00027598588000000116
Figure FDA00027598588000000117
则将
Figure FDA00027598588000000118
判定为前景区域,若
Figure FDA00027598588000000119
则将
Figure FDA00027598588000000120
判定为背景区域;并将图像库中的每幅原始图像对应的掩膜图像中的所有掩膜区域的区域标签构成一个区域标签集合,将
Figure FDA00027598588000000121
中的所有掩膜区域的区域标签构成的区域标签集合记为
Figure FDA00027598588000000122
Figure FDA00027598588000000123
Figure FDA00027598588000000124
中的所有掩膜区域标记后得到的图像记为
Figure FDA00027598588000000125
其中,M≥200,1≤m≤M,1≤nm≤Nm,Nm表示
Figure FDA00027598588000000126
中的超像素区域节点的总个数,Nm>1;
②提取图像库中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点特征,将
Figure FDA00027598588000000127
的节点特征记为
Figure FDA00027598588000000128
Figure FDA00027598588000000129
然后将图像库中的每幅原始图像对应的超像素区域节点图像中的所有超像素区域节点的节点特征构成一个节点特征集合,将
Figure FDA0002759858800000021
中的所有超像素区域节点的节点特征构成的节点特征集合记为
Figure FDA0002759858800000022
Figure FDA0002759858800000023
其中,
Figure FDA0002759858800000024
的维数为1×192,
Figure FDA0002759858800000025
表示
Figure FDA0002759858800000026
的颜色直方图特征,
Figure FDA0002759858800000027
表示
Figure FDA0002759858800000028
的纹理直方图特征,
Figure FDA0002759858800000029
表示
Figure FDA00027598588000000210
的位置概率直方图特征,
Figure FDA00027598588000000211
Figure FDA00027598588000000212
的维数为1×64;
并提取图像库中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点与其相邻的各个超像素区域节点之间的连接边特征,将
Figure FDA00027598588000000213
与其相邻的第
Figure FDA00027598588000000214
个超像素区域节点之间的连接边特征记为
Figure FDA00027598588000000215
Figure FDA00027598588000000216
然后将图像库中的每幅原始图像对应的超像素区域节点图像中的所有超像素区域节点对应的连接边特征构成一个连接边特征集合,将
Figure FDA00027598588000000217
中的所有超像素区域节点对应的连接边特征构成的连接边特征集合记为
Figure FDA00027598588000000218
Figure FDA00027598588000000219
其中,与
Figure FDA00027598588000000220
相邻的超像素区域节点是指与
Figure FDA00027598588000000221
有共同边界的超像素区域节点,
Figure FDA00027598588000000222
Figure FDA00027598588000000223
表示
Figure FDA00027598588000000224
中与
Figure FDA00027598588000000225
相邻的超像素区域节点的总个数,
Figure FDA00027598588000000226
Figure FDA00027598588000000227
的维数为1×3,
Figure FDA00027598588000000228
表示
Figure FDA00027598588000000229
与其相邻的第
Figure FDA00027598588000000230
个超像素区域节点的共同边界上的所有像素点的PB值即边界的后验概率值之和,
Figure FDA00027598588000000231
表示
Figure FDA00027598588000000232
的颜色直方图和与
Figure FDA00027598588000000233
相邻的第
Figure FDA00027598588000000234
个超像素区域节点的颜色直方图之间的欧氏距离,
Figure FDA00027598588000000235
表示
Figure FDA00027598588000000236
的纹理直方图和与
Figure FDA00027598588000000237
相邻的第
Figure FDA00027598588000000238
个超像素区域节点的纹理直方图之间的卡方距离;
再将图像库中的每幅原始图像对应的超像素区域节点图像所对应的节点特征集合和连接边特征集合构成图像库中的每幅原始图像对应的超像素区域节点图像的特征集合,将
Figure FDA00027598588000000239
的特征集合记为
Figure FDA00027598588000000240
③将图像库中选取的M'幅原始图像及选取的每幅原始图像对应的掩膜图像构成训练集,将训练集中的第m'幅原始图像记为
Figure FDA00027598588000000241
Figure FDA00027598588000000242
对应的掩膜图像记为
Figure FDA00027598588000000243
Figure FDA00027598588000000244
对应的超像素区域节点图像记为
Figure FDA00027598588000000245
Figure FDA00027598588000000246
中的所有掩膜区域标记后得到的图像记为
Figure FDA0002759858800000031
并将图像库中剩余的M-M'原始图像及剩余的每幅原始图像对应的掩膜图像构成测试集;然后将训练集中的所有原始图像对应的超像素区域节点图像的特征集合及对应的掩膜图像所对应的区域标签集合,输入到条件随机场模型Ecrf(Ytruth,Xorg)=Enode(Ytruth,Xnode)+Eedge(Ytruth,Xedge)中,通过条件随机场模型计算得到训练集中的每幅原始图像对应的超像素区域节点图像的能量,将
Figure FDA0002759858800000032
的能量记为
Figure FDA0002759858800000033
Figure FDA0002759858800000034
接着根据热统计力学,确定训练集中的每幅原始图像对应的超像素区域节点图像的条件似然概率应满足的条件,
Figure FDA0002759858800000035
的条件似然概率
Figure FDA0002759858800000036
应满足的条件为:
Figure FDA0002759858800000037
之后将训练集中的所有原始图像对应的超像素区域节点图像的最大条件似然概率的表示式描述为:
Figure FDA0002759858800000038
最后优化
Figure FDA0002759858800000039
当训练集中的所有原始图像对应的超像素区域节点图像的能量之和最小时即使得
Figure FDA00027598588000000310
最大时输出条件随机场模型的统一权重参数α和β,得到训练好的条件随机场模型;其中,0.5M≤M'≤0.9M,1≤m'≤M',Ytruth、Xorg、Xnode和Xedge均为条件随机场模型的输入参数,Ytruth表示训练集中的任一幅原始图像对应的掩膜图像所对应的区域标签集合,Xorg表示训练集中的任一幅原始图像对应的超像素区域节点图像的特征集合,Xnode表示训练集中的任一幅原始图像对应的超像素区域节点图像所对应的节点特征集合,Xedge表示训练集中的任一幅原始图像对应的超像素区域节点图像所对应的连接边特征集合,Enode(Ytruth,Xnode)表示条件随机场模型的一阶势,Eedge(Ytruth,Xedge)表示条件随机场模型的二阶势,
Figure FDA00027598588000000311
表示
Figure FDA00027598588000000312
所对应的区域标签集合,
Figure FDA00027598588000000313
表示
Figure FDA00027598588000000314
的特征集合,
Figure FDA00027598588000000315
表示
Figure FDA00027598588000000316
所对应的节点特征集合,
Figure FDA00027598588000000317
表示
Figure FDA00027598588000000318
所对应的连接边特征集合,exp()表示以自然基数e为底的指数函数,max{}表示取最大值函数;
④获取训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的每个方格的虚拟标签,将
Figure FDA0002759858800000041
中的第z个方格
Figure FDA0002759858800000042
的虚拟标签记为
Figure FDA0002759858800000043
Figure FDA0002759858800000044
然后将训练集中的每幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的所有方格的虚拟标签构成一个虚拟标签集合,将
Figure FDA0002759858800000045
中的所有方格的虚拟标签构成的虚拟标签集合记为
Figure FDA0002759858800000046
Figure FDA0002759858800000047
接着将训练集中的所有原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像所对应的虚拟标签集合,输入到形状玻尔兹曼机模型
Figure FDA0002759858800000048
中;之后采用对比散度算法训练形状玻尔兹曼机模型的第一层网络,得到形状玻尔兹曼机模型的第一层网络的输出htruth,1及形状玻尔兹曼机模型的第一层网络的参数Wtruth,1、atruth和btruth
Figure FDA0002759858800000049
Figure FDA00027598588000000410
再将形状玻尔兹曼机模型的第一层网络的输出htruth,1作为形状玻尔兹曼机模型的第二层网络的输入,同样采用对比散度算法训练形状玻尔兹曼机模型的第二层网络,得到形状玻尔兹曼机模型的第二层网络的输出htruth,2及形状玻尔兹曼机模型的第二层网络的参数Wtruth,2和ctruth
Figure FDA00027598588000000411
最后采用平均场估计方法对Wtruth,1、atruth、btruth、Wtruth,2和ctruth进行微调优化,将微调优化后对应得到的
Figure FDA00027598588000000412
Figure FDA00027598588000000413
作为形状玻尔兹曼机模型的最终参数,得到训练好的形状玻尔兹曼机模型;其中,1≤z≤Z,Z表示
Figure FDA00027598588000000414
中的方格的总个数,
Figure FDA0002759858800000051
符号
Figure FDA0002759858800000052
为向上取整符号,1≤nm'≤Nm',Nm'表示
Figure FDA0002759858800000053
中的超像素区域节点的总个数,Nm'>1,
Figure FDA0002759858800000054
表示
Figure FDA0002759858800000055
中的第nm'个掩膜区域的区域标签,
Figure FDA0002759858800000056
表示
Figure FDA0002759858800000057
中与
Figure FDA0002759858800000058
中的第nm'个掩膜区域
Figure FDA0002759858800000059
对应的区域
Figure FDA00027598588000000510
中属于
Figure FDA00027598588000000511
中的第z个方格
Figure FDA00027598588000000512
的面积占
Figure FDA00027598588000000513
的面积的比例,
Figure FDA00027598588000000514
Figure FDA00027598588000000515
Figure FDA00027598588000000516
表示
Figure FDA00027598588000000517
Figure FDA00027598588000000518
相交的面积,符号“∩”为相交运算符号,
Figure FDA00027598588000000519
表示
Figure FDA00027598588000000520
的面积,
Figure FDA00027598588000000521
表示训练集中的任一幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的所有方格的虚拟标签构成的虚拟标签集合,K表示形状玻尔兹曼机模型的第一层隐节点中的隐节点的总个数,K>1,
Figure FDA00027598588000000522
表示训练集中的任一幅原始图像对应的掩膜图像中的所有掩膜区域标记后得到的图像中的第z个方格的虚拟标签,
Figure FDA00027598588000000523
表示
Figure FDA00027598588000000524
与形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的连接权重,
Figure FDA00027598588000000525
表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的值,
Figure FDA00027598588000000526
表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点的偏置值,
Figure FDA00027598588000000527
表示
Figure FDA00027598588000000528
的偏置值,U表示形状玻尔兹曼机模型的第二层隐节点中的隐节点的总个数,U>1,
Figure FDA00027598588000000529
表示形状玻尔兹曼机模型的第一层隐节点中的第k个隐节点与形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的连接权重,
Figure FDA00027598588000000530
表示形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的值,
Figure FDA00027598588000000531
表示形状玻尔兹曼机模型的第二层隐节点中的第u个隐节点的偏置值;
⑤将训练好的条件随机场模型中的参数α和β及训练好的形状玻尔兹曼机模型中的参数
Figure FDA00027598588000000532
Figure FDA00027598588000000533
作为条件随机场与形状玻尔兹曼机联合模型的初始化参数;然后将训练集中的所有原始图像对应的超像素区域节点图像的特征集合及对应的掩膜图像所对应的区域标签集合,输入到条件随机场与形状玻尔兹曼机联合模型
Figure FDA0002759858800000061
中;接着根据热统计力学,确定训练集中的每幅原始图像对应的超像素区域节点图像的条件似然概率应满足的条件,
Figure FDA0002759858800000062
的条件似然概率
Figure FDA0002759858800000063
应满足的条件为:
Figure FDA0002759858800000064
之后将训练集中的所有原始图像对应的超像素区域节点图像的最大条件似然概率的表示式描述为:
Figure FDA0002759858800000065
最后通过平均场估计方法迭代优化
Figure FDA0002759858800000066
使得
Figure FDA0002759858800000067
最大时输出条件随机场与形状玻尔兹曼机联合模型的最终参数αfinal、βfinal
Figure FDA0002759858800000068
Figure FDA0002759858800000069
得到训练好的条件随机场与形状玻尔兹曼机联合模型;
⑥将测试集中的所有原始图像对应的超像素区域节点图像的特征集合,输入到训练好的条件随机场与形状玻尔兹曼机联合模型中,训练好的条件随机场与形状玻尔兹曼机联合模型输出测试集中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签;然后将测试集中的每幅原始图像对应的掩膜图像中的每个掩膜区域的区域标签,对应作为测试集中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点标记;再将测试集中的每幅原始图像对应的超像素区域节点图像中的每个超像素区域节点的节点标记,作为该超像素区域节点中的每个像素点的标记,得到测试集中的每幅原始图像对应的超像素区域节点图像相应的标记图。
2.根据权利要求1所述的一种结合图像局部约束与对象全局约束的图像标记方法,其特征在于所述的步骤①中
Figure FDA00027598588000000610
其中,
Figure FDA00027598588000000611
表示
Figure FDA00027598588000000612
中属于前景的像素点的总个数,
Figure FDA00027598588000000613
表示
Figure FDA00027598588000000614
中的像素点的总个数。
3.根据权利要求1或2所述的一种结合图像局部约束与对象全局约束的图像标记方法,其特征在于所述的步骤③中
Figure FDA0002759858800000071
其中,1≤nm'≤Nm',Nm'表示
Figure FDA0002759858800000072
中的超像素区域节点的总个数,Nm'>1,
Figure FDA0002759858800000073
表示
Figure FDA0002759858800000074
中的第nm'个掩膜区域的区域标签,1≤d≤192,
Figure FDA0002759858800000075
表示
Figure FDA0002759858800000076
中的第nm'个超像素区域节点的节点特征
Figure FDA0002759858800000077
中的第d个元素,
Figure FDA0002759858800000078
表示
Figure FDA0002759858800000079
的权重,1≤q≤Q,Q表示
Figure FDA00027598588000000710
中的方格的总个数,
Figure FDA00027598588000000711
符号
Figure FDA00027598588000000712
为向上取整符号,
Figure FDA00027598588000000713
表示
Figure FDA00027598588000000714
中的第q个方格
Figure FDA00027598588000000715
中属于
Figure FDA00027598588000000716
中的第nm'个超像素区域节点
Figure FDA00027598588000000717
的面积占
Figure FDA00027598588000000718
中的第nm'个超像素区域节点
Figure FDA00027598588000000719
的面积的比例,
Figure FDA00027598588000000720
Figure FDA00027598588000000721
表示
Figure FDA00027598588000000722
中的第q个方格
Figure FDA00027598588000000723
Figure FDA00027598588000000724
中的第nm'个超像素区域节点
Figure FDA00027598588000000725
相交的面积,符号“∩”为相交运算符号,
Figure FDA00027598588000000726
表示
Figure FDA00027598588000000727
中的第nm'个超像素区域节点
Figure FDA00027598588000000728
的面积;
所述的步骤③中
Figure FDA00027598588000000729
其中,1≤jm'≤Jm',Jm'表示
Figure FDA00027598588000000730
中与第nm'个超像素区域节点相邻的超像素区域节点的总个数,
Figure FDA00027598588000000731
Figure FDA00027598588000000732
表示
Figure FDA00027598588000000733
中与第nm'个掩膜区域相邻的第jm'个掩膜区域的区域标签,
Figure FDA00027598588000000734
表示
Figure FDA00027598588000000735
中的第nm'个超像素区域节点与其相邻的第jm'个超像素区域节点之间的连接边特征
Figure FDA00027598588000000736
中的第e个元素,
Figure FDA00027598588000000737
表示
Figure FDA00027598588000000738
的权重。
4.根据权利要求3所述的一种结合图像局部约束与对象全局约束的图像标记方法,其特征在于
Figure FDA00027598588000000739
中的方格的获取过程为:将
Figure FDA00027598588000000740
分割成多个相同尺寸大小的方格,若分割方格到
Figure FDA00027598588000000741
的末端时存在不同尺寸大小的区域,那么将这些区域也分别作为方格,并使
Figure FDA0002759858800000081
中的方格的总个数Q等于
Figure FDA0002759858800000082
5.根据权利要求1所述的一种结合图像局部约束与对象全局约束的图像标记方法,其特征在于所述的步骤③中优化
Figure FDA0002759858800000083
通过置信度传播方法来实现,或通过结合了标准化算法LBFGS的平均场估计方法来实现。
6.根据权利要求1所述的一种结合图像局部约束与对象全局约束的图像标记方法,其特征在于所述的步骤④中
Figure FDA0002759858800000084
中的方格的获取过程为:将
Figure FDA0002759858800000085
分割成多个相同尺寸大小的方格,若分割方格到
Figure FDA0002759858800000086
的末端时存在不同尺寸大小的区域,那么将这些区域也分别作为方格,并使
Figure FDA0002759858800000087
中的方格的总个数Z的值在取值范围
Figure FDA0002759858800000088
内。
CN201610987762.4A 2016-11-10 2016-11-10 一种结合图像局部约束与对象全局约束的图像标记方法 Active CN106570874B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610987762.4A CN106570874B (zh) 2016-11-10 2016-11-10 一种结合图像局部约束与对象全局约束的图像标记方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610987762.4A CN106570874B (zh) 2016-11-10 2016-11-10 一种结合图像局部约束与对象全局约束的图像标记方法

Publications (2)

Publication Number Publication Date
CN106570874A CN106570874A (zh) 2017-04-19
CN106570874B true CN106570874B (zh) 2021-03-23

Family

ID=58540952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610987762.4A Active CN106570874B (zh) 2016-11-10 2016-11-10 一种结合图像局部约束与对象全局约束的图像标记方法

Country Status (1)

Country Link
CN (1) CN106570874B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10262236B2 (en) * 2017-05-02 2019-04-16 General Electric Company Neural network training image generation system
CN108053420B (zh) * 2018-01-05 2021-11-02 昆明理工大学 一种基于有限时空分辨率类无关属性动态场景的分割方法
CN108664969B (zh) * 2018-04-28 2022-04-19 西安电子科技大学 基于条件随机场的路标识别方法
CN108921854B (zh) * 2018-05-22 2022-06-21 复旦大学 一种消化道内镜图像不规则病变区域标注方法及系统
CN109409376B (zh) * 2018-11-05 2020-10-30 昆山紫东智能科技有限公司 针对固废对象的图像分割方法、计算机终端及存储介质
CN110009628A (zh) * 2019-04-12 2019-07-12 南京大学 一种针对连续二维图像中多形态目标的自动检测方法
CN110189354B (zh) * 2019-04-18 2021-12-28 北京迈格威科技有限公司 图像处理方法与图像处理器、图像处理设备及介质
CN111160300B (zh) * 2019-12-31 2022-06-28 北京理工大学重庆创新中心 一种结合全局先验的深度学习高光谱图像显著性检测算法
CN112613474B (zh) * 2020-12-30 2022-01-18 珠海大横琴科技发展有限公司 一种行人重识别的方法和装置
CN112734764A (zh) * 2021-03-31 2021-04-30 电子科技大学 一种基于对抗网络的无监督医学图像分割方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8866936B2 (en) * 2008-07-24 2014-10-21 Florida State University of Research Foundation Systems and methods for training an active random field for real-time image denoising
CN102509338B (zh) * 2011-09-20 2014-05-07 北京航空航天大学 一种基于轮廓骨架图的视频场景行为生成方法
KR101300247B1 (ko) * 2011-11-11 2013-08-26 경희대학교 산학협력단 마르코프 연쇄 은닉 조건부 랜덤 필드 모델 기반의 패턴 인식 방법
US9443314B1 (en) * 2012-03-29 2016-09-13 Google Inc. Hierarchical conditional random field model for labeling and segmenting images
CN105321176A (zh) * 2015-09-30 2016-02-10 西安交通大学 一种基于分层高阶条件随机场的图像分割方法

Also Published As

Publication number Publication date
CN106570874A (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
CN106570874B (zh) 一种结合图像局部约束与对象全局约束的图像标记方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
Korus et al. Multi-scale fusion for improved localization of malicious tampering in digital images
Fu et al. Fast crowd density estimation with convolutional neural networks
CN108764085B (zh) 基于生成对抗网络的人群计数方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN108038435B (zh) 一种基于卷积神经网络的特征提取与目标跟踪方法
CN109165682B (zh) 一种融合深度特征和显著性特征的遥感图像场景分类方法
CN108961180B (zh) 红外图像增强方法及系统
CN108960404B (zh) 一种基于图像的人群计数方法及设备
WO2022218396A1 (zh) 图像处理方法、装置和计算机可读存储介质
Xu et al. Weakly supervised deep semantic segmentation using CNN and ELM with semantic candidate regions
JP6107531B2 (ja) 特徴抽出プログラム及び情報処理装置
Kim et al. A robust matching network for gradually estimating geometric transformation on remote sensing imagery
Cheng et al. Advanced background subtraction approach using Laplacian distribution model
Vora et al. Iterative spectral clustering for unsupervised object localization
Lecca et al. Comprehensive evaluation of image enhancement for unsupervised image description and matching
CN112132892B (zh) 目标位置标注方法、装置及设备
CN111444816A (zh) 一种基于Faster RCNN的多尺度密集行人检测方法
CN105160666A (zh) 基于非平稳分析与条件随机场的sar图像变化检测方法
Wang et al. Semantic segmentation of sewer pipe defects using deep dilated convolutional neural network
Divya et al. Segmentation of Defected Regions in Leaves using K-Means and OTSU's Method
Elashry et al. Feature matching enhancement using the graph neural network (gnn-ransac)
CN116824330A (zh) 一种基于深度学习的小样本跨域目标检测方法
CN115995024A (zh) 基于类图神经网络的图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant