CN109727256A - 一种基于玻尔兹曼和目标先验知识的图像分割识别方法 - Google Patents
一种基于玻尔兹曼和目标先验知识的图像分割识别方法 Download PDFInfo
- Publication number
- CN109727256A CN109727256A CN201811505428.6A CN201811505428A CN109727256A CN 109727256 A CN109727256 A CN 109727256A CN 201811505428 A CN201811505428 A CN 201811505428A CN 109727256 A CN109727256 A CN 109727256A
- Authority
- CN
- China
- Prior art keywords
- target
- appearance
- image
- segmentation
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000003709 image segmentation Methods 0.000 title claims description 4
- 230000011218 segmentation Effects 0.000 claims abstract description 35
- 230000006870 function Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 6
- 230000003993 interaction Effects 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 abstract description 3
- 210000004556 brain Anatomy 0.000 abstract description 2
- 230000019771 cognition Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于玻尔兹曼和目标先验知识的协同分割识别方法。该方法通过对目标的形状和外观知识进行建模、学习和表达,基于玻尔兹曼机建立了分割模型与识别模型之间的双向通路。不同于以往的同时分割与识别模型,该方法模拟了人脑的视觉认知机制,分割任务与识别任务是以交互与协同的方式逐步完成的。同时,该方法有效学习和利用了目标的先验知识和信息,使得分割结果既能符合实际图像数据,又能与目标的先验知识一致。
Description
技术邻域
本发明属于图像分割、自动识别和目标表示邻域,特别地涉及一种基于玻尔兹曼和目标先验知识的协同分割识别方法。模型训练部分,涉及到基于玻尔兹曼机的形状学习。
背景技术
图像目标分割与目标识别是计算机视觉与图像处理邻域两个基础和重要的任务。分割的经典方法包括基于能量泛函的变分模型,基于图模型的图割、马尔科夫随机场和条件场方法,以及最近基于深度学习的语义分割与实例分割方法。识别的方法则更多。但是,这样两个任务通常都是处于独立的研究线上,互相之间仅具有一点甚至不具有任务的协同性,这与人类的视觉认知机制是不同的。对人类而言,许多视觉任务是存在相互作用的。以分割与识别任务为例,有人类认知学、心理学等邻域相关实验表明,对目标的识别依赖于人脑对目标的分割和提取,而反过来分割则依赖于对目标的识别和理解。这一过程还涉及到人类对于目标知识的学习、理解和表达,而这也是当前大部分分割模型所欠缺的。
引入关于目标的知识来辅助视觉任务,同时建立分割与识别的协同模型,这一方法能够保证分割得到的结果既符合实际图像中目标的性质,也符合目标的先验知识,而且能够保证分割得到的结果是可以被正确识别的,识别的结果是具有较强的可解释性的。协同机制有助于提高两个联合任务的效果,提升分割的准确性,识别的可靠性。
发明内容
本发明的目的在于提供了一种基于玻尔兹曼机的分割识别模型。该方法通过对目标先验知识(形状、外观)的学习、建模和表达,基于玻尔兹曼机建立了分割模型与识别模型之间的“自底向上”和“自顶向下”的通路,使得两个任务协同工作,互相传递信息,同时完成任务。
为实现上述目的,本发明的技术方案为:一种基于玻尔兹曼机和目标先验知识的协同分割与识别方法。该方法为:
步骤1:基于包括L中不同类别的目标三元组数据{目标图像Ii,目标形状mi,目标类别标签yi},其中i=1,…,N为样本编号,mi∈{0,1}H×W,H,W,C分别为图像Ii的长、宽和通道数,使用玻尔兹曼机建立目标先验知识模型,用于学习、提取每个目标形状mi和标签yi的联合特征{hj}j=1,2,…,M,其中M为玻尔兹曼机隐藏层层数,{hj}为各个隐层单元的集合;同时在玻尔兹曼机的标签层z∈[0,1]L中基于这些特征,学习对形状的识别;
步骤2:对各图像像素点进行特征提取,并使用分类模型建立外观表达模型,以表达目标的外观;
步骤3:对于待分割识别的图像其中有且仅有一个目标,利用基于图像数据的能量函数E(q,t)=Edata(I,q)对I进行初步分割,按照能量最优的原则,分割得到初始的结果q∈[0,1]H×W,像素点位置x的值q(x)表征该像素属于目标的概率;
步骤4:使用玻尔兹曼机对初始的结果q进行特征提取和识别,获得其目标形状特征{hl},识别目标类别标签t;
步骤5:基于目标特征{hj}和目标类别标签t,玻尔兹曼机将表达目标的参考形状同时,基于目标类别标签t,外观表达模型将表达目标的参考外观
步骤6:基于参考形状和参考外观更新步骤3中的能量函数如下:
E(q,t)=α×Edata(q)+β×Eshape(q,t)+(1-α-β)×Eappearance(q,t)
其中,Eshape(q,t)为参考形状和当前分割结果q的损失函数,Eappearance(q,t)为参考外观和当前分割结果q的损失函数,α、β均为权重;
步骤7:重复步骤3~6,直到q收敛或达到最大迭代次数,输出分割的目标q与识别的目标类别标签t。
进一步地,步骤2中所述外观包括但不限于目标的颜色、纹理、所属超像素的特征等数据。
进一步地,步骤2所述外观的提取方法包括但不限于:(1)基于神经网络的特征提取方法;(2)基于传统手工特征提取方法。
进一步地,步骤2所述外观模型的建立方法如下:
(4.1)对所有第l类的目标图像{Ii|yi=l},提取每个目标图像Ii中在像素点x处的外观特征fi(x);利用目标三元组数据中对应的目标形状mi∈{0,1}H×W,图像Ii的目标部分被标记为 1,其他部分被标记为0。依据所有第l类的像素点特征及其标记,建立从外观特征fi(x)和mi(x) 之间的映射模型s=dl(f):当mi(x)=0时,满足s(x)<s0,而当mi(x)=1时,满足s(x)≥s0,其中s(x)为x位置处的外观评分,s0为评分阈值;
(4.2)映射模型dl的形式包括但不限于:(1)传统的回归/分类模型;(2)神经网络模型;
(4.3)按照(4.1)所述方法,对所有L个类的目标图像数据都建立这种映射关系,从而得到包含了分别针对L个类别的外观模型{dl}l=1,2,…,L。
步骤5所述参考外观为:
(5.1)给定目标类别的识别结果t,目标的参考外观定义为:
其中指示函数 为参考外观中像素点x位置的最终外观评分;
(5.2)给定待测图像I和外观模型{dl}l=1,2,…,L,迭代过程中,由于f是确定的,所以dl(f)是确定的,而则会随着识别结果t的变化而变化。
本发明的有益效果是:
(1)有效地学习、建模和表达了目标的先验知识,包括形状和外观,并将其纳入到分割与识别的协同模型中;
(2)建立了分割模型与识别模型之间的双向通路,实现了两个任务的交互和协同,使分割模型有效地利用了目标的先验知识,提升了分割的效果,进而提升识别的效果。
附图说明
图1为本发明的流程图;
图2为待分割识别图像;
图3为基于图2计算得到的{dl(f)}l=1,…,L,其中L=30;
图4~图6为迭代1、20、40次过程中生成的参考形状;
图7~图9为迭代1、20、40次获得的分割识别结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应该理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述可以完全理解本发明。
参考图1所示为本发明实施例的基于玻尔兹曼机的协同分割与识别模型的步骤流程图。
给定训练用数据集{目标图像Ii,目标形状mi,目标类别标签yi},测试用目标图像Itest,按照以下方法处理:
1.训练形状表达模型和外观表达模型
(1.1)基于数据集D0={目标图像Ii,目标形状mi,目标类别标签yi},将目标形状进行适当扩充(即数据集增广),对部分训练形状进行不同程度的位移、形变和旋转,产生更多训练用形状。其与其标签定义为数据集将所有目标形状图片归一化到80×80大小。
(1.2)设定玻尔兹曼机的隐层数量为1层,此时玻尔兹曼机即为“输入层(可视层)-第一隐层-输出层(即标签层)”的三层结构,分别对应数据q,h1,z,则输出的识别结果为 t=argkmaxzk。q包含80×80=6400个可视层单元,h1包含1600个隐层单元,z中的单元数量为L。
(1.3)将D1中的样本对输入到玻尔兹曼机中进行形状学习,建立形状表达模型和识别模型。
(1.4)根据D0中的样本对(Ii,mi,yi),首先对其中每个图像进行超像素分割。而后,对每个超像素进行特征提取,提取其dense sift特征、颜色直方图和轮廓特征,每个超像素拥有2688 维特征向量。每个像素点的特征设定为其所在超像素的特征。
(1.5)建立第l类的外观模型时,将所有第l类目标所在区域定义为前景,非目标区域或者其他类目标图像定义为背景,建立从像素点特征到前背景标记的映射模型。此模型即为第 l类的外观模型Dl。
2.对测试图像Itest
(2.1)依照(1.4),提取图像中每个像素点的特征,然后在L个外观模型上进行映射,获得目标图像在所有类别上的外观模型{dl}。
(2.2)本实施例采用如下方法建立图像数据能量项,f(x)=-logp(I(x)|q(x)≥τ),g(x)=-logp(I(x)|q(x)<τ),其中τ为前景概率置信度阈值,I(x)为像素点x的图像数据(例如灰度值)。p(I(x)|q(x)≥τ)表示前景区域的像素颜色分布,p(I(x)|q(x)<τ)为背景区域的像素颜色分布。数据项因此为Edata(I;q)=∑xq(x)f(x)+(1-q(x))g(x);对能量函数 E(q,t)=Edata(I,q),按照能量最优的原则,分割得到初始的结果q0。
(2.3)给定初始轮廓q0,在第k次优化迭代过程中,使用玻尔兹曼机对qk-1进行形状提取和识别,在标签层z得到识别结果tk;利用平均场方法,将tk的信息融合到玻尔兹曼机的隐层h1中,并利用h1生成参考形状若以二值交叉熵作为相似度损失的度量,则形状约束能量项
(2.4)根据tk,产生合适的外观评分,并获得外观约束能量项
(2.5)对三个能量项进行加权,获得最终能量
E(q,t)=α×Edata(q)+β×Eshape(q,t)+(1-α-β)×Eappearance(q,t)
(2.6)基于SplitBregman优化方法,优化上述能量方程。假设总能量方程表达为
其中rdata(x)=f(x)-g(x),引入一个变量然后建立约束条件及那么优化问题转化为:
所以,其中k为迭代次数,只需要交替迭代优化qk+1,dk+1和ek+1,快速地完成优化。迭代一定次数或者q,t收敛时,迭代结束,输出最终结果,获得分割结果q和识别结果t。
图4~图6为迭代1、20、40次过程中生成的参考形状,图7~图9为迭代1、20、40次获得的分割识别结果。从这些图示中可以看到,尽管一开始模型错误的识别了测试图像中的目标,参考形状也很模糊,但随着分割和识别协同任务的进行,分割的结果越来越符合测试图像,而识别的结果也变得正确,产生的参考形状也较为准确。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于玻尔兹曼机和目标先验知识的图像分割识别方法,其特征在于,该方法包括如下步骤:
步骤1:基于包括L中不同类别的目标三元组数据{目标图像Ii,目标形状mi,目标类别标签yi},其中i=1,…,N为样本编号,mi∈{0,1}H×W,H,W,C分别为图像Ii的长、宽和通道数,使用玻尔兹曼机建立目标先验知识模型,用于学习、提取每个目标形状mi和标签yi的联合特征{hj}j=1,2,…,M,其中M为玻尔兹曼机隐藏层层数,{hj}为各个隐层单元的集合;同时在玻尔兹曼机的标签层z∈[0,1]L中基于这些特征,学习对形状的识别;
步骤2:对各图像像素点进行特征提取,并使用分类模型建立外观表达模型,以表达目标的外观;
步骤3:对于待分割识别的图像其中有且仅有一个目标,利用基于图像数据的能量函数E(q,t)=data(I,q)对I进行初步分割,按照能量最优的原则,分割得到初始的结果q∈[0,1]H×W,像素点位置x的值q(x)表征该像素属于目标的概率;
步骤4:使用玻尔兹曼机对初始的结果q进行特征提取和识别,获得其目标形状特征{hl},识别目标类别标签t;
步骤5:基于目标特征{hj}和目标类别标签t,玻尔兹曼机将表达目标的参考形状同时,基于目标类别标签t,外观表达模型将表达目标的参考外观
步骤6:基于参考形状和参考外观更新步骤3中的能量函数如下:
E(q,t)=×Edata(q)+×Eshape(q,t)+(1--β)×Eappearance(q,t)
其中,Eshape(q,t)为参考形状和当前分割结果q的损失函数,Eappearance(q,t)为参考外观和当前分割结果q的损失函数,α、β均为权重;
步骤7:重复步骤3~6,直到q收敛或达到最大迭代次数,输出分割的目标q与识别的目标类别标签t。
2.根据权利要求1所述的方法,其特征在于,步骤2中所述外观包括但不限于目标的颜色、纹理、所属超像素的特征等数据。
3.根据权利要求1所述的方法,其特征在于,步骤2所述外观的提取方法包括但不限于:(1)基于神经网络的特征提取方法;(2)基于传统手工特征提取方法。
4.根据权利要求1所述的方法,其特征在于,步骤2所述外观模型的建立方法如下:
(4.1)对所有第l类的目标图像{Ii|yi=},提取每个目标图像Ii中在像素点x处的外观特征fi(x);利用目标三元组数据中对应的目标形状mi∈{0,1}H×W,图像Ii的目标部分被标记为1,其他部分被标记为0。依据所有第l类的像素点特征及其标记,建立从外观特征fi(x)和mi(x)之间的映射模型s=dl(f):当mi(x)=0时,满足s(x)<s0,而当mi(x)=1时,满足s(x)≥s0,其中s(x)为x位置处的外观评分,s0为评分阈值;
(4.3)按照(4.1)所述方法,对所有L个类的目标图像数据都建立这种映射关系,从而得到包含了分别针对L个类别的外观模型{dl}l=1,2,…,L。
(4.2)映射模型dl的形式包括但不限于:(1)传统的回归/分类模型;(2)神经网络模型。
5.根据权利要求1所述的方法,其特征在于,步骤5所述参考外观为:
(5.1)给定目标类别的识别结果t,目标的参考外观为:
其中指示函数 为参考外观中像素点x位置的最终外观评分;
(5.2)给定待测图像I和外观模型{dl}l=1,2,…,L,迭代过程中,由于f是确定的,所以dl(f)是确定的,而则会随着识别结果t的变化而变化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811505428.6A CN109727256B (zh) | 2018-12-10 | 2018-12-10 | 一种基于玻尔兹曼和目标先验知识的图像分割识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811505428.6A CN109727256B (zh) | 2018-12-10 | 2018-12-10 | 一种基于玻尔兹曼和目标先验知识的图像分割识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109727256A true CN109727256A (zh) | 2019-05-07 |
CN109727256B CN109727256B (zh) | 2020-10-27 |
Family
ID=66295395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811505428.6A Expired - Fee Related CN109727256B (zh) | 2018-12-10 | 2018-12-10 | 一种基于玻尔兹曼和目标先验知识的图像分割识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109727256B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555511A (zh) * | 2019-07-24 | 2019-12-10 | 北京踏歌智行科技有限公司 | 识别区域的方法、装置、电子设备和计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030035595A1 (en) * | 2001-06-06 | 2003-02-20 | Ying Liu | Attrasoft image retrieval |
WO2006114003A1 (en) * | 2005-04-27 | 2006-11-02 | The Governors Of The University Of Alberta | A method and system for automatic detection and segmentation of tumors and associated edema (swelling) in magnetic resonance (mri) images |
CN103996056A (zh) * | 2014-04-08 | 2014-08-20 | 浙江工业大学 | 一种基于深度学习的纹身图像分类方法 |
CN106599901A (zh) * | 2016-10-09 | 2017-04-26 | 福州大学 | 基于深度玻尔兹曼机的协同目标分割与行为识别方法 |
CN107316294A (zh) * | 2017-06-28 | 2017-11-03 | 太原理工大学 | 一种基于改进的深度玻尔兹曼机肺结节特征提取和良恶性分类方法 |
WO2018200840A1 (en) * | 2017-04-27 | 2018-11-01 | Retinopathy Answer Limited | System and method for automated funduscopic image analysis |
-
2018
- 2018-12-10 CN CN201811505428.6A patent/CN109727256B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030035595A1 (en) * | 2001-06-06 | 2003-02-20 | Ying Liu | Attrasoft image retrieval |
WO2006114003A1 (en) * | 2005-04-27 | 2006-11-02 | The Governors Of The University Of Alberta | A method and system for automatic detection and segmentation of tumors and associated edema (swelling) in magnetic resonance (mri) images |
CN103996056A (zh) * | 2014-04-08 | 2014-08-20 | 浙江工业大学 | 一种基于深度学习的纹身图像分类方法 |
CN106599901A (zh) * | 2016-10-09 | 2017-04-26 | 福州大学 | 基于深度玻尔兹曼机的协同目标分割与行为识别方法 |
WO2018200840A1 (en) * | 2017-04-27 | 2018-11-01 | Retinopathy Answer Limited | System and method for automated funduscopic image analysis |
CN107316294A (zh) * | 2017-06-28 | 2017-11-03 | 太原理工大学 | 一种基于改进的深度玻尔兹曼机肺结节特征提取和良恶性分类方法 |
Non-Patent Citations (2)
Title |
---|
CHEN FEI 等: "SIMULTANEOUS VARIATIONAL IMAGE SEGMENTATION AND OBJECT", 《IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING》 * |
陈飞: "基于形状先验的同时分割与识别研究", 《万方学位论文》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555511A (zh) * | 2019-07-24 | 2019-12-10 | 北京踏歌智行科技有限公司 | 识别区域的方法、装置、电子设备和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109727256B (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657631B (zh) | 人体姿态识别方法及装置 | |
CN108416394B (zh) | 基于卷积神经网络的多目标检测模型构建方法 | |
Islam et al. | Real time hand gesture recognition using different algorithms based on American sign language | |
CN109002834B (zh) | 基于多模态表征的细粒度图像分类方法 | |
Neumann et al. | Efficient scene text localization and recognition with local character refinement | |
JP6395481B2 (ja) | 画像認識装置、方法及びプログラム | |
CN106022343B (zh) | 一种基于傅里叶描述子和bp神经网络的服装款式识别方法 | |
Khan et al. | Comparative study of hand gesture recognition system | |
CN108256421A (zh) | 一种动态手势序列实时识别方法、系统及装置 | |
CN106709568A (zh) | 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法 | |
CN104850825A (zh) | 一种基于卷积神经网络的人脸图像颜值计算方法 | |
CN108288088A (zh) | 一种基于端到端全卷积神经网络的场景文本检测方法 | |
CN106529499A (zh) | 基于傅里叶描述子和步态能量图融合特征的步态识别方法 | |
CN107424161B (zh) | 一种由粗至精的室内场景图像布局估计方法 | |
CN104881639B (zh) | 一种基于层次tdp模型的人脸检测、分割和表情识别方法 | |
Sun et al. | Robust text detection in natural scene images by generalized color-enhanced contrasting extremal region and neural networks | |
Simon et al. | Random exploration of the procedural space for single-view 3d modeling of buildings | |
Goyal et al. | Bridge: Building plan repository for image description generation, and evaluation | |
CN108846416A (zh) | 显著图像的提取处理方法及系统 | |
CN107239777A (zh) | 一种基于多视角图模型的餐具检测和识别方法 | |
CN106650798B (zh) | 一种结合深度学习与稀疏表示的室内场景识别方法 | |
CN107220598A (zh) | 基于深度学习特征和Fisher Vector编码模型的虹膜图像分类方法 | |
Laupheimer et al. | Neural networks for the classification of building use from street-view imagery | |
CN112381047A (zh) | 一种人脸表情图像的增强识别方法 | |
CN106778491B (zh) | 人脸3d特征信息的获取方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201027 |