CN109727256A

CN109727256A - 一种基于玻尔兹曼和目标先验知识的图像分割识别方法

Info

Publication number: CN109727256A
Application number: CN201811505428.6A
Authority: CN
Inventors: 于慧敏; 黄伟
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2019-05-07
Anticipated expiration: 2038-12-10
Also published as: CN109727256B

Abstract

本发明公开了一种基于玻尔兹曼和目标先验知识的协同分割识别方法。该方法通过对目标的形状和外观知识进行建模、学习和表达，基于玻尔兹曼机建立了分割模型与识别模型之间的双向通路。不同于以往的同时分割与识别模型，该方法模拟了人脑的视觉认知机制，分割任务与识别任务是以交互与协同的方式逐步完成的。同时，该方法有效学习和利用了目标的先验知识和信息，使得分割结果既能符合实际图像数据，又能与目标的先验知识一致。

Description

一种基于玻尔兹曼和目标先验知识的图像分割识别方法

技术邻域

本发明属于图像分割、自动识别和目标表示邻域，特别地涉及一种基于玻尔兹曼和目标先验知识的协同分割识别方法。模型训练部分，涉及到基于玻尔兹曼机的形状学习。

背景技术

图像目标分割与目标识别是计算机视觉与图像处理邻域两个基础和重要的任务。分割的经典方法包括基于能量泛函的变分模型，基于图模型的图割、马尔科夫随机场和条件场方法，以及最近基于深度学习的语义分割与实例分割方法。识别的方法则更多。但是，这样两个任务通常都是处于独立的研究线上，互相之间仅具有一点甚至不具有任务的协同性，这与人类的视觉认知机制是不同的。对人类而言，许多视觉任务是存在相互作用的。以分割与识别任务为例，有人类认知学、心理学等邻域相关实验表明，对目标的识别依赖于人脑对目标的分割和提取，而反过来分割则依赖于对目标的识别和理解。这一过程还涉及到人类对于目标知识的学习、理解和表达，而这也是当前大部分分割模型所欠缺的。

引入关于目标的知识来辅助视觉任务，同时建立分割与识别的协同模型，这一方法能够保证分割得到的结果既符合实际图像中目标的性质，也符合目标的先验知识，而且能够保证分割得到的结果是可以被正确识别的，识别的结果是具有较强的可解释性的。协同机制有助于提高两个联合任务的效果，提升分割的准确性，识别的可靠性。

发明内容

本发明的目的在于提供了一种基于玻尔兹曼机的分割识别模型。该方法通过对目标先验知识(形状、外观)的学习、建模和表达，基于玻尔兹曼机建立了分割模型与识别模型之间的“自底向上”和“自顶向下”的通路，使得两个任务协同工作，互相传递信息，同时完成任务。

为实现上述目的，本发明的技术方案为：一种基于玻尔兹曼机和目标先验知识的协同分割与识别方法。该方法为：

步骤1：基于包括L中不同类别的目标三元组数据{目标图像I_i，目标形状m_i，目标类别标签y_i}，其中i＝1,…,N为样本编号，m_i∈{0,1}^H×W，H,W,C分别为图像I_i的长、宽和通道数，使用玻尔兹曼机建立目标先验知识模型，用于学习、提取每个目标形状m_i和标签y_i的联合特征{h^j}_{j＝1,2,…,M}，其中M为玻尔兹曼机隐藏层层数，{h^j}为各个隐层单元的集合；同时在玻尔兹曼机的标签层z∈[0,1]^L中基于这些特征，学习对形状的识别；

步骤2：对各图像像素点进行特征提取，并使用分类模型建立外观表达模型，以表达目标的外观；

步骤3：对于待分割识别的图像其中有且仅有一个目标，利用基于图像数据的能量函数E(q,t)＝E_data(I,q)对I进行初步分割，按照能量最优的原则，分割得到初始的结果q∈[0,1]^H×W，像素点位置x的值q(x)表征该像素属于目标的概率；

步骤4：使用玻尔兹曼机对初始的结果q进行特征提取和识别，获得其目标形状特征{h^l}，识别目标类别标签t；

步骤5：基于目标特征{h^j}和目标类别标签t，玻尔兹曼机将表达目标的参考形状同时，基于目标类别标签t，外观表达模型将表达目标的参考外观

步骤6：基于参考形状和参考外观更新步骤3中的能量函数如下：

E(q,t)＝α×E_data(q)+β×E_shape(q,t)+(1-α-β)×E_appearance(q,t)

其中，E_shape(q,t)为参考形状和当前分割结果q的损失函数，E_appearance(q,t)为参考外观和当前分割结果q的损失函数，α、β均为权重；

步骤7：重复步骤3～6，直到q收敛或达到最大迭代次数，输出分割的目标q与识别的目标类别标签t。

进一步地，步骤2中所述外观包括但不限于目标的颜色、纹理、所属超像素的特征等数据。

进一步地，步骤2所述外观的提取方法包括但不限于：(1)基于神经网络的特征提取方法；(2)基于传统手工特征提取方法。

进一步地，步骤2所述外观模型的建立方法如下：

(4.1)对所有第l类的目标图像{I_i|y_i＝l}，提取每个目标图像I_i中在像素点x处的外观特征f_i(x)；利用目标三元组数据中对应的目标形状m_i∈{0,1}^H×W，图像I_i的目标部分被标记为 1，其他部分被标记为0。依据所有第l类的像素点特征及其标记，建立从外观特征f_i(x)和m_i(x) 之间的映射模型s＝d_l(f)：当m_i(x)＝0时，满足s(x)<s₀，而当m_i(x)＝1时，满足s(x)≥s₀，其中s(x)为x位置处的外观评分，s₀为评分阈值；

(4.2)映射模型d_l的形式包括但不限于：(1)传统的回归/分类模型；(2)神经网络模型；

(4.3)按照(4.1)所述方法，对所有L个类的目标图像数据都建立这种映射关系，从而得到包含了分别针对L个类别的外观模型{d_l}_{l＝1,2,…,L}。

步骤5所述参考外观为：

(5.1)给定目标类别的识别结果t，目标的参考外观定义为：

其中指示函数为参考外观中像素点x位置的最终外观评分；

(5.2)给定待测图像I和外观模型{d_l}_{l＝1,2,…,L}，迭代过程中，由于f是确定的，所以d_l(f)是确定的，而则会随着识别结果t的变化而变化。

本发明的有益效果是：

(1)有效地学习、建模和表达了目标的先验知识，包括形状和外观，并将其纳入到分割与识别的协同模型中；

(2)建立了分割模型与识别模型之间的双向通路，实现了两个任务的交互和协同，使分割模型有效地利用了目标的先验知识，提升了分割的效果，进而提升识别的效果。

附图说明

图1为本发明的流程图；

图2为待分割识别图像；

图3为基于图2计算得到的{d_l(f)}_l＝1,…,L，其中L＝30；

图4～图6为迭代1、20、40次过程中生成的参考形状；

图7～图9为迭代1、20、40次获得的分割识别结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应该理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述可以完全理解本发明。

参考图1所示为本发明实施例的基于玻尔兹曼机的协同分割与识别模型的步骤流程图。

给定训练用数据集{目标图像I_i，目标形状m_i，目标类别标签y_i}，测试用目标图像I_test，按照以下方法处理：

1.训练形状表达模型和外观表达模型

(1.1)基于数据集D₀＝{目标图像I_i，目标形状m_i，目标类别标签y_i}，将目标形状进行适当扩充(即数据集增广)，对部分训练形状进行不同程度的位移、形变和旋转，产生更多训练用形状。其与其标签定义为数据集将所有目标形状图片归一化到80×80大小。

(1.2)设定玻尔兹曼机的隐层数量为1层，此时玻尔兹曼机即为“输入层(可视层)-第一隐层-输出层(即标签层)”的三层结构，分别对应数据q,h¹,z，则输出的识别结果为 t＝arg_kmaxz_k。q包含80×80＝6400个可视层单元，h¹包含1600个隐层单元，z中的单元数量为L。

(1.3)将D₁中的样本对输入到玻尔兹曼机中进行形状学习，建立形状表达模型和识别模型。

(1.4)根据D₀中的样本对(I_i,m_i,y_i)，首先对其中每个图像进行超像素分割。而后，对每个超像素进行特征提取，提取其dense sift特征、颜色直方图和轮廓特征，每个超像素拥有2688 维特征向量。每个像素点的特征设定为其所在超像素的特征。

(1.5)建立第l类的外观模型时，将所有第l类目标所在区域定义为前景，非目标区域或者其他类目标图像定义为背景，建立从像素点特征到前背景标记的映射模型。此模型即为第 l类的外观模型D_l。

2.对测试图像I_test

(2.1)依照(1.4)，提取图像中每个像素点的特征，然后在L个外观模型上进行映射，获得目标图像在所有类别上的外观模型{d_l}。

(2.2)本实施例采用如下方法建立图像数据能量项，f(x)＝-logp(I(x)|q(x)≥τ)，g(x)＝-logp(I(x)|q(x)<τ)，其中τ为前景概率置信度阈值，I(x)为像素点x的图像数据(例如灰度值)。p(I(x)|q(x)≥τ)表示前景区域的像素颜色分布，p(I(x)|q(x)<τ)为背景区域的像素颜色分布。数据项因此为E_data(I；q)＝∑_xq(x)f(x)+(1-q(x))g(x)；对能量函数 E(q,t)＝E_data(I,q)，按照能量最优的原则，分割得到初始的结果q⁰。

(2.3)给定初始轮廓q⁰，在第k次优化迭代过程中，使用玻尔兹曼机对q^k-1进行形状提取和识别，在标签层z得到识别结果t^k；利用平均场方法，将t^k的信息融合到玻尔兹曼机的隐层h¹中，并利用h¹生成参考形状若以二值交叉熵作为相似度损失的度量，则形状约束能量项

(2.4)根据t^k，产生合适的外观评分，并获得外观约束能量项

(2.5)对三个能量项进行加权，获得最终能量

E(q,t)＝α×E_data(q)+β×E_shape(q,t)+(1-α-β)×E_appearance(q,t)

(2.6)基于SplitBregman优化方法，优化上述能量方程。假设总能量方程表达为

其中r_data(x)＝f(x)-g(x)，引入一个变量然后建立约束条件及那么优化问题转化为：

所以，其中k为迭代次数，只需要交替迭代优化q^k+1，d^k+1和e^k+1，快速地完成优化。迭代一定次数或者q，t收敛时，迭代结束，输出最终结果，获得分割结果q和识别结果t。

图4～图6为迭代1、20、40次过程中生成的参考形状，图7～图9为迭代1、20、40次获得的分割识别结果。从这些图示中可以看到，尽管一开始模型错误的识别了测试图像中的目标，参考形状也很模糊，但随着分割和识别协同任务的进行，分割的结果越来越符合测试图像，而识别的结果也变得正确，产生的参考形状也较为准确。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于玻尔兹曼机和目标先验知识的图像分割识别方法，其特征在于，该方法包括如下步骤：

步骤3：对于待分割识别的图像其中有且仅有一个目标，利用基于图像数据的能量函数E(q,t)＝_data(I,q)对I进行初步分割，按照能量最优的原则，分割得到初始的结果q∈[0,1]^H×W，像素点位置x的值q(x)表征该像素属于目标的概率；

E(q,t)＝×E_data(q)+×E_shape(q,t)+(1--β)×E_appearance(q,t)

2.根据权利要求1所述的方法，其特征在于，步骤2中所述外观包括但不限于目标的颜色、纹理、所属超像素的特征等数据。

3.根据权利要求1所述的方法，其特征在于，步骤2所述外观的提取方法包括但不限于：(1)基于神经网络的特征提取方法；(2)基于传统手工特征提取方法。

4.根据权利要求1所述的方法，其特征在于，步骤2所述外观模型的建立方法如下：

(4.1)对所有第l类的目标图像{I_i|y_i＝}，提取每个目标图像I_i中在像素点x处的外观特征f_i(x)；利用目标三元组数据中对应的目标形状m_i∈{0,1}^H×W，图像I_i的目标部分被标记为1，其他部分被标记为0。依据所有第l类的像素点特征及其标记，建立从外观特征f_i(x)和m_i(x)之间的映射模型s＝d_l(f)：当m_i(x)＝0时，满足s(x)<s₀，而当m_i(x)＝1时，满足s(x)≥s₀，其中s(x)为x位置处的外观评分，s₀为评分阈值；

(4.2)映射模型d_l的形式包括但不限于：(1)传统的回归/分类模型；(2)神经网络模型。

5.根据权利要求1所述的方法，其特征在于，步骤5所述参考外观为：

(5.1)给定目标类别的识别结果t，目标的参考外观为：

其中指示函数为参考外观中像素点x位置的最终外观评分；