CN107480693A

CN107480693A - 条件随机场框架嵌入配准信息的弱监督图像场景理解方法

Info

Publication number: CN107480693A
Application number: CN201710546033.XA
Authority: CN
Inventors: 杨明; 李志青; 吕静
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2017-07-06
Filing date: 2017-07-06
Publication date: 2017-12-15

Abstract

本发明公开了一种条件随机场框架嵌入配准信息的弱监督图像场景理解方法，包括：提取训练图像特征；采用无监督算法分割训练图像产生超像素图；结合训练图像内、训练图像间以及配准超像素之间的结构关系信息，通过CRF建模像素标注训练模型；求解模型获得训练图像超像素的标注；将像素标注训练模型结合所提取的测试图像特征和超像素图、所求解的训练图像超像素的标注，及获取的测试图像内、测试图像间超像素和测试图像与配准的训练图像之间的结构关系信息，以获得建模像素标注测试模型；求解模型获得测试图像中超像素标记。本发明通过图像配准算法挖掘图像间配准结构信息以构建图像间的超像素关系，配准信息的引入有效提升了多图像模型的分类精度。

Description

条件随机场框架嵌入配准信息的弱监督图像场景理解方法

技术领域

本发明涉及一种条件随机场框架嵌入配准信息的弱监督图像场景理解方法，属于计算机视觉的技术领域。

背景技术

场景图像理解(Scene Image Understanding)是计算机视觉(Computer Vision)研究领域中的重要内容，它是视觉媒体内容更高层语义理解的基础，在图像检索、自动驾驶等应用中起着关键作用。近年来，场景图像理解一直是学术界的研究热点，倍受研究者的关注。以条件随机场为基本框架，研究者在场景图像理解算法的设计上取得了可喜的进展，其中，CRF下嵌入局部平滑、位置、共现等上下文先验信息的图像理解算法取得了较好的分类效果，但目标分类精度仍需进一步提高，因此如何挖掘更加有效的上下文先验信息有待进一步研究。现有上下文先验信息的引入虽在一定程度上增强了模型描述能力，但仍然存在不足，难以有效提高分类精度尤其是前景目标的分类精度。经研究发现，现有图像理解算法难以有效提高像素标注精度的原因主要有：

1.在场景图像理解中，背景(天空，草地…)区域纹理特征相对一致，变化较小，分类相对容易。

2.前景目标(人，动物，建筑，船…)尺寸相对较小且轮廓复杂，在前景目标边缘区域过平滑问题严重，易导致前景背景分类“串扰”。

3.单个前景目标内部各子区域间的颜色纹理特征差异较大，易导致各子区域间分类不一致。

目前在图像理解问题中，背景目标的分类相对容易，精度较高，而关键前景目标的分类精度欠佳。现有算法通过在CRF中引入上下文先验信息虽在一定程度上提高了像素标注的总体分类精度，但现有的算法往往仅考虑超像素间在特征空间的相似关系，而忽略了图像间结构信息，分类效果欠佳。

发明内容

本发明所要解决的技术问题在于克服现有技术的不足，提供一种条件随机场框架嵌入配准信息的弱监督图像场景理解方法，解决现有的算法往往仅考虑超像素间在特征空间的相似关系，而忽略了图像间结构信息，分类效果欠佳的问题。

本发明具体采用以下技术方案解决上述技术问题：

条件随机场框架嵌入配准信息的弱监督图像场景理解方法，包括以下步骤：

步骤1、提取训练图像特征；

步骤2、采用无监督算法分割训练图像产生超像素图；

步骤3、结合所提取的训练图像特征和超像素图，及获取的训练图像内、训练图像间以及配准超像素之间的结构关系信息通过CRF建模像素标注训练模型；

步骤4、求解所述像素标注训练模型获得训练图像超像素的标注；

步骤5、对测试图像进行提取测试图像特征；

步骤6、采用无监督算法分割测试图像产生超像素图；

步骤7、将所述像素标注训练模型结合所提取的测试图像特征和超像素图、所求解的训练图像超像素的标注，及获取的测试图像内、测试图像间超像素和测试图像与配准的训练图像之间的结构关系信息，以获得建模像素标注测试模型；

步骤8、求解步骤7中像素标注测试模型获得测试图像中超像素标记。

进一步地，作为本发明的一种优选技术方案，所述步骤1包括：

提取训练图像的特征；

利用聚类算法对各个特征进行聚类以构建图像视觉字并基于该视觉字构建像素特征描述。

进一步地，作为本发明的一种优选技术方案，其特征在于，所述步骤2采用MeanShift分割算法分割训练图像产生超像素图。

进一步地，作为本发明的一种优选技术方案，其特征在于，所述步骤3通过CRF建模像素标注训练模型，具体包括：

步骤31、结合获取的训练图像内、训练图像间以及配准超像素之间的结构关系信息，构建条件随机场框架下的像素标注训练模型；

步骤32、利用图像配准算法对所提取的测试图像特征进行图像匹配及计算得到两个匹配图像之间的配准关系；

步骤33、基于步骤32得到的配准关系，采用高斯核计算配准超像素间二阶势能。

进一步地，作为本发明的一种优选技术方案，所述步骤3中通过CRF建模像素标注训练模型，具体为：

其中，表示训练图像集合，Z^train为D^train中图像总数，为图像j中超像素个数，Y^j为图像j中包含的弱标记信息，为图像j中的第i个超像素；模型中为一阶势能，其表示超像素取标记的概率，为弱标记约束，其具体形式为：A^train为图像内部相邻超像素邻居关系，B^train为具有共同标记的图像间超像素邻居关系，Q^train为训练阶段得到的训练超像素间配准关系；超像素间二阶势能函数采用高斯核计算配准超像素间二阶势能函数σ为超像素的标准差。

进一步地，作为本发明的一种优选技术方案，所述步骤32计算得到两个匹配图像之间的配准关系，具体为：

其中，s₁和s₂分别表示图像1和待匹配图像2中各位置的SIFT特征描述，w为关于像素的流场即当前像素对应其配准图像像素偏移量，p为像素索引，w(p)＝(u(p),v(p))为p位置像素偏移，其中u(p)为水平方向偏移量，v(p)为垂直方向偏移量，s₁(p)表示图像1中p位置处像素SIFT特征描述，s₂(p)为待匹配图像2中p位置处像素SIFT特征描述，ε为四邻居系统中成对像素邻居关系，t和d是两个阈值。

本发明采用上述技术方案，能产生如下技术效果：

本发明提出的CRF中嵌入配准信息的弱监督图像理解算法APCRF，解决了现有算法仅考虑超像素间在特征空间的相似关系，而忽略了图像间结构信息的问题。APCRF算法通过Sift-Flow算法实现场景相似图像间的配准，进而通过像素间的配准关系实现超像素间的配准。该算法以多图像模型(Multi Image Model)为基本模型，通过图像配准算法挖掘图像间配准结构信息以构建图像间的超像素关系，并将挖掘得到的超像素关系作为二阶势能引入多图像模型辅助分类，配准信息的引入有效提升了多图像模型的分类精度。

附图说明

图1为本发明条件随机场框架嵌入配准信息的弱监督图像场景理解方法的流程示意图。

图2为本发明方法训练阶段的子流程图。

图3为本发明方法测试阶段的子流程图。

具体实施方式

下面结合说明书附图对本发明的实施方式进行描述。

如图1所示，本发明公开了一种条件随机场框架下嵌入配准信息的弱监督图像场景理解方法，需要说明的是，本发明的核心步骤是在条件随机场模型框架下嵌入配准信息，本发明的方法分为训练阶段和测试阶段，具体描述如下：

如图2所示，训练阶段提取各训练图像特征，采用无监督算法分割各训练图像产生超像素图；通过CRF建模像素标注模型并在模型中嵌入图像内、图像间超像素和配准超像素之间的结构关系信息，求解模型实现训练图像的像素标注。训练阶段步骤有：

步骤1、提取训练图像特征。

特征提取是目标识别及图像理解等视觉任务的重要内容之一，其往往通过将像素的颜色及采用滤波获得的周围纹理等特征值组成向量来表征该像素点(或超像素)，有效地对具有判别性的特征提取是获得高准确率的基础，具体可采用现有方法实现图像特征提取，如：首先基于高斯滤波器组提取图像纹理特征、Sift特征及LBP等特征描述，进而通过Kmeans等聚类算法对各个特征描述进行聚类以构建图像视觉字并基于该视觉字构建像素特征描述。

步骤2、采用无监督算法分割训练图像产生超像素图；

本发明所构建的模型中涉及高阶建模及前景目标区域中超像素稠密连接，因此需采用无监督分割算法分割原图像产生超像素分割。具体分割算法可采用现有MeanShift算法实现图像分割。

步骤3、结合所提取的训练图像特征和超像素图，及获取的训练图像内、训练图像间以及配准超像素之间的结构关系信息通过CRF建模像素标注训练模型。具体包括：

步骤31、结合获取的训练图像内、训练图像间以及配准超像素之间的结构关系信息，

构建条件随机场框架下的像素标注训练模型，模型如下所示：

其中，表示训练图像集合，Z^train为D^train中图像总数，为图像j中超像素个数，Y^j为图像j中包含的弱标记信息，为图像j中的第i个超像素。模型中为一阶势能，其表示超像素取标记的概率，为弱标记约束，其具体形式为：A^train为图像内部相邻超像素邻居关系，B^train为具有共同标记的图像间超像素邻居关系，Q^train为训练阶段通过SIFT-Flow算法得到的训练超像素间配准关系；超像素间二阶势能函数采用高斯核计算配准超像素间二阶势能函数σ为超像素的标准差。

步骤32、得到配准关系Q^train。

SIFT-Flow图像配准算法通过SIFT特征描述图像像素，在两幅图像中搜索相似子结构实现图像匹配，其优化流场的能量函数如下：

其中，s₁和s₂分别表示训练图像中的图像1和图像2中各位置的SIFT特征描述，w为关于像素的流场即当前像素对应其配准图像像素偏移量，p为像素索引，w(p)＝(u(p),v(p))为p位置像素偏移，其中u(p)为水平方向偏移量，v(p)为垂直方向偏移量，s₁(p)表示图像1中p位置处像素SIFT特征描述，s₂(p)为待匹配图像2中p位置处像素SIFT特征描述，ε为四邻居系统中成对像素邻居关系，t和d是两个阈值。

步骤33、基于得到的配准关系Q^train，采用高斯核计算配准超像素间二阶势能函数φ'。

步骤4、求解模型估计训练图像超像素的标注。

综合超像素Unary势能ψ，超像素二阶势能φ及采用高斯核计算配准超像素间二阶势能φ'，采用交替迭代求解和参数θ^*。

如图3所示，测试阶段提取各测试图像特征，采用无监督算法分割原图像产生超像素图；提取图像Gist特征并在训练图像集中检索与当前测试图像相似的候选图像集，进而计算测试图像与候选图像间超像素配准关系；通过CRF建模像素标注模型并在模型中嵌入测试图像内、测试图像间超像素和测试图像与配准的训练图像之间的结构关系信息，求解模型实现测试图像的像素标注。测试阶段步骤包括：

步骤5、提取测试图像特征。

有效地对具有判别性的特征提取是获得高准确率的基础，具体可采用现有方法实现图像特征提取，如：首先基于高斯滤波器组提取图像纹理特征、Sift特征及LBP等特征描述，进而通过Kmeans等聚类算法对各个特征描述进行聚类以构建图像视觉字并基于该视觉字构建像素特征描述。

步骤6、采用无监督算法分割测试图像产生超像素图。

模型中涉及高阶建模及前景目标区域中超像素稠密连接，因此需采用无监督分割算法分割原图像产生超像素分割。具体分割算法可采用现有MeanShift算法实现图像分割。

步骤7、将所述像素标注训练模型结合所提取的测试图像特征和超像素图、所求解的训练图像超像素的标注，及获取的测试图像内、测试图像间超像素和测试图像与配准的训练图像之间的结构关系信息，以获得建模像素标注测试模型。即通过CRF建模像素标注模型并在模型中嵌入测试图像内、测试图像间超像素和测试图像与配准的训练图像之间的结构关系信息，具体步骤如下：

步骤71、初始化配准关系，使得用于保存配准超像素间成对关系；

步骤72、通过提取图像Gist特征并在训练图像集中检索与当前测试图像相似的候选图像，进而利用配准模型计算测试图像与候选图像间超像素配准关系，配准模型如下所示：

步骤73、基于上述得到的配准关系Q^test并采用高斯核计算配准超像素间二阶势能函数φ'；

步骤74、综合测试超像素Unary势能ψ，弱监督势能μ，超像素二阶势能φ及配准超像素间二阶势能函数φ'构建模型，模型如下：

其中，其中训练超像素标记和参数θ^*为训练部分的输出，对于APCRF中涉及的测试图像超像素Unary势能ψ，弱监督势能μ及超像素二阶势能φ作为已知信息，表示测试图像集合，Z^test为D^test中图像总数，为图像j中超像素个数，Y^j为图像j中包含的弱标记信息，为图像j中的第i个超像素。模型中为一阶势能，其表示超像素取标记的概率，为弱标记约束，其具体形式为：A^test为图像内部相邻超像素邻居关系，B^test为具有共同标记的图像间超像素邻居关系，Q^test为测试阶段通过SIFT-Flow算法得到的训练超像素间配准关系；超像素二阶势能配准超像素间二阶势能函数σ为超像素的标准差。

步骤8、求解模型实现测试图像像素的标注；

利用图割算法求解模型得出测试图像中超像素标记

综上，本发明的算法通过Sift-Flow算法实现场景相似图像间的配准，进而通过像素间的配准关系实现超像素间的配准。该算法以多图像模型为基本模型，通过图像配准算法挖掘图像间配准结构信息以构建图像间的超像素关系，并将挖掘得到的超像素关系作为二阶势能引入多图像模型辅助分类，配准信息的引入有效提升了多图像模型的分类精度。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.条件随机场框架嵌入配准信息的弱监督图像场景理解方法，其特征在于，包括以下步骤：

步骤1、提取训练图像特征；

步骤2、采用无监督算法分割训练图像产生超像素图；

步骤5、对测试图像进行提取测试图像特征；

步骤6、采用无监督算法分割测试图像产生超像素图；

2.根据权利要求1所述条件随机场框架嵌入配准信息的弱监督图像场景理解方法，其特征在于，所述步骤1提取训练图像特征包括：

提取训练图像的特征；

3.根据权利要求1所述条件随机场框架嵌入配准信息的弱监督图像场景理解方法，其特征在于，所述步骤2采用MeanShift分割算法分割训练图像产生超像素图。

4.根据权利要求1所述条件随机场框架嵌入配准信息的弱监督图像场景理解方法，其特征在于，所述步骤3通过CRF建模像素标注训练模型，具体包括：

5.根据权利要求1所述条件随机场框架嵌入配准信息的弱监督图像场景理解方法，其特征在于，所述步骤3中通过CRF建模像素标注训练模型，具体为：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>E</mi> <mrow> <mo>(</mo> <mo>{</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>}</mo> <mo>,</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <msubsup> <mi>x</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>&Element;</mo> <msup> <mi>I</mi> <mi>j</mi> </msup> <mo>,</mo> <msup> <mi>I</mi> <mi>j</mi> </msup> <mo>&Element;</mo> <msup> <mi>D</mi> <mrow> <mi>t</mi> <mi>r</mi> <mi>a</mi> <mi>i</mi> <mi>n</mi> </mrow> </msup> </mrow> </munder> <mrow> <mo>(</mo> <mi>&psi;</mi> <mo>(</mo> <mrow> <msubsup> <mi>y</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <mi>&theta;</mi> </mrow> <mo>)</mo> <mo>+</mo> <mi>&pi;</mi> <mo>(</mo> <mrow> <msubsup> <mi>y</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msup> <mi>Y</mi> <mi>j</mi> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <munder> <mi>&Sigma;</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>y</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <mi>j</mi> </msubsup> <mo>)</mo> <mo>&Element;</mo> <msup> <mi>A</mi> <mrow> <mi>t</mi> <mi>r</mi> <mi>a</mi> <mi>i</mi> <mi>n</mi> </mrow> </msup> </mrow> </munder> <mi>&phi;</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>y</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mi>&Sigma;</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>y</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </msubsup> <mo>)</mo> <mo>&Element;</mo> <msup> <mi>B</mi> <mrow> <mi>t</mi> <mi>r</mi> <mi>a</mi> <mi>i</mi> <mi>n</mi> </mrow> </msup> </mrow> </munder> <mi>&phi;</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>y</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </msubsup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <munder> <mi>&Sigma;</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>y</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </msubsup> <mo>)</mo> <mo>&Element;</mo> <msup> <mi>&Omega;</mi> <mrow> <mi>t</mi> <mi>r</mi> <mi>a</mi> <mi>i</mi> <mi>n</mi> </mrow> </msup> </mrow> </munder> <msup> <mi>&phi;</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>y</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </msubsup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中，表示训练图像集合，Z^train为D^train中图像总数，为图像j中超像素个数，Y^j为图像j中包含的弱标记信息，为图像j中的第i个超像素；模型中为一阶势能，其表示超像素取标记的概率，为弱标记约束，其具体形式为：A^train为图像内部相邻超像素邻居关系，B^train为具有共同标记的图像间超像素邻居关系，Q^train为训练阶段得到的训练超像素间配准关系；且超像素间二阶势能函数所述配准超像素间二阶势能函数σ为超像素的标准差。

6.根据权利要求4所述条件随机场框架嵌入配准信息的弱监督图像场景理解方法，其特征在于，所述步骤32计算得到两个匹配图像之间的配准关系，具体为：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>V</mi> </mrow> </munder> <mi>min</mi> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>s</mi> <mn>1</mn> </msub> <mo>(</mo> <mi>p</mi> <mo>)</mo> <mo>-</mo> <msub> <mi>s</mi> <mn>2</mn> </msub> <mo>(</mo> <mrow> <mi>p</mi> <mo>+</mo> <mi>W</mi> </mrow> <mo>)</mo> <mo>|</mo> <msub> <mo>|</mo> <mn>1</mn> </msub> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mi>&Sigma;</mi> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>V</mi> </mrow> </munder> <mi>&eta;</mi> <mrow> <mo>(</mo> <mo>|</mo> <mi>u</mi> <mo>(</mo> <mi>p</mi> <mo>)</mo> <mo>|</mo> <mo>+</mo> <mo>|</mo> <mi>v</mi> <mo>(</mo> <mi>p</mi> <mo>)</mo> <mo>|</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <munder> <mi>&Sigma;</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> <mo>&Element;</mo> <mi>&epsiv;</mi> </mrow> </munder> <mi>min</mi> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>|</mo> <mi>u</mi> <mo>(</mo> <mi>p</mi> <mo>)</mo> <mo>-</mo> <mi>u</mi> <mo>(</mo> <mi>q</mi> <mo>)</mo> <mo>|</mo> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>min</mi> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>|</mo> <mi>v</mi> <mo>(</mo> <mi>p</mi> <mo>)</mo> <mo>-</mo> <mi>v</mi> <mo>(</mo> <mi>q</mi> <mo>)</mo> <mo>|</mo> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>

7.根据权利要求1所述条件随机场框架嵌入配准信息的弱监督图像场景理解方法，其特征在于，所述步骤7中通过CRF建模像素标注测试模型，具体为：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>E</mi> <mrow> <mo>(</mo> <mo>{</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>}</mo> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <msubsup> <mi>x</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>&Element;</mo> <msup> <mi>I</mi> <mi>j</mi> </msup> <mo>;</mo> <msup> <mi>I</mi> <mi>j</mi> </msup> <mo>&Element;</mo> <msup> <mi>D</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> </mrow> </msup> </mrow> </munder> <mrow> <mo>(</mo> <mi>&psi;</mi> <mo>(</mo> <mrow> <msubsup> <mi>y</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msup> <mi>&theta;</mi> <mo>*</mo> </msup> </mrow> <mo>)</mo> <mo>+</mo> <mi>&mu;</mi> <mo>(</mo> <mrow> <msubsup> <mi>y</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msup> <mi>Y</mi> <mi>j</mi> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <munder> <mi>&Sigma;</mi> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <mi>j</mi> </msubsup> <mo>)</mo> <mo>&Element;</mo> <msup> <mi>A</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> </mrow> </msup> </mrow> </munder> <mi>&phi;</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>y</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mi>&Sigma;</mi> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </msubsup> <mo>)</mo> <mo>&Element;</mo> <msup> <mi>B</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> </mrow> </msup> </mrow> </munder> <mi>&phi;</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>y</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </msubsup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <munder> <mi>&Sigma;</mi> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </msubsup> <mo>)</mo> <mo>&Element;</mo> <msup> <mi>Q</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> </mrow> </msup> </mrow> </munder> <msup> <mi>&phi;</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>y</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <msup> <mi>i</mi> <mo>&prime;</mo> </msup> <msup> <mi>j</mi> <mo>&prime;</mo> </msup> </msubsup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中，训练超像素标记和参数θ^*为训练模型的输出，对于测试图像超像素Unary势能ψ，弱监督势能μ及超像素二阶势能φ作为已知信息；表示测试图像集合，Z^test为D^test中图像总数，为图像j中超像素个数，Y^j为图像j中包含的弱标记信息，为图像j中的第i个超像素；模型中为一阶势能，其表示超像素取标记的概率，为弱标记约束，其具体形式为：

A^test为图像内部相邻超像素邻居关系，B^test为具有共同标记的图像间超像素邻居关系，Q^test为测试阶段得到的训练超像素间配准关系；

所述超像素间二阶势能函数

及配准超像素间二阶势能函数σ为超像素的标准差。