CN104077352A

CN104077352A - 基于能量模型的图像语义标注方法

Info

Publication number: CN104077352A
Application number: CN201410231435.7A
Authority: CN
Inventors: 姚敏; 赖盛章; 李昌英; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-05-27
Filing date: 2014-05-27
Publication date: 2014-10-01
Anticipated expiration: 2034-05-27
Also published as: CN104077352B

Abstract

本发明公开了一种基于能量模型的图像语义标注方法，该图像语义标注方法中以区域图像-语义标签的对应势，以及语义标签之间的相互作用势构建原始图像在不同区域图像-语义标签对应关系下的全能量函数，通过利用全能量函数来进行图像上下文信息和外观信息的融合。与现有技术中只利用对象之间共生信息，或仅利用固定的空间关系和简单的频率计数方法的上下文对象分类模型相比，本发明的图像语义标注方法中提出的全能量函数通过模糊空间关系更充分地利用对象之间空间结构信息，有效避免了产生语义混乱的问题，提高了语义标注的精度。

Description

基于能量模型的图像语义标注方法

技术领域

本发明涉及图像检索和自动图像标注技术领域，具体涉及一种基于能量模型的图像语义标注方法。

背景技术

为了图像场景语义分类，图像分割后需要对分割区域的对象标注。图像分割区域的对象标注直接影响到场景语义理解及分类的准确性。许多研究者们进行了图像中的对象标注工作，基本上都是利用图像区域的底层视觉特征来进行对象分类。近几年来，研究者们进行融合上下文信息的对象识别工作，但其准确性没有满足实际的需求，还需要改进。

为了解决结合上下文信息到一个对象分类框架的问题，一般都借用机器学习技术，融合对象外观视觉信息和关于该对象的上下文约束，以提供有效的概率算法。一般分为两种模型研究：分类器和图模型。

分类器能够实现对象的上下文特征和外观视觉特征的结合，例如，NaiveBayes分类器，Logistic Regression等。他们将局部视觉特征检测器的输出结合到从局部或全局统计得出来的上下文特征。Wolf等利用boosting分类器来实现局部外观视觉特征和上下文特征的结合。图模型能够实现视觉特征和上下文特征的结合。

图模型可以将所有随机变量的联合分布分解为有关变量子集的因素的乘积。因此，图模型提供一个强大而灵活的框架，以用相对局部约束来描述及处理全局概率分布。基于图模型的上下文融合有两种：一是有向图模型，有向图模型是一种在有向图上用局部转换概率来定义的全局概率分布，是很有用于表达随机变量之间的因果关系；二是无向图模型，它利用局部团的势的乘积来定义在图上的全局概率分布，更适合表达随机变量之间的软约束。

条件随机场模型(conditional random fields，CRF模型)是由Lafferty等人于2001年提出的，是一个无向图模型或马尔可夫随机场。该模型在给定需要标记的观察序列的条件下，计算整个标记序列的联合概率，而不是在给定当前状态条件下，定义下一个状态的分布。标记序列的条件概率依赖于观察序列中非独立的、相互作用的特征，并通过赋予特征以不同权值来表示特征的重要程度。

CRF模型能够将不同类型的信息合并在同一个模型当中，而根据上下文关系能够提高对象标注一致性。在CRF模型中，势函数是进行标注图像像素/区域的标签之间的特定约束。因此仅考虑到语义(即标签)之间的约束关系，并没有考虑各个语义之间的空间约束关系，因此容易产生语义混乱，导致标注精度下降。

发明内容

针对现有技术的不足，本发明提供了一种基于能量模型的图像语义标注方法。

一种基于能量模型的图像语义标注方法，包括：

(1)将原始图像分割为若干个区域图像，并提取各个区域图像的视觉特征向量；

(2)根据各个区域的视觉特征向量，利用训练好的SVM分类器确定各个区域图像的候选语义标签，以及各个候选语义标签对该区域图像的信任度；

(3)根据各个区域图像与候选语义标签的对应关系构建原始图像的全能量函数E(A)：

E (A) = - (Σ_{i = 1}^{k} α \cdot p (c_{l} | s_{i}) + β \cdot p (c_{l}) + Σ_{\underset{(i &NotEqual; j)}{i, j = 1}}^{k} δ \cdot ψ (c_{l}, c_{m}) + p (c_{l}, c_{m}) \cdot p (c_{l} | s_{i})),

其中，k为区域图像的个数，α、β、δ均为调整因子，

c_l为图像区域s_i对应的语义标签，c_m为图像区域s_j对应的语义标签，

p(c_l|s_i)为语义标签c_l对区域图像s_i的信任度，

p(c_l)为区域图像s_i对应的语义标签c_l出现的概率，

P(c_l,c_m)为语义标签c_l与语义标签c_m同时出现的概率，

ψ(c_l,c_m)为语义标签c_l与语义标签c_m之间的空间隶属度，所述的空间隶属度根据两个语义标签之间的模糊空间关系计算得到；

(4)采用迭代条件模式对所述的全能量函数进行迭代，直至满足迭代条件后停止迭代，并根据最后一次迭代时各个区域图像与候选语义标签的对应关系对原始图像进行语义标注。

本发明的图像语义标注方法前需要利用训练图像集训练分类器，在训练后会得到训练好的分类器，进一步根据训练结果可以求出各个语义标签出现的概率，以及任意两个语义标签同时出现的概率与原始图像无关。

语义标签对该区域图像的信任度表示区域图像属于相应的语义标签的程度。训练分类器实际上是确定各个分类之间的超平面(最佳分类面)，训练好的分类器根据输入的样本的特征向量，确定该样本相应超平面的距离。本发明中将各个区域图像的视觉特征向量作为训练好的分类器的输入，根据分类器的输出确定各个语义标签对各个区域图像的信任度。以语义标签c_l对区域图像s_i的信任度p(c_l|s_i)为例，将区域图像s_i对应的特征向量输入，其关于语义标签c_l的输出值为D_il，则根据以下方法确定信任度p(c_l|s_i)：

信任度为零，则表示该区域图像s_i一定不属于语义标签c_l。因此根据信任度确定各个区域图像对应的候选应语义标签，对于每个区域图像，将所有对该区域图像的信任度大于零的语义标签作为该区域图像对应的候选语义标签。

全能量函数与原始图像中各个图像区域与语义标签的对应关系有关，不同的对应关系下全能量函数不同，采用迭代条件模式全能量函数进行迭代，计算不同对应关系下的全能函数的函数值，在迭代过程中迭代条件模式确定不同的对应关系，每次迭代时各个区域图像对应的语义标签只能在对应候选语义标签中选择。直至满足迭代条件后停止迭代，并以最后一次迭代各个所有区域图像与候选语义标签的对应关系作为原始图像的最佳配置，以各个区域图像对应的候选语义标签作为相应区域图像的最佳语义标签，并用最佳语义标签对各个区域图像进行标注，从而完成对原始图像的语义标注。

本发明中以区域图像-语义标签的对应势，以及语义标签之间的相互作用势构建原始图像在不同区域图像-语义标签对应关系下的全能量函数，通过利用全能量函数(即能量模型，Energy-Based Model)来进行图像上下文信息和外观信息的融合。与现有技术中只利用对象之间共生信息，或仅利用固定的空间关系和简单的频率计数方法的上下文对象分类模型相比，本发明提出的全能量函数通过模糊空间关系更充分地利用对象之间空间结构信息，有效避免了产生语义混乱的问题，提高了语义标注的精度(平均标注准确度)。

所述步骤(1)中利用视觉特征对原始图像进行分割。

原始图像的视觉特征可以为颜色特征、纹理特征等，根据实际情况设定。分割方法直接决定了分割后得到的区域图像的个数。

所述步骤(2)中SVM分类器为基于视觉特征的SVM分类器。

基于视觉特征能够充分利用原始图像的视觉信息。训练时，首先从已标注好的训练图像的区域图像中提取适当的底层特征(视觉特征)，然后进行SVM训练，得到训练好的SVM分类器。作为优选，所述的SVM分类器为模糊SVM分类器，模糊SVM分类器是将模糊理论引入到SVM的一种改进与完善。为了避免在间接构造多类分类器方法中不可分数据的产生，引入区域图像属于某个语义标签的信任度的概率，从而构建得到模糊SVM分类器。

语义标签c_l与语义标签c_m之间的空间隶属度根据以下公式计算：

ψ (c_{l}, c_{m}) = 1 - | {\overset{&OverBar;}{r}}_{lm} - r_{ij} |,

为训练图像集中各个训练图像中语义标签c_l与语义标签c_m对应的区域图像的空间关系向量的平均向量，

r_ij为原始图像中区域图像s_i和图像区域s_j的空间关系向量；

每个图像中任意两个区域图像之间的空间关系向量为：

r_xy＝(μ₁,μ₂,μ₃)，

其中，μ₁为区域图像s_x和区域图像s_y在方向关系上的隶属度，μ₂为区域图像s_x和区域图像s_y在距离关系上的隶属度，μ₃为区域图像s_x和区域图像s_y在拓扑关系上的隶属度。

通过以下步骤计算空间关系向量r_xy：

(1)采用边界像素与矩的区域表示方法描述区域图像s_x和区域图像s_y，获得区域图像s_x和区域图像s_y之间的空间关系描述符F(s_x,s_y)：

F(s_x,s_y)＝(θ_xy，d_xy，ρ_xy)，x,y＝1,...,k，x≠y，

θ_xy为区域图像s_x和区域图像s_y的中心点的连线与距离最近的两个边界像素点的连线的夹角，d_xy为距离最近的两个边界像素点之间的距离，ρ_xy为区域图像s_x和区域图像s_y的共同边界长度与区域图像s_x的边界长度的比；

(2)所述的方向关系包括上方、下方、左方和右方，根据θ_xy计算区域图像s_x和区域图像s_y在各个方向关系上的隶属度，并以方向关系上最大的隶属度作为区域图像s_x和区域图像s_y在方向关系上的隶属度；

所述的距离关系包括靠近和远离，根据d_xy和ρ_xy计算区域图像s_x和区域图像s_y在各个距离关系上的隶属度，并以距离关系上最大的隶属度作为区域图像s_x和区域图像s_y在距离关系上的隶属度；

所述的拓扑关系包括分离、邻近、入侵和包含，根据ρ_xy计算区域图像s_x和区域图像s_y在各个拓扑关系上的隶属度，并以拓扑关系上最大的隶属度作为区域图像s_x和区域图像s_y在拓扑关系上的隶属度。

各种空间关系类还可根据需要分为更细的子类，因为一个区域对可以用多种关系的重叠来描述，例如左边入侵，右边靠近等。

对于方向关系，在如下约束条件：

μ_ABOVE+μ_BELOW+μ_LEFT+μ_RIGHT＝1

的作用下各个方向关系上的隶属度：

其中μ_ABOVE、μ_BELOW、μ_LEFT和μ_RIGHT分别表示方向关系为上方、下方、左边和右边时对应的隶属度。

对于距离关系，在如下约束条件在约束条件：

μ_NEAR+μ_FAR＝1

的作用下计算各个距离关系上的隶属度：

其中μ_NEAR和μ_FAR分别表示距离关系为靠近和远离时对应的隶属度。

对于拓扑关系，各个拓扑关系上的隶属度：

其中μ_DIS、μ_BOR、μ_INV和μ_RSUR分别表示拓扑关系为分离、邻近、入侵和包含时对应的隶属度。

则有：

μ_{1} = \underset{W &Element; {DIS, BOR, INV, SUR}}{\arg \max} μ_{W} (s_{x}, s_{y})

μ_{2} = \underset{W &Element; {NEAR, FAR}}{\arg \max} μ_{W} (s_{x}, s_{y})

μ_{3} = \underset{W &Element; {RIGHT, LEFT, ABOVE, BELOW}}{\arg \max} μ_{W} (s_{x}, s_{y})

进一步，两个图像区域之间的空间关系向量为：

r_xy＝(μ₁,μ₂,μ₃)。

所述的迭代条件为相邻两次迭代得到的全能量函数值的差小于设定的阈值或迭代次数达到设定的最大次数。

所述的阈值为0.01～0.05。

所述的最大次数为100～150。

由于实际应用根据排列组合，整个原始图像的对应关系种类庞大，若全部计算再去最小，导致计算量庞大，效率下降，因此设定的迭代条件，满足条件即可。迭代条件中的阈值和最大迭代次数直接关系到最终标注的精度，通常阈值越小、迭代次数越大标注精度越高，但是这样会导致计算量增大，进而导致标注效率下降，因此设定迭代条件时，需要综合考虑标注精度和标注效率，具体可根据实际应用情况调整。作为优选，所述的阈值为0.02，所述的最大次数为100。

所述的α为1.2～1.5，所述的β为0.1～0.5，所述的δ为0.5～0.8。

调整因子α、β、δ用于调整全能量函数中各个部分所占的比例，其取值影响到全能量函数的准确性，需要通过大量实获取，也可根据实际应用情况进行微调。作为优选，所述的α为1.4，所述的β为0.3，所述的δ为0.8。

本发明的基于能量模型的图像语义标注方法中以区域图像-语义标签的对应势，以及语义标签之间的相互作用势构建原始图像在不同区域图像-语义标签对应关系下的全能量函数，通过利用全能量函数来进行图像上下文信息和外观信息的融合。与现有技术中只利用对象之间共生信息，或仅利用固定的空间关系和简单的频率计数方法的上下文对象分类模型相比，本发明提出的全能量函数通过模糊空间关系更充分地利用对象之间空间结构信息，有效避免了产生语义混乱的问题，提高了语义标注的精度。

具体实施方式

下面将结合具体实施例对本发明进行详细描述。

一种基于能量模型的图像语义标注方法，包括：

(1)将原始图像分割为若干个区域图像，并提取各个区域图像的视觉特征向量。

本实施例中利用视觉特征模糊C-均值(fuzzy c-means，FCM)聚类算法对原始图像进行分割并提取各个区域图像的视觉特征向量。该视觉特征向量可以为基于动态图像专家组标准7特征(Moving Picture Experts Group-7，MPEG-7)的特征向量，也可以为基于尺度不变特征变换算法(Scale-invariant featuretransform，SIFT)的特征向量，本实施例中为基于SIFT特征的特征向量。

(2)根据各个区域的视觉特征向量，利用训练好的SVM分类器确定各个区域图像的候选语义标签，以及各个候选语义标签对该区域图像的信任度。该SVM分类器为基于视觉特征的SVM分类器。

每个区域图像对应的候选标签的个数不确定，根据实际情况获取。

E (A) = - (Σ_{i = 1}^{k} α \cdot p (c_{l} | s_{i}) + β \cdot p (c_{l}) + Σ_{\underset{(i &NotEqual; j)}{i, j = 1}}^{k} δ \cdot ψ (c_{l}, c_{m}) + p (c_{l}, c_{m}) \cdot p (c_{l} | s_{i})),

其中，k为区域图像的个数，α、β、δ均为调整因子(本实施例中α为1.4，所述的β为0.3，所述的δ为0.8)，

p(c_l|s_i)为语义标签c_l对区域图像s_i的信任度，

p(c_l)为区域图像s_i对应的语义标签c_l出现的概率，

P(c_l,c_m)为语义标签c_l与语义标签c_m同时出现的概率，

ψ(c_l,c_m)为语义标签c_l与语义标签c_m之间的空间隶属度，根据语义标签c_l与语义标签c_m之间的模糊空间关系计算得到。具体根据以下公式计算：

ψ (c_{l}, c_{m}) = 1 - | {\overset{&OverBar;}{r}}_{lm} - r_{ij} |,

r_ij为原始图像中区域图像s_i和图像区域s_j的空间关系向量；

每个图像中任意两个区域图像之间的空间关系向量为：

r_xy＝(μ₁,μ₂,μ₃)，

通过以下步骤计算空间关系向量r_xy：

(1)采用边界像素与矩的区域表示方法描述区域图像s_x和区域图像s_y，获得区域图像s_x和区域图像s_y之间的空间关系描述符：

F(s_x,s_y)＝(θ_xy，d_xy，ρ_xy)，x,y＝1,...,k，x≠y，

θ_xy为区域图像s_x和区域图像s_y的中心点的连线与距离最近的两个边界像素点的连线之间的夹角，d_xy为距离最近的两个边界像素点之间的距离，ρ_xy为区域图像s_x和区域图像s_y的共同边界长度与区域图像s_x的边界长度的比；

(2)本实施例中方向关系包括上方、下方、左方和右方，根据θ_xy计算区域图像s_x和区域图像s_y在各个方向关系上的隶属度，并以最大的隶属度作为区域图像s_x和区域图像s_y在方向关系上的隶属度；

本实施例中距离关系包括靠近和远离，根据d_xy和ρ_xy计算区域图像s_x和区域图像s_y在各个距离关系上的隶属度，并以最大的隶属度作为区域图像s_x和区域图像s_y在距离关系上的隶属度；

本实施例中拓扑关系包括分离、邻近、入侵和包含，根据ρ_xy计算区域图像s_x和区域图像s_y在各个拓扑关系上的隶属度，并以最大的隶属度作为区域图像s_x和区域图像s_y在拓扑关系上的隶属度。

(4)采用迭代条件模式对所述的全能量函数进行迭代，直至相邻两次迭代得到的全能量函数的值的差小于设定的阈值或迭代次数达到设定的最大次数时停止迭代，并根据最后一次迭代时各个区域图像与候选语义标签的对应关系对原始图像进行语义标注。

本实施例中迭代条件的阈值为0.02，最大次数为100。

将本实施例的图像语义标注方法分别应用于SCEF、MSRC v2和PASCALVOC2010图像数据集，对于以上三中图像数据集，其本实施例的平均标注准确度分别为65.9％，68.81％，37.45％，与现有技术中的基于CRF模型的标注方法对应的65.57％、44.31％和30.57％比较，平均标注准确度得到了大幅度提升。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于能量模型的图像语义标注方法，其特征在于，包括：

E (A) = - (Σ_{i = 1}^{k} α \cdot p (c_{l} | s_{i}) + β \cdot p (c_{l}) + Σ_{\underset{(i &NotEqual; j)}{i, j = 1}}^{k} δ \cdot ψ (c_{l}, c_{m}) + p (c_{l}, c_{m}) \cdot p (c_{l} | s_{i})),

其中，k为区域图像的个数，α、β、δ均为调整因子，

p(c_l|s_i)为语义标签c_l对区域图像s_i的信任度，

p(c_l)为区域图像s_i对应的语义标签c_l出现的概率，

P(c_l,c_m)为语义标签c_l与语义标签c_m同时出现的概率，

2.如权利要求1所述的基于能量模型的图像语义标注方法，其特征在于，所述步骤(1)中利用视觉特征对原始图像进行分割。

3.如权利要求2所述的基于能量模型的图像语义标注方法，其特征在于，所述步骤(2)中SVM分类器为基于视觉特征的SVM分类器。

4.如权利要求3所述的基于能量模型的图像语义标注方法，其特征在于，语义标签c_l与语义标签c_m之间的空间隶属度根据以下公式计算：

ψ (c_{l}, c_{m}) = 1 - | {\overset{&OverBar;}{r}}_{lm} - r_{ij} |,

ri_j为原始图像中区域图像s_i和图像区域s_j的空间关系向量；

每个图像中任意两个区域图像之间的空间关系向量为：

r_xy＝(μ₁,μ₂,μ₃)，

5.如权利要求4所述的基于能量模型的图像语义标注方法，其特征在于，通过以下步骤计算空间关系向量r_xy：

F(s_x,s_y)＝(θ_xy，d_xy，ρ_xy)，x,y＝1,...,k，x≠y，

所述的距离关系包括靠近和远离，根据d_xy和ρ_xy计算区域图像s_x和区域图像s_y在各个距离关系上的隶属度，并以最大距离关系上的隶属度作为区域图像s_x和区域图像s_y在距离关系上的隶属度；

6.如权利要求5所述的基于能量模型的图像语义标注方法，其特征在于，所述的迭代条件为相邻两次迭代得到的全能量函数值的差小于设定的阈值或迭代次数达到设定的最大次数。

7.如权利要求6所述的基于能量模型的图像语义标注方法，其特征在于，所述的阈值为0.01～0.05。

8.如权利要求7所述的基于能量模型的图像语义标注方法，其特征在于，所述的最大次数为100～150。

9.如权利要求8所述的基于能量模型的图像语义标注方法，其特征在于，所述的α为1.2～1.5，所述的β为0.1～0.5，所述的δ为0.5～0.8。