CN102542302A

CN102542302A - 基于分等级对象语义图的复杂目标自动识别方法

Info

Publication number: CN102542302A
Application number: CN201010597797XA
Authority: CN
Inventors: 孙显; 张道兵; 付琨; 王宏琦
Original assignee: Institute of Electronics of CAS
Current assignee: Institute of Electronics of CAS
Priority date: 2010-12-21
Filing date: 2010-12-21
Publication date: 2012-07-04
Anticipated expiration: 2030-12-21
Also published as: CN102542302B

Abstract

本发明公开了一种基于分等级对象语义图的复杂目标自动识别方法，涉及目标识别技术，步骤为：建立多类复杂目标图像代表集；对训练集图像进行多尺度分割，逐一计算各部件对象的特征信息，构建分等级语义图；采用螺旋式的混合学习方式，利用判别式的分类器统计对象局部特性，结合产生式的消息传递机制计算对象间相互影响，推导求解分等级语义图；使用学习得到的分等级对象语义图解译图像中的感兴趣目标，实现多类复杂目标的定位、提取和类型识别。本发明方法具有较高的智能化程度，能够满足自然和遥感场景图像中多类目标识别和图像解译的需求。

Description

基于分等级对象语义图的复杂目标自动识别方法

技术领域

本发明涉及图像信息处理中的目标识别技术领域，尤其是一种基于分等级对象语义图的复杂目标自动识别方法，通过构建分等级对象语义图来实现对自然和遥感场景图像中多种类型复杂目标的识别和提取。

背景技术

目标识别是指模拟人类的视觉和分析过程，用计算机对图像场景中包含的物体进行特征分析和概念理解的过程。传统的目标识别方法大多依赖于人工或人机交互的目视解译，一般耗时多、周期长。提高目标识别方法的自动化程度，不但能够将人从枯燥烦杂的图像判读工作中解放出来，而且可以提高图像信息处理的时效性和准确性。然而，目标识别的技术和发展水平与真正的实际应用还存在较大差距，多数目标识别方法还仅局限于特定类别的目标与场景处理，算法效率较低。因而，如何提高图像中复杂目标的自动识别效率是一个很有意义的研究问题。

目标是由若干特征区域或部件通过一定的空间规律组合而成的，属于同一类别的目标，其各个部件的空间约束条件总是相同或相似的。为此，许多目标识别的方法中都应用了分等级表达的思想。最初，这类方法采用简单的线段或边界描绘子表征目标部件，并以相邻部件间的比值或部件数目等条件定义空间关系。随着特征描述方式的发展，一些方法提出，即便是结构复杂的目标，也能由部件及部件间的空间关系进行唯一性描述，并在此基础上提出了一系列基于部件或子目标的处理方法。

部分目标分等级表达的方法注重于特征区域描述的优化。Biederman等提出了基于结构描绘算子的目标识别方法，用形状部件的识别代替整体目标的识别(见E.Biederman.Human image understanding：recent researchand a theory.Human and Machine Vision，Canada，1986，13-57)。Krivic和Solina提出了一种基于部件图结构模型的目标识别方法，该方法对目标图像进行全局建模，根据图结构将目标表征为若干部件的有机组合，并且针对每一个部件分别建立不同的局部特征(见J.Krivic，F.Solina.Part-levelobject recognition using supe-rquadrics.Computer Vision and ImageUnderstanding，2004，95(1)：105-126)。Yuille等应用类似的方式将人脸目标表征为眼睛、嘴等特征区域的组合，并且为眼睛和嘴等建立对应的参数模型，通过各部件的参数选择以及相互关联反映人脸的结构信息(见C.Yuille.Fundamental limits of Bayesian inference：order parameters and phasetransitions for road tracking.IEEE Transaction on Pattern Analysis andMachine Intelligence，2000，22：160-173)。

以上这些方法中并没有充分考虑各层次结构部件之间的空间位置信息。为此，Jojic等提出了Epitome模型(见N.Jojic，B.J.Frey，A.Kannan.Epitomic analysis of appearance and shape.IEEE International Conference onComputer Vision，2003，1：34-41)，对图像片段构建产生式模型，并将图像中共享坐标位置的片段搜集在一起作为基元表达图像和目标的整体结构。由于增加了部件的空间位置信息，在对复杂背景图像的目标检测中取得了较好的效果。但是这类模型选取的片段形状一般为尺寸大小固定的矩形网格，很难反映不同目标之间由于类内差异而造成的变形。在此基础上，Kannan等提出了Jigsaw模型(见A.Kannan，J.Winn，and C.Rother.Clustering appearance and shape by learning jigsaws.In 19th Conference onAdvances in Neural Information Processing Systems，2006，657-664.)，该模型以非固定形状和尺寸的片段作为图像部件，有效提高了模型表达的准确度。然而，Jigsaw模型中并没有对目标进行分层表达，无法体现出部件间的递归关系，也没有对多层次结构中丰富的空间信息加以利用，一旦图像场景发生改变，算法性能就会发生波动，使得某些需要精确定位目标的应用难以完成。

发明内容

本发明的目的是提供一种基于分等级对象语义图的复杂目标自动识别方法，以解决图像中复杂目标的自动识别和提取问题。

为实现上述目的，本发明的技术解决方案是：

一种基于分等级对象语义图的复杂目标自动识别方法，其包括以下步骤：

第一步，建立多类复杂目标的图像代表集，包括：

A1、根据需要定义J个类别的复杂目标，类别编号为1～J，J为自然数；

A2、对每个目标类别，选取200幅图像作为该类目标的代表图像，其中任选50幅图像作为训练集，其余的150幅图像作为测试集；

A3、对每幅目标图像标记出目标所属类别及所在的区域范围；

A4、将所有J类目标的图像代表合并为多类目标图像代表集；

第二步，构建分等级语义图，用于描述图像场景中目标与背景的空间关系、以及目标的类别信息和结构组成，包括：

B1、对训练图像{I₁，I₂，...，I_M}分别进行多尺度分割，构建多尺度对象网络，其中M表示训练图像数目；

B2、对每幅训练图像I对应地构建一幅分等级映射图该映射图的结构、大小均和原始训练图像分割后的多尺度结构一致；

B3、对每一类目标的训练图像对应地构建一幅分等级语义图

该语义图的结构和原始训练图像分割后的多尺度结构一致，其宽度和高度

和

则远远小于训练图像的宽度和高度；

B4、逐一计算各个部件对象B的属性变量μ(B)，用于描述部件对象的特征属性；

B5、逐一定量计算各个部件对象B的位置变量λ^-1(B)，用于描述部件对象的空间分布。

第三步，采用螺旋式的混合学习方式，将产生式和判别式的训练过程相互交叉，推导求解分等级语义图，方法是：

C1、对分等级语义图进行产生式近似拟合；

C2、初始化对象字典和语义图，从少量已完全标记的训练图像集合{I₁，I₂，...，I_M′}中，

选取若干对象组成部件对象字典

对训练图像集合{I₁，I₂，...，I_M′}各层次上的对象聚类，并以聚类后的结果作为初始的语义映射图集合

C3、利用得到的对象字典

和映射图集合

通过判别式训练得到初始的位置分类器

和属性分类器

C4、使用产生式和判别式相结合的混合学习方式获取模型参数；

第四步，使用获取的分等级对象语义图处理图像中的感兴趣目标，方法是：

D1、输入待处理图像，按照与训练相同的参数进行多尺度分割；

D2、统计各个层次对象的128维SIFT特征向量；

D3、使用部件对象字典中的对象表达图像的各个层次，完成映射图的构建；

D4、定性分析图像中各个区域的语义类别，得到图像的整体解译，或按照不同的需求目的，依据层次性和类别标记，提取感兴趣的目标区域，并采用图像分割、边界提取的辅助手段，实现感兴趣目标的精处理。

所述的方法，其所述第二步B1中，利用指数函数定义线性尺度空间，在尺度S_l和层次l间构建关系，并计算图像各个层次的分割对象块数K_l；尺度S_l和层次l存在如下关系：

S_l＝ε^L-l l＝1，2，...，L (1)

其中ε为尺度因子，由此可以得到图像各个层次的分割块数K_l：

l＝1，2，…，L (2)

其中

为分割系数，I_w和I_h分别为图像长宽的像素数，

为上取整高斯函数；

将给定的第l层图像视为四向连接图，把Normalized-cut分割算法与每层分割对象块数K_l相关联，获取图像分割结果，从l-1层开始，依据上一层分割结果，生成新的连接图继续粗化分割，由上到下递归处理。

所述的方法，其所述第二步B4，具体步骤如下：

(1)计算各个部件对象的灰度、RGB和HSV共7个通道的直方图，作为局部色彩特征；

(2)以LM滤波器组为基础，构建128个尺度、方向和相位各不相同的滤波器组，与图像卷积获得纹理的特征值；

(3)计算对象中心的方向能量OE，获取形状特征；

(4)将以上色彩、纹理和形状三类特征组合，形成一个136维的特征向量。

所述的方法，其所述B4的步骤(3)中，计算形状特征的方向能量定义如下：

OE＝(I·f₁)²+(I·f₂)² (3)

其中f₁为高斯差分滤波器，f₂为f₁的Hilbert变形：

\{\begin{matrix} f_{1} (x, y) = \frac{d^{2}}{{dy}^{2}} (\frac{1}{Z} \exp (\frac{y^{2}}{σ^{2}}) \exp (\frac{x^{2}}{l^{2} σ^{2}})) \\ f_{2} (x, y) = Hilbert (f_{1} (x, y)) \end{matrix} - - - (4)

其中，σ为尺度参数，l为方向比参数，Z为归一化常量，x和y描述图像的坐标值。

所述的方法，其所述第二步B5，具体步骤如下：

(1)采用稀疏量化的方法，以对象外接矩形的中心作为对象中心，将训练图像划分为G个网格，用于确定各个对象中心在图像中的空间位置；

(2)以每个网格为聚类中心对对象中心量化处理，将每幅训练图像中对象的位置坐标用量化后的中心坐标和所在层次进行统计；

(3)用相同的网格化因子对映射图像进行划分，量化对象中心的位置坐标；

(4)在分等级映射图

中，定义三维偏移向量l_i＝(l_ix，l_iy，l_iz)描述部件对象的空间信息，其中，l_ix和l_iy表示对象的中心偏移量，l_iz表示对象的层次偏移量；

(5)建立从图像I中原始对象向量t_i到语义图中部件对象向量b_i的映射：

其中，t_i＝(t_ix，t_iy，t_iz)，b_i＝(b_ix，b_iy，b_iz)，t_ix和t_iy、b_ix和b_iy分别表示对象在训练图像和语义图中的中心坐标，t_iz和b_iz分别表示对象在训练图像和语义图中的所在图层，

为分等级映射图的维度描述；

(6)按照如下方式求解偏移向量l_i：

\{\begin{matrix} l_{ix} = t_{ix} - b_{ix} \\ l_{iy} = t_{iy} - b_{iy} \\ l_{iz} = t_{iz} - b_{iz} \end{matrix} - - - (6) .

所述的方法，其所述B5的步骤(1)中，网格个数G的计算方法为：

其中，ρ为网格化因子，

为上取整高斯函数。

所述的方法，其所述第三步C1，具体步骤如下：

(1)定义如下相似度准则保证相邻对象间的空间关系：

其中，E为对象间的关系集合，Z为归一化系数，ψ为配对价值函数，用于平滑相邻对象B_i和B_j间的特征属性，使用Potts模型进行拟合；

(2)在假设映射图和语义图中对象相互独立的前提下，利用高斯分布求解图像中各个对象的空间概率分布，并在高斯分布中加入均匀分布项：

其中，

为高斯分布项，Uniform(·)为均匀分布项，π为比例系数；

(3)对于语义图

中的典型对象B，在参数μ和λ上加入独立的Nomal-Gamma先验项

提高模型稳定性：

其中，μ₀为控制参数；

(4)由式(8)至(10)，拟合建立分等级对象语义图

训练图像集I₁，...，I_m和对应的映射图

之间的联合概率分布用于推导求解：

其中，m为训练图像集中图像数量；

所述的方法，其所述C1的步骤(1)中，Potts模型定义为：

ψ(l_i，l_y)＝α_gδ(l_i≠l_y) (12)

其中，α_g为语义图中对象块的规模参数，在实际算法中一般固定取值为50。

所述的方法，其所述C1的步骤(2)中，遍历图像中的所有对象，以

为模求解；处理彩色多通道图像时，对每个通道分别求解，获得向量(I_i，μ(t_i-l_i)，λ(t_i-l_i))，其中通道的数量即为对应的维度空间；在实验中，一般固定比例系数π＝0.9。

所述的方法，其所述C1的步骤(3)中，在实验中，为了方便求解，一般固定控制参数μ₀＝0.5。

所述的方法，其所述第三步C3，方法是：

(1)对于每一个输入的对象样本，在对象所在区域中计算局部梯度方向直方图得到SIFT特征，该SIFT特征为一个128维的特征向量c_i；

(2)获得所有样本训练集(c₁，y₁，y′₁)，...，(c_N，y_N，y′_N)，y_i为对象在映射图中的坐标位置，y_i共有G个选择，y′_i为对象的类别标记；

(3)利用Joint Boosting算法训练得到位置分类器

和属性分类器

以直方图的形式预测对象在图层不同位置出现的概率及属于不同类别目标的概率。

所述的方法，其所述第三步C4，具体步骤如下，当i＝1，2，...，N时：

(1)利用位置分类器自下而上标记各个对象的预测位置；

(2)利用Belief Propagation算法自上而下传递消息，最大程度地模拟对象间相互作用的过程，定义m_ij(l_j)代表从对象B_i传递到对象和B_j的消息，该消息为与l_j长度相同的向量，基于已知的B_i状态来决定B_j状态的可能性：

m_{ij} (l_{i}) = \max_{l_{i}} (φ_{i} (l_{i}) ψ_{ij} (l_{i}, l_{j}) \underset{k &Element; N_{i} \ {j}}{Π} m_{ki} (l_{i})) - - - (13)

其中，φ_i(l_i)为二值价值函数，用于描述每个像素标记状态的先验分布；

(3)将判别式分类器的预测作为传递消息的掩膜(Mask)，模拟相似度函数

使得自下而上的判别式分类器最大可能地拟合产生式消息，而自上而下的消息推论在判别式分类器的辅助下，效率和精度得到增加，求解式(11)，更新得到训练集中所有图像的语义映射图

(4)根据语义映射图与已标记的训练图像，训练更新后的属性分类器

生成新的对象字典

并得到更新后的分等级语义图

(5)根据更新后的对象字典和语义映射图，得到更新后的位置分类器

(6)重复步骤(1)至(5)，直至完成迭代，在流程的每一次循环后，分类器和基元的精度不断的提高，得到最终的分等级语义图

所述的方法，其所述C4的步骤(6)，在实验中，综合考虑训练效率和分类精度，迭代次数N一般取值为50至200次。

本发明的一种基于分等级对象语义图的复杂目标自动识别方法，立足图像全局语义，通过多尺度分割构建对象语义图，充分利用了目标与背景之间、目标部件之间的语义约束信息，同时采用了螺旋式混合学习的方式，将属于产生式方法的消息传递机制和属于判别式方法的对象特性分类器训练互为输入和输出，完成对多类复杂目标的准确定位、轮廓提取和类型识别，并在一定程度上提高了识别过程的鲁棒性。本发明方法的提出是对传统的基于对象处理方法在图像理解中的扩展，实现了图像中低层信息和高层语义的结合，符合人类视觉对图像目标的判读和解译。

附图说明

图1为本发明基于分等级语义图的复杂目标识别方法的流程示意图。

图2为本发明第二步构建分等级语义图的流程示意图。

图3为本发明第三步混合学习求解分等级语义图的流程示意图。

图4为本发明第四步提取识别复杂目标的流程示意图。

图5为本发明所采用的复杂目标图像代表集中的部分图像及识别结果示例图。其中：

图a1、图b1为Caltech-101自然场景数据集中牛类目标的测试图像；

图c1、图d1为Caltech-101自然场景数据集中人脸类目标的测试图像；

图e1、图f1、图g1、图h1为自制遥感场景数据集中舰船类目标的测试图像；图a2、图b2、图c2、图d2、图e2、图f2、图g2、图h2分别为与图a1、图b1、图c1、图d1、图e1、图f1、图g1、图h1对应的目标类型识别与提取结果。

具体实施方式

本发明的一种基于分等级对象语义图的复杂目标自动识别方法，提出一种新的分等级对象语义图，在高层次建立目标与背景之间的语义约束，在低层次上强化目标部件之间的几何约束，并通过置信消息传递机制来计算对象特性间的相互影响，提高对象网络中空间信息的利用率。同时，方法中采用螺旋式的混合学习方式，将产生式和判别式的训练过程相互交叉，实现对多类复杂目标的准确定位、提取和识别。本发明克服了现有识别方法中对目标间的通用特征描述不全和对高层语义信息利用率不高等缺点，改进了训练误差、内存消耗和识别效率，提高了识别过程的鲁棒性，能够满足自然和遥感场景图像中多种类型目标识别和图像解译的需求。

图1为本发明基于分等级对象语义图的复杂目标自动识别方法的流程示意图，具体步骤包括：

第一步，建立多类复杂目标的图像代表集；

第二步，对训练集图像进行多尺度分割，逐一计算各部件对象的特征信息，构建分等级映射图、分等级语义图；

第三步，采用螺旋式的混合学习方式，利用判别式的分类器统计对象局部特性，结合产生式的消息传递机制计算对象间相互影响，推导求解分等级语义图；

第四步，使用学习得到的分等级对象语义图解译图像中的感兴趣目标，实现多类复杂目标的准确定位、轮廓提取和类型识别。

图2为本发明第二步构建分等级语义图的流程示意图，具体步骤包括：

2.1、对训练图像进行多尺度分割，其中尺度因子ε取值4，层次L取值为5，分割系数

取值为100，计算得到相应的尺度序列S_l以及各个图像不同层次的分割对象块数，由上到下递归处理，构建多尺度对象网络；

2.2、对每幅训练图像I对应地构建一幅分等级映射图；

2.3、对每一类目标的训练图像对应地构建一幅分等级语义图，其长度和宽度取值为

2.4、逐一计算各个部件对象的局部特征属性，包括7维色彩特征、128维纹理特征和1维形状特征，共计136维的特征向量；

2.5、逐一定量计算各个部件对象的空间分布信息，取网格化因子ρ为25，将图像划分为若干网格，量化对象中心，并建立原始对象向量到语义图中部件对象向量的映射，求解偏移分量。

图3为本发明第三步混合学习求解分等级语义图的流程示意图，具体步骤包括：

3.1、对分等级语义图进行近似拟合，定义相似度准则定量计算相邻对象间的空间关系，其中Potts模型中参数α_g取值为50，利用高斯分布求解图像中各个对象的空间概率分布，其中高斯分布项和均匀分布项的比例系数π取值为0.9，语义图中的控制参数μ₀取值为0.5；

3.2、从少量已完全标记的训练图像选取若干对象，组成初始部件对象字典，对训练图像各个层次上的对象聚类，作为初始的语义映射图；

3.3、利用得到的对象字典和映射图，利用Joint Boosting算法进行判别式学习，得到初始的位置分类器和属性分类器，以直方图的形式预测对象在图层不同位置可能出现的概率以及属于不同类别目标的概率；

3.4、使用产生式和判别式相结合的混合学习方式获取模型参数，利用位置分类器自下而上标记各个对象的预测位置，然后利用BeliefPropagation算法自上而下传递消息，采用判别式分类器的预测模拟相似度函数，并根据语义映射图与已标记的训练图像，训练更新后的属性分类器，生成新的对象字典，依次迭代100次后，得到最终的分等级语义图。

图4为本发明第四步提取识别复杂目标的流程示意图，具体步骤包括：

4.1、输入待处理图像，按照与训练相同的参数进行多尺度分割；

4.2、统计各个层次对象的138维特征向量；

4.3、使用部件对象字典中的典型对象完成映射图的构建；

4.4、依据层次性和类别标记，提取感兴趣的目标区域，并可采用图像分割、边界提取等辅助手段，实现感兴趣目标的精处理，如图5所示。

图5为使用本发明方法在多类复杂目标图像代表集上进行目标识别的例子。该图像代表集由三类场景图像组成。其中一类为Caltech-101国际标准自然场景目标数据集，该数据集定义了包括背景在内的自然/人工、动物/植物、符号/实景等102类不同的目标，每类目标大约有40至800幅图像。还有MSER国际标准自然场景目标数据集，该数据集中包含14类共240幅图像，目标在每幅图像中的视角、光线及阴影各不相同，主要用于和其它相关方法进行比较。另一类为自制的遥感地物目标数据集，该图像集中的图片均从Internet获取，图片分辨率在1米左右，包含遥感飞机、油罐、舰船等三类目标，每类目标大约由300幅图像，图像平均尺寸为300×450像素大小。由于这些数据集中均包含大量的图像，为了保证训练样本集的典型性和丰富性，选取其中的牛、人脸、舰船等五类目标组合混合数据集，每个类别包含200幅图像，其中50幅用于训练，150幅用于测试。图中分别给出了图像和识别结果的示例。