CN102542302A - 基于分等级对象语义图的复杂目标自动识别方法 - Google Patents

基于分等级对象语义图的复杂目标自动识别方法 Download PDF

Info

Publication number
CN102542302A
CN102542302A CN201010597797XA CN201010597797A CN102542302A CN 102542302 A CN102542302 A CN 102542302A CN 201010597797X A CN201010597797X A CN 201010597797XA CN 201010597797 A CN201010597797 A CN 201010597797A CN 102542302 A CN102542302 A CN 102542302A
Authority
CN
China
Prior art keywords
mrow
image
msub
training
hierarchical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201010597797XA
Other languages
English (en)
Other versions
CN102542302B (zh
Inventor
孙显
张道兵
付琨
王宏琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Electronics of CAS
Original Assignee
Institute of Electronics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Electronics of CAS filed Critical Institute of Electronics of CAS
Priority to CN 201010597797 priority Critical patent/CN102542302B/zh
Publication of CN102542302A publication Critical patent/CN102542302A/zh
Application granted granted Critical
Publication of CN102542302B publication Critical patent/CN102542302B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于分等级对象语义图的复杂目标自动识别方法,涉及目标识别技术,步骤为:建立多类复杂目标图像代表集;对训练集图像进行多尺度分割,逐一计算各部件对象的特征信息,构建分等级语义图;采用螺旋式的混合学习方式,利用判别式的分类器统计对象局部特性,结合产生式的消息传递机制计算对象间相互影响,推导求解分等级语义图;使用学习得到的分等级对象语义图解译图像中的感兴趣目标,实现多类复杂目标的定位、提取和类型识别。本发明方法具有较高的智能化程度,能够满足自然和遥感场景图像中多类目标识别和图像解译的需求。

Description

基于分等级对象语义图的复杂目标自动识别方法
技术领域
本发明涉及图像信息处理中的目标识别技术领域,尤其是一种基于分等级对象语义图的复杂目标自动识别方法,通过构建分等级对象语义图来实现对自然和遥感场景图像中多种类型复杂目标的识别和提取。
背景技术
目标识别是指模拟人类的视觉和分析过程,用计算机对图像场景中包含的物体进行特征分析和概念理解的过程。传统的目标识别方法大多依赖于人工或人机交互的目视解译,一般耗时多、周期长。提高目标识别方法的自动化程度,不但能够将人从枯燥烦杂的图像判读工作中解放出来,而且可以提高图像信息处理的时效性和准确性。然而,目标识别的技术和发展水平与真正的实际应用还存在较大差距,多数目标识别方法还仅局限于特定类别的目标与场景处理,算法效率较低。因而,如何提高图像中复杂目标的自动识别效率是一个很有意义的研究问题。
目标是由若干特征区域或部件通过一定的空间规律组合而成的,属于同一类别的目标,其各个部件的空间约束条件总是相同或相似的。为此,许多目标识别的方法中都应用了分等级表达的思想。最初,这类方法采用简单的线段或边界描绘子表征目标部件,并以相邻部件间的比值或部件数目等条件定义空间关系。随着特征描述方式的发展,一些方法提出,即便是结构复杂的目标,也能由部件及部件间的空间关系进行唯一性描述,并在此基础上提出了一系列基于部件或子目标的处理方法。
部分目标分等级表达的方法注重于特征区域描述的优化。Biederman等提出了基于结构描绘算子的目标识别方法,用形状部件的识别代替整体目标的识别(见E.Biederman.Human image understanding:recent researchand a theory.Human and Machine Vision,Canada,1986,13-57)。Krivic和Solina提出了一种基于部件图结构模型的目标识别方法,该方法对目标图像进行全局建模,根据图结构将目标表征为若干部件的有机组合,并且针对每一个部件分别建立不同的局部特征(见J.Krivic,F.Solina.Part-levelobject recognition using supe-rquadrics.Computer Vision and ImageUnderstanding,2004,95(1):105-126)。Yuille等应用类似的方式将人脸目标表征为眼睛、嘴等特征区域的组合,并且为眼睛和嘴等建立对应的参数模型,通过各部件的参数选择以及相互关联反映人脸的结构信息(见C.Yuille.Fundamental limits of Bayesian inference:order parameters and phasetransitions for road tracking.IEEE Transaction on Pattern Analysis andMachine Intelligence,2000,22:160-173)。
以上这些方法中并没有充分考虑各层次结构部件之间的空间位置信息。为此,Jojic等提出了Epitome模型(见N.Jojic,B.J.Frey,A.Kannan.Epitomic analysis of appearance and shape.IEEE International Conference onComputer Vision,2003,1:34-41),对图像片段构建产生式模型,并将图像中共享坐标位置的片段搜集在一起作为基元表达图像和目标的整体结构。由于增加了部件的空间位置信息,在对复杂背景图像的目标检测中取得了较好的效果。但是这类模型选取的片段形状一般为尺寸大小固定的矩形网格,很难反映不同目标之间由于类内差异而造成的变形。在此基础上,Kannan等提出了Jigsaw模型(见A.Kannan,J.Winn,and C.Rother.Clustering appearance and shape by learning jigsaws.In 19th Conference onAdvances in Neural Information Processing Systems,2006,657-664.),该模型以非固定形状和尺寸的片段作为图像部件,有效提高了模型表达的准确度。然而,Jigsaw模型中并没有对目标进行分层表达,无法体现出部件间的递归关系,也没有对多层次结构中丰富的空间信息加以利用,一旦图像场景发生改变,算法性能就会发生波动,使得某些需要精确定位目标的应用难以完成。
发明内容
本发明的目的是提供一种基于分等级对象语义图的复杂目标自动识别方法,以解决图像中复杂目标的自动识别和提取问题。
为实现上述目的,本发明的技术解决方案是:
一种基于分等级对象语义图的复杂目标自动识别方法,其包括以下步骤:
第一步,建立多类复杂目标的图像代表集,包括:
A1、根据需要定义J个类别的复杂目标,类别编号为1~J,J为自然数;
A2、对每个目标类别,选取200幅图像作为该类目标的代表图像,其中任选50幅图像作为训练集,其余的150幅图像作为测试集;
A3、对每幅目标图像标记出目标所属类别及所在的区域范围;
A4、将所有J类目标的图像代表合并为多类目标图像代表集;
第二步,构建分等级语义图,用于描述图像场景中目标与背景的空间关系、以及目标的类别信息和结构组成,包括:
B1、对训练图像{I1,I2,...,IM}分别进行多尺度分割,构建多尺度对象网络,其中M表示训练图像数目;
B2、对每幅训练图像I对应地构建一幅分等级映射图该映射图的结构、大小均和原始训练图像分割后的多尺度结构一致;
B3、对每一类目标的训练图像对应地构建一幅分等级语义图
Figure BDA0000039547270000032
该语义图的结构和原始训练图像分割后的多尺度结构一致,其宽度和高度
Figure BDA0000039547270000033
Figure BDA0000039547270000034
则远远小于训练图像的宽度和高度;
B4、逐一计算各个部件对象B的属性变量μ(B),用于描述部件对象的特征属性;
B5、逐一定量计算各个部件对象B的位置变量λ-1(B),用于描述部件对象的空间分布。
第三步,采用螺旋式的混合学习方式,将产生式和判别式的训练过程相互交叉,推导求解分等级语义图,方法是:
C1、对分等级语义图进行产生式近似拟合;
C2、初始化对象字典和语义图,从少量已完全标记的训练图像集合{I1,I2,...,IM′}中,
Figure BDA0000039547270000035
选取若干对象组成部件对象字典
Figure BDA0000039547270000036
对训练图像集合{I1,I2,...,IM′}各层次上的对象聚类,并以聚类后的结果作为初始的语义映射图集合
C3、利用得到的对象字典
Figure BDA0000039547270000038
和映射图集合
Figure BDA0000039547270000039
通过判别式训练得到初始的位置分类器
Figure BDA0000039547270000041
和属性分类器
Figure BDA0000039547270000042
C4、使用产生式和判别式相结合的混合学习方式获取模型参数;
第四步,使用获取的分等级对象语义图处理图像中的感兴趣目标,方法是:
D1、输入待处理图像,按照与训练相同的参数进行多尺度分割;
D2、统计各个层次对象的128维SIFT特征向量;
D3、使用部件对象字典中的对象表达图像的各个层次,完成映射图的构建;
D4、定性分析图像中各个区域的语义类别,得到图像的整体解译,或按照不同的需求目的,依据层次性和类别标记,提取感兴趣的目标区域,并采用图像分割、边界提取的辅助手段,实现感兴趣目标的精处理。
所述的方法,其所述第二步B1中,利用指数函数定义线性尺度空间,在尺度Sl和层次l间构建关系,并计算图像各个层次的分割对象块数Kl;尺度Sl和层次l存在如下关系:
Sl=εL-l  l=1,2,...,L    (1)
其中ε为尺度因子,由此可以得到图像各个层次的分割块数Kl
Figure BDA0000039547270000043
l=1,2,…,L                    (2)
其中
Figure BDA0000039547270000044
为分割系数,Iw和Ih分别为图像长宽的像素数,
Figure BDA0000039547270000045
为上取整高斯函数;
将给定的第l层图像视为四向连接图,把Normalized-cut分割算法与每层分割对象块数Kl相关联,获取图像分割结果,从l-1层开始,依据上一层分割结果,生成新的连接图继续粗化分割,由上到下递归处理。
所述的方法,其所述第二步B4,具体步骤如下:
(1)计算各个部件对象的灰度、RGB和HSV共7个通道的直方图,作为局部色彩特征;
(2)以LM滤波器组为基础,构建128个尺度、方向和相位各不相同的滤波器组,与图像卷积获得纹理的特征值;
(3)计算对象中心的方向能量OE,获取形状特征;
(4)将以上色彩、纹理和形状三类特征组合,形成一个136维的特征向量。
所述的方法,其所述B4的步骤(3)中,计算形状特征的方向能量定义如下:
OE=(I·f1)2+(I·f2)2        (3)
其中f1为高斯差分滤波器,f2为f1的Hilbert变形:
f 1 ( x , y ) = d 2 dy 2 ( 1 Z exp ( y 2 σ 2 ) exp ( x 2 l 2 σ 2 ) ) f 2 ( x , y ) = Hilbert ( f 1 ( x , y ) ) - - - ( 4 )
其中,σ为尺度参数,l为方向比参数,Z为归一化常量,x和y描述图像的坐标值。
所述的方法,其所述第二步B5,具体步骤如下:
(1)采用稀疏量化的方法,以对象外接矩形的中心作为对象中心,将训练图像划分为G个网格,用于确定各个对象中心在图像中的空间位置;
(2)以每个网格为聚类中心对对象中心量化处理,将每幅训练图像中对象的位置坐标用量化后的中心坐标和所在层次进行统计;
(3)用相同的网格化因子对映射图像进行划分,量化对象中心的位置坐标;
(4)在分等级映射图
Figure BDA0000039547270000052
中,定义三维偏移向量li=(lix,liy,liz)描述部件对象的空间信息,其中,lix和liy表示对象的中心偏移量,liz表示对象的层次偏移量;
(5)建立从图像I中原始对象向量ti到语义图中部件对象向量bi的映射:
Figure BDA0000039547270000053
其中,ti=(tix,tiy,tiz),bi=(bix,biy,biz),tix和tiy、bix和biy分别表示对象在训练图像和语义图中的中心坐标,tiz和biz分别表示对象在训练图像和语义图中的所在图层,
Figure BDA0000039547270000054
为分等级映射图的维度描述;
(6)按照如下方式求解偏移向量li
l ix = t ix - b ix l iy = t iy - b iy l iz = t iz - b iz - - - ( 6 ) .
所述的方法,其所述B5的步骤(1)中,网格个数G的计算方法为:
Figure BDA0000039547270000062
其中,ρ为网格化因子,
Figure BDA0000039547270000063
为上取整高斯函数。
所述的方法,其所述第三步C1,具体步骤如下:
(1)定义如下相似度准则保证相邻对象间的空间关系:
Figure BDA0000039547270000064
其中,E为对象间的关系集合,Z为归一化系数,ψ为配对价值函数,用于平滑相邻对象Bi和Bj间的特征属性,使用Potts模型进行拟合;
(2)在假设映射图和语义图中对象相互独立的前提下,利用高斯分布求解图像中各个对象的空间概率分布,并在高斯分布中加入均匀分布项:
Figure BDA0000039547270000065
其中,
Figure BDA0000039547270000066
为高斯分布项,Uniform(·)为均匀分布项,π为比例系数;
(3)对于语义图
Figure BDA0000039547270000067
中的典型对象B,在参数μ和λ上加入独立的Nomal-Gamma先验项
Figure BDA0000039547270000068
提高模型稳定性:
其中,μ0为控制参数;
(4)由式(8)至(10),拟合建立分等级对象语义图
Figure BDA00000395472700000610
训练图像集I1,...,Im和对应的映射图
Figure BDA00000395472700000611
之间的联合概率分布用于推导求解:
Figure BDA00000395472700000612
其中,m为训练图像集中图像数量;
所述的方法,其所述C1的步骤(1)中,Potts模型定义为:
ψ(li,ly)=αgδ(li≠ly)    (12)
其中,αg为语义图中对象块的规模参数,在实际算法中一般固定取值为50。
所述的方法,其所述C1的步骤(2)中,遍历图像中的所有对象,以
Figure BDA0000039547270000071
为模求解;处理彩色多通道图像时,对每个通道分别求解,获得向量(Ii,μ(ti-li),λ(ti-li)),其中通道的数量即为对应的维度空间;在实验中,一般固定比例系数π=0.9。
所述的方法,其所述C1的步骤(3)中,在实验中,为了方便求解,一般固定控制参数μ0=0.5。
所述的方法,其所述第三步C3,方法是:
(1)对于每一个输入的对象样本,在对象所在区域中计算局部梯度方向直方图得到SIFT特征,该SIFT特征为一个128维的特征向量ci
(2)获得所有样本训练集(c1,y1,y′1),...,(cN,yN,y′N),yi为对象在映射图中的坐标位置,yi共有G个选择,y′i为对象的类别标记;
(3)利用Joint Boosting算法训练得到位置分类器
Figure BDA0000039547270000072
和属性分类器
Figure BDA0000039547270000073
以直方图的形式预测对象在图层不同位置出现的概率及属于不同类别目标的概率。
所述的方法,其所述第三步C4,具体步骤如下,当i=1,2,...,N时:
(1)利用位置分类器自下而上标记各个对象的预测位置;
(2)利用Belief Propagation算法自上而下传递消息,最大程度地模拟对象间相互作用的过程,定义mij(lj)代表从对象Bi传递到对象和Bj的消息,该消息为与lj长度相同的向量,基于已知的Bi状态来决定Bj状态的可能性:
m ij ( l i ) = max l i ( φ i ( l i ) ψ ij ( l i , l j ) Π k ∈ N i \ { j } m ki ( l i ) ) - - - ( 13 )
其中,φi(li)为二值价值函数,用于描述每个像素标记状态的先验分布;
(3)将判别式分类器的预测作为传递消息的掩膜(Mask),模拟相似度函数
Figure BDA0000039547270000081
使得自下而上的判别式分类器最大可能地拟合产生式消息,而自上而下的消息推论在判别式分类器的辅助下,效率和精度得到增加,求解式(11),更新得到训练集中所有图像的语义映射图
Figure BDA0000039547270000082
(4)根据语义映射图与已标记的训练图像,训练更新后的属性分类器
Figure BDA0000039547270000083
生成新的对象字典
Figure BDA0000039547270000084
并得到更新后的分等级语义图
Figure BDA0000039547270000085
(5)根据更新后的对象字典和语义映射图,得到更新后的位置分类器
Figure BDA0000039547270000086
(6)重复步骤(1)至(5),直至完成迭代,在流程的每一次循环后,分类器和基元的精度不断的提高,得到最终的分等级语义图
Figure BDA0000039547270000087
所述的方法,其所述C4的步骤(6),在实验中,综合考虑训练效率和分类精度,迭代次数N一般取值为50至200次。
本发明的一种基于分等级对象语义图的复杂目标自动识别方法,立足图像全局语义,通过多尺度分割构建对象语义图,充分利用了目标与背景之间、目标部件之间的语义约束信息,同时采用了螺旋式混合学习的方式,将属于产生式方法的消息传递机制和属于判别式方法的对象特性分类器训练互为输入和输出,完成对多类复杂目标的准确定位、轮廓提取和类型识别,并在一定程度上提高了识别过程的鲁棒性。本发明方法的提出是对传统的基于对象处理方法在图像理解中的扩展,实现了图像中低层信息和高层语义的结合,符合人类视觉对图像目标的判读和解译。
附图说明
图1为本发明基于分等级语义图的复杂目标识别方法的流程示意图。
图2为本发明第二步构建分等级语义图的流程示意图。
图3为本发明第三步混合学习求解分等级语义图的流程示意图。
图4为本发明第四步提取识别复杂目标的流程示意图。
图5为本发明所采用的复杂目标图像代表集中的部分图像及识别结果示例图。其中:
图a1、图b1为Caltech-101自然场景数据集中牛类目标的测试图像;
图c1、图d1为Caltech-101自然场景数据集中人脸类目标的测试图像;
图e1、图f1、图g1、图h1为自制遥感场景数据集中舰船类目标的测试图像;图a2、图b2、图c2、图d2、图e2、图f2、图g2、图h2分别为与图a1、图b1、图c1、图d1、图e1、图f1、图g1、图h1对应的目标类型识别与提取结果。
具体实施方式
本发明的一种基于分等级对象语义图的复杂目标自动识别方法,提出一种新的分等级对象语义图,在高层次建立目标与背景之间的语义约束,在低层次上强化目标部件之间的几何约束,并通过置信消息传递机制来计算对象特性间的相互影响,提高对象网络中空间信息的利用率。同时,方法中采用螺旋式的混合学习方式,将产生式和判别式的训练过程相互交叉,实现对多类复杂目标的准确定位、提取和识别。本发明克服了现有识别方法中对目标间的通用特征描述不全和对高层语义信息利用率不高等缺点,改进了训练误差、内存消耗和识别效率,提高了识别过程的鲁棒性,能够满足自然和遥感场景图像中多种类型目标识别和图像解译的需求。
图1为本发明基于分等级对象语义图的复杂目标自动识别方法的流程示意图,具体步骤包括:
第一步,建立多类复杂目标的图像代表集;
第二步,对训练集图像进行多尺度分割,逐一计算各部件对象的特征信息,构建分等级映射图、分等级语义图;
第三步,采用螺旋式的混合学习方式,利用判别式的分类器统计对象局部特性,结合产生式的消息传递机制计算对象间相互影响,推导求解分等级语义图;
第四步,使用学习得到的分等级对象语义图解译图像中的感兴趣目标,实现多类复杂目标的准确定位、轮廓提取和类型识别。
图2为本发明第二步构建分等级语义图的流程示意图,具体步骤包括:
2.1、对训练图像进行多尺度分割,其中尺度因子ε取值4,层次L取值为5,分割系数
Figure BDA0000039547270000091
取值为100,计算得到相应的尺度序列Sl以及各个图像不同层次的分割对象块数,由上到下递归处理,构建多尺度对象网络;
2.2、对每幅训练图像I对应地构建一幅分等级映射图;
2.3、对每一类目标的训练图像对应地构建一幅分等级语义图,其长度和宽度取值为
Figure BDA0000039547270000101
2.4、逐一计算各个部件对象的局部特征属性,包括7维色彩特征、128维纹理特征和1维形状特征,共计136维的特征向量;
2.5、逐一定量计算各个部件对象的空间分布信息,取网格化因子ρ为25,将图像划分为若干网格,量化对象中心,并建立原始对象向量到语义图中部件对象向量的映射,求解偏移分量。
图3为本发明第三步混合学习求解分等级语义图的流程示意图,具体步骤包括:
3.1、对分等级语义图进行近似拟合,定义相似度准则定量计算相邻对象间的空间关系,其中Potts模型中参数αg取值为50,利用高斯分布求解图像中各个对象的空间概率分布,其中高斯分布项和均匀分布项的比例系数π取值为0.9,语义图中的控制参数μ0取值为0.5;
3.2、从少量已完全标记的训练图像选取若干对象,组成初始部件对象字典,对训练图像各个层次上的对象聚类,作为初始的语义映射图;
3.3、利用得到的对象字典和映射图,利用Joint Boosting算法进行判别式学习,得到初始的位置分类器和属性分类器,以直方图的形式预测对象在图层不同位置可能出现的概率以及属于不同类别目标的概率;
3.4、使用产生式和判别式相结合的混合学习方式获取模型参数,利用位置分类器自下而上标记各个对象的预测位置,然后利用BeliefPropagation算法自上而下传递消息,采用判别式分类器的预测模拟相似度函数,并根据语义映射图与已标记的训练图像,训练更新后的属性分类器,生成新的对象字典,依次迭代100次后,得到最终的分等级语义图。
图4为本发明第四步提取识别复杂目标的流程示意图,具体步骤包括:
4.1、输入待处理图像,按照与训练相同的参数进行多尺度分割;
4.2、统计各个层次对象的138维特征向量;
4.3、使用部件对象字典中的典型对象完成映射图的构建;
4.4、依据层次性和类别标记,提取感兴趣的目标区域,并可采用图像分割、边界提取等辅助手段,实现感兴趣目标的精处理,如图5所示。
图5为使用本发明方法在多类复杂目标图像代表集上进行目标识别的例子。该图像代表集由三类场景图像组成。其中一类为Caltech-101国际标准自然场景目标数据集,该数据集定义了包括背景在内的自然/人工、动物/植物、符号/实景等102类不同的目标,每类目标大约有40至800幅图像。还有MSER国际标准自然场景目标数据集,该数据集中包含14类共240幅图像,目标在每幅图像中的视角、光线及阴影各不相同,主要用于和其它相关方法进行比较。另一类为自制的遥感地物目标数据集,该图像集中的图片均从Internet获取,图片分辨率在1米左右,包含遥感飞机、油罐、舰船等三类目标,每类目标大约由300幅图像,图像平均尺寸为300×450像素大小。由于这些数据集中均包含大量的图像,为了保证训练样本集的典型性和丰富性,选取其中的牛、人脸、舰船等五类目标组合混合数据集,每个类别包含200幅图像,其中50幅用于训练,150幅用于测试。图中分别给出了图像和识别结果的示例。

Claims (13)

1.一种基于分等级对象语义图的复杂目标自动识别方法,其特征在于,包括以下步骤:
第一步,建立多类复杂目标的图像代表集,包括:
A1、根据需要定义J个类别的复杂目标,类别编号为1~J,J为自然数;
A2、对每个目标类别,选取200幅图像作为该类目标的代表图像,其中任选50幅图像作为训练集,其余的150幅图像作为测试集;
A3、对每幅目标图像标记出目标所属类别及所在的区域范围;
A4、将所有J类目标的图像代表合并为多类目标图像代表集;
第二步,构建分等级语义图,用于描述图像场景中目标与背景的空间关系、以及目标的类别信息和结构组成,包括:
B1、对训练图像{I1,I2,...,IM}分别进行多尺度分割,构建多尺度对象网络,其中M表示训练图像数目;
B2、对每幅训练图像I对应地构建一幅分等级映射图
Figure FDA0000039547260000011
该映射图的结构、大小均和原始训练图像分割后的多尺度结构一致;
B3、对每一类目标的训练图像对应地构建一幅分等级语义图
Figure FDA0000039547260000012
该语义图的结构和原始训练图像分割后的多尺度结构一致,其宽度和高度
Figure FDA0000039547260000013
Figure FDA0000039547260000014
则远远小于训练图像的宽度和高度;
B4、逐一计算各个部件对象B的属性变量μ(B),用于描述部件对象的特征属性;
B5、逐一定量计算各个部件对象B的位置变量λ-1(B),用于描述部件对象的空间分布;
第三步,采用螺旋式的混合学习方式,将产生式和判别式的训练过程相互交叉,推导求解分等级语义图,方法是:
C1、对分等级语义图进行产生式近似拟合;
C2、初始化对象字典和语义图,从少量已完全标记的训练图像集合{I1,I2,...,IM′}中,
Figure FDA0000039547260000015
选取若干对象组成部件对象字典
Figure FDA0000039547260000016
对训练图像集合{I1,I2,...,IM′}各层次上的对象聚类,并以聚类后的结果作为初始的语义映射图集合
Figure FDA0000039547260000021
C3、利用得到的对象字典
Figure FDA0000039547260000022
和映射图集合
Figure FDA0000039547260000023
通过判别式训练得到初始的位置分类器
Figure FDA0000039547260000024
和属性分类器
Figure FDA0000039547260000025
C4、使用产生式和判别式相结合的混合学习方式获取模型参数;
第四步,使用获取的分等级对象语义图处理图像中的感兴趣目标,方法是:
D1、输入待处理图像,按照与训练相同的参数进行多尺度分割;
D2、统计各个层次对象的128维SIFT特征向量;
D3、使用部件对象字典中的对象表达图像的各个层次,完成映射图的构建;
D4、定性分析图像中各个区域的语义类别,得到图像的整体解译,或按照不同的需求目的,依据层次性和类别标记,提取感兴趣的目标区域,并采用图像分割、边界提取的辅助手段,实现感兴趣目标的精处理。
2.如权利要求1所述的方法,其特征在于,所述第二步B1中,利用指数函数定义线性尺度空间,在尺度Sl和层次l问构建关系,并计算图像各个层次的分割对象块数Kl;尺度Sl和层次l存在如下关系:
Sl=εL-l    l=1,2,...,L    (1)
其中ε为尺度因子,由此可以得到图像各个层次的分割块数Kl
Figure FDA0000039547260000026
l=1,2,...,L                     (2)
其中
Figure FDA0000039547260000027
为分割系数,Iw和Ih分别为图像长宽的像素数,
Figure FDA0000039547260000028
为上取整高斯函数;
将给定的第l层图像视为四向连接图,把Normalized-cut分割算法与每层分割对象块数Kl相关联,获取图像分割结果,从l-1层开始,依据上一层分割结果,生成新的连接图继续粗化分割,由上到下递归处理。
3.如权利要求1所述的方法,其特征在于,所述第二步B4,具体步骤如下:
(1)计算各个部件对象的灰度、RGB和HSV共7个通道的直方图,作为局部色彩特征;
(2)以LM滤波器组为基础,构建128个尺度、方向和相位各不相同的滤波器组,与图像卷积获得纹理的特征值;
(3)计算对象中心的方向能量OE,获取形状特征;
(4)将以上色彩、纹理和形状三类特征组合,形成一个136维的特征向量。
4.如权利要求3所述的方法,其特征在于,所述B4的步骤(3)中,计算形状特征的方向能量定义如下:
OE=(I·f1)2+(I·f2)2        (3)
其中f1为高斯差分滤波器,f2为f1的Hilbert变形:
f 1 ( x , y ) = d 2 dy 2 ( 1 Z exp ( y 2 σ 2 ) exp ( x 2 l 2 σ 2 ) ) f 2 ( x , y ) = Hilbert ( f 1 ( x , y ) ) - - - ( 4 )
其中,σ为尺度参数,l为方向比参数,Z为归一化常量,x和y描述图像的坐标值。
5.如权利要求1所述的方法,其特征在于,所述第二步B5,具体步骤如下:
(1)采用稀疏量化的方法,以对象外接矩形的中心作为对象中心,将训练图像划分为G个网格,用于确定各个对象中心在图像中的空间位置;
(2)以每个网格为聚类中心对对象中心量化处理,将每幅训练图像中对象的位置坐标用量化后的中心坐标和所在层次进行统计;
(3)用相同的网格化因子对映射图像进行划分,量化对象中心的位置坐标;
(4)在分等级映射图
Figure FDA0000039547260000032
中,定义三维偏移向量li=(lix,liy,liz)描述部件对象的空间信息,其中,lix和liy表示对象的中心偏移量,liz表示对象的层次偏移量;
(5)建立从图像I中原始对象向量ti到语义图中部件对象向量bi的映射:
Figure FDA0000039547260000041
其中,ti=(tix,tiy,tiz),bi=(bix,biy,biz),tix和tiy、bix和biy分别表示对象在训练图像和语义图中的中心坐标,tiz和biz分别表示对象在训练图像和语义图中的所在图层,
Figure FDA0000039547260000042
为分等级映射图的维度描述;
(6)按照如下方式求解偏移向量li
l ix = t ix - b ix l iy = t iy - b iy l iz = t iz - b iz - - - ( 6 ) .
6.如权利要求5所述的方法,其特征在于,所述B5的步骤(1)中,网格个数G的计算方法为:
Figure FDA0000039547260000044
其中,ρ为网格化因子,
Figure FDA0000039547260000045
为上取整高斯函数。
7.如权利要求1所述的方法,其特征在于,所述第三步C1,具体步骤如下:
(1)定义如下相似度准则保证相邻对象间的空间关系:
Figure FDA0000039547260000046
其中,E为对象间的关系集合,Z为归一化系数,ψ为配对价值函数,用于平滑相邻对象Bi和Bj间的特征属性,使用Potts模型进行拟合;
(2)在假设映射图和语义图中对象相互独立的前提下,利用高斯分布求解图像中各个对象的空间概率分布,并在高斯分布中加入均匀分布项:
Figure FDA0000039547260000047
其中,
Figure FDA0000039547260000051
为高斯分布项,Uniform(·)为均匀分布项,π为比例系数;
(3)对于语义图
Figure FDA0000039547260000052
中的典型对象B,在参数μ和λ上加入独立的Nomal-Gamma先验项
Figure FDA0000039547260000053
提高模型稳定性:
Figure FDA0000039547260000054
其中,μ0为控制参数;
(4)由式(8)至(10),拟合建立分等级对象语义图
Figure FDA0000039547260000055
训练图像集I1,...,Im和对应的映射图
Figure FDA0000039547260000056
之间的联合概率分布用于推导求解:
Figure FDA0000039547260000057
其中,m为训练图像集中图像数量。
8.如权利要求7所述的方法,其特征在于,所述C1的步骤(1)中,Potts模型定义为:
ψ(li,ly)=αgδ(li≠ly)    (12)
其中,αg为语义图中对象块的规模参数,在实际算法中一般固定取值为50。
9.如权利要求7所述的方法,其特征在于,所述C1的步骤(2)中,遍历图像中的所有对象,以
Figure FDA0000039547260000058
为模求解;处理彩色多通道图像时,对每个通道分别求解,获得向量(Ii,μ(ti-li),λ(ti-li)),其中通道的数量即为对应的维度空间;在实验中,一般固定比例系数π=0.9。
10.如权利要求7所述的方法,其特征在于,所述C1的步骤(3)中,
在实验中,为了方便求解,一般固定控制参数μ0=0.5。
11.如权利要求1所述的方法,其特征在于,所述第三步C3,方法是:
(1)对于每一个输入的对象样本,在对象所在区域中计算局部梯度方向直方图得到SIFT特征,该SIFT特征为一个128维的特征向量ci
(2)获得所有样本训练集(c1,y1,y′1..,(cN,yN,y′N),yi为对象在映射图中的坐标位置,yi共有G个选择,y′i为对象的类别标记;
(3)利用Joint Boosting算法训练得到位置分类器
Figure FDA0000039547260000061
和属性分类器
Figure FDA0000039547260000062
以直方图的形式预测对象在图层不同位置出现的概率及属于不同类别目标的概率。
12.如权利要求1所述的方法,其特征在于,所述第三步C4,具体步骤如下,当i=1,2,...,N时:
(1)利用位置分类器自下而上标记各个对象的预测位置;
(2)利用Belief Propagation算法自上而下传递消息,最大程度地模拟对象间相互作用的过程,定义mij(lj)代表从对象Bi传递到对象和Bj的消息,该消息为与lj长度相同的向量,基于已知的Bi状态来决定Bj状态的可能性:
m ij ( l i ) = max l i ( φ i ( l i ) ψ ij ( l i , l j ) Π k ∈ N i \ { j } m ki ( l i ) ) - - - ( 13 )
其中,φi(li)为二值价值函数,用于描述每个像素标记状态的先验分布;
(3)将判别式分类器的预测作为传递消息的掩膜,模拟相似度函数
Figure FDA0000039547260000064
使得自下而上的判别式分类器最大可能地拟合产生式消息,而自上而下的消息推论在判别式分类器的辅助下,效率和精度得到增加,求解式(11),更新得到训练集中所有图像的语义映射图
(4)根据语义映射图与已标记的训练图像,训练更新后的属性分类器
Figure FDA0000039547260000066
生成新的对象字典
Figure FDA0000039547260000067
并得到更新后的分等级语义图
Figure FDA0000039547260000068
(5)根据更新后的对象字典和语义映射图,得到更新后的位置分类器
Figure FDA0000039547260000071
(6)重复步骤(1)至(5),直至完成迭代,在流程的每一次循环后,分类器和基元的精度不断的提高,得到最终的分等级语义图
Figure FDA0000039547260000072
13.如权利要求12所述的方法,其特征在于,所述C4的步骤(6),在实验中,综合考虑训练效率和分类精度,迭代次数N一般取值为50至200次。
CN 201010597797 2010-12-21 2010-12-21 基于分等级对象语义图的复杂目标自动识别方法 Expired - Fee Related CN102542302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010597797 CN102542302B (zh) 2010-12-21 2010-12-21 基于分等级对象语义图的复杂目标自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010597797 CN102542302B (zh) 2010-12-21 2010-12-21 基于分等级对象语义图的复杂目标自动识别方法

Publications (2)

Publication Number Publication Date
CN102542302A true CN102542302A (zh) 2012-07-04
CN102542302B CN102542302B (zh) 2013-08-14

Family

ID=46349152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010597797 Expired - Fee Related CN102542302B (zh) 2010-12-21 2010-12-21 基于分等级对象语义图的复杂目标自动识别方法

Country Status (1)

Country Link
CN (1) CN102542302B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198333A (zh) * 2013-04-15 2013-07-10 中国科学院电子学研究所 一种高分辨率遥感图像自动语义标记方法
CN104123709A (zh) * 2013-04-23 2014-10-29 中国科学院沈阳自动化研究所 一种基于字典选择的关键帧提取方法
CN104769578A (zh) * 2012-11-09 2015-07-08 加州理工学院 自动特征分析、比较和异常检测
CN104809187A (zh) * 2015-04-20 2015-07-29 南京邮电大学 一种基于rgb-d数据的室内场景语义标注方法
CN105354826A (zh) * 2015-10-04 2016-02-24 北京航空航天大学 一种图像对象共定位及无关样本判定方法
CN105488183A (zh) * 2015-12-01 2016-04-13 北京邮电大学世纪学院 挖掘石窟壁画群中石窟壁画时空关联关系的方法和装置
CN105809671A (zh) * 2016-03-02 2016-07-27 无锡北邮感知技术产业研究院有限公司 前景区域标注与深度次序推理的联合学习方法
CN106383888A (zh) * 2016-09-22 2017-02-08 深圳市唯特视科技有限公司 一种利用图片检索定位导航的方法
CN107730514A (zh) * 2017-09-29 2018-02-23 北京奇虎科技有限公司 场景分割网络训练方法、装置、计算设备及存储介质
CN108256434A (zh) * 2017-12-25 2018-07-06 西安电子科技大学 基于混淆矩阵的高层语义视频行为识别方法
CN108805172A (zh) * 2018-05-08 2018-11-13 重庆瑞景信息科技有限公司 一种面向对象的图像效能盲评价方法
CN109478056A (zh) * 2016-03-01 2019-03-15 源讯网源公司 用于分布式网格网络的智能节点
CN110059194A (zh) * 2019-03-01 2019-07-26 中国科学院信息工程研究所 一种融合表示学习和分治策略的大规模本体合并方法
CN110672628A (zh) * 2019-09-27 2020-01-10 中国科学院自动化研究所 板材包边接缝定位方法、系统、装置
CN111323029A (zh) * 2018-12-16 2020-06-23 北京初速度科技有限公司 导航方法及车载终端
CN111323004A (zh) * 2018-12-16 2020-06-23 北京初速度科技有限公司 初始位置的确定方法及车载终端
CN112053362A (zh) * 2020-07-14 2020-12-08 北京百度网讯科技有限公司 图像分割方法、装置、电子设备及存储介质
CN112200303A (zh) * 2020-09-28 2021-01-08 杭州飞步科技有限公司 基于上下文相关编码器的激光雷达点云3d目标检测方法
CN114742967A (zh) * 2022-05-13 2022-07-12 盈嘉互联(北京)科技有限公司 一种基于建筑数字孪生语义图的视觉定位方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030234798A1 (en) * 2002-06-21 2003-12-25 Viresh Ratnakar Semantic downscaling and cropping (SEDOC) of digital images
CN101373518A (zh) * 2008-06-28 2009-02-25 合肥工业大学 图像理解中基于语义信息原型向量构成及序参量重构方法
CN101389004A (zh) * 2007-09-13 2009-03-18 中国科学院自动化研究所 一种基于在线学习的运动目标分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030234798A1 (en) * 2002-06-21 2003-12-25 Viresh Ratnakar Semantic downscaling and cropping (SEDOC) of digital images
CN101389004A (zh) * 2007-09-13 2009-03-18 中国科学院自动化研究所 一种基于在线学习的运动目标分类方法
CN101373518A (zh) * 2008-06-28 2009-02-25 合肥工业大学 图像理解中基于语义信息原型向量构成及序参量重构方法

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104769578A (zh) * 2012-11-09 2015-07-08 加州理工学院 自动特征分析、比较和异常检测
CN103198333B (zh) * 2013-04-15 2016-01-20 中国科学院电子学研究所 一种高分辨率遥感图像自动语义标记方法
CN103198333A (zh) * 2013-04-15 2013-07-10 中国科学院电子学研究所 一种高分辨率遥感图像自动语义标记方法
CN104123709A (zh) * 2013-04-23 2014-10-29 中国科学院沈阳自动化研究所 一种基于字典选择的关键帧提取方法
CN104809187B (zh) * 2015-04-20 2017-11-21 南京邮电大学 一种基于rgb‑d数据的室内场景语义标注方法
CN104809187A (zh) * 2015-04-20 2015-07-29 南京邮电大学 一种基于rgb-d数据的室内场景语义标注方法
CN105354826A (zh) * 2015-10-04 2016-02-24 北京航空航天大学 一种图像对象共定位及无关样本判定方法
CN105354826B (zh) * 2015-10-04 2017-12-15 北京航空航天大学 一种图像对象共定位及无关样本判定方法
CN105488183A (zh) * 2015-12-01 2016-04-13 北京邮电大学世纪学院 挖掘石窟壁画群中石窟壁画时空关联关系的方法和装置
CN105488183B (zh) * 2015-12-01 2018-12-04 北京邮电大学世纪学院 挖掘石窟壁画群中石窟壁画时空关联关系的方法和装置
CN109478056A (zh) * 2016-03-01 2019-03-15 源讯网源公司 用于分布式网格网络的智能节点
CN105809671A (zh) * 2016-03-02 2016-07-27 无锡北邮感知技术产业研究院有限公司 前景区域标注与深度次序推理的联合学习方法
CN105809671B (zh) * 2016-03-02 2018-10-16 无锡北邮感知技术产业研究院有限公司 前景区域标注与深度次序推理的联合学习方法
CN106383888A (zh) * 2016-09-22 2017-02-08 深圳市唯特视科技有限公司 一种利用图片检索定位导航的方法
CN107730514A (zh) * 2017-09-29 2018-02-23 北京奇虎科技有限公司 场景分割网络训练方法、装置、计算设备及存储介质
CN107730514B (zh) * 2017-09-29 2021-02-12 北京奇宝科技有限公司 场景分割网络训练方法、装置、计算设备及存储介质
CN108256434A (zh) * 2017-12-25 2018-07-06 西安电子科技大学 基于混淆矩阵的高层语义视频行为识别方法
CN108256434B (zh) * 2017-12-25 2021-09-28 西安电子科技大学 基于混淆矩阵的高层语义视频行为识别方法
CN108805172A (zh) * 2018-05-08 2018-11-13 重庆瑞景信息科技有限公司 一种面向对象的图像效能盲评价方法
CN111323029A (zh) * 2018-12-16 2020-06-23 北京初速度科技有限公司 导航方法及车载终端
CN111323004A (zh) * 2018-12-16 2020-06-23 北京初速度科技有限公司 初始位置的确定方法及车载终端
CN111323004B (zh) * 2018-12-16 2022-05-13 北京魔门塔科技有限公司 初始位置的确定方法及车载终端
CN111323029B (zh) * 2018-12-16 2022-05-27 北京魔门塔科技有限公司 导航方法及车载终端
CN110059194A (zh) * 2019-03-01 2019-07-26 中国科学院信息工程研究所 一种融合表示学习和分治策略的大规模本体合并方法
CN110672628A (zh) * 2019-09-27 2020-01-10 中国科学院自动化研究所 板材包边接缝定位方法、系统、装置
CN112053362A (zh) * 2020-07-14 2020-12-08 北京百度网讯科技有限公司 图像分割方法、装置、电子设备及存储介质
CN112053362B (zh) * 2020-07-14 2024-02-06 北京百度网讯科技有限公司 图像分割方法、装置、电子设备及存储介质
CN112200303A (zh) * 2020-09-28 2021-01-08 杭州飞步科技有限公司 基于上下文相关编码器的激光雷达点云3d目标检测方法
CN112200303B (zh) * 2020-09-28 2022-10-21 杭州飞步科技有限公司 基于上下文相关编码器的激光雷达点云3d目标检测方法
CN114742967A (zh) * 2022-05-13 2022-07-12 盈嘉互联(北京)科技有限公司 一种基于建筑数字孪生语义图的视觉定位方法及装置

Also Published As

Publication number Publication date
CN102542302B (zh) 2013-08-14

Similar Documents

Publication Publication Date Title
CN102542302A (zh) 基于分等级对象语义图的复杂目标自动识别方法
CN111461258B (zh) 耦合卷积神经网络和图卷积网络的遥感影像场景分类方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN111612807B (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN106909902B (zh) 一种基于改进的层次化显著模型的遥感目标检测方法
CN112949647B (zh) 三维场景描述方法、装置、电子设备和存储介质
CN109743642B (zh) 基于分层循环神经网络的视频摘要生成方法
CN109409240A (zh) 一种结合随机游走的SegNet遥感图像语义分割方法
CN112950780B (zh) 一种基于遥感影像的网络地图智能生成方法及系统
CN114999637B (zh) 多角度编码与嵌入式互学习的病理图像诊断方法与系统
CN105931241A (zh) 一种自然场景图像的自动标注方法
CN113269224A (zh) 一种场景图像分类方法、系统及存储介质
CN114187506B (zh) 视点意识的动态路由胶囊网络的遥感图像场景分类方法
CN117152427A (zh) 基于扩散模型和知识蒸馏的遥感图像语义分割方法与系统
CN107292268A (zh) 快速脊波反卷积结构学习模型的sar图像语义分割方法
CN102609721B (zh) 遥感影像的聚类方法
Meng et al. Merged region based image retrieval
Goswami et al. Multi-faceted hierarchical image segmentation taxonomy (MFHIST)
Jia et al. A multi-style interior floor plan design approach based on generative adversarial networks
CN115937220A (zh) 一种基于双向门控记忆网络的交互式三维医学图像分割方法
CN108154107A (zh) 一种确定遥感图像归属的场景类别的方法
Zhang et al. A Segmentation Model for Extracting Farmland and Woodland from Remote Sensing Image
Liu et al. 3d point cloud classification based on discrete conditional random field
Briouya et al. Exploration of image and 3D data segmentation methods: an exhaustive survey

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130814

Termination date: 20181221

CF01 Termination of patent right due to non-payment of annual fee