发明内容
本发明的目的在于提供一种基于对象语义树模型的遥感人造地物目标识别方法,以解决如何综合利用图像空间结构和目标类别语义信息来进行高分辨率遥感图像中人造地物目标的自动识别。
为实现上述目的,本发明提供的基于对象语义树模型的遥感人造地物目标识别方法,首先通过多尺度分割,获取图像的语义树结构,并采用隐含语义对象作为树结点,以概率直方图的形式表达对象内包含的隐含特征和语义规律;然后将树结构转化为有向无环图,通过匹配学习的方式提取同类目标间的共有最大子树;最终由这些子树组建构成目标的语义树,用于抽象描述目标的特征和属性,进而完成目标的识别和提取。本发明克服了现有高分辨率遥感图像中人造地物目标识别方法中存在的误检和漏检问题,提高了识别的准确性和智能性,减少了人工参与的程度,能够满足复杂结构目标的识别和图像解译需求。
本发明的技术方案如下:
第一步,建立高分辨率遥感地物目标代表图像集。方法是:
1.1、根据需要定义J个遥感地物目标类别,类别编号为1~J,J为自然数;
1.2、对每个遥感地物目标类别,选取多幅(比如200幅)图像作为该类目标的代表图像;
1.3、对每幅遥感地物目标代表图像进行标绘,标记出目标所在的区域范围;
1.4、将所有J类目标的代表图像合并为高分辨率遥感地物目标代表图像集;
第二步,对高分辨率遥感地物目标代表图像集中的图像采用多尺度方法进行分割,得到每幅图像的对象树,具体方法如下:
2.1、利用指数函数定义线性尺度空间,在尺度Sl和层次l间构建关系,并计算图像各个层次的分割对象块数Kl;
2.2、将给定的第l层图像视为四向连接图,把Normalized-cut分割算法与每层分割对象块数Kl相关联,获取图像分割结果,从l-1层开始,依据上一层分割结果,生成新的连接图继续粗化分割,由上到下递归处理构建对象分割树;
第三步,采用LDA(Latent Dirichlet Allocation)方法对对象树中每一个结点建模,计算树结点对象内包含的隐含类别语义特征,具体方法如下;
3.1、对于分割树中的每一个结点对象,在对象所在区域中计算局部梯度方向直方图得到SIFT特征,该SIFT特征为一个128维的特征向量;
3.2、使用K-Means聚类方法对代表集中所有图像各个层次上的SIFT特征进行量化,每个聚类中心的取值对应一个视觉单词,构成通用视觉词汇表,可通过改变聚类中心个数调整单词个数N,一般N取值为500至3000之间;
3.3、对分割树中的每一个结点对象进行视觉单词映射描述,应用LDA分析方法对每一个结点对象构建模型,求解模型参数后计算得到每一个结点对象内包含的隐含主题类别概率分布,具体包括以下步骤:
3.3.1、约定映射关系,即令特征描述子对应视觉单词w,为N个单词集合中的一项,结点对象对应文档D,由M个单词序列D={w1,w2,..,wM}组成;
3.3.2、随机生成一个1×k的向量θ,该向量服从Dirichlet分布,k为主题个数,选择主题zn服从多项式分布,选择单词wn的分布p(wn|zn,β)为主题zn的多项式条件分布,单词的概率参数β为k×N矩阵,其中βij=p(wj=1|zi=1);
3.3.3、获取结点对象中主题Z、N个单词w及混合参数θ的联合分布,通过变分EM的方法求解LDA模型中控制参数(α,β)的解,其中α反映了图像集合中隐含主题间的相对强弱,β刻画所有隐含主题自身的概率分布;
3.4、解得模型参数后,得到每一个对象包含各个类别主题的概率分布,以类别直方图的形式表示;
第四步,获取代表集中所有图像的对象树集合
对每一对对象树
进行匹配学习,从中提取出共有最大子树,具体方法如下:
4.1、优化分割对象树,考察每个树中的每一对相邻结点,当其满足合并条件时,将两个结点合并为一个结点,以父对象结点的形式插入到待合并区域的上一级,将树结构转换为有向无环图的形式;
4.2、在每个有向无环图的上下级结点中添加新边,构建传递闭包(Transitive Closure),实现结点间和子结点间的匹配;
4.3、将所有分割树
转换而成的有向无环图逐个配对,使用编辑距离操作计算相似匹配度,所有编辑操作的代价总和相加,得到两个有向无环图的最终相似度量;对于J幅遥感地物目标代表图像,共计获得J(J-1)个树对用于计算子树的相似度,当相似度大于相似阈值th
simi时,认为该子树是体现目标共有子目标或部件的区域,建议取th
simi值为0.5;
第五步,采用逐步添加法将所有最大共有子树组合在一起,形成描述目标类别的对象语义树,具体方法如下:
5.1、给定子树t和t′,组合树为
其中ε
1=ε(τ,t),ε
2=ε(τ,t′),依次从
中选取一个新的子树t,与已有的组合树
相匹配,形成新的组合树
5.2、对于树结点
的区域属性ψ
v,记录之前各轮迭代中结点
的区域属性值的集合{ψ
v′},然后取ψ
v为集合中所有属性的均值;
5.3、由于取出子树顺序的不同会影响组合结果的不同,随机选定三种组合顺序,计算组合树的匹配熵,选取匹配熵最小值所对应的结果为目标类别最终的对象语义树;
第六步,根据对象语义树对人造地物目标进行识别:按照本发明第二、三步所述获得待识别图像的对象树结构,从该对象树中自上而下选取子树t1,t2,...tL,提交给对象语义树模型,获得各个子树的匹配相似度s1,s2,...sL,选取最优相似sbest=arg maxssl对应的子树即为目标所在的结构,还原对应的对象结点,即可得到目标的所在区域。
所述的方法,其所述步骤2.1中的尺度Sl和层次l存在如下关系:
Sl=μL-l l=1,2,...,L (1)
其中μ为尺度因子,由此可以得到图像各个层次的分割块数Kl:
其中
为分割系数,I
w和I
h分别为图像长宽的像素数,
为上取整高斯函数。
所述的方法,其所述步骤2.2在计算分割结果时,首先将图像视为一个四向连接图G=(V,E),V为代表像素的结点集,E为相邻结点的连接边集,然后按照分割数Kl,利用Normalized-cut算法求解分割:
其中,A和B为互不相交,且满足A∪B=V和
w(i,j)为A与B之间所有边对应的权值。
所述的方法,其所述步骤2中,图像中L个层次的尺度序列以尺度因子μ逐层递减,为了保证树结构节点的丰富性,一般取μ≥3。
所述的方法,其所述步骤3.3.3在求解参数时,可以获得结点对象中主题Z、N个单词w及混合参数θ的联合分布:
由于无法直接求解,通过变分近似推断的方法对数似然下界进行文档集的求和,具体方法为:
定义一个变分的近似分布
且参数为
定义分布表达式
作为p(θ,z|w,α,β)的后验概率分布,其中γ是Dirichlet参数,
为多项式分布参数,可以得到
的最优解:
其中,Ψ(x)代表Γ函数对数的一阶导数的Taylor近似;通过对βij求导和Newton-Raphson优化,计算得到:
其中H(α)为Hessian矩阵,g(α)为梯度矩阵;
迭代公式5、6,直至参数(α,β)稳定后得到模型参数的最优解。
所述的方法,其所述步骤4.1中,对于任意两个结点R1和R2,当且仅当满足三个合并条件时,可以合并为一个结点。这三个合并条件分别是:R1和R2位于同一尺度级别中;R1和R2属于同一父对象,且两者边界相邻;R1和R2的属性向量c1和c2满足:DKL(c1||c2)<thmerge,其中,DKL为KL散度,thmerge为合并阈值,建议thmerge取值为0.2。
所述的方法,其所述步骤4.3在计算相似匹配度时,对于给定的两个有向无环图t=(V,E,Ψ)和t′=(V′,E′,Ψ′),通过最大化相似度量S
tt′,寻找满足要求的同构子树t
iso:U→U ′,其中,V和E为对象结点和边界的集合,Ψ为结点特征属性ψ
v的向量,
相似度S
tt′的定义如下:
其中,显著性代价ev和编辑代价mvv′分别为:
其中,ξ为权重因子的向量,且有||ξ||=1,ξ≥0;
公式(7)的求解等价于在相关图中寻找描述以u和u′为根结点的有向无环图中最大权重簇Auu′=(VA,EA,S)的过程。依据Motzkin-Straus定理,将最大簇问题转化为连续二次方程的问题,并得到最优解。
所述的方法,其所述步骤5.3中依据的匹配熵为:
本发明在基于对象的框架下引入对象语义树模型,利用树结构对图像整体建模,分析对象间存在的语义关联,更够挖掘更多图像中隐含的特征信息;采用匹配学习提取同类目标间的共有最大子树,能够抽象概括目标中包含的各个子类别或部件,并以递归的形式表现子类别或部件间的隶属结构,提高对目标整体结构和类别语义信息的表达精度;同时,整个学习过程中所需的样本图像无需人工标注,并可应用于小规模的训练图像集,具有更高的鲁棒性和适用性。本发明能有效提取绝大多数高分辨率遥感图像下的人造地物目标,在地理信息系统和数字地球系统建设中具有一定的实用价值。
具体实施方式
以下结合实施例和附图对本发明进一步说明。
图1为本发明基于对象语义树模型的人造地物目标识别方法的流程示意图,具体步骤包括:
第一步,建立高分辨率遥感地物目标代表图像集:
遥感人造地物目标数据集中的图片从Internet获取。这些图片的分辨率在1米左右。数据集中包括飞机、油罐、舰船、体育场、航空母舰、建筑物、道路、植被等八类目标,每类都由200幅图像组成。图像的平均尺寸为大约300×300和300×450像素大小两种。如图3所示。
制作数据集图像时,需要标记出不同图像的实际地物类别(GroundTruth)。标记过程中采用的是半自动标绘方式,利用Label Me等交互式标记工具将交互与自动整合在一起,以计算机的自动处理能力帮助处理标记数据。
对于每类目标图像,取其中的50幅用于训练,150幅用于测试。
第二步,对训练图像进行多尺度分割:
2.1、设定分割参数,其中尺度因子μ取值4,层次L取值为5,分割系数取值为100,可以计算得到相应的尺度序列Sl:
Sl=45-l l=1,2,...,5 (10)
以及各个图像不同层次的分割对象块数:
其中I
w和I
h分别为图像长度和高度的像素数,
为上取整高斯函数;
2.2、利用Normalized-cut算法对各个训练图像按照给定的尺度和分割块数进行分割。分割过程是自上而下递归进行的。将给定的第l层图像视为一个四向连接图,把Normalized-cut分割算法与尺度空间下每一层的分割对象块数Kl相关联,获取对图像的一个分割结果。从l-1层开始,依据上一层次的分割结果,重新计算对象块的灰度、纹理等属性,并生成新的连接图继续粗化分割。分割完成后,在得到的不同层次对象间建立上下关联,得到每幅图像的对象树。
第三步,统计对象树各个结点的隐含语义:
3.1、以每个结点对象中心为采样点,通过计算该采样点的局部梯度方向直方图,得到该结点对象的128维SIFT特征向量;
3.2、对所有图像各个层次上提取的SIFT特征进行K-Means聚类量化,聚类中心个数取值为2000,得到通用视觉词汇表;
3.3、应用LDA分析方法对每一个结点对象构建模型,对图像集进行“文档/字”描述,获取算法的数据项,主题个数k取值为20,初始化模型的参数(α,β)后推断其中每幅图像的变分参数
及对数似然,再利用变分参数
来分别更新模型的参数α和β,依此迭代直至参数(α,β)稳定后得到模型参数的最优解,如图2所示;
3.4、对每一个对象,通过变分近似推断方法计算每个对象结点的参数(α,β)和每个对象的(θ,z)的后验概率,能够描述每一个结点对象内包含的隐含主题类别概率分布,可以得到包含各个主题的概率分布,例如,事先定义了20个不同的类别,相当于20个主题,那么可以得到一个20维的概率向量,以类别直方图的形式表示,作为结点的属性描述,图4显示了取参数为L=5,μ=4,k=20时,部分对象树的结果及部分隐含语义对象的表达。
第四步,提取共有最大对象子树:
4.1、对分割对象树进行优化,当树中每对相邻结点满足合并条件时,合并为一个结点,将树结构转换为有向无环图的形式,合并阈值thmerge取值为0.2;
4.2、在每个有向无环图中添加新边,构建传递闭包;
4.3、将所有的有向无环图逐个配对,使用编辑距离操作计算相似匹配度,所有编辑操作的代价总和相加,得到两个有向无环图的最终相似度量;对于J幅遥感地物目标代表图像,共计获得J(J-1)个树对用于计算子树的相似度,当相似度大于相似阈值thsimi时,认为该子树是体现目标共有子目标或部件的区域,其中thsimi值为0.5。
第五步,采用逐步添加法组合所有的最大共有子树,随机选定三种子树组合的不同顺序,选取匹配熵最小值的为目标类别最终的对象语义树,如图4所示,在组合的过程中,需保持结点间的上下级关系,取合并后新结点的属性值为合并前所有结点属性的均值。
第六步,对待识别的图像,先按照本发明之前所述获得对象树结构,并统计结点特征属性;从该对象树中自上而下选取子树,提交给对象语义树模型,获得各个子树的匹配相似度,选取最优相似对应的子树即为目标所在的结构,还原对应的对象结点,即可得到目标的所在区域,如图5所示。
对于所有待识别的图像,比较预测得到的目标类别及区域,和人工标注得到的目标类别及区域,得到识别检测率、准确率和分割错误率,通过重复上述步骤五次,得到识别检测率、准确率和分割错误率的平均值,如表1所示。
表1