CN101373518A

CN101373518A - 图像理解中基于语义信息原型向量构成及序参量重构方法

Info

Publication number: CN101373518A
Application number: CNA2008100223752A
Authority: CN
Inventors: 高隽; 谢昭; 张旭东; 吴克伟; 冯文刚
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2008-06-28
Filing date: 2008-06-28
Publication date: 2009-02-25

Abstract

本发明提供一种图像理解中基于语义信息原型向量构成及序参量重构方法，包括以下步骤：1.场景和目标语义信息的原型向量表示；2.场景与目标原型向量的结构表示；3.场景与目标原型向量的约简处理；4.场景和目标的序参量重构。本发明基于协同学和协同模式识别原理，对图像中场景及目标的特征提取及重构，对场景和场景中目标进行加入语义信息的特征描述以达到识别的图像目的，计算复杂度低、学习能力强、识别效率高、算法鲁棒性较强。

Description

图像理解中基于语义信息原型向量构成及序参量重构方法

技术领域

本发明涉及图像理解、计算机视觉和协同学领域，特别是一种图像理解中基于语义信息原型向量构成及序参量重构方法。

背景技术

图像理解的直观任务就是利用计算机对输入场景及其目标区域进行建模、计算、分析和推理，形成完整的简单的文字或图像图形化标记的输出过程，让计算机识别判断场景中有什么物体，在什么位置，目标间的关系是什么等等，解决基本的“what-where”问题，而场景和目标的信息表示方法是研究各种算法的前提和基础。近年来计算机视觉技术发展迅速，针对层出不穷的分类思想的学习判别方法及算法，通常预先对场景及其目标进行认知概念和类别划分，形成不同的模式信息对应下的语义概念，再通过学习得到相关的模式识别结果，为图像理解奠定了基础，但这些语义概念仅面向计算机的，缺乏人的认知信息，因此产生的结果不具备智能的理解描述能力，而仅仅是归属类别的判断，而且语义信息非常有限，更缺乏语义间的关系描述。

语义化标记描述是数据与知识之间的转换过程，常用的标记方法通过低层处理进行区域分割和线提取特性测量，形成区域线及其图像特征中层数据库，数据和知识的转化和融合就是形成中层数据库的过程。规则表示前件为区域的若干特征数据，规则后件则是理解的标记描述，通常为若干名词描述，标记的过程即是对规则的推理过程，只有事实库中的内容与规则的条件相匹配时，才能激活这条规则，当激活多条规则时，按解决冲突的策略只选择其中一条。规则的刚性特性导致了其自身的局限性，随语义信息规模呈指数增长的规则个数，其存储和处理能力都是NP问题。

总之，现有的图像理解方法受场景和目标信息存储和表示的制约，存在计算复杂度高、自学习能力弱、鲁棒性不强、收敛缓慢等不足之处，尤其是缺乏语义信息及其关系的结构描述，无法形成有效的先验知识指导计算机对场景及其目标进行合理准确的识别和理解。

发明内容

本发明的目的在于提供图像理解中基于语义信息原型向量构成及序参量重构方法，在图像理解中产生融合广泛语义信息的协同学原型向量表示，在其基础上进行有效知识约简和序参量重构，有利于进行知识指导下的图像理解。

本发明的技术方案如下：

一种图像理解中基于语义信息原型向量构成及序参量重构方法，其特征在于：它包括以下步骤：

(1)场景和目标语义信息的原型向量表示；

(2)场景与目标原型向量的结构表示；

(3)场景与目标原型向量的约简处理；

(4)场景和目标的序参量重构。

所述的一种图像理解中基于语义信息原型向量构成及序参量重构方法，其特征在于：步骤(1)中，图像理解中场景和目标的原型向量可表示为v_k＝{v_ks，v_kd}，其中v_ks是编码表示的场景和目标的语义描述向量作为先验信息，v_kd则是场景和目标的特征描述向量；特征描述向量v_kd包括场景和目标中颜色、纹理、形状以及空间关系等视觉信息，各个特征描述向量之间具有编组特性，在不同环境中其图像的特征显著性也不相同，体现了特征描述向量表示的层次性；原型向量中的语义描述向量v_ks的编码特性体现了图像理解中对场景的描述和目标识别的指导，目标间的空间关系及目标本身的特性等先验信息可促进场景分类；同样场景类别的先验知识可以驱动场景中目标识别。

所述的一种图像理解中基于语义信息原型向量构成及序参量重构方法，其特征在于：步骤(2)中，包含语义描述向量v_ks的原型向量具有认知上的逻辑蕴含关系，对场景和目标的原型向量进行编码，对编码关联形成复杂的树状网络结构，网络的同层分支形成logN位的编码信息，N为分支个数，网络节点就是该节点与根结点路径上所有表示信息的融合叠加，所述的树状网络结构包含逻辑意义上的继承和延续关系，形成新的语义描述向量

替换原型向量中的v_ks，形成包含树状网络结构信息的原型向量。

所述的一种图像理解中基于语义信息原型向量构成及序参量重构方法，其特征在于：步骤(3)中，融合场景和目标结构关系的语义描述向量

和特征描述向量v_kd，形成图像理解中v_kd→v_ks′组成的先验知识库，采用粗糙集方法对先验知识库进行约简，将具有树状网络结构表示的原型向量蕴含的所述的先验知识库视为信息系统S＝<U，R，V，f>，U表示论域；

R = C (v_{kd}) \cup D (v_{ks}^{'})

表示属性集合，其中C表示特征向量v_kd多维空间中的属性集合，D表示语义描述的目标决策属性；

V = {v_{ks}^{'}, v_{kd}}

表示属性取值；f表示二维信息表的映射函数；通过引入目标集合关系中如式(1)、(2)的上下近似概念，分析论域规则对象归属决策属性的不确定性描述，对关系r∈C(v_kd)在满足IND(C(v_kd)-{r})＝IND(C(v_kd))分类不变的情况下，寻找特征属性核集CORE＝∩RED(C(v_kd))，完成最终约简，由v_kd得到v_kd′，避免传统融合过程中出现的若干问题，得到合理的知识规则库，则：

R_(X) = \cup {{[x]}_{C (v_{kd})} &Element; U / D (v_{ks}') | {[x]}_{R} &SubsetEqual; X} - - - (1)

由此得到原型向量的最终表示为

v_{k}^{'} = {v_{ks}^{'}, v_{kd}^{'}} .

所述的一种图像理解中基于语义信息原型向量构成及序参量重构方法，其特征在于：步骤(4)中，由所述包含树状网络结构语义描述的原型向量产生相应的序参量，序参量代表输入模式对原型模式的系数，输入模式与原型模式越接近，系数越大，序参量可视为若干特征比较下的综合评价，在线性变换中，由相关定理可知是矩阵T对应于特征值γ_k的特征向量，矩阵V＝(v₁，v₂，…，v_m)，V是由各个原型模式构成的原型模式矩阵，在线性变换中，由相关定理可知

是矩阵T对应于特征值γ_k的特征向量，其中，T＝VΓV⁺，Γ＝diag(γ₁，γ₂，...，γ_M)，因此可以建立新的序参量，对待识别模式q的线性变换实际改变了各模式序参量间的比例关系，提供了控制序参量行为的一种途径，在此修正下，令

\tilde{q} = Tq, \tilde{ξ_{k}} (v_{k}^{' +}, Tq)

得到的动力学方程同原来的形式完全一样；变换T的构造通常与q0相关，q0为q在时间序列0时的状态，主要依赖于Γ的构造，序参量所表达的输入状态和原型状态的投影距离即相似程度，可重新定义序参量。

与其他图像理解方法的信息表示相比，本发明提出的图像理解信息表示方法以协同学的相关概念为基础，具有以下不同之处：

●在图像理解中产生融合广泛语义信息的协同学原型向量表示；

●形成场景和目标语义原型向量的树状结构表示，蕴含语义实体的各种关系；

●构造网络结构的语义原型向量的约简处理方法和策略，克服规则刚性；

●完成图像理解中新构原型向量下的协同学序参量重构。

本发明优点：将图像理解中场景和目标的语义及其之间的关联信息融入原型向量形成先验知识，在其基础上进行有效知识约简和序参量重构，有利于进行知识指导下的图像理解。

附图说明

图1是本发明图像理解中基于语义信息原型向量构成及序参量重构方法的处理流程示意图。

具体实施方案

下面结合附图和具体实施方式对本发明作进一步描述。

1、场景和目标语义信息的原型向量表示

图像理解中场景和目标的原型向量可表示为v_k＝{v_ks，v_kd}，其中v_ks是编码表示的场景和目标的语义描述向量作为先验信息，v_kd则是场景和目标的特征描述向量；特征描述向量v_kd包括场景和目标中颜色、纹理、形状以及空间关系等视觉信息，各个特征描述向量之间具有编组特性，在不同环境中其图像的特征显著性也不相同，体现了向量表示的层次性；原型向量中的语义描述向量v_ks的编码特性体现了图像理解中对场景的描述和目标识别的指导。目标间的空间关系及目标本身的特性等先验信息可促进场景分类；同样场景类别的先验知识可以驱动场景中目标识别。

原型向量不仅包含特征描述向量的数据特征信息，而且具有场景或目标类别的先验知识的语义信息，体现对场景描述、场景中目标识别的指导。在原型向量包含语义的前提下，选择原型向量的方法需要融入编码选择机制，保证语义信息的最大区分度，并可同时处理原型向量中的语义知识和数据特征信息。

2、场景与目标原型向量的结构表示

包含语义描述的原型向量具有认知上的逻辑蕴含关系，场景和目标间的原型向量通过编码关联形成复杂的树状网络结构，网络的同层分支形成logN位的编码信息，N为分支个数，网络节点就是该节点与根结点路径上所有表示信息的融合叠加，树状网络结构包含逻辑意义上的继承和延续关系，形成新的语义描述向量

3、场景与目标原型向量的约简处理

7.融合场景和目标结构关系的语义描述向量

R = C (v_{kd}) \cup D (v_{ks}^{'})

表示属性集合，其中C表示特征向量v_kd多维空间中的属性集合，D表示

语义描述的目标决策属性；

V = {v_{ks}^{'}, v_{kd}}

R_(X) = \cup {{[x]}_{C (v_{kd})} &Element; U / D (v_{ks}') | {[x]}_{R} &SubsetEqual; X} - - - (1)

由此得到原型向量的最终表示为

v_{k}^{'} = {v_{ks}^{'}, v_{kd}^{'}} .

4、场景和目标的序参量重构

由上述包含树状网络结构语义描述的原型向量产生相应的序参量，其计算如公式(3)所示：

ξ_{k} = v_{k}^{' +} q = v_{k}^{' +} Σ_{k = 1}^{M} ξ_{k} v_{k}^{'} = ξ_{k} Σ_{k = 1}^{M} v_{k}^{' +} v_{k}^{'},

ξ_{k} (0) = v_{k}^{' +} q (0) - - - (3)

式(3)中，原型向量

为原型向量的伴随向量，待识别模式q为输入的场景或目标的特征，序参量描述为最小二乘条件下q在

上的投影，序参量代表待识别模式对原型向量的系数，待识别模式越接近原型向量，系数越大，序参量可视为若干特征比较下的综合评价。

在模式识别的协同方法中，假定各原型向量线性无关，令矩阵V＝(v₁，v₂，…，v_m)，V是由各个原型模式构成的原型模式矩阵，在线性变换中，由相关定理可知是矩阵T对应于特征值γ_k的特征向量，其中，T＝VΓV⁺，Γ＝diag(γ₁，γ₂，...，γ_M)，因此可以建立新的序参量，其过程如公式(4)所示：

Tq = Σ_{k = 1}^{M} ξ_{k} γ_{k} v_{k}^{'}, (v_{k}^{' +}, Tq) = ξ_{k} γ_{k} - - - (4)

对q的线性变换实际改变了各模式序参量间的比例关系，提供了控制序参量行为的一种途径，在此修正下，令

\tilde{q} = Tq,

{\tilde{ξ}}_{k} = (v_{k}^{' +}, Tq)

得到的动力学方程同原来的形式完全一样；变换T的构造通常与q0(q0为q在时间序列0时的状态)相关，主要依赖于Γ的构造，序参量所表达的输入状态和原型状态的投影距离即相似程度，可重新定义为：

ρ (u_{1}, u_{2}), γ_{k} = \frac{f (ρ (v_{k}^{'}, q 0))}{ξ_{k} (0)} - - - (5)

其中f(·)是一个有界非负的减函数，考虑ξ_k(0)可能为零，而实际上利用f(·)可以直接计算出新的序参量，所以该式可以作为形式上的表达式；当各向量的范数均为1时，内积作为模式间的相似程度的定义，可以替代f(·)和ρ，即

γ_{k} = (v_{k}^{'}, q 0) / ξ_{k} (0),

通过建立模式相似函数来直接构造新的序参量。

在求取Γ的过程中，场景和目标之间的关联体现在模式相似函数f(·)的构造中，满足有界非负单调特性，单调递减的次数应符合目标的类别数，单调递减的幅度应符合目标间的层次关系，由此f(·)可以构造为一个依据概率的分段函数，将原型向量间的距离映射到实际(人类知识)的相似程度。当需要考虑各原型向量间的相关性对模式间差异的影响时，Γ通常不是对角阵，每个场景的涵盖目标内容不一致，需要建立全目标相关矩阵Γ，对于个别场景中尤其是多目标间的关系，必须从中提取相关矩阵Γ₀后，再求取特征值进行对角化处理。以上属于公知技术内容。

场景和目标的序参量重构过程具有一致性，序参量的重构本身符合特征矩阵的线性变换规则，其目的都是为了便于序参量归一化的模式识别，两者之间独立构造过程具有并行特性；由于场景指导和目标驱动的双向作用，会形成环状反馈系统，场景序参量的重构方程内部包含目标隶属场景的可能性，同理目标序参量的重构过程也根据场景明确了可能被识别的目标范围，这体现了场景和目标之间的多对多的层次关系。

Claims

1.一种图像理解中基于语义信息原型向量构成及序参量重构方法，其特征在于：它包括以下步骤：

(1)场景和目标语义信息的原型向量表示；

(2)场景与目标原型向量的结构表示；

(3)场景与目标原型向量的约简处理；

(4)场景和目标的序参量重构。

2.根据权利要求1所述的一种图像理解中基于语义信息原型向量构成及序参量重构方法，其特征在于：步骤(1)中，图像理解中场景和目标的原型向量可表示为v_k＝{v_ks，v_kd}，其中v_ks是编码表示的场景和目标的语义描述向量作为先验信息，v_kd则是场景和目标的特征描述向量；特征描述向量v_kd包括场景和目标中颜色、纹理、形状以及空间关系等视觉信息，各个特征描述向量之间具有编组特性，在不同环境中其图像的特征显著性也不相同，体现了特征描述向量表示的层次性；原型向量中的语义描述向量v_ks的编码特性体现了图像理解中对场景的描述和目标识别的指导，目标间的空间关系及目标本身的特性等先验信息可促进场景分类；同样场景类别的先验知识可以驱动场景中目标识别。

3.根据权利要求1所述的一种图像理解中基于语义信息原型向量构成及序参量重构方法，其特征在于：步骤(2)中，包含语义描述向量v_ks的原型向量具有认知上的逻辑蕴含关系，对场景和目标的原型向量进行编码，对编码关联形成复杂的树状网络结构，网络的同层分支形成log N位的编码信息，N为分支个数，网络节点就是该节点与根结点路径上所有表示信息的融合叠加，所述的树状网络结构包含逻辑意义上的继承和延续关系，形成新的语义描述向量替换原型向量中的v_ks，形成包含树状网络结构信息的原型向量。

4.根据权利要求1所述的一种图像理解中基于语义信息原型向量构成及序参量重构方法，其特征在于：步骤(3)中，融合场景和目标结构关系的语义描述向量

R = C (v_{kd}) \cup D (v_{ks}^{'})

语义描述的目标决策属性；

V = {v_{ks}^{'}, v_{kd}}

R_(X) = \cup {{[x]}_{C (v_{kd})} &Element; U / D (v_{ks}') | {[x]}_{R} &SubsetEqual; X} - - - (1)

由此得到原型向量的最终表示为

v_{k}^{'} = {v_{ks}^{'}, v_{kd}^{'}} .

5.根据权利要求1所述的一种图像理解中基于语义信息原型向量构成及序参量重构方法，其特征在于：步骤(4)中，由所述包含树状网络结构语义描述的原型向量产生相应的序参量，序参量代表输入模式对原型模式的系数，输入模式与原型模式越接近，系数越大，序参量可视为若干特征比较下的综合评价，在线性变换中，由相关定理可知

是矩阵T对应于特征值γ_k的特征向量，矩阵V＝(v₁，v₂，…，v_m)，V是由各个原型模式构成的原型模式矩阵，在线性变换中，由相关定理可知

\tilde{q} = Tq, {\tilde{ξ}}_{k} = (v_{k}^{' +}, Tq)