CN102511049B

CN102511049B - 基于拓扑知觉组织理论的形状图像分类方法

Info

Publication number: CN102511049B
Application number: CN2010800037256A
Authority: CN
Inventors: 谭铁牛; 黄凯奇; 黄永祯
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2010-05-13
Filing date: 2010-05-13
Publication date: 2013-07-17
Anticipated expiration: 2030-05-13
Also published as: US20130046762A1; WO2011140679A1; CN102511049A; US8732172B2

Abstract

一种基于拓扑直觉组织理论的形状图像分类方法，包括步骤：提取形状图像的边缘点S1；构建拓扑空间，计算提取的边缘点在拓扑空间中的表达S2；根据边缘点在拓扑空间中的表达来提取全局特征S3；根据边缘点在欧氏空间中的表达来提取局部特征S4；融合全局特征和局部特征，根据全局特征的匹配程度来调节局部特征在融合过程中的权重S5；根据融合后的特征分类形状图像S6。本发明适用于智能视觉监控系统，帮助监控系统分类场景中的目标，使得监控系统能真正理解场景中正在发生什么，而且可以根据不同的目标类别采取不同的安全级别。适用于自动驾驶系统，判断交通标志的类别，从而让自动驾驶系统更佳智能化。

Description

基于拓扑知觉组织理论的形状图像分类方法

技术领域

本发明涉及模式识别，特别是涉及基于认知心理学的目标识别。

背景技术

形状图像识别是智能视频监控和自动驾驶系统中的一项关键技术。能够帮助智能视频监控系统对感兴趣目标进行分类，能够帮助自动驾驶系统识别特征场景中的标志。

当前的形状图像识别方法侧重于形状图像的局部特征，比如尺度不变的特征变换算法(SIFT)。这些方法对局部特征明显的目标能够较好的识别，但是对于局部特征不明显的目标则往往会失败。

全局特征在形状图像识别中起着重要的作用，但是当前的形状图像识别算法大多数只利用了局部特征，而忽略了全局特征，一些全局特征，比如基于注意机制的全局特征很难应用于形状图像识别。换句话说，在形状图像识别算法中，还很少有较鲁棒的全局特征。

形状识别的另一项关键技术在于全局特征与局部特征的融合，在这方面，大部分特征融合算法只是把形状图像的特征向量简单的合并，效果也一般，而且没有认知学方面的理论依据支撑。

值得注意的一个现象是，在认知视觉心理学领域，关于局部特征和全局特征之间关系的讨论在过去的几十年中都非常活跃。一方面，早期的特征分析理论认为，视觉感知是从局部到全局进行的，特别地，由Marr提出的可计算视觉模型认为视觉信息的基元是事物的局部几何属性，Treisman的特征整合理论认为原始的视觉特征是由分离的特征图来表达的，然后被整合成一张显著图。Biederman的局部识别理论(recognition-by-components，也叫RBC理论)认为目标的识别起源于把目标分离成由各种基本形状组成的基元。而在另一方面，早期的全局理论认为目标的认知过程是从全局到局部的，比如著名的格式塔心理学理论。顺着这条思路，近年来，有一种理论在认知视觉心理学领域取得了重大突破。由陈霖教授提出的拓扑知觉组织理论(Computationalperceptual organization theory，也被称为TPO理论)认为，全局特征优先于局部特征，全局特征比局部特征更重要，并且全局特征是由其拓扑不变性来决定的。拓扑知觉组织理论被一系列的神经生理学、心理学、医学影像分析实验证明是符合生物视觉系统的工作机理的。下面分析两个有趣的实验。

如图9所示，在测试蜜蜂对形状图像的识别实验中，陈霖教授先把蜜蜂训练成寻找“O”形图像(通过糖水引诱)，然后把糖水去掉再测试蜜蜂对图像形状的识别。结果显示，密封选择了和“O形”拓扑相似的菱形。这个实验证明了，对于蜜蜂这种视觉体系非常初级的生物种群，在识别形状图像的过程中，拓扑不变性依然起着最基本的作用。

在另一个著名的实验中，陈霖教授等人验证了，在人眼视觉体系中，拓扑不变性仍然发挥了着重要的作用。如图10所示，在该实验中，被试者要求每次对两张图片进行判断是相同还是不同，每次显示的时间非常短(比如0.01秒)，然后统计判断的正确率。结果显示，对拓扑相似的形状的区分正确率远远低于拓扑不相似的形状，这说明人眼很难把拓扑相似的形状分开，换句话说，拓扑相似的形状在人眼视觉体系中是表达相似性的基本要素。

拓扑知觉组织理论虽然在认知视觉心理学上取得了重大的突破，但是该理论是建立在大量的心理学、生理学、医学影像实验的基础上，没有严格的数学描述和可计算模型。

当前的形状图像识别方法侧重于形状图像的局部特征，而忽略了其全局特征。这些方法对局部特征明显的目标能够较好的识别，但是对于局部特征不明显的目标则往往会失败。

发明内容

本发明的目的是提供一种有效地提取形状图像全局特征的方法，并将全局特征和局部特征进行融合以更加准确的描述形状图像。

为实现上述目的，一种基于拓扑知觉组织理论的形状图像分类方法，包括步骤：

S1：提取形状图像的边缘点；

S2：构建拓扑空间，计算提取的边缘点在拓扑空间中的表达，所述拓扑空间由下式定义：

d^*＝G(d′)

其中，G是计算测地距离的算法，d′采用如下公式计算：

d^{'} (i, j) = \{\begin{matrix} d (i, j), & ifd (i, j) < ξ \\ \infty & otherwise \end{matrix}

其中，ξ在拓扑知觉组织理论中指容忍度，d(i，j)表示点i和点j的欧式距离；

S3：根据边缘点在拓扑空间中的表达来提取全局特征，其中，按下式提取全局特征：

(k) = Σ_{i = 1}^{n} Σ_{j = i + 1}^{n} θ (i, j),

ifL(k)≤θ(i，j)＜U(k)

θ(i，j)＝d(i，j)/d(i，j)

其中n是边缘点的个数，L(k)和U(k)是直方图第k个方格的上界和下界；

S4：根据边缘点在欧氏空间中的表达来提取局部特征；

S5：融合全局特征和局部特征，根据全局特征的匹配程度来调节局部特征在融合过程中的权重，包括：

计算全局特征的匹配分数并归一化，其中，所述全局特征的匹配分数是指形状图形之间全局特征直方图距离的倒数；

采用归一化后的全局特征的匹配分数的倒数作为局部特征的权重；

S6：根据全局特征和局部特征融合后的结果来分类形状图像，其中，采用下式计算最终两张形状图像之间的距离：

{dis}_{final} = \underset{t}{Σ} ({dis}_{global} + α \times {dis}_{local})

其中，dis_global是形状图像之间全局特征直方图距离，反映全局的匹配程度，dis_loal是形状图像之间的局部特征直方图距离，反映局部的匹配程度，α是局部特征的权衡，与全局特征直方图距离呈正比，其中，根据最终两张形状图像之间的距离，采用K-means算法把同类型图像聚在一起，把不同类型图像分开。

本发明适用于智能视觉监控系统，帮助监控系统分类场景中目标，使得监控系统能真正理解场景中正在发生什么，而且可以根据不同的目标类别采取不同的安全级别。适用于自动驾驶系统，判断交通标志的类别，从而让自动驾驶系统更加智能化。

附图说明

图1是基于拓扑知觉组织理论的形状图像识别方法的系统框图；

图2是示例图：说明欧式空间在表达语义特征的能力较弱；

图3示例图：说明测地距离能够较好的表达语义特征；

图4是示例图：说明容忍度的作用；

图5是示例图：说明全局特征提取，绿色实线表示测地距离，红色虚线表示欧式距离，我们采用测地距离和欧式距离的比来提取全局特征；

图6是本发明构建的数据库的示意图；

图7是在本发明构建的数据库上本发明的效果其中，相同形状代表相同的拓扑形状，它们聚集在一起。相同的形状里允许有不同的大小，代表同种拓扑结构中不同的几何信息；

图8是在本发明构建的数据库上，SIFT方法的效果。相同形状(具体形状说明见图7)代表相同的拓扑形状，它们聚集很杂乱，说明SIFT特征区分不同拓扑结构的能力很弱；

图9是现有技术测试蜜蜂对形状图像的识别；

图10是现有技术对拓扑相似的实验图。

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

基于拓扑知觉组织理论，本发明实现了一个目标识别系统。图1示出基于拓扑知觉组织理论的形状图像识别方法的流程图。首先提取图像中形状的边缘点，然后根据这些边缘点之间的测地距离构建这些边缘点在拓扑空间中的表达，然后提取图像中形状的全局特征和局部特征，然后将提取到的全局特征和局部特征进行融合，最后将融合后的特征用于形状图像分类。

下面结合附图对本发明的方法涉及的关键步骤进行逐一详细说明。

步骤S1：提取形状图像的边缘点。本发明采用了Canny算法来提取形状图像的边缘点。

步骤S2：构建拓扑空间，计算提取的边缘点在拓扑空间中的表达。相对于大多数的计算机视觉算法所采用的欧式空间，拓扑空间不仅具有强大的认知学依据，也能在计算机视觉的算法中得到更好的解释。下面我们进行分析。

首先，人眼视觉系统采用的不是欧式空间，而是将欧式空间做了某种转换。比如两条在真实外部空间中平行的直线，在人眼看来就是两条相交的直线(其交点在计算机视觉中被称之为“消失点”)。再比如，在两个欧式距离很近的点，在图2的“S”形状中，相聚很近的两个点(红色叉形)在表达“S”形状的含义时，其实是很远的，更确切的说，这两个红色叉形的距离是用他们的最短连接距离(测地距离)来表达的。

其次，在计算机视觉中，如果仅仅依赖于欧式空间，会导致很多算法的失效，这样的直观例子也很多，比如在图3中，构成图3中四个图形的小黑点的欧式空间位置是完全一样的，但是他们所表达的语义是完全不同的。这个例子充分的说明了，只采用欧式空间是很难表达人眼视觉系统所能表达的语义信息的。其根本原因在于我们上面所分析的，人眼视觉系统所采用的空间并不是一个欧式空间。

我们定义拓扑空间如下：

d^*＝G(d′) (1)

其中G是计算测地距离的算法，比如可以采用常用的Floyd-Warshall算法。d′采用如下公式计算：

d^{'} (i, j) = \{\begin{matrix} d (i, j), & ifd (i, j) < ξ \\ \infty, & otherwise \end{matrix}, (2)

其中，ξ在拓扑知觉组织理论中指容忍度(tolerance)，相当于人眼的最小可分辨距离。d(i，j)表示点i和点j的欧式距离。

为了展示容忍度的作用，请参考图4。在图4中，我们分析人眼是怎样形成对三角形的认知。如果只看图4(a)，我们会认为这是一个被分离的三角形，但是我们为什么会认为这是一个“三角形”呢？因为人眼可以允许有一定的容忍度，从而把离散的点连接起来，随着容忍度的不断增加，图4(b)、(c)、(d)变得越来越像三角形。

步骤S3：根据边缘点在拓扑空间中的表达来提取全局特征。我们采用d*(i，j)和d(i，j)的比做为投票来构建统计分布直方图，以此作为形状图像的全局特征。该直方图定义如下：

h (k) = Σ_{i = 1}^{n} Σ_{j = i + 1}^{n} θ (i, j),

ifL(k)≤θ(i，j)＜U(k) (3)

θ(i，j)＝d(i，j)/d(i，j) (4)

其中n是边缘点的个数，L(k)和U(k)是直方图第k个方格(bin)的上界和下界。

图5给出了一个采用测地距离和欧式距离的比作为全局特征的示例图。值得注意的是，这是一种非常简单的全局特征提取方法，相当于在欧式空间中统计像素亮度的分布图。我们之所以采用如此简单的全局特征提取方法就是为了突出我们提出的拓扑空间的有效性。换句话说，如果我们在拓扑空间中采用简单的方法所取得的效果比在欧式空间中采用较高级方法更好，那就充分说明了效果的提升是由拓扑空间引起的。

步骤S4：根据边缘点在欧氏空间中的表达来提取局部特征。我们采用SIFT特征来提取形状图像的局部特征。

步骤S5：融合全局特征和局部特征，根据全局特征的匹配程度来调节局部特征在融合过程中的权重。在融合过程中，我们先计算全局特征的匹配分数(即形状图像之间全局特征直方图距离的倒数)并归一化，然后采用归一化后的全局特征匹配分数的倒数作为局部特征的权重，所以最终两张形状图像之间的距离采用下面的公式来计算：

{dis}_{final} = \underset{t}{Σ} ({dis}_{global} + α \times {dis}_{local}), - - - (5)

其中，dis_global是形状图像之间全局特征直方图距离，反映全局的匹配程度，dis_local是形状图像之间的局部特征直方图距离，反映局部的匹配程度。α是局部特征的权衡，与全局特征直方图距离呈正比(即与全局匹配程度呈反比)。

步骤S6：根据融合后的特征来描述形状图像。根据步骤S1-S5，我们可以得到任意两张形状图像之间的距离，采用这些距离我们用常见的聚类算法，就可以得到这些形状图像的分类结果。

实施例：

为了详细说明该发明的具体实施方式，我们构建了一个示例数据库(参见图6)。通过实施我们的方法，我们测试基于拓扑知觉组织理论的形状图像识别方法在这些形状图像上的分类效果。步骤如下：

步骤S1：采用Canny算法提取形状图像的边缘点；

步骤S2：采用公式(1)和公式(2)构建拓扑空间，计算提取的边缘点在拓扑空间中的表达；

步骤S3：采用公式(3)和公式(4)，根据边缘点在拓扑空间中的表达来提取全局特征；

步骤S4：根据边缘点在欧氏空间中的表达来提取SIFT特征作为局部特征；

步骤S5：采用公式(5)融合全局特征和局部特征，即根据全局特征的匹配程度来调节局部特征在融合过程中的权重；

步骤S6：根据融合后的特征来分类形状图像，具体地，在本实施例子中，我们采用K-means算法把同类型图像聚在一起，把不同类型图像分开。图7和图8给出了我们方法在这些形状图像上的分类结果，同时给了SIFT方法的对比结果。

总之，本发明提出了一种基于拓扑知觉组织理论的形状图像识别方法。本发明易于实现、性能稳定。本发明能够提高智能监控系统对监控场景的理解能力，能够提高自动驾驶系统对环境的适应能力。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于拓扑知觉组织理论的形状图像分类方法，包括步骤：

S1：提取形状图像的边缘点；

d^*＝G(d′)

其中，G是计算测地距离的算法，d′采用如下公式计算：

d' (i, j) = \{\begin{matrix} d (i, j) & ifd (i, j) < ξ \\ \infty, & otherwise \end{matrix}

h (k) = Σ_{i = 1}^{n} Σ_{j = i + 1}^{n} θ (i, j), ifL (k) \leq θ (i, j) < U (k)

θ(i，j)＝d^*(i，j)/d(i，j)

S4：根据边缘点在欧氏空间中的表达来提取局部特征；

{dis}_{final} = \underset{t}{Σ} ({dis}_{global} + α \times {dis}_{local})

其中，dis_global是形状图像之间全局特征直方图距离，反映全局的匹配程度，dis_local是形状图像之间的局部特征直方图距离，反映局部的匹配程度，α是局部特征的权衡，与全局特征直方图距离呈正比，其中，根据最终两张形状图像之间的距离，采用K-means算法把同类型图像聚在一起，把不同类型图像分开。

2.根据权利要求1所述的方法，其特征在于采用SIFT特征算法提取局部特征。