CN108427967A

CN108427967A - 一种实时影像聚类方法

Info

Publication number: CN108427967A
Application number: CN201810206731.XA
Authority: CN
Inventors: 范大昭; 董杨; 纪松; 欧阳欢; 雷蓉; 古林玉; 李东子; 苏亚龙; 申二华; 李奇峻; 孙晓昱; 贺蕾
Original assignee: Individual
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2018-08-21
Anticipated expiration: 2038-03-13
Also published as: CN108427967B

Abstract

本发明公开了一种实时影像聚类方法，包括以下步骤：A、批量输入影像，通过边缘特征提取获得影像全局描述符；B、通过低分辨率影像特征提取获得影像局部特征描述符；C、输入影像全局描述符和影像局部特征描述符；D、创建三层自组织映射神经网络，利用影像全局描述符选取前N个竞争层神经元进入激活状态；E、计算影像局部特征描述符与每个激活神经元下的各个神经末梢间的距离，获得整体响应成功的激活神经元；F、根据整体响应成功的激活神经元的个数进行影像的聚类以及激活神经元的学习或合并，或者利用影像全局描述符和影像局部特征描述符创建新的竞争层神经元。本发明从整体上提高影像聚类结果的准确性与聚类过程的实时性和稳定性。

Description

一种实时影像聚类方法

技术领域

本发明涉及摄影测量与遥感测绘技术领域，尤其涉及一种实时影像聚类方法。

背景技术

近年来，信息网络技术的广泛应用不断推动生活方式发生变化，互联网、物联网、知识服务、智能服务已成为人们生活必不可少的一部分，由此也组成了一个庞大的微型传感器网络，产生了难以计量的非结构化影像数据。这些影像数据类型复杂、体量巨大、时效性较强，具有明显的大数据表象，已成为一个重要的研究对象。处理这些不精确、非结构化的影像大数据的首要一步是进行影像间的自主聚类，找出同一目标区域具有相似内容的影像集合。进行影像间的聚类可大致分为两个步骤：一是生成影像全局描述符，二是利用相应聚类方法进行影像描述符的聚类。

关于影像的全局描述符，一般是通过影像的局部描述符聚合整理得到，有不少学者进行了相关研究。Csurka等人提出利用视觉词袋模型(Bag ofwords，BoW)生成全局描述符，其简单、有效近年来得到了广泛应用；Lazebnik等人提出利用空间金字塔匹配(Spatialpyramid matching，SPM)进行局部描述符聚合，有效的补充了视觉词袋模型中的空间信息，使描述子的描述能力得到增强；Yang等人将稀疏编码(Sparse coding)用于影像全局描述，使整体算法的训练复杂度得到大幅降低；Wang等人提出了局部约束线性编码(Localityconstrained linear encoding，LLC)进行影像描述，进一步降低了算法时间复杂度，其整体性能也有所提升；Perronnin等人将Fisher编码(Fisher coding)运用在了影像检索与聚类领域，并进行了一些改进；Russakovsky等人则提出以目标物体为中心的空间聚合编码方法，突出了目标区域的编码表达；Alex等人提出了一种通过卷积神经网络进行海量影像编码与分类的算法，并在超大数据集上取得了较好的试验结果。关于影像的聚类方法，按照聚类特性可分为不同的种类，主要包括以下几种类型：基于划分的聚类算法，如k-means算法等；基于层次的聚类算法，如CURE(Clustering Using Representatives)算法等；基于密度的聚类算法，如DBSCAN(Density-Based Spatial Clustering ofApplications withNoise)算法等；基于网格的聚类算法，如STING(Statistical Information Grid)算法等；基于模型的聚类算法，如SOM(Self-organizing feature map)算法等。现行的影像全局描述方式虽在一定程度上能够较好的表征原始影像，但仍缺乏原始影像的语义信息。因此，如何生成具有优良性质的影像全局描述符，使影像编码包含一定的语义信息，且具有明显的类间特征和较好的类内描述，仍是当今研究的热点。另外，当前聚类算法的计算正确率与实时性仍有待提高，如何将神经网络更好的引入当前算法之中，以提升聚类的正确率与实时性是值得研究的问题。

发明内容

本发明的目的在于提供一种实时影像聚类方法，能够提高影像整体聚类结果的准确性，同时提高聚类过程的实时性和稳定性。

为实现上述目的，本发明采用的技术方案是：

一种实时影像聚类方法，包括以下步骤：

A、对影像进行SIFT特征提取，得到特征点集合T₁，对集合T₁中的特征点进行边缘点检测，得到边缘点描述符集合Q₁，利用VLAD算法对集合Q₁进行聚合，得到聚合描述符u₁；

B、对影像进行空间金字塔降采样，然后进行SIFT特征提取，得到降采样影像描述符集合Q₂，利用VLAD算法对降采样影像描述符集合Q₂进行聚合，得到聚合描述符u₂；

C、将聚合描述符u₁作为影像全局描述符x＝{x₁,x₂,……,x_m}，其中x为单个矢量，m为其维度，将聚合描述符u₂作为影像局部特征描述符Y＝{y₁,y₂,……,y_n}，其中Y为矢量集合，n为影像局部特征点的个数，y_i＝{γ₁,γ₂,……,γ_h}为第i个影像局部特征的描述符，维度为h，i＝1，2，……，n；

D、将影像全局描述符和影像局部特征描述符输入自组织映射神经网络，并创建自组织映射神经网络的竞争层神经元，分别对每个竞争层神经元创建响应层神经末梢，然后计算影像全局描述符与每个竞争层神经元连接权重间的距离，将得到的距离最近的前N个竞争层神经元作为激活神经元；

E、采用激活神经元对集合Y中的各个影像局部特征描述符进行响应，对于任意一个影像局部特征描述符y_i，分别计算其与每个激活神经元下的各个神经末梢权值间的距离，即

l_i，jk为影像局部特征描述符y_i与第j个激活神经元下的第k个神经末梢的权值间的距离，为第j个激活神经元下的第k个神经末梢的权值，当距离l_i，jk小于阈值α时，判定第j个激活神经元下的第k个神经末梢对影像局部特征描述符y_i响应成功，则第j个激活神经元下的其余神经末梢不再对影像局部特征描述符y_i进行响应，当所有激活神经元的神经末梢分别对集合Y中的各个影像局部特征描述符进行响应后，分别统计同一激活神经元下的神经末梢响应成功的次数，当一个激活神经元下的神经末梢响应成功的次数大于阈值β时，判定该激活神经元整体响应成功；

F、若有一个激活神经元整体响应成功，则将影像划为该激活神经元对应的聚类，并且该激活神经元及其下的神经末梢利用一定学习效率进行学习，然后返回步骤A对其他影像进行聚类；若有多个激活神经元整体响应成功，则将影像划为神经末梢响应成功次数最多的激活神经元对应的聚类，同时将所有整体响应成功的激活神经元标记为待合并神经元，并将影像标记为连接影像，将标记的待合并神经元进行合并，然后返回步骤A对其他影像进行聚类；若没有激活神经元整体响应成功，则利用影像全局描述符和影像局部特征描述符创建新的竞争层神经元及该竞争层神经元下的神经末梢，然后返回步骤A对其他影像进行聚类。

所述的步骤F中，一个激活神经元及其下的神经末梢利用一定学习效率进行学习时，利用影像全局描述符更新该激活神经元的连接权重，利用获得神经末梢响应的影像局部特征描述符更新该激活神经元相应的神经末梢的权值，即

其中，t为学习次数，t＝1，2，3，……，χ为学习效率，Δω_j(t)为第j个激活神经元进行第t次学习时的连接权重变量，χ_j(t)为第j个激活神经元进行第t次学习时的学习效率，ω_j为第j个激活神经元的连接权重，为第j个激活神经元下的第k个神经末梢进行第t次学习时的权值变量，χ_jk(t)为第j个激活神经元下的第k个神经末梢进行第t次学习时的学习效率，y_g为获得神经末梢响应的影像局部特征描述符，ω_j(t+1)为第j个激活神经元进行第t次学习后的连接权重，ω_j(1)＝ω_j，为第j个激活神经元下的第k个神经末梢进行第t次学习后的权值，

每次学习后该激活神经元及其下的神经末梢的学习效率χ以一定的步长δ下降，即

其中，δ为每次学习效率递减的步长，m为学习效率下降次数上限，且应满足m≤χ_j(1)/δ，E为终止学习效率；

若有影像局部特征描述符未能获得该激活神经元下的神经末梢响应，则利用所述影像局部特征描述符生成该激活神经元下新的神经末梢，即

式中为生成的第j个激活神经元下的第p个神经末梢的权值，χ_jp为生成第j个激活神经元下的第p个神经末梢的学习效率，y_d为未能获得神经末梢响应的影像局部特征描述符。

所述的步骤F中，利用影像全局描述符和影像局部特征描述符创建新的竞争层神经元及该竞争层神经元下的神经末梢，即

式中ω_r为创建的第r个竞争层神经元的连接权重，χ_r为创建第r个竞争层神经元的学习效率，为创建的第r个竞争层神经元下的第q个神经末梢的权值，χ_rq为创建第r个竞争层神经元下的第q个神经末梢的学习效率。

所述的步骤F中，对标记的待合并神经元进行合并时，将所有待合并神经元的连接权重的平均值作为合并后的神经元的连接权重，将所有待合并神经元的神经末梢作为合并后的神经元的神经末梢。

还包括步骤G，在对影像进行聚类的过程中，每隔一段时间统计各个激活神经元对应的聚类中包含影像的个数，若某个激活神经元对应的聚类中包含影像的个数小于设定阈值ρ，则将该激活神经元从自组织映射神经网络中剔除。

本发明首先对影像进行边缘提取，利用边缘点特征描述符生成影像全局描述符，使得到的描述符包含较强的语义与细节描述信息，同时利用影像金字塔的低分辨率生成影像全局描述符，使得到的描述符包含整体场景信息；然后对两个描述符进行组合，从而得到既具有影像整体场景信息又具有较强细节信息的综合描述符；最后由于得到的综合描述符为高维数据，因此对自组织映射神经网络进行改进，引入响应层神经末梢，得到一种三层的实时自组织特征映射神经网络聚类算法，从而完成大数据影像的快速聚类；

本发明在影像综合描述符生成期间考虑了影像中包含的语义信息，使影像具有较好的类内描述能力与类间鉴别能力，从而提高了后续影像聚类结果的准确性；在描述符聚类期间，引入了响应层，简化了输入参数，去掉了预先训练过程，从而提高了整体聚类结果的准确性与聚类过程的实时性和稳定性。

附图说明

图1为本发明的流程图。

具体实施方式

如图1所示，本发明所述的一种实时影像聚类方法，包括以下步骤：

A、对影像进行SIFT(Scale Invariant Feature Transform，尺度不变特征变换)特征提取，得到特征点集合T₁，对集合T₁中的特征点进行边缘点检测，得到边缘点描述符集合Q₁，利用VLAD(Vector of LocallyAggregated Descriptors，局部聚合描述符向量)算法对集合Q₁进行聚合，得到聚合描述符u₁。

由于聚合描述符u₁利用影像的边缘点特征生成，包含了较强的语义信息与细节描述信息，具有较好的类内描述能力和类间鉴别能力，有利于提高后续影像聚类的准确性。

B、对影像进行空间金字塔降采样，然后进行SIFT特征提取，得到降采样影像描述符集合Q₂，利用VLAD算法对降采样影像描述符集合Q₂进行聚合，得到聚合描述符u₂。聚合描述符u₂利用影像金字塔的低分辨率影像生成，包含整体场景信息。

C、将聚合描述符u₁作为影像全局描述符x＝{x₁,x₂,……,x_m}，其中x为单个矢量，m为其维度，将聚合描述符u₂作为影像局部特征描述符Y＝{y₁,y₂,……,y_n}，其中Y为矢量集合，n为影像局部特征点的个数，y_i＝{γ₁,γ₂,……,γ_h}为第i个影像局部特征的描述符，维度为h，i＝1，2，……，n。

D、将影像全局描述符和影像局部特征描述符输入自组织映射神经网络，并创建自组织映射神经网络的竞争层神经元，分别对每个竞争层神经元创建响应层神经末梢，然后计算影像全局描述符与每个竞争层神经元连接权重间的距离，将得到的距离最近的前N个竞争层神经元作为激活神经元。

l_i，jk为影像局部特征描述符y_i与第j个激活神经元下的第k个神经末梢的权值间的距离，为第j个激活神经元下的第k个神经末梢的权值，当距离l_i，jk小于阈值α时，判定第j个激活神经元下的第k个神经末梢对影像局部特征描述符y_i响应成功，则第j个激活神经元下的其余神经末梢不再对影像局部特征描述符y_i进行响应，即一个激活神经元下的各个神经末梢最多对一个影像局部特征描述符响应成功一次。

以上为判定某个激活神经元下的神经末梢对某个影像局部特征描述符响应成功的方式，当所有激活神经元的神经末梢分别对集合Y中的各个影像局部特征描述符进行响应后，分别统计同一激活神经元下的神经末梢响应成功的次数，也就是集合Y中获得某个激活神经元下的神经末梢响应成功的影像局部特征描述符的个数。当一个激活神经元下的神经末梢响应成功的次数大于阈值β时，判定该激活神经元整体响应成功。

F、若有一个激活神经元整体响应成功，则将影像划为该激活神经元对应的聚类，并且该激活神经元及其下的神经末梢利用一定学习效率进行学习，然后返回步骤A对其他影像进行聚类；

若有多个激活神经元整体响应成功，则将影像划为神经末梢响应成功次数最多的激活神经元对应的聚类，同时将所有整体响应成功的激活神经元标记为待合并神经元，并将影像标记为连接影像，将标记的待合并神经元进行合并后，即将所有待合并神经元的连接权重的平均值作为合并后的神经元的连接权重，将所有待合并神经元的神经末梢作为合并后的神经元的神经末梢，然后返回步骤A对其他影像进行聚类；

若没有激活神经元整体响应成功，则利用影像全局描述符和影像局部特征描述符创建新的竞争层神经元及该竞争层神经元下的神经末梢，即

式中ω_r为创建的第r个竞争层神经元的连接权重，χ_r为创建第r个竞争层神经元的学习效率，为创建的第r个竞争层神经元下的第q个神经末梢的权值，χ_rq为创建第r个竞争层神经元下的第q个神经末梢的学习效率，然后返回步骤A对其他影像进行聚类。

其中，一个激活神经元及其下的神经末梢利用一定学习效率进行学习时，利用影像全局描述符更新该激活神经元的连接权重，利用获得神经末梢响应的影像局部特征描述符更新该激活神经元相应的神经末梢的权值，即

其中，δ为每次学习效率递减的步长，m为学习效率下降次数上限，且应满足m≤χ_j(1)/δ，E为终止学习效率。

本发明在进行影像聚类时，可以一次载入批量影像，并对各个影像按照上述方法同步进行聚类处理，最后返回载入下批影像进行处理。在上述循环对影像进行聚类的过程中，每隔一段时间统计各个激活神经元对应的聚类中包含影像的个数，若某个激活神经元对应的聚类中包含影像的个数小于设定阈值ρ，则将该激活神经元从自组织映射神经网络中剔除，直至全部数据处理完毕。

Claims

1.一种实时影像聚类方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种实时影像聚类方法，其特征在于：所述的步骤F中，一个激活神经元及其下的神经末梢利用一定学习效率进行学习时，利用影像全局描述符更新该激活神经元的连接权重，利用获得神经末梢响应的影像局部特征描述符更新该激活神经元相应的神经末梢的权值，即

3.如权利要求1所述的一种实时影像聚类方法，其特征在于：所述的步骤F中，

利用影像全局描述符和影像局部特征描述符创建新的竞争层神经元及该竞争层神经元下的神经末梢，即

4.如权利要求1所述的一种实时影像聚类方法，其特征在于：所述的步骤F中，对标记的待合并神经元进行合并时，将所有待合并神经元的连接权重的平均值作为合并后的神经元的连接权重，将所有待合并神经元的神经末梢作为合并后的神经元的神经末梢。

5.如权利要求1所述的一种实时影像聚类方法，其特征在于：还包括步骤G，在对影像进行聚类的过程中，每隔一段时间统计各个激活神经元对应的聚类中包含影像的个数，若某个激活神经元对应的聚类中包含影像的个数小于设定阈值ρ，则将该激活神经元从自组织映射神经网络中剔除。