CN110070121A

CN110070121A - 一种基于树策略与平衡k均值聚类的快速近似k近邻方法

Info

Publication number: CN110070121A
Application number: CN201910297553.0A
Authority: CN
Inventors: 聂飞平; 车昊轩; 王宏; 王榕; 于为中; 李学龙
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-07-30
Anticipated expiration: 2039-04-15
Also published as: CN110070121B

Abstract

本发明提供了一种基于树策略与平衡K均值聚类的快速近似K近邻方法，以提高近似K邻近检索的性能与速度。首先，通过平衡K均值聚类方法构造平衡K均值树，使得数据高效有序地以树型结构组织起来，实现对任一新样本数据的快速定位；然后，利用锚定位法与邻近簇思想，通过平衡树快速寻找得到新数据样本的多个近似近邻点，即K近邻点。本发明方法同时兼顾了基于树的K近邻算法与平衡K均值算法的优势，可以应用于图像识别、数据压缩、模式识别和分类、机器学习、文档检索系统、统计与数据分析等多个领域。

Description

一种基于树策略与平衡K均值聚类的快速近似K近邻方法

技术领域

本发明属机器学习和数据挖掘技术领域，具体涉及一种基于树策略与平衡K均值聚类的快速近似K近邻方法。

背景技术

在移动互联网时代，人们的日常生活每天都面临着海量数据地冲击，诸如像个人信息、视频记录、图像采集、地理信息、日志文档等，面对如此庞大且日益增长的数据信息，如何对所需要的信息进行有效的存储、索引与查询是目前国内外研究的热点。

近似K近邻检索起初作为具有查找相似性文档信息的方法被应用于文档检索系统，随后在地理信息系统中，K近邻检索也被广泛应用于位置信息，空间数据关系的查询、分析与统计，如今在图像检索、数据压缩、模式识别以及机器学习等领域都有非常重要的作用，而在这些领域中大多会涉及到海量的多媒体数据信息的处理，其中包括大量图像、视频信息。例如，在图像处理与检索的研究中，基于内容的图像检索方法(CBIR)是目前的主流，为了获得图像中这些特定的信息或方便后续处理，通常会利用多种不同的描述方式来表示图像，包括局部特征描述子，全局特征描述子，特征频率直方图，纹理信息，显著性区域等。最近邻检索的引入将图像检索转化到特征向量空间，通过查找与目标特征向量距离最近的向量来获得相应图像之间的关系。

以K近邻检索或近似K近邻检索为基本思想的方法主要包括两大类，其中一类主要基于对数据本身的处理，包括哈希算法、矢量量化方法等。另一类是基于提升检索结构性能的方法，大多基于树形结构。树形结构方法的特征为，将数据组织为树形结构，并利用该树型结构进行搜索。结构化数据后，原本散乱的数据通过树型规则地进行排列，使得检索工作有迹可循，与线性搜索相比高效甚多。常见的树形结构方法有，KD树、KD随机森林、PCA树、层次聚类树等算法。虽然树形结构方法相比线性搜索的速度提升是高效的，但也并不近乎完美。例如，在大规模高维数据中进行K近邻检索一直是难以克服的热点问题之一，在树型结构方法中，KD树、KD随机森林等都具有不错的效果，但在KD树算法中，检索过程需要不停的回溯到上一节点，维度越高，需要的回溯次数就越多，算法的效率也就越低，而在KD随机森林中，虽然回溯问题得以一定的缓解，但是由于KD随机森林是利用多个KD树共同搜索，如何平衡内存使用与算法效率又成为了一个新的问题。

发明内容

为了克服现有技术的不足，本发明提供一种基于树策略与平衡K均值聚类的快速近似K近邻方法，以提高近似K邻近检索的性能与速度。首先，通过平衡K均值聚类方法构造平衡K均值树，使得数据高效有序地以树型结构组织起来，实现对任一新样本数据的快速定位；然后，利用锚定位法与邻近簇思想，通过平衡树快速寻找得到新数据样本的多个近似近邻点，即K近邻点。本发明方法同时兼顾了基于树的K近邻算法与平衡K均值算法的优势，可以应用于图像识别、数据压缩、模式识别和分类、机器学习、文档检索系统、统计与数据分析等多个领域。

一种基于树策略与平衡K均值聚类的快速近似K近邻方法，其特征在于步骤如下：

步骤1：输入原始数据集X，采用平衡K均值聚类方法进行聚类处理，得到样本数量相等的两类样本的聚类中心；以两个聚类中心连线的中垂超平面为切面，将原始数据集X进行切面投影，得到两类子样本集，将两子类样本集的两个聚类中心记录在根节点中；然后，分别以每类子样本集为输入数据集，按照以上过程进行处理，直至满足树深度要求，其中，每次处理得到的两个聚类中心分别为左子节点和右子节点，其对应子样本集分别对应子节点数据集，最后一次处理得到的两个聚类中心分别记为左叶子节点和右叶子节点，其对应子样本集分别对应叶子节点数据集，所有中间节点与最终叶子节点共同构成平衡K均值树；设D为树的深度，满足2≤2^D-1<m，m为原始数据集X包含的样本数，对原始数据集X进行聚类处理得到的两个聚类中心为根节点；

步骤2：给定目标样本，首先，判断目标样本与步骤1得到的平衡K均值树的两个根节点中垂面的位置关系，若在中垂面左边，则进入左子树搜索，若在中垂面右边，则进入右子树搜索；按照如上判别方式每次搜索新的子树，直至搜索到一个叶子节点，该叶子节点后续再无子节点可搜寻；然后，计算该叶子节点与其他叶子节点的欧氏距离，选择距离最短的前N个叶子节点为该叶子节点的近邻叶子节点，N的取值范围为0≤N<2^D-1-1；分别计算给定目标样本与该叶子节点数据集和其所有近邻叶子节点数据集中所有样本之间的欧式距离，选择距离最短的前K个样本点为给定目标样本的最近邻点，K≥1。

本发明的有益效果是：由于采用了平衡K均值聚类算法对数据集进行处理，充分利用了全局信息，保证了子样本集划分的可靠性、合理性；由于所建立的平衡K均值树为完全二叉树形结构，保证了对于任何给定目标点，每一次与中垂面位置比对的次数是有限的，消除了建树的不确定性，具有更强的鲁棒性与实用性；由于在搜索过程中，利用邻近簇思想来寻找近邻叶子节点，降低了样本靠近数据集边界所带来的对搜索效率与准确率的影响，特别在高维数据的情况下，搜索效率与准确率大大优于传统树形方法；由于采用了平衡K均值算法构建平衡K均值树进行搜索，并与基于近邻簇思想的搜索算法的配合，减少了搜索时间，提高了搜索精度。

附图说明

图1是本发明的一种基于树策略与平衡K均值聚类的快速近似K近邻方法基本流程图

图2是本发明的平衡K均值树的结构图

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明提供了一种基于树策略与平衡K均值聚类的快速近似K近邻方法，主要由建造平衡树与寻找K近邻点两个主要步骤构成，其基本实现过程如下：

一、建造平衡树

首先，利用平衡K均值聚类算法对输入数据集进行聚类处理，得到样本数量相等的两类样本的聚类中心。具体为：

两类平衡K均值聚类算法模型如下：

其中，C是簇的中心，G是索引矩阵，X为输入数据集，其中，矩阵G的第i行、j列元素表示为g_ij，如果g_i1＝1，则表示第i个样本属于第一类，否则，g_i2＝1；Ind是仅有0和1组成的n×2维矩阵，1是所有元素均为1的n维行向量，n为数据集包含的样本总数，k和l分别表示两个簇所包含的样本数，k+l＝n，表示F范数。令两个簇具有相同的样本数目，即k＝n/2，公式(1)重写为：

其中，x_i表示矩阵X中的第i行向量，c_k表示矩阵C中的第k行向量。定义矩阵E∈Rⁿ ^×2，其第i行j列元素为公式(2)改写为：

Tr(·)表示对括号内内容求迹，令g为G的第一行，由于G为索引矩阵，所以G的第二行为(1-g)^T，公式(3)可以被改写为：

其中，e₁和e₂分别是矩阵E的第一行和第二行。公式(4)可以写为：

公式(5)可以通过向量e₁与e₂的各项差与0的大小关系求解，若大于0则与之对应的g为1，代表其属于第一类；反之则为0，代表其属于第二类。

至此，得到两个簇的聚类中心c₁与c₂后，以两个聚类中心连线的中垂超平面为切面，将原始数据集X进行切面投影，得到两类子样本集，将两子类样本集的两个聚类中心记录在根节点中。

接着，分别以每类子样本集为输入数据集，按照以上过程进行处理，直至满足树的深度要求，其中，每次处理得到的两个聚类中心分别为左子节点和右子节点，其对应子样本集分别对应子节点数据集，最后一次处理得到的两个聚类中心分别记为左叶子节点和右叶子节点，其对应子样本集分别对应叶子节点数据集，所有中间节点与最终叶子节点共同构成平衡K均值树；设D为树的深度，满足2≤2^D-1<m，m为原始数据集X包含的样本数，对原始数据集X进行聚类处理得到的两个聚类中心为根节点。

如果将两个聚类中心连线的中垂超平面记录为锚点，则构建平衡K均值树的过程中，共产生2^D-1-1个锚点。平衡K均值聚类的复杂度为O(ndlog(a)t)，其中，t为平衡K均值聚类的迭代次数，a为锚点个数，d为数据集中每个样本的维数。

图2给出了平衡K均值树的树形结构组织方式，其中每个不同的图标代表将被分为不同聚类集合的数据点，每个椭圆圈代表一个节点。

二、寻找K近邻点

在任一维度空间下，都应有一个超平面可以将整个空间一分为二，其表示为w^Tx+b＝0，其中，w表示超平面，x表示数据空间，b表示空间截距。

在树状结构下，快速判断样本可能属于的子簇是高效寻找近似K近邻点的秘诀，也就是说可以利用平衡K均值树分层判定，当满足某一条件时，认为目标点应属于左子树，反之则属于右子树，直至目标点抵达一个叶子节点，该叶子节点后续再无子节点可搜寻。本发明利用锚点进行判定，即根据目标样本在聚类中心连线上的投影靠近哪一个聚类中心。

设两聚类中心分别为c₁和c₂，目标点为x。则向量c₂-c₁可作为聚类中心c₁到聚类中心c₂连线所代表向量的方向向量，向量可作为目标点x到两聚类中心连线中点连线所代表向量的方向向量，则可以将判断点与超平面关系的问题重新定义为向量点乘的取值问题，即：

展开得：

通过公式(6)和(7)可以判定目标点x在两聚类中心连线上的投影靠近哪一个聚类中心，其利用了基本的向量点乘与向量夹角间的数值关系。具体为，当f(x)＝0，目标点的投影在聚类中心连线中点处；当f(x)＜0，目标点的投影更加靠近聚类中心c₁，即左子节点；当f(x)＞0目标点的投影更加靠近聚类中心c₂，即右子节点。通过判断结果，进入左子树或右子树继续搜索。基于此，可以通过锚点快速得到目标点最终应属于的叶子节点。

按照如上判别方式每次搜索新的子树，直至搜索到一个叶子节点，即该叶子节点后续再无子节点可搜寻。

基于树状结构的K近邻检索算法有一个重大的问题是，当目标点处于某一叶子节点区域边界时，无法判定该目标点的K个近邻点是否在该叶子节点中。传统的基于树状结构的K近邻检索算法将维护一个优先队列，根据数据集的维数进行多次回溯操作，直到遍历完队列或达到某一预设要求。本发明基于邻近簇思想，认为搜索目标点的K近邻点的搜索范围不应仅在当前叶子节点包含的数据集合中，还在应在该叶子节点的近邻叶子节点所包含的数据集合中。因此，找到目标样本最终所对应的叶子节点后，计算该叶子节点与其他叶子节点的欧氏距离，选择距离最短的前N个叶子节点为该叶子节点的近邻叶子节点，并记为邻近簇，N的取值范围为0≤N<2^D-1-1。这样一来，可以合理的平衡搜索空间的大小，确保高效搜索的同时很好的避免了目标点在叶子节点区域边界时的问题，在保证精度的同时又确保了速度。

最后，分别计算给定目标样本与该叶子节点数据集和其所有近邻叶子节点数据集中所有样本之间的欧式距离，选择距离最短的前K个样本点为给定目标样本的最近邻点，K≥1。

假设平衡K均值树的深度为D，每个叶子节点有N个邻近簇，共有2^D-1个叶子节点，每一叶子节点数据集中有m个样本点，则建树时的算法复杂度为O(ndlog(a)t(D-1)+l²)，搜索时的算法复杂度为O(D+Nm)。

Claims

1.一种基于树策略与平衡K均值聚类的快速近似K近邻方法，其特征在于步骤如下：