CN104731984B - 汽车轮毂表面样点r树上溢结点增量式聚类优化方法 - Google Patents
汽车轮毂表面样点r树上溢结点增量式聚类优化方法 Download PDFInfo
- Publication number
- CN104731984B CN104731984B CN201510190617.9A CN201510190617A CN104731984B CN 104731984 B CN104731984 B CN 104731984B CN 201510190617 A CN201510190617 A CN 201510190617A CN 104731984 B CN104731984 B CN 104731984B
- Authority
- CN
- China
- Prior art keywords
- tree
- node
- point
- value
- overflow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明针对R树上溢结点的分裂算法存在的聚类结果不理想以及计算代价过高等问题,提出一种R树上溢结点分裂问题的增量式聚类优化求解方法,属于产品逆向工程技术领域。该方法采用主元分析导向的增量式k均值算法,可在既有分类中心附近的第一主元方向上搜索新的初始分类中心,将该算法与Silhouette指标相结合应用于求解由上溢结点分裂问题所转化的点集聚类问题,能以较小的计算代价自适应获取近似全局最优的点集聚类结果。基于增量式聚类的R树上溢结点分裂算法在R树构建效率、存储利用率及空间查询等方面的综合性能优于现有技术。
Description
技术领域
本发明提供一种汽车轮毂表面样点R树上溢结点增量式聚类优化方法,属于产品逆向工程技术领域。
背景技术
R树能有效应用于解决逆向工程中大规模采样数据的动态维护、邻域查询以及分片曲面模型的几何运算等核心问题,使得自由曲面重建及后续设计与制造过程的数据管理机制保持一致,也是CAD/CAM、机器视觉、医学图像分析以及地理信息系统等领域中空间数据库研究的重要基础。
R树是B+树在多维空间的自然扩展,自Guttman于1984年提出后,逐渐衍生出众多变体。这些变体之间的主要区别是上溢结点分裂方法的不同,其中较具代表性的变体有R*树、Hilbert R树以及CR树。R*树在R树单一的结点优度评价指标的基础上增加了结点包围盒的周长及重叠度等指标,并提出了结点强制重新插入技术,使得R树结构的局部与全局均能得到一定程度的优化。Hilbert R树本质上是借助空间填充曲线,将R树结点的多维非线性排序问题转化为类似B+树的一维排序问题,可有效提高数据插入与上溢结点分裂的效率,但容易导致检索性能下降,又因其构建算法需预知数据所占据的整体空间,从而失去了R树原有的动态数据维护方面的优势。Beckmann等对其早先提出的R*树进行了改进,所提出的RR*树可根据数据插入过程中结点包围盒中心的偏移方向进行结点分裂优化,使得数据插入与空间查询效率优于R*树与Hilbert R树。但是与Hilbert R树类似,RR*树的数据结构与R树不相容,导致R树的子树选择、结点删除以及索引合并等算法均需进行相应调整。与R树其他变体显著不同的是,THEODORIDIS等在学术期刊《Advances in Databases andInformation Systems》,2002上发表的文章“Revisiting r-tree constructionprinciples”中提出的CR树将R树上溢结点分裂问题视为典型的聚类问题,可利用k均值算法求解,从而将传统的两簇分裂转变为多簇分裂,能够使得数据插入效率与R树相仿,并获得与R*树近乎相同的性能。
正如孙殿柱等在学术期刊《计算机辅助设计与图形学学报》,2013b,25(10)上发表的文章“R-树结点多目标遗传分裂算法”中所述,虽然CR树的工作表明了上溢结点的多簇分裂是R树改进研究中一个很重要的方向,但是对于结点分裂簇数的确定问题,亦即k均值算法中k值的确定问题,一直缺乏较好的解决方法。目前主要获取在指定取值范围内一组递增k值对应的k均值算法聚类结果,然后采用启发式搜索策略从中选取最优解。由于这一过程需要对同一组数据多次应用k均值算法,而k均值算法对随机指派的初始分类中心的优度较为敏感的缺陷极易干扰最优解的搜索过程,导致聚类结果不够理想。孙殿柱等在学术期刊《机械工程学报》,2013a,49(13)上发表的文章“基于均值漂移的R*-树结点分裂优化算法”中应用均值漂移算法获取概率密度较大的点集并将其作为k均值算法的初始分类中心,可在一定程度上提高k均值算法的初始分类中心优度,但是均值漂移算法的Parzen窗宽度值的确定本身也是一个难题,并且该算法的时间复杂度过高,不适于大规模数据的R树构建问题。
综上所述,目前R树构建过程中存在上溢结点分裂结果不理想以及分裂过程时间消耗大的技术问题,提出一种可优化分裂结果且降低分裂过程时间消耗的R树上溢结点分裂方法已成为本领域技术人员亟待解决的技术问题。
发明内容
为解决上述技术问题,本发明所采用的技术方案是一种汽车轮毂表面样点R树上溢结点增量式聚类优化方法,应用于求解由上溢结点的子结点包围盒中心点集的聚类问题,能以较小的计算代价自适应获取近似全局最优的聚类结果,这种方法在R树的构建效率、存储利用率以及空间查询效率等方面的综合性能优于现有技术。
一种汽车轮毂表面样点R树上溢结点增量式聚类优化方法,其特征在于步骤依次为:(1)采用光栅投影式三维测量仪获取汽车轮毂模型表面采样点集;(2)设对汽车轮毂模型表面采样点集构建R树过程中的上溢结点为E,M为R树结点所容许的子结点数上限值,将E的子结点集{ei}转化为点集P={pi},i∈{1,2,…,M+1},计算公式为:
pi=X(B(ei)) (1)
其中B(ei)表示的任一子结点e的包围盒,X(x)表示包围盒的中心点;(3)结合E所在父结点的子结点数和M值确定聚类过程中的分类个数的上限值K;(4)初始化:循环次数k←1,最初的单一分类C(1)←P,初始聚类结果集合F1←{C(1)},分类归属记录Fθ←F1,分类的中心m1←μ(C(1)),分类中心集合X←{m1},其中μ(·)表示计算点集的中心;(5)采用主元分析导向的增量式k均值算法获取点集P第k+1次聚类结果Fk+1;(6)设S(Fk)表示第k次聚类结果的Silhouette指标值,若S(Fk)≥S(Fk+1),跳转至(9),否则Fθ←Fk+1;(7)k←k+1;(8)重复(5)至(7),直至k=K;(9)根据步骤(2)中确定的子结点集P与E的双射关系(公式1)以及Fθ中记录的中各点分类归属,对E的子结点进行划分,将所得结果作为E的分裂结果。
为实现发明目的,所述汽车轮毂表面样点R树上溢结点增量式聚类优化方法,其特征在于步骤(3)中所述结合E所在父结点的子结点数和M值确定分类个数的上限值K,具体计算公式为:
K=min{K*,M+2-n} (2)
其中,K*是人为设定值,其取值范围建议为M为R树结点所容许的子结点数上限值,n为E所在父结点的子结点数。
为实现发明目的,所述汽车轮毂表面样点R树上溢结点增量式聚类优化方法,其特征在于步骤(5)中所述主元分析导向的增量式k均值算法,具体步骤为:(1)在Fk中选择方差最大的分类C(v),并从X中提取C(v)的中心mv;(2)对于C(v)的协方差矩阵,应用奇异值分解(SVD)方法获取最大特征值对应的特征向量u,过mv且垂直于u构建平面U,将C(v)中分布于U两侧的点集分别归并为与且与均不包含C(v)中在U上的投影距离为0的点;(3)(4)(5)以X为初始分类中心集合,对{pi}应用k均值算法,获得第k+1次聚类结果Fk+1。
为实现发明目的,所述汽车轮毂表面样点R树上溢结点增量式聚类优化方法,其特征在于步骤(6)中所述第k次聚类结果的Silhouette指标值S(Fk),S(Fk)是第k次聚类后P中各点的Silhouette指标值的平均值,而对于P中任意一点p,设其所属分类为C(i),则其Silhouette指标值计算公式为:
式中,a(p)表示p到C(i)中其他点的距离的均值,对于Fk中除C(i)之外的其他任一分类C(j),设d(p,C(j))表示p到C(j)内所有点的距离的均值,则b(p)=min{d(p,C(j))}。
与现有技术相比,本发明具有以下优点:
(1)主元分析导向的增量式k均值算法能有效降低聚类过程的计算代价,且聚类结果优于原始k均值算法;
(2)将主元分析导向的增量式k均值算法应用于R树上溢结点的分裂问题,可明显提高基于聚类分析的R树构建算法的计算效率,并且使得R树结点包围盒集的形状及位置分布与数据分布更具一致性,因而R树存储利用率及空间查询性能优于CR树;
(3)虽然基于本文算法构建的R树在结点存储空间利用率以及空间查询效率方面与RR*树较为接近,但本文算法仅依赖R树结点的上溢参数,而后者除上溢参数之外还依赖下溢参数与优化因子并且改变了R树结构,与之相比,本文算法更为稳健且易于实现。
附图说明
图1是本发明汽车轮毂表面样点R树上溢结点增量式聚类优化方法的流程图;
图2是一个上溢结点E的包围盒及其子结点对应的点集P示意图;
图3是对点集P获取的特征向量u示意图;
图4是垂直于图3中求得的特征向量u建立平面的示意图;
图5是对点集P的子类再次应用主元分析获取分裂分界面;
图6是上溢结点E的子结点对应的点集P最终的分类结果图;
图7是汽车轮毂采样点集及其对应的R树根节点示意图;
图8是图2中汽车轮毂采样点集对应的R树第二层节点示意图;
图9是图2中汽车轮毂采样点集对应的R树第三层节点示意图;
图10是图2中汽车轮毂采样点集对应的R树第四层节点及局部细节示意图;
具体实施方式
下面结合附图及实施例对本发明作进一步说明。
图1为本文发明汽车轮毂表面样点R树上溢结点增量式聚类优化方法的程序流程图,采用C程序设计语言实现,本发明所载方法的主要过程包括上溢结点向点集的转化、利用主元分析导向的增量式k均值算法对点集进行聚类、利用聚类结果的Silhouette指标值确定自然分类个数以及点集分类结果向上溢结点分裂结果的转化等,可较为优化的完成上溢结点分裂,从而改善R树的构建效果。
图2为按公式(1)将一个上溢结点E的包围盒及E的子结点映射为点集P的结果,将上溢结点表示为点集之后,便可对所得点集进行聚类处理。由于点集与上溢结点的子结点集存在双射关系,因此基于点集聚类结果即可直接映射为上溢结点的分裂结果。
根据公式(2),结合E所在父结点的子结点数和R树结点所容许的子结点数上限值M值确定聚类过程中的分类个数的上限值K。
图3~6为对图2所示上溢结点E的子结点对应的点集P应用主元分析导向的增量式k均值算法进行自适应聚类的过程,主要步骤包括:(1)初始化:循环次数k←1,最初的单一分类C(1)←P,初始聚类结果集合F1←{C(1)},分类归属记录Fθ←F1,分类的中心m1←μ(C(1)),分类中心集合X←{m1},其中μ(·)表示计算点集的中心;(2)采用主元分析导向的增量式k均值算法获取点集P第k+1次聚类结果Fk+1;(3)根据公式(3)计算第k次聚类结果的Silhouette指标值S(Fk),若S(Fk)≥S(Fk+1),则聚类过程结束,否则Fθ←Fk+1;(4)k←k+1;(5)重复(2)至(4),直至k=K。其中上述步骤(2)中所述主元分析导向的增量式k均值算法,具体步骤为:(1)在Fk中选择方差最大的分类C(v),并从X中提取C(v)的中心mv;(2)对于C(v)的协方差矩阵,应用奇异值分解(SVD)方法获取最大特征值对应的特征向量u,过mv且垂直于u构建平面U,将C(v)中分布于U两侧的点集分别归并为与且与均不包含C(v)中在U上的投影距离为0的点;(3)(4)(5)以X为初始分类中心集合,对{pi}应用k均值算法,获得第k+1次聚类结果Fk+1。
实施例一:图7~10所示为应用本文提出的结点分裂算法对采用光栅投影式三维测量获取的汽车轮毂模型表面采样点集构建R树的过程;采样点集数目为114 503,过程中将R树结点上溢参数设为M=30;从图10构建结果可知,本文算法构建的R树的结点包围盒的形状分布与位置分布与数据分布的更具一致性。构建R树所用时间为15.1326s,R树存储利用率为0.5;k近邻查询时间为采样数据中每个样点的近邻查询时间的总和,统计得k近邻查询时间为22.7584s,并且在k近邻查询过程中对叶结点的平均访问次数6.8647次。每个叶结点的存储利用率是其子结点数量与的比值,统计得R树叶结点层的平均存储利用率为0.5;由于CR树结点分裂算法具有一定随机性,因此上述实验数据均为将其实验过程重复7次,统计所得的平均值。
通过实施例可以得出,本发明能以较小的计算代价自适应获取近似全局最优的聚类结果使,这种方法的R树的构建效率、存储利用率以及空间查询效率等方面的综合性能优于现有技术。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (4)
1.一种汽车轮毂表面样点R树上溢结点增量式聚类优化方法,其特征在于步骤依次为:(1)采用光栅投影式三维测量仪获取汽车轮毂模型表面采样点集;(2)设对汽车轮毂模型表面采样点集构建R树过程中的上溢结点为E,M为R树结点所容许的子结点数上限值,将E的子结点集{ei}转化为点集P={pi},i∈{1,2,…,M+1},计算公式为:
pi=X(B(ei))
其中B(ei)表示的任一子结点e的包围盒,X(x)表示包围盒的中心点;(3)结合E所在父结点的子结点数和M值确定聚类过程中的分类个数的上限值K;(4)初始化:循环次数k←1,最初的单一分类C(1)←P,初始聚类结果集合F1←{C(1)},分类归属记录Fθ←F1,分类的中心m1←μ(C(1)),分类中心集合X←{m1},其中μ(·)表示计算点集的中心;(5)采用主元分析导向的增量式k均值算法获取点集P第k+1次聚类结果Fk+1;(6)设S(Fk)表示第k次聚类结果的Silhouette指标值,若S(Fk)≥S(Fk+1),跳转至(9),否则Fθ←Fk+1;(7)k←k+1;(8)重复(5)至(7),直至k=K;(9)根据步骤(2)中确定的子结点集P与E的双射关系以及Fθ中记录的中各点分类归属,对E的子结点进行划分,将所得结果作为E的分裂结果。
2.根据权利要求1所述汽车轮毂表面样点R树上溢结点增量式聚类优化方法,其特征在于步骤(3)中所述结合E所在父结点的子结点数和M值确定分类个数的上限值K,具体计算公式为:K=min{K*,M+2-n}
其中,K*是人为设定值,其取值范围建议为M为R树结点所容许的子结点数上限值,n为E所在父结点的子结点数。
3.根据权利要求1所述汽车轮毂表面样点R树上溢结点增量式聚类优化方法,其特征在于步骤(5)中所述主元分析导向的增量式k均值算法,具体步骤为:(1)在Fk中选择方差最大的分类C(v),并从X中提取C(v)的中心mv;(2)对于C(v)的协方差矩阵,应用奇异值分解(SVD)方法获取最大特征值对应的特征向量u,过mv且垂直于u构建平面U,将C(v)中分布于U两侧的点集分别归并为与且与均不包含C(v)中在U上的投影距离为0的点;(3)(4)(5)以X为初始分类中心集合,对{pi}应用k均值算法,获得第k+1次聚类结果Fk+1。
4.根据权利要求1所述汽车轮毂表面样点R树上溢结点增量式聚类优化方法,其特征在于步骤(6)中所述第k次聚类结果的Silhouette指标值S(Fk),S(Fk)是第k次聚类后P中各点的Silhouette指标值的平均值,而对于P中任意一点p,设其所属分类为C(i),则其Silhouette指标值计算公式为:
式中,a(p)表示p到C(i)中其他点的距离的均值,对于Fk中除C(i)之外的其他任一分类C(j),设d(p,C(j))表示p到C(j)内所有点的距离的均值,则b(p)=min{d(p,C(j))}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510190617.9A CN104731984B (zh) | 2015-04-22 | 2015-04-22 | 汽车轮毂表面样点r树上溢结点增量式聚类优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510190617.9A CN104731984B (zh) | 2015-04-22 | 2015-04-22 | 汽车轮毂表面样点r树上溢结点增量式聚类优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104731984A CN104731984A (zh) | 2015-06-24 |
CN104731984B true CN104731984B (zh) | 2019-01-22 |
Family
ID=53455870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510190617.9A Expired - Fee Related CN104731984B (zh) | 2015-04-22 | 2015-04-22 | 汽车轮毂表面样点r树上溢结点增量式聚类优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104731984B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184669B (zh) * | 2015-08-25 | 2019-08-06 | 四川大学 | 一种基于节点集GN分裂算法的220kV城市环网分区方法 |
CN106096618B (zh) * | 2016-06-20 | 2019-07-12 | 山东理工大学 | 三维实物局部型面特征参考数据的获取方法 |
CN106095968A (zh) * | 2016-06-20 | 2016-11-09 | 山东理工大学 | n维海量点云的R树形位多目标结点分裂方法 |
CN109697733A (zh) * | 2018-12-26 | 2019-04-30 | 广州文远知行科技有限公司 | 点云空间寻点方法、装置、计算机设备和存储介质 |
CN112765405B (zh) * | 2019-10-21 | 2022-11-25 | 千寻位置网络有限公司 | 空间数据搜索结果的聚类和查询的方法及系统 |
CN112395288B (zh) * | 2020-09-25 | 2022-07-12 | 浙江大学 | 基于希尔伯特曲线的r树索引合并更新方法、装置及介质 |
-
2015
- 2015-04-22 CN CN201510190617.9A patent/CN104731984B/zh not_active Expired - Fee Related
Non-Patent Citations (5)
Title |
---|
"A new enhancement to the R-tree node splitting";Amer F.Al-Badarneh etc.;《Journal of Information Science》;20091231;论文第1-16页 |
"A new R-tree node splitting algorithm using MBR partition policy";Y Liu etc.;《International Conference on Geoinformatics》;20091231;论文第2-3节 |
"Corner-based splitting:An improved node splitting algorithm for R-tree";Azzam Sleit etc.;《Journal of Information Science》;20141231;第40卷(第2期);论文第222-236页 |
"基于K-means聚类距离准则的R树结点分配算法研究";王锡钢等;《测绘科学》;20060930;第31卷(第5期);论文第116-118页 |
"基于分割聚类技术的R树结点分裂方案";吴敏君;《计算机应用与软件》;20071031;第24卷(第10期);论文第42-43,55页 |
Also Published As
Publication number | Publication date |
---|---|
CN104731984A (zh) | 2015-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104731984B (zh) | 汽车轮毂表面样点r树上溢结点增量式聚类优化方法 | |
Ester et al. | Clustering for mining in large spatial databases | |
CN101201894B (zh) | 基于网格计算技术的大规模人脸数据库人脸识别方法 | |
CN102521386B (zh) | 基于集群存储的空间元数据分组方法 | |
US20130311450A1 (en) | Methods, systems, and data structures for performing searches on three dimensional objects | |
CN104346481B (zh) | 一种基于动态同步模型的社区检测方法 | |
CN104462351B (zh) | 一种面向MapReduce范型的数据查询模型与方法 | |
CN111639075B (zh) | 一种基于扁平化r树的非关系数据库矢量数据管理方法 | |
CN111813778B (zh) | 一种面向大规模路网数据的近似关键字存储和查询方法 | |
Kucuktunc et al. | λ-diverse nearest neighbors browsing for multidimensional data | |
CN102902826A (zh) | 一种基于基准图像索引的图像快速检索方法 | |
CN102508973A (zh) | 产品stl模型快速求交方法 | |
CN103336970B (zh) | 基于多子树的分布式图像训练及检索方法 | |
CN101290619A (zh) | 基于内容的藏文网站唐卡图像搜索引擎智能机器人搜索方法 | |
CN103500165B (zh) | 一种结合聚类和双key值的高维向量检索方法 | |
CN117668583A (zh) | 一种基于人工智能投资研究的投资优化方法 | |
Guo et al. | LBIRCH: an improved BIRCH algorithm based on link | |
Shao et al. | Data stream clustering and outlier detection algorithm based on shared nearest neighbor density | |
CN112148830A (zh) | 一种基于最大区域网格的语义数据存储与检索的方法及装置 | |
CN111639060A (zh) | 一种火电厂时序数据处理方法、装置、设备及介质 | |
Yang et al. | Research on distributed Hilbert R tree spatial index based on BIRCH clustering | |
CN105843555A (zh) | 分布式存储中基于随机梯度下降的谱哈希方法 | |
CN105677840A (zh) | 一种基于多维渐增数据模型的数据查询方法 | |
CN115114464A (zh) | 一种基于多哈希算法的电网图数据库存储方法 | |
Jiang | Sculpture 3D printing realization system based on multi-dimensional image mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190122 Termination date: 20200422 |