CN108108747A - 一种解决大数据聚类的基于视觉原理的聚类方法 - Google Patents
一种解决大数据聚类的基于视觉原理的聚类方法 Download PDFInfo
- Publication number
- CN108108747A CN108108747A CN201710861282.8A CN201710861282A CN108108747A CN 108108747 A CN108108747 A CN 108108747A CN 201710861282 A CN201710861282 A CN 201710861282A CN 108108747 A CN108108747 A CN 108108747A
- Authority
- CN
- China
- Prior art keywords
- coding
- data
- cluster
- scale
- access control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种解决大数据聚类的基于视觉原理的聚类方法,通过对原有数据进行给定精度的无损多尺度编码,实现数据的多尺度、多维度的网格化存储,基于各尺度编码判断编码和邻域编码的相似度,利用连通性分析,实现多尺度的聚类,提供多尺度的聚类结果。在数据编码过程中,利用了视觉原理,该原理符合韦伯定律,即感觉的差别阈限随原刺激量的变化而变化。
Description
技术领域
本发明属于大数据聚类领域,具体涉及一种解决大数据聚类的基于视觉原理的聚类方法。
背景技术
聚类是依据数据的某种相似性(如结构或趋势)将数据划分为不同组别的知识发现方法。衡量数据间的相似度是聚类的基础,通常各个点之间的相似度以矩阵形式存储,对于大规模或是分布式数据此方式将导致数据传输量巨大,计算效率缓慢,甚至由于矩阵巨大无法存储的问题。
导致这些问题产生的原因是由于相似度以稠密矩阵的方式存储,数据量以原数据体量的平方速度增加。
目前已有的大数据聚类算法有以下两种:
以kmeans为代表的给定类个数的划分型聚类方法:该类方法在给定类数的前提下,衡量各个点与各类中心的相似度,判定点的归属,并迭代计算各个类中心。此种方法计算复杂度为线性,适合在大数据情形使用,但需要事先明确总体类数,同时各个类的数据分布需要满足球形分布,而且算法的稳定性与起始点的选取紧密相关。因此,虽然该类算法在大部分大数据平台上已经实现(Spark和petuum),但很难满足大数据聚类的需要。
另一类是DBSCAN基于密度的聚类方法:该方法通过衡量各个点在给定范围的点密度,确定点和给定范围内的点的连接关系,实现相同类内的元素相连接。此种方法适合在图模型中实现,可以实现任意形状的类的识别,但方法需要人为设定合适范围和密度的阈值,才能得到较好的聚类结果。这点在大数据和分布式情形下很难得到满足,因此该方法也很难满足聚类的需要。
聚类问题是人工智能、机器学习的等信息处理方法的基础,已有很多优秀的聚类算法,但在大数据计算环境下很难实现,而已有的大数据聚类方法却难以满足使用需要。
发明内容
本发明的目的在于克服聚类算法中相似度矩阵的生成和存储问题,提供一种解决大数据聚类的基于视觉原理的聚类方法,该方法通过对原有数据进行给定精度的无损多尺度编码,实现数据的多尺度、多维度的网格化存储,基于各尺度编码判断编码和邻域编码的相似度,利用连通性分析,实现多尺度的聚类,提供多尺度的聚类结果。在数据编码过程中,利用了视觉原理,该原理符合韦伯定律,即感觉的差别阈限随原刺激量的变化而变化。
为了达到上述目的,本发明包括以下步骤:
步骤一,确定编码精度:根据不同应用场景,设定不同的编码精度ε,ε的大小显示了编码与原始数据之间的误差;
步骤二,确定编码位数与最小尺度,最大尺度:由编码精度ε计算出编码的最大尺度σmax 与最小尺度σ0,同时可以得到编码的长度L;
步骤三,原数据编码:将原数据集以编码精度ε进行编码,除返回聚类结果步外,之后的计算步骤将都在编码上进行;
步骤四,单尺度聚类分析:包括四个部分,编码集的截断操作、相邻编码查找、连通性分析和聚类结果解码;
第五步,增加尺度数,σ=σ+1,重复步骤四操作,直到最大尺度σmax。
所述步骤二中,d维的原始数据集χ中的任意元素χ∈Pδ,对于x的每一维 x(t)∈[at,bt],t∈[1,d],最大尺度σmax满足
最小尺度σ0通常为1,编码的位数L=σmax×d。
所述步骤三中,对原始数据中的每个元素进行S/D编码,获得原始编码集X,x∈Ξ,Pε(·) 为S/D编码函数,
e=Pε(x),e=[e(1)e(2)...e(L)]
其中,表示数字的二进制形式,表示向下取整操作。
所述步骤四的具体方法如下:
第一步,截断操作会根据当前的尺度,对编码集中的各个编码进行截断,获取该尺度下的编码集;
第二步,在当前尺度的编码集的基础上,进行各个编码的同尺度相邻编码查找,组成与相邻编码相连的图数据;
第三步,之后利用上一步图数据进行连通性分析,得到的最大连通子图为聚类结果;
第四步,再将聚类结果解码,从编码回归到原数据。
所述第二步中,若二维数据的1近邻八邻域2尺度距离编码通常[0001][0010][0011],构造提取同一维度数值的模板编码
编码e近邻编码集合Xe为,
u∈Xe,ut∈{et-,et,et+}ε
其中,∧表示逻辑与操作,表示逻辑非操作,建立所有编码与其相邻编码的连接关系,得到σ尺度下的连接关系集合Eσ。
所述第三步中,图Gσ=(Xσ,Eσ),对Gσ进行连通性分析,得到kσ个最大连通子图,即各子图的顶点集合聚类结果
与现有技术相比,本发明通过对原有数据进行给定精度的无损多尺度编码,实现数据的多尺度、多维度的网格化存储,基于各尺度编码判断编码和邻域编码的相似度,利用连通性分析,实现多尺度的聚类,提供多尺度的聚类结果。在数据编码过程中,利用了视觉原理,该原理符合韦伯定律,即感觉的差别阈限随原刺激量的变化而变化。
附图说明
图1为本发明的编码过程举例示意图;其中(a)显示了二维点(1,5)和(5,3)的位置和不同尺度编码示意;(b)显示了二维点以尺度2编码的过程;
图2为本发明相邻编码查找举例示意图;
图3为小规模数据集聚类结果示意图;其中,(a)为行为原始数据集,(b)行为kmeans 聚类结果,(c)行为density-peak聚类结果,(d)行为本发明聚类方法聚类结果;
图4为2015年1-6月纽约出租车行车记录示意图;
图5为大规模数据聚类结果示意图;其中,(a)为本发明聚类方法在各个尺度的聚类结果, (b)为本发明对应kmeans聚类的类数选取的对应聚类结果,(c)为kmeans聚类方法在k=10, k=100和k=10000时的聚类结果。
具体实施方式
下面结合附图对本发明做进一步说明。
Step1确定S/D编码精度:根据不同应用场景,设定不同的编码精度ε,ε的大小显示了编码与原始数据之间的误差;
Step2确定S/D编码的位数、最大尺度与最小尺度:d维的原始数据集χ中的任意元素 χ∈Pδ,对于x的每一维x(t)∈[at,bt],t∈[1,d],最大尺度σmax满足
最小尺度σ0通常为1,编码的位数L=σmax×d;
Step3对原始数据中的每个元素进行S/D编码,获得原始编码集X:x∈Ξ,Pε(·)为S/D编码函数,
e=Pε(x),e=[e(1)e(2)...e(L)]
其中,[·]2表示数字的二进制形式,表示向下取整操作。具体的二维数据点的编码过程如图1所示,其中(a)为二维点位置示意图,(b)为编码详细过程。
Step4单尺度聚类分析:根据视觉观察的原理,对编码集X进行多尺度观察,视距调整过程符合韦伯定律,尺度数σ从最小尺度数σ0开始。具体操作步骤包括四个部分,编码集的截断操作、相邻编码查找、连通性分析和聚类结果解码;
Step4.1截断操作会根据当前的尺度σ,对编码集X中的各个编码进行截断,
得到的该尺度编码组成该尺度下的编码集Xσ;
Step4.2在编码集Xσ的基础上,进行同尺度相邻编码查找,已知需要计算的距离编码集ed,该距离编码集由编码的相邻特性、数据维度和当前尺度数决定,如二维数据的1近邻八邻域2 尺度距离编码通常[0001][0010][0011],构造提取同一维度数值的模板编码
编码e近邻编码集合Xe为,
u∈Xe,ut∈{et-,et,et+}ε
其中,∧表示逻辑与操作,表示逻辑非操作,二维2尺度编码的邻接编码计算举例如图 2所示,建立所有编码与其相邻编码的连接关系,得到σ尺度下的连接关系集合Eσ;
Step4.3图Gσ=(Xσ,Eσ),对Gσ进行连通性分析,得到kσ个最大连通子图,即各子图的顶点集合聚类结果
Step4.4查找各个编码内包括的原数据,将聚类结果从编码回归到原数据;
Step5增加尺度数,σ=σ+1,重复Step4操作,直到最大尺度σmax。
实验结果:
小数据集验证实验:在多个小数据集上进行聚类,使用kmeans、density-peak和本发明方法,实验结果如图3所示。对于第一种直线、第三种圆环和第四种螺旋线的数据,density-peak 和本发明方法相比kmeans可以得到较好的结果;而对第二种高斯分布的数据,本发明算法有较好的聚类结果。
大规模数据实验:
大规模数据选取由纽约出租车管理局提供的2015年1-6月收集的8,500万条纽约出租车纪录二维地理坐标数据,数据整体示意图如图4所示。将使用Spark平台提供的kmeans聚类方法与本发明方法进行聚类,获得当地交通区域分块情况。
由图5可以看出,本发明方法的聚类结果基本保留了当地交通繁忙路段的分区情况,在不同尺度分区的精细程度不同,而kmeans算法的聚类结果仅仅根据数据之间的距离划分,并没有各个区域之间交通繁忙程度的关联性。
Claims (6)
1.一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,包括以下步骤:
步骤一,确定编码精度:根据不同应用场景,设定不同的编码精度ε,ε的大小显示了编码与原始数据之间的误差;
步骤二,确定编码位数与最小尺度,最大尺度:由编码精度ε计算出编码的最大尺度σmax与最小尺度σ0,同时可以得到编码的长度L;
步骤三,原数据编码:将原数据集以编码精度ε进行编码,除返回聚类结果步外,之后的计算步骤将都在编码上进行;
步骤四,单尺度聚类分析:包括四个部分,编码集的截断操作、相邻编码查找、连通性分析和聚类结果解码;
第五步,增加尺度数,σ=σ+1,重复步骤四操作,直到最大尺度σmax。
2.根据权利要求1所述的一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,所述步骤二中,d维的原始数据集中的任意元素χ∈Pδ,对于x的每一维x(t)∈[at,bt],t∈[1,d],最大尺度σmax满足
最小尺度σ0通常为1,编码的位数L=σmax×d。
3.根据权利要求1所述的一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,所述步骤三中,对原始数据中的每个元素进行S/D编码,获得原始编码集X,x∈Ξ,Pε(·)为S/D编码函数,
e=Pε(x),e=[e(1)e(2)…e(L)]
其中,[·]2表示数字的二进制形式,表示向下取整操作。
4.根据权利要求1所述的一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,所述步骤四的具体方法如下:
第一步,截断操作会根据当前的尺度,对编码集中的各个编码进行截断,获取该尺度下的编码集;
第二步,在当前尺度的编码集的基础上,进行各个编码的同尺度相邻编码查找,组成与相邻编码相连的图数据;
第三步,之后利用上一步图数据进行连通性分析,得到的最大连通子图为聚类结果;
第四步,再将聚类结果解码,从编码回归到原数据。
5.根据权利要求4所述的一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,所述第二步中,若二维数据的1近邻八邻域2尺度距离编码通常[0001][0010][0011],构造提取同一维度数值的模板编码
编码e近邻编码集合Xe为,
u∈Xe,ut∈{et-,et,et+}ε
其中,∧表示逻辑与操作,表示逻辑非操作,建立所有编码与其相邻编码的连接关系,得到σ尺度下的连接关系集合E。
6.根据权利要求4所述的一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,所述第三步中,图Gσ=(Xσ,Eσ),对Gσ进行连通性分析,得到kσ个最大连通子图,即各子图的顶点集合聚类结果为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710861282.8A CN108108747B (zh) | 2017-09-21 | 2017-09-21 | 一种解决大数据聚类的基于视觉原理的聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710861282.8A CN108108747B (zh) | 2017-09-21 | 2017-09-21 | 一种解决大数据聚类的基于视觉原理的聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108108747A true CN108108747A (zh) | 2018-06-01 |
CN108108747B CN108108747B (zh) | 2020-07-28 |
Family
ID=62207447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710861282.8A Active CN108108747B (zh) | 2017-09-21 | 2017-09-21 | 一种解决大数据聚类的基于视觉原理的聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108108747B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314873A (zh) * | 2010-06-30 | 2012-01-11 | 上海视加信息科技有限公司 | 一种语音基元的编码与合成系统 |
CN103605734A (zh) * | 2013-11-19 | 2014-02-26 | 广东电网公司电力科学研究院 | 基于特征向量的数据传输压缩方法及其系统 |
CN104182465A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于网络的大数据处理方法 |
US20140358996A1 (en) * | 2013-05-30 | 2014-12-04 | Hon Hai Precision Industry Co., Ltd. | Distributed encoding and decoding system, method, and device |
US8996436B1 (en) * | 2012-12-20 | 2015-03-31 | Emc Corporation | Decision tree classification for big data |
US20160337348A1 (en) * | 2015-05-12 | 2016-11-17 | Victoria Kien Man Teng | Security for cloud systems and virtualization cloud systems, mobile cloud systems and mobile virtualization cloud systems, and computer clusters and mobile device clusters |
CN106529968A (zh) * | 2016-09-29 | 2017-03-22 | 深圳大学 | 一种基于交易数据的客户分类方法及其系统 |
CN106649516A (zh) * | 2016-10-18 | 2017-05-10 | 安徽天达网络科技有限公司 | 一种教育资源大数据处理方法 |
US20170255690A1 (en) * | 2016-03-02 | 2017-09-07 | Electronics And Telecommunications Research Institute | System and method for managing data |
-
2017
- 2017-09-21 CN CN201710861282.8A patent/CN108108747B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314873A (zh) * | 2010-06-30 | 2012-01-11 | 上海视加信息科技有限公司 | 一种语音基元的编码与合成系统 |
US8996436B1 (en) * | 2012-12-20 | 2015-03-31 | Emc Corporation | Decision tree classification for big data |
US20140358996A1 (en) * | 2013-05-30 | 2014-12-04 | Hon Hai Precision Industry Co., Ltd. | Distributed encoding and decoding system, method, and device |
CN103605734A (zh) * | 2013-11-19 | 2014-02-26 | 广东电网公司电力科学研究院 | 基于特征向量的数据传输压缩方法及其系统 |
CN104182465A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于网络的大数据处理方法 |
US20160337348A1 (en) * | 2015-05-12 | 2016-11-17 | Victoria Kien Man Teng | Security for cloud systems and virtualization cloud systems, mobile cloud systems and mobile virtualization cloud systems, and computer clusters and mobile device clusters |
US20170255690A1 (en) * | 2016-03-02 | 2017-09-07 | Electronics And Telecommunications Research Institute | System and method for managing data |
CN106529968A (zh) * | 2016-09-29 | 2017-03-22 | 深圳大学 | 一种基于交易数据的客户分类方法及其系统 |
CN106649516A (zh) * | 2016-10-18 | 2017-05-10 | 安徽天达网络科技有限公司 | 一种教育资源大数据处理方法 |
Non-Patent Citations (6)
Title |
---|
MIHAELA I. CHIDEAN 等: "Scalable Data-Coupled Clustering for Large Scale WSN", 《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》 * |
S. BEULAH 等: "Detection of duplicated data with minimum overhead and secure data transmission for sensor big data", 《CLUSTER COMPUT》 * |
于海鹏 等: "一种面向大数据的快速自动聚类算法", 《河南工程学院学报》 * |
张讲社 等: "基于视觉系统的聚类:原理与算法", 《工程数学学报》 * |
张讲社 等: "基于视觉系统的聚类算法", 《计算机学报》 * |
李洁 等: "一种基于CSA的混合属性特征大数据集聚类算法", 《电子学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108108747B (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109345619B (zh) | 基于类八叉树编码的海量点云空间管理方法 | |
Gao et al. | Ship-handling behavior pattern recognition using AIS sub-trajectory clustering analysis based on the T-SNE and spectral clustering algorithms | |
CN105956560B (zh) | 一种基于池化多尺度深度卷积特征的车型识别方法 | |
WO2023029461A1 (zh) | 海量高维ais轨迹数据聚类方法 | |
CN111475596B (zh) | 一种基于多层级轨迹编码树的子段相似性匹配方法 | |
CN103207879A (zh) | 图像索引的生成方法及设备 | |
CN104881449A (zh) | 基于流形学习数据压缩哈希的图像检索方法 | |
CN103955952A (zh) | 一种服装图像颜色特征的提取与描述方法 | |
Ding et al. | Student behavior clustering method based on campus big data | |
CN105117407A (zh) | 一种基于聚类的距离方向直方图的图像检索方法 | |
CN115115839A (zh) | 一种基于局部特征增强PointNet++网络的建筑物室内点云分割方法 | |
CN104376051A (zh) | 随机结构保形哈希信息检索方法 | |
CN112199862B (zh) | 纳米粒子运移的预测方法、其影响因子分析方法及系统 | |
Hacker | k-simplex2vec: a simplicial extension of node2vec | |
CN105740428B (zh) | 一种基于b+树的高维磁盘索引结构和图像检索方法 | |
CN114373099A (zh) | 一种基于稀疏图卷积的三维点云分类方法 | |
CN107038456A (zh) | 一种基于l1范数的概率线性判别分析的图像分类方法 | |
Thepade et al. | Feature extraction with ordered mean values for content based image classification | |
CN108108747A (zh) | 一种解决大数据聚类的基于视觉原理的聚类方法 | |
CN110956337A (zh) | 无人机常态化智能作业前的勘探方法和装置 | |
CN116246076A (zh) | 一种传统民居院落肌理特征识别应用方法和系统 | |
CN109033746A (zh) | 一种基于节点向量的蛋白质复合物识别方法 | |
CN105205487A (zh) | 一种图片处理方法及装置 | |
Li et al. | The parallel and precision adaptive method of marine lane extraction based on QuadTree | |
CN112084843B (zh) | 一种基于半监督学习的多光谱河道遥感监测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |