CN108108747A - 一种解决大数据聚类的基于视觉原理的聚类方法 - Google Patents

一种解决大数据聚类的基于视觉原理的聚类方法 Download PDF

Info

Publication number
CN108108747A
CN108108747A CN201710861282.8A CN201710861282A CN108108747A CN 108108747 A CN108108747 A CN 108108747A CN 201710861282 A CN201710861282 A CN 201710861282A CN 108108747 A CN108108747 A CN 108108747A
Authority
CN
China
Prior art keywords
coding
data
cluster
scale
access control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710861282.8A
Other languages
English (en)
Other versions
CN108108747B (zh
Inventor
徐宗本
张俪文
杨树森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201710861282.8A priority Critical patent/CN108108747B/zh
Publication of CN108108747A publication Critical patent/CN108108747A/zh
Application granted granted Critical
Publication of CN108108747B publication Critical patent/CN108108747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种解决大数据聚类的基于视觉原理的聚类方法,通过对原有数据进行给定精度的无损多尺度编码,实现数据的多尺度、多维度的网格化存储,基于各尺度编码判断编码和邻域编码的相似度,利用连通性分析,实现多尺度的聚类,提供多尺度的聚类结果。在数据编码过程中,利用了视觉原理,该原理符合韦伯定律,即感觉的差别阈限随原刺激量的变化而变化。

Description

一种解决大数据聚类的基于视觉原理的聚类方法
技术领域
本发明属于大数据聚类领域,具体涉及一种解决大数据聚类的基于视觉原理的聚类方法。
背景技术
聚类是依据数据的某种相似性(如结构或趋势)将数据划分为不同组别的知识发现方法。衡量数据间的相似度是聚类的基础,通常各个点之间的相似度以矩阵形式存储,对于大规模或是分布式数据此方式将导致数据传输量巨大,计算效率缓慢,甚至由于矩阵巨大无法存储的问题。
导致这些问题产生的原因是由于相似度以稠密矩阵的方式存储,数据量以原数据体量的平方速度增加。
目前已有的大数据聚类算法有以下两种:
以kmeans为代表的给定类个数的划分型聚类方法:该类方法在给定类数的前提下,衡量各个点与各类中心的相似度,判定点的归属,并迭代计算各个类中心。此种方法计算复杂度为线性,适合在大数据情形使用,但需要事先明确总体类数,同时各个类的数据分布需要满足球形分布,而且算法的稳定性与起始点的选取紧密相关。因此,虽然该类算法在大部分大数据平台上已经实现(Spark和petuum),但很难满足大数据聚类的需要。
另一类是DBSCAN基于密度的聚类方法:该方法通过衡量各个点在给定范围的点密度,确定点和给定范围内的点的连接关系,实现相同类内的元素相连接。此种方法适合在图模型中实现,可以实现任意形状的类的识别,但方法需要人为设定合适范围和密度的阈值,才能得到较好的聚类结果。这点在大数据和分布式情形下很难得到满足,因此该方法也很难满足聚类的需要。
聚类问题是人工智能、机器学习的等信息处理方法的基础,已有很多优秀的聚类算法,但在大数据计算环境下很难实现,而已有的大数据聚类方法却难以满足使用需要。
发明内容
本发明的目的在于克服聚类算法中相似度矩阵的生成和存储问题,提供一种解决大数据聚类的基于视觉原理的聚类方法,该方法通过对原有数据进行给定精度的无损多尺度编码,实现数据的多尺度、多维度的网格化存储,基于各尺度编码判断编码和邻域编码的相似度,利用连通性分析,实现多尺度的聚类,提供多尺度的聚类结果。在数据编码过程中,利用了视觉原理,该原理符合韦伯定律,即感觉的差别阈限随原刺激量的变化而变化。
为了达到上述目的,本发明包括以下步骤:
步骤一,确定编码精度:根据不同应用场景,设定不同的编码精度ε,ε的大小显示了编码与原始数据之间的误差;
步骤二,确定编码位数与最小尺度,最大尺度:由编码精度ε计算出编码的最大尺度σmax 与最小尺度σ0,同时可以得到编码的长度L;
步骤三,原数据编码:将原数据集以编码精度ε进行编码,除返回聚类结果步外,之后的计算步骤将都在编码上进行;
步骤四,单尺度聚类分析:包括四个部分,编码集的截断操作、相邻编码查找、连通性分析和聚类结果解码;
第五步,增加尺度数,σ=σ+1,重复步骤四操作,直到最大尺度σmax
所述步骤二中,d维的原始数据集χ中的任意元素χ∈Pδ,对于x的每一维 x(t)∈[at,bt],t∈[1,d],最大尺度σmax满足
最小尺度σ0通常为1,编码的位数L=σmax×d。
所述步骤三中,对原始数据中的每个元素进行S/D编码,获得原始编码集X,x∈Ξ,Pε(·) 为S/D编码函数,
e=Pε(x),e=[e(1)e(2)...e(L)]
其中,表示数字的二进制形式,表示向下取整操作。
所述步骤四的具体方法如下:
第一步,截断操作会根据当前的尺度,对编码集中的各个编码进行截断,获取该尺度下的编码集;
第二步,在当前尺度的编码集的基础上,进行各个编码的同尺度相邻编码查找,组成与相邻编码相连的图数据;
第三步,之后利用上一步图数据进行连通性分析,得到的最大连通子图为聚类结果;
第四步,再将聚类结果解码,从编码回归到原数据。
所述第二步中,若二维数据的1近邻八邻域2尺度距离编码通常[0001][0010][0011],构造提取同一维度数值的模板编码
编码e近邻编码集合Xe为,
u∈Xe,ut∈{et-,et,et+
其中,∧表示逻辑与操作,表示逻辑非操作,建立所有编码与其相邻编码的连接关系,得到σ尺度下的连接关系集合Eσ
所述第三步中,图Gσ=(Xσ,Eσ),对Gσ进行连通性分析,得到kσ个最大连通子图,即各子图的顶点集合聚类结果
与现有技术相比,本发明通过对原有数据进行给定精度的无损多尺度编码,实现数据的多尺度、多维度的网格化存储,基于各尺度编码判断编码和邻域编码的相似度,利用连通性分析,实现多尺度的聚类,提供多尺度的聚类结果。在数据编码过程中,利用了视觉原理,该原理符合韦伯定律,即感觉的差别阈限随原刺激量的变化而变化。
附图说明
图1为本发明的编码过程举例示意图;其中(a)显示了二维点(1,5)和(5,3)的位置和不同尺度编码示意;(b)显示了二维点以尺度2编码的过程;
图2为本发明相邻编码查找举例示意图;
图3为小规模数据集聚类结果示意图;其中,(a)为行为原始数据集,(b)行为kmeans 聚类结果,(c)行为density-peak聚类结果,(d)行为本发明聚类方法聚类结果;
图4为2015年1-6月纽约出租车行车记录示意图;
图5为大规模数据聚类结果示意图;其中,(a)为本发明聚类方法在各个尺度的聚类结果, (b)为本发明对应kmeans聚类的类数选取的对应聚类结果,(c)为kmeans聚类方法在k=10, k=100和k=10000时的聚类结果。
具体实施方式
下面结合附图对本发明做进一步说明。
Step1确定S/D编码精度:根据不同应用场景,设定不同的编码精度ε,ε的大小显示了编码与原始数据之间的误差;
Step2确定S/D编码的位数、最大尺度与最小尺度:d维的原始数据集χ中的任意元素 χ∈Pδ,对于x的每一维x(t)∈[at,bt],t∈[1,d],最大尺度σmax满足
最小尺度σ0通常为1,编码的位数L=σmax×d;
Step3对原始数据中的每个元素进行S/D编码,获得原始编码集X:x∈Ξ,Pε(·)为S/D编码函数,
e=Pε(x),e=[e(1)e(2)...e(L)]
其中,[·]2表示数字的二进制形式,表示向下取整操作。具体的二维数据点的编码过程如图1所示,其中(a)为二维点位置示意图,(b)为编码详细过程。
Step4单尺度聚类分析:根据视觉观察的原理,对编码集X进行多尺度观察,视距调整过程符合韦伯定律,尺度数σ从最小尺度数σ0开始。具体操作步骤包括四个部分,编码集的截断操作、相邻编码查找、连通性分析和聚类结果解码;
Step4.1截断操作会根据当前的尺度σ,对编码集X中的各个编码进行截断,
得到的该尺度编码组成该尺度下的编码集Xσ
Step4.2在编码集Xσ的基础上,进行同尺度相邻编码查找,已知需要计算的距离编码集ed,该距离编码集由编码的相邻特性、数据维度和当前尺度数决定,如二维数据的1近邻八邻域2 尺度距离编码通常[0001][0010][0011],构造提取同一维度数值的模板编码
编码e近邻编码集合Xe为,
u∈Xe,ut∈{et-,et,et+
其中,∧表示逻辑与操作,表示逻辑非操作,二维2尺度编码的邻接编码计算举例如图 2所示,建立所有编码与其相邻编码的连接关系,得到σ尺度下的连接关系集合Eσ
Step4.3图Gσ=(Xσ,Eσ),对Gσ进行连通性分析,得到kσ个最大连通子图,即各子图的顶点集合聚类结果
Step4.4查找各个编码内包括的原数据,将聚类结果从编码回归到原数据;
Step5增加尺度数,σ=σ+1,重复Step4操作,直到最大尺度σmax
实验结果:
小数据集验证实验:在多个小数据集上进行聚类,使用kmeans、density-peak和本发明方法,实验结果如图3所示。对于第一种直线、第三种圆环和第四种螺旋线的数据,density-peak 和本发明方法相比kmeans可以得到较好的结果;而对第二种高斯分布的数据,本发明算法有较好的聚类结果。
大规模数据实验:
大规模数据选取由纽约出租车管理局提供的2015年1-6月收集的8,500万条纽约出租车纪录二维地理坐标数据,数据整体示意图如图4所示。将使用Spark平台提供的kmeans聚类方法与本发明方法进行聚类,获得当地交通区域分块情况。
由图5可以看出,本发明方法的聚类结果基本保留了当地交通繁忙路段的分区情况,在不同尺度分区的精细程度不同,而kmeans算法的聚类结果仅仅根据数据之间的距离划分,并没有各个区域之间交通繁忙程度的关联性。

Claims (6)

1.一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,包括以下步骤:
步骤一,确定编码精度:根据不同应用场景,设定不同的编码精度ε,ε的大小显示了编码与原始数据之间的误差;
步骤二,确定编码位数与最小尺度,最大尺度:由编码精度ε计算出编码的最大尺度σmax与最小尺度σ0,同时可以得到编码的长度L;
步骤三,原数据编码:将原数据集以编码精度ε进行编码,除返回聚类结果步外,之后的计算步骤将都在编码上进行;
步骤四,单尺度聚类分析:包括四个部分,编码集的截断操作、相邻编码查找、连通性分析和聚类结果解码;
第五步,增加尺度数,σ=σ+1,重复步骤四操作,直到最大尺度σmax
2.根据权利要求1所述的一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,所述步骤二中,d维的原始数据集中的任意元素χ∈Pδ,对于x的每一维x(t)∈[at,bt],t∈[1,d],最大尺度σmax满足
最小尺度σ0通常为1,编码的位数L=σmax×d。
3.根据权利要求1所述的一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,所述步骤三中,对原始数据中的每个元素进行S/D编码,获得原始编码集X,x∈Ξ,Pε(·)为S/D编码函数,
e=Pε(x),e=[e(1)e(2)…e(L)]
其中,[·]2表示数字的二进制形式,表示向下取整操作。
4.根据权利要求1所述的一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,所述步骤四的具体方法如下:
第一步,截断操作会根据当前的尺度,对编码集中的各个编码进行截断,获取该尺度下的编码集;
第二步,在当前尺度的编码集的基础上,进行各个编码的同尺度相邻编码查找,组成与相邻编码相连的图数据;
第三步,之后利用上一步图数据进行连通性分析,得到的最大连通子图为聚类结果;
第四步,再将聚类结果解码,从编码回归到原数据。
5.根据权利要求4所述的一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,所述第二步中,若二维数据的1近邻八邻域2尺度距离编码通常[0001][0010][0011],构造提取同一维度数值的模板编码
编码e近邻编码集合Xe为,
u∈Xe,ut∈{et-,et,et+
其中,∧表示逻辑与操作,表示逻辑非操作,建立所有编码与其相邻编码的连接关系,得到σ尺度下的连接关系集合E。
6.根据权利要求4所述的一种解决大数据聚类的基于视觉原理的聚类方法,其特征在于,所述第三步中,图Gσ=(Xσ,Eσ),对Gσ进行连通性分析,得到kσ个最大连通子图,即各子图的顶点集合聚类结果为
CN201710861282.8A 2017-09-21 2017-09-21 一种解决大数据聚类的基于视觉原理的聚类方法 Active CN108108747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710861282.8A CN108108747B (zh) 2017-09-21 2017-09-21 一种解决大数据聚类的基于视觉原理的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710861282.8A CN108108747B (zh) 2017-09-21 2017-09-21 一种解决大数据聚类的基于视觉原理的聚类方法

Publications (2)

Publication Number Publication Date
CN108108747A true CN108108747A (zh) 2018-06-01
CN108108747B CN108108747B (zh) 2020-07-28

Family

ID=62207447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710861282.8A Active CN108108747B (zh) 2017-09-21 2017-09-21 一种解决大数据聚类的基于视觉原理的聚类方法

Country Status (1)

Country Link
CN (1) CN108108747B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314873A (zh) * 2010-06-30 2012-01-11 上海视加信息科技有限公司 一种语音基元的编码与合成系统
CN103605734A (zh) * 2013-11-19 2014-02-26 广东电网公司电力科学研究院 基于特征向量的数据传输压缩方法及其系统
CN104182465A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于网络的大数据处理方法
US20140358996A1 (en) * 2013-05-30 2014-12-04 Hon Hai Precision Industry Co., Ltd. Distributed encoding and decoding system, method, and device
US8996436B1 (en) * 2012-12-20 2015-03-31 Emc Corporation Decision tree classification for big data
US20160337348A1 (en) * 2015-05-12 2016-11-17 Victoria Kien Man Teng Security for cloud systems and virtualization cloud systems, mobile cloud systems and mobile virtualization cloud systems, and computer clusters and mobile device clusters
CN106529968A (zh) * 2016-09-29 2017-03-22 深圳大学 一种基于交易数据的客户分类方法及其系统
CN106649516A (zh) * 2016-10-18 2017-05-10 安徽天达网络科技有限公司 一种教育资源大数据处理方法
US20170255690A1 (en) * 2016-03-02 2017-09-07 Electronics And Telecommunications Research Institute System and method for managing data

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314873A (zh) * 2010-06-30 2012-01-11 上海视加信息科技有限公司 一种语音基元的编码与合成系统
US8996436B1 (en) * 2012-12-20 2015-03-31 Emc Corporation Decision tree classification for big data
US20140358996A1 (en) * 2013-05-30 2014-12-04 Hon Hai Precision Industry Co., Ltd. Distributed encoding and decoding system, method, and device
CN103605734A (zh) * 2013-11-19 2014-02-26 广东电网公司电力科学研究院 基于特征向量的数据传输压缩方法及其系统
CN104182465A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于网络的大数据处理方法
US20160337348A1 (en) * 2015-05-12 2016-11-17 Victoria Kien Man Teng Security for cloud systems and virtualization cloud systems, mobile cloud systems and mobile virtualization cloud systems, and computer clusters and mobile device clusters
US20170255690A1 (en) * 2016-03-02 2017-09-07 Electronics And Telecommunications Research Institute System and method for managing data
CN106529968A (zh) * 2016-09-29 2017-03-22 深圳大学 一种基于交易数据的客户分类方法及其系统
CN106649516A (zh) * 2016-10-18 2017-05-10 安徽天达网络科技有限公司 一种教育资源大数据处理方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
MIHAELA I. CHIDEAN 等: "Scalable Data-Coupled Clustering for Large Scale WSN", 《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》 *
S. BEULAH 等: "Detection of duplicated data with minimum overhead and secure data transmission for sensor big data", 《CLUSTER COMPUT》 *
于海鹏 等: "一种面向大数据的快速自动聚类算法", 《河南工程学院学报》 *
张讲社 等: "基于视觉系统的聚类:原理与算法", 《工程数学学报》 *
张讲社 等: "基于视觉系统的聚类算法", 《计算机学报》 *
李洁 等: "一种基于CSA的混合属性特征大数据集聚类算法", 《电子学报》 *

Also Published As

Publication number Publication date
CN108108747B (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN109345619B (zh) 基于类八叉树编码的海量点云空间管理方法
Gao et al. Ship-handling behavior pattern recognition using AIS sub-trajectory clustering analysis based on the T-SNE and spectral clustering algorithms
CN105956560B (zh) 一种基于池化多尺度深度卷积特征的车型识别方法
WO2023029461A1 (zh) 海量高维ais轨迹数据聚类方法
CN111475596B (zh) 一种基于多层级轨迹编码树的子段相似性匹配方法
CN103207879A (zh) 图像索引的生成方法及设备
CN104881449A (zh) 基于流形学习数据压缩哈希的图像检索方法
CN103955952A (zh) 一种服装图像颜色特征的提取与描述方法
Ding et al. Student behavior clustering method based on campus big data
CN105117407A (zh) 一种基于聚类的距离方向直方图的图像检索方法
CN115115839A (zh) 一种基于局部特征增强PointNet++网络的建筑物室内点云分割方法
CN104376051A (zh) 随机结构保形哈希信息检索方法
CN112199862B (zh) 纳米粒子运移的预测方法、其影响因子分析方法及系统
Hacker k-simplex2vec: a simplicial extension of node2vec
CN105740428B (zh) 一种基于b+树的高维磁盘索引结构和图像检索方法
CN114373099A (zh) 一种基于稀疏图卷积的三维点云分类方法
CN107038456A (zh) 一种基于l1范数的概率线性判别分析的图像分类方法
Thepade et al. Feature extraction with ordered mean values for content based image classification
CN108108747A (zh) 一种解决大数据聚类的基于视觉原理的聚类方法
CN110956337A (zh) 无人机常态化智能作业前的勘探方法和装置
CN116246076A (zh) 一种传统民居院落肌理特征识别应用方法和系统
CN109033746A (zh) 一种基于节点向量的蛋白质复合物识别方法
CN105205487A (zh) 一种图片处理方法及装置
Li et al. The parallel and precision adaptive method of marine lane extraction based on QuadTree
CN112084843B (zh) 一种基于半监督学习的多光谱河道遥感监测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant