CN106354784A - 基于降维分组的大数据聚类优化方法 - Google Patents

基于降维分组的大数据聚类优化方法 Download PDF

Info

Publication number
CN106354784A
CN106354784A CN201610709343.4A CN201610709343A CN106354784A CN 106354784 A CN106354784 A CN 106354784A CN 201610709343 A CN201610709343 A CN 201610709343A CN 106354784 A CN106354784 A CN 106354784A
Authority
CN
China
Prior art keywords
dimension
similarity
execution step
symbol
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610709343.4A
Other languages
English (en)
Inventor
王宇平
刘海燕
魏飞
关世伟
刘旭妍
宗婷婷
蔡坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201610709343.4A priority Critical patent/CN106354784A/zh
Publication of CN106354784A publication Critical patent/CN106354784A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于降维分组的大数据聚类优化方法,其步骤为:(1)初始化;(2)扫描大数据聚类优化问题对应的相似度表达式,判断是否含有相关性符号;(3)存储相关维度;(4)判断是否含有相似度子表达式;(5)存储相似度子表达式的临时数据;(6)判断相似度子表达式中是否含有相关性符号;(7)存储相关子维度;(8)判断相似度子表达式后的第一个符号是否是相似性符号;(9)合并相关维度;(10)释放临时数据;(11)合并带有公共元素的子维度。本发明能准确的对大数据聚类优化问题进行降维分组,占用资源少,速度快,具有广泛的适应性。

Description

基于降维分组的大数据聚类优化方法
技术领域
本发明属于大数据聚类优化技术领域,更进一步涉及大规模数值查询分析和优化技术领域中的基于降维分组的大数据聚类优化方法。本发明可用于大数据聚类,大数据压缩存储,分类器构造,大规模任务调度中通过对任务进行分组来优化调度过程,人工神经网络分类训练,工程设计问题中对各项系统参数进行分类优化等领域。
背景技术
大数据聚类优化技术指的是对大规模问题,即问题的维度或变量个数超过1000的问题,通过降维分组的方法降低问题的维度,从而更容易对大规模问题进行处理或优化。大规模问题因为维度高,搜索空间大,各维度之间存在关联性等特点,目前仍然是一类很难的,有待解决的问题。维度相关指的是各个维度之间相互影响,因此在分解大规模问题时,这些相关的维度必须被分到同一组(同一个子问题)中,不能分开。如果将相关维度错误的分到不同的子问题中,则得到的结果往往会非常差。目前针对此类大规模问题,主流的解决方案是采用“分而治之”的思想:把大规模问题分解成多个小规模的子问题分别加以解决,最后再合并小规模子问题从而得到大规模问题的解。但是如何分解子问题,如何正确识别和检测相关和不相关的维度,并将相关维度分到同一个组里,保证组内维度相关,组与组之间的维度不相关,是目前研究的热点及难点问题。2008年以来学术界陆续发表了很多关于分组方法研究的文章,如:随机分组(将各维度随机分为若干组),CCVIL分组(引入维度相关性的学习机制来判断维度的相关性),差分分组(通过计算各维度之间的差值来分析维度的相关性)等。
南京弘数信息科技有限公司在其申请的专利文献“一种针对大数据的分解组合聚类方法”(专利申请号CN201410334542.2,公开号CN104063518A)中公开了一种基于分解组合的大数据聚类方法。该方法将数据集进行横向切分,获得若干数据子集;再将横向数据子集进行纵向切分,获得若干纵向数据子集;然后使用基础聚类算法,获得经过横向和纵向切分后数据子集的类别标签。将若干个纵向数据子集的类别标签进行组合聚类获得横向数据子集的类别标签;再将若干个横向数据子集的类别标签再次进行组合聚类得到完整数据集的类别标签。该方法将大数据聚类问题转化为组合聚类问题,具有高效性,鲁棒性和可并行化等优点。但是,该方法仍然存在的不足之处是,该方法没有充分利用各维度的关联来划分子维度,而且参数的设定可能因问题而异,不容易设定。
M.Omidvar,X.Li,Y.Mei,and X.Yao在其发表的论文“Cooperative Co-EvolutionWith Differential Grouping for Large Scale Optimization”(IEEE Transactions onEvolutionary Computation,vol.18,no.3,378–393,2014)中提出了一种通过计算各维度的差值来分析维度的相关性的方法。在该论文中,检测第i个维度和第j个维度是否相关的方法是:首先将第j个维度固定为一个特定的值,给第i个维度一个增量之后求得结果f1,然后再将第j个维度固定为另外一个值,仍然给第i个维度一个同样的增量之后求得结果f2,如果f1和f2的值的差小于一个预先设定的阈值,则认为第i个维度和第j个维度是不相关的,否则认为第i个维度和第j个维度是相关的。该方法存在的不足之处是:该方法无法识别具有传递性的维度的相关性,因此这种方法得到的分组结果往往存在较大偏差;
Y.Mei,M.N.Omidvar,X.Li,and X.Yao在其发表的论文“Competitive divide-and-conquer algorithm for unconstrained large scale black-box optimization”(ACM Transactions on Mathematical Software,vol.V,no.N,2015)中提出了一种改进的差分分组的方法。该方法改进了上述问题,使得具有传递性的相关维度可以被识别,但是仍然存在的不足之处是:该方法对大规模问题中每个维度,都需要一一测试其与其他维度之间的相关性,消耗了过多的计算资源;而且因为阈值设定因问题而异,导致分组结果仍然存在偏差。
本发明通过分析引起各个维度相关的表达式特征,找出了相关维度的判断方法,通过扫描大数据聚类优化问题的相似度表达式来判断维度的相关性,占用的计算资源少,并且得到的分组结果是完全正确的
发明内容
本发明的目的是针对现有大数据聚类优化问题解决方法计算量大和准确度低的缺点,提出一种基于降维分组的大数据聚类优化方法,包括以下具体步骤:
(1)初始化:
(1a)创建一个全局相关维度Non-Set集合,并将其初始化为空;
(1b)创建一个临时集合Temp-Set,并将其初始化为空;
(2)扫描大数据聚类优化问题对应的相似度表达式,判断其中是否含有相关性符号,若是,则执行步骤(3),否则,执行步骤(4);
(3)存储相关维度:
将相似度表达式中含有的相关量,作为一个子维度,存到全局相关维度Non-Set集合中;
(4)判断相似度表达式中是否含有由括号分隔的相似度子表达式,若是,则执行步骤(5),否则,执行步骤(12);
(5)存储临时数据:
将相似度子表达式中包含的每个维度作为临时数据,存入到临时集合Temp-Set中;
(6)依次向右扫描相似度子表达式,判断相似度子表达式中是否含有相关性符号,若是,则执行步骤(7),否则,执行步骤(8);
(7)存储相关子维度:
将相关性符号对应的子维度存放到全局相关维度Non-Set集合中;
(8)判断相似度子表达式是否扫描完毕,若是,则执行步骤(9),否则,执行步骤(6);
(9)读入相似度子表达式后的第一个符号,判断该符号是否是相关性符号,若是,则执行步骤(10),否则,执行步骤(11);
(10)合并相关维度:
合并临时集合Temp-Set中的相关维度,并作为一个整体存放到全局相关维度Non-Set集合中;
(11)释放临时数据:
清空Temp-Set集合,释放临时数据;
(12)判断相似度表达式是否扫描完毕,若是,则执行步骤(13),否则,执行步骤(2);
(13)合并带有公共元素的子维度:
合并全局相关维度Non-Set集合含有公共元素的子维度,得到原大数据聚类优化问题降维分组后的结果。
本发明与现有技术相比有以下优点:
第一,由于本发明通过深入分析大数据聚类优化问题的相似度函数的性质,得出了影响维度相关性的普遍规律,克服了现有技术没有充分利用各维度间关联信息来划分子维度,并且参数的设定因问题而异的缺点,使得本发明具有更广泛的适应性,可以得到准确度更高的分组结果。
第二,本发明通过扫描大数据聚类的相似度函数表达式来实现对大数据聚类问题进行降维分组,克服了现有技术消耗过多的计算资源,分组结果存在偏差的问题,使得本发明具有速度快,占用的计算资源更少的优点;
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图1对本发明做进一步描述。
步骤1,初始化。
创建一个全局相关维度Non-Set集合,并将其初始化为空。
创建一个临时集合Temp-Set,并将其初始化为空。
步骤2,扫描大数据聚类优化问题对应的相似度表达式,判断其中是否含有相关性符号,若是,则执行步骤3,否则,执行步骤4。
步骤3,存储相关维度。
将相似度表达式中含有的相关量,作为一个子维度,存到全局相关维度Non-Set集合中。
步骤4,判断相似度表达式中是否含有由括号分隔的相似度子表达式,若是,则执行步骤5,否则,执行步骤12。
步骤5,存储临时数据。
将相似度子表达式中包含的每个维度作为临时数据,存入到临时集合Temp-Set中。
步骤6,依次向右扫描相似度子表达式,判断相似度子表达式中是否含有相关性符号,若是,则执行步骤7,否则,执行步骤8。
步骤7,存储相关子维度。
将相关性符号对应的子维度存放到全局相关维度Non-Set集合中。
步骤8,判断相似度子表达式是否扫描完毕,若是,则执行步骤9,否则,执行步骤6。
步骤9,读入相似度子表达式后的第一个符号,判断该符号是否是相关性符号,若是,则执行步骤10,否则,执行步骤11。
步骤10,合并相关维度。
合并临时集合Temp-Set中的相关维度,并作为一个整体存放到全局相关维度Non-Set集合中。
步骤11,释放临时数据。
清空Temp-Set集合,释放临时数据。
步骤12,判断相似度表达式是否扫描完毕,若是,则执行步骤13,否则,执行步骤2。
步骤13,合并带有公共元素的子维度。
合并全局相关维度Non-Set集合含有公共元素的子维度,得到原大数据聚类优化问题降维分组后的结果。

Claims (4)

1.一种基于降维分组的大数据聚类优化方法,具体步骤包括如下:
(1)初始化:
(1a)创建一个全局相关维度Non-Set集合,并将其初始化为空;
(1b)创建一个临时集合Temp-Set,并将其初始化为空;
(2)扫描大数据聚类优化问题对应的相似度表达式,判断其中是否含有相关性符号,若是,则执行步骤(3),否则,执行步骤(4);
(3)存储相关维度:
将相似度表达式中含有的相关量,作为一个子维度,存到全局相关维度Non-Set集合中;
(4)判断相似度表达式中是否含有由括号分隔的相似度子表达式,若是,则执行步骤(5),否则,执行步骤(12);
(5)存储临时数据:
将相似度子表达式中包含的每个维度作为临时数据,存入到临时集合Temp-Set中;
(6)依次向右扫描相似度子表达式,判断相似度子表达式中是否含有相关性符号,若是,则执行步骤(7),否则,执行步骤(8);
(7)存储相关子维度:
将相关性符号对应的子维度存放到全局相关维度Non-Set集合中;
(8)判断相似度子表达式是否扫描完毕,若是,则执行步骤(9),否则,执行步骤(6);
(9)读入相似度子表达式后的第一个符号,判断该符号是否是相关性符号,若是,则执行步骤(10),否则,执行步骤(11);
(10)合并相关维度:
合并临时集合Temp-Set中的相关维度,并作为一个整体存放到全局相关维度Non-Set集合中;
(11)释放临时数据:
清空Temp-Set集合,释放临时数据;
(12)判断相似度表达式是否扫描完毕,若是,则执行步骤(13),否则,执行步骤(2);
(13)合并带有公共元素的子维度:
合并全局相关维度Non-Set集合含有公共元素的子维度,得到原大数据聚类优化问题降维分组后的结果。
2.根据权利要求1所述的基于降维分组的大数据聚类优化方法,其特征在于:所述步骤(2)、步骤(6)、步骤(7)、步骤(9)中所述的相关性符号包括三角和反三角函数、偶次幂函数、乘号、除号、带有变量线性组合的矩阵运算符号。
3.根据权利要求1所述的基于降维分组的大数据聚类优化方法,其特征在于:所述步骤(3)、步骤(10)中所述的相关维度是指由相关性符号所对应的大数据聚类问题的维度。
4.根据权利要求1所述的基于降维分组的大数据聚类优化方法,其特征在于:所述步骤(7)中所述的相关子维度是指相似度子表达式中的由相关性符号所对应的大数据聚类问题的维度。
CN201610709343.4A 2016-08-23 2016-08-23 基于降维分组的大数据聚类优化方法 Pending CN106354784A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610709343.4A CN106354784A (zh) 2016-08-23 2016-08-23 基于降维分组的大数据聚类优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610709343.4A CN106354784A (zh) 2016-08-23 2016-08-23 基于降维分组的大数据聚类优化方法

Publications (1)

Publication Number Publication Date
CN106354784A true CN106354784A (zh) 2017-01-25

Family

ID=57844443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610709343.4A Pending CN106354784A (zh) 2016-08-23 2016-08-23 基于降维分组的大数据聚类优化方法

Country Status (1)

Country Link
CN (1) CN106354784A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145934A (zh) * 2017-12-22 2019-01-04 北京数安鑫云信息技术有限公司 基于日志的用户行为数据处理方法、介质、设备及装置
CN109408554A (zh) * 2018-09-17 2019-03-01 顺丰科技有限公司 物流网点的数据分析方法、系统、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145934A (zh) * 2017-12-22 2019-01-04 北京数安鑫云信息技术有限公司 基于日志的用户行为数据处理方法、介质、设备及装置
WO2019120241A1 (zh) * 2017-12-22 2019-06-27 北京数安鑫云信息技术有限公司 基于日志的用户行为数据处理方法、介质、设备及装置
CN109408554A (zh) * 2018-09-17 2019-03-01 顺丰科技有限公司 物流网点的数据分析方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN104112026B (zh) 一种短信文本分类方法及系统
Tuarob et al. Automatic detection of pseudocodes in scholarly documents using machine learning
US9092229B2 (en) Software analysis system and method of use
CN104978521B (zh) 一种实现恶意代码标注的方法及系统
CN106250372A (zh) 一种用于电力系统的中文电力数据文本挖掘方法
CN102012936B (zh) 基于云计算平台的海量数据聚合方法和系统
CN102567494B (zh) 网站分类方法及装置
CN102402589A (zh) 一种提供与搜索请求相关的参考搜索信息的方法与设备
Nguyen et al. SparseHC: a memory-efficient online hierarchical clustering algorithm
CN107004141A (zh) 对大样本组的高效标注
CN102194012A (zh) 微博话题检测方法及系统
CN103838754A (zh) 信息搜索装置及方法
CN111325264A (zh) 一种基于熵的多标签数据分类方法
CN110704841A (zh) 一种基于卷积神经网络的大规模安卓恶意应用检测系统及方法
Chen et al. A novel algorithm for mining closed temporal patterns from interval-based data
TWI544348B (zh) 開端式偵測及文字資料中之字叢集之分類
CN106354784A (zh) 基于降维分组的大数据聚类优化方法
Uno Multi-sorting algorithm for finding pairs of similar short substrings from large-scale string data
WO2016093839A1 (en) Structuring of semi-structured log messages
Zeng et al. A text classification algorithm based on rocchio and hierarchical clustering
CN108229168B (zh) 一种嵌套类文件的启发式检测方法、系统及存储介质
Ravi et al. Behavior-based malware analysis using profile hidden markov models
KR102474042B1 (ko) 데이터 마이닝을 이용한 질병 연관성 분석 방법
Gholami et al. A survey on algorithms of mining frequent subgraphs
Jothi Detecting outliers in data streams using clustering algorithms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170125