CN108052587B - 基于决策树的大数据分析方法 - Google Patents

基于决策树的大数据分析方法 Download PDF

Info

Publication number
CN108052587B
CN108052587B CN201711309287.6A CN201711309287A CN108052587B CN 108052587 B CN108052587 B CN 108052587B CN 201711309287 A CN201711309287 A CN 201711309287A CN 108052587 B CN108052587 B CN 108052587B
Authority
CN
China
Prior art keywords
decision tree
data
big data
analysis
analysis method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711309287.6A
Other languages
English (en)
Other versions
CN108052587A (zh
Inventor
徐帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Yizhongli Network Technology Co ltd
Original Assignee
Chengdu Yizhongli Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Yizhongli Network Technology Co ltd filed Critical Chengdu Yizhongli Network Technology Co ltd
Priority to CN201711309287.6A priority Critical patent/CN108052587B/zh
Publication of CN108052587A publication Critical patent/CN108052587A/zh
Application granted granted Critical
Publication of CN108052587B publication Critical patent/CN108052587B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于决策树的大数据分析方法,包括以下步骤:S1:建立多层决策树;S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;S4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确。本发明基于决策树的大数据分析方法,通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。

Description

基于决策树的大数据分析方法
技术领域
本发明涉及数据分析领域,具体涉及基于决策树的大数据分析方法。
背景技术
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点是数据量大、数据种类多、要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。
目前为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府机构判断和运作效率。
发明内容
本发明所要解决的技术问题是为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府判断和运作效率,目的在于提供基于决策树的大数据分析方法,解决上述问题。
本发明通过下述技术方案实现:
基于决策树的大数据分析方法,包括以下步骤:S1:建立多层决策树;S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;S4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;S5:以层级关系明确后的多层决策树对新加入的数据进行分析。
现有技术中,为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府判断和运作效率。本发明应用时,先建立多层决策树;再提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;然后循环执行S2直至大数据库中大于阈值数量的数据都使用过;然后对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;再然后以层级关系明确后的多层决策树对新加入的数据进行分析。本发明通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。
进一步的,步骤S4包括以下子步骤:设置聚类密度和聚类半径;所述聚类半径对应数据组的信息熵。
进一步的,所述多层决策树至少有三层。
进一步的,所述阈值数量为70%~80%。
进一步的,步骤S5包括以下子步骤:S51:将新加入的数据填入决策树的第一层;S52:根据决策树的层级关系将数据映射入决策树的下一层;S53:重复执行S52直至数据抵达决策树的最后一层;S54:以决策树最后一层的结果作为数据分析的最终结果。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明基于决策树的大数据分析方法,通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
本发明基于决策树的大数据分析方法,基于决策树的大数据分析方法,包括以下步骤:S1:建立多层决策树;S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;S4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;S5:以层级关系明确后的多层决策树对新加入的数据进行分析。步骤S4包括以下子步骤:设置聚类密度和聚类半径;所述聚类半径对应数据组的信息熵。所述多层决策树至少有三层。所述阈值数量为70%~80%,步骤S5包括以下子步骤:S51:将新加入的数据填入决策树的第一层;S52:根据决策树的层级关系将数据映射入决策树的下一层;S53:重复执行S52直至数据抵达决策树的最后一层;S54:以决策树最后一层的结果作为数据分析的最终结果。
本实施例实施时,先建立多层决策树;再提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;然后循环执行S2直至大数据库中大于阈值数量的数据都使用过;然后对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;再然后以层级关系明确后的多层决策树对新加入的数据进行分析。本发明通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于决策树的大数据分析方法,其特征在于,包括以下步骤:
S1:建立多层决策树;
S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;
S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;
S4:设置聚类密度和聚类半径,对数据组进行聚类分析,所述聚类分析的聚类半径对应数据组的信息熵,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;
S5:以层级关系明确后的多层决策树对新加入的数据进行分析。
2.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,所述多层决策树至少有三层。
3.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,所述阈值数量为70%~80%。
4.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,步骤S5包括以下子步骤:
S51:将新加入的数据填入决策树的第一层;
S52:根据决策树的层级关系将数据映射入决策树的下一层;
S53:重复执行S52直至数据抵达决策树的最后一层;
S54:以决策树最后一层的结果作为数据分析的最终结果。
CN201711309287.6A 2017-12-11 2017-12-11 基于决策树的大数据分析方法 Expired - Fee Related CN108052587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711309287.6A CN108052587B (zh) 2017-12-11 2017-12-11 基于决策树的大数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711309287.6A CN108052587B (zh) 2017-12-11 2017-12-11 基于决策树的大数据分析方法

Publications (2)

Publication Number Publication Date
CN108052587A CN108052587A (zh) 2018-05-18
CN108052587B true CN108052587B (zh) 2021-11-05

Family

ID=62123846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711309287.6A Expired - Fee Related CN108052587B (zh) 2017-12-11 2017-12-11 基于决策树的大数据分析方法

Country Status (1)

Country Link
CN (1) CN108052587B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885597B (zh) * 2019-01-07 2023-05-30 平安科技(深圳)有限公司 基于机器学习的用户分群处理方法、装置及电子终端
CN110378591A (zh) * 2019-07-11 2019-10-25 仲恺农业工程学院 一种基于决策树的作物育种信息测定系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049580A (zh) * 2013-01-17 2013-04-17 北京工商大学 一种层次数据的可视化方法和设备
CN105138588A (zh) * 2015-07-31 2015-12-09 南开大学 一种基于多标签传播的数据库重叠模式摘要生成方法
WO2015184982A1 (en) * 2014-06-03 2015-12-10 Tencent Technology (Shenzhen) Company Limited Classifier training method and apparatus, identity authentication method and system
CN107016080A (zh) * 2017-03-29 2017-08-04 安庆师范大学 一种高效网络报文分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130254206A1 (en) * 2012-03-20 2013-09-26 Microsoft Corporation Information Entropy-Based Sampling of Social Media

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049580A (zh) * 2013-01-17 2013-04-17 北京工商大学 一种层次数据的可视化方法和设备
WO2015184982A1 (en) * 2014-06-03 2015-12-10 Tencent Technology (Shenzhen) Company Limited Classifier training method and apparatus, identity authentication method and system
CN105138588A (zh) * 2015-07-31 2015-12-09 南开大学 一种基于多标签传播的数据库重叠模式摘要生成方法
CN107016080A (zh) * 2017-03-29 2017-08-04 安庆师范大学 一种高效网络报文分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A malware variants detection methodology with an opcode based feature method and a fast density based clustering algorithm;Cheng Wang; Zheng Qin; Jixin Zhang; Hui Yin;《2016 12th International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery》;20160815;全文 *
面向分类数据的聚类算法研究;曹付元;《中国博士学位论文全文数据库信息科技辑》;20101115;全文 *

Also Published As

Publication number Publication date
CN108052587A (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
CN106886553B (zh) 一种图像检索方法及服务器
CN108052587B (zh) 基于决策树的大数据分析方法
CN106570104B (zh) 一种流数据的多分区聚类预处理方法
CN105376193A (zh) 安全事件的智能关联分析方法与装置
CN105989373A (zh) 利用训练模型实现的获取设备指纹方法及装置
Ali et al. K-means clustering based on gower similarity coefficient: A comparative study
CN113409555A (zh) 一种基于物联网的实时报警联动方法及系统
CN107180079A (zh) 基于卷积神经网络以及树与哈希结合索引的图像检索方法
CN110287237B (zh) 一种基于社会网络结构分析社团数据挖掘方法
CN105654392A (zh) 一种基于聚类算法的设备家族性缺陷的分析方法
CN106156179A (zh) 一种信息检索方法及装置
CN113591485B (zh) 一种基于数据科学的智能化数据质量稽核系统及方法
CN107992590B (zh) 一种有利于信息比对的大数据系统
CN112329971A (zh) 一种输变电工程投资决策模型的建模方法
CN110826845A (zh) 一种多维组合成本分摊装置及方法
CN102855278A (zh) 一种仿真方法和系统
He et al. Research on Mount Wilson magnetic classification based on deep learning
Mattas et al. Agglomerative hierarchical clustering technique for partitioning patent dataset
US20230030210A1 (en) Tea impurity data annotation method based on supervised machine learning
CN113220973B (zh) 一种基于知识推理技术的舆情验真方法
CN112256752B (zh) 一种基于数据挖掘的数据预测处理方法
CN111093268A (zh) 一种离线指纹库区域划分方法、计算机设备、存储介质
CN110210517A (zh) 一种基于密度的多层分步聚类方法
CN104391950A (zh) 面向制造物联海量数据流哈希b+树结构复杂事件检测方法
CN110796546A (zh) 一种基于区块链的分布式聚类算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211105