CN108052587B - 基于决策树的大数据分析方法 - Google Patents
基于决策树的大数据分析方法 Download PDFInfo
- Publication number
- CN108052587B CN108052587B CN201711309287.6A CN201711309287A CN108052587B CN 108052587 B CN108052587 B CN 108052587B CN 201711309287 A CN201711309287 A CN 201711309287A CN 108052587 B CN108052587 B CN 108052587B
- Authority
- CN
- China
- Prior art keywords
- decision tree
- data
- big data
- analysis
- analysis method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003066 decision tree Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000007405 data analysis Methods 0.000 title claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 238000013507 mapping Methods 0.000 claims description 3
- 238000007621 cluster analysis Methods 0.000 abstract description 5
- 239000010410 layer Substances 0.000 description 18
- 239000002356 single layer Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于决策树的大数据分析方法,包括以下步骤:S1:建立多层决策树;S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;S4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确。本发明基于决策树的大数据分析方法,通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。
Description
技术领域
本发明涉及数据分析领域,具体涉及基于决策树的大数据分析方法。
背景技术
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点是数据量大、数据种类多、要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。
目前为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府机构判断和运作效率。
发明内容
本发明所要解决的技术问题是为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府判断和运作效率,目的在于提供基于决策树的大数据分析方法,解决上述问题。
本发明通过下述技术方案实现:
基于决策树的大数据分析方法,包括以下步骤:S1:建立多层决策树;S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;S4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;S5:以层级关系明确后的多层决策树对新加入的数据进行分析。
现有技术中,为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府判断和运作效率。本发明应用时,先建立多层决策树;再提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;然后循环执行S2直至大数据库中大于阈值数量的数据都使用过;然后对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;再然后以层级关系明确后的多层决策树对新加入的数据进行分析。本发明通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。
进一步的,步骤S4包括以下子步骤:设置聚类密度和聚类半径;所述聚类半径对应数据组的信息熵。
进一步的,所述多层决策树至少有三层。
进一步的,所述阈值数量为70%~80%。
进一步的,步骤S5包括以下子步骤:S51:将新加入的数据填入决策树的第一层;S52:根据决策树的层级关系将数据映射入决策树的下一层;S53:重复执行S52直至数据抵达决策树的最后一层;S54:以决策树最后一层的结果作为数据分析的最终结果。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明基于决策树的大数据分析方法,通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
本发明基于决策树的大数据分析方法,基于决策树的大数据分析方法,包括以下步骤:S1:建立多层决策树;S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;S4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;S5:以层级关系明确后的多层决策树对新加入的数据进行分析。步骤S4包括以下子步骤:设置聚类密度和聚类半径;所述聚类半径对应数据组的信息熵。所述多层决策树至少有三层。所述阈值数量为70%~80%,步骤S5包括以下子步骤:S51:将新加入的数据填入决策树的第一层;S52:根据决策树的层级关系将数据映射入决策树的下一层;S53:重复执行S52直至数据抵达决策树的最后一层;S54:以决策树最后一层的结果作为数据分析的最终结果。
本实施例实施时,先建立多层决策树;再提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;然后循环执行S2直至大数据库中大于阈值数量的数据都使用过;然后对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;再然后以层级关系明确后的多层决策树对新加入的数据进行分析。本发明通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.基于决策树的大数据分析方法,其特征在于,包括以下步骤:
S1:建立多层决策树;
S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;
S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;
S4:设置聚类密度和聚类半径,对数据组进行聚类分析,所述聚类分析的聚类半径对应数据组的信息熵,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;
S5:以层级关系明确后的多层决策树对新加入的数据进行分析。
2.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,所述多层决策树至少有三层。
3.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,所述阈值数量为70%~80%。
4.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,步骤S5包括以下子步骤:
S51:将新加入的数据填入决策树的第一层;
S52:根据决策树的层级关系将数据映射入决策树的下一层;
S53:重复执行S52直至数据抵达决策树的最后一层;
S54:以决策树最后一层的结果作为数据分析的最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711309287.6A CN108052587B (zh) | 2017-12-11 | 2017-12-11 | 基于决策树的大数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711309287.6A CN108052587B (zh) | 2017-12-11 | 2017-12-11 | 基于决策树的大数据分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108052587A CN108052587A (zh) | 2018-05-18 |
CN108052587B true CN108052587B (zh) | 2021-11-05 |
Family
ID=62123846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711309287.6A Expired - Fee Related CN108052587B (zh) | 2017-12-11 | 2017-12-11 | 基于决策树的大数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108052587B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885597B (zh) * | 2019-01-07 | 2023-05-30 | 平安科技(深圳)有限公司 | 基于机器学习的用户分群处理方法、装置及电子终端 |
CN110378591A (zh) * | 2019-07-11 | 2019-10-25 | 仲恺农业工程学院 | 一种基于决策树的作物育种信息测定系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049580A (zh) * | 2013-01-17 | 2013-04-17 | 北京工商大学 | 一种层次数据的可视化方法和设备 |
CN105138588A (zh) * | 2015-07-31 | 2015-12-09 | 南开大学 | 一种基于多标签传播的数据库重叠模式摘要生成方法 |
WO2015184982A1 (en) * | 2014-06-03 | 2015-12-10 | Tencent Technology (Shenzhen) Company Limited | Classifier training method and apparatus, identity authentication method and system |
CN107016080A (zh) * | 2017-03-29 | 2017-08-04 | 安庆师范大学 | 一种高效网络报文分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130254206A1 (en) * | 2012-03-20 | 2013-09-26 | Microsoft Corporation | Information Entropy-Based Sampling of Social Media |
-
2017
- 2017-12-11 CN CN201711309287.6A patent/CN108052587B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049580A (zh) * | 2013-01-17 | 2013-04-17 | 北京工商大学 | 一种层次数据的可视化方法和设备 |
WO2015184982A1 (en) * | 2014-06-03 | 2015-12-10 | Tencent Technology (Shenzhen) Company Limited | Classifier training method and apparatus, identity authentication method and system |
CN105138588A (zh) * | 2015-07-31 | 2015-12-09 | 南开大学 | 一种基于多标签传播的数据库重叠模式摘要生成方法 |
CN107016080A (zh) * | 2017-03-29 | 2017-08-04 | 安庆师范大学 | 一种高效网络报文分类方法 |
Non-Patent Citations (2)
Title |
---|
A malware variants detection methodology with an opcode based feature method and a fast density based clustering algorithm;Cheng Wang; Zheng Qin; Jixin Zhang; Hui Yin;《2016 12th International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery》;20160815;全文 * |
面向分类数据的聚类算法研究;曹付元;《中国博士学位论文全文数据库信息科技辑》;20101115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108052587A (zh) | 2018-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106886553B (zh) | 一种图像检索方法及服务器 | |
CN113591485B (zh) | 一种基于数据科学的智能化数据质量稽核系统及方法 | |
CN108052587B (zh) | 基于决策树的大数据分析方法 | |
CN106570104B (zh) | 一种流数据的多分区聚类预处理方法 | |
CN105989373A (zh) | 利用训练模型实现的获取设备指纹方法及装置 | |
CN115563477B (zh) | 谐波数据识别方法、装置、计算机设备和存储介质 | |
CN103455491B (zh) | 对查询词分类的方法及装置 | |
CN113409555A (zh) | 一种基于物联网的实时报警联动方法及系统 | |
CN107180079A (zh) | 基于卷积神经网络以及树与哈希结合索引的图像检索方法 | |
CN104361135A (zh) | 一种图像检索方法 | |
CN110287237B (zh) | 一种基于社会网络结构分析社团数据挖掘方法 | |
CN105654392A (zh) | 一种基于聚类算法的设备家族性缺陷的分析方法 | |
CN106156179A (zh) | 一种信息检索方法及装置 | |
CN107992590B (zh) | 一种有利于信息比对的大数据系统 | |
CN112329971A (zh) | 一种输变电工程投资决策模型的建模方法 | |
CN110826845A (zh) | 一种多维组合成本分摊装置及方法 | |
He et al. | Research on Mount Wilson magnetic classification based on deep learning | |
Mattas et al. | Agglomerative hierarchical clustering technique for partitioning patent dataset | |
Xia et al. | A study on the significance of software metrics in defect prediction | |
CN112256752B (zh) | 一种基于数据挖掘的数据预测处理方法 | |
CN111093268A (zh) | 一种离线指纹库区域划分方法、计算机设备、存储介质 | |
CN110210517A (zh) | 一种基于密度的多层分步聚类方法 | |
CN104391950A (zh) | 面向制造物联海量数据流哈希b+树结构复杂事件检测方法 | |
CN110796546A (zh) | 一种基于区块链的分布式聚类算法 | |
CN112714080B (zh) | 一种基于spark图算法的互连关系分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211105 |
|
CF01 | Termination of patent right due to non-payment of annual fee |