CN107992590B - 一种有利于信息比对的大数据系统 - Google Patents
一种有利于信息比对的大数据系统 Download PDFInfo
- Publication number
- CN107992590B CN107992590B CN201711308211.1A CN201711308211A CN107992590B CN 107992590 B CN107992590 B CN 107992590B CN 201711308211 A CN201711308211 A CN 201711308211A CN 107992590 B CN107992590 B CN 107992590B
- Authority
- CN
- China
- Prior art keywords
- data
- decision tree
- module
- clustering
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种有利于信息比对的大数据系统,包括:用于建立多层决策树的决策树模块;用于提取至少两个有对应关系的数据作为数据组的提取模块;所述提取模块提取数据直至大数据库中大于阈值数量的数据都使用过;用于对数据组进行聚类分析的聚类模块;用于以层级关系明确后的多层决策树对新加入的数据进行分析的分析模块。本发明一种有利于信息比对的大数据系统,通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。
Description
技术领域
本发明涉及数据分析领域,具体涉及一种有利于信息比对的大数据系统。
背景技术
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点是数据量大、数据种类多、要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。
目前为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府机构判断和运作效率。
发明内容
本发明所要解决的技术问题是为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府判断和运作效率,目的在于提供一种有利于信息比对的大数据系统,解决上述问题。
本发明通过下述技术方案实现:
一种有利于信息比对的大数据系统,包括:用于建立多层决策树的决策树模块;用于提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵的提取模块;所述提取模块提取数据直至大数据库中大于阈值数量的数据都使用过;用于对数据组进行聚类分析的聚类模块;所述聚类模块将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;用于以层级关系明确后的多层决策树对新加入的数据进行分析的分析模块。
现有技术中,为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府判断和运作效率。本发明应用时,先建立多层决策树;再提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;然后循环执行S2直至大数据库中大于阈值数量的数据都使用过;然后对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;再然后以层级关系明确后的多层决策树对新加入的数据进行分析。本发明通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。
进一步的,所述聚类模块还用于设置聚类密度和聚类半径;所述聚类半径对应数据组的信息熵。
进一步的,所述多层决策树至少有三层。
进一步的,所述阈值数量为70%~80%。
进一步的,所述分析模块还用于将新加入的数据填入决策树的第一层,根据决策树的层级关系将数据映射入决策树的下一层,重复执行S52直至数据抵达决策树的最后一层,以决策树最后一层的结果作为数据分析的最终结果。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明一种有利于信息比对的大数据系统,通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,本发明一种有利于信息比对的大数据系统,一种有利于信息比对的大数据系统,包括:用于建立多层决策树的决策树模块;用于提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵的提取模块;所述提取模块提取数据直至大数据库中大于阈值数量的数据都使用过;用于对数据组进行聚类分析的聚类模块;所述聚类模块将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;用于以层级关系明确后的多层决策树对新加入的数据进行分析的分析模块。所述聚类模块还用于设置聚类密度和聚类半径;所述聚类半径对应数据组的信息熵。所述多层决策树至少有三层。所述阈值数量为70%~80%。所述分析模块还用于将新加入的数据填入决策树的第一层,根据决策树的层级关系将数据映射入决策树的下一层,重复执行S52直至数据抵达决策树的最后一层,以决策树最后一层的结果作为数据分析的最终结果。
本实施例实施时,先建立多层决策树;再提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;然后循环执行S2直至大数据库中大于阈值数量的数据都使用过;然后对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;再然后以层级关系明确后的多层决策树对新加入的数据进行分析。本发明通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种有利于信息比对的大数据系统,其特征在于,包括:
用于建立多层决策树的决策树模块;
用于提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵的提取模块;
所述提取模块提取数据直至大数据库中大于阈值数量的数据都使用过;
用于对数据组进行聚类分析的聚类模块,所述聚类模块用于设置聚类密度和聚类半径,所述聚类半径对应数据组的信息熵,所述聚类模块将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;
用于以层级关系明确后的多层决策树对新加入的数据进行分析的分析模块。
2.根据权利要求1所述的一种有利于信息比对的大数据系统,其特征在于,所述多层决策树至少有三层。
3.根据权利要求1所述的一种有利于信息比对的大数据系统,其特征在于,所述阈值数量为70%~80%。
4.根据权利要求1所述的一种有利于信息比对的大数据系统,其特征在于,所述分析模块还用于将新加入的数据填入决策树的第一层,根据决策树的层级关系将数据映射入决策树的下一层,重复执行S52直至数据抵达决策树的最后一层,以决策树最后一层的结果作为数据分析的最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711308211.1A CN107992590B (zh) | 2017-12-11 | 2017-12-11 | 一种有利于信息比对的大数据系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711308211.1A CN107992590B (zh) | 2017-12-11 | 2017-12-11 | 一种有利于信息比对的大数据系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107992590A CN107992590A (zh) | 2018-05-04 |
CN107992590B true CN107992590B (zh) | 2021-11-05 |
Family
ID=62035727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711308211.1A Active CN107992590B (zh) | 2017-12-11 | 2017-12-11 | 一种有利于信息比对的大数据系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107992590B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378591A (zh) * | 2019-07-11 | 2019-10-25 | 仲恺农业工程学院 | 一种基于决策树的作物育种信息测定系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049580A (zh) * | 2013-01-17 | 2013-04-17 | 北京工商大学 | 一种层次数据的可视化方法和设备 |
CN105138588A (zh) * | 2015-07-31 | 2015-12-09 | 南开大学 | 一种基于多标签传播的数据库重叠模式摘要生成方法 |
WO2015184982A1 (en) * | 2014-06-03 | 2015-12-10 | Tencent Technology (Shenzhen) Company Limited | Classifier training method and apparatus, identity authentication method and system |
CN107016080A (zh) * | 2017-03-29 | 2017-08-04 | 安庆师范大学 | 一种高效网络报文分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130254206A1 (en) * | 2012-03-20 | 2013-09-26 | Microsoft Corporation | Information Entropy-Based Sampling of Social Media |
-
2017
- 2017-12-11 CN CN201711308211.1A patent/CN107992590B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049580A (zh) * | 2013-01-17 | 2013-04-17 | 北京工商大学 | 一种层次数据的可视化方法和设备 |
WO2015184982A1 (en) * | 2014-06-03 | 2015-12-10 | Tencent Technology (Shenzhen) Company Limited | Classifier training method and apparatus, identity authentication method and system |
CN105138588A (zh) * | 2015-07-31 | 2015-12-09 | 南开大学 | 一种基于多标签传播的数据库重叠模式摘要生成方法 |
CN107016080A (zh) * | 2017-03-29 | 2017-08-04 | 安庆师范大学 | 一种高效网络报文分类方法 |
Non-Patent Citations (2)
Title |
---|
A malware variants detection methodology with an opcode based feature method and a fast density based clustering algorithm;Cheng Wang; Zheng Qin; Jixin Zhang; Hui Yin;《2016 12th International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery》;20160815;全文 * |
面向分类数据的聚类算法研究;曹付元;《中国博士学位论文全文数据库信息科技辑》;20101115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107992590A (zh) | 2018-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359172B (zh) | 一种基于图划分的实体对齐优化方法 | |
CN102722709B (zh) | 一种垃圾图片识别方法和装置 | |
CN102902752B (zh) | 一种日志监控方法及系统 | |
CN107577771A (zh) | 一种大数据挖掘系统 | |
CN111538741B (zh) | 一种面向警情大数据的深度学习分析方法及系统 | |
CN103605651A (zh) | 一种基于olap多维分析的数据处理展现方法 | |
CN111090643B (zh) | 一种基于数据分析系统下的海量用电数据挖掘方法 | |
CN105376193A (zh) | 安全事件的智能关联分析方法与装置 | |
CN113409555B (zh) | 一种基于物联网的实时报警联动方法及系统 | |
CN104182465A (zh) | 一种基于网络的大数据处理方法 | |
CN115563477B (zh) | 谐波数据识别方法、装置、计算机设备和存储介质 | |
CN112182077A (zh) | 一种基于数据中台技术的智能运维系统 | |
CN104615734A (zh) | 一种社区管理服务大数据处理系统及其处理方法 | |
CN110287237B (zh) | 一种基于社会网络结构分析社团数据挖掘方法 | |
CN108052587B (zh) | 基于决策树的大数据分析方法 | |
CN107992590B (zh) | 一种有利于信息比对的大数据系统 | |
CN103929499A (zh) | 一种物联网异构标识识别方法和系统 | |
CN110609936A (zh) | 一种模糊地址数据智能分类的方法 | |
CN112363996A (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
CN109657060B (zh) | 安全生产事故案例推送方法及系统 | |
KR101985961B1 (ko) | 국가연구개발과제 유사도 정량화 시스템 및 이를 이용한 국가연구개발과제 협업 제안 방법 | |
CN105046217A (zh) | 一种人脸识别大数据量并发方案处理方法 | |
CN109522915B (zh) | 病毒文件聚类方法、装置及可读介质 | |
CN113407495A (zh) | 一种基于simhash的文件相似度判定方法及系统 | |
CN104111965A (zh) | 基于差别矩阵的ogc地理信息服务描述词汇约简方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |