CN107992590A - 一种有利于信息比对的大数据系统 - Google Patents
一种有利于信息比对的大数据系统 Download PDFInfo
- Publication number
- CN107992590A CN107992590A CN201711308211.1A CN201711308211A CN107992590A CN 107992590 A CN107992590 A CN 107992590A CN 201711308211 A CN201711308211 A CN 201711308211A CN 107992590 A CN107992590 A CN 107992590A
- Authority
- CN
- China
- Prior art keywords
- data
- decision tree
- cluster
- conducive
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种有利于信息比对的大数据系统,包括:用于建立多层决策树的决策树模块;用于提取至少两个有对应关系的数据作为数据组的提取模块;所述提取模块提取数据直至大数据库中大于阈值数量的数据都使用过;用于对数据组进行聚类分析的聚类模块;用于以层级关系明确后的多层决策树对新加入的数据进行分析的分析模块。本发明一种有利于信息比对的大数据系统,通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。
Description
技术领域
本发明涉及数据分析领域,具体涉及一种有利于信息比对的大数据系统。
背景技术
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点是数据量大、数据种类多、要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。
目前为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府机构判断和运作效率。
发明内容
本发明所要解决的技术问题是为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府判断和运作效率,目的在于提供一种有利于信息比对的大数据系统,解决上述问题。
本发明通过下述技术方案实现:
一种有利于信息比对的大数据系统,包括:用于建立多层决策树的决策树模块;用于提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵的提取模块;所述提取模块提取数据直至大数据库中大于阈值数量的数据都使用过;用于对数据组进行聚类分析的聚类模块;所述聚类模块将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;用于以层级关系明确后的多层决策树对新加入的数据进行分析的分析模块。
现有技术中,为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府判断和运作效率。本发明应用时,先建立多层决策树;再提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;然后循环执行S2直至大数据库中大于阈值数量的数据都使用过;然后对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;再然后以层级关系明确后的多层决策树对新加入的数据进行分析。本发明通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。
进一步的,所述聚类模块还用于设置聚类密度和聚类半径;所述聚类半径对应数据组的信息熵。
进一步的,所述多层决策树至少有三层。
进一步的,所述阈值数量为70%~80%。
进一步的,所述分析模块还用于将新加入的数据填入决策树的第一层,根据决策树的层级关系将数据映射入决策树的下一层,重复执行S52直至数据抵达决策树的最后一层,以决策树最后一层的结果作为数据分析的最终结果。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明一种有利于信息比对的大数据系统,通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,本发明一种有利于信息比对的大数据系统,一种有利于信息比对的大数据系统,包括:用于建立多层决策树的决策树模块;用于提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵的提取模块;所述提取模块提取数据直至大数据库中大于阈值数量的数据都使用过;用于对数据组进行聚类分析的聚类模块;所述聚类模块将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;用于以层级关系明确后的多层决策树对新加入的数据进行分析的分析模块。所述聚类模块还用于设置聚类密度和聚类半径;所述聚类半径对应数据组的信息熵。所述多层决策树至少有三层。所述阈值数量为70%~80%。所述分析模块还用于将新加入的数据填入决策树的第一层,根据决策树的层级关系将数据映射入决策树的下一层,重复执行S52直至数据抵达决策树的最后一层,以决策树最后一层的结果作为数据分析的最终结果。
本实施例实施时,先建立多层决策树;再提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;然后循环执行S2直至大数据库中大于阈值数量的数据都使用过;然后对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;再然后以层级关系明确后的多层决策树对新加入的数据进行分析。本发明通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种有利于信息比对的大数据系统,其特征在于,包括:
用于建立多层决策树的决策树模块;
用于提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵的提取模块;所述提取模块提取数据直至大数据库中大于阈值数量的数据都使用过;
用于对数据组进行聚类分析的聚类模块;所述聚类模块将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;
用于以层级关系明确后的多层决策树对新加入的数据进行分析的分析模块。
2.根据权利要求1所述的一种有利于信息比对的大数据系统,其特征在于,所述聚类模块还用于设置聚类密度和聚类半径;所述聚类半径对应数据组的信息熵。
3.根据权利要求1所述的一种有利于信息比对的大数据系统,其特征在于,所述多层决策树至少有三层。
4.根据权利要求1所述的一种有利于信息比对的大数据系统,其特征在于,所述阈值数量为70%~80%。
5.根据权利要求1所述的一种有利于信息比对的大数据系统,其特征在于,所述分析模块还用于将新加入的数据填入决策树的第一层,根据决策树的层级关系将数据映射入决策树的下一层,重复执行S52直至数据抵达决策树的最后一层,以决策树最后一层的结果作为数据分析的最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711308211.1A CN107992590B (zh) | 2017-12-11 | 2017-12-11 | 一种有利于信息比对的大数据系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711308211.1A CN107992590B (zh) | 2017-12-11 | 2017-12-11 | 一种有利于信息比对的大数据系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107992590A true CN107992590A (zh) | 2018-05-04 |
CN107992590B CN107992590B (zh) | 2021-11-05 |
Family
ID=62035727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711308211.1A Active CN107992590B (zh) | 2017-12-11 | 2017-12-11 | 一种有利于信息比对的大数据系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107992590B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378591A (zh) * | 2019-07-11 | 2019-10-25 | 仲恺农业工程学院 | 一种基于决策树的作物育种信息测定系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049580A (zh) * | 2013-01-17 | 2013-04-17 | 北京工商大学 | 一种层次数据的可视化方法和设备 |
US20130254206A1 (en) * | 2012-03-20 | 2013-09-26 | Microsoft Corporation | Information Entropy-Based Sampling of Social Media |
CN105138588A (zh) * | 2015-07-31 | 2015-12-09 | 南开大学 | 一种基于多标签传播的数据库重叠模式摘要生成方法 |
WO2015184982A1 (en) * | 2014-06-03 | 2015-12-10 | Tencent Technology (Shenzhen) Company Limited | Classifier training method and apparatus, identity authentication method and system |
CN107016080A (zh) * | 2017-03-29 | 2017-08-04 | 安庆师范大学 | 一种高效网络报文分类方法 |
-
2017
- 2017-12-11 CN CN201711308211.1A patent/CN107992590B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130254206A1 (en) * | 2012-03-20 | 2013-09-26 | Microsoft Corporation | Information Entropy-Based Sampling of Social Media |
CN103049580A (zh) * | 2013-01-17 | 2013-04-17 | 北京工商大学 | 一种层次数据的可视化方法和设备 |
WO2015184982A1 (en) * | 2014-06-03 | 2015-12-10 | Tencent Technology (Shenzhen) Company Limited | Classifier training method and apparatus, identity authentication method and system |
CN105138588A (zh) * | 2015-07-31 | 2015-12-09 | 南开大学 | 一种基于多标签传播的数据库重叠模式摘要生成方法 |
CN107016080A (zh) * | 2017-03-29 | 2017-08-04 | 安庆师范大学 | 一种高效网络报文分类方法 |
Non-Patent Citations (2)
Title |
---|
CHENG WANG; ZHENG QIN; JIXIN ZHANG; HUI YIN: "A malware variants detection methodology with an opcode based feature method and a fast density based clustering algorithm", 《2016 12TH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION, FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY》 * |
曹付元: "面向分类数据的聚类算法研究", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378591A (zh) * | 2019-07-11 | 2019-10-25 | 仲恺农业工程学院 | 一种基于决策树的作物育种信息测定系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107992590B (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017084586A1 (zh) | 基于深度学习方法推断恶意代码规则的方法、系统及设备 | |
CN111787090B (zh) | 一种基于区块链技术的智慧法治平台 | |
US20210192389A1 (en) | Method for ai optimization data governance | |
CN109218223B (zh) | 一种基于主动学习的鲁棒性网络流量分类方法及系统 | |
CN107665191A (zh) | 一种基于扩展前缀树的私有协议报文格式推断方法 | |
CN106936667A (zh) | 一种基于应用程序流量分布式分析的主机实时识别方法 | |
CN105956770A (zh) | 一种股市风险预测平台及其文本挖掘方法 | |
CN104462053A (zh) | 一种文本内的基于语义特征的人称代词指代消解方法 | |
CN105550378A (zh) | 一种复杂网络体系下异构安全日志信息的提取与分析方法 | |
CN110287688A (zh) | 关联账号分析方法、装置和计算机可读存储介质 | |
CN101996241A (zh) | 一种基于贝叶斯算法的内容过滤方法 | |
CN105574544A (zh) | 一种数据处理方法和装置 | |
CN109446816A (zh) | 一种基于大数据平台审计日志的用户行为分析方法 | |
CN103136372A (zh) | 网络可信性行为管理中url快速定位、分类和过滤方法 | |
CN110034966A (zh) | 一种基于机器学习的数据流分类方法及系统 | |
CN104731811B (zh) | 一种面向大规模动态短文本的聚类信息演化分析方法 | |
CN106681980B (zh) | 一种垃圾短信分析方法和装置 | |
CN107729939A (zh) | 一种面向新增电网资源的cim模型扩展方法及装置 | |
CN115170344A (zh) | 调控系统运行事件智能处理方法及装置、介质及设备 | |
CN105630797A (zh) | 数据处理方法及系统 | |
CN110347401B (zh) | 一种基于语义相似度的API Framework服务发现方法 | |
CN103166942B (zh) | 一种恶意代码的网络协议解析方法 | |
CN108052587A (zh) | 基于决策树的大数据分析方法 | |
CN107992590A (zh) | 一种有利于信息比对的大数据系统 | |
CN102681979B (zh) | 一种面向开放知识社区的内容编辑智能审核方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |