CN106294849A - 基于数据挖掘技术的海量数据查询系统 - Google Patents
基于数据挖掘技术的海量数据查询系统 Download PDFInfo
- Publication number
- CN106294849A CN106294849A CN201610700782.9A CN201610700782A CN106294849A CN 106294849 A CN106294849 A CN 106294849A CN 201610700782 A CN201610700782 A CN 201610700782A CN 106294849 A CN106294849 A CN 106294849A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- submodule
- mass
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Abstract
本发明公开了基于数据挖掘技术的海量数据查询系统,包括数据采集模块:从各类数据源收集数据到数据处理中心,数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;数据挖掘模块:包括数据源整合子模块、关联词存储子模块、挖掘子模块、输出子模块和反馈子模块,数据服务模块:将所述数据存储管理模块存储的数据以各种方式与用户之间进行交互,实现用户对数据的访问需求;数据监控模块。本发明能够提高海量数据查询速度,简化查询方式,降低查询成本,增强海量数据的使用便捷性。
Description
技术领域
本发明涉及一种查询系统,具体涉及基于数据挖掘技术的海量数据查询系统。
背景技术
随着计算机和网络技术的飞速发展,信息量的增长远远超出了人们对信息获取能力的增长。海量信息资源的有序存储和利用越来越受到世界各国的关注。现实社会里,由其在移动电子商务领域经常存在着对海量数据进行查询显示和浏览交易的需求。然而,面对海量级别的数据,我们首先要考虑的问题是如何提高海量数据的操作性能和处理效率。目前人们主要采取的海量数据处理措施主要包括:选用优秀的数据库工具、优化查询语句、加大虚拟内存、对数据进行分区操作、建立广泛的索引、利用分页技术进行分批处理、使用临时表和中间表、使用数据仓库和多维数据库存储、使用采样数据进行数据挖掘和升级硬件等策略。以上这些解决海量数据处理效率的策略往往需要巨大的资金投入,要么增加硬件的成本、要么提成开发人员的自身素质,这些都需要增加成本,并且不能从根源上解决海量数据的处理效率问题。
发明内容
本发明所要解决的技术问题是简化海量数据的查询系统,目的在于提供基于数据挖掘技术的海量数据查询系统,提高海量数据查询速度,简化查询方式,降低查询成本,增强海量数据的使用便捷性。
本发明通过下述技术方案实现:
基于数据挖掘技术的海量数据查询系统,包括:
数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;
数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;
数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;
数据挖掘模块:包括数据源整合子模块、关联词存储子模块、挖掘子模块、输出子模块和反馈子模块,其中所述数据源整合子模块将用户输入的搜索词和预先存储的关键词进行相关性匹配,形成所述搜索词和所述关键词之间对应关联的至少一种数据源;所述关联词存储子模块将数据源整合子模块中形成的搜索词和关键词之间关联的数据源发送给所述数据存储管理模块进行存储;所述挖掘子模块与数据存储管理子模块之间进行数据联系,构成网络拓扑关系图,并作数据挖掘;所述输出子模块根据用户输入的不同需求,将数据挖掘的数据显示,供用户选择;所述反馈子模块用于将用户满意度的信息回复给数据源整合子模块。
数据服务模块:将所述数据存储管理模块存储的数据以各种方式与用户之间进行交互,实现用户对数据的访问需求;
数据监控模块:对所述数据采集模块中的数据收集过程、多维数据集处理模块的多维度数据集、数据服务模块中的数据访问过程进行监控记录和处理。
数据采集模块将各类数据源的数据收集到数据处理中心,针对收集的数据进行格式检查和标准化处理的初步加工;数据处理模块将数据采集模块发送的数据进行进一步加工,包括对数据的实时质量检查、对数据进行选取、融合以及统计加工;数据存储模块将数据进行数据转换出力、数据融合处理等预处理工作之后将数据存入各数据子库中;数据挖掘模块将数据进行缺省值处理、噪声处理、数据集成、维度规约以及数据变换,根据用户输入的搜索词匹配关键词从海量数据中找出用户需要的数据;数据服务模块为用户提供除数据挖掘之外的数据需求;数据监控模块将对整个海量数据查询系统的数据的访问记录和过程进行监控。
进一步地,数据存储模块包括数据存储结构、数据入库存储、数据处理、数据清除、数据安全控制、数据备份与恢复、数据迁移与回迁、数据归档和数据访问接口。数据存储模块既要负责接收数据处理模块存入的数据,而且需要为数据挖掘模块和数据服务模块提供数据的输出。
进一步地,数据服务模块包括数据共享分发、元数据交换、数据定制服务、数据直接服务、数据访问服务接口和用户服务管理。
进一步地,挖掘子模块与数据存储管理子模块之间的数据联系是指将搜索词和关键词及其之间的关联抽象成节点,将所述节点附加属性,将搜索词和关键词之间建立存储结构。
本发明与现有技术相比,具有如下的优点和有益效果:能够提高海量数据查询速度,简化查询方式,降低查询成本,增强海量数据的使用便捷性。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,本发明基于数据挖掘技术的海量数据查询系统,基于数据挖掘技术的海量数据查询系统,包括:
数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;
数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;
数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;
数据挖掘模块:包括数据源整合子模块、关联词存储子模块、挖掘子模块、输出子模块和反馈子模块,其中所述数据源整合子模块将用户输入的搜索词和预先存储的关键词进行相关性匹配,形成所述搜索词和所述关键词之间对应关联的至少一种数据源;所述关联词存储子模块将数据源整合子模块中形成的搜索词和关键词之间关联的数据源发送给所述数据存储管理模块进行存储;所述挖掘子模块与数据存储管理子模块之间进行数据联系,构成网络拓扑关系图,并作数据挖掘;所述输出子模块根据用户输入的不同需求,将数据挖掘的数据显示,供用户选择;所述反馈子模块用于将用户满意度的信息回复给数据源整合子模块。
数据服务模块:将所述数据存储管理模块存储的数据以各种方式与用户之间进行交互,实现用户对数据的访问需求;
数据监控模块:对所述数据采集模块中的数据收集过程、多维数据集处理模块的多维度数据集、数据服务模块中的数据访问过程进行监控记录和处理。
数据采集模块将各类数据源的数据收集到数据处理中心,针对收集的数据进行格式检查和标准化处理的初步加工;数据处理模块将数据采集模块发送的数据进行进一步加工,包括对数据的实时质量检查、对数据进行选取、融合以及统计加工;数据存储模块将数据进行数据转换出力、数据融合处理等预处理工作之后将数据存入各数据子库中;数据挖掘模块将数据进行缺省值处理、噪声处理、数据集成、维度规约以及数据变换,根据用户输入的搜索词匹配关键词从海量数据中找出用户需要的数据;数据服务模块为用户提供除数据挖掘之外的数据需求;数据监控模块将对整个海量数据查询系统的数据的访问记录和过程进行监控。
数据存储模块包括数据存储结构、数据入库存储、数据处理、数据清除、数据安全控制、数据备份与恢复、数据迁移与回迁、数据归档和数据访问接口。数据存储模块既要负责接收数据处理模块存入的数据,而且需要为数据挖掘模块和数据服务模块提供数据的输出。数据服务模块包括数据共享分发、元数据交换、数据定制服务、数据直接服务、数据访问服务接口和用户服务管理。挖掘子模块与数据存储管理子模块之间的数据联系是指将搜索词和关键词及其之间的关联抽象成节点,将所述节点附加属性,将搜索词和关键词之间建立存储结构。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.基于数据挖掘技术的海量数据查询系统,其特征在于,包括:
数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;
数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;
数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;
数据挖掘模块:包括数据源整合子模块、关联词存储子模块、挖掘子模块、输出子模块和反馈子模块,其中所述数据源整合子模块将用户输入的搜索词和预先存储的关键词进行相关性匹配,形成所述搜索词和所述关键词之间对应关联的至少一种数据源;所述关联词存储子模块将数据源整合子模块中形成的搜索词和关键词之间关联的数据源发送给所述数据存储管理模块进行存储;所述挖掘子模块与数据存储管理子模块之间进行数据联系,构成网络拓扑关系图,并作数据挖掘;所述输出子模块根据用户输入的不同需求,将数据挖掘的数据显示,供用户选择;所述反馈子模块用于将用户满意度的信息回复给数据源整合子模块。
2.数据服务模块:将所述数据存储管理模块存储的数据以各种方式与用户之间进行交互,实现用户对数据的访问需求;
数据监控模块:对所述数据采集模块中的数据收集过程、多维数据集处理模块的多维度数据集、数据服务模块中的数据访问过程进行监控记录和处理。
3.根据权利要求1所述的基于数据挖掘技术的海量数据查询系统,其特征在于,所述数据存储管理模块包括数据存储、数据入库存储、数据处理、数据清除、数据安全控制、数据备份与恢复、数据迁移与回迁、数据归档和数据访问接口。
4.根据权利要求1所述的基于数据挖掘技术的海量数据查询系统,其特征在于,所述数据服务模块包括数据共享分发、元数据交换、数据定制服务、数据直接服务、数据访问服务接口和用户服务管理。
5.根据权利要求1所述的基于数据挖掘技术的海量数据查询系统,其特征在于,所述挖掘子模块与数据存储管理子模块之间的数据联系是指将搜索词和关键词及其之间的关联抽象成节点,将所述节点附加属性,将搜索词和关键词之间建立存储结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610700782.9A CN106294849A (zh) | 2016-08-23 | 2016-08-23 | 基于数据挖掘技术的海量数据查询系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610700782.9A CN106294849A (zh) | 2016-08-23 | 2016-08-23 | 基于数据挖掘技术的海量数据查询系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106294849A true CN106294849A (zh) | 2017-01-04 |
Family
ID=57661838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610700782.9A Pending CN106294849A (zh) | 2016-08-23 | 2016-08-23 | 基于数据挖掘技术的海量数据查询系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106294849A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109413013A (zh) * | 2017-08-18 | 2019-03-01 | 威科技术有限公司 | 促进通信设备之间的数据交换的系统和方法 |
CN117591578A (zh) * | 2024-01-18 | 2024-02-23 | 山东科技大学 | 一种基于大数据的数据挖掘系统及其挖掘方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110225195A1 (en) * | 2010-03-12 | 2011-09-15 | Kristopher Kubicki | System and method for gathering ecommerce data |
CN103365971A (zh) * | 2013-06-27 | 2013-10-23 | 北京中科金财科技股份有限公司 | 基于云计算的海量数据访问处理系统 |
CN103678665A (zh) * | 2013-12-24 | 2014-03-26 | 焦点科技股份有限公司 | 一种基于数据仓库的异构大数据整合方法和系统 |
CN103699550A (zh) * | 2012-09-27 | 2014-04-02 | 腾讯科技(深圳)有限公司 | 数据挖掘系统及数据挖掘方法 |
US20140372482A1 (en) * | 2013-06-14 | 2014-12-18 | Actuate Corporation | Performing data mining operations within a columnar database management system |
CN104408157A (zh) * | 2014-12-05 | 2015-03-11 | 四川诚品电子商务有限公司 | 一种网络舆情漏斗式数据采集分析推送系统及方法 |
US20150149491A1 (en) * | 2007-01-05 | 2015-05-28 | Digital Doors, Inc. | Information Infrastructure Management Data Processing Tools With Tags, Configurable Filters and Output Functions |
-
2016
- 2016-08-23 CN CN201610700782.9A patent/CN106294849A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150149491A1 (en) * | 2007-01-05 | 2015-05-28 | Digital Doors, Inc. | Information Infrastructure Management Data Processing Tools With Tags, Configurable Filters and Output Functions |
US20110225195A1 (en) * | 2010-03-12 | 2011-09-15 | Kristopher Kubicki | System and method for gathering ecommerce data |
CN103699550A (zh) * | 2012-09-27 | 2014-04-02 | 腾讯科技(深圳)有限公司 | 数据挖掘系统及数据挖掘方法 |
US20140372482A1 (en) * | 2013-06-14 | 2014-12-18 | Actuate Corporation | Performing data mining operations within a columnar database management system |
CN103365971A (zh) * | 2013-06-27 | 2013-10-23 | 北京中科金财科技股份有限公司 | 基于云计算的海量数据访问处理系统 |
CN103678665A (zh) * | 2013-12-24 | 2014-03-26 | 焦点科技股份有限公司 | 一种基于数据仓库的异构大数据整合方法和系统 |
CN104408157A (zh) * | 2014-12-05 | 2015-03-11 | 四川诚品电子商务有限公司 | 一种网络舆情漏斗式数据采集分析推送系统及方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109413013A (zh) * | 2017-08-18 | 2019-03-01 | 威科技术有限公司 | 促进通信设备之间的数据交换的系统和方法 |
CN117591578A (zh) * | 2024-01-18 | 2024-02-23 | 山东科技大学 | 一种基于大数据的数据挖掘系统及其挖掘方法 |
CN117591578B (zh) * | 2024-01-18 | 2024-04-09 | 山东科技大学 | 一种基于大数据的数据挖掘系统及其挖掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cai et al. | IoT-based big data storage systems in cloud computing: perspectives and challenges | |
Law et al. | Query languages and data models for database sequences and data streams | |
EP1890241B1 (en) | Business object search using multi-join indexes and extended join indexes | |
CN103678665A (zh) | 一种基于数据仓库的异构大数据整合方法和系统 | |
CN104346377A (zh) | 一种基于唯一标识的数据集成和交换方法 | |
CN110795509A (zh) | 一种数据仓库的指标血缘关系图的构建方法、装置和电子设备 | |
Park et al. | Toward total business intelligence incorporating structured and unstructured data | |
CN103577605A (zh) | 基于数据融合和数据挖掘的数据仓库及其应用方法 | |
CN104239373A (zh) | 为文档添加标签的方法及装置 | |
WO2014021874A1 (en) | Supporting multi-tenancy in a federated data management system | |
CN105556517A (zh) | 智能搜索精细化 | |
Du et al. | Clustering and ontology-based information integration framework for surface subsidence risk mitigation in underground tunnels | |
Jespersen et al. | A hybrid approach to web usage mining | |
CN106294849A (zh) | 基于数据挖掘技术的海量数据查询系统 | |
Ruggieri | Frequent regular itemset mining | |
Theeten et al. | Chive: Bandwidth optimized continuous querying in distributed clouds | |
CN103426049A (zh) | 一种基于web的化合物管理方法及系统 | |
Chandanan et al. | Removal of duplicate rules for association rule mining from multilevel dataset | |
CN101989939A (zh) | 实时数据提供方法、服务器和网络 | |
CN113254517A (zh) | 一种基于互联网大数据的服务提供方法 | |
Wang | Approaches to attribute reduction in concept lattices based on rough set theory | |
CN105978722A (zh) | 用户属性挖掘方法及装置 | |
Hoang et al. | Extraction of a temporal conceptual model from a relational database | |
CN110275798A (zh) | 区块链数据处理方法、装置、服务器及存储介质 | |
Liu et al. | A method of query over encrypted data in database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170104 |