CN106294849A - 基于数据挖掘技术的海量数据查询系统 - Google Patents

基于数据挖掘技术的海量数据查询系统 Download PDF

Info

Publication number
CN106294849A
CN106294849A CN201610700782.9A CN201610700782A CN106294849A CN 106294849 A CN106294849 A CN 106294849A CN 201610700782 A CN201610700782 A CN 201610700782A CN 106294849 A CN106294849 A CN 106294849A
Authority
CN
China
Prior art keywords
data
module
submodule
mass
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610700782.9A
Other languages
English (en)
Inventor
朱焰冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Calabar Inforamtion Technology Ltd By Share Ltd
Original Assignee
Chengdu Calabar Inforamtion Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Calabar Inforamtion Technology Ltd By Share Ltd filed Critical Chengdu Calabar Inforamtion Technology Ltd By Share Ltd
Priority to CN201610700782.9A priority Critical patent/CN106294849A/zh
Publication of CN106294849A publication Critical patent/CN106294849A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Abstract

本发明公开了基于数据挖掘技术的海量数据查询系统,包括数据采集模块:从各类数据源收集数据到数据处理中心,数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;数据挖掘模块:包括数据源整合子模块、关联词存储子模块、挖掘子模块、输出子模块和反馈子模块,数据服务模块:将所述数据存储管理模块存储的数据以各种方式与用户之间进行交互,实现用户对数据的访问需求;数据监控模块。本发明能够提高海量数据查询速度,简化查询方式,降低查询成本,增强海量数据的使用便捷性。

Description

基于数据挖掘技术的海量数据查询系统
技术领域
本发明涉及一种查询系统,具体涉及基于数据挖掘技术的海量数据查询系统。
背景技术
随着计算机和网络技术的飞速发展,信息量的增长远远超出了人们对信息获取能力的增长。海量信息资源的有序存储和利用越来越受到世界各国的关注。现实社会里,由其在移动电子商务领域经常存在着对海量数据进行查询显示和浏览交易的需求。然而,面对海量级别的数据,我们首先要考虑的问题是如何提高海量数据的操作性能和处理效率。目前人们主要采取的海量数据处理措施主要包括:选用优秀的数据库工具、优化查询语句、加大虚拟内存、对数据进行分区操作、建立广泛的索引、利用分页技术进行分批处理、使用临时表和中间表、使用数据仓库和多维数据库存储、使用采样数据进行数据挖掘和升级硬件等策略。以上这些解决海量数据处理效率的策略往往需要巨大的资金投入,要么增加硬件的成本、要么提成开发人员的自身素质,这些都需要增加成本,并且不能从根源上解决海量数据的处理效率问题。
发明内容
本发明所要解决的技术问题是简化海量数据的查询系统,目的在于提供基于数据挖掘技术的海量数据查询系统,提高海量数据查询速度,简化查询方式,降低查询成本,增强海量数据的使用便捷性。
本发明通过下述技术方案实现:
基于数据挖掘技术的海量数据查询系统,包括:
数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;
数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;
数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;
数据挖掘模块:包括数据源整合子模块、关联词存储子模块、挖掘子模块、输出子模块和反馈子模块,其中所述数据源整合子模块将用户输入的搜索词和预先存储的关键词进行相关性匹配,形成所述搜索词和所述关键词之间对应关联的至少一种数据源;所述关联词存储子模块将数据源整合子模块中形成的搜索词和关键词之间关联的数据源发送给所述数据存储管理模块进行存储;所述挖掘子模块与数据存储管理子模块之间进行数据联系,构成网络拓扑关系图,并作数据挖掘;所述输出子模块根据用户输入的不同需求,将数据挖掘的数据显示,供用户选择;所述反馈子模块用于将用户满意度的信息回复给数据源整合子模块。
数据服务模块:将所述数据存储管理模块存储的数据以各种方式与用户之间进行交互,实现用户对数据的访问需求;
数据监控模块:对所述数据采集模块中的数据收集过程、多维数据集处理模块的多维度数据集、数据服务模块中的数据访问过程进行监控记录和处理。
数据采集模块将各类数据源的数据收集到数据处理中心,针对收集的数据进行格式检查和标准化处理的初步加工;数据处理模块将数据采集模块发送的数据进行进一步加工,包括对数据的实时质量检查、对数据进行选取、融合以及统计加工;数据存储模块将数据进行数据转换出力、数据融合处理等预处理工作之后将数据存入各数据子库中;数据挖掘模块将数据进行缺省值处理、噪声处理、数据集成、维度规约以及数据变换,根据用户输入的搜索词匹配关键词从海量数据中找出用户需要的数据;数据服务模块为用户提供除数据挖掘之外的数据需求;数据监控模块将对整个海量数据查询系统的数据的访问记录和过程进行监控。
进一步地,数据存储模块包括数据存储结构、数据入库存储、数据处理、数据清除、数据安全控制、数据备份与恢复、数据迁移与回迁、数据归档和数据访问接口。数据存储模块既要负责接收数据处理模块存入的数据,而且需要为数据挖掘模块和数据服务模块提供数据的输出。
进一步地,数据服务模块包括数据共享分发、元数据交换、数据定制服务、数据直接服务、数据访问服务接口和用户服务管理。
进一步地,挖掘子模块与数据存储管理子模块之间的数据联系是指将搜索词和关键词及其之间的关联抽象成节点,将所述节点附加属性,将搜索词和关键词之间建立存储结构。
本发明与现有技术相比,具有如下的优点和有益效果:能够提高海量数据查询速度,简化查询方式,降低查询成本,增强海量数据的使用便捷性。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,本发明基于数据挖掘技术的海量数据查询系统,基于数据挖掘技术的海量数据查询系统,包括:
数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;
数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;
数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;
数据挖掘模块:包括数据源整合子模块、关联词存储子模块、挖掘子模块、输出子模块和反馈子模块,其中所述数据源整合子模块将用户输入的搜索词和预先存储的关键词进行相关性匹配,形成所述搜索词和所述关键词之间对应关联的至少一种数据源;所述关联词存储子模块将数据源整合子模块中形成的搜索词和关键词之间关联的数据源发送给所述数据存储管理模块进行存储;所述挖掘子模块与数据存储管理子模块之间进行数据联系,构成网络拓扑关系图,并作数据挖掘;所述输出子模块根据用户输入的不同需求,将数据挖掘的数据显示,供用户选择;所述反馈子模块用于将用户满意度的信息回复给数据源整合子模块。
数据服务模块:将所述数据存储管理模块存储的数据以各种方式与用户之间进行交互,实现用户对数据的访问需求;
数据监控模块:对所述数据采集模块中的数据收集过程、多维数据集处理模块的多维度数据集、数据服务模块中的数据访问过程进行监控记录和处理。
数据采集模块将各类数据源的数据收集到数据处理中心,针对收集的数据进行格式检查和标准化处理的初步加工;数据处理模块将数据采集模块发送的数据进行进一步加工,包括对数据的实时质量检查、对数据进行选取、融合以及统计加工;数据存储模块将数据进行数据转换出力、数据融合处理等预处理工作之后将数据存入各数据子库中;数据挖掘模块将数据进行缺省值处理、噪声处理、数据集成、维度规约以及数据变换,根据用户输入的搜索词匹配关键词从海量数据中找出用户需要的数据;数据服务模块为用户提供除数据挖掘之外的数据需求;数据监控模块将对整个海量数据查询系统的数据的访问记录和过程进行监控。
数据存储模块包括数据存储结构、数据入库存储、数据处理、数据清除、数据安全控制、数据备份与恢复、数据迁移与回迁、数据归档和数据访问接口。数据存储模块既要负责接收数据处理模块存入的数据,而且需要为数据挖掘模块和数据服务模块提供数据的输出。数据服务模块包括数据共享分发、元数据交换、数据定制服务、数据直接服务、数据访问服务接口和用户服务管理。挖掘子模块与数据存储管理子模块之间的数据联系是指将搜索词和关键词及其之间的关联抽象成节点,将所述节点附加属性,将搜索词和关键词之间建立存储结构。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.基于数据挖掘技术的海量数据查询系统,其特征在于,包括:
数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;
数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;
数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;
数据挖掘模块:包括数据源整合子模块、关联词存储子模块、挖掘子模块、输出子模块和反馈子模块,其中所述数据源整合子模块将用户输入的搜索词和预先存储的关键词进行相关性匹配,形成所述搜索词和所述关键词之间对应关联的至少一种数据源;所述关联词存储子模块将数据源整合子模块中形成的搜索词和关键词之间关联的数据源发送给所述数据存储管理模块进行存储;所述挖掘子模块与数据存储管理子模块之间进行数据联系,构成网络拓扑关系图,并作数据挖掘;所述输出子模块根据用户输入的不同需求,将数据挖掘的数据显示,供用户选择;所述反馈子模块用于将用户满意度的信息回复给数据源整合子模块。
2.数据服务模块:将所述数据存储管理模块存储的数据以各种方式与用户之间进行交互,实现用户对数据的访问需求;
数据监控模块:对所述数据采集模块中的数据收集过程、多维数据集处理模块的多维度数据集、数据服务模块中的数据访问过程进行监控记录和处理。
3.根据权利要求1所述的基于数据挖掘技术的海量数据查询系统,其特征在于,所述数据存储管理模块包括数据存储、数据入库存储、数据处理、数据清除、数据安全控制、数据备份与恢复、数据迁移与回迁、数据归档和数据访问接口。
4.根据权利要求1所述的基于数据挖掘技术的海量数据查询系统,其特征在于,所述数据服务模块包括数据共享分发、元数据交换、数据定制服务、数据直接服务、数据访问服务接口和用户服务管理。
5.根据权利要求1所述的基于数据挖掘技术的海量数据查询系统,其特征在于,所述挖掘子模块与数据存储管理子模块之间的数据联系是指将搜索词和关键词及其之间的关联抽象成节点,将所述节点附加属性,将搜索词和关键词之间建立存储结构。
CN201610700782.9A 2016-08-23 2016-08-23 基于数据挖掘技术的海量数据查询系统 Pending CN106294849A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610700782.9A CN106294849A (zh) 2016-08-23 2016-08-23 基于数据挖掘技术的海量数据查询系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610700782.9A CN106294849A (zh) 2016-08-23 2016-08-23 基于数据挖掘技术的海量数据查询系统

Publications (1)

Publication Number Publication Date
CN106294849A true CN106294849A (zh) 2017-01-04

Family

ID=57661838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610700782.9A Pending CN106294849A (zh) 2016-08-23 2016-08-23 基于数据挖掘技术的海量数据查询系统

Country Status (1)

Country Link
CN (1) CN106294849A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109413013A (zh) * 2017-08-18 2019-03-01 威科技术有限公司 促进通信设备之间的数据交换的系统和方法
CN117591578A (zh) * 2024-01-18 2024-02-23 山东科技大学 一种基于大数据的数据挖掘系统及其挖掘方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110225195A1 (en) * 2010-03-12 2011-09-15 Kristopher Kubicki System and method for gathering ecommerce data
CN103365971A (zh) * 2013-06-27 2013-10-23 北京中科金财科技股份有限公司 基于云计算的海量数据访问处理系统
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN103699550A (zh) * 2012-09-27 2014-04-02 腾讯科技(深圳)有限公司 数据挖掘系统及数据挖掘方法
US20140372482A1 (en) * 2013-06-14 2014-12-18 Actuate Corporation Performing data mining operations within a columnar database management system
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送系统及方法
US20150149491A1 (en) * 2007-01-05 2015-05-28 Digital Doors, Inc. Information Infrastructure Management Data Processing Tools With Tags, Configurable Filters and Output Functions

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150149491A1 (en) * 2007-01-05 2015-05-28 Digital Doors, Inc. Information Infrastructure Management Data Processing Tools With Tags, Configurable Filters and Output Functions
US20110225195A1 (en) * 2010-03-12 2011-09-15 Kristopher Kubicki System and method for gathering ecommerce data
CN103699550A (zh) * 2012-09-27 2014-04-02 腾讯科技(深圳)有限公司 数据挖掘系统及数据挖掘方法
US20140372482A1 (en) * 2013-06-14 2014-12-18 Actuate Corporation Performing data mining operations within a columnar database management system
CN103365971A (zh) * 2013-06-27 2013-10-23 北京中科金财科技股份有限公司 基于云计算的海量数据访问处理系统
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109413013A (zh) * 2017-08-18 2019-03-01 威科技术有限公司 促进通信设备之间的数据交换的系统和方法
CN117591578A (zh) * 2024-01-18 2024-02-23 山东科技大学 一种基于大数据的数据挖掘系统及其挖掘方法
CN117591578B (zh) * 2024-01-18 2024-04-09 山东科技大学 一种基于大数据的数据挖掘系统及其挖掘方法

Similar Documents

Publication Publication Date Title
Cai et al. IoT-based big data storage systems in cloud computing: perspectives and challenges
Law et al. Query languages and data models for database sequences and data streams
EP1890241B1 (en) Business object search using multi-join indexes and extended join indexes
CN103678665A (zh) 一种基于数据仓库的异构大数据整合方法和系统
CN104346377A (zh) 一种基于唯一标识的数据集成和交换方法
CN110795509A (zh) 一种数据仓库的指标血缘关系图的构建方法、装置和电子设备
Park et al. Toward total business intelligence incorporating structured and unstructured data
CN103577605A (zh) 基于数据融合和数据挖掘的数据仓库及其应用方法
CN104239373A (zh) 为文档添加标签的方法及装置
WO2014021874A1 (en) Supporting multi-tenancy in a federated data management system
CN105556517A (zh) 智能搜索精细化
Du et al. Clustering and ontology-based information integration framework for surface subsidence risk mitigation in underground tunnels
Jespersen et al. A hybrid approach to web usage mining
CN106294849A (zh) 基于数据挖掘技术的海量数据查询系统
Ruggieri Frequent regular itemset mining
Theeten et al. Chive: Bandwidth optimized continuous querying in distributed clouds
CN103426049A (zh) 一种基于web的化合物管理方法及系统
Chandanan et al. Removal of duplicate rules for association rule mining from multilevel dataset
CN101989939A (zh) 实时数据提供方法、服务器和网络
CN113254517A (zh) 一种基于互联网大数据的服务提供方法
Wang Approaches to attribute reduction in concept lattices based on rough set theory
CN105978722A (zh) 用户属性挖掘方法及装置
Hoang et al. Extraction of a temporal conceptual model from a relational database
CN110275798A (zh) 区块链数据处理方法、装置、服务器及存储介质
Liu et al. A method of query over encrypted data in database

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104