CN115543976A - 一种大数据处理系统 - Google Patents
一种大数据处理系统 Download PDFInfo
- Publication number
- CN115543976A CN115543976A CN202211157568.5A CN202211157568A CN115543976A CN 115543976 A CN115543976 A CN 115543976A CN 202211157568 A CN202211157568 A CN 202211157568A CN 115543976 A CN115543976 A CN 115543976A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- big
- data processing
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大数据处理系统,大数据处理流程包括数据采集、数据预处理、数据入库、数据处理、数据分析、数据可视化以及数据确认,对采集而来的数据线进行预处理,对数据进行清洗、集成、归纳、删除,减少对数据处理的压力,对数据进行初步的分类,清理,对预处理的数据进行入库存储,防止在后续操作中数据丢失,可以在数据入库这里进行找回,防止出现数据缺失,对所有入库的数据进行分布式计算,对入库数据进行处理,有效减少数据读写和移动的开销,提高大数据处理性能,在对处理后的数据进行分析,挖掘数据之间的关联性,深度学习,对分析过后的数据进行可视化,直观的反应出数据信息,有利与发现数据之间的影藏信息以及规律。
Description
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种大数据处理系统。
背景技术
很多事情在执行的时候都是有一定的流程的,那么大数据的处理也不例外,这是因为有关程序都是需要逻辑的,而大数据处理也需要逻辑,大数据处理的数据来源类型丰富,大数据处理的第一步是对数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合等操作,按照统一定义的格式对数据进行存储。现有的数据抽取和集成方法有三种,分别是基于物化或ETL方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎,从现有的数据处理方式看出,往往在处理大批量的数据以及重复数据时,往往在数据处理过程中会对所有数据进行直接存储,是的大量坏数据被保存,大量重复数据出现,而少量的数据处理引擎在处理数据时,往往是更具一定的规则在处理过后难免存在数据误删,数据缺失等风险,为此我们提出一种大数据处理系统。
发明内容
本发明的目的是为了解决现有技术中存在数据处理速度慢,存在数据丢失,数据重复等的缺点,而提出的一种大数据处理系统。
为了实现上述目的,本发明采用了如下技术方案:
一种大数据处理系统,包括数据采集模块、数据预处理模块、数据库模块、数据处理模块、数据分析模块、数据可视化模块、数据确认模块,其中数据采集模块是采集原始数据到数据预处理模块,数据预处理模块设置为用于原始数据的初步处理,处理过后的数据导入到数据库模块,数据处理模块设置为对数据库中的数据进行处理,数据库分析模块是对数据处理过后的数据进行分析挖掘;
所述数据采集模块,数据采集分为两种,一种是对目标服务器打印的日志以及自定义采集的日志进行采集,另一种是运用工具软件对数据采集到指定的位置;
所述数据预处理模块,对采集到的原始数据、多个数据源进行数据清洗、数据集成、数据归纳、数据转换、数据删除;
所述数据库模块,对预处理后的数据进行导入到数据库,对数据进行分类存储到不同的库与表中;
所述数据处理,采用批量分布式数据计算框架,对结构化以及非结构化的数据进行处理;
所述数据分析模块,根据大数据的应用环境以及需求,对数据进行分析,分析包括对已有数据的分布分析、对未知数据的的深度学习、挖掘、预测;
所述数据可视化模块,将大数据分析后所得数据进行可视化,采用图像、图形、表格等形式进行展示;
所述数据确认模块,对数据分析后得到数据进行应用,对应用结果进行检验、验证。
优选的,所述数据分析模块,对数据处理过后的数据进行聚类、分类、关联分析、深度学习,对数据集合进行挖掘,形成数据关联性、分析数据属性规则。
优选的,所述数据清洗,对采集到的数据进行清理,对不一致的数据、噪声数据,重复数据进行过滤修正。
优选的,所述数据集成,对多个数据源进行集成,形成集中统一的数据库。
优选的,所述数据归纳,对存在的数据集成进行简化,在不损坏数据的前提下对数据进行维度归纳、数据归纳、数据抽样等操作。
优选的,所述数据转换,对不同集成中的数据进行转换,实现数据集成中的数据统一。
优选的,所述数据处理模块,根据大数据类型选择合适的存储形式和数据处理系统,采用分布式计算系统,分布式计算系统可有效减少数据读写和移动的开销,提高大数据处理性能。
优选的,所述数据可视化模块,对分析过后的数据进行可视化,直观的反应出数据信息,有利与发现数据之间的影藏信息以及规律。
相比现有技术,本发明的有益效果为:
1、本发明依据传统的大数据进行改进,采用数据预处理技术,对采集到的原始数据、多个数据源进行数据清洗、数据集成、数据归纳、数据转换、数据删除,减少对数据的影响,减少出现数据缺失、数据冲突、对后续数据处理进行保障,防止批量处理数据出现错误,保证大数据分析与预测结果的准确性与价值性,有利于提高大数据的一致性、准确性、真实性和可用性等方面的质量;
2、本发明采用数据可视化模块,将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程,并可与用户进行交互式处理。数据可视化技术有利于发现大量业务数据中隐含的规律性信息,以支持管理决策;可大大提高大数据分析结果的直观性,便于用户理解与使用,故数据可视化是影响大数据可用性和易于理解性质量的关键因素;
3、本发明采用数据确认模块,对数据处理以及分析过后的数据应用到实际情况下,对数据进行进行检验,提高数据的准确性以及真实性,体现了大数据分析处理结果的价值性和可用性。大数据应用对大数据的分析处理具有引导作用。
附图说明
图1为本发明提出的一种大数据处理系统基本流程图;
图2为本发明提出的一种大数据处理系统中数据预处理分类图;
图3为本发明提出的一种大数据处理系统原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-2,一种大数据处理系统,包括数据采集模块、数据预处理模块、数据库模块、数据处理模块、数据分析模块、数据可视化模块、数据确认模块,其中数据采集模块是采集原始数据到数据预处理模块,数据预处理模块设置为用于原始数据的初步处理,处理过后的数据导入到数据库模块,数据处理模块设置为对数据库中的数据进行处理,数据库分析模块是对数据处理过后的数据进行分析挖掘;
数据采集模块,数据采集分为两种,一种是对目标服务器打印的日志以及自定义采集的日志进行采集,另一种是运用工具软件对数据采集到指定的位置;
数据预处理模块,对采集到的原始数据、多个数据源进行数据清洗、数据集成、数据归纳、数据转换、数据删除;
数据库模块,对预处理后的数据进行导入到数据库,对数据进行分类存储到不同的库与表中;
数据处理,采用批量分布式数据计算框架,对结构化以及非结构化的数据进行处理;
数据分析模块,根据大数据的应用环境以及需求,对数据进行分析,分析包括对已有数据的分布分析、对未知数据的的深度学习、挖掘、预测;
数据可视化模块,将大数据分析后所得数据进行可视化,采用图像、图形、表格等形式进行展示;
数据确认模块,对数据分析后得到数据进行应用,对应用结果进行检验、验证。
其中,所述数据分析模块,对数据处理过后的数据进行聚类、分类、关联分析、深度学习,对数据集合进行挖掘,形成数据关联性、分析数据属性规则,相比较传统意义上的数据处理,数据分析对原有与数据存储等处理技术上,对数据进行分析挖掘,可以得出数据无法直观反应的信息,是的数据更具体,更丰富。
其中,所述数据清洗,对采集到的数据进行清理,对不一致的数据、噪声数据,重复数据进行过滤修正;,所述数据集成,对多个数据源进行集成,形成集中统一的数据库;所述数据归纳,对存在的数据集成进行简化,在不损坏数据的前提下对数据进行维度归纳、数据归纳、数据抽样等操作;所述数据转换,对不同集成中的数据进行转换,实现数据集成中的数据统一。
进一步的,所述数据处理模块,根据大数据类型选择合适的存储形式和数据处理系统,采用分布式计算系统,分布式计算系统可有效减少数据读写和移动的开销,提高大数据处理性能
本发明中,大数据处理流程包括数据采集、数据预处理、数据入库、数据处理、数据分析、数据可视化以及数据确认,对采集而来的数据线进行预处理,对数据进行清洗、集成、归纳、删除,减少对数据处理的压力,对数据进行初步的分类,清理,对预处理的数据进行入库存储,防止在后续操作中数据丢失,可以在数据入库这里进行找回,防止出现数据缺失,对所有入库的数据进行分布式计算,对入库数据进行处理,有效减少数据读写和移动的开销,提高大数据处理性能,在对处理后的数据进行分析,挖掘数据之间的关联性,深度学习,对分析过后的数据进行可视化,直观的反应出数据信息,有利与发现数据之间的影藏信息以及规律,便于理解,对可视化数据进行再次确认保障数据的准确性。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种大数据处理系统,其特征在于,包括数据采集模块、数据预处理模块、数据库模块、数据处理模块、数据分析模块、数据可视化模块、数据确认模块,其中数据采集模块是采集原始数据到数据预处理模块,数据预处理模块设置为用于原始数据的初步处理,处理过后的数据导入到数据库模块,数据处理模块设置为对数据库中的数据进行处理,数据库分析模块是对数据处理过后的数据进行分析挖掘;
所述数据采集模块,数据采集分为两种,一种是对目标服务器打印的日志以及自定义采集的日志进行采集,另一种是运用工具软件对数据采集到指定的位置;
所述数据预处理模块,对采集到的原始数据、多个数据源进行数据清洗、数据集成、数据归纳、数据转换、数据删除;
所述数据库模块,对预处理后的数据进行导入到数据库,对数据进行分类存储到不同的库与表中;
所述数据处理模块,采用批量分布式数据计算框架,对结构化以及非结构化的数据进行处理;
所述数据分析模块,根据大数据的应用环境以及需求,对数据进行分析,分析包括对已有数据的分布分析、对未知数据的的深度学习、挖掘、预测;
所述数据可视化模块,将大数据分析后所得数据进行可视化,采用图像、图形、表格等形式进行展示;
所述数据确认模块,对数据分析后得到数据进行应用,对应用结果进行检验、验证。
2.根据权利要求1所述的一种大数据处理系统,其特征在于,所述数据分析模块,对数据处理过后的数据进行聚类、分类、关联分析、深度学习,对数据集合进行挖掘,形成数据关联性、分析数据属性规则。
3.根据权利要求1所述的一种大数据处理系统,其特征在于,所述数据清洗,对采集到的数据进行清理,对不一致的数据、噪声数据,重复数据进行过滤修正。
4.根据权利要求1所述的一种大数据处理系统,其特征在于,所述数据集成,对多个数据源进行集成,形成集中统一的数据库。
5.根据权利要求1所述的一种大数据处理系统,其特征在于,所述数据归纳,对存在的数据集成进行简化,在不损坏数据的前提下对数据进行维度归纳、数据归纳、数据抽样等操作。
6.根据权利要求1所述的一种大数据处理系统,其特征在于,所述数据转换,对不同集成中的数据进行转换,实现数据集成中的数据统一。
7.根据权利要求1所述的一种大数据处理系统,其特征在于,所述数据处理模块,根据大数据类型选择合适的存储形式和数据处理系统,采用分布式计算系统,分布式计算系统可有效减少数据读写和移动的开销,提高大数据处理性能。
8.根据权利要求1所述的一种大数据处理系统,其特征在于,所述数据可视化模块,对分析过后的数据进行可视化,直观的反应出数据信息,有利与发现数据之间的影藏信息以及规律。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211157568.5A CN115543976A (zh) | 2022-09-22 | 2022-09-22 | 一种大数据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211157568.5A CN115543976A (zh) | 2022-09-22 | 2022-09-22 | 一种大数据处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115543976A true CN115543976A (zh) | 2022-12-30 |
Family
ID=84729584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211157568.5A Withdrawn CN115543976A (zh) | 2022-09-22 | 2022-09-22 | 一种大数据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115543976A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932830A (zh) * | 2023-08-18 | 2023-10-24 | 保定起成信息科技有限公司 | 一种高效大数据处理方法及装置 |
-
2022
- 2022-09-22 CN CN202211157568.5A patent/CN115543976A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932830A (zh) * | 2023-08-18 | 2023-10-24 | 保定起成信息科技有限公司 | 一种高效大数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2017101864A4 (en) | Method, device, server and storage apparatus of reviewing SQL | |
CN110019218B (zh) | 数据存储与查询方法及设备 | |
CN107844565B (zh) | 商品搜索方法和装置 | |
CN111709235A (zh) | 一种基于自然语言处理的文本数据统计分析系统及方法 | |
CN112000773A (zh) | 基于搜索引擎技术的数据关联关系挖掘方法及应用 | |
FR3003369A1 (fr) | Systeme et procede pour l'identification et l'analyse d'entites a donnees de maintenance | |
US20210073216A1 (en) | Business intelligence system based on artificial intelligence and analysis method thereof | |
CN110362596A (zh) | 一种文本抽取信息结构化数据处理的控制方法及装置 | |
CN111427974A (zh) | 数据质量评估管理方法和装置 | |
CN106033438B (zh) | 舆情数据存储方法和服务器 | |
CN109299168B (zh) | 一种互联网大数据可视化分析系统 | |
CN115543976A (zh) | 一种大数据处理系统 | |
WO2021253641A1 (zh) | 着色语言翻译方法 | |
CN110825839A (zh) | 一种对文本信息中目标的关联关系分析方法 | |
CN105095436A (zh) | 数据源数据自动建模方法 | |
CN116828109A (zh) | 一种电话客服服务质量智能评估方法及系统 | |
CN115544156A (zh) | 一种实现数据溯源可视化的方法 | |
CN109948009A (zh) | 一种数据可视化引擎系统 | |
CN114417788A (zh) | 图纸解析方法、装置、存储介质及电子设备 | |
Langer et al. | Gideon-TS: Efficient Exploration and Labeling of Multivariate Industrial Sensor Data. | |
CN115392805B (zh) | 一种交易型合同合规风险诊断方法及系统 | |
CN110764853B (zh) | 一种多电子病历与单一文书缺陷之间的web界面展示方法 | |
CN113626385B (zh) | 一种基于文本数据读取的方法和系统 | |
CN117633051A (zh) | 一种基于五类网络数据的虚实实体探测技术 | |
Yu et al. | Interactive Transformations and Visual Assessment of Noisy Event Sequences: An Application in En-Route Air Traffic Control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20221230 |