CN106446277A - 一种大数据存储系统 - Google Patents
一种大数据存储系统 Download PDFInfo
- Publication number
- CN106446277A CN106446277A CN201610924638.3A CN201610924638A CN106446277A CN 106446277 A CN106446277 A CN 106446277A CN 201610924638 A CN201610924638 A CN 201610924638A CN 106446277 A CN106446277 A CN 106446277A
- Authority
- CN
- China
- Prior art keywords
- data
- storage system
- big
- data storage
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2219—Large Object storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据处理技术领域,一种大数据存储系统,包括依次连接的异构数据同步装置、数据整合装置、数据交换装置、数据管理装置、时间同步装置、数据转换及清理装置、数据抽取和装载装置和数据精度校验装置。本发明通过设计一种大数据存储系统,能够将分散的、不同类型的,不同标准的数据进行有效的除重筛选和整合。本发明能够有效地保证数据质量的同时,提高数据采样速度和处理准确性从而提高了预测精度。
Description
技术领域
本发明涉及大数据处理技术领域,具体涉及一种大数据存储系统。
背景技术
随着科技技术的进步,全球的数据量呈几何级数逐年递增,其数据资源的庞大,导致了数据存储系统的复杂化,如何对获取的数据进行自动分类整理,筛选掉无光紧要的数据,成为大数据存储中亟待解决的技术问题。
发明内容
为了解决上述技术问题,本发明提供了一种大数据存储系统,能够将分散的、不同类型的,不同标准的数据进行有效的除重筛选和整合。
为了达到上述目的,本发明所采用的技术方案是,一种大数据存储系统,包括依次连接的异构数据同步装置、数据整合装置、数据交换装置、数据管理装置、时间同步装置、数据转换及清理装置、数据抽取和装载装置和数据精度校验装置。
进一步的,所述异构数据同步装置用于获取多源采集的多种属性的数据,并根据时钟同步信号按照相应属性进行存储。
进一步的,所述数据整合装置分别对各种属性的数据进行数据清洗,排除异常数据。
进一步的,所述数据交换装置分别对各种属性的数据缺失值进行交换和补充。
进一步的,所述数据转换及清理装置分别对各种属性的数据进行样本数据抽取,去除冗余数据提取精简数据集。
本发明通过采用上述技术方案,与现有技术相比,具有如下优点:
本发明通过设计一种大数据存储系统,能够将分散的、不同类型的,不同标准的数据进行有效的除重筛选和整合。本发明能够有效地保证数据质量的同时,提高数据采样速度和处理准确性从而提高了预测精度。
附图说明
图1是本发明的实施例的结构示意图。
具体实施方式
现结合附图和具体实施方式对本发明进一步说明。
作为一个具体的实施例,如图1所示,一种大数据存储系统,包括依次连接的异构数据同步装置1、数据整合装置2、数据交换装置3、数据管理装置4、时间同步装置5、数据转换及清理装置6、数据抽取和装载装置7和数据精度校验装置8。
所述异构数据同步装置1用于获取多源采集的多种属性的数据,并根据时钟同步信号按照相应属性进行存储。
所述数据整合装置2分别对各种属性的数据进行数据清洗,排除异常数据。
所述数据交换装置3分别对各种属性的数据缺失值进行交换和补充。
所述数据管理装置4根据属性对数据进行分类管理。
所述时间同步装置5统一对各种属性的数据进行时间校准。
所述数据转换及清理装置6分别对各种属性的数据进行样本数据抽取,去除冗余数据提取精简数据集。
数据精度校验装置8按照预定的预测模型进行数据进行精度校验。
本发明能够通过异构数据同步装置1对异构数据进行同步,数据整合装置2对不同数据进行整合,数据交换装置3对数据进行交互,数据管理装置4和数据转换及清理装置5支持RAID创建、CIFS,NFS,FTP共享应用的数据存储进行有效转换成统一标准格式存储,并通过数据抽取和装载装置6进行统一格式封装。从而实现对结构化和非结构化数据的统一管理和存储。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
Claims (5)
1.一种大数据存储系统,其特征在于:包括依次连接的异构数据同步装置、数据整合装置、数据交换装置、数据管理装置、时间同步装置、数据转换及清理装置、数据抽取和装载装置和数据精度校验装置。
2.根据权利要求1所述的一种大数据存储系统,其特征在于:所述异构数据同步装置用于获取多源采集的多种属性的数据,并根据时钟同步信号按照相应属性进行存储。
3.根据权利要求1所述的一种大数据存储系统,其特征在于:所述数据整合装置分别对各种属性的数据进行数据清洗,排除异常数据。
4.根据权利要求1所述的一种大数据存储系统,其特征在于:所述数据交换装置分别对各种属性的数据缺失值进行交换和补充。
5.根据权利要求1所述的一种大数据存储系统,其特征在于:所述数据转换及清理装置分别对各种属性的数据进行样本数据抽取,去除冗余数据提取精简数据集。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610691173 | 2016-08-21 | ||
CN2016106911731 | 2016-08-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106446277A true CN106446277A (zh) | 2017-02-22 |
Family
ID=58175931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610924638.3A Pending CN106446277A (zh) | 2016-08-21 | 2016-10-24 | 一种大数据存储系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106446277A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391390A (zh) * | 2017-07-04 | 2017-11-24 | 深圳齐心集团股份有限公司 | 一种计算机大数据存储系统 |
CN108334604A (zh) * | 2018-02-01 | 2018-07-27 | 广东聚晨知识产权代理有限公司 | 一种大数据存储系统 |
CN108563789A (zh) * | 2018-04-28 | 2018-09-21 | 成都致云科技有限公司 | 基于Spark框架的数据清洗方法和装置 |
CN108984110A (zh) * | 2018-05-24 | 2018-12-11 | 太仓鸿策腾达网络科技有限公司 | 一种远程数据拷贝系统 |
CN111680083A (zh) * | 2020-04-30 | 2020-09-18 | 四川弘智远大科技有限公司 | 智能化多级政府财政数据采集系统及数据采集方法 |
-
2016
- 2016-10-24 CN CN201610924638.3A patent/CN106446277A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391390A (zh) * | 2017-07-04 | 2017-11-24 | 深圳齐心集团股份有限公司 | 一种计算机大数据存储系统 |
CN108334604A (zh) * | 2018-02-01 | 2018-07-27 | 广东聚晨知识产权代理有限公司 | 一种大数据存储系统 |
CN108563789A (zh) * | 2018-04-28 | 2018-09-21 | 成都致云科技有限公司 | 基于Spark框架的数据清洗方法和装置 |
CN108984110A (zh) * | 2018-05-24 | 2018-12-11 | 太仓鸿策腾达网络科技有限公司 | 一种远程数据拷贝系统 |
CN111680083A (zh) * | 2020-04-30 | 2020-09-18 | 四川弘智远大科技有限公司 | 智能化多级政府财政数据采集系统及数据采集方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446277A (zh) | 一种大数据存储系统 | |
EP2492767B1 (en) | Inspection system, management server, inspection apparatus and method for managing inspection data | |
CN104036025A (zh) | 一种基于分布式的海量日志采集系统 | |
CN108469989A (zh) | 一种基于集群性能的反馈式自动扩缩容方法及系统 | |
CN112560468B (zh) | 气象预警文本处理方法、相关装置及计算机程序产品 | |
US20220343047A1 (en) | Method and system for processing simulation data | |
CN101216438B (zh) | 基于fpga的印刷电路板大缺陷图像检测方法及系统 | |
CN106528649A (zh) | 一种新能源汽车的海量数据存储检索系统和方法 | |
CN104484410A (zh) | 应用于大数据系统的数据融合方法及系统 | |
CN107391596B (zh) | 一种配电网海量数据融合方法及装置 | |
CN106713909A (zh) | 一种视频编码方法、装置及系统 | |
CN111667476A (zh) | 布料瑕疵检测方法、装置、电子设备及可读存储介质 | |
CN103077277A (zh) | 基于标准土层的岩土工程勘察图形化分层及数据处理方法 | |
CN103399848A (zh) | 发动机试验数据标准化特定格式导入处理方法 | |
CN105205189A (zh) | 基于容器的bim模型与高速采集数据系统的集成方法 | |
CN115509797A (zh) | 一种故障类别的确定方法、装置、设备及介质 | |
CN104751107B (zh) | 一种视频关键数据确定方法、装置及设备 | |
CN116069774B (zh) | 基于无线超时智能分析的数据清洗方法、装置及介质 | |
CN109902800A (zh) | 基于拟反馈神经网络的多级骨干网络检测通用物体的方法 | |
CN101819586A (zh) | 一种智能分拣服务器及统计数据的方法和系统 | |
CN103617323A (zh) | 一种基于飞行试验的颤振数据处理架构 | |
CN115794744A (zh) | 一种日志展示方法、装置、设备和存储介质 | |
CN104157588B (zh) | Sot封装类芯片引脚三维尺寸缺陷并行检测方法 | |
CN111258973A (zh) | Redis慢日志的存储、展示方法、装置、设备和介质 | |
CN106855877A (zh) | 一种大数据的同步复制的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170222 |
|
WD01 | Invention patent application deemed withdrawn after publication |