CN104156395A - 数据存储系统 - Google Patents

数据存储系统 Download PDF

Info

Publication number
CN104156395A
CN104156395A CN201410334458.0A CN201410334458A CN104156395A CN 104156395 A CN104156395 A CN 104156395A CN 201410334458 A CN201410334458 A CN 201410334458A CN 104156395 A CN104156395 A CN 104156395A
Authority
CN
China
Prior art keywords
data
unit
storage system
storage
metadatabase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410334458.0A
Other languages
English (en)
Inventor
于兵
王喜春
金俭
张芸芸
翁志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI DFYH TECH SERVICES Co Ltd
Original Assignee
SHANGHAI DFYH TECH SERVICES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI DFYH TECH SERVICES Co Ltd filed Critical SHANGHAI DFYH TECH SERVICES Co Ltd
Priority to CN201410334458.0A priority Critical patent/CN104156395A/zh
Publication of CN104156395A publication Critical patent/CN104156395A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据存储系统,所述数据存储系统的数据接收单元用以接收基础数据;数据预处理单元连接所述数据接收单元,用以对所述数据接收单元接收的所述基础数据进行预处理,将预处理后的数据统一为同一格式的目标数据,并存储所述目标数据;缓存数据库连接所述数据预处理单元,用以对所述数据预处理单元发送的所述目标数据进行缓存;元数据库连接所述缓存数据库,用以将所述缓存数据库发送的所述缓存数据统一汇总形成元数据,并存储。该数据存储系统实现了即时存储、存储速度快的目的。

Description

数据存储系统
技术领域
本发明涉及数据管理,尤其涉及一种用于数据管理的数据存储系统。 
背景技术
存储系统的利用,帮助企业解决了大量的存储难题,但是随着海量数据的来临,数据系统也向着大容量存储系统发展,满足企业的更多需求。磁盘容量的快速增长使得配置容量惊人的单一存储系统成为可能。例如,用一个NetApp FAS6080,添加1,176个1TB SATA磁盘驱动器,最后得到一个裸存储容量为1PB(1,000TB)的单一系统。然而,由于新的更大容量磁盘的故障概率与更小容量的磁盘相当,而且性能也没有改进,因此重建出故障的1TB磁盘就好象是使用花园的浇水软管给游泳池注水一样。您必须做好准备,耐心等待更长的重建进程完成。对于远程的大容量数据存储系统,存在实时性差、存储速度慢的问题。 
发明内容
针对现有的数据存储系统存在的上述问题,现提供数据存储系统实现了即时存储、存储速度快的目的。 
数据存储系统,包括: 
数据接收单元,用以接收基础数据; 
数据预处理单元,连接所述数据接收单元,用以对所述数据接收单元接收的所述基础数据进行预处理,将预处理后的数据统一为同一格式的目标数据,并存储所述目标数据; 
缓存数据库,连接所述数据预处理单元,用以对所述数据预处理单元发送的所述目标数据进行缓存; 
元数据库,连接所述缓存数据库,用以将所述缓存数据库发送的所述缓存数据统一汇总形成元数据,并存储。 
优选的,所述数据接收单元包括复数个接收模块,每个所述接收模块对应一个采集单元,所述接收模块采集的基础数据为异构数据。 
优选的,所述数据预处理单元包括复数个预处理模块,所述预处理模块与所述接收模块一一对应; 
所述预处理模块,根据预设条件对所述异构数据进行抽取,将抽取后的数据转换为同一格式的所述目标数据,并存储所述目标数据。 
优选的,所述预处理模块对存储的所述目标数据进行定期清除。 
优选的,所述目标数据为数据编码、字段长度、字段类型和日期时间均相同的数据。 
优选的,所述缓存数据库包括复数个存储单元,所述存储单元与所述预处理模块一一对应,所述存储单元用以缓存与所述存储单元对应的所述预处理模块发送的所述目标数据。 
优选的,所述元数据库用以将复数个所述存储单元发送的所述缓存数据进行统一汇总形成元数据,并存储。 
优选的,还包括:信息发布单元,连接所述元数据库,用以接收移动终端发送的数据查询指令,将所述数据查询指令发送至所述元数据库,所述元数据库根据所述数据查询指令将与所述数据查询指令相对应的元数据发送至所述移动终端。 
有选的,还包括:磁带库,连接所述元数据库,用以对所述元数据库存储的元数据进行备份。 
上述技术方案的有益效果: 
数据接收单元可实时有效的接收基础数据,通过数据预处理单元将基础数据预处理为目标数据,有利于缓存数据库对目标数据进行同步存储缓存,元数据库将缓存数据统一汇总为元数据进行存储,可对数据进行永久保存,并保证了数据的完整性,存储效率高、速度快。 
附图说明
图1为本发明所述数据存储系统的一种实施例的整体框图。 
附图中:1.数据接收单元;2.数据预处理单元;3.缓存数据库;4.磁带库;5.元数据库;6.信息发布单元。 
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。 
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。 
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。 
如图1所示,数据存储系统,包括:数据接收单元1、数据预处理单元2、缓存数据库3和元数据库5; 
数据接收单元1用以接收基础数据; 
数据预处理单元2连接数据接收单元1,用以对数据接收单元1接收的基础数据进行预处理,将预处理后的数据统一为同一格式的目标数据,并存储目标数据; 
缓存数据库3连接数据预处理单元2,用以对数据预处理单元2发送的目标数据进行缓存; 
元数据库5连接缓存数据库3,用以将缓存数据库3发送的缓存数据统一汇总形成元数据,并存储。 
本发明可用于对多个企业和单位的能耗数据存储和管理,在本实施例中的数据接收单元1可实时有效的接收基础数据,通过数据预处理单元2将基础数据预处理为目标数据,有利于缓存数据库3对目标数据进行同步存储缓存,元数据库5将缓存数据统一汇总为元数据进行存储,可对数据进行永久保存,并保证了数据的完整性,存储效率高、速度快。 
在优选的实施例中,数据接收单元1包括复数个接收模块,每个接收模块对应一个采集单元,接收模块采集的基础数据为异构数据。 
在本实施例中数据接收单元1可对多个地区的多个基础数据同时存储,提高存储效率。 
在优选的实施例中,数据预处理单元2包括复数个预处理模块,预处理模块与接收模块一一对应; 
预处理模块,根据预设条件对异构数据进行抽取,将抽取后的数据转换为同一格式的目标数据,有利于将同一时刻接受到的基础数据进行统一传输,并存储目标数据。 
在本实施例中由于接收模块接收的数据来自不同的采集单元,各文件数据都是原来系统数据的直接反映,在数据编码、字段长度等多方面存在差异,预处理模块将原始抽取的基础数据转换为符合需要格式的数据,使之成为统一的目标数据形式。同时将转换好格式的数据通过Internet网络传输到中心 的缓存数据库3中,完成同步数据和异步传输的功能。 
预处理模块采用ETL(Extraction、Transformatio、Loading)技术,ETL过程就是从数据源采集所需数据,经过数据转换和清洗,最终按照预先定义好的数据模型,将数据加载到数据仓库或者数据库中。ETL对于构建数据中心占有非常重要的地位,使用ETL可以从多个平台的多个数据源抽取数据。并且把这些数据进行和并、计算,能够利用共享维度的设计方法,将单位的数据组织成数据仓库或数据集市。ETL的功能主要集中在转换和数据载入方面,最主要的问题就是定义ETL转换规则,完成数据的一致性工作,这包括数据编码的翻译,数据字长的统一和数据类型的统一,并且通过ETL的规则确定增量数据转换的频度,时间,错误处理和转换监控等。 
在优选的实施例中,预处理模块可对存储的目标数据进行定期清除,由于数据存储系统是24小时不间断的对数据进行存储,因此预处理模块中存储的数据一般以10天或1个月为周期,对存储的时间进行清除,以使预处理模块的存储空间得到充分利用。 
在优选的实施例中,目标数据为数据编码、字段长度、字段类型和日期时间均相同的数据,有利于将同一时刻接受到的基础数据进行统一传输。 
在优选的实施例中,缓存数据库3包括复数个存储单元,存储单元与预处理模块一一对应,存储单元用以缓存与存储单元对应的预处理模块发送的目标数据。 
由于数据存储系统是24小时不间断工作,涉及的数据的内容众多,即时接收的数据增长迅速。同时企业的用能数据在每个点上的数据都是状态数据,在管理和控制的时候有效,由此,即时的缓存数据并非必要永久保存,其汇总后的数据已经作为永久保存的元数据在元数据库5中保留,可将缓存数据设定为1天保存即可。可采24小时的清理机制,使缓存数据库3存储空间的得到充分利用。 
在优选的实施例中,元数据库5用以将复数个存储单元发送的缓存数据 进行统一汇总形成元数据,并存储。 
在本实施里中进行即时存储数据的情况下为了确保传输数据的准备性和完整性,采用数据预处理单元2将采集到的基础数据预处理后放入缓存数据库3,使缓存数据的组织和元数据相同,但是在约束和完整性方面并不像元数据一样完整,这种设置是为了便于处理传输造成的问题,同时为了便于调整同步数据的异步传输问题,即各个单位并不是在同一时间上报同一时间的目标数据,单是在元数据库5中这些数据是同步的,属于同一时间范围。 
在优选的实施例中,还包括信息发布单元6,连接元数据库5,用以接收移动终端发送的数据查询指令,将数据查询指令发送至元数据库5,元数据库5根据数据查询指令将与数据查询指令相对应的元数据发送至移动终端,可随时随地的对存储的数据进行查询。 
在优选的实施例中,还包括:磁带库4,磁带库4连接元数据库5,用以对元数据库5存储的元数据进行定时备份,保证了元数据的安全性。进一步的,可也采用磁盘阵列对元数据进行备份。 
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。 

Claims (9)

1.数据存储系统,其特征在于,包括:
数据接收单元,用以接收基础数据;
数据预处理单元,连接所述数据接收单元,用以对所述数据接收单元接收的所述基础数据进行预处理,将预处理后的数据统一为同一格式的目标数据,并存储所述目标数据;
缓存数据库,连接所述数据预处理单元,用以对所述数据预处理单元发送的所述目标数据进行缓存;
元数据库,连接所述缓存数据库,用以将所述缓存数据库发送的所述缓存数据统一汇总形成元数据,并存储。
2.如权利要求1所述数据存储系统,其特征在于,所述数据接收单元包括复数个接收模块,每个所述接收模块对应一个采集单元,所述接收模块采集的基础数据为异构数据。
3.如权利要求2所述数据存储系统,其特征在于,所述数据预处理单元包括复数个预处理模块,所述预处理模块与所述接收模块一一对应;
所述预处理模块,根据预设条件对所述异构数据进行抽取,将抽取后的数据转换为同一格式的所述目标数据,并存储所述目标数据。
4.如权利要求3所述数据存储系统,其特征在于,所述预处理模块对存储的所述目标数据进行定期清除。
5.如权利要求3所述数据存储系统,其特征在于,所述目标数据为数据编码、字段长度、字段类型和日期时间均相同的数据。
6.如权利要求3所述数据存储系统,其特征在于,所述缓存数据库包括复数个存储单元,所述存储单元与所述预处理模块一一对应,所述存储单元用以缓存与所述存储单元对应的所述预处理模块发送的所述目标数据。
7.如权利要求6所述数据存储系统,其特征在于,所述元数据库用以将复数个所述存储单元发送的所述缓存数据进行统一汇总形成元数据,并存储。
8.如权利要求1所述数据存储系统,其特征在于,还包括:信息发布单元,连接所述元数据库,用以接收移动终端发送的数据查询指令,将所述数据查询指令发送至所述元数据库,所述元数据库根据所述数据查询指令将与所述数据查询指令相对应的元数据发送至所述移动终端。
9.如权利要求1所述数据存储系统,其特征在于,还包括:磁带库,连接所述元数据库,用以对所述元数据库存储的元数据进行备份。
CN201410334458.0A 2014-07-14 2014-07-14 数据存储系统 Pending CN104156395A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410334458.0A CN104156395A (zh) 2014-07-14 2014-07-14 数据存储系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410334458.0A CN104156395A (zh) 2014-07-14 2014-07-14 数据存储系统

Publications (1)

Publication Number Publication Date
CN104156395A true CN104156395A (zh) 2014-11-19

Family

ID=51881899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410334458.0A Pending CN104156395A (zh) 2014-07-14 2014-07-14 数据存储系统

Country Status (1)

Country Link
CN (1) CN104156395A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912950A (zh) * 2016-04-13 2016-08-31 国信优易数据有限公司 一种数据共享发布系统及方法
CN106776974A (zh) * 2016-12-06 2017-05-31 广东金赋科技股份有限公司 一种基于配置的大数据监控方法、装置和平台
CN106933826A (zh) * 2015-12-29 2017-07-07 中兴通讯股份有限公司 数据预处理方法及装置
CN107092530A (zh) * 2017-03-01 2017-08-25 广州银禾网络通信有限公司 一种基于分布式内存的信令数据处理方法及系统
CN107749884A (zh) * 2017-10-20 2018-03-02 中国人民解放军空军第航空学院 军事院校的psim智能物联网平台
CN108563656A (zh) * 2017-12-28 2018-09-21 太极计算机股份有限公司 一种数据采集存储的方法、装置及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082671A1 (en) * 2008-09-26 2010-04-01 International Business Machines Corporation Joining Tables in Multiple Heterogeneous Distributed Databases
CN101908191A (zh) * 2010-08-03 2010-12-08 深圳市她秀时尚电子商务有限公司 应用于电子商务的数据分析方法及系统
CN103092980A (zh) * 2013-01-31 2013-05-08 中国科学院自动化研究所 一种数据自动转换与存储的方法及系统
CN103365971A (zh) * 2013-06-27 2013-10-23 北京中科金财科技股份有限公司 基于云计算的海量数据访问处理系统
CN103902671A (zh) * 2014-03-19 2014-07-02 北京科技大学 一种异构多源数据的动态集成方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082671A1 (en) * 2008-09-26 2010-04-01 International Business Machines Corporation Joining Tables in Multiple Heterogeneous Distributed Databases
CN101908191A (zh) * 2010-08-03 2010-12-08 深圳市她秀时尚电子商务有限公司 应用于电子商务的数据分析方法及系统
CN103092980A (zh) * 2013-01-31 2013-05-08 中国科学院自动化研究所 一种数据自动转换与存储的方法及系统
CN103365971A (zh) * 2013-06-27 2013-10-23 北京中科金财科技股份有限公司 基于云计算的海量数据访问处理系统
CN103902671A (zh) * 2014-03-19 2014-07-02 北京科技大学 一种异构多源数据的动态集成方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933826A (zh) * 2015-12-29 2017-07-07 中兴通讯股份有限公司 数据预处理方法及装置
CN106933826B (zh) * 2015-12-29 2020-11-27 中兴通讯股份有限公司 数据预处理方法及装置
CN105912950A (zh) * 2016-04-13 2016-08-31 国信优易数据有限公司 一种数据共享发布系统及方法
CN105912950B (zh) * 2016-04-13 2019-03-26 国信优易数据有限公司 一种数据共享发布系统及方法
CN106776974A (zh) * 2016-12-06 2017-05-31 广东金赋科技股份有限公司 一种基于配置的大数据监控方法、装置和平台
CN106776974B (zh) * 2016-12-06 2019-08-20 广东金赋科技股份有限公司 一种基于配置的大数据监控方法及装置
CN107092530A (zh) * 2017-03-01 2017-08-25 广州银禾网络通信有限公司 一种基于分布式内存的信令数据处理方法及系统
CN107092530B (zh) * 2017-03-01 2021-01-05 广州银禾网络通信有限公司 一种基于分布式内存的信令数据处理方法及系统
CN107749884A (zh) * 2017-10-20 2018-03-02 中国人民解放军空军第航空学院 军事院校的psim智能物联网平台
CN108563656A (zh) * 2017-12-28 2018-09-21 太极计算机股份有限公司 一种数据采集存储的方法、装置及终端

Similar Documents

Publication Publication Date Title
CN104156395A (zh) 数据存储系统
CN102222085B (zh) 一种基于相似性与局部性结合的重复数据删除方法
CN102662992B (zh) 一种海量小文件的存储、访问方法及装置
CN102521269B (zh) 一种基于索引的计算机连续数据保护方法
CN104765575B (zh) 信息存储处理方法
CN101777017B (zh) 一种连续数据保护系统的快速恢复方法
CN103164490B (zh) 一种不固定长度数据的高效存储实现方法和装置
CN104317800A (zh) 一种海量智能用电数据混合存储系统及方法
CN106503276A (zh) 一种用于实时监控系统的时间序列数据库的方法与装置
CN104035956A (zh) 一种基于分布式列存储的时间序列数据存储方法
CN103488709A (zh) 一种索引建立方法及系统、检索方法及系统
CN104765574A (zh) 数据云端存储方法
CN102467572A (zh) 支持重复数据删除程序的数据区块查询方法
CN103916459A (zh) 一种大数据归档存储系统
CN102915340A (zh) 一种扩展的基于b+树对象文件系统
CN102779138A (zh) 实时数据的硬盘存取方法
CN103294413A (zh) 支持海量采集终端的分布式内存实时存储装置及方法
CN102737068A (zh) 一种用于对检索数据进行缓存管理的方法与设备
CN104158844A (zh) 远程实时监测系统
CN103209119A (zh) 一种低功耗嵌入式云智能网关
CN102722450B (zh) 一种基于位置敏感哈希的删冗块设备存储方法
CN107205024A (zh) 一种云存储系统中数据去重方法及系统
CN102404406A (zh) 基于私有云存储的海洋实时数据同步系统
CN103049561B (zh) 一种数据压缩方法、存储引擎及存储系统
CN104778100A (zh) 一种安全备份数据的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141119

RJ01 Rejection of invention patent application after publication