CN107273368A - 海量数据存储管理方法、装置及数据存储系统 - Google Patents

海量数据存储管理方法、装置及数据存储系统 Download PDF

Info

Publication number
CN107273368A
CN107273368A CN201610209306.7A CN201610209306A CN107273368A CN 107273368 A CN107273368 A CN 107273368A CN 201610209306 A CN201610209306 A CN 201610209306A CN 107273368 A CN107273368 A CN 107273368A
Authority
CN
China
Prior art keywords
message
stored
storage
database
file system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610209306.7A
Other languages
English (en)
Inventor
刘晓晶
张涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201610209306.7A priority Critical patent/CN107273368A/zh
Priority to PCT/CN2017/079630 priority patent/WO2017174013A1/zh
Publication of CN107273368A publication Critical patent/CN107273368A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种海量数据存储管理方法、装置及数据存储系统,该方法包括:接收待存储消息,标准化待存储消息的元数据;将待存储消息存储到分布式文件系统,获取存储信息,将待存储消息的存储信息及元数据存储在数据库;基于数据库中存储的待存储消息的存储信息及元数据,管理分布式文件系统中存储的消息。通过本发明的实施,在接收到待存储消息之后,针对所有消息进行元数据标准化之后,将其在DFS系统存储之后,将存储消息发送至数据库,这样,就可以在数据库中对存储在DFS系统的消息进行管理,同时还兼具了DFS存储及数据库存储的优点,解决了现有对所有海量数据均采用相同存储方式的问题。

Description

海量数据存储管理方法、装置及数据存储系统
技术领域
本发明涉及大数据存储领域,尤其涉及一种海量数据存储管理方法、装置及数据存储系统。
背景技术
“大数据”通常指的是那些数量巨大、难于收集、处理、分析的数据集,亦指那些在传统基础设施中长期保存的数据,海量消息高效的存储和管理,是大数据发展的基石。只有各个业务系统输出的所有消息都得到正确存储,并且用户可以通过客户端/Web展示,获取,新建,保存,删除,查询消息,也可以进行目录操作(新建,更名,删除,选定)。
随着科技的发展,消息的格式越来越富媒体化(包括但不限于音频、视频、图片等),而且数据量越来越大,传统的海量消息存储方式主要有两种:一种是以文件格式存储在DFS(Distributed File System,分布式文件系统)系统;另一种是直接将数据存储在数据库中。这两个存储方式对于海量消息的存储和管理各有利弊:海量数据存储在在DFS系统中,实施成本低,易于部署,但是磁盘IO比较高,容量和读写无法水平扩展,较难支撑高并发和热备份的要求;而海量数据存储在数据库系统中,数据读取很方便,但是对消息的大小存在限制,一个长消息需要拆分成一个或者多个短消息,管理难度高,且消息的附件(音频、视频、图片等)文件在数据库系统中无法存储,对于新业务的扩展存在限制。
针对上述问题,提出一种解决现有对所有海量数据均采用相同存储方式这一问题的海量数据存储管理方法,是本领域技术人员亟待解决的技术问题。
发明内容
本发明提供了一种海量数据存储管理方法、装置及数据存储系统,以解决现有对所有海量数据均采用相同存储方式的问题。
本发明提供了一种海量数据存储管理方法,其包括:
接收待存储消息,标准化待存储消息的元数据;
将待存储消息存储到分布式文件系统,获取存储信息,将待存储消息的存储信息及元数据存储在数据库;
基于数据库中存储的待存储消息的存储信息及元数据,管理分布式文件系统中存储的消息。
进一步的,将待存储消息存储到分布式文件系统,获取存储信息包括:将待存储消息及其消息附件以文件格式存储在分布式文件系统,接收分布式文件系统返回的消息存储路径。
进一步的,在将待存储消息的存储信息及元数据存储在数据库之后,还包括:为待存储消息分配关键字值。
进一步的,管理分布式文件系统中存储的消息包括:基于关键字值,读取和/或老化对应消息。
进一步的,元数据包括数据大小;方法还包括:根据数据大小确定待存储消息为长消息,还是短消息;将长消息存储到分布式文件系统,将短消息直接存储在数据库。
本发明提供了一种海量数据存储管理装置,其包括:
通信模块,用于接收待存储消息,标准化待存储消息的元数据;
存储模块,用于将待存储消息存储到分布式文件系统,获取存储信息,将待存储消息的存储信息及元数据存储在数据库;
管理模块,用于基于数据库中存储的待存储消息的存储信息及元数据,管理分布式文件系统中存储的消息。
进一步的,存储模块用于包括:将待存储消息及其消息附件以文件格式存储在分布式文件系统,接收分布式文件系统返回的消息存储路径。
进一步的,存储模块在将待存储消息的存储信息及元数据存储在数据库之后,还用于为待存储消息分配关键字值。
进一步的,管理模块用于基于关键字值,读取和/或老化对应消息。
进一步的,元数据包括数据大小;存储模块还用于根据数据大小确定待存储消息为长消息,还是短消息;将长消息存储到分布式文件系统,将短消息直接存储在数据库。
本发明提供了一种数据存储系统,其包括:数据库、分布式文件系统,以及本发明提供的海量数据存储管理装置。
本发明的有益效果:
本发明提供了一种海量数据存储管理方法,在接收到待存储消息之后,针对所有消息进行元数据标准化之后,将其在DFS系统存储之后,将存储消息发送至数据库,这样,就可以在数据库中对存储在DFS系统的消息进行管理,同时还兼具了DFS存储及数据库存储的优点,解决了现有对所有海量数据均采用相同存储方式的问题。
附图说明
图1为本发明第一实施例提供的海量数据存储管理装置的结构示意图;
图2为本发明第二实施例提供的海量数据存储管理方法的流程图;
图3为本发明第三实施例提供的数据存储系统组网示意图;
图4为本发明第三实施例中海量数据存储管理方法的流程图。
具体实施方式
现通过具体实施方式结合附图的方式对本发明做出进一步的诠释说明。
第一实施例:
图1为本发明第一实施例提供的海量数据存储管理装置的结构示意图,由图1可知,在本实施例中,本发明提供的海量数据存储管理装置1包括:
通信模块11,用于接收待存储消息,标准化待存储消息的元数据;
存储模块12,用于将待存储消息存储到分布式文件系统,获取存储信息,将待存储消息的存储信息及元数据存储在数据库;
管理模块13,用于基于数据库中存储的待存储消息的存储信息及元数据,管理分布式文件系统中存储的消息。
在一些实施例中,上述实施例中的存储模块12用于包括:将待存储消息及其消息附件以文件格式存储在分布式文件系统,接收分布式文件系统返回的消息存储路径。
在一些实施例中,上述实施例中的存储模块12在将待存储消息的存储信息及元数据存储在数据库之后,还用于为待存储消息分配关键字值。
在一些实施例中,上述实施例中的管理模块13用于基于关键字值,读取和/或老化对应消息。
在一些实施例中,上述实施例中的元数据包括数据大小;存储模块12还用于根据数据大小确定待存储消息为长消息,还是短消息;将长消息存储到分布式文件系统,将短消息直接存储在数据库。
对应的,本发明提供了一种数据存储系统,其包括:数据库、分布式文件系统,以及本发明提供的海量数据存储管理装置1。
第二实施例:
图2为本发明第二实施例提供的海量数据存储管理方法的流程图,由图2可知,在本实施例中,本发明提供的海量数据存储管理方法包括以下步骤:
S201:接收待存储消息,标准化待存储消息的元数据;
S202:将待存储消息存储到分布式文件系统,获取存储信息,将待存储消息的存储信息及元数据存储在数据库;
S203:基于数据库中存储的待存储消息的存储信息及元数据,管理分布式文件系统中存储的消息。
在一些实施例中,上述实施例中的将待存储消息存储到分布式文件系统,获取存储信息包括:将待存储消息及其消息附件以文件格式存储在分布式文件系统,接收分布式文件系统返回的消息存储路径。
在一些实施例中,上述实施例中的方法在将待存储消息的存储信息及元数据存储在数据库之后,还包括:为待存储消息分配关键字值。
在一些实施例中,上述实施例中的管理分布式文件系统中存储的消息包括:基于关键字值,读取和/或老化对应消息。
在一些实施例中,上述实施例中的元数据包括数据大小;方法还包括:根据数据大小确定待存储消息为长消息,还是短消息;将长消息存储到分布式文件系统,将短消息直接存储在数据库。
第三实施例:
现结合具体应用场景对本发明做进一步的诠释说明。
为了解决上述问题,本发明提供了一种将海量消息根据文件大小进行分开存储的方法。
图3示出了本发明的数据存储系统的示意图,包括第三方消息系统,消息引擎模块301,消息管理模块302,数据库HBASE303,DFS系统304等网元。
基于图3,本发明采用的技术方案是,消息引擎模块首先对海量消息进行预处理,标准化消息本身的元数据信息(包括消息宿主信息,消息状态,消息类型、消息来源、消息目录、编码类型、消息ID、消息size、消息主题、消息传递方式、消息内容等信息);然后根据消息预处理的结果中的内容size的属性(即文件大小),将超过2M的消息及消息的附件文件存储在DFS存储系统中,而小于等于2M的消息及消息附件目录则由消息管理模块序列化成字符串的格式存储在列式数据库HBASE中,并建立keyvalue的索引值;最后通过索引值,对消息进行读取和删除,及文件的定期老化等日常管理,分析,统计工作。
具体来讲包括以下步骤:
消息注入的步骤:
a.消息引擎模块对消息进行标准化预处理,并判断消息是长消息还是短消息。
b.如果是短消息,消息引擎则将短消息通知消息管理模块;
c.消息管理模块将短消息注入HBASE数据库。
d.如果是长消息,则消息引擎模块将长消息及消息附件存储在DFS存储系统,并记录DFS文件存储路径;
e.消息引擎模块将长消息文件保存路径及长消息同时发送给消息管理模块;
f.消息管理模块将相关信息存储在HBASE,及生成相关的keyvalue值。
读取消息使用的步骤:
a.消息引擎模块向消息管理模块发起读取消息的请求;
b.消息管理模块根据keyvalue值向HBASE查询相关信息;
c.消息管理模块向消息引擎模块返回消息查询结果。
消息数据存储更新的步骤:
a.在消息管理模块上设置各类消息的存储周期,
b.消息管理模块定时查询各类消息存储状态;
c.按照查询的结果定时老化相关消息数据。
采用上述的技术方案,实现了对海量消息持久化的方法,有效的实现了海量消息存储的高性能及可扩展性、安全性。
图4示出了本发明的海量数据存储管理流程,具体包含如下步骤:
S401:接收新增消息;
S402:根据消息大小,判断消息是短消息还是长消息;
S403-S409:如果是长消息,则将长消息以文件格式存储在DFS存储系统上,DFS存储系统返回文件存储路径给消息引擎模块;消息引擎模块给消息管理模块发送消息add消息;消息管理模块将长消息存储路径及相关元数据信息存储在HBASE数据库中,并建立keyvalue值,用于后续查询;
S410-S413:如果是短消息,消息引擎模块则直接向消息管理模块发起消息add消息;消息管理模块将短消息直接存储在HBASE数据库中,用于后续的大数据应用分析;
S414-S418:读取消息流程包含:消息引擎接口调用消息接口读取消息;消息管理模块根据keyvalue从HBase中读取消息;HBase返回消息;消息管理模块将消息返回给消息管理引擎;
S419-S422:消息数据老化流程包含步骤:配置设定消息数据保存周期;消息管理模块定时老化Hbase数据;消息管理模块定时老化DFS的消息文件数据。
综上可知,通过本发明的实施,至少存在以下有益效果:
本发明提供了一种海量数据存储管理方法,在接收到待存储消息之后,针对所有消息进行元数据标准化之后,将其在DFS系统存储之后,将存储消息发送至数据库,这样,就可以在数据库中对存储在DFS系统的消息进行管理,同时还兼具了DFS存储及数据库存储的优点,解决了现有对所有海量数据均采用相同存储方式的问题。
以上仅是本发明的具体实施方式而已,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任意简单修改、等同变化、结合或修饰,均仍属于本发明技术方案的保护范围。

Claims (11)

1.一种海量数据存储管理方法,其特征在于,包括:
接收待存储消息,标准化所述待存储消息的元数据;
将所述待存储消息存储到分布式文件系统,获取存储信息,将所述存储信息及元数据存储在数据库;
基于所述数据库中存储的所述待存储消息的存储信息及元数据,管理所述分布式文件系统中存储的消息。
2.如权利要求1所述的海量数据存储管理方法,其特征在于,所述将所述待存储消息存储到分布式文件系统,获取存储信息包括:将所述待存储消息及其消息附件以文件格式存储在所述分布式文件系统,接收所述分布式文件系统返回的消息存储路径。
3.如权利要求2所述的海量数据存储管理方法,其特征在于,在将所述待存储消息的存储信息及元数据存储在数据库之后,还包括:为所述待存储消息分配关键字值。
4.如权利要求3所述的海量数据存储管理方法,其特征在于,所述管理所述分布式文件系统中存储的消息包括:基于所述关键字值,读取和/或老化对应消息。
5.如权利要求1至4任一项所述的海量数据存储管理方法,其特征在于,所述元数据包括数据大小;所述方法还包括:根据所述数据大小确定所述待存储消息为长消息,还是短消息;将长消息存储到所述分布式文件系统,将短消息直接存储在所述数据库。
6.一种海量数据存储管理装置,其特征在于,包括:
通信模块,用于接收待存储消息,标准化所述待存储消息的元数据;
存储模块,用于将所述待存储消息存储到分布式文件系统,获取存储信息,将所述存储信息及元数据存储在数据库;
管理模块,用于基于所述数据库中存储的所述待存储消息的存储信息及元数据,管理所述分布式文件系统中存储的消息。
7.如权利要求6所述的海量数据存储管理装置,其特征在于,所述存储模块用于包括:将所述待存储消息及其消息附件以文件格式存储在所述分布式文件系统,接收所述分布式文件系统返回的消息存储路径。
8.如权利要求7所述的海量数据存储管理装置,其特征在于,所述存储模块在将所述待存储消息的存储信息及元数据存储在数据库之后,还用于为所述待存储消息分配关键字值。
9.如权利要求8所述的海量数据存储管理装置,其特征在于,所述管理模块用于基于所述关键字值,读取和/或老化对应消息。
10.如权利要求6至9任一项所述的海量数据存储管理装置,其特征在于,所述元数据包括数据大小;所述存储模块还用于根据所述数据大小确定所述待存储消息为长消息,还是短消息;将长消息存储到所述分布式文件系统,将短消息直接存储在所述数据库。
11.一种数据存储系统,其特征在于,包括:数据库、分布式文件系统,以及如权利要求7至10任一项所述的海量数据存储管理装置。
CN201610209306.7A 2016-04-06 2016-04-06 海量数据存储管理方法、装置及数据存储系统 Pending CN107273368A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610209306.7A CN107273368A (zh) 2016-04-06 2016-04-06 海量数据存储管理方法、装置及数据存储系统
PCT/CN2017/079630 WO2017174013A1 (zh) 2016-04-06 2017-04-06 数据存储管理方法、装置及数据存储系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610209306.7A CN107273368A (zh) 2016-04-06 2016-04-06 海量数据存储管理方法、装置及数据存储系统

Publications (1)

Publication Number Publication Date
CN107273368A true CN107273368A (zh) 2017-10-20

Family

ID=60000880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610209306.7A Pending CN107273368A (zh) 2016-04-06 2016-04-06 海量数据存储管理方法、装置及数据存储系统

Country Status (2)

Country Link
CN (1) CN107273368A (zh)
WO (1) WO2017174013A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710660A (zh) * 2018-05-11 2018-10-26 上海核工程研究设计院有限公司 一种数据库的物项属性参数建模和存储方法
CN112040429A (zh) * 2020-07-28 2020-12-04 南京云中云信息技术有限公司 一种基于分布式存储的短信管理系统及方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990394B (zh) * 2018-09-28 2023-10-20 杭州海康威视数字技术股份有限公司 分布式面向列数据库表的行数统计方法、装置和存储介质
CN113051221B (zh) * 2021-03-31 2023-06-30 网易(杭州)网络有限公司 数据存储方法、装置、介质、设备及分布式文件系统
CN114676095A (zh) * 2022-05-27 2022-06-28 恒生电子股份有限公司 基于流处理框架文件管理方法以及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070022087A1 (en) * 2005-07-25 2007-01-25 Parascale, Inc. Scalable clustered storage system
CN102902716A (zh) * 2012-08-27 2013-01-30 苏州两江科技有限公司 基于Hadoop分布式计算平台的存储系统
CN103647850A (zh) * 2013-12-25 2014-03-19 北京京东尚科信息技术有限公司 一种分布式版本控制系统的数据处理方法、设备及系统
CN103838830A (zh) * 2014-02-18 2014-06-04 广东亿迅科技有限公司 一种HBase数据库的数据管理方法及系统
CN104516945A (zh) * 2014-11-18 2015-04-15 国家电网公司 一种基于关系数据库的hdfs元数据存储方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067541A (en) * 1997-09-17 2000-05-23 Microsoft Corporation Monitoring document changes in a file system of documents with the document change information stored in a persistent log
KR100912870B1 (ko) * 2007-06-12 2009-08-19 삼성전자주식회사 컨텐츠 및 메타데이터의 무결성 보장 시스템 및 방법
CN101141627A (zh) * 2007-10-23 2008-03-12 深圳市迅雷网络技术有限公司 一种流媒体文件的存储系统及方法
CN104144150A (zh) * 2013-05-10 2014-11-12 中国电信股份有限公司 利用元数据访问信息的方法、装置和系统
CN103425785A (zh) * 2013-08-22 2013-12-04 新浪网技术(中国)有限公司 数据存储系统及其用户数据存储、读取方法
CN105100149A (zh) * 2014-05-13 2015-11-25 中国电信股份有限公司 用于管理文件的方法和系统
CN104133882B (zh) * 2014-07-28 2017-06-23 四川大学 一种基于hdfs的小文件处理方法
CN104199899A (zh) * 2014-08-26 2014-12-10 浪潮(北京)电子信息产业有限公司 一种基于Hbase的海量图片存储方法及装置
CN104462185B (zh) * 2014-10-13 2017-08-11 南京邮电大学 一种基于混合结构的数字图书馆云存储系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070022087A1 (en) * 2005-07-25 2007-01-25 Parascale, Inc. Scalable clustered storage system
CN102902716A (zh) * 2012-08-27 2013-01-30 苏州两江科技有限公司 基于Hadoop分布式计算平台的存储系统
CN103647850A (zh) * 2013-12-25 2014-03-19 北京京东尚科信息技术有限公司 一种分布式版本控制系统的数据处理方法、设备及系统
CN103838830A (zh) * 2014-02-18 2014-06-04 广东亿迅科技有限公司 一种HBase数据库的数据管理方法及系统
CN104516945A (zh) * 2014-11-18 2015-04-15 国家电网公司 一种基于关系数据库的hdfs元数据存储方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710660A (zh) * 2018-05-11 2018-10-26 上海核工程研究设计院有限公司 一种数据库的物项属性参数建模和存储方法
CN112040429A (zh) * 2020-07-28 2020-12-04 南京云中云信息技术有限公司 一种基于分布式存储的短信管理系统及方法
CN112040429B (zh) * 2020-07-28 2021-09-21 南京云中云信息技术有限公司 一种基于分布式存储的短信管理系统及方法

Also Published As

Publication number Publication date
WO2017174013A1 (zh) 2017-10-12

Similar Documents

Publication Publication Date Title
CN107273368A (zh) 海量数据存储管理方法、装置及数据存储系统
CN105138592B (zh) 一种基于分布式架构的日志数据存储和检索方法
CN102722487B (zh) 文件管理方法和装置
CN114207607B (zh) 支持非结构化、半结构化和结构化文件
EP2580691B1 (en) Scalable rendering of large spatial databases
CN109936571B (zh) 一种海量数据共享方法、开放共享平台及电子设备
CN104516892B (zh) 关联富媒体信息的用户生成内容的发布方法、系统和终端
CN103631909B (zh) 对大规模结构化和非结构化数据联合处理的系统及方法
CN108509437B (zh) 一种ElasticSearch查询加速方法
CN109522283B (zh) 一种重复数据删除方法及系统
CN101442558B (zh) 一种为p2sp网络提供索引服务的方法和系统
CN103559217A (zh) 一种面向异构数据库的海量组播数据入库实现方法
CN104794190B (zh) 一种大数据有效存储的方法和装置
KR101672349B1 (ko) 파일 클라우드 서비스 장치 및 방법
CN111274294B (zh) 一种通用的分布式异构数据一体化逻辑汇聚组织、发布与服务方法及系统
US20140244606A1 (en) Method, apparatus and system for storing, reading the directory index
CN111221791A (zh) 一种多源异构数据导入数据湖的方法
CN105760380A (zh) 数据库查询方法、装置及系统
CN105808546A (zh) 一种视频文件索引管理平台、系统及其方法
WO2014169768A1 (en) Method, system and front-end device for posting user generated content
CN103902660A (zh) 机群文件系统中通过readdir++预取文件布局的系统及其方法
CN113051460A (zh) 基于Elasticsearch的数据检索方法、系统、电子设备及存储介质
WO2016082616A1 (zh) 为搜索引擎提供网站认证数据的方法及装置
CN101778131A (zh) 数据同步系统
WO2017000592A1 (zh) 数据处理方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171020

RJ01 Rejection of invention patent application after publication