CN109408599A - 一种大数据的分布式存储方法 - Google Patents

一种大数据的分布式存储方法 Download PDF

Info

Publication number
CN109408599A
CN109408599A CN201811099754.1A CN201811099754A CN109408599A CN 109408599 A CN109408599 A CN 109408599A CN 201811099754 A CN201811099754 A CN 201811099754A CN 109408599 A CN109408599 A CN 109408599A
Authority
CN
China
Prior art keywords
data
storage
marker character
storage warehouse
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811099754.1A
Other languages
English (en)
Other versions
CN109408599B (zh
Inventor
张彩霞
郭静
王向东
王新东
胡绍林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Internet Service Co ltd
Ourchem Information Consulting Co ltd
Original Assignee
Foshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan University filed Critical Foshan University
Priority to CN201811099754.1A priority Critical patent/CN109408599B/zh
Publication of CN109408599A publication Critical patent/CN109408599A/zh
Application granted granted Critical
Publication of CN109408599B publication Critical patent/CN109408599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据的分布式存储方法,包括:获取组数据和标记列表;将获取得到的组数据和标记列表存储在暂存空间中;根据标记列表中的标记符划分出若干个储存空间;复制标记列表中的标记符;在所述储存空间中分成三个储存仓,分别为第一储存仓、第二储存仓和第三储存仓;将复制得到的标记符存储到第一储存仓中;根据所述第一储存仓中的标记符,从所述暂存空间中寻找具有相同标记符的组数据,将寻找得到的组数据存储到第二储存仓中;建立存储地址与组数据编号之间的映射关系,并将所述映射关系制成映射表存储在第三储存仓中。本发明存储有序,避免了现有技术中存储混乱的情况。可用于大数据存储领域。

Description

一种大数据的分布式存储方法
技术领域
本发明创造涉及数据存储技术领域,特别涉及一种大数据的分布式存储方法。
背景技术
随着行业应用系统的发展,各种信息系统应用数据快速增长,企业的信息化建设已逐步进入了大数据时代。
大数据的存储一般会将数据上传至互联网,通过互联网的储存空间对数据进行存储,现有的存储方法一般会直接将大数据存储在储存空间中,容易造成存储混乱,不利于后续整理。
发明内容
本发明的目的是提供一种有序的大数据存储方法。
本发明解决其技术问题的解决方案是:一种大数据的分布式存储方法,包括:
步骤1、获取组数据和标记列表;
步骤2、将获取得到的组数据和标记列表存储在暂存空间中;
步骤3、根据标记列表中的标记符划分出若干个储存空间;
步骤4、复制标记列表中的标记符;
步骤5、在所述储存空间中分成三个储存仓,分别为第一储存仓、第二储存仓和第三储存仓;
步骤6、将复制得到的标记符存储到第一储存仓中;
步骤7、根据所述第一储存仓中的标记符,从所述暂存空间中寻找具有相同标记符的组数据,将寻找得到的组数据存储到第二储存仓中;
步骤8、建立存储地址与组数据编号之间的映射关系,并将所述映射关系制成映射表存储在第三储存仓中。
进一步,在步骤1中,所述组数据和标记列表的获取方法包括:
步骤1.1、从工业场景中采集数据,并对采集得到的数据按照采集源头进行分类,分类后的数据记为准类数据;
步骤1.2、设立描述不同采集源头的标记符;
步骤1.3、将标记符对应的加载到所述准类数据中,加载标记符后的准类数据记为类数据;
步骤1.4、将类数据中的标记符分离出来;
步骤1.5、将类数据按照顺序划分出若干个等数据量大小的子数据;
步骤1.6、给所述子数据分配描述子数据之间顺序关系的编号;
步骤1.7、复制两次所述标记符;
步骤1.8、将所述编号与第一次复制得到的标记符对应地附着在子数据中,附着标记符和编号的子数据记为组数据;
步骤1.9、将第二次复制得到的标记符汇集在表格文件中,得到标记列表;
步骤1.10、将所述组数据和标记列表上传至互联网;
步骤1.11、从互联网中获取得到组数据和标记列表。
进一步,所述储存空间包括数据库。
进一步,在步骤8后面还包括:
步骤9、删除所述暂存空间中的组数据和标记列表。
本发明的有益效果是:本发明通过将储存空间划分为三个储存仓,并从组数据中提取编号和在标记列表中提取标记符,将标记符存储在第一储存仓中,根据所述编号将组数据有序的存储在第二储存仓中,并同时将记载组数据的存储地址与编号之间映射关系的映射表存储在第三储存仓中,存储有序,避免了现有技术中存储混乱的情况。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单说明。显然,所描述的附图只是本发明的一部分实施例,而不是全部实施例,本领域的技术人员在不付出创造性劳动的前提下,还可以根据这些附图获得其他设计方案和附图。
图1是本发明方法的步骤流程图;
图2是组数据和标记列表的获取方法的步骤流程图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整地描述,以充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。另外,文中所提到的所有联接/连接关系,并非单指构件直接相接,而是指可根据具体实施情况,通过添加或减少联接辅件,来组成更优的联接结构。本发明创造中的各个技术特征,在不互相矛盾冲突的前提下可以交互组合。
实施例1,参考图1和图2,一种大数据的分布式存储方法,包括:
步骤1、获取组数据和标记列表;
步骤2、将获取得到的组数据和标记列表存储在暂存空间中;利用暂存空间作为存储的缓冲。
步骤3、根据标记列表中的标记符划分出若干个储存空间;
步骤4、复制标记列表中的标记符;
步骤5、在所述储存空间中分成三个储存仓,分别为第一储存仓、第二储存仓和第三储存仓;
步骤6、将复制得到的标记符存储到第一储存仓中;
步骤7、根据所述第一储存仓中的标记符,从所述暂存空间中寻找具有相同标记符的组数据,将寻找得到的组数据存储到第二储存仓中;
步骤8、建立存储地址与组数据编号之间的映射关系,并将所述映射关系制成映射表存储在第三储存仓中;
步骤9、删除所述暂存空间中的组数据和标记列表。
本发明通过将储存空间划分为三个储存仓,并从组数据中提取编号和在标记列表中提取标记符,将标记符存储在第一储存仓中,根据所述编号将组数据有序的存储在第二储存仓中,并同时将记载组数据的存储地址与编号之间映射关系的映射表存储在第三储存仓中,存储有序,避免了现有技术中存储混乱的情况。
其中,在步骤1中,所述组数据和标记列表的获取方法包括:
步骤1.1、从工业场景中采集数据,并对采集得到的数据按照采集源头进行分类,分类后的数据记为准类数据;
其中,所述采集源头可以为不同的设备,可以对采集得到的数据按照不同设备进行分类,比如,将从A设备采集的数据为一类,从B设备采集的数据为另一类。
步骤1.2、设立描述不同采集源头的标记符;例如,从A设备采集的数据,则可设立标记符a,从B设备采集的数据则可设立标记符b。
步骤1.3、将标记符对应的加载到所述准类数据中,加载标记符后的准类数据记为类数据;
步骤1.4、将类数据中的标记符分离出来;
步骤1.5、将类数据按照顺序划分出若干个等数据量大小的子数据;具体的,将类数据按照数据量的大小划分出若干个等数据量大小的子数据,例如类数据的数据量为100KB,那么可以划分出5个子数据,每一个子数据的数据量为20KB。
步骤1.6、给所述子数据分配描述子数据之间顺序关系的编号;
步骤1.7、复制两次所述标记符;
步骤1.8、将所述编号与第一次复制得到的标记符对应地附着在子数据中,附着标记符和编号的子数据记为组数据;
步骤1.9、将第二次复制得到的标记符汇集在表格文件中,得到标记列表;
步骤1.10、将所述组数据和标记列表上传至互联网;
步骤1.11、从互联网中获取得到组数据和标记列表。
作为优化,所述储存空间包括数据库。
以上对本发明的较佳实施方式进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变型或替换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims (4)

1.一种大数据的分布式存储方法,其特征在于,包括:
步骤1、获取组数据和标记列表;
步骤2、将获取得到的组数据和标记列表存储在暂存空间中;
步骤3、根据标记列表中的标记符划分出若干个储存空间;
步骤4、复制标记列表中的标记符;
步骤5、在所述储存空间中分成三个储存仓,分别为第一储存仓、第二储存仓和第三储存仓;
步骤6、将复制得到的标记符存储到第一储存仓中;
步骤7、根据所述第一储存仓中的标记符,从所述暂存空间中寻找具有相同标记符的组数据,将寻找得到的组数据存储到第二储存仓中;
步骤8、建立存储地址与组数据编号之间的映射关系,并将所述映射关系制成映射表存储在第三储存仓中。
2.根据权利要求1所述的一种大数据的分布式存储方法,其特征在于,在步骤1中,所述组数据和标记列表的获取方法包括:
步骤1.1、从工业场景中采集数据,并对采集得到的数据按照采集源头进行分类,分类后的数据记为准类数据;
步骤1.2、设立描述不同采集源头的标记符;
步骤1.3、将标记符对应的加载到所述准类数据中,加载标记符后的准类数据记为类数据;
步骤1.4、将类数据中的标记符分离出来;
步骤1.5、将类数据按照顺序划分出若干个等数据量大小的子数据;
步骤1.6、给所述子数据分配描述子数据之间顺序关系的编号;
步骤1.7、复制两次所述标记符;
步骤1.8、将所述编号与第一次复制得到的标记符对应地附着在子数据中,附着标记符和编号的子数据记为组数据;
步骤1.9、将第二次复制得到的标记符汇集在表格文件中,得到标记列表;
步骤1.10、将所述组数据和标记列表上传至互联网;
步骤1.11、从互联网中获取得到组数据和标记列表。
3.根据权利要求1所述的一种大数据的分布式存储方法,其特征在于,所述储存空间包括数据库。
4.根据权利要求1所述的一种大数据的分布式存储方法,其特征在于,在步骤8后面还包括:
步骤9、删除所述暂存空间中的组数据和标记列表。
CN201811099754.1A 2018-09-20 2018-09-20 一种大数据的分布式存储方法 Active CN109408599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811099754.1A CN109408599B (zh) 2018-09-20 2018-09-20 一种大数据的分布式存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811099754.1A CN109408599B (zh) 2018-09-20 2018-09-20 一种大数据的分布式存储方法

Publications (2)

Publication Number Publication Date
CN109408599A true CN109408599A (zh) 2019-03-01
CN109408599B CN109408599B (zh) 2021-09-28

Family

ID=65465651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811099754.1A Active CN109408599B (zh) 2018-09-20 2018-09-20 一种大数据的分布式存储方法

Country Status (1)

Country Link
CN (1) CN109408599B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004761A (zh) * 2010-11-01 2011-04-06 青岛普加智能信息有限公司 数据存储方法和系统
CN102968498A (zh) * 2012-12-05 2013-03-13 华为技术有限公司 数据处理方法及装置
CN103390015A (zh) * 2013-01-16 2013-11-13 华北电力大学 基于统一索引的海量数据联合存储方法及检索方法
US20150120745A1 (en) * 2013-10-28 2015-04-30 Yahoo! Inc. Dynamic database indexes for entity attribute value stores
CN104794177A (zh) * 2015-04-02 2015-07-22 广州神马移动信息科技有限公司 一种数据存储方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004761A (zh) * 2010-11-01 2011-04-06 青岛普加智能信息有限公司 数据存储方法和系统
CN102968498A (zh) * 2012-12-05 2013-03-13 华为技术有限公司 数据处理方法及装置
CN103390015A (zh) * 2013-01-16 2013-11-13 华北电力大学 基于统一索引的海量数据联合存储方法及检索方法
US20150120745A1 (en) * 2013-10-28 2015-04-30 Yahoo! Inc. Dynamic database indexes for entity attribute value stores
CN104794177A (zh) * 2015-04-02 2015-07-22 广州神马移动信息科技有限公司 一种数据存储方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张栗粽等: "面向大数据分布式存储的动态负载均衡算法", 《计算机科学》 *

Also Published As

Publication number Publication date
CN109408599B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN104391725B (zh) 页面展示方法和页面展示装置
US8601361B2 (en) Automatically populating and/or generating tables using data extracted from files
CN102254012B (zh) 一种基于外存的图数据存储方法及子图查询方法
CN103795811B (zh) 一种基于元数据保存存储信息及统计管理数据的方法
CN101504662A (zh) 一种转换数据的方法及装置
CN103703467A (zh) 存储数据的方法和装置
CN105868286A (zh) 基于分布式文件系统小文件合并的并行追加方法及系统
CN104050271A (zh) 一种基于HBase的卡口数据处理方法
CN103324763A (zh) 一种手机端树形数据结构的展现方法
CN105183898A (zh) 数据同步方法和数据同步系统
CN105488471B (zh) 一种字形识别方法及装置
CN101882135A (zh) 一种数据处理方法和装置
CN106033438A (zh) 舆情数据存储方法和服务器
CN104408128B (zh) 一种基于b+树异步更新索引的读优化方法
CN108520065A (zh) 命名实体识别语料库的构建方法、系统、设备及存储介质
CN105183383A (zh) 一种文件系统无关的镜像重组方法
CN110796357A (zh) 资产组展示的方法及装置
CN109408599A (zh) 一种大数据的分布式存储方法
CN103761316A (zh) 一种基于稀疏矩阵的数据压缩存储方法及装置
CN102955808A (zh) 一种数据获取方法和分布式文件系统
CN103455677A (zh) 环境仿真方法和系统
CN107402951A (zh) 一种快速提取Android微信朋友圈数据的方法
CN106919615A (zh) 数据存取方法及系统
CN106250443A (zh) 基于内存全文检索解决数据库复杂文本查询的方法及系统
CN105808670A (zh) 一种基于NoSQL实现电子阅卷的任务分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221214

Address after: Room 301, No. 235, Kexue Avenue, Huangpu District, Guangzhou, Guangdong 510000

Patentee after: OURCHEM INFORMATION CONSULTING CO.,LTD.

Address before: 528000 Foshan Institute of science and technology, Xianxi reservoir West Road, Shishan town, Nanhai District, Foshan City, Guangdong Province

Patentee before: FOSHAN University

Effective date of registration: 20221214

Address after: Room 606-609, Compound Office Complex Building, No. 757, Dongfeng East Road, Yuexiu District, Guangzhou, Guangdong 510000

Patentee after: China Southern Power Grid Internet Service Co.,Ltd.

Address before: Room 301, No. 235, Kexue Avenue, Huangpu District, Guangzhou, Guangdong 510000

Patentee before: OURCHEM INFORMATION CONSULTING CO.,LTD.

TR01 Transfer of patent right