CN111966658A - 一种节约空间的安全性信息数据管理储存方法 - Google Patents

一种节约空间的安全性信息数据管理储存方法 Download PDF

Info

Publication number
CN111966658A
CN111966658A CN202011021594.6A CN202011021594A CN111966658A CN 111966658 A CN111966658 A CN 111966658A CN 202011021594 A CN202011021594 A CN 202011021594A CN 111966658 A CN111966658 A CN 111966658A
Authority
CN
China
Prior art keywords
data
information data
information
node
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011021594.6A
Other languages
English (en)
Inventor
郦俊岭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Digital Storage Technology Co ltd
Original Assignee
Shenzhen Digital Storage Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Digital Storage Technology Co ltd filed Critical Shenzhen Digital Storage Technology Co ltd
Priority to CN202011021594.6A priority Critical patent/CN111966658A/zh
Publication of CN111966658A publication Critical patent/CN111966658A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1032Reliability improvement, data loss prevention, degraded operation etc

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据存储技术领域,具体涉及一种节约空间的安全性信息数据管理储存方法,步骤:S1由数据源头获取信息数据,并将获取的数据存储至HDFS系统;S2将HDFS系统上的信息数据或外部信息数据转换成键值对的形式;S3将S2中的数据进行划分,作为信息函数输入;S4将S3过程中,信息函数处理的结果保存在本地文件作为过渡;S5利用Writable函数,将处理结果序列化为字节流,并传递到reduce函数中作为输入端;S6将处理后的信息数据进行归并,利用信息数据转换接口将结果保存成GeoJson类型并存储在HDFS元数据管理节点中。本发明在保证数据可靠性的同时,尽可能地降低数据冗余,提高存储效率是海量数据存储系统可靠性。

Description

一种节约空间的安全性信息数据管理储存方法
技术领域
本发明涉及数据存储技术领域,具体涉及一种节约空间的安全性信息数据管理储存方法。
背景技术
上个世纪90年代,为满足TB级、PB级的存储需求,存储区域网络SAN、网络附加存储NAS、IP-SAN、P2P网络存储、分布式集群存储、网格存储等技术先后涌现。进入20世纪以后,随着个人电脑及信息设备的高速发展和普及,随着信息技术在各个行业的突飞猛进的应用和发展,特别在科学计算、商业计算等众多应用领域中产生了规模巨大的数据,出现了以综合P2P网络存储、分布式集群存储、网格存储等技术优点的海量数据存储系统,具有代表性的有GFS、WAS、S3等。在海量数据存储系统中,存储节点规模少则几万,多则几十万。
面对如此大规模的存储系统,显然,数据可靠性增强技术已是海量数据存储系统研究与设计所面临的一项关键技术。较低的数据冗余、安全的数据保证、高效的数据访问效率是数据可靠性增强技术的重要指标。增加数据冗余已是数据可靠性增强技术的一般途径,即当存储系统中出现数据丢失时,可以通过访问冗余数据满足访问需求。
冗余虽然提高了系统可靠性,但是存储与管理成本也会伴随增加。因此,如何在保证数据可靠性的同时,尽可能地降低数据冗余,提高存储效率是海量数据存储系统可靠性保证技术所面临的一个关键问题。
发明内容
针对现有技术的不足,本发明公开了一种节约空间的安全性信息数据管理储存方法,用于解决上述现有技术存在的问题。
本发明通过以下技术方案予以实现:
本发明公开了一种节约空间的安全性信息数据管理储存方法,所述储存方法包括以下步骤:
S1由数据源头获取信息数据,并将获取的数据存储至HDFS系统;
S2将HDFS系统上的信息数据或外部信息数据转换成键值对的形式;
S3将S2中的数据进行划分,作为信息函数输入;
S4将S3过程中,信息函数处理的结果保存在本地文件作为过渡;
S5利用Writable函数,将处理结果序列化为字节流,并传递到reduce函数中作为输入端;
S6将处理后的信息数据进行归并,利用信息数据转换接口将结果保存成GeoJson类型并存储在HDFS元数据管理节点中。
更进一步的,所述S2中,如果信息数据从外部来,根据信息数据的格式,调用信息数据格式转换接口对其格式进行转换。
更进一步的,所述S3中,根据用户的需求对空间数据更新时,则对信息函数进行设计进行实现。
更进一步的,所述S4中,通Writable函数,将字节流反序列化转换成相应的空间数据键值对。
更进一步的,所述方法中,新增信息数据对象需要传入信息数据的属性信息及拓扑信息,信息函数将这些信息按照统一的接口构建key/value键值对,并将键值对作为中间结果传递给reduce函数。
更进一步的,在reduce函数中构建成可以在HDFS上存储的GeoJson数据,并由Master节点调控把数据存储在相应的HDFS节点上,完成信息数据对象的新增。
更进一步的,所述方法中,查询数据时,划分一全局索引一局部索引的多级空间索引结构,具体步骤如下:
T1首先调用信息函数将信息数据查询条件按照信息数据范围与总体索引中各个节点的最小外接矩形求交;
T2将查询条件分配给返回值为ture的节点;每个map函数根据分配的查询范围与该节点内索引树中的各个子节点的外接矩形求交;
T3如有交集,则迭代此过程,直到子节点为叶子节点为止;如叶子节点被包含在查询范围内,则将该节点的地理对象保存在本地节点中;
T4将每一个信息函数过程中保存在本地节点中的地理对象经过Writable序列化传递到reduce函数;
T5将所有查询到的地理实体进行归并,最后即可得到查询结果。
更进一步的,为了提高空间数据检索的效率,把空间距离近的地理实体划分为一体,对划分后的分片结果建立总体索引,并对每个分片数据建立局部索引,把局部索引的数据存储在数据节点上,在一定层面上减弱了名称节点的存储压力,实现空间数据的分级分层索引高效管理。
更进一步的,所述方法中,进行删除信息数据操作时,检索过程与查询信息数据类似,按照删除的条件对各个HDFS节点进行查询,当且仅当三个节点同时都删除了该信息数据时,才能正确完成删除操作。
更进一步的,所述方法中,元数据管理节点为HDFS中文件目录和文件分配的管理者,维护文件名到数据块的映射和数据块到数据存储节点的关系映射,其中文件名到数据块的映射通过映像文件持久化保存:数据块到数据存储节点的映射则通过数据存储节点的上传信息建立起来的,它只在内存中保存。
本发明的有益效果为:
本发明使用HDFS将服务器故障视为常态事件,并采用多种方法,从多个角度,使用不同的容错措施,确保数据存储的安全、保证提供不间断的数据存储服务。
本发明在保证数据可靠性的同时,尽可能地降低数据冗余,提高存储效率是海量数据存储系统可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种节约空间的安全性信息数据管理储存方法的原理步骤图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例公开如图1所示的一种节约空间的安全性信息数据管理储存方法,包括以下步骤:
S1由数据源头获取信息数据,并将获取的数据存储至HDFS系统;
S2将HDFS系统上的信息数据或外部信息数据转换成键值对的形式;
S3将S2中的数据进行划分,作为信息函数输入;
S4将S3过程中,信息函数处理的结果保存在本地文件作为过渡;
S5利用Writable函数,将处理结果序列化为字节流,并传递到reduce函数中作为输入端;
S6将处理后的信息数据进行归并,利用信息数据转换接口将结果保存成GeoJson类型并存储在HDFS元数据管理节点中。
如果信息数据从外部来,根据信息数据的格式,调用信息数据格式转换接口对其格式进行转换。根据用户的需求对空间数据更新时,则对信息函数进行设计进行实现。
本实施例通Writable函数,将字节流反序列化转换成相应的空间数据键值对。
本实施例新增信息数据对象需要传入信息数据的属性信息及拓扑信息,信息函数将这些信息按照统一的接口构建key/value键值对,并将键值对作为中间结果传递给reduce函数。
本实施例在reduce函数中构建成可以在HDFS上存储的GeoJson数据,并由Master节点调控把数据存储在相应的HDFS节点上,完成信息数据对象的新增。
实施例2
本实施例公开节约空间的安全性信息数据管理储存方法查询数据时,划分一全局索引一局部索引的多级空间索引结构,具体步骤如下:
T1首先调用信息函数将信息数据查询条件按照信息数据范围与总体索引中各个节点的最小外接矩形求交;
T2将查询条件分配给返回值为ture的节点;每个map函数根据分配的查询范围与该节点内索引树中的各个子节点的外接矩形求交;
T3如有交集,则迭代此过程,直到子节点为叶子节点为止;如叶子节点被包含在查询范围内,则将该节点的地理对象保存在本地节点中;
T4将每一个信息函数过程中保存在本地节点中的地理对象经过Writable序列化传递到reduce函数;
T5将所有查询到的地理实体进行归并,最后即可得到查询结果。
本实施例中,为了提高空间数据检索的效率,把空间距离近的地理实体划分为一体,对划分后的分片结果建立总体索引,并对每个分片数据建立局部索引,把局部索引的数据存储在数据节点上,在一定层面上减弱了名称节点的存储压力,实现空间数据的分级分层索引高效管理。
实施例3
本实施公开元数据管理节点(Namenode),本实施例的元数据管理节点是整个HDFS系统的核心,也是整个分布式文件系统的主控制服务器,服务器主要存储存元数据并负责协调客户端对系统内部的数据访问,并负责记录命名空间内的任何改动和属性变化。
本实施例元数据管理节点使用事务日志记录HDFS的元数据信息变化,使用映像文件保存文件系统的命名空间,事务日志和映像文件都存储在本地文件系统中。元数据管理节点作为HDFS中文件目录和文件分配的管理者,维护着两个重要的映射:文件名到数据块的映射;数据块到数据存储节点的关系映射。其中文件名到数据块的映射通过映像文件持久化保存:数据块到数据存储节点的映射则通过数据存储节点的上传信息建立起来的,它只在内存中保存。
本实施例的元数据管理节点在每次启动时,执行一次称为检查点的操作,从本地文件系统的磁盘中读取事务日志和映像文件,将事务日志的改动信息应用到映像文件中,同时把新的元数据信息更新到本地新的映像文件中。
本实施例的数据存储节点负责处理客户端的读写请求,按照元数据管理节点的操作命令,执行数据块的创建、复制、删除等工作。元数据管理节点上存放了数据块ID及数据块内容,通过和元数据管理节点间的心跳检测机制完成其状态的汇报。由于元数据管理节点上并不持久化的保存数据块到数据存储节点的映射关系,因此数据存储节点在每次启动时,会遍历本地文件系统,将数据块和本地文件的对应关系列表,并把这个列表报告给元数据管理节点。
综上,本发明使用HDFS将服务器故障视为常态事件,并采用多种方法,从多个角度,使用不同的容错措施,确保数据存储的安全、保证提供不间断的数据存储服务。
本发明在保证数据可靠性的同时,尽可能地降低数据冗余,提高存储效率是海量数据存储系统可靠性。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种节约空间的安全性信息数据管理储存方法,其特征在于,所述储存方法包括以下步骤:
S1由数据源头获取信息数据,并将获取的数据存储至HDFS系统;
S2将HDFS系统上的信息数据或外部信息数据转换成键值对的形式;
S3将S2中的数据进行划分,作为信息函数输入;
S4将S3过程中,信息函数处理的结果保存在本地文件作为过渡;
S5利用Writable函数,将处理结果序列化为字节流,并传递到reduce函数中作为输入端;
S6将处理后的信息数据进行归并,利用信息数据转换接口将结果保存成GeoJson类型并存储在HDFS元数据管理节点中。
2.根据权利要求1所述的节约空间的安全性信息数据管理储存方法,其特征在于,所述S2中,如果信息数据从外部来,根据信息数据的格式,调用信息数据格式转换接口对其格式进行转换。
3.根据权利要求1所述的节约空间的安全性信息数据管理储存方法,其特征在于,所述S3中,根据用户的需求对空间数据更新时,则对信息函数进行设计进行实现。
4.根据权利要求1所述的节约空间的安全性信息数据管理储存方法,其特征在于,所述S4中,通Writable函数,将字节流反序列化转换成相应的空间数据键值对。
5.根据权利要求1所述的节约空间的安全性信息数据管理储存方法,其特征在于,所述方法中,新增信息数据对象需要传入信息数据的属性信息及拓扑信息,信息函数将这些信息按照统一的接口构建key/value键值对,并将键值对作为中间结果传递给reduce函数。
6.根据权利要求5所述的节约空间的安全性信息数据管理储存方法,其特征在于,在reduce函数中构建成可以在HDFS上存储的GeoJson数据,并由Master节点调控把数据存储在相应的HDFS节点上,完成信息数据对象的新增。
7.根据权利要求1所述的节约空间的安全性信息数据管理储存方法,其特征在于,所述方法中,查询数据时,划分一全局索引一局部索引的多级空间索引结构,具体步骤如下:
T1首先调用信息函数将信息数据查询条件按照信息数据范围与总体索引中各个节点的最小外接矩形求交;
T2将查询条件分配给返回值为ture的节点;每个map函数根据分配的查询范围与该节点内索引树中的各个子节点的外接矩形求交;
T3如有交集,则迭代此过程,直到子节点为叶子节点为止;如叶子节点被包含在查询范围内,则将该节点的地理对象保存在本地节点中;
T4将每一个信息函数过程中保存在本地节点中的地理对象经过Writable序列化传递到reduce函数;
T5将所有查询到的地理实体进行归并,最后即可得到查询结果。
8.根据权利要求7所述的节约空间的安全性信息数据管理储存方法,其特征在于,为了提高空间数据检索的效率,把空间距离近的地理实体划分为一体,对划分后的分片结果建立总体索引,并对每个分片数据建立局部索引,把局部索引的数据存储在数据节点上,在一定层面上减弱了名称节点的存储压力,实现空间数据的分级分层索引高效管理。
9.根据权利要求1所述的节约空间的安全性信息数据管理储存方法,其特征在于,所述方法中,进行删除信息数据操作时,检索过程与查询信息数据类似,按照删除的条件对各个HDFS节点进行查询,当且仅当三个节点同时都删除了该信息数据时,才能正确完成删除操作。
10.根据权利要求1所述的节约空间的安全性信息数据管理储存方法,其特征在于,所述方法中,元数据管理节点为HDFS中文件目录和文件分配的管理者,维护文件名到数据块的映射和数据块到数据存储节点的关系映射,其中文件名到数据块的映射通过映像文件持久化保存:数据块到数据存储节点的映射则通过数据存储节点的上传信息建立起来的,它只在内存中保存。
CN202011021594.6A 2020-09-25 2020-09-25 一种节约空间的安全性信息数据管理储存方法 Withdrawn CN111966658A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011021594.6A CN111966658A (zh) 2020-09-25 2020-09-25 一种节约空间的安全性信息数据管理储存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011021594.6A CN111966658A (zh) 2020-09-25 2020-09-25 一种节约空间的安全性信息数据管理储存方法

Publications (1)

Publication Number Publication Date
CN111966658A true CN111966658A (zh) 2020-11-20

Family

ID=73387508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011021594.6A Withdrawn CN111966658A (zh) 2020-09-25 2020-09-25 一种节约空间的安全性信息数据管理储存方法

Country Status (1)

Country Link
CN (1) CN111966658A (zh)

Similar Documents

Publication Publication Date Title
US11153380B2 (en) Continuous backup of data in a distributed data store
US11816126B2 (en) Large scale unstructured database systems
US11755415B2 (en) Variable data replication for storage implementing data backup
US10579610B2 (en) Replicated database startup for common database storage
US9946735B2 (en) Index structure navigation using page versions for read-only nodes
Padhy et al. RDBMS to NoSQL: reviewing some next-generation non-relational database’s
JP5918244B2 (ja) フォールトトレラントデータベース管理システムにおいてクエリ結果を統合するシステム及び方法
JP5918243B2 (ja) 分散型データベースにおいてインテグリティを管理するためのシステム及び方法
CA2913036C (en) Index update pipeline
CN104516967A (zh) 一种电力系统海量数据管理系统及其使用方法
CN102033912A (zh) 一种分布式数据库访问方法及系统
US11080253B1 (en) Dynamic splitting of contentious index data pages
JP2013545162A5 (zh)
JP2013544386A5 (zh)
EP3788489B1 (en) Data replication in a distributed storage system
CN104462185A (zh) 一种基于混合结构的数字图书馆云存储系统
US10909091B1 (en) On-demand data schema modifications
US11822520B2 (en) Freeing pages within persistent memory
US10521398B1 (en) Tracking version families in a file system
CN111966658A (zh) 一种节约空间的安全性信息数据管理储存方法
US11449398B2 (en) Embedded container-based control plane for clustered environment
US11422903B2 (en) Maintaining and recomputing reference counts in a persistent memory file system
US12007983B2 (en) Optimization of application of transactional information for a hybrid transactional and analytical processing architecture
US20240004860A1 (en) Handshake protocol for efficient exchange of transactional information for a hybrid transactional and analytical processing architecture
US20240004867A1 (en) Optimization of application of transactional information for a hybrid transactional and analytical processing architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201120