CN107220003A - 一种数据读取方法和系统 - Google Patents

一种数据读取方法和系统 Download PDF

Info

Publication number
CN107220003A
CN107220003A CN201710386042.7A CN201710386042A CN107220003A CN 107220003 A CN107220003 A CN 107220003A CN 201710386042 A CN201710386042 A CN 201710386042A CN 107220003 A CN107220003 A CN 107220003A
Authority
CN
China
Prior art keywords
target data
cehp
data
systems
read request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710386042.7A
Other languages
English (en)
Other versions
CN107220003B (zh
Inventor
任东旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710386042.7A priority Critical patent/CN107220003B/zh
Publication of CN107220003A publication Critical patent/CN107220003A/zh
Application granted granted Critical
Publication of CN107220003B publication Critical patent/CN107220003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0656Data buffering arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据读取方法和系统,包括:Hbase客户端通过Cehp插件,直接将数据读取请求发送至Cehp系统,所述数据读取请求包括目标数据的标识和所述目标数据的区域信息;所述Cehp系统依据所述数据读取请求查找到所述目标数据后,通过所述Cehp插件,直接将所述目标数据返回至所述Hbase客户端。本申请Ceph插件层中不再设置缓存,减少了数据读取的层级,省去了在Ceph插件层的缓存中查找目标数据的过程,相比于现有技术提高了数据的读取效率。

Description

一种数据读取方法和系统
技术领域
本申请涉及计算机处理技术领域,尤其涉及一种基于HBase+Hadoop+Ceph对接框架下的数据读取方法和系统。
背景技术
HBase是一个分布式的、面向列的开源数据库,HBase建立在Hadoop的分布式存储系统HDFS(Hadoop Distributed File System,分布式文件系统)之上,是一个基于列的适合于非结构化数据存储的数据库。
HDFS是一个高度容错性的系统,能够提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop的体系结构主要是通过HDFS来实现分布式存储的底层支持,通过MapReduce实现分布或并行任务处理的程序支持。
Ceph存储系统是一种高性能、高可靠性、高可扩展性的存储系统。
基于HBase+Hadoop+Ceph的对接框架,将Ceph存储系统强大的分布式存储能力与Hadoop中MapReduce强大的并行任务处理能力相融合,同时结合HBase面向列的非结构化数据库,从而提供更高的可靠性、更强的性能、更大的容量利用率以及更加便捷的大数据平台。
目前,基于HBase+Hadoop+Ceph对接框架下的数据读取方法中,HBase客户端(HBase client)首先会在Ceph插件层的缓存(cache)中查找目标数据,若cache中没有目标数据,再从OSD(Object-based Storage Device,对象存储设备)中读取目标数据。
本申请的申请人发现,虽然现有数据读取方法能够读取到目标数据,但其读取数据的效率有待提高。因此,基于HBase+Hadoop+Ceph对接框架下,如何进一步提高数据的读取效率,成为当前亟需解决的一个技术问题。
发明内容
有鉴于此,本申请提供一种基于HBase+Hadoop+Ceph对接框架下的数据读取方法和系统,以提高数据的读取效率。技术方案如下:
基于本申请的一方面,本申请提供一种数据读取方法,包括:
Hbase客户端通过Cehp插件,直接将数据读取请求发送至Cehp系统,所述数据读取请求包括目标数据的标识和所述目标数据的区域信息;
所述Cehp系统依据所述数据读取请求查找到所述目标数据后,通过所述Cehp插件,直接将所述目标数据返回至所述Hbase客户端。
优选地,所述Cehp系统依据所述数据读取请求查找所述目标数据包括:
所述Cehp系统依据所述目标数据的标识,在分布式对象缓存Ceph oc层的缓存中查找所述目标数据;
如果未查找到,依据所述目标数据的区域信息,在所述区域信息对应的对象存储设备OSD上读取所述目标数据。
基于本申请的另一方面,本申请提供一种数据读取系统,包括:Hbase客户端、Cehp插件层和Cehp系统,在所述Cehp插件层中不设置缓存;
所述Hbase客户端通过Cehp插件,直接将数据读取请求发送至Cehp系统,所述数据读取请求包括目标数据的标识和所述目标数据的区域信息;
所述Cehp系统依据所述数据读取请求查找到所述目标数据后,通过所述Cehp插件,直接将所述目标数据返回至所述Hbase客户端。
优选地,所述Cehp系统依据所述数据读取请求查找所述目标数据包括:
所述Cehp系统依据所述目标数据的标识,在分布式对象缓存Ceph oc层的缓存中查找所述目标数据;
如果未查找到,依据所述目标数据的区域信息,在所述区域信息对应的对象存储设备OSD上读取所述目标数据。
本申请提供的数据读取方法中,Hbase客户端通过Cehp插件,直接将数据读取请求发送至Cehp系统,Cehp系统依据数据读取请求查找到目标数据后,通过Cehp插件,直接将目标数据返回至Hbase客户端。本申请Ceph插件层中不再设置缓存,减少了数据读取的层级,省去了在Ceph插件层的缓存中查找目标数据的过程,相比于现有技术提高了数据的读取效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种数据读取方法的流程图;
图2为本申请提供的一种数据读取系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的主要思想之一包括:在Ceph插件层中去除cache,即在Cehp插件层中不设置cache,减少数据读取的层级,直接建立HBase client与Cehp系统间的数据读取/返回关系,提高数据的读取效率。
如图1所示,其示出了本申请提供的一种数据读取方法的流程图,包括:
步骤101,Hbase client通过Cehp插件,直接将数据读取请求发送至Cehp系统,所述数据读取请求包括目标数据的标识和所述目标数据的区域信息。
Hbase client读取数据时,会生成数据读取请求,该数据读取请求中包括目标数据的标识和目标数据的区域信息。
其中对于目标数据的区域信息的确定方法可以为,Hbase client首先发送包括目标数据的标识的请求消息到zookeeper(zookeeper是Hadoop的重要组件,为分布式应用提供一致性服务的软件),获取Hbase表的元数据信息,进而根据元数据信息确定目标数据所在的区域。需要说明的是,本申请中确定目标数据的区域信息的实现方法同现有数据读取方法中确定目标数据的区域信息的实现方法相同,申请人在此不再赘述。
现有技术中HBase client首先会将数据读取请求发送至Ceph插件层,在Ceph插件层的cache中查找目标数据,若在cache中查找到目标数据,则通过Ceph插件,将在cache中查找到的目标数据返回至Hbase client。若在cache中没有查找到目标数据,则通过Ceph插件,将数据读取请求发送至Cehp系统,从Cehp系统中的OSD中读取目标数据。
而实际应用中,cache的内存非常小,HBase client欲读取的目标数据存储在cache中的概率非常低,一般情况下不会在cache中查找到目标数据,因此可以理解的,在cache中查找目标数据的过程冗余耗时且无用。
与现有技术不同的是,本申请在Ceph插件层去除cache,Hbase client通过Cehp插件,直接将数据读取请求发送至Cehp系统,而省去了在cache中查找目标数据的过程,相比于现有技术减少了数据读取的层级,提高了数据的读取效率。
步骤102,Cehp系统依据数据读取请求查找到目标数据后,通过Cehp插件,直接将目标数据返回至Hbase客户端。
本申请中,Cehp系统依据数据读取请求查找到目标数据后,也是通过Cehp插件,直接将目标数据返回至Hbase客户端,而不会再在cache中缓存目标数据。
特别地本申请中,Cehp系统依据数据读取请求查找目标数据的过程可以包括:Cehp系统首先依据目标数据的标识,在Ceph oc(Ceph object cache,分布式对象缓存)层的缓存中查找目标数据。如果查找到,则直接将查找到目标数据通过Cehp插件返回至Hbase客户端;如果未查找到,则再依据目标数据的区域信息,在所述区域信息对应的OSD上读取目标数据。本申请在有效增加ceph oc层的缓存的情况下,能够进一步提高数据的读取效率。
因此,应用本申请提供的数据读取方法,Hbase客户端通过Cehp插件,直接将数据读取请求发送至Cehp系统,Cehp系统依据数据读取请求查找到目标数据后,通过Cehp插件,直接将目标数据返回至Hbase客户端。本申请Ceph插件层中不再设置缓存,减少了数据读取的层级,省去了在Ceph插件层的缓存中查找目标数据的过程,相比于现有技术提高了数据的读取效率。
基于本申请提供的一种数据读取方法,本申请还提供一种数据读取系统,如图2所示,包括Hbase客户端100、Cehp插件层200和Cehp系统300,其中在Cehp插件层200中不设置缓存。
具体地,Hbase客户端100通过Cehp插件201,直接将数据读取请求发送至Cehp系统300,所述数据读取请求包括目标数据的标识和目标数据的区域信息;
Cehp系统300依据所述数据读取请求查找到目标数据后,通过Cehp插件201,直接将目标数据返回至Hbase客户端100。
其中Cehp系统300依据所述数据读取请求查找目标数据的过程可以包括:
Cehp系统300依据目标数据的标识,在Ceph oc层301的缓存中查找目标数据;
如果未查找到,依据目标数据的区域信息,在所述区域信息对应的OSD302上读取目标数据。
以上对本申请所提供的一种数据读取方法和系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (4)

1.一种数据读取方法,其特征在于,包括:
Hbase客户端通过Cehp插件,直接将数据读取请求发送至Cehp系统,所述数据读取请求包括目标数据的标识和所述目标数据的区域信息;
所述Cehp系统依据所述数据读取请求查找到所述目标数据后,通过所述Cehp插件,直接将所述目标数据返回至所述Hbase客户端。
2.根据权利要求1所述的数据读取方法,其特征在于,所述Cehp系统依据所述数据读取请求查找所述目标数据包括:
所述Cehp系统依据所述目标数据的标识,在分布式对象缓存Ceph oc层的缓存中查找所述目标数据;
如果未查找到,依据所述目标数据的区域信息,在所述区域信息对应的对象存储设备OSD上读取所述目标数据。
3.一种数据读取系统,包括:Hbase客户端、Cehp插件层和Cehp系统,其特征在于,在所述Cehp插件层中不设置缓存;
所述Hbase客户端通过Cehp插件,直接将数据读取请求发送至Cehp系统,所述数据读取请求包括目标数据的标识和所述目标数据的区域信息;
所述Cehp系统依据所述数据读取请求查找到所述目标数据后,通过所述Cehp插件,直接将所述目标数据返回至所述Hbase客户端。
4.根据权利要求3所述的数据读取系统,其特征在于,所述Cehp系统依据所述数据读取请求查找所述目标数据包括:
所述Cehp系统依据所述目标数据的标识,在分布式对象缓存Ceph oc层的缓存中查找所述目标数据;
如果未查找到,依据所述目标数据的区域信息,在所述区域信息对应的对象存储设备OSD上读取所述目标数据。
CN201710386042.7A 2017-05-26 2017-05-26 一种数据读取方法和系统 Active CN107220003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710386042.7A CN107220003B (zh) 2017-05-26 2017-05-26 一种数据读取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710386042.7A CN107220003B (zh) 2017-05-26 2017-05-26 一种数据读取方法和系统

Publications (2)

Publication Number Publication Date
CN107220003A true CN107220003A (zh) 2017-09-29
CN107220003B CN107220003B (zh) 2020-03-24

Family

ID=59946796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710386042.7A Active CN107220003B (zh) 2017-05-26 2017-05-26 一种数据读取方法和系统

Country Status (1)

Country Link
CN (1) CN107220003B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197159A (zh) * 2017-12-11 2018-06-22 厦门集微科技有限公司 基于分布式文件系统的数据读取、写入方法及装置
CN108491163A (zh) * 2018-03-19 2018-09-04 腾讯科技(深圳)有限公司 一种大数据处理方法、装置和存储介质
WO2021057317A1 (zh) * 2019-09-23 2021-04-01 中国银联股份有限公司 一种访问对接器、系统及应用该访问对接器的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150067001A1 (en) * 2013-08-30 2015-03-05 International Business Machines Corporation Cache management in a computerized system
CN104598631A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 分布式数据处理平台
US9141814B1 (en) * 2014-06-03 2015-09-22 Zettaset, Inc. Methods and computer systems with provisions for high availability of cryptographic keys
CN105554132A (zh) * 2015-12-23 2016-05-04 浪潮集团有限公司 一种Hadoop在线扩容的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150067001A1 (en) * 2013-08-30 2015-03-05 International Business Machines Corporation Cache management in a computerized system
US9141814B1 (en) * 2014-06-03 2015-09-22 Zettaset, Inc. Methods and computer systems with provisions for high availability of cryptographic keys
CN104598631A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 分布式数据处理平台
CN105554132A (zh) * 2015-12-23 2016-05-04 浪潮集团有限公司 一种Hadoop在线扩容的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197159A (zh) * 2017-12-11 2018-06-22 厦门集微科技有限公司 基于分布式文件系统的数据读取、写入方法及装置
CN108197159B (zh) * 2017-12-11 2020-07-10 厦门集微科技有限公司 基于分布式文件系统的数据读取、写入方法及装置
CN108491163A (zh) * 2018-03-19 2018-09-04 腾讯科技(深圳)有限公司 一种大数据处理方法、装置和存储介质
CN108491163B (zh) * 2018-03-19 2022-01-04 腾讯科技(深圳)有限公司 一种大数据处理方法、装置和存储介质
WO2021057317A1 (zh) * 2019-09-23 2021-04-01 中国银联股份有限公司 一种访问对接器、系统及应用该访问对接器的方法及装置

Also Published As

Publication number Publication date
CN107220003B (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN109254733B (zh) 用于存储数据的方法、装置和系统
US11182211B2 (en) Task allocation method and task allocation apparatus for distributed data calculation
CN105765554B (zh) 在分布式存储系统上分发数据
Liao et al. Multi-dimensional index on hadoop distributed file system
US9547706B2 (en) Using colocation hints to facilitate accessing a distributed data storage system
CN103106249B (zh) 一种基于Cassandra的数据并行处理系统
US10157214B1 (en) Process for data migration between document stores
CN107704202B (zh) 一种数据快速读写的方法和装置
US20160217167A1 (en) Hash Database Configuration Method and Apparatus
US9405643B2 (en) Multi-level lookup architecture to facilitate failure recovery
CN105516284B (zh) 一种集群数据库分布式存储的方法和装置
CN111258978B (zh) 一种数据存储的方法
WO2013097231A1 (zh) 文件访问方法及系统
CN106599091B (zh) 基于键值存储的rdf图结构存储和索引方法
CN113485962B (zh) 日志文件的存储方法、装置、设备和存储介质
US11321283B2 (en) Table and index communications channels
CN107220003A (zh) 一种数据读取方法和系统
US20150169623A1 (en) Distributed File System, File Access Method and Client Device
CN106027638B (zh) 一种基于混合编码的hadoop数据分发方法
CN103036949B (zh) 一种虚拟化环境下Cassandra系统的优化方法和系统
CN108153759B (zh) 一种分布式数据库的数据传输方法、中间层服务器及系统
CN109388651B (zh) 一种数据处理方法和装置
US9684668B1 (en) Systems and methods for performing lookups on distributed deduplicated data systems
CN105208096A (zh) 分布式缓存系统和方法
CN116775712A (zh) 联表查询方法、装置、电子设备、分布式系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant