CN110019509A

CN110019509A - 一种数据的写入方法和装置

Info

Publication number: CN110019509A
Application number: CN201710908476.9A
Authority: CN
Inventors: 黎泽
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2019-07-16

Abstract

本发明公开了一种数据的写入方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：根据待写入数据的写入次序为所述数据设置索引号，其中，所述索引号设置为所述数据的主键的前缀；根据所述索引号，确定所述数据在数据表中的存储区域；将所述数据写入该存储区域中。该实施方式能够解决区域服务热点问题，使数据写入能够平均分布在所有数据表区域上进行，提高HBase集群的资源利用率。

Description

一种数据的写入方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据的写入方法和装置。

背景技术

目前，在使用分布式的、面向列的数据库HBase的过程中，我们通常会通过连续的行键rowkey写入数据，以便于在读取数据时，可以更高效的利用数据表中某个范围的开始行键和结束行键，读取该范围内的数据。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：简单利用连续行键写入数据会造成区域服务热点(RegionServer Hotspotting)问题：数据会被分配到同一个数据表存储区域Region上，当存储区域Region的数据规模达到一定阈值的时候，它会自动切分成两个小一些的存储区域Region，其中的一个新存储区域Region将继续接收所有的新数据，而另一个新存储区域Region不会再被写数据，导致对于对所有存储区域Region的数据写入极不平均，不能充分利用HBase集群的写入优势。

因此，亟需一种能够解决区域服务热点问题，使数据写入能够平均分布在所有数据表区域上进行，提高HBase集群的资源利用率的数据的写入方法和装置。

发明内容

有鉴于此，本发明实施例提供一种数据的写入方法和装置，能够解决区域服务热点问题，使数据写入能够平均分布在所有数据表区域上进行，提高HBase集群的资源利用率。

为实现上述目的，根据本发明实施例的一个方面，提供了一种数据的写入方法，包括：

根据待写入数据的写入次序为所述数据设置索引号，其中，所述索引号设置为所述数据的主键的前缀；

根据所述索引号，确定所述数据在数据表中的存储区域；

将所述数据写入该存储区域中。

进一步地，所述根据待写入数据的写入次序为所述数据设置索引号包括：

根据所述待写入数据的写入次序确定索引变量，其中，对于多个待写入数据中，最先写入的待写入数据，其索引变量为初始值，对于在该最先写入的待写入数据之后写入的第n条数据，其索引变量为初始值与n-1倍的增加值之和，所述初始值、增加值以及n为整数；

将所述索引号的数值设置为所述索引变量除以所述数据表中存储区域的总数的余数。

可选地，所述增加值为1。

进一步地，本发明实施例提供的数据的写入方法还包括：

当在所述数据表中查询或删除所述数据时，根据所述数据的写入次序获得所述索引号；

在所述索引号对应的存储区域中进行所述数据的查询或删除。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种数据的写入装置，包括：

设置模块，用于根据待写入数据的写入次序为所述数据设置索引号，其中，所述索引号设置为所述数据的主键的前缀；

确定模块，用于根据所述索引号确定所述数据在数据表中的存储区域；

写入模块，用于将所述数据写入该存储区域中。

进一步地，所述设置模块进一步用于：

可选地，所述增加值为1。

进一步地，本发明实施例提供的数据的写入装置还包括：

匹配模块，用于当在所述数据表中查询或删除所述数据时，根据所述数据的写入次序获得所述索引号，然后在所述索引号对应的存储区域中进行所述数据的查询或删除。

本发明实施例提供的数据的写入方法和装置，以待写入数据的写入次序作为依据为每条待写入的数据设置索引号，使得一段时间内不同写入次序的待写入数据可以平均的写入到数据表的所有存储区域中，相对于现有技术中数据会被分配到同一个存储区域上进行写入，从而造成区域服务热点问题，本发明提供的数据写入方法可以有效解决区域服务热点问题，使数据写入能够平均分布在所有数据表存储区域上进行，提高HBase集群的资源利用率。并且将索引号的数值设置为索引变量除以数据表中存储区域的总数的余数，在数据持续写入的过程中，由于索引变量按照数据的写入顺序自增，索引号将在多个数值内顺序的重复取值，从而在根据索引号确定数据的存储区域时，可以将写入的数据平均分配到数据表所有的存储区域中。并且本发明方法在保证数据写入平均分布的同时，依然拥有高效的数据查询效率。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是本发明实施例提供的数据的写入方法的流程图；

图2是本发明实施例提供的数据的写入方法的具体实施方式的示意图；

图3是本发明实施例提供的数据的写入装置的结构示意图；

图4是本发明实施例可以应用于其中的示例性系统架构图；

图5是适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本发明实施例提供一种数据的写入方法，该方法可以应用于分布式的、面向列的数据库HBase的数据写入过程中。数据库Hbase的数据表table在行的方向上分割为多个存储区域region，存储区域region是Hbase中分布式存储和负载均衡的最小单元，存储区域region由Hbase集群中的区域服务RegionServer进行管理。在对数据表table进行数据写入时，数据会被写入到数据表table中的某个存储区域region中。

如图1所示，本发明实施例提供的数据的写入方法包括：步骤S101至S103。在步骤S101中，根据待写入数据的写入次序为待写入的数据设置索引号。然后，在步骤S102中，根据待写入的数据的索引号确定该待写入的数据在数据表中的存储区域region，在本发明的一种实施方式中，可以为数据表的存储区域配置与索引号相对应的编号，从而根据索引号可以确定其对应编号的存储区域。进而在步骤S103中将该待写入的数据写入该存储区域region中。

上述本发明实施例提供的数据写入方法，以待写入数据的写入次序作为依据为每条待写入的数据设置索引号，使得一段时间内不同写入次序的待写入数据可以平均的写入到数据表的所有存储区域中，相对于现有技术中数据会被分配到同一个存储区域上进行写入，从而造成区域服务热点(RegionServer Hotspotting)问题，本发明提供的数据写入方法可以有效解决区域服务热点问题，使数据写入能够平均分布在所有数据表存储区域上进行，提高HBase集群的资源利用率。

上述的步骤S101在执行时具体可以为：首先根据待写入数据的写入次序确定索引号的数值，然后把索引号设置为该待写入数据的主键的前缀。即将索引号与待写入数据的原主键进行拼接，得到一个新的主键。然后在步骤S103进行数据写入时，根据这个新的主键中的索引号确定待写入数据在数据表中的存储区域。

在本发明实施例中，步骤S101中根据待写入数据的写入次序确定索引号的数值的过程具体为：根据待写入数据的写入次序确定索引变量index，其中，多个待写入数据中最先写入的待写入数据，其索引变量为初始值，对于在该最先写入的待写入数据之后写入的第n条数据，其索引变量为初始值与n-1倍的增加值之和，初始值、增加值以及n为整数。将索引号的数值确定为索引变量除以数据表中存储区域的总数RegionCount的余数。例如，对于顺序写入的多个待写入数据的主键为：00001、00002、00003…，其中，主键为00001的数据即最先写入的数据，主键为00002的数据即主键为00001的数据之后写入的第2条数据，主键为00003的数据即主键为00001的数据之后写入的第3条数据，以此类推，n大于等于2。

在本发明实施例中，索引变量是一个自增变量，对于陆续写入的多个数据，索引变量按照该多个数据的写入顺序以增加值进行自增，对于多个待写入数据中最先写入的数据，索引变量为预设的初始值，在该最先写入的数据之后写入的下一条数据，其索引变量为初始值与增加值的和，以此类推，之后的写入的每条数据的索引变量都是其前一条写入数据的索引变量与增加值的和。还需要说明的是，所述增加值为预先设置。

索引号的数值为索引变量除以数据表中存储区域的总数的余数，在数据持续写入的过程中，由于索引变量按照数据的写入次序自增，因此，索引变量除以数据表中存储区域的总数所得的余数，即索引号，将在多个数值内顺序的重复取值，相对应的可以将数据表的多个存储区域的编号分别设置为该多个数值，从而在根据索引号确定数据的存储区域时，可以将写入的数据平均分配到数据表所有的存储区域中。

在本发明的一种优选的实施方式中，增加值配置为1，使得索引变量除以数据表中存储区域的总数所得的余数(即索引号)的可取值的个数，和存储区域的总数相等，从而在根据索引号确定数据的存储区域时，可以将写入的数据按照写入顺序逐一分配到数据表所有的存储区域中，每个存储区域中被分配到的数据的个数基本相同，分配更为平均。

在确定索引号后，将索引号作为前缀与数据的原主键拼接为新的主键newRowKey：

newRowKey＝(index％RegionCount)_originalKey，

其中，index表示索引变量，％表示取余数，“_”为拼接符，RegionCount表示数据表中存储区域的总数，originalKey表示数据的原主键。

本发明提供的数据的写入方法还可包括在数据表中进行数据查询或删除的步骤：在查询或删除数据时，首先根据数据的写入次序匹配对应的索引号，然后在该索引号对应的存储区域中进行数据的查询或删除。在Hbase数据库中，数据的写入次序也就是数据的主键的字典顺序，即按照字母顺序，或者数字由小到大顺序，因此，通过数据的主键即可确定数据的写入次序，从而得到数据的索引号。例如，在本发明的一种实施方式中，对于待写入的主键分别为00001、00002和00003的数据，最先写入的就是主键为00001的数据，然后是主键为00002的数据，最后是主键为00003的数据，因此，通过数据的主键即可得到数据的索引号。

在具体的应用过程中，数据的查询分为对批量数据的查询scan和对单个数据的查询get。在对批量数据进行查询时，通过查询条件即批量数据的起始主键和结束主键，匹配该起始主键至结束主键范围内的数据的索引号范围，然后即可根据索引号范围确定所有的存储区域中该索引号范围对应的存储区域是哪些，进而就可以针对这些存储区域分别的执行批量数据的查询。

其中，对多个存储区域的批量数据查询是并行执行的，数据虽然被分别写入到不同的存储区域中，但是通过并行的批量数据查询方式，使得数据查询的性能不会受到影响，并且有所提高。

相对于随机选择存储区域写入数据的写入方式，本发明提供的数据写入方法保证了数据写入的平均分布，使得数据的查询相对更加容易方便，并且基于本发明实施例提供的数据查询或删除方式，数据的查询更加高效，查询时能够准确的获取想要的数据。

下面通过一具体的实施方式对本发明提供的数据的写入方法进行更为详细的说明。

如图2所示，在本实施方式中，数据表中存储区域Region的总数RegionCount为5，索引变量的初始值配置为1，增加值配置为1。待顺序写入的数据的原主键rowkey分别为：00001，00002，00003，00004，00005，00006，00007，00008，00009，00010。

在本实施方式中，在上述数据的写入过程中，通过下述表达式得出每条数据的新的主键newRowKey：

newRowKey＝(++index％RegionCount)_originalKey，++index表示从初始值1开始自增的索引变量，自增的增加值为1，原主键originalKey为00001的数据即上述数据中写入次序最早的待写入数据，其索引变量为index为初始值1，索引号即为1，得到的新的主键newRowKey即1_00001，“_”为拼接符，原主键originalKey为00002的数据即第二条写入的数据，其索引变量为index为初始值1与增加值1的和，索引号即为2，得到的新的主键newRowKey即2_00001，以此类推，得到上述待顺序写入的数据的新的主键newRowKey：1_00001，2_00002，3_00003，4_00004，0_00005，1_00006，2_00007，3_00008，4_00009，0_00010。

如图2所示，数据表中的5个存储区域Region分别配置有编号a、b、c、d、e。根据新的主键newRowKey中的索引号，将上述数据分别写入到存储区域a至存储区域e中，索引号为1的数据写入到存储区域a中，索引号为2的数据写入到存储区域b中，索引号为3的数据写入到存储区域c中，索引号为4的数据写入到存储区域d中，索引号为5的数据写入到存储区域e中，从而使得上述10条数据平均的写入到5个存储区域中。

在查询或删除数据时，写入的数据的原主键rowkey：00001，00002，00003，00004，00005，00006，00007，00008，00009，00010，即表明数据写入时的次序，根据数据的写入次序获得数据的索引号：最先写入的数据的索引变量为初始值，在该最先写入的数据之后写入的第n条数据的索引变量为初始值与n-1倍的增加值之和，在本实施方式中，数据的原主键与索引变量相等，计算索引变量除以数据表中存储区域的总数的余数，即得到索引号。例如，原主键为00006的数据，根据其主键即可确定其写入次序为第6个写入，其索引号为1，根据索引号1可确定该数据所在的存储区域为存储区域a，进而在存储区域a中进行该数据的查询或删除。

本发明实施例提供的数据的写入方法，以待写入数据的写入次序作为依据为每条待写入的数据设置索引号，使得不同写入次序的待写入数据可以平均的写入到数据表的所有存储区域中，相对于现有技术中数据会被分配到同一个存储区域上进行写入，从而造成区域服务热点问题，本发明提供的数据写入方法可以有效解决区域服务热点问题，使数据写入能够平均分布在所有数据表存储区域上进行，提高HBase集群的资源利用率。并且将索引号的数值设置为索引变量除以数据表中存储区域的总数的余数，在数据持续写入的过程中，由于索引变量按照数据的写入顺序自增，索引号将在多个数值内顺序的重复取值，从而在根据索引号确定数据的存储区域时，可以将写入的数据平均分配到数据表所有的存储区域中。

本发明实施例还提供一种数据的写入装置，如图3所示，该装置300包括：设置模块301、确定模块302和写入模块303。其中，设置模块301可以用于根据待写入数据的写入次序为数据设置索引号。确定模块302可以用于根据索引号确定数据在数据表中的存储区域。写入模块303可以用于将数据写入该存储区域中。

在本发明实施例中，设置模块301还可以用于根据待写入数据的写入次序确定索引号，然后把索引号设置为数据的主键的前缀。

在本发明实施例中，设置模块301可以进一步用于：根据待写入数据的写入次序确定索引变量，其中，对于多个待写入数据中，最先写入的待写入数据，其索引变量为初始值，对于在该最先写入的待写入数据之后写入的第n条数据，其索引变量为初始值与n-1倍的增加值之和，初始值、增加值以及n为整数。然后将索引号的数值确定为索引变量除以数据表中存储区域的总数的余数。增加值优选为1。

本发明实施例提供的数据的写入装置还可以包括：匹配模块，匹配模块用于当在数据表中查询或删除数据时，根据数据的写入次序获得索引号，然后在索引号对应的存储区域中进行数据的查询或删除。

本发明实施例提供的数据的写入装置，以待写入数据的写入次序作为依据为每条待写入的数据设置索引号，使得一段时间内不同写入次序的待写入数据可以平均的写入到数据表的所有存储区域中，相对于现有技术中数据会被分配到同一个存储区域上进行写入，从而造成区域服务热点问题，本发明提供的数据写入方法可以有效解决区域服务热点问题，使数据写入能够平均分布在所有数据表存储区域上进行，提高HBase集群的资源利用率。并且将索引号的数值设置为索引变量除以数据表中存储区域的总数的余数，在数据持续写入的过程中，由于索引变量按照数据的写入顺序自增，索引号将在多个数值内顺序的重复取值，从而在根据索引号确定数据的存储区域时，可以将写入的数据平均分配到数据表所有的存储区域中。

图4示出了可以应用本发明实施例的数据的写入方法或数据的写入装置的示例性系统架构400。

如图4所示，系统架构100可以包括终端设备401、402、403，网络404和服务器405。网络104用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如进行数据写入和存储的服务器。

需要说明的是，本发明实施例所提供的数据的写入方法一般由服务器405执行，相应地，数据的写入装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括设置模块、确定模块和写入模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，写入模块还可以被描述为“在该存储区域中写入所述数据的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：步骤S101：根据待写入数据的写入次序为所述数据设置索引号；步骤S102：根据所述索引号确定所述数据在数据表中的存储区域；步骤S103：将所述数据写入该存储区域中。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据的写入方法，其特征在于，包括：

根据所述索引号，确定所述数据在数据表中的存储区域；

将所述数据写入该存储区域中。

2.根据权利要求1所述的方法，其特征在于，所述根据待写入数据的写入次序为所述数据设置索引号包括：

3.根据权利要求2所述的方法，其特征在于，所述增加值为1。

4.根据权利要求1至3中任一项所述的方法，其特征在于，还包括：

5.一种数据的写入装置，其特征在于，包括：

写入模块，用于将所述数据写入该存储区域中。

6.根据权利要求5所述的装置，其特征在于，所述设置模块进一步用于：

7.根据权利要求6所述的装置，其特征在于，所述增加值为1。

8.根据权利要求5至7中任一项所述的装置，其特征在于，还包括：

9.一种数据的写入电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。