CN108376054A

CN108376054A - 一种对标识数据进行索引的处理方法及装置

Info

Publication number: CN108376054A
Application number: CN201810088759.8A
Authority: CN
Inventors: 李志平; 谢家贵; 郭健
Original assignee: Beijing Taier Infa Network Technology LLC
Current assignee: China Academy of Information and Communications Technology CAICT
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2018-08-07
Anticipated expiration: 2038-01-30
Also published as: CN108376054B

Abstract

本发明实施例提供一种对标识数据进行索引的处理方法及装置，所述方法包括：获取待进行索引的标识数据总量，以及磁盘每次读取数据的耗时；根据预设的期望查询时间和所述耗时，获取每个二叉查找树的深度；根据所述深度和预先获得的每个二叉查找树的出度，获取每个二叉查找树所能容纳的标识数据数量；根据所述标识数据总量和所述标识数据数量，获取所需要的二叉查找树的数量Q；分别采用Q个二叉查找树对所述标识数据进行索引，以获取数据索引结果。所述装置执行上述方法。本发明实施例提供的方法及装置，通过获取所需要的二叉查找树的数量Q，分别采用Q个二叉查找树对标识数据进行索引，能够按照实际情况，有效减少磁盘读取标识数据的次数。

Description

一种对标识数据进行索引的处理方法及装置

技术领域

本发明实施例涉及标识数据索引技术领域，具体涉及一种对标识数据进行索引的处理方法及装置。

背景技术

标识及标识解析技术是实现产品追溯的核心关键。工业互联网标识体量很大，需要一种高效注册解析标识的方法。

索引是一种在大量数据的情况下高效获取数据的数据结构，数据结构可以是key-value的形式，以方便快速查询、更新相关数据，索引通常实现是使用二叉查找树。当标识数据量达到一定级别时，作为索引的key也无法全部存储在内存中。查找key过程中就要产生多次磁盘I/O消耗，以二叉查找树中的B树为例，进行说明，图1为现有技术中B树结构图，如图1所示，假设查询文件名40：

(1)根据根结点指针找到文件目录的根磁盘块1，将其中的信息导入内存。即：磁盘IO操作1次。

此时内存中有两个文件名21、42和三个存储其他磁盘页面地址的数据。根据比较算法我们发现：21<40<42，因此我们找到指针P2。

(2)根据P2指针，我们定位到磁盘块3，并将其中的信息导入内存。即：磁盘IO操作2次。

此时内存中有两个文件名26，35和三个存储其他磁盘页面地址的数据。根据算法我们发现：40>35，因此我们找到指针P3。

(3)根据P3指针，我们定位到磁盘块8，并将其中的信息导入内存。即：磁盘IO操作3次。

此时内存中有两个文件名36，40，根据B树规则我们查找到文件名40，并定位了该文件内存的磁盘地址，根据查找步骤可知进行一次查询，需要3次磁盘IO操作和3次内存查找操作。

B树的搜索复杂度为O(h)＝O(log_d W)，W为标识数据总量，所以树的出度d越大，深度h就越小，I/O的次数就越少。B树恰恰可以增加出度d值，从而拥有更好的性能。根据计算机存取原理，B树的每个节点最大为一个磁盘块容量，每个磁盘块为4096字节，标识名字平均长度假设为128字节，则B树的节点度数计算方法如下，假设度数为d，子节点地址占8字节：

(2d-1)×128+2d×8＝4096

计算得出d＝15，在数据量W为10亿的情况下，B树深度h＝log₁₅10亿＝7.7，也就是说在10亿这个量级下，不考虑内存缓存，则需要进行8次磁盘IO才能定位到标识数据所在位置，也无法按照实际情况有效较少磁盘读取数据的次数。

因此，如何对较大数量的标识数据进行索引，并按照实际情况减少磁盘读取数据的次数，成为亟须解决的问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种对标识数据进行索引的处理方法及装置。

第一方面，本发明实施例提供一种对标识数据进行索引的处理方法，所述方法包括：

获取待进行索引的标识数据总量，以及磁盘每次读取数据的耗时；

根据预设的期望查询时间和所述耗时，获取每个二叉查找树的深度；其中，所述二叉查找树是对标识数据进行索引所采用的；

根据所述深度和预先获得的每个二叉查找树的出度，获取每个二叉查找树所能容纳的标识数据数量；

根据所述标识数据总量和所述标识数据数量，获取所需要的二叉查找树的数量Q；

分别采用Q个二叉查找树对所述标识数据进行索引，以获取数据索引结果。

第二方面，本发明实施例提供一种对标识数据进行索引的处理装置，所述装置包括：

第一获取单元，用于获取待进行索引的标识数据总量，以及磁盘每次读取数据的耗时；

第二获取单元，用于根据预设的期望查询时间和所述耗时，获取每个二叉查找树的深度；其中，所述二叉查找树是对标识数据进行索引所采用的；

第三获取单元，用于根据所述深度和预先获得的每个二叉查找树的出度，获取每个二叉查找树所能容纳的标识数据数量；

第四获取单元，用于根据所述标识数据总量和所述标识数据数量，获取所需要的二叉查找树的数量Q；

索引单元，用于分别采用Q个二叉查找树对所述标识数据进行索引，以获取数据索引结果。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，包括：

所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如下方法：

本发明实施例提供的对标识数据进行索引的处理方法及装置，通过获取所需要的二叉查找树的数量Q，分别采用Q个二叉查找树对标识数据进行索引，能够按照实际情况，有效减少磁盘读取标识数据的次数。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中B树结构图；

图2为本发明实施例对标识数据进行索引的处理方法流程示意图；

图3为本发明实施例确定二叉查找树数量的流程图；

图4为本发明实施例每个二叉查找树获取数据索引结果的流程图；

图5为本发明实施例对标识数据进行索引的处理装置结构示意图；

图6为本发明实施例提供的电子设备实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图2为本发明实施例对标识数据进行索引的处理方法流程示意图，如图2所示，本发明实施例提供的一种对标识数据进行索引的处理方法，包括以下步骤：

S1：获取待进行索引的标识数据总量，以及磁盘每次读取数据的耗时。

具体的，装置获取待进行索引的标识数据总量，以及磁盘每次读取数据的耗时。磁盘每次读取数据的耗时(即每次磁盘IO需要消耗时间T)，耗时的具体数值T可以根据对磁盘的性能分析进行选取。

S2：根据预设的期望查询时间和所述耗时，获取每个二叉查找树的深度；其中，所述二叉查找树是对标识数据进行索引所采用的。

具体的，装置根据预设的期望查询时间和所述耗时，获取每个二叉查找树的深度；其中，所述二叉查找树是对标识数据进行索引所采用的。预设的期望查询时间M可以根据实际情况自主设置，可以采用如下公式计算每个二叉查找树的深度：

D＝M/T

其中，D是每个二叉查找树的深度、M是所述期望查询时间、T是所述耗时。

S3：根据所述深度和预先获得的每个二叉查找树的出度，获取每个二叉查找树所能容纳的标识数据数量。

具体的，装置根据所述深度和预先获得的每个二叉查找树的出度，获取每个二叉查找树所能容纳的标识数据数量。每个二叉查找树的出度d可以参照上述说明的方法获取，参照上述举例d＝15。可以采用如下公式，获取每个二叉查找树所能容纳的标识数据数量N：

N＝d^D

其中，N是每个二叉查找树所能容纳的标识数据数量、D是每个二叉查找树的深度、d是每个二叉查找树的出度。

S4：根据所述标识数据总量和所述标识数据数量，获取所需要的二叉查找树的数量Q。

具体的，装置根据所述标识数据总量和所述标识数据数量，获取所需要的二叉查找树的数量Q。可以根据如下公式计算二叉查找树的数量Q：

Q＝W/N

其中，Q是二叉查找树的数量、W是所述标识数据总量、N是每个二叉查找树所能容纳的标识数据数量。假设标识数据总量W＝10亿，参照上述N＝d^D，假设计算出的N＝1亿，则Q＝W/N＝10亿/1亿＝10个，即根据实际情况选择10个二叉查找树对标识数据进行索引，较为合理。二叉查找树可以是B树，进一步还可以对Q个B树进行初始化，并对每个B树进行编号标注，以便区分每个B树。图3为本发明实施例确定二叉查找树数量的流程图，如图3所示，详细说明不再赘述。

S5：分别采用Q个二叉查找树对所述标识数据进行索引，以获取数据索引结果。

具体的，装置分别采用Q个二叉查找树对所述标识数据进行索引，以获取数据索引结果。图4为本发明实施例每个二叉查找树获取数据索引结果的流程图，如图4所示，

第一步，根据已有的标识名字分配方法，计算出对应的B树编号。

第二步，找到对应的B树，并定位到该标识所在的节点上。

第三步，在该节点上进行数据插入操作。

需要说明的是：在标识数据W为10亿，出度仍为15的情况下，将总量为W的标识数据保存到10个B树中，每个B树的标识容量为1亿，每个B树深度h＝log₁₅1亿＝6.8，对比上述的7.7，可以减少一次磁盘IO操作，并可以根据实际情况，通过合理选定B数的数量，减少磁盘读取数据的次数。

本发明实施例提供的对标识数据进行索引的处理方法，通过获取所需要的二叉查找树的数量Q，分别采用Q个二叉查找树对标识数据进行索引，能够按照实际情况，有效减少磁盘读取标识数据的次数。

在上述实施例的基础上，所述根据预设的期望查询时间和所述耗时，获取每个二叉查找树的深度，包括：

根据如下公式计算每个二叉查找树的深度：

D＝M/T

具体的，装置根据如下公式计算每个二叉查找树的深度：

D＝M/T

其中，D是每个二叉查找树的深度、M是所述期望查询时间、T是所述耗时。可参照上述说明，不再赘述。

本发明实施例提供的对标识数据进行索引的处理方法，通过公式能够合理计算每个二叉查找树的深度，保证了该方法的正常进行。

在上述实施例的基础上，所述根据所述深度和预先获得的每个二叉查找树的出度，获取每个二叉查找树所能容纳的标识数据数量，包括：

根据如下公式计算每个二叉查找树所能容纳的标识数据数量：

N＝d^D

具体的，装置根据如下公式计算每个二叉查找树所能容纳的标识数据数量：

N＝d^D

其中，N是每个二叉查找树所能容纳的标识数据数量、D是每个二叉查找树的深度、d是每个二叉查找树的出度。可参照上述说明，不再赘述。

本发明实施例提供的对标识数据进行索引的处理方法，通过公式能够合理计算每个二叉查找树所能容纳的标识数据数量，保证了该方法的正常进行。

在上述实施例的基础上，所述根据所述标识数据总量和所述标识数据数量，获取所需要的二叉查找树的数量Q，包括：

根据如下公式计算二叉查找树的数量Q：

Q＝W/N

其中，Q是二叉查找树的数量、W是所述标识数据总量、N是每个二叉查找树所能容纳的标识数据数量。

具体的，装置根据如下公式计算二叉查找树的数量Q：

Q＝W/N

其中，Q是二叉查找树的数量、W是所述标识数据总量、N是每个二叉查找树所能容纳的标识数据数量。可参照上述说明，不再赘述。

本发明实施例提供的对标识数据进行索引的处理方法，通过公式能够合理计算二叉查找树的数量Q，保证了该方法的正常进行。

在上述实施例的基础上，所述二叉查找树是B树。

具体的，装置中的所述二叉查找树是B树。可参照上述说明，不再赘述。

本发明实施例提供的对标识数据进行索引的处理方法，通过将二叉查找树选为B树，能够更好地按照实际情况，有效减少磁盘读取标识数据的次数。

在上述实施例的基础上，所述方法还包括：

初始化Q个B树，并对每个B树进行编号标注。

具体的，装置初始化Q个B树，并对每个B树进行编号标注。可参照上述说明，不再赘述。

本发明实施例提供的对标识数据进行索引的处理方法，通过对每个B树进行编号标注，便于区分每个B树，有助于进一步通过每个B树对标识数据进行索引。

图5为本发明实施例对标识数据进行索引的处理装置结构示意图，如图5所示，本发明实施例提供了一种对标识数据进行索引的处理装置，包括第一获取单元1、第二获取单元2、第三获取单元3、第四获取单元4和索引单元5，其中：

第一获取单元1用于获取待进行索引的标识数据总量，以及磁盘每次读取数据的耗时；第二获取单元2用于根据预设的期望查询时间和所述耗时，获取每个二叉查找树的深度；其中，所述二叉查找树是对标识数据进行索引所采用的；第三获取单元3用于根据所述深度和预先获得的每个二叉查找树的出度，获取每个二叉查找树所能容纳的标识数据数量；第四获取单元4用于根据所述标识数据总量和所述标识数据数量，获取所需要的二叉查找树的数量Q；索引单元5用于分别采用Q个二叉查找树对所述标识数据进行索引，以获取数据索引结果。

具体的，第一获取单元1用于获取待进行索引的标识数据总量，以及磁盘每次读取数据的耗时；第二获取单元2用于根据预设的期望查询时间和所述耗时，获取每个二叉查找树的深度；其中，所述二叉查找树是对标识数据进行索引所采用的；第三获取单元3用于根据所述深度和预先获得的每个二叉查找树的出度，获取每个二叉查找树所能容纳的标识数据数量；第四获取单元4用于根据所述标识数据总量和所述标识数据数量，获取所需要的二叉查找树的数量Q；索引单元5用于分别采用Q个二叉查找树对所述标识数据进行索引，以获取数据索引结果。

本发明实施例提供的对标识数据进行索引的处理装置，通过获取所需要的二叉查找树的数量Q，分别采用Q个二叉查找树对标识数据进行索引，能够按照实际情况，有效减少磁盘读取标识数据的次数。

本发明实施例提供的对标识数据进行索引的处理装置具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图6为本发明实施例提供的电子设备实体结构示意图，如图6所示，所述电子设备包括：处理器(processor)601、存储器(memory)602和总线603；

其中，所述处理器601、存储器602通过总线603完成相互间的通信；

所述处理器601用于调用所述存储器602中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取待进行索引的标识数据总量，以及磁盘每次读取数据的耗时；根据预设的期望查询时间和所述耗时，获取每个二叉查找树的深度；其中，所述二叉查找树是对标识数据进行索引所采用的；根据所述深度和预先获得的每个二叉查找树的出度，获取每个二叉查找树所能容纳的标识数据数量；根据所述标识数据总量和所述标识数据数量，获取所需要的二叉查找树的数量Q；分别采用Q个二叉查找树对所述标识数据进行索引，以获取数据索引结果。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取待进行索引的标识数据总量，以及磁盘每次读取数据的耗时；根据预设的期望查询时间和所述耗时，获取每个二叉查找树的深度；其中，所述二叉查找树是对标识数据进行索引所采用的；根据所述深度和预先获得的每个二叉查找树的出度，获取每个二叉查找树所能容纳的标识数据数量；根据所述标识数据总量和所述标识数据数量，获取所需要的二叉查找树的数量Q；分别采用Q个二叉查找树对所述标识数据进行索引，以获取数据索引结果。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取待进行索引的标识数据总量，以及磁盘每次读取数据的耗时；根据预设的期望查询时间和所述耗时，获取每个二叉查找树的深度；其中，所述二叉查找树是对标识数据进行索引所采用的；根据所述深度和预先获得的每个二叉查找树的出度，获取每个二叉查找树所能容纳的标识数据数量；根据所述标识数据总量和所述标识数据数量，获取所需要的二叉查找树的数量Q；分别采用Q个二叉查找树对所述标识数据进行索引，以获取数据索引结果。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的电子设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种对标识数据进行索引的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据预设的期望查询时间和所述耗时，获取每个二叉查找树的深度，包括：

根据如下公式计算每个二叉查找树的深度：

D＝M/T

3.根据权利要求1所述的方法，其特征在于，所述根据所述深度和预先获得的每个二叉查找树的出度，获取每个二叉查找树所能容纳的标识数据数量，包括：

N＝d^D

4.根据权利要求1所述的方法，其特征在于，所述根据所述标识数据总量和所述标识数据数量，获取所需要的二叉查找树的数量Q，包括：

根据如下公式计算二叉查找树的数量Q：

Q＝W/N

5.根据权利要求1所述的方法，其特征在于，所述二叉查找树是B树。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

初始化Q个B树，并对每个B树进行编号标注。

7.一种对标识数据进行索引的处理装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。