CN116401285A

CN116401285A - 一种关系型数据库中对orc文件的索引方法及装置

Info

Publication number: CN116401285A
Application number: CN202310424535.0A
Authority: CN
Inventors: 李鹏; 吕新杰; 苗健
Original assignee: Highgo Base Software Co ltd
Current assignee: Highgo Base Software Co ltd
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-07-07

Abstract

本发明提出了一种关系型数据库中对ORC文件的索引方法及装置，方法包括：响应于在数据索引内的关于一数据的查询请求，利用预设算法，确定数据所在ORC文件在数据索引中的位置范围；基于位置范围以及预先配置的缓冲区，确定数据的具体位置，其中，缓冲区用于存储新增的ORC文件。本发明实施例为关系型数据库访问ORC文件设计一种索引，能提升关系库查询ORC的性能，并且针对学习型索引的缺点进行了改进，通过增加一个容易维护的缓冲区，进一步提升性能。

Description

一种关系型数据库中对ORC文件的索引方法及装置

技术领域

本发明涉及数据索引技术领域，尤其涉及一种关系型数据库中对ORC文件的索引方法。

背景技术

ORC文件，即OptimizedRecordColumnar，是一种Hadoop中使用的列存格式，它是二进制方式存储的，不能直接读取。ORC文件内部包含许多元数据，其结构方便大数据场景下的查询和读取。所以ORC适用于大数据分析，适用于OLAP(在线分析)，但不适用于OLTP(在线业务)场景。

但是目前在实际生产环境中，用户经常会需要一份数据即用于OLAP也用于OLTP，即这份数据既用来进行大数据分析，又用来满足一些事务性的业务查询。事务性的业务查询的特点是：查询逻辑相对简单，但对性能要求比较高。

目前用户解决此问题的方式是将hadoop中的数据抽取出来，然后存放入关系型数据库中，这样一份数据会有两份格式，一份用于大数据分析，一份用于业务查询。

然而这样的问题在于，会占用庞大的存储空间，并且数据抽取过程缓慢，数据更新不及时，要进一步解决此问题的一个思路是，让关系型数据库能够直接访问ORC格式的文件，但存在查询性能不高的问题。

并且，ORC文件本身是自索引的，其文件内部有一些本文件的元数据信息和索引信息，在关系型数据库中访问ORC文件目前业界并没有特殊的技术，基本都是依靠文件中的这些元数据来加速查询，但在大数据环境下，数据量巨大，ORC文件会有很多，无法在实际应用中有效实施。

发明内容

本发明要解决的技术问题是，如何在大数据环境中实现对ORC文件的快速索引；有鉴于此，本发明提供一种关系型数据库中对ORC文件的索引方法及装置。

本发明采用的技术方案是，所述关系型数据库中对ORC文件的索引方法，包括：

步骤S1，响应于在数据索引内的关于一数据的查询请求，利用预设算法，确定所述数据所在ORC文件在所述数据索引中的位置范围；

步骤S2，基于所述位置范围以及预先配置的缓冲区，确定所述数据的具体位置，其中，所述缓冲区用于存储新增的ORC文件。

在一个实施方式中，所述方法还包括：

基于获取的ORC文件以及在所述缓冲区中新增并存储的ORC文件，对所述预设算法进行配置。

在一个实施方式中，所述利用预设算法，确定所述数据所在ORC文件在所述数据索引中的位置范围，包括：

所述预设算法包括第一计算层以及第二计算层，基于所述第一计算层，确定所述数据在所述第二计算层中的一对应位置以及第一波动范围；

基于所述第二计算层基于所述数据在本计算层中的位置以及所述第一波动范围，确定所述数据对应的ORC文件位置以及第二波动范围，其中，所述ORC文件位置以及第二波动范围即为所述数据在所述数据索引中的位置范围。

在一个实施方式中，基于所述位置范围以及预先配置的缓冲区，确定所述数据的具体位置，包括；

在所述数据索引的所述位置范围内进行遍历，以确定所述数据在所述数据索引中的具体位置；

遍历所述缓冲区中的ORC文件，以确定所述数据在所述缓冲区中的具体位置；

将所述数据索引中的位置与所述缓冲区中的位置进行合并输出。

在一个实施方式中，所述基于获取的ORC文件以及在所述缓冲区中新增并存储的ORC文件，对所述预设算法进行配置，包括：

利用预先配置的ORC文件，对所述预设算法进行配置；

获取新增的ORC文件并存储至所述缓冲区中，当所述缓冲区中的ORC文件的数量超过预先配置的阈值时，将当前所述缓冲区中的所有ORC文件用于所述预设算法的进一步配置，并清空所述缓冲区。

本发明的另一方面还提供了一种关系型数据库中对ORC文件的索引装置，包括：

第一索引模块，被配置为响应于在数据索引内的关于一数据的查询请求，利用预设算法，确定所述数据所在ORC文件在所述数据索引中的位置范围；

第二索引模块，被配置为基于所述位置范围以及预先配置的缓冲区，确定所述数据的具体位置，其中，所述缓冲区用于存储新增的ORC文件。

在一个实施方式中，所述装置还包括：

神经网络模块，被配置为基于获取的ORC文件以及在所述缓冲区中新增并存储的ORC文件，对所述预设算法进行配置。

本发明的另一方面还提供了一种电子设备，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上任一项所述的关系型数据库中对ORC文件的索引方法的步骤。

本发明的另一方面还提供了一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的关系型数据库中对ORC文件的索引方法的步骤。。

采用上述技术方案，本发明至少具有下列优点：

1)本发明实施例为关系型数据库访问ORC文件设计一种索引，能提升关系库查询ORC的性能。

2)本发明实施例针对学习型索引的缺点进行了改进，增加了一个容易维护的缓冲区，进一步提升性能。

附图说明

图1为根据本发明实施例的关系型数据库中对ORC文件的索引方法流程示意图；

图2为根据本发明实施例的另一个关系型数据库中对ORC文件的索引方法流程示意图；

图3为根据本发明实施例的预设算法流程示意图；

图4为根据本发明实施例的预设算法结构示意图；

图5为根据本发明实施例的对查询操作的处理流程示意图；

图6为根据本发明实施例的对新增数据的处理流程示意图；

图7为根据本发明实施例的关系型数据库中对ORC文件的索引装置结构示意图；

图8为根据本发明实施例的电子设备结构示意图。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效，以下结合附图及较佳实施例，对本发明进行详细说明如后。

在附图中，为了便于说明，已稍微夸大了物体的厚度、尺寸和形状。附图仅为示例而并非严格按比例绘制。

还应理解的是，用语“包括”、“包括有”、“具有”、“包含”和/或“包含有”，当在本说明书中使用时表示存在所陈述的特征、整体、步骤、操作、元件和/或部件，但不排除存在或附加有一个或多个其它特征、整体、步骤、操作、元件、部件和/或它们的组合。此外，当诸如“...中的至少一个”的表述出现在所列特征的列表之后时，修饰整个所列特征，而不是修饰列表中的单独元件。此外，当描述本申请的实施方式时，使用“可以”表示“本申请的一个或多个实施方式”。并且，用语“示例性的”旨在指代示例或举例说明。

如在本文中使用的，用语“基本上”、“大约”以及类似的用语用作表近似的用语，而不用作表程度的用语，并且旨在说明将由本领域普通技术人员认识到的、测量值或计算值中的固有偏差。

除非另外限定，否则本文中使用的所有用语(包括技术用语和科学用语)均具有与本申请所属领域普通技术人员的通常理解相同的含义。还应理解的是，用语(例如在常用词典中定义的用语)应被解释为具有与它们在相关技术的上下文中的含义一致的含义，并且将不被以理想化或过度正式意义解释，除非本文中明确如此限定。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明中说明书中对方法流程的描述及本发明说明书附图中流程图的步骤并非必须按步骤标号严格执行，方法步骤是可以改变执行顺序的。而且，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本发明第一实施例，一种关系型数据库中对ORC文件的索引方法，如图1所示，包括：

步骤S1，响应于在数据索引内的关于一数据的查询请求，利用预设算法，确定数据所在ORC文件在数据索引中的位置范围；

步骤S2，基于位置范围以及预先配置的缓冲区，确定数据的具体位置，其中，缓冲区用于存储新增的ORC文件。

可参考图1或图2，下面将分步对本实施例所提供的方法进行详细说明。

步骤S1，响应于在数据索引内的关于一数据的查询请求，利用预设算法，确定数据所在ORC文件在数据索引中的位置范围。

本实施例中，可以基于获取的ORC文件以及在缓冲区中新增并存储的ORC文件，对预设算法进行配置。

本实施例使用ORC文件对神经网络进行训练，生成一个学习索引模型。对于新增的数据，放入缓冲区中，以ORC文件的方式存放。在进行数据查找时，首先通过学习索引进行查找，然后再对缓冲区进行查找。当缓冲区达到一定阈值后，将缓冲区中的ORC文件进行神经网络训练，然后清空缓冲区。

具体地，预设算法可以是一个神经网络模型，包括第一计算层以及第二计算层。

第一计算层，用于确定数据在所述第二计算层中的一对应位置以及第一波动范围；

第二计算层，用于基于数据在本计算层中的位置以及所述第一波动范围，确定所述数据对应的ORC文件位置以及第二波动范围，其中，ORC文件位置以及第二波动范围即为所述数据在所述数据索引中的位置范围

示例性地，其整体的结构如图3所示。输入预测模型的是要查找的key值，预测模型输出一个预测的数字guess，此数字guess表示此key值所在的ORC文件的编号。因为预测模型无法100％精准给出位置(否则会让预测模型极其复杂)，它只能给出一个范围，正确的ORC文件编号在此范围内波动，波动幅度为wave，所以预测模型给出guess数值后，系统需要对编号在guess-wave到guess+wave之间的ORC文件进行遍历，找到真正的ORC文件。

预测模型为了提高性能，减少复杂度，设计为两层结构，如图4所示。预测模型的第一层有一个子预测模型1-1，对于一个输入key它可以输出一个数值guessA(guessA的取值范围为1-1000)，guessA表示第二层某个子预测模型的位置，即，预测模型2-guessA，同时子预测模型1-1还会输出波动范围waveA，第二层子预测模型的准确位置介于2-(guessA-waveA)到2-(guessA+waveA)之间。第二层子预测模型最多有1000个，从2-1到2-1000，它的输入为子预测模型1-1传递来的查询key，输出为ORC文件的编号位置guessB以及波动范围waveB。

类似地，可以使用ORC文件对旧数据进行神经网络的训练。也就是说，可以使用上述的预测模型对已有数据进行训练，学习完毕的预测模型可以给定一个key值后输出这个key所在的ORC文件编号所在的范围。(例如，返回结果范围是编号100～105的6个ORC文件，具体哪一个需要遍历这6个文件来确定)。

具体地，可以在所述数据索引的所述位置范围内进行遍历，以确定所述数据在所述数据索引中的具体位置；再遍历所述缓冲区中的ORC文件，以确定所述数据在所述缓冲区中的具体位置；最后将所述数据索引中的位置与所述缓冲区中的位置进行合并输出。

本实施例中，可以预先建立虚拟缓冲区。虚拟缓冲区是一个虚拟的区域，它对应内存中一个存储空间，里面存放的是新增的并且尚未参与神经网络训练的ORC文件。

示例性地，比如编号1～100的100个ORC文件已经进行了神经网络训练生成了学习索引模型，后来又新增加了编号为101～110的10个新的ORC文件，这10个文件尚未参与神经网络训练，所以会被放入缓冲区。但实际上，缓冲区并非物理存在的，它只是记下来这10个文件的编号，即101～110，而编号101～110的10个ORC物理文件实际上是跟编号1～100的ORC文件存放在相同的磁盘目录中的。这样可以避免物理文件的移动。在清空缓冲区时，只是将缓存的101～110的编号删除即可。

进一步地，当有查询请求时，首先通过学习索引进行查找，然后再对缓存区的ORC文件进行查找，将两个查找结果合并后返回。具体流程如图5。

数据查询时，是根据一个key来寻找数据。输入key给学习索引模型后，学习索引模型会给出一个误差为wave的范围，其中包括1个或多个ORC文件，系统对这个范围中的文件进行遍历，看是否包含key，此查找结果记为(结果01)。然后系统会继续对缓冲区中的ORC文件进行遍历，看是否包含key，此查找结果记为(结果02)。最后将(结果01)和(结果02)进行合并后，返回给用户。

本实施例中，如图6所示，可以利用预先配置的ORC文件，对预设算法进行配置；也可以获取新增的ORC文件并存储至缓冲区中，当所述缓冲区中的ORC文件的数量超过预先配置的阈值时，将当前缓冲区中的所有ORC文件用于所述预设算法的进一步配置，并清空缓冲区。

也就是说，当有新增数据时，如果缓存的ORC文件数没有达到阈值，则将新增ORC文件的编号记入缓冲区。如果达到了阈值，则将缓冲区的ORC文件进行神经网络训练，并清空缓冲区。

可以理解的是，本实施例中的阈值可以是一个范围，例如500-1000，当缓冲区文件数到达500时，系统会根据数据量和系统的繁忙程度来寻找合适的时机将缓冲区文件进行神经网络训练；当缓冲区文件到达1000时，系统会立刻将缓冲区文件进行神经网络训练。

需要说明的是，因为此系统只针对数据只增不减，并且数据不会发生更改的场景，所以结果合并只需要将两个结果叠加在一起即可。

本实施例相较于现有技术，至少具备以下优点：

1)本实施例为关系型数据库访问ORC文件设计一种索引，能提升关系库查询ORC的性能。

2)本实施例针对学习型索引的缺点进行了改进，增加了一个容易维护的缓冲区，进一步提升性能。

本发明第二实施例，与第一实施例对应，本实施例介绍一种关系型数据库中对ORC文件的索引装置，如图7所示，包括：

本实施例中，所述装置还包括：

本实施例中，所述第一索引模块，被进一步配置为：

在一个实施方式中，所述第二索引模块，被进一步配置为：；

本实施例中，所述神经网络模块，被进一步配置为：

利用预先配置的ORC文件，对所述预设算法进行配置；

本发明第三实施例，一种电子设备，如图8所示，可以作为实体装置来理解，包括处理器以及存储有处理器可执行指令的存储器，当指令被处理器执行时，执行如下操作：

本发明第四实施例，本实施例的关系型数据库中对ORC文件的索引方法的流程与第一、二或三实施例相同，区别在于，在工程实现上，本实施例可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的方法可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台设备执行本发明实施例的方法。

通过具体实施方式的说明，应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图示仅是提供参考与说明之用，并非用来对本发明加以限制。

Claims

1.一种关系型数据库中对ORC文件的索引方法，其特征在于，包括：

响应于在数据索引内的关于一数据的查询请求，利用预设算法，确定所述数据所在ORC文件在所述数据索引中的位置范围；

基于所述位置范围以及预先配置的缓冲区，确定所述数据的具体位置，其中，所述缓冲区用于存储新增的ORC文件。

2.根据权利要求1所述的关系型数据库中对ORC文件的索引方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的关系型数据库中对ORC文件的索引方法，其特征在于，所述利用预设算法，确定所述数据所在ORC文件在所述数据索引中的位置范围，包括：

4.根据权利要求1所述的关系型数据库中对ORC文件的索引方法，其特征在于，基于所述位置范围以及预先配置的缓冲区，确定所述数据的具体位置，包括；

5.根据权利要求2所述的关系型数据库中对ORC文件的索引方法，其特征在于，所述基于获取的ORC文件以及在所述缓冲区中新增并存储的ORC文件，对所述预设算法进行配置，包括：

利用预先配置的ORC文件，对所述预设算法进行配置；

6.一种关系型数据库中对ORC文件的索引装置，其特征在于，包括：

7.根据权利要求6所述的关系型数据库中对ORC文件的索引装置，其特征在于，所述装置还包括：

8.一种电子设备，其特征在于，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的关系型数据库中对ORC文件的索引方法的步骤。

9.一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的关系型数据库中对ORC文件的索引方法的步骤。