CN114020779B

CN114020779B - 自适应优化检索性能数据库及数据查询方法

Info

Publication number: CN114020779B
Application number: CN202111291885.1A
Authority: CN
Inventors: 叶杨; 陈伟; 王维军
Original assignee: Shanghai Zhuochen Info Tech Co ltd
Current assignee: Shanghai Zhuochen Info Tech Co ltd
Priority date: 2021-10-22
Filing date: 2021-11-03
Publication date: 2022-07-22
Anticipated expiration: 2041-11-03
Also published as: CN115145953A; CN114020779A

Abstract

本发明提供了一种自适应优化检索性能数据库及数据查询方法，应用于大数据存储领域。该数据库包括用于多线程或多进程将待存储数据进行分块处理的数据分块模块、用于储存分块后的数据的存储模块、用于记录分块索引信息的索引模块、用于查询数据的查询模块、用于缓存数据的缓存模块以及通过奖惩函数实时调整查询模块分配的查询资源使查询效率提升的优化模块。本发明通过优化模块使用奖惩函数对查询模块进行优化更新，实时调整查询模块进行查询时对每一个分块分配的查询资源，改变每个分块的查询时间复杂度，使得查询效率提升，自适应的优化检索查询过程，解决了现有数据存储系统无法根据海量数据的实时查询情况对查询效率进行改进的问题。

Description

自适应优化检索性能数据库及数据查询方法

技术领域

本发明涉及一种自适应优化检索性能数据库及数据查询方法，属于大数据存储领域。

背景技术

数据处理大致可以分成两大类：联机事务处理OLTP(on-line transactionprocessing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持(故也被称为也叫DSS决策支持系统)，并且提供直观易懂的查询结果。

OLAP场景下，数据存储最基础而有效的优化是改行存储为列存储。数据压缩是存储领域常用的优化手段，以可控的CPU开销来大幅缩小数据在磁盘上的存储空间，一来可以节省成本，二来可以减小I/O和数据在内存中跨线程和跨节点网络传输的开销。压缩算法并不是压缩比越高越好，压缩率越高的算法压缩和解压缩速度往往就越慢，需要根据硬件配置和使用场景在CPU和I/O之间进行权衡。数据编码可以理解为轻量级压缩，包括RLE和数据字典编码等。在列存储模式下，数据压缩和编码的效率均远高于行存储模式。

当OLAP系统进行大量的数据访问时，受限于数据的存储方式，对于常用的查询数据和非常用数据无法区分，不同的查询操作占用资源的不同未统一优化，无法根据海量数据的实时查询状态进行查询效率的改进。

有鉴于此，确有必要提出一种新的自适应优化检索性能数据库及方法，以解决上述问题。

发明内容

本发明的目的在于提供一种自适应优化检索性能数据库及数据查询方法，以解决现有数据存储系统无法根据海量数据的实时查询情况对查询效率进行改进的问题。

为实现上述目的，本发明提供了一种自适应优化检索性能数据库，应用于大数据存储，包括以下模块：

数据分块模块，用于多线程或多进程将待存储数据进行分块处理，得到分块数据；

存储模块，用于储存所述数据分块模块处理后的所述分块数据；

索引模块，用于在所述待存储数据进行分块时记录每一个所述分块数据的分块信息，并形成数据索引表；

查询模块，用于对存储的所述分块数据进行查询；

缓存模块，用于缓存预设时间内的查询条件和查询结果；

优化模块，用于通过奖惩函数评估查询过程及查询结果，对所述查询模块进行优化更新，并实时调整所述查询模块进行查询时对每一个所述分块数据分配的查询资源，所述奖惩函数具体为：

其中n表示共有n个分块数据，E(d)表示分块数据查询时的时间复杂度均值，d_i表示查询分块数据i的时间复杂度，λ为惩罚系数，α为分块数据i的权重。

作为本发明的进一步改进，所述数据分块模块用于对所述待存储数据进行扫描并判断所述待存储数据的数据类型，以根据数据类型进行分块。

作为本发明的进一步改进，所述数据类型包括：结构化数据和非结构化数据，当所述数据类型为结构化数据时，所述数据分块模块对所述待存储数据进行逻辑分块，识别所述待存储数据中的字段内容，并将识别到的字段内容按数值特征或编码格式进行分块；当所述数据类型为非结构化数据时，所述数据分块模块对所述待存储数据进行维度分块，根据数据的不同维度进行数据立方的切割，以形成多个分块数据，每个分块数据上包括预设维数的至少一个非结构化数据，所述预设维数至少为一维。

作为本发明的进一步改进，所述缓存模块的缓存预设时间为七天，所述缓存模块中存储至少一次查询的查询条件及查询结果，所述查询模块进行查询时，当所述缓存模块中存储的查询条件与实际查询条件相同时，可直接从所述缓存模块中获得查询结果，无需对所述存储模块进行扫描查询。

作为本发明的进一步改进，所述缓存模块在所述待存储数据的大小为8～256GB时，同时起到存储的作用，将所述待存储数据直接存储在所述缓存模块中，在所述待存储数据的大小大于256GB时，所述缓存模块则仅缓存预设时间内的查询条件和查询结果。

本发明还提供了一种数据查询方法，应用于前述自适应优化检索性能数据库，主要包括以下步骤：

步骤1：输入查询请求，所述查询模块接受并解析查询请求，得到查询条件；

步骤2：判断所述缓存模块中是否存在相同的查询条件，如果有，直接从所述缓存模块中获取查询结果，如果没有，则进入步骤3；

步骤3：根据所述优化模块的奖惩函数调整所述查询模块对所述存储模块中每一个所述分块数据分配的查询资源并进行查询，得到查询结果；

步骤4：记录查询过程中每个查询到的分块数据的信息，包括所述查询条件、查询时间及查询结果，合并为查询结果集；

步骤5：将所述查询条件和所述查询结果缓存到所述缓存模块中。

作为本发明的进一步改进，步骤3具体包括：

步骤31：向所述索引模块并发执行对所述查询条件中分块特征信息的过滤，并汇总过滤得到的待查询特征分块数据；

步骤32：向所述存储模块多线程并发执行对所述待查询特征分块数据的筛选，获取筛选后的筛选分块的行索引；

步骤33：返回查询结果。

作为本发明的进一步改进，步骤3中，当奖惩函数中的分块数据的权重α＞1时，则所述查询资源的正向分配权重公式为：

其中，w_mn为第m个查询指令在查询资源r_n的权重。

作为本发明的进一步改进，步骤3中，当奖惩函数中的分块数据的权重α＝1时，则不改变对所述分块数据分配的查询资源。

作为本发明的进一步改进，步骤3中，当奖惩函数中的分块数据的权重α＜1时，则所述查询资源的反向分配权重公式为：

其中，w_mn为第m个查询指令在查询资源r_n的权重。

本发明的有益效果是：本发明的自适应优化检索性能数据库通过优化模块使用奖惩函数对查询模块进行优化更新，实时调整查询模块进行查询时对每一个分块分配的查询资源，改变每个分块的查询时间复杂度，使得查询效率提升，自适应的优化检索查询过程，解决现有数据存储系统中无法根据海量数据的实时查询情况对查询效率进行改进的问题。

附图说明

图1是本发明的自适应优化检索性能数据库的结构框图。

图2是本发明的数据查询方法的流程图。

图3是本发明查询模块执行查询时的具体流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

如图1所示，本发明揭示了一种自适应优化检索性能数据库100，应用于大数据存储，具体包括以下模块：

数据分块模块1，用于多线程或多进程将待存储数据进行分块处理，得到分块数据；

存储模块2，用于储存数据分块模块1中的分块数据；

索引模块3，用于在待存储数据进行分块时记录每一块分块数据的分块信息，并形成数据索引表；

查询模块4，用于对存储的分块数据进行查询；

缓存模块5，用于缓存预设时间内的查询条件和查询结果；

优化模块6，通过奖惩函数评估查询过程及查询结果，对查询模块4进行优化更新，实时调整查询模块4进行查询时对每一个分块数据分配的查询资源，奖惩函数具体为：

对于一份待存储数据，数据分块模块1用于多线程或多进程的对待存储数据中的数据进行扫描并判断待存储数据的数据类型，再根据数据类型选择相应的分块方法，将待存储数据分块。

待存储数据的数据类型具体包括：结构化数据和非结构化数据。

当待存储数据的数据类型为结构化数据，即表格数据时，对待存储数据进行逻辑分块，首先识别待存储数据中的字段内容，然后将识别到的字段内容按数值特征或编码格式进行分块处理。

数值特征包括但不限于：时间、地点、证件号、交易帐号、金额、联系方式、ip等预设的基本数据属性。编码格式包括但不限于：数值型、字符串型、时间型(日期型)、acsii码、utf-8等预设的数据类型。

按数值特征进行分块处理时，以数值特征对应的主要数据属性进行数据块分割。主要数据属性指待存储数据中占比最大的数据属性。如主要数据属性为时间数值，可按天将数据字段进行分块处理；如主要数据属性是地理坐标，则可按地理分区将数据字段进行分块处理。数据分块时所选取的分块细粒度根据数据属性自身特点而改变。如按预设细粒度进行分块后的分块数据内的数据量仍较大，可进一步缩小分块细粒度，将这个较大数据量的分块数据进一步划分为多个较小数据量的分块数据。

举例的，在一个企业员工资料数据库中，将全部员工按照部门、性别、入职年份、身份信息等具体属性作为员工数据按行处理，可依据员工身份信息(身份证号等数值特征)或部门编码(编码格式)对结构化数据进行分块后按块存储。

当待存储数据的数据类型为非结构化数据，即文本信息时，对待存储数据进行维度分块，根据待存储数据的不同维度进行数据立方的切割，得到多个分块数据，每个分块数据上包括预设维数的至少一个非结构化数据，预设维数至少为一维。

对于经过数据分块模块1分块的分块数据，存储到存储模块2中，存储模块2包括多个分布式存储节点，每个分布式存储节点中存储至少一个分块数据。

索引模块3用于在待存储数据进行分块时记录每一块分块数据的分块信息，并形成数据索引表。

具体地，在对待存储数据进行分块的时候，会对每一个分块数据的分块信息进行记录，分块信息包括但不限于分块名称、分块编号、分块特性，这些分块信息被记录到与分块数据关联的分块索引表中，每个录入的数据会同时新增索引记录。

如果分块数据的数据类型为结构化数据，则建立索引时会建立树形索引。

如果分块数据的数据类型为非结构化数据，则建立索引时建立倒排索引，建立索引的过程为：索引模块3--缓存模块5--存储模块2。

已建立的各个分块索引表汇总后得到当前总的索引集合，即数据索引表。

查询模块4用于对存储的数据进行查询。

缓存模块5用于缓存预设时间内的查询条件和查询结果，缓存模块5中存储至少一次查询的查询条件及查询结果，缓存预设时间由客户自行决定，在此并无限制。具体的，在本实施例中，缓存预设时间优选为七天，缓存模块5会缓存七天内进行查询的查询条件和查询结果。当查询模块4进行查询时，会将解析得到的实际查询条件与缓存模块5中存储的查询条件进行对比，当查询条件相同时，可直接从缓存模块5中获得存储的相应的查询结果，无需对存储模块2进行扫描查询，可以有效提高查询的速度和效率。

缓存模块5在待存储数据的大小为8～256GB时，同时起到存储的作用，将待存储数据直接存储在缓存模块5中，在待存储数据的大小大于256GB时，则仅缓存预设时间内的查询条件和查询结果。当然，“8～256GB”这一范围只是作为一个优选实施例进行的举例说明，在其他实施例中，也可以根据实际情况对这一范围做出调整，此处不作限制。

请参阅图2所示，本发明还提供了一种数据查询方法，应用于前述的自适应优化检索性能数据库100，主要包括以下步骤：

步骤1：输入查询请求，查询模块4接受并解析查询请求，得到查询条件；

步骤2：判断缓存模块5中是否存在相同的查询条件，如果有，直接从缓存模块5中获取查询结果，如果没有，则进入步骤3；

步骤3：根据优化模块6的奖惩函数调整查询模块4对存储模块2中每一个分块数据分配的查询资源并进行查询，得到查询结果；

步骤4：记录查询过程中每个查询到的分块数据的信息，包括查询条件、查询时间及查询结果，合并为查询结果集；

步骤5：将查询条件和查询结果缓存到缓存模块5中。

请参阅图3所示，步骤3中进行查询的具体步骤包括：

步骤31：向索引模块3并发执行对查询条件中分块特征信息的过滤，并汇总过滤得到的待查询特征分块数据；

步骤32：向存储模块2多线程并发执行对待查询特征分块数据的筛选，获取筛选后的筛选分块的行索引；

步骤33：返回查询结果。

优化模块6通过奖惩函数评估查询过程及查询结果，对查询模块4进行优化更新，实时调整查询模块4进行查询时对每一个分块数据分配的查询资源，使得查询效率提升。

优化模块6通过获取步骤4中包括查询条件、查询时间及查询结果的查询结果集，进而建立对应分块数据的查询奖惩函数；再根据奖惩函数优化各分块数据执行查询操作时分配的资源，奖惩函数的目标是使得各分块数据的查询时间复杂度接近，从而得到总查询效率的最优解。

查询优化的成本函数如下，该函数值越小表示查询效率最优：

奖惩函数的优化目标是最小化成本函数。奖惩函数公式为：

通过奖惩函数计算得到每个分块数据的权重值α，决定是否进行资源分配优化，若α＞1，则进行正向资源优化，降低分块数据查询的时间复杂度，若α＝1，则不做资源优化操作，若α＜1，则进行反向资源优化，提高分块数据查询的时间复杂度。

查询模块4对存储模块2中每一个分块数据分配的查询资源的资源分配优化主要依据是计算各个查询资源对查询指令的增益，查询资源集合R＝{r₁,r₂,…,r_n}表示有n个查询资源，查询资源包括但不限于线程数、CPU核数、内存及/或硬盘缓存，查询指令集合A＝{a₁,a₂,…,a_m}表示有m个查询指令，查询指令包括但不限于扫描行数、执行时间、返回结果数量等指令。

首先，计算查询指令的信息熵：

其中，p_i为查询指令a_m在第i类的信息熵，j表示a_m共有j个类别，在本实施例中，以查询指令中的扫描行数为例，将扫描行数按小于5000行，5000-1000行，大于10000行进行分类，则在本实施例中j＝3。

然后计算每个查询资源的条件信息熵：

其中，对于查询资源r_n共有k个不同属性值，因此查询资源r_n＝{r_n1,r_n2,…r_nk}，E(a_m|r_n)为在查询资源r_n下a_m的条件信息熵。

查询资源r_n对应的信息增益可以表示为：

G_m(r_n)＝I(a_m)-E(a_m|r_n)

通过计算n个查询资源对于m个查询指令的信息增益G_m(r_n)，可得到每个查询资源对于m个查询指令的影响程度。

通过归一化得到第m个查询指令在查询资源r_n的权重：

当奖惩函数中的分块数据的权重α＞1时，则查询资源的正向分配权重公式为：

查询资源分配优化后的正向分配权重会降低分块的查询时间复杂度d_i，若奖惩函数中分块的权重α大于1，则对查询资源进行正向资源分配优化，即增加向该分块数据分配的查询资源，查询资源分配数量的提高可以使得在查询过程中花费更低的时间，降低分块的查询时间复杂度，提高分块数据的查询速度。

当奖惩函数中的分块数据的权重α＝1时，则不改变对每个分块数据分配的查询资源。

当奖惩函数中的分块数据的权重α＜1时，则查询资源的反向分配权重公式为：

查询资源分配优化后的反向分配权重会提升分块的查询时间复杂度d_i，若奖惩函数中分块数据的权重α小于1，则对查询资源进行反向资源分配优化，即减小向该分块数据分配的查询资源，查询资源分配数量的降低可以使得在查询过程中花费更多的时间，提高分块数据的查询时间复杂度，降低分块数据的查询速度。

通过改变对分块数据的查询资源分配的权重，提高或降低分块数据的查询时间，使得各个分块数据之间的查询时间动态平衡，始终保持较小时间差，提高了查询效率。

本发明的自适应优化检索性能数据库100作为一种OLAP型数据库，在对数据库内的数据进行检索的时候，由于采用了对数据分块的处理方法，所以可以采用多线程或多进程同时执行检索任务，可以每个线程执行一条查询指令，并分别记录结果集。线程数量越多，系统可分配的查询任务越多。例如，为获取每一天的数据，线程足够多的情况下，可以每个线程对应小时的数据，最后将查询的结果拼起来返回。

单条查询指令的查询速度快，总体返回时间并非最快，需要对查询过程进行最优的规划，不同线程执行不同的查询指令时对其分配不同的CPU核数、内存及/或硬盘缓存等查询资源，通过动态优化各分块执行查询时所分配的查询资源，使得对多个分块数据的查询可以根据系统负荷大小动态分配，改变每个线程执行完各自所需要执行的查询指令所需要花费的时间，使得各个线程最后完成的时间彼此接近，以此达到总查询效率的最优化，充分利用查询资源的同时降低整体花费时间。

综上所述，本发明的自适应优化检索性能数据库100通过优化模块6使用奖惩函数对查询模块4进行优化更新，实时调整查询模块4进行查询时对每一个分块数据分配的查询资源，改变每个分块数据的查询时间复杂度，使得查询效率提升，自适应的优化检索查询过程，解决现有数据存储系统中无法根据海量数据的实时查询情况对查询效率进行改进的问题；通过数据分块模块1对数据进行分块，将大型数据分块，使得可以多线程或多进程的对分块数据进行处理和查询；通过索引模块3对每个分块数据建立索引，并汇总形成数据索引表，在查询时可以简化查询过程，加快查询速度，且可针对多个分块数据的索引信息并行执行查询，提高了查询效率。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种自适应优化检索性能数据库，应用于大数据存储，其特征在于，包括以下模块：

查询模块，用于对存储的所述分块数据进行查询；

缓存模块，用于缓存预设时间内的查询条件和查询结果；

优化模块，用于通过奖惩函数评估查询过程中分块数据i的权重α，并通过计算查询指令的信息熵

其中p_i为查询指令a_m在第i类的信息熵，j表示a_m共有j个类别，然后计算每个查询资源的条件信息熵

其中查询资源r_n共有k个不同属性值，查询资源r_n＝{r_n1，r_n2，…r_nk}，E(a_m|r_n)为在查询资源r_n下a_m的条件信息熵，再通过计算n个查询资源对于m个查询指令的信息增益G_m(r_n)＝I(a_m)-E(a_m|r_n)，最后通过归一化得到第m个查询指令在查询资源r_n的权重

根据分块数据i的权重α实时调整所述查询模块进行查询时对每一个所述分块数据分配的查询资源，所述奖惩函数具体为：

其中n表示共有n个分块数据，E(d)表示分块数据查询时的时间复杂度均值，d_i表示查询分块数据i的时间复杂度，λ为惩罚系数，α为分块数据i的权重，当α＞1时，则查询资源的正向分配权重公式为

当α＝1时，则不改变对每个分块数据分配的查询资源；当α＜1时，则查询资源的反向分配权重公式为

2.根据权利要求1所述的自适应优化检索性能数据库，其特征在于：所述数据分块模块用于对所述待存储数据进行扫描并判断所述待存储数据的数据类型，以根据数据类型进行分块。

3.根据权利要求2所述的自适应优化检索性能数据库，其特征在于：所述数据类型包括：结构化数据和非结构化数据，当所述数据类型为结构化数据时，所述数据分块模块对所述待存储数据进行逻辑分块，识别所述待存储数据中的字段内容，并将识别到的字段内容按数值特征或编码格式进行分块；当所述数据类型为非结构化数据时，所述数据分块模块对所述待存储数据进行维度分块，根据数据的不同维度进行数据立方的切割，以形成多个分块数据，每个分块数据上包括预设维数的至少一个非结构化数据，所述预设维数至少为一维。

4.根据权利要求1所述的自适应优化检索性能数据库，其特征在于：所述缓存模块的缓存预设时间为七天，所述缓存模块中存储至少一次查询的查询条件及查询结果，所述查询模块进行查询时，当所述缓存模块中存储的查询条件与实际查询条件相同时，可直接从所述缓存模块中获得查询结果，无需对所述存储模块进行扫描查询。

5.根据权利要求1所述的自适应优化检索性能数据库，其特征在于：所述缓存模块在所述待存储数据的大小为8～256GB时，同时起到存储的作用，将所述待存储数据直接存储在所述缓存模块中，在所述待存储数据的大小大于256GB时，所述缓存模块则仅缓存预设时间内的查询条件和查询结果。

6.一种数据查询方法，应用于权利要求1～5中任意一项所述的自适应优化检索性能数据库，其特征在于，主要包括以下步骤：

7.根据权利要求6所述的数据查询方法，其特征在于，步骤3具体包括：

步骤33：返回查询结果。

8.根据权利要求6所述的数据查询方法，其特征在于：步骤3中，当奖惩函数中的分块数据的权重α＞1时，则所述查询资源的正向分配权重公式为：

其中，w_mn为第m个查询指令在查询资源r_n的权重。

9.根据权利要求6所述的数据查询方法，其特征在于：步骤3中，当奖惩函数中的分块数据的权重α＝1时，则不改变对所述分块数据分配的查询资源。

10.根据权利要求6所述的数据查询方法，其特征在于：步骤3中，当奖惩函数中的分块数据的权重α＜1时，则所述查询资源的反向分配权重公式为：

其中，w_mn为第m个查询指令在查询资源r_n的权重。