CN115510104A

CN115510104A - 一种基于分布式数据库的最值信息提取方法和相关设备

Info

Publication number: CN115510104A
Application number: CN202211184884.1A
Authority: CN
Inventors: 黄李强; 熊志强
Original assignee: Shenzhen Hanyun Technology Co ltd
Current assignee: Shenzhen Hanyun Technology Co ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2022-12-23

Abstract

本发明公开了一种基于分布式数据库的最值信息提取方法和相关设备，方法包括:获取提取指令，其中，所述提取指令包括最值类型、源数据表信息和第一目标属性；根据所述源数据表信息对应的源数据表的表头，生成空数据表；根据所述第一目标属性，对所述源数据表进行排序，得到初始数据表；根据所述最值类型，确定所述初始数据表中的目标数据；基于预设的忽略指令，将所述目标数据插入所述空数据表，得到与所述提取指令对应的目标数据表。本发明能够在分布式数据库中，不仅将最值本身提取，还能够显示最值所在数据的其他信息。

Description

一种基于分布式数据库的最值信息提取方法和相关设备

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于分布式数据库的最值信息提取方法和相关设备。

背景技术

随着互联网技术的发展，网络中存储的数据量越来越多，单节点的数据库已经难以满足大多数用户的需求，在此基础上，多节点的分布式结构化数据库有了越来越多的应用。多节点的分布式数据库能够存储更多的数据量，且多个子数据库相互协作，实现数据的存储和调用。

在分布式数据库中，由于同一类型的数据的数量过多，会由两个或两个以上的子数据库存储。而对同一类型的数据，若采用分组统计，提取这些数据中的最大值或最小值无法通过单节点数据库中常用的“group by”指令得到结果。此外，由于数据节点存储和提取的特性，在提取最大值或最小值时，其会将同一个表中不同行的分组字段和非分组字段作为结果集的同一行输出，因此，在分布式数据库中，无法获取分组的最大值或最小值所在行的信息。

发明内容

本发明要解决的技术问题在于在多节点的分布式结构化数据库中，无法获取分组的最大(小)行的信息，针对现有技术的不足，提供一种基于分布式数据库的最值信息提取方法和相关设备。

为了解决上述技术问题，本发明所采用的技术方案如下：

一种基于分布式数据库的最值信息提取方法，所述方法包括：

获取提取指令，其中，所述提取指令包括最值类型、源数据表信息和第一目标属性；

根据所述源数据表信息对应的源数据表的表头，生成空数据表；

根据所述第一目标属性，对所述源数据表进行排序，得到初始数据表；

根据所述最值类型，确定所述初始数据表中的目标数据；

基于预设的忽略指令，将所述目标数据插入所述空数据表，得到与所述提取指令对应的目标数据表。

所述基于分布式数据库的最值信息提取方法，其中，所述提取指令还包括分组属性；所述根据所述源数据表信息对应的源数据表的表头，生成空数据表之前，还包括：

根据所述分组属性，生成所述源数据表中每一个分组属性值对应的分组标签；

根据所述源数据表的表头，生成中间数据表；

针对每一个所述分组标签，将源数据表中与该分组标签对应的数据迁移至所述中间数据表数据，得到与该分组标签对应的源数据子表。

所述基于分布式数据库的最值信息提取方法，其中，所述根据所述分组属性，生成所述源数据表中每一个分组属性值对应的分组标签包括：

针对所述源数据表中的每一行数据，对该行数据的分组属性对应的分组属性值进行哈希计算，得到该行数据对应的分组标签。

所述基于分布式数据库的最值信息提取方法，其中，所述提取指令还包括第二目标属性；所述根据所述源数据表信息对应的源数据表的表头，生成空数据表包括：

根据所述源数据表的表头和所述第二目标属性，生成模板表头；

根据所述模板表头，生成数量与所述源数据子表的数量相同的空数据表。

所述基于分布式数据库的最值信息提取方法，其中，所述初始数据表包括与所述源数据子表对应的初始数据子表；所述根据所述第一目标属性，对所述源数据表进行排序，得到初始数据表包括：

针对每一个所述源数据子表，根据所述第一目标属性，对该源数据子表中的数据进行排序，得到与该源数据子表对应的初始数据子表。

所述基于分布式数据库的最值信息提取方法，其中，所述根据所述最值类型，确定所述初始数据表中的目标数据包括：

根据所述最值类型，确定所述初始数据表中的目标行；

根据所述第二目标属性，确定所述目标行中的目标数据。

所述基于分布式数据库的最值信息提取方法，其中，所述基于预设的忽略指令，将所述目标数据插入所述空数据表，得到与所述提取指令对应的目标数据表包括：

针对每一个所述初始子表，根据所述忽略指令，将所述初始子表中的目标数据插入所述空数据表中，得到目标数据表。

一种基于分布式数据库的最值信息提取装置，该装置包括：

获取模块，用于获取提取指令，其中，所述提取指令包括最值类型、源数据表、第一目标属性和第二目标属性；

生成模块，用于根据所述源数据表信息对应的源数据表的表头，生成空数据表；

排序模块，用于根据所述第一目标属性，对所述源数据表进行排序，得到初始数据表；

确定模块，用于根据所述最值类型，确定所述初始数据表中的目标数据；

插入模块，用于基于预设的忽略指令，将所述目标数据插入所述空数据表，得到与所述提取指令对应的目标数据表。

可选地，所述装置还包括分组模块，所述分组模块包括：

标签单元，用于根据所述分组属性，生成所述源数据表中每一个分组属性值对应的分组标签；

分组单元，用于根据所述分组标签，对所述源数据表进行数据迁移，得到若干个源数据子表。

可选地，所述标签单元具体用于：

可选地，所述提取指令还包括第二目标属性；所述生成单元具体用于：

可选地，所述排序模块具体用于：

可选地，所述确定模块具体用于：

根据所述最值类型，确定所述初始数据表中的目标行；

根据所述第二目标属性，确定所述目标行中的目标数据。

可选地，所述插入模块具体用于：

针对每一个所述初始子表，根据所述忽略指令，将所述初始子表中的目标数据插入所述空数据表中，。

一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的基于分布式数据库的最值信息提取方法中的步骤。

一种终端设备，其包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如上任一所述的基于分布式数据库的最值信息提取方法中的步骤。

有益效果：本发明提供一种基于分布式数据库的最值信息提取方法和相关设备。最值信息是指用户想要在源数据表中，某一个属性最值所在行中的数据。首先，根据用户选择用于排序的属性以及源数据表中原有的表头，生成后续展示的空数据表。在分布式数据库中，一个源数据表会拆分成多个子表存储在不同的节点中，因此，根据用于排序的属性，对源数据表进行排序，然后再采用根据用户想要提取的最值信息的最值类型，确定初始数据表中的需要提取的目标数据。然后根据预先设置的忽略指令，将目标数据并插入到空数据表中，从而得到用户想要提取的最值信息。通过本方式，可以得到分布式数据库中某一个属性为最值的相关数据，而非该最值本身，以帮助用户更充分了解最值相关的信息。

附图说明

图1为本发明提供的基于分布式数据库的最值信息提取方法的流程图。

图2为本发明提供的基于分布式数据库的最值信息提取方法的源数据表的示意图。

图3为本发明提供的基于分布式数据库的最值信息提取方法中数据表变化的示意图。

图4为本发明提供的基于分布式数据库的最值信息提取装置的结构示意图。

图5为本发明提供的终端设备的结构原理图。

具体实施方式

本发明提供一种基于分布式数据库的最值信息提取方法，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

如图1所示，本实施提供了一种基于分布式数据库的最值信息提取方法，为方便说明，以常见的服务器作为执行主体进行描述，此处的服务器可替换为平板、电脑等具有数据处理功能的设备，基于分布式数据库的最值信息提取方法包括以下步骤：

S10、获取提取指令。

具体地，用户首先通过输入设备向服务器输入提取指令，在该提取指令中，至少包括最值类型、源数据表信息以及第一目标属性。最值类型包括最大值和最小值，源数据表信息包括源数据表的位置、名称等可以从诸多数据节点中定位源数据表的信息，而第一目标属性是指用户想要用于确定最值的属性。

在本实施例中，源数据表为某些班级某次考试成绩的数据表，第一目标属性为数学(math)成绩，在一个提取指令中，最值类型为最大值，目的是为了提取数学成绩最好的学生其他科目的考试成绩，在第二个提取指令中，最值类型为最小值，其目的在于提取数学成绩最差的学生其他科目的考试成绩。

本实施例以两个数据节点(Database Node，DN)存储有各个班级某一次考试成绩为例进行描述，源数据表包含两个数据表，分别存储于数据节点1(DN1)和数据节点2(DN2)中。

在一种源数据表的存储方式中，根据班级的不同，源数据表存储于不同的数据节点，例如在DN1中，仅存储班级1的考试成绩，DN2中存储班级2的考试成绩。

在另一种源数据表的存储方式中，班级的人数和数据数量不同，为了充分利用各个数据节点中的存储空间，采用根据存储时间等方式进行数据存储，因此如图2所示，DN1中存储有班级1和班级2的部分考试成绩，DN2中存储班级1、班级2和班级3的部分考试成绩。

S20、根据所述源数据表信息对应的源数据表的表头，生成空数据表。

具体地，首先根据源数据表信息确定数据节点中的源数据表，并根据源数据表的表头，生成表头与其一样的空数据表。

空数据表是后续用于存储提取科目的考试成绩，得到展示在用户面前的目标数据表。

进一步地，用户可以指定最终需要展示成绩的科目，例如提取数学成绩最好的学生的英语成绩，因此，提取指令还可包括第二目标属性，在本实施例中，英语(english)成绩就是第二目标属性。

此外，在第二种源数据表的存储方式中，同一个班的成绩被打乱分散在多个数据节点中，在此情形下，源数据表中包含可用于分组的属性。若用户希望得到分成不同组的最值所在的行信息，则应当对源数据表进行拆分为不同组对应的源数据子表。因此，在生成空数据表之前，需要对源数据表进行分组，在提取指令中包含目标分组属性，在目标分组属性的基础上，生成源数据子表的过程如下：

A10、根据所述分组属性，生成所述源数据表中每一个分组属性值对应的分组标签。

具体地，分组属性即只可用于对源数据表进行分组的属性，分组属性可指班级，例如第一种提取指令的目的为“提取不同班级中数学成绩最好的学生的一些科目成绩”。但是用户还可设定分组属性为年龄，例如提取指令的目的为“提取不同年龄中数学最好的学生的一些科目成绩”。在本实施例中，分组属性为班级，分组属性值包括“班级1”、“班级2”和“班级3”。

得到分组属性后，为了在后续整合排序时能够确定每一条数据对应的源数据子表，需要生成每一个分组属性下分组属性值的分组标签。分组标签是指具有能够指示每一条数据唯一性的标签。

生成分组标签的类型可以采用哈希算法等方式。针对所述源数据表中的每一行数据，对该行数据的分组属性对应的分组属性值进行哈希计算，得到该分组属性值对应的哈希值，也就是分组标签。

A20、根据所述分组标签，对所述源数据表进行数据迁移，得到若干个源数据子表。

具体地，预先设置表头与源数据表表头相同的中间数据表，根据分组标签，将对应同一分组标签的数据迁移到同一个DN上的中间数据表，得到该分组标签对应的数据子表。当所有的数据迁移完毕，DN上存在若干个源数据子表。

如图3所示，score为还未进行数据迁移的源数据表，tmp_score是已经完成数据迁移的中间数据表。2班和3班的部分数据对应的分组标签相同，故位于同一DN上。

进一步地，基于分组后得到的源数据子表以及第二目标属性，生成空数据表的过程如下：

B10、根据所述源数据表的表头和所述第二目标属性，生成模板表头。

具体地，首先源数据表的表头包含多个属性，例如图2中，属性包括班级(class)、姓名(name)、数学成绩、英语成绩和科学(science)成绩。

先根据源数据表的表头和第二目标属性，确定后续需要展示的属性，从而得到模板表头。例如本实施例中，将全部的属性作为第二目标属性，模板表头中的属性就包括“班级”、“姓名”、“数学成绩”、“英语成绩”和“科学成绩”。

B20、根据所述模板表头，生成数量与源数据子表的数量相同的空数据表。

具体地，得到模板表头后，由于源数据子表的数量决定了后续需要排序和提取的次数，因此，根据模板表头后，生成数量与源数据子表的数量相同的空数据表。其中，空数据表中的第一目标属性添加唯一索引(unique index)，以便于后续选取最值行。

S30、根据所述第一目标属性，对所述源数据表进行排序，得到初始数据表。

具体地，在第一种存储方式中，由于不同数据节点存储不同班级的成绩表，而分组是以班级分组，因此，可根据第一目标属性，对源数据表进行排序，从而得到按照数值从小到大或从大到小排序的初始数据表。

在第二种存储方式中，在源数据表包含若干个源数据子表时，对源数据表排序并非对源数据表中所有数据排序，而是针对每一个分组排序。因此，针对每一个所述源数据子表，根据所述第一目标属性，对该源数据子表中的数据进行排序，得到与该源数据子表对应的初始数据子表。

S40、根据所述最值类型，确定所述初始数据表中的目标数据。

具体地，最值类型包括最大值和最小值。若用户的提取指令中最值类型为最大值，则确定初始数据表中第一目标属性的属性值最大的数据所在行为目标行；若用户的提取指令中最值类型为最小值，则确定初始数据表中第一目标属性的属性值最小的数据所在行为目标行。将目标行的数据为目标数据。值得注意的是，这里的“目标行”是以数据以行排列为前提进行描述的，若数据以“列”的方式进行排列，此处可替换为“目标列”。

进一步地，需要另外分组的情形下，以每一个初始数据子表为单位，确定每一个分组对应的目标行。然后将目标行中的数据作为目标数据。

进一步地，在存在第二目标属性时，目标行本身存在多个不同属性的属性值，目标行中并非所有数据都是目标数据，用户想得到的属性值只有第二目标属性对应的属性值。因此，当提取指令中存在第二目标属性时，应当对目标行进行数据提取。本方案提出一种筛选方案，首先，根据所述最值类型，确定所述初始数据表中的目标行。然后根据所述第二目标属性，确定所述目标行中的目标数据。例如，用户输入的第二目标属性为“姓名”、“班级”和“英语成绩”，则将目标行中对应属性“姓名”、“班级”和“英语成绩”的属性值作为目标数据。

S50、基于预设的忽略指令，将所述目标数据插入所述空数据表，得到与所述提取指令对应的目标数据表。

具体地，目标数据的数量可能存在多个，例如本实施例中，用于分组的分组属性为“英语”，提取指令为“英语成绩最好的学生”，假设源数据表中，英语最高分为100分，有两名学生都是100分，则提取的目标数据的数量为2。

当存在唯一索引的字段的空表，插入多行唯一索引字段相同的数据时，会出现报错时，服务器常常会提示之前存在数据或报错。因此，为了能够一次性将目标数据都插入空白数据表中，预先设置一个忽略指令，该忽略指令用于在插入时忽略报错的产生，并实现将所有的目标数据插入到空数据表中，得到与所述提取指令对应的目标数据表。

综合上述实施例，本方案可提供最值类型为最大值和最小值的两种示例性代码。其中，当最值类型为最大值时，“insert ignore into dst_table select class,name,math,english,science from tmp_score order by math desc”；当最值类型为最小值时，代码为“insert ignore into dst_table select class,name,math,english,sciencefrom tmp_score order by math asc”。其中，“insert ignore into”用于基于忽略指令目标数据插入空数据表，“dst_table”为空数据表，“select”为提取，“class,name,math,english,science”为第二目标属性，“from tmp_score”表示来源于源数据(子)表，“orderby math desc”表明根据“math”进行从大到小排序，即根据第一目标属性进行排序，以得到最大值，“order by math asc”表明根据第一目标属性(math)从小到大排序，以得到最小值。

基于上述基于分布式数据库的最值信息提取方法，如图4所示，本发明还提供了一种基于分布式数据库的最值信息提取装置100，该装置包括：

获取模块110，用于获取提取指令，其中，所述提取指令包括最值类型、源数据表、第一目标属性和第二目标属性；

生成模块120，用于根据所述源数据表信息对应的源数据表的表头，生成空数据表；

排序模块130，用于根据所述第一目标属性，对所述源数据表进行排序，得到初始数据表；

确定模块140，用于根据所述最值类型，确定所述初始数据表中的目标数据；

插入模块150，用于基于预设的忽略指令，将所述目标数据插入所述空数据表，得到与所述提取指令对应的目标数据表。

其中所述装置还包括分组模块，所述分组模块包括：

第一生成单元，用于根据所述分组属性，生成所述源数据表中每一个分组属性值对应的分组标签；

第二生成单元，用于根据所述源数据表的表头，生成中间数据表；

迁移单元，用于针对每一个所述分组标签，将源数据表中与该分组标签对应的数据迁移至所述中间数据表数据，得到与该分组标签对应的源数据子表。

其中所述第一生产单元具体用于：

其中所述提取指令还包括第二目标属性；所述生成单元具体用于：

其中所述排序模块130具体用于：

其中所述确定模块140具体用于：

根据所述最值类型，确定所述初始数据表中的目标行；

根据所述第二目标属性，确定所述目标行中的目标数据。

基于上述基于分布式数据库的最值信息提取方法，本发明还提供了一种终端设备，如图5所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory)22，还可以包括通信接口(Communications Interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑命令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取计算机可读存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序命令或模块。处理器20通过运行存储在存储器22中的软件程序、命令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态计算机可读存储介质。

此外，上述计算机可读存储介质以及终端设备中的多条命令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于分布式数据库的最值信息提取方法，其特征在于，所述方法包括：

根据所述最值类型，确定所述初始数据表中的目标数据；

2.根据权利要求1所述基于分布式数据库的最值信息提取方法，其特征在于，所述提取指令还包括分组属性；所述根据所述源数据表信息对应的源数据表的表头，生成空数据表之前，还包括：

根据所述源数据表的表头，生成中间数据表；

3.根据权利要求2所述基于分布式数据库的最值信息提取方法，其特征在于，所述根据所述分组属性，生成所述源数据表中每一个分组属性值对应的分组标签包括：

4.根据权利要求2所述基于分布式数据库的最值信息提取方法，其特征在于，所述提取指令还包括第二目标属性；所述根据所述源数据表信息对应的源数据表的表头，生成空数据表包括：

5.根据权利要求4所述基于分布式数据库的最值信息提取方法，其特征在于，所述根据所述第一目标属性，对所述源数据表进行排序，得到初始数据表包括：

6.根据权利要求4所述基于分布式数据库的最值信息提取方法，其特征在于，所述根据所述最值类型，确定所述初始数据表中的目标数据包括：

根据所述最值类型，确定所述初始数据表中的目标行；

根据所述第二目标属性，确定所述目标行中的目标数据。

7.一种基于分布式数据库的最值信息提取装置，其特征在于，所述基于分布式数据库的最值信息提取装置包括：

8.根据权利要求7所述的基于分布式数据库的最值信息提取装置，其特征在于，所述提取指令还包括分组属性；还包括分组模块，所述分组模块包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1～6任意一项所述的基于分布式数据库的最值信息提取方法中的步骤。

10.一种终端设备，其特征在于，包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如权利要求1～6任意一项所述的基于分布式数据库的最值信息提取方法中的步骤。