CN111858610A

CN111858610A - 数据行号分配方法和装置、存储介质、电子设备

Info

Publication number: CN111858610A
Application number: CN202010736263.4A
Authority: CN
Inventors: 侯学博; 张京一; 周潮潮
Original assignee: Beike Technology Co Ltd
Current assignee: Beike Technology Co Ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-10-30

Abstract

本公开实施例公开了一种数据行号分配方法和装置、存储介质、电子设备，其中，方法包括：将待分配行号的数据集分解为n个子数据集，并确定n个子数据集之间的关联数据；其中，n为大于1的整数，数据集包括多行数据，每个子数据集包括数据集中的部分数据；分别为每个子数据集中包括的多行数据分配第一行号，得到n组第一行号；其中，每行数据对应一个第一行号；根据关联数据和所述n组第一行号，得到所述数据集中所有数据中每行数据对应的第二行号，实现对所述数据集的数据行号分配；本实施例无需将所有数据放在一个集群节点中进行处理，克服了hadoop集群节点单机内存大小的限制，实现了高效的为大数据量的数据分配行号。

Description

数据行号分配方法和装置、存储介质、电子设备

技术领域

本公开涉及数据处理技术，尤其是一种数据行号分配方法和装置、存储介质、电子设备。

背景技术

Hadoop生态中，数据是存储在HDFS上的。hive数据仓库工具将数据以数据表的形式组织起来。HiveSQL中包含了对数据生成行号的函数ROW_NUMBER OVER()。但是受到集群节点单机内存大小的限制，这个函数只有在针对百万级别行(小于千万级别)以内的数据量时才具有较高的效果。对于亿级别行及以上的数据使用该函数生成全局连续唯一数字ID时，会发生严重的数据倾斜，效率极低或根本无法得到结果。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种数据行号分配方法和装置、存储介质、电子设备。

根据本公开实施例的一个方面，提供了一种数据行号分配方法，包括：

将待分配行号的数据集分解为n个子数据集，并确定所述n个子数据集之间的关联数据；其中，n为大于1的整数，所述数据集包括多行数据，每个所述子数据集包括所述数据集中的部分数据；

分别为每个所述子数据集中包括的多行数据分配第一行号，得到n组第一行号；其中，所述每行数据对应一个第一行号；

根据所述关联数据和所述n组第一行号，得到所述数据集中所有数据中每行数据对应的第二行号，实现对所述数据集的数据行号分配。

可选地，所述将待分配行号的数据集分解为n个子数据集，并确定所述n个子数据集之间的关联数据，包括：

基于所述每行数据中的标识列，将所述数据集分解为n个子数据集；

基于所述每个子数据集中的数据行数确定每两个所述子数据集之间的关联数据，得到n-1个关联数据。

可选地，所述基于所述每个子数据集中的数据行数确定每两个所述子数据集之间的关联数据，得到n-1个关联数据，包括：

利用行号生成函数分别对每个所述子数据集中的数据进行处理，得到每个所述子数据集对应的正序列和反序列；其中，所述反序列是正序列的倒置；

基于每个所述子数据集中的正序列和反序列，确定多个所述子数据集之间的排序关系；

基于多个所述子数据集之间的排序关系，确定每两个相邻的所述子数据集之间的关联数据。

可选地，所述基于每个所述子数据集中的正序列和反序列，确定多个所述子数据集之间的排序关系，包括：

获取每个所述子数据集中按照所述正序列排列在首位的第一数据，得到n个所述第一数据；

基于n个所述第一数据对应所述反序列的值的大小，对所述n个第一数据对应的n个所述子数据集进行排序。

可选地，所述基于多个所述子数据集之间的排序关系，确定每两个相邻的所述子数据集之间的关联数据，包括：

基于每个所述子数据集对应的反序列的首位数值，确定每个所述子数据集中包括的数据行数；

基于每个所述子数据集中包括的数据行数，确定每两个相邻的所述子数据集之间的关联数据。

可选地，所述基于每个所述子数据集中包括的数据行数，确定每两个相邻的所述子数据集之间的关联数据，包括：

基于行号生成函数对n个所述第一数据进行处理，得到第一序号列；其中，所述第一序号列包括n个顺序数值；

基于窗口函数对每个所述第一数据对应的反序列的值构成的第二列进行求和，得到第二序号列；其中，所述第一数据对应的反序列的值为所述第一数据对应的子数据集中包括的数据行数；

以n个所述第一数据中每个第一数据对应的标识，构成第三序号列；

基于所述第一序号列、所述第二序号列和所述第三序号列，建立第一序列表；

基于所述第一序列表中的第二序号列，确定每两个相邻的所述子数据集之间的所述关联数据。

可选地，所述分别为每个所述子数据集中包括的多行数据分配第一行号，得到n组第一行号，包括：

分别对每个所述子数据集中的数据进行处理，建立第二序列表，得到n个所述第二序列表；其中，每个所述第二序列表包括第一列数据、第二列数据和第三列数据；

基于所述第二序列表中的第一列数据确定所述第二序列表对应的子数据集中每行数据对应的第一行号，得到n组所述第一行号。

可选地，所述分别对每个所述子数据集中的数据进行处理，建立第二序列表，包括：

对每个所述子数据集，利用行号生成函数对所述子数据集中的数据进行处理，得到每个所述子数据集对应的正序列，以所述正序列作为所述第二序列表的所述第一列数据；

以所述子数据集中的原始数据作为所述第二序列表的所述第二列数据；

以所述子数据集中每个原数据对应的标识，作为所述第二序列表的所述第三列数据；

基于所述第一列数据、所述第二列数据和所述第三列数据，得到所述第二序列表。

可选地，所述每两个相邻的子数据集包括：排序在前的第一子数据集和排序在后的第二子数据集；每两个相邻的所述子数据集之间的所述关联数据可作为所述第二子数据集对应的关联数据；

所述根据所述关联数据和所述n组第一行号，得到所述数据集中所有数据中每行数据对应的第二行号，实现对所述数据集的数据行号分配，包括：

基于所述n组第一行号和每两个相邻的所述子数据集之间的所述关联数据，将所述第二子数据集中的数据对应的每个第一行号加上所述第二子数据集对应的关联数据，得到所述第二子数据集中每个数据对应的所述第二行号；

连接所述n个子数据集中每个数据对应的第二行号，得到所述数据集中每个数据对应的第二行号。

根据本公开实施例的另一方面，提供了一种数据行号分配装置，包括：

数据分解模块，用于将待分配行号的数据集分解为n个子数据集，并确定所述n个子数据集之间的关联数据；其中，n为大于1的整数，所述数据集包括多行数据，每个所述子数据集包括所述数据集中的部分数据；

集群节点模块，用于分别为每个所述子数据集中包括的多行数据分配第一行号，得到n组第一行号；其中，所述每行数据对应一个第一行号；

行号分配模块，用于根据所述关联数据和所述n组第一行号，得到所述数据集中所有数据中每行数据对应的第二行号，实现对所述数据集的数据行号分配。

可选地，所述数据分解模块，包括：

标识分解单元，用于基于所述每行数据中的标识列，将所述数据集分解为n个子数据集；

关联数据单元，用于基于所述每个子数据集中的数据行数确定每两个所述子数据集之间的关联数据，得到n-1个关联数据。

可选地，所述关联数据单元，具体用于利用行号生成函数分别对每个所述子数据集中的数据进行处理，得到每个所述子数据集对应的正序列和反序列；其中，所述反序列是正序列的倒置；基于每个所述子数据集中的正序列和反序列，确定多个所述子数据集之间的排序关系；基于多个所述子数据集之间的排序关系，确定每两个相邻的所述子数据集之间的关联数据。

可选地，所述关联数据单元在基于每个所述子数据集中的正序列和反序列，确定多个所述子数据集之间的排序关系时，用于获取每个所述子数据集中按照所述正序列排列在首位的第一数据，得到n个所述第一数据；基于n个所述第一数据对应所述反序列的值的大小，对所述n个第一数据对应的n个所述子数据集进行排序。

可选地，所述关联数据单元在基于多个所述子数据集之间的排序关系，确定每两个相邻的所述子数据集之间的关联数据时，用于基于每个所述子数据集对应的反序列的首位数值，确定每个所述子数据集中包括的数据行数；基于每个所述子数据集中包括的数据行数，确定每两个相邻的所述子数据集之间的关联数据。

可选地，所述关联数据单元在基于每个所述子数据集中包括的数据行数，确定每两个相邻的所述子数据集之间的关联数据时，用于基于行号生成函数对n个所述第一数据进行处理，得到第一序号列；其中，所述第一序号列包括n个顺序数值；基于窗口函数对每个所述第一数据对应的反序列的值构成的第二列进行求和，得到第二序号列；其中，所述第一数据对应的反序列的值为所述第一数据对应的子数据集中包括的数据行数；以n个所述第一数据中每个第一数据对应的标识，构成第三序号列；基于所述第一序号列、所述第二序号列和所述第三序号列，建立第一序列表；基于所述第一序列表中的第二序号列，确定每两个相邻的所述子数据集之间的所述关联数据。

可选地，所述集群节点模块，包括：

序列表单元，用于分别对每个所述子数据集中的数据进行处理，建立第二序列表，得到n个所述第二序列表；其中，每个所述第二序列表包括第一列数据、第二列数据和第三列数据；

第一行号确定单元，用于基于所述第二序列表中的第一列数据确定所述第二序列表对应的子数据集中每行数据对应的第一行号，得到n组所述第一行号。

可选地，所述序列表单元，具体用于对每个所述子数据集，利用行号生成函数对所述子数据集中的数据进行处理，得到每个所述子数据集对应的正序列，以所述正序列作为所述第二序列表的所述第一列数据；以所述子数据集中的原始数据作为所述第二序列表的所述第二列数据；以所述子数据集中每个原数据对应的标识，作为所述第二序列表的所述第三列数据；基于所述第一列数据、所述第二列数据和所述第三列数据，得到所述第二序列表。

所述行号分配模块，具体用于基于所述n组第一行号和每两个相邻的所述子数据集之间的所述关联数据，将所述第二子数据集中的数据对应的每个第一行号加上所述第二子数据集对应的关联数据，得到所述第二子数据集中每个数据对应的所述第二行号；连接所述n个子数据集中每个数据对应的第二行号，得到所述数据集中每个数据对应的第二行号。

根据本公开实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一实施例所述的数据行号分配方法。

根据本公开实施例的还一方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一实施例所述的数据行号分配方法。

基于本公开上述实施例提供的一种数据行号分配方法和装置、存储介质、电子设备，将待分配行号的数据集分解为n个子数据集，并确定所述n个子数据集之间的关联数据；其中，n为大于1的整数，所述数据集包括多行数据，每个所述子数据集包括所述数据集中的部分数据；分别为每个所述子数据集中包括的多行数据分配第一行号，得到n组第一行号；其中，所述每行数据对应一个第一行号；根据所述关联数据和所述n组第一行号，得到所述数据集中所有数据中每行数据对应的第二行号，实现对所述数据集的数据行号分配；本实施例通过将大数据量的数据集分解为n个子数据集并分别分配行号，由于分解为n个子数据集，可将每个子数据集分别在不同的集群节点中进行处理，无需将所有数据放在一个集群节点中进行处理，克服了hadoop集群节点单机内存大小的限制，实现了高效的为大数据量的数据分配行号。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的数据行号分配方法的流程示意图。

图2是本公开图1所示的实施例中步骤102的一个流程示意图。

图3a是本公开提供的一个可选示例中数据集中包括的数据的示意图。

图3b是本公开提供的一个可选示例中对图3a提供的数据集进行分解得到子数据集的示意图。

图3c是本公开提供的一个可选示例中对图3b所示的4个子数据集进行提取和排序的示意图。

图3d是本公开提供的一个可选示例中建立的第一序列表的结构示意图。

图3e是本公开提供的一个可选示例中对图3a提供的数据集分解得到的4个子数据集的示意图。

图3f是本公开提供的一个可选示例中连接第一序列表和第二序列表得到的第三序列表的示意图。

图3g是本公开提供的一个可选示例中连接第一序列表和第三序列表得到的第四序列表的示意图。

图3h是本公开提供的一个可选示例中基于第四序列表得到第五序列表的示意图。

图3i是本公开提供的一个可选示例中基于第一序列表和第二序列表得到第六序列表。

图3j是本公开提供的一个可选示例中联合第五序列表和第六序列表得到的数据集中所有数据对应的第二行号。

图4是本公开图2所示的实施例中步骤1022的一个流程示意图。

图5是本公开图4所示的实施例中步骤402的一个流程示意图。

图6是本公开图4所示的实施例中步骤403的一个流程示意图。

图7是本公开图6所示的实施例中步骤4032的一个流程示意图。

图8是本公开图1所示的实施例中步骤104的一个流程示意图。

图9是本公开图1所示的实施例中步骤106的一个流程示意图。

图10是本公开一示例性实施例提供的数据行号分配装置的结构示意图。

图11是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性方法

图1是本公开一示例性实施例提供的数据行号分配方法的流程示意图。本实施例可应用在电子设备上，如图1所示，包括如下步骤：

步骤102，将待分配行号的数据集分解为n个子数据集，并确定n个子数据集之间的关联数据。

其中，n为大于1的整数，数据集包括多行数据，每个子数据集包括数据集中的部分数据。

本实施例中的数据集中包括的数据量可以为亿级别及以上的数据，现有技术中对于亿级别行及以上的数据生成行号时，会发生严重的数据倾斜，效率极低或根本无法得到结果；本实施例针对现有技术的缺点，提出分区处理的方法，提高分配行号的效率的同时，通过关联数据保证了不同子数据集之间的数据的行号之间的关联性，提高了行号分配的准确性。

步骤104，分别为每个子数据集中包括的多行数据分配第一行号，得到n组第一行号。

其中，每行数据对应一个第一行号。

在一实施例中，可通过在不同的集群节点上处理不同的子数据集，通过多个集群节点同时分配行号，提高了行号分配的效率。

步骤106，根据关联数据和n组第一行号，得到数据集中所有数据中每行数据对应的第二行号，实现对数据集的数据行号分配。

可选地，由于为每个子数据集中的数据分配第一行号时是独立完成的，因此，对于数据集整体来说，不同子数据集中分配的第一行号存在大量重复，且无法连贯，本实施例通过管理数据对n组第一行号进行处理，使每个子数据集中的数据对应的行号更新为与其他子数据集存在关联的第二行号，实现了对大数据量的数据分配唯一的行号。

本公开上述实施例提供的一种数据行号分配方法，将待分配行号的数据集分解为n个子数据集，并确定所述n个子数据集之间的关联数据；其中，n为大于1的整数，所述数据集包括多行数据，每个所述子数据集包括所述数据集中的部分数据；分别为每个所述子数据集中包括的多行数据分配第一行号，得到n组第一行号；其中，所述每行数据对应一个第一行号；根据所述关联数据和所述n组第一行号，得到所述数据集中所有数据中每行数据对应的第二行号，实现对所述数据集的数据行号分配；本实施例通过将大数据量的数据集分解为n个子数据集并分别分配行号，由于分解为n个子数据集，可将每个子数据集分别在不同的集群节点中进行处理，无需将所有数据放在一个集群节点中进行处理，克服了hadoop集群节点单机内存大小的限制，实现了高效的为大数据量的数据分配行号。基于本公开上述实施例提供的数据行号分配方法为大量数据分配行号之后，可实现快速的数据存储。

如图2所示，在上述图1所示实施例的基础上，步骤102可包括如下步骤：

步骤1021，基于每行数据中的标识列，将数据集分解为n个子数据集。

可选地，本实施例中的标识列可以为每行数据中的任意一列或多列，例如，使用数据中的后两位作为该行的标示。结合实际情况也可使用其他位置的数据，比如前2位，后3位，中间5-9位等等都是实现方式的一种；如图3a所示(受显示限制，图中仅示意性显示少量数据)，在一个可选示例中，使用数据中的后两位作为该行的标示，将最后两位数据相同的分类到同一子数据集中，可将图3a中所示的数据分割为4个子数据集，每个子数据集对应的标识分别为OA、OB、OC和OD。

步骤1022，基于每个子数据集中的数据行数确定每两个子数据集之间的关联数据，得到n-1个关联数据。

为了使n各自数据集中所有数据之间的行号连续，本实施例通过每两个子数据集之间的关联数据，将不同子数据集中的行号进行连接。

如图4所示，在上述图2所示实施例的基础上，步骤1022可包括如下步骤：

步骤401，利用行号生成函数分别对每个子数据集中的数据进行处理，得到每个子数据集对应的正序列和反序列。

其中，反序列是正序列的倒置。

步骤402，基于每个子数据集中的正序列和反序列，确定多个子数据集之间的排序关系。

步骤403，基于多个子数据集之间的排序关系，确定每两个相邻的子数据集之间的关联数据。

其中，Hive中的行号生成函数可以为hive表中的每行数据生成一个行号，该函数中还可包含2个参数，即分区列和排序列。经过行号生成函数对原始数据进行处理，可得到为每个原始数据生成的升序序列，例如：正序列(join_id_1)的生成方法是对原始数据(col_str)列使用行号生成函数,参数分区列是原始数据的后两位，即substr(col_str,length(col_str)-1)；参数排序列是col_str，排序规则是升序。反序列(join_id_2)的生成方法是对原始数据(col_str)列使用行号生成函数，参数分区列是col_str的后两位，即substr(col_str,length(col_str)-1)；参数排序列是col_str，排序规则是降序。在一个可选示例中，如图3b所示，利用行号生成函数分别对图3a提供的数据集分解得到的4个子数据集中的数据进行处理，得到如图3b所示的序列号。

如图5所示，在上述图4所示实施例的基础上，步骤402可包括如下步骤：

步骤4021，获取每个子数据集中按照正序列排列在首位的第一数据，得到n个第一数据。

步骤4022，基于n个第一数据对应反序列的值的大小，对n个第一数据对应的n个子数据集进行排序。

本实施例中，为了确定多个子数据集之间的排序，以便后续根据子数据集之间的排序使多个子数据集内部确定的行号进行连续，可选地，将每个子数据集中正序列的首位(正序列序号为1的一行数据)对应的一行数据作为第一数据，得到n个第一数据，每个第一数据中对应的反序列的值可表示该子数据集中包括的数据的行数，按每个第一数据中反序列的数值从大到小进行排序，确定多个子数据集之间的排序关系。例如，如图3c所示，对图3b所示的4个子数据集进行提取第一数据和排序。

如图6所示，在上述图4所示实施例的基础上，步骤403可包括如下步骤：

步骤4031，基于每个子数据集对应的反序列的首位数值，确定每个子数据集中包括的数据行数。

步骤4032，基于每个子数据集中包括的数据行数，确定每两个相邻的子数据集之间的关联数据。

可选地，对于每个子数据集中的行号分配都是从1开始，最大的行号为Ni；此时，对于第1个子数据集(M＝1)的数据，其最终行号是1，2，3，4，…N1；对于第2个子数据集(M＝2)的数据，其最终行号是1+N1,2+N1,3+N1,4+N1,…N2+N1；对于第3个子数据集(M＝3)的数据，其最终行号是1+N1+N2,2+N1+N2,3+N1+N2,4+N1+N2,…N3+N1+N2；…以此类推，得到全部亿级数据的行号，即为亿级别行及以上的数据生成全局连续唯一数字行号。本实施例中，为了使子数据集之间的行号连续，需确定每个子数据集中包括的数据行号(本实施例通过数据行数确定)，在确定一个子数据集包括的数据行号之后，即可确定排序在这个子数据集之后的子数据集中每个数据分配的行号需要叠加的数值(关联数据)。

如图7所示，在上述图6所示实施例的基础上，步骤4032可包括如下步骤：

步骤701，基于行号生成函数对n个第一数据进行处理，得到第一序号列。

其中，第一序号列包括n个顺序数值。

步骤702，基于窗口函数对每个第一数据对应的反序列的值构成的第二列进行求和，得到第二序号列。

其中，第一数据对应的反序列的值为第一数据对应的子数据集中包括的数据行数。

步骤703，以n个第一数据中每个第一数据对应的标识，构成第三序号列。

步骤704，基于第一序号列、第二序号列和第三序号列，建立第一序列表。

在一个可选示例中，如图3d所示，利用行号生成函数对多行第一数据分配顺序数值，得到第一序号列(图3d中的第一序号列)，利用窗口函数对图3c所示的多行数据中的反序列值进行求和(得到图3d所示的第二序号列)，得到如图3d所示的多行数据；其中，窗口函数实现对当前行的数值与之前所有行的数值进行求和。

步骤705，基于第一序列表中的第二序号列，确定每两个相邻的子数据集之间的关联数据。

本实施例中，基于第一序列表中的第一序号列中的序号确定了n个子数据集之间的排序，通过第二序号列确定了每个子数据集与其他子数据集相连接(连接关系可基于第一序号列的取值确定，连续的第一序号对应的子数据集之间连续)时，其他子数据集需要叠加的关联数据的取值，本实施例基于第二序号列确定关联数据，提高了多个子数据集之间行号连接的效率。

如图8所示，在上述图1所示实施例的基础上，步骤104可包括如下步骤：

步骤1041，分别对每个子数据集中的数据进行处理，建立第二序列表，得到n个第二序列表。

其中，每个第二序列表包括第一列数据、第二列数据和第三列数据。

可选地，建立第二序列表的过程可包括：

对每个子数据集，利用行号生成函数对子数据集中的数据进行处理，得到每个子数据集对应的正序列，以正序列作为第二序列表的第一列数据；

以子数据集中的原始数据作为第二序列表的第二列数据；

以子数据集中每个原数据对应的标识，作为第二序列表的第三列数据；

基于第一列数据、第二列数据和第三列数据，得到第二序列表。

本实施例中，通过分别对每个子数据集分别利用行号生成函数进行分配行号，得到每个子数据集中从1开始递增的行号，并且，为了准确识别每行数据所属的子数据集，本实施例将每个原数据对应的标识单独作为第二序列表的中的第三列。例如，如图3e所示，对图3a提供的数据集分解得到的4个子数据集进行处理，得到如图3e所示的示意图。

步骤1042，基于第二序列表中的第一列数据确定第二序列表对应的子数据集中每行数据对应的第一行号，得到n组第一行号。

本实施例中，第二序列表中的数据是分别对每个子数据集进行行号分配得到的，是独立的每个子数据集的行号分配，这个分配过程只需保证在该子数据集内的行号连续且唯一即可，图3e所示仅为一个示例，可以按其他方式进行分配。

如图9所示，在上述图1所示实施例的基础上，每两个相邻的子数据集包括：排序在前的第一子数据集和排序在后的第二子数据集；每两个相邻的子数据集之间的关联数据可作为第二子数据集对应的关联数据；步骤106可包括如下步骤：

步骤1061，基于n组第一行号和每两个相邻的子数据集之间的关联数据，将第二子数据集中的数据对应的每个第一行号加上第二子数据集对应的关联数据，得到第二子数据集中每个数据对应的第二行号。

步骤1062，连接n个子数据集中每个数据对应的第二行号，得到数据集中每个数据对应的第二行号。

本实施例中，在已知每个子数据集中分配的连续的第一行号，并且已知每两个相邻子数据集之间的关联数据时，按照子数据集之间的排序，将排序在第一个子数据集之后的所有子数据集中的数据对应的第二行号分别叠加其所属子数据集对应的关联数据即可，此时得到的所有子数据集中的数据对应的行号都是唯一的，且，从整体数据集的角度看是连续的，实现了对亿级别的数据的唯一且连续的行号分配。

可选地，基于第一行号确定第二行号的过程，可包括以下过程：

基于第一序列表和第二序列表，得到第三序列表；其中，第三序列表中包括的第二序列表中的全部列以及第一序列表中的第一列。

其中，基于标识列进行匹配，可选地，通过join实现第一序列表和第二序列表之间的连接，其中关联条件为：db.table_1.subfix＝db.table_0.subfix，即，第一序列表中的标识与第二序列表中的标识相同的列相对应，例如，如图3f所示，对图3d所示的第一序列表和图3e所示的第二序列表进行join，得到图3f所示的第三序列表。

基于第三序列表和第一序列表，得到第四序列表；其中，第四序列表中包括的第三序列表中的全部列以及第一序列表中的部分第二列。

上述步骤连接第一序列表和第二序列表，实现将第一序列表中的第一列连接到第三序列表中，该步骤通过join将第一序列表中的部分第二列连接到第三序列表中，构成第四序列表，其中，关联条件为：db.table_2.partNum-1＝db.table_0.partNum，即，第三序列表中第四列中行号为1的数据在第一序列表中无对应，第三序列表中第四列中行号为2的数据对应第一序列表第二列中行号为1的数据，第三序列表中第四列中行号为3的数据对应第一序列表第二列中行号为2的数据，…依次类推，即可将得到包括第一序列表中的部分第二列的第四序列表，此时第四序列表中不包括排序在第一位的子数据集中的数据；例如，如图3g所示，对图3f所示的第三序列表中的部分与图3d所示的第一序列表中的部分进行join，得到图3g所示的第四序列表。

基于第四序列表中的第一列和第五列，构成第五序列表。

本实施例中，对第四序列表中的第一列和第五列进行相加操作，以相加后的和值作为第五序列表中的第一列，此时第五序列表中的第一列表示的即为本公开实施例中的第二行号，例如，如图3h所示，对图3g所示的第四序列表中的第一列和第五列进行求和，得到图3h所示的第五序列表。

基于第一序列表中未对应到第四序列表中的多行数据，建立第六序列表。

在获得第四序列表的过程中，由于在第一序列表中查找不到对应值而导致第四序列表中不包括排序在第一位的子数据集中的数据，本步骤通过以第一序列表中第一列为1的数据行中的标识，在第二序列表中查找标识相同的多行数据，对查找得到的多行数据中的前两列进行提取，构成第六序列表。例如，如图3i所示，基于图3d提供的第一序列表和图3e提供的第二序列表，得到排序在第一位的子数据集对应的第六序列表。

联合第五序列表和第六序列表，得到数据集中所有数据中每行数据对应的第二行号。

可选地，本实施例中，对第五序列表和第六序列表做UNION(联合)，其实现的是将第五序列表和第六序列表中的所有数据行按行排列在一起，不限制其排列顺序，可以第五序列表在前，或第六序列表在前。例如，如图3j所示，联合图3h提供的第五序列表和图3i提供的第六序列表，得到如图3j所示的完整数据集的所有数据以及每个数据对应的第二行号。

本公开实施例提供的任一种数据行号分配方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种数据行号分配方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种数据行号分配方法。下文不再赘述。

示例性装置

图10是本公开一示例性实施例提供的数据行号分配装置的结构示意图。本实施例提供的装置包括：

数据分解模块11，用于将待分配行号的数据集分解为n个子数据集，并确定n个子数据集之间的关联数据。

集群节点模块12，用于分别为每个子数据集中包括的多行数据分配第一行号，得到n组第一行号。

其中，每行数据对应一个第一行号；本实施例利用每个集群节点对一个子数据集中的多行数据进行行号分配。

行号分配模块13，用于根据关联数据和n组第一行号，得到数据集中所有数据中每行数据对应的第二行号，实现对数据集的数据行号分配。

本公开上述实施例提供的一种数据行号分配装置，将待分配行号的数据集分解为n个子数据集，并确定所述n个子数据集之间的关联数据；其中，n为大于1的整数，所述数据集包括多行数据，每个所述子数据集包括所述数据集中的部分数据；分别为每个所述子数据集中包括的多行数据分配第一行号，得到n组第一行号；其中，所述每行数据对应一个第一行号；根据所述关联数据和所述n组第一行号，得到所述数据集中所有数据中每行数据对应的第二行号，实现对所述数据集的数据行号分配；本实施例通过将大数据量的数据集分解为n个子数据集并分别分配行号，由于分解为n个子数据集，可将每个子数据集分别在不同的集群节点中进行处理，无需将所有数据放在一个集群节点中进行处理，克服了hadoop集群节点单机内存大小的限制，实现了高效的为大数据量的数据分配行号。

在一些可选的实施例中，数据分解模块11，包括：

标识分解单元，用于基于每行数据中的标识列，将数据集分解为n个子数据集；

关联数据单元，用于基于每个子数据集中的数据行数确定每两个子数据集之间的关联数据，得到n-1个关联数据。

可选地，关联数据单元，具体用于利用行号生成函数分别对每个子数据集中的数据进行处理，得到每个子数据集对应的正序列和反序列；其中，反序列是正序列的倒置；基于每个子数据集中的正序列和反序列，确定多个子数据集之间的排序关系；基于多个子数据集之间的排序关系，确定每两个相邻的子数据集之间的关联数据。

可选地，关联数据单元在基于每个子数据集中的正序列和反序列，确定多个子数据集之间的排序关系时，用于获取每个子数据集中按照正序列排列在首位的第一数据，得到n个第一数据；基于n个第一数据对应反序列的值的大小，对n个第一数据对应的n个子数据集进行排序(按数值从大到小排序)。

可选地，关联数据单元在基于多个子数据集之间的排序关系，确定每两个相邻的子数据集之间的关联数据时，用于基于每个子数据集对应的反序列的首位数值，确定每个子数据集中包括的数据行数；基于每个子数据集中包括的数据行数，确定每两个相邻的子数据集之间的关联数据。

可选地，关联数据单元在基于每个子数据集中包括的数据行数，确定每两个相邻的子数据集之间的关联数据时，用于基于行号生成函数对n个第一数据进行处理，得到第一序号列；其中，第一序号列包括n个顺序数值；基于窗口函数对每个第一数据对应的反序列的值构成的第二列进行求和，得到第二序号列；其中，第一数据对应的反序列的值为第一数据对应的子数据集中包括的数据行数；以n个第一数据中每个第一数据对应的标识，构成第三序号列；基于第一序号列、第二序号列和第三序号列，建立第一序列表；基于第一序列表中的第二序号列，确定每两个相邻的子数据集之间的关联数据。

在一些可选的实施例中，集群节点模块12，包括：

序列表单元，用于分别对每个子数据集中的数据进行处理，建立第二序列表，得到n个第二序列表；其中，每个第二序列表包括第一列数据、第二列数据和第三列数据；

第一行号确定单元，用于基于第二序列表中的第一列数据确定第二序列表对应的子数据集中每行数据对应的第一行号，得到n组第一行号。

可选地，序列表单元，具体用于对每个子数据集，利用行号生成函数对子数据集中的数据进行处理，得到每个子数据集对应的正序列，以正序列作为第二序列表的第一列数据；以子数据集中的原始数据作为第二序列表的第二列数据；以子数据集中每个原数据对应的标识，作为第二序列表的第三列数据；基于第一列数据、第二列数据和第三列数据，得到第二序列表。

在一些可选的实施例中，每两个相邻的子数据集包括：排序在前的第一子数据集和排序在后的第二子数据集；每两个相邻的子数据集之间的关联数据可作为第二子数据集对应的关联数据；

行号分配模块13，具体用于基于n组第一行号和每两个相邻的子数据集之间的关联数据，将第二子数据集中的数据对应的每个第一行号加上第二子数据集对应的关联数据，得到第二子数据集中每个数据对应的第二行号；连接n个子数据集中每个数据对应的第二行号，得到数据集中每个数据对应的第二行号。

示例性电子设备

下面，参考图11来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图11图示了根据本公开实施例的电子设备的框图。

如图11所示，电子设备110包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备110中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本公开的各个实施例的数据行号分配方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备110还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置113可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置113可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入设备113还可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图11中仅示出了该电子设备110中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备110还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的数据行号分配方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的数据行号分配方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种数据行号分配方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将待分配行号的数据集分解为n个子数据集，并确定所述n个子数据集之间的关联数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述每个子数据集中的数据行数确定每两个所述子数据集之间的关联数据，得到n-1个关联数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于每个所述子数据集中的正序列和反序列，确定多个所述子数据集之间的排序关系，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于多个所述子数据集之间的排序关系，确定每两个相邻的所述子数据集之间的关联数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于每个所述子数据集中包括的数据行数，确定每两个相邻的所述子数据集之间的关联数据，包括：

7.根据权利要求1-6任一所述的方法，其特征在于，所述分别为每个所述子数据集中包括的多行数据分配第一行号，得到n组第一行号，包括：

8.一种数据行号分配装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的数据行号分配方法。

10.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的数据行号分配方法。