CN115934806A

CN115934806A - 一种基于rbm的数据去重的统计方法、装置、设备及介质

Info

Publication number: CN115934806A
Application number: CN202310069839.XA
Authority: CN
Inventors: 孙亚飞
Original assignee: Accumulus Technologies Tianjin Co Ltd
Current assignee: Accumulus Technologies Tianjin Co Ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-04-07
Anticipated expiration: 2043-02-07
Also published as: CN115934806B

Abstract

本发明提供一种基于RBM的数据去重的统计方法、装置、设备及介质，方法包括：获取用户数据；判断用户数据是否存储在预设的数据库表中；如果否，则将用户数据插入至数据库表中；获取数据库表返回的自增ID；根据自增ID和int32_max确定用户数据所属的roaringbitMap分桶以及用户数据所对应的分桶数据；将分桶数据保存至用户数据所属的roaringbitMap分桶中；统计每个roaringbitMap分桶中所存储的分桶数据的个数；确定所有个数的和；其中，所有个数的和为用户数据的去重统计数。由此，可避免数据量过大时，进行数据去重统计所导致的数据库性能下降、数据延迟等问题，在实现实时精确的数据去重统计的同时，保障了数据库的性能。

Description

一种基于RBM的数据去重的统计方法、装置、设备及介质

技术领域

本发明实施例涉及数据库技术领域，尤其涉及一种基于RBM的数据去重的统计方法、装置、设备及介质。

背景技术

目前，在进行数据去重统计时，通常是将数据存储到数据库中，并设置唯一键，例如将用户ID存储到mysql用户表中，并设置唯一键。当数据重复时，则不进行数据插入，在需要进行数据去重统计的情况下，则对整张表进行计数统计（count）。

上述的数据去重统计方法在数据量比较小（例如：数据量在百万以内）的情况下，数据库的性能相对比较稳定；而在数据量超过百万，小于千万的情况下，性能已不稳定，数据去重统计会受到其他查询的影响，相互干扰，降低查询速度和数据去重统计的速度，导致实时数据延迟得到；而在数据量超过千万，甚至达到亿级以后，数据库性能会极剧下降，甚至会hang死数据库（数据库无响应）。可见，上述方法具备如下缺点：随着数据量的变化，数据去重统计的效率逐渐降低。

发明内容

本发明实施例提供一种基于RBM的数据去重的统计方法、装置、设备及介质，以解决现有技术中随着数据量的变化，数据去重统计的效率逐渐降低，数据库性能下降的技术问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供一种基于RBM的数据去重的统计方法，所述方法包括：

获取用户数据；

判断所述用户数据是否存储在预设的数据库表中；

如果否，则将所述用户数据插入至所述数据库表中；

获取所述数据库表返回的自增ID；其中，所述自增ID在所述用户数据插入至所述数据库表时，自动返回；

根据所述自增ID和int32_max确定所述用户数据所属的roaringbitMap分桶以及所述用户数据所对应的分桶数据；

将所述分桶数据保存至所述用户数据所属的roaringbitMap分桶中；

统计每个roaringbitMap分桶中所存储的分桶数据的个数；

确定所有个数的和；

其中，所有个数的和为所述用户数据的去重统计数。

优选地，在获取用户数据之前，所述方法还包括：

创建所述数据库表；其中，所述数据库表包括：主键自增ID列以及唯一键数据列。

优选地，在获取用户数据之后，判断所述用户数据是否存储在预设的数据库表中之前，所述方法还包括：

确定所述用户数据的长度是否超出预设长度阈值；

如果是，则基于MD5算法对所述用户数据进行处理，得到处理后的用户数据；

所述判断所述用户数据是否存储在预设的数据库表中包括：判断所述处理后的用户数据是否存储在预设的数据库表中。

优选地，根据所述自增ID和int32_max确定所述用户数据所属的roaringbitMap分桶以及所述用户数据所对应的分桶数据包括：

确定所述自增ID与int32_max的商；

将所述商的值加1后，作为所述用户数据所属的roaringbitMap分桶的编号；

将所述商所对应的余数作为所述用户数据所对应的分桶数据。

优选地，所述方法能够封装在用户自定义函数UDF中使用。

第二方面，本发明实施例提供一种基于RBM的数据去重的统计装置，所述装置包括：

获取模块，用于获取用户数据；

判断模块，用于判断所述用户数据是否存储在预设的数据库表中；

插入模块，用于如果所述用户数据未存储在预设的数据库表中，则将所述用户数据插入至所述数据库表中；

所述获取模块，还用于获取所述数据库表返回的自增ID；其中，所述自增ID在所述用户数据插入至所述数据库表时，自动返回；

确定模块，用于根据所述自增ID和int32_max确定所述用户数据所属的roaringbitMap分桶以及所述用户数据所对应的分桶数据；

保存模块，用于将所述分桶数据保存至所述用户数据所属的roaringbitMap分桶中；

统计模块，用于统计每个roaringbitMap分桶中所存储的分桶数据的个数；

所述确定模块，还用于确定所有个数的和；

其中，所有个数的和为所述用户数据的去重统计数。

优选地，所述装置还包括：

创建模块，用于在获取用户数据之前，创建所述数据库表；其中，所述数据库表包括：主键自增ID列以及唯一键数据列。

优选地，所述确定模块，还用于在获取用户数据之后，在判断所述用户数据是否存储在预设的数据库表中之前，确定所述用户数据的长度是否超出预设长度阈值；

所述判断模块，还用于判断所述处理后的用户数据是否存储在预设的数据库表中。

优选地，所述确定模块，还用于确定所述自增ID与int32_max的商；将所述商的值加1后，作为所述用户数据所属的roaringbitMap分桶的编号；将所述商所对应的余数作为所述用户数据所对应的分桶数据。

优选地，所述装置能够封装在用户自定义函数UDF中使用。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第一方面所述的基于RBM的数据去重的统计方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的基于RBM的数据去重的统计方法的步骤。

在本发明实施例中，预先设置数据库表，并利用自增ID和roaringbitMap（压缩位图，RBM）来确定每个roaringbitMap分桶中所存储的分桶数据的个数，进而确定所有个数的和以得到去重统计数。由此，使用roaringbitmap作为精确去重统计的存储结构，使得数据库的性能不会随着数据量的提升而下降，且可实时、精确地确定去重统计的结果，提高了数据去重统计的效率，避免了海量数据所导致的数据库性能下降，数据延迟等问题。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的一种基于RBM的数据去重的统计方法的流程图；

图2为本发明实施例提供的一种基于RBM的数据去重的统计方法的流程图；

图3为本发明实施例提供的一种基于RBM的数据去重的统计装置的结构框图；

图4为本发明实施例提供的一种电子设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种基于RBM的数据去重的统计方法的流程图，如图1所示，方法包括：

步骤S101、获取用户数据；

步骤S102、判断用户数据是否存储在预设的数据库表中；如果是，则结束流程；如果否，则执行步骤S103；

步骤S103、将用户数据插入至数据库表中；

步骤S104、获取数据库表返回的自增ID；

其中，自增ID在用户数据插入至数据库表时，自动返回；

步骤S105、根据自增ID和int32_max确定用户数据所属的roaringbitMap分桶以及用户数据所对应的分桶数据；

步骤S106、将分桶数据保存至用户数据所属的roaringbitMap分桶中；

步骤S107、统计每个roaringbitMap分桶中所存储的分桶数据的个数；

步骤S108、确定所有个数的和；

其中，所有个数的和为用户数据的去重统计数。

在一种可能的实现方式中，在获取用户数据之前，方法还包括：创建数据库表；其中，数据库表包括：主键自增ID列以及唯一键数据列。

可理解的是，可预先采用mysql创建数据库表（也可称为自增ID表），该表至少包括两列，分别是主键自增ID列以及唯一键数据列。优选地，在mysql大数据量的情况下，可以做分库分表，还可以添加一个分区列，来区分不同的数据统计。例如，将近30天的活跃用户的数据存放到一个分区，将历史累计活跃用户的数据存放到另一个分区（例如：以APP上线时刻为起始时刻，将历史累计活跃用户的数据存放到另一个分区）。

其中，唯一键数据列可用于存储真实的用户数据，例如：真实用户ID、标识符等，而主键自增ID列则用于存储主键自增ID。自增ID是在设计表时将ID字段的值设置为自增的形式，这样当插入一行数据时无需指定ID，而是会自动根据前一字段的ID值+1进行填充。在MySQL数据库中，可通过sql语句AUTO_INCREMENT来对特定的字段启用自增赋值。使用自增ID作为主键，能够保证字段的原子性。

需要说明的是，除了使用MySQL之外，还可以使用tidb、Redis等，只要能构建自增ID服务即可。

在一种可能的实现方式中，在获取用户数据之后，判断用户数据是否存储在预设的数据库表中之前，方法还包括：确定用户数据的长度是否超出预设长度阈值；如果是，则基于MD5算法对用户数据进行处理，得到处理后的用户数据。且相对应地，步骤S102、判断用户数据是否存储在预设的数据库表中包括：判断处理后的用户数据是否存储在预设的数据库表中。MD5算法具备压缩性，可通过MD5算法将任意长度的数据转换成固定长度的数据。本发明实施例中，可通过MD5算法将字符串转换为数字，由此，本发明实施例可兼容整型类型和字符串类型，且可减小用户数据的长度，降低数据存储空间，提高数据库的性能。

在一种可能的实现方式中，若步骤S102的判断结果为否，则执行步骤S103、将用户数据插入至数据库表中。若步骤S102的判断结果为是，则结束流程。可理解的是，在将用户数据插入至数据库表中后，会对应返回自增ID，即自增ID在用户数据插入至数据库表时，自动返回，对应于步骤S104、获取数据库表返回的自增ID。

在一种可能的实现方式中，如图2所示，步骤S105、根据自增ID和int32_max确定用户数据所属的roaringbitMap分桶以及用户数据所对应的分桶数据包括：

步骤S201、确定自增ID与int32_max的商；

步骤S202、将商的值加1后，作为用户数据所属的roaringbitMap分桶的编号；

步骤S203、将商所对应的余数作为用户数据所对应的分桶数据。

其中，int32_max为int32的最大值：4294967295。在一种可能的实现方式中，需将自增ID除以4294967295（在实际的应用场景中，数据量完全有可能超过int32的取值范围），并将商的值加1后，作为用户数据所属的roaringbitMap分桶的编号，例如，在商的值为0时，分桶的编号为1，在商的值为1时，分桶的编号为2，在商的值为2时，分桶的编号为3，以此类推。而所对应的余数则作为用户数据所对应的分桶数据，即roaringbitmap的实际保存数据。且roaringbitmap可以为Redis的roaringbitmap（借助于开源Redis roaringbitmap插件），还可以自建分布式raoringbitmap服务。

需要说明的是，roaringbitmap属于位图的一个进化，即压缩位图，简称为RBM，在RoaingBitmap中不只包含Bitmap这一种数据结构，而是包涵了多种存储的方式，同时通过计算及逻辑上的优化，保证了在各个稀疏度下相比于传统的Bitmap，都能保持较低的内存占用和对比速度。

在一种可能的实现方式中，可顺序执行步骤S106至步骤S108，即将分桶数据保存至用户数据所属的roaringbitMap分桶（roaringbitMap类型）中，统计每个roaringbitMap分桶中所存储的分桶数据的个数，并确定所有个数的和，其中，所有个数的和为用户数据的去重统计数。

在一种可能的实现方式中，图1所示的方法能够封装在UDF（User-DefinedFunction，用户自定义函数）中，配合flink使用，以实现高效、实时、且精确的数据去重统计。

在本发明实施例中，预先设置数据库表，并利用自增ID和roaringbitMap来确定每个roaringbitMap分桶中所存储的分桶数据的个数，进而确定所有个数的和以得到去重统计数。由此，使用roaringbitmap作为精确去重统计的存储结构，使得数据库的性能不会随着数据量的提升而下降，且可实时、精确地确定去重统计的结果，提高了数据去重统计的效率，避免了海量数据所导致的数据库性能下降，数据延迟等问题。另外，将数据库自增和roaringbitmap底层步长容器相结合，还可降低内容使用率。

图3示出了本发明实施例提供的一种基于RBM的数据去重的统计装置的结构框图，如图3所示，装置30包括：

获取模块301，用于获取用户数据；

判断模块302，用于判断用户数据是否存储在预设的数据库表中；

插入模块303，用于如果用户数据未存储在预设的数据库表中，则将用户数据插入至数据库表中；

获取模块301，还用于获取数据库表返回的自增ID；其中，自增ID在用户数据插入至数据库表时，自动返回；

确定模块304，用于根据自增ID和int32_max确定用户数据所属的roaringbitMap分桶以及用户数据所对应的分桶数据；

保存模块305，用于将分桶数据保存至用户数据所属的roaringbitMap分桶中；

统计模块306，用于统计每个roaringbitMap分桶中所存储的分桶数据的个数；

确定模块304，还用于确定所有个数的和；

其中，所有个数的和为用户数据的去重统计数。

在一种可能的实现方式中，装置30还包括：

创建模块，用于在获取用户数据之前，创建数据库表；其中，数据库表包括：主键自增ID列以及唯一键数据列。

在一种可能的实现方式中，确定模块304，还用于在获取用户数据之后，在判断用户数据是否存储在预设的数据库表中之前，确定用户数据的长度是否超出预设长度阈值；

如果是，则基于MD5算法对用户数据进行处理，得到处理后的用户数据；

判断模块302，还用于判断处理后的用户数据是否存储在预设的数据库表中。

在一种可能的实现方式中，确定模块304，还用于确定自增ID与int32_max的商；将商的值加1后，作为用户数据所属的roaringbitMap分桶的编号；将商所对应的余数作为用户数据所对应的分桶数据。

在一种可能的实现方式中，装置30能够封装在UDF中使用。

在本发明实施例中，预先设置数据库表，并利用自增ID和roaringbitMap来确定每个roaringbitMap分桶中所存储的分桶数据的个数，进而确定所有个数的和以得到去重统计数。由此，使用roaringbitmap作为精确去重统计的存储结构，使得数据库的性能不会随着数据量的提升而下降，且可实时、精确地确定去重统计的结果，提高了数据去重统计的效率，避免了海量数据所导致的数据库性能下降，数据延迟等问题。

本发明实施例还提供一种电子设备40，如图4所示，包括：处理器401、存储器402及存储在存储器402上并可在处理器401上运行的程序，程序被处理器401执行时实现如图1、图2所示的基于RBM的数据去重的统计方法的步骤。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如图1、图2所示的基于RBM的数据去重的统计方法的步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random AccessMemory，RAM）、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种基于RBM的数据去重的统计方法，其特征在于，所述方法包括：

获取用户数据；

判断所述用户数据是否存储在预设的数据库表中；

如果否，则将所述用户数据插入至所述数据库表中；

根据所述自增ID和int32_max确定所述用户数据所属的压缩位图roaringbitMap分桶以及所述用户数据所对应的分桶数据；

统计每个roaringbitMap分桶中所存储的分桶数据的个数；

确定所有个数的和；

其中，所有个数的和为所述用户数据的去重统计数。

2.根据权利要求1所述的方法，其特征在于，在获取用户数据之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，在获取用户数据之后，判断所述用户数据是否存储在预设的数据库表中之前，所述方法还包括：

确定所述用户数据的长度是否超出预设长度阈值；

4.根据权利要求1所述的方法，其特征在于，根据所述自增ID和int32_max确定所述用户数据所属的roaringbitMap分桶以及所述用户数据所对应的分桶数据包括：

确定所述自增ID与int32_max的商；

5.根据权利要求1-4中任一项所述的方法，其特征在于，

所述方法能够封装在用户自定义函数UDF中使用。

6.一种基于RBM的数据去重的统计装置，其特征在于，所述装置包括：

获取模块，用于获取用户数据；

所述确定模块，还用于确定所有个数的和；

其中，所有个数的和为所述用户数据的去重统计数。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，

所述确定模块，还用于在获取用户数据之后，在判断所述用户数据是否存储在预设的数据库表中之前，确定所述用户数据的长度是否超出预设长度阈值；

9.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至5中任一项所述的基于RBM的数据去重的统计方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于RBM的数据去重的统计方法的步骤。