CN115934806A - 一种基于rbm的数据去重的统计方法、装置、设备及介质 - Google Patents

一种基于rbm的数据去重的统计方法、装置、设备及介质 Download PDF

Info

Publication number
CN115934806A
CN115934806A CN202310069839.XA CN202310069839A CN115934806A CN 115934806 A CN115934806 A CN 115934806A CN 202310069839 A CN202310069839 A CN 202310069839A CN 115934806 A CN115934806 A CN 115934806A
Authority
CN
China
Prior art keywords
user data
data
bucket
sub
database table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310069839.XA
Other languages
English (en)
Other versions
CN115934806B (zh
Inventor
孙亚飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Accumulus Technologies Tianjin Co Ltd
Original Assignee
Accumulus Technologies Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Accumulus Technologies Tianjin Co Ltd filed Critical Accumulus Technologies Tianjin Co Ltd
Priority to CN202310069839.XA priority Critical patent/CN115934806B/zh
Publication of CN115934806A publication Critical patent/CN115934806A/zh
Application granted granted Critical
Publication of CN115934806B publication Critical patent/CN115934806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于RBM的数据去重的统计方法、装置、设备及介质,方法包括:获取用户数据;判断用户数据是否存储在预设的数据库表中;如果否,则将用户数据插入至数据库表中;获取数据库表返回的自增ID;根据自增ID和int32_max确定用户数据所属的roaringbitMap分桶以及用户数据所对应的分桶数据;将分桶数据保存至用户数据所属的roaringbitMap分桶中;统计每个roaringbitMap分桶中所存储的分桶数据的个数;确定所有个数的和;其中,所有个数的和为用户数据的去重统计数。由此,可避免数据量过大时,进行数据去重统计所导致的数据库性能下降、数据延迟等问题,在实现实时精确的数据去重统计的同时,保障了数据库的性能。

Description

一种基于RBM的数据去重的统计方法、装置、设备及介质
技术领域
本发明实施例涉及数据库技术领域,尤其涉及一种基于RBM的数据去重的统计方法、装置、设备及介质。
背景技术
目前,在进行数据去重统计时,通常是将数据存储到数据库中,并设置唯一键,例如将用户ID存储到mysql用户表中,并设置唯一键。当数据重复时,则不进行数据插入,在需要进行数据去重统计的情况下,则对整张表进行计数统计(count)。
上述的数据去重统计方法在数据量比较小(例如:数据量在百万以内)的情况下,数据库的性能相对比较稳定;而在数据量超过百万,小于千万的情况下,性能已不稳定,数据去重统计会受到其他查询的影响,相互干扰,降低查询速度和数据去重统计的速度,导致实时数据延迟得到;而在数据量超过千万,甚至达到亿级以后,数据库性能会极剧下降,甚至会hang死数据库(数据库无响应)。可见,上述方法具备如下缺点:随着数据量的变化,数据去重统计的效率逐渐降低。
发明内容
本发明实施例提供一种基于RBM的数据去重的统计方法、装置、设备及介质,以解决现有技术中随着数据量的变化,数据去重统计的效率逐渐降低,数据库性能下降的技术问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供一种基于RBM的数据去重的统计方法,所述方法包括:
获取用户数据;
判断所述用户数据是否存储在预设的数据库表中;
如果否,则将所述用户数据插入至所述数据库表中;
获取所述数据库表返回的自增ID;其中,所述自增ID在所述用户数据插入至所述数据库表时,自动返回;
根据所述自增ID和int32_max确定所述用户数据所属的roaringbitMap分桶以及所述用户数据所对应的分桶数据;
将所述分桶数据保存至所述用户数据所属的roaringbitMap分桶中;
统计每个roaringbitMap分桶中所存储的分桶数据的个数;
确定所有个数的和;
其中,所有个数的和为所述用户数据的去重统计数。
优选地,在获取用户数据之前,所述方法还包括:
创建所述数据库表;其中,所述数据库表包括:主键自增ID列以及唯一键数据列。
优选地,在获取用户数据之后,判断所述用户数据是否存储在预设的数据库表中之前,所述方法还包括:
确定所述用户数据的长度是否超出预设长度阈值;
如果是,则基于MD5算法对所述用户数据进行处理,得到处理后的用户数据;
所述判断所述用户数据是否存储在预设的数据库表中包括:判断所述处理后的用户数据是否存储在预设的数据库表中。
优选地,根据所述自增ID和int32_max确定所述用户数据所属的roaringbitMap分桶以及所述用户数据所对应的分桶数据包括:
确定所述自增ID与int32_max的商;
将所述商的值加1后,作为所述用户数据所属的roaringbitMap分桶的编号;
将所述商所对应的余数作为所述用户数据所对应的分桶数据。
优选地,所述方法能够封装在用户自定义函数UDF中使用。
第二方面,本发明实施例提供一种基于RBM的数据去重的统计装置,所述装置包括:
获取模块,用于获取用户数据;
判断模块,用于判断所述用户数据是否存储在预设的数据库表中;
插入模块,用于如果所述用户数据未存储在预设的数据库表中,则将所述用户数据插入至所述数据库表中;
所述获取模块,还用于获取所述数据库表返回的自增ID;其中,所述自增ID在所述用户数据插入至所述数据库表时,自动返回;
确定模块,用于根据所述自增ID和int32_max确定所述用户数据所属的roaringbitMap分桶以及所述用户数据所对应的分桶数据;
保存模块,用于将所述分桶数据保存至所述用户数据所属的roaringbitMap分桶中;
统计模块,用于统计每个roaringbitMap分桶中所存储的分桶数据的个数;
所述确定模块,还用于确定所有个数的和;
其中,所有个数的和为所述用户数据的去重统计数。
优选地,所述装置还包括:
创建模块,用于在获取用户数据之前,创建所述数据库表;其中,所述数据库表包括:主键自增ID列以及唯一键数据列。
优选地,所述确定模块,还用于在获取用户数据之后,在判断所述用户数据是否存储在预设的数据库表中之前,确定所述用户数据的长度是否超出预设长度阈值;
如果是,则基于MD5算法对所述用户数据进行处理,得到处理后的用户数据;
所述判断模块,还用于判断所述处理后的用户数据是否存储在预设的数据库表中。
优选地,所述确定模块,还用于确定所述自增ID与int32_max的商;将所述商的值加1后,作为所述用户数据所属的roaringbitMap分桶的编号;将所述商所对应的余数作为所述用户数据所对应的分桶数据。
优选地,所述装置能够封装在用户自定义函数UDF中使用。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的基于RBM的数据去重的统计方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于RBM的数据去重的统计方法的步骤。
在本发明实施例中,预先设置数据库表,并利用自增ID和roaringbitMap(压缩位图,RBM)来确定每个roaringbitMap分桶中所存储的分桶数据的个数,进而确定所有个数的和以得到去重统计数。由此,使用roaringbitmap作为精确去重统计的存储结构,使得数据库的性能不会随着数据量的提升而下降,且可实时、精确地确定去重统计的结果,提高了数据去重统计的效率,避免了海量数据所导致的数据库性能下降,数据延迟等问题。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种基于RBM的数据去重的统计方法的流程图;
图2为本发明实施例提供的一种基于RBM的数据去重的统计方法的流程图;
图3为本发明实施例提供的一种基于RBM的数据去重的统计装置的结构框图;
图4为本发明实施例提供的一种电子设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种基于RBM的数据去重的统计方法的流程图,如图1所示,方法包括:
步骤S101、获取用户数据;
步骤S102、判断用户数据是否存储在预设的数据库表中;如果是,则结束流程;如果否,则执行步骤S103;
步骤S103、将用户数据插入至数据库表中;
步骤S104、获取数据库表返回的自增ID;
其中,自增ID在用户数据插入至数据库表时,自动返回;
步骤S105、根据自增ID和int32_max确定用户数据所属的roaringbitMap分桶以及用户数据所对应的分桶数据;
步骤S106、将分桶数据保存至用户数据所属的roaringbitMap分桶中;
步骤S107、统计每个roaringbitMap分桶中所存储的分桶数据的个数;
步骤S108、确定所有个数的和;
其中,所有个数的和为用户数据的去重统计数。
在一种可能的实现方式中,在获取用户数据之前,方法还包括:创建数据库表;其中,数据库表包括:主键自增ID列以及唯一键数据列。
可理解的是,可预先采用mysql创建数据库表(也可称为自增ID表),该表至少包括两列,分别是主键自增ID列以及唯一键数据列。优选地,在mysql大数据量的情况下,可以做分库分表,还可以添加一个分区列,来区分不同的数据统计。例如,将近30天的活跃用户的数据存放到一个分区,将历史累计活跃用户的数据存放到另一个分区(例如:以APP上线时刻为起始时刻,将历史累计活跃用户的数据存放到另一个分区)。
其中,唯一键数据列可用于存储真实的用户数据,例如:真实用户ID、标识符等,而主键自增ID列则用于存储主键自增ID。自增ID是在设计表时将ID字段的值设置为自增的形式,这样当插入一行数据时无需指定ID,而是会自动根据前一字段的ID值+1进行填充。在MySQL数据库中,可通过sql语句AUTO_INCREMENT来对特定的字段启用自增赋值。使用自增ID作为主键,能够保证字段的原子性。
需要说明的是,除了使用MySQL之外,还可以使用tidb、Redis等,只要能构建自增ID服务即可。
在一种可能的实现方式中,在获取用户数据之后,判断用户数据是否存储在预设的数据库表中之前,方法还包括:确定用户数据的长度是否超出预设长度阈值;如果是,则基于MD5算法对用户数据进行处理,得到处理后的用户数据。且相对应地,步骤S102、判断用户数据是否存储在预设的数据库表中包括:判断处理后的用户数据是否存储在预设的数据库表中。MD5算法具备压缩性,可通过MD5算法将任意长度的数据转换成固定长度的数据。本发明实施例中,可通过MD5算法将字符串转换为数字,由此,本发明实施例可兼容整型类型和字符串类型,且可减小用户数据的长度,降低数据存储空间,提高数据库的性能。
在一种可能的实现方式中,若步骤S102的判断结果为否,则执行步骤S103、将用户数据插入至数据库表中。若步骤S102的判断结果为是,则结束流程。可理解的是,在将用户数据插入至数据库表中后,会对应返回自增ID,即自增ID在用户数据插入至数据库表时,自动返回,对应于步骤S104、获取数据库表返回的自增ID。
在一种可能的实现方式中,如图2所示,步骤S105、根据自增ID和int32_max确定用户数据所属的roaringbitMap分桶以及用户数据所对应的分桶数据包括:
步骤S201、确定自增ID与int32_max的商;
步骤S202、将商的值加1后,作为用户数据所属的roaringbitMap分桶的编号;
步骤S203、将商所对应的余数作为用户数据所对应的分桶数据。
其中,int32_max为int32的最大值:4294967295。在一种可能的实现方式中,需将自增ID除以4294967295(在实际的应用场景中,数据量完全有可能超过int32的取值范围),并将商的值加1后,作为用户数据所属的roaringbitMap分桶的编号,例如,在商的值为0时,分桶的编号为1,在商的值为1时,分桶的编号为2,在商的值为2时,分桶的编号为3,以此类推。而所对应的余数则作为用户数据所对应的分桶数据,即roaringbitmap的实际保存数据。且roaringbitmap可以为Redis的roaringbitmap(借助于开源Redis roaringbitmap插件),还可以自建分布式raoringbitmap服务。
需要说明的是,roaringbitmap属于位图的一个进化,即压缩位图,简称为RBM,在RoaingBitmap中不只包含Bitmap这一种数据结构,而是包涵了多种存储的方式,同时通过计算及逻辑上的优化,保证了在各个稀疏度下相比于传统的Bitmap,都能保持较低的内存占用和对比速度。
在一种可能的实现方式中,可顺序执行步骤S106至步骤S108,即将分桶数据保存至用户数据所属的roaringbitMap分桶(roaringbitMap类型)中,统计每个roaringbitMap分桶中所存储的分桶数据的个数,并确定所有个数的和,其中,所有个数的和为用户数据的去重统计数。
在一种可能的实现方式中,图1所示的方法能够封装在UDF(User-DefinedFunction,用户自定义函数)中,配合flink使用,以实现高效、实时、且精确的数据去重统计。
在本发明实施例中,预先设置数据库表,并利用自增ID和roaringbitMap来确定每个roaringbitMap分桶中所存储的分桶数据的个数,进而确定所有个数的和以得到去重统计数。由此,使用roaringbitmap作为精确去重统计的存储结构,使得数据库的性能不会随着数据量的提升而下降,且可实时、精确地确定去重统计的结果,提高了数据去重统计的效率,避免了海量数据所导致的数据库性能下降,数据延迟等问题。另外,将数据库自增和roaringbitmap底层步长容器相结合,还可降低内容使用率。
图3示出了本发明实施例提供的一种基于RBM的数据去重的统计装置的结构框图,如图3所示,装置30包括:
获取模块301,用于获取用户数据;
判断模块302,用于判断用户数据是否存储在预设的数据库表中;
插入模块303,用于如果用户数据未存储在预设的数据库表中,则将用户数据插入至数据库表中;
获取模块301,还用于获取数据库表返回的自增ID;其中,自增ID在用户数据插入至数据库表时,自动返回;
确定模块304,用于根据自增ID和int32_max确定用户数据所属的roaringbitMap分桶以及用户数据所对应的分桶数据;
保存模块305,用于将分桶数据保存至用户数据所属的roaringbitMap分桶中;
统计模块306,用于统计每个roaringbitMap分桶中所存储的分桶数据的个数;
确定模块304,还用于确定所有个数的和;
其中,所有个数的和为用户数据的去重统计数。
在一种可能的实现方式中,装置30还包括:
创建模块,用于在获取用户数据之前,创建数据库表;其中,数据库表包括:主键自增ID列以及唯一键数据列。
在一种可能的实现方式中,确定模块304,还用于在获取用户数据之后,在判断用户数据是否存储在预设的数据库表中之前,确定用户数据的长度是否超出预设长度阈值;
如果是,则基于MD5算法对用户数据进行处理,得到处理后的用户数据;
判断模块302,还用于判断处理后的用户数据是否存储在预设的数据库表中。
在一种可能的实现方式中,确定模块304,还用于确定自增ID与int32_max的商;将商的值加1后,作为用户数据所属的roaringbitMap分桶的编号;将商所对应的余数作为用户数据所对应的分桶数据。
在一种可能的实现方式中,装置30能够封装在UDF中使用。
在本发明实施例中,预先设置数据库表,并利用自增ID和roaringbitMap来确定每个roaringbitMap分桶中所存储的分桶数据的个数,进而确定所有个数的和以得到去重统计数。由此,使用roaringbitmap作为精确去重统计的存储结构,使得数据库的性能不会随着数据量的提升而下降,且可实时、精确地确定去重统计的结果,提高了数据去重统计的效率,避免了海量数据所导致的数据库性能下降,数据延迟等问题。
本发明实施例还提供一种电子设备40,如图4所示,包括:处理器401、存储器402及存储在存储器402上并可在处理器401上运行的程序,程序被处理器401执行时实现如图1、图2所示的基于RBM的数据去重的统计方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如图1、图2所示的基于RBM的数据去重的统计方法的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (10)

1.一种基于RBM的数据去重的统计方法,其特征在于,所述方法包括:
获取用户数据;
判断所述用户数据是否存储在预设的数据库表中;
如果否,则将所述用户数据插入至所述数据库表中;
获取所述数据库表返回的自增ID;其中,所述自增ID在所述用户数据插入至所述数据库表时,自动返回;
根据所述自增ID和int32_max确定所述用户数据所属的压缩位图roaringbitMap分桶以及所述用户数据所对应的分桶数据;
将所述分桶数据保存至所述用户数据所属的roaringbitMap分桶中;
统计每个roaringbitMap分桶中所存储的分桶数据的个数;
确定所有个数的和;
其中,所有个数的和为所述用户数据的去重统计数。
2.根据权利要求1所述的方法,其特征在于,在获取用户数据之前,所述方法还包括:
创建所述数据库表;其中,所述数据库表包括:主键自增ID列以及唯一键数据列。
3.根据权利要求1所述的方法,其特征在于,在获取用户数据之后,判断所述用户数据是否存储在预设的数据库表中之前,所述方法还包括:
确定所述用户数据的长度是否超出预设长度阈值;
如果是,则基于MD5算法对所述用户数据进行处理,得到处理后的用户数据;
所述判断所述用户数据是否存储在预设的数据库表中包括:判断所述处理后的用户数据是否存储在预设的数据库表中。
4.根据权利要求1所述的方法,其特征在于,根据所述自增ID和int32_max确定所述用户数据所属的roaringbitMap分桶以及所述用户数据所对应的分桶数据包括:
确定所述自增ID与int32_max的商;
将所述商的值加1后,作为所述用户数据所属的roaringbitMap分桶的编号;
将所述商所对应的余数作为所述用户数据所对应的分桶数据。
5.根据权利要求1-4中任一项所述的方法,其特征在于,
所述方法能够封装在用户自定义函数UDF中使用。
6.一种基于RBM的数据去重的统计装置,其特征在于,所述装置包括:
获取模块,用于获取用户数据;
判断模块,用于判断所述用户数据是否存储在预设的数据库表中;
插入模块,用于如果所述用户数据未存储在预设的数据库表中,则将所述用户数据插入至所述数据库表中;
所述获取模块,还用于获取所述数据库表返回的自增ID;其中,所述自增ID在所述用户数据插入至所述数据库表时,自动返回;
确定模块,用于根据所述自增ID和int32_max确定所述用户数据所属的roaringbitMap分桶以及所述用户数据所对应的分桶数据;
保存模块,用于将所述分桶数据保存至所述用户数据所属的roaringbitMap分桶中;
统计模块,用于统计每个roaringbitMap分桶中所存储的分桶数据的个数;
所述确定模块,还用于确定所有个数的和;
其中,所有个数的和为所述用户数据的去重统计数。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
创建模块,用于在获取用户数据之前,创建所述数据库表;其中,所述数据库表包括:主键自增ID列以及唯一键数据列。
8.根据权利要求6所述的装置,其特征在于,
所述确定模块,还用于在获取用户数据之后,在判断所述用户数据是否存储在预设的数据库表中之前,确定所述用户数据的长度是否超出预设长度阈值;
如果是,则基于MD5算法对所述用户数据进行处理,得到处理后的用户数据;
所述判断模块,还用于判断所述处理后的用户数据是否存储在预设的数据库表中。
9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至5中任一项所述的基于RBM的数据去重的统计方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于RBM的数据去重的统计方法的步骤。
CN202310069839.XA 2023-02-07 2023-02-07 一种基于rbm的数据去重的统计方法、装置、设备及介质 Active CN115934806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310069839.XA CN115934806B (zh) 2023-02-07 2023-02-07 一种基于rbm的数据去重的统计方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310069839.XA CN115934806B (zh) 2023-02-07 2023-02-07 一种基于rbm的数据去重的统计方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN115934806A true CN115934806A (zh) 2023-04-07
CN115934806B CN115934806B (zh) 2023-05-26

Family

ID=85818554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310069839.XA Active CN115934806B (zh) 2023-02-07 2023-02-07 一种基于rbm的数据去重的统计方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115934806B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949710A (zh) * 2020-08-17 2020-11-17 北京锐安科技有限公司 数据存储方法、装置、服务器及存储介质
CN112540972A (zh) * 2020-12-16 2021-03-23 中盈优创资讯科技有限公司 一种基于RoaringBitmap海量用户高效圈选方法及装置
CN112612827A (zh) * 2020-12-25 2021-04-06 平安国际智慧城市科技股份有限公司 数据库分页查询方法、装置、计算机设备及存储介质
CN113326285A (zh) * 2021-08-03 2021-08-31 北京轻松筹信息技术有限公司 数据库表的查询方法及装置
CN115525652A (zh) * 2022-09-23 2022-12-27 上海哔哩哔哩科技有限公司 用户访问数据处理方法及装置
CN115631273A (zh) * 2022-10-31 2023-01-20 北京软通智慧科技有限公司 一种大数据的去重方法、装置、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949710A (zh) * 2020-08-17 2020-11-17 北京锐安科技有限公司 数据存储方法、装置、服务器及存储介质
CN112540972A (zh) * 2020-12-16 2021-03-23 中盈优创资讯科技有限公司 一种基于RoaringBitmap海量用户高效圈选方法及装置
CN112612827A (zh) * 2020-12-25 2021-04-06 平安国际智慧城市科技股份有限公司 数据库分页查询方法、装置、计算机设备及存储介质
CN113326285A (zh) * 2021-08-03 2021-08-31 北京轻松筹信息技术有限公司 数据库表的查询方法及装置
CN115525652A (zh) * 2022-09-23 2022-12-27 上海哔哩哔哩科技有限公司 用户访问数据处理方法及装置
CN115631273A (zh) * 2022-10-31 2023-01-20 北京软通智慧科技有限公司 一种大数据的去重方法、装置、设备及介质

Also Published As

Publication number Publication date
CN115934806B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN106528787B (zh) 一种基于海量数据多维分析的查询方法及装置
US11093450B2 (en) Auto-tuned write-optimized key-value store
KR20130036094A (ko) 개별적으로 액세스 가능한 데이터 유닛의 스토리지 관리 방법
US8583655B2 (en) Using an inverted index to produce an answer to a query
CN107729406B (zh) 一种数据分类存储方法及装置
CN110399096B (zh) 分布式文件系统元数据缓存重删的方法、装置以及设备
CN109597574B (zh) 分布式数据存储方法、服务器及可读存储介质
CN108280031A (zh) redis缓存清理方法、服务器及计算机可读存储介质
CN109033295B (zh) 超大数据集的合并方法及装置
CN114490060A (zh) 内存分配方法、装置、计算机设备和计算机可读存储介质
CN113468080B (zh) 一种全闪元数据的缓存方法、系统及相关装置
CN115934806A (zh) 一种基于rbm的数据去重的统计方法、装置、设备及介质
CN113111351B (zh) 测试方法、装置和计算机可读存储介质
CN112540972A (zh) 一种基于RoaringBitmap海量用户高效圈选方法及装置
CN103034649B (zh) 一种实现数据存储和搜索的方法和系统
CN115454353B (zh) 一种面向空间应用数据的高速写入及查询方法
CN116955341A (zh) 数据库完整性评价方法、系统及其应用
CN109992708B (zh) 一种元数据查询的方法、装置、设备以及存储介质
CN110704433B (zh) 列式存储数据的brin索引构建方法、数据检索方法及装置
CN114780536A (zh) 一种SQL Server数据库索引创建的方法、装置、电子设备及存储介质
CN113742344A (zh) 电力系统数据的索引方法及装置
CN110990640B (zh) 一种数据判定方法、装置、设备及计算机可读存储介质
CN110633388B (zh) 基于通信xdr的实时指标生成方法、系统和存储介质
CN111026748B (zh) 网络访问频次管控的数据压缩方法、装置及系统
CN110737409B (zh) 数据加载方法、装置和终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant