CN113688122A

CN113688122A - 一种数据去重方法及设备

Info

Publication number: CN113688122A
Application number: CN202110645059.6A
Authority: CN
Inventors: 段稳过
Original assignee: Shanghai Wanwu Xinsheng Environmental Technology Group Co
Current assignee: Shanghai Wanwu Xinsheng Environmental Technology Group Co
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-11-23

Abstract

本申请的目的是提供一种数据去重方法及设备，本申请通过获取当前日期之前产生的所有历史数据及其对应的历史发生时间、第一数据类型及所属第一用户，并对所有历史数据进行去重处理得到至少一条历史无重数据；获取当前日期内所产生的所有的新增数据，并对所有的新增数据进行去重处理，得到至少一条新增无重数据及其对应的当前发生时间及所属第二用户；对至少一条历史无重数据和至少一条新增无重数据进行全关联操作，得到截止当前日期的至少两条综合无重数据及其对应的最新时间，实现了对历史数据和新增数据的去重，不仅提高了计算效率，还降低了计算成本。

Description

一种数据去重方法及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据去重方法及设备。

背景技术

现有技术中，随着数据信息量的不断增加，会涉及到对大量数据的加工，比如，对一定时间内的大量数据进行去重计算，尤其适用于历史数据较多且每日新增数据较少的计算场景。例如，目前各大平台网站等均需要计算一定时间内的用户访问量，当平台发展到一定级别，用户的历史数据量就是大量的数据；相对而言，新增用户的数据量就会减少。现有技术中通用的方法为：对规定的时间用标准的代码进行去重操作，具体代码如下：

Select pin from表A where dt>＝“2021-01-01”group by pin；

此种处理方法会对时间范围内的所有历史数据进行计算，且每天需要进行计算，浪费计算资源。

例如：某网站每天大量用户进行访问，每一次对网站进行浏览就会生成一条浏览数据，因此当前用户一天内就会生成N条数据，在一定时间后就会生成大量的浏览数据。如果每天需要计算近1年内用户访问量，所需要处理的数据范围就是1年内所有数据，在实际应用场景中，每天都需要对1年内的数据量和当天新生成的新增数据进行去重计算，如图1所示，因此会耗费大量资源进行数据去重的重复计算，从而导致计算资源的浪费，增加数据处理的成本。

发明内容

本申请的一个目的是提供一种数据去重方法及设备，实现了与现有技术具有相同的计算资源和计算数据背景下，采取对数据进行分而治之的策略，不仅避免了对历史的全量数据进行扫描，还能处理新增数据和历史数据的重复问题，从而大大提高了计算效率，降低了计算成本。

根据本申请的一个方面，提供了一种数据去重方法，其中，所述方法包括：

获取当前日期之前产生的所有历史数据及其对应的历史发生时间、第一数据类型及所属第一用户，并对所述所有历史数据进行去重处理，得到至少一条历史无重数据及其对应的历史发生时间及所属第一用户；

获取当前日期内所产生的所有的新增数据及其对应的当前发生时间、第二数据类型及所属第二用户，并对所述所有的新增数据进行去重处理，得到至少一条新增无重数据及其对应的当前发生时间及所属第二用户；

基于所述历史发生时间、所述第一用户、所述当前发生时间及所述第二用户，对所述至少一条历史无重数据和所述至少一条新增无重数据进行全关联操作，得到截止所述当前日期的至少两条综合无重数据及其对应的最新时间。

进一步地，上述方法中，所述对所述所有历史数据进行去重处理，得到至少一条历史无重数据及其对应的历史发生时间及所属第一用户，包括：

根据所属第一用户的不同，对所述所有历史数据进行分组，得到每个所述第一用户的至少一条历史数据及其对应的历史发生时间和数据类型；

按照所述历史发生时间的先后顺序，分别对每个所述第一用户的至少一条历史数据进行排序；并分别将每个所述第一用户的至少一条历史数据中的、每种第一数据类型对应的历史数据中排序第一的历史数据作为历史无重数据，同时，分别将每个所述第一用户的至少一条历史数据中的、每种第一数据类型对应的历史数据中除所述排序第一的历史数据以外的历史数据进行去重处理，得到至少一条历史无重数据及其对应的历史发生时间及所属第一用户。

进一步地，上述方法中，所述对所述所有的新增数据进行去重处理，得到至少一条新增无重数据及其对应的当前发生时间及所属第二用户，包括：

根据所属第二用户的不同，对所述所有新增数据进行分组，得到每个所述第二用户的至少一条新增数据及其对应的当前发生时间和第二数据类型；

按照所述当前发生时间的先后顺序，分别对每个所述第二用户的至少一条新增数据进行排序；并分别将每个所述第二用户的至少一条新增数据中的、每种第二数据类型对应的新增数据中排序第一的新增数据作为新增无重数据，同时，分别将每个所述第二用户的至少一条新增数据中的、每种第二数据类型对应的新增数据中除所述排序第一的新增数据以外的新增数据进行去重处理，得到至少一条新增无重数据及其对应的当前发生时间及所属第二用户。

进一步地，上述方法中，所述基于所述历史发生时间、所述第一用户、所述当前发生时间及所述第二用户，对所述至少一条历史无重数据和所述至少一条新增无重数据进行全关联操作，得到截止所述当前日期的至少两条综合无重数据及其对应的最新时间，包括：

将每条所述历史无重数据，分别与所述至少一条新增无重数据中的每条所述新增无重数据进行关联，并在关联的所述历史无重数据与所述新增无重数据属于同一用户时，将所述历史无重数据对应的历史发生时间更新为所述新增无重数据对应的当前发生时间，以得到截止所述当前日期的至少两条综合无重数据及其对应的最新时间。

根据本申请的另一方面，还提供了一种非易失性存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如上述数据去重方法。

根据本申请的另一方面，还提供了一种数据去重设备，其中，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述数据去重方法。

与现有技术相比，本申请通过先获取当前日期之前产生的所有历史数据及其对应的历史发生时间、第一数据类型及所属第一用户，并对所述所有历史数据进行去重处理，得到至少一条历史无重数据及其对应的历史发生时间及所属第一用户；然后，获取当前日期内所产生的所有的新增数据及其对应的当前发生时间、第二数据类型及所属第二用户，并对所述所有的新增数据进行去重处理，得到至少一条新增无重数据及其对应的当前发生时间及所属第二用户；最后，基于所述历史发生时间、所述第一用户、所述当前发生时间及所述第二用户，对所述至少一条历史无重数据和所述至少一条新增无重数据进行全关联操作，得到截止所述当前日期的至少两条综合无重数据及其对应的最新时间，实现了与现有技术具有相同的计算资源和计算数据背景下，采取对数据进行分而治之的策略，不仅避免了对历史的全量数据进行扫描，还能处理新增数据和历史数据的重复问题，从而大大提高了计算效率，降低了计算成本。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出现有技术中的一种数据去重方法的实际流程示意图；

图2示出根据本申请一个方面的一种数据去重方法的流程示意图；

图3示出根据本申请一个方面的一种数据去重方法在实际应用场景中的流程示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如图2所示，本申请的一个方面提出了一种数据去重方法的流程示意图，其中，所述方法包括步骤S11、步骤S12、步骤S13及步骤S14，具体包括如下步骤：

步骤S11，获取当前日期之前产生的所有历史数据及其对应的历史发生时间、第一数据类型及所属第一用户，并对所述所有历史数据进行去重处理，得到至少一条历史无重数据及其对应的历史发生时间及所属第一用户；

步骤S12，获取当前日期内所产生的所有的新增数据及其对应的当前发生时间、第二数据类型及所属第二用户，并对所述所有的新增数据进行去重处理，得到至少一条新增无重数据及其对应的当前发生时间及所属第二用户；

步骤S13，基于所述历史发生时间、所述第一用户、所述当前发生时间及所述第二用户，对所述至少一条历史无重数据和所述至少一条新增无重数据进行全关联操作，得到截止所述当前日期的至少两条综合无重数据及其对应的最新时间。

通过步骤S11至步骤S13，实现了与现有技术具有相同的计算资源和计算数据背景下，采取对数据进行分而治之的策略，不仅避免了对历史的全量数据进行扫描，还能处理新增数据和历史数据的重复问题，从而大大提高了计算效率，降低了计算成本。

在本申请一优选实施例中，如图3所示，若当前日期为2020年9月10日，在步骤S11中获取2020年9月10日之前的所有历史数据，如图3中的第一天计算时对应的历史数据：table_a，并对2020年9月10日之前的所有历史数据进行去重处理，得到至少一条历史无重数据及其对应的历史发生时间及所属第一用户，如图3中的第一天去重计算后对应的历史去重数据：table_b；在步骤S12中，2020年9月10日当天所产生的所有的新增数据，如图3中的第二天计算时对应的满足要求的新增数据table_c，并对2020年9月10日当天所产生的所有的新增数据进行去重处理，得到至少一条新增无重数据及其对应的当前发生时间及所属第二用户；在步骤S13中，基于所述历史发生时间、所述第一用户、所述当前发生时间及所述第二用户，对所述至少一条历史无重数据和所述至少一条新增无重数据进行全关联操作，如图3中所示的全关联过程，得到截止所述当前日期的至少两条综合无重数据及其对应的最新时间，使得在本申请的实施例中，仅需第一次加工需要对历史数据进行去重操作，今后有新增数据则只需对新增数据进行去重谁处理，避免了再次对历史数据进行重复的去重操作，大大降低了数据计算量。

接着本申请的上述实施例，所述步骤S11对所述所有历史数据进行去重处理，得到至少一条历史无重数据及其对应的历史发生时间及所属第一用户，具体包括：

例如，若选择的当前日期为2020年9月10日，则在获取2020年9月10日之前的所有历史数据及其对应的历史发生时间、每条历史数据的第一数据类型和所属第一用户后，对所有历史数据按照第一用户的不同而进行数据分组，得到每个第一用户对应产生的至少一条历史数据及其对应的历史发生时间和第一数据类型；针对每个第一用户而言，按照历史数据中的历史发生时间的先后顺序，对每个第一用户对应产生的至少一条历史数据进行排序，得到每个第一用户对应的不同第一数据类型对应的历史数据的排序，并将每个第一用户对应的每种第一数据类型对应的历史数据中的排序第一的历史数据作为该第一数据类型对应的历史无重数据，同时，将每个第一用户对应的每种第一数据类型对应的历史数据中的、除排序第一的历史数据以外历史数据删除，以达到对历史数据进行去重的效果，从而得到每个第一用户对应的每种第一数据类型对应的且无重的历史无重数据，进而得到对所有历史数据经过去重处理后的至少一条历史无重数据及其对应的历史发生时间及所属第一用户。

接着本申请的上述实施例，所述步骤S12对所述所有的新增数据进行去重处理，得到至少一条新增无重数据及其对应的当前发生时间及所属第二用户，具体包括：

例如，若选择的当前日期为2020年9月10日，则获取2020年9月10日当天内的所有新增数据及其对应的当前发生时间、每条新增数据的第二数据类型和所属第二用户后，对所有新增数据按照第二用户的不同而进行数据分组，得到每个第二用户对应产生的至少一条新增数据及其对应的当前发生时间和第二数据类型；针对每个第二用户而言，按照新增数据中的当前发生时间的先后顺序，对每个第二用户对应产生的至少一条新增数据进行排序，得到每个第二用户对应的不同第一数据类型对应的新增数据的排序，并将每个第二用户对应的每种第一数据类型对应的新增数据中的排序第一的新增数据作为该第二数据类型对应的新增无重数据，同时，将每个第二用户对应的每种第二数据类型对应的新增数据中的、除排序第一的新增数据以外新增数据删除，以达到对新增数据进行去重的效果，从而得到每个第二用户对应的每种第二数据类型对应的且无重的历史无重数据，进而得到对所有新增数据经过去重处理后的至少一条新增无重数据及其对应的当前发生时间及所属第二用户。

接着本申请的上述实施例，所述步骤S13基于所述历史发生时间、所述第一用户、所述当前发生时间及所述第二用户，对所述至少一条历史无重数据和所述至少一条新增无重数据进行全关联操作，得到截止所述当前日期的至少两条综合无重数据及其对应的最新时间，具体包括：

例如，在对历史数据和新增数据分别均进行去重操作后，将所有历史无重数据中的每条历史无重数据，分别与至少一条新增无重数据中的逐条新增无重数据进行关联，即实现每条历史无重数据与每条新增无重数据的全关联操作；在全关联过程中，若关联的历史无重数据与新增无重数据来自于统一用户时，将所述历史无重数据对应的历史发生时间更新为所述新增无重数据对应的当前发生时间，若关联的历史无重数据与新增无重数据来自不同的用户时，均保留历史无重数据和新增无重数据，使得通过全关联操作可以将新用户和老用户的重复问题解决，进一步地得到截止当前日期的至少两条综合无重数据及其对应的最新时间。

通过本申请的上述实施例，可以实现对一段时间内的大量数据进行去重操作，适用于历史数据的数据量比较大且每日或每次新增数据的数据量比较小的计算应用场景，采取对数据进行分而治之的策略，不仅避免了每次或每天对历史的全量数据进行扫描，还能处理新增数据和历史数据的重复问题，从而大大提高了计算效率，降低了计算成本。

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

在此，所述数据去重设备中的各实施例的详细内容，具体可参见上述数据去重方法的实施例的对应部分，在此，不再赘述。

综上所述，本申请通过先获取当前日期之前产生的所有历史数据及其对应的历史发生时间、第一数据类型及所属第一用户，并对所述所有历史数据进行去重处理，得到至少一条历史无重数据及其对应的历史发生时间及所属第一用户；然后，获取当前日期内所产生的所有的新增数据及其对应的当前发生时间、第二数据类型及所属第二用户，并对所述所有的新增数据进行去重处理，得到至少一条新增无重数据及其对应的当前发生时间及所属第二用户；最后，基于所述历史发生时间、所述第一用户、所述当前发生时间及所述第二用户，对所述至少一条历史无重数据和所述至少一条新增无重数据进行全关联操作，得到截止所述当前日期的至少两条综合无重数据及其对应的最新时间，实现了与现有技术具有相同的计算资源和计算数据背景下，采取对数据进行分而治之的策略，不仅避免了对历史的全量数据进行扫描，还能处理新增数据和历史数据的重复问题，从而大大提高了计算效率，降低了计算成本。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种数据去重方法，其中，所述方法包括：

2.根据权利要求1所述的方法，其中，所述对所述所有历史数据进行去重处理，得到至少一条历史无重数据及其对应的历史发生时间及所属第一用户，包括：

3.根据权利要求1所述的方法，其中，所述对所述所有的新增数据进行去重处理，得到至少一条新增无重数据及其对应的当前发生时间及所属第二用户，包括：

4.根据权利要求1所述的方法，其中，所述基于所述历史发生时间、所述第一用户、所述当前发生时间及所述第二用户，对所述至少一条历史无重数据和所述至少一条新增无重数据进行全关联操作，得到截止所述当前日期的至少两条综合无重数据及其对应的最新时间，包括：

5.一种非易失性存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如权利要求1至4中任一项所述的方法。

6.一种数据去重设备，其中，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至4中任一项所述的方法。