CN109828721B - 数据删除方法、装置、计算机设备及存储介质 - Google Patents

数据删除方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109828721B
CN109828721B CN201910064084.8A CN201910064084A CN109828721B CN 109828721 B CN109828721 B CN 109828721B CN 201910064084 A CN201910064084 A CN 201910064084A CN 109828721 B CN109828721 B CN 109828721B
Authority
CN
China
Prior art keywords
bloom filter
time
sequence data
data
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910064084.8A
Other languages
English (en)
Other versions
CN109828721A (zh
Inventor
李红伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910064084.8A priority Critical patent/CN109828721B/zh
Publication of CN109828721A publication Critical patent/CN109828721A/zh
Priority to PCT/CN2019/118317 priority patent/WO2020151332A1/zh
Application granted granted Critical
Publication of CN109828721B publication Critical patent/CN109828721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明实施例公开了一种数据删除方法、装置、计算机设备及存储介质。本发明应用于大数据中的数据查询领域。所述方法包括:若检测到写入时序数据,判断时序数据的时间标记是否处于当前的布隆过滤器对应的时间段内;若时序数据的时间标记不处于当前的布隆过滤器对应的时间段内,根据时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将下一时间段内的时序数据写入到新的布隆过滤器中;根据已建立的布隆过滤器的数量判断是否存在过期的布隆过滤器;若存在过期的布隆过滤器,将过期的布隆过滤器删除。通过实施本发明实施例的方法可实现布隆过滤器的删除操作,扩展布隆过滤器应用到时序数据,提高空间效率和查询效率。

Description

数据删除方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据删除方法、装置、计算机设备及存储介质。
背景技术
随着信息与科技的发展,人们的日常生活中每时每刻不停地产生着巨量的数据,数据的价值越来越被重视,数据的处理也愈发重要。传统的数据查询方法,通常是将数据存储到磁盘中,然后通过链表、树以及哈希表等进行查询,然而随着时间的推移数据量的不断增长,需要的存储空间越来越大,查询的时间越来越长,导致空间消耗大,查询效率低。现有的布隆过滤器(Bloom Filter)是一种快速判断某个元素是否存在于集合中的算法,具有空间效率高和查询效率高的优点,但是在时序数据的处理过程中,时序数据的去重通常需要将过期数据删除,而布隆过滤器不支持删除操作,从而导致布隆过滤器的使用受限。
发明内容
本发明实施例提供了一种数据删除方法、装置、计算机设备及存储介质,旨在解决布隆过滤器不支持删除操作而导致使用受限的技术问题。
第一方面,本发明实施例提供了一种数据删除方法,其包括:若检测到写入时序数据,判断所述时序数据的时间标记是否处于当前的布隆过滤器对应的时间段内;若所述时序数据的时间标记不处于当前的布隆过滤器对应的时间段内,根据所述时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将所述下一时间段内的所述时序数据写入到所述新的布隆过滤器中;根据已建立的布隆过滤器的数量判断是否存在过期的布隆过滤器;若存在过期的布隆过滤器,将所述过期的布隆过滤器删除。
第二方面,本发明实施例还提供了一种数据删除装置,其包括:第一判断单元,用于若检测到写入时序数据,判断所述时序数据的时间标记是否处于当前的布隆过滤器对应的时间段内;建立单元,用于若所述时序数据的时间标记不处于当前的布隆过滤器对应的时间段内,根据所述时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将所述下一时间段内的所述时序数据写入到所述新的布隆过滤器中;第二判断单元,用于根据已建立的布隆过滤器的数量判断是否存在过期的布隆过滤器;删除单元,用于若存在过期的布隆过滤器,将所述过期的布隆过滤器删除。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种数据删除方法、装置、计算机设备及存储介质。其中,所述方法包括:若检测到写入时序数据,判断所述时序数据的时间标记是否处于当前的布隆过滤器对应的时间段内;若所述时序数据的时间标记不处于当前的布隆过滤器对应的时间段内,根据所述时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将所述下一时间段内的所述时序数据写入到所述新的布隆过滤器中;根据已建立的布隆过滤器的数量判断是否存在过期的布隆过滤器;若存在过期的布隆过滤器,将所述过期的布隆过滤器删除。本发明实施例通过根据时间段建立布隆过滤器,每个时间段对应一个布隆过滤器,每个布隆过滤器写入对应时间段内的时序数据,当已建立的布隆过滤器中存在过期的布隆过滤器时,将过期的布隆过滤器删除,可实现布隆过滤器的删除操作,扩展布隆过滤器应用到时序数据,提高空间效率和查询效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据删除方法的流程示意图;
图2为本发明实施例提供的数据删除方法的子流程示意图;
图3为本发明另一实施例提供的数据删除方法的流程示意图;
图4为本发明实施例提供的数据删除方法的子流程示意图;
图5为本发明另一实施例提供的数据删除方法的流程示意图;
图6为本发明实施例提供的数据删除装置的示意性框图;
图7为本发明实施例提供的数据删除装置的具体单元的示意性框图;
图8为本发明另一实施例提供的数据删除装置的示意性框图;以及
图9为本发明另一实施例提供的数据删除装置的示意性框图;以及
图10为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的数据删除方法的示意性流程图。该数据删除方法应用于服务器中,基于布隆过滤器实现,布隆过滤器是一种快速判断某个元素是否存在于集合中的算法,具有空间效率高和查询效率高的优点。然而由于布隆过滤器本身的特性不支持删除操作,通过布隆过滤器处理时序数据会导致过期数据无法删除,降低了布隆过滤器空间效率和查询效率。因此,通过本方案所提出的一种数据删除方法以实现时序数据在布隆过滤器中的删除操作。
图1是本发明实施例提供的数据删除方法的流程示意图。如图所示,该方法包括以下步骤S110-S140。
S110、若检测到写入时序数据,判断所述时序数据的时间标记是否处于当前的布隆过滤器对应的时间段内。
在一实施例中,时序数据指的是按照时间顺序记录的数据,时间段指的是根据用户需求设置的时间区间,例如,一个月,一天,一小时以及一分钟等。由于时序数据的特性,其数据本身即存在有时间标记,时间标记指的是数据生成时标记的时刻,在时序数据写入时将时间标记与当前的布隆过滤器对应的时间段进行对比,判断当前时间是否处于当前的隆过滤器对应的时间段内。具体地,将时序数据的时间标记与当前的隆过滤器对应的时间段的结束时间进行对比,若时间标记早于结束时间,则判定时间标记处于时间段内;若时间标记晚于结束时间,则判定时间标记不处于时间段内。例如,若时序数据的时间标记为8月29日9:00,当前的布隆过滤器对应的时间段为8月份,那么该时序数据的时间标记处于当前的布隆过滤器对应的时间段内;若时序数据的时间标记为9月1日1:00,当前的布隆过滤器对应的时间段为8月份,那么该时序数据的时间标记就不处于当前的布隆过滤器对应的时间段内。
S120、若所述时序数据的时间标记不处于当前的布隆过滤器对应的时间段内,根据所述时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将所述下一时间段内的所述时序数据写入到所述新的布隆过滤器中。
在一实施例中,布隆过滤器根据时间段建立,每个时间段建立一个布隆过滤器,时序数据根据时间段写入到对应的布隆过滤器中。当时序数据的时间标记不处于当前的布隆过滤器对应的时间段内,说明时序数据的时间标记已来到了下一个时间段,那么则根据时间标记对应的下一个时间段建立新的布隆过滤器,下一个时间段内的时序数据均写入到新的布隆过滤器中。例如,当前时间段为8月份,而时序数据的时间标记为9月1日,那么则根据该时间标记对应的9月份建立一个新的布隆过滤器,9月份的时序数据均写入到新的布隆过滤器中。
在一实施例中,如图2所示,所述步骤S120可包括步骤S121-S123。
S121、新建位数组并将所述位数组中的所有位置均设置为零。
在一实施例中,位数组指的是一种通过二进制存储数据的数据存储方式,在位数组中,若数据存在,则其相应的二进制位就为1;若数据不存在,则其相应的二进制位就为0。在本实施例中,新建立的位数组初始状态时,将位数组中的所有位置均设为零,即表明当前位数组是新建的,还未存储有数据。
S122、将下一个时间段内的时序数据通过预设数量的哈希函数映射到所述位数组的位置上。
在一实施例中,哈希函数是一种可将任意内容的数据映射到一个固定长度的字符串中的函数,相同内容的数据映射得到相同的字符串,因此,通过哈希函数构成的内容-索引的生成关系可以快速查询数据。基于单个哈希函数对数据的查询,当映射后的值限制在一定范围内时哈希冲突的概率会增大,而存储空间的大小又不能无限扩张,从而造成查询效率低下。为了提高空间利用率,采用多个不同的哈希函数来进行映射,可以较少的空间来表示较大集合的存在关系,大大提高了空间利用率。具体地,预设数量指的是哈希函数的数量,一个哈希函数可将时序数据映射到位数组的一个位置上,那么多个不同的哈希函数则可将相同的时序数据映射到位数组的多个位置上,哈希函数的数量对应映射到位数组上位置的数量。其中,哈希函数最优的预设数量由哈希函数的错误率计算得出,在此不再赘述。例如,预设时间段为一个月,预设数量为3,那么将一个月内的时序数据通过3个不同的哈希函数映射到新建的位数组的三个位置上。
S123、将所述位数组中被映射到的位置均设置为一。
在一实施例中,在得到时序数据映射到位数组的位置后,将位数组上的这些位置全部由0变为1,从而将时序数据写入到布隆过滤器中,这些位数组上的位置即为时序数据的索引,根据索引即可实现快速查询所写入的时序数据。
在一实施例中,如图3所示,所述步骤S120之后,还包括步骤S124-S126。
S124、若检测到查询时序数据,将所述时序数据通过预设数量的哈希函数映射到所述位数组的位置上。
S125、判断所述位数组中被映射到的位置是否均为一。
S126、若所述位数组中被映射到的位置均为一,判定存在所述时序数据。
在一实施例中,当检测到查询查询时序数据,从布隆过滤器中查询,与写入时序数据到布隆过滤器相类似,首先需要通过预设数量的哈希函数对时序数据进行映射得到位数组上预设数量的位置,需要注意的是,该步骤的预设数量需与步骤S122步骤中的预设数量相同,然后将这些位置与位数组上对应的位置进行比较,判断位数组中对应的位置是否全部都是一,若全部都是一,判定该时序数据存在;若非全部都是一,判定该时序数据不存在。例如,查询A客户的8月份的登录记录,那么则通过预设数量的哈希函数将8月份的登录记录映射到位数组的位置上,一个哈希函数对应映射到位数组上的一个位置,然后将这些位置与8月份的布隆过滤器的位数组进行对比,若位数组上所映射的这些位置全部都是1,说明A客户最近一个月曾经登录过;若位数组上这些位置并非全部都是1,说明A客户最近一个月未曾登录过。
S130、根据已建立的布隆过滤器的数量判断是否存在过期的布隆过滤器。
在一实施例中,如图4所示,所述步骤S130可包括步骤S131-S132。
S131、判断已建立的布隆过滤器的数量是否超过预设数量。
在一实施例中,预设数量是根据用户的需求设定的,例如,用户需要的数据实效性为3个月,那么3个月内的数据则为有用的数据,3个月前的数据则为无用数据没有存在的价值。具体地,根据已建立的的布隆过滤器的数量与预设数量进行比较来判断。
S132、若已建立的布隆过滤器的数量超过预设数量,判定存在过期的布隆过滤器。
在一实施例中,已建立的布隆过滤器的数量大于预设数量,说明当前存储了没有存在价值的无用数据,判定当前的布隆过滤器中存在过期的布隆过滤器。例如,预设数量为3,已建立的的布隆过滤器的数量有4个,那么已建立的的布隆过滤器的数量大于预设数量,判定当前的布隆过滤器中存在过期的布隆过滤器。
S140、若存在过期的布隆过滤器,将所述过期的布隆过滤器删除。
在一实施例中,在得到已建立的布隆过滤器中存在过期的布隆过滤器后,需要将过期的布隆过滤器删除,过期的布隆过滤器具体是最早建立的布隆过滤器。例如,预设数量为3,已经建立了8月份、9月份以及10月份的布隆过滤器,当11月份建立了新的布隆过滤器,导致已建立的的布隆过滤器的数量4大于预设数量3,那么最早建立的布隆过滤器即8月份的布隆过滤器则为过期的布隆过滤器。具体地,将过期的布隆过滤器即8月份的布隆过滤器进行删除,即将位数组所有位置全部置0,从而将无用的时序数据全部删去。
在一实施例中,如图5所示,所述步骤S110之后,还包括步骤S111。
S111、若所述时序数据的时间标记处于当前的布隆过滤器对应的时间段内,将所述时序数据写入到当前的布隆过滤器中。
在一实施例中,当时序数据的时间标记处于当前的布隆过滤器对应的时间段内,那么则直接将时序数据写入到当前的布隆过滤器中。具体地,首先通过预设数量的哈希函数将时序数据映射到当前的位数组的位置上,每一个哈希函数映射一个位数组的位置,然后将位数组位置中被映射到的位置均置为1,从而将时序数据写入到当前的布隆过滤器中。相对于现有的布隆过滤器应用,将所有的时序数据均写入到一个布隆过滤器中导致不能删除时序数据,空间效率和查询效率低。本实施例通过根据时间段建立布隆过滤器写入时序数据,当时序数据属于当前的布隆过滤器对应的时间段,则写入当前的布隆过滤器;当时序数据不属于当前的布隆过滤器对应的时间段,则根据时序数据的时间标记对应下一个时间段建立新的布隆过滤器,写入到新的布隆过滤器中。当时序数据变为无用数据没有存在的价值时,将整个过期的布隆过滤器删除,从而实现了时序数据在布隆过滤器中的删除操作,且提高了空间效率和查询效率。
本发明实施例展示了一种数据删除方法,通过若检测到写入时序数据,判断所述时序数据的时间标记是否处于当前的布隆过滤器对应的时间段内;若所述时序数据的时间标记不处于当前的布隆过滤器对应的时间段内,根据所述时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将所述下一时间段内的所述时序数据写入到所述新的布隆过滤器中;根据已建立的布隆过滤器的数量判断是否存在过期的布隆过滤器;若存在过期的布隆过滤器,将所述过期的布隆过滤器删除,可实现布隆过滤器的删除操作,扩展布隆过滤器应用到时序数据,提高空间效率和查询效率。
图6是本发明实施例提供的一种数据删除装置200的示意性框图。如图6所示,对应于以上数据删除方法,本发明还提供一种数据删除装置200。该数据删除装置200包括用于执行上述数据删除方法的单元,该装置可以被配置于服务器中。具体地,请参阅图6,该数据删除装置200包括第一判断单元210、建立单元220、第二判断单元230以及删除单元240。
第一判断单元210,用于若检测到写入时序数据,判断所述时序数据的时间标记是否处于当前的布隆过滤器对应的时间段内;
建立单元220,用于若所述时序数据的时间标记不处于当前的布隆过滤器对应的时间段内,根据所述时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将所述下一时间段内的所述时序数据写入到所述新的布隆过滤器中。
在一实施例中,如图7所示,所述建立单元220包括:新建单元221、映射单元222以及设置单元223。
新建单元221,用于新建位数组并将所述位数组中的所有位置均设置为零;
映射单元222,用于将下一个时间段内的时序数据通过预设数量的哈希函数映射到所述位数组的位置上;
设置单元223,用于将所述位数组中被映射到的位置均设置为一。
在一实施例中,如图8所示,所述数据删除装置200还包括:
映射子单元224,用于若检测到查询时序数据,将所述时序数据通过预设数量的哈希函数映射到所述位数组的位置上;
判断子单元225,用于判断所述位数组中被映射到的位置是否均为一;
判定子单元226,用于若所述位数组中被映射到的位置均为一,判定存在所述时序数据。
第二判断单元230,用于根据已建立的布隆过滤器的数量判断是否存在过期的布隆过滤器。
在一实施例中,如图7所示,所述第二判断单元230:第二判断子单元231以及判定单元232。
第二判断子单元231,用于判断已建立的布隆过滤器的数量是否超过预设数量;
判定单元232,用于若已建立的布隆过滤器的数量超过预设数量,判定存在过期的布隆过滤器。
删除单元240,用于若存在过期的布隆过滤器,将所述过期的布隆过滤器删除。
在一实施例中,如图9所示,所述数据删除装置200还包括:写入单元211。
写入单元211,用于若所述时序数据的时间标记处于当前的布隆过滤器对应的时间段内,将所述时序数据写入到当前的布隆过滤器中。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述数据删除装置200和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述数据删除装置可以实现为一种计算机程序的形式,该计算机程序可以在如图10所示的计算机设备上运行。
请参阅图10,图10是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图10,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种数据删除方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种数据删除方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:若检测到写入时序数据,判断所述时序数据的时间标记是否处于当前的布隆过滤器对应的时间段内;若所述时序数据的时间标记不处于当前的布隆过滤器对应的时间段内,根据所述时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将所述下一时间段内的所述时序数据写入到所述新的布隆过滤器中;根据已建立的布隆过滤器的数量判断是否存在过期的布隆过滤器;若存在过期的布隆过滤器,将所述过期的布隆过滤器删除。
在一实施例中,处理器502在实现所述根据所述时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将所述下一时间段内的所述时序数据写入到所述新的布隆过滤器中步骤时,具体实现如下步骤:新建位数组并将所述位数组中的所有位置均设置为零;将下一个时间段内的时序数据通过预设数量的哈希函数映射到所述位数组的位置上;将所述位数组中被映射到的位置均设置为一。
在一实施例中,处理器502在实现所述根据所述时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将所述下一时间段内的所述时序数据写入到所述新的布隆过滤器中步骤之后,还实现如下步骤:若检测到查询时序数据,将所述时序数据通过预设数量的哈希函数映射到所述位数组的位置上;判断所述位数组中被映射到的位置是否均为一;若所述位数组中被映射到的位置均为一,判定存在所述时序数据。
在一实施例中,处理器502在实现所述根据已建立的布隆过滤器的数量判断是否存在过期的布隆过滤器步骤时,具体实现如下步骤:判断已建立的布隆过滤器的数量是否超过预设数量;若已建立的布隆过滤器的数量超过预设数量,判定存在过期的布隆过滤器。
在一实施例中,处理器502在实现所述判断所述时序数据的时间标记是否处于当前的布隆过滤器对应的时间段内步骤之后,还实现如下步骤:若所述时序数据的时间标记处于当前的布隆过滤器对应的时间段内,将所述时序数据写入到当前的布隆过滤器中。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤:若检测到写入时序数据,判断所述时序数据的时间标记是否处于当前的布隆过滤器对应的时间段内;若所述时序数据的时间标记不处于当前的布隆过滤器对应的时间段内,根据所述时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将所述下一时间段内的所述时序数据写入到所述新的布隆过滤器中;根据已建立的布隆过滤器的数量判断是否存在过期的布隆过滤器;若存在过期的布隆过滤器,将所述过期的布隆过滤器删除。
在一实施例中,所述处理器在执行所述程序指令而实现所述根据所述时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将所述下一时间段内的所述时序数据写入到所述新的布隆过滤器中步骤时,具体实现如下步骤:新建位数组并将所述位数组中的所有位置均设置为零;将下一个时间段内的时序数据通过预设数量的哈希函数映射到所述位数组的位置上;将所述位数组中被映射到的位置均设置为一。
在一实施例中,所述处理器在执行所述程序指令而实现所述根据所述时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将所述下一时间段内的所述时序数据写入到所述新的布隆过滤器中步骤之后,还实现如下步骤:若检测到查询时序数据,将所述时序数据通过预设数量的哈希函数映射到所述位数组的位置上;判断所述位数组中被映射到的位置是否均为一;若所述位数组中被映射到的位置均为一,判定存在所述时序数据。
在一实施例中,所述处理器在执行所述程序指令而实现所述根据已建立的布隆过滤器的数量判断是否存在过期的布隆过滤器步骤时,具体实现如下步骤:判断已建立的布隆过滤器的数量是否超过预设数量;若已建立的布隆过滤器的数量超过预设数量,判定存在过期的布隆过滤器。
在一实施例中,所述处理器在执行所述程序指令而实现所述判断所述时序数据的时间标记是否处于当前的布隆过滤器对应的时间段内步骤之后,还实现如下步骤:若所述时序数据的时间标记处于当前的布隆过滤器对应的时间段内,将所述时序数据写入到当前的布隆过滤器中。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种数据删除方法,其特征在于,包括:
若检测到写入时序数据,判断所述时序数据的时间标记是否处于当前的布隆过滤器对应的时间段内;
若所述时序数据的时间标记不处于当前的布隆过滤器对应的时间段内,根据所述时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将所述下一时间段内的时序数据写入到所述新的布隆过滤器中;
根据已建立的布隆过滤器的数量判断是否存在过期的布隆过滤器;
若存在过期的布隆过滤器,将所述过期的布隆过滤器删除;
所述根据所述时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将所述下一时间段内的所述时序数据写入到所述新的布隆过滤器中,包括:
新建位数组并将所述位数组中的所有位置均设置为零;
将下一个时间段内的时序数据通过预设数量的哈希函数映射到所述位数组的位置上,其中,多个不同的所述哈希函数将相同的所述时序数据映射到位数组的多个位置上,所述哈希函数的数量与所映射到的位数组的位置数量相对应;
将所述位数组中被映射到的位置均设置为一。
2.根据权利要求1所述的数据删除方法,其特征在于,所述根据所述时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将所述下一时间段内的所述时序数据写入到所述新的布隆过滤器中之后,还包括:
若检测到查询时序数据,将所述时序数据通过预设数量的哈希函数映射到所述位数组的位置上;
判断所述位数组中被映射到的位置是否均为一;
若所述位数组中被映射到的位置均为一,判定存在所述时序数据。
3.根据权利要求1所述的数据删除方法,其特征在于,所述根据已建立的布隆过滤器的数量判断是否存在过期的布隆过滤器,包括:
判断已建立的布隆过滤器的数量是否超过预设数量;
若已建立的布隆过滤器的数量超过预设数量,判定存在过期的布隆过滤器。
4.根据权利要求1所述的数据删除方法,其特征在于,所述判断所述时序数据的时间标记是否处于当前的布隆过滤器对应的时间段内之后,还包括:
若所述时序数据的时间标记处于当前的布隆过滤器对应的时间段内,将所述时序数据写入到当前的布隆过滤器中。
5.一种数据删除装置,其特征在于,包括:
第一判断单元,用于若检测到写入时序数据,判断所述时序数据的时间标记是否处于当前的布隆过滤器对应的时间段内;
建立单元,用于若所述时序数据的时间标记不处于当前的布隆过滤器对应的时间段内,根据所述时序数据的时间标记对应的下一时间段建立新的布隆过滤器,并将所述下一时间段内的所述时序数据写入到所述新的布隆过滤器中;
第二判断单元,用于根据已建立的布隆过滤器的数量判断是否存在过期的布隆过滤器;
删除单元,用于若存在过期的布隆过滤器,将所述过期的布隆过滤器删除;
所述建立单元包括:
新建单元,用于新建位数组并将所述位数组中的所有位置均设置为零;
映射单元,用于将下一个时间段内的时序数据通过预设数量的哈希函数映射到所述位数组的位置上其中,多个不同的所述哈希函数将相同的所述时序数据映射到位数组的多个位置上,所述哈希函数的数量与所映射到的位数组的位置数量相对应;
设置单元,用于将所述位数组中被映射到的位置均设置为一。
6.根据权利要求5所述的数据删除装置,其特征在于,所述第二判断单元,包括:
第二判断子单元,用于判断已建立的布隆过滤器的数量是否超过预设数量;
判定单元,用于若已建立的布隆过滤器的数量超过预设数量,判定存在过期的布隆过滤器。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-4中任一项所述的方法。
CN201910064084.8A 2019-01-23 2019-01-23 数据删除方法、装置、计算机设备及存储介质 Active CN109828721B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910064084.8A CN109828721B (zh) 2019-01-23 2019-01-23 数据删除方法、装置、计算机设备及存储介质
PCT/CN2019/118317 WO2020151332A1 (zh) 2019-01-23 2019-11-14 数据删除方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910064084.8A CN109828721B (zh) 2019-01-23 2019-01-23 数据删除方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109828721A CN109828721A (zh) 2019-05-31
CN109828721B true CN109828721B (zh) 2022-06-28

Family

ID=66862145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910064084.8A Active CN109828721B (zh) 2019-01-23 2019-01-23 数据删除方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN109828721B (zh)
WO (1) WO2020151332A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109828721B (zh) * 2019-01-23 2022-06-28 平安科技(深圳)有限公司 数据删除方法、装置、计算机设备及存储介质
CN110781386A (zh) * 2019-10-10 2020-02-11 支付宝(杭州)信息技术有限公司 信息推荐、布隆过滤器的创建方法及装置
CN110781392B (zh) * 2019-10-22 2022-08-12 深圳墨世科技有限公司 可动态伸缩的过滤方法、装置、计算机设备及存储介质
CN112711684A (zh) * 2019-10-24 2021-04-27 北京国双科技有限公司 重复数据检测方法及装置
CN110990640B (zh) * 2019-11-15 2022-07-05 北京浪潮数据技术有限公司 一种数据判定方法、装置、设备及计算机可读存储介质
CN111611215B (zh) * 2020-04-07 2023-07-11 布比(北京)网络技术有限公司 一种基于区块链的网贷风险数据共享方法及系统
CN111711860B (zh) * 2020-05-14 2022-09-30 北京奇艺世纪科技有限公司 一种视频推荐滤重方法、装置、服务器及存储介质
CN113051498B (zh) * 2021-03-22 2024-03-12 全球能源互联网研究院有限公司 一种基于多重布隆过滤的url去重方法及系统
CN112925629B (zh) * 2021-03-31 2023-10-20 恩亿科(北京)数据科技有限公司 布隆过滤器动态调整方法、系统、电子设备及存储介质
CN113126929B (zh) * 2021-04-23 2022-04-22 重庆紫光华山智安科技有限公司 一种特征数据去重的方法、系统、介质和终端
CN114048201A (zh) * 2021-11-16 2022-02-15 北京锐安科技有限公司 一种基于分布式流计算引擎Flink的关键字段实时去重方法
CN114786141B (zh) * 2022-04-29 2023-11-21 恒玄科技(上海)股份有限公司 一种蓝牙无线网格网络中的消息过滤方法及装置
CN116258524B (zh) * 2023-03-14 2024-02-02 深圳乐信软件技术有限公司 基于布隆过滤器的广告投放方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281717A (zh) * 2014-10-31 2015-01-14 晶赞广告(上海)有限公司 一种建立海量id映射关系的方法
CN109255001A (zh) * 2018-08-31 2019-01-22 阿里巴巴集团控股有限公司 接口实例库的维护方法及装置、电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649346B (zh) * 2015-10-30 2020-09-22 北京国双科技有限公司 数据重复性校验方法及装置
JP6805816B2 (ja) * 2016-12-27 2020-12-23 富士通株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
CN109828721B (zh) * 2019-01-23 2022-06-28 平安科技(深圳)有限公司 数据删除方法、装置、计算机设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281717A (zh) * 2014-10-31 2015-01-14 晶赞广告(上海)有限公司 一种建立海量id映射关系的方法
CN109255001A (zh) * 2018-08-31 2019-01-22 阿里巴巴集团控股有限公司 接口实例库的维护方法及装置、电子设备

Also Published As

Publication number Publication date
WO2020151332A1 (zh) 2020-07-30
CN109828721A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109828721B (zh) 数据删除方法、装置、计算机设备及存储介质
EP3287910B1 (en) Data backup method and data processing system
US9558072B1 (en) Block-level incremental recovery of a storage volume
WO2019085471A1 (zh) 数据库同步方法、应用服务器及计算机可读存储介质
CN111064808B (zh) 一种基于分布式存储系统的负载均衡方法及装置
US8396840B1 (en) System and method for targeted consistency improvement in a distributed storage system
WO2019062189A1 (zh) 电子装置、数据表归档处理的方法、系统及存储介质
US8468134B1 (en) System and method for measuring consistency within a distributed storage system
JP2008217209A (ja) 差分スナップショット管理方法、計算機システム及びnas計算機
CN105847447A (zh) 消息推送方法和装置
CN109213450B (zh) 一种基于闪存阵列的关联元数据删除方法、装置及设备
CN111857592A (zh) 基于对象存储系统的数据存储方法及装置、电子设备
CN109388550B (zh) 一种缓存命中率确定方法、装置、设备及可读存储介质
CN107577798B (zh) 一种快照创建方法、装置及计算机可读存储介质
CN110222046B (zh) 列表数据的处理方法、装置、服务器和存储介质
CN112328592A (zh) 数据存储方法、电子设备及计算机可读存储介质
CN113342746A (zh) 文件管理系统、文件管理方法、电子设备和存储介质
WO2017067397A1 (zh) 一种数据恢复方法和装置
EP3264254B1 (en) System and method for a simulation of a block storage system on an object storage system
CN113360095B (zh) 硬盘数据管理方法、装置、设备及介质
CN107329852B (zh) 基于Hive的数据处理的方法、系统及终端设备
WO2018077092A1 (zh) 应用于分布式文件系统的存盘方法、装置及分布式文件系统
CN111984600B (zh) 一种文件聚合方法、装置、设备及可读存储介质
CN112463741A (zh) 一种聚合大文件的清理方法及相关设备
US20150356011A1 (en) Electronic device and data writing method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant