CN103186562A - 数据自适应过滤方法及装置 - Google Patents

数据自适应过滤方法及装置 Download PDF

Info

Publication number
CN103186562A
CN103186562A CN2011104486458A CN201110448645A CN103186562A CN 103186562 A CN103186562 A CN 103186562A CN 2011104486458 A CN2011104486458 A CN 2011104486458A CN 201110448645 A CN201110448645 A CN 201110448645A CN 103186562 A CN103186562 A CN 103186562A
Authority
CN
China
Prior art keywords
data
white list
loaded
internal memory
timestamp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011104486458A
Other languages
English (en)
Inventor
伍刘
赵宏宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN2011104486458A priority Critical patent/CN103186562A/zh
Publication of CN103186562A publication Critical patent/CN103186562A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种数据自适应过滤方法及装置,涉及数据处理操作领域,能够简单灵活自适应的实现数据的过滤。本发明的方法包括:读取数据记录,并获取所述数据记录的时间戳;通过与所述时间戳相关的过滤函数对所述数据记录进行过滤;将过滤输出的数据记录进行对应的业务处理,并将业务处理结果输出到所述时间戳对应的文件夹中。本发明的实施例主要用于数据自适应过滤处理的过程中。

Description

数据自适应过滤方法及装置
技术领域
本发明涉及数据处理操作领域,尤其涉及一种数据自适应过滤方法及装置。
背景技术
在数据处理业务中经常遇到如下一种业务状况:数据处理模块需要对收集到的数据按照时间进行清洗过滤。例如,对广告业务而言,需要对收到的数据进行订单-广告位-日期的白名单过滤。订单-广告位-日期的白名单假设我们事先已经建立好,并且由于白名单数据一般都存储在数据库表中,全量查询耗时较长,所以只能查询一段时间内的数据,并且为提高性能考虑,不能每条记录都查询数据库,应该都一次性载入到内存中。如图1所示,将收到的数据流X(t,x),经过过滤器的过滤后,得到过滤后的输出数据流,其中该输出数据流表示为:F(T)为过滤函数。目前有以下两种数据过滤的方法:第一种,以运行的当前时间now为基准,F(T)=[now-1,now]的白名单,即检查前2天的白名单,不在白名单中的数据则丢弃;该方法中,F(T)是一个固定的函数。第二种,将时间在程序运行之初以参数T传入,F(T)=[T-1,T]的白名单,即检查[T-1,T]的白名单,不在白名单中的数据则丢弃。
在实现上述数据过滤的过程中,发明人发现现有技术中至少存在如下问题:对于方法一,当因为种种原因要重新计算前端时间数据的时候,会出现数据全部丢弃的问题。而对于方法二而言,则需要明确知道正在处理的数据是哪个时间点的数据,否则一旦多个时间点的数据混合在一起,就很难处理。总之,由于目前已有的方法中的过滤函数都是事先准备好的过滤函数,导致现有技术中的数据过滤方法的灵活性较差。
发明内容
本发明的实施例提供一种数据自适应过滤方法及装置,能够简单灵活自适应的实现数据的过滤。
为达到上述目的,本发明的实施例采用如下技术方案:
一种数据自适应过滤方法,包括:
读取数据记录,并获取所述数据记录的时间戳;
通过与所述时间戳相关的过滤函数对所述数据记录进行过滤;
将过滤输出的数据记录进行对应的业务处理,并将业务处理结果输出到所述时间戳对应的文件夹中。
一种数据自适应过滤装置,包括:
时间戳获取单元,用于读取数据记录,并获取所述数据记录的时间戳;
过滤单元,用于通过与所述时间戳相关的过滤函数对所述数据记录进行过滤;
业务处理单元,用于将过滤输出的数据记录进行对应的业务处理,将业务处理结果输出到所述时间戳对应的文件夹中。
本发明实施例提供的数据自适应过滤方法及装置,能够在读取数据记录时,获取该数据记录的时间戳,并且在对读取的数据记录进行过滤时,是通过与所述时间戳相关的过滤函数对所述数据记录进行过滤,与现有技术中使用事先准备好的过滤函数对数据记录进行过滤相比,能够简单灵活自适应的实现数据的过滤。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中数据流滤波处理过程示意图;
图2为本发明实施例1中数据自适应过滤方法的流程图;
图3为本发明实施例1中数据流滤波处理过程示意图;
图4为本发明实施例2中数据自适应过滤方法的流程图;
图5为本发明实施例2中确定与所述时间戳相关的预定时间段内的白名单数据是否已加载到内存中的方法流程图;
图6为本发明实施例3中一种数据自适应过滤装置的组成框图;
图7为本发明实施例3中另一种数据自适应过滤装置的组成框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例提供一种数据自适应过滤方法,如图2所示,该方法包括:
101、读取数据记录,并获取所述数据记录的时间戳。
需要说明的是,数据记录在生成时,都会包含时间戳,例如广告业务,其对应的一条数据记录包含进行订单-广告位-日期,该日期即为所述广告业务对应数据记录的时间戳。该时间戳可以以天为单位,但本发明实施例对此不进行限制,用户在实施本发明实施例时,可以根据自己的需要具体设置时间戳的单位。
102、通过与所述时间戳相关的过滤函数对所述数据记录进行过滤。
需要说明的是,由于该对读取的数据记录进行过滤的函数为与所述时间戳相关的过滤函数,该过滤函数可以为F(T)=f(t),为[t-1,t]的白名单数据。其t与数据流即数据记录X(t,x)中的t相同,这样过滤函数就与输入的时间自动匹配,根据输入时间的不同,可以得到不同的过滤输出数据,从而实现自适应。具体如图3所示,当输入的时间为T1、T2、T3时,分别得到的滤输出数据流Y(T1,x)、Y(T2,x)、Y(T3,x)。
103、将过滤输出的数据记录进行对应的业务处理,并将业务处理结果输出到所述时间戳对应的文件夹中。
将业务处理结果输出到所述时间戳对应的文件夹中,即将业务处理结果输出到按时间戳分割到文件夹中,即一时间戳范围的文件放在同一个文件夹中。
本发明实施例中,能够在读取数据记录时,获取该数据记录的时间戳,并且在对读取的数据记录进行过滤时,是通过与所述时间戳相关的过滤函数对所述数据记录进行过滤,与现有技术中使用事先准备好的过滤函数对数据记录进行过滤相比,能够简单灵活自适应的实现数据的过滤。
实施例2
本发明实施例提供一种数据自适应过滤方法,如图4所示,该方法包括:
201、读取数据记录,并获取所述数据记录的时间戳。
需要说明的是,数据记录在生成时,都会包含时间戳,例如广告业务,其对应的一条数据记录包含进行订单-广告位-日期,该日期即为所述广告业务对应数据记录的时间戳。该时间戳可以以天为单位,但本发明实施例对此不进行限制,用户在实施本发明实施例时,可以根据自己的需要具体设置时间戳的单位。
202、确定与所述时间戳相关的预定时间段内的白名单数据是否已加载到内存中;若与所述时间戳相关的预定时间段内的白名单数据已加载到内存中,则执行步骤203;若与所述时间戳相关的预定时间段内的白名单数据没有加载到内存中,则执行步骤206。
其中,该与所述时间戳相关的预定时间段可以根据用户的需求设置,本发明实施例对此不进行限制,例如,可以将其直接设置为[t-1,t]或者[t-1,t+1]或者[t-2,t]等,也可以初次将其设置为[t-1,t],并根据后续的需求修改为[t-1,t+1]或者[t-2,t]等。
其中,确定与所述时间戳相关的预定时间段内的白名单数据是否已加载到内存中,可以通过以下的方法实现,如图5所示,该方法包括:
2021、检测内存中是否存在已加载的白名单数据;若检测到所述内存中存在已加载的白名单数据,则执行步骤2022;若检测到所述内存中不存在已加载的白名单数据,则执行步骤2024。
2022、判断所述时间戳与已加载的白名单对应的时间戳是否相同;若相同,则执行步骤2023;若不相同,则执行步骤2024。
2023、确定与所述时间戳相关的预定时间段内的白名单数据已加载到内存中。
2024、确定与所述时间戳相关的预定时间段内的白名单数据没有加载到内存中。
需要说明的是,在确定与所述时间戳相关的预定时间段内的白名单数据是否已加载到内存中时,除了图5所描述的方法外,还可以直接检测所述内存中是否存在与所述时间戳相关的预定时间段内的白名单数据;当然本发明实施例对此不进行限制,任何可以确定与所述时间戳相关的预定时间段内的白名单数据是否已加载到内存中的方法都属于本发明保护的范围。特别说明的是,当已知读取的待过滤的数据记录为第一条数据记录时,可以优选采用直接检测的方法;当已知读取的待过滤的数据记录为非第一条记录是,可以优选采用图5所描述的方法,因为图5描述的方法可以将读取的数据记录的时间戳和已加载的白名单对应的时间戳直接进行比较,使得操作比较简单,能够节省查询时间。
203、确定所述数据记录是否与加载到内存的白名单中的数据相匹配;若所述数据记录与加载到内存的白名单中的数据相匹配,则执行步骤204;若所述数据记录不与加载到内存的白名单中的数据相匹配,则执行步骤205。
204、将过滤输出的数据记录进行对应的业务处理,并将业务处理结果输出到所述时间戳对应的文件夹中,并读取下一个数据记录,直到完成所有的需要进行过滤处理的数据记录过滤处理。
205、结束所述数据记录的自适应过滤。
206、将所述与所述时间戳相关的预定时间段内的白名单数据加载到内存中,并执行步骤203。
本发明实施例中,能够在读取数据记录时,获取该数据记录的时间戳,并且在对读取的数据记录进行过滤时,是通过与所述时间戳相关的过滤函数对所述数据记录进行过滤,与现有技术中使用事先准备好的过滤函数对数据记录进行过滤相比,能够简单灵活自适应的实现数据的过滤。
实施例3
本发明实施例提供一种数据自适应过滤装置,如图6所示,该数据自适应过滤装置包括:时间戳获取单元31、过滤单元32、业务处理单元33。
时间戳获取单元31,用于读取数据记录,并获取所述数据记录的时间戳。
过滤单元32,用于通过与所述时间戳相关的过滤函数对所述数据记录进行过滤。
业务处理单元33,用于将过滤输出的数据记录进行对应的业务处理,将业务处理结果输出到所述时间戳对应的文件夹中。
进一步的,如图7所示,所述过滤单元32包括:第一确定模块321、第二确定模块322、过滤输出模块323、加载模块324。
第一确定模块321,用于检测与所述时间戳相关的预定时间段内的白名单数据是否已加载到内存中;其中,所述第一确定模块321在检测与所述时间戳相关的预定时间段内的白名单数据是否已加载到内存中时,具体用于检测内存中是否存在已加载的白名单数据;若检测到所述内存中存在已加载的白名单数据,则判断所述时间戳与已加载的白名单对应的时间戳是否相同;若相同,则确定与所述时间戳相关的预定时间段内的白名单数据已加载到内存中;若不相同,则确定与所述时间戳相关的预定时间段内的白名单数据没有加载到内存中。若检测到所述内存中不存在已加载的白名单数据,则确定与所述时间戳相关的预定时间段内的白名单数据没有加载到内存中。
第二确定模块322,用于在所述第一确定模块321确定与所述时间戳相关的预定时间段内的白名单数据已加载到内存中时,确定所述数据记录是否与加载到内存的白名单中的数据相匹配。
过滤输出模块323,用于在所述第二确定模块322确定所述数据记录与加载到内存的白名单中的数据相匹配时,将所述数据记录输出,得到过滤输出的数据记录。
加载模块324,用于在所述第一确定模块321确定与所述时间戳相关的预定时间段内的白名单数据没有加载到内存中时,将所述与所述时间戳相关的预定时间段内的白名单数据加载到内存中。
所述第二确定模块322还用于,在所述加载模块324将所述与所述时间戳相关的预定时间段内的白名单数据加载到内存中之后确定所述数据记录是否与所述白名单中的数据相匹配。
需要说明的是,本发明实施例提供的数据自适应过滤装置所包含的各功能模块的其他描述,可以参考实施例1和实施例2中的相应描述,本发明实施例此处将不再赘述。
本发明实施例提供的数据自适应过滤方法及装置,能够在读取数据记录时,获取该数据记录的时间戳,并且在对读取的数据记录进行过滤时,是通过与所述时间戳相关的过滤函数对所述数据记录进行过滤,与现有技术中使用事先准备好的过滤函数对数据记录进行过滤相比,能够简单灵活自适应的实现数据的过滤。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据自适应过滤方法,其特征在于,包括:
读取数据记录,并获取所述数据记录的时间戳;
通过与所述时间戳相关的过滤函数对所述数据记录进行过滤;
将过滤输出的数据记录进行对应的业务处理,并将业务处理结果输出到所述时间戳对应的文件夹中。
2.根据权利要求1所述的数据自适应过滤方法,其特征在于,所述通过与所述时间戳相关的过滤函数,对所述数据记录进行过滤包括:
确定与所述时间戳相关的预定时间段内的白名单数据是否已加载到内存中;
若与所述时间戳相关的预定时间段内的白名单数据已加载到内存中,则确定所述数据记录是否与加载到内存的白名单中的数据相匹配;
若所述数据记录与加载到内存的白名单中的数据相匹配,则将所述数据记录输出,得到过滤输出的数据记录。
3.根据权利要求2所述的数据自适应过滤方法,其特征在于,还包括:
若与所述时间戳相关的预定时间段内的白名单数据没有加载到内存中,则将所述与所述时间戳相关的预定时间段内的白名单数据加载到内存中,并执行所述确定所述数据记录是否与所述白名单中的数据相匹配。
4.根据权利要求2或3所述的数据自适应过滤方法,其特征在于,确定与所述时间戳相关的预定时间段内的白名单数据是否已加载到内存中包括:
检测内存中是否存在已加载的白名单数据;
若检测到所述内存中存在已加载的白名单数据,则判断所述时间戳与已加载的白名单对应的时间戳是否相同;
若相同,则确定与所述时间戳相关的预定时间段内的白名单数据已加载到内存中;若不相同,则确定与所述时间戳相关的预定时间段内的白名单数据没有加载到内存中。
5.根据权利要求4所述的数据自适应过滤方法,其特征在于,还包括:
若检测到所述内存中不存在已加载的白名单数据,则确定与所述时间戳相关的预定时间段内的白名单数据没有加载到内存中。
6.一种数据自适应过滤装置,其特征在于,包括:
时间戳获取单元,用于读取数据记录,并获取所述数据记录的时间戳;
过滤单元,用于通过与所述时间戳相关的过滤函数对所述数据记录进行过滤;
业务处理单元,用于将过滤输出的数据记录进行对应的业务处理,将业务处理结果输出到所述时间戳对应的文件夹中。
7.根据权利要求6所述的数据自适应过滤装置,其特征在于,所述过滤单元包括:
第一确定模块,用于检测与所述时间戳相关的预定时间段内的白名单数据是否已加载到内存中;
第二确定模块,用于在所述第一确定模块确定与所述时间戳相关的预定时间段内的白名单数据已加载到内存中时,确定所述数据记录是否与加载到内存的白名单中的数据相匹配;
过滤输出模块,用于在所述第二确定模块确定所述数据记录与加载到内存的白名单中的数据相匹配时,将所述数据记录输出,得到过滤输出的数据记录。
8.根据权利要求7所述的数据自适应过滤装置,其特征在于,所述过滤单元还包括:
加载模块,用于在所述第一确定模块确定与所述时间戳相关的预定时间段内的白名单数据没有加载到内存中时,将所述与所述时间戳相关的预定时间段内的白名单数据加载到内存中;
所述第二确定模块还用于,在所述加载模块将所述与所述时间戳相关的预定时间段内的白名单数据加载到内存中之后确定所述数据记录是否与所述白名单中的数据相匹配。
9.根据权利要求7或8所述的数据自适应过滤装置,其特征在于,所述第一确定模块用于,
检测内存中是否存在已加载的白名单数据;
若检测到所述内存中存在已加载的白名单数据,则判断所述时间戳与已加载的白名单对应的时间戳是否相同;
若相同,则确定与所述时间戳相关的预定时间段内的白名单数据已加载到内存中;若不相同,则确定与所述时间戳相关的预定时间段内的白名单数据没有加载到内存中。
10.根据权利要求9所述的数据自适应过滤装置,其特征在于,所述第一确定模块还用于,
若检测到所述内存中不存在已加载的白名单数据,则确定与所述时间戳相关的预定时间段内的白名单数据没有加载到内存中。
CN2011104486458A 2011-12-28 2011-12-28 数据自适应过滤方法及装置 Pending CN103186562A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104486458A CN103186562A (zh) 2011-12-28 2011-12-28 数据自适应过滤方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104486458A CN103186562A (zh) 2011-12-28 2011-12-28 数据自适应过滤方法及装置

Publications (1)

Publication Number Publication Date
CN103186562A true CN103186562A (zh) 2013-07-03

Family

ID=48677731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104486458A Pending CN103186562A (zh) 2011-12-28 2011-12-28 数据自适应过滤方法及装置

Country Status (1)

Country Link
CN (1) CN103186562A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1688150A (zh) * 2005-05-08 2005-10-26 丁志辉 移动通信电话数据过滤处理方法
CN101179706A (zh) * 2006-11-07 2008-05-14 国立阳明大学 远程居家监视系统及其方法
CN101183423A (zh) * 2007-12-21 2008-05-21 北京航空航天大学 一种用于读写器读取rfid标签事件的管理系统
CN101540645A (zh) * 2008-03-21 2009-09-23 华为技术有限公司 动态内容分发方法和装置
CN101719157A (zh) * 2009-12-01 2010-06-02 山东中创软件工程股份有限公司 数据过滤方法、系统和用于该系统的数据处理装置
CN101807073A (zh) * 2010-04-20 2010-08-18 杭州和利时自动化有限公司 一种分布式控制系统的历史数据处理方法和装置
CN101902335A (zh) * 2009-05-27 2010-12-01 北京启明星辰信息技术股份有限公司 一种数据过滤与合并的方法
CN102436556A (zh) * 2012-01-09 2012-05-02 国电南瑞科技股份有限公司 轨道交通事故反演系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1688150A (zh) * 2005-05-08 2005-10-26 丁志辉 移动通信电话数据过滤处理方法
CN101179706A (zh) * 2006-11-07 2008-05-14 国立阳明大学 远程居家监视系统及其方法
CN101183423A (zh) * 2007-12-21 2008-05-21 北京航空航天大学 一种用于读写器读取rfid标签事件的管理系统
CN101540645A (zh) * 2008-03-21 2009-09-23 华为技术有限公司 动态内容分发方法和装置
CN101902335A (zh) * 2009-05-27 2010-12-01 北京启明星辰信息技术股份有限公司 一种数据过滤与合并的方法
CN101719157A (zh) * 2009-12-01 2010-06-02 山东中创软件工程股份有限公司 数据过滤方法、系统和用于该系统的数据处理装置
CN101807073A (zh) * 2010-04-20 2010-08-18 杭州和利时自动化有限公司 一种分布式控制系统的历史数据处理方法和装置
CN102436556A (zh) * 2012-01-09 2012-05-02 国电南瑞科技股份有限公司 轨道交通事故反演系统

Similar Documents

Publication Publication Date Title
CN102314460B (zh) 数据分析方法、系统及服务器
CN101719149B (zh) 数据同步方法及装置
CN110413634B (zh) 数据查询方法、系统、装置及计算机可读存储介质
CN103023984B (zh) 终端应用服务器及其应用日志过滤方法
WO2014169142A1 (en) Partition level backup and restore of a massively parallel processing database
CN103246595A (zh) 应用程序管理方法、装置、服务器及终端设备
CN111400288A (zh) 数据质量检查方法及系统
CN104866576A (zh) 一种Data Vault模型数据仓库自动构建的方法及装置
CN105224534A (zh) 一种请求响应的方法及装置
WO2012008951A1 (en) Methods, apparatus and articles of manufacture to archive data
CN102486772A (zh) 一种数据的导出方法及装置
CN104050291A (zh) 一种账户余额数据的并行处理方法和系统
CN201548954U (zh) 一种对Web页面进行自动化测试的装置
CN103092955B (zh) 检查点操作方法、装置及系统
CN111782264A (zh) 代码分类信息提取方法、装置、计算机设备及存储介质
CN103186562A (zh) 数据自适应过滤方法及装置
CN104461931A (zh) 多核存储装置及多核环境的跟踪日志输出处理方法
CN104572730A (zh) 数字资源导入、导出方法及装置
CN110781211B (zh) 一种数据的解析方法及装置
CN110888840A (zh) 分布式文件系统中的文件查询方法、装置、设备及介质
CN104008098A (zh) 基于多义性关键词的文本过滤方法及装置
CN109597807A (zh) 数仓表处理方法和装置
CN112131051B (zh) 基于参数化配置的数据备份方法及装置
CN103377005A (zh) 数据同步方法与装置
CN106855837B (zh) 一种基于Flume的数据处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination