CN109033158A - 基于指定时间窗的数据去重统计方法及装置 - Google Patents

基于指定时间窗的数据去重统计方法及装置 Download PDF

Info

Publication number
CN109033158A
CN109033158A CN201810615446.3A CN201810615446A CN109033158A CN 109033158 A CN109033158 A CN 109033158A CN 201810615446 A CN201810615446 A CN 201810615446A CN 109033158 A CN109033158 A CN 109033158A
Authority
CN
China
Prior art keywords
value
time
array
data
time window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810615446.3A
Other languages
English (en)
Inventor
窦方钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Koubei Network Technology Co Ltd
Original Assignee
Zhejiang Koubei Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Koubei Network Technology Co Ltd filed Critical Zhejiang Koubei Network Technology Co Ltd
Priority to CN201810615446.3A priority Critical patent/CN109033158A/zh
Publication of CN109033158A publication Critical patent/CN109033158A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于指定时间窗的数据去重统计方法及装置。其中,方法包括:根据具有特定字段的实时数据的数据产生时间,修改预先建立的数组中相应数组元素的元素值;接收携带有指定时间窗的去重统计请求,查询数组中覆盖指定时间窗的n个数组元素对应的元素值;根据n个数组元素对应的元素值,计算得到指定时间窗对应的去重统计值。基于本发明提供的方案,针对所产生的数据,能够实现实时进行数据去重统计,从而满足对实时性要求较高的统计场景的需求,另外,提高了去重统计的精准度,克服了现有去重统计方法去重统计结果精准度低的缺陷,而且使得具有统计需求的用户能够根据实际需求设定统计时长,更为灵活。

Description

基于指定时间窗的数据去重统计方法及装置
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于指定时间窗的数据去重统计方法及装置。
背景技术
目前很多业务场景都需要统计某个时间周期内的去重统计值(count distinct)。例如安全系统可能会统计一台电脑上最近1天有多少个用户登录,用于进行安全防控;再例如广告系统可能会统计最近3分钟某个网页有多少用户访问,用于进行收费。
目前现有技术主要采用的以下去重方案:
方案1:在数据量不大的场景,可以通过记录每一条数据明细的方式将明细数据进行存储。当需要对某个时间段的某个字段进行去重统计的时候,直接通过数据库实时统计获取,类似使用下面这样的SQL:
然而,这种方案只适用于数据非常小的场景。当数据量稍微增大后,该方案对数据库以及耗时会无限增长,甚至可能把数据库拖挂。
方案2:通过离线数据统计等离线清洗的方式,进行每日清洗,清洗出特定字段的去重统计值,并将清洗出的值进行存储,供后续使用。然而,该方案为非实时数据统计,而且该方案只能支持到每日更新或每个小时更新,如果需要做到实时数据统计(例如上一秒的访问,下一秒就需要统计进去)是无法支持的。
方案3:通过使用基数估计等算法方法进行去重统计,基数估计算法有多种算法,但都没有办法做到精准数据去重统计。
因此,上述方案仅适用于对统计的精准度要求不高,能够容忍时间窗固定(即起始时间和截止时间都是固定的,不可更改)或者非精准去重统计场景,无法适用于高灵活、高精准的场景。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于指定时间窗的数据去重统计方法及装置。
根据本发明的一个方面,提供了一种基于指定时间窗的数据去重统计方法,包括:
根据具有特定字段的实时数据的数据产生时间,修改预先建立的数组中相应数组元素的元素值;
接收携带有指定时间窗的去重统计请求,查询数组中覆盖指定时间窗的n个数组元素对应的元素值;
根据n个数组元素对应的元素值,计算得到指定时间窗对应的去重统计值。
可选地,数组的行数值具体为时间片数,列数值具体为时间片间隔数;
查询数组中覆盖指定时间窗的n个数组元素对应的元素值进一步包括:
步骤S10,将t赋值为0;
步骤S20,获取第i'+t行第j'+t列的数组元素对应的元素值,
步骤S30,将t赋值为t+1;判断t是否大于n-1,若否,则跳转执行步骤S20;
其中i'为指定时间窗的起始时间对应的时间片数,j'为0,i'+n-1为指定时间窗的截止时间对应的时间片数。
可选地,在修改预先建立的数组中相应数组元素的元素值之后,方法还包括:记录特定字段的字段值与数据产生时间的对应关系。
可选地,根据具有特定字段的实时数据的数据产生时间,修改预先建立的数组中相应数组元素的元素值进一步包括:
步骤S11,判断是否记录有与实时数据的特定字段的字段值相同的历史数据的数据产生时间,若是,则执行步骤S21;若否,则执行步骤S25;
步骤S21,根据实时数据的数据产生时间与历史数据的数据产生时间计算m;
步骤S22,将s赋值为0;
步骤S23,将第i行第j+s列的数组元素对应的元素值加1;
步骤S24,将s赋值为s+1;判断s是否大于m,若否,则跳转执行步骤S23;
步骤S25,将第i行第j列的数组元素对应的元素值加1;
其中,i为数据产生时间对应的时间片数,j为0。
可选地,在根据具有特定字段的实时数据的数据产生时间,修改预先建立的数组中相应数组元素的元素值之后,方法还包括:
将修改得到的数组元素及数组元素对应的元素值以预设存储方式存储至存储介质中。
可选地,存储介质包含:Hbase数据库。
根据本发明的另一方面,提供了一种基于指定时间窗的数据去重统计装置,包括:
修改模块,适于根据具有特定字段的实时数据的数据产生时间,修改预先建立的数组中相应数组元素的元素值;
接收模块,适于接收携带有指定时间窗的去重统计请求;
查询模块,适于查询数组中覆盖指定时间窗的n个数组元素对应的元素值;
计算模块,适于根据n个数组元素对应的元素值,计算得到指定时间窗对应的去重统计值。
可选地,数组的行数值具体为时间片数,列数值具体为时间片间隔数;
查询模块进一步包括:第一赋值单元,适于将t赋值为0;
获取单元,适于获取第i'+t行第j'+t列的数组元素对应的元素值,
第一赋值单元进一步适于:将t赋值为t+1;
第一判断单元,适于判断t是否大于n-1,若否,则触发获取单元执行;
其中i'为指定时间窗的起始时间对应的时间片数,j'为0,i'+n-1为指定时间窗的截止时间对应的时间片数。
可选地,装置还包括:记录模块,适于记录特定字段的字段值与数据产生时间的对应关系。
可选地,修改模块进一步包括:第二判断单元,适于判断是否记录有与实时数据的特定字段的字段值相同的历史数据的数据产生时间;
计算单元,适于若判断出记录有与实时数据的特定字段的字段值相同的历史数据的数据产生时间,则根据实时数据的数据产生时间与历史数据的数据产生时间计算m;
第二赋值单元,适于将s赋值为0;
修改单元,适于将第i行第j+s列的数组元素对应的元素值加1;
第二赋值单元进一步适于:将s赋值为s+1;
第三判断单元,适于判断s是否大于m,若否,则触发修改单元执行;
修改单元进一步适于:若判断出未记录有与实时数据的特定字段的字段值相同的历史数据的数据产生时间,则将第i行第j列的数组元素对应的元素值加1;
其中,i为数据产生时间对应的时间片数,j为0。
可选地,装置还包括:存储模块,适于将修改得到的数组元素及数组元素对应的元素值以预设存储方式存储至存储介质中。
可选地,存储介质包含:Hbase数据库。
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行上述基于指定时间窗的数据去重统计方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述基于指定时间窗的数据去重统计方法对应的操作。
根据本发明提供的方案,根据具有特定字段的实时数据的数据产生时间,修改预先建立的数组中相应数组元素的元素值;接收携带有指定时间窗的去重统计请求,查询数组中覆盖指定时间窗的n个数组元素对应的元素值;根据n个数组元素对应的元素值,计算得到指定时间窗对应的去重统计值。基于本发明提供的方案,针对所产生的数据,能够实现实时进行数据去重统计,从而满足对实时性要求较高的统计场景的需求,另外,根据数据产生时间,修改预先建立的数组中相应数组元素的元素值从而在统计时提高了去重统计的精准度,克服了现有去重统计方法去重统计结果精准度低的缺陷,而且使得具有统计需求的用户能够根据实际需求设定统计时长,更为灵活。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的基于指定时间窗的数据去重统计方法的流程示意图;
图2示出了根据本发明另一个实施例的基于指定时间窗的数据去重统计方法的流程示意图;
图3示出了根据本发明一个实施例的基于指定时间窗的数据去重统计装置的结构示意图;
图4示出了根据本发明一个实施例的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的基于指定时间窗的数据去重统计方法的流程示意图。如图1所示,该方法包括以下步骤:
步骤S100,根据具有特定字段的实时数据的数据产生时间,修改预先建立的数组中相应数组元素的元素值。
在本发明实施例中,特定字段是数据去重统计方法的统计依据,根据特定字段可以确定数据是否重复,例如,特定字段可以是用户标识,用户标识可以作为统计独立访客数的统计依据,其中,独立访客数可以作为统计访问网页的去重统计依据,还可以作为观看视频的去重统计依据;还可以是IP地址,其中,IP地址可以作为统计独立IP数的统计依据,此外,特定字段还可以是搜索关键词等等,这里不再一一列举,本领域技术人员可以根据实际统计场景的需求设定特定字段,此处不做具体限定。
在获取到携带有数据产生时间且具有特定字段的实时数据后,可以根据实时数据的数据产生时间,修改预先建立的数组中相应数组元素的元素值。
步骤S101,接收携带有指定时间窗的去重统计请求,查询数组中覆盖指定时间窗的n个数组元素对应的元素值。
具体地,实时去重统计平台的前端与用户进行交互,根据用户输入的指定时间窗进行查询,例如,向用户展示输入界面,供用户输入或选择指定时间窗的起始时间及截止时间。其中,指定时间窗的起始时间和截止时间为任意指定时间(本领域技术人员可以根据实际统计需求进行设定),也就是说,本发明实施例支持查询任意时间段的去重统计值。
用户输入或选择了起始时间、截止时间或者在选择起始时间、截止时间后点击确认按钮后,即可视为发送了去重统计请求,接收携带有指定时间窗的去重统计请求,查询数组中覆盖指定时间窗的n个数组元素对应的元素值。
步骤S102,根据n个数组元素对应的元素值,计算得到指定时间窗对应的去重统计值。
在根据步骤S101查询到数组中覆盖指定时间窗的n个数组元素对应的元素值之后,根据n个数组元素对应的元素值,计算得到动态时间窗对应的去重统计值,例如,将数组中覆盖指定时间窗的n个数组元素对应的元素值相加,相加之后得到的数值即为指定时间窗对应的去重统计值。
根据本发明上述实施例提供的方法,根据具有特定字段的实时数据的数据产生时间,修改预先建立的数组中相应数组元素的元素值;接收携带有指定时间窗的去重统计请求,查询数组中覆盖指定时间窗的n个数组元素对应的元素值;根据n个数组元素对应的元素值,计算得到指定时间窗对应的去重统计值。基于本发明提供的方案,针对所产生的数据,能够实现实时进行数据去重统计,从而满足对实时性要求较高的统计场景的需求,另外,根据数据产生时间,修改预先建立的数组中相应数组元素的元素值从而在统计时提高了去重统计的精准度,克服了现有去重统计方法去重统计结果精准度低的缺陷,而且使得具有统计需求的用户能够根据实际需求设定统计时长,更为灵活。
图2示出了根据本发明另一个实施例的基于指定时间窗的数据去重统计方法的流程示意图。在本发明实施例中,将以特定字段为用户标识、统计网页1(page1)的独立访客数为例,详细介绍基于指定时间窗的数据去重统计方法的实现过程,如图2所示,该方法包括以下步骤:
步骤S200,判断是否记录有与实时数据的特定字段的字段值相同的历史数据的数据产生时间,若否,则执行步骤S201;若是,则执行步骤S202。
特定字段的字段值为各个用户的用户标识,例如,用户标识a、b、c,实时数据及历史数据是针对一个用户而言,是该用户访问网页后所产生的数据,由于本发明实施例是统计用户访问网页的去重数,因此,首先需要判断该用户之前是否访问过该网页,具体地,判断是否记录有与实时数据的特定字段的字段值相同的历史数据的数据产生时间,若记录有与实时数据的特定字段的字段值相同的历史数据的数据产生时间,则执行步骤S201;若未记录有与实时数据的特定字段的字段值相同的历史数据的数据产生时间,则执行步骤S202。
其中,预先建立的数组的行数值具体为时间片数,列数值具体为时间片间隔数,时间片大小一般设为1小时,通常情况下,业务上最多使用48小时的数据,则时间片间隔数对应为0-47,因此,可以设置一具有48列的数组。其中,48小时的数据不仅能够满足业务需求,还能够节省系统成本,降低数据存储所需的存储空间;当然,本领域技术人员可以根据实际业务需要设置所使用数据的时间时长,例如72小时。具体地,时间片数表示是时间片的编号,根据时间片数可以确定时间片对应的时间段,例如,以2018年2月25日计算,时间片数0对应时间片20180225-00,表示2018年2月25日00:00:00-00:59:59这段时间,时间片数3对应时间片20180225-03,表示2018年2月25日03:00:00-03:59:59这段时间,时间片数24对应时间片20180226-00,表示2018年2月20日00:00:00-00:59:59这段时间,此处不再一一列举;时间片间隔数表示本次数据产生时间与上一次数据产生时间之间未产生相应数据的时间片的数量,结合用户访问网页为例理解是指本次数据产生时间与上一次数据产生时间之间有几个时间片,用户未访问网页。
步骤S201,将第i行第j列的数组元素对应的元素值加1。
在判断出未记录有与实时数据的特定字段的字段值相同的历史数据的数据产生时间的情况下,将第i行第j列的数组元素对应的元素值加1,其中,i为数据产生时间对应的时间片数,j为0,下面结合具体实例详细说明:
以时间片20180225-00对应的时间片数为0开始,用户a在20180225 00:00:00时访问page1,其中,20180225 00:00:00对应的时间片为20180225-00,对应的时间片数为0,用户a之前未访问过page1,则仅将第0行第0列的数组元素对应的元素值加1,记录如下表1:
表1:
时间片数\时间片间隔数 0 47
0 1 - -
用户b、c在20180225 00:00:01时访问page1,其中,20180225 00:00:01对应的时间片为20180225-00,对应的时间片数为0,用户b、c之前未访问过page1,则针对用户b、c分别将第0行第0列的数组元素对应的元素值加1,这样,统计后,第0行第0列的数组元素对应的元素值为3,对表1进行修改,得到修改后的表1如下:
表1:
时间片数\时间片间隔数 0 47
0 3 - -
步骤S202,根据实时数据的数据产生时间与历史数据的数据产生时间计算m。
在判断出记录有与实时数据的特定字段的字段值相同的历史数据的数据产生时间的情况下,可以根据实时数据的数据产生时间与历史数据的数据产生时间计算时间片间隔数m,主要是确定实时数据的数据产生时间与历史数据的数据产生时间之间间隔的时间片的数量,例如,用户b于2018年2月25日00:00:01时访问了page1,并于2018年2月25日01:59:00时再次访问了page1,根据实时数据的数据产生时间20180225 01:59:00和历史数据的数据产生时间20180225 00:00:01,计算得到时间片间隔数m为0;再例如,用户b于2018年2月25日01:59:00时访问了page1,并于2018年2月25日03:09:05时再次访问了page1,根据实时数据的数据产生时间20180225 03:09:05和历史数据的数据产生时间20180225 01:59:00,计算得到时间片间隔数m为1。
在计算得到m之后,可以根据m修改数组中相应数组元素的元素值:
步骤S203,将s赋值为0。
步骤S204,将第i行第j+s列的数组元素对应的元素值加1。
其中,i为数据产生时间对应的时间片数,j为0。
步骤S205,将s赋值为s+1。
步骤S206,判断s是否大于m,若否,则跳转执行步骤S204;若是,则跳转执行步骤S207。
针对步骤S202-步骤S205,下面结合具体实例详细说明:
用户b在20180225 01:59:00时访问page1,其中,20180225 01:59:00对应的时间片为20180225-01,对应的时间片数为1,用户b之前访问过page1,历史数据的数据产生时间为20180225 00:00:01,根据实时数据的数据产生时间20180225 01:59:00与历史数据的数据产生时间20180225 00:00:01计算时间片间隔数m等于0,则将s赋值为0,然后将第1行第0列的数组元素对应的元素值加1,之后,将s赋值为1,判断s此时的值大于m的值,则修改数组中相应数组元素的元素值的过程结束。
针对用户b在20180225 01:59:00时访问page1,修改数组中相应数组元素的元素值,得到修改后的表1如下:
表1:
时间片数\时间片间隔数 0 1 47
0 3 - - -
1 1 - - -
之后,发现用户b在20180225 03:09:05时再次访问page1,其中,20180225 03:09:05对应的时间片为20180225-03,对应的时间片数为3,用户b之前访问过page1,历史数据的数据产生时间为20180225 01:59:00,根据实时数据的数据产生时间20180225 03:09:05与历史数据的数据产生时间20180225 01:59:00计算时间片间隔数m等于1,则将s赋值为0,然后将第3行第0列的数组元素对应的元素值加1,之后,将s赋值为1,判断此时s的值等于m的值,则将第3行第1列的数组元素对应的元素值加1,然后,将s赋值为2,判断此时s的值大于m的值,则修改数组中相应数组元素的元素值的过程结束。此处不再一一列举说明。
针对用户b在20180225 03:09:05时再次访问page1,修改数组中相应数组元素的元素值,得到修改后的表1如下:
表1:
时间片数\时间片间隔数 0 1 2 47
0 3 - - - -
1 1 - - - -
2 - - - - -
3 1 1 - - -
步骤S207,将修改得到的数组元素及数组元素对应的元素值以预设存储方式存储至存储介质中。
在修改预先建立的数组中相应数组元素的元素值之后,可以将修改得到的数组元素及数组元素对应的元素值以预设存储方式存储至存储介质中,其中,存储介质包含:Hbase数据库等。
下面将以存储介质是Hbase数据库为例,详细介绍将修改得到的数组元素及数组元素对应的元素值存储至Hbase数据库中的详细过程:
Hbase数据库是一种分布式、面向列的存储系统,支持实时读写、随机访问超大规模数据,HBase以表的形式存储数据,表由行和列组成,列划分为若干个列族。具体地,建立一个数据表,数据表的行表示时间片,列表示时间片间隔数,共设有48列。
结合上面实例具体说明存储过程:
用户a在20180225 00:00:00时访问page1,其中,20180225 00:00:00对应的时间片为20180225-00,用户a之前未访问过,将第0行第0列的数组元素对应的元素值加1,对应存储至Hbase数据库中,如表2所示:
表2:
时间片\时间片间隔数 0 47
20180225-00 1 - -
用户b、c在20180225 00:00:01时访问page1,其中,20180225 00:00:01对应的时间片为20180225-00,用户b、c之前未访问过page1,则针对用户b、c分别将第0行第0列的数组元素对应的元素值加1,对应存储至Hbase数据库中,如表2所示:
表2:
时间片\时间片间隔数 0 47
20180225-00 3 - -
用户b在20180225 01:59:00时再次访问page1,其中,20180225 01:59:00对应的时间片为20180225-01,用户b之前访问过page1,计算时间片间隔数为0,则将第1行第0列的数组元素对应的元素值加1,对应存储至Hbase数据库中,如表2所示:
表2:
时间片\时间片间隔数 0 1 47
20180225-00 3 - - -
20180225-01 1 - - -
用户b在20180225 03:09:05时再次访问page1,其中,20180225 03:09:05对应的时间片为20180225-03,用户b之前访问过page1,计算时间片间隔数为1,则将第3行第0列的数组元素对应的元素值以及第3行第1列的数组元素对应的元素值加1,对应存储至Hbase数据库中,如表2所示:
表2:
时间片\时间片间隔数 0 1 2 47
20180225-00 3 - - - -
20180225-01 1 - - - -
20180225-02 - - - - -
20180225-03 1 1 - - -
步骤S208,记录特定字段的字段值与数据产生时间的对应关系。
在根据具有特定字段的实时数据的数据产生时间,修改预先建立的数组中相应数组元素的元素值之后,需要记录特定字段的字段值与数据产生时间的对应关系,以便于后续判断是否记录有与实时数据的特定字段的字段值相同的历史数据的数据产生时间,具体地,在Tair数据库中存储用户标识与数据产生时间,例如,在Tair数据库中存储用户a及上一次访问网页的时间20180225 00:00:00;在Tair数据库中存储用户b、c及上一次访问网页的时间20180225 00:00:01;用户b再次访问网页后,在Tair数据库中更新用户b及上一次访问网页的时间20180225 01:59:00;用户b再次访问网页后,在Tair数据库中更新用户b及上一次访问网页的时间20180225 03:09:05,也就是说,记录的是特定字段的字段值与最新的数据产生时间的对应关系。
在本发明实施例中,并不具体限定步骤S207和步骤S208的执行顺序,可以同时执行步骤S207和步骤S208,也可以先执行步骤S208再执行步骤S207。
步骤S209,接收携带有指定时间窗的去重统计请求。
具体地,实时去重统计平台的前端与用户进行交互,根据用户输入的指定时间窗进行查询,例如,向用户展示输入界面,供用户输入或选择指定时间窗的起始时间及截止时间。其中,指定时间窗的起始时间和截止时间为任意指定时间(本领域技术人员可以根据实际统计需求进行设定),需要说明的是,若截止时间为当前时间,则除了当前小时外,指定时间窗的其它时间片应该是按照自然小时的维度,举例说明,起始时间为20180225 00:00:00或20180225 01:00:00等整点时间,而不能是20180225 00:03:05这种非整点时间;若截止时间不是当前时间,那么截止时间也应是整点时间。
步骤S210,将t赋值为0。
步骤S211,获取第i'+t行第j'+t列的数组元素对应的元素值。
其中i'为指定时间窗的起始时间对应的时间片数,j'为0,i'+n-1为指定时间窗的截止时间对应的时间片数。
步骤S212,将t赋值为t+1。
步骤S213,判断t是否大于n-1,若否,则跳转执行步骤S211;若是,则跳转执行步骤S214。
针对步骤S210-步骤S213,下面结合具体实例详细说明:
步骤S209中去重统计请求中所携带的时间窗为20180225 00:00:00-2018022502:59:59,指定时间窗的起始对应的时间片数为0,对应的时间片为20180225 00,指定时间窗的截止对应的时间片数为3,对应的时间片为20180225 02,需要查询数组中覆盖指定时间窗的n个数组元素对应的元素值,其中,n为指定时间窗所覆盖的时间片的数量,这里n等于3,具体地,将t赋值为0,然后将第0行第0列的数组元素对应的元素值为3,之后,将t赋值为1,判断t此时的值小于n-1的值,则获取第1行第1列的数组元素对应的元素值为0,之后,将t赋值为2,判断t此时的值等于n-1的值,则获取第2行第2列的数组元素对应的元素值为0,之后,将t赋值为3,判断t此时的值大于n-1的值,则不再获取数组元素对应的元素值。
步骤S214,根据n个数组元素对应的元素值,计算得到指定时间窗对应的去重统计值。
在根据步骤S209-步骤S213查询到数组中覆盖指定时间窗的n个数组元素对应的元素值之后,根据n个数组元素对应的元素值,计算得到指定时间窗对应的去重统计值,具体地,将n个数组元素对应的元素值相加,相加之后得到的数值即为指定时间窗对应的去重统计值,举例说明,根据步骤S209-步骤S213查询到覆盖指定时间窗20180225 00:00:00-20180225 02:59:59的n个数组元素对应的元素值分别为3、0、0,计算得到指定时间窗对应的去重统计值为3;
若当前时间为20180225 03:09:05,所接收到的指定时间窗为20180225 01:00:00-20180225 03:09:05,根据步骤S209-步骤S213查询到覆盖指定时间窗20180225 01:00:00-20180225 03:09:05的n个数组元素对应的元素值分别为1、0、0,计算得到指定时间窗对应的去重统计值为1。
在本发明实施例中,相应的n个数组元素在数组中呈斜对角线的关系,下面将进一步论证所获取的n个数组元素对应的元素值之和即为指定时间窗对应的去重统计值:
假设用户在时间片上的访问page1记录如表3所示:
表3:
时间片\用户 U1 U2 U3 Un
T1 T1U1 T1U2 T1U3 T1Un
T2 T2U1 T2U2 T2U3 T2Un
T3 T3U1 T3U2 T3U3 T3Un
Tj TjU1 TjU2 TjU3 TjUn
TjUn代表这个用户是否在这个时间窗出现过。1表示出现,0表示没有出现。
判断时间片1至时间片j,用户X是否出现可表示为:
T1Ux|T2Ux|…|TjUx(其中1|0=1)
则从时间片1至时间片j出现的个数公式为:
其中,对于一个用户Ui,其在Tj的时间片之前的n个时间片是否出现过的表达式:
TjUi|T[j-1]Ui|T[j-2]Ui|…T[j-n]Ui-T[j-1]Ui|T[j-2]Ui|…T[j-n]Ui
从T1时间段到Tj时间端的对角线相加的值为:
与期望结果一致,因此,可以利用斜对角线的n个数组元素的元素值计算指定时间窗的去重统计值。
根据本发明上述实施例提供的方法,针对所产生的数据,能够实现实时进行数据去重统计,从而满足对实时性要求较高的统计场景的需求,另外,根据数据产生时间,修改预先建立的数组中相应数组元素的元素值从而在统计时提高了去重统计的精准度,克服了现有去重统计方法去重统计结果精准度低的缺陷,而且使得具有统计需求的用户能够根据实际需求设定统计时长,更为灵活,利用Hbase数据库存储修改得到的数组元素及数组元素对应的元素值,在统计查询时,减少对数据库的访问次数,优化数据库的存储、读取性能,提高响应速度。
图3示出了根据本发明一个实施例的基于指定时间窗的数据去重统计装置的结构示意图。如图3所示,该装置包括:修改模块300、接收模块310、查询模块320、计算模块330。
修改模块300,适于根据具有特定字段的实时数据的数据产生时间,修改预先建立的数组中相应数组元素的元素值。
接收模块310,适于接收携带有指定时间窗的去重统计请求。
查询模块320,适于查询数组中覆盖指定时间窗的n个数组元素对应的元素值。
计算模块330,适于根据n个数组元素对应的元素值,计算得到指定时间窗对应的去重统计值。
可选地,数组的行数值具体为时间片数,列数值具体为时间片间隔数;
查询模块320进一步包括:第一赋值单元321,适于将t赋值为0。
获取单元322,适于获取第i'+t行第j'+t列的数组元素对应的元素值。
第一赋值单元321进一步适于:将t赋值为t+1。
第一判断单元323,适于判断t是否大于n-1,若否,则触发获取单元执行。
其中i'为指定时间窗的起始时间对应的时间片数,j'为0,i'+n-1为指定时间窗的截止时间对应的时间片数。
可选地,装置还包括:记录模块340,适于记录特定字段的字段值与数据产生时间的对应关系。
可选地,修改模块300进一步包括:第二判断单元301,适于判断是否记录有与实时数据的特定字段的字段值相同的历史数据的数据产生时间。
计算单元302,适于若判断出记录有与实时数据的特定字段的字段值相同的历史数据的数据产生时间,则根据实时数据的数据产生时间与历史数据的数据产生时间计算m。
第二赋值单元303,适于将s赋值为0。
修改单元304,适于将第i行第j+s列的数组元素对应的元素值加1。
第二赋值单元303进一步适于:将s赋值为s+1。
第三判断单元305,适于判断s是否大于m,若否,则触发修改单元执行。
修改单元304进一步适于:若判断出未记录有与实时数据的特定字段的字段值相同的历史数据的数据产生时间,则将第i行第j列的数组元素对应的元素值加1。
其中,i为数据产生时间对应的时间片数,j为0。
可选地,装置还包括:存储模块350,适于将修改得到的数组元素及数组元素对应的元素值以预设存储方式存储至存储介质中。
可选地,存储介质包含:Hbase数据库。
根据本发明上述实施例提供的装置,根据具有特定字段的实时数据的数据产生时间,修改预先建立的数组中相应数组元素的元素值;接收携带有指定时间窗的去重统计请求,查询数组中覆盖指定时间窗的n个数组元素对应的元素值;根据n个数组元素对应的元素值,计算得到指定时间窗对应的去重统计值。基于本发明提供的方案,针对所产生的数据,能够实现实时进行数据去重统计,从而满足对实时性要求较高的统计场景的需求,另外,根据数据产生时间,修改预先建立的数组中相应数组元素的元素值从而在统计时提高了去重统计的精准度,克服了现有去重统计方法去重统计结果精准度低的缺陷,而且使得具有统计需求的用户能够根据实际需求设定统计时长,更为灵活。
本申请实施例还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于指定时间窗的数据去重统计方法。
图4示出了根据本发明一个实施例的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图4所示,该计算设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器402,用于执行程序410,具体可以执行上述基于指定时间窗的数据去重统计方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行上述任意方法实施例中的基于指定时间窗的数据去重统计方法。程序410中各步骤的具体实现可以参见上述基于指定时间窗的数据去重统计实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于指定时间窗的数据去重统计设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种基于指定时间窗的数据去重统计方法,包括:
根据具有特定字段的实时数据的数据产生时间,修改预先建立的数组中相应数组元素的元素值;
接收携带有指定时间窗的去重统计请求,查询所述数组中覆盖所述指定时间窗的n个数组元素对应的元素值;
根据所述n个数组元素对应的元素值,计算得到所述指定时间窗对应的去重统计值。
2.根据权利要求1所述的方法,其中,所述数组的行数值具体为时间片数,列数值具体为时间片间隔数;
所述查询数组中覆盖所述指定时间窗的n个数组元素对应的元素值进一步包括:
步骤S10,将t赋值为0;
步骤S20,获取第i'+t行第j'+t列的数组元素对应的元素值,
步骤S30,将t赋值为t+1;判断t是否大于n-1,若否,则跳转执行步骤S20;
其中i'为指定时间窗的起始时间对应的时间片数,j'为0,i'+n-1为指定时间窗的截止时间对应的时间片数。
3.根据权利要求1或2所述的方法,其中,在修改预先建立的数组中相应数组元素的元素值之后,所述方法还包括:记录特定字段的字段值与数据产生时间的对应关系。
4.根据权利要求1-3中任一项所述的方法,其中,所述根据具有特定字段的实时数据的数据产生时间,修改预先建立的数组中相应数组元素的元素值进一步包括:
步骤S11,判断是否记录有与所述实时数据的特定字段的字段值相同的历史数据的数据产生时间,若是,则执行步骤S21;若否,则执行步骤S25;
步骤S21,根据所述实时数据的数据产生时间与所述历史数据的数据产生时间计算m;
步骤S22,将s赋值为0;
步骤S23,将第i行第j+s列的数组元素对应的元素值加1;
步骤S24,将s赋值为s+1;判断s是否大于m,若否,则跳转执行步骤S23;
步骤S25,将第i行第j列的数组元素对应的元素值加1;
其中,i为数据产生时间对应的时间片数,j为0。
5.根据权利要求1-4中任一项所述的方法,其中,在根据具有特定字段的实时数据的数据产生时间,修改预先建立的数组中相应数组元素的元素值之后,所述方法还包括:
将修改得到的所述数组元素及数组元素对应的元素值以预设存储方式存储至存储介质中。
6.根据权利要求5所述的方法,其中,所述存储介质包含:Hbase数据库。
7.一种基于指定时间窗的数据去重统计装置,包括:
修改模块,适于根据具有特定字段的实时数据的数据产生时间,修改预先建立的数组中相应数组元素的元素值;
接收模块,适于接收携带有指定时间窗的去重统计请求;
查询模块,适于查询所述数组中覆盖所述指定时间窗的n个数组元素对应的元素值;
计算模块,适于根据所述n个数组元素对应的元素值,计算得到所述指定时间窗对应的去重统计值。
8.根据权利要求7所述的装置,其中,所述数组的行数值具体为时间片数,列数值具体为时间片间隔数;
所述查询模块进一步包括:第一赋值单元,适于将t赋值为0;
获取单元,适于获取第i'+t行第j'+t列的数组元素对应的元素值,
所述第一赋值单元进一步适于:将t赋值为t+1;
第一判断单元,适于判断t是否大于n-1,若否,则触发获取单元执行;
其中i'为指定时间窗的起始时间对应的时间片数,j'为0,i'+n-1为指定时间窗的截止时间对应的时间片数。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的基于指定时间窗的数据去重统计方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-6中任一项所述的基于指定时间窗的数据去重统计方法对应的操作。
CN201810615446.3A 2018-06-14 2018-06-14 基于指定时间窗的数据去重统计方法及装置 Pending CN109033158A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810615446.3A CN109033158A (zh) 2018-06-14 2018-06-14 基于指定时间窗的数据去重统计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810615446.3A CN109033158A (zh) 2018-06-14 2018-06-14 基于指定时间窗的数据去重统计方法及装置

Publications (1)

Publication Number Publication Date
CN109033158A true CN109033158A (zh) 2018-12-18

Family

ID=64609583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810615446.3A Pending CN109033158A (zh) 2018-06-14 2018-06-14 基于指定时间窗的数据去重统计方法及装置

Country Status (1)

Country Link
CN (1) CN109033158A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580322A (zh) * 2019-09-18 2019-12-17 北京百度网讯科技有限公司 独立访客信息处理的方法、装置、电子设备及存储介质
CN111160975A (zh) * 2019-12-30 2020-05-15 中国移动通信集团黑龙江有限公司 一种目标用户确定方法、装置、设备及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424339A (zh) * 2013-09-11 2015-03-18 腾讯科技(深圳)有限公司 数据分析的方法、装置及系统
CN105989072A (zh) * 2015-02-10 2016-10-05 阿里巴巴集团控股有限公司 去重计数方法及设备
CN105989076A (zh) * 2015-02-10 2016-10-05 腾讯科技(深圳)有限公司 一种数据统计方法以及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424339A (zh) * 2013-09-11 2015-03-18 腾讯科技(深圳)有限公司 数据分析的方法、装置及系统
CN105989072A (zh) * 2015-02-10 2016-10-05 阿里巴巴集团控股有限公司 去重计数方法及设备
CN105989076A (zh) * 2015-02-10 2016-10-05 腾讯科技(深圳)有限公司 一种数据统计方法以及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580322A (zh) * 2019-09-18 2019-12-17 北京百度网讯科技有限公司 独立访客信息处理的方法、装置、电子设备及存储介质
CN111160975A (zh) * 2019-12-30 2020-05-15 中国移动通信集团黑龙江有限公司 一种目标用户确定方法、装置、设备及计算机存储介质

Similar Documents

Publication Publication Date Title
CN104838377B (zh) 利用映射缩减集成事件处理
CN103678494B (zh) 客户端同步服务端数据的方法及装置
US8423547B2 (en) Efficient query clustering using multi-partite graphs
CN108809704B (zh) 基于动态时间窗的数据去重统计方法及装置
CN102945240A (zh) 一种支持分布式计算的关联规则挖掘算法实现方法及装置
CN102929672B (zh) 应用升级系统及方法
CN103500185B (zh) 一种基于多平台数据生成数据表的方法和系统
CN110162544A (zh) 异构数据源数据获取方法及装置
CN112286772B (zh) 归因分析方法、装置和电子设备
CN107330119B (zh) 缓存数据处理方法、电子设备、计算机存储介质
CN102929671B (zh) 服务器、应用升级方法及应用升级系统
CN103412754A (zh) 动态语言代码执行方法和装置
CN103838626A (zh) 一种处理串行任务的数据处理装置及方法
CN107480268A (zh) 数据查询方法及装置
CN111881042A (zh) 自动化测试脚本的生成方法、装置和电子设备
CN109033158A (zh) 基于指定时间窗的数据去重统计方法及装置
CN107451461A (zh) 移动设备的设备指纹处理方法、装置、服务器及存储介质
US11693858B2 (en) Access path optimization
CN109522305A (zh) 一种大数据去重方法及装置
CN109086430A (zh) 数据存储处理方法、装置、计算设备及计算机存储介质
CN111523921B (zh) 漏斗分析方法、分析设备、电子设备及可读存储介质
CN105824976A (zh) 一种优化分词库的方法和装置
CN105426541B (zh) 一种通用数据的存储方法和装置
CN104317820A (zh) 报表的统计方法和装置
CN106250327B (zh) 一种在键-值存储中热点识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218

RJ01 Rejection of invention patent application after publication