CN104933058B - 一种监测网络访问活动的方法和系统 - Google Patents
一种监测网络访问活动的方法和系统 Download PDFInfo
- Publication number
- CN104933058B CN104933058B CN201410101372.3A CN201410101372A CN104933058B CN 104933058 B CN104933058 B CN 104933058B CN 201410101372 A CN201410101372 A CN 201410101372A CN 104933058 B CN104933058 B CN 104933058B
- Authority
- CN
- China
- Prior art keywords
- exposure data
- fingerprint
- subgroup
- cookie
- exposure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 28
- 235000014510 cooky Nutrition 0.000 claims abstract description 111
- 241001269238 Data Species 0.000 claims abstract description 22
- 239000013589 supplement Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
Abstract
本发明公开了一种监测网络访问活动的方法,包括:监测访问被监测页面的全部流量的曝光数据,其中每一条曝光数据均携带独立访问者的设备指纹信息;将所述曝光数据中,携带cookie的曝光数据保存在样本集合中,其他曝光数据保存在估算集合中,将cookie作为所述样本集合中曝光数据的独立访问者标识,并根据所述样本集合建立设备指纹与cookie的关系模型;对所述估算集合中具有所述关系模型中某一设备指纹的每条曝光数据,根据所述关系模型分配一个独立访问者标识。本发明能够提高对网络访问行为监测的准确性。本发明还公开了一种监测网络访问活动的系统。
Description
技术领域
本发明涉及计算机网络技术领域,尤其涉及的是一种监测网络访问活动的方法和系统。
背景技术
在网络广告、网络调查、在线投票及选举等网络活动中,网络监测系统起着至关重要的作用,对网络活动数据的精确监测和分析可有效的保证网络活动的质量,提高调研结果的精确度。目前常见的数据监测指标包括曝光数量、独立访问者数量、到达频次Reach等,而到达频次又可细化为至少曝光1次、2次、3次、……、N次的独立访问者数量等。其中,独立访问者数量和Reach的计算均依赖于对独立访问者的准确识别。假设监测到三次曝光,其中两次曝光被识别为同一个独立访问者,另外一次曝光被识别为另一个独立访问者,则独立访问者数量为2,至少曝光1次的独立访问者的数量为2,至少曝光2次的独立访问者的数量为1,至少曝光3次和3次以上的独立访问者数量均为0。
目前,相关技术中主要利用终端cookie来识别独立访问者。当用户访问被监测网页时,被监测网页中嵌入的代码会要求用户使用的浏览器向广告监测服务器发起HTTP请求。广告监测服务器会判断HTTP请求是否包含cookie,对于不包含cookie的请求会在用户终端植入cookie。然后,广告监测服务器会记录这一请求的信息,例如cookie、用户的IP、时间等,即曝光数据。广告监测服务器可根据曝光数据中包含的cookie进行独立访问者的识别。例如,广告监测服务器连续两次收到包含cookie的请求,并且所述两次请求中包含的cookie信息相同,则两次请求会被识别为同一个独立访问者所发。但是,随着大众对隐私问题的关注程度不断提高,越来越多的人选择“关闭cookie追踪功能”,因此,网络监测系统监测到的部分访问请求可能不包含cookie,也就无法根据cookie识别独立访问者了。
另一种识别独立访问者的方式是利用设备指纹。设备指纹是根据用户上网设备的信息(比如,设备的操作系统版本及其序列号、浏览器版本及其序列号、屏幕分辨率、安装的插件及其序列号、使用的IP地址等信息)生成的。当用户访问被监测网页时,被监测网页中嵌入的代码会要求用户使用的浏览器向广告监测服务器发起HTTP请求,所述HTTP请求中会包含所述设备指纹。此方法的缺陷在于:不同设备可能具有相同的指纹。例如,收集设备信息时,可能只收集到浏览器标识(比如,IE)信息,而其他信息全部无法收集到,则具有相同浏览器标识的设备均具有相同的设备指纹,因此被识别为同一个独立访问者。实际情况虽然可能没有这样简单,但是某些更复杂一点的特征组合也可能普遍存在于多台设备中,即不同设备具有相同指纹的情况相当普遍。因此,仅仅根据设备指纹识别独立访问者存在不准确的情况。
发明内容
本发明所要解决的技术问题是提供一种监测网络访问活动的方法和系统,能够提高对网络访问行为监测的准确性。
为了解决上述技术问题,本发明提供了一种监测网络访问活动的方法,包括:
监测访问被监测页面的全部流量的曝光数据,其中每一条曝光数据均携带独立访问者的设备指纹信息;
将所述曝光数据中,携带cookie的曝光数据保存在样本集合中,其他曝光数据保存在估算集合中,将cookie作为所述样本集合中曝光数据的独立访问者标识,并根据所述样本集合建立设备指纹与cookie的关系模型;
对所述估算集合中具有所述关系模型中某一设备指纹的每条曝光数据,根据所述关系模型分配一个独立访问者标识。
进一步地,该方法还包括下述特点:
所述根据所述样本集合建立设备指纹与cookie的关系模型,包括:
根据所述样本集合中各条曝光数据的设备指纹和cookie,为每一种设备指纹建立一个访问子表,在该访问子表的每条记录中,保存具有该设备指纹的一组曝光数据所具有的一种cookie及该cookie在该组曝光数据中的出现次数。
进一步地,该方法还包括下述特点:
对所述估算集合中具有所述关系模型中某一设备指纹的每条曝光数据,根据所述关系模型分配一个独立访问者标识,包括:
对所述估算集合具有所述关系模型中设备指纹Fi的M条曝光数据分为k+1组,M=kN+M’,其中,N为所述样本集合中具有设备指纹Fi的曝光数据总数,k,M’为自然数;
对其中的k组曝光数据,将每一组的N条曝光数据再划分为Q个子组,每一子组对应设备指纹Fi的访问子表中的一条记录,每一子组的曝光数据条数等于对应记录中的出现次数,Q为设备指纹Fi的访问子表中的记录数;
对余下的M’条曝光数据组成的一组曝光数据,将所述M’条曝光数据分成Q’个子组,Q’≤Q,每一子组对应设备指纹Fi的访问子表中的一条记录,且至少有Q’-1个子组的曝光数据条数等于对应记录中的出现次数;
为同一组中同一子组的曝光数据分配相同的独立访问者标识,为不同组或同一组中不同子组的曝光数据分配不同的独立访问者标识。
进一步地,该方法还包括:
根据所述样本集合中各条曝光数据的cookie建立访问总表,在所述访问总表的每条记录中,保存所述样本集合中的曝光数据所具有的一种cookie及该cookie在该样本集合的曝光数据中的出现次数;
对所述估算集合中不具有所述关系模型中任一设备指纹的每条曝光数据,根据所述访问总表分配一个独立访问者标识。
进一步地,该方法还包括下述特点:
所述对所述估算集合中不具有所述关系模型中任一设备指纹的每条曝光数据,根据所述访问总表分配一个独立访问者标识,包括:
将所述估算集合中的全部M条曝光数据分为k+1组,M=kN+M’,其中,N为所述样本集合中的曝光数据总数,k,M’为自然数;
对其中的k组曝光数据,将每一组的N条曝光数据再划分为Q个子组,每一子组对应所述访问总表中的一条记录,每一子组的曝光数据条数等于对应记录中的出现次数,Q为所述混合访问表中的记录数;
对余下的M’条曝光数据组成的一组曝光数据,将所述M’条曝光数据分成Q’个子组,Q’≤Q,每一子组对应所述访问总表中的一条记录,且至少有Q’-1个子组的曝光数据条数等于对应记录中的出现次数;
为同一组中同一子组的曝光数据分配相同的独立访问者标识,为不同组或同一组中不同子组的曝光数据分配不同的独立访问者标识。
进一步地,该方法还包括:
根据所述样本集合的独立访问者标识以及所述估算集合的独立访问者标识,统计所述全部流量的到达频次。
为了解决上述技术问题,本发明还提供了一种监测网络访问活动的系统,包括:
监测模块,用于监测访问被监测页面的全部流量的曝光数据,其中每一条曝光数据均携带独立访问者的设备指纹信息;
统计模块,用于将所述曝光数据中,携带cookie的曝光数据保存在样本集合中,其他曝光数据保存在估算集合中,将cookie作为所述样本集合中曝光数据的独立访问者标识,并根据所述样本集合建立设备指纹与cookie的关系模型;
估算模块,用于对所述估算集合中具有所述关系模型中某一设备指纹的每条曝光数据,根据所述关系模型分配一个独立访问者标识。
进一步地,该系统还包括下述特点:
统计模块,用于根据所述样本集合建立设备指纹与cookie的关系模型,包括:
根据所述样本集合中各条曝光数据的设备指纹和cookie,为每一种设备指纹建立一个访问子表,在该访问子表的每条记录中,保存具有该设备指纹的一组曝光数据所具有的一种cookie及该cookie在该组曝光数据中的出现次数。
进一步地,该系统还包括下述特点:
估算模块,用于对所述估算集合中具有所述关系模型中某一设备指纹的每条曝光数据,根据所述关系模型分配一个独立访问者标识,包括:
对所述估算集合具有所述关系模型中设备指纹Fi的M条曝光数据分为k+1组,M=kN+M’,其中,N为所述样本集合中具有设备指纹Fi的曝光数据总数,k,M’为自然数;
对其中的k组曝光数据,将每一组的N条曝光数据再划分为Q个子组,每一子组对应设备指纹Fi的访问子表中的一条记录,每一子组的曝光数据条数等于对应记录中的出现次数,Q为设备指纹Fi的访问子表中的记录数;
对余下的M’条曝光数据组成的一组曝光数据,将所述M’条曝光数据分成Q’个子组,Q’≤Q,每一子组对应设备指纹Fi的访问子表中的一条记录,且至少有Q’-1个子组的曝光数据条数等于对应记录中的出现次数;
为同一组中同一子组的曝光数据分配相同的独立访问者标识,为不同组或同一组中不同子组的曝光数据分配不同的独立访问者标识。
进一步地,该系统还包括:
补充统计模块,用于根据所述样本集合中各条曝光数据的cookie建立访问总表,在所述访问总表的每条记录中,保存所述样本集合中的曝光数据所具有的一种cookie及该cookie在该样本集合的曝光数据中的出现次数;
补充估算模块,用于对所述估算集合中不具有所述关系模型中任一设备指纹的每条曝光数据,根据所述访问总表分配一个独立访问者标识。
进一步地,该系统还包括下述特点:
补充估算模块,用于对所述估算集合中不具有所述关系模型中任一设备指纹的每条曝光数据,根据所述访问总表分配一个独立访问者标识,包括:
将所述估算集合中的全部M条曝光数据分为k+1组,M=kN+M’,其中,N为所述样本集合中的曝光数据总数,k,M’为自然数;
对其中的k组曝光数据,将每一组的N条曝光数据再划分为Q个子组,每一子组对应所述访问总表中的一条记录,每一子组的曝光数据条数等于对应记录中的出现次数,Q为所述混合访问表中的记录数;
对余下的M’条曝光数据组成的一组曝光数据,将所述M’条曝光数据分成Q’个子组,Q’≤Q,每一子组对应所述访问总表中的一条记录,且至少有Q’-1个子组的曝光数据条数等于对应记录中的出现次数;
为同一组中同一子组的曝光数据分配相同的独立访问者标识,为不同组或同一组中不同子组的曝光数据分配不同的独立访问者标识。
进一步地,该系统还包括:
到达频次计算模块,用于根据所述样本集合的独立访问者标识以及所述估算集合的独立访问者标识,统计所述全部流量的到达频次。
与现有技术相比,本发明提供的一种监测网页曝光的方法和系统,监测全流量的曝光数据,每一条曝光数据均携带独立访问者的设备指纹信息,将携带cookie的曝光数据保存在样本集合中,其他曝光数据保存在估算集合中,根据样本集合建立设备指纹与cookie的关系模型,对估算集合中具有所述关系模型中某一设备指纹的每条曝光数据根据所述关系模型分配一个独立访问者标识,本发明能够提高对网络访问行为监测的准确性。
附图说明
图1为本发明实施例的一种监测网络访问活动的方法的流程图。
图2为本发明实施例的一种监测网络访问活动的系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
如图1所示,本发明实施例提供了一种监测网络访问活动的方法,包括:
S10,监测访问被监测页面的全部流量的曝光数据,其中每一条曝光数据均携带独立访问者的设备指纹信息;
S20,将所述曝光数据中,携带cookie的曝光数据保存在样本集合中,其他曝光数据保存在估算集合中,将cookie作为所述样本集合中曝光数据的独立访问者标识,并根据所述样本集合建立设备指纹与cookie的关系模型;
S30,对所述估算集合中具有所述关系模型中某一设备指纹的每条曝光数据,根据所述关系模型分配一个独立访问者标识。
该方法进一步包括下述特点:
优选地,所述根据所述样本集合建立设备指纹与cookie的关系模型,包括:
根据所述样本集合中各条曝光数据的设备指纹和cookie,为每一种设备指纹建立一个访问子表,在该访问子表的每条记录中,保存具有该设备指纹的一组曝光数据所具有的一种cookie及该cookie在该组曝光数据中的出现次数。
优选地,对所述估算集合中具有所述关系模型中某一设备指纹的每条曝光数据,根据所述关系模型分配一个独立访问者标识,包括:
对所述估算集合具有所述关系模型中设备指纹Fi的M条曝光数据分为k+1组,M=kN+M’,其中,N为所述样本集合中具有设备指纹Fi的曝光数据总数,k,M’为自然数;
对其中的k组曝光数据,将每一组的N条曝光数据再划分为Q个子组,每一子组对应设备指纹Fi的访问子表中的一条记录,每一子组的曝光数据条数等于对应记录中的出现次数,Q为设备指纹Fi的访问子表中的记录数;
对余下的M’条曝光数据组成的一组曝光数据,将所述M’条曝光数据分成Q’个子组,Q’≤Q,每一子组对应设备指纹Fi的访问子表中的一条记录,且至少有Q’-1个子组的曝光数据条数等于对应记录中的出现次数;
为同一组中同一子组的曝光数据分配相同的独立访问者标识,为不同组或同一组中不同子组的曝光数据分配不同的独立访问者标识。
优选地,为了对估算集合中不具有所述关系模型中任一设备指纹的每条曝光数据进行估算,还包括:
根据所述样本集合中各条曝光数据的cookie建立访问总表,在所述访问总表的每条记录中,保存所述样本集合中的曝光数据所具有的一种cookie及该cookie在该样本集合的曝光数据中的出现次数;
对所述估算集合中不具有所述关系模型中任一设备指纹的每条曝光数据,根据所述访问总表分配一个独立访问者标识。
优选地,对所述估算集合中不具有所述关系模型中任一设备指纹的每条曝光数据,根据所述访问总表分配一个独立访问者标识,包括:
将所述估算集合中的全部M条曝光数据分为k+1组,M=kN+M’,其中,N为所述样本集合中的曝光数据总数,k,M’为自然数;
对其中的k组曝光数据,将每一组的N条曝光数据再划分为Q个子组,每一子组对应所述访问总表中的一条记录,每一子组的曝光数据条数等于对应记录中的出现次数,Q为所述混合访问表中的记录数;
对余下的M’条曝光数据组成的一组曝光数据,将所述M’条曝光数据分成Q’个子组,Q’≤Q,每一子组对应所述访问总表中的一条记录,且至少有Q’-1个子组的曝光数据条数等于对应记录中的出现次数;
为同一组中同一子组的曝光数据分配相同的独立访问者标识,为不同组或同一组中不同子组的曝光数据分配不同的独立访问者标识。
优选地,在为估算集合中的每条曝光数据分配一个独立访问者标识后,还包括:根据所述样本集合的独立访问者标识以及所述估算集合的独立访问者标识,统计所述全部流量的到达频次。
如图2所示,本发明实施例提供了一种监测网络访问活动的系统,包括:
监测模块,用于监测访问被监测页面的全部流量的曝光数据,其中每一条曝光数据均携带独立访问者的设备指纹信息;
统计模块,用于将所述曝光数据中,携带cookie的曝光数据保存在样本集合中,其他曝光数据保存在估算集合中,将cookie作为所述样本集合中曝光数据的独立访问者标识,并根据所述样本集合建立设备指纹与cookie的关系模型;
估算模块,用于对所述估算集合中具有所述关系模型中某一设备指纹的每条曝光数据,根据所述关系模型分配一个独立访问者标识。
该系统进一步包括以下特点:
优选地,统计模块,用于根据所述样本集合建立设备指纹与cookie的关系模型,包括:
根据所述样本集合中各条曝光数据的设备指纹和cookie,为每一种设备指纹建立一个访问子表,在该访问子表的每条记录中,保存具有该设备指纹的一组曝光数据所具有的一种cookie及该cookie在该组曝光数据中的出现次数。
优选地,估算模块,用于对所述估算集合中具有所述关系模型中某一设备指纹的每条曝光数据,根据所述关系模型分配一个独立访问者标识,包括:
对所述估算集合具有所述关系模型中设备指纹Fi的M条曝光数据分为k+1组,M=kN+M’,其中,N为所述样本集合中具有设备指纹Fi的曝光数据总数,k,M’为自然数;
对其中的k组曝光数据,将每一组的N条曝光数据再划分为Q个子组,每一子组对应设备指纹Fi的访问子表中的一条记录,每一子组的曝光数据条数等于对应记录中的出现次数,Q为设备指纹Fi的访问子表中的记录数;
对余下的M’条曝光数据组成的一组曝光数据,将所述M’条曝光数据分成Q’个子组,Q’≤Q,每一子组对应设备指纹Fi的访问子表中的一条记录,且至少有Q’-1个子组的曝光数据条数等于对应记录中的出现次数;
为同一组中同一子组的曝光数据分配相同的独立访问者标识,为不同组或同一组中不同子组的曝光数据分配不同的独立访问者标识。
优选地,所述系统还包括补充统计模块和补充估算模块:
所述补充统计模块,用于根据所述样本集合中各条曝光数据的cookie建立访问总表,在所述访问总表的每条记录中,保存所述样本集合中的曝光数据所具有的一种cookie及该cookie在该样本集合的曝光数据中的出现次数;
补充估算模块,用于对所述估算集合中不具有所述关系模型中任一设备指纹的每条曝光数据,根据所述访问总表分配一个独立访问者标识。
优选地,补充估算模块,用于对所述估算集合中不具有所述关系模型中任一设备指纹的每条曝光数据,根据所述访问总表分配一个独立访问者标识,包括:
将所述估算集合中的全部M条曝光数据分为k+1组,M=kN+M’,其中,N为所述样本集合中的曝光数据总数,k,M’为自然数;
对其中的k组曝光数据,将每一组的N条曝光数据再划分为Q个子组,每一子组对应所述访问总表中的一条记录,每一子组的曝光数据条数等于对应记录中的出现次数,Q为所述混合访问表中的记录数;
对余下的M’条曝光数据组成的一组曝光数据,将所述M’条曝光数据分成Q’个子组,Q’≤Q,每一子组对应所述访问总表中的一条记录,且至少有Q’-1个子组的曝光数据条数等于对应记录中的出现次数;
为同一组中同一子组的曝光数据分配相同的独立访问者标识,为不同组或同一组中不同子组的曝光数据分配不同的独立访问者标识。
优选地,该系统还包括一到达频次计算模块,
到达频次计算模块,用于根据所述样本集合的独立访问者标识以及所述估算集合的独立访问者标识,统计所述全部流量的到达频次。
应用示例
(1)假设监测到全流量的曝光数据74条,其中,表1所示为携带cookie信息的14条曝光数据,表2所示为没有携带cookie信息的60条曝光数据。
编号 | 设备指纹 | Cookie | 编号 | 设备指纹 | Cookie |
1 | F1 | C1 | 8 | F2 | C4 |
2 | F1 | C1 | 9 | F2 | C5 |
3 | F1 | C1 | 10 | F2 | C6 |
4 | F1 | C2 | 11 | F2 | C6 |
5 | F1 | C3 | 12 | F3 | C7 |
6 | F1 | C3 | 13 | F3 | C8 |
7 | F2 | C4 | 14 | F3 | C9 |
表1(携带cookie和指纹)
编号 | 设备指纹 | 编号 | 设备指纹 | 编号 | 设备指纹 |
1 | F1 | 21 | F4 | 41 | F1 |
2 | F2 | 22 | F2 | 42 | F2 |
3 | F3 | 23 | F3 | 43 | F4 |
4 | F4 | 24 | F5 | 44 | F2 |
5 | F1 | 25 | F1 | 45 | F1 |
6 | F1 | 26 | F2 | 46 | F1 |
7 | F2 | 27 | F3 | 47 | F3 |
8 | F1 | 28 | F1 | 48 | F1 |
9 | F2 | 29 | F2 | 49 | F5 |
10 | F5 | 30 | F3 | 50 | F2 |
11 | F4 | 31 | F5 | 51 | F4 |
12 | F3 | 32 | F1 | 52 | F1 |
13 | F1 | 33 | F3 | 53 | F2 |
14 | F2 | 34 | F2 | 54 | F3 |
15 | F1 | 35 | F4 | 55 | F1 |
16 | F5 | 36 | F1 | 56 | F1 |
17 | F3 | 37 | F2 | 57 | F2 |
18 | F2 | 38 | F3 | 58 | F3 |
19 | F1 | 39 | F5 | 59 | F5 |
20 | F3 | 40 | F1 | 60 | F4 |
表2(仅携带指纹)
(2)统计过程:如表3-1、表3-2、表3-3所示,根据所述样本集合为设备指纹F1、F2、F3建立各自的访问子表T1(如表3-1所示)、T2(如表3-2所示)、T3(如表3-3所示),在该访问子表的每条记录中,保存具有该设备指纹的一组曝光数据所具有的一种cookie及该cookie在该组曝光数据中的出现次数。
编号 | Cookie | 出现次数 |
1 | C1 | 3 |
2 | C2 | 1 |
3 | C3 | 2 |
表3-1(访问子表T1)
编号 | Cookie | 出现次数 |
1 | C4 | 2 |
2 | C5 | 1 |
3 | C6 | 2 |
表3-2(访问子表T2)
编号 | Cookie | 出现次数 |
1 | C7 | 1 |
2 | C8 | 1 |
3 | C9 | 1 |
表3-3(访问子表T3)
(3)估算过程:对表2中的具有设备指纹F1、F2、F3的曝光数据,按照设备指纹进行分组。F1分组的曝光数据共有19条,F1对应的访问子表T1代表的曝光数据有6条,因此,将F1分组分成4个子组,前3个子组每个子组有6条曝光数据,最后1个小组有1条曝光数据。F2分组的曝光数据共有15条,F2对应的访问子表T2代表的曝光数据有5条,因此,将F2分组分成3个子组,每个子组有5条曝光数据。F3分组的曝光数据共有12条,F3对应的访问子表T3代表的曝光数据有3条,因此,将F3分组分成4个子组,每个子组有3条曝光数据。
对F1的前3个子组,可以将每一个子组中的第1-3条曝光数据映射到cookie标识C1,分配一个新的独立用户访问标识,第4条曝光数据映射到cookie标识C2,分配一个新的独立用户访问标识,第5-6条曝光数据映射到cookie标识C3,分配一个新的独立用户访问标识。对F1的最后1个子组,可以将该小组的第1条曝光数据映射到cookie标识C1,分配一个新的独立用户访问标识。综上,F1分组的19条曝光数据一共分配到10个独立用户标识。
对F2的3个子组,可以将每一个子组中的第1-2条曝光数据映射到cookie标识C4,分配一个新的独立用户访问标识,第3条曝光数据映射到cookie标识C5,分配一个新的独立用户访问标识,第4-5条曝光数据映射到cookie标识C6,分配一个新的独立用户访问标识。综上,F2分组的15条曝光数据一共分配到9个独立用户标识。
对F3的4个子组,可以将每一个子组中的第1条曝光数据映射到cookie标识C7,分配一个新的独立用户访问标识,第2条曝光数据映射到cookie标识C8,分配一个新的独立用户访问标识,第3条曝光数据映射到cookie标识C9,分配一个新的独立用户访问标识。综上,F3分组的12条曝光数据一共分配到12个独立用户标识。
(4)补充统计过程:如表4所示,根据所述样本集合建立访问总表T4,在所述访问总表T4的每条记录中,保存所述样本集合中的曝光数据所具有的一种cookie及该cookie在该样本集合的曝光数据中的出现次数。
编号 | Cookie | 出现次数 |
1 | C1 | 3 |
2 | C2 | 1 |
3 | C3 | 2 |
4 | C4 | 2 |
5 | C5 | 1 |
6 | C6 | 2 |
7 | C7 | 1 |
8 | C8 | 1 |
9 | C9 | 1 |
表4(访问总表T4)
(5)补充估计过程:对表2中的具有设备指纹F4、F5的曝光数据,分为一组。该分组的曝光数据共有14条,所述访问总表T4代表的曝光数据有14条,因此,将该组曝光数据分成1个子组。
对这个子组的曝光数据,可以将第1-3条曝光数据映射到cookie标识C1,分配一个新的独立用户访问标识,第4条曝光数据映射到cookie标识C2,分配一个新的独立用户访问标识,第5-6条曝光数据映射到cookie标识C3,分配一个新的独立用户访问标识,第7-8条曝光数据映射到cookie标识C4,分配一个新的独立用户访问标识,第9条曝光数据映射到cookie标识C5,分配一个新的独立用户访问标识,第10-11条曝光数据映射到cookie标识C6,分配一个新的独立用户访问标识,第12条曝光数据映射到cookie标识C7,分配一个新的独立用户访问标识,第13条曝光数据映射到cookie标识C8,分配一个新的独立用户访问标识,第14条曝光数据映射到cookie标识C9,分配一个新的独立用户访问标识。综上,该子组的14条曝光数据一共分配到9个独立用户标识。
(6)独立访问用户统计:将所述估算集合中的每一条曝光数据的独立访问者标识记录在表5中,一共有40个独立访问用户标识。
(7)计算全部流量的到达频次:针对全部74条曝光数据,根据所述样本集合中的9个cookie,以及所述估算集合中的40个独立访问用户标识,统计所述全部流量的到达频次,其中,至少曝光1次的独立访问者数量为49,至少曝光2次的独立访问者数量为15,至少曝光3次的独立访问者数量为5,至少曝光4次及4次以上的独立访问者数量为0。
上述实施例提供的一种监测网络访问活动的方法和系统,监测全流量的曝光数据,每一条曝光数据均携带独立访问者的设备指纹信息,将携带cookie的曝光数据保存在样本集合中,其他曝光数据保存在估算集合中,根据样本集合建立设备指纹与cookie的关系模型,对估算集合中具有所述关系模型中某一设备指纹的每条曝光数据根据所述关系模型分配一个独立访问者标识,上述实施例的方法和系统能够提高对网络访问行为监测的准确性。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
需要说明的是,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种监测网络访问活动的方法,包括:
监测访问被监测页面的全部流量的曝光数据,其中每一条曝光数据均携带独立访问者的设备指纹信息;
将所述曝光数据中,携带cookie的曝光数据保存在样本集合中,其他曝光数据保存在估算集合中,将cookie作为所述样本集合中曝光数据的独立访问者标识,并根据所述样本集合建立设备指纹与cookie的关系模型;
对所述估算集合中具有所述关系模型中某一设备指纹的每条曝光数据,根据所述关系模型分配一个独立访问者标识,包括:
对所述估算集合具有所述关系模型中设备指纹Fi的M条曝光数据分为k+1组,M=kN+M’,其中,N为所述样本集合中具有设备指纹Fi的曝光数据总数,k,M’为自然数;
对其中的k组曝光数据,将每一组的N条曝光数据再划分为Q个子组,每一子组对应设备指纹Fi的访问子表中的一条记录,每一子组的曝光数据条数等于对应记录中的出现次数,Q为设备指纹Fi的访问子表中的记录数;
对余下的M’条曝光数据组成的一组曝光数据,将所述M’条曝光数据分成Q’个子组,Q’≤Q,每一子组对应设备指纹Fi的访问子表中的一条记录,且至少有Q’-1个子组的曝光数据条数等于对应记录中的出现次数;
为同一组中同一子组的曝光数据分配相同的独立访问者标识,为不同组或同一组中不同子组的曝光数据分配不同的独立访问者标识。
2.如权利要求1所述的方法,其特征在于:
所述根据所述样本集合建立设备指纹与cookie的关系模型,包括:
根据所述样本集合中各条曝光数据的设备指纹和cookie,为每一种设备指纹建立一个访问子表,在该访问子表的每条记录中,保存具有该设备指纹的一组曝光数据所具有的一种cookie及该cookie在该组曝光数据中的出现次数。
3.如权利要求1所述的方法,其特征在于,还包括:
根据所述样本集合中各条曝光数据的cookie建立访问总表,在所述访问总表的每条记录中,保存所述样本集合中的曝光数据所具有的一种cookie及该cookie在该样本集合的曝光数据中的出现次数;
对所述估算集合中不具有所述关系模型中任一设备指纹的每条曝光数据,根据所述访问总表分配一个独立访问者标识。
4.如权利要求3所述的方法,其特征在于:
所述对所述估算集合中不具有所述关系模型中任一设备指纹的每条曝光数据,根据所述访问总表分配一个独立访问者标识,包括:
将所述估算集合中的全部M条曝光数据分为k+1组,M=kN+M’,其中,N为所述样本集合中的曝光数据总数,k,M’为自然数;
对其中的k组曝光数据,将每一组的N条曝光数据再划分为Q个子组,每一子组对应所述访问总表中的一条记录,每一子组的曝光数据条数等于对应记录中的出现次数,Q为设备指纹的访问子表中的记录数;
对余下的M’条曝光数据组成的一组曝光数据,将所述M’条曝光数据分成Q’个子组,Q’≤Q,每一子组对应所述访问总表中的一条记录,且至少有Q’-1个子组的曝光数据条数等于对应记录中的出现次数;
为同一组中同一子组的曝光数据分配相同的独立访问者标识,为不同组或同一组中不同子组的曝光数据分配不同的独立访问者标识。
5.如权利要求1-4中任一项所述的方法,其特征在于,还包括:
根据所述样本集合的独立访问者标识以及所述估算集合的独立访问者标识,统计所述全部流量的到达频次。
6.一种监测网络访问活动的系统,包括:
监测模块,用于监测访问被监测页面的全部流量的曝光数据,其中每一条曝光数据均携带独立访问者的设备指纹信息;
统计模块,用于将所述曝光数据中,携带cookie的曝光数据保存在样本集合中,其他曝光数据保存在估算集合中,将cookie作为所述样本集合中曝光数据的独立访问者标识,并根据所述样本集合建立设备指纹与cookie的关系模型;
估算模块,用于对所述估算集合中具有所述关系模型中某一设备指纹的每条曝光数据,根据所述关系模型分配一个独立访问者标识,包括:
对所述估算集合具有所述关系模型中设备指纹Fi的M条曝光数据分为k+1组,M=kN+M’,其中,N为所述样本集合中具有设备指纹Fi的曝光数据总数,k,M’为自然数;
对其中的k组曝光数据,将每一组的N条曝光数据再划分为Q个子组,每一子组对应设备指纹Fi的访问子表中的一条记录,每一子组的曝光数据条数等于对应记录中的出现次数,Q为设备指纹Fi的访问子表中的记录数;
对余下的M’条曝光数据组成的一组曝光数据,将所述M’条曝光数据分成Q’个子组,Q’≤Q,每一子组对应设备指纹Fi的访问子表中的一条记录,且至少有Q’-1个子组的曝光数据条数等于对应记录中的出现次数;
为同一组中同一子组的曝光数据分配相同的独立访问者标识,为不同组或同一组中不同子组的曝光数据分配不同的独立访问者标识。
7.如权利要求6所述的系统,其特征在于:
统计模块,用于根据所述样本集合建立设备指纹与cookie的关系模型,包括:
根据所述样本集合中各条曝光数据的设备指纹和cookie,为每一种设备指纹建立一个访问子表,在该访问子表的每条记录中,保存具有该设备指纹的一组曝光数据所具有的一种cookie及该cookie在该组曝光数据中的出现次数。
8.如权利要求6所述的系统,其特征在于,还包括:
补充统计模块,用于根据所述样本集合中各条曝光数据的cookie建立访问总表,在所述访问总表的每条记录中,保存所述样本集合中的曝光数据所具有的一种cookie及该cookie在该样本集合的曝光数据中的出现次数;
补充估算模块,用于对所述估算集合中不具有所述关系模型中任一设备指纹的每条曝光数据,根据所述访问总表分配一个独立访问者标识。
9.如权利要求8所述的系统,其特征在于:
补充估算模块,用于对所述估算集合中不具有所述关系模型中任一设备指纹的每条曝光数据,根据所述访问总表分配一个独立访问者标识,包括:
将所述估算集合中的全部M条曝光数据分为k+1组,M=kN+M’,其中,N为所述样本集合中的曝光数据总数,k,M’为自然数;
对其中的k组曝光数据,将每一组的N条曝光数据再划分为Q个子组,每一子组对应所述访问总表中的一条记录,每一子组的曝光数据条数等于对应记录中的出现次数,Q为设备指纹的访问子表中的记录数;
对余下的M’条曝光数据组成的一组曝光数据,将所述M’条曝光数据分成Q’个子组,Q’≤Q,每一子组对应所述访问总表中的一条记录,且至少有Q’-1个子组的曝光数据条数等于对应记录中的出现次数;
为同一组中同一子组的曝光数据分配相同的独立访问者标识,为不同组或同一组中不同子组的曝光数据分配不同的独立访问者标识。
10.如权利要求6-9中任一项所述的系统,其特征在于,还包括:
到达频次计算模块,用于根据所述样本集合的独立访问者标识以及所述估算集合的独立访问者标识,统计所述全部流量的到达频次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410101372.3A CN104933058B (zh) | 2014-03-18 | 2014-03-18 | 一种监测网络访问活动的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410101372.3A CN104933058B (zh) | 2014-03-18 | 2014-03-18 | 一种监测网络访问活动的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104933058A CN104933058A (zh) | 2015-09-23 |
CN104933058B true CN104933058B (zh) | 2018-09-11 |
Family
ID=54120226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410101372.3A Active CN104933058B (zh) | 2014-03-18 | 2014-03-18 | 一种监测网络访问活动的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104933058B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243006B (zh) * | 2015-09-30 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 基于流量实验的流量层设置及流量实验的实现方法和装置 |
CN108229987A (zh) * | 2016-12-14 | 2018-06-29 | 腾讯科技(深圳)有限公司 | 一种广告库存估算方法及装置 |
CN108259482B (zh) * | 2018-01-04 | 2019-05-28 | 平安科技(深圳)有限公司 | 网络异常数据检测方法、装置、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101984778A (zh) * | 2008-01-26 | 2011-03-09 | 思杰系统有限公司 | 用于细粒度策略驱动的cookie代理的系统和方法 |
CN103493435A (zh) * | 2010-12-07 | 2014-01-01 | 帕拉斯泰克股份公司 | 使用网络分组的共享终端标识系统及其处理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8733732B2 (en) * | 2010-05-24 | 2014-05-27 | Eaton Corporation | Pressurized o-ring pole piece seal for a manifold |
-
2014
- 2014-03-18 CN CN201410101372.3A patent/CN104933058B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101984778A (zh) * | 2008-01-26 | 2011-03-09 | 思杰系统有限公司 | 用于细粒度策略驱动的cookie代理的系统和方法 |
CN103493435A (zh) * | 2010-12-07 | 2014-01-01 | 帕拉斯泰克股份公司 | 使用网络分组的共享终端标识系统及其处理方法 |
Non-Patent Citations (1)
Title |
---|
SYNFlood型DDoS攻击检测与防御研究;李铮;《中国优秀硕士学位论文全文数据库信息科技辑》;20070915(第03期);第1-78页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104933058A (zh) | 2015-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10929879B2 (en) | Method and apparatus for identification of fraudulent click activity | |
Gibson et al. | Sampling method influences the structure of plant–pollinator networks | |
KR20140136480A (ko) | 실증적 전문가 결정 및 질문 라우팅 시스템 및 방법 | |
JP2015512081A (ja) | オンラインオーディエンスを測定するシステム、方法及び製造品 | |
CN106844220A (zh) | 一种模拟计算机网络应用程序真实运行环境的测试方法和系统 | |
CN103647800A (zh) | 推荐应用资源的方法及系统 | |
CN107179995A (zh) | 一种计算机网络应用程序的性能测试方法 | |
CN104933058B (zh) | 一种监测网络访问活动的方法和系统 | |
CN107808309A (zh) | 一种基于不同社交网络的广告整合、发布系方法及系统 | |
CN103177380A (zh) | 结合用户群与预投放的广告投放效果的优化方法和装置 | |
US20090259525A1 (en) | Internet Probability Sampling | |
Schäfer et al. | Audiences of science communication between pluralisation, fragmentation and polarisation | |
CN105701097A (zh) | 一种基于社交网络平台的舆情分析方法及系统 | |
US11936618B2 (en) | Internet connected household identification for online measurement and dynamic content delivery | |
CN114024737B (zh) | 确定直播间刷量的方法、装置及计算机可读存储介质 | |
CN109978547A (zh) | 风险行为控制方法及系统、设备和存储介质 | |
CN106611348A (zh) | 异常流量的检测方法和装置 | |
CN107729438B (zh) | 一种用户行为数据建立及分析方法 | |
CN104376071B (zh) | 推广信息的监测方法及装置 | |
CN107276988B (zh) | 游戏对局质量确定方法与装置 | |
Shashidhara | Use of ICT’s by extension personnel in dissemination of agriculture information in north eastern Karnataka | |
Hussin et al. | Preliminary Analysis of Adoption of Sago Smallholders Satellite Estate Development (SSSED) Programme among Sago Cultivators in Mukah/Dalat Areas of Sarawak, Malaysia. | |
Manzaneda et al. | Geographic variation in seed removal of a myrmecochorous herb: influence of variation in functional guild and species composition of the disperser assemblage through spatial and temporal scales | |
CN106202094B (zh) | 一种吸引力指数信息的确定方法和装置 | |
CN104281691B (zh) | 一种基于搜索引擎的数据处理方法及平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Room 2020, second floor, building 27, No. 25, North Third Ring West Road, Haidian District, Beijing 100080 Patentee after: Beijing minglue Zhaohui Technology Co.,Ltd. Address before: 100086 room 084, room 1704, 17 / F, Qingyun contemporary building, building 9, Manting Fangyuan community, Qingyun Li, Haidian District, Beijing Patentee before: BEIJING SUPERTOOL INTERNET TECHNOLOGY LTD. |
|
CP03 | Change of name, title or address |