CN103970752A - 独立访问者数量估算方法和系统 - Google Patents

独立访问者数量估算方法和系统 Download PDF

Info

Publication number
CN103970752A
CN103970752A CN201310030660.XA CN201310030660A CN103970752A CN 103970752 A CN103970752 A CN 103970752A CN 201310030660 A CN201310030660 A CN 201310030660A CN 103970752 A CN103970752 A CN 103970752A
Authority
CN
China
Prior art keywords
value
variate
identify label
terminal iidentification
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310030660.XA
Other languages
English (en)
Other versions
CN103970752B (zh
Inventor
丁若谷
冯是聪
陈家耀
吴明辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SIBOTU INFORMATION TECHNOLOGY Co Ltd
Original Assignee
BEIJING SIBOTU INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SIBOTU INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING SIBOTU INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310030660.XA priority Critical patent/CN103970752B/zh
Publication of CN103970752A publication Critical patent/CN103970752A/zh
Application granted granted Critical
Publication of CN103970752B publication Critical patent/CN103970752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种独立访问者数量估算方法及系统,该方法包括:采集步骤,采集终端的终端标识及与各终端标识对应的身份标识;初始化步骤,初始化每个身份标识的变量值为初始值;终端标识变量值计算步骤,根据各个终端标识对应的身份标识的变量值计算各个终端标识的变量值;估算步骤,提取访问过指定内容的终端标识,基于访问过指定内容的终端标识的变量值估算访问该指定内容的独立访问者数量。本发明独立访问者数量估算方法和系统可以提高独立访问者数量估算的准确性。

Description

独立访问者数量估算方法和系统
技术领域
本发明涉及一种信息处理技术,尤其涉及一种独立访问者数量估算方法和系统。
背景技术
互联网环境下,独立访问者(Unique Visitor,UV)指访问某网站的用户群体中独立于其他个体而真实存在的自然人,独立访问者的数量是一种十分重要的统计指标。例如:某篇网络新闻的独立访问者数量反映了其受到关注的程度;某项调查的独立访问者数量关系到参与调查的人群基数大小;某条广告的独立访问者数量表示了多少人认知了广告的内容;等等。因此,准确地估算独立访问者数量在这些场景下将能够发挥很大的作用。在上述例子中,媒体的决策者能够根据每篇新闻的读者多少决定未来新闻采编的方向;发布调查的机构能够了解调查覆盖的人数是否足够使结果的可靠性达到特定的置信区间;广告主一方面能够根据收看一则广告的独立访问者的数量来判断该广告的到达率(Reach)是否达到预定的指标,另一方面还能够避免同一广告因为向同一用户展示的频率(Frequency)过高造成浪费。如果独立访问者数量可以估算得更准确,那么更多的需要这一统计指标的行业还将受益,而且还可能发掘出潜在的新行业。因此,对独立访问者数量进行准确估算的意义非常重大。
公开于2011年11月24日、公开号为US 2011/0288940 A1的美国专利申请公开了一种基于特征指纹(fingerprint-based)的独立访问者数量估算方法。该方法基于用户上网时的浏览器类型、操作系统类型、IP(一种互联网协议,可用于识别用户的大致位置、所属网络等信息)地址等特征把多个不同的cookie(某些网站为了辨别用户身份而储存在用户本地终端上的数据)对应到一个独立访问者。但该技术方案仅考虑了多个cookie对应一个独立访问者的情况,而没有考虑多个独立访问者对应一个cookie的情况。例如,某公司部署了一百台桌面工作站供员工使用,使用了同一批采购的硬件、系统镜像安装的软件,因而上述特征完全相同,使用这批工作站上网的员工很可能被识别为同一个独立访问者。
另,公开于2012年6月28日、公开号为2012/0166379 A1的美国专利申请公开了一种基于聚类(clustering-based)的独立访问者数量估算方法。该方法根据用户的上网历史行为,把多个不同的cookie聚类在一起,然后把这个聚类在一起的多个cookie对应到同一个独立访问者。这样就可以根据聚类的个数把独立访问者的个数估算出来。基于聚类的方法最大的优点是,可以把多个不同的cookie物理地聚类在一起,这对于那些经常清空cookie的用户识别非常有用。比如,某用户经常在网吧上网,由于网吧的电脑装有还原卡,每次登陆时都会清空cookie,因而该用户就对应多个cookie。然而,这一类方法和基于特征指纹的方法有同样的问题,即没有考虑多个独立访问者对应一个cookie的情况,导致估算的独立访问者数量准确度较低。
发明内容
本发明所要解决的技术问题是本发明要解决的技术问题是提供一种独立访问者数量估算方法及系统,以提高独立访问者数量估算的准确性。
为了解决上述技术问题,本发明提供了一种独立访问者数量估算方法,该方法包括:
采集步骤,采集终端的终端标识及与各终端标识对应的身份标识;
初始化步骤,初始化每个身份标识的变量值为初始值;
终端标识变量值计算步骤,根据各个终端标识对应的身份标识的变量值计算各个终端标识的变量值;
估算步骤,提取访问过指定内容的终端标识,基于访问过指定内容的终端标识的变量值估算访问该指定内容的独立访问者数量。
为解决上述技术问题,本发明还提供了一种独立访问者数量估算系统,该系统包括:
采集装置,用于采集终端的终端标识及与各终端标识对应的身份标识;
初始化装置,用于初始化每个身份标识的变量值为初始值;
终端标识变量值计算装置,用于根据各个终端标识对应的身份标识的变量值计算各个终端标识的变量值;
估算装置,用于提取访问过指定内容的终端标识,基于访问过指定内容的终端标识的变量值估算访问该指定内容的独立访问者数量。
与现有技术相比,本发明方法和系统考虑了多个cookie可能对应一个独立访问者以及一个cookie也可能对应多个独立访问者的情形,通过将这些身份标识和用于识别用户使用的终端的终端标识建立联系,进而确定各个终端标识对应的可能的独立访问者的数量。当用户指定某部分互联网内容进行独立访问者数量统计时,记录请求过这部分内容的终端标识,利用和这部分终端标识估算对应的独立访问者数量,提高了独立访问者数量估算的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
图1是本发明独立访问者数量估算方法实施例1的示意图;
图2是本发明中独立访问者、即时通讯账号、社交网络账号和Cookie ID之间的关系示意图;
图3是本发明独立访问者数量估算方法实施例2的示意图;
图4-图11是本发明应用实例的示意图;
图12是应用本发明方法得到独立访问者数量的示例示意图;
图13是本发明独立访问者数量估算系统的模块结构示意图。
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图和具体实施例对本发明所述技术方案作进一步的详细描述,以使本领域的技术人员可以更好的理解本发明并能予以实施,但所举实施例不作为对本发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1
本发明独立访问者数量估算方法实施例1,如1图所示,该方法包括:
步骤101:采集步骤,采集终端的终端标识及与各终端标识对应的身份标识;
在特定时间段或特定时间点执行所述采集步骤。具体通过多种数据来源收集访问者的身份标识,将这些身份标识和用于识别用户使用的终端的终端标识建立对应关系。
本文所说的终端标识是访问者访问互联网内容时被记录的用于标识终端的标识信息,可以为用于识别终端的Cookie的标识,下文简称Cookie ID;所述身份标识是能够区分独立于其他个体而真实存在的自然人的信息,包括但不限于以下一种或多种类别:博客账号、社交网络账号、即时通讯工具账号、电子商务账号、通过频繁模式挖掘、聚类分析、商业合作或其他途径得到的用于标识身份的标识信息。
一般而言,通过频繁模式挖掘、聚类分析等手段,从访问者的访问记录、其他技术特征中得到身份标识相对较不可靠,但根据需求或具体情形仍可用于估算独立访问者数量。
每个身份标识都可能是一个潜在的独立访问者,因此本文及附图中也将身份标识称为潜在独立访问者。
以下图2所示的示例说明了本发明涉及的概念之间的关系。图中,三个独立访问者分别控制(或共同控制)一个或多个访问者的身份标识,图中的身份标识为即时通讯账号和(或)社交网络账号;这些账号又分别和一个或多个终端标识存在联系(也可称为对应关系),图中的终端标识为cookie ID。
可以看出,本发明中,所述终端标识与所述身份标识之间的对应关系可以为一对一、一对多、多对一或多对多。
步骤102:初始化步骤,初始化每个身份标识的变量值为初始值;
具体地,所述身份标识的初始值可根据经验进行预设,该初始值表示该身份标识(潜在独立访问者)可能对应的独立访问者数量。
优选地,身份标识的初始值可根据采集到的身份标识数量与真实总体独立用户数量的比值的倒数确定或根据经验确定。例如,采集到100万个身份标识,又通过其他途径(样本调研等)得到使用这些身份标识的独立用户共120万人,则身份标识的初始值可取120万/100万=1.2。又如,可根据经验,取1为初始值。当然除上述方法外还可以根据其他方法确定身份标识的初始值,本发明对此并不限定。
步骤103:终端标识变量值计算步骤,根据各个终端标识对应的身份标识的变量值计算各个终端标识的变量值;
计算得到的终端标识的变量值用于表示该终端标识可能对应的独立访问者数量,基于步骤101建立的终端标识与身份标识的对应关系,终端标识的变量值根据该终端标识对应的所有的身份标识的变量值确定。
可选地,设定每个类别的身份标识的权重为第一权重,设定步骤101中建立的每个类别的身份标识与终端标识的权重为第二权重,不同对应关系的权重可相同或不同。终端标识的变量值等于其对应的各个身份标识的身份标识变量值与第一权重、第二权重乘积的和。
包括但不限于根据每个类别的身份标识数量与所有身份标识数量的比例计算、采用平均分配算法计算第一权重,各类别身份标识的权重之和为1。
包括但不限于根据终端标识与身份标识联系强弱计算、采用平均分配算法计算第二权重,每个身份标识对应的各对应关系的权重之和为1。
步骤104:估算步骤,提取访问过指定内容的终端标识,基于访问过指定内容的终端标识的变量值估算访问该指定内容的独立访问者数量。
当用户指定某部分互联网内容进行独立访问者数量统计时,记录请求过这部分内容的cookie ID,利用这部分cookie ID的变量值,估算其对应的独立访问者数量。
具体地,可统计这部分cookie ID的变量值之和,乘以比值1,即为独立访问者数量的估算值。
上述比值1的计算方法是使用请求过所有互联网内容的cookie ID的数量,除以建立了与身份标识联系的cookie ID的数量,得到的比值1。即,我们将部分cookie ID上得到的结果等比例放大到全体cookie ID上。
这种方法是一个例子,不一定使用等比例放大;如果我们采集到的数据足够多,例如能够覆盖所有cookie ID,那么乘以比值1这一步就是不必要的。
本发明方法通过终端标识和身份标识间的对应关系,得到终端标识和独立访问者间的联系,进而通过终端标识估算独立访问者数量。
实施例2
本发明独立访问者数量估算方法实施例2,如图3所示,该方法包括:
步骤301:采集步骤,采集终端的终端标识及与各终端标识对应的身份标识;
在特定时间段或特定时间点执行所述采集步骤。具体通过多种数据来源收集访问者的身份标识,将这些身份标识和用于识别用户使用的终端的终端标识建立对应关系。
如上文所述,所述终端标识与所述身份标识之间的对应关系为一对一、一对多、多对一或多对多。
所述终端标识为用于识别终端的Cookie的标识;所述身份标识包括以下一种或多种类别:博客账号、社交网络账号、即时通讯工具账号、电子商务账号、通过频繁模式挖掘、聚类分析或商业合作得到的用于标识身份的标识信息。
步骤302:初始化步骤,初始化每个身份标识的变量值为初始值;
具体地,所述身份标识的初始值可根据经验进行预设,优选地,身份标识的初始值根据采集到的身份标识数量与真实总体独立用户数量的比值的倒数确定或根据经验确定。
步骤303:终端标识变量值更新步骤,利用预定的第一算法根据各个终端标识对应的所有身份标识的当前变量值计算各个终端标识的变量值;
计算得到的终端标识的变量值用于表示该终端标识可能对应的独立访问者数量,基于步骤301建立的终端标识与身份标识的对应关系,终端标识的变量值根据该终端标识对应的所有的身份标识的变量值确定。
可理解地,第一次执行步骤303与第二次执行步骤303利用的算法都是预定的第一算法。
步骤304:迭代终止判断步骤,判断是否符合迭代终止条件,如符合则转执行步骤306,否则转执行步骤305;
所述迭代终止条件是所述终端标识的当前变量值与更新前的变量值的当前差值小于预设阈值,或所述当前差值与第一次得到的差值的比例小于预设阈值,或执行终端标识变量值更新步骤的次数达到预设阈值。
步骤305:身份标识变量值更新步骤,利用预定的第二算法根据各个身份标识对应的所有终端标识的变量值更新各个身份标识的变量值,并转执行终端标识变量值更新步骤303;
计算得到的身份标识的变量值用于表示该身份标识可能对应的独立访问者数量,基于步骤301建立的终端标识与身份标识的对应关系,身份标识的变量值根据该终端标识对应的所有的终端标识的变量值确定。
同样的,第一次执行步骤305与第二次执行步骤305利用的算法都是预定的第二算法。
以上步骤303至305是该实施例2中根据各个终端标识对应的身份标识的变量值计算各个终端标识的变量值的具体过程。
可选地,该第一算法也可采用实施例1中的方式,即,设定每个类别的身份标识的权重为第一权重,设定步骤101中建立的每个身份标识到终端标识的对应关系的权重为第二权重,不同对应关系的权重可相同或不同。则所述终端标识变量值更新步骤303中,终端标识的变量值等于其对应的各个身份标识的身份标识变量值与第一权重、第二权重乘积的和。
包括但不限于根据每个类别的身份标识数量与所有身份标识数量的比例计算、采用平均分配算法计算第一权重,各类别身份标识的权重之和为1。
包括但不限于根据终端标识与身份标识联系强弱计算、采用平均分配算法计算第二权重,每个身份标识对应的各对应关系的权重之和为1。
可理解地,采用平均计算方法可以达到将各个身份标识的变量值平均分配给其对应的各个终端标识或将各个终端标识的变量值平均分配给其对应的各个身份标识。
可选地,所述第二算法指所述身份标识的变量值等于其对应的各个终端标识的终端标识变量值与第三权重乘积的和,其中第三权重为每个终端标识到身份标识的对应关系的权重。
第三权重是根据身份标识与终端标识联系强弱计算或采用平均分配算法计算的,每个终端标识对应的各对应关系的权重之和为1。
步骤306:估算步骤,提取访问过指定内容的终端标识,基于访问过指定内容的终端标识的变量值估算访问该指定内容的独立访问者数量。
用户指定某部分互联网内容进行独立访问者数量统计,提取请求过用户指定内容的Cookie ID和请求次数,估算独立访问者数量。估算方法即请求过用户指定内容的Cookie ID中的标记变量之和;若请求次数大于相应独立ID中标记变量的值,仅计算请求次数。
应用实例
以下以图2为例结合图4至图11对本发明实施例2进行详细说明。
图4至图11中,从即时通讯账号或社交网络账号到Cookie ID的连接线上的变量值,为Cookie ID从对应的即时通讯账号或社交网络账号得到的变量值,从Cookie ID到即时通讯账号或社交网络账号的连接线上的变量值,为即时通讯账号或社交网络账号从对应的Cookie ID得到的变量值。
首先采集Cookie ID和某种即时通讯工具账号的对应关系,以及CookieID和某个社交网络账号的对应关系。图中Cookie ID和社交网络账号间展示了三种对应关系:一对一,一对多,多对一。
该应用实例中,身份标识的变量值的初始值为1,如图4(a)所示将所有身份标识(潜在独立访问者)的变量值标记为1,该应用实例中,根据每个类别的身份标识数量与所有身份标识数量的比例计算第一权重,由于在上一步提取出的即时通讯账号个数为3,提取出的社交网络账号个数为4,在计算Cookie ID的标记值时,即时通讯账号的第一权重为3/7,社交网络账号的第一权重为4/7,采用平均分配算法计算每个身份标识到终端标识的对应关系的权重作为第二权重,即将身份标识的变量值平均分配给其对应的每个Cookie ID,根据上文所述的第一算法,最终结果四舍五入,作为Cookie ID的变量值,如图4(b)所示,以第四个Cookie ID为例,第四个Cookie ID对应第二、三个即时通信账号、第三、四个社交网络账号,其中,第二个即时通信账号对应第二、三、四共三个Cookie ID,因此这三个对应关系的权重(即第二权重)均为0.33,图4(b)中,因此第二个即时通信账号分配给该第四个Cookie ID的变量值为0.33,而第三个即时通信账号、第三、四个社交网络账号均只对应一个Cookie ID即第四个Cookie ID,因此这三个对应关系的权重(即第二权重)均是1,第三个即时通信账号、第三、四个社交网络账号分配给该第四个Cookie ID的变量值均为1,则根据第一算法第四个Cookie ID的变量值约为1.71,其计算公式为:
1*0.33*3/7+1*1*3/7+1*1*4/7+1*1*4/7≈1.71。
该应用实例中,迭代终止条件设定为Cookie ID的变化值(即当前变量值与上一变量值的差值)小于0.02,可默认Cookie ID变量值的初始值为0,则不符合迭代终止条件,该应用实例中,采用平均分配算法计算每个终端标识到身份标识的对应关系的权重作为第三权重,即,将Cookie ID的变量值在每一身份标识类别内部平均分配给其对应的潜在独立访问者,如图5(a)所示,以第二个即时通讯账号为例进行说明:第二个和第三个Cookie ID均只对应第二个即时通讯账号,因此这两个对应关系的权重(即第二权重)均是1,第二个和第三个Cookie ID均将变量值0.43分配给该第二即时通讯账号,第三个Cookie ID在即时通信账号类别内对应第二、三个即时通讯账号,因此这两个对应关系的权重(即第二权重)均为0.5,第三个Cookie ID分配给第二、三个即时通讯账号的变量值均为0.86,因此第二个即时通讯账号分配得到三个变量值,分别为0.43、0.43和0.86,因此第二个即时通讯账号更新后的变量值为0.72,其计算公式为:0.43*1+0.43*1+1.71*0.5=1.72。
图5(b)中示意了再次根据即时通讯账号和社交网络账号的变量值更新Cookie ID的变量值,具体的处理方法与图4(b)示意的处理方法类似,在此不再赘述。
图6至图11示意了多次迭代的过程,每次迭代之后都判断是否符合迭代终止条件,若不符合,则继续执行迭代过程,可以发现图11(b)中,各个Cookie ID的变量值与图10(b)中各个Cookie ID的变量值的差值都小于0.02,因此迭代终止。
根据图11(b)可以得知,各个Cookie ID的最终变量值分别为1、0.63、0.63和1.36。
假定如图12所示,只有标记为1.36的Cookie ID请求过用户指定内容,若采用前述比值的方法,得到比值1为1,则独立访问者数量可估算为1.36。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
为了实现上述方法实施例,本发明还提供了一种独立访问者数量估算系统,如图13所示,该系统包括:
采集装置,用于采集终端的终端标识及与各终端标识对应的身份标识;
可选地,在特定时间段或特定时间点采集终端的终端标识及与各终端标识对应的至少两种类别的身份标识。所述终端标识与所述身份标识之间的对应关系为一对一、一对多、多对一或多对多。
所述终端标识为用于识别终端的Cookie的标识;所述身份标识包括以下一种或多种类别:博客账号、社交网络账号、即时通讯工具账号、电子商务账号、通过频繁模式挖掘、聚类分析或商业合作得到的用于标识身份的标识信息。
初始化装置,用于初始化每个身份标识的变量值为初始值;
所述身份标识的初始值可根据采集到的身份标识数量与真实总体独立用户数量的比值的倒数确定或根据经验确定,这里给出的仅为示例,本发明并不排除采用其他方法确定身份标识的初始值。
终端标识变量值计算装置,用于根据各个终端标识对应的身份标识的变量值计算各个终端标识的变量值;
估算装置,用于提取访问过指定内容的终端标识,基于访问过指定内容的终端标识的变量值估算访问该指定内容的独立访问者数量。
对应于方法实施例1,则所述终端标识变量值计算装置计算终端标识的变量值等于其对应的各个身份标识的身份标识变量值与第一权重、第二权重乘积的和,其中第一权重为每个类别的身份标识的权重,第二权重为每个身份标识到终端标识的对应关系的权重。
对应于方法实施例2,所述终端标识变量值计算装置包括:
终端标识变量值更新单元,用于利用预定的第一算法根据各个终端标识对应的所有身份标识的当前变量值计算各个终端标识的变量值;
迭代终止判断单元,得到各个终端标识的变量值后,用于判断是否符合迭代终止条件,并在不符合时通知身份标识变量值更新单元更新身份标识的变量值;
身份标识变量值更新单元,用于利用预定的第二算法根据各个身份标识对应的所有终端标识的变量值更新各个身份标识的变量值;
所述迭代终止条件是所述终端标识的当前变量值与更新前的变量值的当前差值小于预设阈值,或所述当前差值与第一次得到的差值的比例小于预设阈值,或执行终端标识变量值更新步骤的次数达到预设阈值。
进一步地,可选地,所述第一算法指所述终端标识的变量值等于其对应的各个身份标识的身份标识变量值与第一权重、第二权重乘积的和,其中,其中第一权重为每个类别的身份标识的权重,第二权重为每个身份标识到终端标识的对应关系的权重。
第一权重是根据每个类别的身份标识数量与所有身份标识数量的比例计算、采用平均分配算法计算或根据经验确定的,各类别身份标识的权重之和为1;第二权重是根据终端标识与身份标识联系强弱计算或采用平均分配算法计算的,每个身份标识对应的各对应关系的权重之和为1。
所述第二算法指所述身份标识的变量值等于其对应的各个终端标识的终端标识变量值与第三权重乘积的和,其中第三权重为每个终端标识到身份标识的对应关系的权重。
第三权重是根据身份标识与终端标识联系强弱计算或采用平均分配算法计算的,每个终端标识对应的各对应关系的权重之和为1。
本发明方法和系统通过将这些身份标识和用于识别用户使用的终端的终端标识建立联系,进而确定各个终端标识对应的可能的独立访问者的数量。当用户指定某部分互联网内容进行独立访问者数量统计时,记录请求过这部分内容的终端标识,利用和这部分终端标识估算对应的独立访问者数量。为了提高数据准确率,优选地,可通过多种数据来源收集访问者的身份标识。
与现有技术相比,本发明方案不仅考虑了多个cookie可能对应一个独立访问者以及一个cookie也可能对应多个独立访问者的情形,同时通过多个不同类别的身份标识的交叉验证,克服了基于单一来源身份标识方法准确率不高的缺点;且本发明中提出的方法不需要安装任何客户端。在实际应用中,本发明的方法要方便的多。
本领域的技术人员应该明白,上述的本申请实施例所提供的系统和/或系统的各组成部分,以及方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上。可选地,它们可以用计算装置可执行的程序代码来实现。从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
本发明实施例中所描述的各种单元、模块仅是根据其功能进行划分的一种示例,可理解地,在系统/装置/设备实现相同功能的情况下,本领域技术人员可给出一种或多种其他功能划分方式,在具体应用时可将其中任意一个或多个功能模块采用一个功能实体装置或单元实现,不可否认地,以上变换方式均在本申请保护范围之内。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (23)

1.一种独立访问者数量估算方法,其特征在于,该方法包括:
采集步骤,采集终端的终端标识及与各终端标识对应的身份标识;
初始化步骤,初始化每个身份标识的变量值为初始值;
终端标识变量值计算步骤,根据各个终端标识对应的身份标识的变量值计算各个终端标识的变量值;
估算步骤,提取访问过指定内容的终端标识,基于访问过指定内容的终端标识的变量值估算访问该指定内容的独立访问者数量。
2.如权利要求1所述的方法,其特征在于,终端标识的变量值等于其对应的各个身份标识的身份标识变量值与第一权重、第二权重乘积的和,其中第一权重为每个类别的身份标识的权重,第二权重为每个身份标识到终端标识的对应关系的权重。
3.如权利要求1所述的方法,其特征在于,所述终端标识变量值计算步骤包括:
终端标识变量值更新子步骤,利用预定的第一算法根据各个终端标识对应的所有身份标识的当前变量值计算各个终端标识的变量值;
迭代终止判断子步骤,判断是否符合迭代终止条件,如符合则终端标识变量值计算步骤结束,否则转执行身份标识变量值更新子步骤。
身份标识变量值更新子步骤,利用预定的第二算法根据各个身份标识对应的所有终端标识的变量值更新各个身份标识的变量值,并转执行终端标识变量值更新子步骤;
4.如权利要求3所述的方法,其特征在于:所述第一算法指所述终端标识的变量值等于其对应的各个身份标识的身份标识变量值与第一权重、第二权重乘积的和,其中第一权重为每个类别的身份标识的权重,第二权重为每个身份标识到终端标识的对应关系的权重。
5.如权利要求2或4所述的方法,其特征在于,第一权重是根据每个 类别的身份标识数量与所有身份标识数量的比例计算、采用平均分配算法计算或根据经验确定的,各类别身份标识的权重之和为1;第二权重是根据终端标识与身份标识联系强弱计算或采用平均分配算法计算的,每个身份标识对应的各对应关系的权重之和为1。
6.如权利要求3所述的方法,其特征在于,所述第二算法指所述身份标识的变量值等于其对应的各个终端标识的终端标识变量值与第三权重乘积的和,其中第三权重为每个终端标识到身份标识的对应关系的权重。
7.如权利要求6所述的方法,其特征在于,第三权重是根据身份标识与终端标识联系强弱计算或采用平均分配算法计算的,每个终端标识对应的各对应关系的权重之和为1。
8.如权利要求3所述的方法,其特征在于:所述迭代终止条件是所述终端标识的当前变量值与更新前的变量值的当前差值小于预设阈值,或所述当前差值与第一次得到的差值的比例小于预设阈值,或执行终端标识变量值更新步骤的次数达到预设阈值。
9.如权利要求1所述的方法,其特征在于:所述终端标识与所述身份标识之间的对应关系为一对一、一对多、多对一或多对多。
10.如权利要求1所述的方法,其特征在于:所述终端标识为用于识别终端的Cookie的标识;所述身份标识包括以下一种或多种类别:博客账号、社交网络账号、即时通讯工具账号、电子商务账号、通过频繁模式挖掘、聚类分析或商业合作得到的用于标识身份的标识信息。
11.如权利要求1所述的方法,其特征在于:所述身份标识的初始值根据采集到的身份标识数量与真实总体独立用户数量的比值的倒数确定或根据经验确定。
12.如权利要求1所述的方法,其特征在于:在特定时间段或特定时间点执行所述采集步骤。
13.一种独立访问者数量估算系统,其特征在于,该系统包括:
采集装置,用于采集终端的终端标识及与各终端标识对应的身份标识;
初始化装置,用于初始化每个身份标识的变量值为初始值;
终端标识变量值计算装置,用于根据各个终端标识对应的身份标识的变量值计算各个终端标识的变量值;
估算装置,用于提取访问过指定内容的终端标识,基于访问过指定内容的终端标识的变量值估算访问该指定内容的独立访问者数量。
14.如权利要求13所述的系统,其特征在于,所述终端标识变量值计算装置计算终端标识的变量值等于其对应的各个身份标识的身份标识变量值与第一权重、第二权重乘积的和,其中第一权重为每个类别的身份标识的权重,为第二权重为每个身份标识到终端标识的对应关系的权重。
15.如权利要求13所述的系统,其特征在于:所述终端标识变量值计算装置包括:
终端标识变量值更新单元,用于利用预定的第一算法根据各个终端标识对应的所有身份标识的当前变量值计算各个终端标识的变量值;
迭代终止判断单元,得到各个终端标识的变量值后,用于判断是否符合迭代终止条件,并在不符合时通知身份标识变量值更新单元更新身份标识的变量值;
身份标识变量值更新单元,用于利用预定的第二算法根据各个身份标识对应的所有终端标识的变量值更新各个身份标识的变量值。
16.如权利要求13所述的系统,其特征在于:所述第一算法指所述终端标识的变量值等于其对应的各个身份标识的身份标识变量值与第一权重、第二权重乘积的和,其中,其中第一权重为每个类别的身份标识的权重,第二权重为每个身份标识到终端标识的对应关系的权重。
17.如权利要求14或16所述的系统,其特征在于,第一权重是根据每个类别的身份标识数量与所有身份标识数量的比例计算、采用平均分配算法计算或根据经验确定的,各类别身份标识的权重之和为1;第二权重是根据终端标识与身份标识联系强弱计算或采用平均分配算法计算的,每个身份标 识对应的各对应关系的权重之和为1。
18.如权利要求15所述的系统,其特征在于,所述第二算法指所述身份标识的变量值等于其对应的各个终端标识的终端标识变量值与第三权重乘积的和,其中第三权重为每个终端标识到身份标识的对应关系的权重。
19.如权利要求18所述的系统,其特征在于,第三权重是根据身份标识与终端标识联系强弱计算或采用平均分配算法计算的,每个终端标识对应的各对应关系的权重之和为1。
20.如权利要求15所述的系统,其特征在于:所述迭代终止条件是所述终端标识的当前变量值与更新前的变量值的当前差值小于预设阈值,或所述当前差值与第一次得到的差值的比例小于预设阈值,或执行终端标识变量值更新步骤的次数达到预设阈值。
21.如权利要求13所述的系统,其特征在于:所述终端标识与所述身份标识之间的对应关系为一对一、一对多、多对一或多对多。
22.如权利要求13所述的系统,其特征在于:所述终端标识为用于识别终端的Cookie的标识;所述身份标识包括以下一种或多种类别:博客账号、社交网络账号、即时通讯工具账号、电子商务账号、通过频繁模式挖掘、聚类分析或商业合作得到的用于标识身份的标识信息。
23.如权利要求13所述的系统,其特征在于:所述身份标识的初始值根据采集到的身份标识数量与真实总体独立用户数量的比值的倒数确定或根据经验确定。
CN201310030660.XA 2013-01-25 2013-01-25 独立访问者数量估算方法和系统 Active CN103970752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310030660.XA CN103970752B (zh) 2013-01-25 2013-01-25 独立访问者数量估算方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310030660.XA CN103970752B (zh) 2013-01-25 2013-01-25 独立访问者数量估算方法和系统

Publications (2)

Publication Number Publication Date
CN103970752A true CN103970752A (zh) 2014-08-06
CN103970752B CN103970752B (zh) 2017-12-05

Family

ID=51240267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310030660.XA Active CN103970752B (zh) 2013-01-25 2013-01-25 独立访问者数量估算方法和系统

Country Status (1)

Country Link
CN (1) CN103970752B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504264A (zh) * 2014-12-08 2015-04-08 深圳市华傲数据技术有限公司 虚拟人建立方法及装置
CN105187402A (zh) * 2015-08-13 2015-12-23 浪潮(北京)电子信息产业有限公司 一种基于云平台管理的自适应验证方法及系统
CN105654353A (zh) * 2016-02-05 2016-06-08 北京奇虎科技有限公司 数据处理方法、装置及系统
CN105761119A (zh) * 2016-03-30 2016-07-13 广州华多网络科技有限公司 在线人数分布计算方法及装置
CN106407212A (zh) * 2015-07-31 2017-02-15 阿里巴巴集团控股有限公司 一种网络账户的类别确定方法、对象聚类方法及装置
CN106549914A (zh) * 2015-09-18 2017-03-29 北京秒针信息咨询有限公司 一种独立访问者的识别方法及装置
CN107818472A (zh) * 2016-09-13 2018-03-20 腾讯科技(北京)有限公司 一种信息处理方法及服务器
CN110019388A (zh) * 2017-09-30 2019-07-16 北京国双科技有限公司 账号数量统计方法及装置
CN110276650A (zh) * 2019-06-28 2019-09-24 秒针信息技术有限公司 广告到达率确定方法、广告发布方法及装置
CN110298711A (zh) * 2019-07-12 2019-10-01 秒针信息技术有限公司 广告到达率确定方法、装置、存储介质和广告发布方法
CN110796500A (zh) * 2019-11-07 2020-02-14 秒针信息技术有限公司 一种信息监控方法、装置、电子设备及存储介质
CN111985973A (zh) * 2020-08-27 2020-11-24 北京明略昭辉科技有限公司 目标对象到达率的确定方法和装置、存储介质及电子装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070198937A1 (en) * 2004-03-10 2007-08-23 Sunny Paris Method for determining a profile of a user of a communication network
CN101577871A (zh) * 2009-01-22 2009-11-11 腾讯科技(深圳)有限公司 对投放于移动终端软件的广告的精确统计方法
CN102314455A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 计算网页点击流量的方法及系统
CN102546668A (zh) * 2012-02-29 2012-07-04 北京蓝汛通信技术有限责任公司 一种独立访问者的统计方法、装置及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070198937A1 (en) * 2004-03-10 2007-08-23 Sunny Paris Method for determining a profile of a user of a communication network
CN101577871A (zh) * 2009-01-22 2009-11-11 腾讯科技(深圳)有限公司 对投放于移动终端软件的广告的精确统计方法
CN102314455A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 计算网页点击流量的方法及系统
CN102546668A (zh) * 2012-02-29 2012-07-04 北京蓝汛通信技术有限责任公司 一种独立访问者的统计方法、装置及系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504264B (zh) * 2014-12-08 2017-09-01 深圳市华傲数据技术有限公司 虚拟人建立方法及装置
CN104504264A (zh) * 2014-12-08 2015-04-08 深圳市华傲数据技术有限公司 虚拟人建立方法及装置
CN106407212B (zh) * 2015-07-31 2019-11-05 阿里巴巴集团控股有限公司 一种网络账户的类别确定方法、对象聚类方法及装置
CN106407212A (zh) * 2015-07-31 2017-02-15 阿里巴巴集团控股有限公司 一种网络账户的类别确定方法、对象聚类方法及装置
CN105187402B (zh) * 2015-08-13 2019-03-12 浪潮(北京)电子信息产业有限公司 一种基于云平台管理的自适应验证方法及系统
CN105187402A (zh) * 2015-08-13 2015-12-23 浪潮(北京)电子信息产业有限公司 一种基于云平台管理的自适应验证方法及系统
CN106549914A (zh) * 2015-09-18 2017-03-29 北京秒针信息咨询有限公司 一种独立访问者的识别方法及装置
CN105654353A (zh) * 2016-02-05 2016-06-08 北京奇虎科技有限公司 数据处理方法、装置及系统
CN105761119A (zh) * 2016-03-30 2016-07-13 广州华多网络科技有限公司 在线人数分布计算方法及装置
CN105761119B (zh) * 2016-03-30 2019-11-05 广州华多网络科技有限公司 在线人数分布计算方法及装置
CN107818472A (zh) * 2016-09-13 2018-03-20 腾讯科技(北京)有限公司 一种信息处理方法及服务器
CN107818472B (zh) * 2016-09-13 2022-03-11 腾讯科技(北京)有限公司 一种信息处理方法及服务器
CN110019388A (zh) * 2017-09-30 2019-07-16 北京国双科技有限公司 账号数量统计方法及装置
CN110276650A (zh) * 2019-06-28 2019-09-24 秒针信息技术有限公司 广告到达率确定方法、广告发布方法及装置
CN110298711A (zh) * 2019-07-12 2019-10-01 秒针信息技术有限公司 广告到达率确定方法、装置、存储介质和广告发布方法
CN110796500A (zh) * 2019-11-07 2020-02-14 秒针信息技术有限公司 一种信息监控方法、装置、电子设备及存储介质
CN110796500B (zh) * 2019-11-07 2023-08-29 秒针信息技术有限公司 一种信息监控方法、装置、电子设备及存储介质
CN111985973A (zh) * 2020-08-27 2020-11-24 北京明略昭辉科技有限公司 目标对象到达率的确定方法和装置、存储介质及电子装置

Also Published As

Publication number Publication date
CN103970752B (zh) 2017-12-05

Similar Documents

Publication Publication Date Title
CN103970752A (zh) 独立访问者数量估算方法和系统
KR101524971B1 (ko) 개인 성향 예측 방법 및 그 장치
JP5248915B2 (ja) Gps追跡及び周知な近傍目的地からのユーザの行動趣向の学習
D’Urso et al. Fuzzy clustering of human activity patterns
CN106453357A (zh) 一种网络购票异常行为的识别方法、系统及设备
CN107515915A (zh) 基于用户行为数据的用户标识关联方法
CN102365637A (zh) 表征用户信息
CN109885597B (zh) 基于机器学习的用户分群处理方法、装置及电子终端
CN105094708A (zh) 一种磁盘容量的预测方法及装置
CN105550175A (zh) 恶意账户识别方法及装置
WO2018033052A1 (zh) 一种评估用户画像数据的方法及系统
CN109711849B (zh) 以太坊地址画像生成方法、装置、电子设备及存储介质
CN110675069B (zh) 地产行业客户签约风险预警方法、服务器及存储介质
CN108038707A (zh) 项目推荐方法、电子设备及计算机可读存储介质
CN111291936B (zh) 产品生命周期预估模型生成方法、装置及电子设备
CN108647714A (zh) 负面标签权重的获取方法、终端设备及介质
CN111815414A (zh) 一种互联网销售下单方法、装置及系统
CN116774986A (zh) 软件开发工作量自动评估方法、装置、存储介质及处理器
CN116186119A (zh) 用户行为分析方法、装置、设备及存储介质
CN104376021A (zh) 文件推荐系统及方法
CN106066864B (zh) 一种多维度移动用户偏好动态识别方法
CN112001742A (zh) 网站访客行为习惯评估方法及系统
CN106549914B (zh) 一种独立访问者的识别方法及装置
CN114595473A (zh) 访问数据处理方法和装置、电子设备、计算机可读介质
CN113344642A (zh) 用于预测广告投资回报率的方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140806

Assignee: Beijing Interactive Technology Co., Ltd.

Assignor: Beijing Sibotu Information Technology Co., Ltd.

Contract record no.: 2015110000019

Denomination of invention: Estimating method and system for amount of unique visitors

License type: Exclusive License

Record date: 20150603

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract

Assignee: Beijing Interactive Technology Co., Ltd.

Assignor: The second hand information technology Co. Ltd.

Contract record no.: 2015110000019

Date of cancellation: 20160426

EM01 Change of recordation of patent licensing contract

Change date: 20160426

Contract record no.: 2015110000019

Assignor after: The second hand information technology Co. Ltd.

Assignor before: Beijing Sibotu Information Technology Co., Ltd.

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
CB02 Change of applicant information

Address after: 100102 Beijing, Chaoyang District Fu Tong East Street, building 1, room 5, room 321008

Applicant after: The second hand information technology Co. Ltd.

Address before: Beijing City, a small town east of Changping District road 102218 in No. 398 Coal Construction Group No. 1 building, 5 floor second hand system

Applicant before: Beijing Sibotu Information Technology Co., Ltd.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant