CN103518200A - 确定网络位置的唯一访问者 - Google Patents
确定网络位置的唯一访问者 Download PDFInfo
- Publication number
- CN103518200A CN103518200A CN201280022936.3A CN201280022936A CN103518200A CN 103518200 A CN103518200 A CN 103518200A CN 201280022936 A CN201280022936 A CN 201280022936A CN 103518200 A CN103518200 A CN 103518200A
- Authority
- CN
- China
- Prior art keywords
- geographic area
- unique
- user identifier
- estimate amount
- demographics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Environmental & Geological Engineering (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种系统和计算机实现的方法,用于确定来自地理区域的对于网络位置的唯一访问者的估计数量。利用非线性近似,来确定网络位置的唯一访问者的估计数量。非线性近似至少基于该地理区域内的用户的估计数量、该地理区域内的唯一用户标识符的估计数量以及在该网络位置处观测到的来自该地理区域的唯一用户标识符的数量。
Description
相关申请的交叉引用
本申请要求2011年4月12日提交的美国临时申请第61/474,552号的权益。上述申请的全部内容通过引用包含于此。
技术领域
本公开主要涉及信息管理,尤其涉及用于确定网络位置(例如网页或者网页集)的唯一访问者的数量的系统和方法。
背景技术
本部分提供不必定是现有技术的与本公开相关的背景信息。
可以以许多方式利用网络位置的唯一访问者的数量以及与这些用户相关的信息(人口统计信息等)。诸如网页、流媒体源、联网应用或者移动或嵌入式设备等网络位置可以寻求间接估计其唯一访问者的数量,同时保护各个用户信息的隐私。
发明内容
本部分提供对本公开的一般总结,而不是对其完整范围或者其所有特征的全面公开。
在本公开的各个实施例中,公开了一种计算机实现的方法。该方法包括:在估计服务器处获得地理区域内的网络用户的估计数量、所述地理区域内的唯一用户标识符的估计数量和在所述网络中的网络位置处观测到的来自所述地理区域的唯一用户标识符的数量。该方法还包括:所述估计服务器处至少基于所述地理区域内的用户的估计数量、所述地理区域内的唯一用户标识符的估计数量以及在所述网络位置处观测到的来自所述地理区域的唯一用户标识符的数量,利用非线性近似,确定来自所述地理区域的对所述网络位置的唯一访问者的估计数量。该方法还包括:将来自所述地理区域的对所述网络位置的唯一访问者的估计数量存储在所述估计服务器处的存储器上。
在本公开的各个实施例中,公开了一种系统,该系统包括:估计服务器处的一个或更多个处理器,可操作以进行多个操作。所述操作包括:获得地理区域内的网络用户的估计数量;获得所述地理区域内的唯一用户标识符的估计数量;以及获得在所述网络中的网络位置处观测到的来自所述地理区域的唯一用户标识符的数量。所述操作还包括:至少基于所述地理区域内的用户的估计数量、所述地理区域内的唯一用户标识符的估计数量以及在所述网络位置处观测到的来自所述地理区域的唯一用户标识符的数量,利用非线性近似,确定来自所述地理区域的对所述网络位置的唯一访问者的估计数量。所述操作还包括:将来自所述地理区域的对所述网络位置的唯一访问者的估计数量存储在所述估计服务器处的存储器上。
在本公开的各个实施例中,公开了一种计算机可读存储介质,该计算机可读存储介质在其上存储有指令,当由估计服务器处的处理器执行所述指令时,所述计算机可读存储介质使所述处理器进行操作。所述操作包括:获得地理区域内的网络用户的估计数量;获得所述地理区域内的唯一用户标识符的估计数量;以及获得在所述网络中的网络位置处观测到的来自所述地理区域的唯一用户标识符的数量。所述操作还包括:至少基于所述地理区域内的用户的估计数量、所述地理区域内的唯一用户标识符的估计数量以及在所述网络位置处观测到的来自所述地理区域的唯一用户标识符的数量,利用非线性近似,确定来自所述地理区域的对所述网络位置的唯一访问者的估计数量。所述操作还包括:将来自所述地理区域的对所述网络位置的唯一访问者的估计数量存储在所述估计服务器处的存储器上。
在本公开的各个实施例中,公开了另一计算机实现的方法。该方法包括:在估计服务器处获得与地理区域内的网络用户相对应的多个人口统计类别。该方法还包括:对于所述多个人口统计类别中的至少一个人口统计类别:(1)在所述估计服务器处获得在所述人口统计类别内并且在所述地理区域内的用户的估计数量;(2)在所述估计服务器处获得在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量;(3)在所述估计服务器处获得在所述网络中的网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量;(4)在所述估计服务器处至少基于在所述人口统计类别内并且在所述地理区域内的用户的估计数量、在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量以及在所述网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量,利用非线性近似,确定在所述人口统计类别内并且来自所述地理区域的对所述网络位置的唯一访问者的估计数量;以及(5)将所述来自所述地理区域的对所述网络位置的唯一访问者的估计数量存储在所述估计服务器处的存储器上。
在本公开的各个实施例中,公开了另一系统,该系统包括:估计服务器处的一个或更多个处理器,所述一个或更多个处理器可操作以进行多个操作。所述操作包括:获得与地理区域内的网络用户相对应的多个人口统计类别。所述操作还包括:对于所述多个人口统计类别中的至少一个人口统计类别:(1)获得在所述人口统计类别内并且在所述地理区域内的用户的估计数量;(2)获得在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量;(3)获得在所述网络中的网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量;(4)至少基于在所述人口统计类别内并且在所述地理区域内的用户的估计数量、在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量以及在所述网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量,利用非线性近似,确定在所述人口统计类别内并且来自所述地理区域的对所述网络位置的唯一访问者的估计数量;以及(5)将所述来自所述地理区域的对所述网络位置的唯一访问者的估计数量,存储在所述估计服务器处的存储器上。
在本公开的各个实施例中,公开了另一计算机可读存储介质,该计算机可读存储介质在其上存储有指令,当由估计服务器处的处理器执行所述指令时,所述计算机可读存储介质使所述处理器进行操作。所述操作包括:获得与地理区域内的网络用户相对应的多个人口统计类别。所述操作还包括:对于所述多个人口统计类别中的至少一个人口统计类别:(1)获得在所述人口统计类别内并且在所述地理区域内的用户的估计数量;(2)获得在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量;(3)获得在所述网络中的网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量;(4)至少基于在所述人口统计类别内并且在所述地理区域内的用户的估计数量、在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量以及在所述网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量,利用非线性近似,确定在所述人口统计类别内并且来自所述地理区域的对所述网络位置的唯一访问者的估计数量;以及(5)将所述来自所述地理区域的对所述网络位置的唯一访问者的估计数量,存储在所述估计服务器处的存储器上。
在本公开的各个实施例中,公开了另一计算机实现的方法。该方法包括:在估计服务器处获得与地理区域内的网络用户相对应的多个人口统计类别。该方法还包括:对于所述多个人口统计类别中的每个人口统计类别:(1)在所述估计服务器处获得在所述人口统计类别内并且在所述地理区域内的用户的估计数量;(2)在所述估计服务器处获得在所述人口统计类别内并且在所述地理区域内的多个唯一用户标识符;(3)在所述估计服务器处获得在所述人口统计类别内并且在所述地理区域内的每个用户的唯一用户标识符的数量的第一分布;(4)在所述估计服务器处创建在所述人口统计类别内并且在所述地理区域内的伪用户的集合,其中,所述伪用户的集合包括近似等于在所述人口统计类别内并且在所述地理区域内的用户的估计数量的数量的伪用户;(5)在所述估计服务器处对所述伪用户的集合内的每个伪用户分配在所述人口统计类别内并且在所述地理区域内的所述唯一用户标识符中的至少一个,以创建近似于所述第一分布的每个伪用户的唯一用户标识符的数量的第二分布,以使得对所述伪用户的集合内的伪用户分配在所述人口统计类别内并且在所述地理区域内所述多个唯一用户标识符中的每一个;以及(6)将所述来自所述地理区域的对所述网络位置的唯一访问者的估计数量,存储在所述估计服务器处的存储器上。
在本公开的各个实施例中,公开了另一系统,该系统包括:估计服务器处的一个或更多个处理器,可操作以进行多个操作。所述操作包括:获得与地理区域内的网络用户相对应的多个人口统计类别。所述操作还包括:对于所述多个人口统计类别中的每个人口统计类别:(1)获得在所述人口统计类别内并且在所述地理区域内的用户的估计数量;(2)获得在所述人口统计类别内并且在所述地理区域内的多个唯一用户标识符;(3)获得在所述人口统计类别内并且在所述地理区域内的每个用户的唯一用户标识符的数量的第一分布;(4)创建在所述人口统计类别内并且在所述地理区域内的伪用户的集合,其中,所述伪用户的集合包括近似等于在所述人口统计类别内并且在所述地理区域内的用户的估计数量的数量的伪用户;(5)对所述伪用户的集合内的每个伪用户分配在所述人口统计类别内并且在所述地理区域内的所述唯一用户标识符中的至少一个,以创建近似于所述第一分布的每个伪用户的唯一用户标识符的数量的第二分布,以使得对所述伪用户的集合内的伪用户分配在所述人口统计类别内并且在所述地理区域内的所述多个唯一用户标识符中的每一个;以及(6)将所述来自所述地理区域的对所述网络位置的唯一访问者的估计数量,存储在所述估计服务器处的存储器上。
在本公开的各个实施例中,公开了另一计算机可读存储介质,该计算机可读存储介质在其上存储有指令,当由估计服务器处的处理器执行所述指令时,所述计算机可读存储介质使所述处理器进行操作。所述操作包括:获得与地理区域内的网络用户相对应的多个人口统计类别。所述操作还包括:对于所述多个人口统计类别中的每个人口统计类别:(1)获得在所述人口统计类别内并且在所述地理区域内的用户的估计数量;(2)所述估计服务器处获得在所述人口统计类别内并且在所述地理区域内的多个唯一用户标识符;(3)获得在所述人口统计类别内并且在所述地理区域内的每个用户的唯一用户标识符的数量的第一分布;(4)创建在所述人口统计类别内并且在所述地理区域内的伪用户的集合,其中,所述伪用户的集合包括近似等于在所述人口统计类别内并且在所述地理区域内的用户的估计数量的数量的伪用户;(5)对所述伪用户的集合内的每个伪用户分配在所述人口统计类别内并且在所述地理区域内的所述唯一用户标识符中的至少一个,以创建近似于所述第一分布的每个伪用户的唯一用户标识符的数量的第二分布,以使得对所述伪用户的集合内的伪用户分配在所述人口统计类别内并且在所述地理区域内所述多个唯一用户标识符中的每一个;以及(6)将所述来自所述地理区域的对所述网络位置的唯一访问者的估计数量,存储在所述估计服务器处的存储器上。
在本公开的各个实施例中,公开了另一计算机实现的方法。该方法包括:在估计服务器处获得与地理区域内的网络用户相对应的多个人口统计类别。该方法还包括:通过如下步骤,在所述估计服务器处生成多个伪用户的集合,所述步骤包括:对于所述多个人口统计类别中的每个人口统计类别:(1)在所述估计服务器处获得在所述人口统计类别内并且在所述地理区域内的用户的估计数量;(2)在所述估计服务器处获得在所述人口统计类别内并且在所述地理区域内的多个唯一用户标识符;(3)在所述估计服务器处创建在所述人口统计类别内并且在所述地理区域内的伪用户的集合,其中,所述伪用户的集合包括近似等于在所述人口统计类别内并且在所述地理区域内的用户的估计数量的数量的伪用户;以及(4)在所述估计服务器处对所述伪用户的集合内的每个伪用户分配在所述人口统计类别内并且在所述地理区域内的所述唯一用户标识符中的至少一个,使得对所述伪用户的集合内的伪用户分配在所述人口统计类别内并且在所述地理区域内的所述多个唯一用户标识符中的每一个。该方法还包括:利用所述多个伪用户的集合,确定来自所述地理区域的对所述网络中的网络位置的唯一访问者的估计数量;以及将所述来自所述地理区域的对所述网络位置的唯一访问者的估计数量,存储在所述估计服务器处的存储器上。
在本公开的各个实施例中,公开了另一系统,该系统包括:估计服务器处的一个或更多个处理器,一个或更多个处理器可操作以进行多个操作。所述操作包括:获得与地理区域内的网络用户相对应的多个人口统计类别。所述操作还包括:通过如下步骤,生成多个伪用户的集合,所述步骤包括:对于所述多个人口统计类别中的每个人口统计类别:(1)获得在所述人口统计类别内并且在所述地理区域内的用户的估计数量;(2)获得在所述人口统计类别内并且在所述地理区域内的多个唯一用户标识符;(3)创建在所述人口统计类别内并且在所述地理区域内的伪用户的集合,其中,所述伪用户的集合包括近似等于在所述人口统计类别内并且在所述地理区域内的用户的估计数量的数量的伪用户;以及(4)对所述伪用户的集合中的每个伪用户分配在所述人口统计类别内并且在所述地理区域内的所述唯一用户标识符中的至少一个,以使得对所述伪用户的集合内的伪用户分配在所述人口统计类别内并且在所述地理区域内的所述多个唯一用户标识符中的每一个。所述操作还包括:利用所述多个伪用户的集合,来确定来自所述地理区域的对所述网络中的网络位置的唯一访问者的估计数量;以及将所述来自所述地理区域的对所述网络位置的唯一访问者的估计数量,存储在所述估计服务器处的存储器上。
在本公开的各个实施例中,公开了另一计算机可读存储介质,该计算机可读存储介质在其上存储有指令,当由估计服务器处的处理器执行所述指令时,所述计算机可读存储介质使所述处理器进行操作。所述操作包括:获得与地理区域内的网络用户相对应的多个人口统计类别。所述操作还包括:通过如下步骤,生成多个伪用户的集合,所述步骤包括:对于所述多个人口统计类别中的每个人口统计类别:(1)获得所述人口统计类别内的所述地理区域内的估计的用户数量;(2)获得所述人口统计类别内的所述地理区域内的多个唯一用户标识符;(3)创建所述人口统计类别内的所述地理区域内的伪用户的集合,其中,所述伪用户的集合包括近似等于所述人口统计类别内的所述地理区域内的估计的用户数量的数量的伪用户;以及(4)对所述伪用户的集合中的每个伪用户分配所述人口统计类别内的所述地理区域内的所述唯一用户标识符中的至少一个,使得对所述伪用户的集合内的伪用户分配所述人口统计类别内的所述地理区域内的所述多个唯一用户标识符中的每一个。所述操作还包括:利用所述多个伪用户的集合,来确定来自所述地理区域的所述网络中的网络位置的唯一访问者的估计数量;以及将所述来自所述地理区域的所述网络位置的唯一访问者的估计数量,存储在所述估计服务器处的存储器上。
在本公开的各个实施例中,公开了另一计算机实现的方法。该方法包括:在估计服务器处获得与地理区域内的网络的用户相对应的多个人口统计类别。该方法还包括:通过如下步骤,在所述估计服务器处生成多个伪用户的集合,所述步骤包括:对于所述多个人口统计类别中的每个人口统计类别:(1)在所述估计服务器处获得在所述人口统计类别内并且在所述地理区域内的用户的估计数量;(2)在所述估计服务器处获得在所述人口统计类别内并且在所述地理区域内的多个唯一用户标识符;(3)在所述估计服务器处创建在所述人口统计类别内并且在所述地理区域内的伪用户的集合,其中,所述伪用户的集合包括近似等于在所述人口统计类别内并且在所述地理区域内的用户的估计数量的数量的伪用户;以及(4)在所述估计服务器处对所述伪用户的集合中的每个伪用户分配在所述人口统计类别内并且在所述地理区域内的所述唯一用户标识符中的至少一个,以使得对所述伪用户的集合内的伪用户分配在所述人口统计类别内并且在所述地理区域内的所述多个唯一用户标识符中的每一个。该方法还包括:利用所述多个伪用户的集合,来确定在至少一个人口统计类别内并且来自所述地理区域的对所述网络中的网络位置的唯一访问者的估计数量;以及将所述来自所述地理区域的对所述网络位置的唯一访问者的估计数量,存储在所述估计服务器处的存储器上。
在本公开的各个实施例中,公开了另一系统,该系统包括:估计服务器处的一个或更多个处理器,一个或更多个处理器可操作以进行多个操作。所述操作包括:获得与地理区域内的网络用户相对应的多个人口统计类别。所述操作还包括:通过如下步骤,生成多个伪用户的集合,所述步骤包括:对于所述多个人口统计类别中的每个人口统计类别:(1)获得在所述人口统计类别内并且在所述地理区域内的用户的估计数量;(2)获得在所述人口统计类别内并且在所述地理区域内的多个唯一用户标识符;(3)创建所述人口统计类别内的所述地理区域内的伪用户的集合,其中,所述伪用户的集合包括近似等于在所述人口统计类别内并且在所述地理区域内的用户的估计数量的数量的伪用户;以及(4)对所述伪用户的集合中的每个伪用户分配在所述人口统计类别内并且在所述地理区域内的所述唯一用户标识符中的至少一个,以使得对所述伪用户的集合内的伪用户分配在所述人口统计类别内并且在所述地理区域内的所述多个唯一用户标识符中的每一个。所述操作还包括:利用所述多个伪用户的集合,来确定在至少一个人口统计类别内并且来自所述地理区域的所述网络中的网络位置的唯一访问者的估计数量;以及将所述来自所述地理区域的所述网络位置的唯一访问者的估计数量,存储在所述估计服务器处的存储器上。
在本公开的各个实施例中,公开了另一计算机可读存储介质,该计算机可读存储介质在其上存储有指令,当由估计服务器处的处理器执行所述指令时,所述计算机可读存储介质使所述处理器进行操作。所述操作包括:获得与地理区域内的网络用户相对应的多个人口统计类别。所述操作还包括:通过如下步骤,生成多个伪用户的集合,所述步骤包括:对于所述多个人口统计类别中的每个人口统计类别:(1)获得在所述人口统计类别内并且在所述地理区域内的用户的估计数量;(2)获得在所述人口统计类别内并且在所述地理区域内的多个唯一用户标识符;(3)创建在所述人口统计类别内并且在所述地理区域内的伪用户的集合,其中,所述伪用户的集合包括近似等于在所述人口统计类别内并且在所述地理区域内的用户的估计数量的数量的伪用户;以及(4)对所述伪用户的集合中的每个伪用户分配在所述人口统计类别内并且在所述地理区域内的所述唯一用户标识符中的至少一个,以使得对所述伪用户的集合内的伪用户分配在所述人口统计类别内并且在所述地理区域内的所述多个唯一用户标识符中的每一个。所述操作还包括:利用所述多个伪用户的集合,来确定在至少一个人口统计类别内并且来自所述地理区域的对所述网络中的网络位置的唯一访问者的估计数量;以及将所述来自所述地理区域的对所述网络位置的唯一访问者的估计数量,存储在所述估计服务器处的存储器上。
根据这里提供的描述,其它适用的领域将变得明显。本发明内容中的描述和具体示例仅旨在用于进行说明,而不旨在限制本公开的范围。
附图说明
这里描述的附图仅用于对选择的实施例、而不是所有可能实现方式的说明目的,并且不旨在限制本公开的范围。
图1是用于确定网络中的网络位置的唯一访问者的数量的示例系统的框图;
图2是网络的示例用户的框图;
图3是示例地理区域和相关联的统计因素的框图;
图4是确定来自地理区域的对于网络位置的唯一访问者的估计数量的示例方法的流程图;
图5是示出根据网络的多个用户创建伪用户的集合的伪用户模块的框图;
图6是示出与特定数量的唯一用户标识符相关联的用户的数量的分布的框图;
图7是示出与特定数量的唯一用户标识符相关联的伪用户的数量的分布的框图;
图8是根据地理区域针对多个人口统计类别中的每一个生成一组伪用户的示例方法的流程图;
图9是根据地理区域针对多个人口统计类别中的每一个生成一组伪用户的示例方法的流程图;以及
图10是用于确定网络中的网络位置的唯一访问者的数量的示例装置的框图。
在贯穿附图的若干个视图,相应的附图标记指示相应的部分。
具体实施方式
现在,参考附图,更充分地描述示例实施例。
提供示例实施例,使得本公开是彻底的,并且向本领域技术人员充分传达范围。叙述了大量具体细节,例如具体部件、设备和方法的示例,以提供对本公开的实施例的透彻理解。对于本领域技术人员很明显的是,不一定利用具体细节,可以以许多不同的形式来实施示例实施例,并且都不应当被解释为限制本公开的范围。在一些示例实施例中,不详细描述公知的处理、公知的设备结构和公知的技术。
这里使用的技术仅用于描述特定示例实施例的目的,而不旨在进行限制。除非上下文另外清楚地指出,否则如这里所使用的,单数形式“一”、“一个”和“该”可能旨在同样包括复数形式。术语“和/或”包括列出的相关联的项目中的一个或更多个的任意和全部组合。术语“包括”、“包含”、“含有”和“具有”是包含性的,因此指明陈述的特征、整体、步骤、操作、元素和/或部件的存在,但是不排除一个或更多个其它特征、整体、步骤、操作、元素、部件和/或其组的存在或者附加。除非作为执行顺序明确指出,否则这里描述的方法步骤、处理和操作不应当被解释为一定需要其按照讨论或示出的特定顺序执行。还应当理解,可以利用附加或者替代步骤。
虽然这里可能使用术语第一、第二、第三等,来描述各种元素、部件、区域、层和/或部分,但是这些元素、部件、区域、层和/或部分应当不受这些术语限制。这些术语可能仅用来区分一个元素、部件、区域、层或部分与另一区域、层或部分。除非上下文清楚地指出,否则诸如“第一”、“第二”的术语和其它数字术语在这里使用时,不暗示序列或者顺序。因此,下面讨论的第一元素、部件、区域、层或部分可以被称为第二元素、部件、区域、层或部分,而不脱离示例实施例的宗义。
如这里所使用的,术语模块可能是指专用集成电路(ASIC);电子电路;组合逻辑电路;场可编程门阵列(FPGA);执行存储在联网集群或者数据中心中的由分布式处理器网络执行的代码或者处理的处理器(共享、专用或者组);提供所描述的功能的其它合适的部件;或者诸如在片上系统中的上述内容的一部分或全部的组合,术语模块可能是上述内容的一部分,或者包括上述内容。术语模块可以包括存储由一个或更多个处理器执行的代码的存储器(共享、专用或者组)。
如上面所使用的,术语代码可以包括软件、固件、字节代码和/或微码,并且可以是指程序、例程、函数、类和/或对象。如上面所使用的,术语共享意为使用单个(共享)处理器执行来自多个模块的一部分或所有代码。另外,可以由单个(共享)存储器存储来自多个模块的一部分或所有代码。如上面所使用的,术语组意为使用一组处理器来执行来自单个模块的一部分或所有代码。另外,可以使用一组存储器来存储来自单个模块的一部分或所有代码。
可以通过由一个或更多个处理器执行的一个或更多个计算机程序来实现这里描述的装置和方法。计算机程序包括存储在诸如非易失性有形计算机可读介质的计算机可读存储介质上的处理器可执行指令。计算机程序还可以包括存储的数据。计算机可读存储介质的非限制性示例是非易失性存储器、磁存储器和光存储器。
现在参考图1,示出了用于确定网络位置的唯一访问者的数量的示例系统100。系统100连接到例如局部网络、诸如因特网的广域网或者它们的组合等网络102。多个单独用户104-1、104-2、...、104-m(统称为用户104)经由网络102连接到多个单独网络位置106-1、106-2、...、106-n(统称为网络位置106)。用户104通过网络102从网络位置106存取内容或者“访问”网络位置106。网络位置106的示例包括、但不限于网页、网页集、联网应用、流媒体源、联网设备(移动设备、嵌入式设备等)和其它网络资源。如这里所使用的,术语“用户”104不仅可以指单独的用户,还指诸如一组个人(例如作为单独的单元进行行为或者另外动作的个人)等其它实体。
在用户104访问一个或更多个网络位置106时,用户104可以获取部分或全部存储在用户104的位置(例如在用户104的计算设备(个人计算机、膝上型电脑、智能电话等)的存储器中)的诸如cookie(浏览器、闪速(flash)本地存储对象、HTML5存储或者其它方式)、应用本地存储、诸如基于Kerberos的票证联合识别系统令牌(kerberized ticket federatedidentity system token)的身份令牌、表示用户身份的移动秘钥等用户标识符110(图2)。任选地,用户标识符110可以包括与其所属的特定用户104相关的人口统计信息112或者其它信息,诸如例如特定设备或网络地址。如这里所使用的,人口统计信息112包括可以对一个或更多个用户104进行分组的任意信息(年限、收入水平、性别、关注的话题等)。用户104中的每一个可能获得许多用户标识符110。在用户104访问特定网络位置106时,网络位置106可以观测存储在用户104位置的用户标识符110。特定网络位置106可能仅能够存取与网络位置106本身相关联的用户标识符110,而不能存取与其它非关联网络位置106相关联的用户标识符110。用户标识符110可能通过联合识别系统或者通过用户网络,与一个或更多个网络位置106直接相关。如下面所描述的,系统100可以利用这些用户标识符110,来准确地估计网络位置106的唯一访问者的数量,即已经从网络位置106存取信息或者“访问”网络位置106的唯一用户104的数量。优选地,网络位置106可以利用一种或更多种方法,来保护用户104和用户标识符110的保密性,该方法包括、但不限于保密性政策、用户数据的假匿名和掩蔽、对人口统计数据和用户之间的关联的限制、用户数据的加密和哈希、时间窗之后数据的删除、非个人用户数据的聚集以及对用户数据共享的限制。
例如可以由网络位置106直接测量对网络位置106的访问(或者“页面浏览”)的数量。然而,在一些实例中无法直接测量网络位置106的唯一访问者的数量,以及单个用户104可能多次和/或从多个IP地址访问网络位置106、单个用户104可能与多个唯一用户标识符110相关联、多个用户104可能从同一IP地址访问网络位置106等的事实。因此,可能必须通过利用与唯一访问者的数量相关的并且可以直接测量的项目或者对象,来间接估计不可能/不能实行直接测量的对网络位置106的唯一访问者的数量。在一些实施方式中,可以利用在网络位置106处观测到的唯一用户标识符110的数量,来准确地估计网络位置106的唯一访问者的数量。
现在参考图3,示出了示例地理区域120和其关联因素的表示。虽然本领域技术人员应当理解,可以利用任意地理区域120或者子区域(诸如例如地理边界、法定边界、人口统计边界、邮政编码或者根据用户使用模式推算的地理边界),但是在该示例中,表示的地理区域120是美国。基于例如从自愿/匿名提供的浏览数据、普查数据和/或其它数据源收集的数据,例如通过统计学或者其它分析,已知或者可以确定地理区域120的网络102的估计出的用户的总数量122以及地理区域120的唯一用户标识符的总数量124。此外,将地理区域120专用的参数α126与地理区域120相关联。如下面所描述的,可以通过非线性近似或者通过对例如由用户104的虚拟面板108提供的数据的分析,来确定地理区域专用参数α126。如下面将更充分地描述的,基于这些因素,可以估计来自地理区域120的对网络位置106的唯一访问者的数量。
在本公开的一些实施例中,利用非线性近似来估计网络位置106的唯一访问者的数量,即从地理区域120访问网络位置106的唯一用户104的数量。除了在网络位置106处观测到的唯一用户标识符110的数量,非线性近似还利用其它因素的数量,例如地理区域120内的总用户数量122以及地理区域120内的唯一用户标识符的总数量124。已经确定可以以1参数近似(1-parameter approximation)来利用这些因素,以提供对来自地理区域120的、对网络位置106的唯一访问者的准确估计。由α表示的参数专用于所关注的地理区域120,并且如下面所描述的,可以以多种方式得出该参数。
在一些实施例中,非线性近似利用下面的方程:
其中,“#people”是来自地理区域120的、网络位置106的唯一访问者的估计数量;“#cookies”是在网络位置106处观测到的来自地理区域120的唯一用户标识符110(要认识到用户标识符110可以不是cookie)的数量;“c”是对地理区域120内的唯一用户标识符估计出的总数量124;“p”是对地理区域120内的网络102的用户估计出的总数量122;以及“α”是地理区域120专用的近似的参数126。
在一些实施例中,系统100利用从地理区域120内的用户104的“虚拟面板”108(图1)收集的信息,来确定地理区域120内的参数α126的值。虚拟面板108可以通过直接通信链接109、通过网络102或者两者与系统100通信。虚拟面板108包括使用提供页面链接分析浏览器请求数据的一个或更多个应用程序的用户104,页面链接分析浏览器请求数据可以用来在保留个人用户的隐私和其浏览历史的同时,针对用户的网络浏览历史数据推断人口。页面链接分析浏览器请求数据可以包括用户104的网页浏览历史(诸如被访问的网页的特性)以及与用户104和由用户104访问的网络位置106相关联的其它数据。示例虚拟面板108可以提供诸如特定网络位置的唯一访问者的数量等信息。虚拟面板108的示例包括、但不限于浏览数据或者网络使用数据,诸如,例如基于选择性加入(opt-in)自愿提供、匿名提供或以其它方式提供的使用数据,等等。然而,注意,浏览数据不一定等同于网络位置的唯一访问者。然而,应当理解,还可以使用收集数据的其它方法。虚拟面板108可以包括大量(例如几千或者几百万)的用户104,这使得系统100能够确定参数α126的合适的值。用户104还可以具有通过个人识别信息或自愿提供的其它个人信息的应用程序模糊化、通过对网络浏览器日志引入噪声或者通过其它隐私保护机制而保留的隐私。
在各种可选实施例中,例如,对于不能获得来自用户104的虚拟面板108的足够的准确信息的地理区域120,系统100可以推导出参数α126的合适的值。例如,可以利用非线性近似来确定参数α126的值。非线性近似基于估计出的地理区域120内的用户的总数量122、估计出的地理区域120内的唯一用户标识符的总数量124和独立于所关注的地理区域120的参数β。在一些实施例中,用来确定参数α126的非线性近似利用下面的方程:
其中,“c”是估计出的、地理区域120内的唯一用户标识符的总数量124;“p”是估计出的地理区域120内的网络102的用户的总数量122;以及“β”是独立于地理区域120的模型的参数,该参数例如可以根据从虚拟面板108接收到的数据来确定。虽然可以从虚拟面板108或者其它形式的数据收集来确定参数β的其它值,但是已经确定β=0.75至0.9提供对参数α126的适当近似。
在一些情形下,可能无法获得关于特定地理区域120内的唯一用户标识符的总数量124的足够并且准确的信息。在这种地理区域120中,非线性近似可以利用下面的方程:
其中,“#people”是估计出的来自地理区域120的对于网络位置106的唯一访问者的数量;“#cookies”是在网络位置106处观测到的来自地理区域120的唯一用户标识符110(要认识到用户标识符110可以不是cookie)的数量;“p”是估计出的地理区域120内的网络102的用户的总数量122;以及“k”是独立于地理区域120并且表示每个对于适当大小的网络位置106的唯一访问者的唯一用户标识符的数量124的逆(inverse)的模型的参数。参数“k”可以从虚拟面板(诸如虚拟面板108)或者其它形式的数据收集来确定。已经确定大小相对小的网络位置106类似地表现,并且提供“k”参数的相对准确的值,该值一般近似等于1。基于该方程(3),可以仅基于在网络位置106处观测到的来自地理区域120的唯一用户标识符110的数量以及估计出的地理区域120内的网络102的用户的总数量122,来确定来自地理区域120的对网络位置106的唯一访问者的估计数量。
在一些实施例中,代替唯一访问者的总数量,提供关于网络位置106的唯一访问者的附加信息(例如人口统计信息112)、和/或提供来自人口统计类别(或多个类别)的唯一访问者的数量是有用的。在各个实施例中,系统100对多个人口统计类别中的每一个应用上述非线性近似,以估计来自该人口统计类别的对网络位置106的唯一访问者的数量。在一些实施例中,非线性近似利用下面的方程:
其中,“#people(x)”是人口统计类别x内的来自地理区域120的对网络位置106的唯一访问者的总估计数量;“#cookies(x)”是在网络位置106处观测到的人口统计类别x内的来自地理区域120的唯一用户标识符110的数量(再一次认识到#cookies(x)可以是cookie之外的用户标识符);“c(x)”是人口统计类别x内并且地理区域120内的唯一用户标识符110的估计的总数量;“p(x)”是人口统计类别x内并且地理区域120内的用户104的估计的总数量;以及“α”是地理区域120专用的近似的参数126。如上所述,参数α是根据例如由虚拟面板108收集的代表数据确定的,或者基于地理区域120内的用户的所估计的总数量122、地理区域120内的唯一用户标识符的所估计的总数量124和独立于所关注的地理区域120的参数β通过非线性近似估计的依赖于地理区域的值
如上所述,可能无法获得关于特定地理区域120内的唯一用户标识符的总数量124的足够并且准确的信息。此外,可能无法获得关于特定人口统计类别内的并且特定地理区域120内的唯一用户标识符的总数量124的足够并且准确的信息。在这些情形下,可以对上面表示为方程(3)的非线性近似进行变形,从而产生下面的方程:
其中,“#people(x)”是人口统计类别x内的来自地理区域120的对网络位置106的唯一访问者的总估计数量;“#cookies(x)”是在网络位置106处观测到的人口统计类别x内的来自地理区域120的唯一用户标识符110的数量(再一次认识到#cookies(x)可以是cookie之外的用户标识符);“p(x)”是人口统计类别x内的并且地理区域120内的用户104的估计的总数量;以及“k”是独立于地理区域120并且表示每个适当大小的网络位置106的唯一访问者的唯一用户标识符数量124的逆的模型的参数(上面进行了更充分地描述)。
仅作为示例,让我们假设对于每一个唯一用户标识符110,可以确定相关联的用户104的基本人口统计信息。然后,系统100可以针对访问者识别6个独立的人口统计类别:(1)25岁以下男性,(2)25至45岁男性,(3)45岁以上男性,(4)25岁以下女性,(5)25至45岁女性,以及(6)45岁以上女性。为了提供对来自这些人口统计类别的地理区域120内的每一个的唯一访问者的数量的估计,系统100可以对人口统计类别中的每一个应用非线性近似(诸如上述非线性近似)。如果例如希望知道为男性的唯一访问者的数量,则系统100仅仅对人口统计类别1、2和3的估计值求和,以确定该信息。附加地,网络位置106的唯一访问者的总数量是来自所有人口统计类别的估计值的总和。
虽然通过在每个人口统计类别内进行非线性近似,来估计每个人口统计类别内的访问者的数量,提供了对访问者的数量的准确估计,但是随着人口统计类别的数量和/或每个人口统计类别内的梯度等级的增加,人口统计类别的数量以及独立估计的数量增加。继续使用上面具有6个人口统计类别的示例,可以看到添加具有4个等级(年收入(1)$25K以下,(2)$25K至$49,999.99,(3)$50K至$74,999.99,以及(4)$75K+)的“收入水平”人口统计类别,将产生24个独立的人口统计类别,人口统计类别增加四倍。为了提供关于对网络位置106的访问者的人口统计信息的充足的数据,可以想到提供几千个独立的人口统计类别。响应于对于提供网络位置106的唯一访问者的数量的估计的请求,需要在每个人口统计类别内进行上述非线性近似,然后求和。例如,由于与计算的执行相关联的延迟和所需要的物理资源的增加(盘空间、RAM等),在接收到请求时,执行通过该请求要求的许多独立非线性近似可能是不希望或者不实际的。
现在参考图4,示出了确定来自某地理区域的对网络位置106的唯一访问者的估计数量的示例方法200的流程图。在步骤210,例如在估计服务器550处获得估计出的、地理区域120内的网络102的用户的总数量122。在步骤220,在估计服务器550处获得估计出的、地理区域120内的唯一用户标识符的总数量124。在步骤230,由估计服务器550获得在网络位置106处观测到的来自地理区域120的唯一用户标识符110的数量。然后,估计服务器550至少基于估计出的来自地理区域120的用户的总数量122、估计出的来自地理区域120的唯一用户标识符的总数量124以及在网络位置106处观测到的来自地理区域120的唯一用户标识符110的数量,利用非线性近似确定来自地理区域120的对网络位置106的唯一访问者的估计数量(步骤240)。
可以在多个人口统计类别中的一个或更多个内执行方法200,以确定该一个或更多个人口统计类别内的来自地理区域120的对网络位置106的唯一访问者的估计数量。此外,可以结合在步骤240中描述的非线性近似,利用上述方程(1)至(4)中的每一个。
现在参考图5-7,如下面所描述的,在各个实施例中,本公开提供对于每个人口统计类别内的伪用户144的集合140的创建,该创建可以用来确定网络位置106的唯一访问者的数量。通过利用伪用户144的集合140,可以减小与确定对提供对网络位置106的唯一访问者的数量的估计的请求的响应相关联的延迟。
可以通过获得地理区域120内的每个人口统计类别的每个用户104的唯一用户标识符110的数量的第一分布160(图6),来创建伪用户144的集合140。第一分布160可以例如通过虚拟面板108或者其它数据收集技术来确定。伪用户144的集合140基于第一分布160创建,并且集合140包括近似等于在地理区域120内并且在人口统计类别内的用户104的数量(+/-5-10%)的多个伪用户144。
对集合140内的每个伪用户144分配在人口统计类别内并且在地理区域120内的唯一用户标识符110中的至少一个。例如可以随机均匀地执行对伪用户144分配唯一用户标识符110,这可以协助保留用户104的隐私,同时还保持系统100在一个或更多个人口统计类别之内提供准确估计的能力。在一些实施例中,在人口统计类别内并且在地理区域120内的唯一用户标识符110中的每一个将被分配给伪用户144。
进行唯一用户标识符110的分配,以创建地理区域120内的每个人口统计类别的每个伪用户144多个唯一用户标识符110的第二分布165(图7)。可以以近似第一分布160的方式,来创建第二分布165,也就是说,对于任意正整数“d”,第二分布165具有近似等于第一分布160中的具有“d”个唯一用户标识符110的用户104的数量(+/-5-10%)的、分配了“d”个唯一用户标识符110的多个伪用户144。在一些实施例中,如下面所描述的,可以在对第一分布160进行过滤以去除异常的唯一用户标识符110之后,以近似第一分布160的方式,来创建第二分布165。
在一些实施例中,对伪用户144的唯一用户标识符110的分配基于用于创建近似于第一分布160的第二分布165的非线性近似。仅作为示例,该非线性近似利用下面的方程:
其中,“p”是估计出的在人口统计类别内并且地理区域120内的的用户104的总数量;“α”是地理区域120专用的参数;“k”=1、...、d,其中,“d”是正整数;以及“h(k)”是具有等于k的多个唯一用户标识符110的伪用户144的数量。如上面所详细描述的,可以根据从用户104的虚拟面板108接收到的数据或者通过非线性近似来确定参数α126。“d”的值可以基于来自虚拟面板108或者其它形式的数据收集技术的数据来确定。另外,已经确定将“d”设置为等于12,对于例如针对从虚拟面板108无法获得数据的地理区域120提供近似于第一分布160的第二分布165是合理的。在每一种情况下,设置“d”的值,以使得当利用伪用户144的集合140(或者多个集合)来估计网络位置106的唯一访问者的数量时,网络位置106的唯一访问者的估计数量近似等于网络位置106的唯一访问者的实际数量(+/-5-10%)。
例如,根据对从虚拟面板108或者其它形式的数据收集技术接收到的数据的分析已经确定,具有等于或大于阈值的多个唯一用户标识符110的用户104,可以改变伪用户144的集合140的创建,以使得当利用改变后的伪用户144的集合140(或者多个集合)来估计网络位置106的唯一访问者的数量时,网络位置106的唯一访问者的估计数量与网络位置106的唯一访问者的实际数量不同。因为它们不同于“规范(norm)”,所以可以将这些用户104和其相关联的唯一用户标识符110归类为异常数据。为了提供对网络位置106的唯一访问者的数量的准确估计,可以在创建伪用户144的集合140之前,对这些异常用户104和/或异常唯一用户标识符110进行过滤(或者去除)。在一些实施例中,阈值等于8个唯一用户标识符110,然而,可以使用例如通过来自虚拟面板108或者其它形式的数据收集技术的数据确定的任意合适的阈值。
可以基于一个或更多个因素,将唯一用户标识符110定义为异常唯一用户标识符110。例如可以通过诸如支持向量机等机器学习技术,对从虚拟面板108或者其它数据收集技术接收到的数据进行分析,以确定可以用来识别异常唯一用户标识符110的因素。例如,可以基于唯一用户标识符110的年限、唯一用户标识符110已经访问的网络位置106的数量和/或访问的网络位置106的类别(社交、购物、新闻、爱好&休闲等),将唯一用户标识符110归类为异常的唯一用户标识符110。已经确定,相对最近的创建(即具有年限阈值以下的年限)的唯一用户标识符110,更可能有资格成为异常的唯一用户标识符110。此外,访问了相对小数量的网络位置106(即访问了阈值数量以下的多个网络位置106)的唯一用户标识符110,更可能有资格成为异常的唯一用户标识符110。另外,唯一用户标识符110访问的网络位置106的类别可以对将唯一用户标识符110定义作为异常的唯一用户标识符110进行协助。仅作为示例,已经确定,如果唯一用户标识符110主要访问“社交”网络位置,则唯一用户标识符110更可能有资格成为异常的唯一用户标识符110。
例如,估计服务器550可以通过利用伪用户144的集合140,来确定人口统计类别内的来自地理区域120的对网络位置106的唯一访问者的估计数量。这可以通过确定所关注的人口统计类别内的、被分配了在网络位置106处观测到的唯一用户标识符110中的至少一个的伪用户144的数量来实现。类似地,可以通过确定被分配了在网络位置106处观测到的唯一用户标识符110中的至少一个的所关注的人口统计类别中的每一个内的伪用户144的数量,然后对来自每一个类别的这些数量求和,来确定多个人口统计类别内的、来自地理区域120的对网络位置106的唯一访问者的估计数量。
现在参考图8,示出了生成多个人口统计类别中的每一个的来自地理区域120的伪用户144的集合140的示例方法300的流程图。在步骤305,例如,在估计服务器550处获得与地理区域120内的网络102的用户122相对应的多个“x”人口统计类别。在步骤310,将数值“y”设置为等于1。数值“y”对应于“x”个数量的人口统计类别中的特定人口统计类别。在步骤315,例如在估计服务器550处获得估计出的在人口统计类别“y”内并且在地理区域120内的网络102的用户的总数量122。在步骤320,在估计服务器550处获得估计出的在人口统计类别“y”内并且在地理区域120内的唯一用户标识符的总数量124。
在步骤325,估计服务器550获得地理区域120和人口统计类别“y”内的每个用户104多个唯一用户标识符110的第一分布160。在步骤330,估计服务器550创建在地理区域120和人口统计类别“y”内的伪用户144的集合140。集合140内的伪用户144的数量近似(+/-5-10%)等于在地理区域120内并且在人口统计类别“y”内的用户104的数量。在步骤335,估计服务器550例如对集合140内的每个伪用户144分配在地理区域120内并且在人口统计类别“y”内的唯一用户标识符110中的至少一个,以创建近似于第一分布160的每个伪用户144多个唯一用户标识符110的第二分布165。在步骤340,该方法例如通过判断“y”是否等于“x”,来判断是否针对每个人口统计类别创建了伪用户144的集合140。如果是,则方法300结束。如果否,则方法300例如通过使“y”递增1(即“y”=“y”+1),来进行到下一个人口统计类别,并且返回到步骤315。
方法300可以针对地理区域120内的每个人口统计类别,创建伪用户144的集合140。此外,可以结合创建和分配步骤330和335利用上面描述的方程(2)和(6)。然后,可以使用这些集合140,来确定在一个或更多个人口统计类别内的来自地理区域120的对网络位置106的唯一访问者的估计数量。
现在参考图9,示出了生成多个人口统计类别中的每一个的来自地理区域120的伪用户144的集合140的示例方法400的流程图。在步骤405,例如,在估计服务器550处获得与地理区域120内的网络102的用户122相对应的多个“x”人口统计类别。在步骤410,将数值“y”设置为等于1。数值“y”对应于“x”个数量的人口统计类别中的特定人口统计类别。在步骤415,例如在估计服务器550处获得估计出的在人口统计类别“y”内并且在地理区域120内的网络102的用户的总数量122。在步骤420,在估计服务器550处获得估计出的在人口统计类别“y”内并且在地理区域120内的唯一用户标识符的总数量124。
在步骤425,估计服务器550创建在地理区域120和人口统计类别“y”内的伪用户144的集合140。集合140内的伪用户144的数量近似(+/-5-10%)等于在地理区域120内并且在人口统计类别“y”内的用户104的数量。在步骤430,估计服务器550例如对集合140内的每个伪用户144分配在地理区域120内并且在人口统计类别“y”内的唯一用户标识符110中的至少一个。在步骤435,该方法例如通过判断“y”是否等于“x”,来判断是否针对每个人口统计类别创建了伪用户144的集合140。如果否,则方法400例如通过使“y”递增1(即“y”=“y”+1),来进行到下一个人口统计类别,并且返回到步骤415。
如果在步骤435,判断为针对每个人口统计类别创建了伪用户144的集合140(例如通过判断为“y”等于“x”),则方法400进行到步骤445。在步骤445,估计服务器550利用创建的伪用户144的集合140,来估计在人口统计类别中的至少一个内的并且来自地理区域120内的网络102中的网络位置106的唯一访问者的数量。在步骤445之后,方法400结束。
方法400可以针对地理区域120内的每个人口统计类别,创建伪用户144的集合140。此外,可以结合创建和分配步骤425和430,利用上面描述的方程(2)和(6)。然后,可以使用这些集合140,来确定一个或更多个人口统计类别内的来自地理区域120的对网络位置106的唯一访问者的估计数量。
现在参考图10,示出了用于实现上述系统100和方法200、300、400的示例装置500。虽然示出了装置500包括多个分立模块和部件,但是本领域技术人员应当理解,可以将这些模块/部件中的一部分或者全部组合到被配置为执行下面描述的由组合的分立模块/部件执行的任务的单个模块/部件中。
在一些实施例中,装置500包括用户信息模块510、用户标识符模块520、观测用户标识符模块530、输入模块540和估计服务器550。用户信息模块510例如向估计服务器550提供与网络102的用户104相关的数据集。例如,用户信息模块510可以提供估计出的每个地理区域120内的网络102的用户的总数量122以及与每个地理区域120内的网络102的用户104相关的人口统计信息112。例如,可以根据自愿/匿名浏览数据、普查数据和/或其它数据源,来收集由用户信息模块510提供的数据集。
用户标识符模块520例如向估计服务器550提供与属于网络102的用户104的用户标识符110相关的数据集。例如,用户标识符模块520可以提供估计出的每个地理区域120内的唯一用户标识符的总数量124以及与每个地理区域120内的用户标识符110相关的人口统计信息112。例如,可以根据自愿/匿名浏览数据、普查数据和/或其它数据源,来收集由用户标识符模块520提供的数据集。
观测用户标识符模块530例如向估计服务器550提供与由网络位置106中的至少一个观测到的用户标识符110相关的数据集。例如,观测用户标识符模块530可以提供在网络位置106处观测到的每个地理区域120内的用户标识符110的数量和身份以及与在网络位置106处观测到的每个地理区域120内的用户标识符110相关的人口统计信息112。输入模块540例如可以向估计服务器550提供附加输入。这些附加输入的示例包括、但不限于对估计信息、与一个或更多个地理区域120的参数α的值相关的信息、与参数β的值相关的信息以及与异常唯一用户标识符的识别相关的信息的请求。
估计服务器550可以包括参数α模块551、估计模块553、伪用户模块555、过滤模块557、处理装置558和存储器559。这些部件551-559全部被配置为接收由这些部件551-559中的任意一个生成的数据/信息,以及用户信息模块510、用户标识符模块520、观测用户标识符模块530和输入模块540向估计服务器550提供的数据。处理装置558可以包括被配置为执行诸如与参数α模块551、估计模块553、伪用户模块555、过滤模块557相关地描述的估计服务器550的功能的一个或更多个处理器。应当理解,这些模块中的任意一个或更多个可以由处理装置558全部或部分执行。向估计服务器550提供或者由估计服务器550生成的信息可以存储在存储器559中,和/或例如输出到另一计算设备。
参数α模块551包括每个地理区域120的参数α126的值,和/或可以基于上面描述的非线性近似确定参数α126的值。伪用户模块553例如可以基于上面关于图8-9描述的方法,针对多个人口统计类别中的每一个生成伪用户144的集合140。在一些实施例中,过滤模块555可以过滤从用户信息模块510、用户标识符模块520、观测用户标识符模块530和/或输入模块540接收到的数据,以在如上所述,由伪用户模块553创建伪用户144的集合140之前,去除异常用户104和/或异常唯一用户标识符110。
估计模块553例如可以通过执行上面描述的方法200、300、400,基于从用户信息模块510、用户标识符模块520、观测用户标识符模块530和/或输入模块540接收到的信息/数据,确定网络位置106的唯一访问者的估计数量。估计模块553可以提供来自多个地理区域120中的每一个(或者组合)的网络位置106的唯一访问者的估计数量。此外,估计模块553可以提供多个人口统计类别中的每一个(或者组合)内的网络位置106的唯一访问者的估计数量。
为了进行说明和描述,提供了前述对实施例的描述。其不旨在是穷尽的或者限制本公开。特定实施例的各个元素或特征通常不局限于该特定实施例,而即使未具体示出或描述,也在适当的情况下是可互换的,并且可以在选择的实施例中使用。特定实施例的各个元素或特征还可以以许多方式进行变化。这些变化不被视为脱离了本公开,所有这些变形都旨在包含在本公开的范围内。
Claims (44)
1.一种计算机实现的方法,包括:
在估计服务器处获得地理区域内的网络用户的估计数量;
在所述估计服务器处获得所述地理区域内的唯一用户标识符的估计数量;
在所述估计服务器处获得在所述网络中的网络位置处观测到的来自所述地理区域的唯一用户标识符的数量;
在所述估计服务器处至少基于所述地理区域内的用户的估计数量、所述地理区域内的唯一用户标识符的估计数量以及在所述网络位置处观测到的来自所述地理区域的唯一用户标识符的数量,利用非线性近似,确定来自所述地理区域的对所述网络位置的唯一访问者的估计数量;以及
将所述来自所述地理区域的对所述网络位置的唯一访问者的估计数量存储在所述估计服务器处的存储器上。
2.根据权利要求1所述的方法,其中,所述非线性近似包括:
其中,“#people”是来自所述地理区域的对所述网络位置的唯一访问者的估计数量;“#cookies”是在所述网络位置处观测到的来自所述地理区域的唯一用户标识符的数量;“c”是所述地理区域内的唯一用户标识符的估计数量;“p”是所述地理区域内的用户的估计数量;以及“α”是所述地理区域专用的参数。
3.根据权利要求2所述的方法,其中,所述唯一用户标识符包括cookie。
4.根据权利要求2所述的方法,其中,α是根据来自所述地理区域的用户的虚拟面板来确定的。
5.根据权利要求2所述的方法,其中,α是根据包括如下方程的非线性近似来确定的:
其中,“c”是所述地理区域内的唯一用户标识符的估计数量;“p”是所述地理区域内的用户的估计数量;以及“β”是根据用户的虚拟面板确定的、独立于所述地理区域的参数。
6.根据权利要求5所述的方法,其中,β等于0.9。
7.根据权利要求1所述的方法,其中,所述唯一用户标识符包括cookie。
8.一种系统,包括:估计服务器处的一个或更多个处理器,所述一个或更多个处理器可操作以进行包括以下步骤的操作:
获得地理区域内的网络用户的估计数量;
获得所述地理区域内的唯一用户标识符的估计数量;
获得在所述网络中的网络位置处观测到的来自所述地理区域的唯一用户标识符的数量;
至少基于所述地理区域内的用户的估计数量、所述地理区域内的唯一用户标识符的估计数量以及在所述网络位置处观测到的来自所述地理区域的唯一用户标识符的数量,利用非线性近似,确定来自所述地理区域的对所述网络位置的唯一访问者的估计数量;以及
将所述来自所述地理区域的对所述网络位置的唯一访问者的估计数量存储在所述估计服务器处的存储器上。
9.根据权利要求8所述的系统,其中,所述非线性近似包括:
其中,“#people”是来自所述地理区域的对所述网络位置的唯一访问者的估计数量;“#cookies”是在所述网络位置处观测到的来自所述地理区域的唯一用户标识符的数量;“c”是所述地理区域内的唯一用户标识符的估计数量;“p”是所述地理区域内的用户的估计数量;以及“α”是所述地理区域专用的参数。
10.根据权利要求9所述的系统,其中,所述唯一用户标识符包括cookie。
11.根据权利要求9所述的系统,其中,α是根据来自所述地理区域的用户的虚拟面板来确定的。
12.根据权利要求9所述的系统,其中,α是根据包括如下方程的非线性近似来确定的:
其中,“c”是所述地理区域内的唯一用户标识符的估计数量;“p”是所述地理区域内的用户的估计数量;以及“β”是根据用户的虚拟面板确定的、独立于所述地理区域的参数。
13.根据权利要求12所述的系统,其中,β等于0.9。
14.根据权利要求8所述的系统,其中,所述唯一用户标识符包括cookie。
15.一种计算机实现的方法,包括:
在估计服务器处获得与地理区域内的网络用户相对应的多个人口统计类别;以及
对于所述多个人口统计类别中的至少一个人口统计类别:
(1)在所述估计服务器处获得在所述人口统计类别内并且在所述地理区域内的用户的估计数量;
(2)在所述估计服务器处获得在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量;
(3)在所述估计服务器处获得在所述网络中的网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量;
(4)在所述估计服务器处至少基于在所述人口统计类别内并且在所述地理区域内的用户的估计数量、在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量以及在所述网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量,利用非线性近似,确定在所述人口统计类别内并且来自所述地理区域的对所述网络位置的唯一访问者的估计数量;以及
(5)将所述来自所述地理区域的对所述网络位置的唯一访问者的估计数量存储在所述估计服务器处的存储器上。
16.根据权利要求15所述的方法,其中,所述非线性近似包括:
其中,“#people”是在所述人口统计类别内并且来自所述地理区域的对所述网络位置的唯一访问者的估计数量;“#cookies”是在所述网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量;“c”是在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量;“p”是在所述人口统计类别内并且在所述地理区域内的用户的估计数量;以及“α”是所述地理区域专用的参数。
17.根据权利要求16所述的方法,其中,所述唯一用户标识符包括cookie。
18.根据权利要求16所述的方法,其中,α是根据来自所述地理区域的用户的虚拟面板来确定的。
19.根据权利要求16所述的方法,其中,α是根据包括如下方程的非线性近似来确定的:
其中,“c”是所述地理区域内的唯一用户标识符的估计数量;“p”是所述地理区域内的用户的估计数量;以及“β”是根据用户的虚拟面板确定的、独立于所述地理区域的参数。
20.根据权利要求19所述的方法,其中,β等于0.9。
21.根据权利要求15所述的方法,其中,所述唯一用户标识符包括cookie。
22.根据权利要求15所述的方法,还包括:
对于所述多个人口统计类别中的每个人口统计类别:
(1)在所述估计服务器处获得在所述人口统计类别内并且在所述地理区域内的用户的估计数量;
(2)在所述估计服务器处获得在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量;
(3)在所述估计服务器处获得在所述网络中的网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量;以及
(4)在所述估计服务器处至少基于在所述人口统计类别内并且在所述地理区域内的用户的估计数量、在所述人口统计类别内并且所述地理区域内的唯一用户标识符的估计数量以及在所述网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量,利用非线性近似,确定在所述人口统计类别内并且来自所述地理区域的对所述网络位置的唯一访问者的估计数量。
23.根据权利要求22所述的方法,还包括:在所述估计服务器处通过对来自所述多个人口统计类别中的每个人口统计类别并且来自所述地理区域的对所述网络位置的唯一访问者的估计数量求和,来确定来自所述地理区域的对所述网络位置的唯一访问者的总估计数量。
24.根据权利要求23所述的方法,其中,所述非线性近似包括:
其中,“#people”是在所述人口统计类别内并且来自所述地理区域的对于所述网络位置的唯一访问者的估计数量;“#cookies”是在所述网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量;“c”是在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量;“p”是在所述人口统计类别内并且在所述地理区域内的用户的估计数量;以及“α”是所述地理区域专用的参数。
25.根据权利要求24所述的方法,其中,所述唯一用户标识符包括cookie。
26.根据权利要求24所述的方法,其中,α是根据来自所述地理区域的用户的虚拟面板来确定的。
27.根据权利要求24所述的方法,其中,α是根据包括如下方程的非线性近似来确定的:
其中,“c”是所述地理区域内的唯一用户标识符的估计数量;“p”是所述地理区域内的用户的估计数量;以及“β”是根据用户的虚拟面板确定的、独立于所述地理区域的参数。
28.根据权利要求27所述的方法,其中,β等于0.9。
29.根据权利要求23所述的方法,其中,所述唯一用户标识符包括cookie。
30.一种系统,包括:估计服务器处的一个或更多个处理器,所述一个或更多个处理器可操作以进行包括以下步骤的操作:
获得与地理区域内的网络用户相对应的多个人口统计类别;以及
对于所述多个人口统计类别中的至少一个人口统计类别:
(1)获得在所述人口统计类别内并且在所述地理区域内的用户的估计数量;
(2)获得在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量;
(3)获得在所述网络中的网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量;
(4)至少基于在所述人口统计类别内并且在所述地理区域内的用户的估计数量、在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量以及在所述网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量,利用非线性近似,确定在所述人口统计类别内并且来自所述地理区域的对所述网络位置的唯一访问者的估计数量;以及
(5)将所述来自所述地理区域的对所述网络位置的唯一访问者的估计数量,存储在所述估计服务器处的存储器上。
31.根据权利要求30所述的系统,其中,所述非线性近似包括:
其中,“#people”是在所述人口统计类别内并且来自所述地理区域的对所述网络位置的唯一访问者的估计数量;“#cookies”是在所述网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量;“c”是在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量;“p”是在所述人口统计类别内并且在所述地理区域内的用户的估计数量;以及“α”是所述地理区域专用的参数。
32.根据权利要求31所述的系统,其中,所述唯一用户标识符包括cookie。
33.根据权利要求31所述的系统,其中,α是根据来自所述地理区域的用户的虚拟面板来确定的。
34.根据权利要求31所述的系统,其中,α是根据包括如下方程的非线性近似来确定的:
其中,“c”是所述地理区域内的唯一用户标识的估计符数量;“p”是所述地理区域内的用户的估计数量;以及“β”是根据用户的虚拟面板确定的、独立于所述地理区域的参数。
35.根据权利要求34所述的系统,其中,β等于0.9。
36.根据权利要求30所述的系统,其中,所述唯一用户标识符包括cookie。
37.根据权利要求30所述的系统,其中,所述操作还包括:对于所述多个人口统计类别中的每个人口统计类别:
(1)获得在所述人口统计类别内并且在所述地理区域内的用户的估计数量;
(2)获得在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量;
(3)获得在所述网络中的网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量;以及
(4)至少基于在所述人口统计类别内并且在所述地理区域内的用户的估计数量、在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量以及在所述网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量,利用非线性近似,确定在所述人口统计类别内并且来自所述地理区域的对所述网络位置的唯一访问者的估计数量。
38.根据权利要求37所述的系统,其中,所述操作还包括:通过对来自所述多个人口统计类别中的每个人口统计类别并且来自所述地理区域的对所述网络位置的唯一访问者的估计数量求和,来确定来自所述地理区域的对所述网络位置的唯一访问者的总估计数量。
39.根据权利要求38所述的系统,其中,所述非线性近似包括:
其中,“#people”是在所述人口统计类别内并且来自所述地理区域的对于所述网络位置的唯一访问者的估计数量;“#cookies”是在所述网络位置处观测到的在所述人口统计类别内并且来自所述地理区域的唯一用户标识符的数量;“c”是在所述人口统计类别内并且在所述地理区域内的唯一用户标识符的估计数量;“p”是在所述人口统计类别内并且在所述地理区域内的用户的估计数量;以及“α”是所述地理区域专用的参数。
40.根据权利要求39所述的系统,其中,所述唯一用户标识符包括cookie。
41.根据权利要求39所述的系统,其中,α是根据来自所述地理区域的用户的虚拟面板来确定的。
42.根据权利要求39所述的系统,其中,α是根据包括如下方程的非线性近似来确定的:
其中,“c”是所述地理区域内的唯一用户标识符的估计数量;“p”是所述地理区域内的用户的估计数量;以及“β”是根据用户的虚拟面板确定的、独立于所述地理区域的参数。
43.根据权利要求42所述的系统,其中,β等于0.9。
44.根据权利要求38所述的系统,其中,所述唯一用户标识符包括cookie。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710468987.3A CN107194009A (zh) | 2011-04-12 | 2012-04-12 | 确定网络位置的唯一访问者 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161474552P | 2011-04-12 | 2011-04-12 | |
US61/474,552 | 2011-04-12 | ||
PCT/US2012/033330 WO2012142294A2 (en) | 2011-04-12 | 2012-04-12 | Determining unique visitors to a network location |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710468987.3A Division CN107194009A (zh) | 2011-04-12 | 2012-04-12 | 确定网络位置的唯一访问者 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103518200A true CN103518200A (zh) | 2014-01-15 |
CN103518200B CN103518200B (zh) | 2017-07-11 |
Family
ID=46000393
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280022936.3A Active CN103518200B (zh) | 2011-04-12 | 2012-04-12 | 确定网络位置的唯一访问者 |
CN201710468987.3A Pending CN107194009A (zh) | 2011-04-12 | 2012-04-12 | 确定网络位置的唯一访问者 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710468987.3A Pending CN107194009A (zh) | 2011-04-12 | 2012-04-12 | 确定网络位置的唯一访问者 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9313113B2 (zh) |
CN (2) | CN103518200B (zh) |
WO (1) | WO2012142294A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112789843A (zh) * | 2019-07-05 | 2021-05-11 | 谷歌有限责任公司 | 用于用户标识符集合的交集的私密性保护确定的系统和方法 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9818131B2 (en) * | 2013-03-15 | 2017-11-14 | Liveramp, Inc. | Anonymous information management |
US8954737B2 (en) * | 2013-06-18 | 2015-02-10 | Palo Alto Research Center Incorporated | Method and apparatus for performing distributed privacy-preserving computations on user locations |
US9911129B2 (en) * | 2014-05-06 | 2018-03-06 | At&T Mobility Ii Llc | Facilitating demographic assessment of information using targeted location oversampling |
US10324960B1 (en) | 2014-09-19 | 2019-06-18 | Google Llc | Determining a number of unique viewers of a content item |
US10178192B2 (en) * | 2015-09-15 | 2019-01-08 | Qualcomm Innovation Center, Inc. | Behavior-based browser bookmarks |
US11847246B1 (en) * | 2017-09-14 | 2023-12-19 | United Services Automobile Association (Usaa) | Token based communications for machine learning systems |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1591422A (zh) * | 2003-08-29 | 2005-03-09 | 株式会社东芝 | 用于管理关于网络中的终端设备的存在信息的方法与装置 |
US20100228850A1 (en) * | 2009-03-04 | 2010-09-09 | Max Fomitchev | Method and System for Estimating Unique Visitors for Internet Sites |
US20110055216A1 (en) * | 2008-05-15 | 2011-03-03 | Trendit Ltd. | Tempo spatial data extraction from network connected devices |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101072122A (zh) * | 2007-03-30 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 获取访问量统计数据的方法、系统和用户端设备 |
CN101127602A (zh) * | 2007-09-13 | 2008-02-20 | 深圳市融合视讯科技有限公司 | 一种网络媒体信息的访问方法 |
KR100843544B1 (ko) * | 2008-03-24 | 2008-07-04 | 방용정 | 웹 사이트의 접속자별로 접속 통계를 생성하는 방법 |
GB0811503D0 (en) * | 2008-06-23 | 2008-07-30 | Survey Interactive Ltd | Document access monitoring |
US20110225288A1 (en) * | 2010-03-12 | 2011-09-15 | Webtrends Inc. | Method and system for efficient storage and retrieval of analytics data |
-
2012
- 2012-04-12 WO PCT/US2012/033330 patent/WO2012142294A2/en active Application Filing
- 2012-04-12 CN CN201280022936.3A patent/CN103518200B/zh active Active
- 2012-04-12 CN CN201710468987.3A patent/CN107194009A/zh active Pending
-
2013
- 2013-10-10 US US14/050,569 patent/US9313113B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1591422A (zh) * | 2003-08-29 | 2005-03-09 | 株式会社东芝 | 用于管理关于网络中的终端设备的存在信息的方法与装置 |
US20110055216A1 (en) * | 2008-05-15 | 2011-03-03 | Trendit Ltd. | Tempo spatial data extraction from network connected devices |
US20100228850A1 (en) * | 2009-03-04 | 2010-09-09 | Max Fomitchev | Method and System for Estimating Unique Visitors for Internet Sites |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112789843A (zh) * | 2019-07-05 | 2021-05-11 | 谷歌有限责任公司 | 用于用户标识符集合的交集的私密性保护确定的系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103518200B (zh) | 2017-07-11 |
CN107194009A (zh) | 2017-09-22 |
US20140040463A1 (en) | 2014-02-06 |
WO2012142294A3 (en) | 2012-12-06 |
US9313113B2 (en) | 2016-04-12 |
WO2012142294A2 (en) | 2012-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Di Clemente et al. | Sequences of purchases in credit card data reveal lifestyles in urban populations | |
US20200342097A1 (en) | Systems and methods for detecting resources responsible for events | |
Ganti et al. | PoolView: stream privacy for grassroots participatory sensing | |
Fourney et al. | Geographic and Temporal Trends in Fake News Consumption During the 2016 US Presidential Election. | |
CN103518200A (zh) | 确定网络位置的唯一访问者 | |
US8838629B2 (en) | Anonymous information exchange | |
US20160246981A1 (en) | Data secrecy statistical processing system, server device for presenting statistical processing result, data input device, and program and method therefor | |
Preibusch et al. | Shopping for privacy: Purchase details leaked to PayPal | |
US20140310691A1 (en) | Method and device for testing multiple versions | |
EP3330880A1 (en) | Secure computation system, secure computation apparatus, secure computation method, and program | |
US9686305B2 (en) | Cyber-semantic account management system | |
US20140025483A1 (en) | System and method for protecting consumer privacy in the measuring of the effectiveness of advertisements | |
Haddadi et al. | Privacy analytics | |
US20100262837A1 (en) | Systems And Methods For Personal Digital Data Ownership And Vaulting | |
Chen et al. | Differentiated security levels for personal identifiable information in identity management system | |
Rodríguez et al. | Towards the adaptation of SDC methods to stream mining | |
US20220164874A1 (en) | Privacy Separated Credit Scoring System | |
Arcolezi et al. | Longitudinal collection and analysis of mobile phone data with local differential privacy | |
Ekin et al. | Overpayment models for medical audits: multiple scenarios | |
Vijay et al. | Two Layered Privacy Architecture for Big Data Framework | |
Antoniou et al. | Assessing the risk of re-identification arising from an attack on anonymised data | |
Shlomo | Statistical disclosure limitation for health data: a statistical agency perspective | |
Liu et al. | The variance constant for continuous-time level dependent quasi-birth-and-death processes | |
Yin et al. | Node attributed query access algorithm based on improved personalized differential privacy protection in social network | |
Peköz | Product usage data collection and challenges of data anonymization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: Google Inc. |