CN105025115B - 一种生成集体宿舍ip库的方法和装置 - Google Patents

一种生成集体宿舍ip库的方法和装置 Download PDF

Info

Publication number
CN105025115B
CN105025115B CN201410177742.1A CN201410177742A CN105025115B CN 105025115 B CN105025115 B CN 105025115B CN 201410177742 A CN201410177742 A CN 201410177742A CN 105025115 B CN105025115 B CN 105025115B
Authority
CN
China
Prior art keywords
cookie
internet behavior
data
dormitory
behavior data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410177742.1A
Other languages
English (en)
Other versions
CN105025115A (zh
Inventor
丁若谷
张诗晨
冯是聪
吴明辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Miaozhen Information Consultant Co Ltd
Original Assignee
Beijing Miaozhen Information Consultant Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Miaozhen Information Consultant Co Ltd filed Critical Beijing Miaozhen Information Consultant Co Ltd
Priority to CN201410177742.1A priority Critical patent/CN105025115B/zh
Publication of CN105025115A publication Critical patent/CN105025115A/zh
Application granted granted Critical
Publication of CN105025115B publication Critical patent/CN105025115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种生成集体宿舍IP库的方法及装置;方法包括:收集指定IP范围内用户的上网行为数据,提取已确认过是否为集体宿舍用户的cookie对应的上网行为数据作为第一数据集合,其余作为第二数据集合;计算第一比例;对于第二数据集合中的各cookie,分别选出差异最小的P个第一数据集合中的cookie,并计算其中属于集体宿舍用户的cookie所占的第二比例,如果大于或等于第一比例,则标记为备选用户;分别统计各IP地址所对应的、属于预定时间段的上网行为数据所包括的cookie中,备选用户所占的第三比例,如果大于预定比例阈值,则判断为集体宿舍IP地址;取判断为集体宿舍IP地址的IP地址组成集体宿舍IP库。

Description

一种生成集体宿舍IP库的方法和装置
技术领域
本发明涉及通信领域,尤其涉及一种生成集体宿舍IP库的方法和装置。
背景技术
IP(Internet Protocol,网络协议)是为计算机网络相互连接进行通信而设计的协议,是为了使连接到因特网上的所有计算机实现相互通信的一套规则。每个连接在因特网上的一台计算机都会被分配一个或多个IP地址用于在网络上进行通讯。全球的IP地址在从国家往下逐级分配的过程中产生了很强的地域性,因此IP地址经常被用于地域定位,例如互联网广告的地域定向投放,用户定制的本地新闻推送或其他地域定向服务。
集体宿舍,是指机关、学校、企事业单位等的员工、学生居住的房屋。集体宿舍接入网络通常使用路由器等网络设备,实现多人共享网络,对外使用相同的外网IP地址。集体宿舍的用户具有相同或相似的身份、工作环境、收入水平和生活习惯,且宿舍成员消费习惯明显区别于家庭、公司等,因此,针对集体宿舍人群的商业定向广告投放是极具价值的。集体宿舍接入网络时使用的IP相对固定,这使得集体宿舍定向的解决方案可以参考地域定向,基于上网行为发生时的IP地址来实现。
基于IP地址的集体宿舍定向需要使用集体宿舍IP库,集体宿舍IP库是一张存放了大量集体宿舍IP地址的列表,列表里每个IP地址代表着使用这个IP上网的电脑属于某个单位的集体宿舍。因为集体宿舍所用IP无需向互联网服务商报备,目前并没有手段能从互联网服务商方面得到集体宿舍IP库;而互联网用户分享的集体宿舍IP地址也局限于愿意分享IP地址和地理信息的用户的数量,并且这种由非专业人员提供的信息的可靠性也有不足。
发明内容
本发明要解决的技术问题是如何简单、可靠地生成集体宿舍IP库。
为了解决上述问题,本发明提供了一种生成集体宿舍IP库的方法,包括:
S101、收集指定IP范围内用户的上网行为数据;所述上网行为数据包括cookie、IP地址、访问的网站,上网时间;
S102、在所述上网行为数据中,提取已确认过是否为集体宿舍用户的cookie对应的上网行为数据作为第一数据集合,将其余上网行为数据作为第二数据集合;在所述已确认过是否为集体宿舍用户的cookie中,计算属于集体宿舍用户的cookie所占的比例,得到第一比例;
S103、对于所述第二数据集合中的各cookie,分别选出与该cookie访问各网站的次数差异最小的P个第一数据集合中的cookie,并计算所选出的P个cookie中属于集体宿舍用户的cookie所占的第二比例,如果大于或等于所述第一比例,则将该第二数据集合中的cookie标记为备选用户;P为正整数;
S104、对于所述上网行为数据中所出现的每个IP地址,分别统计该IP地址所对应的、上网时间属于预定时间段的上网行为数据所包括的cookie中,标记为备选用户的cookie所占的第三比例,如果大于预定比例阈值,则判断该IP地址为集体宿舍IP地址;
S105、取所有判断为集体宿舍IP地址的IP地址组成集体宿舍IP库。
可选地,所述对于所述第二数据集合中的各cookie,分别选出与该cookie访问各网站的次数差异最小的P个第一数据集合中的cookie的步骤包括:
根据所述上网行为数据分别统计所述上网行为数据中各cookie对于所述上网行为数据中所包括的每个网站的访问次数;
对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值;
对于所述第二数据集合中的各cookie,分别选出最小的P个差异值所对应的cookie。
可选地,所述根据所述上网行为数据分别统计各cookie对于上网行为数据中所包括的每个网站的访问次数的步骤包括:根据所述上网行为数据分别统计第一数据集合中每个cookie对于上网行为数据中所包括的各网站的访问次数,形成m行n列的第一矩阵,其中m为第一数据集合中的cookie个数;n为所述上网行为数据中出现过的网站的总个数;根据所述上网行为数据分别统计第二数据集合中每个cookie对于上网行为数据中所包括的各网站的访问次数,形成k行n列的第二矩阵,其中k为第二数据集合中的cookie个数。
可选地,所述对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值的步骤包括:
对第二矩阵的每一行,分别计算该行与第一矩阵一中每一行对应列的差值的平方和,计算结果作为第二矩阵的该行所表示的cookie与第一矩阵相应行所表示的cookie对各网站访问次数的差异值。
可选地,所述P为所述第一数据集合中cookie个数除以100得到的商向上或向下取整后的得数,与5中较大者;所述预定比例阈值为50%。
本发明还提供了一种生成集体宿舍IP库的装置,包括:
收集模块,用于收集指定IP范围内用户的上网行为数据;所述上网行为数据包括cookie、IP地址、访问的网站,上网时间;
预处理模块,用于在所述上网行为数据中,提取已确认过是否为集体宿舍用户的cookie对应的上网行为数据作为第一数据集合,将其余上网行为数据作为第二数据集合;在所述已确认过是否为集体宿舍用户的cookie中,计算属于集体宿舍用户的cookie所占的比例,得到第一比例;
标注模块,用于对于所述第二数据集合中的各cookie,分别选出与该cookie访问各网站的次数差异最小的P个第一数据集合中的cookie,并计算所选出的P个cookie中属于集体宿舍用户的cookie所占的第二比例,如果大于或等于所述第一比例,则将该第二数据集合中的cookie标记为备选用户;P为正整数;
判断模块,用于对于所述上网行为数据中所出现的每个IP地址,分别统计该IP地址所对应的、上网时间属于预定时间段的上网行为数据所包括的cookie中,标记为备选用户的cookie所占的第三比例,如果大于预定比例阈值,则判断该IP地址为集体宿舍IP地址;
建库模块,用于取所有判断为集体宿舍IP地址的IP地址组成集体宿舍IP库。
可选地,所述标注模块对于所述第二数据集合中的各cookie,分别选出与该cookie访问各网站的次数差异最小的P个第一数据集合中的cookie是指:
所述标注模块根据所述上网行为数据分别统计所述上网行为数据中各cookie对于所述上网行为数据中所包括的每个网站的访问次数;对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值;对于所述第二数据集合中的各cookie,分别选出最小的P个差异值所对应的cookie。
可选地,所述标注模块根据所述上网行为数据分别统计各cookie对于上网行为数据中所包括的每个网站的访问次数是指:
所述标注模块根据所述上网行为数据分别统计第一数据集合中每个cookie对于上网行为数据中所包括的各网站的访问次数,形成m行n列的第一矩阵,其中m为第一数据集合中的cookie个数;n为所述上网行为数据中出现过的网站的总个数;根据所述上网行为数据分别统计第二数据集合中每个cookie对于上网行为数据中所包括的各网站的访问次数,形成k行n列的第二矩阵,其中k为第二数据集合中的cookie个数。
可选地,所述标注模块对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值是指:
所述标注模块对第二矩阵的每一行,分别计算该行与第一矩阵一中每一行对应列的差值的平方和,计算结果作为第二矩阵的该行所表示的cookie与第一矩阵相应行所表示的cookie对各网站访问次数的差异值。
可选地,所述P为所述第一数据集合中cookie个数除以100得到的商向上或向下取整后的得数,与5中较大者;所述预定比例阈值为50%。
本发明的至少一个实施例能够无需专业人员经过长时间、多途径通过多种手段收集集体宿舍IP地址来生成集体宿舍IP库,并能够保证所生成的集体宿舍IP库的可靠性。
附图说明
图1为实施例一的生成集体宿舍IP库的方法的流程示意图;
图2为实施例二的生成集体宿舍IP库的装置的示意框图。
具体实施方式
下面将结合附图及实施例对本发明的技术方案进行更详细的说明。
需要说明的是,如果不冲突,本发明实施例以及实施例中的各个特征可以相互结合,均在本发明的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一、一种生成集体宿舍IP库的方法,如图1所示,包括:
S101、收集指定IP范围内用户的上网行为数据;所述上网行为数据可以但不限于包括cookie、IP地址、访问的网站,上网时间等信息;
S102、在所述上网行为数据中,提取已确认过是否为集体宿舍用户的cookie对应的上网行为数据作为第一数据集合,将其余上网行为数据作为第二数据集合;在所述已确认过是否为集体宿舍用户的cookie中,计算属于集体宿舍用户的cookie所占的比例,得到第一比例;
S103、对于所述第二数据集合中的各cookie,分别选出与该cookie访问各网站的次数差异最小的P个第一数据集合中的cookie,并计算所选出的P个cookie中属于集体宿舍用户的cookie所占的第二比例,如果大于或等于所述第一比例,则将该第二数据集合中的cookie标记为备选用户;P为正整数;
S104、对于所述上网行为数据中所出现的每个IP地址,分别统计该IP地址所对应的、上网时间属于预定时间段的上网行为数据所包括的cookie中,标记为备选用户的cookie所占的第三比例,如果大于预定比例阈值,则判断该IP地址为集体宿舍IP地址;
S105、取所有判断为集体宿舍IP地址的IP地址组成集体宿舍IP库。
本实施例中,所述步骤S101可以通过在用户的终端和路由器等网络设备上植入插件,或在网站上植入代码等方式实现。该步骤可以但不限于使用现有技术方案实现。可以根据实际需要自行设置所述指定IP范围。
本实施例中,所述第一比例可以根据预先调研的结果获得,比如在所收集的上网行为数据对应的cookie中,随机选取部分cookie对应的用户进行调研,将所调研的用户的cookie称为参考cookie集合(对于未收集到调研结果的cookie,可以将其更换为上网行为数据中的其它cookie,或直接从参考cookie集合中剔除)。所述调研结果包括用户的cookie、近期是否居住在集体宿舍中、调研时间等信息,计算所调研用户中近期居住在集体宿舍中的比例(即:所调研用户中居住在集体宿舍的人数与调研用户总数的商),相当于计算参考cookie集合中,属于集体宿舍用户的cookie所占的比例,记为第一比例,可以但不限于用百分比的形式表示。当然,也可以等需要用到该第一比例时才进行计算。
因此,本实施例中通过对部分cookie对应的用户进行是否居住在集体宿舍的确认,就可以自动判断出上网行为数据包含的IP地址是否为集体宿舍IP地址,并进而生成集体宿舍IP库,而不用进行大量的、长时间、多途径的人工收集整理;而且结果可靠。
本实施例的一种实施方式中,所述对于所述第二数据集合中的各cookie,分别选出与该cookie访问各网站的次数差异最小的P个第一数据集合中的cookie的步骤具体可以包括:
根据所述上网行为数据分别统计所述上网行为数据中各cookie对于所述上网行为数据中所包括的每个网站的访问次数;
对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值;
对于所述第二数据集合中的各cookie,分别选出最小的P个差异值所对应的cookie。
本实施方式的一种备选方案中,所述根据所述上网行为数据分别统计各cookie对于上网行为数据中所包括的每个网站的访问次数的步骤具体可以包括:
根据所述上网行为数据分别统计第一数据集合中每个cookie对于上网行为数据中所包括的各网站的访问次数,形成m行n列的第一矩阵,其中m为第一数据集合中的cookie个数;n为所述上网行为数据中出现过的网站(也就是第一、第二数据集合中各cookie访问过的网站)的总个数;
根据所述上网行为数据分别统计第二数据集合中每个cookie对于上网行为数据中所包括的各网站的访问次数,形成k行n列的第二矩阵,其中k为第二数据集合中的cookie个数。
当然,在其它实施方式中,也可以不用矩阵形式来记录各cookie对各网站的访问次数。
本备选方案中,对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值的步骤具体可以包括:
对第二矩阵的每一行,分别计算该行与第一矩阵一中每一行对应列的差值的平方和,计算结果作为第二矩阵的该行所表示的cookie与第一矩阵相应行所表示的cookie对各网站访问次数的差异值。
本备选方案中,计算出的平方和越小,说明两行的相似度越高。
当然,在其它备选方案中,也可以用其它方式来计算差异值。
本实施例的一种实施方式中,所述P可以但不限于为所述参考cookie中cookie个数除以100得到的商向上或向下取整后的得数,和5之间较大者,比如商取整是6,则P为6;商取整是4,则P为5;是向上取整还是向下取整可自行设置。
本实施例的一种实施方式中,所述预定时间段可以但不限于为每天的20时以后、次日8时前。
本实施例的一种实施方式中,所述预定比例阈值可以但不限于为50%。
下面用一个具体的例子来说明本实施例;该例子包括步骤一~步骤九。为了方便说明,本例子中的用户就是指cookie对应的用户。
步骤一:收集指定IP范围内用户的上网行为数据。在本例子中,所述指定IP范围为162.105.38.246至162.105.38.255,共10个IP。所述上网行为数据包括用户的cookie、使用的IP、时间、访问的网站等信息,如表一所示。
表一、上网行为数据
Cookie IP 时间 访问网站
Cookie1 162.105.38.246 20:13 新浪
Cookie1 162.105.38.247 20:28 人人
Cookie1 162.105.38.248 23:00 人人
Cookie2 162.105.38.247 11:33 人人
Cookie2 162.105.38.247 22:55 新浪
Cookie3 162.105.38.248 00:22 百度
Cookie4 162.105.38.249 21:30 网易
Cookie4 162.105.38.249 18:34 人人
Cookie5 162.105.38.250 22:00 百度
Cookie5 162.105.38.251 23:03 网易
Cookie6 162.105.38.251 20:18 新浪
Cookie6 162.105.28.252 00:19 人人
Cookie6 162.105.38.251 03:45 新浪
Cookie7 162.105.38.250 19:53 百度
Cookie7 162.105.38.253 21:33 网易
Cookie8 162.105.38.253 22:00 人人
Cookie8 162.105.38.254 00:26 新浪
Cookie9 162.105.38.255 21:59 百度
Cookie10 162.105.38.254 20:33 人人
Cookie10 162.105.28.255 23:45 人人
步骤二,包括步骤2.1~2.2。
步骤2.1:随机选取部分用户进行调研。调研可采用线下调研或网络问卷等形式,调研用户近期是否居住在集体宿舍中和用户的网络行为日志,并将所调研用户中近期居住在集体宿舍中的比例记为第一比例。
在本例中,随机选取Cookie1~Cookie4所代表的用户进行调研;其中,Cookie1所代表的用户近期居住在集体宿舍中,计算得到第一比例为25%。所述参考cookie集合包括Cookie1~Cookie4,所述已知cookie集合包括Cookie1。
步骤2.2:在步骤一收集的上网行为数据中,提取步骤2.1中选取调研的Cookie1~Cookie4所对应的上网网络行为数据作为第一数据集合,其余未调研用户(即Cookie5~Cookie10)所对应的部分上网行为数据作为第二数据集合。
本例中,第一数据集合为Cookie1~Cookie4所代表的用户的上网行为数据;第二数据集合为Cookie5~Cookie10所代表的用户的上网行为数据。
步骤三:对第一数据集合,统计每个用户访问的网站和相应的访问次数。假设第一数据集合中有m个用户,第一、第二数据集合中用户共访问了n个网站(即:上网行为数据中共包括了n个网站),则将统计数据形成一个m行n列的矩阵,记为第一矩阵。第一矩阵中m行n列的值即为第m行所代表的用户访问第n列所代表网站的次数。
在本例中,统计结果如表二所示。
表二、第一数据集合的统计结果
Cookie 访问网站 访问次数
Cookie1 新浪 1
Cookie1 人人 2
Cookie2 新浪 1
Cookie3 百度 1
Cookie4 人人 1
Cookie4 网易 1
本例中,第一数据集合中用户共4名,第一、第二数据集合中用户共访问了4个网站。由表二中的统计数据生成的第一矩阵如下:
第一矩阵为4*4矩阵,第一行至第四行分别代表Cookie1~Cookie4所代表的用户,第一列至第四列分别代表第一、第二数据集合中所有用户共访问过的4个网站,矩阵中的值代表该行所代表的用户访问该列所代表的网站的次数。具体含义如表三所示。
表三、第一矩阵的含义
步骤四:对第二数据集合,统计每个用户访问的网站和相应的访问次数。假设第二数据集合中有k个用户,第一、第二数据集合中用户共访问了n个网站,则将统计数据形成一个k行n列的矩阵,记为第二矩阵。第二矩阵中k行n列的值即为第k行所代表的用户访问第n列所代表网站的次数。
在本例中,统计结果如表四所示。
表四、第二数据集合的统计结果
Cookie 访问网站 访问次数
Cookie5 百度 1
Cookie5 网易 1
Cookie6 新浪 2
Cookie6 人人 1
Cookie7 百度 1
Cookie7 网易 1
Cookie8 新浪 1
Cookie8 人人 1
Cookie9 百度 1
Cookie10 人人 1
第二数据集合中用户共6名,第一、第二数据集合中用户共访问过4个网站。由表二的统计结果生成的第二矩阵如下:
其中,第二矩阵为6*4矩阵,第一行至第六行分别代表Cookie5~Cookie10所代表的用户,第一列至第四列分别代表第一、第二数据集合中所有用户共访问过的4个网站,第二矩阵中的值代表该行所代的表用户访问该列所代表的网站的次数。具体含义如表五所示。
表五、第二矩阵的含义
当然,也可以在步骤二之前就分别统计出每个cookie访问每个网站的次数;在步骤二中划分了第一、第二用户集合后,再将统计次数归到相应的矩阵中。
步骤五:对第二矩阵中的每一行,计算其与第一矩阵中每一行的两两相似度。所述两两相似度的计算方法为:计算两行对应列的差值的平方和。所计算出的平方和越小,两两相似度越高。
在本例中,所得结果如表六所示。
表六、相似度计算结果
表六中a行b列中数字代表第二矩阵第a行与第一矩阵中第b行的对应列的差值平方和。
例如,第二矩阵第1行与第一矩阵第1行对应列的差值平方和为7,计算过程为(1-0)2+(2-0)2+(0-1)2+(0-1)2
步骤六,包括步骤6.1~6.2。
步骤6.1:对第二矩阵中的每一行,计算第一矩阵中两两相似度最高的P行所对应的用户中,近期居住在集体宿舍中的第二比例X。
在本实施例中,此处取P=2,通常在实际情况中总用户数以及受调研用户数都较大,P可以但不限于取受调研用户数百分之一。
由步骤五中的表六可知:
第二矩阵第1行与第一矩阵中相似度最高的两行分别为:第3,4行,其中,第一矩阵第3,4行所代表的用户近期均不居住在集体宿舍中,第二比例X为0%。
第二矩阵第2行与第一矩阵中相似度最高的两行分别为:第1,2行,其中,第一矩阵第1行所代表的用户近期居住在集体宿舍中;第一矩阵第2行所代表的用户近期不居住在集体宿舍中,第二比例X为50%。
第二矩阵第3行与第一矩阵中相似度最高的两行分别为:第3,4行,其中,第一矩阵中第3,4行所代表的用户近期均不居住在集体宿舍中,第二比例X为0%。
第二矩阵第4行与第一矩阵中相似度最高的两行分别为:第1,2行,其中,第一矩阵第1行所代表的用户近期居住在集体宿舍中;第一矩阵第2行所代表的用户近期不居住在集体宿舍中,第二比例X为50%。
第二矩阵第5行与第一矩阵中相似度最高的两行分别为:第2,3行,其中,第一矩阵第2,3行所代表的用户近期均不居住在集体宿舍中,第二比例X为0%。
第二矩阵第6行与第一矩阵中相似度最高的两行分别为:第2,3行,其中,第一矩阵第2,3行所代表的用户近期均不居住在集体宿舍中,第二比例X为0%。
步骤6.2:比较第二比例X与第一比例,如果比例X大于或等于第一比例,则将第二矩阵中这一行对应的用户标记为近期居住在集体宿舍中;如果第二比例X小于第一比例,则将第二矩阵中这一行对应的用户标记为近期不居住在集体宿舍中。
在本例中,第二矩阵第1,3,5,6行的第二比例X为0%,小于第一比例25%,故将第二矩阵第1,3,5,6行所代表的用户标记为近期不居住在集体宿舍中。
第二矩阵第2,4行的第二比例X为50%,大于第一比例25%,故将第二矩阵第2,4行所代表的用户标记为近期居住在集体宿舍中。
即Cookie5,7,9,10所代表的用户标记为近期不居住在集体宿舍中;Cookie6,8所代表的用户标记为近期居住在集体宿舍中。
步骤七:对第一数据集合和第二数据集合,统计出现的所有IP地址(即:上网行为数据中出现过的所有IP地址),记为第一IP集合。
在本例中,第一IP集合为:
162.105.38.246
162.105.38.247
162.105.38.248
162.105.38.249
162.105.38.250
162.105.38.251
162.105.38.252
162.105.38.253
162.105.38.254
162.105.38.255
步骤八:对第一IP集合中的每个IP地址,分别进行如下操作:
在该IP地址对应的上网行为数据中,统计每日20时以后、次日8时前,有上网行为数据的cookie所对应的用户,记为第一用户集合;选出第一用户集合中按照步骤一至六标记为备选用户的cookie对应的用户,记为第二用户集合。计算第二用户集合中的用户数与第一用户集合中的用户数的商,记为第三比例Y。
若第三比例Y大于50%,则判断该IP地址为集体宿舍IP地址。
若第三比例Y小于或等于50%,则判断该IP地址为非集体宿舍IP地址。
在本例中,
IP地址162.105.38.246的第一用户集合为Cookie1所代表的用户;从中选出按照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为Cookie1,第三比例Y为100%,>50%,所以判断IP地址162.105.38.248为集体宿舍IP地址。
IP地址162.105.38.247的第一用户集合为Cookie1,Cookie2所代表的用户;从中选出按照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为Cookie1,第三比例Y为50%,等于50%,所以判断IP地址162.105.38.247为非集体宿舍IP地址。
IP地址162.105.38.248的第一用户集合为Cookie1,Cookie3所代表的用户;从中选出按照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为Cookie1,第三比例Y为50%,等于50%,所以判断IP地址162.105.38.248为非集体宿舍IP地址。
IP地址162.105.38.249的第一用户集合为Cookie4所代表的用户;从中选出按照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为空,第三比例Y为0%,<50%,所以判断IP地址162.105.38.249为非集体宿舍IP地址。
IP地址162.105.38.250的第一用户集合为Cookie5所代表的用户;从中选出按照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为空,第三比例Y为0%,<50%,所以判断IP地址162.105.38.250为非集体宿舍IP地址。
IP地址162.105.38.251的第一用户集合为Cookie5,Cookie6所代表的用户;从中选出按照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为Cookie6所代表的用户,第三比例Y为50%,等于50%,所以判断IP地址162.105.38.251为非集体宿舍IP地址。
IP地址162.105.38.252的第一用户集合为Cookie6所代表的用户;从中选出按照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为Cookie6所代表的用户,第三比例Y为100%,>50%,所以判断IP地址162.105.38.252为集体宿舍IP地址。
IP地址162.105.38.253的第一用户集合为Cookie7,8所代表的用户;从中选出按照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为Cookie8所代表的用户,第三比例Y为50%,等于50%,所以判断IP地址162.105.38.253为非集体宿舍IP地址。
IP地址162.105.38.254的第一用户集合为Cookie8,10所代表的用户;从中选出按照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为Cookie8所代表的用户,第三比例Y为50%,等于50%,所以判断IP地址162.105.38.254为非集体宿舍IP地址。
IP地址162.105.38.255的第一用户集合为Cookie9,10所代表的用户;从中选出按照步骤一至六标记为近期居住在集体宿舍的用户所得到的第二用户集合为空,第三比例Y为0%,<50%,所以判断IP地址162.105.38.255为非集体宿舍IP地址。
步骤九:取所有判断为集体宿舍IP地址的IP地址组成集体宿舍IP库。
在本例中,所生成的集体宿舍IP库为:
IP162.105.38.246
IP162.105.38.252。
实施例二、一种生成集体宿舍IP库的装置,如图2所示,包括:
收集模块,用于收集指定IP范围内用户的上网行为数据;所述上网行为数据包括cookie、IP地址、访问的网站,上网时间;
预处理模块,用于在所述上网行为数据中,提取已确认过是否为集体宿舍用户的cookie对应的上网行为数据作为第一数据集合,将其余上网行为数据作为第二数据集合;在所述已确认过是否为集体宿舍用户的cookie中,计算属于集体宿舍用户的cookie所占的比例,得到第一比例;
标注模块,用于对于所述第二数据集合中的各cookie,分别选出与该cookie访问各网站的次数差异最小的P个第一数据集合中的cookie,并计算所选出的P个cookie中属于集体宿舍用户的cookie所占的第二比例,如果大于或等于所述第一比例,则将该第二数据集合中的cookie标记为备选用户;P为正整数;
判断模块,用于对于所述上网行为数据中所出现的每个IP地址,分别统计该IP地址所对应的、上网时间属于预定时间段的上网行为数据所包括的cookie中,标记为备选用户的cookie所占的第三比例,如果大于预定比例阈值,则判断该IP地址为集体宿舍IP地址;
建库模块,用于取所有判断为集体宿舍IP地址的IP地址组成集体宿舍IP库。
本实施例的一种实施方式中,所述标注模块对于所述第二数据集合中的各cookie,分别选出与该cookie访问各网站的次数差异最小的P个第一数据集合中的cookie具体可以指:
所述标注模块根据所述上网行为数据分别统计所述上网行为数据中各cookie对于所述上网行为数据中所包括的每个网站的访问次数;对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值;对于所述第二数据集合中的各cookie,分别选出最小的P个差异值所对应的cookie。
本实施方式的一种备选方案中,所述标注模块根据所述上网行为数据分别统计各cookie对于上网行为数据中所包括的每个网站的访问次数具体可以是指:
所述标注模块根据所述上网行为数据分别统计第一数据集合中每个cookie对于上网行为数据中所包括的各网站的访问次数,形成m行n列的第一矩阵,其中m为第一数据集合中的cookie个数;n为所述上网行为数据中出现过的网站的总个数;根据所述上网行为数据分别统计第二数据集合中每个cookie对于上网行为数据中所包括的各网站的访问次数,形成k行n列的第二矩阵,其中k为第二数据集合中的cookie个数。
本备选方案中,所述标注模块对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值具体可以是指:
所述标注模块对第二矩阵的每一行,分别计算该行与第一矩阵一中每一行对应列的差值的平方和,计算结果作为第二矩阵的该行所表示的cookie与第一矩阵相应行所表示的cookie对各网站访问次数的差异值。
本实施例的一种实施方式中,所述P可以但不限于为所述第一数据集合中cookie个数除以100得到的商向上或向下取整后的得数,与5之间较大者;所述预定比例阈值可以但不限于为50%。
本实施例其它细节可参考实施例一。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

Claims (10)

1.一种生成集体宿舍IP库的方法,包括:
S101、收集指定IP范围内用户的上网行为数据;所述上网行为数据包括cookie、IP地址、访问的网站,上网时间;
S102、在所述上网行为数据中,提取已确认过是否为集体宿舍用户的cookie对应的上网行为数据作为第一数据集合,将其余上网行为数据作为第二数据集合;在所述已确认过是否为集体宿舍用户的cookie中,计算属于集体宿舍用户的cookie所占的比例,得到第一比例;
S103、对于所述第二数据集合中的各cookie,分别选出与该cookie访问所述上网行为数据中所包括的各网站的次数差异最小的P个第一数据集合中的cookie,并计算所选出的P个cookie中属于集体宿舍用户的cookie所占的第二比例,如果大于或等于所述第一比例,则将该第二数据集合中的cookie标记为备选用户;P为正整数;
S104、对于所述上网行为数据中所出现的每个IP地址,分别统计该IP地址所对应的、上网时间属于预定时间段的上网行为数据所包括的cookie中,标记为备选用户的cookie所占的第三比例,如果大于预定比例阈值,则判断该IP地址为集体宿舍IP地址;
S105、取所有判断为集体宿舍IP地址的IP地址组成集体宿舍IP库。
2.如权利要求1所述的方法,其特征在于,所述对于所述第二数据集合中的各cookie,分别选出与该cookie访问所述上网行为数据中所包括的各网站的次数差异最小的P个第一数据集合中的cookie的步骤包括:
根据所述上网行为数据分别统计所述上网行为数据中各cookie对于所述上网行为数据中所包括的每个网站的访问次数;
对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值;
对于所述第二数据集合中的各cookie,分别选出最小的P个差异值所对应的cookie。
3.如权利要求2所述的方法,其特征在于,所述根据所述上网行为数据分别统计各cookie对于上网行为数据中所包括的每个网站的访问次数的步骤包括:根据所述上网行为数据分别统计第一数据集合中每个cookie对于上网行为数据中所包括的各网站的访问次数,形成m行n列的第一矩阵,其中m为第一数据集合中的cookie个数;n为所述上网行为数据中出现过的网站的总个数;根据所述上网行为数据分别统计第二数据集合中每个cookie对于上网行为数据中所包括的各网站的访问次数,形成k行n列的第二矩阵,其中k为第二数据集合中的cookie个数。
4.如权利要求3所述的方法,其特征在于,所述对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值的步骤包括:
对第二矩阵的每一行,分别计算该行与第一矩阵一中每一行对应列的差值的平方和,计算结果作为第二矩阵的该行所表示的cookie与第一矩阵相应行所表示的cookie对各网站访问次数的差异值。
5.如权利要求1到4中任一项所述的方法,其特征在于:
所述P为所述第一数据集合中cookie个数除以100得到的商向上或向下取整后的得数,与5中较大者;所述预定比例阈值为50%。
6.一种生成集体宿舍IP库的装置,其特征在于,包括:
收集模块,用于收集指定IP范围内用户的上网行为数据;所述上网行为数据包括cookie、IP地址、访问的网站,上网时间;
预处理模块,用于在所述上网行为数据中,提取已确认过是否为集体宿舍用户的cookie对应的上网行为数据作为第一数据集合,将其余上网行为数据作为第二数据集合;在所述已确认过是否为集体宿舍用户的cookie中,计算属于集体宿舍用户的cookie所占的比例,得到第一比例;
标注模块,用于对于所述第二数据集合中的各cookie,分别选出与该cookie访问所述上网行为数据中所包括的各网站的次数差异最小的P个第一数据集合中的cookie,并计算所选出的P个cookie中属于集体宿舍用户的cookie所占的第二比例,如果大于或等于所述第一比例,则将该第二数据集合中的cookie标记为备选用户;P为正整数;
判断模块,用于对于所述上网行为数据中所出现的每个IP地址,分别统计该IP地址所对应的、上网时间属于预定时间段的上网行为数据所包括的cookie中,标记为备选用户的cookie所占的第三比例,如果大于预定比例阈值,则判断该IP地址为集体宿舍IP地址;
建库模块,用于取所有判断为集体宿舍IP地址的IP地址组成集体宿舍IP库。
7.如权利要求6所述的装置,其特征在于,所述标注模块对于所述第二数据集合中的各cookie,分别选出与该cookie访问所述上网行为数据中所包括的各网站的次数差异最小的P个第一数据集合中的cookie是指:
所述标注模块根据所述上网行为数据分别统计所述上网行为数据中各cookie对于所述上网行为数据中所包括的每个网站的访问次数;对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值;对于所述第二数据集合中的各cookie,分别选出最小的P个差异值所对应的cookie。
8.如权利要求7所述的装置,其特征在于,所述标注模块根据所述上网行为数据分别统计各cookie对于上网行为数据中所包括的每个网站的访问次数是指:
所述标注模块根据所述上网行为数据分别统计第一数据集合中每个cookie对于上网行为数据中所包括的各网站的访问次数,形成m行n列的第一矩阵,其中m为第一数据集合中的cookie个数;n为所述上网行为数据中出现过的网站的总个数;根据所述上网行为数据分别统计第二数据集合中每个cookie对于上网行为数据中所包括的各网站的访问次数,形成k行n列的第二矩阵,其中k为第二数据集合中的cookie个数。
9.如权利要求8所述的装置,其特征在于,所述标注模块对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值是指:
所述标注模块对第二矩阵的每一行,分别计算该行与第一矩阵一中每一行对应列的差值的平方和,计算结果作为第二矩阵的该行所表示的cookie与第一矩阵相应行所表示的cookie对各网站访问次数的差异值。
10.如权利要求6~9中任一项所述的装置,其特征在于:
所述P为所述第一数据集合中cookie个数除以100得到的商向上或向下取整后的得数,与5中较大者;所述预定比例阈值为50%。
CN201410177742.1A 2014-04-29 2014-04-29 一种生成集体宿舍ip库的方法和装置 Active CN105025115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410177742.1A CN105025115B (zh) 2014-04-29 2014-04-29 一种生成集体宿舍ip库的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410177742.1A CN105025115B (zh) 2014-04-29 2014-04-29 一种生成集体宿舍ip库的方法和装置

Publications (2)

Publication Number Publication Date
CN105025115A CN105025115A (zh) 2015-11-04
CN105025115B true CN105025115B (zh) 2018-06-15

Family

ID=54414809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410177742.1A Active CN105025115B (zh) 2014-04-29 2014-04-29 一种生成集体宿舍ip库的方法和装置

Country Status (1)

Country Link
CN (1) CN105025115B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025567A (zh) * 2016-02-01 2017-08-08 秒针信息技术有限公司 一种数据处理方法和装置
CN107659602B (zh) * 2016-07-26 2020-12-29 株式会社理光 关联用户访问记录的方法、装置及系统
CN108734493B (zh) * 2017-04-20 2022-02-08 腾讯科技(北京)有限公司 一种广告定向投放控制方法、监测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101572629A (zh) * 2009-05-31 2009-11-04 腾讯科技(深圳)有限公司 一种ip数据的处理方法及装置
CN102456199A (zh) * 2010-10-18 2012-05-16 北京学之途网络科技有限公司 互联网用户样本集的扩充、属性参数获取方法及装置
CN103699546A (zh) * 2012-09-28 2014-04-02 北京思博途信息技术有限公司 一种生成网吧ip数据库的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7698422B2 (en) * 2007-09-10 2010-04-13 Specific Media, Inc. System and method of determining user demographic profiles of anonymous users

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101572629A (zh) * 2009-05-31 2009-11-04 腾讯科技(深圳)有限公司 一种ip数据的处理方法及装置
CN102456199A (zh) * 2010-10-18 2012-05-16 北京学之途网络科技有限公司 互联网用户样本集的扩充、属性参数获取方法及装置
CN103699546A (zh) * 2012-09-28 2014-04-02 北京思博途信息技术有限公司 一种生成网吧ip数据库的方法及装置

Also Published As

Publication number Publication date
CN105025115A (zh) 2015-11-04

Similar Documents

Publication Publication Date Title
Torres et al. Desertification research in Argentina
Salvati The dark side of the crisis: disparities in per capita income (2000–12) and the urban‐rural gradient in Greece
CN109145934B (zh) 基于日志的用户行为数据处理方法、介质、设备及装置
Pires et al. The nested assembly of individual‐resource networks
Meadows et al. Land degradation and climate change in South Africa
Andelman et al. Alternative configurations of conservation reserves for Paraguayan bats: considerations of spatial scale
Wang et al. Guiding internet-scale video service deployment using microblog-based prediction
CN103716282B (zh) 一种修正ip库的方法和系统
CN101990003A (zh) 一种基于ip地址属性的用户行为监控系统与方法
CN106682212A (zh) 一种基于用户移动行为的社会关系分类方法与装置
CN104065672A (zh) 广告推送方法、客户端及广告推送系统
Rubenstein et al. Demand for genetic resources and the US National Plant Germplasm System
CN105025115B (zh) 一种生成集体宿舍ip库的方法和装置
CN103780625B (zh) 用户兴趣发现方法和装置
Dumenu et al. Social vulnerability of smallholder farmers to climate change in Zambia: the applicability of social vulnerability index
CN106301980A (zh) 一种刷量工具检测方法和装置
CN103366009B (zh) 一种基于自适应聚类的图书推荐方法
CN107592296A (zh) 垃圾账户的识别方法和装置
Doxford et al. Spatial and temporal variability in positive and negative plant–bryophyte interactions along a latitudinal gradient
Quintana‐Ascencio et al. Assessing the roles of seed bank, seed dispersal and historical disturbances for metapopulation persistence of a pyrogenic herb
CN103699546B (zh) 一种生成网吧ip数据库的方法及装置
Maitland et al. Capturing the geography of children’s active and sedentary behaviours at home: The HomeSPACE measurement tool
CN105426392A (zh) 一种协同过滤推荐方法及系统
CN108093303A (zh) 一种视频推送方法及装置
AU2008200194A1 (en) Street Quality Assessment Method and System

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant