CN105100295A - 一种识别独立用户的方法和装置 - Google Patents

一种识别独立用户的方法和装置 Download PDF

Info

Publication number
CN105100295A
CN105100295A CN201410216883.XA CN201410216883A CN105100295A CN 105100295 A CN105100295 A CN 105100295A CN 201410216883 A CN201410216883 A CN 201410216883A CN 105100295 A CN105100295 A CN 105100295A
Authority
CN
China
Prior art keywords
uuid
association identification
currentitem
next item
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410216883.XA
Other languages
English (en)
Other versions
CN105100295B (zh
Inventor
丁若谷
张诗晨
冯是聪
吴明辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Miaozhen Information Consultant Co Ltd
Original Assignee
Beijing Miaozhen Information Consultant Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Miaozhen Information Consultant Co Ltd filed Critical Beijing Miaozhen Information Consultant Co Ltd
Priority to CN201410216883.XA priority Critical patent/CN105100295B/zh
Publication of CN105100295A publication Critical patent/CN105100295A/zh
Application granted granted Critical
Publication of CN105100295B publication Critical patent/CN105100295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提出了一种识别独立用户的方法和装置,包括:获取第一阈值;在第二预设时间内获取不同设备的上网行为数据,所述上网行为数据至少包括通用唯一识别码UUID、互联网协议IP地址和时间;计算同一IP地址对应的UUID的个数,判断出计算得到的UUID的个数大于第一阈值,所述同一IP地址对应的各UUID均为不同的独立用户。本发明提高了识别独立用户的精度。

Description

一种识别独立用户的方法和装置
技术领域
本发明涉及互联网技术,尤指一种识别独立用户(UV,UniqueVisitor)的方法和装置。
背景技术
在科技产品和互联网飞速发展的当下社会,一人多机已经成为人们生活中的普遍现象。很多网民通常同时拥有手机,平板电脑及台式机等电子设备,甚至一人持有多部手机,或多台电脑。如何准确识别独立用户对于信息对象的监测具有重大意义。
现有的识别独立用户的方法中,将个人计算机(PC,PersonalComputer)设备和移动设备分记为两个不同的独立用户。其中,对于PC设备采用cookie来识别独立用户。Cookie是指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。对于多次出现的访问数据,如果具有相同的Cookie,则认为是同一个独立用户。对于移动设备采用设备标识(ID)来识别独立用户。设备ID可以是开放设备识别码(OpenUDID)、广告标示符(IDFA,IdentifierForAdvertising)、移动设备国际身份码(IMEI,InternationalMobileEquipmentIdentity)、媒体访问控制地址(MAC,MediaAccessControlAddress)、安卓标识(AndroidID)、设备指纹、Cookie等信息中的一个或多个。
现有的识别独立用户的方法中,由于同一个独立用户可能在较短的时间内先后使用多台PC设备和/或多台移动设备访问相同的内容,例如某大型快餐连锁品牌的广告;而使用现有的识别独立用户的方法来识别独立用户时,该独立用户使用的PC设备计为一个独立用户,移动设备计为另一个独立用户。这与只有一个独立用户的实际情况是不符的,从而使得识别独立用户的精度较低。
现有的另一种识别独立用户的方法是根据互联网协议(IP,InternetProtocol)地址来识别独立用户,即相同IP地址的用户为同一独立用户,而不同IP地址的用户为不同的独立用户。该方法忽略了相同IP地址的用户也可能是不同的独立用户,例如,网吧中多台设备通过光纤专线接入网络,虽然具有相同的IP地址,但大多数为不同的独立用户,从而识别独立用户的精度较低。
发明内容
为了解决上述问题,本发明提出了一种识别独立用户的方法和装置,能够提高识别独立用户的精度。
为了达到上述目的,本发明提出了一种识别独立用户的方法,包括:
获取第一阈值;
在第二预设时间内获取不同设备的上网行为数据,所述上网行为数据至少包括通用唯一识别码UUID、互联网协议IP地址和时间;
计算同一IP地址对应的UUID的个数,判断出计算得到的UUID的个数大于第一阈值,所述同一IP地址对应的各UUID均为不同的独立用户。
优选地,所述获取第一阈值包括:
选取第一样本用户集合,在第一预设时间或第一预设时间周期内统计所述第一样本用户集合中每个样本用户使用过的UUID的个数,计算第一样本用户集合中所有样本用户的UUID的个数的均值和标准差,将高于均值三个标准差的UUID的个数作为第一阈值。
优选地,当判断出计算得到的UUID的个数小于或等于第一阈值时,该方法还包括:
为所述同一IP地址对应的各UUID分配关联标识;
所述关联标识相同的UUID为同一独立用户,所述关联标识不同的各UUID均为不同的独立用户。
优选地,所述为所述同一IP地址对应的各UUID分配关联标识包括:
获取第二阈值;
将所述同一IP地址对应的各UUID的所有上网行为数据按照时间顺序排列;
将排列好的第一项上网行为数据设置为当前项;
根据自身保存的UUID和关联标识之间的对应关系判断出所述当前项中的UUID存在关联标识,且判断出所述当前项存在下一项,计算所述当前项和下一项之间的时间间隔;
判断出计算得到的时间间隔大于所述第二阈值,将所述下一项上网行为数据设置为所述当前项,重复判断直至所述当前项不存在下一项。
优选地,所述获取第二阈值包括:
选取第二样本用户集合,在第三预设时间内或者在第二预设时间周期内统计第二样本用户集合中每个样本用户使用的UUID和IP均发生变化时,前一次和后一次产生上网行为的时间间隔,计算第二样本用户集合中所有样本用户的时间间隔的均值和标准差,将低于均值三个标准差的时间间隔作为第二阈值。
优选地,当根据自身保存的UUID和关联标识之间的对应关系判断出所述当前项中的UUID不存在关联标识时,该方法还包括:
为所述当前项中的UUID分配关联标识;
保存所述当前项中的UUID和分配的关联标识之间的对应关系。
优选地,当判断出计算得到的时间间隔小于或等于所述第二阈值,且所述下一项中的UUID不存在关联标识时,该方法还包括:
为所述下一项中的UUID分配与所述当前项中的UUID的关联标识相同的关联标识;
保存所述下一项中的UUID和分配的关联标识之间的对应关系;
将所述下一项设置为所述当前项。
优选地,当判断出所述下一项中的UUID存在关联标识,且所述下一项中的UUID的关联标识与所述当前项中的UUID的关联标识不相同时,该方法还包括:
根据自身保存的UUID和关联标识之间的对应关系,将与所述下一项中的UUID的关联标识相同的所有UUID的关联标识更改为所述当前项中的UUID的关联标识。
本发明还提出了一种识别独立用户的装置,至少包括:
获取模块,用于获取第一阈值;在第二预设时间内获取不同设备的上网行为数据,所述上网行为数据至少包括通用唯一识别码UUID、互联网协议IP地址和时间;
计算模块,用于计算同一IP地址对应的UUID的个数;
判断模块,用于判断出计算得到的UUID的个数大于第一阈值,所述同一IP地址对应的各UUID均为不同的独立用户。
优选地,所述判断模块,还用于:
判断出计算得到的UUID的个数小于或等于第一阈值,为所述同一IP地址对应的各UUID分配关联标识;所述关联标识相同的UUID为同一独立用户,所述关联标识不同的各UUID均为不同的独立用户。
优选地,所述判断模块判断出计算得到的UUID的个数小于或等于第一阈值后,具体用于:
将所述同一IP地址对应的各UUID的所有上网行为数据按照时间顺序排列;将排列好的第一项上网行为数据设置为当前项;根据自身保存的UUID和关联标识之间的对应关系判断出所述当前项中的UUID存在关联标识,且判断出所述当前项存在下一项,计算所述当前项和下一项之间的时间间隔;判断出计算得到的时间间隔大于第二阈值,将所述下一项上网行为数据设置为所述当前项,重复判断直至所述当前项不存在下一项;
所述判断模块判断出计算得到的UUID的个数小于或等于第一阈值后,所述获取模块还用于:
获取第二阈值。
优选地,所述判断模块,还用于:
根据自身保存的UUID和关联标识之间的对应关系判断出所述当前项中的UUID不存在关联标识,为所述当前项中的UUID分配关联标识;保存所述当前项中的UUID和分配的关联标识之间的对应关系。
优选地,所述判断模块,还用于:
判断出计算得到的时间间隔小于或等于所述第二阈值,且所述下一项中的UUID不存在关联标识,为所述下一项中的UUID分配与所述当前项中的UUID的关联标识相同的关联标识;保存所述下一项中的UUID和分配的关联标识之间的对应关系;将所述下一项设置为所述当前项。
优选地,所述判断模块,还用于:
判断出所述下一项中的UUID存在关联标识,且所述下一项中的UUID的关联标识与所述当前项中的UUID的关联标识不相同,根据自身保存的UUID和关联标识之间的对应关系,将与所述下一项中的UUID的关联标识相同的所有UUID的关联标识更改为所述当前项中的UUID的关联标识。
与现有技术相比,本发明包括:获取第一阈值;在第二预设时间内获取不同设备的上网行为数据,上网行为数据至少包括通用唯一识别码UUID、互联网协议IP地址和时间;计算同一IP地址对应的UUID的个数,当计算得到的UUID的个数大于第一阈值,同一IP地址对应的各UUID均为不同的独立用户。通过本发明的方案,采用IP地址来识别独立用户,即认为同一IP地址对应的UUID的个数大于第一阈值时,同一IP地址对应的各UUID为不同的独立用户,从而提高了识别独立用户的精度。
附图说明
下面对本发明实施例中的附图进行说明,实施例中的附图是用于对本发明的进一步理解,与说明书一起用于解释本发明,并不构成对本发明保护范围的限制。
图1为本发明的识别独立用户的方法流程图;
图2为本发明的为同一IP地址对应的各UUID分配关联标识的方法流程图;
图3为本发明的识别独立用户的方法的实施例的流程图;
图4为本发明的识别独立用户的装置组成结构示意图。
具体实施方式
为了便于本领域技术人员的理解,下面结合附图对本发明作进一步的描述,并不能用来限制本发明的保护范围。
参见图1,本发明提出了一种识别独立用户的方法,包括:
步骤100、获取第一阈值。
本步骤中,第一阈值可以根据经验预先设置。
第一阈值也可以通过对样本用户的上网行为进行统计分析得到,即具体包括:选取第一样本用户集合,在第一预设时间内或在第一预设时间周期内(如一个月内)统计第一样本用户集合中每个样本用户使用过的UUID的个数,计算第一样本用户集合中所有样本用户的UUID的个数的均值和标准差,将高于均值三个标准差的UUID的个数作为第一阈值。
步骤101、在第二预设时间内获取不同设备的上网行为数据,上网行为数据至少包括通用唯一识别码(UUID,UniversallyUniqueIdentifier)、互联网协议IP地址和时间。
本步骤中,第二预设时间至少为一个月。
本步骤中,可以采用现有技术来获取不同设备的上网行为数据,并不用于限定本发明的保护范围,这里不再赘述。
本步骤中,当设备为PC设备时,UUID为PC设备的Cookie;当设备为移动设备(如手机、平板电脑等)时,UUID为设备标识,设备标识可以是OpenUDID、IDFA,IdentifierForldentifier、IMEI、MAC、AndroidID、设备指纹、Cookie等信息中的一个或多个。
其中,可以采用现有技术获取PC设备的Cookie,并不用于限定本发明的保护范围,这里不再赘述。
步骤102、计算同一IP地址对应的UUID的个数,判断出计算得到的UUID的个数大于第一阈值,同一IP地址对应的各UUID均为不同的独立用户。
本步骤中,还包括:当判断出计算得到的UUID的个数小于或等于第一阈值时,为同一IP地址对应的各UUID分配关联标识;关联标识相同的UUID为同一独立用户,关联标识不同的各UUID均为不同的独立用户。
参见图2,为同一IP地址对应的各UUID分配关联标识包括:
步骤200、获取第二阈值。
本步骤中,第二阈值可以根据经验预先设置。
第二阈值也可以通过对样本用户的上网行为进行统计分析得到,即具体包括:选取第二样本用户集合,在第三预设时间内(如一个月内)或者在第二预设时间周期内统计第二样本用户集合中每个样本用户使用的UUID和IP均发生变化时,前一次和后一次产生上网行为的时间间隔,计算第二样本用户集合中所有样本用户的时间间隔的均值和标准差,将低于均值三个标准差的时间间隔作为第二阈值。
步骤201、将同一IP地址对应的各UUID的所有上网行为数据按照时间顺序排列。
本步骤中,可以将同一IP地址对应的各UUID的所有上网行为数据按照时间顺序由大到小的顺序或由小到大的顺序排列。
步骤202、将排列好的第一项上网行为数据设置为当前项。
步骤203、根据自身保存的UUID和关联标识之间的对应关系判断出当前项中的UUID存在关联标识,且判断出当前项存在下一项,计算当前项和下一项之间的时间间隔。
本步骤中,当根据自身保存的UUID和关联标识之间的对应关系判断出当前项中的UUID不存在关联标识时,为当前项中的UUID分配关联标识;保存当前项中的UUID和分配的关联标识之间的对应关系。
其中,可以采用现有技术为当前项中的UUID分配关联标识,分配的关联标识不与对应关系中的所有关联标识相同就可以,并不用于限定本发明的保护范围,这里不再赘述。
步骤204、判断出计算得到的时间间隔大于第二阈值,将下一项上网行为数据设置为当前项,重复执行步骤202直至当前项不存在下一项。
本步骤中,还包括:当判断出计算得到的时间间隔小于或等于第二阈值,且下一项中的UUID不存在关联标识时,为下一项中的UUID分配与当前项中的UUID的关联标识相同的关联标识;保存下一项中的UUID和分配的关联标识之间的对应关系;将下一项设置为当前项。
当判断出下一项中的UUID存在关联标识,且下一项中的UUID的关联标识与当前项中的UUID的关联标识不相同时,根据自身保存的UUID和关联标识之间的对应关系,将与下一项中的UUID的关联标识相同的所有UUID的关联标识更改为当前项中的UUID的关联标识。
实施例
参见图3,本发明的实施例的识别独立用户的方法包括:
步骤300、获取一个月内不同设备的上网行为数据。
例如,使用现有技术方案获取2012年6月上网行为数据,如表1所示。
UUID IP 时间 访问的网站
UUID1 162.105.38.250 2012-6-10:01 www.pku.edu.cn
UUID1 162.105.38.250 2012-6-20:01 www.kaust.edu.sa
UUID2 162.105.38.250 2012-6-30:01 www.miaozhen.com
UUID3 162.105.38.250 2012-6-40:01 www.pku.edu.cn
UUID4 162.105.38.250 2012-6-50:01 www.kaust.edu.sa
UUID5 162.105.38.250 2012-6-60:01 www.miaozhen.com
UUID6 162.105.38.250 2012-6-70:01 www.pku.edu.cn
UUID7 162.105.38.250 2012-6-80:01 www.kaust.edu.sa
UUID8 162.105.38.250 2012-6-90:01 www.miaozhen.com
UUID9 162.105.38.250 2012-6-100:01 www.pku.edu.cn
UUID10 162.105.38.250 2012-6-110:01 www.kaust.edu.sa
UUID11 162.105.38.250 2012-6-120:01 www.miaozhen.com
UUID1 162.105.38.251 2012-6-1314:01 www.pku.edu.cn
UUID12 162.105.38.251 2012-6-1411:01 www.kaust.edu.sa
UUID12 162.105.38.251 2012-6-157:01 www.miaozhen.com
UUID13 162.105.38.251 2012-6-160:01 www.pku.edu.cn
UUID14 162.105.38.251 2012-6-172:01 www.kaust.edu.sa
UUID15 162.105.38.252 2012-6-188:01 www.miaozhen.com
UUID15 162.105.38.252 2012-6-1912:01 www.pku.edu.cn
UUID15 162.105.38.252 2012-6-2014:01 www.kaust.edu.sa
UUID15 162.105.38.252 2012-6-2116:01 www.miaozhen.com
UUID15 162.105.38.252 2012-6-2218:01 www.pku.edu.cn
UUID16 162.105.38.253 2012-6-2319:01 www.kaust.edu.sa
UUID17 162.105.38.253 2012-6-2420:01 www.miaozhen.com
UUID18 162.105.38.253 2012-6-2521:01 www.pku.edu.cn
UUID19 162.105.38.254 2012-6-2622:01 www.kaust.edu.sa
UUID19 162.105.38.254 2012-6-2723:01 www.miaozhen.com
UUID20 162.105.38.254 2012-6-2816:01 www.pku.edu.cn
UUID13 162.105.38.255 2012-6-2915:01 www.kaust.edu.sa
UUID21 162.105.38.255 2012-6-3012:01 www.miaozhen.com
表1上网行为数据
步骤301、计算同一IP地址对应的UUID的个数。
例如,表1中获取得到五个IP地址,分别为:162.105.38.250、162.105.38.251、162.105.38.252、162.105.38.253、162.105.38.254和162.105.38.255。
分别计算上述五个IP地址对应的UUID的个数。
IP地址162.105.38.250对应的UUID的个数为11个。
IP地址162.105.38.251对应的UUID的个数为4个。
IP地址162.105.38.252对应的UUID的个数为1个。
IP地址162.105.38.253对应的UUID的个数为3个。
IP地址162.105.38.254对应的UUID的个数为2个。
IP地址162.105.38.255对应的UUID的个数为2个。
步骤302、判断计算得到的UUID的个数是否大于10个,如果大于,执行步骤303,否则执行步骤304。
步骤303、同一IP地址对应的各UUID均为不同的独立用户,并结束本流程。
例如,IP地址162.105.38.250对应的UUID的个数为11个,大于10个,则IP地址162.105.38.250对应的11个UUID均为不同的独立用户。
步骤304、将同一IP地址对应的各UUID的所有上网行为数据按照时间顺序排列。
例如,IP地址162.105.38.251、162.105.38.252、162.105.38.253、162.105.38.254、162.105.38.255对应的UUID的个数均小于10个。
将IP地址162.105.38.251对应的各UUID的所有上网行为数据按照时间顺序排列,如表2所示。
UUID1 162.105.38.251 2012-6-1314:01 www.pku.edu.cn
UUID12 162.105.38.251 2012-6-1411:01 www.kaust.edu.sa
UUID12 162.105.38.251 2012-6-157:01 www.miaozhen.com
UUID13 162.105.38.251 2012-6-160:01 www.pku.edu.cn
UUID14 162.105.38.251 2012-6-172:01 www.kaust.edu.sa
表2排列后的上网行为数据
采用相同的方法将IP地址162.105.38.252、162.105.38.253、162.105.38.254、162.105.38.255对应的各UUID的所有上网行为数据按照时间顺序排列。
步骤305、将排列好的第一项上网行为数据设置为当前项。
例如,表2中每行是一项,将表2中第一行上网行为数据设置为当前项。
步骤306、根据自身保存的UUID和关联标识之间的对应关系判断当前项中的UUID是否存在关联标识,如果不存在,则执行步骤307,如果存在,则执行步骤308。
步骤307、为当前项中的UUID分配关联标识,保存当前项中的UUID和分配的关联标识之间的对应关系,执行步骤308。
例如,当第一行上网行为数据为当前项时,UUID1没有关联标识,可以为UUID1分配关联标识SID1,并保存UUID1和SID1之间的对应关系。
步骤308、判断当前项是否存在下一项,如果存在,执行步骤309,如果不存在,结束本流程。
步骤309、计算当前项和下一项之间的时间间隔。
例如,表2中第一项和第二项之间的时间间隔为21个小时,第二项和第三项之间的时间间隔为20个小时,第三项和第四项之间的时间间隔为17个小时,第四项和第五项之间的时间间隔为26个小时。
步骤310、判断计算得到的时间间隔是否大于24小时,如果小于或等于24小时,执行步骤311,如果大于24小时,执行步骤315。
例如,表2中第一项和第二项之间的时间间隔小于24小时,第二项和第三项之间的时间间隔小于24小时,第三项和第四项之间的时间间隔小于24小时,第四项和第五项之间的时间间隔大于24小时。
步骤311、判断下一项中的UUID是否存在关联标识,如果不存在,则执行步骤312,如果存在,则执行步骤313。
步骤312、为下一项中的UUID分配与当前项中的UUID的关联标识相同的关联标识;保存下一项中的UUID和分配的关联标识之间的对应关系,执行步骤315。
例如,表2中第二项中的UUID12不存在关联标识,为第二项中的UUID12分配关联标识SID1;第三项的UUID12存在关联标识,第四项的UUID13不存在关联标识,为第四项中的UUID13分配关联标识SID1,第五项中的UUID14不存在关联标识,为第五项中的UUID14分配一个新的关联标识SID2。
步骤313、判断下一项中的UUID的关联标识与当前项中的UUID的关联标识是否相同,如果不相同,则执行步骤314,如果相同,则执行步骤315。
步骤314、根据自身保存的UUID和关联标识之间的对应关系,将与下一项中的UUID的关联标识相同的所有UUID的关联标识更改为当前项中的UUID的关联标识,执行步骤315。
步骤315、将下一项设置为当前项,执行步骤306。
以上计算结束后,UUID1、UUID12、UUID13三个UUID具有相同的关联标识SID1,代表同一个独立用户。UUID14具有关联标识SID2,代表另一个独立用户。
参见图4,本发明还提出了一种识别独立用户的装置,至少包括:
获取模块,用于获取第一阈值;在第二预设时间内获取不同设备的上网行为数据,上网行为数据至少包括通用唯一识别码UUID、互联网协议IP地址和时间;
计算模块,用于计算同一IP地址对应的UUID的个数;
判断模块,用于判断出计算得到的UUID的个数大于第一阈值,同一IP地址对应的各UUID均为不同的独立用户。
本发明的装置中,判断模块,还用于:
判断出计算得到的UUID的个数小于或等于第一阈值,为同一IP地址对应的各UUID分配关联标识;关联标识相同的UUID为同一独立用户,关联标识不同的各UUID均为不同的独立用户。
本发明的装置中,判断模块判断出计算得到的UUID的个数小于或等于第一阈值后,具体用于:
将同一IP地址对应的各UUID的所有上网行为数据按照时间顺序排列;将排列好的第一项上网行为数据设置为当前项;根据自身保存的UUID和关联标识之间的对应关系判断出当前项中的UUID存在关联标识,且判断出当前项存在下一项,计算当前项和下一项之间的时间间隔;判断出计算得到的时间间隔大于第二阈值,将下一项上网行为数据设置为当前项,重复判断直至当前项不存在下一项;
所述判断模块判断出计算得到的UUID的个数小于或等于第一阈值后,所述获取模块还用于:
获取第二阈值。
本发明的装置中,判断模块,还用于:
根据自身保存的UUID和关联标识之间的对应关系判断出当前项中的UUID不存在关联标识,为当前项中的UUID分配关联标识;保存当前项中的UUID和分配的关联标识之间的对应关系。
本发明的装置中,判断模块,还用于:
判断出计算得到的时间间隔小于或等于第二阈值,且下一项中的UUID不存在关联标识,为下一项中的UUID分配与当前项中的UUID的关联标识相同的关联标识;保存下一项中的UUID和分配的关联标识之间的对应关系;将下一项设置为当前项。
本发明的装置中,判断模块,还用于:
判断出下一项中的UUID存在关联标识,且下一项中的UUID的关联标识与当前项中的UUID的关联标识不相同,根据自身保存的UUID和关联标识之间的对应关系,将与下一项中的UUID的关联标识相同的所有UUID的关联标识更改为当前项中的UUID的关联标识。
需要说明的是,以上所述的实施例仅是为了便于本领域的技术人员理解而已,并不用于限制本发明的保护范围,在不脱离本发明的发明构思的前提下,本领域技术人员对本发明所做出的任何显而易见的替换和改进等均在本发明的保护范围之内。

Claims (14)

1.一种识别独立用户的方法,其特征在于,包括:
获取第一阈值;
在第二预设时间内获取不同设备的上网行为数据,所述上网行为数据至少包括通用唯一识别码UUID、互联网协议IP地址和时间;
计算同一IP地址对应的UUID的个数,判断出计算得到的UUID的个数大于第一阈值,所述同一IP地址对应的各UUID均为不同的独立用户。
2.根据权利要求1所述的方法,其特征在于,所述获取第一阈值包括:
选取第一样本用户集合,在第一预设时间或第一预设时间周期内统计所述第一样本用户集合中每个样本用户使用过的UUID的个数,计算第一样本用户集合中所有样本用户的UUID的个数的均值和标准差,将高于均值三个标准差的UUID的个数作为第一阈值。
3.根据权利要求1所述的方法,其特征在于,当判断出计算得到的UUID的个数小于或等于第一阈值时,该方法还包括:
为所述同一IP地址对应的各UUID分配关联标识;
所述关联标识相同的UUID为同一独立用户,所述关联标识不同的各UUID均为不同的独立用户。
4.根据权利要求3所述的方法,其特征在于,所述为所述同一IP地址对应的各UUID分配关联标识包括:
获取第二阈值;
将所述同一IP地址对应的各UUID的所有上网行为数据按照时间顺序排列;
将排列好的第一项上网行为数据设置为当前项;
根据自身保存的UUID和关联标识之间的对应关系判断出所述当前项中的UUID存在关联标识,且判断出所述当前项存在下一项,计算所述当前项和下一项之间的时间间隔;
判断出计算得到的时间间隔大于所述第二阈值,将所述下一项上网行为数据设置为所述当前项,重复判断直至所述当前项不存在下一项。
5.根据权利要求4所述的方法,其特征在于,所述获取第二阈值包括:
选取第二样本用户集合,在第三预设时间内或者在第二预设时间周期内统计第二样本用户集合中每个样本用户使用的UUID和IP均发生变化时,前一次和后一次产生上网行为的时间间隔,计算第二样本用户集合中所有样本用户的时间间隔的均值和标准差,将低于均值三个标准差的时间间隔作为第二阈值。
6.根据权利要求4所述的方法,其特征在于,当根据自身保存的UUID和关联标识之间的对应关系判断出所述当前项中的UUID不存在关联标识时,该方法还包括:
为所述当前项中的UUID分配关联标识;
保存所述当前项中的UUID和分配的关联标识之间的对应关系。
7.根据权利要求4所述的方法,其特征在于,当判断出计算得到的时间间隔小于或等于所述第二阈值,且所述下一项中的UUID不存在关联标识时,该方法还包括:
为所述下一项中的UUID分配与所述当前项中的UUID的关联标识相同的关联标识;
保存所述下一项中的UUID和分配的关联标识之间的对应关系;
将所述下一项设置为所述当前项。
8.根据权利要求7所述的方法,其特征在于,当判断出所述下一项中的UUID存在关联标识,且所述下一项中的UUID的关联标识与所述当前项中的UUID的关联标识不相同时,该方法还包括:
根据自身保存的UUID和关联标识之间的对应关系,将与所述下一项中的UUID的关联标识相同的所有UUID的关联标识更改为所述当前项中的UUID的关联标识。
9.一种识别独立用户的装置,其特征在于,至少包括:
获取模块,用于获取第一阈值;在第二预设时间内获取不同设备的上网行为数据,所述上网行为数据至少包括通用唯一识别码UUID、互联网协议IP地址和时间;
计算模块,用于计算同一IP地址对应的UUID的个数;
判断模块,用于判断出计算得到的UUID的个数大于第一阈值,所述同一IP地址对应的各UUID均为不同的独立用户。
10.根据权利要求9所述的装置,其特征在于,所述判断模块,还用于:
判断出计算得到的UUID的个数小于或等于第一阈值,为所述同一IP地址对应的各UUID分配关联标识;所述关联标识相同的UUID为同一独立用户,所述关联标识不同的各UUID均为不同的独立用户。
11.根据权利要求10所述的装置,其特征在于,所述判断模块判断出计算得到的UUID的个数小于或等于第一阈值后,具体用于:
将所述同一IP地址对应的各UUID的所有上网行为数据按照时间顺序排列;将排列好的第一项上网行为数据设置为当前项;根据自身保存的UUID和关联标识之间的对应关系判断出所述当前项中的UUID存在关联标识,且判断出所述当前项存在下一项,计算所述当前项和下一项之间的时间间隔;判断出计算得到的时间间隔大于第二阈值,将所述下一项上网行为数据设置为所述当前项,重复判断直至所述当前项不存在下一项;
所述判断模块判断出计算得到的UUID的个数小于或等于第一阈值后,所述获取模块还用于:
获取第二阈值。
12.根据权利要求11所述的装置,其特征在于,所述判断模块,还用于:
根据自身保存的UUID和关联标识之间的对应关系判断出所述当前项中的UUID不存在关联标识,为所述当前项中的UUID分配关联标识;保存所述当前项中的UUID和分配的关联标识之间的对应关系。
13.根据权利要求11所述的装置,其特征在于,所述判断模块,还用于:
判断出计算得到的时间间隔小于或等于所述第二阈值,且所述下一项中的UUID不存在关联标识,为所述下一项中的UUID分配与所述当前项中的UUID的关联标识相同的关联标识;保存所述下一项中的UUID和分配的关联标识之间的对应关系;将所述下一项设置为所述当前项。
14.根据权利要求13所述的装置,其特征在于,所述判断模块,还用于:
判断出所述下一项中的UUID存在关联标识,且所述下一项中的UUID的关联标识与所述当前项中的UUID的关联标识不相同,根据自身保存的UUID和关联标识之间的对应关系,将与所述下一项中的UUID的关联标识相同的所有UUID的关联标识更改为所述当前项中的UUID的关联标识。
CN201410216883.XA 2014-05-21 2014-05-21 一种识别独立用户的方法和装置 Active CN105100295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410216883.XA CN105100295B (zh) 2014-05-21 2014-05-21 一种识别独立用户的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410216883.XA CN105100295B (zh) 2014-05-21 2014-05-21 一种识别独立用户的方法和装置

Publications (2)

Publication Number Publication Date
CN105100295A true CN105100295A (zh) 2015-11-25
CN105100295B CN105100295B (zh) 2019-01-15

Family

ID=54579805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410216883.XA Active CN105100295B (zh) 2014-05-21 2014-05-21 一种识别独立用户的方法和装置

Country Status (1)

Country Link
CN (1) CN105100295B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019352A (zh) * 2017-09-14 2019-07-16 北京京东尚科信息技术有限公司 用于存储数据的方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035031A (zh) * 2007-04-03 2007-09-12 华为技术有限公司 检测共享接入的主机数目的方法和装置
CN101572629A (zh) * 2009-05-31 2009-11-04 腾讯科技(深圳)有限公司 一种ip数据的处理方法及装置
US7761558B1 (en) * 2006-06-30 2010-07-20 Google Inc. Determining a number of users behind a set of one or more internet protocol (IP) addresses
CN102546668A (zh) * 2012-02-29 2012-07-04 北京蓝汛通信技术有限责任公司 一种独立访问者的统计方法、装置及系统
WO2012162671A1 (en) * 2011-05-25 2012-11-29 Comscore, Inc. Combining measurements based on beacon data
CN103179188A (zh) * 2013-01-17 2013-06-26 北京亿赞普网络技术有限公司 用户识别方法和装置
CN103237094A (zh) * 2013-04-17 2013-08-07 北京亿赞普网络技术有限公司 一种识别用户的方法及装置
CN103533530A (zh) * 2013-09-26 2014-01-22 林毅 一种跨设备的用户对应及用户追踪方法、系统
CN103699546A (zh) * 2012-09-28 2014-04-02 北京思博途信息技术有限公司 一种生成网吧ip数据库的方法及装置
WO2014066619A2 (en) * 2012-10-26 2014-05-01 Comscore, Inc. Combining measurements based on beacon data

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7761558B1 (en) * 2006-06-30 2010-07-20 Google Inc. Determining a number of users behind a set of one or more internet protocol (IP) addresses
CN101035031A (zh) * 2007-04-03 2007-09-12 华为技术有限公司 检测共享接入的主机数目的方法和装置
CN101572629A (zh) * 2009-05-31 2009-11-04 腾讯科技(深圳)有限公司 一种ip数据的处理方法及装置
WO2012162671A1 (en) * 2011-05-25 2012-11-29 Comscore, Inc. Combining measurements based on beacon data
CN102546668A (zh) * 2012-02-29 2012-07-04 北京蓝汛通信技术有限责任公司 一种独立访问者的统计方法、装置及系统
CN103699546A (zh) * 2012-09-28 2014-04-02 北京思博途信息技术有限公司 一种生成网吧ip数据库的方法及装置
WO2014066619A2 (en) * 2012-10-26 2014-05-01 Comscore, Inc. Combining measurements based on beacon data
CN103179188A (zh) * 2013-01-17 2013-06-26 北京亿赞普网络技术有限公司 用户识别方法和装置
CN103237094A (zh) * 2013-04-17 2013-08-07 北京亿赞普网络技术有限公司 一种识别用户的方法及装置
CN103533530A (zh) * 2013-09-26 2014-01-22 林毅 一种跨设备的用户对应及用户追踪方法、系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019352A (zh) * 2017-09-14 2019-07-16 北京京东尚科信息技术有限公司 用于存储数据的方法和装置
CN110019352B (zh) * 2017-09-14 2021-09-03 北京京东尚科信息技术有限公司 用于存储数据的方法和装置

Also Published As

Publication number Publication date
CN105100295B (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN104579912B (zh) 数据推送的方法及装置
WO2005059714A3 (en) Method and apparatus for automatically performing an online content distribution campaign
WO2015142710A8 (en) Method, apparatus, and system for determining a location corresponding to an ip address
CN106713290B (zh) 一种识别主用户账号的方法及服务器
DE60336433D1 (de) Verfahren und vorrichtung zum ermitteln und benachrichtigen von nutzern mit übereinstimmenden präferenzprofilen für den zugriff auf eine online-anwendung mit mehrfachzugriff
CN103024090A (zh) 一种识别用户终端的方法和系统
CN105550175A (zh) 恶意账户识别方法及装置
CN104994016A (zh) 用于分组分类的方法和装置
CN103095737A (zh) 一种网络浏览信息的处理方法和装置
CN106997431A (zh) 一种数据处理方法及装置
CN105989107A (zh) 一种应用推荐方法及装置
CN110689084A (zh) 一种异常用户识别方法及装置
CN106919692B (zh) 一种推送消息的方法和装置
CN108040117A (zh) 信息推送方法及装置
CN109347785A (zh) 一种终端类型识别方法及装置
CN105354249A (zh) 多账号关联方法、装置及电子设备
CN105100295A (zh) 一种识别独立用户的方法和装置
CN104376754A (zh) 一种教学信息交互方法及系统
CN104980409A (zh) 一种上网行为管理方法及装置
CN109495562A (zh) 获取设备标识的方法及装置
CN109446378A (zh) 信息推荐方法、情感倾向确定方法及装置和电子设备
CN108804501A (zh) 一种检测有效信息的方法及装置
CN108710656A (zh) 一种内容推送方法和装置
CN104965840B (zh) 一种数据节点的随机分配方法及系统
CN103188137B (zh) 基于疲劳控制的消息浮出方法、服务器和即时通讯客户端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant