CN103944995B - 一种识别宽带网络中独立用户账户的方法 - Google Patents

一种识别宽带网络中独立用户账户的方法 Download PDF

Info

Publication number
CN103944995B
CN103944995B CN201410172950.2A CN201410172950A CN103944995B CN 103944995 B CN103944995 B CN 103944995B CN 201410172950 A CN201410172950 A CN 201410172950A CN 103944995 B CN103944995 B CN 103944995B
Authority
CN
China
Prior art keywords
cookie
key
value
fields
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410172950.2A
Other languages
English (en)
Other versions
CN103944995A (zh
Inventor
陈德华
沈昌干
潘乔
罗昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI YUNYI INFORMATION TECHNOLOGY Co Ltd
Donghua University
Original Assignee
SHANGHAI YUNYI INFORMATION TECHNOLOGY Co Ltd
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI YUNYI INFORMATION TECHNOLOGY Co Ltd, Donghua University filed Critical SHANGHAI YUNYI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410172950.2A priority Critical patent/CN103944995B/zh
Publication of CN103944995A publication Critical patent/CN103944995A/zh
Application granted granted Critical
Publication of CN103944995B publication Critical patent/CN103944995B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种识别宽带网络中独立用户账户的方法。本发明的技术方案利用运营商提供的海量Web日志数据找出cookie中标识用户账户的字段key。首先以统计的方式找到每个网站长期标识浏览器的cookie字段key;然后爬取指定网站主页下指向站内的URL;其次逐个访问这些URL,同时利用抓包的方式捕获浏览器和指定网站交互时而产生的cookie数据;再对抓取到的cookie数据进行筛选;利用海量的Web日志数据,先对指定网站的数据进行分组,然后删除每个组内的重复数据,其次排除掉在“排除字段集”中出现的字段,在全局范围检查value集中是否出现重复值情况,制定清洗规则,筛选剩余的字段key,最后缩小字段范围,甚至直接得到标识用户账户的字段。

Description

一种识别宽带网络中独立用户账户的方法
技术领域
本发明涉及一种识别独立网络用户账户的方法,属于网络技术和互联网信息处理技术领域。
背景技术
Cookie,指某些网站为了辨别用户身份而储存在用户本地终端(Client Side)上的数据(通常经过加密),Cookie中的每个字段采用字段键-字段值的形式,即key-value形式。Cookie总是保存在客户端中,按在客户端中的存储位置,可分为内存Cookie和硬盘Cookie。内存Cookie由浏览器维护,保存在内存中,浏览器关闭后就消失了,其存在时间是短暂的。硬盘Cookie保存在硬盘里,有一个过期时间,除非用户手工清理或到了过期时间,硬盘Cookie不会被删除,其存在时间是长期的。所以,按存在时间划分,可分为非持久Cookie和持久Cookie。
Cookie是基于浏览器的。当电脑上安装多个浏览器时,服务器会为不同浏览器生成不同的Cookie,被服务器识别为多个用户。
Cookie是基于浏览器的。当同一台电脑有多个人使用时,服务器也只会生成一个Cookie,被服务器会认为是一个用户。
Cookie是无法跨设备进行设置的。即使同一个人在不同的两台电脑,使用同一版本的相同浏览器,服务器会生成两个不同的Cookie,被服务器认为是两个用户。
Cookie是有生存期的。当标识用户的cookie字段key的value值过期或是被用户删除,同一个用户的网络访问信息或被识别为不同的两个人的信息,被浏览器识别为两个用户。
上面述说的四种主要情况,用来标识“用户”(浏览器)的cookie字段,更确切的说应该是标识浏览器的字段。这种类型字段key的value值只有在生存期内有效,一旦过了生存期,服务器会重新生成一个不重复的value值,用以标识新用户。
发明内容
本发明的目的是有效地克服背景技术中使用标识浏览器的字段来标识用户时遇到的四个不足情况,有效克服手动筛选用户账户字段带来的费时费力的缺点。
为了达到上述目的,本发明的技术方案是提供了一种识别宽带网络中独立用户账户的方法,其特征在于,步骤为:
步骤1、利用一段时间内的历史Web日志识别每个网站用于标识浏览器的Cookie字段键key及该Cookie字段键key的Cookie字段值value;
步骤2、针对指定网站S,爬取其首页的指向站内的所有URL,逐一访问所有URL,访问完毕后,清洗抓取的所有Cookie数据,将相应的Cookie字段放入排除字段集,再将保持在本地的所有Cookie数据删除后重复执行步骤2直至重复N次访问了指定网站,N≥1,其中,清洗抓取的所有Cookie数据,将相应的Cookie字段放入排除字段集的具体步骤为:
步骤401、将所有Cookie数据的各个Cookie字段按照不同的Cookie字段键key进行分组,相同Cookie字段键key的所有Cookie字段值value组成一个value集;
步骤402、依次判断每个value集中所有Cookie字段值value是否发生变化,若发生变化,则将具有与该value集对应的Cookie字段键key的Cookie字段放入排除字段集中;
步骤3、获取指定网站S的用户账户字段,其步骤为:
步骤501、获取一段时间内的历史Web日志,针对指定网站S,将每条Web日志记录所包含的每行Cookie数据分为不同的Cookie数据组,同一Cookie数据组的所有Cookie数据必须同时满足:所对应的Web日志记录具有相同的ADSL设备ID值、所对应的Web日志记录具有相同的用户代理User Agent值、所对应的Web日志记录具有相同的主机HOST名、具有相同的步骤1获得的用于标识浏览器的Cookie字段键key所对应的Cookie字段值value,并将每行Cookie数据按照Cookie字段键key-Cookie字段值value对的形式进行拆分,得到每行Cookie数据的key-value字段;
步骤502、删除每个Cookie数据组中,重复的ADSL设备ID值、用户代理User Agent值、主机HOST名及用于标识浏览器的Cookie字段键key所对应的Cookie字段值value,组成一行新的数据行,每行数据行的包括ADSL设备ID值、用户代理User Agent值、主机HOST名、用于标识浏览器的Cookie字段键key所对应的Cookie字段值value及key-value字段;
步骤503、拆分每行数据行的key-value字段,将相同Cookie字段键key所对应的所有Cookie字段值value合并为value集;
步骤504、将步骤503得到的Cookie字段键key与排除字段集相匹配,若排除字段集含有该Cookie字段键key,将该Cookie字段键key及其对应的步骤503得到的value集删除;
步骤505、在全局范围内检查每个步骤503得到的value集中的各个Cookie字段值value是否存在重复值,若存在,则取出该value集及其对应的Cookie字段键key;
步骤506、利用清洗规则筛选由步骤505取出的所有Cookie字段键key及其对应的value集,将剩余的Cookie字段键key及将其对应的value集的值作为Cookie字段值value组成的Cookie字段作为用户账户字段,其中,清洗规则至少为:Cookie字段值value长度不能小于A1,也不能大于A2和/或Cookie字段值value不能包含特殊字符,A1及A2为经验阈值,且A1<A2。
优选地,所述步骤1包括:
步骤101、获取一段时间内的历史Web日志,按照网站将Web日志中每条Web日志记录中的每行Cookie数据进行分组,与不同网站对应的不同Cookie数据分入不同的Cookie数据组,将每个Cookie数据组中的所有Cookie字段按照Cookie字段key出现的次数进行降序排序;
步骤102、根据删除规则删除每个Cookie数据组中不符合条件的Cookie字段,删除规则至少为:Cookie字段的Cookie字段值value为空或Cookie字段为用于网站分析的字段;
步骤103、取每个Cookie数据组排列在首位的Cookie字段为用于标识浏览器的Cookie字段。
如今很多网站都拥有登录功能,其中的绝大部分网站都会在cookie中保存有用户登录后的账户信息,使用这种类型的cookie字段key的value值标识用户,能有效地克服上述使用标识浏览器的字段来标识用户时遇到的四个不足情况,有效克服手动筛选用户账户字段带来的费时费力的缺点。
附图说明
图1是本发明中识别每个网站标识浏览器字段的流程图;
图2是本发明中模拟浏览器访问指定网站的流程图;
图3是本发明中清洗抓取的cookie数据字段的流程图;
图4是筛选网站用户账户字段的流程图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
本发明提供了一种识别宽带网络中独立用户账户的方法,其步骤为:
步骤1、利用一段时间内的历史Web日志识别每个网站用于标识浏览器的Cookie字段键key及该Cookie字段键key的Cookie字段值value,结合图1,其步骤为:
步骤101、获取一段时间内的历史Web日志,按照网站将Web日志中每条Web日志记录中的每行Cookie数据进行分组,与不同网站对应的不同Cookie数据分入不同的Cookie数据组,将每个Cookie数据组中的所有Cookie字段按照Cookie字段key出现的次数进行降序排序;
步骤102、根据删除规则删除每个Cookie数据组中不符合条件的Cookie字段,删除规则为:Cookie字段的Cookie字段值value为空,Cookie字段为用于网站分析的字段等;
步骤103、取每个Cookie数据组排列在首位的的Cookie字段为用于标识浏览器的Cookie字段。
如表1所示,为一些常用网站与其对应的Cookie字段的Cookie字段键key的对应关系表。
表1
步骤2、针对指定网站S,爬取其首页的指向站内的所有URL,逐一访问所有URL,访问完毕后,清洗抓取的所有Cookie数据,将相应的Cookie字段放入排除字段集,再将保持在本地的所有Cookie数据删除后重复执行步骤2直至重复10次访问了指定网站S,结合图2,其步骤为:
步骤201、爬取指定网站S首页的指向站内的所有URL,然后保存;
步骤202、模拟浏览器访问网页的形式,逐一访问保存的所有URL,访问完毕后,清洗抓取的所有Cookie数据,将相应的Cookie字段放入排除字段集;
步骤203、删除其在本地保存的所有Cookie数据,返回步骤201直至重复10次访问了指定网站S。
其中,结合图3,清洗抓取的所有Cookie数据,将相应的Cookie字段放入排除字段集的具体步骤为:
步骤401、将所有Cookie数据的各个Cookie字段按照不同的Cookie字段键key进行分组,相同Cookie字段键key的所有Cookie字段值value组成一个value集;
步骤402、依次判断每个value集中所有Cookie字段值value是否发生变化,若发生变化,则将具有与该value集对应的Cookie字段键key的Cookie字段放入排除字段集中,若没发生变化,则将具有与该value集对应的Cookie字段键key的Cookie字段放入候选字段集中,因为用户在登录前,标识用户账户的Cookie字段的Cookie字段键key一般不会出现,若出现,其Cookie字段值value也不会变化。
步骤3、获取指定网站S的用户账户字段,结合图4,其步骤为:
步骤501、获取一段时间内的历史Web日志,针对指定网站S,将每条Web日志记录所包含的每行Cookie数据分为不同的Cookie数据组,同一Cookie数据组的所有Cookie数据必须同时满足:所对应的Web日志记录具有相同的ADSL设备ID值、所对应的Web日志记录具有相同的用户代理User Agent值、所对应的Web日志记录具有相同的主机HOST名、具有相同的步骤1获得的用于标识浏览器的Cookie字段键key所对应的Cookie字段值value,并将每行Cookie数据按照Cookie字段键key-Cookie字段值value对的形式进行拆分,得到每行Cookie数据的key-value字段;
步骤502、删除每个Cookie数据组中,重复的ADSL设备ID值、用户代理User Agent值、主机HOST名及用于标识浏览器的Cookie字段键key所对应的Cookie字段值value,组成一行新的数据行,每行数据行的包括ADSL设备ID值、用户代理User Agent值、主机HOST名、用于标识浏览器的Cookie字段键key所对应的Cookie字段值value及key-value字段;
步骤503、拆分每行数据行的key-value字段,将相同Cookie字段键key所对应的所有Cookie字段值value合并为value集;
步骤504、将步骤503得到的Cookie字段键key与排除字段集相匹配,若排除字段集含有该Cookie字段键key,将该Cookie字段键key及其对应的步骤503得到的value集删除;
步骤505、在全局范围内检查每个步骤503得到的value集中的各个Cookie字段值value是否存在重复值,若存在,则取出该value集及其对应的Cookie字段键key;
步骤506、利用清洗规则筛选由步骤505取出的所有Cookie字段键key及其对应的value集,将剩余的Cookie字段键key及将其对应的value集的值作为Cookie字段值value组成的Cookie字段作为用户账户字段,其中,清洗规则至为:Cookie字段值value长度不能小于4,也不能大于30,Cookie字段值value不能包含特殊字符等。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件和必须的通用硬件平台来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个可读取存储介质中,包括若干指令用以使得一台或若干台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明所述的各个方法。
上述仅为本发明的较佳实施例及所运用技术原理,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或者替换,都应该在本发明的保护范围内。

Claims (2)

1.一种识别宽带网络中独立用户账户的方法,其特征在于,步骤为:
步骤1、利用一段时间内的历史Web日志识别每个网站用于标识浏览器的Cookie字段键key及该Cookie字段键key的Cookie字段值value;
步骤2、针对指定网站S,爬取其首页的指向站内的所有URL,逐一访问所有URL,访问完毕后,清洗抓取的所有Cookie数据,将相应的Cookie字段放入排除字段集,再将保持在本地的所有Cookie数据删除后重复执行步骤2直至重复N次访问了指定网站S,N≥1,其中,清洗抓取的所有Cookie数据,将相应的Cookie字段放入排除字段集的具体步骤为:
步骤401、将所有Cookie数据的各个Cookie字段按照不同的Cookie字段键key进行分组,相同Cookie字段键key的所有Cookie字段值value组成一个value集;
步骤402、依次判断每个value集中所有Cookie字段值value是否发生变化,若发生变化,则将具有与该value集对应的Cookie字段键key的Cookie字段放入排除字段集中;
步骤3、获取指定网站S的用户账户字段,其步骤为:
步骤501、获取一段时间内的历史Web日志,针对指定网站S,将每条Web日志记录所包含的每行Cookie数据分为不同的Cookie数据组,同一Cookie数据组的所有Cookie数据必须同时满足:所对应的Web日志记录具有相同的ADSL设备ID值、所对应的Web日志记录具有相同的用户代理User Agent值、所对应的Web日志记录具有相同的主机HOST名、具有相同的步骤1获得的用于标识浏览器的Cookie字段键key所对应的Cookie字段值value,并将每行Cookie数据按照Cookie字段键key-Cookie字段值value对的形式进行拆分,得到每行Cookie数据的key-value字段;
步骤502、删除每个Cookie数据组中,重复的ADSL设备ID值、用户代理User Agent值、主机HOST名及用于标识浏览器的Cookie字段键key所对应的Cookie字段值value,组成一行新的数据行,每行数据行包括ADSL设备ID值、用户代理User Agent值、主机HOST名、用于标识浏览器的Cookie字段键key所对应的Cookie字段值value及key-value字段;
步骤503、拆分每行数据行的key-value字段,将相同Cookie字段键key所对应的所有Cookie字段值value合并为value集;
步骤504、将步骤503得到的Cookie字段键key与排除字段集相匹配,若排除字段集含有该Cookie字段键key,将该Cookie字段键key及其对应的步骤503得到的value集删除;
步骤505、在全局范围内检查步骤503得到的value集中的各个Cookie字段值value是否存在重复值,若存在,则取出该value集及其对应的Cookie字段键key;
步骤506、利用清洗规则筛选由步骤505取出的所有Cookie字段键key及其对应的value集,将剩余的Cookie字段键key及将其对应的value集的值作为Cookie字段值value组成的Cookie字段作为用户账户字段,其中,清洗规则至少为:Cookie字段值value长度不能小于A1,也不能大于A2和/或Cookie字段值value不能包含特殊字符,A1及A2为经验阈值,且A1<A2。
2.如权利要求1所述的一种识别宽带网络中独立用户账户的方法,其特征在于,所述步骤1包括:
步骤101、获取一段时间内的历史Web日志,按照网站将Web日志中每条Web日志记录中的每行Cookie数据进行分组,与不同网站对应的不同Cookie数据分入不同的Cookie数据组,将每个Cookie数据组中的所有Cookie字段按照Cookie字段key出现的次数进行降序排序;
步骤102、根据删除规则删除每个Cookie数据组中不符合条件的Cookie字段,删除规则至少为:Cookie字段的Cookie字段值value为空或Cookie字段为用于网站分析的字段;
步骤103、取每个Cookie数据组排列在首位的Cookie字段为用于标识浏览器的Cookie字段。
CN201410172950.2A 2014-04-28 2014-04-28 一种识别宽带网络中独立用户账户的方法 Expired - Fee Related CN103944995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410172950.2A CN103944995B (zh) 2014-04-28 2014-04-28 一种识别宽带网络中独立用户账户的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410172950.2A CN103944995B (zh) 2014-04-28 2014-04-28 一种识别宽带网络中独立用户账户的方法

Publications (2)

Publication Number Publication Date
CN103944995A CN103944995A (zh) 2014-07-23
CN103944995B true CN103944995B (zh) 2017-06-06

Family

ID=51192476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410172950.2A Expired - Fee Related CN103944995B (zh) 2014-04-28 2014-04-28 一种识别宽带网络中独立用户账户的方法

Country Status (1)

Country Link
CN (1) CN103944995B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108683531B (zh) * 2018-05-02 2019-06-21 百度在线网络技术(北京)有限公司 用于处理日志信息的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043840A (zh) * 2010-12-13 2011-05-04 北京安天电子设备有限公司 检测追踪cookie缓存文件的方法和系统
CN102393849A (zh) * 2011-07-18 2012-03-28 电子科技大学 一种Web日志数据的预处理方法
CN103051637A (zh) * 2012-12-31 2013-04-17 北京亿赞普网络技术有限公司 用户识别方法与装置
CN203039704U (zh) * 2012-08-07 2013-07-03 北京鼎震科技有限责任公司 一种网站日志保存系统
CN103237049A (zh) * 2013-03-18 2013-08-07 北京易华录信息技术股份有限公司 一种文件传输方法及装置
CN103475688A (zh) * 2013-05-24 2013-12-25 北京网秦天下科技有限公司 用于下载网站数据的分布式方法和系统
CN103618696A (zh) * 2013-11-07 2014-03-05 北京奇虎科技有限公司 对cookie信息进行处理的方法和服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019881B2 (en) * 1998-11-30 2011-09-13 George Mason Intellectual Properties, Inc. Secure cookies

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043840A (zh) * 2010-12-13 2011-05-04 北京安天电子设备有限公司 检测追踪cookie缓存文件的方法和系统
CN102393849A (zh) * 2011-07-18 2012-03-28 电子科技大学 一种Web日志数据的预处理方法
CN203039704U (zh) * 2012-08-07 2013-07-03 北京鼎震科技有限责任公司 一种网站日志保存系统
CN103051637A (zh) * 2012-12-31 2013-04-17 北京亿赞普网络技术有限公司 用户识别方法与装置
CN103237049A (zh) * 2013-03-18 2013-08-07 北京易华录信息技术股份有限公司 一种文件传输方法及装置
CN103475688A (zh) * 2013-05-24 2013-12-25 北京网秦天下科技有限公司 用于下载网站数据的分布式方法和系统
CN103618696A (zh) * 2013-11-07 2014-03-05 北京奇虎科技有限公司 对cookie信息进行处理的方法和服务器

Also Published As

Publication number Publication date
CN103944995A (zh) 2014-07-23

Similar Documents

Publication Publication Date Title
EP3452910B1 (en) Security weakness and infiltration detection and repair in obfuscated website content
CN105357054B (zh) 网站流量分析方法、装置和电子设备
CN107733854B (zh) 一种网络虚拟账户的管理方法
Du et al. The {Ever-Changing} labyrinth: A {Large-Scale} analysis of wildcard {DNS} powered blackhat {SEO}
CN108763274B (zh) 访问请求的识别方法、装置、电子设备及存储介质
CN108573146A (zh) 一种恶意url检测方法及装置
EP2329445A1 (en) Evaluating online marketing efficiency
JP2014006898A5 (ja) 通話の話題を予測する方法
CN109241733A (zh) 基于Web访问日志的爬虫行为识别方法及装置
CN111723083B (zh) 用户身份识别方法、装置、电子设备及存储介质
CN107800686A (zh) 一种钓鱼网站识别方法和装置
Sujatha Improved user navigation pattern prediction technique from web log data
US20190190933A1 (en) Behavioral and account fingerprinting
US10152465B2 (en) Security-focused web application crawling
CN107481039A (zh) 一种事件处理方法及终端设备
CN107992402A (zh) 日志管理方法及日志管理装置
CN106933903B (zh) 应用于分布式存储的存储方法及装置
CN103944995B (zh) 一种识别宽带网络中独立用户账户的方法
CN107220262B (zh) 信息处理方法和装置
Arora et al. Application of big data generated by IoT environment for HealthCare using Voice Recognition
David et al. A two-stage model for social network investigations in digital forensics
CN106549914B (zh) 一种独立访问者的识别方法及装置
KR101933347B1 (ko) 개인 디지털 정보 자취 추적을 통한 삭제 시스템
CN106708878B (zh) 终端识别方法及装置
TW201835794A (zh) 記錄網站存取日誌的方法和裝置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170606

Termination date: 20200428