CN105989019B - 一种清洗数据的方法及装置 - Google Patents

一种清洗数据的方法及装置 Download PDF

Info

Publication number
CN105989019B
CN105989019B CN201510046610.XA CN201510046610A CN105989019B CN 105989019 B CN105989019 B CN 105989019B CN 201510046610 A CN201510046610 A CN 201510046610A CN 105989019 B CN105989019 B CN 105989019B
Authority
CN
China
Prior art keywords
url
user
field
request
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510046610.XA
Other languages
English (en)
Other versions
CN105989019A (zh
Inventor
陈家耀
李长刚
冯是聪
吴明辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Miaozhen Information Consultant Co Ltd
Original Assignee
Beijing Miaozhen Information Consultant Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Miaozhen Information Consultant Co Ltd filed Critical Beijing Miaozhen Information Consultant Co Ltd
Priority to CN201510046610.XA priority Critical patent/CN105989019B/zh
Publication of CN105989019A publication Critical patent/CN105989019A/zh
Application granted granted Critical
Publication of CN105989019B publication Critical patent/CN105989019B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种清洗数据的方法及装置,该方法包括:获取预先收集的用户上网行为数据,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,request_url字段和referer字段的内容均为URL;统计每个URL在用户上网行为数据的request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算第二数值与第一数值的比值,得到第一比值;根据归属于同一用户的用户上网行为数据,建立该用户的行为树,行为树包括多个叶子节点,叶子节点对应于request_url字段的一个URL;判断各个叶子节点的URL对应的第一比值是否小于一预设阈值,在小于预设阈值时,删除该用户的request_url字段为该URL的用户上网行为数据。在本方法中,有效清除了无用数据。

Description

一种清洗数据的方法及装置
技术领域
本发明涉及数据清洗技术领域,尤其涉及一种清洗数据的方法及装置。
背景技术
在互联网大数据时代,网民访问网站是当下社会主流的上网模式,对网民的访问行为进行分析对很多企业来说有着至关重要的意义。而数据清洗工作是数据进行分析之前必要的程序之一,筛选出有价值的数据有益于企业的营销计划以及发展规划,反之如果大量的无用数据被筛选,企业不但需要付出人力物力对数据进行分析,还可能被错误的分析结果误导运营方向,带来巨大的损失。
但在现实的媒体环境中,当用户访问某个页面时,可能会产生多个http自动请求。所述http自动请求是指媒体页面本身需要加载的素材,如图片、js脚本或css样式等等,而对这些素材的访问同样是基于访问其所连接的URL来完成的,因此,这些非人为发起的http自动请求的URL也同样会被日志采集服务器记录下来。固在对URL进行分组时,http自动请求URL也同样会被列入其中,进而导致分析被噪声干扰,影响最终的统计结果。目前,未有一能够有效且高效率的清洗http自动请求的方法。
发明内容
为了将用户上网行为数据中存在的自动请求清洗掉,以筛选出有价值的用户上网行为数据,本发明实施例提供了一种清洗数据的方法及装置。
为了解决上述技术问题,本发明实施例采用以下技术方案:
依据本发明实施例的一个方面,提供了一种清洗数据的方法,包括:
获取预先收集得到的多条用户上网行为数据,其中,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,其中所述request_url字段以及所述referer字段的内容均为URL;
统计每个URL在所述多条用户上网行为数据的request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算所述第二数值与所述第一数值的比值,得到第一比值;
根据归属于同一用户的用户上网行为数据,建立该用户的行为树,其中,所述行为树包括多个叶子节点,所述叶子节点对应于所述request_url字段的一个URL;
判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值,并在该URL对应的所述第一比值小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据。
其中,在所述判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值的步骤之前,所述方法还包括:
获取预先确定的对应于http自动请求的多个URL;
查找所述多个URL中的每个URL对应的所述第一比值;
根据所述每个URL对应的所述第一比值,设置所述预设阈值。
其中,所述根据所述每个URL对应的所述第一比值,设置所述预设阈值的步骤包括:
将每个URL对应的所述第一比值中的最大数值设置为预设阈值。
其中,所述根据所述多个URL中的每个URL对应的所述第一比值,设置所述预设阈值的步骤包括:
计算每个URL对应的所述第一比值的平均值,将所述平均值设置为预设阈值。
其中,所述每条用户上网行为数据还包括:当前http请求发生的时间。
其中,所述根据归属于同一用户的用户上网行为数据,建立该用户的行为树的步骤包括:
将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序;
创建根节点,依次读入每条用户上网行为数据的request_url字段的URL和referer字段的URL;
若referer字段的URL为空字符串或不存在,则以request_url字段的URL 创建节点,作为根节点的子节点插入到树中;
若referer字段的URL存在且是非空字符,但在树中不存在以referer字段的url创建的节点,则以referer字段的URL和request_url字段的URL分别创建节点,将以referer字段的URL创建的节点作为根节点的子节点插入到树中,将以 request_url字段的URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中;
若referer字段的URL存在且是非空字符,但在树中已存在以referer字段的 URL创建的节点,则以request_url的URL创建节点,作为所述已存在的以referer 字段的URL创建的节点的子节点插入到树中。
依据本发明实施例的另一个方面,还提供了一种清洗数据的装置,包括:
第一获取模块,用于获取预先收集得到的多条用户上网行为数据,其中,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,其中所述request_url字段以及所述referer 字段的内容均为URL;
统计模块,用于统计每个URL在所述多条用户上网行为数据的request_url 字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算所述第二数值与所述第一数值的比值,得到第一比值;
建立模块,用于根据归属于同一用户的用户上网行为数据,建立该用户的行为树,其中,所述行为树包括多个叶子节点,所述叶子节点对应于所述 request_url字段的一个URL;
判断模块,用于判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值,并在该URL对应的所述第一比值小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据。
其中,所述装置还包括:第二获取模块,用于获取预先确定的对应于http 自动请求的多个URL;
查找模块,用于查找所述多个URL中的每个URL对应的所述第一比值;
设置模块,用于根据所述每个URL对应的所述第一比值,设置所述预设阈值。
其中,所述设置模块包括:
第一设置单元,用于将每个URL对应的所述第一比值中的最大数值设置为预设阈值。
其中,所述设置模块包括:
第二设置单元,用于计算每个URL对应的所述第一比值的平均值,将所述平均值设置为预设阈值。
其中,所述每条用户上网行为数据还包括:当前http请求发生的时间。
其中,所述建立模块包括:
排序单元,用于将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序;
创建单元,用于创建根节点,依次读入每条用户上网行为数据的request_url 字段的URL和referer字段的URL;
插入单元,用于若referer字段的URL为空字符串或不存在,则以request_url 字段的URL创建节点,作为根节点的子节点插入到树中;以及若referer字段的 URL存在且是非空字符,但在树中不存在以referer字段的url创建的节点,则以referer字段的URL和request_url字段的URL分别创建节点,将以referer字段的URL创建的节点作为根节点的子节点插入到树中,将以request_url字段的 URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中;以及若referer字段的URL存在且是非空字符,但在树中已存在以referer字段的 URL创建的节点,则以request_url的URL创建节点,作为所述已存在的以referer 字段的URL创建的节点的子节点插入到树中。
本发明实施例的有益效果:在本发明的实施例中,利用http自动请求的URL 很少出现在referer字段的特点,以及http自动请求的URL很少会出现在用户行为树的非叶子节点的特点,通过归属于同一用户的用户上网行为数据,建立用户的行为树,用户的行为树包括叶子节点和非叶子节点(叶子节点的父节点),对于非叶子节点中的URL,判定为人为请求,是有效数据,直接保留处理;而对于行为树中的各个叶子节点的URL对应的第一比值在小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据,从而达到了将用户上网行为数据中存在的自动请求清洗掉,以筛选出有价值的用户上网行为数据的目的。
附图说明
图1为本发明实施例的清洗数据的方法的流程图;
图2为本发明实施例的建立的用户行为树的结构示意图;
图3为本发明实施例的清洗数据的装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有技术中难以清洗http自动请求的问题,提出了一种清洗数据的方法。现有技术中为了清洗http自动请求,有以下两种常用的方法:一种是网站发起请求时,在URL中添加相应参数,通过URL中携带的不同参数来识别该URL是否为自动请求,但是参数的添加依赖于媒体本身,并不是所有媒体都会添加相应的URL参数用来识别自动请求;即使存在相应的参数识别自动请求,不同的网站采用的格式也存在着差异,获取这些格式也十分困难。第二种现有技术是通过人工实际访问每个URL,人为判断该URL是否为真实存在的页面,如果该URL不是真实存在的页面,则可以判定该URL为自动请求,但是在实际情况下,需要处理的数据包含的URL的数目非常之大,数以亿计,要想人工识别几乎是不可能的。
因此,本发明实施例提供了一种清洗数据的方法,利用http自动请求的URL 很少出现在referer字段的特点,以及http自动请求的URL很少会出现在用户行为树的非叶子节点的特点,通过归属于同一用户的用户上网行为数据,建立用户的行为树,用户的行为树包括叶子节点和非叶子节点(叶子节点的父节点),对于非叶子节点中的URL,判定为人为请求,是有效数据,直接保留处理;而对于用户行为树中的各个叶子节点的URL对应的第一比值在小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据,从而达到了将用户上网行为数据中存在的自动请求清洗掉,以筛选出有价值的用户上网行为数据的目的。
如图1所示,本发明实施例的方法包括:
步骤101,获取预先收集得到的多条用户上网行为数据,其中,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前 http请求的referer字段,其中所述request_url字段以及所述referer字段的内容均为URL。
具体地,可通过与运营商合作获取底层交换机中的多条用户上网行为数据,其中用户的唯一标识可是用户终端设备的物理标识,也可是虚拟标识。
步骤102,统计每个URL在所述多条用户上网行为数据的request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算所述第二数值与所述第一数值的比值,得到第一比值。
步骤103,根据归属于同一用户的用户上网行为数据,建立该用户的行为树,其中,所述行为树包括多个叶子节点,所述叶子节点对应于所述request_url字段的一个URL。
步骤104,判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值,并在该URL对应的所述第一比值小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据。
进一步地,在本发明的上述实施例中的步骤104之前,还包括:
获取预先确定的对应于http自动请求的多个URL。
具体地,由本发明上述实施例的步骤101可知,我们已经预先获取了多条用户上网行为数据,这些大量数据中会包括用户经常访问的URL,而这些经常访问的URL可能会包括:www.baidu.com或者www.sina.com等类似的知名网站的URL,我们可知数据中存在的类似的URL为人为请求,但是不能确定哪些数据是自动请求,可通过以下方式确定对应于http自动请求的多个URL:方式1:若所述多条用户上网行为数据中包括:www.baidu.com、www.sina.com以及 www.sina.com等相类似的URL,我们可以针对其中的部分URL发起访问,利用谷歌或者其他浏览器自带的开发者工具,记录下发起请求时会产生的自动请求的URL。方式2:可以针对多条用户上网行为数据中的部分数据,通过人工的实际访问每个URL,判断该URL是否为真实存在的页面,如果该URL不是真实存在的页面,则确定为该URL为自动请求。
查找所述多个URL中的每个URL对应的所述第一比值。
其中,由上步骤我们已经确定了对应于http自动请求的多个URL,而在本发明上述实施例中的步骤102我们已知每个URL的第一比值,此步骤我们只需查找出我们确定的部分自动请求的URL对应的第一比值。
根据所述每个URL对应的所述第一比值,设置所述预设阈值。
具体地,可以根据每个URL对应的所述第一比值中的最大数值设置为预设阈值;也可以通过计算每个URL对应的所述第一比值的平均值,将所述平均值设置为预设阈值。
进一步地,所述每条用户上网行为数据还包括:当前http请求发生的时间,本发明上述实施例中的步骤104具体包括:
将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序;
创建根节点,依次读入每条用户上网行为数据的request_url字段的URL和referer字段的URL;
若referer字段的URL为空字符串或不存在,则以request_url字段的URL 创建节点,作为根节点的子节点插入到树中;
若referer字段的URL存在且是非空字符,但在树中不存在以referer字段的 url创建的节点,则以referer字段的URL和request_url字段的URL分别创建节点,将以referer字段的URL创建的节点作为根节点的子节点插入到树中,将以 request_url字段的URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中;
若referer字段的URL存在且是非空字符,但在树中已存在以referer字段的 URL创建的节点,则以request_url的URL创建节点,作为所述已存在的以referer 字段的URL创建的节点的子节点插入到树中。
通过本发明的方法,可以将多条用户上网行为数据中的存在的自动请求清除掉。
为了更好的理解本发明实施例的实施,下面通过具体实例进一步解释。
首先,可通过与运营商合作获取底层交换机中的多条用户上网行为数据,然后统计每个URL在多条用户上网行为数据的request_url字段中出现次数的第一数值,第一数值记为PVurl,以及在referer字段中出现次数的第二数值,第二数值记为PVref,计算PVref与PVurl的比值,比值记为ref占比,统计结果记入表1(限于篇幅,仅展示了部分数据),其中表1的第一列用来记录URL:
表1
下面,我们需要根据上述ref占比,设置一个阈值。具体的阈值的设置可通过以下方式,由于我们可以确定www.baidu.com和www.sina.com为人为请求,此时,对这2个URL发起访问,使用谷歌自带的开发者工具,记录下发起访问时产生的自动请求的URL,保存到表2中(限于篇幅,仅展示了部分数据):
表2
接着,在表1中查找每个自动请求在表1中的ref占比,可知依次为:0、 1/105、1/67、0、0,此时我们可取其中的最大值1/67设置为阈值,也可以取这5个数值的平均数设置为阈值。在本实例中,下面以最大值1/67 设置为阈值。
接下来,我们重点描述用户行为树的建立过程,首先将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序,然后创建根节点 Root,依次读入每条用户上网行为数据的request_url字段的URL和referer字段的URL,接着按照规则进行创建行为树。
如表3所示,为一用户的所有用户上网行为数据,表3的第一列为用户的 ID,第二列为request_url字段,第三列为referer字段,第四列为每条用户上网行为数据发生的时间time,其中time字段表示请求产生的时间,为Unix时间戳格式。时间戳是自1970年1月1日(00:00:00GMT)以来的秒数,它也被称为Unix时间戳(Unix Timestamp),通过这样排序可以实现先按照ID进行分组,同一ID的用户上网行为数据再按照其请求时间有序。
表3
由表3可知,第一条用户上网行为数据的referer字段的URL存在,则以www.baidu.com创建第一节点,作为根节点的子节点插入到树中,以request_url 字段的URL:http://su.bdimg.com/static/superplus/img/s_menu_309f0917.png创建第二节点,作为第一节点的子节点插入到树中;接着读取第二条用户上网行为数据的request_url字段的URL和referer字段的URL,referer字段的URL不存在,则以request_url的URL:http://bbs.hupu.com/11328852.html创建第三节点,作为根节点的子节点插入到树中;接着读取第三条用户上网行为数据的 request_url字段的URL和referer字段的URL,可知referer字段的URL已存在于树中,则以www.sina.com创建第四节点,作为第一节点的子节点插入到树中;接着读取第四条用户上网行为数据的request_url字段的URL和referer字段的 URL,由于referer字段不存在,而request_url字段的URL已存在,则跳过不进行创建节点的操作;接着读取第五条用户上网行为数据的request_url字段的URL 和referer字段的URL,由于其referer字段的URL已存在于树中,则以request_url 字段的URL:http://b3.hoopchina.com.cn/images/logo2013/v1/hp_logo_sports.png 创建第五节点,作为第三节点的子节点插入到树中,完成行为树的建立,建立好的行为树结构如图2所示。
由图2可知,一个行为树结构包括了多个叶子节点和非叶子节点,利用http 自动请求的URL很少出现在referer字段的特点,以及http自动请求的URL很少会出现在用户行为树的非叶子节点的特点,我们确定该行为树结构中的非叶子节点中的URL为人为请求,是有效数据,直接保留即可;而对于叶子节点中的URL,我们需要将叶子节点中的URL对应的第一比值与预设阈值比较,判断叶子节点中的URL是否为自动请求的URL,此时我们需要查看对应的ref占比,经表1可知,第二节点中的URL的ref占比为1/105,第四节点的URL的ref 占比为70/56,第五节点中的URL的ref占比为0,由于第二节点和第五节点中的URL的ref占比小于设置的阈值1/67,确定为自动请求,删除request_url字段为http://su.bdimg.com/static/superplus/img/s_menu_309f0917.png和request_url 字段为http://b3.hoopchina.com.cn/images/logo2013/v1/hp_logo_sports.png的用户上网行为数据。
进行清理后的该用户的上网行为数据如表4所示:
表4
在这里需要进一步说明的是,如果不建立用户的行为树,只是依据与阈值的比较进行判定某个URL是否是自动请求是不准确的,像本例中的request_url 字段为http://bbs.hupu.com/11328852.html的URL,如果只是与阈值比较,可判定其为自动请求,而实际建立行为树可知该URL处于行为树中的非叶子节点的位置,可知其为人为请求,只是访问的数据量比较少,导致ref占比比较小。所以建立用户的行为树保证了清洗自动请求的URL的准确性。
根据归属于同一用户的用户上网行为数据,建立下一个用户的行为树,进行自动请求的URL的清洗,直至处理完所有数据。
依据本发明实施例的另一个方面,还提供了一种清洗数据的装置,如图3 所示,所述装置包括:
第一获取模块31,用于获取预先收集得到的多条用户上网行为数据,其中,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,其中所述request_url字段以及所述referer 字段的内容均为URL。
统计模块32,用于统计每个URL在所述多条用户上网行为数据的 request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算所述第二数值与所述第一数值的比值,得到第一比值。
建立模块33,用于根据归属于同一用户的用户上网行为数据,建立该用户的行为树,其中,所述行为树包括多个叶子节点,所述叶子节点对应于所述 request_url字段的一个URL。
判断模块34,用于判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值,并在该URL对应的所述第一比值小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据。
进一步地,在本发明的上述实施例中,所述装置还包括:
第二获取模块,用于获取预先确定的对应于http自动请求的多个URL。
查找模块,用于查找所述多个URL中的每个URL对应的所述第一比值。
设置模块,用于根据所述每个URL对应的所述第一比值,设置所述预设阈值。
进一步地,所述装置还包括:
第一设置单元,用于将每个URL对应的所述第一比值中的最大数值设置为预设阈值。
进一步地,所述装置还包括:
第二设置单元,用于计算每个URL对应的所述第一比值的平均值,将所述平均值设置为预设阈值。
进一步地,在本发明的上述实施例中,所述每条用户上网行为数据还包括:当前http请求发生的时间。
进一步地,所述建立模块包括:
排序单元,用于将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序。
创建单元,用于创建根节点,依次读入每条用户上网行为数据的request_url 字段的URL和referer字段的URL。
插入单元,用于若referer字段的URL为空字符串或不存在,则以request_url 字段的URL创建节点,作为根节点的子节点插入到树中;以及若referer字段的 URL存在且是非空字符,但在树中不存在以referer字段的url创建的节点,则以referer字段的URL和request_url字段的URL分别创建节点,将以referer字段的URL创建的节点作为根节点的子节点插入到树中,将以request_url字段的 URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中;以及若referer字段的URL存在且是非空字符,但在树中已存在以referer字段的 URL创建的节点,则以request_url的URL创建节点,作为所述已存在的以referer 字段的URL创建的节点的子节点插入到树中。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种清洗数据的方法,其特征在于,包括:
获取预先收集得到的多条用户上网行为数据,其中,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,其中所述request_url字段以及所述referer字段的内容均为URL;
统计每个URL在所述多条用户上网行为数据的request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算所述第二数值与所述第一数值的比值,得到第一比值;
根据归属于同一用户的用户上网行为数据,建立该用户的行为树,其中,所述行为树包括多个叶子节点,所述叶子节点对应于所述request_url字段的一个URL;
判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值,并在该URL对应的所述第一比值小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据;
所述根据归属于同一用户的用户上网行为数据,建立该用户的行为树的步骤包括:
将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序;
创建根节点,依次读入每条用户上网行为数据的request_url字段的URL和referer字段的URL。
2.根据权利要求1所述的方法,其特征在于,在所述判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值的步骤之前,所述方法还包括:
获取预先确定的对应于http自动请求的多个URL;
查找所述多个URL中的每个URL对应的所述第一比值;
根据所述每个URL对应的所述第一比值,设置所述预设阈值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述每个URL对应的所述第一比值,设置所述预设阈值的步骤包括:
将每个URL对应的所述第一比值中的最大数值设置为预设阈值。
4.根据权利要求2所述的方法,其特征在于,所述根据所述多个URL中的每个URL对应的所述第一比值,设置所述预设阈值的步骤包括:
计算每个URL对应的所述第一比值的平均值,将所述平均值设置为预设阈值。
5.根据权利要求1所述的方法,其特征在于,所述每条用户上网行为数据还包括:当前http请求发生的时间。
6.根据权利要求5所述的方法,其特征在于,所述根据归属于同一用户的用户上网行为数据,建立该用户的行为树的步骤还包括:
若referer字段的URL为空字符串或不存在,则以request_url字段的URL创建节点,作为根节点的子节点插入到树中;
若referer字段的URL存在且是非空字符,但在树中不存在以referer字段的url创建的节点,则以referer字段的URL和request_url字段的URL分别创建节点,将以referer字段的URL创建的节点作为根节点的子节点插入到树中,将以request_url字段的URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中;
若referer字段的URL存在且是非空字符,但在树中已存在以referer字段的URL创建的节点,则以request_url的URL创建节点,作为所述已存在的以referer字段的URL创建的节点的子节点插入到树中。
7.一种清洗数据的装置,其特征在于,包括:
第一获取模块,用于获取预先收集得到的多条用户上网行为数据,其中,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,其中所述request_url字段以及所述referer字段的内容均为URL;
统计模块,用于统计每个URL在所述多条用户上网行为数据的request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算所述第二数值与所述第一数值的比值,得到第一比值;
建立模块,用于根据归属于同一用户的用户上网行为数据,建立该用户的行为树,其中,所述行为树包括多个叶子节点,所述叶子节点对应于所述request_url字段的一个URL;
判断模块,用于判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值,并在该URL对应的所述第一比值小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据;
所述建立模块包括:
排序单元,用于将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序;
创建单元,用于创建根节点,依次读入每条用户上网行为数据的request_url字段的URL和referer字段的URL。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取预先确定的对应于http自动请求的多个URL;
查找模块,用于查找所述多个URL中的每个URL对应的所述第一比值;
设置模块,用于根据所述每个URL对应的所述第一比值,设置所述预设阈值。
9.根据权利要求8所述的装置,其特征在于,所述设置模块包括:
第一设置单元,用于将每个URL对应的所述第一比值中的最大数值设置为预设阈值。
10.根据权利要求8所述的装置,其特征在于,所述设置模块包括:
第二设置单元,用于计算每个URL对应的所述第一比值的平均值,将所述平均值设置为预设阈值。
11.根据权利要求7所述的装置,其特征在于,所述每条用户上网行为数据还包括:当前http请求发生的时间。
12.根据权利要求11所述的装置,其特征在于,所述建立模块还包括:
插入单元,用于若referer字段的URL为空字符串或不存在,则以request_url字段的URL创建节点,作为根节点的子节点插入到树中;以及若referer字段的URL存在且是非空字符,但在树中不存在以referer字段的url创建的节点,则以referer字段的URL和request_url字段的URL分别创建节点,将以referer字段的URL创建的节点作为根节点的子节点插入到树中,将以request_url字段的URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中;以及若referer字段的URL存在且是非空字符,但在树中已存在以referer字段的URL创建的节点,则以request_url的URL创建节点,作为所述已存在的以referer字段的URL创建的节点的子节点插入到树中。
CN201510046610.XA 2015-01-29 2015-01-29 一种清洗数据的方法及装置 Active CN105989019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510046610.XA CN105989019B (zh) 2015-01-29 2015-01-29 一种清洗数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510046610.XA CN105989019B (zh) 2015-01-29 2015-01-29 一种清洗数据的方法及装置

Publications (2)

Publication Number Publication Date
CN105989019A CN105989019A (zh) 2016-10-05
CN105989019B true CN105989019B (zh) 2019-08-16

Family

ID=57035779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510046610.XA Active CN105989019B (zh) 2015-01-29 2015-01-29 一种清洗数据的方法及装置

Country Status (1)

Country Link
CN (1) CN105989019B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241666B (zh) * 2016-12-26 2020-08-25 北京飞如许信息科技有限责任公司 基于用户行为的事件处理方法和装置
CN108574669B (zh) * 2017-03-10 2019-08-06 掌阅科技股份有限公司 用户行为树构建方法及装置
CN107169073A (zh) * 2017-05-09 2017-09-15 北京智行创远信息科技有限公司 一种数据管理方法与管理平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103152387A (zh) * 2013-01-30 2013-06-12 中兴通讯股份有限公司 一种获取http用户行为轨迹的装置与方法
CN103823883A (zh) * 2014-03-06 2014-05-28 焦点科技股份有限公司 一种网站用户访问路径的分析方法及系统
CN103905434A (zh) * 2014-03-13 2014-07-02 亿赞普(北京)科技有限公司 一种网络数据处理方法和装置
CN104298782A (zh) * 2014-11-07 2015-01-21 辽宁四维科技发展有限公司 互联网用户主动访问行为轨迹的分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100153539A1 (en) * 2008-12-15 2010-06-17 Gregory Thomas Zarroli Algorithm for classification of browser links

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103152387A (zh) * 2013-01-30 2013-06-12 中兴通讯股份有限公司 一种获取http用户行为轨迹的装置与方法
CN103823883A (zh) * 2014-03-06 2014-05-28 焦点科技股份有限公司 一种网站用户访问路径的分析方法及系统
CN103905434A (zh) * 2014-03-13 2014-07-02 亿赞普(北京)科技有限公司 一种网络数据处理方法和装置
CN104298782A (zh) * 2014-11-07 2015-01-21 辽宁四维科技发展有限公司 互联网用户主动访问行为轨迹的分析方法

Also Published As

Publication number Publication date
CN105989019A (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
CN112434208B (zh) 一种孤立森林的训练及其网络爬虫的识别方法与相关装置
CN107800591B (zh) 一种统一日志数据的分析方法
CN106919611B (zh) 产品信息推送方法和装置
CN108304410A (zh) 一种异常访问页面的检测方法、装置及数据分析方法
CN103237094B (zh) 一种识别用户的方法及装置
CN105224691B (zh) 一种信息处理方法及装置
US20080270549A1 (en) Extracting link spam using random walks and spam seeds
CN103399861B (zh) 一种网址导航中的网址推荐方法、装置和系统
CN103049562B (zh) 一种识别相似网页的方法及装置
CN103116638B (zh) 网页筛选方法及装置
CN103530365A (zh) 获取资源的下载链接的方法及系统
CN109104421B (zh) 一种网站内容篡改检测方法、装置、设备及可读存储介质
CN106230809B (zh) 一种基于url的移动互联网舆情监测方法及系统
CN105404631B (zh) 图片识别方法和装置
JP6721057B2 (ja) 通信セッションログ解析装置、方法
CN110691080A (zh) 自动溯源方法、装置、设备及介质
CN105989019B (zh) 一种清洗数据的方法及装置
CN107153702A (zh) 一种数据处理方法及装置
CN105159992A (zh) 一种应用程序的页面内容及网络行为的检测方法及装置
CN109743309A (zh) 一种非法请求识别方法、装置及电子设备
CN106168968A (zh) 一种网站分类方法及装置
CN106294765A (zh) 处理新闻数据的方法及装置
CN103605742A (zh) 识别网络资源实体目录页的方法及装置
CN110825947B (zh) Url去重方法、装置、设备与计算机可读存储介质
JP2002304568A (ja) 相関アイテム検出方法および装置、お薦めアイテム紹介方法および装置、相関アイテム検出プログラム、お薦めアイテム紹介プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant