CN105989019B - 一种清洗数据的方法及装置 - Google Patents
一种清洗数据的方法及装置 Download PDFInfo
- Publication number
- CN105989019B CN105989019B CN201510046610.XA CN201510046610A CN105989019B CN 105989019 B CN105989019 B CN 105989019B CN 201510046610 A CN201510046610 A CN 201510046610A CN 105989019 B CN105989019 B CN 105989019B
- Authority
- CN
- China
- Prior art keywords
- url
- user
- field
- request
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种清洗数据的方法及装置,该方法包括:获取预先收集的用户上网行为数据,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,request_url字段和referer字段的内容均为URL;统计每个URL在用户上网行为数据的request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算第二数值与第一数值的比值,得到第一比值;根据归属于同一用户的用户上网行为数据,建立该用户的行为树,行为树包括多个叶子节点,叶子节点对应于request_url字段的一个URL;判断各个叶子节点的URL对应的第一比值是否小于一预设阈值,在小于预设阈值时,删除该用户的request_url字段为该URL的用户上网行为数据。在本方法中,有效清除了无用数据。
Description
技术领域
本发明涉及数据清洗技术领域,尤其涉及一种清洗数据的方法及装置。
背景技术
在互联网大数据时代,网民访问网站是当下社会主流的上网模式,对网民的访问行为进行分析对很多企业来说有着至关重要的意义。而数据清洗工作是数据进行分析之前必要的程序之一,筛选出有价值的数据有益于企业的营销计划以及发展规划,反之如果大量的无用数据被筛选,企业不但需要付出人力物力对数据进行分析,还可能被错误的分析结果误导运营方向,带来巨大的损失。
但在现实的媒体环境中,当用户访问某个页面时,可能会产生多个http自动请求。所述http自动请求是指媒体页面本身需要加载的素材,如图片、js脚本或css样式等等,而对这些素材的访问同样是基于访问其所连接的URL来完成的,因此,这些非人为发起的http自动请求的URL也同样会被日志采集服务器记录下来。固在对URL进行分组时,http自动请求URL也同样会被列入其中,进而导致分析被噪声干扰,影响最终的统计结果。目前,未有一能够有效且高效率的清洗http自动请求的方法。
发明内容
为了将用户上网行为数据中存在的自动请求清洗掉,以筛选出有价值的用户上网行为数据,本发明实施例提供了一种清洗数据的方法及装置。
为了解决上述技术问题,本发明实施例采用以下技术方案:
依据本发明实施例的一个方面,提供了一种清洗数据的方法,包括:
获取预先收集得到的多条用户上网行为数据,其中,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,其中所述request_url字段以及所述referer字段的内容均为URL;
统计每个URL在所述多条用户上网行为数据的request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算所述第二数值与所述第一数值的比值,得到第一比值;
根据归属于同一用户的用户上网行为数据,建立该用户的行为树,其中,所述行为树包括多个叶子节点,所述叶子节点对应于所述request_url字段的一个URL;
判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值,并在该URL对应的所述第一比值小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据。
其中,在所述判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值的步骤之前,所述方法还包括:
获取预先确定的对应于http自动请求的多个URL;
查找所述多个URL中的每个URL对应的所述第一比值;
根据所述每个URL对应的所述第一比值,设置所述预设阈值。
其中,所述根据所述每个URL对应的所述第一比值,设置所述预设阈值的步骤包括:
将每个URL对应的所述第一比值中的最大数值设置为预设阈值。
其中,所述根据所述多个URL中的每个URL对应的所述第一比值,设置所述预设阈值的步骤包括:
计算每个URL对应的所述第一比值的平均值,将所述平均值设置为预设阈值。
其中,所述每条用户上网行为数据还包括:当前http请求发生的时间。
其中,所述根据归属于同一用户的用户上网行为数据,建立该用户的行为树的步骤包括:
将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序;
创建根节点,依次读入每条用户上网行为数据的request_url字段的URL和referer字段的URL;
若referer字段的URL为空字符串或不存在,则以request_url字段的URL 创建节点,作为根节点的子节点插入到树中;
若referer字段的URL存在且是非空字符,但在树中不存在以referer字段的url创建的节点,则以referer字段的URL和request_url字段的URL分别创建节点,将以referer字段的URL创建的节点作为根节点的子节点插入到树中,将以 request_url字段的URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中;
若referer字段的URL存在且是非空字符,但在树中已存在以referer字段的 URL创建的节点,则以request_url的URL创建节点,作为所述已存在的以referer 字段的URL创建的节点的子节点插入到树中。
依据本发明实施例的另一个方面,还提供了一种清洗数据的装置,包括:
第一获取模块,用于获取预先收集得到的多条用户上网行为数据,其中,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,其中所述request_url字段以及所述referer 字段的内容均为URL;
统计模块,用于统计每个URL在所述多条用户上网行为数据的request_url 字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算所述第二数值与所述第一数值的比值,得到第一比值;
建立模块,用于根据归属于同一用户的用户上网行为数据,建立该用户的行为树,其中,所述行为树包括多个叶子节点,所述叶子节点对应于所述 request_url字段的一个URL;
判断模块,用于判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值,并在该URL对应的所述第一比值小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据。
其中,所述装置还包括:第二获取模块,用于获取预先确定的对应于http 自动请求的多个URL;
查找模块,用于查找所述多个URL中的每个URL对应的所述第一比值;
设置模块,用于根据所述每个URL对应的所述第一比值,设置所述预设阈值。
其中,所述设置模块包括:
第一设置单元,用于将每个URL对应的所述第一比值中的最大数值设置为预设阈值。
其中,所述设置模块包括:
第二设置单元,用于计算每个URL对应的所述第一比值的平均值,将所述平均值设置为预设阈值。
其中,所述每条用户上网行为数据还包括:当前http请求发生的时间。
其中,所述建立模块包括:
排序单元,用于将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序;
创建单元,用于创建根节点,依次读入每条用户上网行为数据的request_url 字段的URL和referer字段的URL;
插入单元,用于若referer字段的URL为空字符串或不存在,则以request_url 字段的URL创建节点,作为根节点的子节点插入到树中;以及若referer字段的 URL存在且是非空字符,但在树中不存在以referer字段的url创建的节点,则以referer字段的URL和request_url字段的URL分别创建节点,将以referer字段的URL创建的节点作为根节点的子节点插入到树中,将以request_url字段的 URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中;以及若referer字段的URL存在且是非空字符,但在树中已存在以referer字段的 URL创建的节点,则以request_url的URL创建节点,作为所述已存在的以referer 字段的URL创建的节点的子节点插入到树中。
本发明实施例的有益效果:在本发明的实施例中,利用http自动请求的URL 很少出现在referer字段的特点,以及http自动请求的URL很少会出现在用户行为树的非叶子节点的特点,通过归属于同一用户的用户上网行为数据,建立用户的行为树,用户的行为树包括叶子节点和非叶子节点(叶子节点的父节点),对于非叶子节点中的URL,判定为人为请求,是有效数据,直接保留处理;而对于行为树中的各个叶子节点的URL对应的第一比值在小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据,从而达到了将用户上网行为数据中存在的自动请求清洗掉,以筛选出有价值的用户上网行为数据的目的。
附图说明
图1为本发明实施例的清洗数据的方法的流程图;
图2为本发明实施例的建立的用户行为树的结构示意图;
图3为本发明实施例的清洗数据的装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有技术中难以清洗http自动请求的问题,提出了一种清洗数据的方法。现有技术中为了清洗http自动请求,有以下两种常用的方法:一种是网站发起请求时,在URL中添加相应参数,通过URL中携带的不同参数来识别该URL是否为自动请求,但是参数的添加依赖于媒体本身,并不是所有媒体都会添加相应的URL参数用来识别自动请求;即使存在相应的参数识别自动请求,不同的网站采用的格式也存在着差异,获取这些格式也十分困难。第二种现有技术是通过人工实际访问每个URL,人为判断该URL是否为真实存在的页面,如果该URL不是真实存在的页面,则可以判定该URL为自动请求,但是在实际情况下,需要处理的数据包含的URL的数目非常之大,数以亿计,要想人工识别几乎是不可能的。
因此,本发明实施例提供了一种清洗数据的方法,利用http自动请求的URL 很少出现在referer字段的特点,以及http自动请求的URL很少会出现在用户行为树的非叶子节点的特点,通过归属于同一用户的用户上网行为数据,建立用户的行为树,用户的行为树包括叶子节点和非叶子节点(叶子节点的父节点),对于非叶子节点中的URL,判定为人为请求,是有效数据,直接保留处理;而对于用户行为树中的各个叶子节点的URL对应的第一比值在小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据,从而达到了将用户上网行为数据中存在的自动请求清洗掉,以筛选出有价值的用户上网行为数据的目的。
如图1所示,本发明实施例的方法包括:
步骤101,获取预先收集得到的多条用户上网行为数据,其中,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前 http请求的referer字段,其中所述request_url字段以及所述referer字段的内容均为URL。
具体地,可通过与运营商合作获取底层交换机中的多条用户上网行为数据,其中用户的唯一标识可是用户终端设备的物理标识,也可是虚拟标识。
步骤102,统计每个URL在所述多条用户上网行为数据的request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算所述第二数值与所述第一数值的比值,得到第一比值。
步骤103,根据归属于同一用户的用户上网行为数据,建立该用户的行为树,其中,所述行为树包括多个叶子节点,所述叶子节点对应于所述request_url字段的一个URL。
步骤104,判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值,并在该URL对应的所述第一比值小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据。
进一步地,在本发明的上述实施例中的步骤104之前,还包括:
获取预先确定的对应于http自动请求的多个URL。
具体地,由本发明上述实施例的步骤101可知,我们已经预先获取了多条用户上网行为数据,这些大量数据中会包括用户经常访问的URL,而这些经常访问的URL可能会包括:www.baidu.com或者www.sina.com等类似的知名网站的URL,我们可知数据中存在的类似的URL为人为请求,但是不能确定哪些数据是自动请求,可通过以下方式确定对应于http自动请求的多个URL:方式1:若所述多条用户上网行为数据中包括:www.baidu.com、www.sina.com以及 www.sina.com等相类似的URL,我们可以针对其中的部分URL发起访问,利用谷歌或者其他浏览器自带的开发者工具,记录下发起请求时会产生的自动请求的URL。方式2:可以针对多条用户上网行为数据中的部分数据,通过人工的实际访问每个URL,判断该URL是否为真实存在的页面,如果该URL不是真实存在的页面,则确定为该URL为自动请求。
查找所述多个URL中的每个URL对应的所述第一比值。
其中,由上步骤我们已经确定了对应于http自动请求的多个URL,而在本发明上述实施例中的步骤102我们已知每个URL的第一比值,此步骤我们只需查找出我们确定的部分自动请求的URL对应的第一比值。
根据所述每个URL对应的所述第一比值,设置所述预设阈值。
具体地,可以根据每个URL对应的所述第一比值中的最大数值设置为预设阈值;也可以通过计算每个URL对应的所述第一比值的平均值,将所述平均值设置为预设阈值。
进一步地,所述每条用户上网行为数据还包括:当前http请求发生的时间,本发明上述实施例中的步骤104具体包括:
将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序;
创建根节点,依次读入每条用户上网行为数据的request_url字段的URL和referer字段的URL;
若referer字段的URL为空字符串或不存在,则以request_url字段的URL 创建节点,作为根节点的子节点插入到树中;
若referer字段的URL存在且是非空字符,但在树中不存在以referer字段的 url创建的节点,则以referer字段的URL和request_url字段的URL分别创建节点,将以referer字段的URL创建的节点作为根节点的子节点插入到树中,将以 request_url字段的URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中;
若referer字段的URL存在且是非空字符,但在树中已存在以referer字段的 URL创建的节点,则以request_url的URL创建节点,作为所述已存在的以referer 字段的URL创建的节点的子节点插入到树中。
通过本发明的方法,可以将多条用户上网行为数据中的存在的自动请求清除掉。
为了更好的理解本发明实施例的实施,下面通过具体实例进一步解释。
首先,可通过与运营商合作获取底层交换机中的多条用户上网行为数据,然后统计每个URL在多条用户上网行为数据的request_url字段中出现次数的第一数值,第一数值记为PVurl,以及在referer字段中出现次数的第二数值,第二数值记为PVref,计算PVref与PVurl的比值,比值记为ref占比,统计结果记入表1(限于篇幅,仅展示了部分数据),其中表1的第一列用来记录URL:
表1
下面,我们需要根据上述ref占比,设置一个阈值。具体的阈值的设置可通过以下方式,由于我们可以确定www.baidu.com和www.sina.com为人为请求,此时,对这2个URL发起访问,使用谷歌自带的开发者工具,记录下发起访问时产生的自动请求的URL,保存到表2中(限于篇幅,仅展示了部分数据):
表2
接着,在表1中查找每个自动请求在表1中的ref占比,可知依次为:0、 1/105、1/67、0、0,此时我们可取其中的最大值1/67设置为阈值,也可以取这5个数值的平均数设置为阈值。在本实例中,下面以最大值1/67 设置为阈值。
接下来,我们重点描述用户行为树的建立过程,首先将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序,然后创建根节点 Root,依次读入每条用户上网行为数据的request_url字段的URL和referer字段的URL,接着按照规则进行创建行为树。
如表3所示,为一用户的所有用户上网行为数据,表3的第一列为用户的 ID,第二列为request_url字段,第三列为referer字段,第四列为每条用户上网行为数据发生的时间time,其中time字段表示请求产生的时间,为Unix时间戳格式。时间戳是自1970年1月1日(00:00:00GMT)以来的秒数,它也被称为Unix时间戳(Unix Timestamp),通过这样排序可以实现先按照ID进行分组,同一ID的用户上网行为数据再按照其请求时间有序。
表3
由表3可知,第一条用户上网行为数据的referer字段的URL存在,则以www.baidu.com创建第一节点,作为根节点的子节点插入到树中,以request_url 字段的URL:http://su.bdimg.com/static/superplus/img/s_menu_309f0917.png创建第二节点,作为第一节点的子节点插入到树中;接着读取第二条用户上网行为数据的request_url字段的URL和referer字段的URL,referer字段的URL不存在,则以request_url的URL:http://bbs.hupu.com/11328852.html创建第三节点,作为根节点的子节点插入到树中;接着读取第三条用户上网行为数据的 request_url字段的URL和referer字段的URL,可知referer字段的URL已存在于树中,则以www.sina.com创建第四节点,作为第一节点的子节点插入到树中;接着读取第四条用户上网行为数据的request_url字段的URL和referer字段的 URL,由于referer字段不存在,而request_url字段的URL已存在,则跳过不进行创建节点的操作;接着读取第五条用户上网行为数据的request_url字段的URL 和referer字段的URL,由于其referer字段的URL已存在于树中,则以request_url 字段的URL:http://b3.hoopchina.com.cn/images/logo2013/v1/hp_logo_sports.png 创建第五节点,作为第三节点的子节点插入到树中,完成行为树的建立,建立好的行为树结构如图2所示。
由图2可知,一个行为树结构包括了多个叶子节点和非叶子节点,利用http 自动请求的URL很少出现在referer字段的特点,以及http自动请求的URL很少会出现在用户行为树的非叶子节点的特点,我们确定该行为树结构中的非叶子节点中的URL为人为请求,是有效数据,直接保留即可;而对于叶子节点中的URL,我们需要将叶子节点中的URL对应的第一比值与预设阈值比较,判断叶子节点中的URL是否为自动请求的URL,此时我们需要查看对应的ref占比,经表1可知,第二节点中的URL的ref占比为1/105,第四节点的URL的ref 占比为70/56,第五节点中的URL的ref占比为0,由于第二节点和第五节点中的URL的ref占比小于设置的阈值1/67,确定为自动请求,删除request_url字段为http://su.bdimg.com/static/superplus/img/s_menu_309f0917.png和request_url 字段为http://b3.hoopchina.com.cn/images/logo2013/v1/hp_logo_sports.png的用户上网行为数据。
进行清理后的该用户的上网行为数据如表4所示:
表4
在这里需要进一步说明的是,如果不建立用户的行为树,只是依据与阈值的比较进行判定某个URL是否是自动请求是不准确的,像本例中的request_url 字段为http://bbs.hupu.com/11328852.html的URL,如果只是与阈值比较,可判定其为自动请求,而实际建立行为树可知该URL处于行为树中的非叶子节点的位置,可知其为人为请求,只是访问的数据量比较少,导致ref占比比较小。所以建立用户的行为树保证了清洗自动请求的URL的准确性。
根据归属于同一用户的用户上网行为数据,建立下一个用户的行为树,进行自动请求的URL的清洗,直至处理完所有数据。
依据本发明实施例的另一个方面,还提供了一种清洗数据的装置,如图3 所示,所述装置包括:
第一获取模块31,用于获取预先收集得到的多条用户上网行为数据,其中,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,其中所述request_url字段以及所述referer 字段的内容均为URL。
统计模块32,用于统计每个URL在所述多条用户上网行为数据的 request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算所述第二数值与所述第一数值的比值,得到第一比值。
建立模块33,用于根据归属于同一用户的用户上网行为数据,建立该用户的行为树,其中,所述行为树包括多个叶子节点,所述叶子节点对应于所述 request_url字段的一个URL。
判断模块34,用于判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值,并在该URL对应的所述第一比值小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据。
进一步地,在本发明的上述实施例中,所述装置还包括:
第二获取模块,用于获取预先确定的对应于http自动请求的多个URL。
查找模块,用于查找所述多个URL中的每个URL对应的所述第一比值。
设置模块,用于根据所述每个URL对应的所述第一比值,设置所述预设阈值。
进一步地,所述装置还包括:
第一设置单元,用于将每个URL对应的所述第一比值中的最大数值设置为预设阈值。
进一步地,所述装置还包括:
第二设置单元,用于计算每个URL对应的所述第一比值的平均值,将所述平均值设置为预设阈值。
进一步地,在本发明的上述实施例中,所述每条用户上网行为数据还包括:当前http请求发生的时间。
进一步地,所述建立模块包括:
排序单元,用于将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序。
创建单元,用于创建根节点,依次读入每条用户上网行为数据的request_url 字段的URL和referer字段的URL。
插入单元,用于若referer字段的URL为空字符串或不存在,则以request_url 字段的URL创建节点,作为根节点的子节点插入到树中;以及若referer字段的 URL存在且是非空字符,但在树中不存在以referer字段的url创建的节点,则以referer字段的URL和request_url字段的URL分别创建节点,将以referer字段的URL创建的节点作为根节点的子节点插入到树中,将以request_url字段的 URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中;以及若referer字段的URL存在且是非空字符,但在树中已存在以referer字段的 URL创建的节点,则以request_url的URL创建节点,作为所述已存在的以referer 字段的URL创建的节点的子节点插入到树中。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种清洗数据的方法,其特征在于,包括:
获取预先收集得到的多条用户上网行为数据,其中,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,其中所述request_url字段以及所述referer字段的内容均为URL;
统计每个URL在所述多条用户上网行为数据的request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算所述第二数值与所述第一数值的比值,得到第一比值;
根据归属于同一用户的用户上网行为数据,建立该用户的行为树,其中,所述行为树包括多个叶子节点,所述叶子节点对应于所述request_url字段的一个URL;
判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值,并在该URL对应的所述第一比值小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据;
所述根据归属于同一用户的用户上网行为数据,建立该用户的行为树的步骤包括:
将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序;
创建根节点,依次读入每条用户上网行为数据的request_url字段的URL和referer字段的URL。
2.根据权利要求1所述的方法,其特征在于,在所述判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值的步骤之前,所述方法还包括:
获取预先确定的对应于http自动请求的多个URL;
查找所述多个URL中的每个URL对应的所述第一比值;
根据所述每个URL对应的所述第一比值,设置所述预设阈值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述每个URL对应的所述第一比值,设置所述预设阈值的步骤包括:
将每个URL对应的所述第一比值中的最大数值设置为预设阈值。
4.根据权利要求2所述的方法,其特征在于,所述根据所述多个URL中的每个URL对应的所述第一比值,设置所述预设阈值的步骤包括:
计算每个URL对应的所述第一比值的平均值,将所述平均值设置为预设阈值。
5.根据权利要求1所述的方法,其特征在于,所述每条用户上网行为数据还包括:当前http请求发生的时间。
6.根据权利要求5所述的方法,其特征在于,所述根据归属于同一用户的用户上网行为数据,建立该用户的行为树的步骤还包括:
若referer字段的URL为空字符串或不存在,则以request_url字段的URL创建节点,作为根节点的子节点插入到树中;
若referer字段的URL存在且是非空字符,但在树中不存在以referer字段的url创建的节点,则以referer字段的URL和request_url字段的URL分别创建节点,将以referer字段的URL创建的节点作为根节点的子节点插入到树中,将以request_url字段的URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中;
若referer字段的URL存在且是非空字符,但在树中已存在以referer字段的URL创建的节点,则以request_url的URL创建节点,作为所述已存在的以referer字段的URL创建的节点的子节点插入到树中。
7.一种清洗数据的装置,其特征在于,包括:
第一获取模块,用于获取预先收集得到的多条用户上网行为数据,其中,每条用户上网行为数据包括:用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段,其中所述request_url字段以及所述referer字段的内容均为URL;
统计模块,用于统计每个URL在所述多条用户上网行为数据的request_url字段中出现次数的第一数值,以及在referer字段中出现次数的第二数值,计算所述第二数值与所述第一数值的比值,得到第一比值;
建立模块,用于根据归属于同一用户的用户上网行为数据,建立该用户的行为树,其中,所述行为树包括多个叶子节点,所述叶子节点对应于所述request_url字段的一个URL;
判断模块,用于判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值,并在该URL对应的所述第一比值小于所述预设阈值时,删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据;
所述建立模块包括:
排序单元,用于将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序;
创建单元,用于创建根节点,依次读入每条用户上网行为数据的request_url字段的URL和referer字段的URL。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取预先确定的对应于http自动请求的多个URL;
查找模块,用于查找所述多个URL中的每个URL对应的所述第一比值;
设置模块,用于根据所述每个URL对应的所述第一比值,设置所述预设阈值。
9.根据权利要求8所述的装置,其特征在于,所述设置模块包括:
第一设置单元,用于将每个URL对应的所述第一比值中的最大数值设置为预设阈值。
10.根据权利要求8所述的装置,其特征在于,所述设置模块包括:
第二设置单元,用于计算每个URL对应的所述第一比值的平均值,将所述平均值设置为预设阈值。
11.根据权利要求7所述的装置,其特征在于,所述每条用户上网行为数据还包括:当前http请求发生的时间。
12.根据权利要求11所述的装置,其特征在于,所述建立模块还包括:
插入单元,用于若referer字段的URL为空字符串或不存在,则以request_url字段的URL创建节点,作为根节点的子节点插入到树中;以及若referer字段的URL存在且是非空字符,但在树中不存在以referer字段的url创建的节点,则以referer字段的URL和request_url字段的URL分别创建节点,将以referer字段的URL创建的节点作为根节点的子节点插入到树中,将以request_url字段的URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中;以及若referer字段的URL存在且是非空字符,但在树中已存在以referer字段的URL创建的节点,则以request_url的URL创建节点,作为所述已存在的以referer字段的URL创建的节点的子节点插入到树中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510046610.XA CN105989019B (zh) | 2015-01-29 | 2015-01-29 | 一种清洗数据的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510046610.XA CN105989019B (zh) | 2015-01-29 | 2015-01-29 | 一种清洗数据的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105989019A CN105989019A (zh) | 2016-10-05 |
CN105989019B true CN105989019B (zh) | 2019-08-16 |
Family
ID=57035779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510046610.XA Active CN105989019B (zh) | 2015-01-29 | 2015-01-29 | 一种清洗数据的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105989019B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241666B (zh) * | 2016-12-26 | 2020-08-25 | 北京飞如许信息科技有限责任公司 | 基于用户行为的事件处理方法和装置 |
CN108574669B (zh) * | 2017-03-10 | 2019-08-06 | 掌阅科技股份有限公司 | 用户行为树构建方法及装置 |
CN107169073A (zh) * | 2017-05-09 | 2017-09-15 | 北京智行创远信息科技有限公司 | 一种数据管理方法与管理平台 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103152387A (zh) * | 2013-01-30 | 2013-06-12 | 中兴通讯股份有限公司 | 一种获取http用户行为轨迹的装置与方法 |
CN103823883A (zh) * | 2014-03-06 | 2014-05-28 | 焦点科技股份有限公司 | 一种网站用户访问路径的分析方法及系统 |
CN103905434A (zh) * | 2014-03-13 | 2014-07-02 | 亿赞普(北京)科技有限公司 | 一种网络数据处理方法和装置 |
CN104298782A (zh) * | 2014-11-07 | 2015-01-21 | 辽宁四维科技发展有限公司 | 互联网用户主动访问行为轨迹的分析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100153539A1 (en) * | 2008-12-15 | 2010-06-17 | Gregory Thomas Zarroli | Algorithm for classification of browser links |
-
2015
- 2015-01-29 CN CN201510046610.XA patent/CN105989019B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103152387A (zh) * | 2013-01-30 | 2013-06-12 | 中兴通讯股份有限公司 | 一种获取http用户行为轨迹的装置与方法 |
CN103823883A (zh) * | 2014-03-06 | 2014-05-28 | 焦点科技股份有限公司 | 一种网站用户访问路径的分析方法及系统 |
CN103905434A (zh) * | 2014-03-13 | 2014-07-02 | 亿赞普(北京)科技有限公司 | 一种网络数据处理方法和装置 |
CN104298782A (zh) * | 2014-11-07 | 2015-01-21 | 辽宁四维科技发展有限公司 | 互联网用户主动访问行为轨迹的分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105989019A (zh) | 2016-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112434208B (zh) | 一种孤立森林的训练及其网络爬虫的识别方法与相关装置 | |
CN107800591B (zh) | 一种统一日志数据的分析方法 | |
CN106919611B (zh) | 产品信息推送方法和装置 | |
CN108304410A (zh) | 一种异常访问页面的检测方法、装置及数据分析方法 | |
CN103237094B (zh) | 一种识别用户的方法及装置 | |
CN105224691B (zh) | 一种信息处理方法及装置 | |
US20080270549A1 (en) | Extracting link spam using random walks and spam seeds | |
CN103399861B (zh) | 一种网址导航中的网址推荐方法、装置和系统 | |
CN103049562B (zh) | 一种识别相似网页的方法及装置 | |
CN103116638B (zh) | 网页筛选方法及装置 | |
CN103530365A (zh) | 获取资源的下载链接的方法及系统 | |
CN109104421B (zh) | 一种网站内容篡改检测方法、装置、设备及可读存储介质 | |
CN106230809B (zh) | 一种基于url的移动互联网舆情监测方法及系统 | |
CN105404631B (zh) | 图片识别方法和装置 | |
JP6721057B2 (ja) | 通信セッションログ解析装置、方法 | |
CN110691080A (zh) | 自动溯源方法、装置、设备及介质 | |
CN105989019B (zh) | 一种清洗数据的方法及装置 | |
CN107153702A (zh) | 一种数据处理方法及装置 | |
CN105159992A (zh) | 一种应用程序的页面内容及网络行为的检测方法及装置 | |
CN109743309A (zh) | 一种非法请求识别方法、装置及电子设备 | |
CN106168968A (zh) | 一种网站分类方法及装置 | |
CN106294765A (zh) | 处理新闻数据的方法及装置 | |
CN103605742A (zh) | 识别网络资源实体目录页的方法及装置 | |
CN110825947B (zh) | Url去重方法、装置、设备与计算机可读存储介质 | |
JP2002304568A (ja) | 相関アイテム検出方法および装置、お薦めアイテム紹介方法および装置、相関アイテム検出プログラム、お薦めアイテム紹介プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |