CN105989019B

CN105989019B - 一种清洗数据的方法及装置

Info

Publication number: CN105989019B
Application number: CN201510046610.XA
Authority: CN
Inventors: 陈家耀; 李长刚; 冯是聪; 吴明辉
Original assignee: Beijing Miaozhen Information Consultant Co Ltd
Current assignee: Beijing Miaozhen Information Consultant Co Ltd
Priority date: 2015-01-29
Filing date: 2015-01-29
Publication date: 2019-08-16
Anticipated expiration: 2035-01-29
Also published as: CN105989019A

Abstract

本发明提供了一种清洗数据的方法及装置，该方法包括：获取预先收集的用户上网行为数据，每条用户上网行为数据包括：用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段，request_url字段和referer字段的内容均为URL；统计每个URL在用户上网行为数据的request_url字段中出现次数的第一数值，以及在referer字段中出现次数的第二数值，计算第二数值与第一数值的比值，得到第一比值；根据归属于同一用户的用户上网行为数据，建立该用户的行为树，行为树包括多个叶子节点，叶子节点对应于request_url字段的一个URL；判断各个叶子节点的URL对应的第一比值是否小于一预设阈值，在小于预设阈值时，删除该用户的request_url字段为该URL的用户上网行为数据。在本方法中，有效清除了无用数据。

Description

一种清洗数据的方法及装置

技术领域

本发明涉及数据清洗技术领域，尤其涉及一种清洗数据的方法及装置。

背景技术

在互联网大数据时代，网民访问网站是当下社会主流的上网模式，对网民的访问行为进行分析对很多企业来说有着至关重要的意义。而数据清洗工作是数据进行分析之前必要的程序之一，筛选出有价值的数据有益于企业的营销计划以及发展规划，反之如果大量的无用数据被筛选，企业不但需要付出人力物力对数据进行分析，还可能被错误的分析结果误导运营方向，带来巨大的损失。

但在现实的媒体环境中，当用户访问某个页面时，可能会产生多个http自动请求。所述http自动请求是指媒体页面本身需要加载的素材，如图片、js脚本或css样式等等，而对这些素材的访问同样是基于访问其所连接的URL来完成的，因此，这些非人为发起的http自动请求的URL也同样会被日志采集服务器记录下来。固在对URL进行分组时，http自动请求URL也同样会被列入其中，进而导致分析被噪声干扰，影响最终的统计结果。目前，未有一能够有效且高效率的清洗http自动请求的方法。

发明内容

为了将用户上网行为数据中存在的自动请求清洗掉，以筛选出有价值的用户上网行为数据，本发明实施例提供了一种清洗数据的方法及装置。

为了解决上述技术问题，本发明实施例采用以下技术方案：

依据本发明实施例的一个方面，提供了一种清洗数据的方法，包括：

获取预先收集得到的多条用户上网行为数据，其中，每条用户上网行为数据包括：用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段，其中所述request_url字段以及所述referer字段的内容均为URL；

统计每个URL在所述多条用户上网行为数据的request_url字段中出现次数的第一数值，以及在referer字段中出现次数的第二数值，计算所述第二数值与所述第一数值的比值，得到第一比值；

根据归属于同一用户的用户上网行为数据，建立该用户的行为树，其中，所述行为树包括多个叶子节点，所述叶子节点对应于所述request_url字段的一个URL；

判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值，并在该URL对应的所述第一比值小于所述预设阈值时，删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据。

其中，在所述判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值的步骤之前，所述方法还包括：

获取预先确定的对应于http自动请求的多个URL；

查找所述多个URL中的每个URL对应的所述第一比值；

根据所述每个URL对应的所述第一比值，设置所述预设阈值。

其中，所述根据所述每个URL对应的所述第一比值，设置所述预设阈值的步骤包括：

将每个URL对应的所述第一比值中的最大数值设置为预设阈值。

其中，所述根据所述多个URL中的每个URL对应的所述第一比值，设置所述预设阈值的步骤包括：

计算每个URL对应的所述第一比值的平均值，将所述平均值设置为预设阈值。

其中，所述每条用户上网行为数据还包括：当前http请求发生的时间。

其中，所述根据归属于同一用户的用户上网行为数据，建立该用户的行为树的步骤包括：

将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序；

创建根节点，依次读入每条用户上网行为数据的request_url字段的URL和referer字段的URL；

若referer字段的URL为空字符串或不存在，则以request_url字段的URL 创建节点，作为根节点的子节点插入到树中；

若referer字段的URL存在且是非空字符，但在树中不存在以referer字段的url创建的节点，则以referer字段的URL和request_url字段的URL分别创建节点，将以referer字段的URL创建的节点作为根节点的子节点插入到树中，将以 request_url字段的URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中；

若referer字段的URL存在且是非空字符，但在树中已存在以referer字段的 URL创建的节点，则以request_url的URL创建节点，作为所述已存在的以referer 字段的URL创建的节点的子节点插入到树中。

依据本发明实施例的另一个方面，还提供了一种清洗数据的装置，包括：

第一获取模块，用于获取预先收集得到的多条用户上网行为数据，其中，每条用户上网行为数据包括：用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段，其中所述request_url字段以及所述referer 字段的内容均为URL；

统计模块，用于统计每个URL在所述多条用户上网行为数据的request_url 字段中出现次数的第一数值，以及在referer字段中出现次数的第二数值，计算所述第二数值与所述第一数值的比值，得到第一比值；

建立模块，用于根据归属于同一用户的用户上网行为数据，建立该用户的行为树，其中，所述行为树包括多个叶子节点，所述叶子节点对应于所述 request_url字段的一个URL；

判断模块，用于判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值，并在该URL对应的所述第一比值小于所述预设阈值时，删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据。

其中，所述装置还包括：第二获取模块，用于获取预先确定的对应于http 自动请求的多个URL；

查找模块，用于查找所述多个URL中的每个URL对应的所述第一比值；

设置模块，用于根据所述每个URL对应的所述第一比值，设置所述预设阈值。

其中，所述设置模块包括：

第一设置单元，用于将每个URL对应的所述第一比值中的最大数值设置为预设阈值。

其中，所述设置模块包括：

第二设置单元，用于计算每个URL对应的所述第一比值的平均值，将所述平均值设置为预设阈值。

其中，所述建立模块包括：

排序单元，用于将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序；

创建单元，用于创建根节点，依次读入每条用户上网行为数据的request_url 字段的URL和referer字段的URL；

插入单元，用于若referer字段的URL为空字符串或不存在，则以request_url 字段的URL创建节点，作为根节点的子节点插入到树中；以及若referer字段的 URL存在且是非空字符，但在树中不存在以referer字段的url创建的节点，则以referer字段的URL和request_url字段的URL分别创建节点，将以referer字段的URL创建的节点作为根节点的子节点插入到树中，将以request_url字段的 URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中；以及若referer字段的URL存在且是非空字符，但在树中已存在以referer字段的 URL创建的节点，则以request_url的URL创建节点，作为所述已存在的以referer 字段的URL创建的节点的子节点插入到树中。

本发明实施例的有益效果：在本发明的实施例中，利用http自动请求的URL 很少出现在referer字段的特点，以及http自动请求的URL很少会出现在用户行为树的非叶子节点的特点，通过归属于同一用户的用户上网行为数据，建立用户的行为树，用户的行为树包括叶子节点和非叶子节点(叶子节点的父节点)，对于非叶子节点中的URL，判定为人为请求，是有效数据，直接保留处理；而对于行为树中的各个叶子节点的URL对应的第一比值在小于所述预设阈值时，删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据，从而达到了将用户上网行为数据中存在的自动请求清洗掉，以筛选出有价值的用户上网行为数据的目的。

附图说明

图1为本发明实施例的清洗数据的方法的流程图；

图2为本发明实施例的建立的用户行为树的结构示意图；

图3为本发明实施例的清洗数据的装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有技术中难以清洗http自动请求的问题，提出了一种清洗数据的方法。现有技术中为了清洗http自动请求，有以下两种常用的方法：一种是网站发起请求时，在URL中添加相应参数，通过URL中携带的不同参数来识别该URL是否为自动请求，但是参数的添加依赖于媒体本身，并不是所有媒体都会添加相应的URL参数用来识别自动请求；即使存在相应的参数识别自动请求，不同的网站采用的格式也存在着差异，获取这些格式也十分困难。第二种现有技术是通过人工实际访问每个URL，人为判断该URL是否为真实存在的页面，如果该URL不是真实存在的页面，则可以判定该URL为自动请求，但是在实际情况下，需要处理的数据包含的URL的数目非常之大，数以亿计，要想人工识别几乎是不可能的。

因此，本发明实施例提供了一种清洗数据的方法，利用http自动请求的URL 很少出现在referer字段的特点，以及http自动请求的URL很少会出现在用户行为树的非叶子节点的特点，通过归属于同一用户的用户上网行为数据，建立用户的行为树，用户的行为树包括叶子节点和非叶子节点(叶子节点的父节点)，对于非叶子节点中的URL，判定为人为请求，是有效数据，直接保留处理；而对于用户行为树中的各个叶子节点的URL对应的第一比值在小于所述预设阈值时，删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据，从而达到了将用户上网行为数据中存在的自动请求清洗掉，以筛选出有价值的用户上网行为数据的目的。

如图1所示，本发明实施例的方法包括：

步骤101，获取预先收集得到的多条用户上网行为数据，其中，每条用户上网行为数据包括：用户的唯一标识、当前http请求的request_url字段以及当前 http请求的referer字段，其中所述request_url字段以及所述referer字段的内容均为URL。

具体地，可通过与运营商合作获取底层交换机中的多条用户上网行为数据，其中用户的唯一标识可是用户终端设备的物理标识，也可是虚拟标识。

步骤102，统计每个URL在所述多条用户上网行为数据的request_url字段中出现次数的第一数值，以及在referer字段中出现次数的第二数值，计算所述第二数值与所述第一数值的比值，得到第一比值。

步骤103，根据归属于同一用户的用户上网行为数据，建立该用户的行为树，其中，所述行为树包括多个叶子节点，所述叶子节点对应于所述request_url字段的一个URL。

步骤104，判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值，并在该URL对应的所述第一比值小于所述预设阈值时，删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据。

进一步地，在本发明的上述实施例中的步骤104之前，还包括：

获取预先确定的对应于http自动请求的多个URL。

具体地，由本发明上述实施例的步骤101可知，我们已经预先获取了多条用户上网行为数据，这些大量数据中会包括用户经常访问的URL，而这些经常访问的URL可能会包括：www.baidu.com或者www.sina.com等类似的知名网站的URL，我们可知数据中存在的类似的URL为人为请求，但是不能确定哪些数据是自动请求，可通过以下方式确定对应于http自动请求的多个URL：方式1：若所述多条用户上网行为数据中包括：www.baidu.com、www.sina.com以及 www.sina.com等相类似的URL，我们可以针对其中的部分URL发起访问，利用谷歌或者其他浏览器自带的开发者工具，记录下发起请求时会产生的自动请求的URL。方式2：可以针对多条用户上网行为数据中的部分数据，通过人工的实际访问每个URL，判断该URL是否为真实存在的页面，如果该URL不是真实存在的页面，则确定为该URL为自动请求。

查找所述多个URL中的每个URL对应的所述第一比值。

其中，由上步骤我们已经确定了对应于http自动请求的多个URL，而在本发明上述实施例中的步骤102我们已知每个URL的第一比值，此步骤我们只需查找出我们确定的部分自动请求的URL对应的第一比值。

根据所述每个URL对应的所述第一比值，设置所述预设阈值。

具体地，可以根据每个URL对应的所述第一比值中的最大数值设置为预设阈值；也可以通过计算每个URL对应的所述第一比值的平均值，将所述平均值设置为预设阈值。

进一步地，所述每条用户上网行为数据还包括：当前http请求发生的时间，本发明上述实施例中的步骤104具体包括：

若referer字段的URL存在且是非空字符，但在树中不存在以referer字段的 url创建的节点，则以referer字段的URL和request_url字段的URL分别创建节点，将以referer字段的URL创建的节点作为根节点的子节点插入到树中，将以 request_url字段的URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中；

通过本发明的方法，可以将多条用户上网行为数据中的存在的自动请求清除掉。

为了更好的理解本发明实施例的实施，下面通过具体实例进一步解释。

首先，可通过与运营商合作获取底层交换机中的多条用户上网行为数据，然后统计每个URL在多条用户上网行为数据的request_url字段中出现次数的第一数值，第一数值记为PVurl，以及在referer字段中出现次数的第二数值，第二数值记为PVref，计算PVref与PVurl的比值，比值记为ref占比，统计结果记入表1(限于篇幅，仅展示了部分数据)，其中表1的第一列用来记录URL：

表1

下面，我们需要根据上述ref占比，设置一个阈值。具体的阈值的设置可通过以下方式，由于我们可以确定www.baidu.com和www.sina.com为人为请求，此时，对这2个URL发起访问，使用谷歌自带的开发者工具，记录下发起访问时产生的自动请求的URL，保存到表2中(限于篇幅，仅展示了部分数据)：

表2

接着，在表1中查找每个自动请求在表1中的ref占比，可知依次为：0、 1/105、1/67、0、0，此时我们可取其中的最大值1/67设置为阈值，也可以取这5个数值的平均数设置为阈值。在本实例中，下面以最大值1/67 设置为阈值。

接下来，我们重点描述用户行为树的建立过程，首先将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序，然后创建根节点 Root，依次读入每条用户上网行为数据的request_url字段的URL和referer字段的URL，接着按照规则进行创建行为树。

如表3所示，为一用户的所有用户上网行为数据，表3的第一列为用户的 ID，第二列为request_url字段，第三列为referer字段，第四列为每条用户上网行为数据发生的时间time，其中time字段表示请求产生的时间，为Unix时间戳格式。时间戳是自1970年1月1日(00:00:00GMT)以来的秒数，它也被称为Unix时间戳(Unix Timestamp)，通过这样排序可以实现先按照ID进行分组，同一ID的用户上网行为数据再按照其请求时间有序。

表3

由表3可知，第一条用户上网行为数据的referer字段的URL存在，则以www.baidu.com创建第一节点，作为根节点的子节点插入到树中，以request_url 字段的URL：http://su.bdimg.com/static/superplus/img/s_menu_309f0917.png创建第二节点，作为第一节点的子节点插入到树中；接着读取第二条用户上网行为数据的request_url字段的URL和referer字段的URL，referer字段的URL不存在，则以request_url的URL：http://bbs.hupu.com/11328852.html创建第三节点，作为根节点的子节点插入到树中；接着读取第三条用户上网行为数据的 request_url字段的URL和referer字段的URL，可知referer字段的URL已存在于树中，则以www.sina.com创建第四节点，作为第一节点的子节点插入到树中；接着读取第四条用户上网行为数据的request_url字段的URL和referer字段的 URL，由于referer字段不存在，而request_url字段的URL已存在，则跳过不进行创建节点的操作；接着读取第五条用户上网行为数据的request_url字段的URL 和referer字段的URL，由于其referer字段的URL已存在于树中，则以request_url 字段的URL：http://b3.hoopchina.com.cn/images/logo2013/v1/hp_logo_sports.png 创建第五节点，作为第三节点的子节点插入到树中，完成行为树的建立，建立好的行为树结构如图2所示。

由图2可知，一个行为树结构包括了多个叶子节点和非叶子节点，利用http 自动请求的URL很少出现在referer字段的特点，以及http自动请求的URL很少会出现在用户行为树的非叶子节点的特点，我们确定该行为树结构中的非叶子节点中的URL为人为请求，是有效数据，直接保留即可；而对于叶子节点中的URL，我们需要将叶子节点中的URL对应的第一比值与预设阈值比较，判断叶子节点中的URL是否为自动请求的URL，此时我们需要查看对应的ref占比，经表1可知，第二节点中的URL的ref占比为1/105，第四节点的URL的ref 占比为70/56，第五节点中的URL的ref占比为0，由于第二节点和第五节点中的URL的ref占比小于设置的阈值1/67，确定为自动请求，删除request_url字段为http://su.bdimg.com/static/superplus/img/s_menu_309f0917.png和request_url 字段为http://b3.hoopchina.com.cn/images/logo2013/v1/hp_logo_sports.png的用户上网行为数据。

进行清理后的该用户的上网行为数据如表4所示：

表4

在这里需要进一步说明的是，如果不建立用户的行为树，只是依据与阈值的比较进行判定某个URL是否是自动请求是不准确的，像本例中的request_url 字段为http://bbs.hupu.com/11328852.html的URL，如果只是与阈值比较，可判定其为自动请求，而实际建立行为树可知该URL处于行为树中的非叶子节点的位置，可知其为人为请求，只是访问的数据量比较少，导致ref占比比较小。所以建立用户的行为树保证了清洗自动请求的URL的准确性。

根据归属于同一用户的用户上网行为数据，建立下一个用户的行为树，进行自动请求的URL的清洗，直至处理完所有数据。

依据本发明实施例的另一个方面，还提供了一种清洗数据的装置，如图3 所示，所述装置包括：

第一获取模块31，用于获取预先收集得到的多条用户上网行为数据，其中，每条用户上网行为数据包括：用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段，其中所述request_url字段以及所述referer 字段的内容均为URL。

统计模块32，用于统计每个URL在所述多条用户上网行为数据的 request_url字段中出现次数的第一数值，以及在referer字段中出现次数的第二数值，计算所述第二数值与所述第一数值的比值，得到第一比值。

建立模块33，用于根据归属于同一用户的用户上网行为数据，建立该用户的行为树，其中，所述行为树包括多个叶子节点，所述叶子节点对应于所述 request_url字段的一个URL。

判断模块34，用于判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值，并在该URL对应的所述第一比值小于所述预设阈值时，删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据。

进一步地，在本发明的上述实施例中，所述装置还包括：

第二获取模块，用于获取预先确定的对应于http自动请求的多个URL。

查找模块，用于查找所述多个URL中的每个URL对应的所述第一比值。

进一步地，所述装置还包括：

进一步地，在本发明的上述实施例中，所述每条用户上网行为数据还包括：当前http请求发生的时间。

进一步地，所述建立模块包括：

排序单元，用于将同一用户的所有用户上网行为数据按照http请求发生时间的先后顺序进行排序。

创建单元，用于创建根节点，依次读入每条用户上网行为数据的request_url 字段的URL和referer字段的URL。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种清洗数据的方法，其特征在于，包括：

判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值，并在该URL对应的所述第一比值小于所述预设阈值时，删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据；

所述根据归属于同一用户的用户上网行为数据，建立该用户的行为树的步骤包括：

创建根节点，依次读入每条用户上网行为数据的request_url字段的URL和referer字段的URL。

2.根据权利要求1所述的方法，其特征在于，在所述判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值的步骤之前，所述方法还包括：

获取预先确定的对应于http自动请求的多个URL；

查找所述多个URL中的每个URL对应的所述第一比值；

根据所述每个URL对应的所述第一比值，设置所述预设阈值。

3.根据权利要求2所述的方法，其特征在于，所述根据所述每个URL对应的所述第一比值，设置所述预设阈值的步骤包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述多个URL中的每个URL对应的所述第一比值，设置所述预设阈值的步骤包括：

5.根据权利要求1所述的方法，其特征在于，所述每条用户上网行为数据还包括：当前http请求发生的时间。

6.根据权利要求5所述的方法，其特征在于，所述根据归属于同一用户的用户上网行为数据，建立该用户的行为树的步骤还包括：

若referer字段的URL为空字符串或不存在，则以request_url字段的URL创建节点，作为根节点的子节点插入到树中；

若referer字段的URL存在且是非空字符，但在树中不存在以referer字段的url创建的节点，则以referer字段的URL和request_url字段的URL分别创建节点，将以referer字段的URL创建的节点作为根节点的子节点插入到树中，将以request_url字段的URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中；

若referer字段的URL存在且是非空字符，但在树中已存在以referer字段的URL创建的节点，则以request_url的URL创建节点，作为所述已存在的以referer字段的URL创建的节点的子节点插入到树中。

7.一种清洗数据的装置，其特征在于，包括：

第一获取模块，用于获取预先收集得到的多条用户上网行为数据，其中，每条用户上网行为数据包括：用户的唯一标识、当前http请求的request_url字段以及当前http请求的referer字段，其中所述request_url字段以及所述referer字段的内容均为URL；

统计模块，用于统计每个URL在所述多条用户上网行为数据的request_url字段中出现次数的第一数值，以及在referer字段中出现次数的第二数值，计算所述第二数值与所述第一数值的比值，得到第一比值；

建立模块，用于根据归属于同一用户的用户上网行为数据，建立该用户的行为树，其中，所述行为树包括多个叶子节点，所述叶子节点对应于所述request_url字段的一个URL；

判断模块，用于判断各个叶子节点的URL对应的所述第一比值是否小于一预设阈值，并在该URL对应的所述第一比值小于所述预设阈值时，删除该用户的用户上网行为数据中request_url字段为该URL的用户上网行为数据；

所述建立模块包括：

创建单元，用于创建根节点，依次读入每条用户上网行为数据的request_url字段的URL和referer字段的URL。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取预先确定的对应于http自动请求的多个URL；

9.根据权利要求8所述的装置，其特征在于，所述设置模块包括：

10.根据权利要求8所述的装置，其特征在于，所述设置模块包括：

11.根据权利要求7所述的装置，其特征在于，所述每条用户上网行为数据还包括：当前http请求发生的时间。

12.根据权利要求11所述的装置，其特征在于，所述建立模块还包括：

插入单元，用于若referer字段的URL为空字符串或不存在，则以request_url字段的URL创建节点，作为根节点的子节点插入到树中；以及若referer字段的URL存在且是非空字符，但在树中不存在以referer字段的url创建的节点，则以referer字段的URL和request_url字段的URL分别创建节点，将以referer字段的URL创建的节点作为根节点的子节点插入到树中，将以request_url字段的URL创建的节点作为以referer字段的URL创建的节点的子节点插入到树中；以及若referer字段的URL存在且是非空字符，但在树中已存在以referer字段的URL创建的节点，则以request_url的URL创建节点，作为所述已存在的以referer字段的URL创建的节点的子节点插入到树中。