CN111611508A

CN111611508A - 一种用户实际访问网址的识别方法及装置

Info

Publication number: CN111611508A
Application number: CN202010467463.4A
Authority: CN
Inventors: 翟欣虎; 秦益飞; 杨正权
Original assignee: Jiangsu Yianlian Network Technology Co ltd
Current assignee: Jiangsu Yianlian Network Technology Co ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-09-01
Anticipated expiration: 2040-05-28
Also published as: CN111611508B

Abstract

本发明提供了一种用户实际访问网址的识别方法，包括如下步骤：S01、收集服务器上产生的用户日志；S02、按第一特征进行分组；S03、将每一组的用户日志按第二特征进行排序；S04、将已经排好序的每一组用户日志，按第一合并规则合并为若干小组，每一小组内的用户日志归并为该用户一次访问所产生的请求日志；S05、对于已经分好的一次访问产生的若干条请求日志，按第二规则构建多叉树，遍历这些请求日志，构建出一棵或者多棵多叉树；S06、统计上述一棵或者多棵多叉树的叶子节点的数量，选出其中叶子节点最多的树的根节点作为该用户当时实际访问的网站地址；S07、重复上述步骤，即可识别出用户实际访问的网址。该发明具有准确性高、实时性高的优点。

Description

一种用户实际访问网址的识别方法及装置

技术领域

本发明涉及了一种用户实际访问网址的识别方法及装置。

背景技术

随着互联网技术的飞速发展，使用终端接入运营商服务器并访问互联网网站的用户数量快速增长。通常情况下运营商都需要对所接入用户的上网行为进行审计，而该审计需要准确的识别出用户实际的访问网址。通常情况下记录用户访问的网址最准确的设备是用户使用的终端设备的浏览器，但运营商是无法通过简单方法拿到用户使用的终端设备上的数据的，所以最实际可行的方法是通过用户接入运营商服务器后，通过服务器所产生的用户访问日志来进行分析，如图1所示。

但实际中，对于用户使用终端设备上的浏览器访问某个互联网网站的某个页面时，浏览器向网站发出的请求的数量远大于用户在浏览器中输入的或者点击某个链接产生的那一条请求。通常情况下用户访问一个网站页面，浏览器会发出几十乃至上百条数量不等的请求给网站服务器，比如用户实际只打开某个新闻页面，而浏览器实际会额外请求若干张网页上的图片，若干段广告文本，甚至音乐，动画等。对于用户接入的运营商的服务器(网关代理等)，服务器会把每一条请求都记录成一条日志，服务器只是处理记录这些请求，其本身是无法区分出用户实际访问的那个链接请求的。

基于上述情况，运营商在每时每刻产生的海量访问记录面前，对用户上网行为的审计将会产生较大偏差，例如某个用户在一小时内只访问了不到10个页面，但被运营商的网关服务器记录了近1000条请求日志，其中包含了大部分的图片，广告等信息，而这些信息对审计来说并没有什么价值，用户实际访问的网址被掩埋在大多数没有价值的数据中。所以相对准确的识别出用户实际访问的网址将对运营商的用户行为审计产生关键的作用。

从海量访问日志中识别出用户实际访问的网址有一些方法，最常见的是过滤合并方法，例如将访问日志中的URL字段中包含jpeg、mp3、js、css等关键字的日志过滤掉，将剩下的日志中相邻的且URL字段相同的多条日志合并为一条，将这些日志识别为用户实际访问的网址。但是，因为非用户实际访问的网址，也就是浏览器根据网页情况自动发送的请求，这些请求中除了一些可以被简单通过关键字过滤掉的以外，还有很大一部分是和用户实际访问的网址从结构来看没有区别，无法区分。这种情况下通过简单合并的结果会多出大量的误报日志，严重影响后续审计的准确性。

还有一种通过大量数据统计的方法，例如，不断的记录访问网站用户的用户名列表，以及所有被访问的URL的清单，同时也记录两者的对应关系，该方法认为，真正被用户访问的URL的访问频率会相对较低，当数量足够大时，通过计算URL清单中每个URL被访问的频率(一段时间内该URL被访问的次数/所有访问过该URL的用户总数)，通过人工设定一个经验阈值，低于该阈值的URL则判定为用户实际访问的网址。这种方法识别的准确性完全依赖预先统计的数据的数量以及覆盖面，当数据量不够或者覆盖面较小的时候，识别的准确性依然会大幅下降。同时因为需要预先统计数据，识别的实时性也不能保证。

发明内容

为了解决背景技术中所存在的问题，本发明提出了一种用户实际访问网址的识别方法及方法。

一种用户实际访问网址的识别方法，包括如下步骤：

S01、按预设频率/周期收集服务器上产生的用户日志；

S02、将所收集的用户日志按第一特征进行分组；

S03、将每一组的用户日志按第二特征进行排序；

S04、将已经排好序的每一组用户日志，按第一合并规则合并为若干小组，每一小组内的用户日志归并为该用户一次访问所产生的请求日志；

S05、对于已经分好的一次访问产生的若干条请求日志，按第二规则构建多叉树，遍历这些请求日志，构建出一棵或者多棵多叉树；

S06、统计上述一棵或者多棵多叉树的叶子节点的数量，选出其中叶子节点最多的树的根节点作为该用户当时实际访问的网站地址；

S07、重复上述步骤，即可识别出用户实际访问的网址。

基于上述，所述第一特征为用户日志的用户标识字段。

基于上述，所述第二特征为用户日志的访问时间字段；并按访问时间字段的时间先后顺序排序。

基于上述，步骤S04中，所述第一合并规则为，按相邻两条用户日志的访问时间的时间间隔的长短进行合并，即当一定时间间隔内存在大于等于预设阈值的日志条数时，则将这些日志归并为该用户一次访问所产生的请求日志。

基于上述，所述第二规则为，按URL和Referer字段构建多叉树，其中将URL字段的内容作为子节点，Referer字段的内容作为父节点。

基于上述，步骤S04中，所采用的归并方法为无监督聚类方法中的基于层次聚类的ROCK，基于密度聚类的Dbscan，基于神经网络聚类的SOM，或基于统计学聚类的COBWeb。

一种用户实际访问网址的识别装置，包括通信接口、处理器、存储设备及存储在所述存储设备上并可在处理器上运行的计算机程序，通信接口用于通信连接服务器，所述处理器执行所述计算机程序时实现权利要求1至6中任一项用户实际访问网址的识别方法。

本发明相对现有技术具有突出的实质性特点和显著的进步，具体的说，本发明通过对访问日志中的访问时间以无监督聚类的方法划分出用户每一次访问网址时产生的一批请求，通过URL和Referer构建多叉树的方式从划分出的一批请求中识别出用户实际访问的网址，采用了从时间和内容两个维度组合识别的方式，相比于简单的通过关键字过滤的方法，以及准确性完全依赖于预先分析好的数据的数量以及覆盖面的方法相比，本方法识别的准确性有大幅提高。同时，本发明所描述的方法只需要采集一小段时间的访问日志即可立即做出判断，并不需要预先采集分析大量日志作为样本，识别的实时性也有大幅提高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明现有审计方式的结构示意框图。

图2是本发明的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

当一个用户使用浏览器访问某个互联网网站时，该用户每一次访问操作(例如在浏览器地址栏输入网站地址，或者点击了某个网站上的某个链接)都会被为其服务的网络服务运营商(例如中国电信)的网关服务器处理并记录下来，通常情况下每一次访问操作都会包含数量不等的若干条请求，每一个请求都会被至少包含如下字段的日志所记录下来，一个典型的请求日志至少包含如下字段：

上表中举例的请求表示为：该请求是在北京时间2020/3/30 18:00:54.963(对应的时间戳为1585562454.963)由一个用户所使用的客户端设备(该设备当前所对应的IP地址为192.168.101.245)发往百度(域名：https://www.ba idu.com/)，该请求具体的URL地址为https://www.baidu.com/img/bd_logo1.png，并且该请求是该用户访问了百度主页(Referer：https://www.baidu.com/)后由浏览器根据页面情况自动发出的。

通常情况下，网关服务器每时每刻都会收到从不同用户设备发往不同互联网网站的海量请求，网关服务器将这些请求生成的日志通过通信接口发往本发明所述的装置，本装置收到这些日志后，并按图2所示的流程进行处理。

步骤①，首先定期收集由运营商服务器所产生的上述用户访问日志。本实施例中将收集周期定为1分钟。

步骤②，将收到的日志按用户标识字段进行分组，即每一组内的日志都包含相同的用户标识。

步骤③，将每一组的日志按访问时间字段的先后顺序重新排序。

步骤④，将已经排好序的每一组日志按相邻两条日志的访问时间的时间间隔的长短进行合并，当一小段时间间隔内存在大于等于设定阈值的日志条数时，则将这些日志归并为该用户一次访问所产生的请求日志，所采用的归并方法可以有多种，例如可以采用无监督聚类方法中的基于层次聚类的ROCK，基于密度聚类的Dbscan，基于神经网络聚类的SOM，基于统计学聚类的COBWeb等。实际中，时间间隔和阈值的设置，根据网络实际情况进行设置。本实施例中，时间间隔为0.5秒，阈值为10条。也就是说在0.5秒内有至少10条日志，并且这至少10条日志最早的那条和最晚的那条的时间间隔不超过0.5秒，则分为一组。如果在这0.5秒内，最早和最晚的日志时间间隔在满足小于0.5秒的情况下达不到10条，比如只有8条，则将这8条日志作为噪声，不属于任何一组；或者，将噪声归并到后一组。

步骤⑤，对于已经分好的一次访问产生的若干条日志按URL和Referer字段构建多叉树，其中将URL字段的内容作为子节点，Referer字段的内容作为父节点，如此遍历这些日志，将构建出1棵或者多棵多叉树。

步骤⑥，统计上述1棵或者多棵多叉树的叶子节点的数量，选出其中叶子节点最多的树的根节点作为该用户当时实际访问的网站地址。

如此重复上述步骤，即可识别出用户实际访问的网址。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种用户实际访问网址的识别方法，其特征在于，包括如下步骤：

S01、按预设频率/周期收集服务器上产生的用户日志；

S02、将所收集的用户日志按第一特征进行分组；

S03、将每一组的用户日志按第二特征进行排序；

S07、重复上述步骤，即可识别出用户实际访问的网址。

2.根据权利要求1所述的用户实际访问网址的识别方法，其特征在于：所述第一特征为用户日志的用户标识字段。

3.根据权利要求1所述的用户实际访问网址的识别方法，其特征在于：所述第二特征为用户日志的访问时间字段；并按访问时间字段的时间先后顺序排序。

4.根据权利要求1所述的用户实际访问网址的识别方法，其特征在于：步骤S04中，所述第一合并规则为，按相邻两条用户日志的访问时间的时间间隔的长短进行合并，即当一定时间间隔内存在大于等于预设阈值的日志条数时，则将这些日志归并为该用户一次访问所产生的请求日志。

5.根据权利要求1所述的用户实际访问网址的识别方法，其特征在于：所述第二规则为，按URL和Referer字段构建多叉树，其中将URL字段的内容作为子节点，Referer字段的内容作为父节点。

6.根据权利要求1所述的用户实际访问网址的识别方法，其特征在于：步骤S04中，所采用的归并方法为无监督聚类方法中的基于层次聚类的ROCK，基于密度聚类的Dbscan，基于神经网络聚类的SOM，或基于统计学聚类的COBWeb。

7.一种用户实际访问网址的识别装置，包括通信接口、处理器、存储设备及存储在所述存储设备上并可在处理器上运行的计算机程序，通信接口用于通信连接服务器，其特征在于：所述处理器执行所述计算机程序时实现权利要求1至6中任一项用户实际访问网址的识别方法。