CN105205134A

CN105205134A - 识别用户点击访问网站行为的方法及装置

Info

Publication number: CN105205134A
Application number: CN201510589005.7A
Authority: CN
Inventors: 郭翔宇
Original assignee: Sangfor Network Technology Shenzhen Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2015-09-15
Filing date: 2015-09-15
Publication date: 2015-12-30
Anticipated expiration: 2035-09-15
Also published as: CN105205134B

Abstract

本发明公开了一种识别用户点击访问网站行为的方法，包括以下步骤：利用浏览器的扩展程序在所述浏览器中模拟用户点击访问预设常用URL，并记录访问所述预设常用URL的行为中产生的所有请求URL；从所有请求URL中滤除模拟用户点击访问的预设常用URL，将剩余的URL加入非用户访问URL名单；基于所述非用户访问URL名单对用户点击访问网站行为进行识别。本发明还公开了一种识别用户点击访问网站行为的装置。本发明对用户点击访问网站行为进行识别的成本较低，且识别更加精确。

Description

识别用户点击访问网站行为的方法及装置

技术领域

本发明涉及网络技术领域，尤其涉及一种识别用户点击访问网站行为的方法及装置。

背景技术

近年来，HTTP协议在网络应用中的占比逐步提升，一方面，越来越多的客户端应用也都采用HTTP协议进行数据交互；另一方面，前端技术与浏览器性能的提升，使得用户浏览的网页不再停留在单调的文字基本页面上，而转向丰富的复合式页面。这就导致了用户正常访问页面的请求被淹没在海量的噪音数据中，对后续的用户行为监测与分析带来很大的困扰，导致行为分析产生偏差。因此，需要对用户点击浏览器时的用户行为和浏览器、软件等产生的非用户行为进行识别、区分。

现有技术中大多根据人为经验给出前缀、后缀黑名单，再由黑名单将网络请求中非人为访问的部分滤除，从而识别出用户的访问行为，但靠人为经验得到的黑名单存在局限于少部分站点导致范围较小、需专人专员投入导致成本较高、更新较慢等缺点，无法适应当今互联网千变万化的节奏。此外，现有技术中也可利用爬虫技术进行页面解析后得出前缀、后缀黑名单，但利用爬虫技术来获取前缀、后缀黑名单存在页面解析不完整、覆盖站点针对性不强的问题，对用户的访问行为识别不够精确。

因此，现有的识别用户点击访问网站行为的方法成本高，且识别不够准确。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种识别用户点击访问网站行为的方法及装置，旨在低成本的精确识别用户点击访问网站行为。

为实现上述目的，本发明提供的一种识别用户点击访问网站行为的方法，所述方法包括以下步骤：

利用浏览器的扩展程序在所述浏览器中模拟用户点击访问预设常用URL，并记录访问所述预设常用URL的行为中产生的所有请求URL；

从所有请求URL中滤除模拟用户点击访问的预设常用URL，将剩余的URL加入非用户访问URL名单；

基于所述非用户访问URL名单对用户点击访问网站行为进行识别。

优选地，所述浏览器为谷歌浏览器或IE浏览器，所述扩展程序为chrome扩展程序或IE浏览器扩展程序。

优选地，所述预设常用URL为预设常用站点中预置的所有可访问URL。

优选地，对不同预设常用站点的非用户访问URL根据预设的聚合算法进行聚合处理，并将聚合后的非用户访问URL加入所述非用户访问URL名单。

优选地，所述对不同预设常用站点的非用户访问URL根据预设的聚合算法进行聚合处理，并将聚合后的非用户访问URL加入所述非用户访问URL名单的步骤包括：

利用网络爬虫获取第一预设常用站点中预置的可访问URL，并根据所述可访问URL生成第一前缀树；生成访问第二预设常用站点的访问集合；

利用浏览器的扩展程序获取访问第二预设常用站点时的访问集合中与所述可访问URL相关的URL，并生成第二前缀树；

遍历所述第一前缀树与第二前缀树，判断所述第二前缀树上的URL与所述第一前缀树上的URL是否有公共前缀；若没有，则将所述第二前缀树上该URL之后的所有分支进行聚合处理，并将聚合后的URL加入所述非用户访问URL名单；若有，则不将所述第二前缀树上的该URL加入所述非用户访问URL名单。

此外，为实现上述目的，本发明还提供一种识别用户点击访问网站行为的装置，所述识别用户点击访问网站行为的装置包括：

访问记录模块，用于利用浏览器的扩展程序在所述浏览器中模拟用户点击访问预设常用URL，并记录访问所述预设常用URL的行为中产生的所有请求URL；

滤除模块，用于从所有请求URL中滤除模拟用户点击访问的预设常用URL，将剩余的URL加入非用户访问URL名单；

识别模块，用于基于所述非用户访问URL名单对用户点击访问网站行为进行识别。

优选地，所述识别用户点击访问网站行为的装置还包括：

聚合模块，用于对不同预设常用站点的非用户访问URL根据预设的聚合算法进行聚合处理，并将聚合后的非用户访问URL加入所述非用户访问URL名单。

优选地，所述聚合模块还用于：

本发明提出的一种识别用户点击访问网站行为的方法及装置，利用浏览器的扩展程序在所述浏览器中模拟用户点击访问预设常用URL，并在访问所述预设常用URL的行为中产生的所有请求URL中滤除所述预设常用URL，将剩余的URL加入非用户访问URL名单，基于该非用户访问URL名单对用户点击访问网站行为进行识别。由于是通过浏览器的扩展程序来自动模拟用户在所述浏览器中的点击访问网站行为，因此经过采集、过滤最终获取非用户访问URL名单及基于该非用户访问URL名单对用户点击访问网站行为进行识别的成本较低，且识别更加精确。

附图说明

图1为本发明识别用户点击访问网站行为的方法第一实施例的流程示意图；

图2为本发明识别用户点击访问网站行为的方法第二实施例的流程示意图；

图3为本发明识别用户点击访问网站行为的装置第一实施例的功能模块示意图；

图4为本发明识别用户点击访问网站行为的装置第二实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种识别用户点击访问网站行为的方法。

参照图1，图1为本发明识别用户点击访问网站行为的方法第一实施例的流程示意图。

在第一实施例中，该识别用户点击访问网站行为的方法包括：

步骤S10，利用浏览器的扩展程序在所述浏览器中模拟用户点击访问预设常用URL，并记录访问所述预设常用URL的行为中产生的所有请求URL；

统一资源定位符(UniformResourceLocator，URL)也被称为网页地址，是因特网(Internet)上标准的资源的地址。用户设备访问Internet通常是通过超文本传输协议(HyperTextTransferProtocol，HTTP)访问URL来实现的。用户设备发起的URL可分为用户主动发起的URL和用户设备自动发起的URL。用户主动发起的URL即为用户在浏览器上点击访问网站行为时主动点击访问的URL。由于用户常用的站点如腾讯、凤凰等站点一般占据了用户在浏览器上点击访问网站行为时的绝大部分流量，而用户常用的站点如腾讯、凤凰等站点上既包含了许多用户常用点击的URL，也会在访问时带来许多非用户主动发起的URL带来的流量。因此，对用户访问常用的站点上的URL带来的数据流量进行分析可代表用户的绝大多数访问网站行为。

本实施例中，利用浏览器的扩展程序在所述浏览器中模拟用户点击访问预设常用URL，其中，该浏览器可以是谷歌浏览器、IE浏览器、火狐浏览器等，浏览器的扩展程序是相应浏览器提供的一种扩展程序，通过该扩展程序可以与浏览器进行交互，进行如模拟用户的点击行为等操作，如当浏览器是谷歌浏览器时，该扩展程序为chrome扩展程序，当然，也不限定为其他类型的浏览器及扩展程序。所述预设常用URL为预设常用站点中预置的所有可访问URL，该预设常用站点可以是每个用户设备上针对每个用户自身点击访问网站行为中的常用站点，也可以是根据多个用户设备上多个用户点击访问网站行为进行综合采集得到的常用站点，如可设定该常用站点为用户访问频率最高的前200个站点。每个站点中均预置有可访问URL，如腾讯站点上会预置多个URL，供用户点击访问。利用浏览器的扩展程序在所述浏览器中模拟用户点击访问预设常用站点中的可访问URL即预设常用URL，由于用户在点击访问预设常用站点中的可访问URL时，用户设备除了访问用户主动点击的URL，也会访问许多非用户主动发起的URL，因此，记录在利用浏览器的扩展程序模拟用户点击访问所述预设常用URL的行为中产生的所有请求URL。

本实施例中，利用浏览器的扩展程序在所述浏览器中模拟用户点击访问预设常用URL，由于预设常用URL为预设常用站点中预置的所有可访问URL，能覆盖用户常用的绝大部分URL，且利用浏览器的扩展程序模拟用户的点击行为来记录包含用户主动点击和非用户主动点击的所有请求URL，相比于网络爬虫爬取数据流量，本实施例成本更低，获取数据流量更加快速、精确。

步骤S20，从所有请求URL中滤除模拟用户点击访问的预设常用URL，将剩余的URL加入非用户访问URL名单；

由于记录的所有请求URL中包含用户主动点击的URL即预设常用URL，因此，从所有请求URL中滤除所述预设常用URL，剩余的URL即为用户点击访问网站行为中非用户主动点击的请求URL，如各种广告等，将剩余的URL加入非用户访问URL名单，在非用户访问URL名单中将各种用户在访问目的URL时带来的许多非用户主动发起的URL进行汇总。

步骤S30，基于所述非用户访问URL名单对用户点击访问网站行为进行识别。

由于所述非用户访问URL名单中包含了各种非用户主动发起的URL信息，因此，在后续操作中可基于所述非用户访问URL名单对访问网站的请求URL进行分析、识别，如若访问网站的请求URL与所述非用户访问URL名单中的URL相似度超过预设阈值，则识别该请求URL为非用户主动发起的URL；若访问网站的请求URL与所述非用户访问URL名单中的URL相似度低于预设阈值，则识别该请求URL为用户主动发起的URL，即识别为用户主动点击访问网站的行为。

本实施例利用浏览器的扩展程序在所述浏览器中模拟用户点击访问预设常用URL，并在访问所述预设常用URL的行为中产生的所有请求URL中滤除所述预设常用URL，将剩余的URL加入非用户访问URL名单，基于该非用户访问URL名单对用户点击访问网站行为进行识别。由于是通过浏览器的扩展程序来自动模拟用户在所述浏览器中的点击访问网站行为，因此经过采集、过滤最终获取非用户访问URL名单及基于该非用户访问URL名单对用户点击访问网站行为进行识别的成本较低，且识别更加精确。

如图2所示，本发明第二实施例提出一种识别用户点击访问网站行为的方法，在上述第一实施例的基础上，在上述步骤S30之前还包括：

步骤S40，对不同预设常用站点的非用户访问URL根据预设的聚合算法进行聚合处理，并将聚合后的非用户访问URL加入所述非用户访问URL名单。

本实施例中在从所有请求URL中滤除所述预设常用URL并将剩余的URL加入非用户访问URL名单后，还可对所述非用户访问URL名单中的非用户访问URL进行提纯等操作，以精简所述非用户访问URL名单中的非用户访问URL数量。进一步地，为了保证后续基于所述非用户访问URL名单对用户点击访问网站行为进行识别的精确性，还可对不同预设常用站点的非用户访问URL根据预设的聚合算法进行聚合处理，并将聚合后的非用户访问URL加入所述非用户访问URL名单。

具体的，所述预设常用URL为预设常用站点中预置的所有可访问URL，针对不同常用站点中的非用户访问URL可判断是否相似，并可对不同常用站点中相似的非用户访问URL进行聚合处理，以提高所述非用户访问URL名单中非用户访问URL的甄别效果。如可利用网络爬虫获取第一预设常用站点中预置的可访问URL，并根据所述可访问URL生成第一前缀树；利用浏览器的扩展程序获取访问第二预设常用站点时的访问集合中与所述可访问URL相关的URL，并生成第二前缀树；遍历所述第一前缀树与第二前缀树，判断所述第二前缀树上的URL与所述第一前缀树上的URL是否有公共前缀；若没有，则将所述第二前缀树上该URL之后的所有分支进行聚合处理，并将聚合后的URL加入所述非用户访问URL名单；若有，则不将所述第二前缀树上的该URL加入所述非用户访问URL名单。

例如，设定第一预设常用站点为站点A，第二预设常用站点为站点B，则聚合过程如下：对于站点A，可以通过网络爬虫生成一张该站点A的可访问URL地图：GA。将GA中的所有URL生成一棵前缀树：TA。对于站点B，访问站点B的部分URL后，若产生的访问集合中带有站点A的链接，则生成另一棵前缀树：TUA。同时遍历两棵树，找公共前缀，若TUA上的点在TA上找不到公共前缀，则TUA当前点之后的所有分支都可以聚合，并将聚合后的URL加入所述非用户访问URL名单；且所述非用户访问URL名单也不会将A站点的链接误识别为非用户主动发起的URL。

进一步地，在对不同预设常用站点的非用户访问URL进行聚合处理过程中，若不同预设常用站点之间出现了相同的非用户访问URL，则将相同的非用户访问URL加入黑名单，在后续操作中若访问网站的请求URL与该黑名单中的URL相同，则识别该请求URL为非用户主动发起的URL。

进一步地，还可对聚合后形成的所述非用户访问URL名单进行校验，如可根据用户点击访问预设常用URL的行为进行校验，基于所述非用户访问URL名单对用户点击访问预设常用URL的行为中的非用户访问URL进行识别、拦截后，若识别记录的用户主动点击的URL与所述预设常用URL完全一致，则说明基于所述非用户访问URL名单对用户点击访问网站行为进行识别的准确度非常高，不会有误判的情况发生。

本实施例中对不同预设常用站点的非用户访问URL根据预设的聚合算法进行聚合处理，并将聚合后的非用户访问URL加入所述非用户访问URL名单后，所述非用户访问URL名单中的非用户访问URL更能体现非用户主动发起的URL的特征，通过该非用户访问URL来识别非用户主动发起的URL能有效的减少漏判的情况发生，提升了基于所述非用户访问URL名单对用户点击访问网站行为进行识别的准确度。

本发明进一步提供一种识别用户点击访问网站行为的装置。

参照图3，图3为本发明识别用户点击访问网站行为的装置第一实施例的功能模块示意图。

在第一实施例中，该识别用户点击访问网站行为的装置包括：

访问记录模块01，用于利用浏览器的扩展程序在所述浏览器中模拟用户点击访问预设常用URL，并记录访问所述预设常用URL的行为中产生的所有请求URL；

滤除模块02，用于从所有请求URL中滤除模拟用户点击访问的预设常用URL，将剩余的URL加入非用户访问URL名单；

识别模块03，用于基于所述非用户访问URL名单对用户点击访问网站行为进行识别。

如图4所示，本发明第二实施例提出一种识别用户点击访问网站行为的装置，在上述第一实施例的基础上，还包括：

聚合模块04，用于对不同预设常用站点的非用户访问URL根据预设的聚合算法进行聚合处理，并将聚合后的非用户访问URL加入所述非用户访问URL名单。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种识别用户点击访问网站行为的方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的识别用户点击访问网站行为的方法，其特征在于，所述浏览器为谷歌浏览器或IE浏览器，所述扩展程序为chrome扩展程序或IE浏览器扩展程序。

3.如权利要求1或2所述的识别用户点击访问网站行为的方法，其特征在于，所述预设常用URL为预设常用站点中预置的所有可访问URL。

4.如权利要求3所述的识别用户点击访问网站行为的方法，其特征在于，所述基于所述非用户访问URL名单对用户点击访问网站行为进行识别的步骤之前还包括：

对不同预设常用站点的非用户访问URL根据预设的聚合算法进行聚合处理，并将聚合后的非用户访问URL加入所述非用户访问URL名单。

5.如权利要求4所述的识别用户点击访问网站行为的方法，其特征在于，所述对不同预设常用站点的非用户访问URL根据预设的聚合算法进行聚合处理，并将聚合后的非用户访问URL加入所述非用户访问URL名单的步骤包括：

6.一种识别用户点击访问网站行为的装置，其特征在于，所述装置包括：

7.如权利要求6所述的识别用户点击访问网站行为的装置，其特征在于，所述浏览器为谷歌浏览器或IE浏览器，所述扩展程序为chrome扩展程序或IE浏览器扩展程序。

8.如权利要求6或7所述的识别用户点击访问网站行为的装置，其特征在于，所述预设常用URL为预设常用站点中预置的所有可访问URL。

9.如权利要求8所述的识别用户点击访问网站行为的装置，其特征在于，还包括：

10.如权利要求9所述的识别用户点击访问网站行为的装置，其特征在于，所述聚合模块具体用于：