CN108337259A

CN108337259A - 一种基于HTTP请求Host信息的可疑网页识别方法

Info

Publication number: CN108337259A
Application number: CN201810100102.9A
Authority: CN
Inventors: 成卫青; 黄�俊
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2018-07-27

Abstract

本发明公开了一种基于HTTP请求Host信息的可疑网页识别方法，包括如下步骤：步骤1)收集所有HTTP请求的Host信息；步骤2)将所有的HTTP请求依据其Host信息中的(二级域名.顶级域名)进行分组，统计各组的HTTP请求数；步骤3)遍历所有的组，看是否存在某组里仅有一个HTTP请求，若不存在，则访问的网页是不可疑的；步骤4)判断组键值(二级域名.顶级域名)是不是著名的，如果是非著名的，访问的网页是可疑的，否则访问的网页是不可疑的。本发明所达到的有益效果：仅通过分析网页访问过程中HTTP请求的Host信息，就可以快速有效识别可疑网页的方法，解决用户在访问网页时关心的网页安全性问题。

Description

一种基于HTTP请求Host信息的可疑网页识别方法

技术领域

本发明涉及一种基于HTTP请求Host信息的可疑网页识别方法，属于网页识别技术领域。

背景技术

随着网络的不断发展，网页越来越复杂。用户使用浏览器每天会访问大量的网页，若访问到的是恶意网页，它可能会窃取用户信息。因此，当访问一个网页时，对这个网页的安全性进行识别就成为非常重要的一项内容。

国内外的学者在网页识别领域已经有大量的研究工作，主要是在恶意网页识别上。恶意网页是一类以钓鱼网站，网页木马为代表的网页。恶意网页会在用户访问时发起攻击，从而对网络安全构成一定的威胁。恶意网页识别问题被定义为一个二分类问题，主要是判断一个网页是否属于恶意网页的结合。恶意网页识别主要使用下面的几类信息特征。

基于URL词汇信息：URL词汇信息依赖于对URL的词汇特征进行提取，主要包括：URL字符串长度，URL中包含的特殊字符的个数，URL中是否包含IP以及是否在黑名单之内等等。与正常网页相比，恶意网页的URL字符串长度更长，包含的特殊字符的个数更多。

基于主机信息：主机信息主要包括域名有效持续期，为域名服务的服务器数量等等。与正常网页相比，恶意网页的域名有效期更短，拥有的域名服务器数量越少。

基于页面内容：页面内容信息主要包括页面中包含的链接数量，image标签数量，script标签数量，embed标签数量等等。与正常网页相比，恶意网页的image标签数量，script标签数量，embed标签数量，链接数量都更多。

很多文献基于上述的部分信息特征，采用分类算法，比如支持向量机算法，朴素贝叶斯算法等等来对网页进行分类，即一个网页是不是恶意网页。

发明内容

为解决现有技术的不足，本发明的目的在于提供一种基于HTTP请求Host信息的可疑网页识别方法，能够用于识别多种恶意网页。

为了实现上述目标，本发明采用如下的技术方案：

一种基于HTTP请求Host信息的可疑网页识别方法，其特征是，包括如下步骤：

步骤1)对用户当前访问的网页，收集所有HTTP请求的Host信息；

步骤2)将所有的HTTP请求依据其Host信息中的(二级域名.顶级域名)进行分组，并统计各组的HTTP请求数；基于Chrome API的扩展程序实现方法是：监听chrome.webRequest中的onBeforeSendHeader事件，在页面加载完成之前，通过它的details属性获得所有HTTP请求相关信息，保存Host的(二级域名.顶级域名)，并累计具有该(二级域名.顶级域名)的HTTP请求数；

步骤3)遍历所有的组，看看是否存在某些组里仅有一个HTTP请求，若不存在这样的组，则判定访问的网页是不可疑的，否则转向步骤4)；

步骤4)判断组键值(二级域名.顶级域名)是不是著名的，在Alexa排名前2000之内认为是著名的，如果是非著名的，鉴于一个网页一般不会只访问在某(二级域名.顶级域名)域所涉及的多个服务器上的单个网页元素，判定访问的网页是可疑的，否则判定访问的网页是不可疑的。

本发明所达到的有益效果：本发明提出了一种仅通过分析网页访问过程中HTTP请求的Host信息，就可以快速有效识别可疑网页的方法，有效解决了用户在访问网页时关心的网页安全性问题。

附图说明

图1是本发明基于HTTP请求Host信息的可疑网页识别方法的流程图；

图2是本发明基于Chrome API的扩展程序实现的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明设计的一种基于HTTP请求Host信息的可疑网页识别方法，包括如下步骤：

步骤1)对用户当前访问的网页，收集所有HTTP请求的Host信息；

步骤4)判断组键值(二级域名.顶级域名)是不是著名的，如果是非著名的，鉴于一个网页一般不会只访问在某(二级域名.顶级域名)域所涉及的多个服务器上的单个网页元素，判定访问的网页是可疑的，否则判定访问的网页是不可疑的。

其中是否著名根据是否在Alexa排名前2000之内，若在Alexa排名前2000之内则判定为著名，否则判定为非著名。判断是否在Alexa排名前2000之内，通过调用Alexa API中的http://data.alexa.com/data？cli＝10&url＝％YOUR_URL％接口实现，cli＝10是固定部分，在URL中传入想查询的域名即可；若接口返回的排名在前2000之内，则认为是著名的，否则认为非著名。

具体地，基于上述方法内容，给出了基于Chrome API的扩展程序实现方案，包含以下步骤：

步骤1)建立manifest.json文件，文件内容为:

主要字段介绍：

background字段：其中，"scripts"指定需要后台运行的脚本。

permissions字段："tabs"表示允许访问浏览器选项卡。"webRequest"表示拥有对网络请求进行操作的权限。"https://*/*"，"http://*/*"表示能获取所有的HTTP及HTTPS请求。

步骤2)监听chrome.webRequest中的onBeforeSendHeader事件，在页面加载完成之前，通过它的details属性获得所有HTTP请求相关信息，保存Host的“二级域名.顶级域名”，并累计具有该“二级域名.顶级域名”HTTP请求数。

步骤3)监听页面加载完成事件，即chrome.tabs中的onUpdated事件。然后对上一步保存的HOST分组进行遍历，看是否存在某些组里仅有一个数据，而且不著名(即不在Alexa排名前2000之内)。要是存在这种情况的组，即认为该网页是可疑的。其中，判断是否在Alexa排名前2000之内，通过调用Alexa API中的http://data.alexa.com/data？cli＝10&url＝％YOUR_URL％接口实现，cli＝10是固定部分，只要在URL中传入想查询的域名即可。若接口返回的排名在前2000之内，则认为是著名的，否则认为非著名。

步骤4)若识别出网页是可疑的，弹框提示用户该网页有可疑。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于HTTP请求Host信息的可疑网页识别方法，其特征是，包括如下步骤：

步骤1)对用户当前访问的网页，收集所有HTTP请求的Host信息；

步骤2)将所有的HTTP请求依据其Host信息中的(二级域名.顶级域名)进行分组，并统计各组的HTTP请求数：

采用基于Chrome API的扩展程序实现方法：监听chrome.webRequest中的onBeforeSendHeader事件，在页面加载完成之前，通过它的details属性获得所有HTTP请求相关信息，保存Host的(二级域名.顶级域名)，并累计具有该(二级域名.顶级域名)的HTTP请求数；