CN108337259A - 一种基于HTTP请求Host信息的可疑网页识别方法 - Google Patents
一种基于HTTP请求Host信息的可疑网页识别方法 Download PDFInfo
- Publication number
- CN108337259A CN108337259A CN201810100102.9A CN201810100102A CN108337259A CN 108337259 A CN108337259 A CN 108337259A CN 201810100102 A CN201810100102 A CN 201810100102A CN 108337259 A CN108337259 A CN 108337259A
- Authority
- CN
- China
- Prior art keywords
- level domain
- webpage
- host information
- http
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer And Data Communications (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于HTTP请求Host信息的可疑网页识别方法,包括如下步骤:步骤1)收集所有HTTP请求的Host信息;步骤2)将所有的HTTP请求依据其Host信息中的(二级域名.顶级域名)进行分组,统计各组的HTTP请求数;步骤3)遍历所有的组,看是否存在某组里仅有一个HTTP请求,若不存在,则访问的网页是不可疑的;步骤4)判断组键值(二级域名.顶级域名)是不是著名的,如果是非著名的,访问的网页是可疑的,否则访问的网页是不可疑的。本发明所达到的有益效果:仅通过分析网页访问过程中HTTP请求的Host信息,就可以快速有效识别可疑网页的方法,解决用户在访问网页时关心的网页安全性问题。
Description
技术领域
本发明涉及一种基于HTTP请求Host信息的可疑网页识别方法,属于网页识别技术领域。
背景技术
随着网络的不断发展,网页越来越复杂。用户使用浏览器每天会访问大量的网页,若访问到的是恶意网页,它可能会窃取用户信息。因此,当访问一个网页时,对这个网页的安全性进行识别就成为非常重要的一项内容。
国内外的学者在网页识别领域已经有大量的研究工作,主要是在恶意网页识别上。恶意网页是一类以钓鱼网站,网页木马为代表的网页。恶意网页会在用户访问时发起攻击,从而对网络安全构成一定的威胁。恶意网页识别问题被定义为一个二分类问题,主要是判断一个网页是否属于恶意网页的结合。恶意网页识别主要使用下面的几类信息特征。
基于URL词汇信息:URL词汇信息依赖于对URL的词汇特征进行提取,主要包括:URL字符串长度,URL中包含的特殊字符的个数,URL中是否包含IP以及是否在黑名单之内等等。与正常网页相比,恶意网页的URL字符串长度更长,包含的特殊字符的个数更多。
基于主机信息:主机信息主要包括域名有效持续期,为域名服务的服务器数量等等。与正常网页相比,恶意网页的域名有效期更短,拥有的域名服务器数量越少。
基于页面内容:页面内容信息主要包括页面中包含的链接数量,image标签数量,script标签数量,embed标签数量等等。与正常网页相比,恶意网页的image标签数量,script标签数量,embed标签数量,链接数量都更多。
很多文献基于上述的部分信息特征,采用分类算法,比如支持向量机算法,朴素贝叶斯算法等等来对网页进行分类,即一个网页是不是恶意网页。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种基于HTTP请求Host信息的可疑网页识别方法,能够用于识别多种恶意网页。
为了实现上述目标,本发明采用如下的技术方案:
一种基于HTTP请求Host信息的可疑网页识别方法,其特征是,包括如下步骤:
步骤1)对用户当前访问的网页,收集所有HTTP请求的Host信息;
步骤2)将所有的HTTP请求依据其Host信息中的(二级域名.顶级域名)进行分组,并统计各组的HTTP请求数;基于Chrome API的扩展程序实现方法是:监听chrome.webRequest中的onBeforeSendHeader事件,在页面加载完成之前,通过它的details属性获得所有HTTP请求相关信息,保存Host的(二级域名.顶级域名),并累计具有该(二级域名.顶级域名)的HTTP请求数;
步骤3)遍历所有的组,看看是否存在某些组里仅有一个HTTP请求,若不存在这样的组,则判定访问的网页是不可疑的,否则转向步骤4);
步骤4)判断组键值(二级域名.顶级域名)是不是著名的,在Alexa排名前2000之内认为是著名的,如果是非著名的,鉴于一个网页一般不会只访问在某(二级域名.顶级域名)域所涉及的多个服务器上的单个网页元素,判定访问的网页是可疑的,否则判定访问的网页是不可疑的。
本发明所达到的有益效果:本发明提出了一种仅通过分析网页访问过程中HTTP请求的Host信息,就可以快速有效识别可疑网页的方法,有效解决了用户在访问网页时关心的网页安全性问题。
附图说明
图1是本发明基于HTTP请求Host信息的可疑网页识别方法的流程图;
图2是本发明基于Chrome API的扩展程序实现的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明设计的一种基于HTTP请求Host信息的可疑网页识别方法,包括如下步骤:
步骤1)对用户当前访问的网页,收集所有HTTP请求的Host信息;
步骤2)将所有的HTTP请求依据其Host信息中的(二级域名.顶级域名)进行分组,并统计各组的HTTP请求数;基于Chrome API的扩展程序实现方法是:监听chrome.webRequest中的onBeforeSendHeader事件,在页面加载完成之前,通过它的details属性获得所有HTTP请求相关信息,保存Host的(二级域名.顶级域名),并累计具有该(二级域名.顶级域名)的HTTP请求数;
步骤3)遍历所有的组,看看是否存在某些组里仅有一个HTTP请求,若不存在这样的组,则判定访问的网页是不可疑的,否则转向步骤4);
步骤4)判断组键值(二级域名.顶级域名)是不是著名的,如果是非著名的,鉴于一个网页一般不会只访问在某(二级域名.顶级域名)域所涉及的多个服务器上的单个网页元素,判定访问的网页是可疑的,否则判定访问的网页是不可疑的。
其中是否著名根据是否在Alexa排名前2000之内,若在Alexa排名前2000之内则判定为著名,否则判定为非著名。判断是否在Alexa排名前2000之内,通过调用Alexa API中的http://data.alexa.com/data?cli=10&url=%YOUR_URL%接口实现,cli=10是固定部分,在URL中传入想查询的域名即可;若接口返回的排名在前2000之内,则认为是著名的,否则认为非著名。
具体地,基于上述方法内容,给出了基于Chrome API的扩展程序实现方案,包含以下步骤:
步骤1)建立manifest.json文件,文件内容为:
主要字段介绍:
background字段:其中,"scripts"指定需要后台运行的脚本。
permissions字段:"tabs"表示允许访问浏览器选项卡。"webRequest"表示拥有对网络请求进行操作的权限。"https://*/*","http://*/*"表示能获取所有的HTTP及HTTPS请求。
步骤2)监听chrome.webRequest中的onBeforeSendHeader事件,在页面加载完成之前,通过它的details属性获得所有HTTP请求相关信息,保存Host的“二级域名.顶级域名”,并累计具有该“二级域名.顶级域名”HTTP请求数。
步骤3)监听页面加载完成事件,即chrome.tabs中的onUpdated事件。然后对上一步保存的HOST分组进行遍历,看是否存在某些组里仅有一个数据,而且不著名(即不在Alexa排名前2000之内)。要是存在这种情况的组,即认为该网页是可疑的。其中,判断是否在Alexa排名前2000之内,通过调用Alexa API中的http://data.alexa.com/data?cli=10&url=%YOUR_URL%接口实现,cli=10是固定部分,只要在URL中传入想查询的域名即可。若接口返回的排名在前2000之内,则认为是著名的,否则认为非著名。
步骤4)若识别出网页是可疑的,弹框提示用户该网页有可疑。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (1)
1.一种基于HTTP请求Host信息的可疑网页识别方法,其特征是,包括如下步骤:
步骤1)对用户当前访问的网页,收集所有HTTP请求的Host信息;
步骤2)将所有的HTTP请求依据其Host信息中的(二级域名.顶级域名)进行分组,并统计各组的HTTP请求数:
采用基于Chrome API的扩展程序实现方法:监听chrome.webRequest中的onBeforeSendHeader事件,在页面加载完成之前,通过它的details属性获得所有HTTP请求相关信息,保存Host的(二级域名.顶级域名),并累计具有该(二级域名.顶级域名)的HTTP请求数;
步骤3)遍历所有的组,看看是否存在某些组里仅有一个HTTP请求,若不存在这样的组,则判定访问的网页是不可疑的,否则转向步骤4);
步骤4)判断组键值(二级域名.顶级域名)是不是著名的,在Alexa排名前2000之内认为是著名的,如果是非著名的,鉴于一个网页一般不会只访问在某(二级域名.顶级域名)域所涉及的多个服务器上的单个网页元素,判定访问的网页是可疑的,否则判定访问的网页是不可疑的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810100102.9A CN108337259A (zh) | 2018-02-01 | 2018-02-01 | 一种基于HTTP请求Host信息的可疑网页识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810100102.9A CN108337259A (zh) | 2018-02-01 | 2018-02-01 | 一种基于HTTP请求Host信息的可疑网页识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108337259A true CN108337259A (zh) | 2018-07-27 |
Family
ID=62927540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810100102.9A Pending CN108337259A (zh) | 2018-02-01 | 2018-02-01 | 一种基于HTTP请求Host信息的可疑网页识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108337259A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110602045A (zh) * | 2019-08-13 | 2019-12-20 | 南京邮电大学 | 一种基于特征融合和机器学习的恶意网页识别方法 |
CN113407880A (zh) * | 2021-05-06 | 2021-09-17 | 中南大学 | 一种适用于加密http/2网页的访问行为识别方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737119A (zh) * | 2012-05-30 | 2012-10-17 | 华为技术有限公司 | 统一资源定位符的查找方法、过滤方法和相关设备及系统 |
CN102801709A (zh) * | 2012-06-28 | 2012-11-28 | 北京奇虎科技有限公司 | 一种钓鱼网站识别系统及方法 |
CN102801697A (zh) * | 2011-12-20 | 2012-11-28 | 北京安天电子设备有限公司 | 基于多url的恶意代码检测方法和系统 |
CN103685312A (zh) * | 2013-12-26 | 2014-03-26 | 北京奇虎科技有限公司 | 一种检测钓鱼页面的方法及系统、客户端、服务器 |
CN104580254A (zh) * | 2012-06-28 | 2015-04-29 | 北京奇虎科技有限公司 | 一种钓鱼网站识别系统及方法 |
CN104750704A (zh) * | 2013-12-26 | 2015-07-01 | 中国移动通信集团河南有限公司 | 一种网页url地址分类识别方法及装置 |
CN104820674A (zh) * | 2015-04-02 | 2015-08-05 | 北京网康科技有限公司 | 一种网页分类方法及装置 |
CN105072214A (zh) * | 2015-08-28 | 2015-11-18 | 携程计算机技术(上海)有限公司 | 基于域名特征的c&c域名识别方法 |
CN106101104A (zh) * | 2016-06-15 | 2016-11-09 | 国家计算机网络与信息安全管理中心 | 一种基于域名解析的恶意域名检测方法及系统 |
CN106302515A (zh) * | 2016-09-08 | 2017-01-04 | 杭州迪普科技有限公司 | 一种网站安全防护的方法和装置 |
CN106713312A (zh) * | 2016-12-21 | 2017-05-24 | 深圳市深信服电子科技有限公司 | 检测非法域名的方法及装置 |
US20170295187A1 (en) * | 2016-04-06 | 2017-10-12 | Cisco Technology, Inc. | Detection of malicious domains using recurring patterns in domain names |
-
2018
- 2018-02-01 CN CN201810100102.9A patent/CN108337259A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102801697A (zh) * | 2011-12-20 | 2012-11-28 | 北京安天电子设备有限公司 | 基于多url的恶意代码检测方法和系统 |
CN102737119A (zh) * | 2012-05-30 | 2012-10-17 | 华为技术有限公司 | 统一资源定位符的查找方法、过滤方法和相关设备及系统 |
CN102801709A (zh) * | 2012-06-28 | 2012-11-28 | 北京奇虎科技有限公司 | 一种钓鱼网站识别系统及方法 |
CN104580254A (zh) * | 2012-06-28 | 2015-04-29 | 北京奇虎科技有限公司 | 一种钓鱼网站识别系统及方法 |
CN103685312A (zh) * | 2013-12-26 | 2014-03-26 | 北京奇虎科技有限公司 | 一种检测钓鱼页面的方法及系统、客户端、服务器 |
CN104750704A (zh) * | 2013-12-26 | 2015-07-01 | 中国移动通信集团河南有限公司 | 一种网页url地址分类识别方法及装置 |
CN104820674A (zh) * | 2015-04-02 | 2015-08-05 | 北京网康科技有限公司 | 一种网页分类方法及装置 |
CN105072214A (zh) * | 2015-08-28 | 2015-11-18 | 携程计算机技术(上海)有限公司 | 基于域名特征的c&c域名识别方法 |
US20170295187A1 (en) * | 2016-04-06 | 2017-10-12 | Cisco Technology, Inc. | Detection of malicious domains using recurring patterns in domain names |
CN106101104A (zh) * | 2016-06-15 | 2016-11-09 | 国家计算机网络与信息安全管理中心 | 一种基于域名解析的恶意域名检测方法及系统 |
CN106302515A (zh) * | 2016-09-08 | 2017-01-04 | 杭州迪普科技有限公司 | 一种网站安全防护的方法和装置 |
CN106713312A (zh) * | 2016-12-21 | 2017-05-24 | 深圳市深信服电子科技有限公司 | 检测非法域名的方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110602045A (zh) * | 2019-08-13 | 2019-12-20 | 南京邮电大学 | 一种基于特征融合和机器学习的恶意网页识别方法 |
CN110602045B (zh) * | 2019-08-13 | 2022-03-08 | 南京邮电大学 | 一种基于特征融合和机器学习的恶意网页识别方法 |
CN113407880A (zh) * | 2021-05-06 | 2021-09-17 | 中南大学 | 一种适用于加密http/2网页的访问行为识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104954372B (zh) | 一种钓鱼网站的取证与验证方法及系统 | |
CN103685174B (zh) | 一种不依赖样本的钓鱼网站检测方法 | |
CN108777674B (zh) | 一种基于多特征融合的钓鱼网站检测方法 | |
CN103023712B (zh) | 网页恶意属性监测方法和系统 | |
CN103559235B (zh) | 一种在线社交网络恶意网页检测识别方法 | |
CN109690547A (zh) | 用于检测在线欺诈的系统和方法 | |
CN104125209A (zh) | 恶意网址提示方法和路由器 | |
Desai et al. | Malicious web content detection using machine leaning | |
Taylor et al. | Detecting malicious exploit kits using tree-based similarity searches | |
CN101350822A (zh) | 一种Internet恶意代码的发现和追踪方法 | |
CN104202291A (zh) | 基于多因素综合评定方法的反钓鱼方法 | |
Haruta et al. | Visual similarity-based phishing detection scheme using image and CSS with target website finder | |
CN107800686A (zh) | 一种钓鱼网站识别方法和装置 | |
Yearwood et al. | Profiling phishing emails based on hyperlink information | |
US20210409445A1 (en) | Machine learning-based sensitive resource collection agent detection | |
Madhubala et al. | Survey on malicious URL detection techniques | |
CN109344614A (zh) | 一种Android恶意应用在线检测方法 | |
CN108337259A (zh) | 一种基于HTTP请求Host信息的可疑网页识别方法 | |
Korkmaz et al. | A hybrid phishing detection system using deep learning-based URL and content analysis | |
Yearwood et al. | Profiling phishing activity based on hyperlinks extracted from phishing emails | |
EP3443476B1 (en) | Using web search engines to correct domain names used for social engineering | |
CN105653941A (zh) | 一种启发式检测钓鱼网站的方法及系统 | |
CN108183902A (zh) | 一种恶意网站的识别方法和装置 | |
McKenna | Detection and classification of Web robots with honeypots | |
CN114124448B (zh) | 一种基于机器学习的跨站脚本攻击识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180727 |
|
RJ01 | Rejection of invention patent application after publication |