CN108337259A - 一种基于HTTP请求Host信息的可疑网页识别方法 - Google Patents

一种基于HTTP请求Host信息的可疑网页识别方法 Download PDF

Info

Publication number
CN108337259A
CN108337259A CN201810100102.9A CN201810100102A CN108337259A CN 108337259 A CN108337259 A CN 108337259A CN 201810100102 A CN201810100102 A CN 201810100102A CN 108337259 A CN108337259 A CN 108337259A
Authority
CN
China
Prior art keywords
level domain
webpage
host information
http
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810100102.9A
Other languages
English (en)
Inventor
成卫青
黄�俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201810100102.9A priority Critical patent/CN108337259A/zh
Publication of CN108337259A publication Critical patent/CN108337259A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于HTTP请求Host信息的可疑网页识别方法,包括如下步骤:步骤1)收集所有HTTP请求的Host信息;步骤2)将所有的HTTP请求依据其Host信息中的(二级域名.顶级域名)进行分组,统计各组的HTTP请求数;步骤3)遍历所有的组,看是否存在某组里仅有一个HTTP请求,若不存在,则访问的网页是不可疑的;步骤4)判断组键值(二级域名.顶级域名)是不是著名的,如果是非著名的,访问的网页是可疑的,否则访问的网页是不可疑的。本发明所达到的有益效果:仅通过分析网页访问过程中HTTP请求的Host信息,就可以快速有效识别可疑网页的方法,解决用户在访问网页时关心的网页安全性问题。

Description

一种基于HTTP请求Host信息的可疑网页识别方法
技术领域
本发明涉及一种基于HTTP请求Host信息的可疑网页识别方法,属于网页识别技术领域。
背景技术
随着网络的不断发展,网页越来越复杂。用户使用浏览器每天会访问大量的网页,若访问到的是恶意网页,它可能会窃取用户信息。因此,当访问一个网页时,对这个网页的安全性进行识别就成为非常重要的一项内容。
国内外的学者在网页识别领域已经有大量的研究工作,主要是在恶意网页识别上。恶意网页是一类以钓鱼网站,网页木马为代表的网页。恶意网页会在用户访问时发起攻击,从而对网络安全构成一定的威胁。恶意网页识别问题被定义为一个二分类问题,主要是判断一个网页是否属于恶意网页的结合。恶意网页识别主要使用下面的几类信息特征。
基于URL词汇信息:URL词汇信息依赖于对URL的词汇特征进行提取,主要包括:URL字符串长度,URL中包含的特殊字符的个数,URL中是否包含IP以及是否在黑名单之内等等。与正常网页相比,恶意网页的URL字符串长度更长,包含的特殊字符的个数更多。
基于主机信息:主机信息主要包括域名有效持续期,为域名服务的服务器数量等等。与正常网页相比,恶意网页的域名有效期更短,拥有的域名服务器数量越少。
基于页面内容:页面内容信息主要包括页面中包含的链接数量,image标签数量,script标签数量,embed标签数量等等。与正常网页相比,恶意网页的image标签数量,script标签数量,embed标签数量,链接数量都更多。
很多文献基于上述的部分信息特征,采用分类算法,比如支持向量机算法,朴素贝叶斯算法等等来对网页进行分类,即一个网页是不是恶意网页。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种基于HTTP请求Host信息的可疑网页识别方法,能够用于识别多种恶意网页。
为了实现上述目标,本发明采用如下的技术方案:
一种基于HTTP请求Host信息的可疑网页识别方法,其特征是,包括如下步骤:
步骤1)对用户当前访问的网页,收集所有HTTP请求的Host信息;
步骤2)将所有的HTTP请求依据其Host信息中的(二级域名.顶级域名)进行分组,并统计各组的HTTP请求数;基于Chrome API的扩展程序实现方法是:监听chrome.webRequest中的onBeforeSendHeader事件,在页面加载完成之前,通过它的details属性获得所有HTTP请求相关信息,保存Host的(二级域名.顶级域名),并累计具有该(二级域名.顶级域名)的HTTP请求数;
步骤3)遍历所有的组,看看是否存在某些组里仅有一个HTTP请求,若不存在这样的组,则判定访问的网页是不可疑的,否则转向步骤4);
步骤4)判断组键值(二级域名.顶级域名)是不是著名的,在Alexa排名前2000之内认为是著名的,如果是非著名的,鉴于一个网页一般不会只访问在某(二级域名.顶级域名)域所涉及的多个服务器上的单个网页元素,判定访问的网页是可疑的,否则判定访问的网页是不可疑的。
本发明所达到的有益效果:本发明提出了一种仅通过分析网页访问过程中HTTP请求的Host信息,就可以快速有效识别可疑网页的方法,有效解决了用户在访问网页时关心的网页安全性问题。
附图说明
图1是本发明基于HTTP请求Host信息的可疑网页识别方法的流程图;
图2是本发明基于Chrome API的扩展程序实现的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明设计的一种基于HTTP请求Host信息的可疑网页识别方法,包括如下步骤:
步骤1)对用户当前访问的网页,收集所有HTTP请求的Host信息;
步骤2)将所有的HTTP请求依据其Host信息中的(二级域名.顶级域名)进行分组,并统计各组的HTTP请求数;基于Chrome API的扩展程序实现方法是:监听chrome.webRequest中的onBeforeSendHeader事件,在页面加载完成之前,通过它的details属性获得所有HTTP请求相关信息,保存Host的(二级域名.顶级域名),并累计具有该(二级域名.顶级域名)的HTTP请求数;
步骤3)遍历所有的组,看看是否存在某些组里仅有一个HTTP请求,若不存在这样的组,则判定访问的网页是不可疑的,否则转向步骤4);
步骤4)判断组键值(二级域名.顶级域名)是不是著名的,如果是非著名的,鉴于一个网页一般不会只访问在某(二级域名.顶级域名)域所涉及的多个服务器上的单个网页元素,判定访问的网页是可疑的,否则判定访问的网页是不可疑的。
其中是否著名根据是否在Alexa排名前2000之内,若在Alexa排名前2000之内则判定为著名,否则判定为非著名。判断是否在Alexa排名前2000之内,通过调用Alexa API中的http://data.alexa.com/data?cli=10&url=%YOUR_URL%接口实现,cli=10是固定部分,在URL中传入想查询的域名即可;若接口返回的排名在前2000之内,则认为是著名的,否则认为非著名。
具体地,基于上述方法内容,给出了基于Chrome API的扩展程序实现方案,包含以下步骤:
步骤1)建立manifest.json文件,文件内容为:
主要字段介绍:
background字段:其中,"scripts"指定需要后台运行的脚本。
permissions字段:"tabs"表示允许访问浏览器选项卡。"webRequest"表示拥有对网络请求进行操作的权限。"https://*/*","http://*/*"表示能获取所有的HTTP及HTTPS请求。
步骤2)监听chrome.webRequest中的onBeforeSendHeader事件,在页面加载完成之前,通过它的details属性获得所有HTTP请求相关信息,保存Host的“二级域名.顶级域名”,并累计具有该“二级域名.顶级域名”HTTP请求数。
步骤3)监听页面加载完成事件,即chrome.tabs中的onUpdated事件。然后对上一步保存的HOST分组进行遍历,看是否存在某些组里仅有一个数据,而且不著名(即不在Alexa排名前2000之内)。要是存在这种情况的组,即认为该网页是可疑的。其中,判断是否在Alexa排名前2000之内,通过调用Alexa API中的http://data.alexa.com/data?cli=10&url=%YOUR_URL%接口实现,cli=10是固定部分,只要在URL中传入想查询的域名即可。若接口返回的排名在前2000之内,则认为是著名的,否则认为非著名。
步骤4)若识别出网页是可疑的,弹框提示用户该网页有可疑。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (1)

1.一种基于HTTP请求Host信息的可疑网页识别方法,其特征是,包括如下步骤:
步骤1)对用户当前访问的网页,收集所有HTTP请求的Host信息;
步骤2)将所有的HTTP请求依据其Host信息中的(二级域名.顶级域名)进行分组,并统计各组的HTTP请求数:
采用基于Chrome API的扩展程序实现方法:监听chrome.webRequest中的onBeforeSendHeader事件,在页面加载完成之前,通过它的details属性获得所有HTTP请求相关信息,保存Host的(二级域名.顶级域名),并累计具有该(二级域名.顶级域名)的HTTP请求数;
步骤3)遍历所有的组,看看是否存在某些组里仅有一个HTTP请求,若不存在这样的组,则判定访问的网页是不可疑的,否则转向步骤4);
步骤4)判断组键值(二级域名.顶级域名)是不是著名的,在Alexa排名前2000之内认为是著名的,如果是非著名的,鉴于一个网页一般不会只访问在某(二级域名.顶级域名)域所涉及的多个服务器上的单个网页元素,判定访问的网页是可疑的,否则判定访问的网页是不可疑的。
CN201810100102.9A 2018-02-01 2018-02-01 一种基于HTTP请求Host信息的可疑网页识别方法 Pending CN108337259A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810100102.9A CN108337259A (zh) 2018-02-01 2018-02-01 一种基于HTTP请求Host信息的可疑网页识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810100102.9A CN108337259A (zh) 2018-02-01 2018-02-01 一种基于HTTP请求Host信息的可疑网页识别方法

Publications (1)

Publication Number Publication Date
CN108337259A true CN108337259A (zh) 2018-07-27

Family

ID=62927540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810100102.9A Pending CN108337259A (zh) 2018-02-01 2018-02-01 一种基于HTTP请求Host信息的可疑网页识别方法

Country Status (1)

Country Link
CN (1) CN108337259A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602045A (zh) * 2019-08-13 2019-12-20 南京邮电大学 一种基于特征融合和机器学习的恶意网页识别方法
CN113407880A (zh) * 2021-05-06 2021-09-17 中南大学 一种适用于加密http/2网页的访问行为识别方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737119A (zh) * 2012-05-30 2012-10-17 华为技术有限公司 统一资源定位符的查找方法、过滤方法和相关设备及系统
CN102801709A (zh) * 2012-06-28 2012-11-28 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN102801697A (zh) * 2011-12-20 2012-11-28 北京安天电子设备有限公司 基于多url的恶意代码检测方法和系统
CN103685312A (zh) * 2013-12-26 2014-03-26 北京奇虎科技有限公司 一种检测钓鱼页面的方法及系统、客户端、服务器
CN104580254A (zh) * 2012-06-28 2015-04-29 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN104750704A (zh) * 2013-12-26 2015-07-01 中国移动通信集团河南有限公司 一种网页url地址分类识别方法及装置
CN104820674A (zh) * 2015-04-02 2015-08-05 北京网康科技有限公司 一种网页分类方法及装置
CN105072214A (zh) * 2015-08-28 2015-11-18 携程计算机技术(上海)有限公司 基于域名特征的c&c域名识别方法
CN106101104A (zh) * 2016-06-15 2016-11-09 国家计算机网络与信息安全管理中心 一种基于域名解析的恶意域名检测方法及系统
CN106302515A (zh) * 2016-09-08 2017-01-04 杭州迪普科技有限公司 一种网站安全防护的方法和装置
CN106713312A (zh) * 2016-12-21 2017-05-24 深圳市深信服电子科技有限公司 检测非法域名的方法及装置
US20170295187A1 (en) * 2016-04-06 2017-10-12 Cisco Technology, Inc. Detection of malicious domains using recurring patterns in domain names

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102801697A (zh) * 2011-12-20 2012-11-28 北京安天电子设备有限公司 基于多url的恶意代码检测方法和系统
CN102737119A (zh) * 2012-05-30 2012-10-17 华为技术有限公司 统一资源定位符的查找方法、过滤方法和相关设备及系统
CN102801709A (zh) * 2012-06-28 2012-11-28 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN104580254A (zh) * 2012-06-28 2015-04-29 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN103685312A (zh) * 2013-12-26 2014-03-26 北京奇虎科技有限公司 一种检测钓鱼页面的方法及系统、客户端、服务器
CN104750704A (zh) * 2013-12-26 2015-07-01 中国移动通信集团河南有限公司 一种网页url地址分类识别方法及装置
CN104820674A (zh) * 2015-04-02 2015-08-05 北京网康科技有限公司 一种网页分类方法及装置
CN105072214A (zh) * 2015-08-28 2015-11-18 携程计算机技术(上海)有限公司 基于域名特征的c&c域名识别方法
US20170295187A1 (en) * 2016-04-06 2017-10-12 Cisco Technology, Inc. Detection of malicious domains using recurring patterns in domain names
CN106101104A (zh) * 2016-06-15 2016-11-09 国家计算机网络与信息安全管理中心 一种基于域名解析的恶意域名检测方法及系统
CN106302515A (zh) * 2016-09-08 2017-01-04 杭州迪普科技有限公司 一种网站安全防护的方法和装置
CN106713312A (zh) * 2016-12-21 2017-05-24 深圳市深信服电子科技有限公司 检测非法域名的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110602045A (zh) * 2019-08-13 2019-12-20 南京邮电大学 一种基于特征融合和机器学习的恶意网页识别方法
CN110602045B (zh) * 2019-08-13 2022-03-08 南京邮电大学 一种基于特征融合和机器学习的恶意网页识别方法
CN113407880A (zh) * 2021-05-06 2021-09-17 中南大学 一种适用于加密http/2网页的访问行为识别方法

Similar Documents

Publication Publication Date Title
CN104954372B (zh) 一种钓鱼网站的取证与验证方法及系统
CN103685174B (zh) 一种不依赖样本的钓鱼网站检测方法
CN108777674B (zh) 一种基于多特征融合的钓鱼网站检测方法
CN103023712B (zh) 网页恶意属性监测方法和系统
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN109690547A (zh) 用于检测在线欺诈的系统和方法
CN104125209A (zh) 恶意网址提示方法和路由器
Desai et al. Malicious web content detection using machine leaning
Taylor et al. Detecting malicious exploit kits using tree-based similarity searches
CN101350822A (zh) 一种Internet恶意代码的发现和追踪方法
CN104202291A (zh) 基于多因素综合评定方法的反钓鱼方法
Haruta et al. Visual similarity-based phishing detection scheme using image and CSS with target website finder
CN107800686A (zh) 一种钓鱼网站识别方法和装置
Yearwood et al. Profiling phishing emails based on hyperlink information
US20210409445A1 (en) Machine learning-based sensitive resource collection agent detection
Madhubala et al. Survey on malicious URL detection techniques
CN109344614A (zh) 一种Android恶意应用在线检测方法
CN108337259A (zh) 一种基于HTTP请求Host信息的可疑网页识别方法
Korkmaz et al. A hybrid phishing detection system using deep learning-based URL and content analysis
Yearwood et al. Profiling phishing activity based on hyperlinks extracted from phishing emails
EP3443476B1 (en) Using web search engines to correct domain names used for social engineering
CN105653941A (zh) 一种启发式检测钓鱼网站的方法及系统
CN108183902A (zh) 一种恶意网站的识别方法和装置
McKenna Detection and classification of Web robots with honeypots
CN114124448B (zh) 一种基于机器学习的跨站脚本攻击识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180727

RJ01 Rejection of invention patent application after publication