CN108683649A - 一种基于文本特征的恶意域名检测方法 - Google Patents

一种基于文本特征的恶意域名检测方法 Download PDF

Info

Publication number
CN108683649A
CN108683649A CN201810408457.4A CN201810408457A CN108683649A CN 108683649 A CN108683649 A CN 108683649A CN 201810408457 A CN201810408457 A CN 201810408457A CN 108683649 A CN108683649 A CN 108683649A
Authority
CN
China
Prior art keywords
domain name
malice
malice domain
text
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810408457.4A
Other languages
English (en)
Inventor
黄诚
方勇
刘亮
龙啸
韩圣君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201810408457.4A priority Critical patent/CN108683649A/zh
Publication of CN108683649A publication Critical patent/CN108683649A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种基于文本特征的恶意域名检测方法,该发明由上下文特征提取,恶意域名检测算法两部分构成。其中上下文特征提取包括URL提取器,黑名单标记模块和白名单过滤模块,URL提取器对文本中的恶意域名进行检测,采用正则算法来自动提取安全文章中的恶意域名;黑名单标记模块通过扩展的安全识别方法进行域名安全性标记;白名单过滤模块通过白名单机制移除被误报的域名。恶意域名检测算法使用随机森林分类算法进行分类模型构建。本发明采用双向机制提高了域名自动化识别的准确性,具有很强的实用性。

Description

一种基于文本特征的恶意域名检测方法
技术领域
本发明涉及一种文本挖掘技术,尤其涉及一种恶意域名提取检测技术。
背景技术
近年来随着企业各种核心业务逐渐融合互联网,越来越多的组织或者公司都遭受到了各种黑客攻击,各种APT(Advanced Persistent Threat)攻击事件层出不穷。为了适应快速变化的网络犯罪技术,安全公司或相关机构也不断发现并溯源重大安全攻击事件,通过不同的渠道(博客、论坛、微博、专业报告等)来披露各种攻击技术细节及恶意域名等信息。这些已公开的攻击分析报告一般采用英文进行书写,其内容主要从攻击事件的目标、攻击者使用的恶意域名、IP地址、恶意工具等进行描述分析。内容中的恶意域名或者IP地址也有可能被黑客用于其它攻击中,为了检测并阻断这些潜在的黑客攻击行为,安全公司往往会将这些恶意域名进行整理并加入防火墙或者杀毒软件的黑名单列表。
目前从文本中提取恶意域名的技术主要还是基于正则表达式和白名单技术,这种技术存在很大的误报率,即没有在白名单列表中的域名不一定就是恶意域名。因此,如何从海量技术文本中自动提取恶意域名在网络攻击检测与防御方面具有重要的作用。
针对恶意域名检测技术主要解决的难题在于:
(1)如何识别安全人员为了防止用户点击,采用不同书写方式的域名。
(2)如何对提取的域名进行安全性判定。
(3)如何降低传统黑名单标记服务的误报率,从而提高恶意域名检测的准确率。
本发明重点对于以上三个问题进行解决,实现一种基于文本特征的恶意域名检测方法。
发明内容
本发明是一种基于文本特征的恶意域名检测方法,通过URL提取器,黑名单标记和白名单过滤技术对文本中的恶意域名进行检测,采用机器分类算法来自动提取安全文章中的恶意域名。
发明内容包括以下方面:
(1)对预处理后的文本数据进行URL提取器去匹配文本中所有的网址。可选的,使用python正则表达式”'(?i)\b((?:(hxxps?|https?|ftps?)://|www\d{0,3}[.]|[az0-9.\-]+[.][az]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'".,<>?]))”'对文本中的URL进行提取。
(2)对提取的网址通过黑名单标记去标注恶意域名。可选的,通过在线域名检测平台对提取的URL进行安全性标记。
(3)对标注后的文本数据通过白名单过滤技术去除黑名单标记服务中的误报。可选的,使用Alexa排名对黑名单中误判的网址进行剔除。
(4)使用基于随机森林算法的机器分类模型对文本中的恶意域名进行自动化提取工作。
本发明的有益效果是更高效精准地自动化提取安全文章中的恶意域名。
附图说明
图1是本发明的提取模型整体框架图
具体实施方式:
本发明采用以下三个步骤对实验数据进行处理:URL提取器,黑名单标记和白名单过滤。首先,数据在经过预处理后,需要通过正则去匹配文本中所有的网址。其次,通过黑名单服务去标注恶意域名。最后,通过白名单过滤技术去降低黑名单标记服务的误报问题,从而让恶意域名提取结果更加准确。
(1)URL提取器
虽然可以利用Python中的正则表达式来提取文字中正常的网址,但是安全人员在引用恶意网址的时候为了防止用户点击恶意链接,往往会改用不同的书写方式。例如,下面所展示的几种书写方式都来源于真实的APT分析报告中。
A.hxxp://java-se.com/o.js
B.ct.datangcun[.]com
C.http://tempuri(dot)org/GetServerTime
通过与正常的链接对比发现,如果使用正常的URL正则表达式则无法提取这些恶意域名,因此,在提取URL时需要考虑这类书写方式的特殊性,将“[.]、hxxp、(dot)”这几种书写方法都进行考虑,最终,本发明给出了如下的正则式来提取这类链接。”'(?i)\b((?:(hxxps?|https?|ftps?)://|www\d{0,3}[.]|[az0-9.\-]+[.][az]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'".,<>?]))”'
(2)黑名单标记
通过前面的URL提取器从文本中提取了大量域名,但是这些域名没有标注是否为恶意域名,黑名单标记则是对这些网址进行安全性判定。鉴于很多互联网在线域名检测平台(如VirusTotal,UrlQuery等)都提供对域名安全性标记服务,同时VirusTotal作为目前最知名的在线恶意检测平台,已经包含了超过60款全球的安全杀毒软件。针对每个待检查对象,VirusTotal会详细给出有多少款杀毒软件已经将该对象列入了黑名单,其数字越大,说明其恶意性越肯定。所以本发明在实际黑名单标记中也是采用了VirusTotal在线网站安全鉴定服务对域名的安全性进行标记。
(3)白名单过滤器
考虑到各种黑名单标记服务的误报率研究,本发明又提出了白名单过滤器去修正黑名单标记服务的误报率问题。Alexa排名是亚马逊公司面向公众提供的评估网站流行度的一个服务。通常而言,Alexa通过长时间对各种网站流量、内容和链接等方面进行分析,最后再对域名进行排名。因此,如果一个域名在Alexa排名非常高,那么其安全性也相对较高。因此,本发明选择Alexa排名来移除正常域名,所有在上一步被在线安全检测服务标记为黑名单的域名,都需要判定其是否在Alexa排名中,如果在排名中则从黑名单列表中移除。
最终,本发明采用Alexa排名的前一百万网站作为白名单,通过黑名单标记和白名单过滤处理后,共有2,861个域名被VirusTotal标注为恶意域名并且没有出现在Alexa排名中,这些域名将作为恶意语料提取实验的域名数据。
最后通过基于随机森林分类的机器学习方法对安全文章中的恶意域名进行自动化提取工作。

Claims (6)

1.一种基于文本特征的恶意域名检测方法,其特征包括以下步骤:步骤一:对受分析文本进行预处理,包括数据的提取、格式化处理和存储;步骤二:预处理后的文本数据通过URL提取器去匹配文本中所有的网址;步骤三:对提取的网址通过黑名单标记去标注恶意域名;步骤四:对标注后的文本数据通过白名单过滤技术去除黑名单标记服务中的误报;采用机器分类算法来自动提取安全文章中的恶意域名。
2.步骤五:使用随机森林分类算法进行恶意域名的检测模型构建。
3.根据权利要求1所述的URL提取器,其特征在于:使用python正则表达式”'(?i)\b((?:(hxxps?|https?|ftps?)://|www\d{0,3}[.]|[az0-9.\-]+[.][az]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'".,<>?]))”'对文本中的URL进行提取。
4.根据权利要求1所述黑名单标记,其特征在于:通过在线域名检测平台对提取的URL进行安全性标记。
5.根据权利要求1所述的白名单过滤技术,其特征在于:使用Alexa排名对黑名单中误判的网址进行剔除。
6.根据权利要求1所述的随机森林恶意域名检测模型从恶意域名上下文结构出发,优化了原有算法的数据特征,其特征在于从恶意语料富文本中提取恶意域名特征用于特征训练。
CN201810408457.4A 2018-04-28 2018-04-28 一种基于文本特征的恶意域名检测方法 Pending CN108683649A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810408457.4A CN108683649A (zh) 2018-04-28 2018-04-28 一种基于文本特征的恶意域名检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810408457.4A CN108683649A (zh) 2018-04-28 2018-04-28 一种基于文本特征的恶意域名检测方法

Publications (1)

Publication Number Publication Date
CN108683649A true CN108683649A (zh) 2018-10-19

Family

ID=63802743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810408457.4A Pending CN108683649A (zh) 2018-04-28 2018-04-28 一种基于文本特征的恶意域名检测方法

Country Status (1)

Country Link
CN (1) CN108683649A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110381089A (zh) * 2019-08-23 2019-10-25 南京邮电大学 基于深度学习对恶意域名检测防护方法
CN110808987A (zh) * 2019-11-07 2020-02-18 南京亚信智网科技有限公司 识别恶意域名的方法及计算设备
CN111294332A (zh) * 2020-01-13 2020-06-16 交通银行股份有限公司 一种流量异常检测与dns信道异常检测系统及方法
CN112767107A (zh) * 2021-01-14 2021-05-07 中国工商银行股份有限公司 检测黑名单的方法、装置、设备、介质和程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104052722A (zh) * 2013-03-15 2014-09-17 腾讯科技(深圳)有限公司 网址安全性检测的方法、装置及系统
CN104735074A (zh) * 2015-03-31 2015-06-24 江苏通付盾信息科技有限公司 一种恶意url检测方法及其实现系统
CN107872452A (zh) * 2017-10-25 2018-04-03 东软集团股份有限公司 一种恶意网站的识别方法、装置、存储介质及程序产品
CN107948168A (zh) * 2017-11-29 2018-04-20 四川无声信息技术有限公司 网页检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104052722A (zh) * 2013-03-15 2014-09-17 腾讯科技(深圳)有限公司 网址安全性检测的方法、装置及系统
CN104735074A (zh) * 2015-03-31 2015-06-24 江苏通付盾信息科技有限公司 一种恶意url检测方法及其实现系统
CN107872452A (zh) * 2017-10-25 2018-04-03 东软集团股份有限公司 一种恶意网站的识别方法、装置、存储介质及程序产品
CN107948168A (zh) * 2017-11-29 2018-04-20 四川无声信息技术有限公司 网页检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄诚等: "基于上下文语义的恶意域名语料提取模型研究", 《计算机工程与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110381089A (zh) * 2019-08-23 2019-10-25 南京邮电大学 基于深度学习对恶意域名检测防护方法
CN110808987A (zh) * 2019-11-07 2020-02-18 南京亚信智网科技有限公司 识别恶意域名的方法及计算设备
CN111294332A (zh) * 2020-01-13 2020-06-16 交通银行股份有限公司 一种流量异常检测与dns信道异常检测系统及方法
CN112767107A (zh) * 2021-01-14 2021-05-07 中国工商银行股份有限公司 检测黑名单的方法、装置、设备、介质和程序产品

Similar Documents

Publication Publication Date Title
CN109714322B (zh) 一种检测网络异常流量的方法及其系统
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN108683649A (zh) 一种基于文本特征的恶意域名检测方法
CN102098235B (zh) 一种基于文本特征分析的钓鱼邮件检测方法
CN104982011B (zh) 使用多尺度文本指纹的文档分类
CN105956180B (zh) 一种敏感词过滤方法
CN112929390B (zh) 一种基于多策略融合的网络智能监控方法
CN110134849A (zh) 一种网络舆情监控方法及系统
CN101504673A (zh) 一种识别疑似仿冒网站的方法与系统
US9563770B2 (en) Spammer group extraction apparatus and method
CN106713579B (zh) 一种电话号码识别方法及装置
Deshpande et al. Detection of phishing websites using Machine Learning
CN103679053B (zh) 一种网页篡改的检测方法及装置
CN105516128A (zh) 一种Web攻击的检测方法及装置
CN109688137A (zh) 一种sql注入攻击的检测方法、系统及相关组件
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN110572359A (zh) 基于机器学习的钓鱼网页检测方法
CN108509794A (zh) 一种基于分类学习算法的恶意网页防御检测方法
CN112948725A (zh) 基于机器学习的钓鱼网站url检测方法及系统
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
CN113965419B (zh) 一种通过反连判定攻击成功的方法及装置
CN109284465B (zh) 一种基于url的网页分类器构建方法及其分类方法
CN105653941A (zh) 一种启发式检测钓鱼网站的方法及系统
CN109818954A (zh) Web注入型攻击检测方法、装置、电子设备及存储介质
Mataoui et al. A proposed spam detection approach for Arabic social networks content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181019

WD01 Invention patent application deemed withdrawn after publication