CN108683649A

CN108683649A - 一种基于文本特征的恶意域名检测方法

Info

Publication number: CN108683649A
Application number: CN201810408457.4A
Authority: CN
Inventors: 黄诚; 方勇; 刘亮; 龙啸; 韩圣君
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2018-10-19

Abstract

本发明公开了一种基于文本特征的恶意域名检测方法，该发明由上下文特征提取，恶意域名检测算法两部分构成。其中上下文特征提取包括URL提取器，黑名单标记模块和白名单过滤模块，URL提取器对文本中的恶意域名进行检测，采用正则算法来自动提取安全文章中的恶意域名；黑名单标记模块通过扩展的安全识别方法进行域名安全性标记；白名单过滤模块通过白名单机制移除被误报的域名。恶意域名检测算法使用随机森林分类算法进行分类模型构建。本发明采用双向机制提高了域名自动化识别的准确性，具有很强的实用性。

Description

一种基于文本特征的恶意域名检测方法

技术领域

本发明涉及一种文本挖掘技术，尤其涉及一种恶意域名提取检测技术。

背景技术

近年来随着企业各种核心业务逐渐融合互联网，越来越多的组织或者公司都遭受到了各种黑客攻击，各种APT(Advanced Persistent Threat)攻击事件层出不穷。为了适应快速变化的网络犯罪技术，安全公司或相关机构也不断发现并溯源重大安全攻击事件，通过不同的渠道(博客、论坛、微博、专业报告等)来披露各种攻击技术细节及恶意域名等信息。这些已公开的攻击分析报告一般采用英文进行书写，其内容主要从攻击事件的目标、攻击者使用的恶意域名、IP地址、恶意工具等进行描述分析。内容中的恶意域名或者IP地址也有可能被黑客用于其它攻击中，为了检测并阻断这些潜在的黑客攻击行为，安全公司往往会将这些恶意域名进行整理并加入防火墙或者杀毒软件的黑名单列表。

目前从文本中提取恶意域名的技术主要还是基于正则表达式和白名单技术，这种技术存在很大的误报率，即没有在白名单列表中的域名不一定就是恶意域名。因此，如何从海量技术文本中自动提取恶意域名在网络攻击检测与防御方面具有重要的作用。

针对恶意域名检测技术主要解决的难题在于：

(1)如何识别安全人员为了防止用户点击，采用不同书写方式的域名。

(2)如何对提取的域名进行安全性判定。

(3)如何降低传统黑名单标记服务的误报率，从而提高恶意域名检测的准确率。

本发明重点对于以上三个问题进行解决，实现一种基于文本特征的恶意域名检测方法。

发明内容

本发明是一种基于文本特征的恶意域名检测方法，通过URL提取器，黑名单标记和白名单过滤技术对文本中的恶意域名进行检测，采用机器分类算法来自动提取安全文章中的恶意域名。

发明内容包括以下方面：

(1)对预处理后的文本数据进行URL提取器去匹配文本中所有的网址。可选的，使用python正则表达式”'(？i)\b((？:(hxxps？|https？|ftps？)://|www\d{0,3}[.]|[az0-9.\-]+[.][az]{2,4}/)(？:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(？:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`！()\[\]{}；:'".,<>？]))”'对文本中的URL进行提取。

(2)对提取的网址通过黑名单标记去标注恶意域名。可选的，通过在线域名检测平台对提取的URL进行安全性标记。

(3)对标注后的文本数据通过白名单过滤技术去除黑名单标记服务中的误报。可选的，使用Alexa排名对黑名单中误判的网址进行剔除。

(4)使用基于随机森林算法的机器分类模型对文本中的恶意域名进行自动化提取工作。

本发明的有益效果是更高效精准地自动化提取安全文章中的恶意域名。

附图说明

图1是本发明的提取模型整体框架图

具体实施方式：

本发明采用以下三个步骤对实验数据进行处理：URL提取器，黑名单标记和白名单过滤。首先，数据在经过预处理后，需要通过正则去匹配文本中所有的网址。其次，通过黑名单服务去标注恶意域名。最后，通过白名单过滤技术去降低黑名单标记服务的误报问题，从而让恶意域名提取结果更加准确。

(1)URL提取器

虽然可以利用Python中的正则表达式来提取文字中正常的网址，但是安全人员在引用恶意网址的时候为了防止用户点击恶意链接，往往会改用不同的书写方式。例如，下面所展示的几种书写方式都来源于真实的APT分析报告中。

A.hxxp://java-se.com/o.js

B.ct.datangcun[.]com

C.http://tempuri(dot)org/GetServerTime

通过与正常的链接对比发现，如果使用正常的URL正则表达式则无法提取这些恶意域名，因此，在提取URL时需要考虑这类书写方式的特殊性，将“[.]、hxxp、(dot)”这几种书写方法都进行考虑，最终，本发明给出了如下的正则式来提取这类链接。”'(？i)\b((？:(hxxps？|https？|ftps？)://|www\d{0,3}[.]|[az0-9.\-]+[.][az]{2,4}/)(？:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(？:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`！()\[\]{}；:'".,<>？]))”'

(2)黑名单标记

通过前面的URL提取器从文本中提取了大量域名，但是这些域名没有标注是否为恶意域名，黑名单标记则是对这些网址进行安全性判定。鉴于很多互联网在线域名检测平台(如VirusTotal，UrlQuery等)都提供对域名安全性标记服务，同时VirusTotal作为目前最知名的在线恶意检测平台，已经包含了超过60款全球的安全杀毒软件。针对每个待检查对象，VirusTotal会详细给出有多少款杀毒软件已经将该对象列入了黑名单，其数字越大，说明其恶意性越肯定。所以本发明在实际黑名单标记中也是采用了VirusTotal在线网站安全鉴定服务对域名的安全性进行标记。

(3)白名单过滤器

考虑到各种黑名单标记服务的误报率研究，本发明又提出了白名单过滤器去修正黑名单标记服务的误报率问题。Alexa排名是亚马逊公司面向公众提供的评估网站流行度的一个服务。通常而言，Alexa通过长时间对各种网站流量、内容和链接等方面进行分析，最后再对域名进行排名。因此，如果一个域名在Alexa排名非常高，那么其安全性也相对较高。因此，本发明选择Alexa排名来移除正常域名，所有在上一步被在线安全检测服务标记为黑名单的域名，都需要判定其是否在Alexa排名中，如果在排名中则从黑名单列表中移除。

最终，本发明采用Alexa排名的前一百万网站作为白名单，通过黑名单标记和白名单过滤处理后，共有2,861个域名被VirusTotal标注为恶意域名并且没有出现在Alexa排名中，这些域名将作为恶意语料提取实验的域名数据。

最后通过基于随机森林分类的机器学习方法对安全文章中的恶意域名进行自动化提取工作。

Claims

1.一种基于文本特征的恶意域名检测方法，其特征包括以下步骤：步骤一：对受分析文本进行预处理，包括数据的提取、格式化处理和存储；步骤二：预处理后的文本数据通过URL提取器去匹配文本中所有的网址；步骤三：对提取的网址通过黑名单标记去标注恶意域名；步骤四：对标注后的文本数据通过白名单过滤技术去除黑名单标记服务中的误报；采用机器分类算法来自动提取安全文章中的恶意域名。

2.步骤五：使用随机森林分类算法进行恶意域名的检测模型构建。

3.根据权利要求1所述的URL提取器，其特征在于：使用python正则表达式”'(？i)\b((？:(hxxps？|https？|ftps？)://|www\d{0,3}[.]|[az0-9.\-]+[.][az]{2,4}/)(？:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(？:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`！()\[\]{}；:'".,<>？]))”'对文本中的URL进行提取。

4.根据权利要求1所述黑名单标记，其特征在于：通过在线域名检测平台对提取的URL进行安全性标记。

5.根据权利要求1所述的白名单过滤技术，其特征在于：使用Alexa排名对黑名单中误判的网址进行剔除。

6.根据权利要求1所述的随机森林恶意域名检测模型从恶意域名上下文结构出发，优化了原有算法的数据特征，其特征在于从恶意语料富文本中提取恶意域名特征用于特征训练。