CN105827594A

CN105827594A - 一种基于域名可读性及域名解析行为的可疑性检测方法

Info

Publication number: CN105827594A
Application number: CN201610131461.1A
Authority: CN
Inventors: 李巍; 李丽辉; 李云春
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2016-03-08
Filing date: 2016-03-08
Publication date: 2016-08-03
Anticipated expiration: 2036-03-08
Also published as: CN105827594B

Abstract

本发明公开了一种基于域名可读性及域名解析行为的可疑性检测方法，本方法是基于DNS访问日志检测出攻击活动中使用的域名。本发明方法首先从DNS访问日志中提取出域名字段，然后依据13维特征向量对域名字段可读性特征进行提取，并采用C4.5的生成算法对特征向量进行检测，得到可疑域名，最后对可疑域名解析行为进行检测，得到恶意域名。在本发明中，在域名可读性检测时引入对拼音域名的检测，从而降低对中文拼音域名检测的误报；但是会有大量的拼音或单词首字母组合的域名被误报为可疑域名，为了降低对该域名类型的误报率，对可疑域名再进行解析行为的再检测，最终获得DNS查询日志中参与攻击活动的域名。

Description

一种基于域名可读性及域名解析行为的可疑性检测方法

技术领域

本发明涉及一种基于域名的检测方法，更特别地说，是指一种基于域名可读性及域名解析行为的可疑性检测方法，本发明方法是基于域名系统(DNS，Domainnameserver)访问日志检测出攻击活动中使用的域名。

背景技术

当今社会互联网在人类的工作、生活和学习中扮演着重要的角色。然而，随着互联网技术的发展，以木马、蠕虫、间谍和僵尸网络为代表的恶意软件日益猖獗，对公民隐私、社会经济和国家安全构成严重的威胁。这些恶意软件通常会依赖于网络中的基础设施——域名解析系统来实施恶意活动，攻击者也正是利用域名来管理恶意软件之间的通信，以便发起攻击和隐藏自己。每天有几百万的域名注册，然而这其中有些域名涉及到恶意活动。由于域名的数量相当大，所以靠人工检测这些域名是否合法是不现实的。合法的域名通常是由英文单词、拼音或有意义的字母序列组成，并且容易被人类理解和记忆；而恶意域名通常随机产生，不包含有意义的单词或者可读性较差，并且与正常域名中字母的分布规律也不尽相同。正常域名与恶意活动中使用的域名也有很大差异。

在各类恶意软件中，僵尸网络(Botnet)对互联网的运行构成最大的威胁。僵尸网络是攻击者利用命令和控制(C&C，CommandandControl)信道组织起来的大量受控主机，常被用于发起分布式拒绝服务(DDoS)攻击，或者大量发送垃圾信息。僵尸网络是异常域名产生的重灾区，通常会利用域名生成算法产生大量的域名，从中选取合适的域名作为僵尸节点和控制器通信的域名。

域名系统DNS是网络基础设施的关键部分，主要用来做域名与IP间的转换。目前对可疑域名的检测主要有通过域名白名单的检测、基于域名字符分布规律的检测以及基于行为的检测。随着攻击者技术的提高，其可以劫持一个域名在其下生成一些子域名来实施攻击活动，很好的绕过了域名白名单的检测。

通过域名的字符分布规律来检测可疑域名方法中也存在一些问题，可疑域名检测方法中采用的标签数据集，白名单多数采用Alexa网站上公布的top10万的域名，恶意的域名采用安全公司或者一些安全类网站上公布的黑名单，白名单中域名一般是由英文单词组成，而算法生成的域名可能是随机字符串或者类似英文单词的域名。采用标签数据集训练出的分类器对域名进行分类。

发明内容

为了解决现有恶意域名检测方法中存在对正常的拼音和/或单词首字母组合域名的误报，本发明提出了一种基于域名可读性及域名解析行为的可疑性检测方法。本发明方法是基于DNS访问日志检测出攻击活动中使用的域名。该发明主要从域名的可读性和DNS解析行为两个方面进行检测。对于域名可读性方面检测除了使用熵、长度以及字符出现频率的特征外首次加入了域名是否为拼音的特征，目前现有的域名可读性检测主要是识别域名是否为英文单词组合来判断，这导致将大量的中文全拼域名误报为可疑域名，加入拼音可读性检测后能够降低对拼音域名的误报率。本发明对通过字符分布及可读性检测出的可疑域名进行行为检测。这样做的优点不用对每一个域名进行行为检测，减少计算量。

在本发明中，现在很多网络设备都使用白名单对域名进行过滤，但是有很多黑客去劫持一些正常域名，并在其下面产生随机的子域名进行攻击活动，这将会导致白名单失效；所以本发明不仅对域名的二级域进行可读性检测，也会对域名中的主机名进行可读性检测，这可避免绕过白名单的恶意域名。

本发明是一种基于域名可读性及域名解析行为的可疑性检测方法，其特征在于包括有下列步骤：

第一步：域名集合提取；

从DNSquery

\log^{T} = {\log_{1}, \log_{2}, ..., \log_{n}}

中提取出所有域名字段DomainName，得到域名集合

S_{D o m a i n N a m e}^{T} = {D o m a i n {Name}^{\log_{1}}, D o m a i n {Name}^{\log_{2}}, ..., D o m a i n {Name}^{\log_{n}}};

第二步：域名可读性特征提取；

步骤2-1，从域名集合中提取出所有域名字段DomainName的主机名HostName，构成主机名集

从域名集合中提取出所有域名字段DomainName的二级域SLD(second-leveldomain)，构成二级域集

所述的

{AA}_{H o s t N a m e}^{T} = \{\begin{matrix} H o s t {Name}_{D o m a i n N a m e}^{\log_{1}}, H o s t {Name}_{D o m a i n N a m e}^{\log_{2}}, ..., \\ H o s t {Name}_{D o m a i n N a m e}^{\log_{n}} \end{matrix}\};

所述的

{BB}_{S L D}^{T} = {{SLD}_{D o m a i n N a m e}^{\log_{1}}, {SLD}_{D o m a i n N a m e}^{\log_{2}}, ..., {SLD}_{D o m a i n N a m e}^{\log_{n}}};

步骤2-2，依据13维特征向量X＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀,x₁₁,x₁₂,x₁₃}对中的各个元素进行主机名特征向量提取，得到可读性主机名向量集

{AV}_{H o s t N a m e}^{T} = {V_{H o s t N a m e}^{\log_{1}}, V_{H o s t N a m e}^{\log_{2}}, ..., V_{H o s t N a m e}^{\log_{n}}};

依据13维特征向量X＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀,x₁₁,x₁₂,x₁₃}对中的各个元素进行二级域特征向量提取，得到可读性二级域向量集

{BV}_{S L D}^{T} = {V_{S L D}^{\log_{1}}, V_{S L D}^{\log_{2}}, ..., V_{S L D}^{\log_{n}}};

第三步：可读性检测；

采用C4.5的生成算法对

{AV}_{H o s t N a m e}^{T} = {V_{H o s t N a m e}^{\log_{1}}, V_{H o s t N a m e}^{\log_{2}}, ..., V_{H o s t N a m e}^{\log_{n}}}

和进行同一条DNS查询日志配对检测，得到同一条DNS查询日志的域名字段中主机名和二级域的可读性数字量化，即赋值为[0,1]，“0”为可读，“1”为不可读；

第四步，检测可疑域名；

将DNSquerylog^T＝{log₁,log₂,…,log_n}中含有可疑主域名的所有DNS查询日志提取出来，然后对可疑主域名以任意一天中间隔为1秒进行域名访问量计算，最后采用切比雪夫不等式来判断访问次数是否属于正常的访问次数区间，从而结束对DNS查询日志的可疑检测。

本发明方法的优点在于：

①本发明方法对DNS查询日志中的域名字段采用域名的可读性及域名的解析行为来判断域名是否为恶意域名，能够降低对拼音或单词首字母组合域名的检测的误报率，并发现参与恶意活动的域名。

②本发明对域名字符串的可读性进行检测时采用有监督的C4.5生成算法检测，并且引入对拼音域名的可读性检测，这有别于现有域名的检测方法。

③本发明对域名的解析行为检测采用了切比雪夫不等式对域名每分钟的访问量进行检测，有利于发现有异常行为的域名。

④本发明方法能够对主机名和主域名进行检测，可以有效弥补域名白名单检测方法的缺陷，能够检测出绕过白名单的域名。

⑤经本发明方法检测出的恶意域名传送给DNS服务器，DNS服务器可以中断对恶意域名的解析，从而减轻或终止恶意攻击活动。

附图说明

图1是DNS服务器与运行SDDRB模型的计算机的连接示意图。

图2是本发明基于域名可读性及域名解析行为的可疑性检测方法的流程图。

图3是提取出的13维域名可读性特征向量列表图。

图4是可疑域名每分钟查询次数的表征图。

图5是正常域名每分钟查询次数的表征图。

具体实施方式

下面将结合附图和实施例对本发明做进一步的详细说明。

参见图1所示，DNS服务器将DNS查询日志输出给计算机，DNS查询日志在计算机中依据SDDRB模型进行处理，输出恶意域名给DNS服务器。DNS服务器相应的对恶意域名进行屏蔽。DNS服务器和计算机是一种能够按照事先存储的程序，自动、高速地进行大量数值计算和各种信息处理的现代化智能电子设备。计算机最低配置为CPU2GHz，内存2GB，硬盘180GB；操作系统为windows2000/2003/XP及以上版本。

被检测对象

本发明方法是对DNS运营商的DNS查询日志进行分析，检测DNS查询日志中是否有攻击活动和参与攻击活动的域名。将DNS运营商的运行时间记为T，一个T内存在有m个天数day，一天可以分了多个时间段，运行时间的集合形式记为T＝{day₁,day₂,…,day_m}。一个T内存在有n条DNS查询日志记录，所有DNS查询日志的集合形式记为DNSquerylog^T＝{log₁,log₂,…,log_n}。任意一条DNS查询日志log_n中包括的元素记为

\log_{n} = \{\begin{matrix} S r c I P, \\ D N S S e r v e r I P, \\ D o m a i n N a m e, \\ Re q u e s t t y p e, \\ Re s p o n s e I P, \\ T T L v a l u e, \\ T i m e s t a m p \end{matrix}\} .

day₁表示运行时间T内的第一天；

day₂表示运行时间T内的第二天；

day_m表示运行时间T内的第m天，为了方便说明，所述day_m也称为任意一天；任意一天day_m中至少包含有3个时间段。

log₁表示第一条DNS查询日志；

log₂表示第二条DNS查询日志；

log_n表示第n条DNS查询日志，为了方便说明，所述log_n也称为任意一条DNS查询日志；

SrcIP表示源IP地址；

DNSServerIP表示DNS服务器的IP地址；

ResponseIP表示应答的IP地址；

DomainName表示域名字段；

Requesttype表示查询类型；

TTLvalue表示生存时间；

Timestamp表示时间戳，格式为YYYY年MM月DD日时分秒。

在本发明中，域名字段DomainName中包含有主机名、L级域、L-1级域、……、二级域、顶级域。其中二级域与顶级域构成主域名，记为MDN。

例如DNS查询日志：196.168.1.10218.85.157.99www.baidu.coma218.85.148.250128YYYY年MM月DD日100036；其中，“196.168.1.10”为源IP地址、“218.85.157.99”为DNS服务器的IP地址、“www.baidu.com”为域名字段、“a”为查询类型、“218.85.148.250”为应答的IP地址、“128”为生存时间、“YYYY年MM月DD日100036”为时间戳。“baidu”为域名字段中的二级域，“www”为域名字段中的主机名，“baidu.com”为主域名。

例如DNS查询日志：196.168.1.10218.85.157.99cwc.buaa.edu.cna218.85.148.250128YYYY年MM月DD日083106；其中，“196.168.1.10”为源IP地址、“218.85.157.99”为DNS服务器的IP地址、“cwc.buaa.edu.cn”为域名字段、“a”为查询类型、“218.85.148.250”为应答的IP地址、“128”为生存时间、“YYYY年MM月DD日083106”为时间戳。“buaa”为域名字段中的二级域，“cwc”为域名字段中的主机名，“buaa.edu.cn”为主域名。

例如DNS查询日志：196.168.1.10218.85.157.99nocdrfguiwxlz.www.hncgj.gov.cna218.85.148.250128YYYY年MM月DD日180048；其中，“196.168.1.10”为源IP地址、“218.85.157.99”为DNS服务器的IP地址、“nocdrfguiwxlz.www.hncgj.gov.cn”为域名字段、“a”为查询类型、“218.85.148.250”为应答的IP地址、“128”为生存时间、“YYYY年MM月DD日180048”为时间戳。“hncgj”为域名字段中的二级域，“www”为域名字段中的三级域，“nocdrfguiwxlz”为域名字段中的主机名，“hncgj.gov.cn”为主域名。

被检测对象的特征表示

对于域名可读性检测采用的特征如表1所示。

表1域名可读性检测的特征

在本发明中，将表1中的“特征名称”组成一个13维特征向量，即X＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀,x₁₁,x₁₂,x₁₃}。

x₁的计算请参考清华大学出版社2012年3月第1版，李航著《统计学习方法》第60页。即字符串的概率分布为字符串中任意一字符出现的频率；

x₂的计算为字符串的长度，如字符串“baidu”中字符总数为5，则长度为5；

x₃的计算为字符串中元音字母的个数除以字符串的长度，如字符串“baidu”中元音字母的比例为3除以5；

x₄的计算为字符串中数字的个数除以字符串的长度，如字符串“amdc517”中数字的比例为3除以7；

x₅计算为字符串中重复出现的字符数除以字符串的长度，如字符串“buaaxue”中重复字符的比例为4除以7；

x₆是采用马尔可夫模型计算出基于英文语料的随机矩阵的转移概率P_english和基于拼音语料的随机矩阵的转移概率P_pinyin，并判断是否有语义特征；请参考电子工业出版社2005年1月第1版，ChristopherD.Manning等著，苑春法等译《统计自然语言处理基础》第200页；若P_english＞θ_english表明是英文单词的组合，若P_pinyin＞θ_pinyin表明是拼音的组合，两个条件有一个成立，则认为字符串是有语义的。θ_english是区别英文单词组合和非英文单词组合的边界值，这是由英文语料训练所得；θ_pinyin是区别拼音组合和非拼音组合的边界值，这是由拼音语料训练所得；若P_english≤θ_english并且P_pinyin≤θ_pinyin则认为字符串是没有语义的。

x₇是采用马尔可夫模型计算出字符串的转移概率，请参考电子工业出版社2005年1月第1版，ChristopherD.Manning等著，苑春法等译《统计自然语言处理基础》第200页。马尔科夫模型中的随机矩阵是由域名白名单统计所得；

x₈的计算为每个字母出现频率的平均值；

x₉的计算为每相邻两个字母出现频率的平均值；

x₁₀的计算为每相邻三个字母出现频率的平均值；

x₁₁的计算为每个字母出现频率的标准差；

x₁₂的计算为每相邻两个字母出现频率的标准差；

x₁₃的计算为每相邻三个字母出现频率的标准差。

参见图2所示，本发明是一种基于域名可读性及域名解析行为的可疑性检测方法(简称为SDDRB模型)，所述SDDRB模型运行在计算机中，本发明方法包括有下列步骤：

第一步：域名集合提取；

从DNSquerylog^T＝{log₁,log₂,…,log_n}中提取出所有域名字段DomainName，得到域名集合

S_{D o m a i n N a m e}^{T} = {D o m a i n {Name}^{\log_{1}}, D o m a i n {Name}^{\log_{2}}, ..., D o m a i n {Name}^{\log_{n}}};

在本发明中，是以“域名字段”作为搜索运行时间T内的DNS查询日志的被检对象，这样有利于针对特定的被检对象进行提取所需处理的对象。也充分体现了本发明方法是针对拼音和/或单词首字母组合域名进行的。

第二步：域名可读性特征提取；

所述的

{AA}_{H o s t N a m e}^{T} = \{\begin{matrix} H o s t {Name}_{D o m a i n N a m e}^{\log_{1}}, H o s t {Name}_{D o m a i n N a m e}^{\log_{2}}, ..., \\ H o s t {Name}_{D o m a i n N a m e}^{\log_{n}} \end{matrix}\};

所述的

{BB}_{S L D}^{T} = {{SLD}_{D o m a i n N a m e}^{\log_{1}}, {SLD}_{D o m a i n N a m e}^{\log_{2}}, ..., {SLD}_{D o m a i n N a m e}^{\log_{n}}};

{AV}_{H o s t N a m e}^{T} = {V_{H o s t N a m e}^{\log_{1}}, V_{H o s t N a m e}^{\log_{2}}, ..., V_{H o s t N a m e}^{\log_{n}}};

{BV}_{S L D}^{T} = {V_{S L D}^{\log_{1}}, V_{S L D}^{\log_{2}}, ..., V_{S L D}^{\log_{n}}};

在本发明中，对特征向量的提取具体地为：

依据13维特征向量X＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀,x₁₁,x₁₂,x₁₃}对Host进行特征向量提取，得到第一条DNS查询日志log1中域名的主机名向量，记为第一条可读性主机名向量

依据13维特征向量X＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀,x₁₁,x₁₂,x₁₃}对Host进行特征向量提取，得到第二条DNS查询日志log₂中域名的主机名向量，记为第二条可读性主机名向量

依据13维特征向量X＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀,x₁₁,x₁₂,x₁₃}对Host进行特征向量提取，得到第n条DNS查询日志log_n中域名的主机名向量，记为第n条可读性主机名向量

步骤2-3，依据13维特征向量X＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀,x₁₁,x₁₂,x₁₃}对进行特征向量提取，得到第一条DNS查询日志log₁中域名的二级域向量，记为第一条可读性二级域向量

依据13维特征向量X＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀,x₁₁,x₁₂,x₁₃}对进行特征向量提取，得到第二条DNS查询日志log₂中域名的二级域向量，记为第二条可读性二级域向量

依据13维特征向量X＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀,x₁₁,x₁₂,x₁₃}对进行特征向量提取，得到第n条DNS查询日志log_n中域名的二级域向量，记为第n条可读性二级域向量

第三步：可读性检测；

在本发明中，采用C4.5的生成算法对

{AV}_{H o s t N a m e}^{T} = {V_{H o s t N a m e}^{\log_{1}}, V_{H o s t N a m e}^{\log_{2}}, ..., V_{H o s t N a m e}^{\log_{n}}}

和

{BV}_{S L D}^{T} = {V_{S L D}^{\log_{1}}, V_{S L D}^{\log_{2}}, ..., V_{S L D}^{\log_{n}}}

进行同一条DNS查询日志配对检测，得到同一条DNS查询日志的域名字段中主机名和二级域的可读性数字量化，即赋值为[0,1]，“0”为可读，“1”为不可读；不可读的域名字段被称为可疑域名。

在本发明中，对域名字段中主机名和二级域的可读性[0,1]判断具体地为：

步骤3-1，采用C4.5的生成算法对和进行检测，得到域名字段中主机名和二级域的可读性[0,1]；若赋值为0且赋值为0，则Domain为可读，即Domain为正常域名；

若赋值为0且赋值为1，则Domain为不可读，即Domain为可疑域名，记为S_Domain

若赋值为1且赋值为0，则Domain为不可读，即Domain为可疑域名，记为S_Domain

若赋值为1且赋值为1，则Domain为不可读，即Domain为可疑域名，记为S_Domain

采用C4.5的生成算法对和进行检测，得到域名字段中主机名和二级域的可读性[0,1]；若赋值为0且赋值为0，则Domain为可读，即Domain为正常域名；

步骤3-2，从S_Domain中提取出主域名，记为从S_Domain中提取出主域名，记为从S_Domain中提取出主域名，记为将可疑域名的主域名用集合形式表达为

S_S M D N = {S_{MDN}^{\log_{1}}, S_{MDN}^{\log_{2}}, ..., S_{MDN}^{\log_{n}}} .

若

S_S M D N = {S_{MDN}^{\log_{1}}, S_{MDN}^{\log_{2}}, ..., S_{MDN}^{\log_{n}}}

中存在有相同的主域名，则相同主域名在

S_S M D N = {S_{MDN}^{\log_{1}}, S_{MDN}^{\log_{2}}, ..., S_{MDN}^{\log_{n}}}

中只保留一份，将

S_S M D N = {S_{MDN}^{\log_{1}}, S_{MDN}^{\log_{2}}, ..., S_{MDN}^{\log_{n}}}

更改为S_SMDN＝{S_MDN₁,S_MDN₂,L,S_MDN_g}，S_MDN₁表示第一个可疑的主域名，S_MDN₂表示第二个可疑的主域名，S_MDN_g表示第g个可疑的主域名，也称为任意一个可疑的主域名。

在本发明中，对域名字段中主机名和二级域的可读性采用二进制表示为，可读记为0，不可读记为1。

C4.5的生成算法请参考清华大学出版社2012年3月第1版，李航著《统计学习方法》第65页。在本发明中，“C4.5的生成算法”的训练数据集是指正常域名的白名单和恶意域名的黑名单按照X＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀,x₁₁,x₁₂,x₁₃}处理后的特征向量集。

第四步，检测可疑域名；

在本发明中，将DNSquerylog^T＝{log₁,log₂,…,log_n}中含有可疑主域名的所有DNS查询日志提取出来，然后对可疑主域名以任意一天中间隔为1秒进行域名访问量计算，最后采用切比雪夫不等式来判断访问次数是否属于正常的访问次数区间，从而结束对DNS查询日志的可疑检测。具体地：

步骤4-1，将DNSquerylog^T＝{log₁,log₂,…,log_n}中含有S_MDN₁的所有DNS查询日志提取出来，记为含有S_MDN₁的可疑日志集合

S_L^{S_{MDN}_{1}} = {A_{1}, A_{2}, ..., A_{a}};

A₁表示含有S_MDN₁的第一条DNS查询日志；

A₂表示含有S_MDN₁的第二条DNS查询日志；

A_a表示含有S_MDN₁的第a条DNS查询日志，也称为最后一条DNS查询日志；

在本发明中，将DNSquerylog^T＝{log₁,log₂,…,log_n}中含有S_MDN₂的所有DNS查询日志提取出来，记为含有S_MDN₂的可疑日志集合

S_L^{S_{MDN}_{2}} = {B_{1}, B_{2}, ..., B_{b}};

B₁表示含有S_MDN₂的第一条DNS查询日志；

B₂表示含有S_MDN₂的第二条DNS查询日志；

B_b表示含有S_MDN₂的第b条DNS查询日志，也称为最后一条DNS查询日志；

在本发明中，将DNSquerylog^T＝{log₁,log₂,…,log_n}中含有S_MDN_g的所有DNS查询日志提取出来，记为含有S_MDN_g的可疑日志集合

S_L^{S_{MDN}_{g}} = {C_{1}, C_{2}, ..., C_{c}};

C₁表示含有S_MDN_g的第一条DNS查询日志；

C₂表示含有S_MDN_g的第二条DNS查询日志；

C_c表示含有S_MDN_g的第c条DNS查询日志，也称为最后一条DNS查询日志；

步骤4-2，以任意一天day_m的并以1分钟为间隔进行域名访问量计算，获得基于的每分钟的访问次数然后采用切比雪夫不等式对进行检测，得到是否属于正常的访问次数区间

[u_{i}^{S_{MDN}_{1}} - {kσ}_{i}^{S_{MDN}_{1}}, u_{i}^{S_{MDN}_{1}} + {kσ}_{i}^{S_{MDN}_{1}}], k = \sqrt{\frac{{(σ^{S_{MDN}_{1}})}^{2}}{0.05}};

为第i个时间段内主域名的每分钟访问量的平均值，为第i个时间段内主域名的每分钟访问量的标准差；i为day_m中时间段的标识号，i的取值至少为3个时间段；

若属于正常的访问次数区间内，则S_MDN₁为正常，赋值为0；

若不属于正常的访问次数区间内，则S_MDN₁为恶意的域名，赋值为1。

在本发明中，以任意一天day_m的并以1分钟为间隔进行域名访问量计算，获得基于的每分钟的访问次数然后采用切比雪夫不等式对进行检测，得到是否属于正常的访问次数区间

[u_{i}^{S_{MDN}_{2}} - {kσ}_{i}^{S_{MDN}_{2}}, u_{i}^{S_{MDN}_{2}} + {kσ}_{i}^{S_{MDN}_{2}}], k = \sqrt{\frac{{(σ^{S_{MDN}_{2}})}^{2}}{0.05}};

若属于正常的访问次数区间内，则S_MDN₂为正常，赋值为0；

若不属于正常的访问次数区间内，则S_MDN₂为恶意的域名，赋值为1。

[u_{i}^{S_{MDN}_{g}} - {kσ}_{i}^{S_{MDN}_{g}}, u_{i}^{S_{MDN}_{g}} + {kσ}_{i}^{S_{MDN}_{g}}], k = \sqrt{\frac{{(σ^{S_{MDN}_{g}})}^{2}}{0.05}};

若属于正常的访问次数区间内，则S_MDN_g为正常，赋值为0；

若不属于正常的访问次数区间内，则S_MDN_g为恶意的域名，赋值为1。

实施例1

原始DNS查询日志的格式参考表2。表2中编号为1、2、3、4、5、6、8、13和15中主域名为拼音组合；编号为7、9、10、11和12中主域名为英文单词组合；编号16、17、18、19、20、21、22和23中二级域为汉语拼音首字母组合(陕西管理职业学院：www.sxglzyxy.com.cn，淮南市城管局：www.hncgj.gov.cn，黑龙江交警网：www.hljjj.gov.cn)，主机名为随机字符串；编号为26和27中域名为英文单词首字母组合(www.ccf.org.cn：chinacomputerfederation，www.ieee.org：InstituteofElectricalandElectronicEngineers)；编号为14中的域名hqu为拼音首字母和英文单词首字母组合(huaqiaouniversity)。

表2为原始的DNS查询日志，当特征向量x₆中未加入拼音语料进行检测时，编号1、2、3、4、8、13和15被检测为可疑的域名，如表3所示。而加入拼音语料后1、2、3、4和15被检测为正常域名，而8、13和15被检测为可疑域名，如表4所示；说明加入拼音语料确实可以降低对域名的误报，但不能避免误报。表5为对域名可读性检测出可疑的域名进一步做解析行为检测后所得到的恶意域名所对应的DNS查询日志。

本发明方法利用域名可读性分类器检测出域名特征，对26000多个域名检测，有900多个域名被检测为不可读域名。部分检测结果如图3所示。

在实施例1中解析行为主要是指每分钟请求域名的次数，对第一步检测为可疑的域名进行解析行为特征的检测。正常的域名每天的解析行为比较相似，而木马通信使用的随机生成域名的解析行为比较异常，可能会有突发性的DNS请求或者仅有一次请求之后便不再使用。采用切比雪夫不等式检测突发性的域名请求，切比雪夫不等式中的平均值表示某域名每分钟的请求次数，方差表示一段时间内，域名请求次数的波动情况。为了更精确的表示域名解析行为的模式，将一天分为三个时间段分别训练每个时间段平均值μ和方差σ²,并且阈值α(经验值设为0.05)。判断域名每分钟的访问量是否在给定的区间中，若在区间内则判定该域名的解析行为正常，否则判定域名为可疑域名。

参见图4、图5所示，对YYYY年MM月DD日的2604066条DNS日志进行了检测，检测出938个不可读主域名，进一步对解析行为分析，检测出一个解析行为异常的域名hncgj.gov.cn(即淮南城管局)。统计其相邻前两天和后一天(即DD-2日、DD-1日、DD日、DD+1日)的DNS请求次数如图4(横轴表示从零点开始到24点共1440分钟，纵轴表示为每分钟的访问量)所示，发现除了DD日11时到16时的域名请求量较大外，其它时间访问量很小。正常的域名解析行为模式如图5所示：在00:00～08:00期间访问量较小，每分钟的请求次数在20左右；08:00～16:00时间段内每分钟的请求次数在100左右；16:00～24:00间每分钟的访问次数在40次左右。

提取了含有hncgj.gov.cn的所有DNS查询日志的域名，发现该主域名(即hncgj.gov.cn)下生成了大量的子域名，如下表所示：hncgj.gov.cn是正常的有备案的域名，但是其子域名被用来实施攻击活动。

本发明是基于DNS访问日志检测出网络中的攻击活动。该发明主要从域名的字符分布规律及可读性和DNS解析行为两个方面进行检测。1)对于域名可读性方面的检测除了使用熵、长度以及字符出现频率的特征外首次加入了域名是否拼音的特征，目前现有的域名可读性检测主要是识别域名是否为英文单词组合来判断，这导致将大量的中文全拼域名误报为可疑域名，加入拼音可读性检测后降低误报率。2)现在很多安全产品都使用白名单对域名进行过滤，但是有很多黑客去劫持一些正常域名，并在其下面产生随机的子域名进行攻击活动，这将会导致白名单失效；所以本发明不只对域名的一级域进行字符可读性检测，也会对域名下的最小的子域名进行字符可读性检测，这可避免绕过白名单的恶意域名。3)对上述通过字符分布及可读性检测出的可疑域名进行行为检测，行为检测只是对可疑域名的。这样做的优点不用对每一个域名进行行为检测，减少大量的计算。

表2原始DNS查询日志的列表

“a”28代表DNS查询日志的查询类型。ResponseIP项中“null”代表空值，列举了网址处为举例说明，无特定指代。表2省略了SrcIP、DNSServerIP和Timestamp项的内容。

表3未加入拼音可读性时检测出的可疑DNS查询日志的列表

表4加入拼音可读性后检测出的可疑DNS查询日志的列表

表5被检测出的可疑DNS查询日志的列表

Claims

1.一种基于域名可读性及域名解析行为的可疑性检测方法，其特征在于包括有下列步骤：

第一步：域名集合提取；

S_{D o m a i n N a m e}^{T} = {D o m a i n {Name}^{\log_{1}}, D o m a i n {Name}^{\log_{2}}, ..., D o m a i n {Name}^{\log_{n}}};

第二步：域名可读性特征提取；

所述的

{AV}_{H o s t N a m e}^{T} = {V_{H o s t N a m e}^{\log_{1}}, V_{H o s t N a m e}^{\log_{2}}, ..., V_{H o s t N a m e}^{\log_{n}}};

{BV}_{S L D}^{T} = {V_{S L D}^{\log_{1}}, V_{S L D}^{\log_{2}}, ..., V_{S L D}^{\log_{n}}};

第三步：可读性检测；

采用C4.5的生成算法对和进行同一条DNS查询日志配对检测，得到同一条DNS查询日志的域名字段中主机名和二级域的可读性数字量化，即赋值为[0,1]，“0”为可读，“1”为不可读；

第四步，检测可疑域名；

2.根据权利要求1所述的一种基于域名可读性及域名解析行为的可疑性检测方法，其特征在于对特征向量的提取具体地为：

依据13维特征向量X＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀,x₁₁,x₁₂,x₁₃}对Host进行特征向量提取，得到第一条DNS查询日志log₁中域名的主机名向量，记为第一条可读性主机名向量

3.根据权利要求1所述的一种基于域名可读性及域名解析行为的可疑性检测方法，其特征在于：对域名字段中主机名和二级域的可读性[0,1]判断具体地为：

步骤3-1，采用C4.5的生成算法对和进行检测，得到域名字段中主机名和二级域的可读性[0,1]；若赋值为0且赋值为0，则为可读，即为正常域名；

若赋值为0且赋值为1，则Domain为不可读，即为可疑域名，记为

若赋值为1且赋值为0，则为不可读，即为可疑域名，记为

若赋值为1且赋值为1，则为不可读，即为可疑域名，记为

采用C4.5的生成算法对和进行检测，得到域名字段中主机名和二级域的可读性[0,1]；若赋值为0且赋值为0，则为可读，即为正常域名；

若赋值为0且赋值为1，则为不可读，即为可疑域名，记为

若赋值为1且赋值为0，则为不可读，即为可疑域名，记为

若赋值为1且赋值为1，则为不可读，即为可疑域名，记为

若赋值为0且赋值为1，则为不可读，即为可疑域名，记为

若赋值为1且赋值为0，则为不可读，即为可疑域名，记为

若赋值为1且赋值为1，则为不可读，即为可疑域名，记为

步骤3-2，从中提取出主域名，记为从中提取出主域名，记为从中提取出主域名，记为将可疑域名的主域名用集合形式表达为若中存在有相同的主域名，则相同主域名在中只保留一份，将更改为S_SMDN＝{S_MDN₁,S_MDN₂,L,S_MDN_g}，S_MDN₁表示第一个可疑的主域名，S_MDN₂表示第二个可疑的主域名，S_MDN_g表示第g个可疑的主域名，也称为任意一个可疑的主域名。

4.根据权利要求1所述的一种基于域名可读性及域名解析行为的可疑性检测方法，其特征在于：可疑域名被检测出的步骤为：

S_L^{S_{MDN}_{1}} = {A_{1}, A_{2}, . . ., A_{a}},

A₁表示含有S_MDN₁的第一条DNS查询日志；

A₂表示含有S_MDN₁的第二条DNS查询日志；

将DNSquerylog^T＝{log₁,log₂,…,log_n}中含有S_MDN₂的所有DNS查询日志提取出来，记为含有S_MDN₂的可疑日志集合

B₁表示含有S_MDN₂的第一条DNS查询日志；

B₂表示含有S_MDN₂的第二条DNS查询日志；

将DNSquerylog^T＝{log₁,log₂,…,log_n}中含有S_MDN_g的所有DNS查询日志提取出来，记为含有S_MDN_g的可疑日志集合

C₁表示含有S_MDN_g的第一条DNS查询日志；

C₂表示含有S_MDN_g的第二条DNS查询日志；

步骤4-2，以任意一天day_m的并以1分钟为间隔进行域名访问量计算，获得基于的每分钟的访问次数然后采用切比雪夫不等式对进行检测，得到是否属于正常的访问次数区间为第i个时间段内主域名的每分钟访问量的平均值，为第i个时间段内主域名的每分钟访问量的标准差；i为day_m中时间段的标识号，i的取值至少为3个时间段；

若属于正常的访问次数区间内，则S_MDN₁为正常，赋值为0；

若不属于正常的访问次数区间内，则S_MDN₁为恶意的域名，赋值为1；

以任意一天day_m的并以1分钟为间隔进行域名访问量计算，获得基于的每分钟的访问次数然后采用切比雪夫不等式对进行检测，得到是否属于正常的访问次数区间为第i个时间段内主域名的每分钟访问量的平均值，为第i个时间段内主域名的每分钟访问量的标准差；i为day_m中时间段的标识号，i的取值至少为3个时间段；

若属于正常的访问次数区间内，则S_MDN₂为正常，赋值为0；

若不属于正常的访问次数区间内，则S_MDN₂为恶意的域名，赋值为1；

若属于正常的访问次数区间内，则S_MDN_g为正常，赋值为0；

5.根据权利要求1所述的一种基于域名可读性及域名解析行为的可疑性检测方法，其特征在于：所述方法适用于对拼音和/或单词首字母组合的域名。

6.根据权利要求1所述的一种基于域名可读性及域名解析行为的可疑性检测方法，其特征在于：所述方法安装在计算机中运行，且计算机与DNS服务器通过网络连接。