CN111431884A - 一种基于dns分析的主机失陷检测方法及装置 - Google Patents
一种基于dns分析的主机失陷检测方法及装置 Download PDFInfo
- Publication number
- CN111431884A CN111431884A CN202010192612.0A CN202010192612A CN111431884A CN 111431884 A CN111431884 A CN 111431884A CN 202010192612 A CN202010192612 A CN 202010192612A CN 111431884 A CN111431884 A CN 111431884A
- Authority
- CN
- China
- Prior art keywords
- host
- domain name
- result
- address
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供了一种基于DNS分析的主机失陷检测方法及装置,所述方法包括:利用预先训练的LSTM对待检测域名进行分类;抽取待检测域名的主机IP地址的特征;根据分类结果以及所抽取的特征,利用异常检测算法对主机IP地址进行异常打分;利用恶意IP情报匹配结果和C&C server IP检测结果对异常打分结果进行补充和修正。应用本发明实施例,可以实现主机是否失陷的检测。
Description
技术领域
本发明涉及网络安全防护领域,具体涉及一种基于DNS分析的主机失陷检测方法。
背景技术
域名服务协议(Domain Name System,DNS),用于域名与IP地址的相互转换,为网络访问带来了便利。但是他同时也可以被黑客用来传递信息以与肉机(被黑客控制的主机)取得联系。其中比较流行的方式是利用DGA(Domain Generate Algorithm,域名生成算法)与肉机取得联系:黑客将DGA算法代码植入肉机;肉机向外请求DGA生成的域名地址;黑客随机从DGA生成算法生成的domain中取一条或少数几条注册,并将域名挂载在C&C(Commandand Control server,命令和控制)服务器上;肉机请求到黑客注册的域名,进而可以成功访问到C&C服务器;黑客与肉机取得通信,然后利用C&C服务器控制肉机。
申请号为201911084930.9的发明专利申请公开了一种基于深度学习的恶意域名检测方法及装置,涉及网络安全的技术领域,包括:获取待检测域名;对待检测域名进行解析,得到待检测域名的报文信息;基于自然语言处理算法和文本特征提取算法,对待检测域名的报文信息进行处理,得到待检测域名的特征信息;将特征信息输入深度学习模型,得到检测结果,其中,检测结果表征待检测域名是否为恶意域名,深度学习模型为基于卷积神经网络和全连接层构建的学习模型,解决了现有的域名检测方法中在检测待检测域名是否为恶意域名的准确率较低的技术问题。
现有技术中,是采用训练的深度学习模型进行恶意域名的检测,但是,并不能实现主机是否失陷的检测。
发明内容
本发明所要解决的技术问题在于如何提供一种基于DNS分析的主机失陷检测方法及装置以实现主机是否失陷的检测。
本发明通过以下技术手段实现解决上述技术问题的:
本发明实施例提供了一种基于DNS分析的主机失陷检测方法,所述方法包括:
利用预先训练的LSTM对待检测域名进行分类;
抽取待检测域名的主机IP地址的特征;
根据分类结果以及所抽取的特征,利用异常检测算法对主机IP地址进行异常打分;
利用恶意IP情报匹配结果和C&C server IP检测结果对异常打分结果进行补充和修正。
应用本发明实施例,通过对疑似DGA的主域名进行分类,然后将分类结果作为每一个主机IP地址的一个特征并组合到对应的所抽取的特征中,将组合后的特征作为主机IP的目标特征,再利用无监督分类算法对目标特征进行异常评估处理,最后使用恶意IP情报匹配结果和C&C server IP检测结果进行修正,进而可以对失陷主机进行检测。
可选的,所述抽取待检测域名的主机IP地址的特征,包括:
NXdomain的主域名去重数为NXdomain的主域名去重统计得到的数量;Client IP为主域名去重数为主机IP所重复访问的主域名数量。
可选的,所述根据分类结果以及所抽取的特征,利用异常检测算法对主机IP地址进行异常打分,包括:
将分类结果作为每一个主机IP地址的一个特征并组合到对应的所抽取的特征中,将组合后的特征作为主机IP的目标特征;
利用公式,c(n)=2H(n-1)-(2(n-1)/n),计算平均每一个目标特征对应的路径长度,其中,
c(n)为平均路径长度;n为数据集包含的样本数;H(n-1)为调和数,该值可以被估计为ln(n-1)+0.5772156649。
s(x,n)为特征的异常得分;E(h(x))为样本x在一批孤立树中的路径长度的期望;h(x)为样本x的路径长度。
可选的,所述利用恶意IP情报匹配结果和C&C server IP检测结果对异常打分结果进行补充和修正,包括:
获取预先设立的恶意IP集,如果主机IP地址关联到恶意IP,异常打分结果乘以预设第一系数;
在主机IP地址没有关联到恶意IP,则利用C&C server IP检测结果对异常打分结果进行补充和修正。
可选的,所述利用C&C server IP检测结果对异常打分结果进行补充和修正,包括:
统计域名解析到的IP所对应的去重主域名量;
利用分位数统计选取阈值:
将大于阈值的IP提取出来作为疑似C&C server IP集,如果关联到C&C server IP检测结果,异常打分结果乘以预设第二系数。
本发明实施例提供了一种基于DNS分析的主机失陷检测装置,所述装置包括:
分类模块,用于利用预先训练的LSTM对待检测域名进行分类;
抽取模块,用于抽取待检测域名的主机IP地址的特征;
打分模块,用于根据分类结果以及所抽取的特征,利用异常检测算法对主机IP地址进行异常打分;
修正模块,用于利用恶意IP情报匹配结果和C&C server IP检测结果对异常打分结果进行补充和修正。
可选的,所述抽取模块,用于:
NXdomain的主域名去重数为NXdomain的主域名去重统计得到的数量;Client IP为主域名去重数为主机IP所重复访问的主域名数量。
可选的,所述打分模块,用于:
将分类结果作为每一个主机IP地址的一个特征并组合到对应的所抽取的特征中,将组合后的特征作为主机IP的目标特征;
利用公式,c(n)=2H(n-1)-(2(n-1)/n),计算平均每一个目标特征对应的路径长度,其中,
c(n)为平均路径长度;n为数据集包含的样本数;H(n-1)为调和数,该值可以被估计为ln(n-1)+0.5772156649。
s(x,n)为特征的异常得分;E(h(x))为样本x在一批孤立树中的路径长度的期望;h(x)为样本x的路径长度。
可选的,所述修正模块,用于:
获取预先设立的恶意IP集,如果主机IP地址关联到恶意IP,异常打分结果乘以预设第一系数;
在主机IP地址没有关联到恶意IP,则利用C&C server IP检测结果对异常打分结果进行补充和修正。
可选的,所述修正模块,用于:
统计域名解析到的IP所对应的去重主域名量;
利用分位数统计选取阈值:
将大于阈值的IP提取出来作为疑似C&C server IP集,如果关联到C&C server IP检测结果,异常打分结果乘以预设第二系数。
本发明的优点在于:
应用本发明实施例,通过对疑似DGA的主域名进行分类,然后将分类结果作为每一个主机IP地址的一个特征并组合到对应的所抽取的特征中,将组合后的特征作为主机IP的目标特征,再利用无监督分类算法对目标特征进行异常评估处理,最后使用恶意IP情报匹配结果和C&C server IP检测结果进行修正,进而可以对失陷主机进行检测。
附图说明
图1为本发明实施例提供的一种基于DNS分析的主机失陷检测方法的流程示意图;
图2为本发明实施例提供的标签编码的结构示意图;
图3为本发明实施例提供的BiLSTM模型结构示意图;
图4为本发明实施例提供BiLSTM模型的混淆矩阵示意图;
图5为发明实施例提供BiLSTM ROC曲线示意图;
图6为本发明实施例提供的主机IP地址的特征箱型图;
图7为本发明实施例提供的一种基于DNS分析的主机失陷检测装置。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种基于DNS分析的主机失陷检测方法的流程示意图,如图1所示,
S101:利用预先训练的LSTM对待检测域名进行分类。
示例性的,该步骤包括:
1)选取正负样本
a)可以预先选取Alexa数据集中前1000000个数据作为正常域名样本:选取google.com、facebook.com、youtube.com、baidu.com、yahoo.com、amazon.com、wikipedia.org、qq.com、twitter.com、…等。
b)选取选取针对DGA算法的恶意软件如cryptolocker,zeus,pushdo,rovnix,tinba,conficker,matsnu,ramdo所生成的样本共801667条作为DGA域名的负样本。如,ofdhiydrrttpblp.com、puciftnfkplcbhp.net、bowjjxxnhkyvygk.biz、osvwkptpwqyiqen.ru、cpmjpnwdgbxyyql.org、ptlwqfsfvhxlaxw.co.uk、wwcdhdhijsfsuyr.info、kbbqiudkyyffmeq.com、xxrdnsgxijevnij.net、…等。
2)然后,对域名做字符级标签编码,编码格式如图2所示。
在机器学习中,因为模型的输入项基本都需要是数值型变量,而类别变量本身不带数值属性,所以通常需要对类别变量单独做处理。label encoding是树模型中常用的变量转换方法,能够将类别变量转换成数值型。如图2所示,[g,o,o,g,l,e,.,c,o,m]我们把其转换为[1,2,2,1,3,4,5,6,2,7],于是域名就完成了数值型转换。
3)然后,建立BiLSTM分类模型,模型结构如图3所示,将域名作为BiLSTM的输入,通过神经网络结构完成向量表征的提取,最后实现Domain向量分类。训练模型使用正样本和负样本进行训练,得到预先训练的LSTM。
在本步骤中,获取的DNS日志为:
2018-Jun 2 16:00:00 10.16.2.108.57610>10.33.194.8.53:[udp sum ok]6901+A?www.baidu.com response:180.101.49.11
2018-Jun 2 16:00:00 10.16.2.108.57610>10.33.194.8.53:[udp sum ok]6901+A?abceddkajdfhekfjjjfoeok.it response:NXdomain
然后对DNS日志进行字段抽取,例如,表1为记录了兑换人给受益人兑换奖品的事件,如表1所示,
表1
字段名称 | 字段 |
时间 | Time |
主机IP | 主机IP地址 |
主机端口 | Client Port |
服务器IP | Server IP |
服务器端口 | Server Port |
请求方式 | Request type |
域名 | Domain |
解析地址 | Domain IP |
是否是NXdomain | Is_NXdomain |
然后使用预先训练LSTM DGA检测模型进行待检测域名分类。
在实际应用中,如图5所示,ROC(receiver operating characteristic curve,受试者工作特征曲线)中可以看出,AUC(Area Under Curve,ROC曲线下与坐标轴围成的面积)值为0.99721,ACC(accuracy,准确率)值为0.99721,因此,本发明实施例具有很好的分类效果。
另外,本发明实施例中使用的双向LSTM较单向LSTM收敛速度更快,且BiLSTM分类模型即双向LSTM模型可以使用现有的模型。
S102:抽取待检测域名的主机IP地址的特征。
图6为本发明实施例提供的主机IP地址的特征箱型图,表6为本发明实施例中所抽取的特征汇总表,如图6和表2所示,对所有主机IP地址按照如下方式抽取特征:
表2
(1)NXdomain的主域名去重统计,即将主机IP地址的DNS请求失败中包括的主域名的进行去重统计,得到NXdomain的主域名去重数。例如,统计出该主机IP地址访问了10个主域名,其中有三个是重复的,可以将该特征值设为三。通常情况下,主机IP地址对应的解析失败的主域名越多,该主机越可能是失陷主机。
(2)NXdomain的主域名去重占比:
Client IP的主域名去重数为主机IP所重复访问的主域名数量。通常情况下,NXdomain的主域名去重占比越高,越可能是失陷主机。
(3)疑似DGA的主域名去重统计:
主机IP地址的DNS请求的主域名,被双向LSTM判断为DGA生成的域名的数量统计。该值越高,主机IP地址对应的主机越可能是失陷主机。
需要说明的是,DGA是成批生成的域名,但是通常只有其中一条或少数几条域名访问成功;这样会存在大量的NXdomain(即访问失败的域名请求分析)。黑客在管理域名的时候,为了提升C&C服务器的利用率,通常会让多个域名指向一个C&C服务器,这样会存在一个C&C服务器被多个主域名解析的现象。
(4)NXdomain的主域名中没有成功过的去重统计:
主机IP地址的DNS请求失败中主域名中从来没有被解析成功的去重统计。该值越高,主机IP地址对应的主机越可能是失陷主机。
S103:根据分类结果以及所抽取的特征,利用异常检测算法对主机IP地址进行异常打分。
示例性的,可以将S101步骤中的分类结果作为特征值加入到S102步骤中得到的特征中,得到组合后的目标特征,每一个目标特征即本步骤中所指的样本;若干个目标特征组成样本集。需要强调的是,S101步骤和S102步骤之间并无先后顺序关系,先执行S101步骤,或者先执行S102步骤,或者S101步骤与S102步骤同时执行均可,本发明实施例在此并不对其作出限定。
利用孤立森林算法,生成100棵树。每一棵树都会对主机IP地址的特征数据进行打分,即利用公式,c(n)=2H(n-1)-(2(n-1)/n),计算平均每一个目标特征对应的路径长度,其中,
c(n)为平均路径长度;n为数据集包含的样本数;H(n-1)为调和数,该值可以被估计为ln(n-1)+0.5772156649。
然后,
s(x,n)为特征的异常得分;E(h(x))为样本x在一批孤立树中的路径长度的期望;h(x)为样本x的路径长度。
计算每个主机IP地址的平均分数,然后做线性变换将最大值投影到100分上,最小值投影到0分上。
S104:利用恶意IP情报匹配结果和C&C server IP检测结果对异常打分结果进行补充和修正。
首先,利用恶意IP情报匹配结果对结果进行补充和修正可以为:
对域名解析的IP进行情报匹配,获取恶意IP集,对解析到的IP进行情报匹配,就是通过调用现有的情报社区的API接口来对IP进行检测,通过检测结果来判断该IP是否为恶意IP,最后将识别为恶意IP的结果汇总,得到恶意IP集。如果主机IP地址关联到恶意IP,异常打分结果乘以预设第一系数,如1.2。
然后,主机IP地址没有关联到恶意IP,则利用C&C server IP检测结果对异常打分结果进行补充和修正,具体可以为:
统计域名解析到的IP所对应的去重主域名量,要统计去重主域名量首先需要统计所解析内容中单个IP所对应的所有主域名,然后对这些主域名进行去重操作,计算最后的数值即可。(该值越大,对应IP的机器越可能C&C server);利用分位数统计选取阈值:选取步骤a)统计结果的1/4分位数+3/4分位数,作为阈值;将步骤a)中大于步骤b)阈值的IP提取出来作为疑似C&C server IP集。如果关联到C&C server IP检测结果,异常打分结果乘以预设第二系数,如1.1。
最后,对分数截断处理,对分数大于100分的按100分输出。
加入恶意IP情报信息和C&C server IP的关联分析,提升失陷主机的准确率
应用本发明实施例,通过对疑似DGA的主域名进行分类,然后将分类结果作为每一个主机IP地址的一个特征并组合到对应的所抽取的特征中,将组合后的特征作为主机IP的目标特征,再利用无监督分类算法对目标特征进行异常评估处理,最后使用恶意IP情报匹配结果和C&C server IP检测结果进行修正,进而可以对失陷主机进行检测。
目前,现有技术中还会使用单一检测DGA域名的技术,通过对域名这个对象进行研究并告警;即对长得像DGA域名的域名请求告警。常用的方法有人工抽取域名的信息,例如域名的长度,是否是DGA常用顶级域名和主域名的信息熵等;利用神经网络直接对域名进行分类。该方法的主要坏处是,研究对象选择有错误:1、许多公司DNS的每天请求量一般在百万级以上,大厂的请求量超过亿级别,即使该方法的准确率有99.99%也会存在成千上万的告警;2、很多公司自己也会使用DGA来做通信管理,这样即使检测到,也会是正常的DGA域名。相应的,其检测效果通常存在检测误报率高、漏报率高的缺点。
另外,现有技术中还会对机器的NXdomain访问量做时间序列监控进而实现主机检测:对每台机器的NXdomain量在单位时间内进行统计,设定一定的阈值,对NXdomain量高的机器进行告警。这种做法有以下问题:1、阈值的选择,在时间序列分析时,选用不同的时间序列方法就会产生不同的阈值,没法评判孰好孰坏,这就导致阈值不好选择;2、对于低频的DGA算法没法识别;3、当某个常用域名出现解析不成功或DNS server出现问题时,会产生大量的错误告警。
本发明实施例中的研究对象是主机,较研究对象为Domain的技术方案告警少;而且本发明实施例中抽取的特征是主域名的去重统计,比传统的次数统计更能体现DGA行为,检测的准确率更高。
与本发明图1所示实施例相对应,本发明实施例还提供了一种基于DNS分析的主机失陷检测装置。
图7为本发明实施例提供的一种基于DNS分析的主机失陷检测装置,如图7所示,所述装置包括:
分类模块701,用于利用预先训练的LSTM对待检测域名进行分类;
抽取模块702,用于抽取待检测域名的主机IP地址的特征;
打分模块703,用于根据分类结果以及所抽取的特征,利用异常检测算法对主机IP地址进行异常打分;
修正模块704,用于利用恶意IP情报匹配结果和C&C server IP检测结果对异常打分结果进行补充和修正。
应用本发明实施例,通过对疑似DGA的主域名进行分类,然后将分类结果作为每一个主机IP地址的一个特征并组合到对应的所抽取的特征中,将组合后的特征作为主机IP的目标特征,再利用无监督分类算法对目标特征进行异常评估处理,最后使用恶意IP情报匹配结果和C&C server IP检测结果进行修正,进而可以对失陷主机进行检测。
在本发明实施例的一种具体实施方式中,所述抽取模块702,用于:
NXdomain的主域名去重数为NXdomain的主域名去重统计得到的数量;Client IP为主域名去重数为主机IP所重复访问的主域名数量。
在本发明实施例的一种具体实施方式中,所述打分模块703,用于:
将分类结果作为每一个主机IP地址的一个特征并组合到对应的所抽取的特征中,将组合后的特征作为主机IP的目标特征;
利用公式,c(n)=2H(n-1)-(2(n-1)/n),计算平均每一个目标特征对应的路径长度,其中,
c(n)为平均路径长度;n为数据集包含的样本数;H(n-1)为调和数,该值可以被估计为ln(n-1)+0.5772156649。
s(x,n)为特征的异常得分;E(h(x))为样本x在一批孤立树中的路径长度的期望;h(x)为样本x的路径长度。
在本发明实施例的一种具体实施方式中,所述修正模块704,用于:
获取预先设立的恶意IP集,如果主机IP地址关联到恶意IP,异常打分结果乘以预设第一系数;
在主机IP地址没有关联到恶意IP,则利用C&C server IP检测结果对异常打分结果进行补充和修正。
在本发明实施例的一种具体实施方式中,所述修正模块704,用于:
统计域名解析到的IP所对应的去重主域名量;
利用分位数统计选取阈值:
将大于阈值的IP提取出来作为疑似C&C server IP集,如果关联到C&C server IP检测结果,异常打分结果乘以预设第二系数。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于DNS分析的主机失陷检测方法,其特征在于,所述方法包括:
利用预先训练的LSTM对待检测域名进行分类;
抽取待检测域名的主机IP地址的特征;
根据分类结果以及所抽取的特征,利用异常检测算法对主机IP地址进行异常打分;
利用恶意IP情报匹配结果和C&C server IP检测结果对异常打分结果进行补充和修正。
3.根据权利要求2所述的一种基于DNS分析的主机失陷检测方法,其特征在于,所述根据分类结果以及所抽取的特征,利用异常检测算法对主机IP地址进行异常打分,包括:
将分类结果作为每一个主机IP地址的一个特征并组合到对应的所抽取的特征中,将组合后的特征作为主机IP的目标特征;
利用公式,c(n)=2H(n-1)-(2(n-1)/n),计算平均每一个目标特征对应的路径长度,其中,
c(n)为目标特征对应的平均路径长度;n为数据集包含的样本数;H(n-1)为调和数,该值可以被估计为ln(n-1)+0.5772156649。
s(x,n)为目标特征的异常得分;E(h(x))为样本x在一批孤立树中的路径长度的期望;h(x)为样本x的路径长度。
4.根据权利要求1所述的一种基于DNS分析的主机失陷检测方法,其特征在于,所述利用恶意IP情报匹配结果和C&C server IP检测结果对异常打分结果进行补充和修正,包括:
获取预先设立的恶意IP集,如果主机IP地址关联到恶意IP,异常打分结果乘以预设第一系数;
在主机IP地址没有关联到恶意IP,则利用C&C server IP检测结果对异常打分结果进行补充和修正。
5.根据权利要求4所述的一种基于DNS分析的主机失陷检测方法,其特征在于,所述利用C&C server IP检测结果对异常打分结果进行补充和修正,包括:
统计域名解析到的IP所对应的去重主域名量;
利用分位数统计选取阈值:
将大于阈值的IP提取出来作为疑似C&C server IP集,如果关联到C&C server IP检测结果,异常打分结果乘以预设第二系数。
6.一种基于DNS分析的主机失陷检测装置,其特征在于,所述装置包括:
分类模块,用于利用预先训练的LSTM对待检测域名进行分类;
抽取模块,用于抽取待检测域名的主机IP地址的特征;
打分模块,用于根据分类结果以及所抽取的特征,利用异常检测算法对主机IP地址进行异常打分;
修正模块,用于利用恶意IP情报匹配结果和C&C server IP检测结果对异常打分结果进行补充和修正。
8.根据权利要求7所述的一种基于DNS分析的主机失陷检测方法,其特征在于,所述打分模块,用于:
将分类结果作为每一个主机IP地址的一个特征并组合到对应的所抽取的特征中,将组合后的特征作为主机IP的目标特征;
利用公式,c(n)=2H(n-1)-(2(n-1)/n),计算平均每一个目标特征对应的路径长度,其中,
c(n)为平均路径长度;n为数据集包含的样本数;H(n-1)为调和数,该值可以被估计为ln(n-1)+0.5772156649。
s(x,n)为特征的异常得分;E(h(x))为样本x在一批孤立树中的路径长度的期望;h(x)为样本x的路径长度。
9.根据权利要求6所述的一种基于DNS分析的主机失陷检测方法,其特征在于,所述修正模块,用于:
获取预先设立的恶意IP集,如果主机IP地址关联到恶意IP,异常打分结果乘以预设第一系数;
在主机IP地址没有关联到恶意IP,则利用C&C server IP检测结果对异常打分结果进行补充和修正。
10.根据权利要求9所述的一种基于DNS分析的主机失陷检测方法,其特征在于,所述修正模块,用于:
统计域名解析到的IP所对应的去重主域名量;
利用分位数统计选取阈值:
将大于阈值的IP提取出来作为疑似C&C server IP集,如果关联到C&C server IP检测结果,异常打分结果乘以预设第二系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010192612.0A CN111431884B (zh) | 2020-03-18 | 2020-03-18 | 一种基于dns分析的主机失陷检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010192612.0A CN111431884B (zh) | 2020-03-18 | 2020-03-18 | 一种基于dns分析的主机失陷检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111431884A true CN111431884A (zh) | 2020-07-17 |
CN111431884B CN111431884B (zh) | 2022-02-11 |
Family
ID=71547520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010192612.0A Active CN111431884B (zh) | 2020-03-18 | 2020-03-18 | 一种基于dns分析的主机失陷检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111431884B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112333185A (zh) * | 2020-11-02 | 2021-02-05 | 北京金睛云华科技有限公司 | 一种基于dns解析的域名阴影检测方法和装置 |
CN115208625A (zh) * | 2022-06-01 | 2022-10-18 | 阿里巴巴(中国)有限公司 | 数据处理方法以及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107786575A (zh) * | 2017-11-11 | 2018-03-09 | 北京信息科技大学 | 一种基于dns流量的自适应恶意域名检测方法 |
US20180167402A1 (en) * | 2015-05-05 | 2018-06-14 | Balabit S.A. | Computer-implemented method for determining computer system security threats, security operations center system and computer program product |
US20180288086A1 (en) * | 2017-04-03 | 2018-10-04 | Royal Bank Of Canada | Systems and methods for cyberbot network detection |
CN109345137A (zh) * | 2018-10-22 | 2019-02-15 | 广东精点数据科技股份有限公司 | 一种基于农业大数据的异常值检测方法 |
CN110147839A (zh) * | 2019-05-20 | 2019-08-20 | 哈尔滨英赛克信息技术有限公司 | 基于XGBoost的算法生成域名检测模型的方法 |
CN110149258A (zh) * | 2019-04-12 | 2019-08-20 | 北京航空航天大学 | 一种基于孤立森林的汽车can总线网络数据异常检测方法 |
CN110191103A (zh) * | 2019-05-10 | 2019-08-30 | 长安通信科技有限责任公司 | 一种dga域名检测分类方法 |
-
2020
- 2020-03-18 CN CN202010192612.0A patent/CN111431884B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180167402A1 (en) * | 2015-05-05 | 2018-06-14 | Balabit S.A. | Computer-implemented method for determining computer system security threats, security operations center system and computer program product |
US20180288086A1 (en) * | 2017-04-03 | 2018-10-04 | Royal Bank Of Canada | Systems and methods for cyberbot network detection |
CN107786575A (zh) * | 2017-11-11 | 2018-03-09 | 北京信息科技大学 | 一种基于dns流量的自适应恶意域名检测方法 |
CN109345137A (zh) * | 2018-10-22 | 2019-02-15 | 广东精点数据科技股份有限公司 | 一种基于农业大数据的异常值检测方法 |
CN110149258A (zh) * | 2019-04-12 | 2019-08-20 | 北京航空航天大学 | 一种基于孤立森林的汽车can总线网络数据异常检测方法 |
CN110191103A (zh) * | 2019-05-10 | 2019-08-30 | 长安通信科技有限责任公司 | 一种dga域名检测分类方法 |
CN110147839A (zh) * | 2019-05-20 | 2019-08-20 | 哈尔滨英赛克信息技术有限公司 | 基于XGBoost的算法生成域名检测模型的方法 |
Non-Patent Citations (2)
Title |
---|
FANGLI REN等: "《Integrating an Attention Mechanism and Deep Neural Network for Detection of DGA Domain Names》", 《2019 IEEE 31ST INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE (ICTAI)》 * |
王浩: "《基于机器学习的异常DNS流量检测研究》", 《中国优秀硕士论文辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112333185A (zh) * | 2020-11-02 | 2021-02-05 | 北京金睛云华科技有限公司 | 一种基于dns解析的域名阴影检测方法和装置 |
CN112333185B (zh) * | 2020-11-02 | 2023-01-17 | 北京金睛云华科技有限公司 | 一种基于dns解析的域名阴影检测方法和装置 |
CN115208625A (zh) * | 2022-06-01 | 2022-10-18 | 阿里巴巴(中国)有限公司 | 数据处理方法以及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111431884B (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11463476B2 (en) | Character string classification method and system, and character string classification device | |
CN108737406B (zh) | 一种异常流量数据的检测方法及系统 | |
CN112866023B (zh) | 网络检测、模型训练方法、装置、设备及存储介质 | |
CN105590055B (zh) | 用于在网络交互系统中识别用户可信行为的方法及装置 | |
WO2018235252A1 (ja) | 分析装置、ログの分析方法及び記録媒体 | |
CN110557382A (zh) | 一种利用域名共现关系的恶意域名检测方法及系统 | |
WO2023093100A1 (zh) | 一种api网关异常调用识别的方法、装置、设备及产品 | |
CN113378899B (zh) | 非正常账号识别方法、装置、设备和存储介质 | |
CN111431884B (zh) | 一种基于dns分析的主机失陷检测方法及装置 | |
US20200394448A1 (en) | Methods for more effectively moderating one or more images and devices thereof | |
CN113704328B (zh) | 基于人工智能的用户行为大数据挖掘方法及系统 | |
US20220400133A1 (en) | Information leakage detection method and device using the same | |
CN113315851A (zh) | 域名检测方法、装置及存储介质 | |
CN112882899B (zh) | 一种日志异常检测方法及装置 | |
CN111291078B (zh) | 一种域名匹配检测方法及装置 | |
CN116846690A (zh) | 基于行业分类和概率模型的IPv6网络空间测绘方法 | |
CN110929506A (zh) | 一种垃圾信息检测方法、装置、设备及可读存储介质 | |
CN111431909B (zh) | 用户实体行为分析中分组异常检测方法及装置、终端 | |
CN115001724B (zh) | 网络威胁情报管理方法、装置、计算设备及计算机可读存储介质 | |
CN111475380B (zh) | 一种日志分析方法和装置 | |
CN115051859A (zh) | 情报分析方法、情报分析装置、电子设备及介质 | |
CN115964478A (zh) | 网络攻击检测方法、模型训练方法及装置、设备及介质 | |
CN112597498A (zh) | 一种webshell的检测方法、系统、装置及可读存储介质 | |
CN112488140A (zh) | 一种数据关联方法及装置 | |
CN111565187B (zh) | 一种dns异常检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |