CN111031026A - 一种dga恶意软件感染主机检测方法 - Google Patents

一种dga恶意软件感染主机检测方法 Download PDF

Info

Publication number
CN111031026A
CN111031026A CN201911248809.5A CN201911248809A CN111031026A CN 111031026 A CN111031026 A CN 111031026A CN 201911248809 A CN201911248809 A CN 201911248809A CN 111031026 A CN111031026 A CN 111031026A
Authority
CN
China
Prior art keywords
domain name
dga
data set
suspicious
host
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911248809.5A
Other languages
English (en)
Inventor
刘书航
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN201911248809.5A priority Critical patent/CN111031026A/zh
Publication of CN111031026A publication Critical patent/CN111031026A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种DGA恶意软件感染主机检测方法,提取DNS数据作为原始数据集,构造训练数据集,对所有数据特征提取并归一化处理,以处理后的训练数据特征进行训练,得到稳定模型,以原始数据集数据输入模型得到可疑DGA域名列表,对进行误报过滤后的可疑DGA域名列表进行感染主机确认。本发明采用信息熵、隐马尔可夫链、N‑gram模型等方法提取特征建模预测可疑域名,通过计算同一IP地址发起的可疑域名请求的统计特征判断DGA恶意程序感染主机,兼容多种DGA可疑域名检测,通过感染主机请求可疑域名的行为特征剔除误报,具有低人工参与判别的优势,具有高检测覆盖率、高识别率和低误报率的优势,具有实际应用价值。

Description

一种DGA恶意软件感染主机检测方法
技术领域
本发明涉及数字信息的传输,例如电报通信的技术领域,特别涉及一种DGA恶意软件感染主机检测方法。
背景技术
DGA域名是指利用域名生成算法(Domain Generation Algorithm)生成的一系列随机域名,DGA恶意软件则是指利用DGA算法生成大量动态变化的域名,从而躲避威胁情报、域名黑名单的检测,常用于僵尸网络(Botnet)。著名的DGA恶意软件家族有conficker、zeus等。
利用DGA域名进行恶意软件传播和控制相对比较隐蔽,且难以追踪,攻击者通过算法在每天生成的大量随机域名中挑选一个或多个注册成为C2服务器域名,就可以实现对感染主机的控制,而已有的威胁情报系统无法有效检测到这种新产生的域名的信誉度。
现有技术中,DGA域名检测包括多种方法,例如通过规则判断、统计特征判断、机器学习分类算法、深度学习训练检测模型等,但由于DGA生成算法的灵活性,导致各类DGA病毒家族特征差异较大,目前还没有一种比较完善的高检测率模型可以针对不同的DGA家族(包括未知家族)且具有普适效果,同时,由于正常流量环境下DGA恶意域名占比很小,对误报非常敏感,因此如何剔除误报有效识别感染主机才是最急需解决的问题。
专利申请号为CN201711130020.0的专利“DGA域名实时检测方法和装置”采用深度学习(ImageNet数据集的各类训练好的深度学习网络)将DGA域名转换成图片,提取特征,再对提取的特征训练分类器进行DGA域名预测。但事实上,各类DGA恶意软件家族的DGA域名特征差异较大,采用深度学习提取特征对样本要求较高,对某些未知DGA家族检测效果可能不理想。
专利申请号为CN201910344380.3的专利“一种检测DGA域名的方法及装置”,对域名计算索引序列,通过训练卷积神经网络得到预测模型。然而,采用卷积神经网络训练模型存在特征提取不全面、训练速度慢等问题,且单一域名的预测结果在实际场景中误报率较高(黑样本占比很低)。
专利申请号为CN201910387482.3的专利“一种DGA域名检测分类方法”对域名采用LSTM模型进行训练,得到的结果通过黑白名单、人工统计判断输出结果并反馈训练样本集。然而单一域名的预测结果在实际场景中误报率较高(黑样本占比很低),会导致大量人工判断的开销。
专利申请号为CN201510971299.X的专利“基于随机森林的DGA域名检测方法”使用随机森林算法做DGA域名检测,特征提取包含域名长度、域名信息熵、域名语音性、域名中元音字符数、域名中数字字符数、域名中重复字母数、域名中连续数字字符数、域名中非元音连续字符数、域名中N元语言模型在白名单中得分以及域名中N元语言模型在单词词典中得分等。其提取的特征有效性并不一定适用于所有DGA家族,部分场景下检测率较低。
综上,现有技术主要通过对DGA域名自身的特征提取来训练机器学习分类器或构造神经网络来做恶意域名识别,在特征选择、算法优化、实际场景下的误报筛除等方面具有较大的困难,无法做到对各类型DGA域名都具有高效的检测效果。
发明内容
本发明解决了现有技术中存在的问题,提供了一种优化的DGA恶意软件感染主机检测方法,基于感染主机的异常域名请求行为特征,对筛选出的可疑DGA域名请求记录进行二次分析,并通过加载中文拼音库提取词组首字母组合排除首字母缩写域名的误报、通过域名查询返回rcode值的占比剔除正常域名的误报,最终识别出感染DGA恶意软件的主机。
本发明所采用的技术方案是,一种DGA恶意软件感染主机检测方法,所述方法包括以下步骤:
步骤1:提取DNS数据作为原始数据集;
步骤2:构造训练数据集;
步骤3:对训练数据集中的训练数据和原始数据集的数据进行特征提取;
步骤4:对提取的特征进行归一化处理;
步骤5:以处理后的训练数据的特征进行训练,得到稳定的模型,以原始数据集的数据输入模型,得到可疑DGA域名列表;
步骤6:对可疑DGA域名列表进行误报过滤;
步骤7:基于过滤后的可疑DGA域名列表进行感染主机确认。
优选地,所述步骤1中,DNS数据为从实际网络流量中提取的DNS查询请求数据。
优选地,所述步骤2中,以Alexa的域名为训练数据集的负样本,以公开DGA算法的域名为训练数据集的正样本。
优选地,步骤3中,提取的特征包括:
字符随机性特征,为任一域名的Shannon熵;
域名长度特征,为任一域名的字符串长度;
域名N-gram特征,为取n为2和3时,任一域名的字符串bigram、trigram的平均排名;
域名可读性特征,为计算任一域名的字符串中元音字母个数、元音字母占比、去重后的字母个数、去重后的数字个数及其占比获得;
域名TLD特征,为取任一域名TLD、使用独热编码处理后的特征串;
转移概率特征,为以隐马尔科夫链计算得到的任一域名的转移概率。
优选地,所述步骤5中,训练分类器时,对训练数据集使用10折交叉验证。
优选地,所述步骤6的过滤包括过滤汉语拼音导致的误报和过滤其他正常单一域名导致的误报。
优选地,所述过滤汉语拼音导致的误报包括以下步骤:
步骤6.1.1:获取开源拼音库数据;
步骤6.1.2:提取中文词组的拼音全拼和首字母组合;
步骤6.1.3:使用贪婪算法判断可疑DGA域名列表中的域名是否为拼音或首字母组成,若是,则从可疑DGA域名列表中删除,否则保留。
优选地,所述过滤其他正常单一域名导致的误报包括以下步骤:
步骤6.2.1:对原始数据集中匹配到可疑DGA域名列表中的数据进行统计;
步骤6.2.2:基于统计后的结果,按照源地址进行分组聚合;
步骤6.2.3:筛选出预设时间内请求不同可疑域名个数超过m的疑似感染主机IP及其对应的可疑DGA域名列表,m≥5。
优选地,所述步骤7包括以下步骤:
步骤7.1:基于过滤后的可疑DGA域名列表进行whois查询;
步骤7.2:统计DNS服务器返回NXDOMAIN和NOERROR的占比;
步骤7.3:若返回NXDOMAIN的域名占比大于80%,则确定当前主机为感染主机;
若返回NXDOMAIN的域名占比在40%-80%的范围内,则当前主机需要人工核查是否为感染主机;
其他情况,则当前主机非感染主机,标注误报。
优选地,所述步骤7.3中,将人工核查的结果反馈到训练数据集中,作为误报或确认样本,优化训练数据及模型。
本发明提供了一种优化的DGA恶意软件感染主机检测方法,通过提取DNS数据作为原始数据集,构造训练数据集,对训练数据集中的训练数据和原始数据集的数据进行特征提取并进行归一化处理,以处理后的训练数据的特征进行训练,得到稳定的模型,以原始数据集的数据输入模型,得到可疑DGA域名列表,对可疑DGA域名列表进行误报过滤,基于过滤后的可疑DGA域名列表进行感染主机确认。
本发明综合采用信息熵、隐马尔可夫链、N-gram模型等方法提取特征建模预测可疑域名,再通过计算同一IP地址发起的可疑域名请求的统计特征判断DGA恶意程序感染主机,兼容多种DGA可疑域名检测,可增加其他域名检测方法来提高检测率,通过最终的感染主机请求可疑域名的行为特征剔除误报,可以有效应对各类DGA恶意软件家族,具有低人工参与判别的优势,在实际中具有高检测覆盖率、高识别率和低误报率的优势,且更具有实际应用价值。
本发明基于感染主机的异常域名请求行为特征,对筛选出的可疑DGA域名请求记录进行二次分析,并通过加载中文拼音库提取词组首字母组合排除首字母缩写域名的误报、通过域名查询返回rcode值分布剔除正常域名的误报,最终识别出感染DGA恶意软件的主机;在实际环境中,对感染主机的有效识别是进行DGA域名检测的最终目的,因此本发明具有更高的应用价值。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实施例对本发明做进一步的详细描述,但本发明的保护范围并不限于此。
本发明涉及一种DGA恶意软件感染主机检测方法,所述方法包括以下步骤。
步骤1:提取DNS数据作为原始数据集。
所述步骤1中,DNS数据为从实际网络流量中提取的DNS查询请求数据。
本发明中,DNS查询请求数据包括源地址(内部主机的IPv4地址)、目的地址(dns服务器IPv4地址)、查询域名(dns rrname)、查询类型(dns rrtype)。
本发明中,过滤出dns.rrtype=A的查询域名作为原始数据集。
步骤2:构造训练数据集。
所述步骤2中,以Alexa的域名为训练数据集的负样本,以公开DGA算法的域名为训练数据集的正样本。
本发明中,负样本包括100万域名,采用Alexa机构统计的世界范围内互联网访问次数最多的100万个域名;公开DGA算法的域名指DGA域名数据集,每类DGA域名根据特定DGA算法生成,算法被公开后可以自动生成历史以来该样本所有DGA域名,如,以360netlab整理的公开DGA域名列表https://data.netlab.360.com/feeds/dga/dga.txt作为正样本数据使用。
本发明中,对正样本和负样本打上标签后,构造训练数据集。
步骤3:对训练数据集中的训练数据和原始数据集的数据进行特征提取。
步骤3中,提取的特征包括:
字符随机性特征,为任一域名的Shannon熵;
域名长度特征,为任一域名的字符串长度;
域名N-gram特征,为取n为2和3时,任一域名的字符串bigram、trigram的平均排名;
域名可读性特征,为计算任一域名的字符串中元音字母个数、元音字母占比、去重后的字母个数、去重后的数字个数及其占比获得;
域名TLD特征,为取任一域名TLD、使用独热编码(OneHotEncode)处理后的特征串;
转移概率特征,为以隐马尔科夫链计算得到的任一域名的转移概率。
本发明中,DGA域名通常具有随机性高、长度长、可读性差、使用罕见顶级域名TLD、转义概率小等特征,基于此,以www.google.com为例,提取上述特征。
本发明中,域名的Shannon熵H(x)=-∑xP(x)log2[P(x)];首先计算域名中各个字母出现的概率为,w=0.25、g=0.167、o=0.25、l=0.083、e=0.083、c=0.083、m=0.083,基于公式,得到www.google.com的shannon熵为-[0.25*log20.25*2+0.167*log20.167+0.083*log20.083*4]=0.7897。
本发明中,对域名计算域名长度为len=14。
本发明中,域名的二级主域名为google,其bigram和trigram分别为:
bigram:[go,oo,og,gl,le];
trigram:[goo,oog,ogl,gle];
对训练数据集中的所有域名分别提取bigram和trigram,合并到bigram_all和trigram_all集合中,对集合中的每个值计算在全部域名中的出现频率,并对计算结果按照高到低排序,排名第一的表示出现频率最多的双字母或多字母组合;记录集合中每个bigram和trigram的排名;基于此,对google域名包含的bigram和trigram分别计算平均排名:bigram_avg=1/5*[rank(go)+rank(oo)+rank(og)+rank(gl)+rank(le)];trigram_avg=1/4*[rank(goo)+rank(oog)+rank(ogl)+rank(gle)];
本发明中:对于域名中的google来说,元音字母个数=3,元音字母占比=0.5,去重后的字母个数=4,去重后的字母占比=4/6=0.67,去重后的数字个数=0,去重后的数字占比=0;其中,占比是指去重后的字母个数/字符总数、去重后的数字个数/字符总数,每一项都视为一个特征,整体为一系列特征。
本发明中,对域名www.google.com,取TLD域名.com生成特征:is_com=1;取训练数据集中去重后的所有TLD,生成特征,如:is_net=0,is_cn=0等。
本发明中,使用马尔科夫链计算二级主域名的转移概率,主域名中每个字母定义为马尔科夫链中的一个状态,对训练数据集中所有二级主域名计算马尔科夫链的转移矩阵,再通过转移矩阵计算域名转移概率,转移概率低则表示域名随机性更高。
步骤4:对提取的特征进行归一化处理。
本发明中,对连续型特征做归一化处理,是使得处理后所有特征的取值范围在[0,1]之间。
本发明中,域名TLD特征中采用了独热编码处理,每一种TLD,如com、net、cn、cc等,都代表一个特征,维度数量可能较多,在提取特征维度较多的情况下,还可以使用PCA降维处理。
步骤5:以处理后的训练数据的特征进行训练,得到稳定的模型,以原始数据集的数据输入模型,得到可疑DGA域名列表。
所述步骤5中,训练分类器时,对训练数据集使用10折交叉验证。
步骤6:对可疑DGA域名列表进行误报过滤。
所述步骤6的过滤包括过滤汉语拼音导致的误报和过滤其他正常单一域名导致的误报。
所述过滤汉语拼音导致的误报包括以下步骤:
步骤6.1.1:获取开源拼音库数据;
步骤6.1.2:提取中文词组的拼音全拼和首字母组合;
步骤6.1.3:使用贪婪算法判断可疑DGA域名列表中的域名是否为拼音或首字母组成,若是,则从可疑DGA域名列表中删除,否则保留。
所述过滤其他正常单一域名导致的误报包括以下步骤:
步骤6.2.1:对原始数据集中匹配到可疑DGA域名列表中的数据进行统计;
步骤6.2.2:基于统计后的结果,按照源地址进行分组聚合;
步骤6.2.3:筛选出预设时间内请求不同可疑域名个数超过m的疑似感染主机IP及其对应的可疑DGA域名列表,m≥5。
本发明中,在其他已有DGA域名检测方法中,未考虑到本地化影响(汉语拼音域名),汉语拼音或首字母组成的域名同样具有高随机性、可读性差、域名长度可能较长等特征,因此容易造成误报;此外,在实际环境中单一域名触发的误报占比很大,因此考虑到DGA域名的统计特性(同一台感染主机一定时间内会查询多个不同的DGA域名),故通过增加统计阈值过滤掉单一域名的误报影响;以上通过步骤6实现。
本发明中,利用贪婪算法判断一个大字符串(域名)是否由多个子字符串(词组拼音或首字母)组成包括以下步骤:
对中文词组库中的拼音及其首字母分别按照字母表顺序排序;
对域名字符串(假设长度n),匹配前n个字符是否在词组库中,若不在则继续匹配前n-1个,依次类推;
假设前n-m个字符在词组库中,按照前述方法继续判断后m个字符是否在词组库中,依次类推;n-m≥2;
最后对结果做过滤处理。
本发明中,开源拼音库数据如搜狗拼音库数据。
本发明中,根据DGA域名变化频率,预设时间可以放大或缩小,一般情况下24小时,即1天。
步骤7:基于过滤后的可疑DGA域名列表进行感染主机确认。
所述步骤7包括以下步骤:
步骤7.1:基于过滤后的可疑DGA域名列表进行whois查询;
步骤7.2:统计DNS服务器返回NXDOMAIN和NOERROR的占比;
步骤7.3:若返回NXDOMAIN的域名占比大于80%,则确定当前主机为感染主机;
若返回NXDOMAIN的域名占比在40%-80%的范围内,则当前主机需要人工核查是否为感染主机;
其他情况,则当前主机非感染主机,标注误报。
所述步骤7.3中,将人工核查的结果反馈到训练数据集中,作为误报或确认样本,优化训练数据及模型。
本发明中,考虑到DGA域名被注册的概率很低,当日有效的DGA域名注册数量占比很少,因此对感染主机确认采用了NXDOMAIN返回码(表示域名不存在,未注册)占比划分感染主机、待人工核查主机、误报主机三类,在降低误报率的同时可以进一步降低人工核查工作量;以上通过步骤7实现。
本发明中,考虑到对DGA恶意软件感染主机的检测是长周期工作,人工核查的结果需要反馈自动化训练,以解决重复误报问题,因此本发明增加了结果反馈步骤,通过步骤7.3实现,如对人工确认的DGA域名及误报的正常域名打上正负样本标签,加入训练数据集中重新训练。
本发明通过提取DNS数据作为原始数据集,构造训练数据集,对训练数据集中的训练数据和原始数据集的数据进行特征提取并进行归一化处理,以处理后的训练数据的特征进行训练,得到稳定的模型,以原始数据集的数据输入模型,得到可疑DGA域名列表,对可疑DGA域名列表进行误报过滤,基于过滤后的可疑DGA域名列表进行感染主机确认。
本发明中,当前已有的DGA域名判断、检测方法都是对单一域名的预测,在实际过程中存在检测率低、误报率较高的问题;若为了提高检测率并行采用多种检测方法并合并检测结果,则误报率可能会进一步增加;本发明针对感染主机的检测,考虑到感染主机在查询DGA域名时可能出现的统计特征,可以有效抑制误报;同时,当前已有DGA域名检测方法未考虑到本地化影响,对访问国内网站时可能出现的汉语拼音或首字母组成的域名无有效识别手段,会导致大量误报,本发明利用拼音库数据提取可能的拼音及首字母组合,排除误报域名的影响,可以有效抑制中文网站的域名误报。
本发明综合采用信息熵、隐马尔可夫链、N-gram模型等方法提取特征建模预测可疑域名,再通过计算同一IP地址发起的可疑域名请求的统计特征判断DGA恶意程序感染主机,兼容多种DGA可疑域名检测,可增加其他域名检测方法来提高检测率,通过最终的感染主机请求可疑域名的行为特征剔除误报,可以有效应对各类DGA恶意软件家族,具有低人工参与判别的优势,在实际中具有高检测覆盖率、高识别率和低误报率的优势,且更具有实际应用价值。
本发明基于感染主机的异常域名请求行为特征,对筛选出的可疑DGA域名请求记录进行二次分析,并通过加载中文拼音库提取词组首字母组合排除首字母缩写域名的误报、通过域名查询返回rcode值分布剔除正常域名的误报,最终识别出感染DGA恶意软件的主机;在实际环境中,对感染主机的有效识别是进行DGA域名检测的最终目的,因此本发明具有更高的应用价值。

Claims (10)

1.一种DGA恶意软件感染主机检测方法,其特征在于:所述方法包括以下步骤:
步骤1:提取DNS数据作为原始数据集;
步骤2:构造训练数据集;
步骤3:对训练数据集中的训练数据和原始数据集的数据进行特征提取;
步骤4:对提取的特征进行归一化处理;
步骤5:以处理后的训练数据的特征进行训练,得到稳定的模型,以原始数据集的数据输入模型,得到可疑DGA域名列表;
步骤6:对可疑DGA域名列表进行误报过滤;
步骤7:基于过滤后的可疑DGA域名列表进行感染主机确认。
2.根据权利要求1所述的一种DGA恶意软件感染主机检测方法,其特征在于:所述步骤1中,DNS数据为从实际网络流量中提取的DNS查询请求数据。
3.根据权利要求1所述的一种DGA恶意软件感染主机检测方法,其特征在于:所述步骤2中,以Alexa的域名为训练数据集的负样本,以公开DGA算法的域名为训练数据集的正样本。
4.根据权利要求3所述的一种DGA恶意软件感染主机检测方法,其特征在于:步骤3中,提取的特征包括:
字符随机性特征,为任一域名的Shannon熵;
域名长度特征,为任一域名的字符串长度;
域名N-gram特征,为取n为2和3时,任一域名的字符串bigram、trigram的平均排名;
域名可读性特征,为计算任一域名的字符串中元音字母个数、元音字母占比、去重后的字母个数、去重后的数字个数及其占比获得;
域名TLD特征,为取任一域名TLD、使用独热编码处理后的特征串;
转移概率特征,为以隐马尔科夫链计算得到的任一域名的转移概率。
5.根据权利要求1所述的一种DGA恶意软件感染主机检测方法,其特征在于:所述步骤5中,训练分类器时,对训练数据集使用10折交叉验证。
6.根据权利要求1所述的一种DGA恶意软件感染主机检测方法,其特征在于:所述步骤6的过滤包括过滤汉语拼音导致的误报和过滤其他正常单一域名导致的误报。
7.根据权利要求6所述的一种DGA恶意软件感染主机检测方法,其特征在于:所述过滤汉语拼音导致的误报包括以下步骤:
步骤6.1.1:获取开源拼音库数据;
步骤6.1.2:提取中文词组的拼音全拼和首字母组合;
步骤6.1.3:使用贪婪算法判断可疑DGA域名列表中的域名是否为拼音或首字母组成,若是,则从可疑DGA域名列表中删除,否则保留。
8.根据权利要求6所述的一种DGA恶意软件感染主机检测方法,其特征在于:所述过滤其他正常单一域名导致的误报包括以下步骤:
步骤6.2.1:对原始数据集中匹配到可疑DGA域名列表中的数据进行统计;
步骤6.2.2:基于统计后的结果,按照源地址进行分组聚合;
步骤6.2.3:筛选出预设时间内请求不同可疑域名个数超过m的疑似感染主机IP及其对应的可疑DGA域名列表,m≥5。
9.根据权利要求1所述的一种DGA恶意软件感染主机检测方法,其特征在于:所述步骤7包括以下步骤:
步骤7.1:基于过滤后的可疑DGA域名列表进行whois查询;
步骤7.2:统计DNS服务器返回NXDOMAIN和NOERROR的占比;
步骤7.3:若返回NXDOMAIN的域名占比大于80%,则确定当前主机为感染主机;
若返回NXDOMAIN的域名占比在40%-80%的范围内,则当前主机需要人工核查是否为感染主机;
其他情况,则当前主机非感染主机,标注误报。
10.根据权利要求9所述的一种DGA恶意软件感染主机检测方法,其特征在于:所述步骤7.3中,将人工核查的结果反馈到训练数据集中,作为误报或确认样本,优化训练数据及模型。
CN201911248809.5A 2019-12-09 2019-12-09 一种dga恶意软件感染主机检测方法 Pending CN111031026A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911248809.5A CN111031026A (zh) 2019-12-09 2019-12-09 一种dga恶意软件感染主机检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911248809.5A CN111031026A (zh) 2019-12-09 2019-12-09 一种dga恶意软件感染主机检测方法

Publications (1)

Publication Number Publication Date
CN111031026A true CN111031026A (zh) 2020-04-17

Family

ID=70207596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911248809.5A Pending CN111031026A (zh) 2019-12-09 2019-12-09 一种dga恶意软件感染主机检测方法

Country Status (1)

Country Link
CN (1) CN111031026A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111654504A (zh) * 2020-06-10 2020-09-11 北京天融信网络安全技术有限公司 一种dga域名检测方法及装置
CN111756871A (zh) * 2020-06-18 2020-10-09 北京天融信网络安全技术有限公司 一种基于域名服务协议的数据处理方法及电子设备
CN111935097A (zh) * 2020-07-16 2020-11-13 上海斗象信息科技有限公司 一种检测dga域名的方法
CN112367340A (zh) * 2020-11-30 2021-02-12 杭州安恒信息技术股份有限公司 一种内网资产风险评估方法、装置、设备及介质
CN112468484A (zh) * 2020-11-24 2021-03-09 山西三友和智慧信息技术股份有限公司 一种基于异常和信誉的物联网设备感染检测方法
CN113098878A (zh) * 2021-04-06 2021-07-09 哈尔滨工业大学(威海) 一种基于支持向量机的工业互联网入侵检测方法及实现系统
CN113141370A (zh) * 2021-04-30 2021-07-20 国家计算机网络与信息安全管理中心山西分中心 一种内部网络流量的恶意dns隧道识别方法
CN113328994A (zh) * 2021-04-30 2021-08-31 新华三信息安全技术有限公司 一种恶意域名处理方法、装置、设备及机器可读存储介质
CN113691489A (zh) * 2020-05-19 2021-11-23 北京观成科技有限公司 一种恶意域名检测特征处理方法、装置和电子设备
CN114500457A (zh) * 2020-10-26 2022-05-13 中国移动通信有限公司研究院 一种域名分类器检测方法、装置、设备及存储介质
CN114897127A (zh) * 2021-01-26 2022-08-12 安信资讯安全私人有限公司 检测域生成算法的系统和方法
CN116886414A (zh) * 2023-08-09 2023-10-13 华能信息技术有限公司 一种dga域名检测方法、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150237158A1 (en) * 2012-03-31 2015-08-20 Beijing Qihoo Technology Company Limited Method and system for accessing website
CN105827594A (zh) * 2016-03-08 2016-08-03 北京航空航天大学 一种基于域名可读性及域名解析行为的可疑性检测方法
US20170026390A1 (en) * 2015-07-22 2017-01-26 Cisco Technology, Inc. Identifying Malware Communications with DGA Generated Domains by Discriminative Learning
CN106992969A (zh) * 2017-03-03 2017-07-28 南京理工大学 基于域名字符串统计特征的dga生成域名的检测方法
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN110266739A (zh) * 2019-08-06 2019-09-20 杭州安恒信息技术股份有限公司 结合威胁情报的Fast-Flux僵尸网络的检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150237158A1 (en) * 2012-03-31 2015-08-20 Beijing Qihoo Technology Company Limited Method and system for accessing website
US20170026390A1 (en) * 2015-07-22 2017-01-26 Cisco Technology, Inc. Identifying Malware Communications with DGA Generated Domains by Discriminative Learning
CN105827594A (zh) * 2016-03-08 2016-08-03 北京航空航天大学 一种基于域名可读性及域名解析行为的可疑性检测方法
CN106992969A (zh) * 2017-03-03 2017-07-28 南京理工大学 基于域名字符串统计特征的dga生成域名的检测方法
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN110266739A (zh) * 2019-08-06 2019-09-20 杭州安恒信息技术股份有限公司 结合威胁情报的Fast-Flux僵尸网络的检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王辉等: "基于MLP深度学习算法的DGA准确识别技术研究", 《信息安全研究》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113691489A (zh) * 2020-05-19 2021-11-23 北京观成科技有限公司 一种恶意域名检测特征处理方法、装置和电子设备
CN111654504A (zh) * 2020-06-10 2020-09-11 北京天融信网络安全技术有限公司 一种dga域名检测方法及装置
CN111756871A (zh) * 2020-06-18 2020-10-09 北京天融信网络安全技术有限公司 一种基于域名服务协议的数据处理方法及电子设备
CN111756871B (zh) * 2020-06-18 2022-04-26 北京天融信网络安全技术有限公司 一种基于域名服务协议的数据处理方法及电子设备
CN111935097A (zh) * 2020-07-16 2020-11-13 上海斗象信息科技有限公司 一种检测dga域名的方法
CN111935097B (zh) * 2020-07-16 2022-07-19 上海斗象信息科技有限公司 一种检测dga域名的方法
CN114500457A (zh) * 2020-10-26 2022-05-13 中国移动通信有限公司研究院 一种域名分类器检测方法、装置、设备及存储介质
CN112468484A (zh) * 2020-11-24 2021-03-09 山西三友和智慧信息技术股份有限公司 一种基于异常和信誉的物联网设备感染检测方法
CN112367340B (zh) * 2020-11-30 2022-07-05 杭州安恒信息技术股份有限公司 一种内网资产风险评估方法、装置、设备及介质
CN112367340A (zh) * 2020-11-30 2021-02-12 杭州安恒信息技术股份有限公司 一种内网资产风险评估方法、装置、设备及介质
CN114897127A (zh) * 2021-01-26 2022-08-12 安信资讯安全私人有限公司 检测域生成算法的系统和方法
CN114897127B (zh) * 2021-01-26 2023-12-12 安信资讯安全私人有限公司 检测域生成算法的系统和方法
CN113098878A (zh) * 2021-04-06 2021-07-09 哈尔滨工业大学(威海) 一种基于支持向量机的工业互联网入侵检测方法及实现系统
CN113098878B (zh) * 2021-04-06 2022-12-30 哈尔滨工业大学(威海) 一种基于支持向量机的工业互联网入侵检测方法及实现系统
CN113328994A (zh) * 2021-04-30 2021-08-31 新华三信息安全技术有限公司 一种恶意域名处理方法、装置、设备及机器可读存储介质
CN113141370A (zh) * 2021-04-30 2021-07-20 国家计算机网络与信息安全管理中心山西分中心 一种内部网络流量的恶意dns隧道识别方法
CN113328994B (zh) * 2021-04-30 2022-07-12 新华三信息安全技术有限公司 一种恶意域名处理方法、装置、设备及机器可读存储介质
CN113141370B (zh) * 2021-04-30 2022-09-16 国家计算机网络与信息安全管理中心山西分中心 一种内部网络流量的恶意dns隧道识别方法
CN116886414A (zh) * 2023-08-09 2023-10-13 华能信息技术有限公司 一种dga域名检测方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN111031026A (zh) 一种dga恶意软件感染主机检测方法
CN107786575B (zh) 一种基于dns流量的自适应恶意域名检测方法
CN109450845B (zh) 一种基于深度神经网络的算法生成恶意域名检测方法
US11334764B2 (en) Real-time detection method and apparatus for DGA domain name
EP2803031B1 (en) Machine-learning based classification of user accounts based on email addresses and other account information
CN112019651B (zh) 利用深度残差网络和字符级滑动窗口的dga域名检测方法
CN111131260B (zh) 一种海量网络恶意域名识别和分类方法及系统
CN109308494B (zh) Lstm模型及基于该模型的网络攻击识别方法及系统
CN112866023B (zh) 网络检测、模型训练方法、装置、设备及存储介质
CN107566376A (zh) 一种威胁情报生成方法、装置及系统
CN111147459B (zh) 一种基于dns请求数据的c&c域名检测方法及装置
CN112839012B (zh) 僵尸程序域名识别方法、装置、设备及存储介质
CN112073550B (zh) 融合字符级滑动窗口和深度残差网络的dga域名检测方法
Zhou et al. CNN-based DGA detection with high coverage
CN110785979B (zh) 用于域名假冒检测的系统、方法和域名令牌化
CN112073551A (zh) 基于字符级滑动窗口和深度残差网络的dga域名检测系统
CN112948725A (zh) 基于机器学习的钓鱼网站url检测方法及系统
CN110602020A (zh) 一种基于dga域名和周期性网络连接会话行为的僵尸网络检测技术
KR20220152167A (ko) 도메인 네임 시스템(dns) 레코드들의 세트에서 피싱-도메인들을 검출하기 위한 시스템 및 방법
Zhao et al. Malicious domain names detection algorithm based on statistical features of URLs
CN113965377A (zh) 一种攻击行为检测方法及装置
CN115438340A (zh) 一种基于词素特征的挖矿行为识别方法及系统
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
Ding et al. Detecting Domain Generation Algorithms with Bi-LSTM.
AT&T

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200417

RJ01 Rejection of invention patent application after publication