CN111125700A - 一种基于主机关联性的dga家族分类方法 - Google Patents

一种基于主机关联性的dga家族分类方法 Download PDF

Info

Publication number
CN111125700A
CN111125700A CN201911268195.7A CN201911268195A CN111125700A CN 111125700 A CN111125700 A CN 111125700A CN 201911268195 A CN201911268195 A CN 201911268195A CN 111125700 A CN111125700 A CN 111125700A
Authority
CN
China
Prior art keywords
family
dga
host
domain name
domain names
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911268195.7A
Other languages
English (en)
Other versions
CN111125700B (zh
Inventor
金舒原
张允义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201911268195.7A priority Critical patent/CN111125700B/zh
Publication of CN111125700A publication Critical patent/CN111125700A/zh
Application granted granted Critical
Publication of CN111125700B publication Critical patent/CN111125700B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于主机关联性的DGA家族分类方法,包括以下步骤:S1.利用现有的DGA域名检测技术将流量中所包含的所有DGA域名及其解析行为关系提取出来,形成DGA域名与解析主机的集合;S2.针对不同家族的特性提出新的描绘家族特性的特征,得到DGA家族的家族画像;S3.获得某个主机解析的全部域名的集合,然后遍历主机集合,当两个主机解析的域名出现重合的则将这两个主机关联在一起并归为一类;S4.将步骤S3所得的初步聚类的类别进行再次聚合,遍历所有类别,利用初步聚类的类别训练分类器,计算初步聚类的类别间相似度,实现类别融合,最终得到DGA家族的聚类结果;S5.使用S2所得的家族画像对聚类结果进行比较验证,对聚类结果进行纠正分析并进行评估判断。

Description

一种基于主机关联性的DGA家族分类方法
技术领域
本发明涉及网络安全技术领域,更具体地,涉及一种基于主机关联性的DGA家族分类方法。
背景技术
恶意软件是现代互联网中不可忽视的一个安全问题,随着安全措施的升级,各种新的攻击手段层出不穷。很多恶意攻击者为了创建更隐蔽更难以被查封的恶意软件,在恶意软件中利用域名生成算法(Domain Generation Algorithm,DGA)生成命令与控制(Command&Control,C&C)服务器的域名代替之前使用的直接硬编码在软件内的域名。恶意软件采用DGA技术增加了C&C域名的不可预测性,令常见的黑名单防护策略失效。而安全人员需要对该恶意软件进行逆向才能获取其使用DGA的信息,而后再进一步的采取措施,这无疑是提高了安全防护的成本。
传统的恶意软件常常会将恶意域名硬编码在恶意软件中,在于C&C服务器通信时直接使用,但是这种方法容易被黑名单检测。为防范黑名单的检测,提高恶意程序的存活周期,恶意攻击者更改为采用DGA的方式,在恶意程序运行时自动生成域名,而这种生成过程是受攻击者控制的,即攻击者可以知道生成了哪些域名,这样就实现了在有效的避免黑名单的检测的同时实现对感染主机的控制。使用DGA的恶意软件解析域名的大致流程如下:1)执行DGA算法生成DGA域名;2)检测网络是否连通或者是否是在实验环境中;3)如果环境检测通过,则开始遍历解析DGA域名,直到某个DGA域名解析成功。一旦解析成功则说明该域名被攻击者注册,那么攻击者就可以通过服务器控制该恶意软件感染的机器。这个过程中由于攻击者仅仅会注册小部分域名,所以在解析过程中会出现大量的不存在域名响应,这也是使用DGA的恶意软件最明显的特征之一。在感染受害者机器后,恶意攻击者利用C&C服务器控制感染机器,而恶意程序会使用攻击者指定的域名连接C&C服务器。图1展示了DGA域名的解析过程。
DGA一般通过种子控制算法生成特定的域名。种子的设置有多种选择,可以是日期、硬编码的数字、热词或者是多种组合,这使DGA域名的识别变得十分困难。同时为了保护DGA域名的安全和防止DGA被轻易的发现,恶意攻击者还会在恶意软件的编写时为DGA增加防护,如恶意软件Nymaim进行加壳和增加混淆来防止被轻易逆向,同时还试图在A记录中添加校验和来保护自身的DGA域名;还有些恶意软件例如Pitou的DGA,其种子都是虚拟化的,其在内核模式下运行,利用虚拟机来保护DGA,更难以被检测到。
已有DGA检测的工作主要集中在区分正常域名与DGA域名,从全部流量中检测是否含有DGA域名,但很少有实现区分不同DGA域名家族的工作。DGA域名家族分类的工作将帮助我们分析恶意软件在不同网络中的分布及感染情况。然而,实现精确的家族分类的难点有两个:1)虽然DGA域名与传统域名之间差异非常大,但是不同家族的DGA域名之间是非常相似的,直接采用传统的聚类方法无法获得较好的效果;2)在研究分析中发现,全局流量中每个家族的流量数据是非常不平衡的,某些家族每天都会生成新的域名,而有的家族仅仅生成一次,之后重复使用,这样就造成了样本数据之间的不平衡,为聚类带来了困难。
发明内容
为了解决现有技术中的不足,本发明提供了一种基于主机关联性的DGA家族分类方法及方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于主机关联性的DGA家族分类方法,包括以下步骤:
S1.获取包含DGA域名数据的DNS流量数据,利用现有的DGA域名检测技术将流量中所包含的所有DGA域名及其解析行为关系提取出来,形成DGA域名与解析主机的集合;
S2.根据DGA域名与解析主机的集合进行DGA家族的详细分析,针对不同家族的特性提出新的描绘家族特性的特征,得到DGA家族的家族画像;
S3.主机关联预分类阶段,利用S1所得的DGA域名与解析主机的集合获得某个主机解析的全部域名的集合,然后遍历主机集合,当两个主机解析的域名出现重合的则将这两个主机关联在一起并归为一类,则可能是感染了相同的恶意软件,即为同一家族的DGA;
S4.将步骤S3所得的初步聚类的类别进行再次聚合,遍历所有类别,利用已知的训练分类器,计算某一类别与其他类别的元素相似度实现类别融合,得到DGA家族的聚类结果;
S5.使用S2所得的家族画像对聚类结果进行比较验证,对聚类结果进行纠正分析并进行评估判断。
在一种优选方案中,所述的S2中不同家族的特性包括域名信息熵、类别内字符频率分布方差、类别内是否包含缺陷字符、类别内相邻日期域名重复使用率、域名使用周期、顶级域分布。
在一种优选方案中,所述的S3的具体步骤如下:
S31.获得某个主机解析的全部域名的集合,记为Di
S32.每一个主机hi,从域名解析记录RS中提取其解析的域名Hi,初始化C={H1,H2,H3…Hi},C为预分类结果集合;
S33.对于任意的Hi≠Hj∈C,若Hi∩Hj≠φ,则将Hi∩Hj添加到C,同时从C中删除Hi,Hj
S34.重复步骤S33,直至不存在Hi∩Hj≠φ,则输出预分类结果集合C。
在一种优选方案中,所述的S4的具体步骤如下:
S41.设获得的初步聚类的预分类结果集合C={C1,C2,…,Cn},其中集合C中的第i类为未知类别,而其余的n-1个类别为已知类别;
S42.对于任意的ei∈D,D为域名特征,从C中获得它对应的类别标签,得到集合CD={CD1,CD2,…,CDn};
S43.对于任意的ei∈D,D为域名特征,ei为D中的元素,从C中获得它对应的类别标签,得到集合CD={CD1,CD2,…,CDn};
S44.PCi∈PC,计算类别相似度S={s1,s2,…,sk},若max(S)>t,将rai=[lci,lpp](cp=max(S),lcj和lpj分别是CDj和PCj的类别标签)添加至RA,否则添加rai=[lci,lci];
S45.重复步骤S42-S44对于CDi∈CD和rai[1]≠lci更新lci,得到二次聚合结果集合R。
在一种优选方案中,所述的S5的具体步骤如下:
S51.选择使用S2所得的家族画像对S4所得的输出先进行人工的矫正聚合,对于不同类别聚合后家族画像出现明显变化的则取消聚合;对于家族画像明显一致的则进行人工聚合;
S52.根据类别混淆度、家族离散度、聚类评价值对DGA家族域名分类进行评估判断。
在一种优选方案中,所述的类别混淆度的计算公式如下:
Figure BDA0002313455160000041
其中,C为聚类得到类别集合,n为类别数,Ci为C中第i类,count(Ci)计算第i类中包含的家族数。
在一种优选方案中,所述的家族离散度的计算公式如下:
Figure BDA0002313455160000042
其中,F为真实家族集合,m为真实家族数目,Fi为第i个家族,count(Fi)计算第i个家族中的包含的分类数。
在一种优选方案中,所述的聚类评价值的计算公式如下:
Figure BDA0002313455160000043
其中,||计算集合的长度,n和m分别为聚类结果和真实家族的数目,Ci∈Fj表示在第i类中属于家族j的域名集合,N表示全部域名的数量。
现有技术相比,本发明技术方案的有益效果是:
第一,从恶意软件家族层次实现对DGA域名的发现,可以有效的评估不同恶意软件的分布和感染情况。
第二,有效降低不平衡数据对分类效果的影响。利用主机关联方法进行预分类,可以有效的从家族层次上削减不平衡的数据。
第三,在家族类别信息未知的情况下,从海量的DGA域名中准确的识别出不同家族的域名。利用主机关联和家族画像,将同一家族的DGA域名聚合在一起,通过对比已知DGA画像实现精确定位家族和发现新未知家族。
第四,实现简单,执行效率高。
附图说明
图1为本发明提供的基于主机关联性的DGA家族分类方法的流程图;
图2为实施例1中基于主机关联性的DGA家族分类方法中DGA域名解析过程图。
图3和图4为实施例2中S5的人工矫正聚合步骤的说明配图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种基于主机关联性的DGA家族分类方法,如图1所示,包括以下步骤:
S1.获取包含DGA域名数据的DNS流量数据,利用现有的DGA域名检测技术将流量中所包含的所有DGA域名及其解析行为关系提取出来,形成DGA域名与解析主机的集合;
S2.根据DGA域名与解析主机的集合进行DGA家族的详细分析,针对不同家族的特性提出新的描绘家族特性的特征,得到DGA家族的家族画像;
S3.主机关联预分类阶段,利用S1所得的DGA域名与解析主机的集合获得某个主机解析的全部域名的集合,然后遍历主机集合,当两个主机解析的域名出现重合的则将这两个主机关联在一起并归为一类,则可能是感染了相同的恶意软件,即为同一家族的DGA;
S4.将步骤S3所得的初步聚类的类别进行再次聚合,遍历所有类别,利用已知的训练分类器,计算某一类别与其他类别的元素相似度实现类别融合,得到DGA家族的聚类结果;
S5.使用S2所得的家族画像对聚类结果进行比较验证,对聚类结果进行纠正分析并进行评估判断。
实施例2
本发明提供的一种基于主机关联性的DGA家族分类方法与实施例1一致,仅对各个步骤进行进一步的限定。
一种基于主机关联性的DGA家族分类方法,包括以下步骤:
S1.获取包含DGA域名数据的DNS流量数据,利用现有的DGA域名检测技术将流量中所包含的所有DGA域名及其解析行为关系提取出来,如图2所示,形成DGA域名与解析主机的集合;
S2.根据DGA域名与解析主机的集合进行DGA家族的详细分析,针对不同家族的特性提出新的描绘家族特性的特征,得到DGA家族的家族画像;家族画像可以从人类可理解的角度对不同的DGA家族进行描绘,更加直观的表达不同家族间的差异性,如表1所示。DGA家族画像有两个作用:1)将家族画像作为计算类别相似度的特征,纳入训练数据,以增强特征对不同家族域名的描绘能力;2)绘制预分类类别家族画像和二次聚类类别的家族画像进行二次验证,以保障类别聚合结果的正确性。
表1
Figure BDA0002313455160000061
S3.主机关联预分类阶段,利用S1所得的DGA域名与解析主机的集合获得某个主机解析的全部域名的集合,然后遍历主机集合,当两个主机解析的域名出现重合的则将这两个主机关联在一起并归为一类,则可能是感染了相同的恶意软件,即为同一家族的DGA;
S4.将步骤S3所得的初步聚类的类别进行再次聚合,遍历所有类别,利用已知的训练分类器,计算某一类别与其他类别的元素相似度,得到DGA家族的聚类结果;
S5.使用S2所得的家族画像对聚类结果进行比较验证,对聚类结果进行纠正分析并进行评估判断。
在本实施例中,所述的S2中不同家族的特性包括域名信息熵、类别内字符频率分布方差、类别内是否包含缺陷字符、类别内相邻日期域名重复使用率、域名使用周期、顶级域分布。
在本实施例中,所述的S3的具体步骤如下:
S31.获得某个主机解析的全部域名的集合,记为Di
S32.每一个主机hi,从域名解析记录RS中提取其解析的域名Hi,初始化C={H1,H2,H3…Hi},C为预分类结果集合;
S33.对于任意的Hi≠Hj∈C,若Hi∩Hj≠φ,则将Hi∩Hj添加到C,同时从C中删除Hi,Hj
S34.重复步骤S33,直至不存在Hi∩Hj≠φ,则输出预分类结果集合C。
在本实施例中,所述的S4的具体步骤如下:
S41.设获得的初步聚类的预分类结果集合C={C1,C2,…,Cn},其中集合C中的第i类为未知类别,而其余的n-1个类别为已知类别;
S42.对于任意的ei∈D,D为域名特征,从C中获得它对应的类别标签,得到集合CD={CD1,CD2,…,CDn};
S43.对于任意的ei∈D,D为域名特征,ei为D中的元素,从C中获得它对应的类别标签,得到集合CD={CD1,CD2,…,CDn};
S44.PCi∈PC,计算类别相似度S={s1,s2,…,sk},如果max(S)>t,将rai=[lci,lpp](cp=max(S),lcj和lpj分别是CDj和PCj的类别标签)添加至RA,否则添加rai=[lci,lci];
S45.重复步骤S42-S44对于CDi∈CD和rai[1]≠lci更新lci,得到二次聚合结果集合R。
在本实施例中,所述的S5的具体步骤如下:
选择使用S2所得的家族画像对S4所得的输出先进行人工的矫正聚合,对于不同类别聚合后家族画像出现变化的则取消聚合,如图3,3-(a)为原始的家族画像,3-(b)为聚合后的家族画像,其中一个维度出现了明显的偏差,违背了原始的家族画像,则取消聚合;对于家族画像一致的则进行人工聚合,如图4,4-(a)和4-(b)为两个为成功聚合的类别,但经过检查,其家族画像一致,则人工进行聚合;
S52.根据类别混淆度、家族离散度、聚类评价值对DGA家族域名分类进行评估判断。
在本实施例中,所述的类别混淆度的计算公式如下:
Figure BDA0002313455160000081
其中,C为聚类得到类别集合,n为类别数,Ci为C中第i类,count(Ci)计算第i类中包含的家族数。
在本实施例中,所述的家族离散度的计算公式如下:
Figure BDA0002313455160000082
其中,F为真实家族集合,m为真实家族数目,Fi为第i个家族,count(Fi)计算第i个家族中的包含的分类数。
在本实施例中,所述的聚类评价值的计算公式如下:
Figure BDA0002313455160000083
其中,||计算集合的长度,n和m分别为聚类结果和真实家族的数目,Ci∈Fj表示在第i类中属于家族j的域名集合,N表示全部域名的数量。
实施例3
本实施例针对不同家族的特性提出新的描绘家族特性的特征进行进一步说明。
类别内域名长度方差,由于一般的DGA域名是由特定算法生成的,在算法内会将生成的域名长度控制在某个范围内,并且对与不同的域名生成算法会采用不同的随机算法和根据特定需求设置不同的长度范围,这样可以通过计算家族内的域名的长度范围和长度的变化程度描绘这个家族的域名,本方法采用域名长度方差描述域名长度的变化程度。
域名信息熵,目前发现的DGA大部分通过随机生成字符串的方式生成域名,但是也有小部分利用单词列表进行组合的DGA,这样就造成了区分点,利用信息熵对字符混乱程度的表示,可以区分随机生成和单词组合的家族。
类别内字符频率分布方差,因为大多数的DGA算法采用的恶意攻击者自己编写的带有某种特性的随机生成算法,在生成的域名中就会表现为出现的字符次数的分布不同。如在恶意软件Murofet的DGA中虽然全部的字母都会出现,但是p为最常见的,而a出现的次数是最少的。但计算这个维度对数据的完整度和数量有一定要求,不完整和数量不足会影响其效果。
类别内是否包含缺陷字符,我们在对已知的DGA进行分析时,发现了一个有趣的现象,或许是恶意攻击者的编写失误或者是故意为之,某些DGA在生成域名时会丢失某个或某些字符,造成在整个家族中不可能出现包含某个字母的域名,如恶意软件Necurs的DGA生成的域名中缺少字母z,而恶意软件Symmi的DGA中缺少字母z,y和j,但恶意软件Ramint的DGA中同样缺少字母z。所以可以利用这个维度来区分某些家族,但是不能拿来唯一确定一个家族。
类别内相邻日期域名重复使用率,不同的恶意软件在使用DGA生成的域名时会因为不同的原因而采用不同的解析策略,在分析中发现,恶意软件Nymaim在使用DGA域名会采用每天生成的64个新域名,同时还会使用最近10天内生成的640个域名。而恶意软件Symmi则设置了一个更新周期,每月更新两次,即在15天内使用相同的域名。
域名使用周期,域名使用周期与相邻日期域名使用重复率是相关联的,如果前后相邻的日期域名重复使用率是相同的,那么说明其是在同一个周期内的;而如果出现了域名重复率为0,那么说明进入了一个新的周期。为了方便表示,本文中对存在周期性变化的家族将周期表示为其倒数,而不存在周期性变化的家族的周期记为1,即周期越大,表现为数值越小。
顶级域分布,恶意攻击者在编写DGA时,通常会固定某些顶级域列表,在其中随机选择。所以在同一家族的类别中进行统计,顶级域出现的分布应该是类似的。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (8)

1.一种基于主机关联性的DGA家族分类方法,其特征在于,包括以下步骤:
S1.获取包含DGA域名数据的DNS流量数据,利用现有的DGA域名检测技术将流量中所包含的所有DGA域名及其解析行为关系提取出来,形成DGA域名与解析主机的集合;
S2.根据DGA域名与解析主机的集合进行DGA家族的详细分析,针对不同家族的特性提出新的描绘家族特性的特征,得到DGA家族的家族画像;
S3.主机关联预分类阶段,利用S1所得的DGA域名与解析主机的集合获得某个主机解析的全部域名的集合,然后遍历主机集合,当两个主机解析的域名出现重合的则将这两个主机关联在一起并归为一类;
S4.将步骤S3所得的初步聚类的类别进行再次聚合,遍历所有类别,利用初步聚类的类别训练分类器,计算某一类别与其他类别的元素相似度,实现类别融合,最终得到DGA家族的聚类结果;
S5.使用S2所得的家族画像对聚类结果进行比较验证,对聚类结果进行纠正分析并进行评估判断。
2.根据权利要求1所述的基于主机关联性的DGA家族分类方法,其特征在于,所述的S2中不同家族的特性包括域名信息熵、类别内字符频率分布方差、类别内是否包含缺陷字符、类别内相邻日期域名重复使用率、域名使用周期、顶级域分布。
3.根据权利要求1所述的基于主机关联性的DGA家族分类方法,其特征在于,所述的S3的具体步骤如下:
S31.获得某个主机解析的全部域名的集合,记为Di
S32.每一个主机hi,从域名解析记录RS中提取其解析的域名Hi,初始化C={H1,H2,H3…Hi},C为预分类结果集合;
S33.对于任意的Hi≠Hj∈C,若Hi∩Hj≠φ,则将Hi∩Hj添加到C,同时从C中删除Hi,Hj
S34.重复步骤S33,直至不存在Hi∩Hj≠φ,则输出预分类结果集合C。
4.根据权利要求3所述的基于主机关联性的DGA家族分类方法,其特征在于,所述的S4的具体步骤如下:
S41.设获得的初步聚类的预分类结果集合C={C1,C2,…,Cn},其中集合C中的第i类为未知类别,而其余的n-1个类别为已知类别;
S42.对于任意的ei∈D,D为域名特征,ei为D中的元素,从C中获得它对应的类别标签,得到集合CD={CD1,CD2,…,CDn};
S43.对于CD中的任意CDi,则训练分类器为F(CD-CDi),初始化
Figure FDA0002313455150000021
对CDi应用分类器F(CDi),得到预测结果集合PC={PC1,PC2,…,PCk};
S44.PCi∈PC,计算类别相似度S={s1,s2,…,sk},如果max(S)>t,将rai=[lci,lpp](cp=max(S),lcj和lpj分别是CDj和PCj的类别标签)添加至RA,否则添加rai=[lci,lci];
S45.重复步骤S42-S44对于CDi∈CD和rai[1]≠lci更新lci,得到二次聚合结果集合R。
5.根据权利要求1所述的基于主机关联性的DGA家族分类方法,其特征在于,所述的S5的具体步骤如下:
S51.选择使用S2所得的家族画像对S4所得的输出先进行人工的矫正聚合,对于不同类别聚合后家族画像出现变化的则取消聚合;对于家族画像一致的则进行人工聚合。
S52.根据类别混淆度、家族离散度、聚类评价值对DGA家族域名分类进行评估判断。
6.根据权利要求5所述的基于主机关联性的DGA家族分类方法,其特征在于,所述的类别混淆度的计算公式如下:
Figure FDA0002313455150000022
其中,C为聚类得到类别集合,n为类别数,Ci为C中第i类,count(Ci)计算第i类中包含的家族数。
7.根据权利要5所述的基于主机关联性的DGA家族分类方法,其特征在于,所述的家族离散度的计算公式如下:
Figure FDA0002313455150000023
其中,F为真实家族集合,m为真实家族数目,Fi为第i个家族,count(Fi)计算第i个家族中的包含的分类数。
8.根据权利要求5所述的基于主机关联性的DGA家族分类方法,其特征在于,所述的聚类评价值的计算公式如下:
Figure FDA0002313455150000031
其中,||计算集合的长度,n和m分别为聚类结果和真实家族的数目,Ci∈Fj表示在第i类中属于家族j的域名集合,N表示全部域名的数量。
CN201911268195.7A 2019-12-11 2019-12-11 一种基于主机关联性的dga家族分类方法 Active CN111125700B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911268195.7A CN111125700B (zh) 2019-12-11 2019-12-11 一种基于主机关联性的dga家族分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911268195.7A CN111125700B (zh) 2019-12-11 2019-12-11 一种基于主机关联性的dga家族分类方法

Publications (2)

Publication Number Publication Date
CN111125700A true CN111125700A (zh) 2020-05-08
CN111125700B CN111125700B (zh) 2023-02-07

Family

ID=70498742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911268195.7A Active CN111125700B (zh) 2019-12-11 2019-12-11 一种基于主机关联性的dga家族分类方法

Country Status (1)

Country Link
CN (1) CN111125700B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035626A (zh) * 2020-07-06 2020-12-04 北海淇诚信息科技有限公司 一种大规模意图的快速识别方法、装置和电子设备
CN112073549A (zh) * 2020-08-25 2020-12-11 山东伏羲智库互联网研究院 基于域名的系统关系确定方法及装置
CN112214764A (zh) * 2020-09-08 2021-01-12 中国科学院信息工程研究所 一种面向复杂网络恶意程序分类方法及系统
CN112966713A (zh) * 2021-02-02 2021-06-15 杭州安恒信息技术股份有限公司 基于深度学习的dga域名检测方法、装置及计算机设备
US20210203671A1 (en) * 2018-09-18 2021-07-01 Hewlett-Packard Development Company, L.P. Adaptive domain name system
CN113297576A (zh) * 2021-06-16 2021-08-24 深信服科技股份有限公司 威胁检测方法、装置、行为画像方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130191915A1 (en) * 2012-01-25 2013-07-25 Damballa, Inc. Method and system for detecting dga-based malware
CN107645503A (zh) * 2017-09-20 2018-01-30 杭州安恒信息技术有限公司 一种基于规则的恶意域名所属dga家族的检测方法
US20180351972A1 (en) * 2017-05-31 2018-12-06 Infoblox Inc. Inline dga detection with deep networks
CN109391602A (zh) * 2017-08-11 2019-02-26 北京金睛云华科技有限公司 一种僵尸主机检测方法
CN109788079A (zh) * 2017-11-15 2019-05-21 瀚思安信(北京)软件技术有限公司 Dga域名实时检测方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130191915A1 (en) * 2012-01-25 2013-07-25 Damballa, Inc. Method and system for detecting dga-based malware
US20180351972A1 (en) * 2017-05-31 2018-12-06 Infoblox Inc. Inline dga detection with deep networks
CN109391602A (zh) * 2017-08-11 2019-02-26 北京金睛云华科技有限公司 一种僵尸主机检测方法
CN107645503A (zh) * 2017-09-20 2018-01-30 杭州安恒信息技术有限公司 一种基于规则的恶意域名所属dga家族的检测方法
CN109788079A (zh) * 2017-11-15 2019-05-21 瀚思安信(北京)软件技术有限公司 Dga域名实时检测方法和装置
WO2019096099A1 (zh) * 2017-11-15 2019-05-23 瀚思安信(北京)软件技术有限公司 Dga域名实时检测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邓熙等: "基于DNS流量组评分的僵尸网络拓扑发现", 《科技创新导报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210203671A1 (en) * 2018-09-18 2021-07-01 Hewlett-Packard Development Company, L.P. Adaptive domain name system
CN112035626A (zh) * 2020-07-06 2020-12-04 北海淇诚信息科技有限公司 一种大规模意图的快速识别方法、装置和电子设备
CN112073549A (zh) * 2020-08-25 2020-12-11 山东伏羲智库互联网研究院 基于域名的系统关系确定方法及装置
CN112073549B (zh) * 2020-08-25 2023-06-02 山东伏羲智库互联网研究院 基于域名的系统关系确定方法及装置
CN112214764A (zh) * 2020-09-08 2021-01-12 中国科学院信息工程研究所 一种面向复杂网络恶意程序分类方法及系统
CN112214764B (zh) * 2020-09-08 2024-01-09 中国科学院信息工程研究所 一种面向复杂网络恶意程序分类方法及系统
CN112966713A (zh) * 2021-02-02 2021-06-15 杭州安恒信息技术股份有限公司 基于深度学习的dga域名检测方法、装置及计算机设备
CN112966713B (zh) * 2021-02-02 2024-03-19 杭州安恒信息技术股份有限公司 基于深度学习的dga域名检测方法、装置及计算机设备
CN113297576A (zh) * 2021-06-16 2021-08-24 深信服科技股份有限公司 威胁检测方法、装置、行为画像方法、装置及电子设备

Also Published As

Publication number Publication date
CN111125700B (zh) 2023-02-07

Similar Documents

Publication Publication Date Title
CN111125700B (zh) 一种基于主机关联性的dga家族分类方法
Guo et al. From general to specific: Informative scene graph generation via balance adjustment
TWI673625B (zh) 統一資源定位符(url)攻擊檢測方法、裝置以及電子設備
Guo et al. Tabor: A highly accurate approach to inspecting and restoring trojan backdoors in ai systems
CN112953924B (zh) 网络异常流量检测方法、系统、存储介质、终端及应用
TWI689871B (zh) 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置
CN110233849B (zh) 网络安全态势分析的方法及系统
RU2708356C1 (ru) Система и способ двухэтапной классификации файлов
US10425436B2 (en) Identifying bulletproof autonomous systems
CN112866023A (zh) 网络检测、模型训练方法、装置、设备及存储介质
CN112685735B (zh) 用于检测异常数据的方法、设备和计算机可读存储介质
CN112491796A (zh) 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法
JP6698956B2 (ja) サンプルデータ生成装置、サンプルデータ生成方法およびサンプルデータ生成プログラム
Drichel et al. Analyzing the real-world applicability of DGA classifiers
Thieltges et al. The devil’s triangle: Ethical considerations on developing bot detection methods
Beveridge et al. When high-quality face images match poorly
CN109104421B (zh) 一种网站内容篡改检测方法、装置、设备及可读存储介质
CN114239855B (zh) 分析异常诊断信息的方法、装置、介质和计算设备
CN105072214A (zh) 基于域名特征的c&c域名识别方法
CN110781876B (zh) 一种基于视觉特征的仿冒域名轻量级检测方法及系统
CN113935033A (zh) 特征融合的恶意代码家族分类方法、装置和存储介质
CN110351291A (zh) 基于多尺度卷积神经网络的DDoS攻击检测方法及装置
He et al. Malicious domain detection via domain relationship and graph models
CN112380537A (zh) 一种检测恶意软件的方法、装置、存储介质和电子设备
CN117371422A (zh) 一种基于全内容识别的投标文件相似性分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant