CN113542202B - 一种域名识别方法、装置、设备及计算机可读存储介质 - Google Patents

一种域名识别方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113542202B
CN113542202B CN202010316317.1A CN202010316317A CN113542202B CN 113542202 B CN113542202 B CN 113542202B CN 202010316317 A CN202010316317 A CN 202010316317A CN 113542202 B CN113542202 B CN 113542202B
Authority
CN
China
Prior art keywords
domain name
malicious
mapping
character
character strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010316317.1A
Other languages
English (en)
Other versions
CN113542202A (zh
Inventor
雷昕
陈扬
闫凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202010316317.1A priority Critical patent/CN113542202B/zh
Publication of CN113542202A publication Critical patent/CN113542202A/zh
Application granted granted Critical
Publication of CN113542202B publication Critical patent/CN113542202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种域名识别方法、装置、设备及计算机可读存储介质;本方案包括:利用未知域名的全局域名特征,识别未知域名中的恶意域名;按照字符映射关系,将每个恶意域名映射为对应的字符串;获取字符串之间的相似度,将相似度大于第一阈值的字符串归类为同一种域名模式,以利用域名模式对主机所访问的域名进行安全检测。可见,在本方案中,通过未知域名的全局域名特征来识别恶意域名,可以覆盖域名更多方面的特征,从而检测出更多的恶意域名,提高准确率和可解释性;并且,本方案通过将恶意域名映射为字符串归类后,可泛化出新型的域名模式,增大了域名的检测范围。

Description

一种域名识别方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及信息安全技术领域,更具体地说,涉及一种域名识别方法、装置、设备及计算机可读存储介质。
背景技术
在DNS(Domain name system,域名服务器)安全中,线上的引擎都是从某一个已知安全问题出发,每个引擎解决特定场景的安全问题,例如:DGA(Domain generationalogrithm,域名生成算法)解决黑客通过随机字符拼接产生的域名实现C2(command&control,远程控制)通信的问题,硬编码引擎解决大量随机域名访问同一个恶意IP(Internet Protocol,网际互连协议)的安全问题,Tor2web解决失陷主机通过暗网进行通信的问题等。也即,现有方案主要是根据局部特征进行单点引擎检测,这些方案应用特征维度单一,容易造成误报和缺少可解释性,并对未知家族或者新家族的检测能力比较弱,无法检测高级威胁。
发明内容
本发明的目的在于提供一种域名识别方法、装置、设备及计算机可读存储介质,以实现更全面的检测恶意域名。
为实现上述目的,本发明提供的一种域名识别方法,包括:
利用未知域名的全局域名特征,识别所述未知域名中的恶意域名;
按照字符映射关系,将每个恶意域名映射为对应的字符串;
获取字符串之间的相似度,将相似度大于第一阈值的字符串归类为同一种域名模式,以利用域名模式对主机所访问的域名进行安全检测。
其中,所述利用未知域名的全局域名特征,识别所述未知域名中的恶意域名,包括:
利用全网DNS数据构建全局域名特征,并将所述全局域名特征进行处理;所述全局域名特征包括主机侧特征、IP侧特征和域名侧特征;
将处理后的全局域名特征输入分类模型,以通过所述分类模型识别所述未知域名中的恶意域名。
其中,所述将处理后的全局域名特征输入分类模型,以通过所述分类模型识别所述未知域名中的恶意域名,包括:
将处理后的全局域名特征输入LightGBM分类模型,得到各个未知域名属于恶意域名的概率值分类结果;
将概率值大于第二阈值的未知域名作为恶意域名。
其中,所述按照字符映射关系,将每个恶意域名映射为对应的字符串,包括:
遍历每个恶意域名,按照字符映射关系将恶意域名中的数字映射为第一符号,将恶意域名中的符号映射为第二符号,将恶意域名中的无意义字母映射为第三符号,将恶意域名中的英文有意义字母映射为第四符号,将恶意域名中的中文有意义字母映射为第五符号,从而生成与每个恶意域名对应的字符串。
其中,所述利用域名模式对主机所访问的域名进行安全检测,包括:
按照所述字符映射关系,将主机所访问的域名映射为待检测字符串;
将每个待检测字符串分别与各个域名模式下的字符串进行比对,若不同的待检测字符串与同一域名模式下的字符串的相同次数大于第三阈值,则生成与所述主机对应的安全事件。
其中,所述将相似度大于第一阈值的字符串归类为同一种域名模式之前,还包括:
获取每个字符串的二元组;
将每个字符串的二元组按顺序拼接生成目标字符串。
其中,所述获取字符串之间的相似度,将相似度大于第一阈值的字符串归类为同一种域名模式,包括:
将相同的目标字符串作为一种域名模式;
获取不同域名模式下的目标字符串的相似度,并将相似度大于第一阈值的对应的域名模式合并。
为实现上述目的,本发明进一步提供一种域名识别装置,包括:
恶意域名识别模块,用于利用未知域名的全局域名特征,识别所述未知域名中的恶意域名;
映射模块,用于按照字符映射关系,将每个恶意域名映射为对应的字符串;
相似度获取模块,用于获取字符串之间的相似度;
字符串归类模块,用于将相似度大于第一阈值的字符串归类为同一种域名模式;
检测模块,用于利用域名模式对主机所访问的域名进行安全检测。
为实现上述目的,本发明进一步提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述的域名识别方法的步骤。
为实现上述目的,本发明进一步提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的域名识别方法的步骤。
通过以上方案可知,本发明实施例提供的一种域名识别方法,包括:利用未知域名的全局域名特征,识别所述未知域名中的恶意域名;按照字符映射关系,将每个恶意域名映射为对应的字符串;获取字符串之间的相似度,将相似度大于第一阈值的字符串归类为同一种域名模式,以利用域名模式对主机所访问的域名进行安全检测。
可见,在本方案中,通过未知域名的全局域名特征来识别恶意域名,可以覆盖域名更多方面的特征,从而检测出更多的恶意域名,提高准确率和可解释性;并且,本方案通过将恶意域名映射为字符串归类后,可泛化出新型的域名模式,增大了域名的检测范围;本发明还公开了一种域名识别装置、设备及计算机可读存储介质,同样能实现上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种域名识别系统结构示意图;
图2为本发明实施例公开的一种域名识别方法流程示意图;
图3为本发明实施例公开的另一种域名识别方法流程示意图;
图4为本发明实施例公开的一种域名识别整体流程图;
图5为本发明实施例公开的一种域名识别装置结构示意图;
图6为本发明实施例公开的一种电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前在DNS安全中,所有的安全问题都出现在与黑客服务器进行通信的远控行为,只不过这种远控行为会拆分成各个具体的问题进行一一解决,因此现有的检测方案都是基于DNS数据的局部特征,并且,现有方案无法检测出新型的DGA域名。因此,本申请提出了一种域名识别方法、装置、设备及计算机可读存储介质,以提高域名识别范围,从更全面的角度检测恶意域名。
为了便于理解,下面对本申请的技术方案所适用的系统架构进行介绍,参见图1,为本发明实施例公开的一种域名识别系统结构示意图;通过该图可以看出,本系统包括主机11和电子设备12。
具体来说,该主机11可以为PC(Personal Computer,个人电脑)、智能手机、平板电脑、掌上电脑、便携计算机等终端设备,该主机11通过访问域名执行网页浏览等操作。
电子设备12主要用来实现域名的检测,具体来说,该电子设备12获取到主机进行域名访问的全局域名特征后,会通过全局域名特征识别未知域名中的恶意域名;然后按照字符映射关系,将每个恶意域名映射为对应的字符串;获取字符串之间的相似度,将相似度大于第一阈值的字符串归类为同一种域名模式,以利用域名模式对主机所访问的域名进行安全检测。
参见图2,为本发明实施例公开的一种域名识别方法流程示意图;该方法具体包括:
S101、利用未知域名的全局域名特征,识别所述未知域名中的恶意域名;
具体来说,本方案中的未知域名为未识别域名类型的域名,其不在已识别的域名黑白名单中,即不属于安全的白域名,也不属于危险的黑域名。恶意域名是指一类具有恶意链接的网址,这种网址通常利用应用软件或浏览器的漏洞,在网站内植入木马、病毒程序等恶意代码,并利用伪装的网站服务内容来诱导用户访问,因此本方案需要从未知域名中识别出的恶意域名,以便对主机所访问的域名进行安全检测。本方案在识别恶意域名时,具体是通过未知域名的全局域名特征来识别恶意域名,本实施例中的全局域名特征指除了从域名本身出发以外,还从域名访问的时间、域名之间的关系等出发获取的描述域名行为的更加全面的特征。通过该全局域名特征识别恶意域名,可以识别出更多的恶意域名,提高恶意域名的检测范围。
S102、按照字符映射关系,将每个恶意域名映射为对应的字符串;
需要说明的是,恶意域名中存在大量行为类似的DGA的域名,通过分析发现,检测出的域名在文法上具有很强的相似性,如:都是由随机字母组成的DGA域名,而在随机字母中夹杂了一个连字符的DGA域名则是一种新模式,传统DGA分类模型无法处理这种情况。而在本申请中,可将恶意域名按照预先设定的字符映射关系映射至低维向量中,通过这种方式,可将新型的域名简化为不同的字符串,这样通过同一个家族算法生成的域名被映射后,可将具有规律的不同恶意域名映射为相同的字符,从而生成相同的字符串。
S103、获取字符串之间的相似度,将相似度大于第一阈值的字符串归类为同一种域名模式,以利用域名模式对主机所访问的域名进行安全检测。
需要说明的是,本申请获取字符串之间的相似度时,具体是通过difflib.SequenceMatcher获取字符串的相似度,difflib.SequenceMatcher是python(计算机程序设计语言)标准库difflib的SequenceMatcher(序列匹配器),用来比较字符串序列差异。
通过上述步骤,可将不同的恶意域名均映射为对应的字符串,由于同一个家族算法生成的域名都会被映射相似的字符串,因此在本申请中,将相似度较高的字符串归类为同一种域名模式后,便可通过生成的不同域名模式对主机的域名访问记录进行检测。具体来说,利用域名模式对主机所访问的域名进行安全检测的过程具体包括:按照字符映射关系,将主机所访问的域名映射为待检测字符串;将每个待检测字符串分别与各个域名模式下的字符串进行比对,若不同的待检测字符串与同一域名模式下的不同字符串的相同次数大于第三阈值,则生成与所述主机对应的安全事件。
也就是说,将主机所访问的域名映射为字符串后,判断该字符串是否与预先设定的各种域名模式下的字符串相同,如果相同,则生成对应的安全事件。并且,为了避免出现误报现象,还可以设定为主机访问同一种模式下的域名超过第三阈值后,再生成对应的安全事件;该第三阈值可根据实际情况进行设定,如:若将第三阈值设置为10,则代表:如果一台主机访问过任意一种模式的域名超过10个,则生成一条安全事件,该用来说明该主机可能访问了黑域名,所以该主机具有安全风险。
综上可以看出,本方案通过未知域名的全局域名特征来识别恶意域名,可以覆盖域名更多方面的特征,从而检测出更多的恶意域名,提高准确率和可解释性;并且,本方案通过将恶意域名映射为字符串归类后,可泛化出新型的域名模式,增大了域名的检测范围。
基于上述实施例,在本实施例中,所述利用未知域名的全局域名特征,识别所述未知域名中的恶意域名,包括:
利用全网DNS数据构建全局域名特征,并将所述全局域名特征进行标处理;所述全局域名特征包括主机侧特征、IP侧特征和域名侧特征;将处理后的全局域名特征输入分类模型,以通过所述分类模型识别所述未知域名中的恶意域名。
具体的,本方案利用全网DNS数据构建域名特征库,该域名特征库中的全局域名特征通过n位向量描述了一个域名的具体行为,可覆盖主机侧、IP侧、域名侧的特征。参见表1,表1为本实施例提供的全局域名特征向量表:表1
Figure BDA0002459723570000071
Figure BDA0002459723570000081
通过表1可以看出,该全局域名特征覆盖主机侧、IP侧、域名侧的各种特征,因此本申请中的分类模型基于全局域名特征可以检测出更多的恶意域名。进一步,本方案对恶意特征进行识别时,主要是通过分类模型对恶意特征进行识别;具体来说,本方案可以将处理后的全局域名特征输入LightGBM分类模型,得到各个未知域名属于恶意域名的概率值分类结果,将概率值大于第二阈值的未知域名作为恶意域名。
可以理解的是,本方案利用全网DNS数据构建全局域名特征后,需要将全局域名特征进行标准化处理;在本实施例中,具体可通过z-score进行数据标准化处理,当然,其他标准化方法也可适用,在此仅以z-score为例进行说明。将全局域名特征进行处理后,会输入分类模型LightGBM,参见表2,为本实施例提供的一种分类结果表:
表2
Figure BDA0002459723570000082
在本实施例中,以主机两天访问域名的两个数据样本作为分类模型的输入,从而得到每个数据样本的分类结果。其中,两个数据样本中分类为黑(>0.9)的两个数据(1.8万和1.4万),代表两个样本中90%概率属于恶意域名的未知域名的数量,在本实施例中,将90%概率属于恶意域名的未知域名作为恶意域名,并继续执行后续步骤。
可以看出,本方案通过LightGBM分类模型可以基于全局域名特征进行有监督的分类,从而基于其机器学习的特性,可以较好地学习到各种恶意域名的特征从而进行泛化检出,有效避免仅局部特征所造成的误报。当然,本方案仅以LightGBM分类模型为例进行说明,其他能实现恶意域名识别的分类模型均可,在此并不具体限定。
参见图3,为本发明实施例公开的另一种域名识别方法流程示意图;需要说明的是,本实施例所述的域名识别方法与上一实施例所述的域名识别方法的相同之处可以互相参照,在此便不具体赘述;
其中,本实施例所述的方法具体包括:
S201、利用未知域名的全局域名特征,识别所述未知域名中的恶意域名;
S202、按照字符映射关系,将每个恶意域名映射为对应的字符串;
具体来说,本方案按照预先设定的字符映射关系,将每个恶意域名映射为对应的字符串时,具体包括如下步骤:
遍历每个恶意域名,按照字符映射关系将恶意域名中的数字映射为第一符号,将恶意域名中的符号映射为第二符号,将恶意域名中的无意义字母映射为第三符号,将恶意域名中的英文有意义字母映射为第四符号,将恶意域名中的中文有意义字母映射为第五符号,从而生成与每个恶意域名对应的字符串。
需要说明的是,由于机器学习的黑盒效应,无法把每一个从分类模型判定的恶意域名都当成恶意域名处理,但是,分类模型里的标签大部分都是来自DGA、硬编码域名,因此分类模型判定为恶意域名中应该存在大量行为类似于DGA的域名,相较于传统DGA域名,本方案能发现一些新的DGA域名模式。例如:本方案检出的域名都在文法上具有很强的相似性,如都是由随机字母组成的域名,或者是在随机字母中夹杂了一个连字符的新的DGA模式,传统的DGA分类模型无法处理这种情况。
因此在本申请中,将分类模型检出的恶意域名映射到预先设定好的域名模式空间中,该域名模式空间可根据预先设定的字符映射关系将域名映射为对应的字符串。参见图4,为本发明实施例提供的一种域名识别整体流程图;通过该图可以看出,该域名模式空间相比于正常的域名,只存在5种字符,分别为:数字、符号、无意义字母、英文有意义字母和中文有意义字母,这5中字符对应的映射关系为:数字与‘n’的映射关系,符号与‘s’的映射关系,无意义字母与‘u’的映射关系,英文有意义字母与‘e’的映射关系,中文有意义字母与‘c’的映射关系,当然,上述映射关系仅仅为一种具体的实施方式,本方案中的映射关系并不局限于此。
需要说明的是,本方案为了对映射中的字符进行识别,需要预先收集常用的中文拼音组合和常用英文单词,中文拼音组合为中文有意义字母,常用英文单词为英文有意义字母。如对于正常的域名baidu.com和DGA域名vffamysgsfsodw.com来说,‘baidu’属于中文有意义字母,则这5个字母全部映射为‘ccccc’,而‘com’不属于中文有意义字母也不属于英文有意义字母,因此映射为‘uuu’,标点符号全部映射为‘s’,所以‘baidu.com’映射为‘cccccsuuu’,而‘vffamysgsfsodw’不属于中文有意义字母也不属于英文有意义字母,则将‘vffamysgsfsodw.com’映射为‘uuuuuuuuuuuuuusuuu’。
S203、获取每个字符串的二元组,将每个字符串的二元组按顺序拼接生成目标字符串;
需要说明的是,通过S201和S202可找出不同的域名模式,但是,由于算法不是完全按这种模式生成的,一些模式上很相近的域名也是出自同一种家族的DGA域名,但是在模式上会稍有不同,例如eeeeenn.uuuuuuuu和eeeeenn.uuuuuuu就很类似,后者也仅是比前者少了一个u。因此本方案将相似模式合并。具体来说,本方案需要计算每个字符串的的2gram,并将2gram进行顺序拼接,如:‘ccsuu’的所有2gram组为cc,cs,su,uu,则拼接后为cccssuuu。同理,eeeeenn.uuuuuuuu就变成了eeeeeeeeennnn..uuuuuuuuuuuuuuu。可以看出,由于2gram信息中包含了文法的部分结构特征,通过其可抓住类似于“后者也仅是比前者少了一个u”这样的文法结构,从而增强域名聚集程度,找到新型恶意域名在文法上的相似度。
S204、将相同的目标字符串作为一种域名模式;获取不同域名模式下的目标字符串的相似度,并将相似度大于第一阈值的对应的域名模式合并。
需要说明的是,通过上一步骤对每个字符串执行2gram拼接操作后,需要计算目标字符串之间的相似度,将相似度较高的目标字符串归类为同一种域名模式;在实现该步骤时,具体是通过difflib.SequenceMatcher计算两个目标字符串的相似度,将相似度大于90%的认为这两个目标字符串属于同一种模式。从而将所有相似的目标字符串归类为同一种模式。具体来说,将所有恶意域名转换为字符串并执行2gram拼接操作后,会存在多个域名的目标字符串相同的情况,并将相同的目标字符串作为一种域名模式,在本实施例中,为了减少计算量,可在域名模式下的目标字符串的数量超过预定值时,将该域名模式设置为种子模式,然后将该种子模式中的目标字符串优先与其他域名模式的字符串进行对比,如果相似度大于第一阈值,则将其他域名模式归类为该种子模式,如果相似度不大于第一阈值,则不进行模式合并;在种子模式与其他域名模式合并后,可再将其他域名模式之间进行相似度合并,直至所有的域名模式的目标字符串之间相似度均不大于第一阈值为止,通过上述过程,便可得到不同的域名模式,且不同的域名模式下包括相似度极高的不同恶意域名的字符串。
例如:若‘cccsuuu’模式的域名数量大于100,那么‘cccsuuu’就成了种子模式,然后计算种子模式与其他域名模式的字符串的相似度,如果相似度大于90%,那么其他域名模式也归为种子模式下,通过这种方式,可以找出更多具有相同模式的域名。
综上可以看出,本方案提出了一种基于全局行为的恶意域名识别方案,在本方案中,通过主机-域名-解析IP三者关系的进行全局域名特征提取,该全局域名特征覆盖更多更有效的特征,因此利用全局域名特征进行恶意域名的识别,能检测更多的恶意域名,并且提高准确率和可解释性;并且,本方案将恶意域名进行映射后,能将恶意域名的高维特征映射到一个5维特征空间中,使得大部分属于同一个家族算法生成的域名映射成一模一样的符号,并且,本方案通过对字符串执行2gram拼接处理,可增加字符串的聚集程度,找到新型恶意域名在文法上的相似度,从而提高了检测新型恶意域名的能力。
下面对本发明实施例提供的域名识别装置进行介绍,下文描述的域名识别装置与上文描述的域名识别方法可以相互参照。
参见图5,本发明实施例提供的一种域名识别装置结构示意图;该装置包括:
恶意域名识别模块21,用于利用未知域名的全局域名特征,识别所述未知域名中的恶意域名;
映射模块22,用于按照字符映射关系,将每个恶意域名映射为对应的字符串;
相似度获取模块23,用于获取字符串之间的相似度;
字符串归类模块24,用于将相似度大于第一阈值的字符串归类为同一种域名模式;
检测模块25,用于利用域名模式对主机所访问的域名进行安全检测。
其中,恶意域名识别模块包括:
特征处理单元,用于利用全网DNS数据构建全局域名特征,并将所述全局域名特征进行处理;所述全局域名特征包括主机侧特征、IP侧特征和域名侧特征;
识别单元,用于将处理后的全局域名特征输入分类模型,以通过所述分类模型识别所述未知域名中的恶意域名。
其中,所述识别单元具体用于:将处理后的全局域名特征输入LightGBM分类模型,得到各个未知域名属于恶意域名的概率值分类结果;将概率值大于第二阈值的未知域名作为恶意域名。
其中,所述映射模块具体用于:
遍历每个恶意域名,按照字符映射关系将恶意域名中的数字映射为第一符号,将恶意域名中的符号映射为第二符号,将恶意域名中的无意义字母映射为第三符号,将恶意域名中的英文有意义字母映射为第四符号,将恶意域名中的中文有意义字母映射为第五符号,从而生成与每个恶意域名对应的字符串。
其中,所述检测模块包括:
映射单元,用于按照所述字符映射关系,将主机所访问的域名映射为待检测字符串;
安全事件生成单元,用于将每个待检测字符串分别与各个域名模式下的字符串进行比对,若不同的待检测字符串与同一域名模式下的字符串的相同次数大于第三阈值,则生成与所述主机对应的安全事件。
其中,所述装置还包括:
二元组获取模块,用于获取每个字符串的二元组;
拼接模块,用于将每个字符串的二元组按顺序拼接生成目标字符串。
其中,所述字符串归类模块具体用于:将相同的目标字符串作为一种域名模式;获取不同域名模式下的目标字符串的相似度,并将相似度大于第一阈值的对应的域名模式合并。
参见图6,为本发明实施例提供的一种电子设备结构示意图;通过该图可以看出,该设备包括:
存储器31,用于存储计算机程序;
处理器32,用于执行所述计算机程序时实现如上述任意方法实施例所述的的域名识别方法的步骤。
在本实施例中,该设备为服务器或PC(Personal Computer,个人电脑)、智能手机、平板电脑、掌上电脑、便携计算机等终端设备。
该设备可以包括存储器31、处理器32和总线33。
其中,存储器31包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序,该存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。处理器32在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,为网关设备提供计算和控制能力,执行所述存储器31中保存的计算机程序时,可以实现前述任一实施例公开的域名识别方法的步骤。
该总线33可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步地,设备还可以包括网络接口34,网络接口34可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该设备与其他电子设备之间建立通信连接。
图6仅示出了具有组件31-34的设备,本领域技术人员可以理解的是,图6示出的结构并不构成对设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例还公开一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意方法实施例所述的的域名识别方法的步骤。
其中,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种域名识别方法,其特征在于,包括:
利用未知域名的全局域名特征,识别所述未知域名中的恶意域名;所述全局域名特征包括主机侧特征、IP侧特征和域名侧特征;
按照字符映射关系,将每个恶意域名映射为对应的字符串;
获取字符串之间的相似度,将相似度大于第一阈值的字符串归类为同一种域名模式;
按照所述字符映射关系,将主机所访问的域名映射为待检测字符串;
将每个待检测字符串分别与各个域名模式下的字符串进行比对,若不同的待检测字符串与同一域名模式下的字符串的相同次数大于第三阈值,则生成与所述主机对应的安全事件。
2.根据权利要求1所述的域名识别方法,其特征在于,所述利用未知域名的全局域名特征,识别所述未知域名中的恶意域名,包括:
利用全网DNS数据构建全局域名特征,并将所述全局域名特征进行处理;
将处理后的全局域名特征输入分类模型,以通过所述分类模型识别所述未知域名中的恶意域名。
3.根据权利要求2所述的域名识别方法,其特征在于,所述将处理后的全局域名特征输入分类模型,以通过所述分类模型识别所述未知域名中的恶意域名,包括:
将处理后的全局域名特征输入LightGBM分类模型,得到各个未知域名属于恶意域名的概率值分类结果;
将概率值大于第二阈值的未知域名作为恶意域名。
4.根据权利要求1所述的域名识别方法,其特征在于,所述按照字符映射关系,将每个恶意域名映射为对应的字符串,包括:
遍历每个恶意域名,按照字符映射关系将恶意域名中的数字映射为第一符号,将恶意域名中的符号映射为第二符号,将恶意域名中的无意义字母映射为第三符号,将恶意域名中的英文有意义字母映射为第四符号,将恶意域名中的中文有意义字母映射为第五符号,从而生成与每个恶意域名对应的字符串。
5.根据权利要求1至4中任意一项所述的域名识别方法,其特征在于,所述将相似度大于第一阈值的字符串归类为同一种域名模式之前,还包括:
获取每个字符串的二元组;
将每个字符串的二元组按顺序拼接生成目标字符串。
6.根据权利要求5所述的域名识别方法,其特征在于,所述获取字符串之间的相似度,将相似度大于第一阈值的字符串归类为同一种域名模式,包括:
将相同的目标字符串作为一种域名模式;
获取不同域名模式下的目标字符串的相似度,并将相似度大于第一阈值的对应的域名模式合并。
7.一种域名识别装置,其特征在于,包括:
恶意域名识别模块,用于利用未知域名的全局域名特征,识别所述未知域名中的恶意域名;所述全局域名特征包括主机侧特征、IP侧特征和域名侧特征;
映射模块,用于按照字符映射关系,将每个恶意域名映射为对应的字符串;
相似度获取模块,用于获取字符串之间的相似度;
字符串归类模块,用于将相似度大于第一阈值的字符串归类为同一种域名模式;
检测模块,用于按照所述字符映射关系,将主机所访问的域名映射为待检测字符串;将每个待检测字符串分别与各个域名模式下的字符串进行比对,若不同的待检测字符串与同一域名模式下的字符串的相同次数大于第三阈值,则生成与所述主机对应的安全事件。
8.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述的域名识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的域名识别方法的步骤。
CN202010316317.1A 2020-04-21 2020-04-21 一种域名识别方法、装置、设备及计算机可读存储介质 Active CN113542202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010316317.1A CN113542202B (zh) 2020-04-21 2020-04-21 一种域名识别方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010316317.1A CN113542202B (zh) 2020-04-21 2020-04-21 一种域名识别方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113542202A CN113542202A (zh) 2021-10-22
CN113542202B true CN113542202B (zh) 2022-09-30

Family

ID=78123825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010316317.1A Active CN113542202B (zh) 2020-04-21 2020-04-21 一种域名识别方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113542202B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116455620A (zh) * 2023-03-31 2023-07-18 华能信息技术有限公司 一种恶意域名访问分析及确定方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107682348A (zh) * 2017-10-19 2018-02-09 杭州安恒信息技术有限公司 基于机器学习的dga域名快速判别方法及装置
CN108632227A (zh) * 2017-03-23 2018-10-09 中国移动通信集团广东有限公司 一种恶意域名检测处理方法及装置
CN108737385A (zh) * 2018-04-24 2018-11-02 杭州安恒信息技术股份有限公司 一种基于dns映射ip的恶意域名匹配方法
CN110099059A (zh) * 2019-05-06 2019-08-06 腾讯科技(深圳)有限公司 一种域名识别方法、装置及存储介质
CN110198292A (zh) * 2018-03-30 2019-09-03 腾讯科技(深圳)有限公司 域名识别方法和装置、存储介质及电子装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9363282B1 (en) * 2014-01-28 2016-06-07 Infoblox Inc. Platforms for implementing an analytics framework for DNS security
US10681070B2 (en) * 2017-05-26 2020-06-09 Qatar Foundatiion Method to identify malicious web domain names thanks to their dynamics
US10979451B2 (en) * 2018-02-14 2021-04-13 Cisco Technology, Inc. Autonomous domain generation algorithm (DGA) detector

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108632227A (zh) * 2017-03-23 2018-10-09 中国移动通信集团广东有限公司 一种恶意域名检测处理方法及装置
CN107682348A (zh) * 2017-10-19 2018-02-09 杭州安恒信息技术有限公司 基于机器学习的dga域名快速判别方法及装置
CN110198292A (zh) * 2018-03-30 2019-09-03 腾讯科技(深圳)有限公司 域名识别方法和装置、存储介质及电子装置
CN108737385A (zh) * 2018-04-24 2018-11-02 杭州安恒信息技术股份有限公司 一种基于dns映射ip的恶意域名匹配方法
CN110099059A (zh) * 2019-05-06 2019-08-06 腾讯科技(深圳)有限公司 一种域名识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN113542202A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
US11580222B2 (en) Automated malware analysis that automatically clusters sandbox reports of similar malware samples
US10878087B2 (en) System and method for detecting malicious files using two-stage file classification
CN112148305B (zh) 一种应用检测方法、装置、计算机设备和可读存储介质
US10803057B1 (en) Utilizing regular expression embeddings for named entity recognition systems
CN113360912A (zh) 恶意软件检测方法、装置、设备及存储介质
US11775749B1 (en) Content masking attacks against information-based services and defenses thereto
CN113688240B (zh) 威胁要素提取方法、装置、设备及存储介质
CN113961768B (zh) 敏感词检测方法、装置、计算机设备和存储介质
CN116366377B (zh) 恶意文件检测方法、装置、设备及存储介质
CN111488574B (zh) 恶意软件分类方法、系统、计算机设备和存储介质
CN113542442B (zh) 一种恶意域名检测方法、装置、设备及存储介质
CN116015703A (zh) 模型训练方法、攻击检测方法及相关装置
CN115664859A (zh) 基于云打印场景下的数据安全分析方法、装置、设备及介质
CN113542202B (zh) 一种域名识别方法、装置、设备及计算机可读存储介质
Assefa et al. Intelligent phishing website detection using deep learning
CN113810375B (zh) webshell检测方法、装置、设备及可读存储介质
CN114448664A (zh) 钓鱼网页的识别方法、装置、计算机设备及存储介质
CN113220949B (zh) 一种隐私数据识别系统的构建方法及装置
EP3588349B1 (en) System and method for detecting malicious files using two-stage file classification
CN116074081B (zh) Dga域名检测方法、装置、设备及存储介质
CN113111147A (zh) 一种文本类型识别方法、装置及电子设备和存储介质
CN112632541B (zh) 行为恶意程度的确定方法、装置、计算机设备和存储介质
CN115718696B (zh) 源码密码学误用检测方法、装置、电子设备和存储介质
CN116775889B (zh) 基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质
CN113535444B (zh) 异动检测方法、装置、计算设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant