CN113381963A - 一种域名检测方法、装置和存储介质 - Google Patents

一种域名检测方法、装置和存储介质 Download PDF

Info

Publication number
CN113381963A
CN113381963A CN202010117116.9A CN202010117116A CN113381963A CN 113381963 A CN113381963 A CN 113381963A CN 202010117116 A CN202010117116 A CN 202010117116A CN 113381963 A CN113381963 A CN 113381963A
Authority
CN
China
Prior art keywords
domain name
domain
determining
apt
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010117116.9A
Other languages
English (en)
Other versions
CN113381963B (zh
Inventor
陈扬
雷昕
闫凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202010117116.9A priority Critical patent/CN113381963B/zh
Publication of CN113381963A publication Critical patent/CN113381963A/zh
Application granted granted Critical
Publication of CN113381963B publication Critical patent/CN113381963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Abstract

本发明公开了一种域名检测方法、装置和存储介质,其中,方法包括:获取DNS数据,从所述DNS数据中提取域名访问序列;所述域名访问序列包括至少一个域名;运用预设的数据处理模型识别所述至少一个域名,得到所述至少一个域名中各域名对应的向量;根据所述各域名对应的向量,将各域名与预设的APT相似域名库中各种子域名进行比较,根据比较结果从所述至少一个域名中确定符合相似度要求的第一目标域名;根据所述第一目标域名更新所述APT相似域名库。

Description

一种域名检测方法、装置和存储介质
技术领域
本发明涉及信息安全技术,尤其涉及一种域名检测方法、装置和计算机可读存储介质。
背景技术
域名系统(DNS,Domain Name System)安全中,高级威胁一直以来都是业界比较关注但较难的一个检测方向。相关技术中,获取高级威胁的方式为通过情报能力将高级可持续威胁攻击(APT,Advanced Persistent Threat)域名收录到情报库中,上述方法往往都是依赖于外部能力,是一个被动的行为,无法主动的获取APT域名的线索和检测能力。
发明内容
有鉴于此,本发明的主要目的在于提供一种域名检测方法、装置和计算机可读存储介质。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种域名检测方法,所述方法包括:
获取DNS数据,从所述DNS数据中提取域名访问序列;所述域名访问序列包括至少一个域名;
运用预设的数据处理模型识别所述至少一个域名,得到所述至少一个域名中各域名对应的向量;
根据所述各域名对应的向量,将各域名与预设的APT相似域名库中各种子域名进行比较,根据比较结果从所述至少一个域名中确定符合相似度要求的第一目标域名;
根据所述第一目标域名更新所述APT相似域名库。
上述方案中,所述方法还包括:生成所述预设的数据处理模型;
所述生成所述预设的数据处理模型,包括:
获取至少一个训练域名访问序列;
根据所述至少一个训练域名访问序列训练word2vec模型,得到训练后的word2vec模型作为所述预设的数据处理模型。
上述方案中,所述运用预设的数据处理模型识别所述至少一个域名,得到所述至少一个域名中各域名对应的向量,包括:
对所述域名访问序列进行切分,得到所述域名访问序列包括的至少一个域名;
运用所述预设的数据处理模块识别所述至少一个域名中各域名,得到各域名对应的向量。
上述方案中,所述根据所述各域名对应的向量,将各域名与预设的APT相似域名库中各种子域名进行比较,包括:
确定所述预设的APT相似域名库中各种子域名对应的向量;
将所述各域名对应的向量与所述各种子域名对应的向量进行相似度计算,确定所述各域名对应的向量与所述各种子域名对应的向量的相似度。
上述方案中,所述根据所述第一目标域名更新所述APT相似域名库,包括:
从所述第一目标域名中确定满足以下至少之一条件的域名:
确定与任一所述种子域名为同型近义的域名;
确定稀有度超过第一预设阈值的域名;
确定随机性超过第二预设阈值的域名;
确定命中开源情报的域名;
以及,根据确定的满足条件的域名更新所述APT相似域名库。
本发明实施例提供了一种域名检测装置,所述装置包括:第一处理模块、第二处理模块、第三处理模块和第四处理模块;其中,
所述第一处理模块,用于获取DNS数据,从所述DNS数据中提取域名访问序列;所述域名访问序列包括至少一个域名;
所述第二处理模块,用于运用预设的数据处理模型识别所述至少一个域名,得到所述至少一个域名中各域名对应的向量;
所述第三处理模块,用于根据所述各域名对应的向量,将各域名与预设的APT相似域名库中各种子域名进行比较,根据比较结果从所述至少一个域名中确定符合相似度要求的第一目标域名;
所述第四处理模块,用于根据所述第一目标域名更新所述APT相似域名库。
上述方案中,所述装置还包括:预处理模块,用于获取至少一个训练域名访问序列;
根据所述至少一个训练域名访问序列训练word2vec模型,得到训练后的word2vec模型作为所述预设的数据处理模型。
上述方案中,所述第二处理模块,用于对所述域名访问序列进行切分,得到所述域名访问序列包括的至少一个域名;
运用所述预设的数据处理模块识别所述至少一个域名中各域名,得到各域名对应的向量。
上述方案中,所述第三处理模块,用于确定所述预设的APT相似域名库中各种子域名对应的向量;
将所述各域名对应的向量与所述各种子域名对应的向量进行相似度计算,确定所述各域名对应的向量与所述各种子域名对应的向量的相似度。
上述方案中,所述第四处理模块,用于从所述第一目标域名中确定满足以下至少之一条件的域名:
确定与任一所述种子域名为同型近义的域名;
确定稀有度超过第一预设阈值的域名;
确定随机性超过第二预设阈值的域名;
确定命中开源情报的域名;
以及,根据确定的满足条件的域名更新所述APT相似域名库。
本发明实施例提供了一种域名检测装置,所述装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行上述任一项域名检测方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以上任一项所述域名检测方法的步骤。
本发明实施例所提供的域名检测方法、装置和计算机可读存储介质,获取DNS数据,从所述DNS数据中提取域名访问序列;所述域名访问序列包括至少一个域名;运用预设的数据处理模型识别所述至少一个域名,得到所述至少一个域名中各域名对应的向量;根据所述各域名对应的向量,将各域名与预设的APT相似域名库中各种子域名进行比较,根据比较结果从所述至少一个域名中确定符合相似度要求的第一目标域名;根据所述第一目标域名更新所述APT相似域名库。本发明实施例中,将威胁情报收录的APT域名作为种子域名,关联出高可疑的域名(即第一目标域名),实现主动挖掘APT域名。
附图说明
图1为本发明实施例提供的一种域名检测方法的流程示意图;
图2为本发明实施例提供的另一种域名检测方法的流程示意图;
图3为本发明实施例提供的一种域名检测装置的结构示意图;
图4为本发明实施例提供的另一种域名检测装置的结构示意图。
具体实施方式
在本发明的各种实施例中,获取DNS数据,从所述DNS数据中提取域名访问序列;所述域名访问序列包括至少一个域名;运用预设的数据处理模型识别所述至少一个域名,得到所述至少一个域名中各域名对应的向量;根据所述各域名对应的向量,将各域名与预设的APT相似域名库中各种子域名进行比较,根据比较结果从所述至少一个域名中确定符合相似度要求的第一目标域名;根据所述第一目标域名更新所述APT相似域名库。
下面结合实施例对本发明再作进一步详细的说明。
图1为本发明实施例提供的一种域名检测方法的流程示意图;如图1所示,所述域名检测方法包括:
步骤101、获取DNS数据,从所述DNS数据中提取域名访问序列;所述域名访问序列包括至少一个域名;
步骤102、运用预设的数据处理模型识别所述至少一个域名,得到所述至少一个域名中各域名对应的向量;
步骤103、根据所述各域名对应的向量,将各域名与预设的APT相似域名库中各种子域名(Seed Domains)进行比较,根据比较结果从所述至少一个域名中确定符合相似度要求的第一目标域名;
步骤104、根据所述第一目标域名更新所述APT相似域名库。
具体地,所述方法可以应用于服务器中,所述服务器接收相关的域名检测指令,即可执行本发明实施例提供的方法。
所述DNS数据可以是针对某一台主机的DNS数据,则所述服务器可以直接从所述DNS数据中提取域名访问序列;所述DNS数据也可以包括有多台主机对应的DNS数据,则所述步骤101包括:从所述DNS数据中确定针对每台主机的DNS数据,针对每台主机的DNS数据,提取每台主机对应的域名访问序列,即针对每台主机对应的DNS数据分别执行上述步骤102-104。
具体地,所述方法还包括:生成所述预设的数据处理模型;
这里,所述生成所述预设的数据处理模型,包括:
获取至少一个训练域名访问序列;
根据所述至少一个训练域名访问序列训练word2vec模型,得到训练后的word2vec模型作为所述预设的数据处理模型。
这里,所述训练域名访问序列可以采用上述从DNS数据中提取的域名访问序列,即可以在所述获取DNS数据后进行word2vec模型训练;也可以采用其他方式获得训练域名访问序列(如由开发人员设定)以进行模型训练,即可以在所述方法执行之前进行模型训练;这里不做限定。
需要说明的是,本发明实施例提供了一种word2vec模型作为词向量模型,也可以使用其他词向量模型,这里不做限定。
具体地,所述步骤102中,运用预设的数据处理模型识别所述至少一个域名,得到所述至少一个域名中各域名对应的向量;包括:
对所述域名访问序列进行切分,得到所述域名访问序列包括的至少一个域名;
运用所述预设的数据处理模块识别所述至少一个域名中各域名,得到各域名对应的向量。
具体地,所述步骤103中,所述根据所述各域名对应的向量,将各域名与预设的APT相似域名库中各种子域名进行比较,包括:
确定所述预设的APT相似域名库中各种子域名对应的向量;
将所述各域名对应的向量与所述各种子域名对应的向量进行相似度计算,确定所述各域名对应的向量与所述各种子域名对应的向量的相似度。
这里,所述种子域名为威胁情报中已知的黑域名。与种子域名相对的可以称为合法域名(Legitimate Domains),即提供正常业务的域名,客户可根据自身需求访问正常域名。
这里,所述确定所述预设的APT相似域名库中各种子域名对应的向量,包括:运用所述预设的数据处理模型识别各种子域名,得到各种子域名对应的向量。
这里,所述相似度可以采用任意一种向量(文本)相似度计算方法,这里不做限定,例如:余弦相似度、欧氏距离、曼哈顿距离、皮尔逊相关系数等相似度计算方法。
具体地,所述步骤103中,根据比较结果从所述至少一个域名中确定符合相似度要求的第一目标域名,包括:
从所述至少一个域名中确定与任一种子域名对应的向量的相似度超过预设相似度阈值的域名,作为第一目标域名。
所述相似度阈值由开发人员根据需求设定。
具体地,所述步骤104中,根据所述第一目标域名更新所述APT相似域名库,包括:
对所述第一目标域名进行检测,从所述第一目标域名确定符合预设条件的第二目标域名;
根据所述符合预设条件的第二目标域名,更新所述APT相似域名库。
这里,所述根据所述符合预设条件的第二目标域名,更新所述APT相似域名库,包括:
将所述符合预设条件的第二目标域名,添加至所述APT相似域名库;或者,
根据所述符合预设条件的第二目标域名,生成新的APT相似域名库。
这里,对所述第一目标域名进行检测,从所述第一目标域名确定符合预设条件的第二目标域名;包括:
从所述第一目标域名中确定满足以下至少之一条件的域名:
确定与任一所述种子域名为同型近义的域名;
确定稀有度超过第一预设阈值的域名;
确定随机性超过第二预设阈值的域名;
确定命中开源情报的域名。
这里,所述第一预设阈值和所述第二预设阈值由开发人员预先设定,具体可以基于检测需求和前期试验确定数值。
域名在DNS数据的稀有度和域名的随机性可以理解为域名的属性,具体可以检测得到。具体方法可以包括:进行DNS数据统计,根据统计结果确定域名在DNS数据中多少个主机出现过以及出现的频率,作为稀有度;所述随机性是根据域名文法情况判断,例如确定域名中有意义单词的占比,作为所述随机性。
具体地,本发明实施例中,在步骤101之前,所述方法还包括:
确定接收到域名检测指令后,确定是否保存有预设时间之前的APT相似域名库;
确定存在有预设时间之前的APT相似域名库,则删除所述APT相似域名库后,从所述DNS数据中提取域名访问序列,即删除所述APT相似域名库后执行步骤101;
确定不存在有预设时间之前的APT相似域名库,则直接从所述DNS数据中提取域名访问序列,即直接执行步骤101。
本发明实施例提供的方法,将以APT域名作为种子域名进行关联分析和相似度分析,得到与APT域名相似的第一目标域名;解决了现有方案中通过各种情报能力去收录APT域名,过于依赖于外部能力,无法主动的去收集APT的相关信息和检测APT域名,使得整个检测流程充满局限性的问题。
图2为本发明实施例提供的另一种域名检测方法的流程示意图,如图2所示,所述域名检测方法,包括:
步骤201、判断是否接收到域名检测指令;确定接收到域名检测指令,则进入步骤202,否则进入步骤208;
这里,所述方法可以应用于服务器,所述服务器中可以包括有一个模块、如数据处理模块,所述数据处理模块确定用户针对服务器的操作指令,当确定接收到域名检测指令后,则生成一个消息,并发送给另一个模块、如数据检测模块,所述数据检测模块接收到消息后执行下述步骤。
步骤202、判断是否存在一周前(这里时间可以由开发人员设定,如也可以是6天、10天等)的APT相似域名库;确定存在一周前的APT相似域名库,则进入步骤203,否则,进入步骤204;
步骤203、删除所述一周前的相似域名库;
步骤204、获取DNS数据,根据所述DNS数据构建域名访问序列;
这里,所述根据所述DNS数据构建域名访问序列,包括:从所述DNS数据中提取每台主机对应的域名访问序列。
步骤205、利用已知的种子域名,确定与种子域名的相似度符合相似度要求的第一目标域名;
这里,将威胁情报中APT相似域名库中的域名作为种子域名,利用求取相似度的算法,关联出域名访问序列中与种子域名的相似度高于预设相似度阈值且为TopN(N可以由开发人员设定)的域名,即为所述符合相似度要求的第一目标域名。
这里,所述利用已知的种子域名,确定与种子域名的相似度符合相似度要求的第一目标域名,包括:
针对每台主机对应的域名访问序列进行切分处理(以保证域名访问序列的有效性),得到至少一个域名;
运用预设的word2vec模型识别所述至少一个域名中各域名,得到每个域名对应的向量;
运用预设的word2vec模型,确定所述预设的APT相似域名库中各种子域名对应的向量;
将每个域名对应的向量与各种子域名对应的向量进行相似度计算,确定每个域名对应的向量与所述各种子域名对应的向量的相似度;
根据与种子域名对应的向量的相似度满足相似度要求(如相似度高于预设相似度阈值且为TopN)的域名,作为第一目标域名。
这里,将域名看做单词,将域名识别问题转换成文本问题,运用训练得到的一个word2vec模型,可以得到每个域名对应的向量(一个128维的向量)。
这里,所述方法还包括:训练得到word2vec模型;
所述训练得到word2vec模型,包括:获取至少一个训练域名访问序列;
根据所述至少一个训练域名访问序列训练word2vec模型,得到训练后的word2vec模型作为所述预设的数据处理模型。
步骤206、将所述第一目标域名存入APT相似域名库;
这里,所述步骤206包括:从所述第一目标域名中确定符合预设条件的第二目标域名,将所述第二目标域名并存入所述APT相似域名库。
所述APT相似域名库可以应用于APT检测。
这里,所述步骤206还可以包括:对所述第一目标域名进行检测,从所述第一目标域名确定符合预设条件的第二目标域名,将所述第二目标域名存入APT相似域名库:
从所述第一目标域名中确定满足以下至少之一条件的域名:
确定与任一所述种子域名为同型近义的域名;
确定稀有度超过第一预设阈值的域名;
确定随机性超过第二预设阈值的域名;
确定命中开源情报的域名。
步骤207、结束。
本发明实施例提供的方法利用自然语言处理当中的词向量技术,将域名在主机访问顺序中的高维特征嵌入到一个低维向量(即得到上述域名对应的向量)当中,利用威胁情报中APT相似域名库中的域名作为种子域名,关联出所有与已知种子域名高相似的未知域名,提高APT检测能力,同时该方法会随着种子域名的增加,检测能力也会逐步增加。
图3为本发明实施例提供的一种域名检测装置的结构示意图;如图3所示,所述装置包括:第一处理模块、第二处理模块、第三处理模块和第四处理模块;其中,
所述第一处理模块,用于获取DNS数据,从所述DNS数据中提取域名访问序列;所述域名访问序列包括至少一个域名;
所述第二处理模块,用于运用预设的数据处理模型识别所述至少一个域名,得到所述至少一个域名中各域名对应的向量;
所述第三处理模块,用于根据所述各域名对应的向量,将各域名与预设的APT相似域名库中各种子域名进行比较,根据比较结果从所述至少一个域名中确定符合相似度要求的第一目标域名;
所述第四处理模块,用于根据所述第一目标域名更新所述APT相似域名库。
具体地,所述装置还包括:预处理模块,用于获取至少一个训练域名访问序列;
根据所述至少一个训练域名访问序列训练word2vec模型,得到训练后的word2vec模型作为所述预设的数据处理模型。
具体地,所述第二处理模块,用于对所述域名访问序列进行切分,得到所述域名访问序列包括的至少一个域名;
运用所述预设的数据处理模块识别所述至少一个域名中各域名,得到各域名对应的向量。
具体地,所述第三处理模块,用于确定所述预设的APT相似域名库中各种子域名对应的向量;
将所述各域名对应的向量与所述各种子域名对应的向量进行相似度计算,确定所述各域名对应的向量与所述各种子域名对应的向量的相似度。
具体地,所述第四处理模块,用于从所述第一目标域名中确定满足以下至少之一条件的域名:
确定与任一所述种子域名为同型近义的域名;
确定稀有度超过第一预设阈值的域名;
确定随机性超过第二预设阈值的域名;
确定命中开源情报的域名;
以及,根据确定的满足条件的域名更新所述APT相似域名库。
需要说明的是:上述实施例提供的域名检测装置在进行域名检测时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的域名检测装置与域名检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图4为本发明实施例提供的另一种域名检测装置的结构示意图。所述装置40包括:处理器401和用于存储能够在所述处理器上运行的计算机程序的存储器402;其中,所述处理器401用于运行所述计算机程序时,执行:获取DNS数据,从所述DNS数据中提取域名访问序列;所述域名访问序列包括至少一个域名;运用预设的数据处理模型识别所述至少一个域名,得到所述至少一个域名中各域名对应的向量;根据所述各域名对应的向量,将各域名与预设的APT相似域名库中各种子域名进行比较,根据比较结果从所述至少一个域名中确定符合相似度要求的第一目标域名;根据所述第一目标域名更新所述APT相似域名库。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:获取至少一个训练域名访问序列;根据所述至少一个训练域名访问序列训练word2vec模型,得到训练后的word2vec模型作为所述预设的数据处理模型。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:对所述域名访问序列进行切分,得到所述域名访问序列包括的至少一个域名;运用所述预设的数据处理模块识别所述至少一个域名中各域名,得到各域名对应的向量。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:确定所述预设的APT相似域名库中各种子域名对应的向量;将所述各域名对应的向量与所述各种子域名对应的向量进行相似度计算,确定所述各域名对应的向量与所述各种子域名对应的向量的相似度。
在一实施例中,所述处理器401还用于运行所述计算机程序时,执行:
从所述第一目标域名中确定满足以下至少之一条件的域名:
确定与任一所述种子域名为同型近义的域名;
确定稀有度超过第一预设阈值的域名;
确定随机性超过第二预设阈值的域名;
确定命中开源情报的域名;
以及,根据确定的满足条件的域名更新所述APT相似域名库。
需要说明的是:上述实施例提供的域名检测装置与域名检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
实际应用时,所述装置40还可以包括:至少一个网络接口403。域名检测装置40中的各个组件通过总线系统404耦合在一起。可理解,总线系统404用于实现这些组件之间的连接通信。总线系统404除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统404。其中,所述处理器401的个数可以为至少一个。网络接口403用于域名检测装置40与其他设备之间有线或无线方式的通信。
本发明实施例中的存储器402用于存储各种类型的数据以支持域名检测装置40的操作。
上述本发明实施例揭示的方法可以应用于处理器401中,或者由处理器401实现。处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(DSP,DiGital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器401可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,域名检测装置40可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行:获取DNS数据,从所述DNS数据中提取域名访问序列;所述域名访问序列包括至少一个域名;运用预设的数据处理模型识别所述至少一个域名,得到所述至少一个域名中各域名对应的向量;根据所述各域名对应的向量,将各域名与预设的APT相似域名库中各种子域名进行比较,根据比较结果从所述至少一个域名中确定符合相似度要求的第一目标域名;根据所述第一目标域名更新所述APT相似域名库。
在一实施例中,所述计算机程序被处理器运行时,执行:获取至少一个训练域名访问序列;根据所述至少一个训练域名访问序列训练word2vec模型,得到训练后的word2vec模型作为所述预设的数据处理模型。
在一实施例中,所述计算机程序被处理器运行时,执行:对所述域名访问序列进行切分,得到所述域名访问序列包括的至少一个域名;运用所述预设的数据处理模块识别所述至少一个域名中各域名,得到各域名对应的向量。
在一实施例中,所述计算机程序被处理器运行时,执行:确定所述预设的APT相似域名库中各种子域名对应的向量;将所述各域名对应的向量与所述各种子域名对应的向量进行相似度计算,确定所述各域名对应的向量与所述各种子域名对应的向量的相似度。
在一实施例中,所述计算机程序被处理器运行时,执行:从所述第一目标域名中确定满足以下至少之一条件的域名:
确定与任一所述种子域名为同型近义的域名;
确定稀有度超过第一预设阈值的域名;
确定随机性超过第二预设阈值的域名;
确定命中开源情报的域名;
以及,根据确定的满足条件的域名更新所述APT相似域名库。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种域名检测方法,其特征在于,所述方法包括:
获取域名系统DNS数据,从所述DNS数据中提取域名访问序列;所述域名访问序列包括至少一个域名;
运用预设的数据处理模型识别所述至少一个域名,得到所述至少一个域名中各域名对应的向量;
根据所述各域名对应的向量,将各域名与预设的高级可持续威胁攻击APT相似域名库中各种子域名进行比较,根据比较结果从所述至少一个域名中确定符合相似度要求的第一目标域名;
根据所述第一目标域名更新所述APT相似域名库。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:生成所述预设的数据处理模型;
所述生成所述预设的数据处理模型,包括:
获取至少一个训练域名访问序列;
根据所述至少一个训练域名访问序列训练word2vec模型,得到训练后的word2vec模型作为所述预设的数据处理模型。
3.根据权利要求1所述的方法,其特征在于,所述运用预设的数据处理模型识别所述至少一个域名,得到所述至少一个域名中各域名对应的向量,包括:
对所述域名访问序列进行切分,得到所述域名访问序列包括的至少一个域名;
运用所述预设的数据处理模块识别所述至少一个域名中各域名,得到各域名对应的向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述各域名对应的向量,将各域名与预设的高级可持续威胁攻击APT相似域名库中各种子域名进行比较,包括:
确定所述预设的APT相似域名库中各种子域名对应的向量;
将所述各域名对应的向量与所述各种子域名对应的向量进行相似度计算,确定所述各域名对应的向量与所述各种子域名对应的向量的相似度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一目标域名更新所述APT相似域名库,包括:
从所述第一目标域名中确定满足以下至少之一条件的域名:
确定与任一所述种子域名为同型近义的域名;
确定稀有度超过第一预设阈值的域名;
确定随机性超过第二预设阈值的域名;
确定命中开源情报的域名;
以及,根据确定的满足条件的域名更新所述APT相似域名库。
6.一种域名检测装置,其特征在于,所述装置包括:第一处理模块、第二处理模块、第三处理模块和第四处理模块;其中,
所述第一处理模块,用于获取域名系统DNS数据,从所述DNS数据中提取域名访问序列;所述域名访问序列包括至少一个域名;
所述第二处理模块,用于运用预设的数据处理模型识别所述至少一个域名,得到所述至少一个域名中各域名对应的向量;
所述第三处理模块,用于根据所述各域名对应的向量,将各域名与预设的高级可持续威胁攻击APT相似域名库中各种子域名进行比较,根据比较结果从所述至少一个域名中确定符合相似度要求的第一目标域名;
所述第四处理模块,用于根据所述第一目标域名更新所述APT相似域名库。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:预处理模块,用于获取至少一个训练域名访问序列;
根据所述至少一个训练域名访问序列训练word2vec模型,得到训练后的word2vec模型作为所述预设的数据处理模型。
8.根据权利要求6所述的装置,其特征在于,所述第二处理模块,用于对所述域名访问序列进行切分,得到所述域名访问序列包括的至少一个域名;
运用所述预设的数据处理模块识别所述至少一个域名中各域名,得到各域名对应的向量。
9.根据权利要求6所述的装置,其特征在于,所述第三处理模块,用于确定所述预设的APT相似域名库中各种子域名对应的向量;
将所述各域名对应的向量与所述各种子域名对应的向量进行相似度计算,确定所述各域名对应的向量与所述各种子域名对应的向量的相似度。
10.根据权利要求6所述的装置,其特征在于,所述第四处理模块,用于从所述第一目标域名中确定满足以下至少之一条件的域名:
确定与任一所述种子域名为同型近义的域名;
确定稀有度超过第一预设阈值的域名;
确定随机性超过第二预设阈值的域名;
确定命中开源情报的域名;
以及,根据确定的满足条件的域名更新所述APT相似域名库。
11.一种域名检测装置,其特征在于,所述装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行权利要求1至5任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。
CN202010117116.9A 2020-02-25 2020-02-25 一种域名检测方法、装置和存储介质 Active CN113381963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010117116.9A CN113381963B (zh) 2020-02-25 2020-02-25 一种域名检测方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010117116.9A CN113381963B (zh) 2020-02-25 2020-02-25 一种域名检测方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN113381963A true CN113381963A (zh) 2021-09-10
CN113381963B CN113381963B (zh) 2024-01-02

Family

ID=77569221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010117116.9A Active CN113381963B (zh) 2020-02-25 2020-02-25 一种域名检测方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN113381963B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114024718A (zh) * 2021-10-12 2022-02-08 鹏城实验室 恶意域名检测方法、装置、设备及存储介质
CN114039756A (zh) * 2021-10-29 2022-02-11 恒安嘉新(北京)科技股份公司 非法域名的探测方法、装置、设备及存储介质
CN114745355A (zh) * 2022-01-25 2022-07-12 合肥讯飞数码科技有限公司 Dns检测方法及装置、电子设备和存储介质
CN115051845A (zh) * 2022-06-08 2022-09-13 北京启明星辰信息安全技术有限公司 一种可疑流量识别方法、装置、设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104486461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 域名分类方法和装置、域名识别方法和系统
US20160065534A1 (en) * 2011-07-06 2016-03-03 Nominum, Inc. System for correlation of domain names
CN106060067A (zh) * 2016-06-29 2016-10-26 上海交通大学 基于Passive DNS迭代聚类的恶意域名检测方法
US20180007090A1 (en) * 2016-06-30 2018-01-04 Fortinet, Inc. Classification of top-level domain (tld) websites based on a known website classification
CN108282450A (zh) * 2017-01-06 2018-07-13 阿里巴巴集团控股有限公司 异常域名的检测方法及装置
CN108600200A (zh) * 2018-04-08 2018-09-28 腾讯科技(深圳)有限公司 域名检测方法、装置、计算机设备及存储介质
CN109150819A (zh) * 2018-01-15 2019-01-04 北京数安鑫云信息技术有限公司 一种攻击识别方法及其识别系统
CN109391706A (zh) * 2018-11-07 2019-02-26 顺丰科技有限公司 基于深度学习的域名检测方法、装置、设备和存储介质
CN110099059A (zh) * 2019-05-06 2019-08-06 腾讯科技(深圳)有限公司 一种域名识别方法、装置及存储介质
CN110392064A (zh) * 2019-09-04 2019-10-29 中国工商银行股份有限公司 风险识别方法、装置、计算设备以及计算机可读存储介质
CN110677384A (zh) * 2019-08-26 2020-01-10 奇安信科技集团股份有限公司 钓鱼网站的检测方法及装置、存储介质、电子装置
CN110808987A (zh) * 2019-11-07 2020-02-18 南京亚信智网科技有限公司 识别恶意域名的方法及计算设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160065534A1 (en) * 2011-07-06 2016-03-03 Nominum, Inc. System for correlation of domain names
CN104486461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 域名分类方法和装置、域名识别方法和系统
CN106060067A (zh) * 2016-06-29 2016-10-26 上海交通大学 基于Passive DNS迭代聚类的恶意域名检测方法
US20180007090A1 (en) * 2016-06-30 2018-01-04 Fortinet, Inc. Classification of top-level domain (tld) websites based on a known website classification
CN108282450A (zh) * 2017-01-06 2018-07-13 阿里巴巴集团控股有限公司 异常域名的检测方法及装置
CN109150819A (zh) * 2018-01-15 2019-01-04 北京数安鑫云信息技术有限公司 一种攻击识别方法及其识别系统
CN108600200A (zh) * 2018-04-08 2018-09-28 腾讯科技(深圳)有限公司 域名检测方法、装置、计算机设备及存储介质
CN109391706A (zh) * 2018-11-07 2019-02-26 顺丰科技有限公司 基于深度学习的域名检测方法、装置、设备和存储介质
CN110099059A (zh) * 2019-05-06 2019-08-06 腾讯科技(深圳)有限公司 一种域名识别方法、装置及存储介质
CN110677384A (zh) * 2019-08-26 2020-01-10 奇安信科技集团股份有限公司 钓鱼网站的检测方法及装置、存储介质、电子装置
CN110392064A (zh) * 2019-09-04 2019-10-29 中国工商银行股份有限公司 风险识别方法、装置、计算设备以及计算机可读存储介质
CN110808987A (zh) * 2019-11-07 2020-02-18 南京亚信智网科技有限公司 识别恶意域名的方法及计算设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
千里目实验室: "【安全资讯】AI+安全深信服安全感知精准识别海莲花APT 事件", 《深信服社区》 *
千里目实验室: "【安全资讯】AI+安全深信服安全感知精准识别海莲花APT 事件", 《深信服社区》, 16 January 2019 (2019-01-16) *
李骏韬: "基于DNS流量和威胁情报的APT检测研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 2019, pages 138 - 30 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114024718A (zh) * 2021-10-12 2022-02-08 鹏城实验室 恶意域名检测方法、装置、设备及存储介质
CN114024718B (zh) * 2021-10-12 2024-05-07 鹏城实验室 恶意域名检测方法、装置、设备及存储介质
CN114039756A (zh) * 2021-10-29 2022-02-11 恒安嘉新(北京)科技股份公司 非法域名的探测方法、装置、设备及存储介质
CN114039756B (zh) * 2021-10-29 2024-04-05 恒安嘉新(北京)科技股份公司 非法域名的探测方法、装置、设备及存储介质
CN114745355A (zh) * 2022-01-25 2022-07-12 合肥讯飞数码科技有限公司 Dns检测方法及装置、电子设备和存储介质
CN115051845A (zh) * 2022-06-08 2022-09-13 北京启明星辰信息安全技术有限公司 一种可疑流量识别方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN113381963B (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
CN113381963A (zh) 一种域名检测方法、装置和存储介质
US11544459B2 (en) Method and apparatus for determining feature words and server
CN106778241B (zh) 恶意文件的识别方法及装置
CN106874253A (zh) 识别敏感信息的方法及装置
CN113381962B (zh) 一种数据处理方法、装置和存储介质
CN111859968A (zh) 一种文本结构化方法、文本结构化装置及终端设备
CN113779481B (zh) 诈骗网站的识别方法、装置、设备及存储介质
CN111783126B (zh) 一种隐私数据识别方法、装置、设备和可读介质
CN110347900B (zh) 一种关键词的重要度计算方法、装置、服务器及介质
CN116015703A (zh) 模型训练方法、攻击检测方法及相关装置
CN114244795B (zh) 一种信息的推送方法、装置、设备及介质
CN108156127B (zh) 网络攻击模式的判断装置、判断方法及其计算机可读取储存媒体
CN112581297B (zh) 基于人工智能的信息推送方法、装置及计算机设备
CN114201756A (zh) 一种智能合约代码片段的漏洞检测方法和相关装置
CN112329443B (zh) 一种确定新词的方法、装置,计算机设备和介质
CN113971284B (zh) 基于JavaScript的恶意网页检测方法、设备及计算机可读存储介质
CN113010785A (zh) 用户推荐方法及设备
CN113688240B (zh) 威胁要素提取方法、装置、设备及存储介质
CN115935358A (zh) 一种恶意软件识别方法、装置、电子设备及存储介质
CN115292008A (zh) 用于分布式系统的事务处理方法、装置、设备及介质
CN114510717A (zh) 一种elf文件的检测方法、装置、存储介质
CN113836297A (zh) 文本情感分析模型的训练方法及装置
CN113409014A (zh) 基于人工智能的大数据业务处理方法及人工智能服务器
CN111563276B (zh) 一种网页篡改检测方法、检测系统及相关设备
CN114676428A (zh) 基于动态特征的应用程序恶意行为检测方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant