CN112839012A - 僵尸程序域名识别方法、装置、设备及存储介质 - Google Patents

僵尸程序域名识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112839012A
CN112839012A CN201911158445.1A CN201911158445A CN112839012A CN 112839012 A CN112839012 A CN 112839012A CN 201911158445 A CN201911158445 A CN 201911158445A CN 112839012 A CN112839012 A CN 112839012A
Authority
CN
China
Prior art keywords
domain name
dga
domain
suspected
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911158445.1A
Other languages
English (en)
Other versions
CN112839012B (zh
Inventor
郭智慧
付俊
陈璨璨
彭晋
张峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911158445.1A priority Critical patent/CN112839012B/zh
Publication of CN112839012A publication Critical patent/CN112839012A/zh
Application granted granted Critical
Publication of CN112839012B publication Critical patent/CN112839012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种僵尸程序域名识别方法、装置、设备及存储介质。其中,该方法包括:对域名系统(DNS)日志中设定时长内的域名进行域名特征提取,确定所述设定时长内多个域名分别对应的域名特征值;将所述域名特征值载入域名分类模型进行识别,得到第一疑似域名生成算法(DGA)域名集合;基于域名黑白名单对所述第一疑似DGA域名集合进行过滤,得到第二疑似DGA域名集合;基于所述DNS日志对所述第二疑似DGA域名集合中的各域名进行追踪查询,得到各域名对应的访问记录信息;基于所述各域名对应的访问记录信息确定出各域名是否为DGA域名的识别结果。

Description

僵尸程序域名识别方法、装置、设备及存储介质
技术领域
本发明涉及网络安全领域,尤其涉及一种僵尸程序域名识别方法、装置、设备及存储介质。
背景技术
随着僵尸网络技术的发展,攻击者在僵尸程序使用了Domain Flux技术,来应对安全技术人员的屏蔽。僵尸程序发起访问的C&C(命令控制)域名是根据一定的算法,选取固定的特征作为随机数种子,动态的生成变化的前缀字符串,然后加上固定的TLD(Top LevelDomain,顶级域名),这种域名生成算法称之为DGA(Domain Generation Algorithm),攻击者会使用DGA算法生成大量域名,但只会注册其中少量域名用做C&C域名。
相关技术中,对于僵尸程序生成的DGA域名,监控和检测手段主要有:
1、基于蜜罐蜜网的僵尸网络检测技术,模拟真实的网络环境,在客户端机器上设置蜜罐,诱导僵尸程序进行感染,从而俘获僵尸网络程序,然后逆向从源码中获取僵尸网络的相关信息。
2、基于网络流量的僵尸网络检测技术,利用受感染的不同客户端在与服务端建立通信的过程中具有协同性,对特征值相似的数据流进行归类分析,然后提取精准的DGA僵尸程序特征,进而对相似特征的数据流进行长时间监测与对比。
其中,基于蜜罐的检测方法部署复杂,对俘获的僵尸程序逆向,需要很强的技术支撑,且发现DGA域名的实时性较差;基于网络流量的僵尸网络检测技术,需要长时间监测对比确认相似数据流量,如果时间跨度较短,则检测准确度不高;而归类特征相似的数据流量,如果数据流量很大,则非常耗费计算资源。
发明内容
有鉴于此,本发明实施例提供了一种僵尸程序域名识别方法、装置、设备及存储介质,旨在提高僵尸程序监测的准确率。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种僵尸程序域名识别方法,包括:
对域名系统(DNS)日志中设定时长内的域名进行域名特征提取,确定所述设定时长内多个域名分别对应的域名特征值;
将所述域名特征值载入域名分类模型进行识别,得到第一疑似DGA域名集合;
基于域名黑白名单对所述第一疑似DGA域名集合进行过滤,得到第二疑似DGA域名集合;
基于所述DNS日志对所述第二疑似DGA域名集合中的各域名进行追踪查询,得到各域名对应的访问记录信息;
基于所述各域名对应的访问记录信息确定出各域名是否为DGA域名的识别结果。
本发明实施例还提供了一种僵尸程序域名识别装置,包括:
域名特征提取模块,用于对DNS日志中设定时长内的域名进行域名特征提取,确定所述设定时长内多个域名分别对应的域名特征值;
域名分类模块,用于将所述域名特征值载入域名分类模型进行识别,得到第一疑似DGA域名集合;
过滤模块,用于基于域名黑白名单对所述第一疑似DGA域名集合进行过滤,得到第二疑似DGA域名集合;
日志追踪模块,用于基于所述DNS日志对所述第二疑似DGA域名集合中的各域名进行追踪查询,得到各域名对应的访问记录信息;
分析甄别模块,用于基于所述各域名对应的访问记录信息确定出各域名是否为DGA域名的识别结果。
本发明实施例又提供了一种僵尸程序域名识别设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器,用于运行计算机程序时,执行本发明实施例所述方法的步骤。
本发明实施例还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本发明实施例所述方法的步骤。
本发明实施例提供的技术方案,通过将域名特征值载入域名分类模型进行识别,得到第一疑似DGA域名集合;再利用域名黑白名单对所述第一疑似DGA域名集合进行过滤,得到第二疑似DGA域名集合;基于所述DNS日志对所述第二疑似DGA域名集合中的各域名进行追踪查询,得到各域名对应的访问记录信息;基于所述各域名对应的访问记录信息确定出各域名是否为DGA域名的识别结果,可以有效降低机器学习的误报率,提高DGA域名识别的准确率。
附图说明
图1为本发明实施例僵尸程序域名识别方法的流程示意图;
图2为本发明实施例中域名长度过滤的流程示意图;
图3为本发明实施例中提取域名对应的语音特征的流程示意图;
图4为本发明实施例中对域名进行追踪查询的流程示意图;
图5为本发明实施例僵尸程序域名识别装置的结构示意图;
图6为本应用实施例僵尸程序域名识别装置的结构示意图;
图7为本发明应用实施例中回调优化模块的工作流程示意图;
图8为本发明应用实施例中域名分类模块的工作流程示意图;
图9为本发明实施例僵尸程序域名识别设备的结构示意图。
具体实施方式
下面结合附图及实施例对本发明再作进一步详细的描述。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明实施例提供了一种僵尸程序域名识别方法,如图1所示,该方法包括:
步骤101,对DNS日志中设定时长内的域名进行域名特征提取,确定所述设定时长内多个域名分别对应的域名特征值;
步骤102,将所述域名特征值载入域名分类模型进行识别,得到第一疑似DGA域名集合;
这里,域名分类模型是基于训练集的训练数据构建的用于判断域名是否属于第一疑似DGA域名集合的分类模型。其中,训练数据包括正常域名数据和DGA域名数据,域名分类模型可以为随机森林分类模型。对于待检测的多个域名,将多个域名分别对应的域名特征值载入域名分类模型,该域名分类模型的输出结果为第一疑似DGA域名集合。
步骤103,基于域名黑白名单对所述第一疑似DGA域名集合进行过滤,得到第二疑似DGA域名集合;
这里,所述域名黑白名单存储有确定的DGA域名集合和确定的非DGA域名集合,所述第二疑似DGA域名集合为所述第一疑似DGA域名集合中去除确定的DGA域名和非DGA域名后剩余的域名集合。
步骤104,基于所述DNS日志对所述第二疑似DGA域名集合中的各域名进行追踪查询,得到各域名对应的访问记录信息;
步骤105,基于所述各域名对应的访问记录信息确定出各域名是否为DGA域名的识别结果。
本发明实施例,通过将域名特征值载入域名分类模型进行识别,得到第一疑似DGA域名集合;再利用域名黑白名单对所述第一疑似DGA域名集合进行过滤,得到第二疑似DGA域名集合;基于所述DNS日志对所述第二疑似DGA域名集合中的各域名进行追踪查询,得到各域名对应的访问记录信息;基于所述各域名对应的访问记录信息确定出各域名是否为DGA域名的识别结果,可以有效降低机器学习的误报率,提高DGA域名识别的准确率。
在一实施例中,所述对DNS日志中设定时长内的域名进行域名特征提取,确定所述设定时长内多个域名分别对应的域名特征值,包括:
对所述DNS日志中设定时长内的域名进行过滤,所述过滤包括以下至少之一:根据域名长度进行过滤、进行域名去重;
对过滤后的域名进行域名特征提取,确定域名对应的域名特征值。
实际应用时,对设定时长(比如,一个小时内)DNS日志中的域名记录,可以根据二级域名的字符长度进行过滤。在一应用示例中,如图2所示,根据域名长度对域名进行过滤,包括:
针对DNS日志中的域名记录,提取域名的二级域名;
根据二级域名的字符长度L与设定的字符长度阈值δ进行比较;
若L>δ,对该二级域名进行域名去重;
若L≤δ,则丢弃该二级域名对应的域名,不进行后续检测。
在一实施例中,对域名进行域名去重,包括:根据域名对应的二级域名和TLD进行去重。
在一实施例中,所述对过滤后的域名进行域名特征提取,包括以下至少之一:提取域名对应的域名信息熵特征;提取域名对应的元音信息熵特征;提取域名对应的构词法特征;提取域名对应的语音特征;提取域名对应的词素特征;提取域名对应的顶级域名TLD特征。
在一实施方式中,所述提取域名对应的域名信息熵特征,包括:
根据域名对应的域名字符长度及各字符出现的次数确定所述域名信息熵特征。
实际应用时,设Ed为域名信息熵,L是二级域名的字符长度,ci是二级域名中字符i出现次数。
则域名信息熵特征的计算公式为:
Figure BDA0002285424350000051
此外,考虑域名长度对域名信息熵的影响,还可以采用域名信息熵和域名长度的乘积作为一个特征值,记为lensEd,其公式为:
Figure BDA0002285424350000061
其中α为合法域名集合的二级域名平均长度。
在一实施例中,所述提取域名对应的元音信息熵特征,包括:
根据域名对应的域名字符长度及元音字符出现的次数确定所述元音信息熵特征。
实际应用时,设Ev为元音信息熵,L是二级域名的字符长度,ci是二级域名中元音字符i(A、E、I、O、U)出现次数。
则元音信息熵特征值的公式为:
Figure BDA0002285424350000062
在一实施例中,所述提取域名对应的构词法特征,包括:
基于收集的合法域名集合形成的第一语料库,使用N-gram(N元语义)算法的trigram(三元语义)模型确定域名的域名字符整体出现概率。
实际应用时,基于收集的合法域名集合形成的第一语料库,该第一语料库为域名N-gram语料库,使用N-gram算法的trigram模型计算二级域名字符整体出现概率。设域名字符整体出现的概率记为P(d),Wn为第n个字符出现的概率,n为二级域名的总的字符个数,si为域名字符串的开始第i个占位符,ei为域名字符串的结束的第i个占位符。
二级域名字符整体出现的概率特征值公式为:
Figure BDA0002285424350000063
在一实施例中,所述提取域名对应的语音特征,包括:
基于收集的合法域名集合形成的第二语料库,使用Metaphone语音匹配算法和N-gram算法的trigram模型确定域名的域名语音整体出现概率;
实际应用时,基于收集的合法域名集合形成的第二语料库,该第二语料库为域名读音N-gram语料库,使用Metaphone语音匹配算法,结合N-gram算法的trigram模型计算域名语音代码整体出现概率。
在一实施例中,所述基于收集的合法域名集合形成的第二语料库,使用Metaphone语音匹配算法和N-gram算法的trigram模型确定域名的域名语音整体出现概率,包括:
对域名的字符串进行字符拆分,得到英文字符和非英文字符;
对所述英文字符进行编码的前处理,所述前处理包括:预处理、消重处理、删除位于词首以外的元音字母及辅音字母转换处理;
对所述前处理后的英文字符进行Metaphone算法编码,得到语音代码;
将所述语音代码和所述非英文字符基于字符拆分的顺序进行拼接,得到拼接后的域名语音代码;
使用N-gram算法的trigram模型,基于所述第二语料库,计算所述域名语音代码对应的域名语音整体出现概率。
实际应用时,如图3所示,确定域名的域名语音整体出现概率,具体包括:
1)、获取域名的二级域名字符串;
2)、将字符串按英文字符和非英文字符进行拆分;
3)、将所有的英文字母转为大写形式;
4)、对拆分后的英文字符首字母或字母组合进行编码前的预处理,进行删除或者替换(例如字母组合AE-位于词首时,删除其中的首字母;X位于词首时替换为S);
5)、对相邻的重复字母进行消重处理;
6)、保留位于词首的元音字母A、E、I、O、U,位于其他位置时,则删除;
7)、对编码字符除首字母之外的所有辅音字母根据Metaphone的语音代码转换规则中规定的对应关系进行转换或删除处理;
8)、输出Mataphone算法编码后的语音代码。
9)、将英文字符编码后的语音代码和拆分前的非英文字符按照原位顺序进行拼接。
10)、输出拼接后的域名语音代码。
11)、使用N-gram算法的trigram模型,基于收集的合法域名集合建立的域名语音N-gram语料库,计算域名语音代码整体出现概率作为特征值,输出计算结果。
在一实施例中,所述提取域名对应的词素特征,包括:
对域名基于词素索引库对字符串进行词素切分,确定相应的词素特征;所述词素索引库包括以下至少之一:英语中的词根、英语中的词缀、中文中组合发音的拼音、及英文缩写。
实际应用时,根据英语中的词根和词缀、中文所有可组合发音的拼音以及特殊英文缩写建立词素索引库,对二级域名字符串进行词素切分。可以只考虑连续两个词素之间的上下文的环境,保证二元词素最长者优先切分,寻找域名中[3,5]字符长度范围内的词素。
词素特征的确定可以包括:
设域名中出现的词素字符总长为ml,域名中出现的词素个数为mn,域名的字符总长为L。设域名的词素比重为p,域名的词素个数与域名长度的比值为pl,域名的词素的平均长度为lmavg,域名的非词素字母个数为mnn,域名的记忆单元个数为un
则域名的词素比重p特征值的计算公式为:
Figure BDA0002285424350000081
域名的词素个数与域名长度的比值pl特征值的计算公式为:
Figure BDA0002285424350000082
域名的词素的平均长度lmavg特征值的计算公式为:
Figure BDA0002285424350000083
域名的非词素字母个数mnn特征值的计算公式为:
mnn=L-ml
域名的记忆单元个数un特征值的计算公式为:
un=mn+(L-ml)
在一实施例中,所述提取域名对应的TLD特征,包括:
基于收集的合法域名集合和DGA域名集合,确定域名对应的TLD域名概率,所述TLD域名概率包括以下至少之一:合法域名集合出现概率、DGA域名集合出现概率及倾向合法域名的概率。
实际应用时,设待检测域名的TLD域名i,在收集的合法域名集合中出现的频数为mi,在DGA域名集合中出现的频数为ni,合法域名记录数为X,DGA域名记录数为Y。设TLD域名i在合法域名集合中出现的概率为py,在DGA域名集合中出现的概率为pn,TLD域名i倾向合法域名的概率为pny
则TLD域名i在合法域名集合中出现的概率py特特征的计算公式为:
Figure BDA0002285424350000091
TLD域名i在DGA算法域名集合中出现的概率pn特征值的计算公式为:
Figure BDA0002285424350000092
TLD域名i倾向合法域名的概率pny特征值的计算公式为:
Figure BDA0002285424350000093
本发明实施例方法,在对域名进行域名特征提取时,可以提取域名对应的域名信息熵特征、元音信息熵特征、构词法特征、语音特征、词素特征及TLD特征,可以从多个维度获取域名对应的特征信息,利于提高机器学习识别的准确率。实际应用时,可以对域名对应的多个维度的特征信息进行归一化处理,将归一化后的结果作为域名对应的域名特征值,以统一各个域名对应的特征信息的量纲,提高计算效率。
在一实施例中,如图4所示,基于所述DNS日志对所述第二疑似DGA域名集合中的各域名进行追踪查询,得到各域名对应的访问记录信息,包括:
根据所述第二疑似DGA域名集合中的各域名的DNS解析状态确定相应域名是否可以正常解析;若可以正常解析,则将相应域名加入监测域名集合;若不可以正常解析,则将对相应域名发起访问的客户端IP加入监测IP集合;
过滤DNS日志,对监测域名集合中的域名和监测IP集合中的IP,对DNS日志进行过滤,记录相应的DNS解析信息(即访问记录信息),该DNS解析信息可以包括:源IP,目的IP,解析域名,解析状态码,解析时间等。
在一实施例中,所述基于所述各域名对应的访问记录信息确定出各域名是否为DGA域名的识别结果,包括:
根据各域名是否可以访问的结果判断各域名是否存活;
对于不存活域名,统计在设定的间隔时长内不存活域名发起DNS解析查询的IP数,基于所述IP数确定不存活域名是否为DGA域名;
对于存活域名,根据存活域名与确定为DGA域名对应的不存活域名基于域名距离的聚类结果,确定存活域名是否为DGA域名。
实际应用时,将第二疑似DGA域名集合分为两个部分,一个部分为不存活疑似DGA域名(即域名无法正常解析),另一部分为存活疑似DGA域名(即域名可以正常解析)。对于不存活疑似DGA域名,按照一定的时间间隔t(例如1个小时),基于DNS解析信息进行异常统计进行确认;对于存活疑似DGA域名,根据确认的不存活DGA域名基于域名距离进行聚类,基于聚类结果对存活疑似DGA域名进行确认。具体包括以下步骤:
1)、统计在时间间隔t内,对不存活的单个疑似DGA域名发起DNS解析查询的不同IP数,设其值为x;
2)、若x>δ(例如80个IP),则认定该不存活疑似DGA域名为DGA域名;
3)、对所有确认的不存活域名集合(设为集合A)中的每一个域名i,与所有的疑似DGA域名集合(包括存活及不存活的,设为集合B,B包含A)中的每一个域名j进行距离计算,记两个域名之间的距离为y(从一个域名变换为另一个域名需增加、删除或修改的字符个数),若y<β(例如5),则认为这两个域名属于同一类,记录并从集合B中删除域名j。
4)、假设步骤(3)聚得n个类,设每个类中域名的数量为mk(1<=k<=n),若mk>γ(例如5),且该类中存在存活疑似DGA域名(有可能有一个或多个),则认定这些存活疑似DGA域名为DGA域名。
由于对DNS日志采用机器学习确定第一疑似DGA域名集合时,需要使用域名分类模型,实际应用时,所述方法还包括:
针对训练集提取域名特征值;
基于所述训练集对应的域名特征值进行训练,生成所述域名分类模型。
这里,训练集包括作为正例的DGA域名集合和作为反例的正常域名集合,其中,DGA域名集合可以包括通过常见的DGA算法生成的DGA域名,以及通过开源渠道获取的恶意域名。正常域名集合可以采用目前公认的无危害性的正常域名,例如Alexa网站内排名前列的多项域名。
本发明实施例中,所述针对训练集提取域名特征值,包括以下至少之一:
基于收集的合法域名集合形成的第一语料库,使用N元语言N-gram算法的三元语言trigram模型确定所述训练集中各域名的域名字符整体出现概率;
基于收集的合法域名集合形成的第二语料库,使用变音位Metaphone语音匹配算法和N-gram算法的trigram模型确定所述训练集中各域名的域名语音整体出现概率。
实际应用时,针对训练集中的各域名提取的域名特征值可以包括前述的域名信息熵特征、元音信息熵特征、构词法特征、语音特征、词素特征及TLD特征,可以从多个维度获取域名对应的特征信息,利于提高域名分类模型的泛化能力。各特征提取的具体方法可以参照前述描述,在此不再赘述。
为了让特征值的区分度更加明显,进一步提高域名分类模型的泛化能力,在一实施例中,所述方法还包括:
基于所述识别结果确定的非DGA域名扩充所述第一语料库和/或所述第二语料库;
基于扩充后的所述第一语料库和/或所述第二语料库更新所述域名分类模型。
实际应用时,可以定期(例如一天)将识别结果确定的合法域名(确认为非DGA域名的域名),添加进域名N-gram语料库(即第一语料库)和域名读音N-gram语料库(即第二语料库),从而不断优化用于计算域名字符整体出现概率的语料库基准值和用于计算域名读音整体出现概率的语料库基准值,从而降低随机森林模型(即域名分类模型)的误判率。
在一实施例中,参照图7,更新随机森林模型包括:
1)、将合法域名(即基于访问记录信息确认为非DGA域名的域名)进行字符拆分,扩充域名N-gram语料库。
2)、将合法域名基于Metaphone语音编码进行字符拆分,扩充域名读音N-gram语料库。
3)、利用新的域名N-gram语料库计算域名字符整体出现概率的特征值。
4)、利用新的域名读音N-gram语料库计算域名读音整体出现概率特征值。
5)、利用新的特征值建立新的随机森林模型。
为了实现本发明实施例的方法,本发明实施例还提供一种僵尸程序域名识别装置,如图5所示,该装置包括:域名特征提取模块501、域名分类模块502、过滤模块503、日志追踪模块504及分析甄别模块505;其中,
域名特征提取模块501,用于对DNS日志中设定时长内的域名进行域名特征提取,确定所述设定时长内多个域名分别对应的域名特征值;
域名分类模块502,用于将所述域名特征值载入域名分类模型进行识别,得到第一疑似DGA域名集合;
过滤模块503,用于基于域名黑白名单对所述第一疑似DGA域名集合进行过滤,得到第二疑似DGA域名集合;
这里,所述域名黑白名单存储有确定的DGA域名集合和确定的非DGA域名集合,所述第二疑似DGA域名集合为所述第一疑似DGA域名集合中去除确定的DGA域名和非DGA域名后剩余的域名集合。
日志追踪模块504,用于基于所述DNS日志对所述第二疑似DGA域名集合中的各域名进行追踪查询,得到各域名对应的访问记录信息;
分析甄别模块505,用于基于所述各域名对应的访问记录信息确定出各域名是否为DGA域名的识别结果。
在一实施例中,所述装置还包括:训练模块506,用于针对训练集提取域名特征值,基于所述训练集对应的域名特征值进行训练,生成所述域名分类模型。
在一实施例中,所述训练模块506具体用于以下至少之一:
基于收集的合法域名集合形成的第一语料库,使用N元语言N-gram算法的三元语言trigram模型确定所述训练集中各域名的域名字符整体出现概率;
基于收集的合法域名集合形成的第二语料库,使用变音位Metaphone语音匹配算法和N-gram算法的trigram模型确定所述训练集中各域名的域名语音整体出现概率。
在一实施例中,所述装置还包括:回调优化模块507,所述回调优化模块507用于:
基于所述识别结果确定的非DGA域名扩充所述第一语料库和/或所述第二语料库;
基于扩充后的所述第一语料库和/或所述第二语料库更新所述域名分类模型。
在一实施例中,所述域名特征提取模块501具体用于:
对所述DNS日志中设定时长内的域名进行过滤,所述过滤包括以下至少之一:根据域名长度进行过滤、进行域名去重;
对过滤后的域名进行域名特征提取,确定域名对应的域名特征值。
在一实施例中,所述域名特征提取模块501具体用于以下至少之一:
提取域名对应的域名信息熵特征;
提取域名对应的元音信息熵特征;
提取域名对应的构词法特征;
提取域名对应的语音特征;
提取域名对应的词素特征;
提取域名对应的顶级域名TLD特征。
在一实施例中,所述域名特征提取模块501具体用于:根据域名对应的域名字符长度及各字符出现的次数确定所述域名信息熵特征。
在一实施例中,所述域名特征提取模块501具体用于:根据域名对应的域名字符长度及元音字符出现的次数确定所述元音信息熵特征。
在一实施例中,所述域名特征提取模块501具体用于:基于收集的合法域名集合形成的第一语料库,使用N-gram算法的trigram模型确定域名的域名字符整体出现概率。
在一实施例中,所述域名特征提取模块501具体用于:基于收集的合法域名集合形成的第二语料库,使用Metaphone语音匹配算法和N-gram算法的trigram模型确定域名的域名语音整体出现概率。
在一实施例中,所述域名特征提取模块501具体用于:对域名基于词素索引库对字符串进行词素切分,确定相应的词素特征;所述词素索引库包括以下至少之一:英语中的词根、英语中的词缀、中文中组合发音的拼音、及英文缩写。
在一实施例中,所述域名特征提取模块501具体用于:基于收集的合法域名集合和DGA域名集合,确定域名对应的TLD域名概率,所述TLD域名概率包括以下至少之一:合法域名集合出现概率、DGA域名集合出现概率及倾向合法域名的概率。
在一实施例中,所述域名特征提取模块501用于基于收集的合法域名集合形成的第二语料库,使用Metaphone语音匹配算法和N-gram算法的trigram模型确定域名的域名语音整体出现概率,包括:
对域名的字符串进行字符拆分,得到英文字符和非英文字符;
对所述英文字符进行编码的前处理,所述前处理包括:预处理、消重处理、删除位于词首以外的元音字母及辅音字母转换处理;
对所述前处理后的英文字符进行Metaphone算法编码,得到语音代码;
将所述语音代码和所述非英文字符基于字符拆分的顺序进行拼接,得到拼接后的域名语音代码;
使用N-gram算法的trigram模型,基于所述第二语料库,计算所述域名语音代码对应的域名语音整体出现概率。
在一实施例中,所述分析甄别模块505具体用于:
根据各域名是否可以访问的结果判断各域名是否存活;
对于不存活域名,统计在设定的间隔时长内不存活域名发起DNS解析查询的IP数,基于所述IP数确定不存活域名是否为DGA域名;
对于存活域名,根据存活域名与确定为DGA域名对应的不存活域名基于域名距离的聚类结果,确定存活域名是否为DGA域名。
实际应用时,域名特征提取模块501、域名分类模块502、过滤模块503、日志追踪模块504、分析甄别模块505、训练模块506及回调优化模块507,可以由僵尸程序域名识别装置中的处理器来实现。当然,处理器需要运行存储器中的计算机程序来实现它的功能。
需要说明的是:上述实施例提供的僵尸程序域名识别装置在进行僵尸程序域名识别时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的僵尸程序域名识别装置与僵尸程序域名识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
下面结合应用实施例对本发明再作进一步详细的描述。
如图6所示,本应用实施例僵尸程序域名识别装置包括:域名长度过滤模块、域名去重模块、域名特征提取模块、域名分类模块、域名黑白名单过滤模块、日志追踪模块、分析甄别模块、回调优化模块。其中,域名长度过滤模块、域名去重模块和域名特征提取模块相当于上述的域名特征提取模块501,域名黑白名单过滤模块相当于上述的过滤模块503。
本应用实施例的工作流程如下:
1)、对DNS日志中的域名根据二级域名的长度进行过滤,并按二级域名和TLD域名去重,然后提取域名文本信息特征值;
2)、根据提取的域名特征值,使用训练好的随机森林模型,初步判定是否是疑似DGA域名;
3)、对疑似的DGA域名进行黑白名单过滤,去除确定为DGA的域名及确定为非DGA的域名,然后查询过滤DNS日志,记录剩余的疑似DGA域名相关的DNS日志;
4)、针对不存活的疑似DGA域名基于相关DNS日志信息进行分析统计,利用经验公式判定,确认否是DGA域名;
5)、针对存活疑似DGA域名,根据上一步中确认的不存活DGA域名基于域名距离进行聚类,根据聚类结果确认是否为DGA域名。
6)、将确认为非的DGA域名作为域名语料库和合法域名语音语料库的语料输入,利用得到的新语料库作为基准值,定期建立新的机器学习模型,提高模型的泛化能力。
图7为本发明应用实施例中回调优化模块的工作流程示意图;图8为本发明应用实施例中域名分类模块的工作流程示意图。各模块的具体实现过程可以参照前述方法实施例,在此不再赘述。
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供一种僵尸程序域名识别设备。图9仅仅示出了该僵尸程序域名识别设备的示例性结构而非全部结构,根据需要可以实施图9示出的部分结构或全部结构。
如图9所示,本发明实施例提供的僵尸程序域名识别设备900包括:至少一个处理器901、存储器902和至少一个网络接口903。僵尸程序域名识别设备900中的各个组件通过总线系统904耦合在一起。可以理解,总线系统904用于实现这些组件之间的连接通信。总线系统904除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图9中将各种总线都标为总线系统904。
本发明实施例中的存储器902用于存储各种类型的数据以支持僵尸程序域名识别设备的操作。这些数据的示例包括:用于在僵尸程序域名识别设备上操作的任何计算机程序。
本发明实施例揭示的僵尸程序域名识别方法可以应用于处理器901中,或者由处理器901实现。处理器901可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,僵尸程序域名识别方法的各步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器901可以是通用处理器、数字信号处理器(DSP,DigitalSignal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器901可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器902,处理器901读取存储器902中的信息,结合其硬件完成本发明实施例提供的僵尸程序域名识别方法的步骤。
在示例性实施例中,僵尸程序域名识别设备900可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、FPGA、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
可以理解,存储器902可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体可以是计算机可读存储介质,例如包括存储计算机程序的存储器902,上述计算机程序可由僵尸程序域名识别设备900的处理器901执行,以完成本发明实施例方法所述的步骤。计算机可读存储介质可以是ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
需要说明的是:“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
另外,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种僵尸程序域名识别方法,其特征在于,包括:
对域名系统DNS日志中设定时长内的域名进行域名特征提取,确定所述设定时长内多个域名分别对应的域名特征值;
将所述域名特征值载入域名分类模型进行识别,得到第一疑似域名生成算法DGA域名集合;
基于域名黑白名单对所述第一疑似DGA域名集合进行过滤,得到第二疑似DGA域名集合;
基于所述DNS日志对所述第二疑似DGA域名集合中的各域名进行追踪查询,得到各域名对应的访问记录信息;
基于所述各域名对应的访问记录信息确定出各域名是否为DGA域名的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述域名分类模型是基于训练集的域名特征值训练确定的,提取训练集的域名特征值,包括以下至少之一:
基于收集的合法域名集合形成的第一语料库,使用N元语言N-gram算法的三元语言trigram模型确定所述训练集中各域名的域名字符整体出现概率;
基于收集的合法域名集合形成的第二语料库,使用变音位Metaphone语音匹配算法和N-gram算法的trigram模型确定所述训练集中各域名的域名语音整体出现概率;
所述方法还包括:
基于所述识别结果确定的非DGA域名扩充所述第一语料库和/或所述第二语料库;
基于扩充后的所述第一语料库和/或所述第二语料库更新所述域名分类模型。
3.根据权利要求1所述的方法,其特征在于,所述对DNS日志中设定时长内的域名进行域名特征提取,确定所述设定时长内多个域名分别对应的域名特征值,包括:
对所述DNS日志中设定时长内的域名进行过滤,所述过滤包括以下至少之一:根据域名长度进行过滤、进行域名去重;
对过滤后的域名进行域名特征提取,确定域名对应的域名特征值。
4.根据权利要求3所述的方法,其特征在于,所述对过滤后的域名进行域名特征提取,包括以下至少之一:
提取域名对应的域名信息熵特征;
提取域名对应的元音信息熵特征;
提取域名对应的构词法特征;
提取域名对应的语音特征;
提取域名对应的词素特征;
提取域名对应的顶级域名TLD特征。
5.根据权利要求4所述的方法,其特征在于,
所述提取域名对应的域名信息熵特征,包括:
根据域名对应的域名字符长度及各字符出现的次数确定所述域名信息熵特征;
所述提取域名对应的元音信息熵特征,包括:
根据域名对应的域名字符长度及元音字符出现的次数确定所述元音信息熵特征;
所述提取域名对应的构词法特征,包括:
基于收集的合法域名集合形成的第一语料库,使用N-gram算法的trigram模型确定域名的域名字符整体出现概率;
所述提取域名对应的语音特征,包括:
基于收集的合法域名集合形成的第二语料库,使用Metaphone语音匹配算法和N-gram算法的trigram模型确定域名的域名语音整体出现概率;
所述提取域名对应的词素特征,包括:
对域名基于词素索引库对字符串进行词素切分,确定相应的词素特征;所述词素索引库包括以下至少之一:英语中的词根、英语中的词缀、中文中组合发音的拼音、及英文缩写;
所述提取域名对应的TLD特征,包括:
基于收集的合法域名集合和DGA域名集合,确定域名对应的TLD域名概率,所述TLD域名概率包括以下至少之一:合法域名集合出现概率、DGA域名集合出现概率及倾向合法域名的概率。
6.根据权利要求2或者5所述的方法,其特征在于,所述基于收集的合法域名集合形成的第二语料库,使用Metaphone语音匹配算法和N-gram算法的trigram模型确定域名的域名语音整体出现概率,包括:
对域名的字符串进行字符拆分,得到英文字符和非英文字符;
对所述英文字符进行编码的前处理,所述前处理包括:预处理、消重处理、删除位于词首以外的元音字母及辅音字母转换处理;
对所述前处理后的英文字符进行Metaphone算法编码,得到语音代码;
将所述语音代码和所述非英文字符基于字符拆分的顺序进行拼接,得到拼接后的域名语音代码;
使用N-gram算法的trigram模型,基于所述第二语料库,计算所述域名语音代码对应的域名语音整体出现概率。
7.根据权利要求1所述的方法,其特征在于,所述基于所述DNS日志对所述第二疑似DGA域名集合中的各域名进行追踪查询,得到各域名对应的访问记录信息,包括:
根据所述第二疑似DGA域名集合中的各域名的DNS解析状态确定相应域名是否可以正常解析;
若可以正常解析,则将相应域名加入监测域名集合;若不可以正常解析,则将对相应域名发起访问的客户端IP加入监测IP集合;
基于监测域名集合中的域名和监测IP集合中的IP,对DNS日志进行过滤,记录相应的DNS解析信息。
8.根据权利要求1所述的方法,其特征在于,所述基于所述各域名对应的访问记录信息确定出各域名是否为DGA域名的识别结果,包括:
根据各域名是否可以访问的结果判断各域名是否存活;
对于不存活域名,统计在设定的间隔时长内不存活域名发起DNS解析查询的IP数,基于所述IP数确定不存活域名是否为DGA域名;
对于存活域名,根据存活域名与确定为DGA域名对应的不存活域名基于域名距离的聚类结果,确定存活域名是否为DGA域名。
9.一种僵尸程序域名识别装置,其特征在于,包括:
域名特征提取模块,用于对DNS日志中设定时长内的域名进行域名特征提取,确定所述设定时长内多个域名分别对应的域名特征值;
域名分类模块,用于将所述域名特征值域名分类模型进行识别,得到第一疑似DGA域名集合;
过滤模块,用于基于域名黑白名单对所述第一疑似DGA域名集合进行过滤,得到第二疑似DGA域名集合;
日志追踪模块,用于基于所述DNS日志对所述第二疑似DGA域名集合中的各域名进行追踪查询,得到各域名对应的访问记录信息;
分析甄别模块,用于基于所述各域名对应的访问记录信息确定出各域名是否为DGA域名的识别结果。
10.一种僵尸程序域名识别设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,
所述处理器,用于运行计算机程序时,执行权利要求1至8任一项所述方法的步骤。
11.一种存储介质,所述存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至8任一项所述方法的步骤。
CN201911158445.1A 2019-11-22 2019-11-22 僵尸程序域名识别方法、装置、设备及存储介质 Active CN112839012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911158445.1A CN112839012B (zh) 2019-11-22 2019-11-22 僵尸程序域名识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911158445.1A CN112839012B (zh) 2019-11-22 2019-11-22 僵尸程序域名识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112839012A true CN112839012A (zh) 2021-05-25
CN112839012B CN112839012B (zh) 2023-05-09

Family

ID=75922151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911158445.1A Active CN112839012B (zh) 2019-11-22 2019-11-22 僵尸程序域名识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112839012B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113329035A (zh) * 2021-06-29 2021-08-31 深信服科技股份有限公司 一种攻击域名的检测方法、装置、电子设备及存储介质
CN114189390A (zh) * 2021-12-31 2022-03-15 深信服科技股份有限公司 一种域名检测方法、系统、设备及计算机可读存储介质
GB2603279A (en) * 2021-01-26 2022-08-03 Ensign Infosecurity Pte Ltd A system and method for detecting domain generation algorithms (DGAs) using deep learning and signal processing techniques
CN115334039A (zh) * 2022-08-09 2022-11-11 北京天融信网络安全技术有限公司 一种基于人工智能模型的特征构建方法及装置
CN116633684A (zh) * 2023-07-19 2023-08-22 中移(苏州)软件技术有限公司 网络钓鱼检测方法、系统、电子设备和可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104580249A (zh) * 2015-01-28 2015-04-29 北京润通丰华科技有限公司 一种基于日志的僵木蠕网络分析方法和系统
CN107682348A (zh) * 2017-10-19 2018-02-09 杭州安恒信息技术有限公司 基于机器学习的dga域名快速判别方法及装置
CN108156174A (zh) * 2018-01-15 2018-06-12 深圳市联软科技股份有限公司 基于c&c域名分析的僵尸网络检测方法、装置、设备及介质
CN108200054A (zh) * 2017-12-29 2018-06-22 北京奇安信科技有限公司 一种基于dns解析的恶意域名检测方法及装置
CN108768917A (zh) * 2017-08-23 2018-11-06 长安通信科技有限责任公司 一种基于网络日志的僵尸网络检测方法及系统
CN109450886A (zh) * 2018-10-30 2019-03-08 杭州安恒信息技术股份有限公司 一种域名识别方法、系统及电子设备和存储介质
CN109714356A (zh) * 2019-01-08 2019-05-03 北京奇艺世纪科技有限公司 一种异常域名的识别方法、装置及电子设备
CN110191103A (zh) * 2019-05-10 2019-08-30 长安通信科技有限责任公司 一种dga域名检测分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104580249A (zh) * 2015-01-28 2015-04-29 北京润通丰华科技有限公司 一种基于日志的僵木蠕网络分析方法和系统
CN108768917A (zh) * 2017-08-23 2018-11-06 长安通信科技有限责任公司 一种基于网络日志的僵尸网络检测方法及系统
CN107682348A (zh) * 2017-10-19 2018-02-09 杭州安恒信息技术有限公司 基于机器学习的dga域名快速判别方法及装置
CN108200054A (zh) * 2017-12-29 2018-06-22 北京奇安信科技有限公司 一种基于dns解析的恶意域名检测方法及装置
CN108156174A (zh) * 2018-01-15 2018-06-12 深圳市联软科技股份有限公司 基于c&c域名分析的僵尸网络检测方法、装置、设备及介质
CN109450886A (zh) * 2018-10-30 2019-03-08 杭州安恒信息技术股份有限公司 一种域名识别方法、系统及电子设备和存储介质
CN109714356A (zh) * 2019-01-08 2019-05-03 北京奇艺世纪科技有限公司 一种异常域名的识别方法、装置及电子设备
CN110191103A (zh) * 2019-05-10 2019-08-30 长安通信科技有限责任公司 一种dga域名检测分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵越: ""基于DNS流量特征的僵尸网络检测方法研究"", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2603279A (en) * 2021-01-26 2022-08-03 Ensign Infosecurity Pte Ltd A system and method for detecting domain generation algorithms (DGAs) using deep learning and signal processing techniques
GB2603279B (en) * 2021-01-26 2023-02-22 Ensign Infosecurity Pte Ltd A system and method for detecting domain generation algorithms (DGAs) using deep learning and signal processing techniques
CN113329035A (zh) * 2021-06-29 2021-08-31 深信服科技股份有限公司 一种攻击域名的检测方法、装置、电子设备及存储介质
CN114189390A (zh) * 2021-12-31 2022-03-15 深信服科技股份有限公司 一种域名检测方法、系统、设备及计算机可读存储介质
CN115334039A (zh) * 2022-08-09 2022-11-11 北京天融信网络安全技术有限公司 一种基于人工智能模型的特征构建方法及装置
CN115334039B (zh) * 2022-08-09 2024-02-20 天融信雄安网络安全技术有限公司 一种基于人工智能模型的特征构建方法及装置
CN116633684A (zh) * 2023-07-19 2023-08-22 中移(苏州)软件技术有限公司 网络钓鱼检测方法、系统、电子设备和可读存储介质
CN116633684B (zh) * 2023-07-19 2023-10-13 中移(苏州)软件技术有限公司 网络钓鱼检测方法、系统、电子设备和可读存储介质

Also Published As

Publication number Publication date
CN112839012B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN112839012B (zh) 僵尸程序域名识别方法、装置、设备及存储介质
WO2020244066A1 (zh) 一种文本分类方法、装置、设备及存储介质
Peng et al. Bit-level n-gram based forensic authorship analysis on social media: Identifying individuals from linguistic profiles
US11574052B2 (en) Methods and apparatus for using machine learning to detect potentially malicious obfuscated scripts
US7555523B1 (en) Spam discrimination by generalized Ngram analysis of small header fields
US10110658B2 (en) Automatic genre classification determination of web content to which the web content belongs together with a corresponding genre probability
Lin et al. Malicious URL filtering—A big data application
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
US10423649B2 (en) Natural question generation from query data using natural language processing system
CN111031026A (zh) 一种dga恶意软件感染主机检测方法
Walls et al. Forensic Triage for Mobile Phones with {DEC0DE}
CN113194058B (zh) Web攻击检测方法、设备、网站应用层防火墙及介质
CN109495475B (zh) 域名检测方法及装置
CN113055386A (zh) 一种攻击组织的识别分析方法和装置
CN113076748B (zh) 弹幕敏感词的处理方法、装置、设备及存储介质
US20190243895A1 (en) Contextual Analogy Representation
CN111931935A (zh) 基于One-shot学习的网络安全知识抽取方法和装置
CN110705250A (zh) 一种用于识别聊天记录中目标内容的方法与系统
CN114896305A (zh) 一种基于大数据技术的智慧互联网安全平台
Hina et al. Email classification and forensics analysis using machine learning
US10133736B2 (en) Contextual analogy resolution
CN110147839A (zh) 基于XGBoost的算法生成域名检测模型的方法
CN113067792A (zh) 一种xss攻击识别方法、装置、设备及介质
KR101470547B1 (ko) 독음데이터를 이용한 문서 표절률 산출 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 저장매체
WO2017088126A1 (zh) 获取未登录词的方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant