CN105577660A - 基于随机森林的dga域名检测方法 - Google Patents

基于随机森林的dga域名检测方法 Download PDF

Info

Publication number
CN105577660A
CN105577660A CN201510971299.XA CN201510971299A CN105577660A CN 105577660 A CN105577660 A CN 105577660A CN 201510971299 A CN201510971299 A CN 201510971299A CN 105577660 A CN105577660 A CN 105577660A
Authority
CN
China
Prior art keywords
domain name
white list
feature
detection method
random forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510971299.XA
Other languages
English (en)
Other versions
CN105577660B (zh
Inventor
王红凯
张旭东
杨维永
马志程
廖鹏
黄益彬
于晓文
张丹
夏威
宋文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
NARI Group Corp
Nari Information and Communication Technology Co
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Nari Information and Communication Technology Co
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Nanjing NARI Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Nari Information and Communication Technology Co, Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd, Nanjing NARI Group Corp filed Critical State Grid Corp of China SGCC
Priority to CN201510971299.XA priority Critical patent/CN105577660B/zh
Publication of CN105577660A publication Critical patent/CN105577660A/zh
Application granted granted Critical
Publication of CN105577660B publication Critical patent/CN105577660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于随机森林的DGA域名检测方法,步骤一,构建知识库,包括构建黑白名单样本库和单词词典;步骤二,设定域名特征模板,将黑白名单中的域名作为训练集,过滤掉噪音,训练并离线保存随机森林算法模型;步骤三,获取待检测域名,加载最优随机森林算法模型,将待检测域名作为输入,得到预测结果。本发明不依赖在线获取DNS数据,不仅可以单独、快速完成DGA域名检测,也可以为其他恶意域名检测方法提供预测;此外,该方法基于随机森林算法,在噪音干扰上具有明显的优势,使用资源少,运行效率高,泛化性能好。

Description

基于随机森林的DGA域名检测方法
技术领域
本发明涉及一种基于随机森林的DGA域名检测方法,属于网络安全领域。
背景技术
恶意域名指传播蠕虫、病毒和特洛伊木马或是进行诈骗、色情内容传播等不法行为的网站域名。随着Domain-Flux、Fast-Flux技术越来越广泛的被黑客采用,网络攻击更加隐蔽,恶意追踪更加困难,安全隐患更加长久。其中,由域名生成算法(DomainGenerationAlgorithm,DGA)生成到的域名被广泛应用于僵尸网络(Botnet)。在大量被僵尸程序所感染的主机(Bot)构成的网络中,攻击者(BotMaster)可以通过控制服务器操控Bot发起各种类型的网络攻击,如分布式拒绝服务(DDoS)、垃圾邮件(Spare)、网络钓鱼(Phishing)、点击欺诈(ClickFraud)以及窃取敏感信息(InformationTheft)等。
目前,各种恶意域名检测算法主要分为以下两类:
(1)基于构造特征的方法。现有专利包括:基于域名构造特征的挂马网页检测方法(专利号为201110146967.7)、仿冒域名检测方法及设备(专利号为201210104110.3)。
(2)基于访问行为的方法。现有的专利包括:异常域名检测方法及系统(专利号为200910237594.7)、非法域名识别方法及装置(专利号为201110382578.4)、一种DomainFlux僵尸网络域名检测(专利号为201210475596.1)。
上述两类方法存在着如下局限性:1、基于构造特征的方法中,现有的两种专利均从相似性度量出发,通过计算样本对得到阈值,确定待检测域名是否属于假冒域名或者未知挂马网站。上述方法使用了较为简单的相似性度量方法,考虑的特征较为单一,设定阈值受训练样本影响,漏报或误报率较高,方法泛化性教差。2、基于访问行为的方法大多基于一个假设:恶意域名和合法域名表现出来的访问行为有着根本的差异。其基本流程是从域名服务器获取DNS记录,然后解析这些DNS数据,再根据各种方法对数据进行分析。这是一种在线的方法,需要在DNS服务器部署相关的服务,在线获取这些记录和数据的成本较高。
发明内容
为了解决上述技术问题,本发明提供了一种基于随机森林的DGA域名检测方法。
为了达到上述目的,本发明所采用的技术方案是:
基于随机森林的DGA域名检测方法,包括以下步骤,
步骤一,构建知识库,包括构建黑白名单样本库和单词词典;
步骤二,设定域名特征模板,将黑白名单中的域名作为训练集,过滤掉噪音,训练并离线保存随机森林算法模型;
所述域名特征模板可根据训练反馈进行修改;
步骤三,获取待检测域名,加载最优随机森林算法模型,将待检测域名作为输入,得到预测结果。
黑名单为通过开源渠道获取的恶意域名,白名单为通过开源渠道获取的合法域名,单词词典由英文单词和字母组合构成。
所述特征模板中的特征包括域名长度、域名信息熵、域名语音性、域名中元音字符数、域名中数字字符数、域名中重复字母数、域名中连续数字字符数、域名中非元音连续字符数、域名中N元语言模型在白名单中得分以及域名中N元语言模型在单词词典中得分。
计算域名信息熵的公式为,
H = - Σ i = 0 n ( P i * log 2 P i )
其中,H为域名信息熵,Pi为每个字母P在域名中出现的频率,n表示域名中不重复的字符数;
所述域名语音性通过马尔卡夫链预测,具体过程为,
A1)读取训练集合,得到转移矩阵;
A2)读取正例样本和反例样本,将样本作为马尔卡夫链模型输入,得到预测的概率值,根据正例样本的概率值和反例样本的概率值确定语音性阈值;
所述正例样本为具有可读性/语言性的合法域名;所述反例样本为不可读/不具有语言性的域名;
A3)将域名作为输入,根据语音性阈值判断该域名是否具有语音性;
所述域名中元音字符数主要统计域名中包含的元音字母“a”、“e”、“i”、“o”、“u”的字符数;
所述域名中数字字符数主要统计域名中包含的“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”的字符数;
域名中N元语言模型在白名单中得分计算过程,
B1)训练白名单中N元语言模型;
统计白名单中所有N元对及其频率,将统计结果以矩阵形式保存;其中,矩阵的行是白名单域名索引,矩阵的列是所有白名单包含的N元对索引;
B2)计算待检测域名在N元语言模型中的得分;
将域名中出现的N元对与训练得到的矩阵中的N元对频率进行相乘后累加,具体公式为,
S = Σ j = 0 n ′ ( D j × log 10 Σ l = 0 k M l , j )
其中,S为域名中N元语言模型在白名单中得分,M为存储的矩阵,k为行索引总数,n′为列索引总数,Dj表示域名在矩阵M中第j个N元对出现的频率;
域名中N元语言模型在单词词典中得分计算过程与域名中N元语言模型在白名单中得分计算过程相同,仅是将白名单替换成单词词典。
所述噪音为对应特征值与域名类别不相符的域名。
所述域名为去除TLD和前缀字符的主体部分。
随机森林算法实现过程为,
C1)样本选择;
假设每轮从原始训练集中通过有放回抽样的方式抽取m个样例,得到一个大小为m的训练集,共进行Q轮的抽取,则每轮抽取的训练集分别为T1,T2,…,TQ
C2)决策树生成;
假如特征空间共有E个特征,则在每一轮生成决策树的过程中,从E个特征中随机选择其中的e个特征,组成一个新的特征集,e<E,通过使用新的特征集来生成决策树,Q轮中共生成Q个决策树,Q个决策树之间是相互独立;
C3)模型预测;
对于分类问题,使用所有的决策树投票来确定最终分类结果。
本发明所达到的有益效果:本发明不依赖在线获取DNS数据,不仅可以单独、快速完成DGA域名检测,也可以为其他恶意域名检测方法提供预测;此外,该方法基于随机森林算法,在噪音干扰上具有明显的优势,使用资源少,运行效率高,泛化性能好。
附图说明
图1为本发明的流程图。
图2为随机森林的构建过程。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,基于随机森林的DGA域名检测方法,包括以下步骤:
步骤一,构建知识库,包括构建黑白名单样本库和单词词典。
黑名单为通过开源渠道获取的恶意域名,比如:安全联盟网站曝光台公布的恶意网址、金山网盾公布的恶意网址数据库、MalwareDomainList、MalwareDomains、PhishTank、hpHosts和CyberCrimeTracker恶意域名列表。
白名单为通过开源渠道获取的合法域名,比如Alexa网站排名、中文站长之家等获取的合法域名。
单词词典由英文单词和字母组合构成。
步骤二,设定域名特征模板,将黑白名单中的域名作为训练集,过滤掉噪音,训练并离线保存随机森林算法模型;域名特征模板可根据训练反馈进行修改。
域名为去除TLD(Top-LevelDomain)和前缀字符的主体部分,例如:domain=“www.baidu.com”,其TLD为“.com”,去除“www.”前缀和TLD之后,域名主体为baidu。
特征模板中的特征包括域名长度、域名信息熵、域名语音性、域名中元音字符数、域名中数字字符数、域名中重复字母数、域名中连续数字字符数、域名中非元音连续字符数、域名中N元语言模型在白名单中得分以及域名中N元语言模型在单词词典中得分。
计算域名信息熵的公式为,
H = - &Sigma; i = 0 n ( P i * log 2 P i )
其中,H为域名信息熵,Pi为每个字母P在域名中出现的频率,n表示域名中不重复的字符数;
域名语音性通过马尔卡夫链预测。马尔可夫链(MarkovChain),描述了一种状态序列,其每个状态值取决于前面有限个状态。马尔可夫链是具有马尔可夫性质的随机变量的一个数列。这些变量的范围,即它们所有可能取值的集合,被称为“状态空间”,下列公式中Xz的值则是在时间z的状态。如果Xz+1对于过去状态的条件概率分布仅是Xz的一个函数,则:
P(Xz+1=x|X1=x1,X2=x2,…,Xz=xz)=P(Xz+1=x|Xz=xz)
其中x为过程中的某个状态。
一个含有Z个状态的一阶过程有Z2个状态转移。每一个转移的概率叫做状态转移概率(StateTransitionProbability),就是从一个状态转移到另一个状态的概率。这所有的Z2个概率可以用一个状态转移矩阵来表示,其表示形式如下:
qt表示所处时刻为t的一个状态;
对该矩阵有如下约束:
a f , f &prime; &GreaterEqual; 0 , &ForAll; f , f &prime;
&Sigma; f &prime; = 1 Z a f , f &prime; = 1 , &ForAll; f
通过马尔卡夫链进行域名语音性预测的具体过程为,
A1)读取训练集合,得到转移矩阵。
为了便于简化马尔卡夫链模型,提高运行效率,转移矩阵中的元素只考虑了26个英文字母大小写、数字和常见的符号。同时,为了避免当测试集中的N元对在训练的转移矩阵中不存在,而导致最终的概率为0。将使用数据平滑处理,赋予未出现过的N元对转移概率为一个非常小的常量值。
A2)读取正例样本和反例样本,将样本作为马尔卡夫链模型输入,得到预测的概率值,根据正例样本的概率值和反例样本的概率值确定语音性阈值;
正例样本为具有可读性/语言性的合法域名;反例样本为不可读/不具有语言性的域名,多以机器生成的域名。
A3)将域名作为输入,根据语音性阈值判断该域名是否具有语音性;若具有语音性返回1,不具有语音性返回0。
域名中元音字符数主要统计域名中包含的元音字母“a”、“e”、“i”、“o”、“u”的字符数。
域名中数字字符数主要统计域名中包含的“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”的字符数。
域名中N元语言模型在白名单中得分计算过程:
B1)训练白名单中N元语言模型。
假设白名单中一个域名为“www.wooyun.com”,其域名主体部分为“wooyun”,当N取值不同时,可以得到如表一所示的N元对。
表一“wooyun”的N元对
N N元对及频率
1 “w”、“o”、“y”、“u”、“n”
2 “wo”、“oo”、“oy”、“yu”、“un”
3 “woo”、“ooy”、“oyu”、“yun”
4 “wooy”、“ooyu”、“oyun”
5 “wooyu”、“ooyun”
统计白名单中所有N元对及其频率,将统计结果以矩阵形式保存;其中,矩阵的行是白名单域名索引,矩阵的列是所有白名单包含的N元对索引;为了减少内存空间使用,可过滤掉频率小于阈值的N元对,也可采用稀疏矩阵进行存储。
B2)计算待检测域名在N元语言模型中的得分;
将域名中出现的N元对与训练得到的矩阵中的N元对频率进行相乘后累加,具体公式为,
S = &Sigma; j = 0 n &prime; ( D j &times; log 10 &Sigma; l = 0 k M l , j )
其中,S为域名中N元语言模型在白名单中得分,M为存储的矩阵,k为行索引总数,n′为列索引总数,Dj表示域名在矩阵M中第j个N元对出现的频率。
最终得分体现该域名与白名单中域名在N元语言模型的相似性,得分越高,相似性越强,说明域名在N元模型上更具有网络构造性。
域名中N元语言模型在单词词典中得分计算过程与域名中N元语言模型在白名单中得分计算过程相同,仅是将白名单替换成单词词典,最终得分体现了该域名在N元语言模型上与单词的相似性,得分越高,相似性越强,说明该域名在N元模型上更具有单词构造性。
将域名特征模板的特征值构建特征向量,如下表二所示:
表二特征向量值
domain copytaste bravonude singlesnet
length 9.00 9.00 10.00
entropy 2.95 3.17 2.72
gib 1.00 1.00 1.00
vowel_ratio 0.33 0.44 0.30
digit_ratio 0.00 0.00 0.00
repeat_letter 0.11 0.00 0.30
consec_digit 0.00 0.00 0.00
consec_consonant 0.56 0.22 0.50
alexa_grams 21.56 20.23 36.97
word_grams 30.31 25.13 47.22
以黑白名单为训练集训练得到的特征向量需要过滤掉“噪音”,“噪音”指的是那些对应特征值与域名类别不相符的域名,过滤“噪音”可以使得训练模型对恶意域名的识别更准确。
域名特征模板可根据训练反馈进行修改,不同的域名特征模板得到的训练模型,可以根据各个特征的权重和模型好坏对特征模板进行修改,从而使得模型更好;当然也可根据特征的别的数值进行修改。
步骤三,获取待检测域名,加载最优随机森林算法模型,将待检测域名作为输入,得到预测结果。
上述随机森林如图2所示,随机森林是用随机的方式建立一个森林,森林里由很多决策树组成。随机森林算法在当前的很多数据集上,相对其他算法有着很大的优势,主要体现在:能够处理很高维度的数据,不用做特征选择,在训练完后,能够给出特征的权重,应对噪声干扰上也具有明显的优势;实现简单,训练速度快,容易做成并行化方法。
上述随机森林算法实现的具体过程为:
C1)样本选择;
假设每轮从原始训练集中通过有放回抽样的方式抽取m个样例,得到一个大小为m的训练集,抽取过程中,可能有被重复抽取的样例,也可能有一次都没有被抽到的样例,共进行Q轮的抽取,则每轮抽取的训练集分别为T1,T2,…,TQ
C2)决策树生成;
假如特征空间共有E个特征,则在每一轮生成决策树的过程中,从E个特征中随机选择其中的e个特征,组成一个新的特征集,e<E,通过使用新的特征集来生成决策树,Q轮中共生成Q个决策树,由于这Q个决策树在训练集的选择和特征的选择上都是随机的,因此Q个决策树之间是相互独立。
C3)模型预测;
由于生成的Q个决策树之间是相互独立的,每个决策树的重要性是相等的,因而在将它们进行组合时,无需考虑他们的权值,或者可以认为他们具有相同的权值。对于分类问题,使用所有的决策树投票来确定最终分类结果。
上述方法基于黑白名单样本和英语词典构建知识库,根据域名特征模板对训练样本利用随机森林算法进行训练,最终给出待检测域名的预测分类。该方法不依赖在线获取DNS数据,不仅可以单独、快速完成DGA域名检测,也可以为其他恶意域名检测方法提供预测,此外,该方法基于随机森林算法,在噪声干扰上具有明显的优势,使用资源少,运行效率高,泛化性能好。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.基于随机森林的DGA域名检测方法,其特征在于:包括以下步骤,
步骤一,构建知识库,包括构建黑白名单样本库和单词词典;
步骤二,设定域名特征模板,将黑白名单中的域名作为训练集,过滤掉噪音,训练并离线保存随机森林算法模型;
所述域名特征模板可根据训练反馈进行修改;
步骤三,获取待检测域名,加载最优随机森林算法模型,将待检测域名作为输入,得到预测结果。
2.根据权利要求1所述的基于随机森林的DGA域名检测方法,其特征在于:黑名单为通过开源渠道获取的恶意域名,白名单为通过开源渠道获取的合法域名,单词词典由英文单词和字母组合构成。
3.根据权利要求2所述的基于随机森林的DGA域名检测方法,其特征在于:所述特征模板中的特征包括域名长度、域名信息熵、域名语音性、域名中元音字符数、域名中数字字符数、域名中重复字母数、域名中连续数字字符数、域名中非元音连续字符数、域名中N元语言模型在白名单中得分以及域名中N元语言模型在单词词典中得分。
4.根据权利要求3所述的基于随机森林的DGA域名检测方法,其特征在于:计算域名信息熵的公式为,
H = - &Sigma; i = 0 n ( P i * log 2 P i )
其中,H为域名信息熵,Pi为每个字母P在域名中出现的频率,n表示域名中不重复的字符数;
所述域名语音性通过马尔卡夫链预测,具体过程为,
A1)读取训练集合,得到转移矩阵;
A2)读取正例样本和反例样本,将样本作为马尔卡夫链模型输入,得到预测的概率值,根据正例样本的概率值和反例样本的概率值确定语音性阈值;
所述正例样本为具有可读性/语言性的合法域名;所述反例样本为不可读/不具有语言性的域名;
A3)将域名作为输入,根据语音性阈值判断该域名是否具有语音性;
所述域名中元音字符数主要统计域名中包含的元音字母“a”、“e”、“i”、“o”、“u”的字符数;
所述域名中数字字符数主要统计域名中包含的“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”的字符数;
域名中N元语言模型在白名单中得分计算过程,
B1)训练白名单中N元语言模型;
统计白名单中所有N元对及其频率,将统计结果以矩阵形式保存;其中,矩阵的行是白名单域名索引,矩阵的列是所有白名单包含的N元对索引;
B2)计算待检测域名在N元语言模型中的得分;
将域名中出现的N元对与训练得到的矩阵中的N元对频率进行相乘后累加,具体公式为,
S = &Sigma; j = 0 n &prime; ( D j &times; log 10 &Sigma; l = 0 l M l , j )
其中,S为域名中N元语言模型在白名单中得分,M为存储的矩阵,k为行索引总数,n′为列索引总数,Dj表示域名在矩阵M中第j个N元对出现的频率;
域名中N元语言模型在单词词典中得分计算过程与域名中N元语言模型在白名单中得分计算过程相同,仅是将白名单替换成单词词典。
5.根据权利要求1所述的基于随机森林的DGA域名检测方法,其特征在于:所述噪音为对应特征值与域名类别不相符的域名。
6.根据权利要求1-5任意一项所述的基于随机森林的DGA域名检测方法,其特征在于:所述域名为去除TLD和前缀字符的主体部分。
7.根据权利要求1所述的基于随机森林的DGA域名检测方法,其特征在于:随机森林算法实现过程为,
C1)样本选择;
假设每轮从原始训练集中通过有放回抽样的方式抽取m个样例,得到一个大小为m的训练集,共进行Q轮的抽取,则每轮抽取的训练集分别为T1,T2,…,TQ
C2)决策树生成;
假如特征空间共有E个特征,则在每一轮生成决策树的过程中,从E个特征中随机选择其中的e个特征,组成一个新的特征集,e<E,通过使用新的特征集来生成决策树,Q轮中共生成Q个决策树,Q个决策树之间是相互独立;
C3)模型预测;
对于分类问题,使用所有的决策树投票来确定最终分类结果。
CN201510971299.XA 2015-12-22 2015-12-22 基于随机森林的dga域名检测方法 Active CN105577660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510971299.XA CN105577660B (zh) 2015-12-22 2015-12-22 基于随机森林的dga域名检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510971299.XA CN105577660B (zh) 2015-12-22 2015-12-22 基于随机森林的dga域名检测方法

Publications (2)

Publication Number Publication Date
CN105577660A true CN105577660A (zh) 2016-05-11
CN105577660B CN105577660B (zh) 2019-03-08

Family

ID=55887317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510971299.XA Active CN105577660B (zh) 2015-12-22 2015-12-22 基于随机森林的dga域名检测方法

Country Status (1)

Country Link
CN (1) CN105577660B (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106230867A (zh) * 2016-09-29 2016-12-14 北京知道创宇信息技术有限公司 预测域名是否恶意的方法、系统及其模型训练方法、系统
CN106295887A (zh) * 2016-08-12 2017-01-04 辽宁大学 基于随机森林的持久种子库预测方法
CN106713312A (zh) * 2016-12-21 2017-05-24 深圳市深信服电子科技有限公司 检测非法域名的方法及装置
CN106911717A (zh) * 2017-04-13 2017-06-30 成都亚信网络安全产业技术研究院有限公司 一种域名检测方法及装置
CN106992969A (zh) * 2017-03-03 2017-07-28 南京理工大学 基于域名字符串统计特征的dga生成域名的检测方法
CN107046586A (zh) * 2017-04-14 2017-08-15 四川大学 一种基于类自然语言特征的算法生成域名检测方法
CN107070852A (zh) * 2016-12-07 2017-08-18 东软集团股份有限公司 网络攻击检测方法和装置
CN107590102A (zh) * 2016-07-06 2018-01-16 阿里巴巴集团控股有限公司 随机森林模型生成方法和装置
CN107612911A (zh) * 2017-09-20 2018-01-19 杭州安恒信息技术有限公司 基于dns流量检测受感染主机和c&c服务器的方法
CN107645503A (zh) * 2017-09-20 2018-01-30 杭州安恒信息技术有限公司 一种基于规则的恶意域名所属dga家族的检测方法
CN107770132A (zh) * 2016-08-18 2018-03-06 中兴通讯股份有限公司 一种对算法生成域名进行检测的方法及装置
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN108200034A (zh) * 2017-12-27 2018-06-22 新华三信息安全技术有限公司 一种识别域名的方法及装置
CN108200054A (zh) * 2017-12-29 2018-06-22 北京奇安信科技有限公司 一种基于dns解析的恶意域名检测方法及装置
CN108768954A (zh) * 2018-05-04 2018-11-06 中国科学院信息工程研究所 一种dga恶意软件识别方法
CN108809989A (zh) * 2018-06-14 2018-11-13 北京中油瑞飞信息技术有限责任公司 一种僵尸网络的检测方法及装置
CN109120579A (zh) * 2017-06-26 2019-01-01 中国电信股份有限公司 恶意域名的检测方法、装置及计算机可读存储介质
CN109246083A (zh) * 2018-08-09 2019-01-18 北京奇安信科技有限公司 一种dga域名的检测方法及装置
CN109450842A (zh) * 2018-09-06 2019-03-08 南京聚铭网络科技有限公司 一种基于神经网络的网络恶意行为识别方法
CN109450886A (zh) * 2018-10-30 2019-03-08 杭州安恒信息技术股份有限公司 一种域名识别方法、系统及电子设备和存储介质
CN109688110A (zh) * 2018-11-22 2019-04-26 顺丰科技有限公司 Dga域名检测模型构建方法、装置、服务器及存储介质
CN109714356A (zh) * 2019-01-08 2019-05-03 北京奇艺世纪科技有限公司 一种异常域名的识别方法、装置及电子设备
WO2019096099A1 (zh) * 2017-11-15 2019-05-23 瀚思安信(北京)软件技术有限公司 Dga域名实时检测方法和装置
US10326736B2 (en) 2016-11-02 2019-06-18 Cisco Technology, Inc. Feature-based classification of individual domain queries
CN110187955A (zh) * 2019-05-27 2019-08-30 四川大学 一种动静态结合的Docker容器内容安全性检测方法和装置
CN110381089A (zh) * 2019-08-23 2019-10-25 南京邮电大学 基于深度学习对恶意域名检测防护方法
WO2019223587A1 (zh) * 2018-05-21 2019-11-28 新华三信息安全技术有限公司 域名识别
WO2020014916A1 (zh) * 2018-07-19 2020-01-23 华为技术有限公司 一种用户识别方法和相关设备
CN110784483A (zh) * 2019-11-04 2020-02-11 北京航空航天大学 一种基于dga异常域名的事件检测系统及方法
CN111224919A (zh) * 2018-11-23 2020-06-02 中移(杭州)信息技术有限公司 一种ddos识别方法、装置、电子设备及介质
CN111401391A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种数据挖掘方法、装置及计算机可读存储介质
CN111556050A (zh) * 2020-04-26 2020-08-18 山石网科通信技术股份有限公司 域名处理方法、装置、存储介质及处理器
CN111581352A (zh) * 2020-05-03 2020-08-25 南开大学 基于可信度的互联网恶意域名检测方法
CN111654504A (zh) * 2020-06-10 2020-09-11 北京天融信网络安全技术有限公司 一种dga域名检测方法及装置
CN111935099A (zh) * 2020-07-16 2020-11-13 兰州理工大学 一种基于深度降噪自编码网络的恶意域名检测方法
CN112468484A (zh) * 2020-11-24 2021-03-09 山西三友和智慧信息技术股份有限公司 一种基于异常和信誉的物联网设备感染检测方法
CN113271292A (zh) * 2021-04-07 2021-08-17 中国科学院信息工程研究所 一种基于词向量的恶意域名集群检测方法及装置
CN113645173A (zh) * 2020-04-27 2021-11-12 北京观成科技有限公司 一种恶意域名的识别方法、系统和设备
CN114402567A (zh) * 2019-09-30 2022-04-26 帕洛阿尔托网络公司 算法生成的域的在线检测

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104735074A (zh) * 2015-03-31 2015-06-24 江苏通付盾信息科技有限公司 一种恶意url检测方法及其实现系统
US20150295805A1 (en) * 2013-04-15 2015-10-15 International Business Machines Corporation Identification and classification of web traffic inside encrypted network tunnels

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150295805A1 (en) * 2013-04-15 2015-10-15 International Business Machines Corporation Identification and classification of web traffic inside encrypted network tunnels
CN104735074A (zh) * 2015-03-31 2015-06-24 江苏通付盾信息科技有限公司 一种恶意url检测方法及其实现系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张 萍 韩立娜: "对邮件过滤技术发展现状的比较与分析", 《计算机与数字工程 2008年第44期》 *
蔡冰 马旸 王林汝: "一种恶意域名检测技术的研究与实现", 《江苏通信 技术与实践 2015年8月刊》 *

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590102A (zh) * 2016-07-06 2018-01-16 阿里巴巴集团控股有限公司 随机森林模型生成方法和装置
CN107590102B (zh) * 2016-07-06 2021-05-04 阿里巴巴集团控股有限公司 随机森林模型生成方法和装置
CN106295887A (zh) * 2016-08-12 2017-01-04 辽宁大学 基于随机森林的持久种子库预测方法
CN107770132B (zh) * 2016-08-18 2021-11-05 中兴通讯股份有限公司 一种对算法生成域名进行检测的方法及装置
CN107770132A (zh) * 2016-08-18 2018-03-06 中兴通讯股份有限公司 一种对算法生成域名进行检测的方法及装置
CN106230867A (zh) * 2016-09-29 2016-12-14 北京知道创宇信息技术有限公司 预测域名是否恶意的方法、系统及其模型训练方法、系统
US10326736B2 (en) 2016-11-02 2019-06-18 Cisco Technology, Inc. Feature-based classification of individual domain queries
CN107070852A (zh) * 2016-12-07 2017-08-18 东软集团股份有限公司 网络攻击检测方法和装置
CN107070852B (zh) * 2016-12-07 2020-07-03 东软集团股份有限公司 网络攻击检测方法和装置
CN106713312A (zh) * 2016-12-21 2017-05-24 深圳市深信服电子科技有限公司 检测非法域名的方法及装置
CN106992969A (zh) * 2017-03-03 2017-07-28 南京理工大学 基于域名字符串统计特征的dga生成域名的检测方法
CN106911717A (zh) * 2017-04-13 2017-06-30 成都亚信网络安全产业技术研究院有限公司 一种域名检测方法及装置
CN107046586A (zh) * 2017-04-14 2017-08-15 四川大学 一种基于类自然语言特征的算法生成域名检测方法
CN107046586B (zh) * 2017-04-14 2019-07-23 四川大学 一种基于类自然语言特征的算法生成域名检测方法
CN109120579A (zh) * 2017-06-26 2019-01-01 中国电信股份有限公司 恶意域名的检测方法、装置及计算机可读存储介质
CN109120579B (zh) * 2017-06-26 2021-05-07 中国电信股份有限公司 恶意域名的检测方法、装置及计算机可读存储介质
CN107645503A (zh) * 2017-09-20 2018-01-30 杭州安恒信息技术有限公司 一种基于规则的恶意域名所属dga家族的检测方法
CN107645503B (zh) * 2017-09-20 2020-01-24 杭州安恒信息技术股份有限公司 一种基于规则的恶意域名所属dga家族的检测方法
CN107612911B (zh) * 2017-09-20 2020-05-01 杭州安恒信息技术股份有限公司 基于dns流量检测受感染主机和c&c服务器的方法
CN107612911A (zh) * 2017-09-20 2018-01-19 杭州安恒信息技术有限公司 基于dns流量检测受感染主机和c&c服务器的方法
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN107786575B (zh) * 2017-11-11 2020-07-10 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
WO2019096099A1 (zh) * 2017-11-15 2019-05-23 瀚思安信(北京)软件技术有限公司 Dga域名实时检测方法和装置
US11334764B2 (en) 2017-11-15 2022-05-17 Han Si An Xin (Beijing) Software Technology Co., Ltd Real-time detection method and apparatus for DGA domain name
CN108200034B (zh) * 2017-12-27 2021-01-29 新华三信息安全技术有限公司 一种识别域名的方法及装置
CN108200034A (zh) * 2017-12-27 2018-06-22 新华三信息安全技术有限公司 一种识别域名的方法及装置
CN108200054B (zh) * 2017-12-29 2021-02-12 奇安信科技集团股份有限公司 一种基于dns解析的恶意域名检测方法及装置
CN108200054A (zh) * 2017-12-29 2018-06-22 北京奇安信科技有限公司 一种基于dns解析的恶意域名检测方法及装置
CN108768954A (zh) * 2018-05-04 2018-11-06 中国科学院信息工程研究所 一种dga恶意软件识别方法
CN108768954B (zh) * 2018-05-04 2020-07-10 中国科学院信息工程研究所 一种dga恶意软件识别方法
WO2019223587A1 (zh) * 2018-05-21 2019-11-28 新华三信息安全技术有限公司 域名识别
CN108809989A (zh) * 2018-06-14 2018-11-13 北京中油瑞飞信息技术有限责任公司 一种僵尸网络的检测方法及装置
CN108809989B (zh) * 2018-06-14 2021-04-23 北京中油瑞飞信息技术有限责任公司 一种僵尸网络的检测方法及装置
WO2020014916A1 (zh) * 2018-07-19 2020-01-23 华为技术有限公司 一种用户识别方法和相关设备
CN109246083A (zh) * 2018-08-09 2019-01-18 北京奇安信科技有限公司 一种dga域名的检测方法及装置
CN109246083B (zh) * 2018-08-09 2021-08-03 奇安信科技集团股份有限公司 一种dga域名的检测方法及装置
CN109450842B (zh) * 2018-09-06 2023-06-13 南京聚铭网络科技有限公司 一种基于神经网络的网络恶意行为识别方法
CN109450842A (zh) * 2018-09-06 2019-03-08 南京聚铭网络科技有限公司 一种基于神经网络的网络恶意行为识别方法
CN109450886A (zh) * 2018-10-30 2019-03-08 杭州安恒信息技术股份有限公司 一种域名识别方法、系统及电子设备和存储介质
CN109688110A (zh) * 2018-11-22 2019-04-26 顺丰科技有限公司 Dga域名检测模型构建方法、装置、服务器及存储介质
CN111224919A (zh) * 2018-11-23 2020-06-02 中移(杭州)信息技术有限公司 一种ddos识别方法、装置、电子设备及介质
CN111224919B (zh) * 2018-11-23 2022-05-13 中移(杭州)信息技术有限公司 一种ddos识别方法、装置、电子设备及介质
CN111401391A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种数据挖掘方法、装置及计算机可读存储介质
CN111401391B (zh) * 2019-01-02 2024-05-07 中国移动通信有限公司研究院 一种数据挖掘方法、装置及计算机可读存储介质
CN109714356A (zh) * 2019-01-08 2019-05-03 北京奇艺世纪科技有限公司 一种异常域名的识别方法、装置及电子设备
CN110187955A (zh) * 2019-05-27 2019-08-30 四川大学 一种动静态结合的Docker容器内容安全性检测方法和装置
CN110381089A (zh) * 2019-08-23 2019-10-25 南京邮电大学 基于深度学习对恶意域名检测防护方法
CN114402567A (zh) * 2019-09-30 2022-04-26 帕洛阿尔托网络公司 算法生成的域的在线检测
CN110784483A (zh) * 2019-11-04 2020-02-11 北京航空航天大学 一种基于dga异常域名的事件检测系统及方法
CN110784483B (zh) * 2019-11-04 2020-11-27 北京航空航天大学 一种基于dga异常域名的事件检测系统及方法
CN111556050A (zh) * 2020-04-26 2020-08-18 山石网科通信技术股份有限公司 域名处理方法、装置、存储介质及处理器
CN111556050B (zh) * 2020-04-26 2022-06-07 山石网科通信技术股份有限公司 域名处理方法、装置、存储介质及处理器
CN113645173A (zh) * 2020-04-27 2021-11-12 北京观成科技有限公司 一种恶意域名的识别方法、系统和设备
CN111581352A (zh) * 2020-05-03 2020-08-25 南开大学 基于可信度的互联网恶意域名检测方法
CN111581352B (zh) * 2020-05-03 2022-05-27 南开大学 基于可信度的互联网恶意域名检测方法
CN111654504A (zh) * 2020-06-10 2020-09-11 北京天融信网络安全技术有限公司 一种dga域名检测方法及装置
CN111935099A (zh) * 2020-07-16 2020-11-13 兰州理工大学 一种基于深度降噪自编码网络的恶意域名检测方法
CN112468484A (zh) * 2020-11-24 2021-03-09 山西三友和智慧信息技术股份有限公司 一种基于异常和信誉的物联网设备感染检测方法
CN113271292A (zh) * 2021-04-07 2021-08-17 中国科学院信息工程研究所 一种基于词向量的恶意域名集群检测方法及装置

Also Published As

Publication number Publication date
CN105577660B (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN105577660A (zh) 基于随机森林的dga域名检测方法
Le et al. URLNet: Learning a URL representation with deep learning for malicious URL detection
Nouh et al. Understanding the radical mind: Identifying signals to detect extremist content on twitter
Woodbridge et al. Predicting domain generation algorithms with long short-term memory networks
Crothers et al. Machine-generated text: A comprehensive survey of threat models and detection methods
CN110414219B (zh) 基于门控循环单元与注意力机制的注入攻击检测方法
EP2803031B1 (en) Machine-learning based classification of user accounts based on email addresses and other account information
Lin et al. Malicious URL filtering—A big data application
CN108200034B (zh) 一种识别域名的方法及装置
CN106992969A (zh) 基于域名字符串统计特征的dga生成域名的检测方法
CN111031026A (zh) 一种dga恶意软件感染主机检测方法
CN105827594A (zh) 一种基于域名可读性及域名解析行为的可疑性检测方法
Yang et al. Detecting stealthy domain generation algorithms using heterogeneous deep neural network framework
CN112839012B (zh) 僵尸程序域名识别方法、装置、设备及存储介质
CN109495475B (zh) 域名检测方法及装置
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
EP4133394A1 (en) Unstructured text classification
US20220377107A1 (en) System and method for detecting phishing-domains in a set of domain name system (dns) records
CN112948725A (zh) 基于机器学习的钓鱼网站url检测方法及系统
Manasrah et al. DGA-based botnets detection using DNS traffic mining
Nowroozi et al. An adversarial attack analysis on malicious advertisement url detection framework
CN113438209B (zh) 一种基于改进的Stacking策略的钓鱼网站检测方法
CN110147839A (zh) 基于XGBoost的算法生成域名检测模型的方法
CN107992473B (zh) 基于逐点互信息技术的诈骗信息特征词提取方法及系统
CN110532805B (zh) 数据脱敏方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Co-patentee after: INFORMATION & TELECOMMUNICATION BRANCH OF STATE GRID ZHEJIANG ELECTRONIC POWER Co.

Patentee after: State Grid Corporation of China

Co-patentee after: NARI Group Corp.

Co-patentee after: NARI INFORMATION AND COMMUNICATION TECHNOLOGY Co.

Address before: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Co-patentee before: INFORMATION & TELECOMMUNICATION BRANCH OF STATE GRID ZHEJIANG ELECTRONIC POWER Co.

Patentee before: State Grid Corporation of China

Co-patentee before: NARI Group CORPORATION STATE GRID ELECTRIC POWER INSTITUTE

Co-patentee before: NARI INFORMATION AND COMMUNICATION TECHNOLOGY Co.