CN111581352B - 基于可信度的互联网恶意域名检测方法 - Google Patents

基于可信度的互联网恶意域名检测方法 Download PDF

Info

Publication number
CN111581352B
CN111581352B CN202010368890.7A CN202010368890A CN111581352B CN 111581352 B CN111581352 B CN 111581352B CN 202010368890 A CN202010368890 A CN 202010368890A CN 111581352 B CN111581352 B CN 111581352B
Authority
CN
China
Prior art keywords
domain name
machine learning
algorithm
model
credibility
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010368890.7A
Other languages
English (en)
Other versions
CN111581352A (zh
Inventor
王志
李涵
林宇量
詹婧
于涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202010368890.7A priority Critical patent/CN111581352B/zh
Publication of CN111581352A publication Critical patent/CN111581352A/zh
Application granted granted Critical
Publication of CN111581352B publication Critical patent/CN111581352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于可信度的互联网恶意域名检测方法,应用于网络空间安全领域。包括:第1、利用XGBoost、LSTM、Bagging等多种机器学习对海量的恶意域名样本和正常的域名样本进行学习,建立多种异构算法的恶意域名检测模型;第2、通过统计学习算法计算XGBoost、LSTM、Bagging等多种检测模型对可疑域名预测结果的可信度;第3、利用计算得到模型预测结果的可信度进行多模型预测结果的融合,实现异构模型的协同防御。本发明选择了13个域名特征值,利用多种机器学习模型对域名进行分析获取可信度,在可信度的基础上采用简单投票法进行模型的融合,提升了域名分析准确性。

Description

基于可信度的互联网恶意域名检测方法
技术领域
本发明属于计算机网络空间安全领域。
背景技术
随着网络的发展,网络空间安全已受到各方面的重视,而层出不穷的网络空间安全威胁也成为了人们不得不面对的新挑战。急速增长的针对性网络攻击直接催生了域名服务;而域名的分析一直是网络空间安全领域的热点问题,能够让威胁更加清晰可见,更快速响应针对性攻击,加强策略规划和投资,同时有效缓解目前在对抗网络攻击时的攻防不对等问题,也为网络态势实时感知提供了技术支持。近年来,我国网络空间安全威胁数量激增。而我国对恶意域名的分析仍然存在处理灵活性不足、利用率不高、应用型不强等问题。因此,国家急需一个能够跟上域名更新换代速度的处理方法,做到对域名的有效防御。
发明内容
本发明目的是为了解决在域名与日俱增的情况下,传统的分析手段难以抵御新型域名并且模型退化程度明显,导致对域名的预测无法得到全面准确的结果的问题,提供一种基于可信度的互联网恶意域名检测方法。本发明选择了多个域名的特征值,利用多个机器学习模型分析,改变传统基于阈值的分析方式,实现对域名的分析;利用统计学习算法,给出每个模型的可信度,通过一定方法实现模型的融合;通过实时监控用户访问网站的域名信息,判断其恶意性加入情报库中。
本发明的技术方案
基于可信度的互联网恶意域名检测方法,包括如下步骤:
基本概念:
(1)域名:某一台计算机或计算机组的字符型标识;
(2)机器学习:研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能;
(3)特征值:域名的静态特征数据,用于机器学习算法的数据分析;
(4)可信度:测量结果的一致性,用来评价各个模型的可信程度;
(5)多模型的融合:选取可信度最高的key个模型,采取简单投票的方式,实现多个模型的融合;
第1、利用多个模型独立的对域名恶意情况进行预测,模型对于测试数据的预测结果和实际恶意情况作为第2步的输入,包括如下步骤:
第1.1步、对域名进行静态分析,获取域名的特征值;
第1.1.1、通过网络爬虫以及用户网络行为收集作为训练集和校准集的域名,对于训练集和校准集的所有域名进行静态分析,统计域名长度、元音占比、有意义单词占比统计域、数字占比、字母占比、不同数字占比、字母与数字变换次数,这些特征提取了构成域名所使用的字母数字所产生的形式的静态规律;
第1.1.2、与此同时,还需要统计训练集和校准集的所有域名的1gram、2gram、3gram、4gram、5gram的特征,这些特征统计的是频率较高的单个字母、两个字母一直到5个字母在域名中的存在次数。
第1.2步、多个模型各自独立的对训练集的域名的特征值进行拟合
第1.2.1、运用bagging、随机森林、lstm、逻辑回归、SVM、xgboost等的多个机器学习算法,对域名的特征值进行拟合:
①域名特征值集合X:包含n个域名特征值xj,j∈{1,2,...,n},X={x1,...,xn};
②机器学习算法集合G:包含m个机器学习算法fk,k∈{1,2,...,m},G={f1,...,fm};该算法集合的输入均为第1.1步中获取的训练集域名12个静态特征值,经拟合得到训练后的m个机器学习模型。
第2、运用IVAPD统计学习算法,对先前生成的机器学习数据模型的预测结果计算模型的可信度,该方法包括如下步骤:
第2.1步、计算各个模型预测结果的IVAPD得分
第2.1.1、每一个机器学习算法,对域名特征值集合X,能根据模型t,利用IVAPD算法,计算出结果P0(U)和P1(U);通过P0(U)和P1(U),利用公式计算得到IVAPD得分P(U),即为可信度,公式以及计算过程将在后续的算法流程中给出;根据可信度P(U),来直接对比模型预测结果的质量选取可信度较高的m个模型;
第2.1.2、IVAPD得分的输入:拟合后的m个机器学习模型Ttest、校准域名集合Ycal,IVAPD算法g:
①拟合后的机器学习模型Ttest:包含m个机器学习模型ti,i∈{1,2,...,m},Ttest={t1,...,tm};
②校准域名集合Ycal:包含c个用于校准的域名yj,j∈{1,2,...,c},Ycal={y1,...,yc};
③IVAPD算法g;返回值为一个IVAPD得分,该函数的输入为一个校准域名集Ycal和机器学习模型ti,返回值为一个实数,该实数表明待测该机器学习模型在校准集上的统计学习得分;
第2.1.3、IVAPD算法的输出:机器学习算法在统计上的可信度;
第2.1.4、可信度算法流程:
输入:训练集TP={(x-1,y-1),......,(x-r,y-r)}
输入:校准集TC={(x1,y1),......,(xh,yh)}
输入:测试样例xh+1
输入:基本预测函数P:(x,T)→s
for i:=1,...,r do
s-i:=P(x-i,T\{(x-i,y-i)})
end for
找到(g-1,......,g-r)能使得
Figure BDA0002477530660000031
最小其中
Figure BDA0002477530660000032
for i:=1,...,h+1do
si:=P(xi,TP)
找到最接近si的s-j(可能不唯一)
gi:=g-j(取平均值并不是唯一的)
end for
令A:={i=1,...,h:gi=gh+1}
Figure BDA0002477530660000033
输出:
Figure BDA0002477530660000034
Figure BDA0002477530660000035
计算可信度:
Figure BDA0002477530660000036
第3步、多个模型进行协同防御,即对第2步得到的模型可信度利用简单投票的方法对每个待测域名的恶意情况进行投票,来确定待测域名是否恶意(选择可信度较高的模型进行多模型融合)
第3.1、每一个已经训练好的机器学习模型,按照IVAPD可信度进行排序,取可信度最高的key个模型,根据待测域名特征值,对域名是否是恶意域名进行预测;
第3.2、多模型算法的输入:可信度较高的机器学习模型集合Tuesd、待测域名集合Ydetected,简单投票算法Vote:
①可信度较高的机器学习模型集合Tuesd:包含key个机器学习模型ti,i∈{1,2,...,key},Tused={t1,...,tkey};
②待测域名集合Ydetected:包含q个待测域名yj,j∈{1,2,...,q},Ydetected={y1,...,yq};
③简单投票算法Vote;返回值为一个多模型融合后的预测结果,该函数的输入为一个待测域名、机器学习模型集合Tuesd以及通过率rate,返回值为该域名是否为恶意域名的bool值;
第3.3、简单投票算法流程:
令yj∈Ydetected;Tused={t1,,tkey},ti∈Tused;ti的预测算法为hi;算法集合的投票通过率为rate;
则投票的算法流程如下:
Figure BDA0002477530660000041
第3.4、简单投票算法的输出:对于待测域名的预测结果。
本发明的优点和积极效果:
本发明提出基于可信度的互联网恶意域名检测方法。该方法利用多个机器学习模型,实现对域名特征值的分析,增强了分析方式多样性;该方法利用统计学习得到每个模型的可信度并基于可信度进行多个模型的融合,改变了传统基于阈值的分析方式。
附图说明
图1是基于可信度的互联网恶意域名检测方法流程图。
图2是爬虫获取的部分域名。
图3是静态分析中提取的特征值。
图4是单个机器学习模型的精确率、召回率和F值。
图5是单个机器学习模型的可信度。
图6是多模型融合后模型的精确率、召回率和F值。
具体实施方式
本发明以实现特征值的建模为例进行具体说明,任何通过输入域名集合的特征值建立一个模型的机器学习算法都可以用到该方法上,方法流程如图1,本实施方式中以XGBoost、LSTM、Bagging、支持向量机(SVM)四种机器学习算法举例说明,具体介绍如下:
XGBoost,全称eXtreme Gradient Boosting,是以GBDT为基础的boosting迭代算法、树类算法,主要应用于分类和回归,具有速度快,效果好,可以并行计算处理大量数据,支持自定义损失函数,可以进行正则化,具有高度灵活性,能够进行缺失值处理和剪枝,可以进行内置交叉验证,并可以在已有模型基础上继续训练等等优点,但是xgboost的发布时间短,工业领域应用较少,所以需要检验。
长短时记忆网络(Long Short Term Memory Network,LSTM),是一种改进之后的循环神经网络,规避了标准RNN中梯度爆炸和梯度消失的问题,可以解决RNN无法处理长距离的依赖的问题,学习速度更快,目前比较流行。
支持向量机(support vector machine,简称SVM)是一种基于统计学习理论的新型学习机,与传统的学习方法不同,支持向量机是结构风险最小化方法的近似实现。这个归纳原理是基于学习机器在测试数据上的泛化误差率,以训练误差率和一个依赖于Vc维数的项的和为界;在可分模式情况下,支持向量机对于前一项的值为零,并且使第二项最小化。其实现的是如下的思想:通过某种事先选择的非线性映射将输入向量x映射到一个高维特征空间z,在这个空间中构造最优分类超平面,从而使正例和反例样本之间的分离界限达到最大。从概念上说,支持向量是那些离决策平面最近的数据点,它们决定了最优分类超平面的位置。
Bagging又称为自助聚集(bootstrap aggregating),它得到不同数据集的方式是均匀的概率从训练集中重复的抽样,一般来说自助样本的包含设63%的原始训练数据,通过降低基分类器的方差改善了泛化误差。需要注意的是,如果基分类器实不稳定的,bagging有助于减少训练数据的随机波动导致的误差,如果基分类器实问题定的,即对训练数据集中的微小变化是鲁棒的,则组合分类器的误差主要有基分类器偏移所引起的,这种情况下,bagging可能不会对基分类器有明显的改进效果,甚至可能降低分类器的性能。
每一个机器学习算法,均可以对域名的静态特征值进行处理,得到一个机器学习模型。对每一个机器学习模型,均使用统计学习算法IVAPD进行统计学习,得到每个模型的可信度。根据每个模型的可信度,选择其中最高的k个进行简单投票,实现多模型的融合,并对待测域名集合进行预测。本实施方式的步骤如下:
1.爬虫
本次实施方式,通过网络爬虫,获取实时的黑名单以及100万白名单,这些是构建域名库的基础;它们还将作为下一步的输入,进行静态分析;如图2所示为爬虫得到的域名。
2.对域名进行静态分析
正规域名有明显的语义特征,而恶意域名随机性较强,我们采取12个静态的语义特征作为后续机器学习的数据,12个特征值分别是:有意义单词占比、n元模型的1-gram、2-gram、3-gram、4-gram和5-gram、数字占比、不同字母占比、不同数字占比、长度、元音字母占比还有字母数字的交换次数。如图3为一部分域名的特征值:其中我们可以看到在特征值4-gram、5-gram、数字的占比以及字母数字的交换次数下,大多数的恶意域名都呈现出了数据值较小的情况;1-gram、2-gram、3-gram、有意义单词占比、长度和元音字母占比,则在一定的区间内波动;而在不同字母占比方面,由于恶意域名生成的随机性较强,任何字母出现的可能性相当,也使得不同字母的可能性增大,观其结果的确其数值较大;还有一组数据,不同数字占比和数字占比对几乎全部的恶意域名来说都是相同的,可见其生成数字时的随机和不重复性。
3.单个模型对数据进行拟合
提取过后的12个特征值加上爬虫时所判断的黑白标签,统一作为训练集,利用lstm、xgboost、随机森林、逻辑回归、朴素贝叶斯、KNN等模型对于训练集进行训练,得到多个机器学习模型。如图4是单个机器学习模型所得到的精确率、召回率以及F值:我们可以看到单个模型效果最好的是bagging,精确率97.8%,召回率97.0%,F值97.4%,相对于其他模型而言似乎单个bagging的三个指标已经非常优秀。
4.计算各个模型的IVAPD得分
每个机器学习模型将会进行统计学习算法的处理。我们选择的是IVAPD(Inductive Venn-Abers Preditive Distribution)算法。这个算法起源于Venn-AbersPredictor,现在常作为机器学习的打分器来使用,它的准确性和高效性都得到过验证。我们利用IVAPD对每个机器学习模型的打分,计算得到其自身的可信度,以便后续进行筛选。如图5就是每个机器学习模型的可信度:我们可以看到作为单个模型效果最好的bagging,它的可信度高达98.0%,而SVM和RandomF也以95.7%和94.1%位于可信度的第二和第三。
5.选择可信度较高的模型进行多模型融合
首先,我们已经得到了多个机器学习模型以及统计学习算法计算得到的可信度,我们选择其中可信度最高的k个模型来构成我们的多模型。其次,在多模型的融合当中,我们选择的是简单投票的方法,即当超过rate比率的模型认定该情报是威胁的我们就定义它为威胁的,否则其划定为安全的。如图6是多模型融合的精确率、召回率和F值:在第4点中已经知晓单个模型时最优情况bagging的数据,在我们尝试不同个数模型以及不同的简单投票rate之后也得出了一个最优的情况,当k=3,rate=0.5时,也就是说在rate=0.5的前提下采用三个模型进行简答投票时候,能达到精确率98.1%,召回率97.5%,F值97.8%,任何指标都超过了bagging模型,这也体现了我们多模型相对单模型而言的可行性和优越性。
6.总体算法流程
(1)输入:域名特征值集合X、机器学习算法集合G、拟合后的机器学习模型Ttest、校准域名集合Ycal、IVAPD算法g、可信度较高的的机器学习模型集合Tuesd、待测域名集合Ydetected、简单投票算法Vote:
①域名特征值集合X:包含n个域名特征值xj,j∈{1,2,...,n},X={x1,...,xn};
②机器学习算法集合G:包含m个机器学习算法fk,k∈{1,2,...,m},G={f1,...,fm};该算法集合的输入均为域名特征值,返回拟合后的机器学习模型;
③拟合后的机器学习模型Ttest:包含m个机器学习模型ti,i∈{1,2,...,m},Ttest={t1,...,tm};
④校准域名集合Ycal:包含c个用于校准的域名yj,j∈{1,2,...,c},Ycal={y1,...,yc};
⑤IVAPD算法g;返回值为一个IVAPD得分,该函数的输入为一个校准域名集Ycal和机器学习模型ti,返回值为一个实数,该实数表明待测该机器学习模型在校准集上的统计学习得分;
⑥可信度较高的机器学习模型集合Tuesd:包含key个机器学习模型ti,i∈{1,2,...,key},Tused={t1,...,tkey};
⑦待测域名集合Ydetected:包含q个待测域名yj,j∈{1,2,...,q},Ydetected={y1,...,yq};
⑧简单投票算法Vote;返回值为一个多模型融合后的预测结果,该函数的输入为一个待测域名、机器学习模型集合Tuesd以及通过率rate,返回值为该域名是否为恶意域名的bool值;
(2)输出:
预测结果,即待测域名集合yj是否安全或恶意。
(3)算法流程:
令yj∈Y;T={t1,,tm},ti∈T;ti的预测算法为hi
Figure BDA0002477530660000081

Claims (3)

1.基于可信度的互联网恶意域名检测方法,其特征在于,包括:
第1、利用多个模型独立的对域名恶意情况进行预测,模型对于测试数据的预测结果和实际恶意情况作为第2步的输入,包括如下步骤:
第1.1步、通过网络爬虫以及用户网络行为收集作为训练集和校准集的域名,并且对训练集和校准集同时进行特征提取,获取域名的特征值,其中包括:域名长度、元音占比、有意义单词占比统计域、数字占比、字母占比、不同数字占比、字母与数字变换次数和k-grams;
第1.2步、多个机器学习模型算法各自独立的对训练集的域名的特征值进行拟合,得到基于域名特征值的机器学习数据模型,并对校准集数据的恶意情况进行预测;
第2、运用IVAPD统计学习算法,对先前生成的机器学习数据模型的预测结果计算模型的可信度;
第2.1、每一个机器学习算法,对域名特征值集合X,能根据模型t,利用IVAPD算法,计算出结果P0(U)和P1(U);通过P0(U)和P1(U),利用公式计算得到IVAPD得分P(U),即为可信度;根据可信度P(U),来直接对比模型预测结果的质量选取可信度较高的m个模型;
第2.2、IVAPD得分的输入:拟合后的m个机器学习模型Ttest、校准域名集合Ycal,IVAPD算法g:
①拟合后的机器学习模型Ttest:包含m个机器学习模型ti,i∈{1,2,...,m},Ttest={t1,...,tm};
②校准域名集合Ycal:包含c个用于校准的域名yj,j∈{1,2,...,c},Ycal={y1,...,yc};
③IVAPD算法g;返回值为一个IVAPD得分,该函数的输入为一个校准域名集Ycal和机器学习模型ti,返回值为一个实数,该实数表明待测该机器学习模型在校准集上的统计学习得分;
第2.3、IVAPD算法的输出:机器学习算法在统计上的可信度;
第2.4、可信度算法流程:
输入:训练集TP={(x-1,y-1),......,(x-r,y-r)}
输入:校准集TC={(x1,y1),......,(xh,yh)}
输入:测试样例xh+1
输入:基本预测函数P:(x,T)→s
for i:=1,...,r do
s-i:=P(x-i,T\{(x-i,y-i)})
end for
找到(g-1,......,g-r)能使得
Figure FDA0003613261820000021
最小其中
Figure FDA0003613261820000022
for i:=1,...,h+1 do
si:=P(xi,TP)
找到最接近si的s-j(可能不唯一)
gi:=g-j(取平均值并不是唯一的)
end for
令A:={i=1,...,h:gi=gh+1}
Figure FDA0003613261820000023
输出:
Figure FDA0003613261820000024
Figure FDA0003613261820000025
计算可信度:
Figure FDA0003613261820000026
第3、多个模型进行协同防御,即对第2步得到的模型可信度利用简单投票的方法对每个待测域名的恶意情况进行投票,来确定待测域名是否恶意;
第3.1、每一个已经训练好的机器学习模型,按照IVAPD可信度进行排序,取可信度最高的key个模型,根据待测域名特征值,对域名是否是恶意域名进行预测;
第3.2、多模型算法的输入:可信度较高的机器学习模型集合Tuesd、待测域名集合Ydetected,简单投票算法Vote:
①可信度较高的机器学习模型集合Tuesd:包含key个机器学习模型ti,i∈{1,2,...,key},Tused={t1,...,tkey};
②待测域名集合Ydetected:包含q个待测域名yj,j∈{1,2,...,q},Ydetected={y1,...,yq};
③简单投票算法Vote;返回值为一个多模型融合后的预测结果,该函数的输入为一个待测域名、机器学习模型集合Tuesd以及通过率rate,返回值为该域名是否为恶意域名的bool值;
第3.3、简单投票算法流程:
令yj∈Ydetected;Tused={t1,…,tkey},ti∈Tused;ti的预测算法为hi;算法集合的投票通过率为rate;
则投票的算法流程如下:
for i←1to key do
aij←hi(ti,yj)
end for
Figure FDA0003613261820000031
bi=1
else
bi=0
end if
end for;
第3.4、简单投票算法的输出:对于待测域名的预测结果。
2.根据权利要求1所述的基于可信度的互联网恶意域名检测方法,其特征在于,第1.1步包括:
第1.1.1、通过网络爬虫以及用户网络行为收集作为训练集和校准集的域名,对于训练集和校准集的所有域名,统计域名长度、元音占比、有意义单词占比统计域、数字占比、字母占比、不同数字占比、字母与数字变换次数,这些特征提取了构成域名所使用的字母数字所产生的形式的静态规律;
第1.1.2、与此同时,还需要统计训练集和校准集的所有域名的1gram、2gram、3gram、4gram、5gram的特征,这些特征统计的是频率较高的单个字母、两个字母一直到5个字母在域名中的存在次数。
3.根据权利要求1所述的基于可信度的互联网恶意域名检测方法,其特征在于,第1.2步包括:
第1.2.1、运用bagging、随机森林、lstm、逻辑回归、SVM、xgboost多个机器学习算法,对域名的特征值进行拟合:
①域名特征值集合X:包含n个域名特征值xj,j∈{1,2,...,n},X={x1,...,xn};
②机器学习算法集合G:包含m个机器学习算法fk,k∈{1,2,...,m},G={f1,...,fm};该算法集合的输入均为第1.1步中获取的训练集域名12个静态特征值,经拟合得到训练后的m个机器学习模型。
CN202010368890.7A 2020-05-03 2020-05-03 基于可信度的互联网恶意域名检测方法 Active CN111581352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010368890.7A CN111581352B (zh) 2020-05-03 2020-05-03 基于可信度的互联网恶意域名检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010368890.7A CN111581352B (zh) 2020-05-03 2020-05-03 基于可信度的互联网恶意域名检测方法

Publications (2)

Publication Number Publication Date
CN111581352A CN111581352A (zh) 2020-08-25
CN111581352B true CN111581352B (zh) 2022-05-27

Family

ID=72120445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010368890.7A Active CN111581352B (zh) 2020-05-03 2020-05-03 基于可信度的互联网恶意域名检测方法

Country Status (1)

Country Link
CN (1) CN111581352B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114257565B (zh) * 2020-09-10 2023-09-05 中国移动通信集团广东有限公司 挖掘潜在威胁域名的方法、系统和服务器
CN114648069A (zh) * 2022-03-23 2022-06-21 三六零数字安全科技集团有限公司 域名检测方法和装置、设备及存储介质
CN115102783B (zh) * 2022-07-19 2023-05-09 厦门吉快科技有限公司 一种基于集成学习的恶意域名检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105577660A (zh) * 2015-12-22 2016-05-11 国家电网公司 基于随机森林的dga域名检测方法
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN109462578A (zh) * 2018-10-22 2019-03-12 南开大学 基于统计学习的威胁情报利用与繁殖方法
CN112929390A (zh) * 2021-03-12 2021-06-08 厦门帝恩思科技股份有限公司 一种基于多策略融合的网络智能监控方法
CN114095216A (zh) * 2021-11-03 2022-02-25 东南大学 一种有限训练样本下基于对比学习的恶意域名检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105577660A (zh) * 2015-12-22 2016-05-11 国家电网公司 基于随机森林的dga域名检测方法
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN109462578A (zh) * 2018-10-22 2019-03-12 南开大学 基于统计学习的威胁情报利用与繁殖方法
CN112929390A (zh) * 2021-03-12 2021-06-08 厦门帝恩思科技股份有限公司 一种基于多策略融合的网络智能监控方法
CN114095216A (zh) * 2021-11-03 2022-02-25 东南大学 一种有限训练样本下基于对比学习的恶意域名检测方法

Also Published As

Publication number Publication date
CN111581352A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
Su et al. BAT: Deep learning methods on network intrusion detection using NSL-KDD dataset
Wu et al. Twitter spam detection: Survey of new approaches and comparative study
CN111581352B (zh) 基于可信度的互联网恶意域名检测方法
Liu et al. SocInf: Membership inference attacks on social media health data with machine learning
Zhang et al. Textual and visual content-based anti-phishing: a Bayesian approach
Bostani et al. Modification of supervised OPF-based intrusion detection systems using unsupervised learning and social network concept
Guo et al. A distance sum-based hybrid method for intrusion detection
Chen et al. Can adversarial network attack be defended?
Nowroozi et al. An adversarial attack analysis on malicious advertisement URL detection framework
Folorunso et al. Ca-NIDS: A network intrusion detection system using combinatorial algorithm approach
Rahman et al. New biostatistics features for detecting web bot activity on web applications
Dong et al. TSIFIM: A three-stage iterative framework for influence maximization in complex networks
CN115062732A (zh) 基于大数据用户标签信息的资源共享合作推荐方法及系统
Malik et al. Performance evaluation of classification algorithms for intrusion detection on nsl-kdd using rapid miner
Zheng et al. Tegdetector: a phishing detector that knows evolving transaction behaviors
Zhao et al. Learning content–social influential features for influence analysis
Zhang et al. Detecting collusive spammers on e-commerce websites based on reinforcement learning and adversarial autoencoder
Chao et al. Network Embedding‐Based Approach for Detecting Collusive Spamming Groups on E‐Commerce Platforms
Dong et al. A-CAVE: Network abnormal traffic detection algorithm based on variational autoencoder
CN112613231B (zh) 一种机器学习中隐私可用均衡的轨迹训练数据扰动机制
Elkouay et al. Graph-based phishing detection: URLGBM model driven by machine learning
Ko et al. Learning disentangled representations in signed directed graphs without social assumptions
CN111507368B (zh) 一种校园网入侵检测方法和系统
Yu et al. A robust Bayesian probabilistic matrix factorization model for collaborative filtering recommender systems based on user anomaly rating behavior detection
Wang et al. CI_GRU: An efficient DGA botnet classification model based on an attention recurrence plot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant