CN111935099A - 一种基于深度降噪自编码网络的恶意域名检测方法 - Google Patents

一种基于深度降噪自编码网络的恶意域名检测方法 Download PDF

Info

Publication number
CN111935099A
CN111935099A CN202010686940.6A CN202010686940A CN111935099A CN 111935099 A CN111935099 A CN 111935099A CN 202010686940 A CN202010686940 A CN 202010686940A CN 111935099 A CN111935099 A CN 111935099A
Authority
CN
China
Prior art keywords
layer
domain name
noise reduction
coding network
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010686940.6A
Other languages
English (en)
Inventor
赵宏
王伟杰
孔东一
岳鲁鹏
郭岚
郑厚泽
傅兆阳
刘璐
常有康
党育
马栋林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanzhou University of Technology
Original Assignee
Lanzhou University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanzhou University of Technology filed Critical Lanzhou University of Technology
Priority to CN202010686940.6A priority Critical patent/CN111935099A/zh
Publication of CN111935099A publication Critical patent/CN111935099A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度降噪自编码网络的恶意域名检测方法,包括步骤:构造单层自编码网络,将输入数据压缩后重构输出,通过输入与输出数据之间的误差,训练单层自编码网络;在单层自编码网络的输入数据中加入噪声,通过学习输入数据与输出数据之间的误差,去除噪声,形成单层降噪自编码网络;通过叠加多个单层降噪自编码网络,构造深度降噪自编码网络;逐层训练深度降噪自编码网络,对域名的分布式表征进行逐层压缩,提取域名的多维字符特征;根据深度降噪自编码网络提取的域名的多维字符特征,使用随机森林分类算法对待测域名进行检测,识别其中的恶意域名。本发明可以实现广谱恶意域名的检测,具有检测精度高、误报与漏报率低等优点。

Description

一种基于深度降噪自编码网络的恶意域名检测方法
技术领域
本发明涉及网络安全领域,尤其涉及一种基于深度降噪自编码网络的恶意域名检测方法。
背景技术
互联网技术的快速发展给人们的工作和生活带来了许多便利,其中的域名系统DNS(Domain Name System)作为互联网中实现域名与IP地址相互转换的一种基础服务,得到了广泛应用。很多网络安全设施都会允许DNS的数据报文通过,正是由于这个原因,DNS受到了攻击者的广泛关注。如美国电力公司遭受DDoS攻击,导致通信设备中断12小时,造成经济损失上百万美元;某飞机零部件供应商遭遇勒索攻击,导致多条生产线停产,损失严重。因此,恶意域名的危害不容小视。
现有的恶意域名检测方法大多采用单一字符特征或部分字符特征的组合进行段模式匹配,识别并过滤恶意域名。但该类恶意域名检测方法仅能针对性地检测某类恶意域名,对于其他恶意域名的检测,检测精度低、误报与漏报率高。
发明内容
为克服现有恶意域名检测方法检测精度低、误报与漏报率高的不足,本发明提出一种基于深度降噪自编码网络的恶意域名检测方法,用于对广谱恶意域名进行高效的检测。
本发明的技术方案是这样实现的:
一种基于深度降噪自编码网络的恶意域名检测方法,包括步骤:
S1:将域名的分布式表征作为输入,构造单层自编码网络,将输入数据压缩后重构输出,通过输入与输出数据之间的误差,训练单层自编码网络;
S2:在单层自编码网络的输入数据中加入噪声,通过学习输入数据与网络输出数据之间的误差,去除噪声,形成单层降噪自编码网络;
S3:通过叠加多个单层降噪自编码网络,构造深度降噪自编码网络;
S4:逐层训练深度降噪自编码网络,对域名的分布式表征进行逐层压缩,提取域名的多维字符特征;
S5:根据深度降噪自编码网络提取的域名的多维字符特征,使用随机森林分类算法对待测域名进行检测,识别恶意域名。
进一步地,步骤S1中所述的单层自编码网络的构造与训练包括步骤:编码和解码,编码和解码的计算如公式(1)和公式(2)所示:
h=f(x)=σ1(Wx+p) (1)
Figure BDA0002587917240000021
其中,f和g分别表示编码阶段和解码阶段的映射函数;x和
Figure BDA0002587917240000022
分别表示网络的输入和输出;h为压缩后的数据;W和p分别表示编码阶段的权重和偏置;WT和q分别表示解码阶段的权重和偏置;σ1和σ2分别表示编码和解码阶段的激活函数。
进一步地,步骤S1所述的输入与输出数据之间的误差采用均方误差损失函数,计算如公式(3)所示。
Figure BDA0002587917240000023
其中,
Figure BDA0002587917240000024
表示输入数据x与输出数据
Figure BDA0002587917240000025
之间的误差,m表示训练样本的个数。
进一步地,步骤S2所述的单层降噪自编码网络利用随机映射函数将输入域名的某一字符进行随机替换,形成噪声,训练单层降噪自编码网络,增强网络的鲁棒性。
进一步地,步骤S4中深度降噪自编码网络通过逐层训练,对输入域名的分布式表征数据进行逐层压缩,提取域名的多维字符特征,深度降噪自编码网络构造与训练实现包括步骤
S41:按照单层降噪自编码网络的训练方式进行无监督训练,得到第一层网络的参数,然后将第一层网络的输出作为第二层网络的输入,以同样的无监督训练方法对第二层网络进行训练,得到第二层网络的参数,以此类推,对网络的其余层进行训练,得到这些层的参数;
S42:在深度降噪自编码网络的末层加装分类器,将深度降噪自编码网络的末层输出作为分类器的输入,对域名进行正常域名和恶意域名的分类;
S43:利用带标签域名对深度降噪自编码网络进行有监督训练,优化网络各层参数,提高域名多维字符特征提取的准确率。
进一步地,步骤S4中所述的多维字符特征为基于域名字符特征的恶意域名检测算法中常用的18维字符特征。
进一步地,步骤S5所述的随机森林分类算法实现包括步骤
S51:用n表示训练样本总个数,m表示提取的域名字符特征个数;
S52:输入域名字符特征数目m′,用于确定决策树上一个节点的决策结果,其中m′小于m;
S53:从n个训练样本中以有放回抽样的方式,取样n次,形成一个训练集,并用未抽到的样本作预测,评估决策误差;
S54:对于每一个节点,随机选择m′个特征,决策树上每个节点的决定都是基于该类特征,根据选择的m′个特征,计算最佳的分裂方式。
进一步地,步骤S1所述的单层自编码网络构造过程中考虑到输入层神经元个数完全等于输出层神经元个数,极易导致输出直接复制输入信息的情形出现,因此,在误差损失函数后加入稀疏性限制,计算如公式(4)所示。
Figure BDA0002587917240000031
其中,
Figure BDA0002587917240000032
表示稀疏性限制,ω为正则约束项权重,
Figure BDA0002587917240000033
表示正则约束项。
本发明的有益效果在于,与现有技术相比,本发明为恶意域名的检测提供了一种新思路,丰富了恶意域名的检测手段,可以实现广谱恶意域名的检测,具有检测精度高、误报与漏报率低等优点。
附图说明
图1是本发明一种基于深度降噪自编码网络的恶意域名检测方法流程图;
图2是应用本发明进行恶意域名检测的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的技术方案思路是:将域名的分布式表征作为输入,构造单层自编码网络,并在网络的输入数据中加入噪声,通过学习原始输入数据与网络输出数据之间的误差,去除噪声,形成单层降噪自编码网络,增强网络的鲁棒性,其次,通过叠加多个单层降噪自编码网络,构造深度降噪自编码网络,对域名的分布式表征进行逐层压缩,提取域名的多维字符特征,最后,根据提取的多维字符特征并结合随机森林分类算法对待测域名进行检测,识别并过滤掉其中的恶意域名。
请参见图1,本发明一种基于深度降噪自编码网络的恶意域名检测方法,包括步骤
S1:将域名的分布式表征作为输入,构造单层自编码网络,将输入数据压缩后重构输出,通过输入与输出数据之间的误差,训练单层自编码网络;
S2:在单层自编码网络的输入数据中加入噪声,通过学习输入数据与网络输出数据之间的误差,去除噪声,形成单层降噪自编码网络;
S3:通过叠加多个单层降噪自编码网络,构造深度降噪自编码网络;
S4:逐层深度训练降噪自编码网络,对域名的分布式表征进行逐层压缩,提取域名的多维字符特征;
S5:根据深度降噪自编码网络提取的域名的多维字符特征,使用随机森林分类算法对待测域名进行检测,识别恶意域名。
其中,在步骤S1中,将域名的分布式表征作为输入,构造单层自编码网络,其中,所述的自编码网络构造包括编码和解码两个阶段。编码和解码的计算如公式(1)和公式(2)所示,所述的单层自编码网络构造过程中考虑到输入层神经元个数完全等于输出层神经元个数,极易导致输出直接复制输入信息情形的发生,因此在误差损失函数后加入稀疏性限制,计算如公式(3)所示。
h=f(x)=σ1(Wx+p) (1)
Figure BDA0002587917240000051
其中,f和g分别表示编码阶段和解码阶段的映射函数;x和
Figure BDA0002587917240000052
分别表示网络的输入和输出;h为压缩后的数据;W和p分别表示编码阶段的权重和偏置;WT和q分别表示解码阶段的权重和偏置;σ1和σ2分别表示编码和解码阶段的激活函数。
Figure BDA0002587917240000053
其中,
Figure BDA0002587917240000054
表示稀疏性限制,ω为正则约束项权重,
Figure BDA0002587917240000055
表示正则约束项。
在步骤S2中,在单层自编码网络的输入数据中加入噪声,通过学习原始输入数据与网络输出数据之间的误差,去除噪声,形成单层降噪自编码网络,增强网络的鲁棒性,其中,所述的单层降噪自编码网络利用随机映射函数将输入域名的某一字符随机替换,形成噪声,训练单层自编码网络,所述的误差采用均方误差损失函数,计算如公式(4)所示。
Figure BDA0002587917240000056
其中,
Figure BDA0002587917240000057
表示原始输入数据x与目标数据
Figure BDA0002587917240000058
之间的重构误差,m表示训练样本的个数。
在步骤S4中进行深度降噪自编码网络的训练,逐层训练网络,对域名的分布式表征进行逐层压缩,提取域名的多维字符特征,所述的多维字符特征为基于域名字符特征的恶意域名检测算法中常用的18维字符特征。
对深度降噪自编码网络构造与训练实现包括步骤
S41:按照单层降噪自编码网络的训练方式进行无监督训练,得到第一层网络的参数,然后将第一层网络的输出作为第二层网络的输入,以同样的无监督训练方法对第二层网络进行训练,得到第二层网络的参数,以此类推,对网络的其余层进行训练,得到这些层的参数;
S42:在深度降噪自编码网络的末层加装分类器,将深度降噪自编码网络的末层输出作为分类器的输入,对域名进行正常域名和恶意域名的分类;
S43:利用带标签域名对深度降噪自编码网络进行有监督训练,优化网络各层参数,提高域名多维字符特征提取的准确率。
请参见图2,在应用本发明进行恶意域名检测时,随机森林分类算法实现包括步骤
S51:用n表示训练样本总个数,m表示提取的域名字符特征个数;
S52:输入域名字符特征数目m′,用于确定决策树上一个节点的决策结果,其中m′应小于m;
S53:从n个训练样本中以有放回抽样的方式,取样n次,形成一个训练集,并用未抽到的样本作预测,评估决策误差;
S54:对于每一个节点,随机选择m′个特征,决策树上每个节点的决定都是基于该类特征,根据选择的m′个特征,计算最佳的分裂方式。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (7)

1.一种基于深度降噪自编码网络的恶意域名检测方法,其特征在于,包括步骤
S1:将域名的分布式表征作为输入,构造单层自编码网络,将输入数据压缩后重构输出,通过输入与输出数据之间的误差,训练单层自编码网络;
S2:在单层自编码网络的输入数据中加入噪声,通过学习输入数据与输出数据之间的误差,去除噪声,形成单层降噪自编码网络;
S3:通过叠加多个单层降噪自编码网络,构造深度降噪自编码网络;
S4:逐层训练深度降噪自编码网络,对域名的分布式表征进行逐层压缩,提取域名的多维字符特征;
S5:根据深度降噪自编码网络提取的域名的多维字符特征,使用随机森林分类算法对待测域名进行检测,识别其中的恶意域名。
2.如权利要求1所述的基于深度降噪自编码网络的恶意域名检测方法,其特征在于,步骤S1中所述的单层自编码网络的构造与训练包括步骤:编码和解码,编码和解码的计算如公式(1)和公式(2)所示:
h=f(x)=σ1(Wx+p) (1)
Figure RE-FDA0002639611930000011
其中,f和g分别表示编码阶段和解码阶段的映射函数;x和
Figure RE-FDA0002639611930000012
分别表示网络的输入和输出;h为压缩后的数据;W和p分别表示编码阶段的权重和偏置;WT和q分别表示解码阶段的权重和偏置;σ1和σ2分别表示编码和解码阶段的激活函数。
3.如权利要求1所述的基于深度降噪自编码网络的恶意域名检测方法,其特征在于,步骤S1所述的输入与输出数据之间的误差采用均方误差损失函数,计算如公式(3)所示:
Figure RE-FDA0002639611930000021
其中,
Figure RE-FDA0002639611930000022
表示输入数据x与输出数据
Figure RE-FDA0002639611930000023
之间的误差,m表示训练样本的个数。
4.如权利要求1所述的基于深度降噪自编码网络的恶意域名检测方法,其特征在于,步骤S2所述的单层自编码网络利用随机映射函数将输入域名的某一字符进行随机替换,形成噪声,训练单层降噪自编码网络,增强网络的鲁棒性。
5.如权利要求1所述的基于深度降噪自编码网络的恶意域名检测方法,其特征在于,步骤S4中深度降噪自编码网络通过逐层训练,对输入域名的分布式表征数据进行逐层压缩,提取域名的多维字符特征,深度降噪自编码网络构造与训练实现包括步骤
S41:按照单层降噪自编码网络的训练方式进行无监督训练,得到第一层网络的参数,然后将第一层网络的输出作为第二层网络的输入,以同样的无监督训练方法对第二层网络进行训练,得到第二层网络的参数,以此类推,对网络的其余层进行训练,得到这些层的参数;
S42:在深度降噪自编码网络的末层加装分类器,将深度降噪自编码网络的末层输出作为分类器的输入,对域名进行正常域名和恶意域名的分类;
S43:利用带标签域名对深度降噪自编码网络进行有监督训练,优化网络各层参数,提高域名多维字符特征提取的准确率。
6.如权利要求1或6所述的基于深度降噪自编码网络的恶意域名检测方法,其特征在于,步骤S4中所述的多维字符特征为18维字符特征。
7.如权利要求1所述的基于深度降噪自编码网络的恶意域名检测方法,其特征在于,步骤S5所述的随机森林分类算法实现包括步骤
S51:用n表示训练样本总个数,m表示提取的域名字符特征个数;
S52:输入域名字符特征数目m′,用于确定决策树上一个节点的决策结果,其中m′小于m;
S53:从n个训练样本中以有放回抽样的方式,取样n次,形成一个训练集,并用未抽到的样本作预测,评估决策误差;
S54:对于每一个节点,随机选择m′个特征,决策树上每个节点的决定都是基于该类特征,根据选择的m′个特征,计算最佳的分裂方式。
CN202010686940.6A 2020-07-16 2020-07-16 一种基于深度降噪自编码网络的恶意域名检测方法 Pending CN111935099A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010686940.6A CN111935099A (zh) 2020-07-16 2020-07-16 一种基于深度降噪自编码网络的恶意域名检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010686940.6A CN111935099A (zh) 2020-07-16 2020-07-16 一种基于深度降噪自编码网络的恶意域名检测方法

Publications (1)

Publication Number Publication Date
CN111935099A true CN111935099A (zh) 2020-11-13

Family

ID=73313084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010686940.6A Pending CN111935099A (zh) 2020-07-16 2020-07-16 一种基于深度降噪自编码网络的恶意域名检测方法

Country Status (1)

Country Link
CN (1) CN111935099A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112787946A (zh) * 2021-01-28 2021-05-11 哈尔滨工业大学(威海) 一种获取网络数据时网络阻塞造成的噪声数据消除方法
CN112929341A (zh) * 2021-01-22 2021-06-08 网宿科技股份有限公司 一种dga域名的检测方法、系统及装置
CN113640244A (zh) * 2021-07-28 2021-11-12 湖南师范大学 一种基于可见近红外光谱的果树品种鉴别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105577660A (zh) * 2015-12-22 2016-05-11 国家电网公司 基于随机森林的dga域名检测方法
KR101662530B1 (ko) * 2015-05-28 2016-10-05 한국전자통신연구원 호스트의 악성 도메인 접근 탐지와 차단 시스템, 및 그 방법
CN106911717A (zh) * 2017-04-13 2017-06-30 成都亚信网络安全产业技术研究院有限公司 一种域名检测方法及装置
CN109617909A (zh) * 2019-01-07 2019-04-12 福州大学 一种基于smote和bi-lstm网络的恶意域名检测方法
CN110557382A (zh) * 2019-08-08 2019-12-10 中国科学院信息工程研究所 一种利用域名共现关系的恶意域名检测方法及系统
US10574681B2 (en) * 2016-09-04 2020-02-25 Palo Alto Networks (Israel Analytics) Ltd. Detection of known and unknown malicious domains
CN111131260A (zh) * 2019-12-24 2020-05-08 邑客得(上海)信息技术有限公司 一种海量网络恶意域名识别和分类方法及系统
CN111245784A (zh) * 2019-12-30 2020-06-05 杭州安恒信息技术股份有限公司 多维度检测恶意域名的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101662530B1 (ko) * 2015-05-28 2016-10-05 한국전자통신연구원 호스트의 악성 도메인 접근 탐지와 차단 시스템, 및 그 방법
CN105577660A (zh) * 2015-12-22 2016-05-11 国家电网公司 基于随机森林的dga域名检测方法
US10574681B2 (en) * 2016-09-04 2020-02-25 Palo Alto Networks (Israel Analytics) Ltd. Detection of known and unknown malicious domains
CN106911717A (zh) * 2017-04-13 2017-06-30 成都亚信网络安全产业技术研究院有限公司 一种域名检测方法及装置
CN109617909A (zh) * 2019-01-07 2019-04-12 福州大学 一种基于smote和bi-lstm网络的恶意域名检测方法
CN110557382A (zh) * 2019-08-08 2019-12-10 中国科学院信息工程研究所 一种利用域名共现关系的恶意域名检测方法及系统
CN111131260A (zh) * 2019-12-24 2020-05-08 邑客得(上海)信息技术有限公司 一种海量网络恶意域名识别和分类方法及系统
CN111245784A (zh) * 2019-12-30 2020-06-05 杭州安恒信息技术股份有限公司 多维度检测恶意域名的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵宏;常兆斌;王伟杰: "基于深度自编码和决策树的恶意域名检测", 《微电子学与计算机》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112929341A (zh) * 2021-01-22 2021-06-08 网宿科技股份有限公司 一种dga域名的检测方法、系统及装置
CN112787946A (zh) * 2021-01-28 2021-05-11 哈尔滨工业大学(威海) 一种获取网络数据时网络阻塞造成的噪声数据消除方法
CN112787946B (zh) * 2021-01-28 2022-04-15 哈尔滨工业大学(威海) 一种获取网络数据时网络阻塞造成的噪声数据消除方法
CN113640244A (zh) * 2021-07-28 2021-11-12 湖南师范大学 一种基于可见近红外光谱的果树品种鉴别方法

Similar Documents

Publication Publication Date Title
CN111935099A (zh) 一种基于深度降噪自编码网络的恶意域名检测方法
CN107154950B (zh) 一种日志流异常检测的方法及系统
CN110933105B (zh) 一种Web攻击检测方法、系统、介质和设备
Farhadi et al. Alert correlation and prediction using data mining and HMM.
US9824195B2 (en) Calculating consecutive matches using parallel computing
KR102279983B1 (ko) 딥러닝 알고리즘을 이용한 비지도 방식의 네트워크 침입 탐지 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체
US11449604B2 (en) Computer security
CN109660518B (zh) 网络的通信数据检测方法、装置以及机器可读存储介质
GB2583892A (en) Adaptive computer security
US11477225B2 (en) Pre-emptive computer security
GB2582609A (en) Pre-emptive computer security
US20220092177A1 (en) Adaptive computer security
CN113094707A (zh) 一种基于异质图网络的横向移动攻击检测方法及系统
CN115134250A (zh) 一种网络攻击溯源取证方法
CN117113228B (zh) 一种基于深度学习的电力社会工程学攻击监测方法及系统
CN110598397A (zh) 一种基于深度学习的Unix系统用户恶意操作检测方法
CN113162904B (zh) 一种基于概率图模型的电力监控系统网络安全告警评估方法
CN115622793A (zh) 一种攻击类型识别方法、装置、电子设备及存储介质
Sridevi et al. Genetic algorithm and artificial immune systems: A combinational approach for network intrusion detection
CN113645286A (zh) 一种面向数据泄露的Web安全事件取证方法及系统
CN115514582B (zh) 基于att&ck的工业互联网攻击链关联方法及系统
Lai et al. Detecting network intrusions using signal processing with query-based sampling filter
Ukil Application of Kolmogorov complexity in anomaly detection
CN117914555A (zh) 一种智能网关的训练及流量检测方法和设备
CN116633619A (zh) 一种互联网中僵尸木马真实性判断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201113