CN113726730A - 基于深度学习算法的dga域名检测方法及系统 - Google Patents
基于深度学习算法的dga域名检测方法及系统 Download PDFInfo
- Publication number
- CN113726730A CN113726730A CN202110792490.3A CN202110792490A CN113726730A CN 113726730 A CN113726730 A CN 113726730A CN 202110792490 A CN202110792490 A CN 202110792490A CN 113726730 A CN113726730 A CN 113726730A
- Authority
- CN
- China
- Prior art keywords
- domain name
- vector
- dga domain
- character
- dga
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 27
- 238000013135 deep learning Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 154
- 238000007781 pre-processing Methods 0.000 claims abstract description 29
- 230000007246 mechanism Effects 0.000 claims abstract description 25
- 239000013604 expression vector Substances 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 230000005540 biological transmission Effects 0.000 claims abstract description 10
- 238000013507 mapping Methods 0.000 claims description 19
- 238000002372 labelling Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 abstract description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2463/00—Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
- H04L2463/144—Detection or countermeasures against botnets
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了基于深度学习算法的DGA域名检测方法及系统,方法包括对获取的DGA域名数据进行预处理,将DGA域名数据形成字符嵌入向量序列;获取所述字符嵌入向量序列中的局部特征向量和全局特征向量,并将所述局部特征向量和全局特征向量进行拼接,得到DGA域名表示向量;基于多层感知机层的神经网络,对所述DGA域名表示向量进行多层传递,得到DGA域名所属类别的概率值。本发明以域名字符串数据为基础,引入一维卷积神经网络和自注意力机制,分别用来获取域名字符串中的局部特征向量和全局特征向量,并形成域名表示向量,对域名表示向量进行多层传递,得到DGA域名所属类别的概率值,相比于现有方法,具有更加优异的准确率和召回率。
Description
技术领域
本发明涉及网络安全技术领域,尤其是一种基于深度学习算法的DGA域名检测方法及系统。
背景技术
互联网信息技术的普及,为人们提供了极大的便利。但是开放的网络和标准化的软、硬件设施也带来了诸多的潜在安全威胁。比较常见的恶意程序,如病毒、蠕虫和木马等,会窃取个人用户数据、破坏系统程序,实现对网络设备的攻击。恶意程序进入目标系统后,通过感染大量设备形成僵尸网络(Botnets),僵尸网络利用域名生成算法(DomainGeneration Algorithm,DGA)随机产生一系列虚假域名。僵尸网络通过不断查询DGA域名,接受来自指挥和控制中心(Command and Control,C&C)的进一步破坏指令,对个人和企业的信息安全构成严重威胁。
DGA域名检测是指从众多域名中,识别出用于僵尸网络与控制中心通信的虚假域名,通过对DGA域名进行检测和有针对性的防御,切断恶意程序与控制中心的连接,阻止恶意程序对系统的进一步破坏。随着机器学习以及深度学习技术的不断发展,通过数据挖掘的方法进行DGA域名检测成为近年来研究热点。根据所用方法和技术的不同,DGA域名检测大致可分为两类:基于特征工程的机器学习方法、基于深度学习算法的字符序列建模方法。基于特征工程的机器学习方法的主要工作是进行DGA相关特征的提取。例如,从DNS(DomainName System,域名系统)数据中提取时间、DNS响应、TTL(Time To Live,生存时间值)、域名文本等相关特征,并基于机器学习算法构建域名分类检测模型。此外,通过对Alexa数据集中的10万个正常域名进行词法模式和发音规则分析,还可以提取字符分布模板相关特征、字符结构模板相关特征和单词发音相关特征,随后基于随机森林、逻辑回归、支持向量机等相关机器学习算法实现对DGA域名的检测。
近年来,深度学习算法在众多领域取得了突破性的进展。相比于基于特征工程的DGA域名检测算法,深度学习算法能够自动地实现域名特征提取,避免了人为选择特征对检测结果的扰动。然而目前使用的算法检测结果的准确度均不高。
发明内容
本发明提供了基于深度学习算法的DGA域名检测方法及系统,用于解决现有DGA域名检测方法准确率低的问题。
为实现上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种基于深度学习算法的DGA域名检测方法,所述方法包括以下步骤:
对获取的DGA域名数据进行预处理,将DGA域名数据形成字符嵌入向量序列;
获取所述字符嵌入向量序列中的局部特征向量和全局特征向量,并将所述局部特征向量和全局特征向量进行拼接,得到DGA域名表示向量;
基于多层感知机层的神经网络,对所述DGA域名表示向量进行多层传递,得到DGA域名所属类别的概率值。
进一步地,所述对获取的DGA域名数据进行预处理的过程为:
将所述DGA域名数据进行来源标注,得到域名字符串数据,并形成域名数据集;
将所述域名字符串数据集中的各域名进行拆分,形成字符序列,并对所述字符序列填充为固定长度;
将固定长度的字符序列进行独热编码,形成字符嵌入向量序列。
进一步地,所述局部特征向量的获取过程为:
对所述字符嵌入向量序列进行卷积操作,不断滑动卷积核,得到不同的特征映射向量,将所述不同的特征映射向量输入到最大池化层中,提取最大值,作为局部特征;
改变卷积核的参数,重复上一步的操作,得到多个局部特征;
将得到的所述多个局部特征进行组合,得到局部特征向量。
进一步地,所述卷积核的参数具体为:
其中卷积核尺寸分别设置为2,3,4和5。
进一步地,所述全局特征向量的获取过程为:
将所述字符嵌入向量序列映射到不同的向量空间,所述向量空间包括查询向量、键向量和值向量;
利用缩放点积的形式,对所述向量空间计算注意力机制,得到自注意力机制输出向量序列,
将所有DGA域名得到的对应自注意力机制输出向量进行拼接,得到全局特征向量。
进一步地,所述多层感知机层的神经网络包括输入层、第一隐层、第二隐层、第三隐层和输出层。
本发明第二方面提供了一种基于深度学习算法的DGA域名检测系统,所述系统包括:
数据预处理模块,用于对获取的DGA域名数据进行预处理,将DGA域名数据形成字符嵌入向量序列;
特征捕获模块,用于获取所述字符嵌入向量序列中的局部特征向量和全局特征向量,并将所述局部特征向量和全局特征向量进行拼接,得到DGA域名表示向量;
检测模块,基于多层感知机层的神经网络,对所述DGA域名表示向量进行多层传递,得到DGA域名所属类别的概率值。
进一步地,所述数据预处理模块包括:
第一预处理单元,用于将所述DGA域名数据进行来源标注,得到域名字符串数据,并形成域名数据集;
第二预处理单元,用于将所述域名字符串数据集中的各域名进行拆分,形成字符序列,并对所述字符序列填充为固定长度;
第三预处理单元,用于将固定长度的字符序列进行独热编码,形成字符嵌入向量序列。
进一步地,所述特征捕获模块包括:
局部特征捕获单元,对所述字符嵌入向量序列进行卷积操作,不断滑动卷积核,得到不同的特征映射向量,将所述不同的特征映射向量输入到最大池化层中,提取最大值,作为局部特征;改变卷积核的参数,得到多个局部特征;将得到的所述多个局部特征进行组合,得到局部特征向量;
全局特征捕获单元,将所述字符嵌入向量序列映射到不同的向量空间,利用缩放点积的形式,对所述向量空间计算注意力机制,得到自注意力机制输出向量序列,将所有DGA域名得到的对应自注意力机制输出向量进行拼接,得到全局特征向量。
本发明第三方面提供了一种计算机存储介质,所述计算机存储介质中存储有计算机指令,所述计算机指令在所述的DGA域名检测系统上运行时,使所述系统执行所述的DGA域名检测方法的步骤。
本发明第二方面的所述DGA域名检测系统能够实现第一方面及第一方面的各实现方式中的方法,并取得相同的效果。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
1、本发明以域名字符串数据为基础,将所述域名字符串拆分成字符序列,进而利用字符嵌入将字符序列转换成字符向量序列,引入一维卷积神经网络和自注意力机制,分别用来获取域名字符串中的局部特征向量和全局特征向量,并形成域名表示向量,对域名表示向量进行多层传递,得到DGA域名所属类别的概率值,相比于现有方法,具有更加优异的准确率和召回率。
2、本发明考虑到域名表示向量可能包含杂质特征,引入一个多层感知机制,实现域名表示向量的进一步特征提取,提高DGA域名检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所述方法的流程示意图;
图2是本发明所述方法其一实现方式的流程示意图;
图3是本发明所述系统的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1、2所示,本发明提供了一种基于深度学习算法的DGA域名检测方法,包括以下步骤:
S1,对获取的DGA域名数据进行预处理,将DGA域名数据形成字符嵌入向量序列;
S2,获取所述字符嵌入向量序列中的局部特征向量和全局特征向量,并将所述局部特征向量和全局特征向量进行拼接,得到DGA域名表示向量;
S3,基于多层感知机层的神经网络,对所述DGA域名表示向量进行多层传递,得到DGA域名所属类别的概率值。
步骤S1中,获取的域名数据包含DGA虚假域名数据和Alexa正常域名数据。所述对获取的DGA域名数据进行预处理的过程为:
S11,将所述DGA域名数据进行来源标注,得到域名字符串数据,并形成域名数据集;来源标注具体是以域名字符串为输入,对其进行来源标注操作,输出标注后的域名字符串数据。
对于某在线平台获取的域名数据为应用实例,分别获取DGA虚假域名数据和Alexa正常域名数据,如表1所示,为域名数据集。
表1
S12,将所述域名字符串数据集中的各域名进行拆分,形成字符序列,并对所述字符序列填充为固定长度;将域名数据集中的各个域名拆分成由单个英文单词、数字组成的字符序列,然后通过填充操作,对具有不同长度的字符序列的末尾位置填补成0。令X=[x0,x1,x2,…,xN]表示定长的域名字符序列,其中xi表示字符序列中的第i个字符,N表示序列固定长度值。
所述局部特征向量的获取过程为:
对所述字符嵌入向量序列进行如下卷积操作:
ci=f(W[d,h]·Xi:i+h-1+b) (1)
其中,W[d,h]是宽度为d、高度为h的卷积核;b为偏置向量;Xi:i+h-1表示第i个滑动窗口内的字符向量序列;f为Sigmoid激活函数。
不断滑动卷积核,得到对应卷积核下的特征映射向量c=[c0,c0,c0,…,cn-h+1]。将该特征映射向量c输入到最大池化层,提取特征映射向量中的最大值,以保留显著特征。具体表示为;
cmax=MaxPooling(c) (2)
其中cmax表示使用卷积核W[d,h]提取到的字符序列中的最显著特征。
为了能够提取域名字符序列中不同的局部特征,本实施例中设计了如表2所示的一维卷积神经网络结构,改变卷积核的参数尺寸h,重复上一步的操作,得到多个局部特征;
通过将不同卷积核最大池化层输出特征拼接在一起,得到该卷积核尺寸下的输出向量oh。
表2
将不同卷积核尺寸下的输出向量拼接在一起,得到最终的一维卷积神经网络输出向量oconv:
该输出向量oconv即为一维卷积神经网络获取的域名局部特征向量。
将所述字符嵌入向量序列映射到不同的向量空间,所述向量空间包括查询向量、键向量和值向量,具体为:
Wq,Wk,Wv分别为查询-键-值的线性映射参数矩阵;Q,K,V分别为由查询向量、键向量和值向量组成的矩阵。
利用缩放点积的形式,对所述向量空间计算注意力机制,得到自注意力机制输出向量序列。缩放点积的形式计算注意力得分,具体为:
其中,softmax是一种归一化函数,用于将向量中的各个元素进行归一化操作;D表示向量嵌入维度;H=[h0,h1,h2,…,hN]为自注意力机制输出向量序列,N表示序列长度。
将所有DGA域名得到的对应自注意力机制输出向量进行拼接,得到全局特征向量。将以上输出序列中的所有向量进行拼接,得到最终的自注意力神经网络输出向量osa:
该输出向量osa即为自注意力机制获取的域名全局特征向量。
基于得到的局部特征oconv向量和全局特征向量osa,得到最终的域名表示向量,如下:
步骤S3中,基于域名表示向量odomain,设计多层感知机层,对域名表示向量进行多层传递,得到最终的输入域名所属类别的概率值。该多层感知机由输入层、第一隐层、第二隐层、第三隐层、输出层组成,其中各层神经元的激活函数个数分别为512、256、64、21。其中21为数据集中的所有域名类别个数。
将域名数据集按照8∶1∶1的比例划分为训练集、验证集和测试集,其中训练集用来进行模型训练,验证集用来进行超参数确定,测试集用来验证模型性能。表3展示了我们的方法与现有方法的实验结果对比。
表3
选择一维卷积神经网络和注意力机制分别作为我们实验的对比模型,评价指标为精确率(precision)、召回率(recall)。表格第一栏为域名所属不同的类别。基于表3中的对比结果可知,本实施例所提出的基于深度学习算法的DGA域名检测方法在大多数类别上取得了比对比模型更优异的准确率和召回率。
如图3所示,本发明还提供了一种基于深度学习算法的DGA域名检测系统,所述系统包括数据预处理模块1、特征捕获模块2和检测模块3。
数据预处理模块1用于对获取的DGA域名数据进行预处理,将DGA域名数据形成字符嵌入向量序列;特征捕获模块2用于获取所述字符嵌入向量序列中的局部特征向量和全局特征向量,并将所述局部特征向量和全局特征向量进行拼接,得到DGA域名表示向量;检测模块3基于多层感知机层的神经网络,对所述DGA域名表示向量进行多层传递,得到DGA域名所属类别的概率值。
所述数据预处理模块1包括第一预处理单元、第二预处理单元和第三预处理单元。
第一预处理单元用于将所述DGA域名数据进行来源标注,得到域名字符串数据,并形成域名数据集;第二预处理单元用于将所述域名字符串数据集中的各域名进行拆分,形成字符序列,并对所述字符序列填充为固定长度;第三预处理单元用于将固定长度的字符序列进行独热编码,形成字符嵌入向量序列。
所述特征捕获模块包括局部特征捕获单元和全局特征捕获单元。
局部特征捕获单元对所述字符嵌入向量序列进行卷积操作,不断滑动卷积核,得到不同的特征映射向量,将所述不同的特征映射向量输入到最大池化层中,提取最大值,作为局部特征;改变卷积核的参数,得到多个局部特征;将得到的所述多个局部特征进行组合,得到局部特征向量;
全局特征捕获单元将所述字符嵌入向量序列映射到不同的向量空间,利用缩放点积的形式,对所述向量空间计算注意力机制,得到自注意力机制输出向量序列,将所有DGA域名得到的对应自注意力机制输出向量进行拼接,得到全局特征向量。
本发明还提供了一种计算机存储介质,所述计算机存储介质中存储有计算机指令,所述计算机指令在所述的DGA域名检测系统上运行时,使所述系统执行所述的DGA域名检测方法的步骤。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种基于深度学习算法的DGA域名检测方法,其特征是,所述方法包括以下步骤:
对获取的DGA域名数据进行预处理,将DGA域名数据形成字符嵌入向量序列;
获取所述字符嵌入向量序列中的局部特征向量和全局特征向量,并将所述局部特征向量和全局特征向量进行拼接,得到DGA域名表示向量;
基于多层感知机层的神经网络,对所述DGA域名表示向量进行多层传递,得到DGA域名所属类别的概率值。
2.根据权利要求1所述基于深度学习算法的DGA域名检测方法,其特征是,所述对获取的DGA域名数据进行预处理的过程为:
将所述DGA域名数据进行来源标注,得到域名字符串数据,并形成域名数据集;
将所述域名字符串数据集中的各域名进行拆分,形成字符序列,并对所述字符序列填充为固定长度;
将固定长度的字符序列进行独热编码,形成字符嵌入向量序列。
3.根据权利要求1所述基于深度学习算法的DGA域名检测方法,其特征是,所述局部特征向量的获取过程为:
对所述字符嵌入向量序列进行卷积操作,不断滑动卷积核,得到不同的特征映射向量,将所述不同的特征映射向量输入到最大池化层中,提取最大值,作为局部特征;
改变卷积核的参数,重复上一步的操作,得到多个局部特征;
将得到的所述多个局部特征进行组合,得到局部特征向量。
5.根据权利要求1所述基于深度学习算法的DGA域名检测方法,其特征是,所述全局特征向量的获取过程为:
将所述字符嵌入向量序列映射到不同的向量空间,所述向量空间包括查询向量、键向量和值向量;
利用缩放点积的形式,对所述向量空间计算注意力机制,得到自注意力机制输出向量序列,
将所有DGA域名得到的对应自注意力机制输出向量进行拼接,得到全局特征向量。
6.根据权利要求1所述基于深度学习算法的DGA域名检测方法,其特征是,所述多层感知机层的神经网络包括输入层、第一隐层、第二隐层、第三隐层和输出层。
7.一种基于深度学习算法的DGA域名检测系统,其特征是,所述系统包括:
数据预处理模块,用于对获取的DGA域名数据进行预处理,将DGA域名数据形成字符嵌入向量序列;
特征捕获模块,用于获取所述字符嵌入向量序列中的局部特征向量和全局特征向量,并将所述局部特征向量和全局特征向量进行拼接,得到DGA域名表示向量;
检测模块,基于多层感知机层的神经网络,对所述DGA域名表示向量进行多层传递,得到DGA域名所属类别的概率值。
8.根据权利要求7所述基于深度学习算法的DGA域名检测系统,其特征是,所述数据预处理模块包括:
第一预处理单元,用于将所述DGA域名数据进行来源标注,得到域名字符串数据,并形成域名数据集;
第二预处理单元,用于将所述域名字符串数据集中的各域名进行拆分,形成字符序列,并对所述字符序列填充为固定长度;
第三预处理单元,用于将固定长度的字符序列进行独热编码,形成字符嵌入向量序列。
9.根据权利要求7所述基于深度学习算法的DGA域名检测系统,其特征是,所述特征捕获模块包括:
局部特征捕获单元,对所述字符嵌入向量序列进行卷积操作,不断滑动卷积核,得到不同的特征映射向量,将所述不同的特征映射向量输入到最大池化层中,提取最大值,作为局部特征;改变卷积核的参数,得到多个局部特征;将得到的所述多个局部特征进行组合,得到局部特征向量;
全局特征捕获单元,将所述字符嵌入向量序列映射到不同的向量空间,利用缩放点积的形式,对所述向量空间计算注意力机制,得到自注意力机制输出向量序列,将所有DGA域名得到的对应自注意力机制输出向量进行拼接,得到全局特征向量。
10.一种计算机存储介质,所述计算机存储介质中存储有计算机指令,其特征是,所述计算机指令在权利要求7-9任一项所述的DGA域名检测系统上运行时,使所述系统执行如权利要求1-5任一项所述的DGA域名检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110792490.3A CN113726730A (zh) | 2021-07-14 | 2021-07-14 | 基于深度学习算法的dga域名检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110792490.3A CN113726730A (zh) | 2021-07-14 | 2021-07-14 | 基于深度学习算法的dga域名检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113726730A true CN113726730A (zh) | 2021-11-30 |
Family
ID=78673230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110792490.3A Pending CN113726730A (zh) | 2021-07-14 | 2021-07-14 | 基于深度学习算法的dga域名检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113726730A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114140613A (zh) * | 2021-12-08 | 2022-03-04 | 北京有竹居网络技术有限公司 | 图像检测方法、装置、电子设备及存储介质 |
CN115099325A (zh) * | 2022-06-20 | 2022-09-23 | 四川大学 | 一种基于域变换与深度学习的dga域名分类方法 |
CN115883160A (zh) * | 2022-11-25 | 2023-03-31 | 国网山东省电力公司信息通信公司 | 一种基于深度学习的恶意程序攻击识别方法、系统及终端 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180288086A1 (en) * | 2017-04-03 | 2018-10-04 | Royal Bank Of Canada | Systems and methods for cyberbot network detection |
US20180285740A1 (en) * | 2017-04-03 | 2018-10-04 | Royal Bank Of Canada | Systems and methods for malicious code detection |
CN108667816A (zh) * | 2018-04-19 | 2018-10-16 | 重庆邮电大学 | 一种网络异常的检测定位方法及系统 |
CN109902293A (zh) * | 2019-01-30 | 2019-06-18 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
CN112468501A (zh) * | 2020-11-27 | 2021-03-09 | 安徽大学 | 一种面向url的钓鱼网站检测方法 |
CN112883738A (zh) * | 2021-03-23 | 2021-06-01 | 西南交通大学 | 基于神经网络和自注意力机制的医学实体关系抽取方法 |
CN112948578A (zh) * | 2021-01-29 | 2021-06-11 | 浙江大学 | 一种dga域名开集分类方法、装置、电子设备及介质 |
CN112966713A (zh) * | 2021-02-02 | 2021-06-15 | 杭州安恒信息技术股份有限公司 | 基于深度学习的dga域名检测方法、装置及计算机设备 |
-
2021
- 2021-07-14 CN CN202110792490.3A patent/CN113726730A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180288086A1 (en) * | 2017-04-03 | 2018-10-04 | Royal Bank Of Canada | Systems and methods for cyberbot network detection |
US20180285740A1 (en) * | 2017-04-03 | 2018-10-04 | Royal Bank Of Canada | Systems and methods for malicious code detection |
CN108667816A (zh) * | 2018-04-19 | 2018-10-16 | 重庆邮电大学 | 一种网络异常的检测定位方法及系统 |
CN109902293A (zh) * | 2019-01-30 | 2019-06-18 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
CN112468501A (zh) * | 2020-11-27 | 2021-03-09 | 安徽大学 | 一种面向url的钓鱼网站检测方法 |
CN112948578A (zh) * | 2021-01-29 | 2021-06-11 | 浙江大学 | 一种dga域名开集分类方法、装置、电子设备及介质 |
CN112966713A (zh) * | 2021-02-02 | 2021-06-15 | 杭州安恒信息技术股份有限公司 | 基于深度学习的dga域名检测方法、装置及计算机设备 |
CN112883738A (zh) * | 2021-03-23 | 2021-06-01 | 西南交通大学 | 基于神经网络和自注意力机制的医学实体关系抽取方法 |
Non-Patent Citations (2)
Title |
---|
杜鹏: "基于词向量的DGA域名检测深度学习模型与算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
杨延洲: "基于深度学习的恶意域名检测方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114140613A (zh) * | 2021-12-08 | 2022-03-04 | 北京有竹居网络技术有限公司 | 图像检测方法、装置、电子设备及存储介质 |
CN115099325A (zh) * | 2022-06-20 | 2022-09-23 | 四川大学 | 一种基于域变换与深度学习的dga域名分类方法 |
CN115883160A (zh) * | 2022-11-25 | 2023-03-31 | 国网山东省电力公司信息通信公司 | 一种基于深度学习的恶意程序攻击识别方法、系统及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | PDRCNN: Precise phishing detection with recurrent convolutional neural networks | |
Opara et al. | HTMLPhish: Enabling phishing web page detection by applying deep learning techniques on HTML analysis | |
Tajaddodianfar et al. | Texception: a character/word-level deep learning model for phishing URL detection | |
Joshi et al. | Language geometry using random indexing | |
CN109005145B (zh) | 一种基于自动特征抽取的恶意url检测系统及其方法 | |
US11762990B2 (en) | Unstructured text classification | |
Yuan et al. | Malicious URL detection based on a parallel neural joint model | |
CN113726730A (zh) | 基于深度学习算法的dga域名检测方法及系统 | |
CN113596007B (zh) | 一种基于深度学习的漏洞攻击检测方法和设备 | |
CN111460820A (zh) | 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置 | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN112464233B (zh) | 一种云平台上基于rnn的恶意软件检测方法 | |
Ren et al. | A bi-directional LSTM model with attention for malicious URL detection | |
Das et al. | Deep approaches on malicious URL classification | |
Remmide et al. | Detection of phishing URLs using temporal convolutional network | |
Suryotrisongko et al. | Topic modeling for cyber threat intelligence (cti) | |
Liu et al. | Malicious URL Detection via Pretrained Language Model Guided Multi-Level Feature Attention Network | |
US11886597B2 (en) | Detection of common patterns in user generated content with applications in fraud detection | |
CN115883111A (zh) | 一种钓鱼网站识别方法、装置、电子设备及存储介质 | |
CN111538893B (zh) | 一种从非结构化数据中提取网络安全新词的方法 | |
CN110704611B (zh) | 基于特征解交织的非法文本识别方法及装置 | |
Liu et al. | PMANet: Malicious URL detection via post-trained language model guided multi-level feature attention network | |
CN117370980A (zh) | 恶意代码检测模型生成及检测方法、装置、设备及介质 | |
Joshi et al. | Language recognition using random indexing | |
EP4293956A1 (en) | Method for predicting malicious domains |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211130 |