CN114095176B - 一种恶意域名检测方法及装置 - Google Patents
一种恶意域名检测方法及装置 Download PDFInfo
- Publication number
- CN114095176B CN114095176B CN202111272225.9A CN202111272225A CN114095176B CN 114095176 B CN114095176 B CN 114095176B CN 202111272225 A CN202111272225 A CN 202111272225A CN 114095176 B CN114095176 B CN 114095176B
- Authority
- CN
- China
- Prior art keywords
- domain name
- bipartite graph
- host
- domain
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3236—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3247—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving digital signatures
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种恶意域名检测方法及装置,包括:获取待检测的域名,并基于所述待检测各域名基于预先构建的二分图集生成该域名的二分图;基于该域名的二分图生成该域名的编码向量;将所述编码向量输入训练好的检测模型;基于所述检测模型的输出结果确定该域名是否为恶意域名。本公开的方法将域名的连接关系转换为该域名的二分图,并基于相应的二分图来生成待检测域名节点的编码向量,并使用训练好的检测模型对域名进行分类,有效提高恶意域名的识别效果。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种恶意域名检测方法及装置。
背景技术
近年来,网络攻击的方式向着多元化、规模化的趋势发展,尤其是恶意域名。恶意域名作为攻击者的攻击承载体其数量在不断增加,例如钓鱼网站使用的钓鱼网址、恶意软件通信使用的C&C服务器等等。为了识别恶意域名,传统的防御措施是使用的静态的黑名单策略,但是在僵尸网络等使用DGA技术时,黑名单的更新速度远远比不上DGA域名的生成速度,因此黑名单策略具有一定的滞后性,无法有效地识别恶意域名。
发明内容
本发明实施例提供一种恶意域名检测方法及装置,能够实现将域名的连接关系转换为图来生成待检测域名节点的编码向量,并使用机器学习模型对域名进行分类,有效提高恶意域名的识别效果。
本发明实施例提供一种恶意域名检测方法,包括:
获取待检测的域名,并基于所述待检测各域名基于预先构建的二分图集生成该域名的二分图;
基于该域名的二分图生成该域名的编码向量;
将所述编码向量输入训练好的检测模型;
基于所述检测模型的输出结果确定该域名是否为恶意域名。
在一些实施例中,首次构建所述二分图集包括如下步骤:
获取多条DNS流量数据,并提取各条DNS流量数据的域名以及相应的DNS源IP,以形成第一源文件;
基于所述第一源文件构建描述主机与域名访问关系的主机-域名二分图,其中在所述主机-域名二分图中的主机与域名之间的边表示该主机访问了该域名;
利用局部敏感哈希LSH算法将所述主机-域名二分图转换为对应的domain-bucket二分图,以获得降维的二分图集,其中所述二分图集中的数据被配置为:将存在共同访问关系的两个域名共同访问的主机集合的Jaccard系数转换为该两个域名共同所在bucket集合的Jaccard系数,且两个域名的Jaccard相似度越高,则该两个域名同时落到更多的bucket的概率越高。
在一些实施例中,所述LSH算法是基于N个MinHash函数和b个独立的哈希函数实现的;
利用局部敏感哈希LSH算法将所述主机-域名二分图转换为对应的domain-bucket二分图,以获得降维的二分图集包括:
将所述主机-域名二分图转换相应的第一邻接表,在所述第一邻接表中各主机名具有相应的标识;
基于第一邻接表利用所述N个MinHash函数生成该主机-域名二分图的N×M的签名向量矩阵,其中M为域名数量;
将所述签名向量矩阵划分为b个band,每个band中每个域名包含N/b个签名值;
将各band使用对应的哈希函数将该band映射到对应的bucket中;
基于映射后的各bucket获得降维的二分图集。
在一些实施例中,基于所述待检测各域名基于预先训练的二分图模型生成该域名的二分图包括:
基于包含所述待检测域名的第二源文件以及所述主机-域名二分图,将待检测域名加入到所述主机-域名二分图中;
基于加入节点后的主机-域名二分图利用LSH算法,生成该所述待检测域名的签名向量,并将该待检测域名映射到对应的bucket中,生成所述待检测域名的二分图。
在一些实施例中,所述检测模型具有Embedding层,训练所述检测模型包括:
将所述二分图集转换为第二邻接表,将所述第二邻接表的各列对应于各域名的编码向量;
为各域名的编码向量添加标签,以获得训练数据集;
基于所述训练数据集训练所述检测模型。
在一些实施例中,基于该域名的二分图生成该域名的编码向量包括:
将该域名的二分图转换为相应的第二邻接表;
基于该域名的第二邻接表成该域名的编码向量。
本发明实施例还提供一种恶意域名检测装置,包括处理器,被配置为:
获取待检测的域名,并基于所述待检测各域名基于预先构建的二分图集生成该域名的二分图;
基于该域名的二分图生成该域名的编码向量;
将所述编码向量输入训练好的检测模型;
基于所述检测模型的输出结果确定该域名是否为恶意域名。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本公开各实施例所述的恶意域名检测方法的步骤。
本发明实施例将域名的连接关系转换为该域名的二分图,并基于相应的二分图来生成待检测域名节点的编码向量,并使用训练好的检测模型对域名进行分类,有效提高恶意域名的识别效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本公开的恶意域名检测方法的基本流程图;
图2为本公开的恶意域名检测方法的构建二分图集流程示意图;
图3为本公开的恶意域名检测方法的LSH算法示例;
图4为本公开的恶意域名检测方法的二分图转换编码向量示例。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供一种恶意域名检测方法,如图1所示,包括如下步骤:
在步骤S101中,获取待检测的域名,并基于所述待检测各域名基于预先构建的二分图集生成该域名的二分图。通过将待检测域名的连接关系转换为该域名的二分图,从而处理会即可获得与该域名存在连接关系的编码向量。
在步骤S102中,基于该域名的二分图生成该域名的编码向量。
在步骤S103中,将所述编码向量输入训练好的检测模型。
在步骤S104中,基于所述检测模型的输出结果确定该域名是否为恶意域名。
本发明实施例将待检测域名的连接关系转换为该域名的二分图,并基于相应的二分图来生成待检测域名节点的编码向量,并使用训练好的检测模型对域名进行分类,有效提高恶意域名的识别效果。
在一些实施例中,首次构建所述二分图集包括如下步骤:
在步骤S201中、获取多条DNS流量数据,并提取各条DNS流量数据的域名以及相应的DNS源IP,以形成第一源文件。具体的说该步骤可以通过流量采集设备采集DNS流量,提取并解析每一条DNS流量的DNS Queries Name字段中的域名以及发送DNS请求的源IP,每一个信息对(源IP-域名或者主机-域名)作为一条记录保存到特定格式的第一源文件。
其次还可以收集DNS日志并解析DNS请求的域名和发送DNS请求的源IP,使用黑名单过滤所有的域名以收集恶意域名以及对应的源IP,每一个信息对作为一条记录保存到特定格式的第一源文件。通过黑名单过滤能够区分正常DNS流量和恶意的DNS流量,便于后续添加训练标签,用于执行检测模型的训练。
在步骤S202中、基于所述第一源文件构建描述主机与域名访问关系的主机-域名二分图,其中在所述主机-域名二分图中的主机与域名之间的边表示该主机访问了该域名。具体的可以通过图生成模块实现,该模块可以加载DNS流量采集设备形成的第一源文件来构建主机与域名的访问关系二分图,即主机与域名之间的连接图,可以将主机-域名二分图保存到特定格式的文件。在所构建的主机-域名二分图中,若一个主机访问了某个域名,则在该主机与域名之间添加一条边。如果一个主机访问了恶意域名,那么这个主机访问的其它域名是恶意域名的概率会变得更高,并且感染相同家族的主机会以更高的概率访问相同家族的C&C域名。
在步骤S203中、利用局部敏感哈希LSH算法将所述主机-域名二分图转换为对应的domain-bucket二分图,以获得降维的二分图集。其中所述二分图集中的数据被配置为:将存在共同访问关系的两个域名共同访问的主机集合的Jaccard系数转换为该两个域名共同所在bucket集合的Jaccard系数,且两个域名的Jaccard相似度越高,则该两个域名同时落到更多的bucket的概率越高。也即本示例中通过计算两个域名的共同访问主机集合的Jaccard系数就可以有效地衡量域名关系的强度,从而能够有效实现对主机-域名二分图的降维。
在一些实施例中,所述LSH算法是基于N个MinHash函数和b个独立的哈希函数实现的;
利用局部敏感哈希LSH算法将所述主机-域名二分图转换为对应的domain-bucket二分图,以获得降维的二分图集包括:
将所述主机-域名二分图转换相应的第一邻接表,在所述第一邻接表中各主机名具有相应的标识。如图3所示,第一邻接表中各主机具有相应的标识A、B、C、D。基于第一邻接表利用所述N个MinHash函数生成该主机-域名二分图的N×M的签名向量矩阵,其中M为域名数量。将所述签名向量矩阵划分为b个band,每个band中每个域名包含N/b个签名值。具体参见图3,可以将基于第一邻接表利用所述N个MinHash函数生成该主机A、B、C、D与域名aa.com、bbcom、cc.com、dd.com、ee.com的主机-域名二分图的N×M的签名向量矩阵,并将签名矩阵水平划分为b个band,每个band中每个域名包含r个签名值然后将各band使用对应的哈希函数将该band映射到对应的bucket中。将所有的bucket进行编号,并将domain-bucket保存到指定格式的文件。由此可以基于映射后的各bucket获得降维的二分图集(domain-bucket二分图)。通过这样的方式实现了将主机-域名二分图变换为域名(domain)与bucket的连接关系,由于bucket的数量远小于主机的数量,因此整个主机-域名二分图即连接关系转换成了降维的domain-bucket二分图。
神经网络是一种对非线性可微分函数进行权值训练的多层网络。它的最大特点是仅仅借助样本数据无需建立系统的数学模型,就可以实现输入空间到输出空间的高度非线性映射。假设模型输入的特征向量为x∈Rn,y∈{0,1},g为激活函数,神经网络模型可以简单表示为:
hθ(x)=g(θTx)
模型输出hθ(x)=p(y=1|x;θ),也即模型输出是待预测样本标签为1的概率。神经网络通过反向传播实现参数的更新,通过不断迭代最小化模型的损失函数来近似求解参数θ。
在一些实施例中,所述检测模型具有Embedding层,训练所述检测模型包括:
将所述二分图集转换为第二邻接表,将所述第二邻接表的各列对应于各域名的编码向量;
为各域名的编码向量添加标签,以获得训练数据集;
基于所述训练数据集训练所述检测模型。
本示例中,检测模型可以包括一个Embedding层3个全连接层和1个dropout层,Embedding层的输出即为域名的嵌入向量,使用该项量可进行恶意家族分类或者恶意域名识别。在训练过程中可以加载前述的domain-bucket二分图,将二分图转换为第二邻接表,如图4所示在该第二邻接表中每一列对应于每个域名的编码向量;其次对每个域名进行标注作为训练数据集,例如正常域名的向量标签置为0,恶意域名的向量标签置为1,具体的标注可以依据前述基于黑名单过滤的结果实现。最后使用训练数据训练带有Embedding层神经网络模型,调优后将该检测模型保存到设备磁盘。
在一些实施例中,基于所述待检测各域名基于预先训练的二分图模型生成该域名的二分图包括:
基于包含所述待检测域名的第二源文件以及所述主机-域名二分图,具体的生成第二源文件的过程也可以通过流量采集设备完成,在获取到第二源文件之后,基于该第二源文件将待检测域名加入到前述主机-域名二分图中,若节点存在则仅添相应的边即可。
基于加入节点后的主机-域名二分图利用LSH算法,生成该所述待检测域名的签名向量,并将该待检测域名映射到对应的bucket中,生成所述待检测域名的二分图。可以利用前述的N个MinHash函数,对该域名执行给定的N个MinHash算法,生成该域名的签名向量,其次将该签名向量划分为b个band,并使用每个band对应的哈希函数将各band映射到相应的bucket中,生成该待检测域名的domain-bucket连接图(待检测域名的二分图)。
在一些实施例中,基于该域名的二分图生成该域名的编码向量包括:
将该域名的二分图转换为相应的第二邻接表,具体的第二邻接表的格式可以参考图4或者前述转换方式。从而可以基于该域名的第二邻接表成该域名的编码向量。将该域名的编码向量作为前述训练完成的检测模型的输入,则模型输出该域名为恶意域名的概率p,对于人工设定的阈值k(默认k=0.5),若p>k,则判定该域名为恶意域名,否则为正常域名。
本公开的方法基于图实现恶意域名检测,通过构建域名与主机连接关系的二分图,并将域名与主机的二分图通过局部哈希算法(LSH)转换为domain-bucket二分图来提取域名之间的局部相关性特征,使用该特征训练嵌入模型来生成每个域名的向量表达,该方案将域名分类转换为图节点分类,可以有效地提高模型对恶意域名的检测效果。
本发明实施例还提供一种恶意域名检测装置,包括处理器,被配置为:
获取待检测的域名,并基于所述待检测各域名基于预先构建的二分图集生成该域名的二分图;
基于该域名的二分图生成该域名的编码向量;
将所述编码向量输入训练好的检测模型;
基于所述检测模型的输出结果确定该域名是否为恶意域名。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本公开各实施例所述的恶意域名检测方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (5)
1.一种恶意域名检测方法,其特征在于,包括:
获取待检测的域名,并基于所述待检测各域名基于预先构建的二分图集生成该域名的二分图;
基于该域名的二分图生成该域名的编码向量;
将所述编码向量输入训练好的检测模型;
基于所述检测模型的输出结果确定该域名是否为恶意域名;
首次构建所述二分图集包括如下步骤:
获取多条DNS流量数据,并提取各条DNS流量数据的域名以及相应的DNS源IP,以形成第一源文件;
基于所述第一源文件构建描述主机与域名访问关系的主机-域名二分图,其中在所述主机-域名二分图中的主机与域名之间的边表示该主机访问了该域名;
利用局部敏感哈希LSH算法将所述主机-域名二分图转换为对应的domain-bucket二分图,以获得降维的二分图集;
其中所述二分图集中的数据被配置为:将存在共同访问关系的两个域名共同访问的主机集合的Jaccard系数转换为该两个域名共同所在bucket集合的Jaccard系数,且两个域名的Jaccard相似度越高,则该两个域名同时落到更多的bucket的概率越高;
所述LSH算法是基于N个MinHash函数和b个独立的哈希函数实现的;
利用局部敏感哈希LSH算法将所述主机-域名二分图转换为对应的domain-bucket二分图,以获得降维的二分图集包括:
将所述主机-域名二分图转换相应的第一邻接表,在所述第一邻接表中各主机名具有相应的标识;
基于第一邻接表利用所述N个MinHash函数生成该主机-域名二分图的N×M的签名向量矩阵,其中M为域名数量;
将所述签名向量矩阵划分为b个band,每个band中每个域名包含N/b个签名值;
将各band使用对应的哈希函数将该band映射到对应的bucket中;
基于映射后的各bucket获得降维的二分图集;
基于所述待检测各域名基于预先训练的二分图模型生成该域名的二分图包括:
基于包含所述待检测域名的第二源文件以及所述主机-域名二分图,将待检测域名加入到所述主机-域名二分图中;
基于加入节点后的主机-域名二分图利用LSH算法,生成该所述待检测域名的签名向量,并将该待检测域名映射到对应的bucket中,生成所述待检测域名的二分图。
2.如权利要求1所述的恶意域名检测方法,其特征在于,所述检测模型具有Embedding层,训练所述检测模型包括:
将所述二分图集转换为第二邻接表,将所述第二邻接表的各列对应于各域名的编码向量;
为各域名的编码向量添加标签,以获得训练数据集;
基于所述训练数据集训练所述检测模型。
3.如权利要求1所述的恶意域名检测方法,其特征在于,基于该域名的二分图生成该域名的编码向量包括:
将该域名的二分图转换为相应的第二邻接表;
基于该域名的第二邻接表成该域名的编码向量。
4.一种恶意域名检测装置,其特征在于,包括处理器,被配置为:
获取待检测的域名,并基于所述待检测各域名基于预先构建的二分图集生成该域名的二分图;
基于该域名的二分图生成该域名的编码向量;
将所述编码向量输入训练好的检测模型;
基于所述检测模型的输出结果确定该域名是否为恶意域名;
首次构建所述二分图集包括如下步骤:
获取多条DNS流量数据,并提取各条DNS流量数据的域名以及相应的DNS源IP,以形成第一源文件;
基于所述第一源文件构建描述主机与域名访问关系的主机-域名二分图,其中在所述主机-域名二分图中的主机与域名之间的边表示该主机访问了该域名;
利用局部敏感哈希LSH算法将所述主机-域名二分图转换为对应的domain-bucket二分图,以获得降维的二分图集;
其中所述二分图集中的数据被配置为:将存在共同访问关系的两个域名共同访问的主机集合的Jaccard系数转换为该两个域名共同所在bucket集合的Jaccard系数,且两个域名的Jaccard相似度越高,则该两个域名同时落到更多的bucket的概率越高;
所述LSH算法是基于N个MinHash函数和b个独立的哈希函数实现的;
利用局部敏感哈希LSH算法将所述主机-域名二分图转换为对应的domain-bucket二分图,以获得降维的二分图集包括:
将所述主机-域名二分图转换相应的第一邻接表,在所述第一邻接表中各主机名具有相应的标识;
基于第一邻接表利用所述N个MinHash函数生成该主机-域名二分图的N×M的签名向量矩阵,其中M为域名数量;
将所述签名向量矩阵划分为b个band,每个band中每个域名包含N/b个签名值;
将各band使用对应的哈希函数将该band映射到对应的bucket中;
基于映射后的各bucket获得降维的二分图集;
基于所述待检测各域名基于预先训练的二分图模型生成该域名的二分图包括:
基于包含所述待检测域名的第二源文件以及所述主机-域名二分图,将待检测域名加入到所述主机-域名二分图中;
基于加入节点后的主机-域名二分图利用LSH算法,生成该所述待检测域名的签名向量,并将该待检测域名映射到对应的bucket中,生成所述待检测域名的二分图。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的恶意域名检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111272225.9A CN114095176B (zh) | 2021-10-29 | 2021-10-29 | 一种恶意域名检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111272225.9A CN114095176B (zh) | 2021-10-29 | 2021-10-29 | 一种恶意域名检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114095176A CN114095176A (zh) | 2022-02-25 |
CN114095176B true CN114095176B (zh) | 2024-04-09 |
Family
ID=80298176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111272225.9A Active CN114095176B (zh) | 2021-10-29 | 2021-10-29 | 一种恶意域名检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114095176B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114928472B (zh) * | 2022-04-20 | 2023-07-18 | 哈尔滨工业大学(威海) | 一种基于全量流通主域名的不良站点灰名单过滤方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326367A (zh) * | 2016-08-11 | 2017-01-11 | 华南师范大学 | 基于wnbi和rsvd混合协同推荐算法 |
WO2019096099A1 (zh) * | 2017-11-15 | 2019-05-23 | 瀚思安信(北京)软件技术有限公司 | Dga域名实时检测方法和装置 |
CN110198292A (zh) * | 2018-03-30 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 域名识别方法和装置、存储介质及电子装置 |
CN110808987A (zh) * | 2019-11-07 | 2020-02-18 | 南京亚信智网科技有限公司 | 识别恶意域名的方法及计算设备 |
CN112019569A (zh) * | 2020-10-20 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 恶意域名检测方法、装置及存储介质 |
CN112835995A (zh) * | 2021-02-04 | 2021-05-25 | 中国互联网络信息中心 | 一种基于解析关系的域名图嵌入表示分析方法及装置 |
CN112910925A (zh) * | 2021-03-08 | 2021-06-04 | 鹏城实验室 | 域名检测方法、模型训练方法及装置、设备、存储介质 |
CN112966713A (zh) * | 2021-02-02 | 2021-06-15 | 杭州安恒信息技术股份有限公司 | 基于深度学习的dga域名检测方法、装置及计算机设备 |
CN113051440A (zh) * | 2021-04-12 | 2021-06-29 | 北京理工大学 | 一种基于超图结构的链路预测方法及系统 |
CN113283426A (zh) * | 2021-04-30 | 2021-08-20 | 南京大学 | 基于多目标神经网络搜索的嵌入式目标检测模型生成方法 |
CN113381962A (zh) * | 2020-02-25 | 2021-09-10 | 深信服科技股份有限公司 | 一种数据处理方法、装置和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10152557B2 (en) * | 2014-01-31 | 2018-12-11 | Google Llc | Efficient similarity ranking for bipartite graphs |
US11494617B2 (en) * | 2020-02-12 | 2022-11-08 | Huawei Technologies Co., Ltd. | Recommender system using bayesian graph convolution networks |
-
2021
- 2021-10-29 CN CN202111272225.9A patent/CN114095176B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326367A (zh) * | 2016-08-11 | 2017-01-11 | 华南师范大学 | 基于wnbi和rsvd混合协同推荐算法 |
WO2019096099A1 (zh) * | 2017-11-15 | 2019-05-23 | 瀚思安信(北京)软件技术有限公司 | Dga域名实时检测方法和装置 |
CN110198292A (zh) * | 2018-03-30 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 域名识别方法和装置、存储介质及电子装置 |
CN110808987A (zh) * | 2019-11-07 | 2020-02-18 | 南京亚信智网科技有限公司 | 识别恶意域名的方法及计算设备 |
CN113381962A (zh) * | 2020-02-25 | 2021-09-10 | 深信服科技股份有限公司 | 一种数据处理方法、装置和存储介质 |
CN112019569A (zh) * | 2020-10-20 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 恶意域名检测方法、装置及存储介质 |
CN112966713A (zh) * | 2021-02-02 | 2021-06-15 | 杭州安恒信息技术股份有限公司 | 基于深度学习的dga域名检测方法、装置及计算机设备 |
CN112835995A (zh) * | 2021-02-04 | 2021-05-25 | 中国互联网络信息中心 | 一种基于解析关系的域名图嵌入表示分析方法及装置 |
CN112910925A (zh) * | 2021-03-08 | 2021-06-04 | 鹏城实验室 | 域名检测方法、模型训练方法及装置、设备、存储介质 |
CN113051440A (zh) * | 2021-04-12 | 2021-06-29 | 北京理工大学 | 一种基于超图结构的链路预测方法及系统 |
CN113283426A (zh) * | 2021-04-30 | 2021-08-20 | 南京大学 | 基于多目标神经网络搜索的嵌入式目标检测模型生成方法 |
Non-Patent Citations (1)
Title |
---|
移动环境下基于内容的恶意网站分析模型研究与实现;张家桦;《信息科技》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114095176A (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10834128B1 (en) | System and method for identifying phishing cyber-attacks through deep machine learning via a convolutional neural network (CNN) engine | |
US20200349430A1 (en) | System and method for predicting domain reputation | |
Wang et al. | PDRCNN: Precise phishing detection with recurrent convolutional neural networks | |
CN108965245B (zh) | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 | |
CN109359439B (zh) | 软件检测方法、装置、设备及存储介质 | |
CN108092963B (zh) | 网页识别方法、装置、计算机设备及存储介质 | |
Aldwairi et al. | Malurls: A lightweight malicious website classification based on url features | |
AU2010254269A1 (en) | Systems and methods for efficient detection of fingerprinted data and information | |
WO2012102926A1 (en) | Method and apparatus of identifying similar images | |
CN109831459B (zh) | 安全访问的方法、装置、存储介质和终端设备 | |
Chen et al. | Ai@ ntiphish—machine learning mechanisms for cyber-phishing attack | |
CN114884703B (zh) | 基于威胁情报和消息传递模型的高级持续性威胁检测方法 | |
CN110958244A (zh) | 一种基于深度学习的仿冒域名检测方法及装置 | |
CN114095176B (zh) | 一种恶意域名检测方法及装置 | |
Moia et al. | Similarity digest search: A survey and comparative analysis of strategies to perform known file filtering using approximate matching | |
CN114372267B (zh) | 一种基于静态域的恶意网页识别检测方法、计算机及存储介质 | |
CN110855635B (zh) | Url识别方法、装置及数据处理设备 | |
Cheng et al. | Detecting malicious domain names with abnormal whois records using feature-based rules | |
CN113660210B (zh) | 恶意tls加密流量检测模型训练方法、检测方法及终端 | |
CN111988327B (zh) | 威胁行为检测和模型建立方法、装置、电子设备及存储介质 | |
JP7001178B2 (ja) | データ分類装置、データ分類方法、および、データ分類プログラム | |
CN111291078B (zh) | 一种域名匹配检测方法及装置 | |
CN110851828A (zh) | 基于多维度特征的恶意url监测方法、装置和电子设备 | |
Li et al. | Perceptual image hash function via associative memory‐based self‐correcting | |
CN113378156B (zh) | 一种基于api的恶意文件检测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |