CN112835995B

CN112835995B - 一种基于解析关系的域名图嵌入表示分析方法及装置

Info

Publication number: CN112835995B
Application number: CN202110156381.2A
Authority: CN
Inventors: 杨学; 李洪涛; 马永征; 刘冰
Original assignee: China Internet Network Information Center
Current assignee: China Internet Network Information Center
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2023-11-07
Anticipated expiration: 2041-02-04
Also published as: CN112835995A

Abstract

本发明涉及一种基于解析关系的域名图嵌入表示分析方法及装置。该方法包括：采集DNS解析数据，获取域名解析关系；利用域名解析关系将“域名‑IP‑AS”网络图数据映射到反映域名与域名之间关联强度的加权无向域名关系图；遍历域名关系图中的域名顶点，将命中黑名单的域名标签标记为恶意域名；利用基于域名解析关系的域名图嵌入算法和恶意域名的标签信息，训练并获得域名关系图中各节点的嵌入表示。本发明通过基于解析关系的域名图嵌入算法并引入恶意域名标签信息对随机游走方向的调节作用，为训练节点嵌入提供更有效的节点序列，从而得到更加准确的域名图嵌入表示结果，降低了下游算法的复杂度，提升了计算效率。

Description

一种基于解析关系的域名图嵌入表示分析方法及装置

技术领域

本发明属于信息技术、网络技术领域，具体涉及一种基于解析关系的域名图嵌入表示分析方法及装置。

背景技术

随着互联网的快速普及，以域名、IP和自治系统AS(Autonomous System)为核心的互联网基础资源数据呈现爆炸式增长，挖掘分析域名网络中各域名之间的潜在关联是检测恶意域名、发现僵尸网络、识别网络安全威胁等相关工作的重要研究途径，而图嵌入表示学习技术能够将网络关系进行有效的数值化表达，并将其作为图神经网络的输入特征，有利于提升下游任务(如节点分类、链路预测等)的准确性和高效性。

目前，针对域名领域的图分析方法并不多，一般的方法是通过传统的图分析方法(如路径分析，社区发现等)利用图模型进行域名网络拓扑图分析，最常用的方法是利用社区发现方法对域名顶点进行社区划分，把关联度高的域名顶点划到一起，从而实现威胁识别、安全检测等目标。这种方法在理论上分析是可行的，因为构建的域名与域名之间的关联在社区内关系紧密，在社区间关系稀疏。而现有社区发现方法只考虑顶点的邻居关联，忽略了潜在的近邻关系，同时，社区发现的复杂度较高，不适合大规模图分析。

发明内容

本发明针对上述问题，提供一种基于解析关系的域名图嵌入表示分析方法及装置。

本发明采用的技术方案如下：

一种基于解析关系的域名图嵌入表示分析方法，包括以下步骤：

采集DNS解析数据，并获取域名解析关系；

利用域名解析关系，将“域名-IP-AS”网络图数据映射到反映域名与域名之间关联强度的加权无向域名关系图；

遍历域名关系图中的域名顶点，将命中黑名单的域名标签标记为恶意域名；

利用基于域名解析关系的域名图嵌入算法和恶意域名的标签信息，训练并获得域名关系图中各节点的嵌入表示。

进一步地，所述利用域名解析关系，将“域名-IP-AS”网络图数据映射到反映域名与域名之间关联强度的加权无向域名关系图，包括：

根据域名解析关系中域名与IP的关联关系将存在共享IP的域名之间建立关联，根据域名解析关系中IP与AS的映射关系将存在相同AS的域名间建立关联；

将存在共享IP的域名之间建立的关联以及存在相同AS的域名间建立的关联，映射到反映域名与域名之间关联强度的加权无向域名关系图。

进一步地，所述域名关系图中任意两个有相同IP的域名d₁和d₂之间的边的权重w(d₁,d₂)为：

w(d₁,d₂)＝1-1/[1+|asn(ip(d₁)∩ip(d₂))|]，

其中，ip(d₁)、ip(d₂)分别表示域名d₁、d₂的IP集合，asn()表示域名d₁和d₂的的共享IP所属的AS的数量。

进一步地，所述利用基于域名解析关系的域名图嵌入算法和恶意域名的标签信息，训练并获得域名关系图中各节点的嵌入表示，包括：

在node2vec算法中二阶随机游走算法的基础上添加基于节点标签的系数γ，控制游走到恶意域名的概率，再通过p、q两个超参数控制游走到不同图节点的转移概率α，获得节点序列，然后训练神经网络以获取节点嵌入表示。

进一步地，将域名关系图中节点的嵌入表示结果作为下游任务的输入特征，并结合域名的其他维度特征，构建图神经网络进行建模以实现下游任务。

一种域名图嵌入表示分析装置，其包括：

数据采集与处理模块，用于采集DNS解析数据，并获取域名解析关系；

域名关系图构建模块，用于利用域名解析关系，将“域名-IP-AS”网络图数据映射到反映域名与域名之间关联强度的加权无向域名关系图；

恶意域名标记模块，用于遍历域名关系图中的域名顶点，将命中黑名单的域名标签标记为恶意域名；

图嵌入表示模块，用于利用基于域名解析关系的域名图嵌入算法和恶意域名的标签信息，训练并获得域名关系图中各节点的嵌入表示。

进一步地，所述装置还包括特征融合与建模模块，用于将域名关系图中节点的嵌入表示结果作为下游任务的输入特征，并结合域名的其他维度特征，构建图神经网络进行建模以实现下游任务。

由于采用了以上的方案，本发明可实现以下优点：

1)通过分析“域名-IP-AS”网络构建域名关系图，从全局上建立域名与域名之间的关联，再利用域名解析特征和恶意域名关联特征，通过随机游走的局部邻居节点采样方式获得节点序列，将全局特征与局部特征结合，训练得到更准确的图嵌入表示。

2)通过图嵌入的方式将域名关系图高维数据映射到低维向量空间，并通过计算顶点向量之间的相似度判断其关联关系强度，增加了对潜在近邻关系的挖掘，同时解决了现有方法计算复杂度高不适合大规模图分析的问题。

3)通过基于解析关系的域名图嵌入算法，利用域名解析关系和恶意关联层面的特征引入恶意域名标签信息对随机游走方向的调节作用，提升恶意关联对随机采样的影响力，为训练节点嵌入提供更有效的节点序列，从而得到更加准确的域名图嵌入表示结果，下游任务只需通过简单的模型即可获得较好的应用效果，降低了下游算法的复杂度，提升了计算效率。

附图说明

图1是实施例中基于解析关系的域名图嵌入表示分析装置的模块组成图。

图2是实施例中节点采样过程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明的主要内容包括：

1)通过一种基于域名解析关系的分析方法，利用域名解析关系将“域名-IP-AS”网络图映射到反映域名与域名之间关联强度的加权无向域名图，利用全局关联关系初始化域名间关系及其边权重，再通过图嵌入表示学习训练各节点嵌入，解决域名局部特征不健壮的问题，提升算法稳健性；

2)通过一种基于图嵌入表示学习的方法，在尽量保证域名图模型结构特性的情况下把高维图数据映射到低维向量空间，域名顶点之间的关联关系可以通过域名顶点向量的相似度计算，任一域名与其他域名的潜在关系都可以快速计算出来并更新到域名关系图中，增加了对潜在近邻关系的挖掘，同时解决了复杂度高不适合大规模图分析的问题。

3)通过一种基于域名解析关系和恶意关联关系的图嵌入表示方法，在采用node2vec算法二阶随机游走采样邻居节点序列的基础上，加入对邻居节点是否是恶意域名的考量，基于与恶意域名有密切关联的域名也很有可能是恶意的假设，引入一个新参数来辅助调节随机游走的过程，提升恶意关联对随机采样的影响力，为后面训练节点嵌入提供更有价值的节点序列，为下游任务(如节点分类、链路预测等)提升算法准确率奠定基础。

本发明的一个实施例提出一种基于解析关系的域名图嵌入表示分析装置，如图1所示，包括以下模块或子系统。

1)数据采集与处理模块，负责采集DNS解析数据，获取域名解析关系，即域名与IP、IP与AS之间的关联数据，并过滤掉异常数据，清洗源数据。

2)域名关系图构建模块，负责利用域名解析关系将“域名-IP-AS”网络图数据映射到反映域名与域名之间关联强度的加权无向域名关系图。可以通过计算顶点向量之间的相似度或根据域名共享IP数量等判断域名与域名之间的关联强度。

3)恶意域名标记模块，负责遍历域名关系图中的域名顶点，将命中黑名单的域名标签标记为恶意域名。

4)图嵌入表示模块，负责通过基于域名解析关系的域名图嵌入算法训练域名关系图嵌入，获得图中各节点的嵌入表示。

5)特征融合与建模模块，负责利用图嵌入表示结果作为下游任务的输入特征，结合域名的多种嵌入和其他属性特征，构建图神经网络进行建模实现域名检测等任务。

其中前四个模块是本发明的主要模块，第五个模块即特征融合与建模模块不是必需的模块。

本实施例的整体流程的具体步骤描述如下：

1)搭建服务器集群(服务器分为1台主服务器和若干子服务器)，包括数据采集与处理模块、域名关系图构建模块、恶意域名标记模块、图嵌入表示模块、特征融合与建模模块五部分；在集群中每台服务器都部署数据采集模块，其他的模块是基于spark集群环境统一调配；

2)数据采集与处理模块，主动采集DNS解析数据，获取域名解析关系数据(即域名与IP、IP与AS之间的关联数据)和ASN(Autonomous System Number，自治系统号码)数据，并过滤掉异常数据；

3)域名关系图构建模块，根据域名解析关系数据将存在共享IP的域名之间建立关联，同时根据IP与AS的映射关系将存在相同AS的域名间建立关联，由此将“域名-IP-AS”网络图映射到反映域名与域名之间关联强度的加权无向图。

4)恶意域名标记模块，遍历域名关系图中的域名顶点，将命中黑名单的域名标签标记为恶意域名。

5)图嵌入表示模块，针对域名解析特征，在node2vec算法中二阶随机游走算法的基础上添加基于节点标签的系数γ，控制游走到恶意域名的概率，再通过p、q两个超参数控制游走到不同图节点的转移概率α，获得节点序列，然后基于skip-gram等算法训练神经网络获取节点嵌入表示。

6)特征融合与建模模块，利用训练得到的图嵌入表示结果作为下游任务的输入特征，结合域名的多种嵌入和其他属性特征，构建图神经网络完成建模，实现域名检测等任务。

具体实现过程示例(仅以CN域名探测数据举例说明过程，并非用以限定本发明)：

(1)源CN域名探测数据，其数据项包括域名、IP和探测时间；源ASN数据，其数据项包括IP网段、ASN。将两份数据合并去重后，整理为域名表(域名、时间)、IP表(IP、对应ASN、时间)和域名解析表(域名、IP、时间)。将数据进行情况，删除异常数据，统计CN域名表共1591万个域名顶点，IP表共219万IP顶点，解析数据共1683万条记录。

(2)排除公共IP：通过Spark GraphX计算IP节点度分布情况，构建“IP-Degree”图，确定共享IP度的阈值t＝100，删除度值>100的IP节点，认为他们是共享IP池中的IP。排除后，剩余1591万个域名顶点、218万个IP顶点和883万条边，构成域名解析关系图。

(3)构建域名关系图G：初始化G图为空；对任意两个有相同IP的域名d₁和d₂顶点之间的边求权重w(d₁,d₂)＝1-1/[1+|asn(ip(d₁)∩ip(d₂))|]。其中，ip(d₁)、ip(d₂)分别表示域名d₁、d₂的IP集合，asn()表示域名d₁和d₂的的共享IP所属的AS的数量。举例：比如d₁的ip是IP1、IP2；d₂的ip是IP1、IP2、IP3，IP1和IP3属于同一个自治系统AS，对应ASN1；IP2属于另一个AS，对应ASN2。那么，asn(ip(d1)∩ip(d2))表示域名d1和域名d2的相同IP(即IP1和IP2)对应的ASN的个数，即为2。

(4)恶意域名标记：通过virusTotal(www.virustotal.com)公共API查询域名关系图中所有域名，如果命中任何一个黑名单就将其标签标记为恶意(label＝1)。

(5)采样节点序列：在域名关系图G(V,E)(其中V为节点集合，E为边集合)中有N个域名节点，当前游走的节点为v，下面需要选择下一步的邻居节点作为游走的节点，采样过程如图2所示。

假设v节点有M个邻居节点，邻居节点集合表示为：

neighbors(v)＝{n₁,n₂,…,n_M},0≤M<N -----公式(1)

假设M个邻居节点中有H个节点标签是恶意的，恶意节点集合表示为：

malicious(v)＝{m₁,m₂,…,m_H},0≤H≤M -----公式(2)

由此可以看出，恶意节点集合malicious(v)是邻居节点集合neighbors(v)的子集，若v节点下一个游走的节点为x，则x∈neighbors(v)。设定参数r：

结合二阶随机游走的超参数p、q，控制随机游走到不同类型图节点的转移概率：

其中，t为当前节点v的上一个节点，x为当前节点v游走的下一个节点，d_tx为节点t到x之间的最短路径长度，参数p和q控制的是游走序列向外探索和离开原来邻居节点的速率。

从当前节点游走到节点x的概率为：

其中，ω_vx为当前节点v到下一步节点x之间边的权重，即前面步骤(3)中的权重w(d₁,d₂)，Z为归一化常数。根据概率P(x)，选择下一步的邻居节点作为游走的节点，即对周围邻居求概率P(x)的值，P(x)值最大的邻居节点就是下一步到达的邻居节点。

(6)基于skip-gram等算法训练节点嵌入，得到关于每个节点的稠密向量构成图嵌入表示，结合其他维度特征应用于下游任务中构建图神经网络建模，实现域名检测等。

本发明的关键点是：

1)基于解析关系的域名图嵌入表示方法，针对域名领域网络特征，结合有效的恶意域名标记方法，对域名关系图中命中黑名单的域名标签标记为恶意域名，在node2vec算法有偏置的随机游走(即node2vecWalk算法)的基础上，设定一个基于节点标签的系数γ(当游走到的邻居节点标签为恶意域名时，γ＝1；否则详见前文公式(3))，定义游走到下一邻居节点的概率为相应边权重乘以node2vec算法转移概率α的基础上再乘以系数γ，基于与恶意域名有关联的域名很有可能也是恶意域名的假设，在控制BFS(广度优先搜索)和DFS(深度优先搜索)的关系基础上增大游走到恶意域名的概率，确保将与当前节点有关联的恶意域名节点采样到节点序列中。

2)基于解析关系的域名图嵌入表示装置的实现，将基于域名解析特征和恶意关联特征的图嵌入表示方法设计为有效的系统装置，能通过输入“域名-IP-AS”网络图，针对域名解析特征自动构建域名关系图，并训练得到图各节点的嵌入表示。此装置中涉及所有算法对用户均为黑盒模式，用户只需输入相应的域名解析网络图即可得到期望的图嵌入表示结果，用户可将其作为图神经网络的输入特征应用于下游节点分类、链路预测等任务中，提升下游任务的准确率。

基于同一发明构思，本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于解析关系的域名图嵌入表示分析方法，其特征在于，包括以下步骤：

采集DNS解析数据，并获取域名解析关系；

利用基于域名解析关系的域名图嵌入算法和恶意域名的标签信息，训练并获得域名关系图中各节点的嵌入表示；

所述利用域名解析关系，将“域名-IP-AS”网络图数据映射到反映域名与域名之间关联强度的加权无向域名关系图，包括：

将存在共享IP的域名之间建立的关联以及存在相同AS的域名间建立的关联，映射到反映域名与域名之间关联强度的加权无向域名关系图；

所述域名关系图中任意两个有相同IP的域名d₁和d₂之间的边的权重w(d₁,d₂)为：

w(d₁,d₂)＝1-1/[1+|asn(ip(d₁)∩ip(d₂))|]，

其中，ip(d₁)、ip(d₂)分别表示域名d₁、d₂的IP集合，asn()表示域名d₁和d₂的共享IP所属的AS的数量；

所述利用基于域名解析关系的域名图嵌入算法和恶意域名的标签信息，训练并获得域名关系图中各节点的嵌入表示，包括：

2.根据权利要求1所述的方法，其特征在于，设在域名关系图G中有N个域名节点，当前游走的节点为v，采用以下步骤采样节点序列：

假设v节点有M个邻居节点，邻居节点集合表示为：

neighbors(v)＝{n₁,n₂,…,n_M},0≤M<N；

malicious(v)＝{m₁,m₂,…,m_H},0≤H≤M；

恶意节点集合malicious(v)是邻居节点集合neighbors(v)的子集，若v节点下一个游走的节点为x，则x∈neighbors(v)；设定参数γ：

其中，t为当前节点v的上一个节点，x为当前节点v游走的下一个节点，d_tx为节点t到x之间的最短路径长度，参数p和q控制的是游走序列向外探索和离开原来邻居节点的速率；

从当前节点游走到节点x的概率为：其中，ω_vc为当前节点v到下一步节点x之间边的权重，Z为归一化常数；

对周围邻居求概率P(x)的值，P(x)值最大的邻居节点即为下一步到达的邻居节点。

3.根据权利要求1或2所述的方法，其特征在于，将域名关系图中节点的嵌入表示结果作为下游任务的输入特征，并结合域名的其他维度特征，构建图神经网络进行建模以实现下游任务。

4.一种基于解析关系的域名图嵌入表示分析装置，其特征在于，包括：

图嵌入表示模块，用于利用基于域名解析关系的域名图嵌入算法和恶意域名的标签信息，训练并获得域名关系图中各节点的嵌入表示；

w(d₁,d₂)＝1-1/[1+|asn(ip(d₁)∩ip(d₂))|]，

5.根据权利要求4所述的装置，其特征在于，还包括特征融合与建模模块，用于将域名关系图中节点的嵌入表示结果作为下游任务的输入特征，并结合域名的其他维度特征，构建图神经网络进行建模以实现下游任务。

6.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～3中任一权利要求所述方法的指令。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～3中任一权利要求所述的方法。