CN112860810B - 域名多重图嵌入表示方法、装置、电子设备及介质 - Google Patents
域名多重图嵌入表示方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN112860810B CN112860810B CN202110163917.3A CN202110163917A CN112860810B CN 112860810 B CN112860810 B CN 112860810B CN 202110163917 A CN202110163917 A CN 202110163917A CN 112860810 B CN112860810 B CN 112860810B
- Authority
- CN
- China
- Prior art keywords
- domain name
- graph
- multiple graph
- attention
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供域名多重图嵌入表示方法、域名多重图嵌入表示装置、电子设备及介质。该方法包括以下步骤:获取域名与IP关系数据以及与域名相对应的WHOIS关联数据;根据所获取的数据,从多个维度计算域名之间的关联关系,构建复杂网络多重图;基于自注意力机制,针对各个目标节点,计算所有邻居节点相对于目标节点的注意力系数;聚合所有邻居节点的特征,作为目标节点的特征,优化图神经网络模型,得到最终的域名多重图嵌入表示。根据本发明提供的域名多重图嵌入表示方法,加强了图神经网络模型的健壮性,增强了节点局部信息的有效性和针对性,并且可以在图结构发生变化时避免全图重新训练,从而大幅提升效率。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种域名多重图嵌入表示方法、域名多重图嵌入表示装置、电子设备及介质。
背景技术
作为互联网基础资源大数据,域名、IP(Internet Protocol,互联网协议)、AS(Autonomous System,自治系统)号码等在注册、解析及应用支撑等各个环节中都发挥着重要作用,同时也产生了大量有价值的数据。
近来,在对域名相关联数据的分析方面,主要依托于域名与域名之间md5下载关系、共同解析到的IP数量、IP所属的AS数量等方面的关联分析,构建同质图,即图中的节点类型和关系类型都仅有一种的图,包括无向图或加权无向图。基于所构建的同质图,再进行进一步的深度分析和挖掘。由于域名与域名之间存在不止一种关联关系,从多个不同维度都可以建立关联,因此在同一个域名网络图中两个不同域名节点之间可以存在多条不同属性的边,从而构成域名关系多重图。在图论中,与简单图相对,将含有平行边的图称为多重图。或者说,若图中某两个节点之间的边数多于一条,且允许顶点通过一条边与自己关联,则称为多重图。
基于多重图的网络分析与研究是未来的发展趋势和方向,但目前网络相关领域的多重图研究还很少见,尤其是尚未出现域名领域的多重图研究。基于多重图的现有分析计算方式,通常是拆分多个单向加权图,而随着“多重”的维度增加,计算代价会变得相当大。
如何合理关联多个维度的特征表示,节省计算开销,同时能保证神经网络模型的健壮性和节点特征的有效性,是本领域的技术难题。
发明内容
本发明提供一种域名多重图嵌入表示方法、域名多重图嵌入表示装置以及相应的电子设备和非暂态计算机可读存储介质,实现了基于自注意力机制的域名多重图嵌入表示,加强了图神经网络模型的健壮性,增强了节点局部信息的有效性和针对性。
第一方面,本发明提供一种域名多重图嵌入表示方法,包括以下步骤:
获取域名与IP关系数据以及与域名相对应的WHOIS关联数据;
根据所获取的数据,从多个维度计算域名之间的关联关系,构建复杂网络多重图;
基于自注意力机制,针对各个目标节点,计算所有邻居节点相对于目标节点的注意力系数;
聚合所有邻居节点的特征,作为目标节点的特征,优化图神经网络模型,得到最终的的域名多重图嵌入表示。
根据本发明提供的域名多重图嵌入表示方法,优选地,获取域名与IP关系数据以及与域名相对应的WHOIS关联数据,具体包括:
访问域名探测数据库或被动DNS数据库,获取域名与IP关系数据;
访问WHOIS数据库,获取与域名相对应的WHOIS关联数据。
根据本发明提供的域名多重图嵌入表示方法,优选地,从多个维度计算域名之间的关联关系,构建复杂网络多重图,具体包括:
在域名之间建立反映不同维度属性的多条边,为每条边计算相应权重,构建域名加权多重图。
根据本发明提供的域名多重图嵌入表示方法,优选地,计算所有邻居节点相对于目标节点的注意力系数,具体包括:
按下列公式计算邻居节点j相对于目标节点i的注意力系数:
根据本发明提供的域名多重图嵌入表示方法,优选地,聚合所有邻居节点的特征,具体包括:
根据注意力系数对所有邻居节点的特征进行加权求和。
根据本发明提供的域名多重图嵌入表示方法,优选地,优化图神经网络模型,具体包括:
利用梯度下降损失函数,通过反向传播方式优化图神经网络模型。
根据本发明提供的域名多重图嵌入表示方法,优选地,还包括:
将域名多重图嵌入表示应用为下游任务的输入特征。
第二方面,本发明还提供一种域名多重图嵌入表示装置,包括:
数据获取模块,用于获取域名与IP关系数据以及与域名相对应的WHOIS关联数据;
多重图构建模块,用于根据所获取的数据,从多个维度计算域名之间的关联关系,构建复杂网络多重图;
注意力计算模块,用于基于自注意力机制,针对各个目标节点,计算所有邻居节点相对于目标节点的注意力系数;
模型训练模块,用于聚合所有邻居节点的特征,作为目标节点的特征,优化图神经网络模型,得到最终的域名多重图嵌入表示。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该计算机程序时实现如上述任一种的域名多重图嵌入表示方法的步骤。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种的域名多重图嵌入表示方法的步骤。
由上述技术方案可知,本发明提供的域名多重图嵌入表示方法、域名多重图嵌入表示装置、电子设备及存储介质,根据获取的域名-IP关系数据和WHOIS关联数据,计算域名之间多维度的关联关系,构建复杂网络多重图,利用自注意力机制计算邻居节点相对于目标节点的注意力系数,然后聚合所有邻居节点的特征作为目标节点的特征,优化图神经网络模型,得到域名多重图嵌入表示。根据本发明的基于自注意力机制的域名多重图嵌入表示方法,通过从多个维度刻画域名与域名之间的关联关系,使得基于域名间复杂网络特征的分析更为全面,加强了图神经网络模型的健壮性;通过引入自注意力机制计算注意力系数,区分不同邻居域名节点对目标域名节点特征聚合的贡献力度,增强了节点局部信息的有效性和针对性。
并且,根据本发明的域名多重图嵌入表示方法,通过归纳式的图神经网络学习方法,逐点更新网络中各节点信息,训练过程中注意力系数与权重参数矩阵只与节点特征相关而与图结构无关,当图结构发生变化时只需改变节点的邻居关系即可迅速重新计算,避免了全图重新训练而增加的工作量,大幅提升效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地,下面描述中的附图是本发明的一部分实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的域名多重图嵌入表示方法的示意图;
图2示出了本发明一实施例提供的域名加权多重图;
图3是本发明一实施例提供的由域名多重图获得图注意力特征表示的示意图;
图4是本发明一实施例提供的域名多重图嵌入表示装置的示意图;
图5是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种域名多重图嵌入表示方法,参见图1,该域名多重图嵌入表示方法包括以下步骤:
步骤101,获取域名与IP关系数据以及与域名相对应的WHOIS关联数据;
需要说明的是,在本步骤之前,通常会先搭建服务器集群,包括例如一台主服务器和若干子服务器。然后从相应数据库采集数据,并从中清洗过滤掉异常数据,从源数据中提取出域名与IP关系数据以及与域名相对应的WHOIS关联数据。
WHOIS(即“Who is”)是用来查询域名的IP以及所有者等信息的传输协议,WHOIS关联数据可用于表示例如域名是否已经被注册、注册域名的具体信息(如域名所有人、域名注册商)等。
步骤102,根据所获取的数据,从多个维度计算域名之间的关联关系,构建复杂网络多重图;
具体而言,在本步骤中,根据清洗后的多维关系数据,以数据中的域名列表为主,从多个维度属性刻画域名与域名之间的关联关系,构成域名关系复杂网络多重图,例如,如图2所示的域名加权多重图。由于不是单一地考虑某一方面的关联程度,能够更为全面地进行基于域名之间复杂网络特征的分析。
举例来说,可以分别根据域名之间共享的相同IP数量、共享相同注册人、所属相同注册商、共享的相同NS(Name Server,名称服务器)数量等,计算两域名之间的关联关系。
步骤103,基于自注意力机制,针对各个目标节点,计算所有邻居节点相对于目标节点的注意力系数;
自注意力机制(Self-attention Mechanism)是对深度学习中常用的注意力(Attention)机制的改进,其更擅长捕捉数据或特征的内部相关性。还需要说明的是,在根据已构建的域名关系多重图训练图神经网络的过程中,多重图被理解为多个不同层次。
将自注意力机制与多重图各维度属性边权重信息进行融合处理,也即利用自注意力机制融合各个目标节点与其邻居节点间多条边的不同权重信息,分别计算各个目标节点的所有邻居节点相对于目标节点的注意力系数,用以衡量不同邻居节点对目标节点特征的关联贡献程度。
步骤104,聚合所有邻居节点的特征,作为目标节点的特征,优化图神经网络模型,得到最终的的域名多重图嵌入表示。
在本步骤中,根据步骤103中计算出的注意力系数聚合各邻居节点信息,将聚合后的节点信息作为目标节点的特征表示,例如,如图3所示的,由域名多重图获得图注意力特征表示。
优化训练图神经网络(Graph Neural Networks,GNN)模型,获得作为结果的域名多重图嵌入表示。图神经网络是一种直接在图结构上运行的神经网络。优选地,图神经网络例如为图卷积神经网络(Graph Convolutional Networks,GCN),图卷积神经网络能够通过图数据学习图中节点信息以及节点之间的关联边信息,为每个节点生成嵌入表示。
由上述技术方案可知,本实施例提供的域名多重图嵌入表示方法,通过在域名之间建立起有价值的多重图模型,从多个维度刻画域名与域名之间的关联关系,而不是单一地考虑某一方面的关联程度,使得基于域名间复杂网络特征的分析更加全面,同时加强了图神经网络模型的健壮性;通过引入自注意力机制,在综合多维属性边权重信息的基础上,计算反映域名节点与其邻居域名节点之间的深层关联程度的注意力系数,区分邻居节点对目标节点特征聚合的贡献力度,增强了节点局部信息的有效性和针对性。
在本发明的域名多重图嵌入表示方法中,整个图神经网络的节点信息更新过程是逐点运算的,每一个目标节点只与其邻居节点有关,注意力系数和权重参数也只与节点特征相关,与图结构无关,当图结构发生更新时,只需要改变节点的邻居关系重新计算,而无需进行全图重新训练,通过这种归纳式的学习方式,大幅提升了计算和模型训练的效率。
本实施例提供的域名多重图嵌入表示方法,基于自注意力机制实现域名多重图嵌入表示,如后文所述,可以据此设计基于自注意力机制执行域名多重图嵌入表示方法的有效的系统装置,当输入任意域名网络图数据和WHOIS数据时,通过自注意力图神经网络端到端训练得到图中各节点的嵌入表示。此类装置中涉及到的所有算法优选对用户均为黑盒模式,用户只需输入原始网络图即可得到期望的图嵌入表示结果。
下面通过更多实施例来进一步阐述本发明的重要技术细节。
基于上述实施例的内容,在本实施例的域名多重图嵌入表示方法中,优选地,获取域名与IP关系数据以及与域名相对应的WHOIS关联数据,具体包括:
访问域名探测数据库或被动DNS数据库,获取域名与IP关系数据;
访问WHOIS数据库,获取与域名相对应的WHOIS关联数据。
在本实施例中,通过采集域名探测数据或被动DNS数据库数据和WHOIS数据,获取域名与IP关系数据和对应于域名的WHOIS关联数据。
DNS(Domain Name System,域名系统)主要用于在容易记忆的网址域名与不容易记忆的IP地址之间自动解析互换。而被动DNS(Passive DNS)数据库是一个存储有公共DNS通信中涉及到的各种域名、服务器和IP地址相关的历史记录的安全数据库,将实时DNS结果转化为被动DNS数据,以供分析使用。与DNS查询的方式相反,被动DNS属于反向获取或查询DNS数据信息。
由于每个域名/IP的WHOIS信息由相应的管理机构保存,因此不同域名后缀的WHOIS信息需要到不同的WHOIS数据库查询,例如.com的WHOIS数据库与.edu的WHOIS数据库不同。
以.cn域名为例,说明过程如下:首先需要访问.cn域名探测数据库和.cn域名的WHOIS数据库以获取数据,经过数据清理和过滤,将数据划分为多个维度的联合数据,例如,包括域名-IP数据、域名-WHOIS数据(包括域名注册人、注册商、NS数据)等。需要说明的是,该示例仅用于解释本发明,而非限定本发明。
基于上述实施例的内容,在本实施例的域名多重图嵌入表示方法中,优选地,从多个维度计算域名之间的关联关系,构建复杂网络多重图,具体包括:
在域名之间建立反映不同维度属性的多条边,为每条边计算相应权重,构建域名加权多重图。
在根据本实施例的域名关系多重图的构建过程中,分别从多个维度计算域名关联关系的边权重,将域名之间存在某种维度关联关系的边相连,并赋值相应维度的权重值。
仍然通过前述.cn域名的示例来说明本实施例中构建域名关系复杂网络多重图的过程:以.cn域名探测数据中的域名列表为主,关联各维度数据,分别根据域名之间共享的相同IP数量、共享相同注册人、所属相同注册商、共享的相同NS数量,在两域名之间建立反映不同维度属性的多条边,并为每条边计算表示关联关系的相应权重,构建出域名加权多重图,例如,如图2所示的域名加权多重图。
假设两域名分别为d1、d2,则d1和d2之间各维度权重的计算公式如下:
其中,ω_ip代表共享的相同IP数量的权重,ip(d1)表示域名d1的所有解析IP集合;ω_contact代表共享相同注册人的权重,contact(d1)表示域名d1的所有注册联系人集合;ω_registrar代表所属相同注册商的权重,registrar(d1)表示域名d1的所属注册商;ω_ns代表共享的相同NS数量的权重,ns(d1)表示域名d1所属的域名服务器的NameServer服务器IP;α、β、γ、δ为每个维度权重的启发式常数系数。
由本实施例提供的域名多重图嵌入表示方法,从多个维度刻画域名与域名之间的关联关系,构建多重图模型,基于多重图进行深入分析和挖掘,更加全面地对域名进行多维度表征,从而可以获取高质量的嵌入表示,提升下游任务的准确率。
基于上述实施例的内容,在本实施例的域名多重图嵌入表示方法中,优选地,计算所有邻居节点相对于目标节点的注意力系数。
在本实施例中,根据已构建的域名关系复杂网络多重图训练图神经网络,将多重图理解为多个不同层次,利用自注意力机制,计算目标节点的特征向量Q与其邻居节点的特征向量K之间的点积。为了防止结果过大,还会除以一个尺度具体地,邻居节点j相对于目标节点i的注意力系数的计算公式如下:
由本实施例提供的域名多重图嵌入表示方法,将自注意力机制与多重图各维度属性边权重信息进行融合处理,计算反映各个目标节点周围邻居节点对该目标节点特征的贡献程度的注意力系数,获得针对性较强的节点局部特征,增强特征的表达能力。
基于上述实施例的内容,在本实施例的域名多重图嵌入表示方法中,优选地,聚合所有邻居节点的特征,具体包括:
根据注意力系数对所有邻居节点的特征进行加权求和。
在本实施例中,根据前述步骤中计算得到的注意力系数αij对各个邻居节点j的特征加权求和,以聚合邻居节点信息,作为目标节点i的特征表示(例如,如图3所示):
其中,Ni表示目标节点i的邻居节点的数量;W是权重矩阵,其通过训练过程不断地更新学习;hj是节点i的邻居节点j的特征表示(特征矩阵)。
基于上述实施例的内容,在本实施例的域名多重图嵌入表示方法中,优选地,优化图神经网络模型,具体包括:
利用梯度下降损失函数,通过反向传播方式优化图神经网络模型。
在本实施例中,根据前述步骤中计算得到的目标节点的特征表示,训练图神经网络模型,利用梯度下降损失函数不断反向传播优化权重参数矩阵,得到最终的图嵌入表示和相应参数矩阵。
基于上述实施例的内容,在本实施例的域名多重图嵌入表示方法中,优选地,还包括:
将域名多重图嵌入表示应用为下游任务的输入特征。
在本实施例中,根据下游的任务需求,将前述步骤获得的域名多重图嵌入表示作为其输入特征,设计分类器或神经网络模型以实现最终应用目的。
可应用的任务包括但不限于域名链路预测、域名图生成、域名检测、域名信誉评价等。神经网络模型包括但不限于简单的机器学习模型、神经网络模型、图神经网络模型等。
将前述的图嵌入表示结果作为输入,可以提升目标任务的准确率。
由上述各技术方案可知,本发明所提供的基于自注意力机制的域名多重图嵌入表示方法,将域名之间基于不同数据维度的边属性相结合构建域名关系复杂网络多重图,从多个角度刻画域名与域名之间的关联关系,同时利用基于自注意力机制的图神经网络将各目标节点的邻居节点信息按照一定注意力系数加权聚合,并通过梯度下降损失函数优化模型,得到最终的域名多重图嵌入表示,将其作为下游任务的输入特征。
下面对本发明提供的域名多重图嵌入表示装置进行描述,该装置与上文描述的域名多重图嵌入表示方法可相互对应参照。参见图4,本实施例提供的域名多重图嵌入表示装置具体包括:
数据获取模块21,用于获取域名与IP关系数据以及与域名相对应的WHOIS关联数据;
多重图构建模块23,用于根据所获取的数据,从多个维度计算域名之间的关联关系,构建复杂网络多重图;
注意力计算模块25,用于基于自注意力机制,针对各个目标节点,计算所有邻居节点相对于目标节点的注意力系数;
模型训练模块27,用于聚合所有邻居节点的特征,作为目标节点的特征,优化图神经网络模型,得到最终的域名多重图嵌入表示。
根据本发明的域名多重图嵌入表示装置,从多个维度刻画域名与域名之间的关联关系,使得基于域名间复杂网络特征的分析更加全面,加强了图神经网络模型的健壮性;引入自注意力机制计算注意力系数,区分邻居节点对目标节点特征的贡献程度,增强了节点局部信息的有效性和针对性;当图结构发生更新时,无需进行全图重新训练,大幅提升了计算效率和模型训练效率。
本发明实施例提供的域名多重图嵌入表示装置可以用于执行前述实施例所述的域名多重图嵌入表示方法,或者说,可以根据前述实施例所述的域名多重图嵌入表示方法设计有效的域名多重图嵌入表示装置,用以基于自注意力机制实现域名多重图嵌入表示。可以将此类装置中涉及的所有算法均设置成对于用户的黑盒模式,因而用户只需输入原始网络图即可得到期望的图嵌入表示结果,操作简单直观。用户还可以将获得的多重图嵌入表示作为下游任务的输入特征,应用于域名链路预测、域名图生成、域名检测、域名信誉评价等任务中,提升目标任务的准确率。
根据本发明的域名多重图嵌入表示装置的工作原理和有益效果均与前述域名多重图嵌入表示方法类似,故此处不再赘述,具体内容可参见上述实施例的介绍。
在本实施例中,需要说明的是,本发明实施例的装置可以由软件和/或硬件的方式实现,并可以集成在诸如手机、平板电脑等用户终端设备中。该装置中的单元只是按照功能逻辑进行划分的,并且不局限于上述的划分,只要能够实现相应的功能即可。各个单元可以集成于一体,也可以分离部署;可以合并为一个单元,也可以进一步拆分成多个子单元。
基于相同的发明构思,本发明又一实施例提供了一种电子设备,参见图5,所述电子设备可以包括:处理器810、通信接口820、存储器830和通信总线840,其中,处理器810、通信接口820、存储器830通过通信总线840完成相互间的通信。
处理器810可以调用存储器830中的计算机程序,以执行一种域名多重图嵌入表示方法,该域名多重图嵌入表示方法例如包括以下步骤:获取域名与IP关系数据以及与域名相对应的WHOIS关联数据;根据所获取的数据,从多个维度计算域名之间的关联关系,构建复杂网络多重图;基于自注意力机制,针对各个目标节点,计算所有邻居节点相对于目标节点的注意力系数;聚合所有邻居节点的特征,作为目标节点的特征,优化图神经网络模型,得到最终的的域名多重图嵌入表示。
本领域技术人员可以理解,处理器810还可以实现本发明任意实施例所提供的域名多重图嵌入表示方法,并且图5所示的电子设备仅仅是一种示例,其也可以通过能够调用指令实现前述域名多重图嵌入表示方法的任意设备来实现。
上述的存储器830中的逻辑指令也可以通过软件功能单元的形式实现并作为独立的产品销售或使用,这时将其存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
基于相同的发明构思,本发明又一实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现上述域名多重图嵌入表示方法的步骤。例如,处理器执行该计算机程序时实现下述过程:获取域名与IP关系数据以及与域名相对应的WHOIS关联数据;根据所获取的数据,从多个维度计算域名之间的关联关系,构建复杂网络多重图;基于自注意力机制,针对各个目标节点,计算所有邻居节点相对于目标节点的注意力系数;聚合所有邻居节点的特征,作为目标节点的特征,优化图神经网络模型,得到最终的的域名多重图嵌入表示。
基于相同的发明构思,本发明又一实施例提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述域名多重图嵌入表示方法的步骤。例如,处理器执行该计算机程序时实现下述过程:获取域名与IP关系数据以及与域名相对应的WHOIS关联数据;根据所获取的数据,从多个维度计算域名之间的关联关系,构建复杂网络多重图;基于自注意力机制,针对各个目标节点,计算所有邻居节点相对于目标节点的注意力系数;聚合所有邻居节点的特征,作为目标节点的特征,优化图神经网络模型,得到最终的的域名多重图嵌入表示。
通常,前述存储介质可包括诸如U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
可以理解的是,前述计算机程序可以执行的细化功能和扩展功能可参照上述实施例的描述。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元示出的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种域名多重图嵌入表示方法,其特征在于,包括以下步骤:
获取域名与IP关系数据以及与所述域名相对应的WHOIS关联数据;
根据所获取的数据,从多个维度计算域名之间的关联关系,构建复杂网络多重图;
基于自注意力机制,针对各个目标节点,计算所有邻居节点相对于目标节点的注意力系数;
聚合所述所有邻居节点的特征,作为所述目标节点的特征,优化图神经网络模型,得到最终的域名多重图嵌入表示。
2.根据权利要求1所述的域名多重图嵌入表示方法,其特征在于,所述获取域名与IP关系数据以及与所述域名相对应的WHOIS关联数据,具体包括:
访问域名探测数据库或被动DNS数据库,获取所述域名与IP关系数据;
访问WHOIS数据库,获取与所述域名相对应的WHOIS关联数据。
3.根据权利要求1所述的域名多重图嵌入表示方法,其特征在于,所述从多个维度计算域名之间的关联关系,构建复杂网络多重图,具体包括:
在域名之间建立反映不同维度属性的多条边,为每条边计算相应权重,构建域名加权多重图。
5.根据权利要求1所述的域名多重图嵌入表示方法,其特征在于,所述聚合所述所有邻居节点的特征,具体包括:
根据所述注意力系数对所述所有邻居节点的特征进行加权求和。
6.根据权利要求1所述的域名多重图嵌入表示方法,其特征在于,所述优化图神经网络模型,具体包括:
利用梯度下降损失函数,通过反向传播方式优化所述图神经网络模型。
7.根据权利要求1-6中任一项所述的域名多重图嵌入表示方法,其特征在于,还包括:
将所述域名多重图嵌入表示应用为下游任务的输入特征。
8.一种域名多重图嵌入表示装置,其特征在于,包括:
数据获取模块,用于获取域名与IP关系数据以及与所述域名相对应的WHOIS关联数据;
多重图构建模块,用于根据所获取的数据,从多个维度计算域名之间的关联关系,构建复杂网络多重图;
注意力计算模块,用于基于自注意力机制,针对各个目标节点,计算所有邻居节点相对于目标节点的注意力系数;
模型训练模块,用于聚合所述所有邻居节点的特征,作为所述目标节点的特征,优化图神经网络模型,得到最终的域名多重图嵌入表示。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的域名多重图嵌入表示方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的域名多重图嵌入表示方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110163917.3A CN112860810B (zh) | 2021-02-05 | 2021-02-05 | 域名多重图嵌入表示方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110163917.3A CN112860810B (zh) | 2021-02-05 | 2021-02-05 | 域名多重图嵌入表示方法、装置、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112860810A CN112860810A (zh) | 2021-05-28 |
CN112860810B true CN112860810B (zh) | 2023-07-14 |
Family
ID=75989410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110163917.3A Active CN112860810B (zh) | 2021-02-05 | 2021-02-05 | 域名多重图嵌入表示方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112860810B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115037532B (zh) * | 2022-05-27 | 2023-03-24 | 中国科学院信息工程研究所 | 基于异构图的恶意域名检测方法、电子装置及存储介质 |
CN116112225B (zh) * | 2022-12-28 | 2024-08-27 | 中山大学 | 一种基于多通道图卷积的恶意域名检测方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108140249A (zh) * | 2015-09-02 | 2018-06-08 | 文塔纳医疗系统公司 | 用于显示生物标本的多个图像的图像处理系统和方法 |
CN111507150A (zh) * | 2019-01-31 | 2020-08-07 | 斯特拉德视觉公司 | 利用基于深度神经网络的多重图像块组合识别人脸的方法 |
CN111581450A (zh) * | 2020-06-24 | 2020-08-25 | 支付宝(杭州)信息技术有限公司 | 确定用户的业务属性的方法及装置 |
CN111816252A (zh) * | 2020-07-21 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种药物筛选方法、装置及电子设备 |
CN111931903A (zh) * | 2020-07-09 | 2020-11-13 | 北京邮电大学 | 一种基于双层图注意力神经网络的网络对齐方法 |
CN112085124A (zh) * | 2020-09-27 | 2020-12-15 | 西安交通大学 | 一种基于图注意力网络的复杂网络节点分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11544535B2 (en) * | 2019-03-08 | 2023-01-03 | Adobe Inc. | Graph convolutional networks with motif-based attention |
-
2021
- 2021-02-05 CN CN202110163917.3A patent/CN112860810B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108140249A (zh) * | 2015-09-02 | 2018-06-08 | 文塔纳医疗系统公司 | 用于显示生物标本的多个图像的图像处理系统和方法 |
CN111507150A (zh) * | 2019-01-31 | 2020-08-07 | 斯特拉德视觉公司 | 利用基于深度神经网络的多重图像块组合识别人脸的方法 |
CN111581450A (zh) * | 2020-06-24 | 2020-08-25 | 支付宝(杭州)信息技术有限公司 | 确定用户的业务属性的方法及装置 |
CN111931903A (zh) * | 2020-07-09 | 2020-11-13 | 北京邮电大学 | 一种基于双层图注意力神经网络的网络对齐方法 |
CN111816252A (zh) * | 2020-07-21 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种药物筛选方法、装置及电子设备 |
CN112085124A (zh) * | 2020-09-27 | 2020-12-15 | 西安交通大学 | 一种基于图注意力网络的复杂网络节点分类方法 |
Non-Patent Citations (3)
Title |
---|
HinCTI:A Cyber Threat Intelligence Modeling and Identification System Based on Heterogeneous Information Network;Yali Gao等;《IEEE Transactions on Knowledge and Data Engineering 》;第34卷(第2期);第708-722页 * |
一种基于图分析的不良网络应用快速发现算法;刘冰等;《计算机应用与软件》;第39卷(第11期);第329-336页 * |
基于图神经网络的二进制函数相似度检测算法研究及实现;赵朋磊;《中国优秀硕士学位论文全文数据库信息科技辑》(第08期);I138-1420 * |
Also Published As
Publication number | Publication date |
---|---|
CN112860810A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220398280A1 (en) | Methods and systems for associating internet devices | |
US9514248B1 (en) | System to group internet devices based upon device usage | |
JP6261665B2 (ja) | コミュニティ内の接続の決定 | |
CN104995870B (zh) | 多目标服务器布局确定方法和装置 | |
US20200183680A1 (en) | Elastic application framework for deploying software | |
CN103189836B (zh) | 用于对图数据流中的对象分类的方法 | |
US8543690B1 (en) | Methods and apparatus for predicting impact of proposed changes and implementations in distributed networks | |
CN112860810B (zh) | 域名多重图嵌入表示方法、装置、电子设备及介质 | |
CN107145556B (zh) | 通用的分布式采集系统 | |
Alfazi et al. | Ontology-based automatic cloud service categorization for enhancing cloud service discovery | |
KR102086936B1 (ko) | 사용자 데이터 공유 방법 및 디바이스 | |
CN110825950B (zh) | 一种基于元搜索的隐藏服务发现方法 | |
CN113228059A (zh) | 面向跨网络的表示学习算法 | |
CN107733709A (zh) | 数据存储方法、装置及电子设备 | |
JP5200750B2 (ja) | 情報検索装置、情報検索方法、プログラム、および記録媒体 | |
CN115827996B (zh) | 一种具有共享约束的社区查询方法及系统 | |
CN107077485A (zh) | 用于处理图的系统和方法 | |
Yao et al. | Subgraph extraction for trust inference in social networks | |
Kaepke et al. | A comparative evaluation of big data frameworks for graph processing | |
CN112910888A (zh) | 非法域名注册团伙挖掘方法及装置 | |
Wang et al. | Bayesian Approach with Maximum Entropy Principle for trusted quality of Web service metric in e‐commerce applications | |
Xu et al. | LNGM: A link prediction algorithm based on local neighbor gravity model | |
Ma et al. | Data resource discovery model based on hybrid architecture in data grid environment | |
US20110191322A1 (en) | Stochastic optimization techniques of evolutionary computation search strategies for an information sharing system | |
Deák et al. | Graph partitioning algorithm for model transformation frameworks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |