CN115242868A

CN115242868A - 一种基于图神经网络的街道级ip地址定位方法

Info

Publication number: CN115242868A
Application number: CN202210838595.2A
Authority: CN
Inventors: 王永; 田占奎; 任国明; 武可嘉; 邱鹏; 遆永鹏; 杨宇强; 李梦月; 段金强
Original assignee: Zhengzhou Aiwen Computer Technology Co ltd
Current assignee: Zhengzhou Aiwen Computer Technology Co ltd
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-10-25

Abstract

本发明提供一种基于图神经网络的街道级IP地址定位方法，包括以下步骤：首先，筛选与目标IP匹配的地标IP；其次，从IP特征和网络测量两种不同的视角，建立所述区域中的目标IP与地标IP间的拓扑空间关系，以得到目标IP与关联地标IP间的边缘权重，构成完整的拓扑图结构；再次，利用目标IP与地标IP间的边缘权重及拓扑图结构，使用图卷积神经网络聚合邻域地标特征及地理坐标，并通过正则化流得到关于目标IP的概率表示以抵御网络波动带来的负面影响，得到关于IP的健壮的隐状态；最后，使用多层感知机进行线性仿射变化，从概率表示一一即目标IP的隐状态中解码得到目标IP的经纬度坐标，完成IP定位任务；本发明具有IP地址定位准确，抗干扰能力强的优点。

Description

一种基于图神经网络的街道级IP地址定位方法

技术领域

本发明属于IP地址定位技术领域，具体涉及一种基于图神经网络的街道级IP地址定位方法。

背景技术

IP地址是分配给每个主机连接因特网(Internet)的唯一标识符，用作个人信息识别和虚拟位置寻址。从多个维度(网络时延、端口开放情况和WHOIS注册信息等)积极探索IP地址本身特征并提取背后的知识，可以视为IP地址分析。通过IP地址分析，可以识别虚拟地址的风险行为，挖掘用户的个人信息。这些信息在许多下游软件(如支付风控、DDos攻击防范和生活推荐平台)有着广泛的应用。在IP地址分析中，地理位置信息的推测近年来备受关注。它是指将真实世界的地理位置(通常由经度和纬度表示)分配到给定的目标IP地址的过程。这对许多用户定制化的广泛互联网应用有重要意义，包括有针对性的营销，欺诈预防等。有了用户的准确地理位置，线上平台还可以提供各种个性化服务。例如，在线定向广告可以推荐用户附近的餐馆。普适的基于位置的服务一直被认为是互联网面临的一个重要挑战。

在过去，IP地址定位主要通过收集公开路由器上存储的地理位置相关的字段，建立映射关系库来进行定位。然而，含有地理位置信息的公开路由器数量极少，且被动收集的方式无法保证地理位置的可靠程度。依靠此类方法，几乎无法得到细粒度的、可靠的地理位置。一部分方法使用各地的探测机向目的IP发送ping指令并观测延迟以推测其地理位置。然而，网络环境复杂且不稳定，拓扑结构也往往无法确定，该方法往往难以得到准确的结果。近年来，网络信息爆炸增长以及多媒体信息处理技术迅速发展，使得IP地址定位可以利用新兴技术进行数据收集和定位。这些方法利用自然语言处理、多模态等技术，搜寻并存储社交网络上的登录记录、网页多媒体信息中的地理线索和实时网络摄像头等数据，搜寻其服务器IP地址，建立IP地址与地理位置的映射关系。

随着机器学习技术的高速发展，深度学习在很多应用领域都取得了极好的效果。在IP地址定位这一领域中，现用方法采用聚类方法(如KNN)及多层感知机(MLP)技术，结合IP地址的特征，先将IP地址的范围逐步缩小，然后推测其经纬度，因而能基本完成IP地址定位任务。然而，该方法无法考虑IP之间的拓扑关联，所以模型的解释性差，数据利用不完全，且难以应对广泛存在的网络波动情况，无法胜任日益增长的高精度街道级定位需。

发明内容

本发明的目的是克服现有技术的不足而提供一种有效的基于图神经网络的街道级IP地址定位方法。

本发明的技术方案如下：

一种基于图神经网络的街道级IP地址定位方法，包括以下步骤：

步骤S1、IP地址聚类，筛选与目标IP匹配的地标IP，得到包含目标IP与若干地标IP为图结点的区域；

步骤S2、IP地址连接，从IP特征和网络测量两种不同的视角，建立所述区域中的目标IP与地标IP间的拓扑空间关系，以得到目标IP与关联地标IP间的边缘权重，构成完整的拓扑图结构；

步骤S3、IP特征聚合，利用目标IP与地标IP间的边缘权重及拓扑图结构，使用图卷积神经网络聚合邻域地标特征及地理坐标，并通过正则化流得到关于目标IP的概率表示以抵御网络波动带来的负面影响，得到关于IP的健壮的隐状态；

步骤S4、IP地址定位，使用多层感知机进行线性仿射变化，从概率表示——即目标IP的隐状态中解码得到目标IP的经纬度坐标，完成IP定位任务。

进一步，所述步骤S1的具体过程如下：

在位于不同城市的探测机上使用tracert工具来搜索路由路径，并记录最后一跳路由器；将获得的最后一跳路由器存储到traceroute列表，然后将traceroute列表中具有相同最后一跳路由器的IP主机聚类成一个图，即得到包含目标IP与若干地标IP为图结点的区域。

进一步，所述步骤S2中获得目标IP与关联地标IP间的边缘权重的具体过程如下：

利用同一区域内的IP地址和该区域内的IP地址的公共路由器之间的网络测量得到的已有拓扑来建立第一边缘权重；

选择与目标IP具有相似半径的地标IP，以构造与目标IP和地标IP之间的距离差成反比的第一边缘权重，表示为：

其中，t、l和r分别表示目标IP、地标IP和公共路由器；

Δ²(t，1)通过距离映射函数d(·，r)将网络测量值映射到地理距离，并计算t和l之间的径向距离差；

所述距离映射函数的表达式如下：

d(·，r)＝α(βlog RTT(·，r)+Hop(·，r))+γ 式2，

其中，RTT(·，r)和Hop(·，r)分别表示IP主机和公共路由器之间的延迟和路由跳数，α、β和γ是超参数，所述超参数是以网络测量为输入，使用全连接层网络学习并获得。

利用IP地址之间的特征相似度来构建第二边缘权重，已知目标IP和地标IP，通过拼接任意两个IP的特征向量，计算其点积来得到两两IP的相似度作为第二边缘权重，表达式如下：

其中，T表示矩阵转置，{X_t，X_l}表示目标IP和地标IP特征向量的拼接，W_q和W_k为通过神经网络学习获得的参数。

进一步，将第一边缘权重

和第二边缘权重

融合并控制最终图的稀疏性，得到拓扑图结构描述如下：

其中，κ是平衡第一边缘权重与第二边缘权重的超参数，∈是控制拓扑图结构邻接矩阵稀疏程度的阈值。

进一步，所述步骤S3的具体过程如下：

首先，利用图卷积神经网络(GCN)得到一个简单的高斯分布：

其中，

表示IP的特征向量与地标经纬度的拼接，对于待预测的目标IP，使用(0，0)代替，GCN_μ和GCN_σ是两个具有不同参数的图卷积神经网络，Z是服从高斯分布的随机变量，表示所有IP节点的隐状态；

然后，使用连续正则化流将隐状态Z继续推导至更灵活的分布形式以应对变幻莫测的网络环境，设

和

是初始随机变量和概率分布，那么分布变化可表示为：

其中，t₁是表示分布转换跨度的超参数，f(·；θ_f)是以θ_f为可学习参数的全连接层，Tr表示矩阵的迹；

最后，以最大化证据下限(ELBO)以优化最终后验分布，如下所示：

其中，logp(A_i，j|Z_i(t₁)，Z_j(t₁))表示重建的拓扑图结构与原有图结构之间的重构损失，计算方式如下：

式中的H(·)是Heaviside阶跃函数，f代表一个全连接神经网络，用于从隐状态重建图的拓扑结构。

进一步，所述步骤S4中，使用多层感知机进行线性仿射变化，以对目标IP地址进行经纬度预测，以获得目标IP地址，表达式为：

其中，(lon，lat)为代表地理位置信息的经纬度元组，θ_m表示经过训练得到的参数。

与现有技术相比，本发明提供的基于图神经网络的街道级IP地址定位方法的有益效果如下：

1、本发明基于图神经网络，为街道级IP定位提供了一套完整的处理流程和框架；本发明利用IP特征及网络测量，预测其高精度的地理位置；相比与传统的方法学习线性特征交互或独立处理每个IP地址，本发明提供的方法融合了多个IP地址的特征及其之间的多种邻域关系，拓扑图结构提取公共知识和拓扑联系，使得IP定位更加准确，从而实现街道级IP地址定位；

2、本发明基于生成模型正则化流技术进行建模，构造了一个以概率形式推导的有关于目标IP地址的隐状态；通过在概率空间中连续灵活的推理，对数据中的不确定性进行建模，因此关注了复杂网络环境中网络拥塞和抖动引起等现象带来的噪声；相较于确定性建模，本发明的IP定位框架结果更加健壮，抗干扰能力更强，因而预测结果也更有价值。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明中，所述步骤S1的具体过程如下：

在位于不同城市的探测机上使用tracert工具来搜索路由路径，并记录最后一跳路由器；将获得的最后一跳路由器存储到traceroute列表，然后将traceroute列表中具有相同最后一跳路由器的IP主机聚类成一个图，即得到包含目标IP与若干地标IP为图结点的区域；

在具体实施时，不同的路由路径可能存在多个最后一跳路由器，选择延迟最小的路由器；如果网络的防火墙策略隐藏了最后一跳路由器，此时，将使用最后一个可见的路由器；由于互联网的区域管理策略，具有公共最后一跳路由器的IP地址之间通常地理间隔较近，因此，可以将公共路由器作为连接目标IP和地标IP的中介，从而能够在目标IP和地标之间建立精确的网络拓扑关系；至此，提供了一个包含目标IP和关联地标IP为图结点的大致区域，并保证了通过图形结构利用IP地址的特征和拓扑关系分析精确地理位置的可行性。

本发明中，步骤S2的目的在于获取目标IP和地标IP这些图结点之间的边权重，即拓扑联系，从而得到完整的图结构；本发明基于两个假设建立地理定位图：(1)在图结构中，较大的边权重反映了两个节点之间较强的相关性；(2)相关性较强的IP主机的地理坐标之间的距离较近；总之，地理位置越近的IP地址之间的边权重越大；为了达到这个目的，本发明从两个视角定义了边权重，即网络拓扑和特征相似度；

具体实施时，所述步骤S2中获得目标IP与关联地标IP间的边缘权重的具体过程如下：

同一个区域中的IP主机围绕着一个公共路由器，选择与目标IP具有相似半径的地标；选择与目标IP具有相似半径的地标IP，以构造与目标IP和地标IP之间的距离差成反比的第一边缘权重，表示为：

其中，t、l和r分别表示目标IP、地标IP和公共路由器；

Δ²(t，l)通过距离映射函数d(·，r)将网络测量值映射到地理距离，并计算t和l之间的径向距离差；

所述距离映射函数的表达式如下：

d(·，r)＝α(βlog RTT(·，r)+Hop(·，r))+γ 式2，

其中，RTT(·，r)和Hop(·，r)分别表示IP主机和公共路由器之间的延迟和路由跳数，α、β和γ是超参数，所述超参数是以网络测量为输入，使用全连接层网络学习并获得；前述(·，r)为(t，r)或(l，r)。

本发明步骤S2中，利用IP地址之间的特征相似度来构建第二边缘权重，以更好地连接图结点并描述它们之间的关系；具体地，已知目标IP(t)和地标IP(l)，通过拼接任意两个IP的特征向量，计算其点积来得到两两IP的相似度作为第二边缘权重，表达式如下：

其中，T表示矩阵转置，{X_t，X_l}表示目标IP和地标IP特征向量的拼接，W_q和W_k为通过神经网络学习获得的参数；式3将原始IP特征引入度量空间，并交互提取相似度，以获得更好的语义相关性。

本发明中，利用两个不同视角的边权重

和

将拓扑关系和IP主机知识都纳入到结构化信息中；然而，建立的当前结构是一个完全图；这不仅会消耗大量的计算资源，而且会考虑一些不相关的节点，导致效率低下和不准确；因此，本发明引入了一种机制来融合两种视角的边权重并控制最终图的稀疏性；具体的，将第一边缘权重

和第二边缘权重

融合并控制最终图的稀疏性，得到拓扑图结构描述如下：

本发明的步骤S3的目的是应对网络环境的复杂多变以及不稳定的特性；本发明采用生成模型(Generative Model)正则化流(NF)中较为灵活且高效的连续正则化流(Continuous Normalizing Flow，CNF)技术，结合已经获得的图结构，以概率化的形式进行图结点的聚合；所述步骤S3的具体过程如下：

首先，利用图卷积神经网络(GCN)得到一个简单的高斯分布：

其中，

和

是初始随机变量和概率分布，那么分布变化可表示为：

本发明中，所述步骤S4中，使用多层感知机进行线性仿射变化，以对目标IP地址进行经纬度预测，以获得目标IP地址，表达式为：

基于前述的图神经网络的街道级IP地址定位的网络及框架构建完毕，本发明从均值为0，方差为0.1的正态分布中随机采样足够的数，作为网络的初始参数；本发明的目的是得到IP地址定位任务上性能优异的系统；因此，上述训练的目标是最小化预测的经纬度与真实标签之间的地理距离，为提高优化效率，本发明把该距离的均方误差(Mean SquareError，MSE)作为损失函数，并使用小批次随机梯度下降法，进行梯度下降更新参数，得到有良好预测效果的参数。同时，我们也通过该指标，结合平均绝对误差(Mean AbsoluteError，MAE)，中位数来评估模型IP定位效果。

至此，本发明实现了一种基于图神经网络的街道级IP定位框架，需要申明的一点是，本发明提供的的框架不对使用的图神经网络本身做任何的限制，因此可以与任何先进的图神经网络结合使用，具有良好的可扩展性。由于在IP分类这类回归问题上，简单的图卷积神经网络高效且表现良好，因此我们的框架通常与卷积神经网络结合在一起使用。

实验说明

为了验证本发明基于图神经网络的街道级IP地址定位的有效性，本实施例采用了从纽约、洛杉矶和上海三个大都市收集的三个大规模真实IP地理定位数据集，分别由91808、92804和126258个IP地址组成。同时，采用了多种IP定位方法，表格数据学习方法，以及图神经网络模型作为基线对比，评判效果。

本应用例使用均方根误差(Root Mean Squared Error，RMSE)、平均绝对误差(MeanAbsolute Error，MAE)和误差中位数(Median)作为评价指标(值越低，模型方法越好)。其中，Ours代表本实施例提供的定位系统的测试结果，最佳结果用粗体表示。

表1：IP地址定位实验结果

对表格中其余方法的介绍如下：

CBG：建立一个连续的空间，并使用具有距离约束的多边定位来推断Internet主机的地理位置，其实现过程参考文献【Bamba Gueye，Artur Ziviani，Mark Crovella，andSerge Fdida.2006.Constraint-Based Geolocation of Internet Hosts.IEEE/ACMTrans.Netw.(2006)，1219-1232】；

TBG：是一种基于拓扑的地理定位方法，它将拓扑和通信延迟转换为一组约束条件，以同时对路由器和Internet主机进行地理定位，其实现过程参考文献【Ethan Katz-Bassett，John P John，Arvind Krishnamurthy，David Wetherall，Thomas Anderson，andYatin Chawathe.2006.Towards IP geolocation using delay and topologymeasurements.In SIGCOMM.71-84】；

TLP：提出了IP范围内插的概念，并将其与跟踪路由延迟邻居相结合，用于IP地理定位。其方法过程参考文献【0vidiu Dan，Vaibhav Parikh，and Brian D Davison.2021.IPGeolocation Using Traceroute Location Propagation andIP RangeLocationInterpolation.In WWW.332-338】；

SVR：基于支持向量机的回归模型。它将每个数据项绘制为n维空间中的一个点，我们可以绘制一个超平面，使得我们的目标与平面逼近。对于支持向量机的核函数，我们选择线性核。它也可以用于IP地址定位任务中，其实现过程参考文献【Qian Zhao，FeiWang，CanHuang，and Chuan Yu.2020.Improving IP geolocationdatabases based on multi-method classification.In ASID.44-48.】；

AutoInt：是一种针对表格数据自动进行特征交互学习的模型。它利用自注意力机制建立多种特征之间的联系和，可以用于预测、缺失值填充等多项任务。其方法过程参考文献【Sercan

Arik and Tomas Pfister.2021.TabNet：Attentive Interpretable TabularLearning.In AAAI.6679-6687】；

GAE：是一种图神经网络模型。它学习潜在变量并以概率形式进行变分推理，以处理图结构数据，使用简单的高斯分布进行在图结构上进行不确定性建模。实现过程可分别参考文献【Thomas N.Kipf and Max Welling.2016.Variational Graph Auto-Encoders.arXiv：1611.07308】；

GAT：是一种图神经网络模型。在聚合特征时，使用注意力机制来构建节点之间的关系，用于图结构的构建和补充。其实现过程和细节参考文献【Petar Velickovic，GuillemCucurull，Arantxa Casanova，Adriana Romero，Pietro Liò，and YoshuaBengio.2018.Graph Attention Networks.In ICLR】；

Graphomer：结合了图神经网络与Transformer框架。它建立在标准的Transformer体系结构的基础上，可以在广泛的图形学习任务中获得优异的结果。其实现过程和细节可参考【Chengxuan Ying，Tianle Cai，Shengjie Luo，Shuxin Zheng，Guolin Ke，Di He，Yanming Shen，and Tie-Yan Liu.2021.Do Transformers Really Perform Badly forGraph Representation？.In NeurIPS】；

从表1的实验结果可以看出，本实施例提供的基于图神经网络的街道级IP地址定位框架可用于街道级IP地址定位任务。相比于其他最先进的IP定位、机器学习方法以及图神经网络，本发明在均方根误差、平均绝对误差和误差中位数三个指标上的性能表现都大幅度提升。

由此可知，本发明利用基于图神经网络的街道级IP地址定位框架预测IP地址的经纬度进行定位，通过输入IP地址的特征(如运营商信息和WHOIS注册信息等)和网络测量(如ping值和traceroute路由路径)，可以较为准确地给出目标IP地址的位置信息。同时，本发明也提供了基于图神经网络进行IP地址定位的一个通用框架。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。