CN110851588B

CN110851588B - 基于概率主题模型的网络定位方法及系统

Info

Publication number: CN110851588B
Application number: CN201810828837.3A
Authority: CN
Inventors: 周杨; 张龙; 徐青; 吕亮; 施群山; 张衡; 蓝朝桢; 陈安东; 胡校飞; 赵海鹏
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2022-04-12
Anticipated expiration: 2038-07-25
Also published as: CN110851588A

Abstract

本发明涉及基于概率主题模型的网络定位方法及系统，首先利用IP定位方法获取网络实体的定位结果，确定网络实体初步的空间分布范围；然后利用主题分类模型从网络实体对应的文本信息中提取得到相应的高频词汇，并获取高频词汇对应的主题；接着判定得到网络实体所属的地物类型；最后将缓冲区与地理图层进行叠置，在缓冲区内检索到网络实体所属的地物，根据得到的地物位置实现网络定位。该定位方法在一定程度上可以缩减网络实体定位范围，缩减原有定位结果的空间分布范围，有效优化IP定位结果，实现网络定位结果的进一步优化。

Description

基于概率主题模型的网络定位方法及系统

技术领域

本发明涉及基于概率主题模型的网络定位方法及系统。

背景技术

当前，互联网在工作、生活、娱乐等方方面面给人们带来了巨大便利，但同时也为网络犯罪、网络谣言散布等违法活动提供了新的途径。如2017年5月12日全球蔓延的WannaCry勒索病毒席卷了至少150个国家的20万台电脑，给人们造成了巨大损失。因此，打击网络犯罪变得尤为迫切，而确定网络犯罪份子或者网络攻击源的地理位置能够为执法部门抓捕犯罪分子提供重要帮助。当前，在互联网上，通常利用IP地址来确定联网设备或使用者的地理位置，也常称为IP定位。将网络IP地址与网络实体资源进行映射关联开展IP实体定位，是网络安全领域研究的热点问题之一。

网络实体指从事网络行为活动的基础设备，包含有路由器、服务器、PC电脑和交换机等。近十几年来，基于IP的网络实体地理定位技术的研究取得了很多优秀的成果，如EndoP T提出的基于Whois数据库的定位方法；Gueye等人基于多点定位思想，尝试利用时延与地理距离转换关系确定目标节点的位置；Eriksso基于机器学习思想，利用探测源与目标间距离的概率分布，利用训练的数学模型定位到概率较大地区；Wang Y提出的SLG算法基于网络拓扑结构，逐层逼近并借助时延对距离进行约束，从而获取更细粒度的位置估计。

但IP定位精度不高是当前研究现实问题之一，Wang Y提出的算法精度较好，经过多次实验测试，其定位结果几乎分布在半径为50-5000米的缓冲区间。因此，现有基于网络测量的IP定位方法往往难以给出带有准确经纬度信息的可靠定位结果，通常仅能确定目标可能所处的大致区域(本文称为缓冲区)，网络实体定位结果通常处在某个区域级，定位精度较低，定位精度难以满足实际应用需求。

发明内容

本发明的目的是提供基于概率主题模型的网络定位方法及系统，用以解决IP定位方法的定位精度较低的问题。

为实现上述目的，本发明提供以下技术方案。

一种基于概率主题模型的网络定位方法，包括以下步骤：

(1)利用IP定位方法获取网络实体的定位结果，以网络定位结果中的中心点作为缓冲区中心点坐标，以误差范围为半径构建缓冲区，确定网络实体初步的空间分布范围；

(2)利用主题分类模型从网络实体对应的文本信息中提取得到相应的高频词汇，并进行主题归类，然后进行逆向推导，获取高频词汇对应的主题；

(3)根据高频词汇对对应的主题进行归类，并与划分得到的地物类别进行匹配；

(4)判定得到网络实体所属的地物类型；

(5)将所述缓冲区与地理图层进行叠置，获取缓冲区内的地物集，然后在缓冲区内检索到所述网络实体所属的地物，根据得到的地物位置实现网络定位。

引入概率主题模型，对使用对应IP地址的目标设备的文本信息内容进行解析，获得其主题类别，然后获取到对应的地物类型，在事先确定的初步空间分布范围内找到网络实体所属的地物类型，根据该地物类型实现定位，从而一定程度上可以缩减网络实体定位范围，缩减原有定位结果的空间分布范围，有效优化IP定位结果，实现网络定位结果的进一步优化。

进一步地，所述步骤(4)中，对使用网络实体设备的空间地物集进行归类，逐个统计所有文本信息中主题归属于某一地物集类别的概率分布，将概率分布值最大的地物类别判定为所述网络实体所属的地物类型，能够提高网络实体所属地物类型的判定精度。

进一步地，所述步骤(3)中，通过人工弱监督方法根据高频词汇对对应的主题进行归类。采用人工弱监督方法能够较为准确地对主题进行归类。

进一步地，所述步骤(2)中，利用Gibbs采样方法进行迭代设定次数至迭代收敛平衡，以对文本信息内容进行逆向推导，获取对应的高频词汇。利用Gibbs采样方法能够较为准确地获取到相应的高频词汇。

一种基于概率主题模型的网络定位系统，包括存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序，所述处理器在执行所述计算机程序时实现的步骤包括：

(4)判定得到网络实体所属的地物类型；

进一步地，所述步骤(4)中，对使用网络实体设备的空间地物集进行归类，逐个统计所有文本信息中主题归属于某一地物集类别的概率分布，将概率分布值最大的地物类别判定为所述网络实体所属的地物类型。

进一步地，所述步骤(3)中，通过人工弱监督方法根据高频词汇对对应的主题进行归类。

进一步地，所述步骤(2)中，利用Gibbs采样方法进行迭代设定次数至迭代收敛平衡，以对文本信息内容进行逆向推导，获取对应的高频词汇。

附图说明

图1是提供基于概率主题模型的网络定位方法的流程图；

图2是基于LDA主题分类模型的图模型结构示意图；

图3-a是实验数据一主题概率分布图；

图3-b是实验数据二主题概率分布图；

图3-c是实验数据三主题概率分布图；

图4-a是实验数据一对应的网络定位缓冲区与矢量图层叠加示意图；

图4-b是实验数据二对应的网络定位缓冲区与矢量图层叠加示意图；

图4-c是实验数据三对应的网络定位缓冲区与矢量图层叠加示意图。

具体实施方式

如图1所示，一种基于概率主题模型的网络定位方法，包括以下步骤：

(4)判定得到网络实体所属的地物类型；

(5)将所述缓冲区与地理图层进行叠置，获取缓冲区内的地物集，然后在缓冲区内检索到网络实体所属的地物，根据得到的地物位置实现网络定位。

以下基于各附图对基于概率主题模型的网络定位方法的各实施步骤进行具体说明，当然，该网络定位方法并不局限于下述各实施步骤的具体实现过程。

利用现有的多种IP定位方法中的任意一个IP定位方法均能够获取网络实体的定位结果，以网络定位结果中的中心点作为缓冲区中心点坐标，以误差范围为半径构建缓冲区，确定网络实体初步的空间分布范围。由于IP定位方法属于现有技术，这里就不再具体说明。

网络实体相关的文本内容或者文档信息，都有对应的关键主题，而不同的主题可以对应不同的地物类别，如“教育”、“教学”与学校或研究机构的关联性更大。通常情况下一篇文本可能对应多个主题，而一个主题对应多个关联词语。如何从文本信息中进行隐性语义分析，进而提取主题，较为经典的算法就是主题分类模型。主题分类模型是一种基于潜在语义的分类方法，通过对分解文本得到的词语进行主题归类，逆向推断文本潜在内部主题。

LDA(latent dirichlet allocation)主题分类模型较为经典，是由文档、主题、词语组成的三层贝叶斯分布，其基本思想是：虽然主题分布与词分布本身固定存在，但无法完全求解出主题分布、词分布的具体参数。将两种分布当作随机变量，通过这些分布生成的可观测量(文本本身)缩小方差来逆推分布参数的范围。本实施例基于该思想，先按照经验值给定服从的Dirichlet先验分布参数的较为合理的真实值，然后再从先验分布出发求解其后验分布，基本过程如图2所示。

图2中，从Dirichlet分布α中取样生成文本M_i的主题分布θ_i，从主题的多项式分布θ_i中取样生成文本M_i中第j个词的主题Z_i,j，从Dirichlet分布β中取样生成主题Z_i,j对应的词汇分布

从词汇的多项式分布

中采样生成最后的可观测文本变量w_i,j。

为了能较好地估计LDA未知参数θ和

本实施例引入Gibbs采样方法，该方法是马尔可夫链蒙特卡尔理论(MCMC)中用来获取一系列近似等于指定多维概率分布观察样本的算法，其中心思想为构造收敛于某个目标值的Markov链，在达到平衡状态之前不断舍弃产生的样本，直至平衡，并从链中抽样出被认为接近该概率分布值的样本。本实施例利用该思想来获取网络实体相关文本中主题分布与词分布的后验分布。如式(1-1)和式(1-2)所示，利用Gibbs采样方法，进行文本到主题的匹配后，n篇文档得到n行主题分布概率值，而一篇文章对应m行主题，每一行主题得到z个高频词汇分布概率值，概率分布矩阵如式(1-3)所示。

式(1-1)和式(1-2)中，θ_t,d是α的后验参数，θ表示doc-topic，即文本中隐含的网络实体主题概率分布，φ_w,t是β的后验参数，φ表示topic-word，即文本中隐含的所有词语在某一主题上的主题概率分布，n_t,d和n_w,t分别表示文本中选择主题t的词的个数和词w选择主题t的次数，n_i,d和n_v,t分别表示文本中选择主题i的词的个数和词v选择主题t的次数。

式(1-3)中，A为n篇网络实体主题概率分布或者一篇文本中高频词汇概率分布矩阵，其中a＝n(m)时，b＝m(z)。

因此，利用主题分类模型从网络实体对应的文本信息中提取得到相应的高频词汇，并进行主题归类，然后利用Gibbs采样方法进行迭代设定次数至迭代收敛平衡，以对文本信息内容进行逆向推导，获取对应的高频词汇。

为获知文本主要主题，本实施例引入弱监督方法，即自动求取每一篇文章主题分布概率值最大的主题后，将该主题对应的高频词汇前x个作为主题类别映射的参考，利用公众理解能力，通过人工弱监督方法将其人工归属到主题地物集中的某一类。因此，通过人工弱监督方法根据高频词汇对对应的主题进行归类，并与划分得到的地物类别进行匹配。以表1为例，依据“登记、日期、入住、消费”等高频词汇出现，可初步认为该主题与住宿类别的地物具有更高的相关性。

表1

本实施例中，空间地物集是指符合公众认知的使用网络节点设备的地物群，通过对网络爬虫爬取的POI(point of interest，兴趣点)数据进行分类，按类别大致分为商铺、餐饮、住宅、文化教育、医疗等十一大类，如表2所示。

表2

对使用网络实体设备的空间地物集进行归类，逐个统计所有文本信息中主题归属于某一地物集类别的概率分布，将概率分布值最大的类别判定为网络实体所属的地物类型。

将网络空间定位实体与全要素矢量图层进行叠加，在此基础上进行缓冲区分析，具体即指以网络定位实体为缓冲区中心点，以网络IP定位精度范围作为邻域半径，自动创建网络定位实体缓冲圆形区域，确定网络定位实体的影响或服务范围。数学公式表达为B_i＝{x:d(x,O_i)≤R}，定义缓冲区为：距网络定位实体中心点O_i的距离(d)小于定位精度范围R的全部地物集合。

判选哪些地物纳入对应匹配类别的地物候选集的方法有两种：①通过将网络实体建立的缓冲区多边形与对应类别的矢量图层数据进行叠置，利用几何拓扑关系，将具有相交或者包含关系的矢量图层进行检索，进而从数据库检索矢量图层对应的属性信息即名称字段，从而得到网络实体缓冲多边形内所包含对应类别的空间地物集合；②通过计算地物集标注的地理位置信息(x_j，y_j)，与网络实体目标所获取的位置信息(x_Oi，y_Oi)求距离，即判断地物集内地物与定位实体间的距离关系是否满足

确定缓冲区内地物候选集，即指以定位的网络实体为中心建立的区域内，对应类别的地物均以检索完成。因此，在缓冲区内就能够检索到网络实体所属的地物，根据得到的地物位置实现网络定位。如果候选集内只有单个要素(即单个地物类型)，可将网络实体直接匹配至该要素；如果候选集内有多个元素，基于逻辑层面，定位实体归属每个地物的概率分布可能性是相同的，即对于对应地物候选集B＝{B_n；n＝1,2,...,i}，

但某种程度上，定位实体与地物候选集内元素间的距离(d(x_n,O_i))应该与归属每个地物的可能性呈负相关关系，即

伴随定位精度提升，距离越近，实体归属于该地物的可能性越大。

为验证上述网络定位方法的有效性，以下进行仿真实验，通过将三组地理位置已知的IP实体利用引入的概率主题模型进行地物匹配，将匹配后的地理位置区域与事先已知的地址通过对比进行验证。由于后验分布参数为近似估计值，所以将实验重复十次求其均值。

对所爬取的文本集进行数据预处理，先将中文文本进行分词处理，然后将中文标点符号和常用无意义词进行剔除。通常主题数应为类别数的两倍，本实施例涉及到的地物集共有11类，为此将单个文本的主题数设为22个。本实施例算法中先验参数α、β设为2、0.5，主题的高频词数设为10个，采样迭代次数选为1000次。

取三组实验数据，如表3所示，IP地址分别为202.196.x.x、122.114.x.x、49.122.x.x，对应单位名称分别为A酒店、B公司、C大学，IP定位的经纬度范围已知。通常网络IP定位结果在缓冲区范围内，数据形式为：(经度，纬度，半径)，缓冲区半径单位为米，即(x_i,y_i,R_i)。本实施例中实验数据一的网络实体资源经纬度范围为：(113.660，34.718，2000)，实验数据二的网络实体资源经纬度范围：(113.555，34.818，5000)，实验数据三的网络实体资源经纬度范围：(113.810，34.783，5000)。已有三组实验数据对应的文本数量分别为11、17、15，以这三组实验数据进行试验论证网络定位方法的有效性和可行性。

表3

数据序列	IP地址	对应单位	经度	纬度	缓冲区半径	文本数量
							实验数据一	202.196.x.x	A酒店	113.660	34.718	2000	11
实验数据二	122.114.x.x	B公司	113.555	34.818	5000	17
							实验数据三	49.122.x.x	C大学	113.810	34.783	5000	15

以下是实验过程：

利用Gibbs采样方法进行迭代1000次至迭代收敛平衡，可以得到文本综合后主题对应的高频词汇的概率分布，如表4分别是实验数据一、实验数据二、实验数据三中22个topic对应的高频词汇分布，其中“…”表示其他高频词汇。

表4

结合地物集类别，依据大众熟知的先验知识加入弱监督的人工分类方法，表中三组topic分别归属为酒店、住宅/公司企业/交通枢纽/军事单位、文化教育/军事单位。

每组实验获得22个topic，按照高频词汇概率分布，将主题与地物类别进行归类后，统计每一篇文本中主题所对应的概率分布，如图3-a、图3-b和图3-c所示，图中一条曲线代表一篇文本，每条曲线尖点峰值最大处时X轴坐标值对应代表的主题在该文本内概率值最大。以图3-a为例，图中曲线峰值在topic7处最为密集，主题7在4篇文本中分布概率比例最大，也说明该组实验数据归属于主题7对应地物集类别的可能性最大，进而将主题7的类别归属赋予该网络实体对应的地物类型。通过对三组实验数据进行试验，曲线峰值最密集处对应的地物类型分别为酒店、公司企业和文化教育类。

基于全要素的网络实体资源可视化系统，通过将网络定位缓冲区与矢量图层叠加，检索重叠部分内对应类型的地物名称，三组实验结果分别为图4-a、图4-b和图4-c。

如图4-a至图4-c所示，通过网络定位缓冲区与地理矢量图层叠加后，检索获知缓冲区内对应地物名称，并用红色点进行了标注，图4-a中酒店类型地物为A-J，图4-b中公司企业类型地物为A-K，图4-c中大学类型地物为A-J。其中A酒店、B有限公司、C大学均在图4-a，图4-b，图4-c标注点中。实验结果表明，通过解析文本主题，进一步对应到定位结果缓冲区内地物的方法具有一定可行性和可靠性。

因此，本实施例提供的基于概率主题模型的网络定位方法利用概率主题模型对爬取的文本信息进行弱监督主题提取，并与网络定位结果缓冲区内对应类型的地物集进行匹配，从而缩减了原有定位结果的空间分布范围，有效优化网络定位结果。采用三组仿真数据进行实验，验证了该方法的有效性和可行性。

另外，该方法在部分机构类别地物的网络服务存在托管等的情况下，也存在一些局限性。后续可以开展研究的工作主要有两部分：(1)改进文本分类模型，本实施例引入的概率主题模型中未考虑词序间的顺序关系，下一步研究工作中可以通过引入二元语法和词向量，从而进一步提高主题提取的准确度和可靠性；(2)优化检索方法，将地物集进行分类后，可以预先对定位缓冲区内的地物类别进行检索，一定程度上可以缩小检索范围，提升检索速度。

以上给出了具体的实施方式，但本发明不局限于所描述的实施方式。本发明的基本思路在于上述基本方案，对本领域普通技术人员而言，根据本发明的教导，设计出各种变形的模型、公式、参数并不需要花费创造性劳动。在不脱离本发明的原理和精神的情况下对实施方式进行的变化、修改、替换和变型仍落入本发明的保护范围内。

Claims

1.一种基于概率主题模型的网络定位方法，其特征在于，包括以下步骤：

(4)判定得到网络实体所属的地物类型；

(5)将所述缓冲区与地理图层进行叠置，获取缓冲区内的地物集，然后在缓冲区内检索到所述网络实体所属的地物，根据得到的地物位置实现网络定位；

所述步骤(4)中，对使用网络实体设备的空间地物集进行归类，逐个统计所有文本信息中主题归属于某一地物集类别的概率分布，将概率分布值最大的地物类别判定为所述网络实体所属的地物类型。

2.根据权利要求1所述的基于概率主题模型的网络定位方法，其特征在于，所述步骤(3)中，通过人工弱监督方法根据高频词汇对对应的主题进行归类。

3.根据权利要求1所述的基于概率主题模型的网络定位方法，其特征在于，所述步骤(2)中，利用Gibbs采样方法进行迭代设定次数至迭代收敛平衡，以对文本信息内容进行逆向推导，获取对应的高频词汇。

4.一种基于概率主题模型的网络定位系统，包括存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序，其特征在于，所述处理器在执行所述计算机程序时实现的步骤包括：

(4)判定得到网络实体所属的地物类型；

5.根据权利要求4所述的基于概率主题模型的网络定位系统，其特征在于，所述步骤(3)中，通过人工弱监督方法根据高频词汇对对应的主题进行归类。

6.根据权利要求4所述的基于概率主题模型的网络定位系统，其特征在于，所述步骤(2)中，利用Gibbs采样方法进行迭代设定次数至迭代收敛平衡，以对文本信息内容进行逆向推导，获取对应的高频词汇。