CN110311991A - 基于svm分类模型的街道级地标获取方法 - Google Patents
基于svm分类模型的街道级地标获取方法 Download PDFInfo
- Publication number
- CN110311991A CN110311991A CN201910128483.6A CN201910128483A CN110311991A CN 110311991 A CN110311991 A CN 110311991A CN 201910128483 A CN201910128483 A CN 201910128483A CN 110311991 A CN110311991 A CN 110311991A
- Authority
- CN
- China
- Prior art keywords
- grade
- service
- ordering relation
- street
- svm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2101/00—Indexing scheme associated with group H04L61/00
- H04L2101/60—Types of network addresses
- H04L2101/69—Types of network addresses using geographic information, e.g. room number
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了基于SVM分类模型的街道级地标获取方法,针对当前已有地标获取方法无法快速获取大量街道级地标的不足,提出利用开放端口识别该IP上所承载的服务,并对IP进行域名反解析,同时构建地区机构信息库,并基于该机构信息库使用社会工程学手段,结合数据库查询和在线地图的方法得到候选街道级地标,最后使用街道级地标评估方法对获得的候选街道级地标进行评估得到可靠街道级地标;本发明所述的基于SVM分类模型的街道地标获取方法能够在更短的时间内获得更多的街道级可靠地标。
Description
技术领域
本发明涉及街道地标获取领域,尤其涉及基于SVM分类模型的街道地标获取方法。
背景技术
高精度的IP定位在追踪网络攻击对象、定位隐蔽通信主体和减少P2P下载时间等方面具有很高的应用前景。街道级IP定位对街道级地标(IP和地理地址已知的网络实体)提出了高密度的要求。如何获取丰富的街道级地标,是街道级IP定位中极需解决的问题。当前,获取地标的主要方法有数据库查询,以及基于Web的地标挖掘方法。
基于IP位置数据库查询的地标获取方法使用数据库API接口,从已有IP位置数据库中获取地标。当前,多数IP位置数据库(如 Baidu、IPIP、IP.cn等)提供免费API接口,部分商业公司(如MaxMind 等)提供收费的API接口。使用数据库API接口能够在短时间内获得大量地标。但由于这些数据库提供的地标精度仅到城市级别,且数据库总的可靠性不高。因此,使用该方法难以获得大量可靠的街道级地标。
Guo C等人提出的Structon方法是一种基于Web挖掘的地标获取方法。使用Microsoft Research Asia的Web搜索和挖掘小组抓取的74M个中文网页,在过滤URL中包含“blog”,“bbs”,“forum”的页面后,使用正则表达式从网页中提取位置信息(地址、区域代码和邮政编码)。若从一个页面中提取出多个位置,则仅选择出现在网页中的最后一个地址;若地址、区域代码和邮政编码所属区域不一致,则根据同IP段中的其他IP的位置分别计算每个可能位置的位置权值,最大权值位置为IP的位置。该方法获在获取地标时从每个Web页面中提取位置信息,需要大量的Web页面源,且地标获取的时间开销大。
Jiang H等人根据维基百科中高校列表获取美国大学信息,将大学主页的IP和大学位置信息关联,建立大学网站地标库;同时,利用美国38186个城市和城镇的地理位置及人口,将每个州人口最多的前60个城市和城镇的政府网站与政府位置关联,得到城市/城镇数据集。这种方法仅能获取特定行业的机构信息,所获取的街道级地标数量少。且对大量的网页进行爬取,时间开销较大。
从搜索引擎日志中提取用户搜索的地点名词,并将其与搜索时使用的IP相关联,通过IP聚合,并计算不同地点名词的权值,得到 IP的城市级位置。该方法从数据分析的角度进行地标获取,能够获得大量的城市级地标,但该方法在实际使用过程中存在三个限制,一是数据集的获得需要与搜索引擎公司合作;二是从搜索引擎日志中识别提取细粒度地点名词难度较大;三是由于用户在使用搜索引擎的过程中往往不会输入细粒度的位置(如街道级位置),使用该方法很难获得大量的街道级地标。
Wang Y等人提出另外一种基于Web的地标获取方法。该方法的主要思路是:许多公司、企业、政府部门等单位都拥有自己的Web服务器,可以将这些Web服务器与在线地图查询结合起来,实现Web服务器与其地理位置的映射关系。该方法使用区域邮政编码,能够验证获取地标的区县级位置,但该方法仅能获取被在线地图收录的、网络发达地区的Web服务器,地标挖掘的数量和范围有限。
朱光等人提出基于互联网论坛的城市级地标挖掘方法,该方法通过分析不同类型的论坛特点,给出适合作为候选地标挖掘对象的主题论坛,并基于论坛名称中的语义信息推测出论坛用户集中所处的地理位置。与从在线地图中获取地标的方法相比,挖掘的地标数量与范围都增大,但方法获取的地标为城市级地标,无法满足高精度定位对大量街道级地标的需求。
另外,还有其他一些地标获取途径,如基于目标协作方式获取地标。IP位置数据库中将IP与其所在地理位置关联起来,通过数据库查询手段,能够快速获得大量地标。这些IP位置数据库虽然在中国城市级别地区的可靠性较高,但在其他国家城市的可靠性较低,且数据库中的位置粒度仅到城市级,无法从中获得更高精度的地标数据。越来越多的移动联网设备(如智能手机、PDA、平板电脑等)嵌入了 GPS模块,这些移动设备自定位后,将自己的经度、纬度等信息发送到控制端,实现目标设备IP到地理位置的映射。该类方法获取的地标精度高、可靠性高,但是需要目标端硬件的支持,且不易于大批量获取地标。
发明内容
本发明的目的在于提供基于SVM分类模型的街道地标获取方法,针对当前已有地标获取方法无法快速获取大量街道级地标的不足,从而得到街道级地标,并使用街道级地标评估方法对获得的候选地标进行评估。
为了实现上述目的,本发明采用以下技术方案:
基于SVM分类模型的街道地标获取方法,包括以下步骤:
步骤1:使用端口扫描工具对已知服务类型的IP的端口进行开放端口扫描,得到各IP的端口的开放情况;
步骤2:根据步骤1得到的已知服务类型的IP的开放端口进行服务等级划分;
步骤3:根据步骤2得到的IP服务等级间的偏序关系,构建服务等级间的全序关系。同时,针对每个服务等级训练SVM分类模型,依据全序关系,将所有SVM分类模型构建偏二叉树;
步骤4:使用步骤3中的偏二叉树对未知服务类型的IP进行分类,对所有的非用户主机IP,分别在多个DNS服务器下进行域名解析,得到IP对应的域名信息;若一个IP解析出多个域名信息,则分别建立IP与域名的映射关系;同时,基于投票策略得出未知服务类型IP所属于城市,并基于社会工程学方法构建该城市的机构信息库;
步骤5:根据步骤4中得到的域名的特点,对域名进行分类;
步骤6:对步骤5中得到的每类域名,依据其特点,利用在线地图、数据库查询、机构信息库匹配方法中的一种或多种,来获得域名对应的机构名;
步骤7:依据步骤6中得到的机构名获取地理位置信息,从而建立地理信息与域名IP之间的映射关系,得到街道级候选地标;
步骤8:对步骤7得到的街道级候选地标,使用街道级地标评估方法进行评估,从而得到可靠街道级地标。
所述步骤2包括以下步骤:
步骤2.1:依据IP的服务端口和运维端口,为IP建立服务等级间的偏序关系;具体采用以下方法:
对任意两类服务类型的IP,分别记为SE(serv1)和SE(serv2),对其服务端口集合SPort()和运维端口集合OPort(),若满足
则serv1的等级比serv2高,即:
有0<gradei<gradej;
若满足
则serv1的等级与serv2相同,即:
有0<gradei=gradej;
步骤2.2:构建偏序关系转换全序关系的规则,依据步骤2.1得到的偏序关系为IP建立所有服务等级间的全序关系;具体采用以下方法:
若两个服务等级间偏序关系的最大元相同,而最小元不同,则两个服务等级间转换全序关系时,最大元作为全序关系的最大元,任意选择两个服务等级中的其中一个偏序关系的最小元作为全序关系的最小元;若两个服务等级间偏序关系的最小元相同,而最大元不同,则两个服务等级间转换全序关系时,最小元为全序关系的最小元,任意选择两个服务等级中的其中一个偏序关系的最大元作为全序关系的最大元;若其中某类服务等级与其他服务等级均不构成偏序关系,则转换全序关系时,该类服务等级作为全序关系的最大元;
步骤2.3:依据步骤2.2得到的所有服务等级间的全序关系,对 IP的各类服务类型的服务等级进行赋值,服务等级值为正整数;
所述步骤3包括以下步骤:
步骤3.1:对每个参与SVM分类模型训练的服务器IP向量化,具体采用以下方法:
根据参与SVM分类模型训练的服务器IP的端口扫描结果,确定向量维数m,
其中,n为服务类型的种类, Port(FeatureE(service))=SPort(SE(service))∪OPort(SE(service))。对每个类型的服务器,依据在集合上的端口开放情况建立端口向量;如若Port(Ei)={80,443,8000,8443},则Ei的端口向量VP(Ei)=(0,1,0,1,1);
步骤3.2:分类器训练:
在训练SVM分类器时,训练集由两类或两类以上网络实体的端口向量组成,训练第i(1≤i≤n)个分类器时,训练集Ci={VP(Ek)|gradek≥i},其正样本Ti={VP(Ek)|gradek=i},gradek为网络实体Ek的服务等级;构建用于分类的偏二叉树,偏二叉树上的第i层为训练的第i个分类器(根节点视为第1层);
步骤3.3:分类器分类:
使用分类器进行分类时,测试集为S={VP(Ek)|gradek=0},从偏二叉树的根节点开始,对训练集进行分类;用VP(Ek)→SVMi表示使用SVMi对 Ek进行分类,|VP(Ek)→SVMi|为Ek在SVMi中的分类结果;
当存在SVMi+1时,
若|VP(Ek)→SVMi|=True,则gradek=i;
若|VP(Ek)→SVMi|=False,则VP(Ek)→SVMi+1;
当SVMi+1不存在时,
若|VP(Ek)→SVMi|=True,则gradek=i;
若|VP(Ek)→SVMi|=False,则gradek=0。
本发明的有益效果:
本发明针对当前已有地标获取方法无法快速获取大量街道级地标的不足,提出基于SVM分类模型的街道地标获取方法,利用开放端口识别该IP上所承载的服务,并对IP进行域名反解析,同时使用社会工程学手段构建特定地区的机构信息库,并基于该机构信息库,结合数据库查询和在线地图的方法得到候选街道级地标;本发明所述的基于SVM分类模型的街道地标获取方法能够在更短的时间内获得更多的街道级可靠地标。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图;
图2所示为将偏序关系转换为全序关系的策略图a;
图3所示为将偏序关系转换为全序关系的策略图b;
图4所示为将偏序关系转换为全序关系的策略图c。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示:本发明所述的基于SVM分类模型的街道地标获取方法,包括以下步骤:
步骤1:使用端口扫描工具对已知服务类型的IP的端口进行开放端口扫描,得到各IP的端口的开放情况;
步骤2:根据步骤1得到的已知服务类型的IP的开放端口进行服务等级划分,主要采用以下方法:
步骤2.1:依据IP的服务端口和运维端口,为IP建立服务等级间的偏序关系;具体采用以下方法:
对任意两类服务类型(如serv1、serv2)的IP,分别记为SE(serv1) 和SE(serv2),对其服务端口集合SPort()(根据RFC 6335中的服务类型与端口号之间的关系得到的集合)和运维端口集合OPort()(SE ()集合的所有网络实体中,超过20%的网络实体开放的除SPort() 外的其他端口的集合),若满足
则serv1的等级比serv2高,即:
有0<gradei<gradej;
若满足
则serv1的等级与serv2相同,即:
有;
其中,网络实体E={IP,lng,lat,grade},进一步的,0<gradei=gradej IP,lng,lat,grade分别表示网络实体E的IP、经度、纬度以及服务等级值;若网络实体E上开放多项服务,则服务等级值取最高服务的服务等级值;若网络实体上开放的服务未知,则该网络实体的服务等级值为0;
Port(Ei)为开放端口集合,即网络实体Ei开放的所有端口的集合;
SE(service)为所有开放service类型服务的网络实体E所构成的集合,有0<gradei=gradej;需要说明的是,由主机构成的网络实体集合记为SE(Hosts);
EPort(SE(service))为同服务实体开放端口集合,即所有开放service 服务的网络实体E所开放的所有端口的集合;其中:
SPort(SE(service))为服务端口集合,即从IANA指定的系统端口中,根据常见服务的端口号列表得到的端口集合;
OPort(SE(service))为运维端口集合,即SE(service)中不少于20%的网络实体开放的运维端口的集合;其中:
其中fun(x)为判断函数,当x为真时,fun(x)=1;反之,fun(x)=0;
FeatureE(service)为特征网络实体集合,即最能代表开放service服务的网络实体E的特征的网络实体集合;该网络实体是构造的,不一定在SE(service)中出现,其开放端口 Port(FeatureE(service))=SPort(SE(service))∪OPort(SE(service));
步骤2.2:构建偏序关系转换全序关系的规则,依据步骤2.1得到的偏序关系为IP建立所有服务等级间的全序关系;具体采用以下方法:
如图2、图3和图4所示为将偏序关系转换为全序关系的策略图;偏序关系转换全序关系的规则为:若两个服务等级间偏序关系的最大元相同,而最小元不同,则两个服务等级间转换全序关系时,最大元作为全序关系的最大元,任意选择两个服务等级中的其中一个偏序关系的最小元作为全序关系的最小元;若两个服务等级间偏序关系的最小元相同,而最大元不同,则两个服务等级间转换全序关系时,最小元为全序关系的最小元,任意选择两个服务等级中的其中一个偏序关系的最大元作为全序关系的最大元;若其中某类服务等级与其他服务等级均不构成偏序关系,则转换全序关系时,该类服务等级作为全序关系的最大元;
步骤2.3:依据步骤2.2得到的所有服务等级间的全序关系,对 IP的各类服务类型的服务等级进行赋值,服务等级值为正整数;具体采用以下方法:
服务等级取值为1,2,…,n,全序关系中最大元的服务等级值为1,最小元的服务等级值为n,主机类型网络实体的服务等级为n+1;
其中,服务等级值越大,该服务类型对应IP的服务等级越低。
使用等级划分依据两类服务的SPort()和OPort()间的关系,等级划分后,能够避免由于高等级服务的OPort()与低等级服务的SPort()有交集,而对分类带来的准确率降低的影响。
步骤3:根据步骤2.1得到的IP服务等级间的偏序关系,对每个服务等级训练SVM分类模型,将所有分类模型构建偏二叉树;具体采用以下方法:
步骤3.1:对每个参与SVM分类模型训练的服务器IP向量化,具体采用以下方法:
根据参与SVM分类模型训练的服务器IP的端口扫描结果,确定向量维数m,
其中,n为服务类型的种类,Port(FeatureE(service))=SPort(SE(service))∪OPort(SE(service))。对每个类型的服务器,依据在集合上的端口开放情况建立端口向量;如若Port(Ei)={80,443,8000,8443},则Ei的端口向量VP(Ei)=(0,1,0,1,1);
步骤3.2:分类器训练:
在训练SVM分类器时,训练集由两类或两类以上网络实体的端口向量组成,训练第i(1≤i≤n)个分类器时,训练集Ci={VP(Ek)|gradek≥i},其正样本Ti={VP(Ek)|gradek=i},gradek为网络实体Ek的服务等级;构建用于分类的偏二叉树,偏二叉树上的第i层为训练的第i个分类器(根节点视为第1层);
步骤3.3:分类器分类:
使用分类器进行分类时,测试集为S={VP(Ek)|gradek=0},从偏二叉树的根节点开始,对训练集进行分类;用VP(Ek)→SVMi表示使用SVMi对 Ek进行分类,|VP(Ek)→SVMi|为Ek在SVMi中的分类结果;
当存在SVMi+1时,
若|VP(Ek)→SVMi|=True,则gradek=i;
若|VP(Ek)→SVMi|=False,则VP(Ek)→SVMi+1;
当SVMi+1不存在时,
若|VP(Ek)→SVMi|=True,则gradek=i;
若|VP(Ek)→SVMi|=False,则gradek=0;
步骤4:IP反解析域名,具体采用以下方法:
使用步骤3中的偏二叉树对未知服务类型的IP进行分类,对所有的非用户主机IP,分别在多个DNS服务器下进行域名解析,得到 IP对应的域名信息;若一个IP解析出多个域名信息,则分别建立IP 与域名的映射关系;同时,基于投票策略得出未知服务类型IP所属于城市,并基于社会工程学方法构建该城市的机构信息库;
步骤5:根据步骤4得到的IP反解析域名的特点,对域名进行分类,具体采用以下方法:
ICANN定义了代表各个国家的顶级域名(国家的顶级域名通常由两个英文字母组成),同时还定义了.top、.com、.edu、.gov、.org 等顶级类别域名;顶级域名之下的二级域名,通常也是按类别进行分类的,如教育科研类二级域名.edu、.ca、.com等;为快速获得域名中的机构信息字段,需要对域名进行分类处理;
本文将域名主要分为三类,类别1为.top、.com、.edu、.gov、.org 等顶级域名;类别2为.com、.edu、.ca、.gov、.org等二级域名;类别3为其他域名;
根据ICANN的定义,.top表示商业机构(个人也可注册),.com 表示商业机构,.edu表示教育机构,.gov表示政府机构,.org表示非营利性组织;国家域名下,表示类别的二级域名通常通常含义与 ICANN中的含义相同,即国家域名下的.com域名表示商业机构、.edu表示教育机构(一些国家也用.ca表示科研教育机构)、.org表示非营利性组织、.gov表示政府部门。这些域名下的子域名通常机构信息(如哈佛大学的域名为harvard.edu),能够从机构信息中进行机构名推断。
通过域名分类,将大概率包含机构信息的域名分成一类,在使用社会工程学策略进行机构信息推断时,能够提高推断效率。
步骤6:针对不同类型的域名,使用对应的机构信息获取策略来获取机构信息,具体采用以下方法:
机构信息获取策略主要有数据库查询、在线地图以及社会工程学三种策略;数据库查询指通过域名备案网站(如中国工信部的域名备案系统),查询域名对应的机构信息;在线地图方式则是使用在线地图服务查询域名,得到域名所对应的机构信息;社会工程学策略则是根据域名中的信息字段对机构信息进行推断;下面详细对社会工程学策略进行介绍。
社会工程学策略主要分为构建机构信息库和机构名匹配两个步骤:
一、构建机构信息库:从当前公开的数据集中获取特定地区的 POI数据,并从POI数据中分析选择出可能具有服务器的机构名及类别,并在此基础上进行数据规模的扩充;由于当前域名主要由字母组成,因此,将机构名转换为字母组合表示,一个域名可能转换得到多个字母组合,如机构名“武汉大学”,其类别为“大学”,则转换得到的字母组合为“wuhandaxue”、“whdx”、”wuda”、”wuhanuniversity”、“whu”;将机构名与其字母组合相关联,构建机构信息库。
二、机构名匹配:提取域名中类别域名下的子域名字段,该字段通常为字母组合字段,对非英语国家中的IP所对应的域名,利用该字段从构建的机构信息库中匹配机构名;对英语国家中的IP所对应的域名,直接将该字段作为机构名;将域名对应的IP关联匹配到的机构名,得到地标,若匹配到多个机构名,则构建多个地标。
步骤7:建立机构地理信息与域名IP之间的映射关系,得到街道级候选地标;
步骤8:对步骤7得到的街道级候选地标,使用街道级地标评估方法进行评估,从而得到可靠街道级地标。
为了便于本领域技术人员进一步理解本发明的技术方案,下面将以具体实施例对本发明所述的技术方案做进一步说明:
步骤1:根据[IANA(2018)],DNS、Email和Web服务的服务端口如下表1所示。并分别对380个DNS服务器(280个用于训练,100 上用于测试)、1100个Email服务器(1000个用于训练,100上用于测试)、1000个Web服务器IP(900个用于训练,100上用于测试) 和1200个主机IP(1200个用于训练),使用Nmap探测工具对0到 49151端口的开放情况进行探测。
表1为DNS服务、Email服务、和Web服务的服务端口;
步骤2:对步骤1得到的DNS服务器、Email服务器、Web服务器IP和主机IP的端口开放情况进行服务等级划分,主要采用以下方法:
步骤2.1:依据步骤1统计的DNS服务器、Email服务器、Web服务器IP和主机IP的端口开放情况得到运维端口OPort(),为DNS服务器、Email服务器、Web服务器IP和主机IP建立服务等级间的偏序关系;,构建的服务等级间偏序关系为Web<DNS、Web<Email;
步骤2.2:依据步骤2.1得到的偏序关系为IP建立所有服务等级间的全序关系;最终得到全序关系为Web<Email<DNS;
步骤2.3:依据步骤2.2得到的所有服务等级间的全序关系,对 IP的各类服务类型的服务等级进行赋值,服务等级值为正整数;
步骤3:根据步骤2.1得到的IP服务等级间的偏序关系,对每个服务等级训练SVM分类模型,将所有分类模型构建偏二叉树;具体采用以下方法:
步骤3.1:对每个参与SVM分类模型训练的服务器IP向量化,具体采用以下方法:
根据FeatureE(DNS)、FeatureE(Email)、FeatureE(Web)和FeatureE(host)(认为)的交集,得到向量维度m=317,并将端口扫描结果进行向量化处理;
步骤3.2:分类器训练:
当核函数分别为linear、rbf和sigmoid时,分别取惩罚因子C 为2.0、1.0、0.5、0.2进行DNS服务器、Email服务器、Web服务器的SVM分类器训练(分别命名为SVM11、SVM12、SVM13);其中,训练SVM11时,训练集C1={VP(Ea)|Ea∈SE(DNS)} ∪{VP(Eb)|Eb∈SE(Email)}∪{VP(Ec)|Ec∈SE(Web)}∪{VP(Ed)|Ed∈SE(Hosts)},
其中1≤a,b,c,d≤200,正样本T1={VP(Ek)|Ek∈SE(DNS),1≤k≤200};训练SVM12时,训练集 C2={VP(Ea)|Ea∈SE(Email)}∪{VP(Eb)|Eb∈SE(Web)}∪{VP(Ec)|Ec∈SE(Hosts)},其中 1≤a,b,c≤200,正样本T2={VP(Ek)|Ek∈SE(Email),1≤k≤200};训练SVM13时,训练集C3={VP(Ea)|Ea∈SE(Web)}∪{VP(Eb)|Eb∈SE(Hosts)},其中1≤a,b≤200,正样本T3={VP(Ek)|Ek∈SE(Web),1≤k≤200};使用训练得到的模型分别对另外100 个已知类型的服务器进行分类,统计真正例(True Positive,TP)、假正例(False Positive,FP)、真负例(True Negative,TN)、假负例(False Negative,FN)的值,并根据
计算不同核函数和惩罚因子下模型的准确率和召回率从准确率和召回率来看,核函数linear对DNS、Email和Web服务器分类比其他核函数好;同时,在核函数为linear时,惩罚因子C对准确率和召回率影响较小;依次依据
本文中训练SVM分类模型的核函数为linear,惩罚因子C=0.2;
选择380个DNS服务器、1100个Email服务器、1000个Web服务器IP和1200个主机IP的端口探测结果,根据FeatureE(DNS)、FeatureE(Email)、FeatureE(Web)和FeatureE(host)的交集,得到训练和分类的向量维度m=317,并将端口扫描结果进行向量化处理,训练得到DNS 服务器分类器SVM21、Email服务器分类器SVM22、Web服务器分类器 SVM23;根据全序关系Web<Email<DNS,构建偏二叉树,根节点为SVM21,叶子节点为SVM23。
步骤3.3:分类器分类:
使用步骤3.2构建的偏二叉树分类器对IP进行分类;
步骤4:基于投票策略从Baidu、IPIP、IP.cn三个位置数据库中选择出广州和武汉的IP,IP数量分别为7028366和4772821,其中在线IP数量分别为3341747和2000357,使用nslookup工具基于不同参数反查IP所对应的域名信息;
步骤5:使用域名分类策略将域名进行分类处理;
步骤6:从公开数据库中获取广州和武汉地区的POI数据库,从中分析选择出可能具有服务器的机构名及类别,并结合在线地图和实地采集数据构建广州和武汉地区的机构信息库。
对所有域名依次使用数据库查询和在线地图方式尝试获取机构信息,对无法获取机构信息的第一类和第二类域名,提取类别域名后的子域名字段,在机构信息库中匹配机构信息;如下表2所示:
表2为各阶段保留的IP\地表数量;
从表2中可以看出,数据库中的IP段,其中有超过一半的IP处于不经常在线的状态。经过分类器分类后,IP数量出现了大幅度的减少,这是由于排除了主机IP和路由器IP;
步骤7:建立机构地理信息与域名IP之间的映射关系,得到地标;
步骤8:对步骤7得到的街道级候选地标,使用街道级地标评估方法进行评估,从而得到可靠街道级地标。
本发明针对当前已有地标获取方法无法快速获取大量街道级地标的不足,提出基于SVM分类模型的街道地标获取方法,利用开放端口识别该IP上所承载的服务,并对IP进行域名反解析,同时使用社会工程学手段构建特定地区的机构信息库,并基于该机构信息库,结合数据库查询和在线地图的方法得到候选街道级地标,最后使用街道级地标评估方法对候选街道级地标进行评估;本发明所述的基于SVM 分类模型的街道地标获取方法能够在更短的时间内获得更多的街道级可靠地标。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (3)
1.基于SVM分类模型的街道地标获取方法,其特征在于,包括以下步骤:
步骤1:使用端口扫描工具对已知服务类型的IP的端口进行开放端口扫描,得到各IP的端口的开放情况;
步骤2:根据步骤1得到的已知服务类型的IP的开放端口进行IP服务等级划分,得到IP服务等级间的偏序关系;
步骤3:根据步骤2得到的IP服务等级间的偏序关系,构建IP服务等级间的全序关系;同时,针对每个IP服务等级训练SVM分类模型,依据IP服务等级间的全序关系,将所有SVM分类模型构建偏二叉树;
步骤4:使用步骤3中的偏二叉树对未知服务类型的IP进行分类,对所有的非用户主机IP,分别在多个DNS服务器下进行域名解析,得到IP对应的域名信息;若一个IP解析出多个域名信息,则分别建立IP与域名的映射关系;同时,基于投票策略得出未知服务类型IP所属城市,并基于社会工程学方法构建该城市的机构信息库;
步骤5:根据步骤4中得到的IP反解析域名的特点,对域名进行分类;
步骤6:对步骤5中得到的每类域名,依据其特点,利用在线地图、数据库查询、机构信息库匹配方法中的一种或多种,来获得域名对应的机构名;
步骤7:依据步骤6中得到的机构名获取地理位置信息,从而建立地理位置信息与域名IP之间的映射关系,得到街道级候选地标;
步骤8:对步骤7得到的街道级候选地标,使用街道级地标评估方法进行评估,从而得到可靠街道级地标。
2.根据权利要求1所述的基于SVM分类模型的街道地标获取方法,其特征在于:所述步骤2包括以下步骤:
步骤2.1:依据IP的服务端口和运维端口,为IP建立服务等级间的偏序关系;具体采用以下方法:
对任意两类服务类型的IP,分别记为SE(serv1)和SE(serv2),对其服务端口集合SPort()和运维端口集合OPort(),若满足
则serv1的等级比serv2高,即:
有0<gradei<gradej;
若满足
则serv1的等级与serv2相同,即:
有0<gradei=gradej;
步骤2.2:构建偏序关系转换全序关系的规则,依据步骤2.1得到的偏序关系为IP建立所有服务等级间的全序关系;具体采用以下方法:
若两个服务等级间偏序关系的最大元相同,而最小元不同,则两个服务等级间转换全序关系时,最大元作为全序关系的最大元,任意选择两个服务等级中的其中一个偏序关系的最小元作为全序关系的最小元;若两个服务等级间偏序关系的最小元相同,而最大元不同,则两个服务等级间转换全序关系时,最小元为全序关系的最小元,任意选择两个服务等级中的其中一个偏序关系的最大元作为全序关系的最大元;若其中某类服务等级与其他服务等级均不构成偏序关系,则转换全序关系时,该类服务等级作为全序关系的最大元;
步骤2.3:依据步骤2.2得到的所有服务等级间的全序关系,对IP的各类服务类型的服务等级进行赋值,服务等级值为正整数。
3.根据权利要求1所述的基于SVM分类模型的街道地标获取方法,其特征在于:所述步骤3包括以下步骤:
步骤3.1:对每个参与SVM分类模型训练的服务器IP向量化,具体采用以下方法:
根据参与SVM分类模型训练的服务器IP的端口扫描结果,确定向量维数m,
其中,n为服务类型的种类,Port(FeatureE(service))=SPort(SE(service))∪OPort(SE(service))。对每个类型的服务器,依据在集合上的端口开放情况建立端口向量;如若Port(Ei)={80,443,8000,8443},则Ei的端口向量VP(Ei)=(0,1,0,1,1);
步骤3.2:分类器训练:
在训练SVM分类器时,训练集由两类或两类以上网络实体的端口向量组成,训练第i(1≤i≤n)个分类器时,训练集Ci={VP(Ek)|gradek≥i},其正样本Ti={VP(Ek)|gradek=i},gradek为网络实体Ek的服务等级;构建用于分类的偏二叉树,偏二叉树上的第i层为训练的第i个分类器(根节点视为第1层);
步骤3.3:分类器分类:
使用分类器进行分类时,测试集为S={VP(Ek)|gradek=0},从偏二叉树的根节点开始,对训练集进行分类;用VP(Ek)→SVMi表示使用SVMi对Ek进行分类,|VP(Ek)→SVMi|为Ek在SVMi中的分类结果;
当存在SVMi+1时,
若|VP(Ek)→SVMi|=True,则gradek=i;
若|VP(Ek)→SVMi|=False,则VP(Ek)→SVMi+1;
当SVMi+1不存在时,
若|VP(Ek)→SVMi|=True,则gradek=i;
若|VP(Ek)→SVMi|=False,则gradek=0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910128483.6A CN110311991B (zh) | 2019-02-20 | 2019-02-20 | 基于svm分类模型的街道级地标获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910128483.6A CN110311991B (zh) | 2019-02-20 | 2019-02-20 | 基于svm分类模型的街道级地标获取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110311991A true CN110311991A (zh) | 2019-10-08 |
CN110311991B CN110311991B (zh) | 2022-04-22 |
Family
ID=68074306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910128483.6A Active CN110311991B (zh) | 2019-02-20 | 2019-02-20 | 基于svm分类模型的街道级地标获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110311991B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026829A (zh) * | 2019-12-11 | 2020-04-17 | 罗向阳 | 一种基于服务识别和域名关联的街道级地标获取方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102457588A (zh) * | 2011-12-20 | 2012-05-16 | 北京瑞汛世纪科技有限公司 | 一种实现反向域名解析的方法及装置 |
CN104537105A (zh) * | 2015-01-14 | 2015-04-22 | 中国人民解放军信息工程大学 | 一种基于Web地图的网络实体地标自动挖掘方法 |
CN108388587A (zh) * | 2018-01-30 | 2018-08-10 | 中国人民解放军战略支援部队信息工程大学 | 基于Google地图雷达搜索的地标挖掘方法 |
US20190007365A1 (en) * | 2017-06-30 | 2019-01-03 | Microsoft Technology Licensing, Llc | Geolocation using reverse domain name server information |
CN109274677A (zh) * | 2018-10-11 | 2019-01-25 | 四川长虹电器股份有限公司 | 基于机器学习的ip分类方法及系统 |
-
2019
- 2019-02-20 CN CN201910128483.6A patent/CN110311991B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102457588A (zh) * | 2011-12-20 | 2012-05-16 | 北京瑞汛世纪科技有限公司 | 一种实现反向域名解析的方法及装置 |
CN104537105A (zh) * | 2015-01-14 | 2015-04-22 | 中国人民解放军信息工程大学 | 一种基于Web地图的网络实体地标自动挖掘方法 |
US20190007365A1 (en) * | 2017-06-30 | 2019-01-03 | Microsoft Technology Licensing, Llc | Geolocation using reverse domain name server information |
CN108388587A (zh) * | 2018-01-30 | 2018-08-10 | 中国人民解放军战略支援部队信息工程大学 | 基于Google地图雷达搜索的地标挖掘方法 |
CN109274677A (zh) * | 2018-10-11 | 2019-01-25 | 四川长虹电器股份有限公司 | 基于机器学习的ip分类方法及系统 |
Non-Patent Citations (3)
Title |
---|
GUANG ZHU; XIANGYANG LUO; FENLIN LIU; JINGNING CHEN: "An Algorithm of City-Level Landmark Mining Based on Internet Forum", 《2015 18TH INTERNATIONAL CONFERENCE ON NETWORK-BASED INFORMATION SYSTEMS》 * |
OVIDIU DAN; VAIBHAV PARIKH; BRIAN D. DAVISON: "Distributed Reverse DNS Geolocation", 《2018 IEEE INTERNATIONAL CONFERENCE ON BIG DATA》 * |
YONG WANG: "Towards Street-Level Client-Independent IP Geolocation", 《USENIX ASSOCIATION》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026829A (zh) * | 2019-12-11 | 2020-04-17 | 罗向阳 | 一种基于服务识别和域名关联的街道级地标获取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110311991B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783419B (zh) | 地址相似度计算方法、装置、设备和存储介质 | |
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
Han et al. | A stacking-based approach to twitter user geolocation prediction | |
US8401771B2 (en) | Discovering points of interest from users map annotations | |
Zubiaga et al. | Towards real-time, country-level location classification of worldwide tweets | |
Jacobs et al. | OpenStreetMap quality assessment using unsupervised machine learning methods | |
CN107169063A (zh) | 一种基于社交信息的用户属性预测方法与系统 | |
CN107666649A (zh) | 个人财产状态评估方法及装置 | |
CN110019617B (zh) | 地址标识的确定方法和装置、存储介质、电子装置 | |
Christen et al. | A probabilistic geocoding system based on a national address file | |
EP2281249A2 (en) | Discovering co-located queries in geographic search logs | |
Chen et al. | Crossroads, buildings and neighborhoods: A dataset for fine-grained location recognition | |
CN115456695A (zh) | 一种店铺选址的分析方法、装置、系统及介质 | |
CN108345662A (zh) | 一种考虑用户分布区域差异的签到微博数据加权统计方法 | |
Panasyuk et al. | Improving geocoding for city-level locations | |
CN106326480A (zh) | 一种关联企业的地理信息挖掘和分析方法 | |
CN110311991A (zh) | 基于svm分类模型的街道级地标获取方法 | |
van Erp et al. | Georeferencing animal specimen datasets | |
Chow et al. | Spatial mining of migration patterns from web demographics | |
CN111026829B (zh) | 一种基于服务识别和域名关联的街道级地标获取方法 | |
de Oliveira et al. | Leveraging VGI for gazetteer enrichment: A case study for geoparsing twitter messages | |
Jenson et al. | Mining location information from users' spatio-temporal data | |
Yabe et al. | Unsupervised translation via hierarchical anchoring: functional mapping of places across cities | |
Brimicombe et al. | Improving geocoding rates in preparation for crime data analysis | |
CN109446424B (zh) | 一种无效地址网页过滤方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200728 Address after: 450001 No. 62 science Avenue, hi tech Zone, Henan, Zhengzhou Applicant after: Information Engineering University of the Chinese People's Liberation Army Strategic Support Force Address before: 450001 Information Engineering University, 62 science Avenue, hi tech Zone, Henan, Zhengzhou Applicant before: Luo Xiangyang |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |