CN107135281A

CN107135281A - 一种基于多数据源融合的ip地域类特征提取方法

Info

Publication number: CN107135281A
Application number: CN201710146433.1A
Authority: CN
Inventors: 佟玲玲; 杜翠兰; 翟羽佳; 张琳; 孙旷怡; 张仰森; 张艳华; 郑佳; 王建
Original assignee: Beijing Information Science and Technology University; National Computer Network and Information Security Management Center
Current assignee: Beijing Information Science and Technology University; National Computer Network and Information Security Management Center
Priority date: 2017-03-13
Filing date: 2017-03-13
Publication date: 2017-09-05
Anticipated expiration: 2037-03-13
Also published as: CN107135281B

Abstract

本发明实施例提供一种基于多数据源融合的IP地域类特征提取方法，包括：步骤1、基于现有的IP地址定位数据库，计算每一定位数据库的权威度；步骤2、基于现有的IP地址定位数据库，计算每一定位数据库中定位数据的完整度；步骤3、根据步骤1和步骤2中的每一定位数据库的权威度和每一定位数据库中定位数据的完整度，确定定位数据的可信度；步骤4、根据定位数据的可信度，选取定位数据构建IP地域类特征知识库。

Description

一种基于多数据源融合的IP地域类特征提取方法

技术领域

本发明涉及数据分析领域，具体涉及一种基于多数据源融合的IP地域类特征提取方法。

背景技术

IP地址(Internet Protocol Address，网际协议地址)是网络中节点的唯一标识。由于IP地址具有唯一性，且是一种符合协议的地址格式，因此它更像是人们在互联网这个“社会”的“身份证”。随着社会与网络科技的发展，互联网的多数核心业务都需要对IP地址进行精准定位。但全球的IP地址数以亿计，遍布于世界上每个角落，不同的IP地址可能包含了不同的地域属性，如大洲、国家、地区、运营商、时区、经纬度等。如何从这浩瀚的网络中得到IP地址精准的地域类属性，是一项极具挑战性的任务。

随着定位技术的发展，互联网上也出现了一些优秀的定位数据库，如GeoLite2IP地址数据库、纯真IP地址数据库、百度IP地址数据库、淘宝IP地址数据库、全球IPv4地址归属地数据库(ipip.net)、中国行政区域经纬度信息表等网络数据库。但这些数据库的来源多种多样，格式规范不统一，并且都有自己的局限性，比如有些只是针对特定国家的定位比较准确，需要收费，没有规范的接口供用户使用等。所以如何利用现有定位数据库，解决现有数据库定位数据冲突、定位不准等问题，如何将国内外优秀的定位数据库汇集到一起，构建一套面向全球IP的地域类特征知识库，如何构建一个相对全面的定位数据库，是目前亟待解决的一个问题。

发明内容

针对现有技术中存在的IP地址数据库采用各种不同的格式导致无法进行数据融合的问题，本发明要解决的技术问题是提出一种基于多数据源融合的IP地域类特征提取方法。

为了解决上述问题，本发明实施例提出了一种基于多数据源融合的IP地域类特征提取方法，包括：

步骤1、基于现有的IP地址定位数据库，计算每一定位数据库的权威度；

Authority_i＝Cover_i+Concidence_i；

其中Authority_i为第i个定位数据库的权威度，Cover_i为定位数据库中数据占所有定位数据库的总数居的比重；Concidence_i为定位数据库与其他定位数据中数据的重合的比重；

步骤2、基于现有的IP地址定位数据库，计算每一定位数据库中定位数据的完整度；

步骤3、根据步骤1和步骤2中的每一定位数据库的权威度和每一定位数据库中定位数据的完整度，确定定位数据的可信度；

步骤4、根据定位数据的可信度，选取定位数据构建IP地域类特征知识库。

其中，步骤1中的定位数据库的权威度通过Authority_i以下方式计算：

步骤11、通过以下公式(1)计算定位数据库的覆盖率，其中覆盖率为定位数据库中数据占所有定位数据库的总数居的比重；

其中DB_i表示不同的定位数据库，i＝1,2,……,n分别表示n种不同的定位数据库，value表示定位数据库中的数据数；

步骤12、通过以下公式(2)计算一个定位数据库与其他定位数据中数据的重合的比重，作为重合率

其中，H运算表示对集合做不去除重复元素的并运算，B运算表示计算某个元素在H运算结果中的个数，Count运算表示H运算结果中所有元素的个数，m表示数据库中包含网段的个数；

则定位数据库权威度为：

Authority_i＝Cover_i+Concidence_i。

其中，步骤2中的定位数据的完整度通过以下方法计算：

步骤21、从IP地域类属性的12种指标中选择至少一个指标作为评价指标，以建立定位数据完整度Integrity评价指标L元组E<e₁,e₂,……,e_L>；其中所述12种指标包括：IP地址所属网段、大洲、大洲ID、国家、国家ID、一级行政区域、二级行政区域、三级行政区域、互联网服务提供商、时区、经度、纬度。

步骤22、基于评价指标L元组E<e₁,e₂,……,e_L>，利用如下公式计算定位数据的完整度Integrity：

其中：Interity_ip,i表示IP地址ip在第i个定位数据库中的定位数据完整度，w_j(i＝1,2,……,L)为各个评价指标特征的权值系数，满足

w_j>0

其中，表示IP地址ip在第i个定位数据库的第j个特征指标的值，其计算公式如下：

其中，定位数据的可信度通过以下方法计算：

通过定位数据库的权威度和定位数据的完整度计算定位数据的可信度：

Credibility(ipv_alue(_x,i))＝Interity_ip,i*Authority_i

其中Credibility(ip_value(x,i))表示IP地址为ip的特征指标x在第i个定位数据库中的定位数据值的可信度，Interity_ip,i表示IP地址为ip在第i个定位数据库中的定位数据的完整度，Authority_i表示第i个定位数据库的权威度；

其中，对于IP地址为ip的特征指标x的可信度计算如下所示：

其中j∈[1,n]，表示特征指标x的不去重的取值个数；而对于重复的属性取值即当ip_value(x)＝ip_value(x,i)，则特征指标x的可信度为所有重复属性值的可信度之和，可以看作特征指标x的加权投票可信度，Max运算表示取加权投票可信度的最大值。

其中，步骤4具体包括：基于定位数据的可信度，对IP地址的地域类特征的进行筛选，并构建IP地域类特征知识库。

本发明的上述技术方案的有益效果如下：上述技术方案提出了一种基于多数据源融合的IP地域类特征提取方法，其具有以下优势：

1、针对互联网上多种定位数据库数据结构不统一以及定位冲突的问题，本发明将IP地域类特征表示为九元组的形式，利用国内外定位数据库的分层特性和IP定位数据，提出了一种基于多数据源的IP地域类特征提取方法。该方法通过计算定位数据的可信度(Credibility)实现IP地域类特征的提取，定位数据可信度的确定则依赖于定位数据库的权威度(Authority)和定位数据的完整度(Integrity)。

2、针对定位数据库权威度的计算问题，本发明通过分析国内外主流IP定位数据库的结构及各数据库之间的数据差异，提出了一种基于IP定位数据库之间差异的权威度评价方法。

3、针对定位数据完整度的计算问题，本发明基于IP地域类特征的九元组表示方法，构建了一种定位数据完整度的定量评估模型。

4、针对定位数据可信度评价中多源数据库定位数据冲突问题，本发明考虑数据库权威度和定位数据完整度两项指标，利用加权投票机制算法，提出了一种多特征多模态的可信度定量评价模型，实现了定位数据库可信度的定量计算。

5、针对目前国内外IP地域类属性的差异，提出了一种基于定位数据可信度的IP地域类特征筛选算法，构建了一套面向全球IP的地域类特征知识库。

附图说明

图1为本发明实施例的基于多数据源融合的IP地域类特征提取方法

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明根据IP地域类特征的组成结构，通过对互联网中现有的多个定位数据库(在本发明实施例中采用五个最常见淘宝IP地址库、纯真IP地址库、新浪IP地址库、百度地址数据库、全球IPv4地址归属地数据库ipip.net)与中国行政区域经纬度信息表进行分析，实现对国内外IP地域类特征的提取，提出了一种基于多数据源的IP地域类特征提取方法，最终构建一套面向全球IP的地域类特征知识库。本发明通过计算定位数据的可信度(Credibility)，选取定位数据可信度较高的定位数据作为定位结果，最终实现IP地域类特征的提取。而定位数据可信度的计算则依赖于定位数据库的权威度(Authority)和定位数据的完整度(Integrity)两项指标。

本发明实施例的基于多数据源的IP地域类特征提取方法，其流程如图1所示的，包括：

Authority_i＝Cover_i+Concidence_i；

其中，定位数据库的权威度通过Authority_i以下方式计算：

其中DB_i表示不同的定位数据库，i＝1,2,……,n分别表示n种不同的定位数据库，value表示定位数据库中的数据数。在本发明实施例中，由于采用了现有的5个最常见的IP地址数据库，因此n＝5；

本发明实施例中可以通过网段为单位，计算定位数据库之间的重合率；

例如：n种定位数据库对某一网段ip的某一个属性x的数据值分别为a,b,a,c,a，则：

即集合中一共有5个元素；

即其中重复的元素数为3；含有3个a

即包含a,b,a,c,a这5个元素

则定位数据库权威度为：

Authority_i＝Cover_i+Concidence_i。

其中，步骤2中的定位数据的完整度通过以下方法计算：

IP地域类属性具有以下12种指标：IP地址所属网段、大洲、大洲ID、国家、国家ID、一级行政区域(对应国内的省或直辖市)、二级行政区域(对应国内的地级市或相当区域)、三级行政区域(对应国内的县或相当区域)、互联网服务提供商(ISP)、时区、经度、纬度。

在本发明实施例中，可以将这12种指标进行合并，只保留如表1所示的9种指标，以建立定位数据完整度(Integrity)评价指标L元组E<e₁,e₂,……,e_L>，对应映射表如表1所示：

表1 IP地域类特征

表1中是采用九元组的方式，这只是本发明实施例的一种实现方式，可以任意多个指标，本发明实施例并不对此做出限定。基于评价指标L元组E<e₁,e₂,……,e_L>，构建定位数据完整度(Integrity)的计算公式如下：

如表1所示的例子中用了9种指标，因此L＝9。

w_j>0

表示IP地址ip在第i个定位数据库的第j个特征指标的值，其计算公式如下：

由于特征因素的权值系数难以确定，因此采用层次分析法确定各个特征权值的方法，最终得出特征的权值依次为(0.03338，0.0512，0.0860，0.1489，0.2455，0.0860，0.0512，0.1489，0.1489)。

其中，定位数据的可信度通过以下方法计算：

本发明通过计算定位数据的可信度Credibility，选取定位数据可信度较高的定位数据作为IP地域类的最终特征。而定位数据可信度的定量计算则依赖于定位数据库的权威度和定位数据的完整度两项指标。计算公式如下：

Credibility(ip_value(x,i))＝Interity_iU,i*Authority_i

其中Credibility(ip_value(x,i))表示IP地址为ip的特征指标x在第i个定位数据库中的定位数据值的可信度，Interity_ip,i表示IP地址为ip在第i个定位数据库中的定位数据的完整度，Authority_i表示第i个定位数据库的权威度。

其中，对于IP地址为ip的特征指标x的可信度计算如下所示：

基于定位数据可信度的IP地域类知识库的构建

本发明提出了基于定位数据可信度对IP地址的地域类特征的筛选方法，利用定位数据可信度分别对国内、外的IP地域类特征进行提取，具体的提取流程如图3所示。

(1)关于覆盖率、重合率、权威度、完整度的计算

在基于定位数据可信度的IP地域类特征提取实际过程中，对于覆盖率、重合率、权威度、完整度的计算过程如下：

对于覆盖率的计算，我们将淘宝IP地址库、纯真IP地址库、新浪IP地址库、百度地址数据库和全球IPv4地址归属地数据库IPIP.NET的地域信息进行合并，提取出每个网段的每个地域类特征全部覆盖的范围，然后通过每个知识库中地域类属性的覆盖范围与合并后全部覆盖范围比例确定每个定位数据库的覆盖率。如图4所示的，其中对国家、省份、城市的覆盖率进行研究后发现，ipip.net定位数据库对国家、省份、城市的覆盖率中的覆盖率最高，百度定位数据库的覆盖率最低。

对于重合率的计算，我们将淘宝IP地址库、纯真IP地址库、新浪IP地址库、百度地址数据库和全球IPv4地址归属地数据库IPIP.NET的地域信息进行合并，以网段的地域信息记录为单位，提取每个网段全部地域类记录的所有值，然后通过每个数据库中每个网段的每条记录与全部记录的重复个数的比率的平均值，确定每个数据库的重合率。如图5所示的，每个数据库的重合率经过计算后发现，ipip.net定位数据库相对于其它数据库，重合率较高。

对于权威度的计算，采用覆盖率和重合率之和表示。

对于完整度的计算，通过每个IP定位数据库中每个网段的地域信息中存在的地域信息属性值的个数与本发明构建的九元组的属性的个数的比例来确定。

(2)关于特征筛选算法的说明

对于最终的IP地域类特征的筛选策略，本发明只定义了一条筛选策略：取所有IP地域类特征属性值中可信度的最大值作为IP最终的地域属性值。通过利用完整度和权威度，发明人已经构建了一个大规模的IP地域类知识库，包括国内900万个IP地址国外15万个IP网段。其中国内IP地域类知识库如图6所示，国外IP地域类知识库如图7所示。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多数据源融合的IP地域类特征提取方法，其特征在于，包括：

Authority_i＝Cover_i+Concidence_i；

2.根据权利要求1所述的基于多数据源融合的IP地域类特征提取方法，其特征在于，其中步骤1中的定位数据库的权威度通过Authority_i以下方式计算：

<mrow> <msub> <mi>Cover</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mi>V</mi> <mi>a</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>DB</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mo>&cup;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mo>&lsqb;</mo> <mi>V</mi> <mi>a</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>DB</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>Coincidence</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </msubsup> <mo>&lsqb;</mo> <mfrac> <mrow> <mi>B</mi> <mrow> <mo>(</mo> <msub> <mi>DB</mi> <mrow> <mi>i</mi> <mi>p</mi> <mo>,</mo> <mi>x</mi> </mrow> </msub> <mo>,</mo> <msubsup> <mi>H</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>ip</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <msubsup> <mi>H</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>ip</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&rsqb;</mo> </mrow> <mi>n</mi> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

则定位数据库权威度为：

Authority_i＝Cover_i+Concidence_i。

3.根据权利要求1所述的基于多数据源融合的IP地域类特征提取方法，其特征在于，步骤2中的定位数据的完整度通过以下方法计算：

<mrow> <msub> <mi>Interity</mi> <mrow> <mi>i</mi> <mi>p</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>*</mo> <msub> <mi>IP</mi> <mrow> <msub> <mi>ip</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mi>L</mi> </mfrac> </mrow>

w_j>0

<mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </msubsup> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>;</mo> </mrow>

4.根据权利要求2或3所述的基于多数据源融合的IP地域类特征提取方法，其特征在于，其中，定位数据的可信度通过以下方法计算：

Credibility(ip_value(x,i))＝Interity_ip,i*Authority_i

其中，对于IP地址为ip的特征指标x的可信度计算如下所示：

<mrow> <mi>C</mi> <mi>r</mi> <mi>e</mi> <mi>d</mi> <mi>i</mi> <mi>b</mi> <mi>i</mi> <mi>l</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>ip</mi> <mrow> <mi>v</mi> <mi>a</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>M</mi> <mi>a</mi> <mi>x</mi> <mo>{</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>j</mi> </munderover> <mo>&lsqb;</mo> <mi>C</mi> <mi>r</mi> <mi>e</mi> <mi>d</mi> <mi>i</mi> <mi>b</mi> <mi>i</mi> <mi>l</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>ip</mi> <mrow> <mi>v</mi> <mi>a</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>}</mo> </mrow>

5.根据权利要求4所述的基于多数据源融合的IP地域类特征提取方法，其特征在于，步骤4具体包括：基于定位数据的可信度，对IP地址的地域类特征的进行筛选，并构建IP地域类特征知识库。