CN107135281A - 一种基于多数据源融合的ip地域类特征提取方法 - Google Patents

一种基于多数据源融合的ip地域类特征提取方法 Download PDF

Info

Publication number
CN107135281A
CN107135281A CN201710146433.1A CN201710146433A CN107135281A CN 107135281 A CN107135281 A CN 107135281A CN 201710146433 A CN201710146433 A CN 201710146433A CN 107135281 A CN107135281 A CN 107135281A
Authority
CN
China
Prior art keywords
mrow
location
msub
data
location database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710146433.1A
Other languages
English (en)
Other versions
CN107135281B (zh
Inventor
佟玲玲
杜翠兰
翟羽佳
张琳
孙旷怡
张仰森
张艳华
郑佳
王建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
National Computer Network and Information Security Management Center
Original Assignee
Beijing Information Science and Technology University
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University, National Computer Network and Information Security Management Center filed Critical Beijing Information Science and Technology University
Priority to CN201710146433.1A priority Critical patent/CN107135281B/zh
Publication of CN107135281A publication Critical patent/CN107135281A/zh
Application granted granted Critical
Publication of CN107135281B publication Critical patent/CN107135281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2101/00Indexing scheme associated with group H04L61/00
    • H04L2101/60Types of network addresses
    • H04L2101/69Types of network addresses using geographic information, e.g. room number
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供一种基于多数据源融合的IP地域类特征提取方法,包括:步骤1、基于现有的IP地址定位数据库,计算每一定位数据库的权威度;步骤2、基于现有的IP地址定位数据库,计算每一定位数据库中定位数据的完整度;步骤3、根据步骤1和步骤2中的每一定位数据库的权威度和每一定位数据库中定位数据的完整度,确定定位数据的可信度;步骤4、根据定位数据的可信度,选取定位数据构建IP地域类特征知识库。

Description

一种基于多数据源融合的IP地域类特征提取方法
技术领域
本发明涉及数据分析领域,具体涉及一种基于多数据源融合的IP地域类特征提取方法。
背景技术
IP地址(Internet Protocol Address,网际协议地址)是网络中节点的唯一标识。由于IP地址具有唯一性,且是一种符合协议的地址格式,因此它更像是人们在互联网这个“社会”的“身份证”。随着社会与网络科技的发展,互联网的多数核心业务都需要对IP地址进行精准定位。但全球的IP地址数以亿计,遍布于世界上每个角落,不同的IP地址可能包含了不同的地域属性,如大洲、国家、地区、运营商、时区、经纬度等。如何从这浩瀚的网络中得到IP地址精准的地域类属性,是一项极具挑战性的任务。
随着定位技术的发展,互联网上也出现了一些优秀的定位数据库,如GeoLite2IP地址数据库、纯真IP地址数据库、百度IP地址数据库、淘宝IP地址数据库、全球IPv4地址归属地数据库(ipip.net)、中国行政区域经纬度信息表等网络数据库。但这些数据库的来源多种多样,格式规范不统一,并且都有自己的局限性,比如有些只是针对特定国家的定位比较准确,需要收费,没有规范的接口供用户使用等。所以如何利用现有定位数据库,解决现有数据库定位数据冲突、定位不准等问题,如何将国内外优秀的定位数据库汇集到一起,构建一套面向全球IP的地域类特征知识库,如何构建一个相对全面的定位数据库,是目前亟待解决的一个问题。
发明内容
针对现有技术中存在的IP地址数据库采用各种不同的格式导致无法进行数据融合的问题,本发明要解决的技术问题是提出一种基于多数据源融合的IP地域类特征提取方法。
为了解决上述问题,本发明实施例提出了一种基于多数据源融合的IP地域类特征提取方法,包括:
步骤1、基于现有的IP地址定位数据库,计算每一定位数据库的权威度;
Authorityi=Coveri+Concidencei
其中Authorityi为第i个定位数据库的权威度,Coveri为定位数据库中数据占所有定位数据库的总数居的比重;Concidencei为定位数据库与其他定位数据中数据的重合的比重;
步骤2、基于现有的IP地址定位数据库,计算每一定位数据库中定位数据的完整度;
步骤3、根据步骤1和步骤2中的每一定位数据库的权威度和每一定位数据库中定位数据的完整度,确定定位数据的可信度;
步骤4、根据定位数据的可信度,选取定位数据构建IP地域类特征知识库。
其中,步骤1中的定位数据库的权威度通过Authorityi以下方式计算:
步骤11、通过以下公式(1)计算定位数据库的覆盖率,其中覆盖率为定位数据库中数据占所有定位数据库的总数居的比重;
其中DBi表示不同的定位数据库,i=1,2,……,n分别表示n种不同的定位数据库,value表示定位数据库中的数据数;
步骤12、通过以下公式(2)计算一个定位数据库与其他定位数据中数据的重合的比重,作为重合率
其中,H运算表示对集合做不去除重复元素的并运算,B运算表示计算某个元素在H运算结果中的个数,Count运算表示H运算结果中所有元素的个数,m表示数据库中包含网段的个数;
则定位数据库权威度为:
Authorityi=Coveri+Concidencei
其中,步骤2中的定位数据的完整度通过以下方法计算:
步骤21、从IP地域类属性的12种指标中选择至少一个指标作为评价指标,以建立定位数据完整度Integrity评价指标L元组E<e1,e2,……,eL>;其中所述12种指标包括:IP地址所属网段、大洲、大洲ID、国家、国家ID、一级行政区域、二级行政区域、三级行政区域、互联网服务提供商、时区、经度、纬度。
步骤22、基于评价指标L元组E<e1,e2,……,eL>,利用如下公式计算定位数据的完整度Integrity:
其中:Interityip,i表示IP地址ip在第i个定位数据库中的定位数据完整度,wj(i=1,2,……,L)为各个评价指标特征的权值系数,满足
wj>0
其中,表示IP地址ip在第i个定位数据库的第j个特征指标的值,其计算公式如下:
其中,定位数据的可信度通过以下方法计算:
通过定位数据库的权威度和定位数据的完整度计算定位数据的可信度:
Credibility(ipvalue(x,i))=Interityip,i*Authorityi
其中Credibility(ipvalue(x,i))表示IP地址为ip的特征指标x在第i个定位数据库中的定位数据值的可信度,Interityip,i表示IP地址为ip在第i个定位数据库中的定位数据的完整度,Authorityi表示第i个定位数据库的权威度;
其中,对于IP地址为ip的特征指标x的可信度计算如下所示:
其中j∈[1,n],表示特征指标x的不去重的取值个数;而对于重复的属性取值即当ipvalue(x)=ipvalue(x,i),则特征指标x的可信度为所有重复属性值的可信度之和,可以看作特征指标x的加权投票可信度,Max运算表示取加权投票可信度的最大值。
其中,步骤4具体包括:基于定位数据的可信度,对IP地址的地域类特征的进行筛选,并构建IP地域类特征知识库。
本发明的上述技术方案的有益效果如下:上述技术方案提出了一种基于多数据源融合的IP地域类特征提取方法,其具有以下优势:
1、针对互联网上多种定位数据库数据结构不统一以及定位冲突的问题,本发明将IP地域类特征表示为九元组的形式,利用国内外定位数据库的分层特性和IP定位数据,提出了一种基于多数据源的IP地域类特征提取方法。该方法通过计算定位数据的可信度(Credibility)实现IP地域类特征的提取,定位数据可信度的确定则依赖于定位数据库的权威度(Authority)和定位数据的完整度(Integrity)。
2、针对定位数据库权威度的计算问题,本发明通过分析国内外主流IP定位数据库的结构及各数据库之间的数据差异,提出了一种基于IP定位数据库之间差异的权威度评价方法。
3、针对定位数据完整度的计算问题,本发明基于IP地域类特征的九元组表示方法,构建了一种定位数据完整度的定量评估模型。
4、针对定位数据可信度评价中多源数据库定位数据冲突问题,本发明考虑数据库权威度和定位数据完整度两项指标,利用加权投票机制算法,提出了一种多特征多模态的可信度定量评价模型,实现了定位数据库可信度的定量计算。
5、针对目前国内外IP地域类属性的差异,提出了一种基于定位数据可信度的IP地域类特征筛选算法,构建了一套面向全球IP的地域类特征知识库。
附图说明
图1为本发明实施例的基于多数据源融合的IP地域类特征提取方法
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明根据IP地域类特征的组成结构,通过对互联网中现有的多个定位数据库(在本发明实施例中采用五个最常见淘宝IP地址库、纯真IP地址库、新浪IP地址库、百度地址数据库、全球IPv4地址归属地数据库ipip.net)与中国行政区域经纬度信息表进行分析,实现对国内外IP地域类特征的提取,提出了一种基于多数据源的IP地域类特征提取方法,最终构建一套面向全球IP的地域类特征知识库。本发明通过计算定位数据的可信度(Credibility),选取定位数据可信度较高的定位数据作为定位结果,最终实现IP地域类特征的提取。而定位数据可信度的计算则依赖于定位数据库的权威度(Authority)和定位数据的完整度(Integrity)两项指标。
本发明实施例的基于多数据源的IP地域类特征提取方法,其流程如图1所示的,包括:
步骤1、基于现有的IP地址定位数据库,计算每一定位数据库的权威度;
Authorityi=Coveri+Concidencei
其中Authorityi为第i个定位数据库的权威度,Coveri为定位数据库中数据占所有定位数据库的总数居的比重;Concidencei为定位数据库与其他定位数据中数据的重合的比重;
步骤2、基于现有的IP地址定位数据库,计算每一定位数据库中定位数据的完整度;
步骤3、根据步骤1和步骤2中的每一定位数据库的权威度和每一定位数据库中定位数据的完整度,确定定位数据的可信度;
步骤4、根据定位数据的可信度,选取定位数据构建IP地域类特征知识库。
其中,定位数据库的权威度通过Authorityi以下方式计算:
步骤11、通过以下公式(1)计算定位数据库的覆盖率,其中覆盖率为定位数据库中数据占所有定位数据库的总数居的比重;
其中DBi表示不同的定位数据库,i=1,2,……,n分别表示n种不同的定位数据库,value表示定位数据库中的数据数。在本发明实施例中,由于采用了现有的5个最常见的IP地址数据库,因此n=5;
步骤12、通过以下公式(2)计算一个定位数据库与其他定位数据中数据的重合的比重,作为重合率
本发明实施例中可以通过网段为单位,计算定位数据库之间的重合率;
其中,H运算表示对集合做不去除重复元素的并运算,B运算表示计算某个元素在H运算结果中的个数,Count运算表示H运算结果中所有元素的个数,m表示数据库中包含网段的个数;
例如:n种定位数据库对某一网段ip的某一个属性x的数据值分别为a,b,a,c,a,则:
即集合中一共有5个元素;
即其中重复的元素数为3;含有3个a
即包含a,b,a,c,a这5个元素
则定位数据库权威度为:
Authorityi=Coveri+Concidencei
其中,步骤2中的定位数据的完整度通过以下方法计算:
IP地域类属性具有以下12种指标:IP地址所属网段、大洲、大洲ID、国家、国家ID、一级行政区域(对应国内的省或直辖市)、二级行政区域(对应国内的地级市或相当区域)、三级行政区域(对应国内的县或相当区域)、互联网服务提供商(ISP)、时区、经度、纬度。
在本发明实施例中,可以将这12种指标进行合并,只保留如表1所示的9种指标,以建立定位数据完整度(Integrity)评价指标L元组E<e1,e2,……,eL>,对应映射表如表1所示:
表1 IP地域类特征
表1中是采用九元组的方式,这只是本发明实施例的一种实现方式,可以任意多个指标,本发明实施例并不对此做出限定。基于评价指标L元组E<e1,e2,……,eL>,构建定位数据完整度(Integrity)的计算公式如下:
如表1所示的例子中用了9种指标,因此L=9。
其中:Interityip,i表示IP地址ip在第i个定位数据库中的定位数据完整度,wj(i=1,2,……,L)为各个评价指标特征的权值系数,满足
wj>0
表示IP地址ip在第i个定位数据库的第j个特征指标的值,其计算公式如下:
由于特征因素的权值系数难以确定,因此采用层次分析法确定各个特征权值的方法,最终得出特征的权值依次为(0.03338,0.0512,0.0860,0.1489,0.2455,0.0860,0.0512,0.1489,0.1489)。
其中,定位数据的可信度通过以下方法计算:
本发明通过计算定位数据的可信度Credibility,选取定位数据可信度较高的定位数据作为IP地域类的最终特征。而定位数据可信度的定量计算则依赖于定位数据库的权威度和定位数据的完整度两项指标。计算公式如下:
Credibility(ipvalue(x,i))=InterityiU,i*Authorityi
其中Credibility(ipvalue(x,i))表示IP地址为ip的特征指标x在第i个定位数据库中的定位数据值的可信度,Interityip,i表示IP地址为ip在第i个定位数据库中的定位数据的完整度,Authorityi表示第i个定位数据库的权威度。
其中,对于IP地址为ip的特征指标x的可信度计算如下所示:
其中j∈[1,n],表示特征指标x的不去重的取值个数;而对于重复的属性取值即当ipvalue(x)=ipvalue(x,i),则特征指标x的可信度为所有重复属性值的可信度之和,可以看作特征指标x的加权投票可信度,Max运算表示取加权投票可信度的最大值。
基于定位数据可信度的IP地域类知识库的构建
本发明提出了基于定位数据可信度对IP地址的地域类特征的筛选方法,利用定位数据可信度分别对国内、外的IP地域类特征进行提取,具体的提取流程如图3所示。
(1)关于覆盖率、重合率、权威度、完整度的计算
在基于定位数据可信度的IP地域类特征提取实际过程中,对于覆盖率、重合率、权威度、完整度的计算过程如下:
对于覆盖率的计算,我们将淘宝IP地址库、纯真IP地址库、新浪IP地址库、百度地址数据库和全球IPv4地址归属地数据库IPIP.NET的地域信息进行合并,提取出每个网段的每个地域类特征全部覆盖的范围,然后通过每个知识库中地域类属性的覆盖范围与合并后全部覆盖范围比例确定每个定位数据库的覆盖率。如图4所示的,其中对国家、省份、城市的覆盖率进行研究后发现,ipip.net定位数据库对国家、省份、城市的覆盖率中的覆盖率最高,百度定位数据库的覆盖率最低。
对于重合率的计算,我们将淘宝IP地址库、纯真IP地址库、新浪IP地址库、百度地址数据库和全球IPv4地址归属地数据库IPIP.NET的地域信息进行合并,以网段的地域信息记录为单位,提取每个网段全部地域类记录的所有值,然后通过每个数据库中每个网段的每条记录与全部记录的重复个数的比率的平均值,确定每个数据库的重合率。如图5所示的,每个数据库的重合率经过计算后发现,ipip.net定位数据库相对于其它数据库,重合率较高。
对于权威度的计算,采用覆盖率和重合率之和表示。
对于完整度的计算,通过每个IP定位数据库中每个网段的地域信息中存在的地域信息属性值的个数与本发明构建的九元组的属性的个数的比例来确定。
(2)关于特征筛选算法的说明
对于最终的IP地域类特征的筛选策略,本发明只定义了一条筛选策略:取所有IP地域类特征属性值中可信度的最大值作为IP最终的地域属性值。通过利用完整度和权威度,发明人已经构建了一个大规模的IP地域类知识库,包括国内900万个IP地址国外15万个IP网段。其中国内IP地域类知识库如图6所示,国外IP地域类知识库如图7所示。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于多数据源融合的IP地域类特征提取方法,其特征在于,包括:
步骤1、基于现有的IP地址定位数据库,计算每一定位数据库的权威度;
Authorityi=Coveri+Concidencei
其中Authorityi为第i个定位数据库的权威度,Coveri为定位数据库中数据占所有定位数据库的总数居的比重;Concidencei为定位数据库与其他定位数据中数据的重合的比重;
步骤2、基于现有的IP地址定位数据库,计算每一定位数据库中定位数据的完整度;
步骤3、根据步骤1和步骤2中的每一定位数据库的权威度和每一定位数据库中定位数据的完整度,确定定位数据的可信度;
步骤4、根据定位数据的可信度,选取定位数据构建IP地域类特征知识库。
2.根据权利要求1所述的基于多数据源融合的IP地域类特征提取方法,其特征在于,其中步骤1中的定位数据库的权威度通过Authorityi以下方式计算:
步骤11、通过以下公式(1)计算定位数据库的覆盖率,其中覆盖率为定位数据库中数据占所有定位数据库的总数居的比重;
<mrow> <msub> <mi>Cover</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mi>V</mi> <mi>a</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>DB</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mo>&amp;cup;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mo>&amp;lsqb;</mo> <mi>V</mi> <mi>a</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>DB</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中DBi表示不同的定位数据库,i=1,2,……,n分别表示n种不同的定位数据库,value表示定位数据库中的数据数;
步骤12、通过以下公式(2)计算一个定位数据库与其他定位数据中数据的重合的比重,作为重合率
<mrow> <msub> <mi>Coincidence</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </msubsup> <mo>&amp;lsqb;</mo> <mfrac> <mrow> <mi>B</mi> <mrow> <mo>(</mo> <msub> <mi>DB</mi> <mrow> <mi>i</mi> <mi>p</mi> <mo>,</mo> <mi>x</mi> </mrow> </msub> <mo>,</mo> <msubsup> <mi>H</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>ip</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <msubsup> <mi>H</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>ip</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&amp;rsqb;</mo> </mrow> <mi>n</mi> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
其中,H运算表示对集合做不去除重复元素的并运算,B运算表示计算某个元素在H运算结果中的个数,Count运算表示H运算结果中所有元素的个数,m表示数据库中包含网段的个数;
则定位数据库权威度为:
Authorityi=Coveri+Concidencei
3.根据权利要求1所述的基于多数据源融合的IP地域类特征提取方法,其特征在于,步骤2中的定位数据的完整度通过以下方法计算:
步骤21、从IP地域类属性的12种指标中选择至少一个指标作为评价指标,以建立定位数据完整度Integrity评价指标L元组E<e1,e2,……,eL>;其中所述12种指标包括:IP地址所属网段、大洲、大洲ID、国家、国家ID、一级行政区域、二级行政区域、三级行政区域、互联网服务提供商、时区、经度、纬度。
步骤22、基于评价指标L元组E<e1,e2,……,eL>,利用如下公式计算定位数据的完整度Integrity:
<mrow> <msub> <mi>Interity</mi> <mrow> <mi>i</mi> <mi>p</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>*</mo> <msub> <mi>IP</mi> <mrow> <msub> <mi>ip</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mi>L</mi> </mfrac> </mrow>
其中:Interityip,i表示IP地址ip在第i个定位数据库中的定位数据完整度,wj(i=1,2,……,L)为各个评价指标特征的权值系数,满足
wj>0
<mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </msubsup> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> <mo>;</mo> </mrow>
其中,表示IP地址ip在第i个定位数据库的第j个特征指标的值,其计算公式如下:
4.根据权利要求2或3所述的基于多数据源融合的IP地域类特征提取方法,其特征在于,其中,定位数据的可信度通过以下方法计算:
通过定位数据库的权威度和定位数据的完整度计算定位数据的可信度:
Credibility(ipvalue(x,i))=Interityip,i*Authorityi
其中Credibility(ipvalue(x,i))表示IP地址为ip的特征指标x在第i个定位数据库中的定位数据值的可信度,Interityip,i表示IP地址为ip在第i个定位数据库中的定位数据的完整度,Authorityi表示第i个定位数据库的权威度;
其中,对于IP地址为ip的特征指标x的可信度计算如下所示:
<mrow> <mi>C</mi> <mi>r</mi> <mi>e</mi> <mi>d</mi> <mi>i</mi> <mi>b</mi> <mi>i</mi> <mi>l</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>ip</mi> <mrow> <mi>v</mi> <mi>a</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>M</mi> <mi>a</mi> <mi>x</mi> <mo>{</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>j</mi> </munderover> <mo>&amp;lsqb;</mo> <mi>C</mi> <mi>r</mi> <mi>e</mi> <mi>d</mi> <mi>i</mi> <mi>b</mi> <mi>i</mi> <mi>l</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>ip</mi> <mrow> <mi>v</mi> <mi>a</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>}</mo> </mrow>
其中j∈[1,n],表示特征指标x的不去重的取值个数;而对于重复的属性取值即当ipvalue(x)=ipvalue(x,i),则特征指标x的可信度为所有重复属性值的可信度之和,可以看作特征指标x的加权投票可信度,Max运算表示取加权投票可信度的最大值。
5.根据权利要求4所述的基于多数据源融合的IP地域类特征提取方法,其特征在于,步骤4具体包括:基于定位数据的可信度,对IP地址的地域类特征的进行筛选,并构建IP地域类特征知识库。
CN201710146433.1A 2017-03-13 2017-03-13 一种基于多数据源融合的ip地域类特征提取方法 Active CN107135281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710146433.1A CN107135281B (zh) 2017-03-13 2017-03-13 一种基于多数据源融合的ip地域类特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710146433.1A CN107135281B (zh) 2017-03-13 2017-03-13 一种基于多数据源融合的ip地域类特征提取方法

Publications (2)

Publication Number Publication Date
CN107135281A true CN107135281A (zh) 2017-09-05
CN107135281B CN107135281B (zh) 2020-03-31

Family

ID=59721889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710146433.1A Active CN107135281B (zh) 2017-03-13 2017-03-13 一种基于多数据源融合的ip地域类特征提取方法

Country Status (1)

Country Link
CN (1) CN107135281B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582399A (zh) * 2020-05-15 2020-08-25 吉林省森祥科技有限公司 一种面向杀菌机器人的多传感器信息融合方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101547129A (zh) * 2009-05-05 2009-09-30 中国科学院计算技术研究所 分布式拒绝服务攻击的检测方法及系统
CN102802258A (zh) * 2011-05-27 2012-11-28 北京百度网讯科技有限公司 扩充定位数据库的方法、服务器及系统
WO2013165837A1 (en) * 2012-05-01 2013-11-07 Everbridge, Inc. Systems and methods for distance and performance based load balancing
CN103606097A (zh) * 2013-11-21 2014-02-26 复旦大学 一种基于可信度评价的产品信息推荐方法及系统
CN105991780A (zh) * 2015-02-04 2016-10-05 国家计算机网络与信息安全管理中心 一种基于互联网ip地址定位数据的ip地址定位系统和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101547129A (zh) * 2009-05-05 2009-09-30 中国科学院计算技术研究所 分布式拒绝服务攻击的检测方法及系统
CN102802258A (zh) * 2011-05-27 2012-11-28 北京百度网讯科技有限公司 扩充定位数据库的方法、服务器及系统
WO2013165837A1 (en) * 2012-05-01 2013-11-07 Everbridge, Inc. Systems and methods for distance and performance based load balancing
CN103606097A (zh) * 2013-11-21 2014-02-26 复旦大学 一种基于可信度评价的产品信息推荐方法及系统
CN105991780A (zh) * 2015-02-04 2016-10-05 国家计算机网络与信息安全管理中心 一种基于互联网ip地址定位数据的ip地址定位系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李景玉等: "基于多特征融合的中文微博评价对象抽取方法", 《计算机应用研究》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582399A (zh) * 2020-05-15 2020-08-25 吉林省森祥科技有限公司 一种面向杀菌机器人的多传感器信息融合方法
CN111582399B (zh) * 2020-05-15 2023-07-18 吉林省森祥科技有限公司 一种面向杀菌机器人的多传感器信息融合方法

Also Published As

Publication number Publication date
CN107135281B (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
CN107092680A (zh) 一种基于地理网格的政务信息资源整合方法
CN107766808A (zh) 道路网络空间中车辆对象移动轨迹聚类的方法及系统
CN105069047B (zh) 一种地理信息的检索方法及装置
CN102163214B (zh) 一种数字地图生成装置及方法
CN102841920B (zh) 一种页面信息提取方法及装置
CN106651603A (zh) 基于位置服务的风险评估方法及装置
CN109299811A (zh) 一种基于复杂网络的欺诈团伙识别和风险传播预测的方法
CN104424231B (zh) 多维数据的处理方法及装置
CN105354305A (zh) 一种网络谣言的识别方法及装置
CN106547770A (zh) 一种基于用户地址信息的用户分类、用户识别方法及装置
CN104202441B (zh) Ip地址数据的数据处理方法和装置
CN109815340A (zh) 一种民族文化信息资源知识图谱的构建方法
Yin et al. A deep learning approach for rooftop geocoding
CN107368471A (zh) 一种网页文本中地名地址的提取方法
CN106162544A (zh) 一种地理围栏的生成方法和设备
Goldberg Improving geocoding match rates with spatially‐varying block metrics
CN108345609A (zh) 一种处理poi信息的方法和装置
CN105227618A (zh) 一种通信站点位置信息处理方法及系统
CN107368480A (zh) 一种兴趣点数据错误类型定位、重复识别方法及装置
CN107347069A (zh) 一种基于Kohonen神经网络的最佳攻击路径规划方法
CN112365595A (zh) 基于报警数据点要素的鉴别交通事故多发点的分析方法
CN106682175A (zh) 一种地址匹配方法及系统
CN108090220A (zh) 兴趣点搜索排序方法及系统
CN107135281A (zh) 一种基于多数据源融合的ip地域类特征提取方法
Hugo et al. New conceptualisation of settlement for demography: beyond the rural/urban dichotomy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant