CN104598580A - Ip地理定位数据的挖掘方法及装置 - Google Patents
Ip地理定位数据的挖掘方法及装置 Download PDFInfo
- Publication number
- CN104598580A CN104598580A CN201510018295.XA CN201510018295A CN104598580A CN 104598580 A CN104598580 A CN 104598580A CN 201510018295 A CN201510018295 A CN 201510018295A CN 104598580 A CN104598580 A CN 104598580A
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- section
- temporary
- geolocation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种IP地理定位数据的挖掘方法及装置,涉及数据挖掘技术领域,方法包括:获取IP地理定位数据库历史数据集以及金融系统归档日志数据集;分别进行加权处理,合并为一第一临时数据集;根据一数据权值衰落时间窗口算法对第一临时数据集进行处理,对第一临时数据集中的权值进行修正,生成一第二临时数据集;将第二临时数据集中的数据条目以IP段进行合并,形成第三临时数据集;确定第三临时数据集中各IP段对应的综合可信度,并生成第四临时数据集;根据一预先设置的可信度阈值与综合可信度,对第四临时数据集中的数据条目进行筛选,生成IP地理定位数据的可信数据。本发明能够解决当前的IP地理定位数据库可靠性差,难以更新的问题。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种IP地理定位数据的挖掘方法及装置。
背景技术
IP地理定位数据库是将虚拟的计算机网络世界与现实世界建立起关联关系,被广泛应用于互联网应用产业中的重要数据库。随着计算机技术和金融行业的发展,IP地理定位技术在金融领域的应用也越来越广泛。在金融领域中,IP地理定位数据库在网银安全提示、可疑业务监控、安全事件分析、业务优化挖掘等多个方面都有较为重要的作用。例如,在电子银行业务的诈骗等案件中,绝大多数都存在犯罪分子在非客户所在地登录客户电子银行并进行交易操作的情况。因此建立准确的IP地理定位数据库十分必要。
当前,在金融领域中,各种金融运行商(如银行等)均具有自己的IP地理定位数据库,但当前的IP地理定位数据库大多需要靠金融用户主动反馈或者从外部导入其他数据库的数据,可靠性较差,且IP地理定位数据难以更新。
发明内容
本发明的实施例提供一种IP地理定位数据的挖掘方法及装置,以解决当前的IP地理定位数据库大多需要靠金融用户主动反馈或者从外部导入其他数据库的数据,可靠性较差,且IP地理定位数据难以更新的问题。
为达到上述目的,本发明采用如下技术方案:
一种IP地理定位数据的挖掘方法,包括:
获取IP地理定位数据库历史数据集以及金融系统归档日志数据集;
将所述IP地理定位数据库历史数据集以及金融系统归档日志数据集分别进行加权处理,并合并为一第一临时数据集;
根据一数据权值衰落时间窗口算法对所述第一临时数据集进行处理,对第一临时数据集中的权值进行修正,生成一第二临时数据集;所述第二临时数据集包括各单个IP地址;
根据所述各单个IP地址,将第二临时数据集中的数据条目以IP段进行合并,形成第三临时数据集;
确定所述第三临时数据集中各IP段对应的综合可信度,并根据所述第三临时数据集和所述综合可信度生成第四临时数据集;
根据一预先设置的可信度阈值与所述综合可信度,对第四临时数据集中的数据条目进行筛选,生成IP地理定位数据的可信数据。
进一步的,所述IP地理定位数据的挖掘方法,还包括:
接收一IP地理定位标准基础数据,并接收用户输入的IP地理定位参考数据;
将所述IP地理定位标准基础数据、所述可信数据和所述IP地理定位参考数据进行整合处理,形成IP地理定位最终数据。
具体的,所述IP地理定位标准基础数据包括IP分配情况信息。
具体的,所述IP地理定位最终数据包括各IP段与地理区域的对应关系表,所述对应关系表包括:IP段对应的身份标识、IP段号码、IP段长度、归属地信息、更新时间、以及所述综合可信度。
具体的,所述第一临时数据集包括单个IP地址、归属地信息、更新时间以及权值。
此外,所述根据一数据权值衰落时间窗口算法对所述第一临时数据集进行处理,对第一临时数据集中的权值进行修正,生成一第二临时数据集,包括:
获取当前时间与第一临时数据集中的更新时间的时间间隔刻度n;
根据所述第一临时数据集中的权值H、所述时间间隔刻度n和一预先设置的衰弱系数k,生成修正权值H(n):
H(n)=H*kn
根据所述第一临时数据集中的单个IP地址、归属地信息和所述修正权值,生成所述第二临时数据集。
此外,根据所述各单个IP地址,将第二临时数据集中的数据条目以IP段进行合并,形成第三临时数据集,包括:
根据一预先设置的IP段长度以及预先设置的IP段划分策略,确定各单个IP地址所在的IP段;
将同一IP段内的各单个IP地址所对应的修正权值叠加,生成各IP段所对应的累积权值;
根据各IP段号码、各IP段所对应的累积权值以及各IP段对应的归属地信息,生成所述第三临时数据集;其中,所述第三临时数据集包括第一子数据集和第二子数据集;所述第一子数据集包括各IP段号码和各IP段所对应的累积权值;所述第二子数据集包括各IP段号码、各IP段对应的归属地信息和各IP段所对应的累积权值。
具体的,所述确定所述第三临时数据集中各IP段对应的综合可信度,并根据所述第三临时数据集和所述综合可信度生成第四临时数据集,包括:
根据所述第三临时数据集确定所述第三临时数据集中各IP段对应的基数可信度CBip和分布可信度CDip_zone;
根据所述基数可信度CBip和分布可信度CDip_zone确定所述综合可信度Cip_zone:
Cip_zone=CBip b*CDip_zone d
其中,所述b和d分别为预先设置的所述基数可信度和分布可信度的权重;
根据所述第三临时数据集中的IP段号码、各IP段对应的归属地信息以及各IP段对应的所述综合可信度Cip_zone,生成所述第四临时数据集。
此外,根据所述第三临时数据集确定所述第三临时数据集中各IP段对应的基数可信度CBip,包括:
其中Bip为所述第一子数据集中的各IP段所对应的累积权值;p为预先设置的算法参数。
此外,根据所述第三临时数据集确定所述第三临时数据集中各IP段对应的分布可信度CDip_zone,包括:
其中,所述s为预先设置的放大系数,所述Bip_zone为所述第二子数据集中的各IP段所对应的累积权值。
具体的,所述根据一预先设置的可信度阈值与所述综合可信度,对第四临时数据集中的数据条目进行筛选,生成IP地理定位数据的可信数据,包括:
判断所述综合可信度是否大于所述可信度阈值;
若所述综合可信度大于所述可信度阈值,则确定该综合可信度所对应的数据条目的数据为可信数据;
若所述综合可信度小于等于所述可信度阈值,则删除该综合可信度所对应的数据条目的数据。
一种IP地理定位数据的挖掘装置,包括:
数据集获取单元,用于获取IP地理定位数据库历史数据集以及金融系统归档日志数据集;
第一临时数据集生成单元,用于将所述IP地理定位数据库历史数据集以及金融系统归档日志数据集分别进行加权处理,并合并为一第一临时数据集;
第二临时数据集生成单元,用于根据一数据权值衰落时间窗口算法对所述第一临时数据集进行处理,对第一临时数据集中的权值进行修正,生成一第二临时数据集;所述第二临时数据集包括各单个IP地址;
第三临时数据集生成单元,用于根据所述各单个IP地址,将第二临时数据集中的数据条目以IP段进行合并,形成第三临时数据集;
第四临时数据集生成单元,用于确定所述第三临时数据集中各IP段对应的综合可信度,并根据所述第三临时数据集和所述综合可信度生成第四临时数据集;
可信数据生成单元,用于根据一预先设置的可信度阈值与所述综合可信度,对第四临时数据集中的数据条目进行筛选,生成IP地理定位数据的可信数据。
进一步的,该IP地理定位数据的挖掘装置,还包括:
外部数据接收单元,用于接收一IP地理定位标准基础数据,并接收用户输入的IP地理定位参考数据;
IP地理定位最终数据生成单元,用于将所述IP地理定位标准基础数据、所述可信数据和所述IP地理定位参考数据进行整合处理,形成IP地理定位最终数据。
具体的,所述外部数据接收单元接收的所述IP地理定位标准基础数据包括IP分配情况信息。
具体的,所述外部数据接收单元接收的所述IP地理定位最终数据包括各IP段与地理区域的对应关系表,所述对应关系表包括:IP段对应的身份标识、IP段号码、IP段长度、归属地信息、更新时间、以及所述综合可信度。
具体的,所述第一临时数据集生成单元生成的所述第一临时数据集包括单个IP地址、归属地信息、更新时间以及权值。
另外,所述第二临时数据集生成单元,具体用于:
获取当前时间与第一临时数据集中的更新时间的时间间隔刻度n;
根据所述第一临时数据集中的权值H、所述时间间隔刻度n和一预先设置的衰弱系数k,生成修正权值H(n):
H(n)=H*kn
根据所述第一临时数据集中的单个IP地址、归属地信息和所述修正权值,生成所述第二临时数据集。
另外,所述第三临时数据集生成单元,具体用于:
根据一预先设置的IP段长度以及预先设置的IP段划分策略,确定各单个IP地址所在的IP段;
将同一IP段内的各单个IP地址所对应的修正权值叠加,生成各IP段所对应的累积权值;
根据各IP段号码、各IP段所对应的累积权值以及各IP段对应的归属地信息,生成所述第三临时数据集;其中,所述第三临时数据集包括第一子数据集和第二子数据集;所述第一子数据集包括各IP段号码和各IP段所对应的累积权值;所述第二子数据集包括各IP段号码、各IP段对应的归属地信息和各IP段所对应的累积权值。
另外,所述第四临时数据集生成单元,具体用于:
根据所述第三临时数据集确定所述第三临时数据集中各IP段对应的基数可信度CBip和分布可信度CDip_zone;
根据所述基数可信度CBip和分布可信度CDip_zone确定所述综合可信度Cip_zone:
Cip_zone=CBip b*CDip_zone d
其中,所述b和d分别为预先设置的所述基数可信度和分布可信度的权重;
根据所述第三临时数据集中的IP段号码、各IP段对应的归属地信息以及各IP段对应的所述综合可信度Cip_zone,生成所述第四临时数据集。
另外,所述第四临时数据集生成单元,具体用于通过公式:
确定所述第三临时数据集中各IP段对应的基数可信度CBip;其中Bip为所述第一子数据集中的各IP段所对应的累积权值;p为预先设置的算法参数。
另外,所述第四临时数据集生成单元,具体用于通过公式:
确定所述第三临时数据集中各IP段对应的分布可信度CDip_zone;其中,所述s为预先设置的放大系数,所述Bip_zone为所述第二子数据集中的各IP段所对应的累积权值。
此外,所述可信数据生成单元,具体用于:
判断所述综合可信度是否大于所述可信度阈值;
在判断到所述综合可信度大于所述可信度阈值时,确定该综合可信度所对应的数据条目的数据为可信数据;
在判断到所述综合可信度小于等于所述可信度阈值时,删除该综合可信度所对应的数据条目的数据。
本发明实施例提供的一种IP地理定位数据的挖掘方法及装置,能够根据IP地理定位数据库历史数据集以及实时的金融系统归档日志数据集经过一系列计算生成IP地理定位数据的可信数据。由于金融系统归档日志数据来自每天金融系统的交易数据,通过金融系统归档日志数据所确定的IP地理定位数据的可信数据的准确度较高,且由于每天的金融系统归档日志数据不同,而能够使最终生成的IP地理定位数据的可信数据实时更新。避免了当前的IP地理定位数据库大多需要靠金融用户主动反馈或者从外部导入其他数据库的数据,可靠性较差,且IP地理定位数据难以更新的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的IP地理定位数据的挖掘方法的流程图一;
图2为本发明实施例提供的IP地理定位数据的挖掘方法的流程图二;
图3为本发明实施例中的数据权值衰落时间窗口算法示意图;
图4为本发明实施例中的基数可信度算法示意图;
图5为本发明实施例中的策略文件的样式示意图;
图6为本发明实施例提供的IP地理定位数据的挖掘装置的结构示意图一;
图7为本发明实施例提供的IP地理定位数据的挖掘装置的结构示意图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供的一种IP地理定位数据的挖掘方法,包括:
步骤101、获取IP地理定位数据库历史数据集以及金融系统归档日志数据集。
步骤102、将该IP地理定位数据库历史数据集以及金融系统归档日志数据集分别进行加权处理,并合并为一第一临时数据集。
步骤103、根据一数据权值衰落时间窗口算法对第一临时数据集进行处理,对第一临时数据集中的权值进行修正,生成一第二临时数据集。
其中,该第二临时数据集包括各单个IP地址。
步骤104、根据各单个IP地址,将第二临时数据集中的数据条目以IP段进行合并,形成第三临时数据集。
步骤105、确定该第三临时数据集中各IP段对应的综合可信度,并根据第三临时数据集和综合可信度生成第四临时数据集。
步骤106、根据一预先设置的可信度阈值与该综合可信度,对第四临时数据集中的数据条目进行筛选,生成IP地理定位数据的可信数据。
本发明实施例提供的一种IP地理定位数据的挖掘方法,能够根据IP地理定位数据库历史数据集以及实时的金融系统归档日志数据集经过一系列计算生成IP地理定位数据的可信数据。由于金融系统归档日志数据来自每天金融系统的交易数据,通过金融系统归档日志数据所确定的IP地理定位数据的可信数据的准确度较高,且由于每天的金融系统归档日志数据不同,而能够使最终生成的IP地理定位数据的可信数据实时更新。避免了当前的IP地理定位数据库大多需要靠金融用户主动反馈或者从外部导入其他数据库的数据,可靠性较差,且IP地理定位数据难以更新的问题。
其中,上述的第一临时数据集包括单个IP地址、归属地信息、更新时间以及权值。
如图2所示,下面列举一个更为具体的实施例,以使得本领域的技术人员更好的了解本发明,本发明实施例提供的一种IP地理定位数据的挖掘方法,包括:
步骤201、获取IP地理定位数据库历史数据集以及金融系统归档日志数据集。
步骤202、将该IP地理定位数据库历史数据集以及金融系统归档日志数据集分别进行加权处理,并合并为一第一临时数据集。
其中,上述的第一临时数据集包括单个IP地址、归属地信息、更新时间以及权值。该第一临时数据集可以以4元组集合的形式表示为[(IP:归属地信息:更新时间:权值)]。其中,在进行加权处理时,金融系统归档日志数据集的权值可以为1,而IP地理定位数据库历史数据集的权值可以为100。
步骤203、获取当前时间与第一临时数据集中的更新时间的时间间隔刻度n。
步骤204、根据该第一临时数据集中的权值H、时间间隔刻度n和一预先设置的衰弱系数k,生成修正权值H(n):
H(n)=H*kn
一般情况下,时间间隔刻度n越大,修正权值H(n)越小,即可信度越低。例如当H=1,k=0.999时,修正权值的结果示意图如图3所示。
步骤205、根据该第一临时数据集中的单个IP地址、归属地信息和修正权值,生成第二临时数据集。
其中,该第二临时数据集包括各单个IP地址、归属地信息、修正权值。其可以以3元组集合的形式表示为[(IP:归属地信息:修正权值)]。
步骤206、根据一预先设置的IP段长度以及预先设置的IP段划分策略,确定各单个IP地址所在的IP段。
步骤207、将同一IP段内的各单个IP地址所对应的修正权值叠加,生成各IP段所对应的累积权值。
步骤208、根据各IP段号码、各IP段所对应的累积权值以及各IP段对应的归属地信息,生成第三临时数据集。
其中,该第三临时数据集包括第一子数据集和第二子数据集;第一子数据集包括各IP段号码和各IP段所对应的累积权值,可以记为[(IP段:累积权值)];第二子数据集包括各IP段号码、各IP段对应的归属地信息和各IP段所对应的累积权值,可以记为[(IP段:地区:累积权值)]。第一子数据集是不区分不同地区的数据集,而第二子数据集是区分不同地区的数据集。
关于IP段的划分,可以是例如预先设置的IP段长度为64,则例如1.1.1.0——1.1.1.63为一个IP段,记为1.1.1.0/26,1.1.1.64——1.1.1.127为另一个IP段,记为1.1.1.64/26。如果第二临时数据集[(IP:归属地信息:修正权值)]中存在如下条目:
NO.11.1.1.1:北京:2
NO.21.1.1.1:北京:0.9
NO.31.1.1.1:北京:1
NO.41.1.1.1:上海:0.9
NO.51.1.1.12:上海:0.1
NO.61.1.1.63:北京:1.1
NO.71.1.1.68:上海:1
NO.81.1.1.100:上海:1
则上述数据汇总后的第二子数据集中将包含如下条目:
1.1.1.0/26:北京:5,即NO.1、NO.2、NO.3、NO.6权值累积;
1.1.1.0/26:上海:1,即NO.4、NO.5权值累积;
1.1.1.64/26:上海:2,即NO.7、NO.8权值累积;
第一子数据集中将包含如下条目:
1.1.1.0/26:6,即NO.1、NO.2、NO.3、NO.4、NO.5、NO.6权值累积;
1.1.1.64/26:2,即NO.7、NO.8权值累积。
步骤209、根据第三临时数据集确定第三临时数据集中各IP段对应的基数可信度CBip和分布可信度CDip_zone。
其中,确定第三临时数据集中各IP段对应的基数可信度CBip可以通过如下公式实现:
其中Bip为第一子数据集中的各IP段所对应的累积权值;p为预先设置的算法参数,默认值可以为25。基数可信度反映一个统计样本总体的大小,对统计结果的影响。例如,如果某IP段的客户数量庞大,交易异常活跃,则会产生大量相关日志。这些日志经过IP段汇总后,其结果是第一子数据集中的累积权值特别大。由于统计学上认为样本数越大,以其为基础进行统计的结果越可靠,因此第一子数据集(IP段:累积权值)中的累积权值越大,则对该IP段进行统计得出的结果越可信。样本大小与统计可信度的模型曲线可以如图4所示。
此外,确定第三临时数据集中各IP段对应的分布可信度CDip_zone可以通过如下公式实现:
其中,s为预先设置的放大系数,默认值可以为2,其用于增加区分度,s越大区分度越大,Bip_zone为第二子数据集中的各IP段所对应的累积权值。
其中∑zone(Bip_zone s)表示对于各给定的IP段,将(Bip_zone s)全部累加。
步骤210、根据基数可信度CBip和分布可信度CDip_zone确定综合可信度Cip_zone:
Cip_zone=CBip b*CDip_zone d
其中,b和d分别为预先设置的基数可信度和分布可信度的权重,一般情况下,b和d的默认值为1。
步骤211、根据第三临时数据集中的IP段号码、各IP段对应的归属地信息以及各IP段对应的综合可信度Cip_zone,生成第四临时数据集。
步骤212、判断综合可信度是否大于一预先设置的可信度阈值。
若综合可信度大于可信度阈值,执行步骤213;若综合可信度小于等于可信度阈值,执行步骤214。
步骤213、确定该综合可信度所对应的数据条目的数据为可信数据。之后继续执行步骤215。
步骤214、删除该综合可信度所对应的数据条目的数据。
步骤215、接收一IP地理定位标准基础数据,并接收用户输入的IP地理定位参考数据。
其中,该IP地理定位标准基础数据包括IP分配情况信息。该IP分配情况信息可以是国际IP分配组织NIC(Network Information Center)及其各分支机构的IP分配情况记录数据。
其中NIC组织ftp公布的数据格式如下段:
arin|US|ipv4|3.0.0.0|16777216|19880223|assigned
arin|US|ipv4|4.0.0.0|16777216|19921201|allocated
arin|US|ipv4|6.0.0.0|16777216|19940201|allocated
arin|US|ipv4|7.0.0.0|16777216|19971124|allocated
arin|US|ipv4|8.0.0.0|16777216|19921201|allocated
……
其中从左至右的8个字段分别为字段1至字段8。其中,字段1为NIC分支信息、字段2为国家信息,字段3为IP版本信息,字段4为起始IP信息,字段5为该段IP个数,字段6为分配时间信息,字段7为是否已分配。通过字段4和字段5可得到一个IP段,结合字段2可知该IP段所对应国家。
步骤216、将IP地理定位标准基础数据、可信数据和IP地理定位参考数据进行整合处理,形成IP地理定位最终数据。
其中,整合处理的策略可以是:标准基础数据的优先级高于可信数据,可信数据的优先级高于参考数据。但可信数据的内容不能与标准基础数据相冲突,若相冲突,则采用标准数据。另外,精度高的数据的优先级要高于精度低的数据。例如可信数据显示某IP段归属地为中国-福建省-龙岩市,而标准基础数据只显示该IP段归属地为中国,二者并不冲突,但可信数据精确度更高,因此该IP段对应的IP地理定位最终数据将选择该可信数据。
其中,IP地理定位最终数据包括各IP段与地理区域的对应关系表,对应关系表包括:IP段对应的身份标识(ID)、IP段号码、IP段长度、归属地信息、更新时间、以及综合可信度。
例如IP地理定位最终数据的主要字段样式如下表1所示:
表1:
步骤217、将IP地理定位最终数据存储到IP地理定位数据库中。
由于当前的金融企业客户群庞大、客户覆盖面广、金融系统归档日志记录完整准确、每天都有大量新日志生成等特点,所以通过金融系统归档日志数据所确定的IP地理定位数据的可信数据能保证数据库准确度和较高的覆盖度,并且通过每天的金融系统归档日志实现IP地理定位数据库动态更新。
值得说明的是,本发明实施例提供的IP地理定位数据的挖掘方法中的各种算法以及策略可以预先存储于一数据库中,并可进行更新。例如,策略文件的样式可以如图5所示。
本发明实施例提供的一种IP地理定位数据的挖掘方法,能够根据IP地理定位数据库历史数据集以及实时的金融系统归档日志数据集经过一系列计算生成IP地理定位数据的可信数据。由于金融系统归档日志数据来自每天金融系统的交易数据,通过金融系统归档日志数据所确定的IP地理定位数据的可信数据的准确度较高,且由于每天的金融系统归档日志数据不同,而能够使最终生成的IP地理定位数据的可信数据实时更新。避免了当前的IP地理定位数据库大多需要靠金融用户主动反馈或者从外部导入其他数据库的数据,可靠性较差,且IP地理定位数据难以更新的问题。
对应于上述图1和图2所示的方法实施例,本发明实施例提供一种IP地理定位数据的挖掘装置,如图6所示,包括:
数据集获取单元31,可以获取IP地理定位数据库历史数据集以及金融系统归档日志数据集。
第一临时数据集生成单元32,可以将IP地理定位数据库历史数据集以及金融系统归档日志数据集分别进行加权处理,并合并为一第一临时数据集。
第二临时数据集生成单元33,可以根据一数据权值衰落时间窗口算法对第一临时数据集进行处理,对第一临时数据集中的权值进行修正,生成一第二临时数据集;第二临时数据集包括各单个IP地址。
第三临时数据集生成单元34,可以根据各单个IP地址,将第二临时数据集中的数据条目以IP段进行合并,形成第三临时数据集。
第四临时数据集生成单元35,可以确定第三临时数据集中各IP段对应的综合可信度,并根据第三临时数据集和综合可信度生成第四临时数据集。
可信数据生成单元36,可以根据一预先设置的可信度阈值与综合可信度,对第四临时数据集中的数据条目进行筛选,生成IP地理定位数据的可信数据。
进一步的,如图7所示,该IP地理定位数据的挖掘装置,还可以包括:
外部数据接收单元37,可以接收一IP地理定位标准基础数据,并接收用户输入的IP地理定位参考数据;。
IP地理定位最终数据生成单元38,可以将IP地理定位标准基础数据、可信数据和IP地理定位参考数据进行整合处理,形成IP地理定位最终数据。
具体的,外部数据接收单元37接收的IP地理定位标准基础数据包括IP分配情况信息。
具体的,外部数据接收单元37接收的IP地理定位最终数据包括各IP段与地理区域的对应关系表,对应关系表包括:IP段对应的身份标识、IP段号码、IP段长度、归属地信息、更新时间、以及综合可信度。
具体的,第一临时数据集生成单元32生成的第一临时数据集包括单个IP地址、归属地信息、更新时间以及权值。
另外,第二临时数据集生成单元33,具体可以:获取当前时间与第一临时数据集中的更新时间的时间间隔刻度n。根据第一临时数据集中的权值H、时间间隔刻度n和一预先设置的衰弱系数k,生成修正权值H(n):
H(n)=H*kn
并根据第一临时数据集中的单个IP地址、归属地信息和修正权值,生成第二临时数据集。
另外,第三临时数据集生成单元34,具体可以根据一预先设置的IP段长度以及预先设置的IP段划分策略,确定各单个IP地址所在的IP段。并将同一IP段内的各单个IP地址所对应的修正权值叠加,生成各IP段所对应的累积权值。从而根据各IP段号码、各IP段所对应的累积权值以及各IP段对应的归属地信息,生成第三临时数据集;其中,第三临时数据集包括第一子数据集和第二子数据集;其中,第一子数据集包括各IP段号码和各IP段所对应的累积权值;第二子数据集包括各IP段号码、各IP段对应的归属地信息和各IP段所对应的累积权值。
另外,第四临时数据集生成单元35,具体可以根据第三临时数据集确定第三临时数据集中各IP段对应的基数可信度CBip和分布可信度CDip_zone。根据基数可信度CBip和分布可信度CDip_zone确定综合可信度Cip_zone:
Cip_zone=CBip b*CDip_zone d
其中,b和d分别为预先设置的基数可信度和分布可信度的权重;
之后,还根据第三临时数据集中的IP段号码、各IP段对应的归属地信息以及各IP段对应的综合可信度Cip_zone,生成第四临时数据集。
另外,第四临时数据集生成单元35,具体可以通过公式:
确定第三临时数据集中各IP段对应的基数可信度CBip;其中Bip为第一子数据集中的各IP段所对应的累积权值;p为预先设置的算法参数。
另外,第四临时数据集生成单元35,具体用于通过公式:
确定第三临时数据集中各IP段对应的分布可信度CDip_zone;其中,s为预先设置的放大系数,Bip_zone为第二子数据集中的各IP段所对应的累积权值。
此外,可信数据生成单元36,具体可以判断综合可信度是否大于可信度阈值;
在判断到综合可信度大于可信度阈值时,确定该综合可信度所对应的数据条目的数据为可信数据。
在判断到综合可信度小于等于可信度阈值时,删除该综合可信度所对应的数据条目的数据。
值得说明的是,本发明实施例提供的IP地理定位数据的挖掘装置的具体实现方式可以参见上述图1和图2的方法实施例,此处不再赘述。
本发明实施例提供的一种IP地理定位数据的挖掘装置,能够根据IP地理定位数据库历史数据集以及实时的金融系统归档日志数据集经过一系列计算生成IP地理定位数据的可信数据。由于金融系统归档日志数据来自每天金融系统的交易数据,通过金融系统归档日志数据所确定的IP地理定位数据的可信数据的准确度较高,且由于每天的金融系统归档日志数据不同,而能够使最终生成的IP地理定位数据的可信数据实时更新。避免了当前的IP地理定位数据库大多需要靠金融用户主动反馈或者从外部导入其他数据库的数据,可靠性较差,且IP地理定位数据难以更新的问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (22)
1.一种IP地理定位数据的挖掘方法,其特征在于,包括:
获取IP地理定位数据库历史数据集以及金融系统归档日志数据集;
将所述IP地理定位数据库历史数据集以及金融系统归档日志数据集分别进行加权处理,并合并为一第一临时数据集;
根据一数据权值衰落时间窗口算法对所述第一临时数据集进行处理,对第一临时数据集中的权值进行修正,生成一第二临时数据集;所述第二临时数据集包括各单个IP地址;
根据所述各单个IP地址,将第二临时数据集中的数据条目以IP段进行合并,形成第三临时数据集;
确定所述第三临时数据集中各IP段对应的综合可信度,并根据所述第三临时数据集和所述综合可信度生成第四临时数据集;
根据一预先设置的可信度阈值与所述综合可信度,对第四临时数据集中的数据条目进行筛选,生成IP地理定位数据的可信数据。
2.根据权利要求1所述的IP地理定位数据的挖掘方法,其特征在于,还包括:
接收一IP地理定位标准基础数据,并接收用户输入的IP地理定位参考数据;
将所述IP地理定位标准基础数据、所述可信数据和所述IP地理定位参考数据进行整合处理,形成IP地理定位最终数据。
3.根据权利要求2所述的IP地理定位数据的挖掘方法,其特征在于,所述IP地理定位标准基础数据包括IP分配情况信息。
4.根据权利要求3所述的IP地理定位数据的挖掘方法,其特征在于,所述IP地理定位最终数据包括各IP段与地理区域的对应关系表,所述对应关系表包括:IP段对应的身份标识、IP段号码、IP段长度、归属地信息、更新时间、以及所述综合可信度。
5.根据权利要求4所述的IP地理定位数据的挖掘方法,其特征在于,所述第一临时数据集包括单个IP地址、归属地信息、更新时间以及权值。
6.根据权利要求5所述的IP地理定位数据的挖掘方法,其特征在于,所述根据一数据权值衰落时间窗口算法对所述第一临时数据集进行处理,对第一临时数据集中的权值进行修正,生成一第二临时数据集,包括:
获取当前时间与第一临时数据集中的更新时间的时间间隔刻度n;
根据所述第一临时数据集中的权值H、所述时间间隔刻度n和一预先设置的衰弱系数k,生成修正权值H(n):
H(n)=H*kn
根据所述第一临时数据集中的单个IP地址、归属地信息和所述修正权值,生成所述第二临时数据集。
7.根据权利要求6所述的IP地理定位数据的挖掘方法,其特征在于,根据所述各单个IP地址,将第二临时数据集中的数据条目以IP段进行合并,形成第三临时数据集,包括:
根据一预先设置的IP段长度以及预先设置的IP段划分策略,确定各单个IP地址所在的IP段;
将同一IP段内的各单个IP地址所对应的修正权值叠加,生成各IP段所对应的累积权值;
根据各IP段号码、各IP段所对应的累积权值以及各IP段对应的归属地信息,生成所述第三临时数据集;其中,所述第三临时数据集包括第一子数据集和第二子数据集;所述第一子数据集包括各IP段号码和各IP段所对应的累积权值;所述第二子数据集包括各IP段号码、各IP段对应的归属地信息和各IP段所对应的累积权值。
8.根据权利要求7所述的IP地理定位数据的挖掘方法,其特征在于,所述确定所述第三临时数据集中各IP段对应的综合可信度,并根据所述第三临时数据集和所述综合可信度生成第四临时数据集,包括:
根据所述第三临时数据集确定所述第三临时数据集中各IP段对应的基数可信度CBip和分布可信度CDip_zone;
根据所述基数可信度CBip和分布可信度CDip_zone确定所述综合可信度Cip_zone:
Cip_zone=CBip b*CDip_zone d
其中,所述b和d分别为预先设置的所述基数可信度和分布可信度的权重;
根据所述第三临时数据集中的IP段号码、各IP段对应的归属地信息以及各IP段对应的所述综合可信度Cip_zone,生成所述第四临时数据集。
9.根据权利要求8所述的IP地理定位数据的挖掘方法,其特征在于,根据所述第三临时数据集确定所述第三临时数据集中各IP段对应的基数可信度CBip,包括:
其中Bip为所述第一子数据集中的各IP段所对应的累积权值;p为预先设置的算法参数。
10.根据权利要求8所述的IP地理定位数据的挖掘方法,其特征在于,根据所述第三临时数据集确定所述第三临时数据集中各IP段对应的分布可信度CDip_zone,包括:
其中,所述s为预先设置的放大系数,所述Bip_zone为所述第二子数据集中的各IP段所对应的累积权值。
11.根据权利要求9或10所述的IP地理定位数据的挖掘方法,其特征在于,所述根据一预先设置的可信度阈值与所述综合可信度,对第四临时数据集中的数据条目进行筛选,生成IP地理定位数据的可信数据,包括:
判断所述综合可信度是否大于所述可信度阈值;
若所述综合可信度大于所述可信度阈值,则确定该综合可信度所对应的数据条目的数据为可信数据;
若所述综合可信度小于等于所述可信度阈值,则删除该综合可信度所对应的数据条目的数据。
12.一种IP地理定位数据的挖掘装置,其特征在于,包括:
数据集获取单元,用于获取IP地理定位数据库历史数据集以及金融系统归档日志数据集;
第一临时数据集生成单元,用于将所述IP地理定位数据库历史数据集以及金融系统归档日志数据集分别进行加权处理,并合并为一第一临时数据集;
第二临时数据集生成单元,用于根据一数据权值衰落时间窗口算法对所述第一临时数据集进行处理,对第一临时数据集中的权值进行修正,生成一第二临时数据集;所述第二临时数据集包括各单个IP地址;
第三临时数据集生成单元,用于根据所述各单个IP地址,将第二临时数据集中的数据条目以IP段进行合并,形成第三临时数据集;
第四临时数据集生成单元,用于确定所述第三临时数据集中各IP段对应的综合可信度,并根据所述第三临时数据集和所述综合可信度生成第四临时数据集;
可信数据生成单元,用于根据一预先设置的可信度阈值与所述综合可信度,对第四临时数据集中的数据条目进行筛选,生成IP地理定位数据的可信数据。
13.根据权利要求12所述的IP地理定位数据的挖掘装置,其特征在于,还包括:
外部数据接收单元,用于接收一IP地理定位标准基础数据,并接收用户输入的IP地理定位参考数据;
IP地理定位最终数据生成单元,用于将所述IP地理定位标准基础数据、所述可信数据和所述IP地理定位参考数据进行整合处理,形成IP地理定位最终数据。
14.根据权利要求13所述的IP地理定位数据的挖掘装置,其特征在于,所述外部数据接收单元接收的所述IP地理定位标准基础数据包括IP分配情况信息。
15.根据权利要求14所述的IP地理定位数据的挖掘装置,其特征在于,所述外部数据接收单元接收的所述IP地理定位最终数据包括各IP段与地理区域的对应关系表,所述对应关系表包括:IP段对应的身份标识、IP段号码、IP段长度、归属地信息、更新时间、以及所述综合可信度。
16.根据权利要求15所述的IP地理定位数据的挖掘装置,其特征在于,所述第一临时数据集生成单元生成的所述第一临时数据集包括单个IP地址、归属地信息、更新时间以及权值。
17.根据权利要求16所述的IP地理定位数据的挖掘装置,其特征在于,所述第二临时数据集生成单元,具体用于:
获取当前时间与第一临时数据集中的更新时间的时间间隔刻度n;
根据所述第一临时数据集中的权值H、所述时间间隔刻度n和一预先设置的衰弱系数k,生成修正权值H(n):
H(n)=H*kn
根据所述第一临时数据集中的单个IP地址、归属地信息和所述修正权值,生成所述第二临时数据集。
18.根据权利要求17所述的IP地理定位数据的挖掘装置,其特征在于,所述第三临时数据集生成单元,具体用于:
根据一预先设置的IP段长度以及预先设置的IP段划分策略,确定各单个IP地址所在的IP段;
将同一IP段内的各单个IP地址所对应的修正权值叠加,生成各IP段所对应的累积权值;
根据各IP段号码、各IP段所对应的累积权值以及各IP段对应的归属地信息,生成所述第三临时数据集;其中,所述第三临时数据集包括第一子数据集和第二子数据集;所述第一子数据集包括各IP段号码和各IP段所对应的累积权值;所述第二子数据集包括各IP段号码、各IP段对应的归属地信息和各IP段所对应的累积权值。
19.根据权利要求18所述的IP地理定位数据的挖掘装置,其特征在于,所述第四临时数据集生成单元,具体用于:
根据所述第三临时数据集确定所述第三临时数据集中各IP段对应的基数可信度CBip和分布可信度CDip_zone;
根据所述基数可信度CBip和分布可信度CDip_zone确定所述综合可信度Cip_zone:
Cip_zone=CBip b*CDip_zone d
其中,所述b和d分别为预先设置的所述基数可信度和分布可信度的权重;
根据所述第三临时数据集中的IP段号码、各IP段对应的归属地信息以及各IP段对应的所述综合可信度Cip_zone,生成所述第四临时数据集。
20.根据权利要求19所述的IP地理定位数据的挖掘装置,其特征在于,所述第四临时数据集生成单元,具体用于通过公式:
确定所述第三临时数据集中各IP段对应的基数可信度CBip;其中Bip为所述第一子数据集中的各IP段所对应的累积权值;p为预先设置的算法参数。
21.根据权利要求19所述的IP地理定位数据的挖掘装置,其特征在于,所述第四临时数据集生成单元,具体用于通过公式:
确定所述第三临时数据集中各IP段对应的分布可信度CDip_zone;其中,所述s为预先设置的放大系数,所述Bip_zone为所述第二子数据集中的各IP段所对应的累积权值。
22.根据权利要求20或21所述的IP地理定位数据的挖掘装置,其特征在于,所述可信数据生成单元,具体用于:
判断所述综合可信度是否大于所述可信度阈值;
在判断到所述综合可信度大于所述可信度阈值时,确定该综合可信度所对应的数据条目的数据为可信数据;
在判断到所述综合可信度小于等于所述可信度阈值时,删除该综合可信度所对应的数据条目的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510018295.XA CN104598580B (zh) | 2015-01-14 | 2015-01-14 | Ip地理定位数据的挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510018295.XA CN104598580B (zh) | 2015-01-14 | 2015-01-14 | Ip地理定位数据的挖掘方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104598580A true CN104598580A (zh) | 2015-05-06 |
CN104598580B CN104598580B (zh) | 2018-01-26 |
Family
ID=53124365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510018295.XA Active CN104598580B (zh) | 2015-01-14 | 2015-01-14 | Ip地理定位数据的挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104598580B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105897944A (zh) * | 2016-03-25 | 2016-08-24 | 胡津瑞 | 一种基于trace的IP地址地理位置库的推断和填充方法 |
CN106341498A (zh) * | 2015-07-06 | 2017-01-18 | 阿里巴巴集团控股有限公司 | 基于网络地址的定位、ip分段数据的存储方法及装置 |
CN106998264A (zh) * | 2017-02-21 | 2017-08-01 | 中国科学院信息工程研究所 | 一种基于动态信任模型的ip定位数据库可信度评估方法 |
CN108600410A (zh) * | 2018-04-13 | 2018-09-28 | 浙江科技学院 | 一种基于概率模型的测量的ip地址地理定位系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102104635A (zh) * | 2009-12-17 | 2011-06-22 | 阿里巴巴集团控股有限公司 | 一种更新互联网协议ip地址库的方法和装置 |
US20130031033A1 (en) * | 2011-07-28 | 2013-01-31 | Quova, Inc. | System and method for implementing a learning model for predicting the geographic location of an internet protocol address |
CN104168341A (zh) * | 2014-08-15 | 2014-11-26 | 北京百度网讯科技有限公司 | Ip地址的定位方法和cdn调度方法以及装置 |
-
2015
- 2015-01-14 CN CN201510018295.XA patent/CN104598580B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102104635A (zh) * | 2009-12-17 | 2011-06-22 | 阿里巴巴集团控股有限公司 | 一种更新互联网协议ip地址库的方法和装置 |
US20130031033A1 (en) * | 2011-07-28 | 2013-01-31 | Quova, Inc. | System and method for implementing a learning model for predicting the geographic location of an internet protocol address |
CN104168341A (zh) * | 2014-08-15 | 2014-11-26 | 北京百度网讯科技有限公司 | Ip地址的定位方法和cdn调度方法以及装置 |
Non-Patent Citations (2)
Title |
---|
CHEN CHEN ET AL: "Mining the Web for IP Address Geolocations", 《MICROSOFT RESEARCH》 * |
宋建 等: "一种评估国内IP地址库可信度的方法", 《计算机应用》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106341498A (zh) * | 2015-07-06 | 2017-01-18 | 阿里巴巴集团控股有限公司 | 基于网络地址的定位、ip分段数据的存储方法及装置 |
CN105897944A (zh) * | 2016-03-25 | 2016-08-24 | 胡津瑞 | 一种基于trace的IP地址地理位置库的推断和填充方法 |
CN106998264A (zh) * | 2017-02-21 | 2017-08-01 | 中国科学院信息工程研究所 | 一种基于动态信任模型的ip定位数据库可信度评估方法 |
CN106998264B (zh) * | 2017-02-21 | 2019-11-26 | 中国科学院信息工程研究所 | 一种基于动态信任模型的ip定位数据库可信度评估方法 |
CN108600410A (zh) * | 2018-04-13 | 2018-09-28 | 浙江科技学院 | 一种基于概率模型的测量的ip地址地理定位系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104598580B (zh) | 2018-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11087329B2 (en) | Method and apparatus of identifying a transaction risk | |
US10608905B2 (en) | Method and system for temporal sampling in evolving network | |
CN104423961B (zh) | 一种生成测试脚本的方法及系统 | |
US11009362B2 (en) | Generating trail network maps | |
CN104598580A (zh) | Ip地理定位数据的挖掘方法及装置 | |
CN106686020A (zh) | 域名安全性的检测方法、装置及系统 | |
CN106033510A (zh) | 一种用户设备识别方法及系统 | |
CN108319858A (zh) | 针对不安全函数的数据依赖图构建方法及装置 | |
CN104899228A (zh) | 一种发布网页资源的方法及装置 | |
US20230040635A1 (en) | Graph-based impact analysis of misconfigured or compromised cloud resources | |
CN103365886A (zh) | 车联网中的空间事件的查询方法和优化查询器 | |
CN110442834A (zh) | 构建测井曲线的方法、装置、计算机设备及可读存储介质 | |
CN103544325A (zh) | 用于网页页面点击分布的数据处理方法和装置 | |
CN110309496B (zh) | 数据汇总方法、电子装置及计算机可读存储介质 | |
CN102546205B (zh) | 一种故障关系生成及故障确定方法及装置 | |
CN107832446A (zh) | 一种配置项信息的搜索方法及计算设备 | |
CN105404974A (zh) | 一种数据资产化方法、装置及管理平台 | |
CN109271438A (zh) | 一种数据库访问方法及其系统 | |
CN108170837A (zh) | 数据离散化方法、装置、计算机设备及存储介质 | |
CN112307151A (zh) | 导航数据处理方法及装置 | |
CN113242332B (zh) | 一种形成街道级定位库的改进方法 | |
CN106156162A (zh) | 数据库查询量统计方法和设备 | |
CN111625727A (zh) | 用于社交关系数据的信息处理方法、装置和存储介质 | |
Nadeem et al. | Data Visualization in Cybersecurity | |
Chiyoshi et al. | A Tabu search algorithm for solving the extended maximal availability location problem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |