一种确定用户IP子网的方法和装置、一种电子设备
技术领域
本申请涉及互联网网络领域,具体涉及一种确定用户IP子网的方法和装置;本申请还涉及一种应用上述方法的用于风控系统的风险控制方法和装置,另外,本申请还涉及一种电子设备。
背景技术
IP地址在互联网领域具有关键的作用,在Internet上有千百万台主机,为了区分这些主机,给每台主机分配了一个专门的地址,称为IP地址。通过IP地址就可以访问到每一台主机。IP地址由4部分数字组成,每部分数字对应于8位二进制数字,各部分之间用小数点分开。例如,某一台主机的IP地址为:211.152.65.112,网络IP地址由NIC(InternetNetwork Information Center)统一负责全球地址的规划和管理,并由Inter NIC、APNIC、RIPE三大网络信息中心具体负责IP地址分配工作。
由于IP地址的组成是固定的,因此,给一台计算机或网络设备长期使用固定IP地址需要昂贵的费用。另外,随着互联网行业的飞速发展,越来越多的终端设备(PC,手机,平板等)接入网络,导致IP地址资源已经接近枯竭。根据统计数字表明,我国约有13亿人口,而IP地址只有大概3.3亿,人均拥有的IP地址的数量不到1个,并且大部分人同时拥有多种终端设备,导致每个人分配一个静态IP地址(固定IP地址)是不现实的。然而,对于大多数拨号上网的用户,由于其在上网时间和空间上具有离散性,因此可以使多个用户共享IP地址,以满足用户的上网需求,因此,动态IP地址应运而生。
但是,由于动态IP地址的分配是随机的,因此,分配给同一个用户的IP地址可能为随机的多个,这将导致同一个用户的行为分散到了其所有使用过的IP地址上,造成用户行为的分散,从数据层面上来说,动态IP地址会造成用户数据稀疏的问题。所谓数据稀疏,即数据过于分散,所述的数据分散首先会造成统计结果失去分析意义的问题。其次,还可能由于IP子网结构需要不断重组,且IP子网元数据的变化周期太短,造成需要频繁的同步数据库,导致服务器压力大,资源浪费的问题。另外,更新重构过程需要耗时耗资,导致子网信息无法更新,时效性差,并且还可能造成用户打扰率高的问题。
因此,解决用户的数据稀疏性的问题至关重要。
发明内容
本申请提供一种确定用户IP子网的方法和装置,以解决现有技术存在的上述问题。
本申请还提供一种用于风控系统的风险控制方法和装置。
本申请另外还提供一种电子设备。
本申请提供一种确定用户IP子网的方法,包括:
获取用户的IP地址初始记录,所述IP地址初始记录中包括至少一个IP地址;
以预设的最小子网掩码阈值为约束条件,对所述IP地址初始记录进行子网化分析,获得子网化分析的结果;
将所述子网化分析的结果中记录的IP地址确定为用户的IP子网。
可选的,所述以所述预设的最小子网掩码阈值为约束条件,对所述IP地址初始记录进行子网化分析,获得子网化分析的结果的过程采用以下方式:
读取全部IP地址初始记录作为当前IP地址;
将当前IP地址中具有相同前缀的位数最多的IP地址进行组合,获得符合规定的分组;
判断前述组合过程中,被组合的当前IP地址的相同前缀的位数与所述预设的最小子网掩码阈值的关系是大于、小于还是等于;
若大于,则对所获得的各个分组,以其相同的前缀为依据,采用最小子网掩码记录该组的子网IP地址;并将所获得的子网IP地址与尚未归入任何分组的IP地址作为所述当前IP地址,返回所述将当前IP地址中具有相同前缀的位数最多的IP地址进行组合的步骤;
若小于,则将本次分组前的IP地址记录为子网化分析的结果;
若等于,则将本次分组的IP地址记录为子网化分析的结果。
可选的,所述以预设的最小子网掩码阈值为约束条件步骤中预设的最小子网掩码阈值采用以下方式获取:
获得多个用户的IP地址初始记录作为数据分析的基础数据;
确定一个最小子网掩码取值作为当前最小子网掩码,根据所述多个IP地址记录具有相同前缀的IP地址的情况,获得采用该当前最小子网掩码时的各个子网;
在各个子网中,计算出反映各个子网中每个可能IP地址被多个用户使用的概率的子网稳定性指标;
将各个子网的子网稳定性指标与预先确定的子网稳定性指标阈值相比较,计算采用当前最小子网掩码的情况下,大于或等于子网稳定性指标阈值的子网占所有子网的比例;
改变所述最小子网掩码取值,重复上述四个步骤,获得所述最小子网掩码采用不同取值时,各自达到子网稳定性指标阈值的子网占所有子网的比例;
选取达到子网稳定性指标阈值的子网占所有子网的比例最高的最小子网掩码取值确定为所述最小子网掩码阈值。
可选的,所述子网稳定性指标是根据子网中平均一个IP地址对应的用户量计算获取。
可选的,所述子网稳定性指标s的计算方式为:
其中,k是定量参数,Cnet是子网的用户量,Cm是所述当前最小子网掩码的取值。
可选的,在所述根据所述子网化分析的结果中记录的IP地址,确定用户的IP子网步骤之后,还包括:
计算用户和与其对应的子网化IP地址的共现概率;
根据所述计算获取的共现概率,设定用户的常用子网;
判断某一用户执行某一个网络行为时所使用的IP地址是否在该用户的常用子网的范围内,若是,则对该网络行为的安全性给予正面评价;若否,则给予负面评价。
本申请还提供一种确定用户IP子网的装置,包括:
初始记录获取单元,用于获取用户的IP地址初始记录,所述IP地址初始记录中包括至少一个IP地址;
子网化分析单元,用于以预设的最小子网掩码阈值为约束条件,对所述IP地址初始记录进行子网化分析,获得子网化分析的结果;
子网化IP地址确定单元,用于将所述子网化分析的结果中记录的IP地址确定为用户的IP子网。
可选的,所述子网化分析单元包括:
当前IP地址记录获取子单元,用于读取全部IP地址初始记录作为当前IP地址;
IP地址组合子单元,用于将当前IP地址中具有相同前缀的位数最多的IP地址进行组合,获得符合规定的分组;
判断子单元,用于判断前述组合过程中,被组合的当前IP地址的相同前缀的位数与所述预设的最小子网掩码阈值的关系是大于、小于还是等于;
若大于,则对所获得的各个分组,以其相同的前缀为依据,采用最小子网掩码记录该组的子网IP地址;并将所获得的子网IP地址与尚未归入任何分组的IP地址作为所述当前IP地址,返回所述将当前IP地址中具有相同前缀的位数最多的IP地址进行组合的步骤;
若小于,则将本次分组前的IP地址记录为子网化分析的结果;
若等于,则将本次分组的IP地址记录为子网化分析的结果。
可选的,所述子网化分析单元中包括最小子网掩码阈值预设单元,所述最小子网掩码阈值预设单元包括:
基础数据获取子单元,用于获得多个用户的IP地址初始记录作为数据分析的基础数据;
当前最小子网掩码确定子单元,用于确定一个最小子网掩码取值作为当前最小子网掩码,根据所述多个IP地址记录具有相同前缀的IP地址的情况,获得采用该当前最小子网掩码时的各个子网;
子网稳定性指标计算子单元,用于在各个子网中,计算出反映各个子网中每个可能IP地址被多个用户使用的概率的子网稳定性指标;
子网占有比获取子单元,用于将各个子网的子网稳定性指标与预先确定的子网稳定性指标阈值相比较,计算采用当前最小子网掩码的情况下,大于或者等于子网稳定性指标阈值的子网占所有子网的比例;
重复计算子单元,用于改变所述最小子网掩码取值,重复上述四个步骤,获得所述最小子网掩码采用不同取值时,各自达到子网稳定性指标阈值的子网占所有子网的比例;
确定子单元,用于选取达到子网稳定性指标阈值的子网占所有子网的比例最高的最小子网掩码取值确定为所述最小子网掩码阈值。
可选的,还包括:
共现概率计算单元,用于计算用户和与其对应的子网化IP地址的共现概率;
常用子网设定单元,用于根据所述计算获取的共现概率,设定用户的常用子网;
常用子网判断单元,用于判断某一用户执行某一个网络行为时所使用的IP是否在该用户的常用子网的范围内,若是,则对该网络行为的安全性给予正面评价;若否,则给予负面评价。
本申请还提供一种用于风控系统的风险控制方法,包括:
根据确定用户IP子网的方法获取用户与多个子网化IP地址之间的对应关系;
根据所述对应关系及子网化IP地址在预定时间内出现的次数,分别计算用户和多个子网化IP地址的共现概率;
根据所述计算获取的共现概率,设定用户的常用子网;
判断某一用户执行某一个网络行为时所使用的IP地址是否在该用户的常用子网的范围内,若是,则对该网络行为的安全性给予正面评价;若否,则给予负面评价。
可选的,所述根据所述计算获取的共现概率,设定用户的常用子网采用以下方式:
预设共现概率阈值;
判断某一子网化IP地址与用户的共现概率是否大于所述预设的共现概率阈值;
若是,则将该子网化IP地址设定为用户的常用子网。
可选的,所述根据所述对应关系及子网化IP地址在预定时间内出现的次数,分别计算用户和多个子网化IP地址的共现概率包括:
计算用户执行某一个网络行为时使用某一子网IP地址的次数;
将所述次数进行归一化处理,获取用户使用某一子网的概率;
将所述概率作为用户和该子网IP地址的共现概率。
可选的,所述将所述次数进行归一化处理具体计算方法是,将用户使用某一子网的次数与用户使用所有子网的次数作比值计算。
本申请还提供一种用于风控系统的风险控制装置,包括:
对应关系获取单元,用于根据确定用户IP子网的装置获取用户与多个子网化IP地址之间的对应关系;
共现概率计算单元,用于根据所述对应关系及子网化IP地址在预定时间内出现的次数,分别计算用户和多个子网化IP地址的共现概率;
常用子网设定单元,用于根据所述计算获取的共现概率,设定用户的常用子网;
常用子网判断单元,用于判断某一用户执行某一个网络行为时所使用的IP是否在该用户的常用子网的范围内,若是,则对该网络行为的安全性给予正面评价;若否,则给予负面评价。
可选的,所述常用子网设定单元包括:
共现概率阈值预设子单元,用于预设共现概率阈值;
判断子单元,用于判断某一子网化IP地址与用户的共现概率是否大于所述预设的共现概率阈值;
若是,则将该子网化IP地址设定为用户的常用子网。
可选的,所述共现概率计算单元包括:
使用次数计算子单元,用于计算用户执行某一个网络行为时使用某一子网IP地址的次数;
归一化处理子单元,用于将所述次数进行归一化处理,获取用户使用某一子网的概率;
概率获取子单元,用于将所述概率作为用户和该子网IP地址的共现概率。
可选的,所述归一化处理子单元具体用于将用户使用某一子网的次数与用户使用所有子网的次数作比值计算。
本申请还提供一种电子设备,所述电子设备包括:输入设备、输出设备、处理器和存储器,所述存储器用于存储确定用户IP子网的软件程序,所述软件程序在被所述处理器读取执行时,执行如下操作:
获取用户的IP地址初始记录,所述IP地址初始记录中包括至少一个IP地址;
以预设的最小子网掩码阈值为约束条件,对所述IP地址初始记录进行子网化分析,获得子网化分析的结果;
将所述子网化分析的结果中记录的IP地址确定为用户的IP子网。
与现有技术相比,本申请具有以下优点:
本申请提供一种确定用户IP子网的方法,包括:获取用户的IP地址初始记录,所述IP地址初始记录中包括至少一个IP地址;以预设的最小子网掩码阈值为约束条件,对所述IP地址初始记录进行子网化分析,获得子网化分析的结果;将所述子网化分析的结果中记录的IP地址确定为用户的IP子网。该方法是在用户与其被分配的多个相互无关系的IP地址初始记录的基础上,将预设的最小子网掩码阈值作为子网化分析的终止约束条件,根据子网化分析的结果获取用户与子网化IP地址之间的对应关系,将用户的使用网络的行为集中于子网化IP地址上,从而避免了同一个用户的行为被分散到所有其使用的IP上造成的用户行为分散等问题,并且通过用户与子网的对应关系可给上层建模带来方便,因此,该方法是对用户网络行为分析的依据。
本申请还提供一种用于风控系统的风险控制方法,包括:采用确定用户IP子网的方法获取用户与多个子网化IP地址之间的对应关系;根据所述对应关系及子网化IP地址在预定时间内出现的次数,分别计算用户和多个子网化IP地址的共现概率;根据所述计算获取的共现概率,设定用户的常用子网;判断某一用户执行某一个网络行为时所使用的IP是否在该用户的常用子网的范围内,若是,则对该网络行为的安全性给予正面评价;若否,则给予负面评价。根据该方法可以提高可信IP的识别度,让用户正常访问服务,而不会因为错误的拒绝影响用户体院,从而降低用户的打扰了,提升覆盖率。
附图说明
图1是本申请第一实施例提供的确定用户IP子网的方法的流程图。
图2是本申请第一实施例提供的实现子网化分析的流程图。
图3是本申请第一实施例提供的预设的最小子网掩码阈值的获取方法的流程图。
图4是本申请第一实施例提供的子网稳定性指标大于或等于0.9时各子网的占比曲线图。
图5是本申请第一实施例提供的具体实例的介绍。
图6是本申请第二实施例提供的确定用户IP子网的装置的示意图。
图7是本申请第三实施例提供的用于风控系统的风险控制方法的流程图。
图8是本申请第三实施例提供的用户和子网的共现关系的计算表格。
图9是本申请第四实施例提供的用于风控系统的风险控制装置的示意图。
图10是本申请第五实施例提供的一种电子设备的示意图。
具体实施方式
本申请第一实施例提供一种确定用户IP子网的方法,该方法可以解决由于动态IP造成的一个用户的行为可能会被分散到多个IP上的问题,该方法将用户与其被分配的多个IP地址的关系转变为用户与其对应的子网IP地址的关系,从而将用户的行为集中到某个或某些子网化IP地址上,因此该方法可为上层建模带来便利。
以下对本申请第一实施例提供的确定用户IP子网的方法进行详细的描述。
图1是本申请第一实施例提供的确定用户IP子网的方法的流程图,请参照图1,该方法包括以下步骤:
步骤S101,获取用户的IP地址初始记录,所述IP地址初始记录中包括至少一个IP地址。
每个电脑在每次上网时均会被分配一个IP地址,但被分配的IP地址都是随机的,每次上网时可能被分配到的IP地址均是不相同的,这类的IP地址称为的动态IP地址分配。
所述动态IP地址是通过Modem、ISDN、ADSL、有线宽频或小区宽频等方式上网的计算机,不同电脑端每次上网所分配到的IP地址可能都不相同。
在互联网领域,所述IP是指互联网协议地址(Internet Protocol Address),由32位二进制数组成,为便于使用,常以点分十进制(XXX.XXX.XXX.XXX)的形式表现,每组XXX代表小于或等于255的10进制数。
由于每个用户是被分配到的动态IP地址,因此,用户每次获取的IP地址可能是不相同的,并且,在某一段时间内,用户被分配的多个IP地址之间也不可能存在固定的对应关系,用户每次被分配的一个IP地址后,其在该IP地址上进行的一切行为将被记录在该IP地址上,相应的,用户的每次采用不同的IP地址也将其行为分散到相应的IP地址上。
但是,用户使用行为也将会通过日志的方式被记录,因此,可以用户使用某一IP地址的行为记录为该IP地址的初始记录,相应的,一个用户在使用多个IP地址之后,多个IP地址将会对应该用户记录为该用户的IP地址初始记录。
上述的初始记录是指用户被分配的原始的IP地址记录,该初始记录的概念是用于与后续步骤中子网化IP地址相区别的。
步骤S102,以预设的最小子网掩码阈值为约束条件,对所述IP地址初始记录进行子网化分析,获得子网化分析的结果。
在该步骤中涉及子网化分析,以下对子网化过程进行简单描述。
所述子网是指具有相同前缀的IP地址的集合,例如:某公司的一组常用IP地址是42.120.75.2,42.120.75.3,42.120.75.4,这三个IP地址可以组成的一个子网地址为42.120.75.0/24。其中,42.120.75.0是该子网的网络地址,24是该子网掩码。
所述子网化分析是将具有相同前缀的IP地址转化为子网化IP地址的过程。例如:将IP地址分别为42.120.75.2,42.120.75.3,42.120.75.4的IP地址转化为42.120.75.0/24的过程即为子网化分析过程。
在该子网化分析的过程中,还涉及子网的子网掩码及最小子网掩码。以下对子网掩码和最小子网掩码进行介绍。
所述子网掩码(subnet mask)是一种用来指明一个IP地址的哪些位标识的是主机所在的子网,以及哪些位标识的是主机的位掩码。例如:对于42.120.75.0这个网络地址,24和29都是合法的网络号,即24和29都是该网络地址的子网掩码。
所述最小子网掩码是数值最小的子网掩码,如上例,对于42.120.75.0这个网络地址,24和29都是合法的子网掩码,但是24相比于29是更小的子网掩码,因此,24是IP地址为42.120.75.0的最小子网掩码。
此外,最小子网掩码和子网掩码的表示方法有两种,一种是通过与IP地址格式相同的点分十进制表示,另外一种是在IP地址后加上“/”符号以及1-32的数字,其中1-32的数字表示子网掩码中网络标识位的长度。本申请实施例中涉及的子网掩码或者最小子网掩码均是采用第二种方式的网络标识位的长度表示。
由于用户被分配的多个IP地址初始记录可能具有的相同前缀的位数不同,有些IP地址之间的相同的前缀位数较长,而某一些IP地址之间相同的前缀位数较短,或者,两个IP地址的相同的前缀位数为0这样的情况也是存在的,当两个IP地址的相同前缀位数为0时,则说明在对该两个IP地址进行子网化分析时,该两个IP地址将被划分出的子网为整个互联网。
本步骤是对用户IP地址初始记录进行子网化分析的过程,在该过程中,将预设的最小子网掩码阈值设置为该子网化分析的一个终止约束条件,具体是,将具有相同前缀的IP地址归入一个子网,形成至少一个子网,而针对每一个子网,通过迭代的方式尽可能减小其相同前缀的位数,直至相同前缀的位数等于预设的最小子网掩码时可以终止该子网化过程,但是相同前缀的位数不能小于预设的最小子网掩码阈值。因此根据每个子网具有的相同前缀的位数的数值与预设的最小子网掩码阈值进行比对分析,最终可以获得子网化分析的结果。
关于上述子网化分析过程可通过下述优选实施方式进行详述:
图2是本申请第一实施例提供的实现子网化分析的流程图,请参照图2,所述子网化分析过程采用的方式包括以下步骤:
步骤S1,读取全部IP地址初始记录作为当前IP地址。
所述子网化分析的数据基础是用户被分配的多个IP地址,该多个IP地址采用用户的IP地址初始记录标示,首先是将读取到的全部IP地址作为当前IP地址,所述当前IP地址在后续步骤中可能会发生变化,因为在后续步骤中涉及的当前IP地址是指需要对IP地址进行组合前的IP地址,因此,每进行一次组合,当前IP地址将会发生变化。
然而在该步骤中用户被分配的多个IP地址即为当前IP地址,之后,需要对所述当前IP地址进行后续步骤S2的操作。
步骤S2,将当前IP地址记录中具有相同前缀的位数最多的IP地址进行组合,获得符合规定的分组。
该步骤是将具有相同前缀的位数最多的IP地址进行组合的过程,并且在该组合过程中,可能会有一个分组或者是一个以上的分组。
当所有当前IP地址中的IP地址均具有相同前缀时,则可将该IP地址中具有相同前缀位数最多的IP地址划分为一组。
当所述当前IP地址中有部分的IP地址之间不具有共同前缀,例如,第一IP地址初始记录和第二IP地址初始记录,其前面30位的前缀相同;第三IP地址初始记录和第四IP地址初始记录,其前面30位的前缀相同;但是第一IP地址初始记录、第二IP地址初始记录的前面30位前缀和第三IP地址初始记录、第四IP地址初始记录的前面30位前缀并不相同,则第一IP地址初始记录、第二IP地址初始记录分为一组;第三IP地址初始记录、第四IP地址初始记录分为另外一组。这样就获得了两组符合具有相同前缀的位数最多的IP地址记录组合。
通过上述方式,就能够产生至少一组(包括一组以上)具有不同前缀的IP地址的组别,并且这些组别是符合上述规定而划分的。
另外,除了在组合过程中产生上述一组或者一组以上的情况,还可能出现所述当前IP地址记录中所有IP地址均没有相同前缀的情况,该情况为一个特殊情况,这样,不需要再对当前IP地址进行组合,所述子网化分析结果即为所述当前IP地址为用户的子网化地址。这种情况在实际的数据采集中一般不会发生,如果在特殊情况下发生,则按照该特殊情况处理。
根据上述分组规定执行步骤S3。
步骤S3,判断前述组合过程中,被组合的当前IP地址的相同前缀的位数与所述预设的最小子网掩码阈值的关系是大于、小于还是等于。
该步骤主要是用于确定所述子网化分析的终止约束条件。
因为根据子网化分析的目的是将用户被分配的IP地址初始记录通过合并组合的方式使IP地址初始记录集中至某个或者某些子网化的IP地址上,在组合合并的过程中,获得的子网的最小子网掩码会越来越小,说明获得的子网的范围越来越大,因此逐渐获取的子网包含的IP地址越多,因此,可能会存在分析出的子网中归入不必要的网络地址的情况,所以,并不是子网化后的子网的最小子网掩码越小越好,在子网化分析的过程中,推算出0.0.0.0/0(整个互联网)这样的子网的实际应用价值很小,因此在所述子网化分析的过程中,必须寻求一个约束终止条件,满足终止条件时,终止该子网化分析的过程。
所述子网化终止条件为预先设置的最小子网掩码阈值,而该最小子网掩码阈值一般为预先设定的一个固定值。
在所述IP地址组合的过程中,需要判断当前的IP地址的相同前缀的位数与所述最小子网掩码阈值的大小关系,根据判断结果进行后续的相应操作。具体根据判断结果(大于、等于或者小于)进行相应的操作如下:
当组合的当前IP地址的相同前缀的位数大于预设的最小子网掩码阈值时,说明该组合过程还没有达到终止的条件。
在上述情况下,说明当前状态只是一个组合过程中的一个中间状态,相同前缀的位数大于最小子网掩码阈值,首先需要将组合的子网IP地址通过最小子网掩码的方式记录,将所获得的子网IP地址与尚未归入任何分组的IP地址作为所述当前IP地址,返回步骤S2,继续对当前IP地址进行组合。
当组合的当前IP地址的相同前缀的位数等于预设的最小子网掩码阈值时,说明在该状态下,刚好达到所述子网化分析的终止条件,因此,可以终止所述子网化分析过程,并将本次分组的IP地址记录为所述子网化分析的结果。相应的,本次分组的IP地址即为子网化分析后的子网化IP地址,所述最小子网掩码阈值为对应的子网化IP地址的最小子网掩码。
当组合的当前IP地址的相同前缀的位数小于预设的最小子网掩码阈值时,说明在该状态下,已经达到所述子网化分析的终止条件,需要对IP地址的子网化分析过程终止。
虽然子网化分析过程在该种情况下终止,但是,所述子网化分析过程的结果与组合的当前IP地址的相同前缀的位数等于预设的最小子网掩码阈值时返回的结果是不相同的。
在该情况下,组合的当前IP地址的相同前缀的位数是小于最小子网掩码的,说明该组的继续组合过程是不应该成立的,因此,该次组合获得的子网IP地址并不是符合所述小于预先确定的最小子网掩码阈值这一约束条件的子网化分析结果,应该将本次分组组合前的IP地址记录为所述子网化分析的结果。相应的,子网化分子的最终结果可以通过本次分组组合之前的该组的IP地址及其所对应的最小子网掩码表示。
根据以上描述,在子网化分析的过程中,预设最小子网掩码作为子网化分析的约束条件在本申请实施例的方案中具有至关重要的作用。
以下介绍所述确定最小子网掩码阈值的方法,该确定方法即为步骤S102中预设最小子网掩码阈值的方法,具体方法请参照图3,图3是本申请第一实施例提供的预设的最小子网掩码阈值的获取方法的流程图。该方法包括:
步骤S102-1,获得多个用户的IP地址初始记录作为数据分析的基础数据。
所述预设的最小子网掩码的获取的基础是对大量用户在特定时间内的所有IP地址初始记录的数据分析,因此,该数据的采集是针对多个用户的,并且每个用户还具有多个IP地址初始记录,针对采集的这些数据进行下一步的计算。
步骤S102-2,确定一个最小子网掩码取值作为当前最小子网掩码,根据所述多个IP地址记录具有相同前缀的IP地址的情况,获得采用该当前最小子网掩码时的各个子网。
由于研究数据是大量用户,且每个用户具有多个IP地址初始记录,针对这些IP地址初始记录可以通过子网化分析获得多个子网地址,并且每个子网地址将对应一个最小子网掩码。
步骤S102-3,在各个子网中,计算出反映各个子网中每个可能IP地址被多个用户使用的概率的子网稳定性指标。
在对用户的IP进行子网化分析时,随着子网化分析过程中子网的范围不断增大,在这个过程中可以通过子网稳定性衡量子网质量的标准。
所述子网稳定性是指子网中平均一个IP被多少个用户使用概率的映射,它的值域为[0,1],取值越大表示该子网越稳定。这个指标是为了衡量子网中IP分配的随机性,如果子网中平均一个IP被越多用户使用,证明这个子网中得IP的分配是很随机的,或者说是不稳定的。因此,子网稳定性指标可以作为子网化终止的约束条件。
所述子网化稳定性参数标识子网中平均一个IP地址被使用的概率,该指标可通过子网中平均一个IP地址对应的用户量计算获取,即也可以理解为所述子网稳定性参数与所述子网中平均一个IP地址被使用的用户量成反比。
所述子网稳定性指标s可通过下述表达式表示:
其中,n是子网内平均每个可能IP地址的用户量,k是定量参数。
另外,n的表达式可以如下所示:
其中,Cnet是子网的用户量,Cm是所述当前最小子网掩码的取值。
因此,当定量参数为112时,所述子网稳定性指标s可通过如下表示:
上述表达式仅是子网稳定性参数的一种表达方式,还可以通过其他的表达式表征所述子网化稳定性参数。另外,经验设定参数112仅是本申请实施例描述的一个优选的设定参数,还可以是采用参数预估方法预先设置的参数值,其数值可根据具体情况进行相应的调整。
步骤S102-4,将各个子网的子网稳定性指标与预先确定的子网稳定性指标阈值相比较,计算采用当前最小子网掩码的情况下,大于或者等于子网稳定性指标阈值的子网占所有子网的比例。
根据上述子网稳定性指标的表达式,当子网稳定性指标大于或等于0.9时,其子网稳定性较好,设定子网稳定性指标大于0.9为达到子网稳定性要求。因此,可设定所述子网稳定性指标阈值为0.9。
在上述子网稳定性指标范围内,即所述子网稳定性指标大于或等于0.9时,针对某一子网,设定一个最小子网掩码值(例如设定为16),计算在该条件下的该子网占所有子网的比例。
步骤S102-5,改变所述最小子网掩码取值,重复上述四个步骤,获得所述最小子网掩码采用不同取值时,各自达到子网稳定性指标阈值的子网占所有子网的比例。
设定最小子网掩码的取值范围是[8,24],在该范围内,任意取值,在相应的取值情况下,重复上述步骤S102-1至S102-4四个步骤,分别计算不同的最小子网掩码值对应的该子网占所有子网的比例。
步骤S102-6,选取达到子网稳定性指标阈值的子网占所有子网的比例最高的最小子网掩码取值确定为所述最小子网掩码阈值。
根据步骤S102-5和S102-4两个步骤可以在所述子网掩码的取值范围内分别取离散的子网掩码的值;每一个子网掩码的值对应子网稳定性指标处于阈值范围内的子网占比值,获取所有子网掩码对应的占比值。
最后,根据判断获取占比值进行比较,获取最大的占比值,并将其对应的子网掩码作为子网掩码阈值。
根据上述阈值范围及子网掩码的取值范围,可获得子网稳定性指标大于0.9时各子网的占比曲线图,请参照图4,横坐标表示最小子网掩码的取值,纵坐标表示在不同的最小子网掩码下达到子网稳定性条件的子网占总子网的比例。
根据图4可知,当最小子网掩码取16时,占比达到最大。因此,可以选择16作为预设的最小子网掩码阈值。
以下通过具体实例对该步骤S102进行详述。
请参照图5,图5是本申请第一实施例提供的具体实例的介绍。该实例以预设的最小子网掩码阈值是16时为例进行下述描述,对用户被分配的五个IP进行合并时的子网化分析过程,第一次合并时将42.120.75.2和42.120.75.91合并为42.120.75.0/24,将110.23.12.32和110.23.12.59合并为110.23.12.0/24,第二次合并将42.120.74.9和42.120.75.0/24合并为42.120.74.0/23,而110.23.12.0/24保持不变,第二次合并后就没有可以继续合并的IP地址了,而两个子网的子网掩码为23和24,显然,合并后的这两个子网的公共前缀的位数为23位和24位,如果将最后获得的两个子网再次进行组合,则可得出的子网为0.0.0.0/0,显然该子网的相同前缀的位数小于16,因此,应该将组合为0.0.0.0/0之前的两个子网42.120.74.0/23和110.23.12.0/24设定为子网化分析的结果,最终,用户对应的子网为42.120.74.0/23和110.23.12.0/24。
步骤S103,根据所述子网化分析的结果中记录的IP地址确定为用户的IP子网。
上述对IP地址初始记录的子网化分析过程可用于对用户的网络行为进行分析,在上一步骤中通过子网化分析结果可以获得与该用户对应的子网化的IP地址,该子网化IP地址可能是一组也可能是多组,将用户与该一组或者多组子网化IP地址之间设置为对应关系。
当对用户的网络行为进行分析时,如果某一个IP地址初始记录存在于用户的子网化IP地址中时,可以不记录该用户与被分配的IP地址初始记录的关系,仅将该用户的行为记录进相对应的子网化IP地址中。
总之,该方法在子网化的过程中根据子网化稳定条件预设最小子网掩码阈值作为子网化终止条件,并且最终可以获取用户与子网的对应关系,避免同一个用户的行为被分散到所有其使用的IP上造成的用户IP地址记录稀疏性问题,并且通过用户与子网的对应关系可给上层建模带来方便。
另外,在步骤S103之后还可以执行下述步骤:
计算用户和与其对应的子网化IP地址的共现概率;
根据所述计算获取的共现概率,设定用户的常用子网;
判断某一用户执行某一个网络行为时所使用的IP地址是否在该用户的常用子网的范围内,若是,则对该网络行为的安全性给予正面评价;若否,则给予负面评价。
上述步骤是根据子网化分析结果确定用户与子网化IP地址对应关系之后的具体应用,并且,该具体应用在下述的用于风控系统的风险控制方法中会做详细介绍,因此,在该部分不对这一系列的步骤进行详述。
本申请第二实施例提供一种确定用户IP子网的装置。该装置是对应于上述方法而言的。该装置的具体实施方式可参考上述方法。
图6是本申请第二实施例提供的一种确定用户IP子网的装置,请参照图6,该装置包括:
用于获取用户的IP地址初始记录601,所述IP地址初始记录中包括至少一个IP地址;
子网化分析单元602,用于以预设的最小子网掩码阈值为约束条件,对所述IP地址初始记录进行子网化分析,获得子网化分析的结果;
子网化IP地址确定单元604,用于将所述子网化分析的结果中记录的IP地址确定为用户的IP子网。
可选的,所述子网化分析单元包括:
当前IP地址记录获取子单元,用于读取全部IP地址初始记录作为当前IP地址;
IP地址组合子单元,用于将当前IP地址中具有相同前缀的位数最多的IP地址组合,获得符合规定的分组;
判断子单元,用于判断前述组合过程中,被组合的当前IP地址的相同前缀的位数与所述预设的最小子网掩码阈值的关系是大于、小于还是等于;
若大于,则对所获得的各个分组,以其相同的前缀为依据,采用最小子网掩码记录该组的子网IP地址;并将所获得的子网IP地址与尚未归入任何分组的IP地址作为所述当前IP地址,返回所述将当前IP地址中具有相同前缀的位数最多的IP地址进行组合的步骤;
若小于,则将本次分组前的IP地址记录为子网化分析的结果;
若等于,则将本次分组的IP地址记录为子网化分析的结果。
可选的,所述子网化分析单元还包括最小子网掩码阈值预设单元,所述最小子网掩码阈值预设单元包括:
基础数据获取子单元,用于获得多个用户的IP地址初始记录作为数据分析的基础数据;
当前最小子网掩码确定子单元,用于确定一个最小子网掩码取值作为当前最小子网掩码,根据所述多个IP地址记录具有相同前缀的IP地址的情况,获得采用该当前最小子网掩码时的各个子网;
子网稳定性指标计算子单元,用于在各个子网中,计算出反映各个子网中每个可能IP地址被多个用户使用的概率的子网稳定性指标;
子网占有比获取子单元,用于将各个子网的子网稳定性指标与预先确定的子网稳定性指标阈值相比较,计算采用当前最小子网掩码的情况下,大于或者等于子网稳定性指标阈值的子网占所有子网的比例;
重复计算子单元,用于改变所述最小子网掩码取值,重复上述四个步骤,获得所述最小子网掩码采用不同取值时,各自达到子网稳定性指标阈值的子网占所有子网的比例;
确定子单元,用于选取达到子网稳定性指标阈值的子网占所有子网的比例最高的最小子网掩码取值确定为所述最小子网掩码阈值。
可选的,还包括:
共现概率计算单元,用于计算用户和与其对应的子网化IP地址的共现概率;
常用子网设定单元,用于根据所述计算获取的共现概率,设定用户的常用子网;
常用子网判断单元,用于判断某一用户执行某一个网络行为时所使用的IP是否在该用户的常用子网的范围内,若是,则对该网络行为的安全性给予正面评价;若否,则给予负面评价。
上述确定用户IP子网的方法可以应用在风控系统中,为风控系统中确定IP地址的安全性做出参考。
首先,介绍风控系统,风控系统主要是让正常用户顺畅的访问服务,让异常用户(盗号者等)尽量无法访问服务,例如:让异常用户填二次短信校验码等。但是让正常用户进行二次验证会影响其使用体验,所以,风控系统要尽量少去打扰正常用户。
在风控系统中需要保证高覆盖率和低误报率。具体以实例进行描述。
假设五分钟内有1w次服务请求,风控系统认为是异常访问并发送二次验证的请求数1k,那么覆盖率(不打扰所有类型用户的比率):
(1w–1k)/1w=0.9
假设未发送二次验证的请求中有500个请求是盗号者发来的(也就是案件),那么误报率(不打扰的请求中案件的比率):
500/(1w–1k)=0.056
显然,风控体系要做到高覆盖率,低误报率。
基于上述解决用户IP地址记录稀疏性的方法,本申请第三实施例提供一种用于风控系统的风险控制方法,请参照图7,该方法包括:
步骤S701,采用所述确定用户IP子网的方法获取用户与多个子网化IP地址之间的对应关系。
根据上述确定用户IP子网的方法可以获取用户与子网IP地址记录的对应关系,该对应关系包括用户使用该子网IP地址的频次等特征。
步骤S702,根据所述对应关系及子网化IP地址在预定时间内出现的次数,分别计算用户和多个子网化IP地址的共现概率。
计算用户使用某一子网的频次;将所述频次进行归一化处理,获取用户使用某一子网的概率;将所述概率作为用户和子网的共现概率。
可通过具体事例对该步骤进行描述。
图8是本申请第三实施例提供的用户和子网的共现关系的计算表格,请参照图8,用户A的三个IP地址42.120.75.21,42.120.75.39,42.120.75.124被合并为子网42.120.75.0/24,用户使用三个IP地址的频次的累加就是该用户使用子网的频次。
对该频次进行归一化处理,就可以得到用户与该子网的共现概率。
所述归一化处理是指:将绝对频次转化为相对概率值,将[0,∞]的区间映射为[0,1]。其具体的计算方法如下:用户使用子网A的次数与用户使用所有子网的次数的比值。该指标用来衡量用户和子网的紧密程度。
步骤S703,根据所述计算获取的共现概率,设定用户对应的常用子网。
首先预设共现概率阈值。
其次,判断用户与某一子网的共现概率是否大于所述预设的共现概率阈值。
若大于,则将该子网可设定为用户对应的常用子网。
或者,通过设定用户使用某一子网的频次阈值,当用户使用该子网的频次大于该频次阈值时,则设定该子网为用户的常用子网。
例如,假设用户A使用次数大于48的IP定义为该用户的常用IP,那么用户A的常用IP为:42.120.75.21,42.120.75.39,42.120.75.124,这三个IP经过分析可获得出子网42.120.75.0/24,该子网包含254个IP(从42.120.75.2到42.120.75.254)。除了前面描述的三个IP,剩下的251个IP也是用户的常用子网,但该251个IP为常用子网中的不常用IP(因为用户没有使用过),但是这些IP是在常用子网里的,所以相较不在子网内的非常用IP,安全系数更高。
步骤S704,判断某一用户执行某一个网络行为时所使用的IP地址是否在该用户的常用子网的范围内,若是,则对该网络行为的安全性给予正面评价;若否,则给予负面评价。
当用户A使用42.120.75.99访问服务时,我们在数据库中查询该IP是否在用户A的常用子网内,只有验证通过才能继续访问服务,否则拒绝访问。另外,由于IP动态分配的原因,用户A可能使用常用子网中的不常用IP来访问服务。以往的规则不会让这类IP通过,实际上这类IP几乎是没有风险的。造成了覆盖率的降低,而这种情况也可以被本发明的方法检测到,让用户正常的访问服务,而不会因为错误的拒绝影响用户体验,从而降低用户打扰率,在可信IP的识别上。因此,采用该方法应用于风控系统中可以提升8%的覆盖率。
针对上述用户风控系统的风险控制方法,本申请第四实施例提供一种用于风控系统的风险控制装置,请参照图9,该装置包括:
对应关系获取单元901,用于上述的确定用户IP子网的装置获取用户与多个子网化IP地址之间的对应关系;
共现概率计算单元902,用于根据所述对应关系及子网化IP地址在预定时间内出现的次数,分别计算用户和多个子网化IP地址的共现概率;
常用子网设定单元903,用于根据所述计算获取的共现概率,设定用户的常用子网;
常用子网判断单元904,用于判断某一用户执行某一个网络行为时所使用的IP地址是否在该用户的常用子网的范围内,若是,则对该网络行为的安全性给予正面评价;若否,则给予负面评价。
可选的,所述常用子网设定单元包括:
共现概率阈值预设子单元,用于预设共现概率阈值;
判断子单元,用于判断某一子网化IP地址与用户的共现概率是否大于所述预设的共现概率阈值;
若是,则将该子网化IP地址设定为用户的常用子网。
可选的,所述共现概率计算单元包括:
使用次数计算子单元,用于计算用户执行某一个网络行为时使用某一子网IP地址的次数;
归一化处理子单元,用于将所述次数进行归一化处理,获取用户使用某一子网的概率;
概率获取子单元,用于将所述概率作为用户和该子网IP地址的共现概率。
可选的,所述归一化处理子单元具体用于将用户使用某一子网的次数与用户使用所有子网的次数作比值计算。
本申请第五实施例提供一种电子设备,图10是本申请第五实施例提供的电子设备的示意图,请参照图10,所述电子设备包括:输入设备1001、输出设备1002、处理器1003和存储器1004,所述存储器1004用于存储确定用户IP子网的软件程序,所述软件程序在被所述处理器1003读取执行时,执行如下操作:
获取用户的IP地址初始记录,所述IP地址初始记录中包括至少一个IP地址;
以所述预设的最小子网掩码阈值为约束条件,对所述IP地址初始记录进行子网化分析,获得子网化分析的结果;
将所述子网化分析的结果中记录的IP地址确定为用户的IP子网。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。