CN112003846B - 一种信用阈值的训练、ip地址的检测方法及相关装置 - Google Patents

一种信用阈值的训练、ip地址的检测方法及相关装置 Download PDF

Info

Publication number
CN112003846B
CN112003846B CN202010813912.6A CN202010813912A CN112003846B CN 112003846 B CN112003846 B CN 112003846B CN 202010813912 A CN202010813912 A CN 202010813912A CN 112003846 B CN112003846 B CN 112003846B
Authority
CN
China
Prior art keywords
address
service
value
feature
credit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010813912.6A
Other languages
English (en)
Other versions
CN112003846A (zh
Inventor
王相
钟清华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Baiguoyuan Information Technology Co Ltd
Original Assignee
Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Baiguoyuan Information Technology Co Ltd filed Critical Guangzhou Baiguoyuan Information Technology Co Ltd
Priority to CN202010813912.6A priority Critical patent/CN112003846B/zh
Publication of CN112003846A publication Critical patent/CN112003846A/zh
Priority to EP21855449.1A priority patent/EP4199421A4/en
Priority to PCT/CN2021/111096 priority patent/WO2022033396A1/zh
Priority to US18/041,275 priority patent/US20230328087A1/en
Application granted granted Critical
Publication of CN112003846B publication Critical patent/CN112003846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1466Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供了一种信用阈值的训练、IP地址的检测方法及相关装置,该信用阈值的训练方法包括:对基于IP地址历史触发的业务操作统计多种业务特征,对每种业务特征分级计算至少两个相关系数,相关系数用于表示业务特征与合法性之间的相关性,针对IP地址,根据业务特征对应的相关系数生成表示合法性的信用值,对IP地址生成评估指标,评估指标用于评估使用业务特征预测IP地址的合法性,若IP地址的评估指标符合目标条件,则确定评估指标对应的信用值为信用阈值,实现多维度的综合判断,避免针对单一维度的阈值,可以降低因单一维度出现故障导致误拦截的风险,也降低不法用户通过绕开单一维度阈值从而绕开管控的风险,即降低了遗漏的风险。

Description

一种信用阈值的训练、IP地址的检测方法及相关装置
技术领域
本发明实施例涉及运营监控的技术领域,尤其涉及一种信用阈值的训练、IP地址的检测方法及相关装置。
背景技术
用户在注册、登录等行为中,网站通常会通过短信、邮件等形式下发验证码,用户输入验证码实现注册、登录等目的。
短信、邮件等信息承载验证码进行身份验证,因其操作简便、安全性高、时效性强等优点已被广泛使用。但因其获取便利、限制较少容易被不法分子利用进行信息轰炸,尤其是恶意请求短信会产生大量的费用,给企业或个人造成大量的损失。
因此,网站日常的运营中会对用户的注册、登录等行为进行监控,分辨正常的行为、异常的行为。目前,网站一般是对用户的IP(Internet Protocol,互联网协议)地址进行监控,监控的方式主要有以下两种:
1、基于频次进行拦截:
若IP地址在一段时间内请求的次数到达阈值,则认为是异常。
一方面,对于原本请求量就很大的IP地址,正常的行为会因为到达阈值而被误拦截。
另一方面,非法用户可以通过IP代理商获得大量不同的IP,在确定阈值后,容易被非法用户探知道具体的数值,通过大量的IP地址降低请求的频次,从而逃避管控。
2、基于验证率低进行拦截
若IP地址在一段时间内的验证率低于阈值,则认为是异常。
但是,目前存在大量的接码平台,用来自动接验证码和发送验证码验证,因此,非法用户通过接码平台进行验证,验证率可能较高,从而逃避管控。
发明内容
本发明实施例提出了一种信用阈值的训练、IP地址的检测方法及相关装置,以解决通过频次、验证率等单一阈值对IP地址的行为进行监控,容易发生误拦截、绕开管控的问题。
第一方面,本发明实施例提供了一种信用阈值的训练方法,包括:
对基于IP地址历史触发的业务操作统计多种业务特征;
对每种所述业务特征分级计算至少两个相关系数,所述相关系数用于表示所述业务特征与合法性之间的相关性;
针对所述IP地址,根据所述业务特征对应的所述相关系数生成表示合法性的信用值;
对所述IP地址生成评估指标,所述评估指标用于评估使用所述业务特征预测所述IP地址的合法性;
若所述IP地址的所述评估指标符合目标条件,则确定所述评估指标对应的所述信用值为信用阈值,所述信用阈值用于划分所述合法性的状态。
第二方面,本发明实施例还提供了一种IP地址的检测方法,包括:
对基于IP地址实时触发的业务操作统计多种业务特征;
查询所述业务特征对应的相关系数,所述相关系数用于表示所述业务特征与合法性之间的相关性;
根据所述相关系数生成表示合法性的信用值;
将所述信用值与预设的信用阈值进行比较,确定所述IP地址的合法性,以对齐使用所述业务特征预测所述IP地址的合法性。
第三方面,本发明实施例还提供了一种信用阈值的训练装置,包括:
历史业务特征统计模块,用于对基于IP地址历史触发的业务操作统计多种业务特征;
相关系数计算模块,用于对每种所述业务特征分级计算至少两个相关系数,所述相关系数用于表示所述业务特征与合法性之间的相关性;
信用值计算模块,用于针对所述IP地址,根据所述业务特征对应的所述相关系数生成表示合法性的信用值;
评估指标生成模块,用于对所述IP地址生成评估指标,所述评估指标用于评估使用所述业务特征预测所述IP地址的合法性;
信用阈值确定模块,用于若所述IP地址的所述评估指标符合目标条件,则确定所述评估指标对应的所述信用值为信用阈值,所述信用阈值用于划分所述合法性的状态。
第四方面,本发明实施例还提供了一种IP地址的检测装置,包括:
实时业务特征统计模块,用于对基于IP地址实时触发的业务操作统计多种业务特征;
相关系数查询模块,用于查询所述业务特征对应的相关系数,所述相关系数用于表示所述业务特征与合法性之间的相关性;
信用值生成模块,用于根据所述相关系数生成表示合法性的信用值;
合法性确定模块,用于将所述信用值与预设的信用阈值进行比较,确定所述IP地址的合法性,以对齐使用所述业务特征预测所述IP地址的合法性。
第五方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中所述的信用阈值的训练或者如第二方面中所述的IP地址的检测方法。
第六方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面中所述的信用阈值的训练或者如第二方面中所述的IP地址的检测方法。
在本实施例中,对基于IP地址历史触发的业务操作统计多种业务特征,对每种业务特征分级计算至少两个相关系数,相关系数用于表示业务特征与合法性之间的相关性,针对IP地址,根据业务特征对应的相关系数生成表示合法性的信用值,对IP地址生成评估指标,评估指标用于评估使用业务特征预测IP地址的合法性,若IP地址的评估指标符合目标条件,则确定评估指标对应的信用值为信用阈值,信用阈值用于划分合法性的状态,在评估指标的辅助下训练信用阈值,可以保证信用阈值划分合法性的有效性,以业务操作的多个业务特征综合评估IP地址的信用值,实现多维度的综合判断,避免针对单一维度的阈值,可以降低因单一维度出现故障导致误拦截的风险,也降低不法用户通过绕开单一维度阈值从而绕开管控的风险,即降低了遗漏的风险,整体提高网站运行的安全性。
附图说明
图1为本发明实施例一提供的一种信用阈值的训练方法的流程图;
图2为本发明实施例二提供的一种IP地址的检测方法的流程图;
图3为本发明实施例二提供的一种业务操作的示意图;
图4为本发明实施例三提供的一种信用阈值的训练装置的结构示意图;
图5为本发明实施例四提供的一种IP地址的检测装置的结构示意图;
图6为本发明实施例五提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在实际应用中,针对不同业务领域的业务操作,IP地址所体现的异常也有所不同,以短信为例,IP地址所体现的异常可能包括如下几种:
1、以攻击电话号码为目的请求短信
攻击者以某个电话号码作为攻击的目标,循环调用不同网站中用于注册、登录等接口,频繁向该电话号码发送承载有验证码的短信,达到攻击电话号码的目的。
2、以消耗网站的费用为目的请求短信
攻击者以某个网站作为攻击的目标,不停变换各种接口参数,如电话号码、IP地址等,循环调用该网站中用于注册、登录等接口频繁向不同的电话号码发送承载有验证码的短信,大量增加网站支付发送短信的费用,达到攻击网站的目的。
3、以盈利为目的请求短信
在某个网站以注册新用户、产品促销等目的开展活动,攻击者不停变换各种接口参数,如电话号码、IP地址等,循环调用该网站中用于注册、登录等接口频繁向不同的电话号码发送承载有验证码的短信,以获取注册新用户所奖励的电子优惠券、实物礼品等财物,或者,以低廉的价格购买到大量的产品,等等,达到盈利的目的。
针对网站而言,依据某些行为的数据(如频次、验证率等)与阈值之间的关系将IP地址划分为异常的IP地址或者正常的IP地址,效率较低。
以短信为例,参考以下几种IP地址请求短信的行为,来说明不同行为对判定IP地址是否异常的作用。
其中,每个表格均收集IP地址、IP地址请求短信的次数(请求短信的次数)、验证短信中验证码的次数(验证的次数)、验证该验证码的成功率(验证的成功率)、在IP地址登录的账号的数量(账号的数量)、接收验证码的电话号码的总数量(电话号码的总数量)、跨国家或地区接收验证码的电话号码的数量(跨国家或地区的电话号码的数量)。
此外,每个表格前3行为历史的行为,第4行为前一日的行为。
第一种情况
Figure GDA0002652437480000051
在第一种情况下,该IP地址请求短信的次数不断增加,如果依据请求次数的阈值进行监控且阈值较低,该IP地址可能会被误拦截,但是,从其他维度来看,验证的成功率和跨国家或地区的电话号码的数量并无变化,IP地址请求的次数的增加,是因为电话号码的数量的增加,对业务带来增长,属于正常的行为。
第二种情况
Figure GDA0002652437480000052
Figure GDA0002652437480000061
在第二种情况中,该IP地址请求短信的次数不断增加,同时结合其他维度来看,验证的成功率和账号的数量都发生较大变化,即对于大量的请求,验证短信的次数却无增长,该IP地址突增大量无效的请求,可能是该IP地址攻击网站,如果依据请求次数的阈值进行监控且阈值较高,该IP地址可能会被遗漏。
第三种请求情况
Figure GDA0002652437480000062
在第三种情况中,该IP地址请求短信的次数不断增加,同时结合其他维度来看,验证的成功率和跨国家或地区的电话号码的数量都发生较大变化,即针对大量的请求,验证的成功率却下降,且突增大量跨国家或地区的电话号码的请求,可能是IP地址被代理商利用攻击网站,如果依据请求次数的阈值进行监控且阈值较高,该IP地址可能会被遗漏。
实施例一
图1为本发明实施例一提供的一种信用阈值的训练方法的流程图,本实施例可适用于通过历史的数据学习获得不同特征对异常检测的影响程度,从而构建有效的信用评分机制,该方法可以由信用阈值的训练装置来执行,该信用阈值的训练装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,服务器、工作站、个人电脑(personal computer,PC),等等,具体包括如下步骤:
步骤101、对基于IP地址历史触发的业务操作统计多种业务特征。
在本实施例中,客户端(client)历史向服务端(server)请求如注册、登录、召回密码、支付等服务,从而触发相应的业务操作,如向指定的电话号码发送包含验证码的短信、向指定的电子邮箱包含验证链接的邮件等,客户端使用验证码、验证链接等信息进行验证。
在服务端记录各个客户端所在的IP地址,以及,记录各个客户端在执行业务操作时产生的数据,作为历史数据。
计算机设备获取该历史数据,针对各个IP地址的合法性标记正负样本,正样本为异常的IP地址,负样本为正常的IP地址。
需要说明的是,为了保证训练的效果,异常的IP地址中的历史数据一般全部为异常的行为,不混入正常的IP地址的历史数据,以免在训练时造成干扰。
针对历史数据,可以进行预处理,如数据清洗、缺失值处理、异常值处理等,从而将历史数据转化为可用作训练的格式化数据。
其中,数据清洗可用于清洗垃圾样本,例如,使用了模拟器或者VPN(VirtualPrivate Network,虚拟专用网络)代理的虚假IP地址。
缺失值处理可以指客户端在打点上报数据时,会出现少量IP地址为空的情况,查找并过滤IP地址为空的历史数据,并不使用这些历史数据参与训练。
异常值处理可以查找并过滤异常的IP地址,例如,使用了模拟器或者VPN代理的虚假IP地址,并不使用这些历史数据参与训练。
此外,为了保证训练的效果,正样本与附样本之间的比例在预设的范围内,不能相差太大,因此,可以通过对负样本进行下采样,来达到比例的平衡。
针对业务操作的历史数据,可以以IP地址作为统计的维度,从业务操作的历史数据中统计多种业务特征。
进一步而言,因为业务特征的维度较多,且部分业务特征和合法性无明显的相关性,使用无效的业务特征会增加复杂度且无提升效果,因此,可以通过皮尔逊统计学习等统计学特征分析或者机器学习算法,学习每个业务特征与合法性的相关性,筛选出有效的业务特征,剔除无效的业务特征。
对于不同的业务操作,业务特征和合法性之间的相关性也有所不同,因此,所选择的业务特征也有所不同,本实施例对此不加以限制。
在一个示例中,确定基于IP地址历史触发的业务操作为注册操作,其中,注册操作包括发送包含验证码的短信、验证该验证码。
在本示例中,可对注册操作统计如下至少一种数据,作为业务特征:
IP地址请求短信的次数、验证该验证码的次数、验证该验证码的成功率、在IP地址登录的账号的数量、接收该验证码的电话号码的总数量、跨国家或地区接收该验证码的电话号码的数量。
其中,客户端在一次验证操作中可以多次验证同一个验证码,验证该验证码的次数,可以指累计验证的次数。
当然,上述业务特征只是作为示例,在实施本发明实施例时,可以根据业务操作的实际情况设置其他业务特征,本发明实施例对此不加以限制。另外,除了上述业务特征外,本领域技术人员还可以根据实际需要采用其它业务特征,本发明实施例对此也不加以限制。
步骤102、对每种业务特征分级计算至少两个相关系数。
不同的业务特征对刻画IP地址的合法性,有不同程度的重要性,例如,针对注册操作,验证该验证码的成功率、跨国家或地区接收该验证码的电话号码的数量等属于强相关的业务特征,即对合法性的影响较大,请求短信的次数、在IP地址登录的账号的数量是弱相关的业务特征,即对合法性的影响较小。
在具体实现中,可以对不同业务特征在不同的取值(即分级)时,自适应学习每种取值时的相关系数,该相关系数用于表示业务特征与合法性之间的相关性。
在本发明的一个实施例中,可使用WOE(Weight of Evidence,证据权重)的方式计算相关系数,WOE是一种将连续变量变换成离散变量的算法,可用于刻画不同业务特征对于合法性的影响程度,则在本实施例中,步骤102可以包括如下步骤:
步骤1021、为每种业务特征设置多个特征范围。
在本实施例中,业务特征为连续的变量,为每种业务特征在其数值的范围内、划分多个连续的特征范围,从而将业务特征转换为离散的变量。
步骤1022、若业务特征的数值在特征范围中,则将业务特征划分至特征范围对应的特征子集中。
针对某个IP地址,可以将其业务特征的数值逐一与相应的特征范围进行比较,如果业务特征的数值在特征范围中,则可以将该IP地址的该业务特征划分至该特征范围对应的特征子集中。
步骤1023、在每个特征子集中,使用业务特征对特征范围计算证据权重,作为业务特征在特征范围的相关系数。
在本实施例中,针对每个特征范围对应的特征子集,可以使用该特征子集中的业务特征对该特征范围计算证据权重,作为业务特征在特征范围的相关系数。
在具体实现中,IP地址标记有表示合法性的第一状态,该第一状态为IP地址真实的状态,包括正常、异常。
在特征子集中,统计第一状态为异常的IP地址(数量)与第一状态为异常的所有IP地址(数量)之间的比值,作为第一比例。
在特征子集中,统计第一状态为正常的IP地址(数量)与第一状态为正常的所有IP地址(数量)之间的比值,作为第二比例。
对第一比例与第二比例之间的比值取对数,作为业务特征在特征范围的证据权重。
则针对某个业务特征,证据权重表示如下:
Figure GDA0002652437480000091
其中,WOEi表示第i个特征范围对应的证据权重,yi表示第一状态为异常的IP地址,ya表示第一状态为异常的所有IP地址,则
Figure GDA0002652437480000092
表示第一比例,ni表示第一状态为正常的IP地址,na表示第一状态为正常的所有IP地址,则
Figure GDA0002652437480000093
表示第二比例,ln表示以自然数e为底数取对数。
在以注册操作为例,统计请求短信的次数作为业务特征,请求短信的次数为连续变量,对其进行离散化处理后,划分6个特征范围,可以得到各个特征范围的WOE值如下表所示:
Figure GDA0002652437480000094
Figure GDA0002652437480000101
一般而言,特征范围中正样本的数量与WOE的数值正相关,从上表可以看出,特征范围中的异常的IP地址越多,则其WOE越大,因此,该WOE可以代表业务特征对合法性的相关性。
WOE描述了业务特征在当前这个特征范围内,对合法性所起到影响方向和大小,当WOE为正时,业务特征在当前特征范围内对判断个体是否会响应起到的正向的影响,当WOE为负时,业务特征在当前特征范围内对判断个体是否会响应起到的负向的影响。而WOE数值的大小,则是影响大小的体现。
当然,上述计算相关系数的方式只是作为示例,在实施本发明实施例时,可以根据业务操作的实际情况设置其计算相关系数的方式,例如,使用IV(用于衡量自变量的预测能力)、ROC(receiver operating characteristic curve,受试者工作特征曲线)、信息熵等方式计算相关系数,等等,本发明实施例对此不加以限制。另外,除了上述计算相关系数的方式外,本领域技术人员还可以根据实际需要采用其计算相关系数的方式,本发明实施例对此也不加以限制。
步骤103、针对IP地址,根据业务特征对应的相关系数生成表示合法性的信用值。
在具体实现中,遍历每个IP地址,综合该IP地址的各个业务特征对IP地址发生的业务操作进行分析,依据该业务特征对合法性造成影响的相关系数,将该业务特征对合法性的影响程度量化为信用值,该信用值体现了IP地址所触发的业务操作对于合法性的可信程度。
在本发明的一个实施例中,步骤103可以包括如下步骤:
步骤1031、针对IP地址下的业务特征,查询每种业务特征的数值所在的特征范围。
在本实施例中,针对IP地址下的每种业务特征,可以查询在先对该种业务特征设置的多个特征范围,每个特征范围关联有相关系数。
将该业务特征的数值与相应的多个特征范围进行比较,从而确定该业务特征的数值所在的特征范围,提取该特征范围所关联的相关系数。
步骤1032、查找为每种业务特征训练的特征权重。
在本实施例中,可以预先为每种业务特征训练特征权重,该特征权重可用于表示对预测IP地址合法性的重要程度。
在一种方式中,该特征权重为分类模型中的一个模型参数,该分类模型用于根据业务特征对IP地址预测表示合法性的第二状态(包括正常、异常),因此,可查找在训练分类模型时、为每种业务特征训练的特征权重。
当然,除了应用分类模型中的模型参数作为业务特征的特征权重之外,也可以应用其他方式设置业务特征的特征权重,例如,运维人员直接对每种业务特征设置特征权重,等等,本实施例对此不加以限制。
步骤1033、基于相关系数与特征权重对每种业务特征计算候选值。
在本实施例中,可以以相关系数与特征权重作为变量,对每种业务特征计算候选值,使得候选值与相关系数、特征权重均正相关,即相关系数越大,候选值越大,反之,相关系数越小,候选值越小,同理,特征权重越大,候选值越大,反之,特征权重越小,候选值越小。
在一个示例中,可计算相关系数与特征权重之间的第一乘积,计算第一乘积与子回归截距之间的第一和值,其中,子回归截距为回归截距与特征权重之间的比值,回归截距应用于预测IP地址的合法性。
计算第一和值与预设的比例因子之间的第二乘积,计算第二乘积与子偏移量之间的第二和值,作为业务特征计算候选值,其中,子偏移量为偏移量与特征权重之间的比值。
在本示例中,候选值表示如下:
Figure GDA0002652437480000111
其中,IP地址下具有n种业务特征,Scorei表示第i个业务特征的候选值,woei表示第i个业务特征的相关系数(如WOE值),wi表示第i个业务特征的特征权重,a表示回归截距,则
Figure GDA0002652437480000112
表示子回归截距,factor表示比例因子,offset表示偏移量,factor可以视风险偏好而设置,则
Figure GDA0002652437480000121
表示子偏移量。
当然,上述计算候选值的方式只是作为示例,在实施本发明实施例时,可以根据业务操作的实际情况设置其他计算候选值的方式,例如,将相关系数与特征权重进行线性融合,等等,本发明实施例对此不加以限制。另外,除了上述计算候选值的方式外,本领域技术人员还可以根据实际需要采用其他计算候选值的方式,本发明实施例对此也不加以限制。
步骤1034、对所有候选值求和,获得表示合法性的信用值。
针对同一IP地址下的业务特征,可以计算所有业务特征的候选值的和值,作为该IP地址关于合法性的信用值。
在一个示例中,信用值表示如下:
Figure GDA0002652437480000122
在本实施例中,联合相关系数与特征权重计算信用值,一方面参考业务特征在局部对合法性的影响程度,另一方面参考业务特征在全局对合法性的重要程度,可以提高信用值的准确性。
步骤104、对IP地址生成评估指标。
在本实施例中,可以应用IP地址下的业务特征,预测该IP地址的合法性,并针对此次预测的操作生成评估指标,即该评估指标可用于评估使用业务特征预测IP地址的合法性。
在本发明的一个实施例中,步骤104可以包括如下步骤:
步骤1041、将IP地址对应的业务特征输入分类模型中、对IP地址预测表示合法性的第二状态。
在本实施例中,可以预先训练分类模型,该分类模型属于二分类模型,可用于根据IP地址的业务特征对该IP地址预测表示合法性的第二状态(包括正常、异常)。
进一步而言,该分类模型可以包括SVM(Support Vector Machine,向量机)、LR(Logistic Regression,逻辑回归)、RF(Random Forest,随机森林)等机器学习模型,也可以包括CNN(Convolutional Neural Network,卷积神经网络)等深度学习模型,本实施例对此不加以限制。
在具体实现中,为了降低训练的复杂度,可在该分类模型的模型参数中设置业务特征的特征权重,该特征权重可用于计算信用值,因此,可选择结构简单(即模型参数较少)、训练所需样本数量较少的分类模型,在训练分类模型时,一同训练业务特征的特征权重。
以LR为例,LR表示如下:
Figure GDA0002652437480000131
在训练时,可以将业务特征输入分类模型中、对IP地址预测表示合法性的第二状态,使用预设的损失函数计算第一状态与第二状态之间的损失值LOSS,该损失值LOSS可体现第一状态和第二状态的不一致程度,即将异常的IP地址预测为正常的IP地址,或者,将正常的IP地址预测为异常的IP地址。
在一个示例中,损失函数F(w)如下表示:
Figure GDA0002652437480000132
其中,N为样本的数量,n∈N,p为第二状态(即预测值),在LR模型训练业务特征时,
Figure GDA0002652437480000133
yn表示第n个第一状态(即真实值)。
在每次迭代训练计算出损失值时,可判断损失值是否小于或等于预设的阈值。
若是,则确定分类模型训练完成,可存储分类模型的结构及其模型参数。
若否,则根据随机梯度等方式更新分类模型中的模型参数,返回将业务特征输入分类模型中、对IP地址预测表示合法性的第二状态,从而进入下一次迭代训练。
在对IP地址进行分类时,可启动分类模型并加载器模型参数,将IP地址下的业务特征输入到分类模型中进行处理,分类模型输出该IP地址的、表示合法性的第二状态,从而预测该IP地址为正常的IP地址或者是异常的IP地址。
在一种情况中,分类模型的模型参数包括为每种业务特征设置的特征权重,通过多次迭代训练,寻找最优的特征权重。
在另一种情况中,对于LR模型等分类模型,分类模型的模型参数还包括回归截距,通过多次迭代训练,寻找最优的回归截距。
因此,针对LR模型,可查找为每种业务特征训练的特征权重、回归截距,在逻辑回归模型中加载特征权重与回归截距,当加载完成时,将IP地址对应的业务特征输入逻辑回归模型中、对IP地址预测表示合法性的第二状态。
当然,对于其他分类模型,可以加载其他模型参数对IP地址预测表示合法性的第二状态,本实施例对此加以限制。
步骤1042、对比第一状态与第二状态,以对IP地址生成评估预测的指标,作为评估指标。
在本实施例中,IP地址标记有表示合法性的第一状态,将针对同一IP地址的第一状态与第二状态进行比较,从而根据第一状态与第二状态之间的异同对IP地址生成评估(Evaluation)这次预测操作的指标,作为评估指标。
在一个示例中,评估指标包括准确率(accuracy)、召回率(recall),则在本示例中,可统计第一数值TP、第二数值FN、第三数值TN,其中,第一数值TP表示第一状态为异常、第二状态为异常的IP地址,第二数值FN表示第一状态为异常、第二状态为正常的IP地址,第三数值TN表示述第一状态为正常、第二状态为正常的IP地址。
计算第四数值与IP地址的总数量total之间的比值,作为准确率,其中,第四数值为第一数值TP与第三数值TN之间的和值,则准确率acc可以如下表示:
Figure GDA0002652437480000141
计算第一数值TP与第五数值之间的比值,作为召回率,其中,第五数值为第一数值TP与第二数值FN之间的和值,则召回率rec可以如下表示:
Figure GDA0002652437480000142
当然,上述评估指标只是作为示例,在实施本发明实施例时,可以根据业务操作的实际情况设置其他评估指标,例如,精确率(precision)、F1值,等等,本发明实施例对此不加以限制。另外,除了上述评估指标外,本领域技术人员还可以根据实际需要采用其他评估指标,本发明实施例对此也不加以限制。
在本实施例中,对IP地址计算信用值与计算评估指标使用部分相同的参数(如业务特征、回归截距等),即相同的参数训练一次即可,不仅可以减少训练参数的成本,而且可以增强信用值与评估指标之间的关联性,从而保证后续应用信用值为信用阈值进行合法性的划分时,对于评估指标的效果。
步骤105、若IP地址的评估指标符合目标条件,则确定评估指标对应的信用值为信用阈值。
在本实施例中,针对相同IP地址的评估指标与信用值,可以将对预测IP地址的合法性进行评估的评估指标作为参考,与预先设置的目标条件进行比较,如果某个IP地址的评估指标满足目标条件的要求,则该评估指标对应的信用值可设置为信用阈值,其中,该信用阈值用于划分合法性的状态,即IP地址的信用值小于该信用阈值即可认为是异常的IP地址,IP地址的信用值大于或等于该信用阈值即可认为是正常的IP地址。
在一种实现方式中,若对异常的IP地址进行封禁等处理,则可以认为准确率的优先级最高,召回率的优先级次之,则可以对比IP地址的准确率,寻找数值最高的准确率。
若数值最高的准确率对应一个IP地址,则确定数值最高的准确率所对应的信用值为信用阈值。
若数值最高的准确率对应至少两个IP地址,则对比至少两个IP地址对应的召回率,寻找数值最高的召回率,从而确定数值最高的召回率所对应的信用值为信用阈值。
在一个实验中,采集1000个正样本(异常的IP地址)、2000个负样本(正常的IP地址)进行信用值、准确率与召回率,如下表所示:
信用值 准确率 召回率
40 0.62 0.97
20 0.78 0.91
10 0.90 0.86
5 1 0.81
从表中可以看出,信用值的数值越低,准确率越高,但是覆盖的召回率不断降低,可采取信用值5分作为信用阈值,即信用值低于5分的IP地址为异常的IP地址。
当然,上述设置信用阈值的方式只是作为示例,在实施本发明实施例时,可以根据业务操作的实际情况设置其他设置信用阈值的方式,例如,将数值最高的F1值所对应的信用值为信用阈值,等等,本发明实施例对此不加以限制。另外,除了上述设置信用阈值的方式外,本领域技术人员还可以根据实际需要采用其他设置信用阈值的方式,本发明实施例对此也不加以限制。
在本实施例中,对基于IP地址历史触发的业务操作统计多种业务特征,对每种业务特征分级计算至少两个相关系数,相关系数用于表示业务特征与合法性之间的相关性,针对IP地址,根据业务特征对应的相关系数生成表示合法性的信用值,对IP地址生成评估指标,评估指标用于评估使用业务特征预测IP地址的合法性,若IP地址的评估指标符合目标条件,则确定评估指标对应的信用值为信用阈值,信用阈值用于划分合法性的状态,在评估指标的辅助下训练信用阈值,可以保证信用阈值划分合法性的有效性,以业务操作的多个业务特征综合评估IP地址的信用值,实现多维度的综合判断,避免针对单一维度的阈值,可以降低因单一维度出现故障导致误拦截的风险,也降低不法用户通过绕开单一维度阈值从而绕开管控的风险,即降低了遗漏的风险,整体提高网站运行的安全性。
实施例二
图2为本发明实施例二提供的一种IP地址的检测方法的流程图,本实施例可适通过IP地址的信用评分检测该IP地址的合法性,该方法可以由IP地址的检测装置来执行,该IP地址的检测装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,服务器、工作站、个人电脑(personal computer,PC),等等,具体包括如下步骤:
步骤201、对基于IP地址实时触发的业务操作统计多种业务特征。
在本实施例中,如图3所示,客户端(client)311可实时调用业务操作接口321,向服务端(server)331请求如注册、登录、召回密码、支付等服务,从而触发相应的业务操作,如向指定的电话号码发送包含验证码的短信、向指定的电子邮箱包含验证链接的邮件等,客户端使用验证码、验证链接等信息进行验证。
在服务端331记录各个客户端所在的IP地址,以及,记录各个客户端在执行业务操作时产生的数据,作为实时数据。
在防火墙332中,获取这些事实数据,并进行合法性的检测。
在具体实现中,针对实时数据,可以进行预处理,如数据清洗、缺失值处理、异常值处理等,从而将实时数据转化为可用作训练的格式化数据。
针对业务操作的实时数据,可以以IP地址作为统计的维度,从业务操作的实时数据中统计多种业务特征。
对于不同的业务操作,业务特征和合法性之间的相关性也有所不同,因此,所选择的业务特征也有所不同,本实施例对此不加以限制。
在一个示例中,确定基于IP地址实时触发的业务操作为注册操作,其中,注册操作包括发送包含验证码的短信、验证该验证码。
在本示例中,可对注册操作统计如下至少一种数据,作为业务特征:
IP地址请求短信的次数、验证该验证码的次数、验证该验证码的成功率、在IP地址登录的账号的数量、接收该验证码的电话号码的总数量、跨国家或地区接收该验证码的电话号码的数量。
当然,上述业务特征只是作为示例,在实施本发明实施例时,可以根据业务操作的实际情况设置其他业务特征,本发明实施例对此不加以限制。另外,除了上述业务特征外,本领域技术人员还可以根据实际需要采用其它业务特征,本发明实施例对此也不加以限制。
步骤202、查询业务特征对应的相关系数。
在具体实现中,可以应用本发明任意实施例所提供的信用阈值的训练方法针对每种业务特征训练相关系数,其中,相关系数用于表示业务特征与合法性之间的相关性。
在一种实现方式中,可查询为每种业务特征设置的多个特征范围,每个特征范围关联有相关系数。
将该业务特征的数值与相应的多个特征范围进行比较,若业务特征的数值在某个特征范围中,则提取该特征范围对应的相关系数。
步骤203、根据相关系数生成表示合法性的信用值。
在具体实现中,对IP地址的各个业务特征进行评估,依据该业务特征对合法性造成影响的相关系数,将该业务特征对合法性的影响程度量化为信用值。
在本发明的一个实施例中,步骤203可以包括如下步骤:
步骤2031、查找为每种业务特征训练的特征权重。
在一个示例中,查找在训练分类模型时、为每种业务特征训练的特征权重,其中,分类模型用于根据业务特征对IP地址预测表示合法性的第二状态。
步骤2032、基于相关系数与特征权重对每种业务特征计算候选值。
其中,候选值与相关系数、特征权重均正相关。
在一个示例中,计算相关系数与特征权重之间的第一乘积;计算第一乘积与子回归截距之间的第一和值,子回归截距为回归截距与特征权重之间的比值,回归截距应用于预测IP地址的合法性;计算第一和值与预设的比例因子之间的第二乘积;计算第二乘积与子偏移量之间的第二和值,作为业务特征计算候选值,子偏移量为偏移量与特征权重之间的比值。
步骤2033、对所有候选值求和,获得表示合法性的信用值。
在本发明实施例中,由于步骤203与步骤103的应用基本相似,所以描述的比较简单,相关之处参见步骤103的部分说明即可,本发明实施例在此不加以详述。
步骤204、将信用值与预设的信用阈值进行比较,确定IP地址的合法性,以对齐使用业务特征预测IP地址的合法性。
在具体实现中,可以应用本发明任意实施例所提供的信用阈值的训练方法训练信用阈值,应用该信用阈值划分合法性的状态时,可使得在应用该业务特征预测IP地址的合法性时,评估此次预测的评估指标符合目标条件。
在本实施例中,可以将当前IP地址的信用值与信用阈值进行比较,从而以及比较的结果确定当前IP地址的合法性。
若信用值小于预设的信用阈值,则确定IP地址的合法性为异常。
若IP地址的合法性为异常,则禁止对IP地址执行业务操作。
若信用值大于或等于预设的信用阈值,则确定IP地址的合法性为正常。
若IP地址的合法性为正常,则允许对IP地址执行业务操作。
以注册操作为例,如图3所示,可调用通信接口322,请求电信运营商312向指定电话号码所在的移动通信终端313发送包含验证码的短信。
需要说明的是,客户端311可能安装在移动通信终端313中,也可能安装在移动通信终端313之外的电子设备中,本实施例对此不加以限制。
在本实施例中,对基于IP地址实时触发的业务操作统计多种业务特征,查询业务特征对应的相关系数,相关系数用于表示业务特征与合法性之间的相关性,根据相关系数生成表示合法性的信用值,将信用值与预设的信用阈值进行比较,确定IP地址的合法性,以对齐使用业务特征预测IP地址的合法性,以业务特征预测IP地址的合法性作为约束的条件,使得应用信用阈值划分合法性时可保证有效性,以业务操作的多个业务特征综合评估IP地址的信用值,实现多维度的综合判断,避免针对单一维度的阈值,可以降低因单一维度出现故障导致误拦截的风险,也降低不法用户通过绕开单一维度阈值从而绕开管控的风险,即降低了遗漏的风险,整体提高网站运行的安全性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例三
图4为本发明实施例三提供的一种信用阈值的训练装置的结构框图,具体可以包括如下模块:
历史业务特征统计模块401,用于对基于IP地址历史触发的业务操作统计多种业务特征;
相关系数计算模块402,用于对每种所述业务特征分级计算至少两个相关系数,所述相关系数用于表示所述业务特征与合法性之间的相关性;
信用值计算模块403,用于针对所述IP地址,根据所述业务特征对应的所述相关系数生成表示合法性的信用值;
评估指标生成模块404,用于对所述IP地址生成评估指标,所述评估指标用于评估使用所述业务特征预测所述IP地址的合法性;
信用阈值确定模块405,用于若所述IP地址的所述评估指标符合目标条件,则确定所述评估指标对应的所述信用值为信用阈值,所述信用阈值用于划分所述合法性的状态。
在本发明的一个实施例中,所述历史业务特征统计模块401包括:
历史注册操作确定子模块,用于确定基于IP地址历史触发的业务操作为注册操作,所述注册操作包括发送包含验证码的短信、验证所述验证码;
历史注册参数统计子模块,用于对所述注册操作统计如下至少一种数据,作为业务特征:
请求短信的次数、验证所述验证码的次数、验证所述验证码的成功率、登录的账号的数量、接收所述验证码的电话号码的总数量、跨国家或地区接收所述验证码的电话号码的数量。
在本发明的一个实施例中,所述相关系数计算模块402包括:
特征范围设置子模块,用于为每种所述业务特征设置多个特征范围;
业务特征划分子模块,用于若所述业务特征的数值在所述特征范围中,则将所述业务特征划分至所述特征范围对应的特征子集中;
证据权重计算子模块,用于在每个所述特征子集中,使用所述业务特征对所述特征范围计算证据权重,作为所述业务特征在所述特征范围的相关系数。
在本发明的一个实施例中,所述IP地址标记有表示合法性的第一状态;所述证据权重计算子模块包括:
第一比例计算单元,用于在所述特征子集中,统计所述第一状态为异常的IP地址与所述第一状态为异常的所有IP地址之间的比值,作为第一比例;
第二比例计算单元,用于在所述特征子集中,统计所述第一状态为正常的IP地址与所述第一状态为正常的所有IP地址之间的比值,作为第二比例;
对数取值单元,用于对所述第一比例与所述第二比例之间的比值取对数,作为所述业务特征在所述特征范围的证据权重。
在本发明的一个实施例中,所述信用值计算模块403包括:
特征范围查询子模块,用于针对所述IP地址下的业务特征,查询每种所述业务特征的数值所在的特征范围,所述特征范围关联相关系数;
特征权重查找子模块,用于查找为每种所述业务特征训练的特征权重;
候选值计算子模块,用于基于所述相关系数与所述特征权重对每种所述业务特征计算候选值,所述候选值与所述相关系数、所述特征权重均正相关;
候选值求和子模块,用于对所有所述候选值求和,获得表示合法性的信用值。
在本发明的一个实施例中,所述特征权重查找子模块包括:
模型参数查找单元,用于查找在训练分类模型时、为每种所述业务特征训练的特征权重,其中,所述分类模型用于根据所述业务特征对所述IP地址预测表示合法性的第二状态。
在本发明的一个实施例中,所述候选值计算子模块包括:
第一乘积计算单元,用于计算所述相关系数与所述特征权重之间的第一乘积;
第一和值计算单元,用于计算所述第一乘积与子回归截距之间的第一和值,所述子回归截距为回归截距与所述特征权重之间的比值,所述回归截距应用于预测所述IP地址的合法性;
第二乘积计算单元,用于计算所述第一和值与预设的比例因子之间的第二乘积;
第二和值计算单元,用于计算所述第二乘积与子偏移量之间的第二和值,作为所述业务特征计算候选值,所述子偏移量为偏移量与所述特征权重之间的比值。
在本发明的一个实施例中,所述评估指标生成模块404包括:
合法性预测子模块,用于将所述IP地址对应的业务特征输入分类模型中、对所述IP地址预测表示合法性的第二状态;
状态对比子模块,用于对比所述第一状态与所述第二状态,以对所述IP地址生成评估所述预测的指标,作为评估指标。
在本发明的一个实施例中,所述分类模型为逻辑回归模型;所述合法性预测子模块包括:
逻辑回归参数查找单元,用于查找为每种所述业务特征训练的特征权重、回归截距;
逻辑回归参数加载单元,用于在逻辑回归模型中加载所述特征权重与所述回归截距;
逻辑回归处理单元,用于当加载完成时,将所述IP地址对应的业务特征输入所述逻辑回归模型中、对所述IP地址预测表示合法性的第二状态。
在本发明的一个实施例中,所述评估指标包括准确率、召回率;
所述状态对比子模块包括:
多数值统计单元,用于统计第一数值、第二数值、第三数值,其中,所述第一数值表示所述第一状态为异常、所述第二状态为异常的IP地址,所述第二数值表示所述第一状态为异常、所述第二状态为正常的IP地址,所述第三数值表示述第一状态为正常、所述第二状态为正常的IP地址;
准确率计算单元,用于计算第四数值与所述地址的总数量之间的比值,作为准确率,所述第四数值为所述第一数值与所述第三数值之间的和值;
召回率计算单元,用于计算所述第一数值与第五数值之间的比值,作为召回率,所述第五数值为所述第一数值与所述第二数值之间的和值。
在本发明的一个实施例中,还包括:
分类模型调度模块,用于将所述业务特征输入分类模型中、对所述IP地址预测表示合法性的第二状态;
损失值计算模块,用于计算所述第一状态与所述第二状态之间的损失值;
阈值判断模块,用于判断所述损失值是否小于或等于预设的阈值;若是,则调用模型完成确定模块,若否,则调用模型参数更新模块;
模型完成确定模块,用于确定所述分类模型训练完成;
模型参数更新模块,用于更新所述分类模型中的模型参数,返回调用所述分类模型调度模块,其中,所述模型参数包括为每种所述业务特征设置的特征权重、回归截距中的至少一者。
在本发明的一个实施例中,所述信用阈值确定模块405包括:
准确率比较子模块,用于对比所述IP地址的准确率;
准确率设置子模块,用于若数值最高的所述准确率对应一个IP地址,则确定数值最高的所述准确率所对应的所述信用值为信用阈值;
召回率比较子模块,用于若数值最高的所述准确率对应至少两个IP地址,则对比至少两个所述IP地址对应的召回率;
召回率设置子模块,用于确定数值最高的所述召回率所对应的所述信用值为信用阈值。
本发明实施例所提供的信用阈值的训练装置可执行本发明任意实施例所提供的信用阈值的训练方法,具备执行方法相应的功能模块和有益效果。
实施例四
图5为本发明实施例四提供的一种IP地址的检测装置的结构框图,具体可以包括如下模块:
实时业务特征统计模块501,用于对基于IP地址实时触发的业务操作统计多种业务特征;
相关系数查询模块502,用于查询所述业务特征对应的相关系数,所述相关系数用于表示所述业务特征与合法性之间的相关性;
信用值生成模块503,用于根据所述相关系数生成表示合法性的信用值;
合法性确定模块504,用于将所述信用值与预设的信用阈值进行比较,确定所述IP地址的合法性,以对齐使用所述业务特征预测所述IP地址的合法性。
在本发明的一个实施例中,所述实时业务特征统计模块501包括:
实时注册操作确定子模块,用于确定基于IP地址实时触发的业务操作为注册操作,所述注册操作包括发送包含验证码的短信、验证所述验证码;
实时注册参数统计子模块,用于对所述注册操作统计如下至少一种数据,作为业务特征:
请求短信的次数、验证所述验证码的次数、验证所述验证码的成功率、登录的账号的数量、接收所述验证码的电话号码的总数量、跨国家或地区接收所述验证码的电话号码的数量。
在本发明的一个实施例中,所述相关系数查询模块502包括:
特征范围查询子模块,用于查询为每种所述业务特征设置的多个特征范围;
相关系数提取子模块,用于若所述业务特征的数值在所述特征范围中,则提取所述特征范围对应的相关系数。
在本发明的一个实施例中,所述信用值生成模块503包括:
特征权重查找子模块,用于查找为每种所述业务特征训练的特征权重;
候选值计算子模块,用于基于所述相关系数与所述特征权重对每种所述业务特征计算候选值,所述候选值与所述相关系数、所述特征权重均正相关;
候选值求和子模块,用于对所有所述候选值求和,获得表示合法性的信用值。
在本发明的一个实施例中,所述特征权重查找子模块包括:
模型参数查找单元,用于查找在训练分类模型时、为每种所述业务特征训练的特征权重,其中,所述分类模型用于根据所述业务特征对所述IP地址预测表示合法性的第二状态。
在本发明的一个实施例中,所述候选值计算子模块包括:
第一乘积计算单元,用于计算所述相关系数与所述特征权重之间的第一乘积;
第一和值计算单元,用于计算所述第一乘积与子回归截距之间的第一和值,所述子回归截距为回归截距与所述特征权重之间的比值,所述回归截距应用于预测所述IP地址的合法性;
第二乘积计算单元,用于计算所述第一和值与预设的比例因子之间的第二乘积;
第二和值计算单元,用于计算所述第二乘积与子偏移量之间的第二和值,作为所述业务特征计算候选值,所述子偏移量为偏移量与所述特征权重之间的比值。
在本发明的一个实施例中,所述合法性确定模块504包括:
异常确定子模块,用于若所述信用值小于预设的信用阈值,则确定所述IP地址的合法性为异常;
正常确定子模块,用于若所述信用值大于或等于预设的信用阈值,则确定所述IP地址的合法性为正常。
在本发明的一个实施例中,还包括:
业务禁止模块,用于若所述IP地址的合法性为异常,则禁止对所述IP地址执行业务操作。
本发明实施例所提供的IP地址的检测装置可执行本发明任意实施例所提供的IP地址的检测方法,具备执行方法相应的功能模块和有益效果。
实施例五
图6为本发明实施例五提供的一种计算机设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图6显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的信用阈值的训练、IP地址的检测方法。
实施例六
本发明实施例六还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述信用阈值的训练方法、IP地址的检测方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (19)

1.一种信用阈值的训练方法,其特征在于,包括:
对基于IP地址历史触发的业务操作统计多种业务特征;
对每种所述业务特征分级计算至少两个相关系数,所述相关系数用于表示所述业务特征与合法性之间的相关性;
针对所述IP地址,根据所述业务特征对应的所述相关系数生成表示合法性的信用值,包括:
针对所述IP地址下的业务特征,查询每种所述业务特征的数值所在的特征范围,所述特征范围关联相关系数;
查找为每种所述业务特征训练的特征权重;
基于所述相关系数与所述特征权重对每种所述业务特征计算候选值,所述候选值与所述相关系数、所述特征权重均正相关;
对所有所述候选值求和,获得表示合法性的信用值;
对所述IP地址生成评估指标,所述评估指标用于评估使用所述业务特征预测所述IP地址的合法性;
若所述IP地址的所述评估指标符合目标条件,则确定所述评估指标对应的所述信用值为信用阈值,所述信用阈值用于划分所述合法性的状态。
2.根据权利要求1所述的方法,其特征在于,所述对基于IP地址历史触发的业务操作统计多种业务特征,包括:
确定基于IP地址历史触发的业务操作为注册操作,所述注册操作包括发送包含验证码的短信、验证所述验证码;
对所述注册操作统计如下至少一种数据,作为业务特征:
请求短信的次数、验证所述验证码的次数、验证所述验证码的成功率、登录的账号的数量、接收所述验证码的电话号码的总数量、跨国家或地区接收所述验证码的电话号码的数量。
3.根据权利要求1所述的方法,其特征在于,所述对每种所述业务特征分级计算至少两个相关系数,包括:
为每种所述业务特征设置多个特征范围;
若所述业务特征的数值在所述特征范围中,则将所述业务特征划分至所述特征范围对应的特征子集中;
在每个所述特征子集中,使用所述业务特征对所述特征范围计算证据权重,作为所述业务特征在所述特征范围的相关系数。
4.根据权利要求3所述的方法,其特征在于,所述IP地址标记有表示合法性的第一状态;所述在每个所述特征子集中,使用所述业务特征对所述特征范围计算证据权重,作为所述业务特征在所述特征范围的相关系数,包括:
在所述特征子集中,统计所述第一状态为异常的IP地址与所述第一状态为异常的所有IP地址之间的比值,作为第一比例;
在所述特征子集中,统计所述第一状态为正常的IP地址与所述第一状态为正常的所有IP地址之间的比值,作为第二比例;
对所述第一比例与所述第二比例之间的比值取对数,作为所述业务特征在所述特征范围的证据权重。
5.根据权利要求1所述的方法,其特征在于,所述查找为每种所述业务特征训练的特征权重,包括:
查找在训练分类模型时、为每种所述业务特征训练的特征权重,其中,所述分类模型用于根据所述业务特征对所述IP地址预测表示合法性的第二状态。
6.根据权利要求1所述的方法,其特征在于,所述基于所述相关系数与所述特征权重对每种所述业务特征计算候选值,包括:
计算所述相关系数与所述特征权重之间的第一乘积;
计算所述第一乘积与子回归截距之间的第一和值,所述子回归截距为回归截距与所述特征权重之间的比值,所述回归截距应用于预测所述IP地址的合法性;
计算所述第一和值与预设的比例因子之间的第二乘积;
计算所述第二乘积与子偏移量之间的第二和值,作为所述业务特征计算候选值,所述子偏移量为偏移量与所述特征权重之间的比值。
7.根据权利要求1所述的方法,其特征在于,所述IP地址标记有表示合法性的第一状态;所述对所述IP地址生成评估指标,包括:
将所述IP地址对应的业务特征输入分类模型中、对所述IP地址预测表示合法性的第二状态;
对比所述第一状态与所述第二状态,以对所述IP地址生成评估所述预测的指标,作为评估指标。
8.根据权利要求7所述的方法,其特征在于,所述分类模型为逻辑回归模型;所述将所述IP地址对应的业务特征输入分类模型中、对所述IP地址预测表示合法性的第二状态,包括:
查找为每种所述业务特征训练的特征权重、回归截距;
在逻辑回归模型中加载所述特征权重与所述回归截距;
当加载完成时,将所述IP地址对应的业务特征输入所述逻辑回归模型中、对所述IP地址预测表示合法性的第二状态。
9.根据权利要求7所述的方法,其特征在于,所述评估指标包括准确率、召回率;
所述对比所述第一状态与所述第二状态,以对所述IP地址生成评估所述预测的指标,作为评估指标,包括:
统计第一数值TP、第二数值FN、第三数值TN,其中,所述第一数值TP表示所述第一状态为异常、所述第二状态为异常的IP地址,所述第二数值FN表示所述第一状态为异常、所述第二状态为正常的IP地址,所述第三数值TN表示述第一状态为正常、所述第二状态为正常的IP地址;
计算第四数值与所述IP地址的总数量之间的比值,作为准确率,所述第四数值为所述第一数值TP与所述第三数值TN之间的和值;
计算所述第一数值TP与第五数值之间的比值,作为召回率,所述第五数值为所述第一数值TP与所述第二数值FN之间的和值。
10.根据权利要求7所述的方法,其特征在于,还包括:
将所述业务特征输入分类模型中、对所述IP地址预测表示合法性的第二状态;
计算所述第一状态与所述第二状态之间的损失值;
判断所述损失值是否小于或等于预设的阈值;
若是,则确定所述分类模型训练完成;
若否,则更新所述分类模型中的模型参数,返回执行所述将所述业务特征输入分类模型中、对所述IP地址预测表示合法性的第二状态,其中,所述模型参数包括为每种所述业务特征设置的特征权重、回归截距中的至少一者。
11.根据权利要求1-10任一项所述的方法,其特征在于,所述若所述IP地址的所述评估指标符合目标条件,则确定所述评估指标对应的所述信用值为信用阈值,包括:
对比所述IP地址的准确率;
若数值最高的所述准确率对应一个IP地址,则确定数值最高的所述准确率所对应的所述信用值为信用阈值;
若数值最高的所述准确率对应至少两个IP地址,则对比至少两个所述IP地址对应的召回率;
确定数值最高的所述召回率所对应的所述信用值为信用阈值。
12.一种IP地址的检测方法,其特征在于,包括:
对基于IP地址实时触发的业务操作统计多种业务特征;
查询所述业务特征对应的相关系数,所述相关系数用于表示所述业务特征与合法性之间的相关性;
根据所述相关系数生成表示合法性的信用值,包括:
查找为每种所述业务特征训练的特征权重;
基于相关系数与特征权重对每种业务特征计算候选值;
对所有候选值求和,获得表示合法性的信用值;
将所述信用值与预设的信用阈值进行比较,确定所述IP地址的合法性,以对齐使用所述业务特征预测所述IP地址的合法性。
13.根据权利要求12所述的方法,其特征在于,所述查询所述业务特征对应的相关系数,包括:
查询为每种所述业务特征设置的多个特征范围;
若所述业务特征的数值在所述特征范围中,则提取所述特征范围对应的相关系数。
14.根据权利要求12所述的方法,其特征在于,所述将所述信用值与预设的信用阈值进行比较,确定所述IP地址的合法性,以对齐使用所述业务特征预测所述IP地址的合法性,包括:
若所述信用值小于预设的信用阈值,则确定所述IP地址的合法性为异常;
若所述信用值大于或等于预设的信用阈值,则确定所述IP地址的合法性为正常。
15.根据权利要求12-14任一项所述的方法,其特征在于,还包括:
若所述IP地址的合法性为异常,则禁止对所述IP地址执行业务操作。
16.一种信用阈值的训练装置,其特征在于,包括:
历史业务特征统计模块,用于对基于IP地址历史触发的业务操作统计多种业务特征;
相关系数计算模块,用于对每种所述业务特征分级计算至少两个相关系数,所述相关系数用于表示所述业务特征与合法性之间的相关性;
信用值计算模块,用于针对所述IP地址,根据所述业务特征对应的所述相关系数生成表示合法性的信用值;
其中,所述信用值计算模块,包括:
特征范围查询子模块,用于针对所述IP地址下的业务特征,查询每种所述业务特征的数值所在的特征范围,所述特征范围关联相关系数;
特征权重查找子模块,用于查找为每种所述业务特征训练的特征权重;
候选值计算子模块,用于基于所述相关系数与所述特征权重对每种所述业务特征计算候选值,所述候选值与所述相关系数、所述特征权重均正相关;
候选值求和子模块,用于对所有所述候选值求和,获得表示合法性的信用值;
评估指标生成模块,用于对所述IP地址生成评估指标,所述评估指标用于评估使用所述业务特征预测所述IP地址的合法性;
信用阈值确定模块,用于若所述IP地址的所述评估指标符合目标条件,则确定所述评估指标对应的所述信用值为信用阈值,所述信用阈值用于划分所述合法性的状态。
17.一种IP地址的检测装置,其特征在于,包括:
实时业务特征统计模块,用于对基于IP地址实时触发的业务操作统计多种业务特征;
相关系数查询模块,用于查询所述业务特征对应的相关系数,所述相关系数用于表示所述业务特征与合法性之间的相关性;
信用值生成模块,用于根据所述相关系数生成表示合法性的信用值;
其中,所述信用值生成模块包括:
特征权重查找子模块,用于查找为每种所述业务特征训练的特征权重;
候选值计算子模块,用于基于所述相关系数与所述特征权重对每种所述业务特征计算候选值,所述候选值与所述相关系数、所述特征权重均正相关;
候选值求和子模块,用于对所有所述候选值求和,获得表示合法性的信用值;
合法性确定模块,用于将所述信用值与预设的信用阈值进行比较,确定所述IP地址的合法性,以对齐使用所述业务特征预测所述IP地址的合法性。
18.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11中任一所述的信用阈值的训练方法或者如权利要求12-15中任一所述的IP地址的检测方法。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-11中任一所述的信用阈值的训练方法或者如权利要求12-15中任一所述的IP地址的检测方法。
CN202010813912.6A 2020-08-13 2020-08-13 一种信用阈值的训练、ip地址的检测方法及相关装置 Active CN112003846B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010813912.6A CN112003846B (zh) 2020-08-13 2020-08-13 一种信用阈值的训练、ip地址的检测方法及相关装置
EP21855449.1A EP4199421A4 (en) 2020-08-13 2021-08-06 CREDIT THRESHOLD FORMATION METHOD AND APPARATUS, AND IP ADDRESS DETECTION METHOD AND APPARATUS
PCT/CN2021/111096 WO2022033396A1 (zh) 2020-08-13 2021-08-06 信用阈值的训练方法及装置、ip地址的检测方法及装置
US18/041,275 US20230328087A1 (en) 2020-08-13 2021-08-06 Method for training credit threshold, method for detecting ip address, computer device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010813912.6A CN112003846B (zh) 2020-08-13 2020-08-13 一种信用阈值的训练、ip地址的检测方法及相关装置

Publications (2)

Publication Number Publication Date
CN112003846A CN112003846A (zh) 2020-11-27
CN112003846B true CN112003846B (zh) 2023-02-03

Family

ID=73472791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010813912.6A Active CN112003846B (zh) 2020-08-13 2020-08-13 一种信用阈值的训练、ip地址的检测方法及相关装置

Country Status (4)

Country Link
US (1) US20230328087A1 (zh)
EP (1) EP4199421A4 (zh)
CN (1) CN112003846B (zh)
WO (1) WO2022033396A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112003846B (zh) * 2020-08-13 2023-02-03 广州市百果园信息技术有限公司 一种信用阈值的训练、ip地址的检测方法及相关装置
CN113329034B (zh) * 2021-06-25 2021-12-07 广州华资软件技术有限公司 基于人工智能的大数据业务优化方法、服务器及存储介质
CN114900356A (zh) * 2022-05-06 2022-08-12 联云(山东)大数据有限公司 恶意用户行为检测方法、装置及电子设备
CN116131928B (zh) * 2023-01-30 2023-10-03 讯芸电子科技(中山)有限公司 一种光传输线路调整方法、装置、设备及存储介质
CN118250095B (zh) * 2024-05-27 2024-08-13 鹏城实验室 网际协议地址识别方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108667828A (zh) * 2018-04-25 2018-10-16 咪咕文化科技有限公司 一种风险控制方法、装置及存储介质
WO2019178753A1 (zh) * 2018-03-20 2019-09-26 深圳蓝贝科技有限公司 支付方法、装置和系统
CN110349038A (zh) * 2019-06-13 2019-10-18 中国平安人寿保险股份有限公司 风险评估模型训练方法和风险评估方法
CN111049822A (zh) * 2019-12-10 2020-04-21 北京达佳互联信息技术有限公司 短信验证码发送方法、装置、短信服务器及存储介质
CN111080397A (zh) * 2019-11-18 2020-04-28 支付宝(杭州)信息技术有限公司 信用评估方法、装置及电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105323210A (zh) * 2014-06-10 2016-02-10 腾讯科技(深圳)有限公司 一种检测网站安全的方法、装置及云服务器
US9386031B2 (en) * 2014-09-12 2016-07-05 AO Kaspersky Lab System and method for detection of targeted attacks
US10158657B1 (en) * 2015-08-06 2018-12-18 Microsoft Technology Licensing Llc Rating IP addresses based on interactions between users and an online service
US10193915B2 (en) * 2016-09-30 2019-01-29 Oath Inc. Computerized system and method for automatically determining malicious IP clusters using network activity data
CN107911396B (zh) * 2017-12-30 2020-12-15 世纪龙信息网络有限责任公司 登录异常检测方法和系统
US11899763B2 (en) * 2018-09-17 2024-02-13 Microsoft Technology Licensing, Llc Supervised learning system for identity compromise risk computation
CN112003846B (zh) * 2020-08-13 2023-02-03 广州市百果园信息技术有限公司 一种信用阈值的训练、ip地址的检测方法及相关装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019178753A1 (zh) * 2018-03-20 2019-09-26 深圳蓝贝科技有限公司 支付方法、装置和系统
CN108667828A (zh) * 2018-04-25 2018-10-16 咪咕文化科技有限公司 一种风险控制方法、装置及存储介质
CN110349038A (zh) * 2019-06-13 2019-10-18 中国平安人寿保险股份有限公司 风险评估模型训练方法和风险评估方法
CN111080397A (zh) * 2019-11-18 2020-04-28 支付宝(杭州)信息技术有限公司 信用评估方法、装置及电子设备
CN111049822A (zh) * 2019-12-10 2020-04-21 北京达佳互联信息技术有限公司 短信验证码发送方法、装置、短信服务器及存储介质

Also Published As

Publication number Publication date
CN112003846A (zh) 2020-11-27
EP4199421A1 (en) 2023-06-21
US20230328087A1 (en) 2023-10-12
EP4199421A4 (en) 2024-07-17
WO2022033396A1 (zh) 2022-02-17

Similar Documents

Publication Publication Date Title
CN112003846B (zh) 一种信用阈值的训练、ip地址的检测方法及相关装置
CN110417721B (zh) 安全风险评估方法、装置、设备及计算机可读存储介质
CN106295349A (zh) 账号被盗的风险识别方法、识别装置及防控系统
CN110620759A (zh) 基于多维关联的网络安全事件危害指数评估方法及其系统
CN109508903B (zh) 风险评估方法、装置、计算机设备和存储介质
CN113347205A (zh) 一种检测业务访问请求的方法及装置
CN111865982B (zh) 基于态势感知告警的威胁评估系统及方法
US20210248258A1 (en) Real-time access rules using aggregation of periodic historical outcomes
CN108108624A (zh) 基于产品和服务的信息安全质量评估方法及装置
CN112819611A (zh) 欺诈识别方法、装置、电子设备和计算机可读存储介质
CN111611519A (zh) 一种个人异常行为检测方法及装置
CN117596174B (zh) 一种铁塔视联数据云传输调测方法、系统和介质
CN112784281A (zh) 一种工业互联网的安全评估方法、装置、设备及存储介质
CN118041581A (zh) 基于人工智能的网络安全态势预测方法及系统
CN115204733A (zh) 数据审计方法、装置、电子设备及存储介质
CN114363082A (zh) 网络攻击检测方法、装置、设备及计算机可读存储介质
CN115396109B (zh) 一种基于场景化的数据动态授权的管控方法及系统
CN110751536A (zh) 一种风险控制方法及系统
WO2009114191A1 (en) Citizenship fraud targeting system
CN110990810B (zh) 一种用户操作数据处理方法、装置、设备及存储介质
CN112085590B (zh) 规则模型的安全性的确定方法、装置和服务器
Abercrombie et al. Managing complex IT security processes with value based measures
Bumiller et al. Towards a Better Understanding of Impersonation Risks
EP3761197A1 (en) Method and system for producing a scoring model
CN112118259A (zh) 一种基于提升树的分类模型的越权漏洞检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant