用于识别客体风险的方法及装置
技术领域
本申请涉及风险控制领域,具体涉及一种用于识别客体风险的方法。本申请同时提供一种用于识别客体风险的装置。
背景技术
随着网络技术和网络应用的飞速发展,互联网逐步渗透到人们生活中的每一个角落,网上阅读、网络视频、网络社交等已经成为了人们生活中不可或缺的组成部分。互联网给人们带来方便的同时,也给少量恶意用户提供了欺诈、作弊的平台。
例如,在一些网络应用系统中,大部分账户的操作行为都是正常的,然而也存在少量或者个别账户利用网络应用平台进行沉淀资金、洗钱、套现等作弊行为、以及盗用他人账户等欺诈行为。通常,这样的账户往往协同很多账户一起进行作弊或者欺诈,或者和很多账户之间都有联系,附图1和附图2给出了两种比较典型的情况,在附图1中,与账户A有资金往来的所有其他账户之间没有资金往来关系,在附图2中,与账户A有资金往来的所有其他账户彼此之间也都有资金往来,这两种极端情况,往往意味着账户A可能涉及作弊行为或者欺诈行为,即:账户A是存在风险的账户。
为了维护互联网应用环境的正常秩序、避免欺诈行为给合法账户带来损失,很多互联网应用平台都采用相应的技术手段对各种作弊行为和欺诈行为进行风险识别。目前通常采用以下两种方式:
(一)人工审核。由人工对每个账户的相关行为数据(例如:与其他账户之间的资金往来数据)进行分析,凭借个人积累的经验辨别账户是否存在风险。
(二)对黑/白样本进行分析。所谓白样本通常是指正常账户的行为数据样本,黑样本则是指作弊账户或者欺诈账户的行为数据样本,通过对从这两种样本中提取的数据进行分析,例如:相关的交易数据、财务数据、账户信息、登录数据、银行卡信息、用户身份信息等,采用建立模型或者打分等方式对账户是否存在风险进行评估。
采用上述第一种方式,完全依赖个人经验,没有采用量化的手段对整个辨识过程系统化、自动化,效率低下,无法满足大数据量下的应用需求。而且上述两种方式还存在同样的缺陷:在对某个账户进行风险识别的过程中,通常仅考虑该账户自身的行为属性或者该账户与其他账户之间的关系,而没有将与该账户有关系的其他账户之间的关系纳入考量范围之内,因此对于类似附图1和附图2所示的风险,通常无法及时、准确地进行识别,导致风险控制不够完善。
发明内容
本申请提供的一种用于识别客体风险的方法,提出了基于自我网络进行风险识别的新思路,以解决现有技术由于没有考虑与客体有关联的其他客体之间的相互关系而导致的风险控制不完善的问题。本申请另外提供一种用于识别客体风险的装置。
本申请提供一种用于识别客体风险的方法,包括:
根据客体行为数据生成待识别客体的自我网络,并获取所述自我网络的拓扑参数的实际值;
根据预先生成的所述拓扑参数之间的约束关系,以作为自变量的拓扑参数的实际值作为输入,计算作为因变量的拓扑参数的预期值;
判断计算得到的拓扑参数的预期值与已获取的相应实际值的差异是否大于预先设定的阈值;若是,则判定所述待识别客体存在风险;
所述待识别客体的自我网络是指,以所述待识别客体为中心节点、以与所述待识别客体之间存在预先定义的关系的客体作为邻居节点,以上述节点之间存在所述预先定义的关系作为边,所组成的网络。
可选的,所述方法应用于网络支付系统中,所述客体是指所述网络支付系统中的账户。
可选的,所述预先定义的关系包括:资金往来关系、共用设备关系、和/或共用密码关系。
可选的,所述自我网络的拓扑参数包括:自我网络的邻居节点数、和自我网络的边数。
可选的,所述预先生成拓扑参数之间的约束关系,包括:
从网络支付系统的历史行为数据中,获取每一个账户的自我网络的邻居节点数以及边数;
根据已获取的由邻居节点数和边数组成的数据对,采用拟合的方法获取所述网络支付系统的自我网络的邻居节点数与边数之间的约束关系。
可选的,所述自我网络的邻居节点数与边数之间的约束关系是指,所述边数与所述邻居节点数之间满足幂函数关系;
相应的,所述根据已获取的由邻居节点数和边数组成的数据对,采用拟合的方法获取所述网络支付系统的自我网络的邻居节点数与边数之间的约束关系包括:
对表示具体幂函数关系的方程两边取对数,得到线性方程;
利用已获取的数据对,采用线性回归的方法求解所述线性方程;
将求解得到的线性方程转换为关于边数与邻居节点数的原幂函数方程,即得到所述邻居节点数与边数之间的约束关系。
可选的,所述根据预先生成的自我网络拓扑参数之间的约束关系,以作为自变量的拓扑参数的实际值作为输入,计算作为因变量的拓扑参数的预期值是指,
按照预先生成的所述幂函数方程,以所述待识别客体的自我网络的邻居节点数的实际值作为输入,计算所述待识别客体的自我网络的边数的预期值;
相应的,所述判断计算得到的拓扑参数的预期值与已获取的相应实际值的差异是否大于预先设定的阈值是指,判断计算得到的边数的预期值与已获取的所述待识别客体自我网络的边数的实际值的差异是否大于预先设定的阈值。
可选的,所述判断计算得到的拓扑参数的预期值与已获取的相应实际值的差异是否大于预先设定的阈值,包括:
正则化所述拓扑参数的预期值与相应实际值的差异;
判断正则化后的差异值是否大于预先设定的阈值。
可选的,所述正则化所述拓扑参数的预期值与相应实际值的差异,采用如下公式实现:
diff=(max(E,e*)/min(E,e*))×log(|E–e*|+1)
其中,e*为所述拓扑参数的预期值,E为所述相应实际值,diff为正则化处理后的差异值。
相应的,本申请还提供一种用于识别客体风险的装置,包括:
实际值获取单元,用于根据客体行为数据生成待识别客体的自我网络,并获取所述自我网络的拓扑参数的实际值;所述待识别客体的自我网络是指,以所述待识别客体为中心节点、以与所述待识别客体之间存在预先定义的关系的客体作为邻居节点,以上述节点之间存在所述预先定义的关系作为边,所组成的网络;
预期值计算单元,用于根据预先生成的所述拓扑参数之间的约束关系,以作为自变量的拓扑参数的实际值作为输入,计算作为因变量的拓扑参数的预期值;
判断识别单元,用于判断所述预期值计算单元输出的拓扑参数的预期值与已获取的相应实际值的差异是否大于预先设定的阈值;若是,则判定所述待识别客体存在风险。
可选的,所述装置部署于网络支付系统中,所述客体是指所述网络支付系统中的账户。
可选的,所述实际值获取单元生成待识别客体的自我网络所采用的预先定义的关系包括:资金往来关系、共用设备关系、和/或共用密码关系。
可选的,所述实际值获取单元、所述预期值计算单元和所述判断识别单元所采用的拓扑参数包括:自我网络的邻居节点数、和自我网络的边数。
可选的,所述装置包括:
约束关系生成单元,用于预先生成拓扑参数之间的约束关系;所述约束关系生成单元包括:
数据对采集子单元,用于从网络支付系统的历史行为数据中,获取每一个账户的自我网络的邻居节点数以及边数;
约束关系拟合子单元,用于根据已获取的由邻居节点数和边数组成的数据对,采用拟合的方法获取所述网络支付系统的自我网络的邻居节点数与边数之间的约束关系。
可选的,所述约束关系生成单元生成的约束关系是指,自我网络的边数与邻居节点数之间满足的幂函数关系。
相应的,所述约束关系拟合子单元包括:
线形转换子单元,用于对表示所述幂函数关系的方程两边取对数,得到线性方程;
线形回归求解子单元,用于利用已获取的数据对,采用线性回归的方法求解所述线性方程;
约束关系还原子单元,用于将求解得到的线性方程转换为关于边数与邻居节点数的原幂函数方程,即得到所述邻居节点数与边数之间的约束关系。
可选的,所述预期值计算单元具体用于,按照所述约束关系生成单元生成的所述幂函数方程,以所述待识别客体的自我网络的邻居节点数的实际值作为输入,计算所述待识别客体的自我网络的边数的预期值。
相应的,所述判断识别单元具体用于,判断所述预期值计算单元输出的边数的预期值与所述实际值获取单元获取的边数的实际值的差异是否大于预先设定的阈值,若是,则判定所述待识别客体存在风险。
可选的,所述判断识别单元包括:
正则化处理子单元,用于正则化所述拓扑参数的预期值与相应实际值的差异;
判断执行子单元,用于判断正则化后的差异值是否大于预先设定的阈值。
可选的,所述正则化处理子单元采用如下公式对拓扑参数的预期值与相应实际值的差异进行正则化处理:
diff=(max(E,e*)/min(E,e*))×log(|E–e*|+1)
其中,e*为所述拓扑参数的预期值,E为所述相应实际值,diff为正则化处理后的差异值。
与现有技术相比,本申请具有以下优点:
本申请提供的用于识别客体风险的方法,通过获取待识别客体的自我网络的拓扑参数的实际值,根据预先生成的拓扑参数之间的约束关系,计算作为因变量的拓扑参数的预期值,并计算所述预期值与相应实际值的差异,如果所述差异大于预先设定的阈值,则判定所述待识别客体存在风险。采用上述方法,由于从待识别客体的自我网络的角度出发,将与待识别客体有关系的其他客体之间的关系纳入考量范围之内,根据待识别客体的自我网络拓扑参数违反全局约束条件的程度进行风险识别,从而将待识别客体的自我网络拓扑结构的异常与风险建立起有机的联系,为风险识别提供了一种新的判断标准,与其他风险识别手段相配合,使风险控制过程更为完善。
附图说明
图1是风险账户与相邻账户之间的关系的第一示意图;
图2是风险账户与相邻账户之间的关系的第二示意图;
图3是本申请的一种用于识别客体风险的方法实施例的流程图;
图4是本实施例提供的根据历史行为数据生成全局的自我网络拓扑参数之间的约束关系的处理流程图;
图5是本实施例提供的网络支付系统中某账户的自我网络示意图;
图6是本申请的一种用于识别客体风险的装置实施例的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,分别提供了一种用于识别客体风险的方法,以及一种用于识别客体风险的装置,在下面的实施例中逐一进行详细说明。为了便于理解,在此先对本申请的技术方案作简要的说明。
本申请提供的用于识别客体风险的方法,为传统的风险识别技术提供了一种新的思路,在辨识客体是否存在风险时,将与待识别客体有关系的其他客体之间的关系纳入考量范围,为了便于对上述关系进行分析和量化,本申请的技术方案引入了自我网络的概念。
所述自我网络是指,以某客体为中心节点、以与该客体之间存在预先定义的关系的客体作为邻居节点,以上述节点之间存在所述预先定义的关系作为边,所组成的网络。该网络可以用一些拓扑参数来表征,例如:邻居节点数、边数等。通过上面的描述可以看出,自我网络是相对于一个客体而言的,对于不同的客体来说,其自我网络可能存在或大或小的差异,但是在特定的应用系统中,所有客体的自我网络通常会遵循统一的规律。
基于上述原理,本申请提供的用于识别客体风险的方法,首先根据过去一段时间内应用系统的客体行为数据(记录应用系统中客体之间交互行为的数据),拟合出每个客体都应遵循的全局性的自我网络规律,即:自我网络拓扑参数之间存在的约束关系,然后根据待识别客体的自我网络拓扑参数与所述约束关系的符合程度,判断所述待识别客体是否存在风险。
需要说明的是,本申请的技术方案是以网络支付系统为背景提出的,可用于识别该系统中的欺诈或者作弊账户,但是本技术方案也可在其他应用系统中实施,只要根据应用系统的历史行为数据能够拟合出该系统内每个客体都遵循的自我网络规律,就可以使用本方法进行客体风险的识别。所述风险的含义也是相对宽泛的,在网络支付系统中可以将可能存在的欺诈、作弊行为看作风险,在其他应用系统中,如果某个客体的自我网络拓扑参数不符合预先得到的约束关系,则说明该客体的自我网络结构存在异常,这种异常情况也即本申请所述的风险。
下面对本申请的实施例逐一进行详细说明。请参考图3,其为本申请的一种用于识别客体风险的方法实施例的流程图。所述方法包括如下步骤:
步骤101:预先生成全局的自我网络拓扑参数之间的约束关系。
本步骤从应用系统的历史行为数据中,获取每一个客体的自我网络的拓扑参数值,并用获取的拓扑参数值拟合出拓扑参数之间的约束关系。
在本实施例的一个具体例子中,将本申请的技术方案应用于网络支付系统中,所述客体是指网络支付系统中的账户,所述预先定义的关系是指资金往来关系,相应的,每个账户的自我网络是指,以该账户为中心节点、以与该账户之间存在资金往来的其他账户作为邻居节点、以上述节点之间存在资金往来作为边,所组成的网络。自我网络的拓扑参数是指,邻居节点数和边数。
仍以上述网络支付系统为例,根据该系统的历史行为数据生成全局的自我网络拓扑参数之间的约束关系,包括如下所示的步骤101-1和步骤101-2,下面结合附图4作进一步说明。
步骤101-1:从网络支付系统的历史行为数据中,获取每一个账户的自我网络的邻居节点数以及边数。
所述网络支付系统的历史行为数据是指,在过去一段时间内的历史行为数据,例如:过于半年内的资金往来数据等。针对每一个账户,通过分析与其相关的资金往来数据,提取出与其有资金往来关系的其他账户,并进一步分析其他账户彼此之间是否也存在资金往来关系,从而就可以生成该账户的自我网络,并得到自我网络的邻居节点数以及边数(请参考步骤102中给出的具体示例)。
对网络支付系统中的每一个账户都进行上述分析,就可以获取一系列的数据对,每个数据对都包含两个成员:邻居节点数和边数。
步骤101-2:根据已获取的由邻居节点数和边数组成的数据对,采用拟合的方法获取所述网络支付系统的自我网络的邻居节点数与边数之间的约束关系。
根据在步骤101-1中获取的一系列数据对,拟合出网络支付系统全局的自我网络规律,即:每个客体的自我网络所遵循的邻居节点与边数之间的约束关系。
所谓拟合是指已知某函数的若干离散函数值,通过调整该函数中若干待定系数,使得该函数与已知点集的差别最小。如果待定函数是线性,通常称作线性拟合,否则称作非线性拟合或者曲线拟合。
在步骤101-1中获取的由邻居节点和边数组成的一系列数据对,实际上就是上述已知点集,为了根据这些点集拟合出邻居节点和边数之间的约束关系(即:目标函数),通常需要先确定目标函数的基本形式。
考虑到幂律分布(power law distribution)是互联网领域的一种常见统计现象,幂律分布揭示了互联网典型的技术结构特征,其归纳的正是互联网所涉及的图论中顶点与边的关系。在互联网领域中,很多特征或者参量通常都符合幂律分布,而幂律分布中的幂就是指幂函数,即通常所说的x的n次方。
基于上述考虑,在本实施例的上述具体例子中,采用如下所示的幂函数作为目标函数的基本形式:
E=alpha*power(N,beta)
其中,N为自我网络的邻居节点数,E为自我网络的边数,alpha和beta是待定系数,通过拟合求出这两个待定系数的具体值,上述目标函数就确定了,也就得到了自我网络的拓扑参数之间的约束关系。
由于目标函数是幂函数的形式,属于曲线拟合,为了简化求解过程,可以先将曲线直线化再进行求解,具体说包括以下几个处理过程:
1)对表示具体幂函数关系的方程两边取对数,得到线性方程;
2)利用已获取的点集,采用线性回归的方法求解所述线性方程;
3)将求解得到的线性方程转换为关于邻居节点数与边数的原幂函数方程,即得到所述邻居节点数与边数之间的约束关系。
在具体实施中,上述线性回归求解过程可以采用最小二乘法或者是最大似然估计法,最小二乘法以估计值与观测值的差的平方和最小进行求解,极大似然法则是以最大化目标值的似然概率函数为目标函数,从概率统计的角度进行求解,两种算法的原理不同,但是都可以用于处理线形回归问题。
上述曲线拟合转换为直线拟合、以及线形回归等都是比较成熟的现有技术,此处不再赘述。在具体实施中,对于上述曲线拟合过程,还可以采用统计软件或者是Matlab提供的工具或者接口实现。
步骤102:根据客体行为数据生成待识别客体的自我网络,并获取所述自我网络的拓扑参数的实际值。
通过步骤101的拟合过程,已经生成了应用系统关于自我网络拓扑参数的一个全局性的约束关系,此后,要识别该应用系统中的某个客体是否存在风险,那么就可以通过计算待识别客体的自我网络拓扑参数与所述全局约束关系的符合程度,来进行判断。
为了实现上述功能,本步骤根据应用系统的客体行为数据生成待识别客体的自我网络并获取拓扑参数的实际值,例如,在上述具体例子中,如果通过对最近一段时间内(例如:一个星期)网络支付系统中的客体行为数据的分析,获知与待识别账户A有资金往来关系的其他账户包括:账户B、账户C、账户D、账户E、账户F、以及账户G,同时,上述其他账户彼此之间也存在一些资金往来关系,那么以账户A作为中心节点、以上述其他账户B、C、D、E、F、以及G作为邻居节点,账户A与其他账户之间的关系用实线边代表,其他账户彼此之间的关系用虚线边代表,就可以得到如附图5所示的关于账户A的自我网络。
在账户A的自我网络中,账户B、C、D、E、F、以及G是邻居节点,因此邻居节点的数目为6,该自我网络的边数为其中实线边和虚线边的总数,因此边数为6+7=13。这样,就获取了账户A的自我网络的拓扑参数的实际值。
具体实施时,可以先分析与账户A相关的用户行为数据,从中提取与其有资金往来关系的账户,组成邻居集合,并记录这些账户的数目(即:邻居节点数的实际值);然后针对邻居集合中的每个账户,分析与其相关的用户行为数据,从中查找与其存在资金往来关系、并且包含在所述邻居集合中的账户,记录两者之间的关系,并判断是否已针对该关系进行了虚线边数的累加,若否,则进行虚线边数的累加;对邻居集合中的每个账户都检查完毕,则用邻居节点数与虚线边数求和,就得到了边数的实际值。
步骤103:根据预先生成的所述拓扑参数之间的约束关系,以作为自变量的拓扑参数的实际值作为输入,计算作为因变量的拓扑参数的预期值。
在步骤101中已经生成了自我网络拓扑参数之间的约束关系,在该约束关系中,某个拓扑参数的取值通常依赖于其他拓扑参数的取值,其中被依赖的拓扑参数通常称为自变量,依赖其他拓扑参数的变化而变化的拓扑参数称为因变量。在本步骤中,以作为自变量的拓扑参数的实际值作为输入,计算作为因变量的拓扑参数的预期值。
在上述具体例子中,在步骤101中生成的拓扑参数之间的约束关系为:
E=alpha*power(N,beta)
其中,alpha和beta为两个参数(已经通过拟合求解得到具体值),自我网络的邻居节点数N为自变量,自我网络的边数E为因变量。
在本步骤中,将在步骤102中获取的账户A的自我网络邻居节点数的实际值代入上述幂函数方程的右端,即:将N=6代入上述幂函数方程,就可以计算出作为因变量的边数的预期值。
需要说明的是,在一个约束关系中自变量和因变量通常是一种相对的关系,通过调整约束关系的具体表达形式,自变量与因变量通常也是可以互换的。例如:上述以N为自变量、E为因变量的幂函数方程,也可以转换为以E为自变量、N为因变量的表达形式,在这种情况下,本步骤就应该以在步骤102中得到的边数的实际值为自变量,求解邻居节点数的预期值,然后在后续步骤104中用邻居节点数的预期值与实际值的差异进行风险判定。上面描述的只是具体实施方式的变更,并不偏离本申请的核心,都在本申请的保护范围之内。
步骤104:判断计算得到的拓扑参数的预期值与已获取的相应实际值的差异是否大于预先设定的阈值;若是,则判定所述待识别客体存在风险。
在步骤103中,已经根据自我网络拓扑参数所应遵循的约束关系,计算出了待识别客体自我网络的作为因变量的拓扑参数(以下简称待评估的拓扑参数)的预期值,在本步骤中用该预期值与在步骤102中获取的相应实际值进行比较,判断其差异是否大于预先设定的阈值,若大于,则判定所述待识别客体存在风险。
本步骤的主要目的就是通过评估预期值与实际值的差异程度,来进行风险的判定,作为一种最为简单的实施方式,通常可以采用计算差值的方式。在本实施例的上述具体例子中,如果边数E的值仅在较小范围内波动,其预期值与实际值的差值通常就可以反映差异程度,因此可以用差值做进一步判定。
但是如果边数E的取值范围比较大,单纯计算差值可能无法准确反映差异程度,例如:100与98的差值为2,5与3的差值也为2,但是这两组数值的差异程度显然不同,第二组的差异程度显然应该大于第一组。
为了解决上述问题,本申请的技术方案提供了计算差异的一种优选实施方式:正则化待评估拓扑参数的预测值和真实值之间的差异,即,不仅考虑两者的差值,还要考虑两者的比值,从而可以消除或者减少因为数值自身大小的不同对差异评估带来的影响,具体说采用如下所示公式计算预测值与实际值之间的差异:
diff=(max(Ei,e*)/min(Ei,e*))×log(|Ei–e*|+1)
其中,e*为待评估拓扑参数的预期值,Ei为待评估拓扑参数的实际值,diff为正则化处理后的差异值。
计算得到待评估拓扑参数的预期值与实际值的差异后,就可以与预先设定的阈值进行比较。本申请技术方案的核心在于:待识别客体的自我网络应该符合其所属应用系统的全局规律(满足自我网络拓扑参数之间的约束关系),这里所述的符合并不是要求待评估拓扑参数的预期值与实际值完全一致,而是指两者不一致的程度应该控制在一定范围之内,也就是说,如果两者的差异超出了预先设定的阈值,可以认为待识别客体的自我网络结构是异常的,则判定待识别客体存在风险,在这种情况下,还可以综合考虑从其他角度得到的关于该客体的其他风险识别指标,并做出相应的风险监控措施。
至此,通过上述步骤101至104完成了对待识别客体的风险识别过程。需要说明的是,并不是每次进行客体的风险识别都需要执行步骤101,该步骤通常是定期执行的,例如:每隔3个月或者半年执行一次,根据应用系统的历史行为数据生成全局的自我网络规律,即:自我网络拓扑参数之间的约束关系。此后在针对应用系统中的每个客体进行风险识别时,以最近一次生成的全局自我网络规律为依据,循环执行步骤102-104进行相应的处理即可。
需要说明的是,在本实施例提供的上述具体例子中,针对网络支付系统的风险识别,采用幂函数形式定义拓扑参数之间的约束关系,在其他的应用系统中,也可以根据实际需要采用其他函数形式,例如:指数函数、对数函数或者线形函数等;在上述具体例子中,构建自我网络时采用资金往来关系在不同的客体之间建立关联,实际上也可以采用其他预定义关系,例如:客体之间共用相同的终端设备、客体之间使用相同的密码等;此外,在上述具体例子中,以网络支付系统中的账户作为客体,在其他应用系统中也可以采用其他客体形式,例如:电话号码、QQ号码等。上述这些都属于具体实施方式的变更,并不偏离本申请的核心,都在本申请的保护范围之内。
在具体实施本申请的技术方案时,由于涉及网络拓扑参数的计算,特别是在步骤101构建全局拓扑参数的约束关系时,涉及对大量数据的分析与计算,可以采用MapReduce分布式计算技术,以及Pregel-Like的图分布式计算平台,从而提高处理效率。
综上所述,本申请提供的用于识别客体风险的方法,从待识别客体的自我网络的角度出发,将与待识别客体有关系的其他客体之间的关系纳入考量范围之内,根据待识别客体的自我网络拓扑参数违反全局约束条件的程度进行风险识别,从而将待识别客体的自我网络拓扑结构的异常与风险建立起有机的联系,为风险识别提供了一种新的判断标准,与其他风险识别手段相配合,使风险控制过程更为完善。
在上述的实施例中,提供了一种用于识别客体风险的方法,与之相对应的,本申请还提供一种用于识别客体风险的装置。请参看图6,其为本申请的一种用于识别客体风险的装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例的一种用于识别客体风险的装置,包括:约束关系生成单元601,用于预先生成拓扑参数之间的约束关系;实际值获取单元602,用于根据客体行为数据生成待识别客体的自我网络,并获取所述自我网络的拓扑参数的实际值;所述待识别客体的自我网络是指,以所述待识别客体为中心节点、以与所述待识别客体之间存在预先定义的关系的客体作为邻居节点,以上述节点之间存在所述预先定义的关系作为边,所组成的网络;预期值计算单元603,用于根据预先生成的所述拓扑参数之间的约束关系,以作为自变量的拓扑参数的实际值作为输入,计算作为因变量的拓扑参数的预期值;判断识别单元604,用于判断计算得到的拓扑参数的预期值与已获取的相应实际值的差异是否大于预先设定的阈值;若是,则判定所述待识别客体存在风险。
可选的,所述装置部署于网络支付系统中,所述客体是指所述网络支付系统中的账户。
可选的,所述实际值获取单元生成待识别客体的自我网络所采用的预先定义的关系包括:资金往来关系、共用设备关系、和/或共用密码关系。
可选的,所述实际值获取单元、所述预期值计算单元和所述判断识别单元所采用的拓扑参数包括:自我网络的邻居节点数、和自我网络的边数。
可选的,所述约束关系生成单元包括:
数据对采集子单元,用于从网络支付系统的历史行为数据中,获取每一个账户的自我网络的邻居节点数以及边数;
约束关系拟合子单元,用于根据已获取的由邻居节点数和边数组成的数据对,采用拟合的方法获取所述网络支付系统的自我网络的邻居节点数与边数之间的约束关系。
可选的,所述约束关系生成单元生成的约束关系是指,自我网络的边数与邻居节点数之间满足的幂函数关系。
相应的,所述约束关系拟合子单元包括:
线形转换子单元,用于对表示所述幂函数关系的方程两边取对数,得到线性方程;
线形回归求解子单元,用于利用已获取的数据对,采用线性回归的方法求解所述线性方程;
约束关系还原子单元,用于将求解得到的线性方程转换为关于边数与邻居节点数的原幂函数方程,即得到所述邻居节点数与边数之间的约束关系。
可选的,所述预期值计算单元具体用于,按照所述约束关系生成单元生成的所述幂函数方程,以所述待识别客体的自我网络的实际邻居节点数作为输入,计算所述待识别客体的自我网络的边数的预期值。
相应的,所述判断识别单元具体用于,判断所述预期值计算单元输出的边数的预期值与所述实际值获取单元获取的边数的实际值的差异是否大于预先设定的阈值。
可选的,所述判断识别单元包括:
正则化处理子单元,用于正则化所述拓扑参数的预期值与相应实际值的差异;
判断执行子单元,用于判断正则化后的差异值是否大于预先设定的阈值。
可选的,所述正则化处理子单元采用如下公式对拓扑参数的预期值与相应实际值的差异进行正则化处理:
diff=(max(E,e*)/min(E,e*))×log(|E–e*|+1)
其中,e*为所述拓扑参数的预期值,E为所述相应实际值,diff为正则化处理后的差异值。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。