计算机系统中帐号重要性的评估方法及其系统
技术领域
本发明涉及网络分析领域,特别涉及计算机系统中帐号重要性的评估方法及其系统。
背景技术
近些年复杂网络越来越受到关注,比如社交网络,电子邮件网络,计算机账号网络等,在这些节点网络中,根据不同的应用需要对节点成员进行关键性排序和评估。
现有的成员评估方法主要分为两大类:
一种是基于逻辑推理或基于上下游分析方法。通过对各成员的角色分析和路径追踪,实现成员标签化;另一种是基于复杂网络的统计量分析。因为各节点具备较为明显的网络拓扑结构特征,通过对网络中各节点中心度的指标分析,对各成员进行排序评估。
以上两种评估方法都存在一定的不足,基于逻辑推理的方法,其通用化较差,需要有较为深厚的业务要求,而且推广性也一般,这种基于定性方法往往会导致推理结果片面化。而基于复杂网络的统计量分析方法也存在一些不足之处。衡量网络的三个节点中心度指标各有侧重,其中,度(degree)表示节点在传播过程中的活跃度,介数(betweenness)代表各节点的信息流通能力,而紧密度(closeness)代表节点独立有效地传播的性能。因此,基于上述统计量的排序评估往往带有片面性,只能从某一方面进行团伙成员评估。如果采用加权求和对三个统计指标进行整合,又将引出另外的问题,也即参数整定无法最优化,最终导致评估性能不佳甚至失准。
发明内容
本发明的目的在于提供一种计算机系统中帐号重要性的评估方法及其系统,根据资金数额和流向信息对各节点间的阻尼系数进行不同的设置,能够更精确地得到各节点的重要性评估值。
为解决上述技术问题,本发明的实施方式公开了一种计算机系统中帐号重要性的评估方法,该方法包括以下步骤:
选择并确定相关联的帐号,每个帐号作为一个节点;
根据各节点间的资金数额和流向信息设置各节点间的表示关联强度大小的第一阻尼系数;
根据各节点间的第一阻尼系数计算得到各节点的第一重要性评估值。
本发明的实施方式还公开了一种计算机系统中帐号重要性的评估系统,该系统包括以下模块:
账号确定模块,用于选择并确定相关联的帐号,每个帐号作为一个节点;
第一阻尼设置模块,用于根据各节点间的资金数额和流向信息设置各节点间的表示关联强度大小的第一阻尼系数;
第一重要性评估模块,用于根据各节点间的第一阻尼系数计算得到各节点的第一重要性评估值。
本发明实施方式与现有技术相比,主要区别及其效果在于:
各节点间的阻尼系数根据资金数额和流向信息进行不同的设置,真实地反映了各节点间的关联程度,能够精确地得到各节点的重要性评估值。
进一步地,通过迭代计算,使得各节点的重要性评估值趋于稳定。
进一步地,根据各节点间设备和渠道信息所设定的第二阻尼系数和/或第三阻尼系数能够更精确地计算各节点的重要性评估值。
附图说明
图1是本发明第一实施方式中一种计算机系统中帐号重要性的评估方法的流程示意图;
图2是本发明第二实施方式中包含5个成员的节点网络图;
图3是本发明第三实施方式中包含11个成员的节点网络图;
图4是本发明第三实施方式中盗用案件团伙成员重要性排序流程图;
图5是本发明第四实施方式中一种计算机系统中帐号重要性的评估系统的结构示意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请各权利要求所要求保护的技术方案。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。
本发明第一实施方式涉及一种计算机系统中帐号重要性的评估方法,图1是该计算机系统中帐号重要性的评估方法的流程示意图。
具体地说,如图1所示,该方法包括以下步骤:
在步骤101中,选择并确定相关联的帐号,每个帐号作为一个节点。
此后进入步骤102,根据各节点间的资金数额和流向信息设置各节点间的表示关联强度大小的第一阻尼系数。
优选地,在步骤102中,资金数额和流向信息包括以下任一项或其任一组合:
转账,信用卡付款和购物代付。
此外,可以理解,在本发明的其它实施方式中,资金的流转形式并不局限于此,还包括其它方式。
此后进入步骤103,根据各节点间的第一阻尼系数计算得到各节点的第一重要性评估值。
可以理解,计算机系统中帐号中流入的资金数额越多,其重要性往往越高,因此需要通过分析资金流向组成的拓扑结构来评估每个节点的重要性。
而各节点流转到其它节点的资金数额和流向都是不同的。在本实施方式中,各节点间的阻尼系数并不是固定的或者相同的,而是根据资金数额和流向信息进行不同的设置,真实地反映了各节点间的关联程度,能够更精确地得到各节点的重要性评估值。
本发明第二实施方式涉及一种计算机系统中帐号重要性的评估方法,第二实施方式在第一实施方式的基础上进行了改进,主要改进之处在于:通过迭代计算,使得各节点的重要性评估值趋于稳定。具体地说:
在步骤103中,包括以下子步骤:
对于入度数为0的外围节点,根据该外围节点的出度的第一阻尼系数迭代计算该节点的第一重要性评估值;
对于入度数不为0的节点,根据该节点的入度的第一阻尼系数和与该节点连接的外围节点的第一重要性评估值迭代计算该节点的第一重要性评估值;
判断迭代计算的结果是否收敛,如果不收敛,则继续进行上述迭代计算,直到各节点的计算结果收敛。
其中,入度数为链接到目标节点的节点的总数,出度数为目标节点所指向的节点的总数。
可以理解,一次计算更新所产生的值,往往不是稳定的最终值,需要进行多次迭代,实现所有节点的重要性评估值的稳定。通过上述迭代计算,各节点的重要性评估值才能稳定。
可以理解,对于节点网络中存在入度数为0的外围节点的情况,迭代计算时从外围节点开始。
优选地,在步骤103中,节点的重要性评估值通过以下公式计算:
其中,PR(N)表示节点N的重要性评估值,B(N)表示指向节点N的节点集合,T(N)表示节点集合B(N)中的节点数,PR(i)表示指向节点N的节点i的重要性评估值,di_N为节点i到节点N的阻尼系数。
此外,可以理解,di_N为阻尼系数,表示各节点i到节点N的传播,是一个可调参数,介于0-1之间,根据各节点的传输的资金数额和流向信息来决定。
优选地,在步骤103中,对于入度数为零的节点,其重要性评估值通过以下公式计算:
其中,PR(N)表示节点N的重要性评估值,B'(N)表示由节点N所指向的节点集合,T'(N)表示节点集合B'(N)中的节点数,dN_i为节点N到节点i的阻尼系数。
此外,可以理解,上述公式(2)是一种处理孤立节点(即入度数为零的节点)的机制,这也是设置阻尼系数的原因。
通过考虑网络中孤立节点的场景,全面描述网络中各种节点的特征,即既考虑了常规节点,也考虑了孤立节点。
综合上述公式(1)和公式(2),针对如图2示的节点网络,各节点的重要性评估值经过三次迭代的计算结果如下表所示。
|
节点1 |
节点2 |
节点3 |
节点4 |
节点5 |
第1次迭代 |
1 |
1 |
1 |
1 |
1 |
第2次迭代 |
0.8 |
0.7 |
1.12 |
1.012 |
1.5148 |
第3次迭代 |
0.8 |
0.7 |
1.12 |
1.012 |
1.5148 |
计算过程具体为:
第一次迭代前,所有的5个点初始值都为1,对于这种存在独立点(点1和2)的网络,迭代计算时从独立点开始。
对于独立节点1,只有出度,没有入度,所以
PR(1)=1-0.2=0.8,PR(2)=1-0.3=0.7,
PR(3)=(1-(0.2+0.3)/2)+0.2*0.8+0.3*0.7=1.12
PR(4)=(1-0.1)+0.1*1.12=1.012
PR(5)=(1-(0.4+0.5)/2)+0.5*1.12+0.4*1.012=1.5148
在第二次迭代前,可以给出PR的列向量:PR=[0.8 0.7 1.12 1.012 1.5148]T
然后关于入度的转移矩阵为
其中,第一行为节点1的入度的阻尼系数,第二行为节点2的入度的阻尼系数,以此类推。可以看出,第三行中为各节点到节点3的阻尼系数,其中节点1和节点2到节点3的阻尼系数分别为0.2和0.3。
因此第二次迭代就可以根据公式(1)和公式(2)进行计算:
PR=[0.8 0.7 0.37+0.75 0.1012+0.9 0.55+0.56+0.60592 ]T=[0.8 0.7 1.121.012 1.5148]T
因此迭代收敛,所有的PR值保持不变。
在进行运算时,其矩阵的迭代次数与网络中各节点的度分布有关。度分布服从幂律分布时,计算量幂次增加只会产生呈倍数增加的计算时间。在进行矩阵分解时,由于最大特征值远远大于次大特征值,因此,该算法的收敛特性也较优。
优选地,由于度(Degree),介数(Betweenness)和紧密度(Closeness)这三个复杂网络统计量分别代表节点的某一类重要性指标,因此,构建与搭建与这三类指标的相关关系,构成节点的综合性指标,并通过线性组合的方式实现,对各节点的重要性进行评估。由于单指标性而无需进行繁冗复杂的线性组合参数整定。
本发明第三实施方式涉及一种计算机系统中帐号重要性的评估方法,第三实施方式在第一实施方式的基础上进行了改进,主要改进之处在于:根据各节点间设备和渠道信息所设定的第二阻尼系数和/或第三阻尼系数能够更精确地计算各节点的重要性评估值。具体地说:
在步骤103之后,还包括以下步骤:
根据各节点间的设备信息设置各节点间的第二阻尼系数,根据各节点间的渠道信息设置各节点间的第三阻尼系数;
根据各节点间的第二阻尼系数和/或第三阻尼系数在第一重要性评估值的基础上计算得到各节点的第二重要性评估值和/或第三重要性评估值。
可以理解,除了各节点间的资金流转外,各节点间通过设备和渠道所反映出的关联关系对节点的重要性评估也会造成影响。因此,除了资金外,阻尼系数还由各节点间的设备信息和渠道信息决定。
通过资金、设备和渠道的信息传递,实现每个节点的重要性评估值的更新,资金、设备和渠道这三者的阻尼系数分配比重一致,这三项需要分层来一个个处理,其中,资金是必须有的特征,或者有这三项同等重要,一起决定了阻尼系数。
优选地,在上述“根据各节点间的设备信息设置各节点间的第二阻尼系数”的步骤中,设备信息包括以下任一项或其任一组合:IP地址,MAC地址,手机唯一码。
优选地,在上述“根据各节点间的渠道信息设置各节点间的第三阻尼系数”的步骤中,渠道信息包括以下任一项或其任一组合:同省,同城,IP地址前三段相同。
可以理解,根据IP地址这一设备信息设置第二阻尼系数时,若两个节点的IP地址相同,则表示两个节点或者账号的登陆地址是相同的,从而相应地设置第二阻尼系数。
此外,可以理解,根据MAC地址或者手机唯一码这类设备信息设置第三阻尼系数时,若两个节点的上述设备信息相同,则表示两个节点或者账号所使用的设备是同一设备,从而据此相应地设置第三阻尼系数。
此外,可以理解,在本发明的其它实施方式中,设备信息和渠道信息并不局限于上述所列举的方式,也可以通过其它设备信息和渠道信息设置第二阻尼系数和第三阻尼系数。
作为上述实施方式的一个应用例,将上述计算机系统中账号重要性的评估方法应用在支付平台案件中,近些年,支付平台的盗卡和盗帐户案件开始呈现“集团化”和“智能化”。因此,提出有效的创新方法对作案团伙的成员进行关键性排序和评估成为当务之急。
支付平台产生的盗用案件团伙具有明显的网络结构特征。在作案团伙中,犯罪嫌疑人们扮演不同的角色,支付盗用团伙有买号人、扫号人、跑腿马仔、销赃者和技术首脑等,木马团伙有木马制作者、木马销售者、跑马者、拉单人等等,相互勾结并有明确分工。成员内往往通过非接触远程联络,有些成员之间可能互不认识,毫无关联。这些都是典型的复杂网络特性。
如图3示为包含11个成员的节点(账号)网络图,给定初始的阻尼系数为0.85时,首先计算出节点4至节点节点11的重要性评估值,并在确定上述外围节点的基础上,根据上述外围节点计算入度数不为零的节点的重要性评估值,包括节点1至节点3。从而可计算出这11个节点的重要性评估值。根据图分析可知,节点1是度最大的节点,但其重要性评估值(0.66)并非最大,重要性评估值最大的为节点3(1.2911),从而图形分析可得,节点3为整个节点网络中重要性最高的节点。
如图4所示为盗用案件团伙成员重要性排序流程图,团伙各成员之间通过资金和/或设备渠道进行关联,实现整个网络拓扑结构的搭建。首先基于案件反查串并,初设阻尼系数,标定节点排序贡献度,然后对团伙成员进行重要性评估,迭代分析阻尼系数并确定合适值,根据重要性评估值对团伙重要性进行排序,最后组织专案线下打击。基于资金数额和流向信息,以及设备和渠道所确定的重要性评估值能够更为全面地刻画在整个作案团伙网络中,每个成员对团伙的重要性程度。
本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现,指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的,易失性的或者非易失性的,固态的或者非固态的,固定的或者可更换的介质等等)。同样,存储器可以例如是可编程阵列逻辑(Programmable ArrayLogic,简称“PAL”)、随机存取存储器(Random Access Memory,简称“RAM”)、可编程只读存储器(Programmable Read Only Memory,简称“PROM”)、只读存储器(Read-Only Memory,简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM,简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc,简称“DVD”)等等。
本发明第四实施方式涉及一种计算机系统中帐号重要性的评估系统。图5是该计算机系统中帐号重要性的评估系统的结构示意图。
具体地说,如图5所示,该计算机系统中帐号重要性的评估系统该系统包括以下模块:
账号确定模块,用于选择并确定相关联的帐号,每个帐号作为一个节点;
第一阻尼设置模块,用于根据各节点间的资金数额和流向信息设置各节点间的表示关联强度大小的第一阻尼系数;
第一重要性评估模块,用于根据各节点间的第一阻尼系数计算得到各节点的第一重要性评估值。
各节点间的阻尼系数并不是固定的或者相同的,而是根据资金数额和流向信息进行不同的设置,真实地反映了各节点间的关联程度,能够精确地得到各节点的重要性评估值。
第一实施方式是与本实施方式相对应的方法实施方式,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
本发明第五实施方式涉及一种计算机系统中帐号重要性的评估系统,第五实施方式在第四实施方式的基础上进行了改进,主要改进之处在于:根据各节点间设备和渠道信息所设定的第二阻尼系数和/或第三阻尼系数能够更精确地计算各节点的重要性评估值。
具体地说,在第一重要性评估模块中,包括以下子模块:
第一评估子模块,用于对入度数为0的外围节点,根据该外围节点的出度的第一阻尼系数迭代计算该节点的第一重要性评估值;
第二评估子模块,用于对入度数不为0的节点,根据该节点的入度的第一阻尼系数和与该节点连接的外围节点的第一重要性评估值迭代计算该节点的第一重要性评估值;
迭代判断子模块,用于判断迭代计算的结果是否收敛,如果不收敛,则继续进行上述迭代计算,直到各节点的计算结果收敛。
优选地,帐号重要性的评估系统还包括以下模块:
第二阻尼设置模块,用于根据各节点间的设备信息设置各节点间的第二阻尼系数;
第三阻尼设置模块,用于根据各节点间的渠道信息设置各节点间的第三阻尼系数;
第二重要性评估模块,用于根据各节点间的第二阻尼系数和/或第三阻尼系数在第一重要性评估值的基础上计算得到各节点的第二重要性评估值和/或第三重要性评估值。
第二、三实施方式是与本实施方式相对应的方法实施方式,本实施方式可与第二、三实施方式互相配合实施。第二、三实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第二、三实施方式中。
需要说明的是,本发明各设备实施方式中提到的各模块都是逻辑模块,在物理上,一个逻辑模块可以是一个物理模块,也可以是一个物理模块的一部分,还可以以多个物理模块的组合实现,这些逻辑模块本身的物理实现方式并不是最重要的,这些逻辑模块所实现的功能的组合才是解决本发明所提出的技术问题的关键。此外,为了突出本发明的创新部分,本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的模块引入,这并不表明上述设备实施方式并不存在其它的模块。
需要说明的是,在本专利的权利要求和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本发明的某些优选实施方式,已经对本发明进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。