识别目标团伙的方法和装置
技术领域
本说明书涉及数据处理技术领域,尤其涉及一种识别目标团伙的方法和装置。
背景技术
随着通信技术的发展,人们越来越习惯于利用网络处理各种工作和生活事项,处理这些事项一般由用户在提供相应业务的业务系统中注册账户,然后将账户作为其身份的代表,来运行相关的业务逻辑。
近年来,互联网金融的蓬勃发展在极大的方便用户的同时,也不可避免的带来一些安全隐患。一些黑产团伙时刻关注金融系统的漏洞,利用非法手段获取不正当利益,有效识别和打击这些黑产团伙组织对互联网金融系统的平稳运行有重要作用,有利于互联网金融系统的持久健康发展。
发明内容
有鉴于此,本说明书提供一种识别目标团伙的方法,包括:
获取账户集合中各个账户的基准信息和扩展信息;
在基准信息满足第一关联条件的两个账户间建立第一关联关系,根据第一关联关系生成第一团伙;所述第一团伙中每个成员与至少一个其他成员具有第一关联关系;
根据第一团伙中具有第一关联关系的成员的扩展信息,确定第二关联条件;
在扩展信息满足第二关联条件的两个账户之间建立第二关联关系,基于第一关联关系和第二关联关系,确定目标团伙。
本说明书还提供了一种识别目标团伙的装置,包括:
账户信息获取单元,用于获取账户集合中各个账户的基准信息和扩展信息;
第一团伙生成单元,用于在基准信息满足第一关联条件的两个账户间建立第一关联关系,根据第一关联关系生成第一团伙;所述第一团伙中每个成员与至少一个其他成员具有第一关联关系;
第二关联条件单元,用于根据第一团伙中具有第一关联关系的成员的扩展信息,确定第二关联条件;
目标团伙生成单元,用于在扩展信息满足第二关联条件的两个账户之间建立第二关联关系,基于第一关联关系和第二关联关系,确定目标团伙。
本说明书提供的一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行上述识别目标团伙的方法所述的步骤。
本说明书还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述识别目标团伙的方法所述的步骤。
由以上技术方案可见,本说明书的实施例中,将账户信息中对识别目标团伙置信度高的信息作为基准信息,将对识别目标团伙有贡献的信息作为扩展信息,采用基准信息建立第一关联关系并生成第一团伙,根据第一团伙中有第一关联关系的成员的扩展信息确定用来建立第二关联关系的第二关联条件,并按照第一关联关系和第二关联关系来生成目标团伙,不仅因采用第二关联关系生成目标团伙极大的减少了对目标团伙成员的遗漏,而且由于根据第一团伙的扩展信息确定的第二关联条件反映了目标团伙的运作特征,能够更加准确的识别出目标团伙的成员。
附图说明
图1是本说明书实施例中一种识别目标团伙的方法的流程图;
图2是本说明书应用示例中在账户集合中进行目标团伙识别的流程图;
图3是本说明书应用示例中一种极大连通子图的示例图;
图4是本说明书应用示例中一种进行边腐蚀后的连通子图示例图;
图5是运行本说明书实施例的设备的一种硬件结构图;
图6是本说明书实施例中一种识别目标团伙的装置的逻辑结构图。
具体实施方式
当用户在网络服务提供者的服务系统中注册账户、和/或开通该账户的某项业务时,通常需要向服务系统提供与用户自身、或与该业务相关的信息;在用户使用其账户进行各项业务时,会生成与业务行为相关的各种信息;一个账户的所有这些信息可以在服务系统的运行过程中被记载和存储,来作为该账户的信息。
当多个账户的实际控制者是一个到多个用户时,这些账户的集合即是一个团伙,这些账户是该团伙的成员。由于属于同一个团伙的至少部分成员几乎不可避免会使用相同的资源、进行相互协作,而这些共同的资源和协作会体现在这些成员的部分账户信息中,这部分账户信息在确定账户属于同一个团伙上具有较高的置信度,可以将这部分信息作为在识别团伙时的基准信息。但是,仅仅采用基准信息来识别团伙,往往会遗漏相当数量的团伙成员,可以将除基准信息外的其他账户信息中,有助于识别团伙成员的信息作为扩展信息,并适用不同于基准信息的判断条件来利用扩展信息进行团伙识别。
因此,本说明书的实施例提出一种新的识别目标团伙的方法,由账户的基准信息建立账户间的第一关联关系并按照第一关联关系生成第一团伙,采用第一团伙成员的扩展信息确定第二关联条件,基于满足第二关联条件的第二关联关系和第一关联关系生成目标团伙,从而通过采用扩展信息建立的第二关联关系减少了对目标团伙成员的遗漏,同时,通过采用第一团伙成员的扩展信息来确定第二关联条件,使得第二关联条件能够反映目标团伙的运作特征,提高了对目标团伙成员识别的准确性。
本说明书的实施例可以运行在任何具有计算和存储能力的设备上,如手机、平板电脑、PC(Personal Computer,个人电脑)、笔记本、服务器等设备;还可以由运行在两个或两个以上设备的逻辑节点来实现本说明书实施例中的各项功能。
本说明书的实施例中,从一个账户集合中识别出有几个团伙,以及每个团伙的成员有哪些,待识别的团伙称为目标团伙。识别目标团伙的方法的流程如图1所示。
步骤110,获取账户集合中各个账户的基准信息和扩展信息。
如前所述,网络服务提供者的业务系统会记载和存储账户的各种信息,包括用户注册时、开通业务时、使用业务系统时提供或生成的信息。可以根据所提供服务的业务特征来决定将哪个或哪些信息作为用来识别目标团伙的基准信息,将哪个或哪些信息作为扩展信息,并读取业务系统存储的这些信息。
基准信息或扩展信息可以是账户信息中的任何信息,不做限定,例如,可以是用户注册时的账户属性信息,可以是开通业务时的业务属性信息,也可以是使用业务系统时对业务行为的统计信息。基准信息在识别目标团伙上具有较高的置信度,扩展信息能够有助于识别目标团伙并且与基准信息不同。
账户信息可以采用若干个维度来表达,每个维度是账户信息的一个类型,能够反映两个账户之间可能具有的一种相关方式,账户信息中包含各个维度的信息。例如,一个常用的信息维度是身份证,所反映的账户间相关方式是两个账户是否使用同一个身份证,一个账户的身份证维度的信息是身份证号码。再如,一个可能的信息维度是通讯录好友,所反映的账户间相关方式是两个账户具有多少相同的通讯录好友,一个账户的通讯录好友维度信息可以是账户的通讯录好友名单。
某个维度的信息既可以用来作为基准信息,也可以用来作为扩展信息。当某个维度的信息用来作为基准信息时,称该维度为基准维度;当某个维度的信息用来作为扩展信息时,称该维度为扩展维度。基准信息可以包括P(P为自然数)个基准维度的信息;扩展信息可以包括Q(Q为自然数)个扩展维度的信息。
步骤120,在基准信息满足第一关联条件的两个账户间建立第一关联关系,根据第一关联关系生成第一团伙。第一团伙中每个成员与至少一个其他成员具有第一关联关系。
在获得账户集合的基准信息后,可以基于基准信息在账户集合的两两账户间建立第一关联关系,建立第一关联关系采用预定的第一关联条件。第一关联条件可以根据基准信息所属的基准维度、服务系统的业务特点等因素来确定,本说明书的实施例不做限定。例如,假设基准维度包括身份证和登录设备,则第一关联条件可以是:两个账户具有相同的身份证号码、并且两个账户的登录设备中有相同的设备。
可以用单维强度来衡量两个账户在某个信息维度上的相关程度高低,并采用单维强度来作为建立两个账户间关联关系的条件。单维强度的定义方式可以根据所属信息维度的数据类型、具体应用场景中的维度信息来确定,不做限定,以下举例说明:
对身份证维度,可以令两个账户具有相同的身份证号码时单维强度为一个值(如1),两个账户具有不同的身份证号码时单维强度为另一个值(如0);类似的对认证手机号维度、绑定银行卡维度、申贷银行卡维度等维度信息为一个确定属性值的维度,都可以这样的方式定义单维强度;
对充值手机号维度,单维强度可以根据两个账户相同充值手机号的数量确定;例如,可以将两个账户的相同充值手机号、与两个账户的充值手机号总数的比值,作为充值手机号维度的单维强度;
对收货手机号维度,单维强度可以根据两个账户相同收货手机号的数量确定;例如,可以分别计算两个账户相同收货手机号的数量、占每个账户收货手机号总数量的比例,并将其中较小的一个比例作为收货手机号维度的单维强度;
对登录设备维度,单维强度可以根据两个账户在预定时间段内使用相同设备的次数确定;例如,假设以MAC(Media Access Control,媒体接入控制)地址来代表登录设备,可以以预定时间段内两个账户采用某个相同MAC地址登录的次数中较小的一个来作为该MAC地址的单维强度;如果两个账户登录时采用的MAC地址超过1个,则以这些MAC地址的单维强度中最大的一个来作为登录设备维度的单维强度;除MAC地址外,还可以采用Cookie、IMEI(International Mobile Equipment Identity,国际移动设备身份码)、IMSI(International Mobile Subscriber Identification Number,国际移动用户识别码)等来代表登录设备;此外,还可以将MAC地址、Cookie、IMEI、IMSI分别作为一个信息维度;
对通讯录好友维度,单维强度可以根据两个账户的相同通讯录好友的数量、和每个账户的通讯录好友总数量确定;例如,可以将两个账户相同的通讯录好友数量、与两个账户各自的通讯录好友数量总数中较小的一个的比值,作为通讯录好友维度的单维强度;
对共同转账维度,单维强度可以根据两个账户在预定时间段内的相互转账次数确定;例如,可以将预定时间段内由账户A转账给账户B的总次数、与由账户B转账给账户A的总次数中较大的一个,作为共同转账维度的单维强度;
对登录密码维度,单维强度可以根据两个账户的登录密码是否相同来确定;例如,如果两个账户加密后的登录密码相同,则将登录密码维度的单维强度置为一个值(如1);如果不同,则置为另一个值(如0)。
当一个到多个信息维度用来作为基准维度时,可以采用各个基准维度的单维强度来作为构成第一关联条件的基础;当一个到多个信息维度用来作为扩展维度时,可以采用各个扩展维度的单维强度来作为构成第二关联条件的基础。例如,假设基准维度包括身份证、认证手机号、绑定银行卡和申贷银行卡、并且具有相同维度信息时单维强度为1、具有不同维度信息时单维强度为0,则第一关联条件可以是:所有基准维度的单维强度的总和不小于2,即两个账户的身份证号码、认证手机号、绑定银行卡和申贷银行卡中至少有两个相同。再如,可以将充值手机号、收货手机号、登录设备、通讯录好友、共同转账和登录密码中的一项到多项,用来作为扩展维度。
采用第一关联条件来衡量账户集合中的所有两两账户,可以发现满足第一关联条件的所有第一关联关系,将具有第一关联关系的账户组合为一个到多个第一团伙,每个第一团伙中的任意一个成员(即属于第一团伙的账户)都与至少一个该第一团伙中的其他成员具有第一关联关系。发现第一关联条件、组合生成第一团伙的具体方式可以参照现有技术实现,不再赘述。
步骤130,根据第一团伙中具有第一关联关系的成员的扩展信息,确定第二关联条件。
在生成第一团伙后,采用第一团伙成员的扩展信息,来发现第一关联关系在扩展信息上所体现出的共同特点,将这些共同特点来作为第二关联条件,用来发现符合第一团伙运营模式的账户间的第二关联关系,以便发现目标团伙中不满足第一关联条件的成员间的其他关联。
可以综合考虑应用场景的业务特点、对团伙识别的精准度要求、所采用的扩展维度等因素来选择用于确定第二关联条件的具体方式,本说明书的实施例不做限定。例如,假设扩展维度包括绑定银行卡、申贷银行卡、充值手机号、收货手机号和登录密码,每个扩展维度的单维强度为具有相同维度信息时单维强度为1、具有不同维度信息时单维强度为0,则可以统计第一团伙中每个第一关联关系在所有扩展维度上的单维强度之和,将单维强度和的80%位线(即有80%或以上的第一关联关系的单维强度和超过该80%位线)作为单维强度和的阈值,并且以所有扩展维度的单维强度和不低于该阈值作为第二关联关系。
在一种实现方式中,设扩展信息包括Q个扩展维度,可以采用如下步骤来确定第二关联条件:
首先,以I(I为1到Q的自然数)个扩展维度的组合为一个关系度量,将令某个关系度量的准确率不低于预定准确率阈值的I个扩展维度条件作为该关系度量的判断条件;关系度量的准确率由第一团伙中属于该关系度量的I个扩展维度的信息均满足各自扩展维度条件的第一关联关系的数目、与第一团伙中第一关联关系的总数目的比值确定;
然后,基于若干个关系度量的判断条件,生成第二关联条件。
上述实现方式中,对Q个扩展维度,采用I个扩展维度的组合来衡量账户间相关程度,I可以是从1到Q的任意一个数值,每种I个扩展维度的组合称为一个关系度量。这样,假设Q为10,当I取值为1时,可以从10个扩展维度本身来衡量账户间的相关程度,每个扩展维度即为一个关系度量;当I取值为2时,10个扩展维度将组成45个关系度量,来从45个不同的角度衡量账户间的相关程度。当I取值分别为3和4时,将分别有120个和210个关系度量。关系度量的数目越多,计算越复杂,而依据关系度量确定的第二关联条件往往能达到更高的准确度。
在依据关系度量生成的第二关联条件前,要先发现适合于当前场景的针对索采用的关系度量的判断条件。本说明书的实施例中,用第一团伙中的第一关联关系在某个关系度量上的表现,来决定是否采用该关系度量来生成第二关联条件,以及决定在采用该关系度量时的判断条件。
由于每个关系度量由I个扩展维度组成,其关系度量条件也由属于该关系度量的I个扩展维度各自的扩展维度条件组成。设某个关系度量包括A1、A2、直到AI个扩展维度,对应的扩展维度条件为C1、C2、直到CI,当某个第一关联关系的两个账户在A1扩展维度的扩展信息满足C1、在A2扩展维度的扩展信息满足C2、并且直到在AI扩展维度的扩展信息满足CI时,则该第一关联关系满足该关系度量条件。对某个关系度量,第一团伙的所有关联关系中满足该关系度量条件的第一关联关系、在第一团伙的所有第一关联关系中所占的比例,即是该关系度量的准确率。
这样,对某个关系度量,一个关系度量条件(即一组属于该关系度量的I个扩展维度的I个扩展维度条件),对应于一个该关系度量的准确率。本说明书的实施例中,可以设置一个预定准确率阈值,将能够某个关系度量的准确率使达到该预定准确率阈值的I个扩展维度条件,作为在确定第二关联条件时,该关系度量的判断条件。
需要说明的是,可能有的关系度量在所有的扩展维度条件下,其准确率都达不到预定准确率阈值,这样的关系度量不具有判断条件,将不会用来生成第二关联条件。
可以采用以扩展维度的单维强度表达的单维维度条件,来作为扩展维度条件,扩展维度的单维强度根据两个账户在该扩展维度上的扩展信息确定。
以下举例说明一种确定关系度量的判断条件的方式,本领域技术人员可以采用其他方式达到同样的目的,不做限定。例如,对由2(I=2)个扩展维度A1和A2组成的关系度量,设A1的单维强度取值范围为0或者1,A2的单维强度取值范围为[0,1],则可以分别以A1=0并且A2∈[0,0.5)、A1=1并且A2∈(0,0.5]、A1=1并且A2∈[0.5,1]、A1=1并且A2∈[0.5,1]作为四种关系度量条件,来对应的关系度量准确率。如果有至少一种准确率超过预定准确率阈值的关系度量条件,则以其中的一种关系度量条件作为该关系度量的判断条件;如果没有一种关系度量条件的准确率超过预定准确率阈值,则该关系度量不具有判断条件。
在具有判断条件的一个到多个关系度量中,可以根据实际应用场景的具体情形,选择其中的部分关系度量判断条件来生成第二关联条件,也可以采用所有的关系度量判断条件来生成第二关联条件。在生成第二关联条件时,所采用的两个或两个以上的关系度量判断条件可以以任意的逻辑运算方式进行组合;例如既可以是必须同时满足关系度量判断条件,也可以是任意满足其中之一即可。本说明书的实施例对上述均不作限定。
步骤140,在扩展信息满足第二关联条件的两个账户之间建立第二关联关系,基于第一关联条件和第二关联条件,确定目标团伙。
在确定第二关联条件后,如果账户集合中两个账户的扩展信息满足第二关联条件,则在这两个账户间建立第二关联关系。遍历账户集合中的所有两两账户,建立所有的第二关联关系。建立账户集合中所有第二关联关系的具体方式可参照现有技术实现,不再赘述。
然后,按照账户集合中所有的第一关联关系和第二关联关系,生成目标团伙。可以将所有具有第一关联关系或第二关联关系的两两账户组合为目标团伙,也可以对第一关联关系和/或第二关联关系设置一定的条件,将满足条件的两两账户组合生成目标团伙,不做限定。
在一种实现方式中,可以采用以下步骤来生成目标团伙:
首先,根据第一关联条件和第二关联条件生成并集团伙,并集团伙的每个成员与至少一个其他成员之间具有合并关联关系,合并关联关系包括第一关联关系和第二关联关系中的至少一种;
其次,计算并集团伙中每个合并关联关系的关系总强度;某个合并关联关系的关系总强度由具有该合并关联关系的两个账户的基准信息和扩展信息确定;
最后,删除并集团伙中关系总强度低于预定总强度阈值的合并关联关系,得到目标团伙。
上述实现方式中,并集团伙中的任意一个成员,与至少一个其他成员之间具有合并关联关系。合并关联关系可能是第一关联关系,可能是第二关联关系,也可能是第一关联关系和第二关联关系。
在不同的应用场景中,可以采用不同的方式按照两个账户的账户信息来得出这两个账户间的关系强度,本说明书的实施例不做限定。例如,在每个信息维度都具有单维强度的应用场景中,可以将一个合并关联关系在所有信息维度上的单维强度的和值、或加权和值,来作为该合并关联关系的关系总强度。
在一个例子中,设基准信息包括P个基准维度的信息,扩展信息包括Q个扩展维度的信息,第二关联条件包括一个到多个关系度量的判断条件,每个关系度量包括I个扩展维度,关系度量的判断条件包括属于该关系度量的每个扩展维度的扩展维度条件,则某个合并关联关系的关系总强度可以由第一关联强度和第二关联强度确定。其中,第一关联强度根据具有该合并关联关系的两个账户在一个到P个基准维度的信息确定,第二关联强度根据若干个关系度量的准确率确定;某个关系度量的准确率由第一团伙中属于该关系度量的I个扩展维度的信息均满足各自的扩展维度条件的第一关联关系的数目、与第一团伙中第一关联关系的总数目的比值确定。
这个例子中,可以采用部分或全部的基准维度来确定第一关联强度。类似的,用来确定第二关联强度的可以是I个扩展维度构成的所有关系度量,也可以是所有关系度量中的一部分。另外,可以将这些关系度量的准确率的和值、或者加权和值、或者其他的计算结果来作为第二关联强度。本说明书的实施例做上述三个方面均不作限定。
上述实现方式的一个例子中,可以利用预定总强度阈值来对目标团伙的成员数量进行控制。具体而言,设置若干个不同的预定总强度阈值,在计算出并集团伙中每个合并关联关系的关系总强度后,逐次由高到低采用一个预定总强度阈值作为当前总强度阈值,删除并集团伙中关系总强度低于当前总强度阈值的成员之间的合并关联关系,得到目标团伙;如果目标团伙的成员数量高于成员数量阈值,则将当年总强度阈值设为下一个更低的预定总强度阈值来生成目标团伙,直到得出的目标团伙的成员数量不高于成员数量阈值。
在一些应用场景中,可以采用图论技术来进行团伙的构建和修改。例如,在生成并集团伙时,可以将账户集合中所有与至少一个其他账户具有合并关联关系的账户作为节点,将两个账户间的合并关联关系作为连接两个节点的边,生成并集团伙的极大连通子图;在计算出极大连通子图中每个边的关系总强度后,将关系总强度低于预定总强度阈值的合并关联关系对应的边在极大连通子图中进行腐蚀,将腐蚀后的连通子图对应的团伙作为目标团伙。
可见,本说明书的实施例中,采用账户的基准信息建立账户间的第一关联关系并按照第一关联关系生成第一团伙,根据第一团伙中有第一关联关系的成员的扩展信息确定用来建立第二关联关系的第二关联条件,基于满足第二关联关系和第一关联关系生成目标团伙,通过采用扩展信息建立的第二关联关系减少了对目标团伙成员的遗漏,而且由于根据第一团伙的扩展信息确定的第二关联条件反映了目标团伙的运作特征,提高了对目标团伙成员识别的准确性。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书的一个应用示例中,用户在某个金融信贷业务系统注册时,要提供身份证、认证手机号、绑定银行卡和申贷银行卡来作为注册信息;在某个账户使用该信贷业务系统的过程中,系统会收集该账户的以下行为信息:登录设备、通讯录好友、共同转账和登录密码。
由于注册信息在识别团伙时具有较高的置信度,本应用示例中将注册信息作为基准信息,包括4个基准维度;将系统收集的行为信息作为扩展信息,包括4个扩展维度。
对4个基准维度和登录密码扩展维度,当两个账户的某个信息维度上的信息相同时,该信息维度的单维强度为1;否则为0。
对登录设备扩展维度,以预定时间段内两个账户采用某个相同MAC地址登录的次数中较小的一个来作为该MAC地址的单维强度;如果两个账户登录时采用的MAC地址超过1个,则以这些MAC地址的单维强度中最大的一个来作为登录设备维度的单维强度。
对通讯录好友扩展维度,将两个账户相同的通讯录好友数量、与两个账户各自的通讯录好友数量总数中较小的一个的比值,作为通讯录好友维度的单维强度。
对共同转账扩展维度,将预定时间段内由账户A转账给账户B的总次数、与由账户B转账给账户A的总次数中较大的一个,作为共同转账维度的单维强度。
以在该金融信贷业务系统注册的所有账户为账户集合,可以采用图2所示的流程来进行目标团伙的识别:
步骤210,采集所有账户在每个基准维度和每个扩展维度的信息。
步骤220,计算账户集合中各个两两账户在基准维度上的单维强度,如果存在单维强度不为0的基准维度(即4个基准维度中至少有一个维度的信息相同),则在这两个账户间建立第一关联关系。
步骤230,以第一关联关系为边,以具有第一关联关系的两个账户为节点,构建账户集合的连通子图,得到第一团伙。
步骤240,本应用示例中采用1个扩展维度作为一个关系度量。设预定准确率阈值为0.9,计算第一团伙每条边在4个扩展维度的单维强度;对每个扩展维度,查找是否存在这样的扩展维度阈值,单维强度不小于该扩展维度阈值的边的数量、与第一团伙中边的总数量的比值不小于0.9。假设查找到登录设备维度和通讯录好友维度各自存在这样的扩展维度阈值,则以登录设备的单维强度不小于登录设备维度阈值、并且通讯录好友的单维强度也不小于通讯录好友维度阈值,来作为第二关联条件。
另外,将第一团伙的边中登录设备维度的单维强度不小于登录设备维度阈值的边的数量、与第一团伙中边的总数量的比值作为登录设备维度的准确率;将第一团伙的边中通讯录好友维度的单维强度不小于通讯录好友维度阈值的边的数量、与第一团伙中边的总数量的比值作为通讯录好友维度的准确率。
步骤250,计算账户集合中各个两两账户在登录设备维度和通讯录好友维度的单维强度,如果某两个账户的这两个单维强度满足第二关联条件,则在这两个账户间建立第二关联关系。
步骤260,以第一关联关系或者第二关联关系为边,以具有第一关联关系或第二关联关系的两个账户为节点,构建账户集合的最大连通子图,得到并集团伙。
步骤270,计算并集团伙中每条边的关系总强度。某条边的关系总强度为两部分之和,其中,第一部分为该边的两个账户在4个基准维度上具有相同维度信息的维度的个数;如果这两个账户具有第二关联关系,则第二部分为通讯录好友维度的准确率与登录设备维度的准确率的和值,否则第二部分为0。
步骤280,将关系总强度低于预定总强度阈值的并集团伙的边,从极大连通子图中腐蚀掉,所得的连通子图对应的团伙,即为目标团伙。
在一个例子中,极大连通子图如图3所示,在进行边腐蚀后,得到的连通子图如图4所示,即得到5个目标团伙。
与上述流程实现对应,本说明书的实施例还提供了一种识别目标团伙的装置。该装置均可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为逻辑意义上的装置,是通过所在设备的CPU(Central Process Unit,中央处理器)将对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,除了图5所示的CPU、内存以及存储器之外,识别目标团伙的装置所在的设备通常还包括用于进行无线信号收发的芯片等其他硬件,和/或用于实现网络通信功能的板卡等其他硬件。
图6所示为本说明书实施例提供的一种识别目标团伙的装置,包括账户信息获取单元、第一团伙生成单元、第二关联条件单元和目标团伙生成单元,其中:账户信息获取单元用于获取账户集合中各个账户的基准信息和扩展信息;第一团伙生成单元用于在基准信息满足第一关联条件的两个账户间建立第一关联关系,根据第一关联关系生成第一团伙;所述第一团伙中每个成员与至少一个其他成员具有第一关联关系;第二关联条件单元用于根据第一团伙中具有第一关联关系的成员的扩展信息,确定第二关联条件;目标团伙生成单元用于在扩展信息满足第二关联条件的两个账户之间建立第二关联关系,基于第一关联关系和第二关联关系,确定目标团伙。
一种是实现方式中,所述扩展信息包括Q个扩展维度的信息,Q为自然数;所述第二关联条件单元具体用于:以I个扩展维度的组合为一个关系度量,将令某个关系度量的准确率不低于预定准确率阈值的I个扩展维度条件作为所述关系度量的判断条件;所述关系度量的准确率由第一团伙中属于所述关系度量的I个扩展维度的信息均满足各自扩展维度条件的第一关联关系的数目、与第一团伙中第一关联关系的总数目的比值确定;I为1到Q的自然数;基于若干个关系度量的判断条件,生成第二关联条件。
上述是实现方式中,所述扩展维度条件包括:扩展维度的单维强度满足单维强度条件;所述扩展维度的单维强度用来衡量两个账户在所述扩展维度上的相关程度。
可选的,所述扩展维度包括以下各项中的一项到多项:充值手机号、收货手机号、登录设备、通讯录好友、共同转账和登录密码。
可选的,所述扩展维度的单维强度根据以下各项中的一项到多项确定:所述充值手机号的单维强度根据两个账户相同充值手机号的数量确定;所述收货手机号的单维强度根据两个账户相同收货手机号的数量确定;所述登录设备的单维强度根据两个账户在预定时间段内使用相同设备的次数确定;所述通讯录好友的单维强度根据两个账户的相同通讯录好友的数量、和每个账户的通讯录好友总数量确定;所述共同转账的单维强度根据两个账户在预定时间段内的相互转账次数确定;所述登录密码的单维强度根据两个账户的登录密码是否相同来确定。
一个例子中,所述目标团伙生成单元包括并集团伙生成子单元、关系总强度计算子单元和关联关系删除子单元,其中:并集团伙生成子单元用于根据第一关联关系和第二关联关系生成并集团伙,并集团伙的每个成员与至少一个其他成员之间具有合并关联关系,所述合并关联关系包括第一关联关系和第二关联关系中的至少一种;关系总强度计算子单元用于计算并集团伙中每个合并关联关系的关系总强度;所述关系总强度由具有所述合并关联关系的两个账户的基准信息和扩展信息确定;关联关系删除子单元用于删除并集团伙中关系总强度低于预定总强度阈值的合并关联关系,得到目标团伙。
上述例子中,所述基准信息包括P个基准维度的信息,所述扩展信息包括Q个扩展维度的信息,P、Q为自然数;所述第二关联条件包括一个到多个关系度量的判断条件,每个关系度量包括I个扩展维度,关系度量的判断条件包括属于所述关系度量的每个扩展维度的扩展维度条件;所述合并关联关系的关系总强度由第一关联强度和第二关联强度确定,第一关联强度根据具有所述合并关联关系的两个账户在一个到P个基准维度的信息确定,第二关联强度根据若干个关系度量的准确率确定;所述关系度量的准确率由第一团伙中属于所述关系度量的I个扩展维度的信息均满足各自的扩展维度条件的第一关联关系的数目、与第一团伙中第一关联关系的总数目的比值确定。
可选的,所述基准维度包括以下各项中的一项到多项:身份证、认证手机号、绑定银行卡和申贷银行卡。
上述例子中,所述关联关系删除子单元具体用于:在若干个不同的预定总强度阈值中,逐次由高到低采用一个预定总强度阈值作为当前总强度阈值,分别删除并集团伙中关系总强度低于当前总强度阈值的成员之间的合并关联关系,直到得出的目标团伙的成员数量不高于成员数量阈值。
上述例子中,所述并集团伙生成子单元具体用于:将账户集合中所有与至少一个其他账户具有合并关联关系的账户作为节点,将两个账户间的合并关联关系作为连接两个节点的边,生成并集团伙的极大连通子图;所述关联关系删除子单元具体用于:将关系总强度低于预定总强度阈值的合并关联关系对应的边在极大连通子图中进行腐蚀,将腐蚀后的连通子图对应的团伙作为目标团伙。
本说明书的实施例提供了一种计算机设备,该计算机设备包括存储器和处理器。其中,存储器上存储有能够由处理器运行的计算机程序;处理器在运行存储的计算机程序时,执行本说明书实施例中识别目标团伙的方法的各个步骤。对识别目标团伙的方法的各个步骤的详细描述请参见之前的内容,不再重复。
本说明书的实施例提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,这些计算机程序在被处理器运行时,执行本说明书实施例中识别目标团伙的方法的各个步骤。对识别目标团伙的方法的各个步骤的详细描述请参见之前的内容,不再重复。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书的实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书的实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。