一种账户识别方法及装置
技术领域
本申请涉及计算机网络技术领域,尤其涉及一种账户识别方法及装置。
背景技术
目前,互联网模式的业务服务越来越多,同一个用户在业务服务网站通常可以注册一个或多个账户。网站服务器在为用户执行业务处理时,通常是以用户注册的账户作为目标对象的。
由于同一个用户在业务服务网站可以注册多个账户,而网站服务器无法识别这多个账户是属于同一用户还是属于不同用户,只会分别针对每个账户执行业务处理。在很多情况下,通常只需针对该用户的一个账户执行业务处理,比如,在向用户推送某项业务时,针对一个用户,只希望执行一次这种业务处理,而若用户使用了多个账户进行注册,服务器又无法识别出这多个账户实际属于同一用户,只能为该用户的每个账户都执行业务处理。
综上,现有技术中尚无法识别同一用户的多个账户。
发明内容
本申请实施例提供一种账户识别方法及装置,用以解决现有技术无法识别同一用户的多个账户的问题。
本申请实施例提供一种账户识别方法,包括:
网站服务器从待识别账户的账户信息中,提取每个账户关联的特征参数的取值;
所述网站服务器基于每个账户关联的特征参数的取值,生成至少一个关系对,并确定每个关系对在每种特征参数下的共有属性值;其中,每个关系对包含两个账户,这两个账户关联至少一种相同的特征参数,且在关联的该种特征参数下,这两个账户至少具有一个相同的特征参数值;
针对生成的至少一个关系对中的任一关系对,所述网站服务器基于确定的该关系对在各种特征参数下的共有属性值,判断所述任一关系对是否为同用户关系对,该同用户关系对中的两个账户属于同一用户;
所述网站服务器基于确定的各个同用户关系对,生成各个用户的关系集合,用于识别同一用户的账户;其中,每个用户的关系集合中包含多个账户,每个账户与所属关系集合中的至少一个其它账户组成同用户关系对。
可选地,任一关系对在每种特征参数下的共有属性值包括:该任一关系对在该种特征参数下的特征参数值对证明该关系对为同用户关系对的价值;和/或,
该任一关系对在该种特征参数下具有的相同特征参数值的个数或该个数所属的离散化层级。
可选地,针对生成的至少一个关系对中的任一关系对,所述网站服务器基于确定的该关系对在各种特征参数下的共有属性值,判断所述任一关系对是否为同用户关系对,包括:
针对生成的至少一个关系对中的任一关系对,所述网站服务器基于确定的该关系对在各种特征参数下的共有属性值,以及每个共有属性值出现在已知属于相同用户的不同账户之间的概率和出现在已知属于不同用户的账户之间的概率,确定同一用户的不同账户之间具有所述各种特征参数下的共有属性值的第一概率,以及不同用户的账户之间具有所述各种特征参数下的共有属性值的第二概率;
所述网站服务器根据确定的所述第一概率和第二概率,判断所述任一关系对是否为同用户关系对。
可选地,所述网站服务器基于确定的该关系对在各种特征参数下的共有属性值,以及每个共有属性值出现在已知属于相同用户的不同账户之间的概率和出现在已知属于不同用户的账户之间的概率,确定所述第一概率和第二概率,包括:
将所述各种特征参数下的共有属性值中,各个共有属性值分别出现在已知属于相同用户的不同账户之间的概率的乘积确定为所述第一概率;并
将所述各种特征参数下的共有属性值中,各个共有属性值分别出现在已知属于不同用户的账户之间的概率的乘积确定为所述第二概率。
可选地,所述网站服务器根据确定的所述第一概率和第二概率,判断所述任一关系对是否为同用户关系对,包括:
根据确定的所述第一概率和第二概率,确定所述任一关系对为同用户关系对的概率;
若确定的所述任一关系对为同用户关系对的概率大于设定阈值,则确定所述任一关系对为同用户关系对,否则确定所述任一关系对为非同用户关系对。
可选地,所述网站服务器根据确定的所述第一概率和第二概率,确定所述任一关系对为同用户关系对的概率,包括:
确定所述第一概率和第二概率的和值;
将所述第一概率与所述和值的比值确定为所述任一关系对为同用户关系对的概率。
可选地,所述网站服务器基于确定的各个同用户关系对,生成各个用户的关系集合,包括:
从所述各个同用户关系对中,提取一个未加入任一用户的关系集合的同用户关系对,将提取的该同用户关系对加入该同用户关系对所属用户的关系集合;
判断在该同用户关系对所属用户的关系集合之外,是否存在与该关系集合中的任一账户组成同用户关系对的其它账户,若存在,则将存在的账户加入该关系集合;重复执行该步骤,直到确定在该关系集合之外不存在与该关系集合中的任一账户组成同用户关系对的其它账户,则返回从所述多个同用户关系对中,提取一个未加入任一用户的关系集合的同用户关系对的步骤。
可选地,所述网站服务器基于确定的各个同用户关系对,生成各个用户的关系集合,包括:
针对所述各个同用户关系对中的每个账户,将该账户的标识号和与该账户组成同用户关系对的其它账户的标识号进行比较,若其它账户的标识号大于该账户的标识号,则将该账户的标识号更新为该其它账户的标识号;重复执行该步骤,直到确定每个账户的标识号和与该账户组成同用户关系对的其它账户的标识号相同,则将标识号相同的账户归为该标识号对应的账户所属用户的关系集合;或者,
针对所述各个同用户关系对中的每个账户,将该账户的标识号和与该账户组成同用户关系对的其它账户的标识号进行比较,若其它账户的标识号小于该账户的标识号,则将该账户的标识号更新为该其它账户的标识号;重复执行该步骤,直到确定每个账户的标识号和与该账户组成同用户关系对的其它账户的标识号相同,则将标识号相同的账户归为该标识号对应的账户所属用户的关系集合。
可选地,所述网站服务器生成各个用户的关系集合之后,还包括:
所述网站服务器确定每个关系集合中的核心账户,针对该核心账户,执行业务处理;其中,所述核心账户为与所属关系集合中的账户组成同用户关系对的数目最多的账户。
可选地,所述特征参数包括以下参数中的一种或多种:
手机号码、身份证号码、邮箱、移动设备国际身份码IMEI、计算机媒体访问控制MAC地址、缴费户号、姓名、银行卡号。
本申请实施例提供一种账户识别装置,包括:
提取模块,用于从待识别账户的账户信息中,提取每个账户关联的特征参数的取值;
第一生成模块,用于基于每个账户关联的特征参数的取值,生成至少一个关系对,并确定每个关系对在每种特征参数下的共有属性值;其中,每个关系对包含两个账户,这两个账户关联至少一种相同的特征参数,且在关联的该种特征参数下,这两个账户至少具有一个相同的特征参数值;
判断模块,用于针对所述第一生成模块生成的至少一个关系对中的任一关系对,基于确定的该关系对在各种特征参数下的共有属性值,判断所述任一关系对是否为同用户关系对,该同用户关系对中的两个账户属于同一用户;
第二生成模块,用于基于确定的各个同用户关系对,生成各个用户的关系集合,用于识别同一用户的账户;其中,每个用户的关系集合中包含多个账户,每个账户与所属关系集合中的至少一个其它账户组成同用户关系对。
采用本申请实施例,网站服务器可以基于关联有相同特征参数值的关系对之间的共有属性值,识别出属于同一用户的多个账户,从而可以有选择性地针对该用户的账户执行业务处理,比如可以选择只针对该用户的一个账户执行某项业务处理,减少业务处理重复性,提高业务处理效率。
附图说明
图1为本申请实施例一提供的账户识别方法流程图;
图2为不同账户关联的特征参数示意图;
图3为本申请实施例二提供的账户识别方法流程图;
图4为本申请实施例三提供的账户识别方法流程图;
图5为用户的关系集合示意图;
图6为各个账户的标识号更新示意图;
图7为本申请实施例四提供的账户识别装置结构示意图。
具体实施方式
本申请实施例中,网站服务器从待识别账户的账户信息中,提取每个账户关联的特征参数的取值;基于每个账户关联的特征参数的取值,生成关联有相同特征参数值的关系对,并确定每个关系对在预设的每种特征参数下的共有属性值;针对任一关系对,基于确定的该关系对在各种特征参数下的共有属性值,判断所述任一关系对是否属于同一用户;基于针对各个关系对的判断结果,生成各个用户的关系集合,用于识别同一用户的账户。
可见,采用本申请实施例,网站服务器可以基于关联有相同特征参数值的关系对之间的共有属性值,识别出属于同一用户的多个账户,从而可以有选择性地针对该用户的账户执行业务处理,比如可以选择只针对该用户的一个账户执行某项业务处理,减少业务处理重复性,提高业务处理效率。此外,可以将本申请实施例应用于风险识别场景中,比如在处理授信业务时,通常需要保证不能对同一用户的多个账户均授信,以防止同一用户的信用额度超出预设限额;在进行保险核赔时需要判断是否是基于同一用户的不同账户的恶意联合骗赔等。采用本申请实施例后,可以有效识别出属于同一用户的多个账户,进而作出相关风险控制处理;比如,在识别出同一用户使用多个账户发出授信请求时,可以只针对其中一个账户授予信用额度,拒绝针对其它账户的授信请求,或者,为这多个账户中的每个账户授予的信用额度的总和不超过针对同一用户的预设限额等。
下面结合说明书附图对本申请实施例作进一步详细描述。
实施例一
如图1所示,为本申请实施例一提供的账户识别方法流程图,包括以下步骤:
S101:网站服务器从待识别账户的账户信息中,提取每个账户关联的特征参数的取值。
这里,每个账户关联的特征参数是指记录的一些与该账户相关的信息,包括用户注册、认证、快捷签约、执行日常操作行为等时产生的信息,比如手机号码、身份证号码、邮箱、移动设备国际身份码(International Mobile EquipmentIdentity,IMEI)、计算机的媒体接入控制(Media Access Control,MAC)地址、缴费户号、姓名、银行卡号等等。
S102:网站服务器基于每个账户关联的特征参数的取值,生成至少一个关系对,并确定每个关系对在每种特征参数下的共有属性值;其中,每个关系对包含两个账户,这两个账户关联至少一种相同的特征参数,且在关联的该种特征参数下,这两个账户至少具有一个相同的特征参数值。
在具体实施中,任一账户可能会关联一种或多种特征参数,不同账户之间可能会关联有一种或多种相同的特征参数,且关联的相同类型的特征参数的一个或多个特征参数值可能相同(比如两个账户关联有一个或多个相同的手机号码),当两个账户关联相同的特征参数值时,这两个账户有可能属于同一用户,本申请实施例将这样疑似属于同一用户的两个账户归为一个关系对。如图2所示,账户A关联有手机号码和身份证号码这两种特征参数,账户B关联有手机号码、身份证号码、邮箱、IMEI和MAC地址这五种特征参数,账户C关联有MAC地址和银行卡号这两种特征参数,账户D关联有缴费户号和银行卡号这两种特征参数,账户E关联有IMEI、MAC地址、缴费户号和姓名这四种特征参数,账户F关联有姓名这种特征参数。这里,由于A、B两个账户关联有相同的身份证号码和一个相同的手机号码,将这两个账户归为一个关系对;B和C关联有相同的MAC地址,将这两个账户归为一个关系对;B和E这两个账户关联有相同的IMEI和MAC地址,将这两个账户归为一个关系对;C和D关联有相同的银行卡号,将这两个账户归为一个关系对;C和E关联有相同的MAC地址,将这两个账户归为一个关系对;D和E关联有相同的缴费户号,将这两个账户归为一个关系对;E和F关联有相同的姓名,将这两个账户归为一个关系对。
在具体实施中,在生成至少一个关系对后,确定每个关系对的两个账户在预设的每种特征参数下的共有属性值,这里的共有属性值用于表征两个账户之间的共性;
具体地,任一关系对在每种特征参数下的共有属性值包括:第一种共有属性值,即该任一关系对在该种特征参数下的特征参数值对证明该关系对为同用户关系对的价值;和/或,第二种共有属性值,即该任一关系对在该种特征参数下具有的相同特征参数值的个数或该个数所属的离散化层级。
这里,上述第一种共有属性值用于说明两个账户所具有的相同特征参数值对证明该关系对属于同一用户的价值,具体地,可以首先界定该特征参数值在每个账户的使用场景下的价值(value);比如,该特征参数值为手机号码,如果该手机号码为账户A的绑定手机号(比如认证的手机号码),则说明该手机号码在账户A的使用场景中的价值较高,比如将该价值量化为4;假设该手机号码在账户B的使用场景下仅是用户日常操作中偶尔使用的手机号码,则说明该手机号码在该账户B的使用场景中的价值较低,比如将该价值量化为1,则当账户A和账户B组合为一个关系对后,该手机号码在该关系对中的价值可以取值为4和1中的最低值,即取值为1;该手机号码有可能还存在于其它账户的其它使用场景中,比如,对于用户日常操作中经常使用的手机号码,可以将该手机号码的价值量化为3等。
上述第二种共有属性值为一个关系对在相同特征参数下所具有的相同特征参数值的个数,或该个数所属的离散化层级。比如,若账户A和账户B具有2个相同的手机号码,则上述第二种共有属性值为2;在具体实施中,为了简化计算过程及易于提炼出规律性,可以将上述相同特征参数值的个数进行离散化分级,比如将相同手机号码的个数离散化为高、中、低三个层级,其中高层级对应手机号码的个数为大于或等于3个,中层级对应手机号码的个数为1个或2个,低层级对应手机号码的个数为0个,表示一个关系对的两个账户之间没有关联相同的手机号码。
在具体实施中,为了提高计算效率,可以采用基于批量同步并行(BulkSynchronous Parallell,BSP)的迭代计算框架来生成关系对及确定每个关系对的共有属性值。以手机号码为例,手机号码在账户A中的价值量化为4,在账户B中的价值量化为2,在账户C中的价值量化为1;预先设置能够实现信息收发的各个虚拟单元,包含账户节点和手机号节点;迭代开始时,账户节点向关联的手机号码对应的手机号节点发送自身账户的标识(Identity,ID)和手机号码在自身使用场景中的价值,该手机号节点接收到账户节点A、B和C分别发送的价值4、2和1,生成关系对A-B,其Value=2;关系对B-C,其Value=1;关系对A-C,其Value=1;针对其它特征参数,采用类似方式。合并各个特征参数节点得到的关系对及其共有属性值,得到每个关系对在每种特征参数下的各个共有属性值。
这里需要说明的是,若关系对中的两个账户在预设的特征参数下不具有相同的特征参数值或者两个账户中的至少一个不具有该预设的特征参数,则这两个账户在该预设的特征参数下的共有属性值为0。
S103:针对生成的至少一个关系对中的任一关系对,所述网站服务器基于确定的该关系对在各种特征参数下的共有属性值,判断所述任一关系对是否为同用户关系对,该同用户关系对中的两个账户属于同一用户。
具体地,针对生成的至少一个关系对中的任一关系对,所述网站服务器基于确定的该关系对在各种特征参数下的共有属性值,以及每个共有属性值出现在已知属于相同用户的不同账户之间的概率和出现在已知属于不同用户的账户之间的概率,确定同一用户的不同账户之间具有所述各种特征参数下的共有属性值的第一概率,以及不同用户的账户之间具有所述各种特征参数下的共有属性值的第二概率;根据确定的所述第一概率和第二概率,判断所述任一关系对是否为同用户关系对。
在具体实施中,可以预先采集多个用户的账户信息,其中包括同一用户的多个账户的账户信息(简称为同人样本)以及不同用户的账户的账户信息(简称为非同人样本),以将手机号的个数对应的高、中、低三个离散化层级作为共有属性值X1为例,在所有同人样本中,X1的取值为高、中、低的记录数分别为100、200、10,在所有非同人样本中,X1的取值为高、中、低的记录数分别为10、100、200,则该共有属性值X1出现在已知属于相同用户的不同账户之间的概率为100/(100+200+10)=0.32,该共有属性值X1出现在已知属于不同用户的账户之间的概率为10/(10+100+200)=0.032。
在具体实施中,网站服务器基于确定的该关系对在各种特征参数下的共有属性值,以及每个共有属性值出现在已知属于相同用户的不同账户之间的概率和出现在已知属于不同用户的账户之间的概率,确定所述第一概率和第二概率,包括:
将所述各种特征参数下的共有属性值中,各个共有属性值分别出现在已知属于相同用户的不同账户之间的概率的乘积确定为所述第一概率;并
将所述各种特征参数下的共有属性值中,各个共有属性值分别出现在已知属于不同用户的账户之间的概率的乘积确定为所述第二概率。
也即,可以根据公式确定所述第一概率p1;其中,C1表示相同用户,N为所述各种特征参数下的所有共有属性值的个数(参见S102的描述,若任一关系对在每种特征参数下有两种共有属性值,则预设N/2种特征参数,该任一关系对所有共有属性值的个数为N),表示共有属性值Xi出现在已知属于相同用户的不同账户之间的概率;根据公式确定所述第二概率p2;其中,C2表示不同用户,表示共有属性值Xi出现在已知属于不同用户的不同账户之间的概率。
在确定出所述第一概率和第二概率后,可以基于第一概率和第二概率判断所述任一关系对是否为同用户关系对。比如,当第一概率较大(比如为80%),第二概率较小(比如为5%)时,说明该任一关系对属于同一用户的概率较大,此时,可以将该任一关系对作为同用户关系对。本申请以下实施例二给出了判断任一关系对是否为同用户关系对的优选方式,具体可参见实施例二的描述,这里不再赘述。
S104:网站服务器基于确定的各个同用户关系对,生成各个用户的关系集合,用于识别同一用户的账户;其中,每个用户的关系集合中包含多个账户,每个账户与所属关系集合中的至少一个其它账户组成同用户关系对。
在具体实施中,将账户两两组合成关系对,并确定好各个同用户关系对后,还需要进一步确定属于同一用户的账户。基于S104确定的同用户关系对可能会存在这样的情况:账户A和账户B组成同用户关系对,账户A和账户C组成同用户关系对,但基于上述步骤没有确定出账户B和账户C组成同用户关系对,而实际上,在账户A和账户B、账户A和账户C都能组成同用户关系对的条件下,账户B和账户C实际上也应该属于同一用户。基于此,本申请实施例进一步基于确定的各个同用户关系对,生成各个用户的关系集合,在每个关系集合中,每个账户与该关系集合中的至少一个账户组成同用户关系对。具体生成关系集合的方式可参见下述实施例三的描述,这里不再赘述。
可选地,S105之后,网站服务器基于生成的每个关系集合,执行业务处理。
在具体实施中,网站服务器在将各个待识别账户划分为关系集合后,可以只针对关系集合中的部分账户(比如其中一个账户)执行业务处理;优选地,网站服务器可以确定每个关系集合中的核心账户,针对该核心账户,执行业务处理;其中,该核心账户为与所属关系集合中的账户组成同用户关系对的数目最多的账户。除此之外,基于生成的每个关系集合,可以更准确地定位该关系集合所属用户的属性特征,基于定位的用户的属性特征,能够更好、更有针对性地为用户提供业务服务。
本申请实施例中的业务处理可以是指网站服务器针对用户请求执行的任何业务处理任务,比如信息推送、视频下载、授信服务、保险核赔等等。
实施例二
本申请以下实施例二给出了判断任一关系对是否为同用户关系对的优选方式。
如图3所示,为本申请实施例二提供的账户识别方法流程图,包括以下步骤:
S301:网站服务器从待识别账户的账户信息中,提取每个账户关联的特征参数的取值。
S302:网站服务器基于每个账户关联的特征参数的取值,生成至少一个关系对,并确定每个关系对在每种特征参数下的共有属性值;其中,每个关系对包含两个账户,这两个账户关联至少一种相同的特征参数,且在关联的该种特征参数下,这两个账户至少具有一个相同的特征参数值。
S303:针对生成的至少一个关系对中的任一关系对,网站服务器基于确定的该关系对在各种特征参数下的共有属性值,以及每个共有属性值出现在已知属于相同用户的不同账户之间的概率和出现在已知属于不同用户的账户之间的概率,确定同一用户的不同账户之间具有所述各种特征参数下的共有属性值的第一概率,以及不同用户的账户之间具有所述各种特征参数下的共有属性值的第二概率。
这里,将所述各种特征参数下的共有属性值中,各个共有属性值分别出现在已知属于相同用户的不同账户之间的概率的乘积确定为所述第一概率;并将所述各种特征参数下的共有属性值中,各个共有属性值分别出现在已知属于不同用户的账户之间的概率的乘积确定为所述第二概率。
S304:网站服务器根据确定的所述第一概率和第二概率,确定所述任一关系对为同用户关系对的概率,其中同用户关系对中的两个账户属于同一用户。
具体地,根据确定的所述第一概率和第二概率,确定所述任一关系对为同用户关系对的概率,包括:
确定所述第一概率和第二概率的和值;
将所述第一概率与所述和值的比值确定为所述任一关系对为同用户关系对的概率。
下面对上述S303和S304的实施作具体描述。
首先,基于贝叶斯后验概率公式得到:
上述公式中,为具有N个共有属性值X1~XN的任一关系对为同用户关系对的概率;为具有N个共有属性值X1~XN的任一关系对为非同用户关系对的概率;P(Xi)表示共有属性值Xi出现在不同账户之间的概率;表示共有属性值Xi出现在已知属于相同用户的不同账户之间的概率;表示共有属性值Xi出现在已知属于不同用户的不同账户之间的概率;P(C1)和P(C2)分别表示账户为同一用户的概率和为不同用户的概率,本申请实施例在选择样本时,分别选择相同数量的同人样本和非同人样本,因此,P(C1)和P(C2)的值都为1/2。
由于 则
将上述(1)、(2)代入(3),即得到确定具有共有属性值X1~XN的任一关系对为同用户关系对的概率的计算公式:
上述公式中,即为所述第一概率,即为所述第二概率。
上述公式中,当特征参数为手机号码、身份证号码、邮箱、IMEI、MAC地址、缴费户号、姓名、银行卡号这8种特征参数,且在每种特征参数下,对应两种共有属性值(即上述实施例一介绍的第一种共有属性值和第二种共有属性值)时,上述N值为16。
S305:若确定的所述任一关系对为同用户关系对的概率大于设定阈值,则确定所述任一关系对为同用户关系对,否则确定所述任一关系对为非同用户关系对。
比如,当设定阈值可以设置为0.5,当时,所述任一关系对为同用户关系对,否则为非同用户关系对。
在具体实施过程中,可以通过受试者工作特征曲线(Receiver OperatingCharacteristic Curve,ROC)来选取最佳的设定阈值,在保证准确率的同时,尽量识别较多的同用户关系对。在实施中,将已确认为同用户关系对或非同用户关系对的各个共有属性值代入上式公式,判断上述公式的准确率,比如,当AUC(曲线下面积)值为0.94(AUC值越接近1,说明模拟结果越好),设定阈值为0.2时,上述公式的准确率为97%,则可以将设定阈值设置为0.2。
S306:网站服务器基于确定的各个同用户关系对,生成各个用户的关系集合,用于识别同一用户的账户;其中,每个用户的关系集合中包含多个账户,每个账户与所属关系集合中的至少一个账户组成同用户关系对。
实施例三
本申请以下实施例三给出了具体生成关系集合的方式。
如图4所示,为本申请实施例三提供的账户识别方法流程图,包括以下步骤:
S401:网站服务器从待识别账户的账户信息中,提取每个账户关联的特征参数的取值。
S402:网站服务器基于每个账户关联的特征参数的取值,生成至少一个关系对,并确定每个关系对在每种特征参数下的共有属性值;其中,每个关系对包含两个账户,这两个账户关联至少一种相同的特征参数,且在关联的该种特征参数下,这两个账户至少具有一个相同的特征参数值。
S403:针对生成的至少一个关系对中的任一关系对,网站服务器基于确定的该关系对在各种特征参数下的共有属性值,以及每个共有属性值出现在已知属于相同用户的不同账户之间的概率和出现在已知属于不同用户的账户之间的概率,确定同一用户的不同账户之间具有所述各种特征参数下的共有属性值的第一概率,以及不同用户的账户之间具有所述各种特征参数下的共有属性值的第二概率。
S404:网站服务器根据确定的所述第一概率和第二概率,判断所述任一关系对是否为同用户关系对,该同用户关系对中的两个账户属于同一用户。
S405:网站服务器基于确定的各个同用户关系对,生成各个用户的关系集合,用于识别同一用户的账户;其中,每个用户的关系集合中包含多个账户,每个账户与所属关系集合中的至少一个账户组成同用户关系对。
S406:网站服务器确定每个关系集合中的核心账户,针对该核心账户,执行业务处理;其中,所述核心账户为与所属关系集合中的账户组成同用户关系对的数目最多的账户。
在S405中,本申请实施例中给出两种具体生成各个用户的关系集合的方式;
方式一、不断扩大关系集合法;
具体地,基于确定的各个同用户关系对,生成各个用户的关系集合,包括:
从所述各个同用户关系对中,提取一个未加入任一用户的关系集合的同用户关系对,将提取的该同用户关系对加入该同用户关系对所属用户的关系集合;
判断在该同用户关系对所属用户的关系集合之外,是否存在与该关系集合中的任一账户组成同用户关系对的其它账户,若存在,则将存在的账户加入该关系集合;重复执行该步骤,直到确定在该关系集合之外不存在与该关系集合中的任一账户组成同用户关系对的其它账户,则返回从所述多个同用户关系对中,提取一个未加入任一用户的关系集合的同用户关系对的步骤。
如图5所示,首先,从各个同用户关系对中,提取一个未加入任一用户的关系集合的同用户关系对A-E加入该关系对A-E所属用户的关系集合;之后,确定在该关系集合A-E之外,还存在账户B能够与该关系集合A-E中的账户E组成同用户关系对,账户C能够与该关系集合中的账户A组成同用户关系对,将账户B和账户C也加入该关系集合;之后,在更新的关系集合A-E-B-C之外,还存在账户D与该关系集合中的账户B组成同用户关系对,存在账户F与该关系集合中的账户B组成同用户关系对,再将账户D和账户F加入该关系集合;若确定在更新的关系集合A-E-B-C-D-F之外不存在与该关系集合中的任一账户组成同用户关系对的其它账户,则确认最后更新的该关系集合A-E-B-C-D-F即为包含账户A~F的关系集合。按此方式,再依次确认其它用户的关系集合。
方式二、标识号传递法;
具体地,基于确定的各个同用户关系对,生成各个用户的关系集合,包括:
针对所述各个同用户关系对中的每个账户,将该账户的标识号和与该账户组成同用户关系对的其它账户的标识号进行比较,若其它账户的标识号大于该账户的标识号,则将该账户的标识号更新为该其它账户的标识号;重复执行该步骤,直到确定每个账户的标识号和与该账户组成同用户关系对的其它账户的标识号相同,则将标识号相同的账户归为该标识号对应的账户所属用户的关系集合;或者,
针对所述各个同用户关系对中的每个账户,将该账户的标识号和与该账户组成同用户关系对的其它账户的标识号进行比较,若其它账户的标识号小于该账户的标识号,则将该账户的标识号更新为该其它账户的标识号;重复执行该步骤,直到确定每个账户的标识号和与该账户组成同用户关系对的其它账户的标识号相同,则将标识号相同的账户归为该标识号对应的账户所属用户的关系集合。
在具体实施中,每个账户节点将自身账户的标识号发送给与自身账户组成同用户关系对的其它账户节点,并接收其它每个账户节点发送给自身账户的标识号,将自身账户的标识号与接收的其它每个账户节点的标识号进行比较,若任一其它账户的标识号大于自身账户的标识号,则将自身账户的标识号更新为该任一其它账户的标识号;不断执行发送自身账户的标识号、接收其它账户的标识号、及将自身账户的标识号更新为更大的值的过程,直到所有账户的标识号不再改变为止。如图6所示,有四个账户的标识号分别为1、2、3、4,图中,圈内为账户的初始标识号,圈上为更新后的标识号;其中,账户1与账户2为同用户关系对,账户2与账户3为同用户关系对,账户3与账户4为同用户关系对;首先,账户节点1将账户1的标识号1发送给账户节点2,并接收账户节点2发送的标识号2,则账户节点1将账户2的标识号更新为2;同理,账户节点2将账户2的标识号2发送给账户节点1和账户节点3,并接收账户节点1发送的标识号1和账户节点3发送的标识号3,则账户节点2将账户2的标识号更新为3;账户节点3将账户3的标识号发送给账户节点2和账户节点4,并接收账户节点2发送的标识号2和账户节点4发送的标识号4,则账户节点3将账户3的标识号更新为4;账户节点4将账户4的标识号发送给账户节点3,并接收账户节点3发送的标识号3,确认不更新账户4的标识号;经过这个过程,账户1~4的标识号分别更新为2、3、4、4;重复上述过程,账户1~4的标识号又分别更新为3、4、4、4;再次重复上述过程,账户1~4的标识号又分别更新为4、4、4、4;再次重复上述过程,账户1~4的标识号不再更新,则更新过程结束,至此,标识号4所对应的账户1~4组成一个关系集合。
基于同一发明构思,本申请实施例中还提供了一种与账户识别方法对应的账户识别装置,由于该装置解决问题的原理与本申请实施例账户识别方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
实施例四
如图7所示,为本申请实施例四提供的账户识别装置结构示意图,包括:
提取模块71,用于从待识别账户的账户信息中,提取每个账户关联的特征参数的取值;
第一生成模块72,用于基于每个账户关联的特征参数的取值,生成至少一个关系对,并确定每个关系对在每种特征参数下的共有属性值;其中,每个关系对包含两个账户,这两个账户关联至少一种相同的特征参数,且在关联的该种特征参数下,这两个账户至少具有一个相同的特征参数值;
判断模块73,用于针对所述第一生成模块72生成的至少一个关系对中的任一关系对,基于确定的该关系对在各种特征参数下的共有属性值,判断所述任一关系对是否为同用户关系对,该同用户关系对中的两个账户属于同一用户;
第二生成模块74,用于基于确定的各个同用户关系对,生成各个用户的关系集合,用于识别同一用户的账户;其中,每个用户的关系集合中包含多个账户,每个账户与所属关系集合中的至少一个其它账户组成同用户关系对。
可选地,任一关系对在每种特征参数下的共有属性值包括:该任一关系对在该种特征参数下的特征参数值对证明该关系对为同用户关系对的价值;和/或,
该任一关系对在该种特征参数下具有的相同特征参数值的个数或该个数所属的离散化层级。
可选地,所述判断模块73具体用于,针对所述第一生成模块72生成的至少一个关系对中的任一关系对,基于确定的该关系对在各种特征参数下的共有属性值,以及每个共有属性值出现在已知属于相同用户的不同账户之间的概率和出现在已知属于不同用户的账户之间的概率,确定同一用户的不同账户之间具有所述各种特征参数下的共有属性值的第一概率,以及不同用户的账户之间具有所述各种特征参数下的共有属性值的第二概率;根据确定的所述第一概率和第二概率,判断所述任一关系对是否为同用户关系对,该同用户关系对中的两个账户属于同一用户。
可选地,所述判断模块73具体用于:
将所述各种特征参数下的共有属性值中,各个共有属性值分别出现在已知属于相同用户的不同账户之间的概率的乘积确定为所述第一概率;并
将所述各种特征参数下的共有属性值中,各个共有属性值分别出现在已知属于不同用户的账户之间的概率的乘积确定为所述第二概率。
可选地,所述判断模块73具体用于:
根据确定的所述第一概率和第二概率,确定所述任一关系对为同用户关系对的概率;若确定的所述任一关系对为同用户关系对的概率大于设定阈值,则确定所述任一关系对为同用户关系对,否则确定所述任一关系对为非同用户关系对。
可选地,所述判断模块73具体用于根据以下步骤确定所述任一关系对为同用户关系对的概率:
确定所述第一概率和第二概率的和值;将所述第一概率与所述和值的比值确定为所述任一关系对为同用户关系对的概率。
可选地,所述第二生成模块74具体用于:
从所述各个同用户关系对中,提取一个未加入任一用户的关系集合的同用户关系对,将提取的该同用户关系对加入该同用户关系对所属用户的关系集合;
判断在该同用户关系对所属用户的关系集合之外,是否存在与该关系集合中的任一账户组成同用户关系对的其它账户,若存在,则将存在的账户加入该关系集合;重复执行该步骤,直到确定在该关系集合之外不存在与该关系集合中的任一账户组成同用户关系对的其它账户,则返回从所述多个同用户关系对中,提取一个未加入任一用户的关系集合的同用户关系对的步骤。
可选地,所述第二生成模块74具体用于:
针对所述各个同用户关系对中的每个账户,将该账户的标识号和与该账户组成同用户关系对的其它账户的标识号进行比较,若其它账户的标识号大于该账户的标识号,则将该账户的标识号更新为该其它账户的标识号;重复执行该步骤,直到确定每个账户的标识号和与该账户组成同用户关系对的其它账户的标识号相同,则将标识号相同的账户归为该标识号对应的账户所属用户的关系集合;或者,
针对所述各个同用户关系对中的每个账户,将该账户的标识号和与该账户组成同用户关系对的其它账户的标识号进行比较,若其它账户的标识号小于该账户的标识号,则将该账户的标识号更新为该其它账户的标识号;重复执行该步骤,直到确定每个账户的标识号和与该账户组成同用户关系对的其它账户的标识号相同,则将标识号相同的账户归为该标识号对应的账户所属用户的关系集合。
可选地,所述装置还包括:
业务处理模块75,用于在所述第二生成模块74生成各个用户的关系集合之后,还包括:
确定每个关系集合中的核心账户,针对该核心账户,执行业务处理;其中,所述核心账户为与所属关系集合中的账户组成同用户关系对的数目最多的账户。
可选地,所述特征参数包括以下参数中的一种或多种:
手机号码、身份证号码、邮箱、移动设备国际身份码IMEI、计算机媒体访问控制MAC地址、缴费户号、姓名、银行卡号。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。