关联账号分析方法、装置和计算机可读存储介质
技术领域
本公开涉及大数据分析技术领域,特别是一种关联账号分析方法、装置和计算机可读存储介质。
背景技术
在用户账户管理过程中,往往利用账户实名制信息、注册手机号实名制等方式进行账户识别。账户管理实名制一方面能够提高安全性,预防网络诈骗,或实现损失的迅速追回,另一方面能够在业务推广时有针对性,提高推广效率。
发明内容
发明人发现,尽管账户实名制已经推行,但仍旧存在大量的非实名制账户,或伪实名制账户。
本公开的一个目的在于提高账号管理能力,有利于网络安全管控。
根据本公开的一些实施例的一个方面,提出一种关联账号分析方法,包括:根据账号信息建立账号与号码标识间的关联关系,其中,号码标识为手机号码或身份证号码;根据登录信息建立账号与登录终端间的关联关系;根据账号与号码标识和登录终端间的关联关系建立关系图,其中,账号、号码标识、登录终端为顶点,具备关联关系的顶点之间连通;根据关系图确定账号之间的最短路径小于预定第一阈值的账号为关联账号。
在一些实施例中,关联账号分析方法还包括:根据账号数据信息确定关联关系权重,作为对应关联关系的顶点之间的路径的权重,其中,账号数据信息包括账号用户信息、订单信息、登录信息或收货信息中的一种或多种;根据关联账号的最短路径中路径的权重之和确定关联账号之间的相似度。
在一些实施例中,关联关系权重大于0,且与账号数据信息中出现的次数、或关联关系在账号数据信息中出现时归属的事件的预定重要程度中的至少一项负相关。
在一些实施例中,确定账号之间的最短路径小于预定第一阈值的账号为关联账号包括:确定与预定种子账号之间的最短路径小于预定第一阈值的账号为目标账号;目标账号为预定种子账号的关联账号。
在一些实施例中,建立关系图包括:生成账号、号码标识和登录终端的抽象顶点标识,记录抽象顶点标识与账号的对应关系;连通具备关联关系的抽象顶点标识,生成关系图;确定关联账号包括:以预定种子账号的抽象顶点标识为起点,确定关系图中与预定种子账号距离小于预定第一阈值的与账号具备对应关系的抽象顶点标识;根据抽象顶点标识与账号的对应关系,将确定的抽象顶点标识还原为账号。
在一些实施例中,关联账号分析方法还包括:按照路径的权重从小到大的顺序选择前预定第二阈值个关联账号作为账号的重点关联账号。
在一些实施例中,关系图中的边长与权重正相关;根据关系图确定账号之间的最短路径小于预定第一阈值的账号为关联账号为:按照最短路径算法确定路径长度小于预定低于距离的预定第二阈值个账号作为账号的重点关联账号。
在一些实施例中,关联账号分析方法还包括:存储各个账号的关联账号和/或重点关联账号;根据关联账号和/或重点关联账号补充账号实名制信息。
在一些实施例中,关联账号分析方法还包括:存储各个账号的关联账号和/或重点关联账号;减少向关联账号和/或重点关联账号推送信息,根据信息的推广效果调整预定第一阈值或预定第二阈值中的至少一项。
在一些实施例中,根据账号数据信息确定关联关系权重包括:根据关联关系在账号数据信息中出现的次数、或关联关系在账号数据信息中出现时归属的事件的预定重要程度中的至少一项确定关联关系权重。
在一些实施例中,根据关系图确定账号之间的最短路径小于预定第一阈值的账号为关联账号包括:根据BFS(Breadth-First Search,广度优先搜索)算法确定源顶点预定第一阈值距离之内能够访问到的所有顶点;根据迪杰斯特拉Dijkstra算法在能够访问到的所有顶点范围内计算出到达源顶点的前预定数量个顶点;确定前预定数量个顶点对应的账号为源顶点账号的关联账号。
通过这样的方法,能够基于账号信息、登录信息建立账号、号码标识、登录终端的关系图,根据账号之间的最短路径确定关联账号,从而提高了识别关联账号的能力,进而提高账号管理能力,有利于网络安全管控。
根据本公开的另一些实施例的一个方面,提出一种关联账号分析装置,包括:关联关系建立单元,被配置为根据账号信息建立账号与号码标识间的关联关系,根据登录信息建立账号与登录终端间的关联关系;其中,号码标识为手机号码或身份证号码;关系图生成单元,被配置为根据账号与号码标识和登录终端间的关联关系建立关系图,其中,账号、号码标识、登录终端为顶点,具备关联关系的顶点之间连通;关联账号确定单元,被配置为根据关系图确定账号之间的最短路径小于预定第一阈值的账号为关联账号。
根据本公开的又一些实施例的一个方面,提出一种关联账号分析装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行上文中任意一种关联账号分析方法。
这样的装置能够基于账号信息、登录信息建立账号、号码标识、登录终端的关系图,根据账号之间的最短路径确定关联账号,从而提高了识别关联账号的能力,进而提高账号管理能力,有利于网络安全管控。
根据本公开的再一些实施例的一个方面,提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上文中任意一种关联账号分析方法的步骤。
通过执行这样的计算机可读存储介质上的指令,能够基于账号信息、登录信息建立账号、号码标识、登录终端的关系图,根据账号之间的最短路径确定关联账号,从而提高了识别关联账号的能力,进而提高账号管理能力,有利于网络安全管控。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1为本公开的关联账号管理方法的一些实施例的流程图。
图2为本公开的关联账号管理方法中一些实施例的顶点关系示意图。
图3为本公开的关联账号管理方法的另一些实施例的流程图。
图4为本公开的关联账号管理方法的又一些实施例的流程图。
图5为本公开的关联账号管理方法中账号转换的一些实施例的示意图。
图6为本公开的关联账号管理装置的一些实施例的示意图。
图7为本公开的关联账号管理装置的另一些实施例的示意图。
图8为本公开的关联账号管理装置的又一些实施例的示意图。
具体实施方式
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
本公开的关联账号管理方法的一些实施例的流程图如图1所示。
在步骤101中,根据账号信息建立账号与号码标识间的关联关系。在一些实施例中,号码标识为手机号码或身份证号码。
在步骤102中,根据登录信息建立账号与登录终端间的关联关系。
在步骤103中,根据账号与号码标识和登录终端间的关联关系建立关系图,账号、号码标识、登录终端为顶点,如图2所示。在关系图中,具备关联关系的顶点之间连通,例如两账号采用同一终端登录,则这两个账号的顶点均与该登录终端对应的顶点连通。
在步骤104中,根据关系图确定账号之间的最短路径小于预定第一阈值的账号为关联账号。在一些实施例中,可以基于最短路径算法确定顶点之间的路径长度。
发明人发现,在相关技术中,如账号A和账号B在手机号上一致,那么账号B会被识别为账号A的关联账号(或马甲账号)。账号C和账号A在登录终端和手机号上都不匹配,那就会被识别成非关联账号。但是账号C和账号B若在登录终端上一致,此时账号C很有可能是账号A的马甲账号,这样的情况往往无法被识别出。另外,若想利用关系型数据库在大规模账号中识别出百万级别种子用户多度之内的关联账号非常复杂和耗时。
通过上文实施例中的方法,能够基于账号信息、登录信息建立账号、号码标识、登录终端的关系图,根据账号之间的最短路径确定关联账号,从而提高了识别关联账号的能力,进而提高账号管理能力,有利于网络安全管控。
在一些实施例中,为了降低计算量,可以根据需要选择预定种子账号,例如将需要分析关联关系的目标账号作为预定种子账号,以预定种子账号为起点确定到其他的账号顶点的最短路径长度,从而避免由于起点遍历造成过大的计算量,提高运算效率。
在一些实施例中,可以设置预定第一阈值为最短路径长度的阈值,若账号间的最短路径长度小于预定第一阈值,则两者为关联账号关系;若大于等于预定第一阈值,则排除其关联账号关系。
在一些实施例中,还可以设置源账号的关联账号上限,按照最短路径长度从小到大的顺序,确定源账号的关联账号数量不大于预设的上限,从而避免对于账号间的过度关联,降低出错的概率。
在一些实施例中,还可以根据账号数据信息确定账号与号码标识、登录终端之间的关联关系权重,在生成关系图时,将该关联关系权重作为对应关联关系的顶点之间的路径的权重,权重的大小与关联关系强度负相关,如为关联关系强度的倒数。账号数据信息可以包括账号用户信息、订单信息、登录信息或收货信息中的一种或多种。在一些实施例中,可以根据关联关系在账号数据信息中出现的次数、或关联关系在账号数据信息中出现时归属的事件的预定重要程度中的至少一项确定关联关系权重,例如,订单事件的权重为2,手机号关联的购物订单次数乘以2得到的值的倒数为因订单事件产生的手机号与账号之间边的权重;登录事件的权重为1,则用户账号在某设备上登陆次数乘以1的值的倒数为因登录事件产生的登录终端与账号之间边的权重。根据关联账号的最短路径中路径的权重之和能够确定关联账号之间的相似度,权重之和与相似度负相关,例如呈负比例相关,从而在筛选出关联账号之后,进一步确定关联账号之间的相似度,有利于进一步衡量账号之间的关联程度。
本公开的关联账号管理方法的另一些实施例的流程图如图3所示。
在步骤301中,根据账号信息建立账号与号码标识间的关联关系。
在步骤302中,根据登录信息建立账号与登录终端间的关联关系。
在步骤303中,根据账号与号码标识和登录终端间的关联关系建立关系图,进而分别执行步骤304和步骤305。
在步骤304中,根据账号数据信息确定关联关系权重,作为对应关联关系的顶点之间的路径的权重。
在步骤305中,根据关系图确定账号之间的最短路径小于预定第一阈值的账号为关联账号。
在一些实施例中,可以基于Dijkstra算法进行改进,计算从一个顶点距离K之内前N条最短路径(K、N为正整数),将源顶点称为root,那么该算法的计算流程为:
先根据BFS算法求root顶点距离K之内可访问到的所有顶点,这些顶点组成的集合记作U。
根据Dijkstra算法在U记录的顶点范围内计算出到达root顶点的前N条最短路径,因为Dijkstra算法是一个按路径长度递增的次序产生最短路径的算法,所以并不需要求出root顶点的所有最短路径,其N次产生的最短路径就是所有最短路径中前N条最短的最短路径。
在步骤306中,根据关联账号的最短路径中路径的权重之和确定关联账号之间的相似度。
在步骤307中,按照路径的权重从小到大的顺序选择重点关联账号,例如,按照最短路径的权重从小到大的顺序选择前预定第二阈值个账号作为账号的重点关联账号。
通过这样的方法,能够根据事件发生的次数、权重等确定关联关系的权重,从而在筛选过程中排除偶然事件造成的账户关联的情况,进一步保证账户间关联的可靠性。
在一些实施例中,可以在生成关系图时,将边长设置为与路径权重正相关,如边长与路径权重相等,则边长与关联关系的强度负相关,关联强度越强则边长越短。进而采用最短路径算法计算路径长度小于第一预定阈值的第二预定阈值个关联账号即为关联关系在第一预定阈值内的路径最短(相似度最高)的第二预定阈值个关联账号。
通过这样的方法,能够通过一次性的最短路径计算得到相似度最接近的预定数量个关联账号,且保证关联强度大于预定要求,提高运算效率,降低对设备的运算压力。
本公开的关联账号管理方法的又一些实施例的流程图如图4所示。
在步骤401中,建立账号与号码标识、登录终端间的关联关系。
在步骤402中,生成账号、号码标识和登录终端的抽象顶点标识,记录抽象顶点标识与账号的对应关系。
在一些实施例中,如图5所示,包括账号用户信息、订单信息、登录信息或收货信息等的原始边数据文件中,每行记录代表一条边,每条边中包含起始顶点,结束顶点和边的权重值。每个边记录分为三列,第一列为用户账号,第二列为手机号或设备号,第三列为边的权重值。其中前两列代表边的起始顶点和结束顶点,第三列为边的权重信息。种子用户数据文件存储了所有种子用户的账号,通过指定种子用户的账号能够有目标性的获得种子用户的账号的关联账号,提高针对性性和执行效率。
根据原始边数据和种子用户数据生成抽象图数据,对原始边数据,为原始边中的每个用户账号、设备号、手机号生成唯一对应的连续型数值(抽象顶点)存入抽象图抽象边数据文件中作为边数据输入,并保存用户账号和其对应抽象顶点的映射关系。对种子用户数据,依据用户账号和抽象顶点的映射关系得到每个种子用户账号的抽象顶点数据并存入抽象图顶点数据文件中作为顶点数据输入。
例如图5中,用户账号1抽象为标识0,手机号1抽象为标识1,手机号2抽象为标识2,设备号1(登录终端标识)抽象为标识3,用户账号2抽象为标识4,设备号2抽象为标识5,用户账号3抽象为标识6,手机号3抽象为标识7,设备号3抽象为标识8。种子用户账号1、3对应的顶点数据标识分别为0、6。
在步骤403中,连通具备关联关系的抽象顶点标识,生成关系图。
在步骤404中,以预定种子账号的抽象顶点标识为起点,确定关系图中与预定种子账号距离小于预定第一阈值的与账号具备对应关系的抽象顶点标识。
在一些实施例中,可以通过加载抽象图边数据和顶点数据在内存中以邻接矩阵的形式表示图,然后执行最短路径算法计算每个种子用户顶点K步之内前N条以用户账号为目的顶点的最短路径。每条最短路径的目的顶点就是种子用户的关联账号,路径上边的权重之和(路径权重)就是账号的相似程度。每个种子用户计算得到的最多N条最短路径就得到该种子用户的最多N个关联账号信息,将计算得到所有关联账号顶点和种子账号顶点信息输出到结果文件中。
在步骤405中,根据抽象顶点标识与账号的对应关系,将确定的抽象顶点标识还原为账号。
通过这样的方法,能够先将原始数据抽象化后进行图计算,降低了图计算时需要处理的数据量,提高了运算的准确度,也提高了运算效率。
在一些实施例中,如图6所示,关联账号管理方法还可以包括步骤406、407。
在步骤406中,存储各个账号的关联账号、重点关联账号中的至少一种。
在步骤407中,根据关联账号和/或重点关联账号补充账号实名制信息。例如,对于相似度大于预定相似度阈值的两账号,可以认为其归属的用户相同,两者具有相同的实名制信息。
通过这样的方法,能够补充用户实名制信息,提高网络监管力度。
另外,可以在查找某个不具备实名制信息的用户时,通过调查其关联账号的实名制用户确定该不具备实名制信息的用户的身份,提高网络安全追查的成功概率。
在一些实施例中,还可以在账号数据应用中执行步骤408。
在步骤408中,减少向关联账号和/或重点关联账号的推送信息。
在电商产品推广中,为了发掘更多潜在有价值用户,会根据地址信息先计算出已知高价值用户(种子用户)的同事数据,然后再以短信方式给这些同事发送营销信息。通过上文实施例中的方法,能够先识别并排除用户的马甲账号,避免对同一用户反复推送信息,在提高运营效率的同时也节省了短信费用。
在一些实施例中,可以根据步骤407、408中的执行效果修改上文中提到的预定第一阈值、预定第二阈值,还可以修改权重确定过程中关联关系权重的生成规则、事件的权重等,从而在运行和应用过程中不断修正参数,进一步提高准确性。
本公开的关联账号管理装置的一些实施例的示意图如图6所示。关联关系建立单元601能够根据账号信息建立账号与号码标识间的关联关系,并根据登录信息建立账号与登录终端间的关联关系。在一些实施例中,号码标识为手机号码或身份证号码。
关系图生成单元602能够根据账号与号码标识和登录终端间的关联关系建立关系图,账号、号码标识、登录终端为顶点。
关联账号确定单元603能够根据账号与号码标识和登录终端间的关联关系建立关系图,账号、号码标识、登录终端为顶点。
这样的关联账号管理装置能够基于账号信息、登录信息建立账号、号码标识、登录终端的关系图,根据账号之间的最短路径确定关联账号,从而提高了识别关联账号的能力,进而提高账号管理能力,有利于网络安全管控。
在一些实施例中,如图6所示,关联账号管理装置还可以包括权重确定单元604和相似度确定单元605,权重确定单元604能够根据账号数据信息确定账号与号码标识、登录终端之间的关联关系权重,在生成关系图时,将该关联关系权重作为对应关联关系的顶点之间的路径的权重。相似度确定单元605能够根据关联账号的最短路径中路径的权重之和确定关联账号之间的相似度,权重之和与相似度负相关,例如呈负比例相关,从而在筛选出关联账号之后,进一步确定关联账号之间的相似度,有利于进一步衡量账号之间的关联程度。
在一些实施例中,关系图生成单元602可以在生成关系图时,将边长设置为与路径权重正相关,如边长与路径权重相等,则边长与关联关系的强度负相关,关联强度越强则边长越短。进而关联账号确定单元603采用最短路径算法计算路径长度小于第一预定阈值的第二预定阈值个关联账号即为关联关系在第一预定阈值内的路径最短(相似度最高)的第二预定阈值个关联账号。
这样的关联账号管理装置能够通过一次性的最短路径计算得到相似度最接近的预定数量个关联账号,且保证关联强度大于预定要求,提高运算效率,降低对设备的运算压力。
在一些实施例中,关联账号管理装置还可以包括关联信息应用单元606,能够根据关联账号、重点关联账号补充账号实名制信息。例如,对于相似度大于预定相似度阈值的两账号,可以认为其归属的用户相同,两者具有相同的实名制信息。这样的关联账号管理装置能够补充用户实名制信息,提高网络监管力度。另外,关联信息应用单元606可以在查找某个不具备实名制信息的用户时,通过调查其关联账号的实名制用户确定该不具备实名制信息的用户的身份,提高安全追查的成功概率。
在一些实施例中,关联信息应用单元606能够减少向关联账号和/或重点关联账号的信息推送,从而在运营过程中先识别并排除用户的马甲账号,避免对同一用户反复推送信息,在提高运营效率的同时也节省了短信费用。
在一些实施例中,关联账号管理装置还可以包括阈值调整单元607,能够根据关联信息应用单元606的运行效果修改上文中提到的预定第一阈值、预定第二阈值,还可以修改权重确定过程中关联关系权重的生成规则、事件的权重等,从而在运行和应用过程中不断修正,进一步提高准确性。
本公开关联账号管理装置的一个实施例的结构示意图如图7所示。关联账号管理装置包括存储器701和处理器702。其中:存储器701可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储上文中关联账号管理方法的对应实施例中的指令。处理器702耦接至存储器701,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器702用于执行存储器中存储的指令,能够提高识别关联账号的能力,进而提高账号管理能力,有利于网络安全管控。
在一个实施例中,还可以如图8所示,关联账号管理装置800包括存储器801和处理器802。处理器802通过BUS总线803耦合至存储器801。该关联账号管理装置800还可以通过存储接口804连接至外部存储装置805以便调用外部数据,还可以通过网络接口806连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够提高识别关联账号的能力,进而提高账号管理能力,有利于网络安全管控。
在另一个实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现关联账号管理方法对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
最后应当说明的是:以上实施例仅用以说明本公开的技术方案而非对其限制;尽管参照较佳实施例对本公开进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本公开的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本公开技术方案的精神,其均应涵盖在本公开请求保护的技术方案范围当中。