背景技术
网络指纹是指根据网络节点和边的某种属性信息,用于刻画唯一的局部网络的标志。节点的聚类系数用于衡量相邻节点之间连接的紧密程度。通过节点和边相互之间的连接关系可以构建网状关系连通图,以分析节点之间的相互关系。互联网用户众多,重名现象非常普遍,如何通过计算设备从若干姓名相同的用户中准确定位其中的真实用户是现有技术的一个难题。
申请内容
本申请的一个目的是提供一种基于网络指纹的身份识别方法和装置,以解决在姓名相同的情况下准确识别真实用户的问题。
根据本申请的第一方面,提供一种基于网络指纹的身份识别方法,包括:
构建用户关系网络;其中,所述用户关系网络以用户标识为节点并且以用户之间的关联关系为边;
利用网络指纹对所述用户关系网络进行筛选处理;
对所述筛选处理后的所述用户关系网络进行聚类处理以确定用户唯一标识。
进一步,本申请所述的方法,所述利用网络指纹对所述用户关系网络进行筛选处理的步骤具体包括:
计算所述用户关系网络中每个节点的网络指纹指标;
删除小于预设阈值的网络指纹指标所对应的所述节点。
进一步,本申请所述的方法,所述网络指纹指标根据聚类系数和所述节点的相邻节点数量计算得到。
进一步,本申请所述的方法,所述聚类系数根据所述节点的相邻节点数量和所述相邻节点之间的所述边的数量计算得到。
进一步,本申请所述的方法,所述对所述筛选处理后的所述用户关系网络进行聚类处理以确定用户唯一标识的步骤具体包括:
对所述用户关系网络进行聚类处理以得到子类;其中,所述子类包括所述节点;
计算每个所述子类的可信指标;
确定所述可信指标最大的所述子类中的网络指纹指标最大的所述节点所对应的用户标识为所述用户唯一标识。
进一步,本申请所述的方法,所述可信指标根据所述子类的方差和所述子类的均值计算得到。
进一步,本申请所述的方法,在所述构建用户关系网络之前,所述方法还包括:
采集第一用户信息;
将所述第一用户信息与第二用户信息进行匹配;
其中,所述第二用户信息为真实信息且包括用户之间的关联关系;所述第一用户信息和所述第二用户信息均包括:所述用户标识。
根据本申请的第二方面,提供一种基于网络指纹的身份识别装置,包括:
网络构建模块,用于构建用户关系网络;其中,所述用户关系网络以用户标识为节点并且以用户之间的关联关系为边;
筛选模块,用于利用网络指纹对所述用户关系网络进行筛选处理;
确定模块,用于对所述筛选处理后的所述用户关系网络进行聚类处理以确定用户唯一标识。
进一步,本申请所述的装置,所述筛选模块具体用于:
计算所述用户关系网络中每个节点的网络指纹指标;
删除小于预设阈值的网络指纹指标所对应的所述节点。
进一步,本申请所述的装置,所述网络指纹指标根据聚类系数和所述节点的相邻节点数量计算得到。
进一步,本申请所述的装置,所述聚类系数根据所述节点的相邻节点数量和所述相邻节点之间的所述边的数量计算得到。
进一步,本申请所述的装置,所述确定模块具体用于:
对所述用户关系网络进行聚类处理以得到子类;其中,所述子类包括所述节点;
计算每个所述子类的可信指标;
确定所述可信指标最大的所述子类中的网络指纹指标最大的所述节点所对应的用户标识为所述用户唯一标识。
进一步,本申请所述的装置,所述可信指标根据所述子类的方差和所述子类的均值计算得到。
进一步,本申请所述的装置,还包括:
匹配模块,用于:采集第一用户信息;将所述第一用户信息与第二用户信息进行匹配;
其中,所述第二用户信息为真实信息且包括用户之间的关联关系;所述第一用户信息和所述第二用户信息均包括:所述用户标识。
根据本申请的第三方面,提供一种存储设备,所述存储设备存储计算机程序指令,所述计算机程序指令根据本申请所述的方法进行执行。
根据本申请的第四方面,一种计算设备,包括:用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述计算设备执行本申请所述的方法。
本申请提供的基于网络指纹的身份识别方法和装置,基于用户之间相互认识的关系构建出用户关系网,然后通过网络指纹指标进行初步的去重筛选,最后通过聚类处理根据用户之间相互认识关系的程度,分析得到其中的真实用户,为后续处理提供数据基础。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的装置或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
现有技术中的大数据运用时,会出现如何准确定位真实用户的问题,例如,根据公安部门公开的犯罪团伙信息,获取到一张真实的姓名列表,包括张小A、王大B、李有C、袁无D四人,该四人涉嫌重大团伙诈骗案件。同时在大数据的海量数据库中,名叫张小A的用户有成千上万之多,那么如何在海量数据库中准确定位该涉嫌重大团伙诈骗犯罪的张小A,对于现有技术人员是一个技术难题。
本申请主要以用户之间相互认识的关系为逻辑基础进行计算,例如,该涉嫌重大团伙诈骗犯罪的张小A必然认识王大B、李有C和袁无D三人。而在海量数据库中,同时认识王大B、李有C和袁无D三人的张小A一般也只能有一个。可以基于网上获取的真实用户信息,结合海量数据库的海量用户数据,构建出以用户为节点并且以用户之间相互认识的关系为节点之间的边的用户关系网络,进而通过网络指纹运算方法,结合用户之间相互认识的程度,从海量用户数据中筛选出真实用户,例如,基于公安部门提供的犯罪团伙名单,从海量用户数据中准确定位同时认识王大B、李有C和袁无D三人的张小A,以得到真实的用户数据,为后续的业务提供更加准确的信息。
图1为本申请实施例一的基于网络指纹的身份识别方法的流程示意图,如图1所示,本申请实施例一的基于网络指纹的身份识别方法,包括:
步骤S101,构建用户关系网络;其中,所述用户关系网络以用户标识为节点并且以用户之间的关联关系为边。
其中,获取第一用户列表和第二用户列表,第一用户列表包括用户之间相互认识的关系,第二用户列表也包括用户之间相互认识的关系。第二用户列表为真实信息列表。将第一用户列表与第二用户列表进行匹配,匹配后以用户标识为节点。若用户A、B之间相互认识,则对应的节点A、B之间设有边AB。若用户A、C之间相互不认识,则对应的节点A、C之间没有边,节点A、C相互独立,不具有任何关系。从而得到用户关系网络,作为后续运算的数据基础。其中,用户标识为用户姓名、昵称、身份证号、用户账号等能够表明用户身份的信息,用户之间的关联关系为用户之间相互认识等用户之间具有的内在联系。
步骤S102,利用网络指纹对所述用户关系网络进行筛选处理。
其中,可利用网络指纹运算的方法,计算得到各个节点的网络指纹指标,然后以预设阈值为标准,筛选出一部分节点,以大量地去除重复、多余的数据。
步骤S103,对所述筛选处理后的所述用户关系网络进行聚类处理以确定用户唯一标识。
其中,对于筛选处理后的用户关系网络进行聚类处理,进而得到用户之间的关联程度,即相互认识的程度。可计算得到可信指标,选取其中可信指标最高的节点,从而选出最具真实可能的用户。
本申请实施例一的基于网络指纹的身份识别方法,能够基于用户之间相互认识的关联关系,构建用户关系网络,从而计算得到最具真实可能的用户,从而确定出真实用户,为后续业务提供数据基础。
图2为本申请实施例二的基于网络指纹的身份识别方法的流程示意图,如图2所示,本申请实施例二的基于网络指纹的身份识别方法,包括:
步骤S201,采集第一用户信息。
步骤S202,将所述第一用户信息与第二用户信息进行匹配。
其中,所述第二用户信息为真实信息且包括用户之间的关联关系。所述第一用户信息和所述第二用户信息均包括:所述用户标识。其中,用户标识为用户姓名、昵称、身份证号、用户账号等能够表明用户身份的信息,用户之间的关联关系为用户之间相互认识等用户之间具有的内在联系。第二用户信息为真实的用户信息,可以通过具有高度公信力的网站查询得到第二用户信息。例如,从法院网站公开的失信被执行人名单中提取出第二用户信息。第一用户信息来源于大数据的海量数据库,此外也可实时采集第一用户信息进行分析计算。例如,某用户需要某项信用服务时,例如获取信用贷款,可以通过填表的方式获取该用户的姓名作为第一用户信息。
步骤S203,构建用户关系网络。其中,所述用户关系网络以用户标识为节点并且以用户之间的关联关系为边。
其中,将第一用户信息的用户标识与第二用户信息的用户标识相匹配,匹配后以用户标识为节点。若用户A、B之间相互认识,则对应的节点A、B之间设有边AB。若用户A、C之间相互不认识,则对应的节点A、C之间没有边,节点A、C相互独立,不具有任何关系。图3为本申请的用户关系网络的示意图,如图3所示,构建得到用户关系网络,由于存在重名的情况,采集到的用户信息会匹配大量的用户标识,组建得到一个非常大的关系网络。
步骤S204,计算所述用户关系网络中每个节点的网络指纹指标。
其中,所述网络指纹指标根据如下公式(1)计算得到:
y=x×log(m) (1);
其中,y表示所述网络指纹指标,x表示聚类系数,m表示所述节点的相邻节点数量。
其中,所述聚类系数根据如下公式(2)计算得到:
其中,x表示所述聚类系数,m表示所述节点的相邻节点数量,k表示m个所述相邻节点之间的所述边的数量。
例如,计算节点A的网络指纹指标。A节点与节点B、D、E具有边,A节点与节点C不具有边,表明用户A与用户B、D、E认识,用户A与用户C不认识。节点B、D、E为节点A的相邻节点,则m=3。节点A的相邻节点B、D之间有边,节点B、E之间和节点D、E之间没有边,则k=1。
步骤S205,删除小于预设阈值的网络指纹指标所对应的所述节点。
其中,设预设阈值为100。根据上述公式(1)、(2),可计算得到用户关系网络中每个节点的网络指纹指标,然后将网络指纹指标降序排列,仅保留前100个网络指纹指标,将剩余网络指纹指标所对应的节点删除。图4为本申请的筛选处理后的用户关系网络的示意图,如图4所示,可以将图1中大量无关节点删除,大量减少后续步骤的运算量,得到初步筛选去重后的用户关系网络。图4所示的网络结构即为图1所示的网络结构图中右上角的深色部分,浅色部分均被筛选处理所删除。
步骤S206,对所述用户关系网络进行聚类处理以得到子类;其中,所述子类包括所述节点。
步骤S207,计算每个所述子类的可信指标。
可信指标根据如下公式(3)计算得到:
h=d×v (3);
其中,h表示所述可信指标,d表示所述子类的方差,v表示所述子类的均值。
其中,筛选处理后,对图4所示的网络结构进行聚类处理。例如使用基于连通图划分的聚类算法,得到网络结构中的多个子类。根据节点的网络指纹指标y计算每个子类的均值v和方差d,进而计算得到每个子类的可信指标h,可信指标h用于度量子类内部的紧密联系程度。
步骤S208,确定所述可信指标最大的所述子类中的网络指纹指标最大的所述节点所对应的用户标识为所述用户唯一标识。
其中,对可信指标h进行倒序排列,选择出可信指标h最大的子类,然后在该可信指标h最大的子类中,将网络指纹指标y倒序排列,选择出网络指纹指标y最大的唯一节点,该唯一节点所对应的用户唯一标识最可能为真实用户,从而筛选确定出真实用户。
图5为本申请实施例三的基于网络指纹的身份识别装置的结构示意图,如图5所示,本申请实施例三的基于网络指纹的身份识别装置,包括:网络构建模块51、筛选模块52和确定模块53。
网络构建模块51,用于构建用户关系网络;其中,所述用户关系网络以用户标识为节点并且以用户之间的关联关系为边。
筛选模块52,用于利用网络指纹对所述用户关系网络进行筛选处理。
确定模块53,用于对所述筛选处理后的所述用户关系网络进行聚类处理以确定用户唯一标识。
本申请实施例三的基于网络指纹的身份识别装置,为图1所示的方法的实现装置,具体原理可参考图1实施例,此处不再赘述。
图6为本申请实施例四的基于网络指纹的身份识别装置的结构示意图,如图6所示,本申请实施例四的基于网络指纹的身份识别装置,包括:网络构建模块51、筛选模块52、确定模块53和匹配模块54。
网络构建模块51,用于构建用户关系网络;其中,所述用户关系网络以用户标识为节点并且以用户之间的关联关系为边。
筛选模块52,用于利用网络指纹对所述用户关系网络进行筛选处理。
其中,筛选模块52具体用于:
计算所述用户关系网络中每个节点的网络指纹指标;
删除小于预设阈值的网络指纹指标所对应的所述节点。
其中,网络指纹指标根据如下公式(1)计算得到:
y=x×log(m)…………………………………………(1);
其中,y表示所述网络指纹指标,x表示聚类系数,m表示所述节点的相邻节点数量。
其中,聚类系数根据如下公式(2)计算得到:
其中,x表示所述聚类系数,m表示所述节点的相邻节点数量,k表示m个所述相邻节点之间的所述边的数量。
确定模块53,用于对所述筛选处理后的所述用户关系网络进行聚类处理以确定用户唯一标识。
其中,确定模块53具体用于:
对所述用户关系网络进行聚类处理以得到子类;其中,所述子类包括所述节点;
计算每个所述子类的可信指标;
确定所述可信指标最大的所述子类中的网络指纹指标最大的所述节点所对应的用户标识为所述用户唯一标识。
其中,可信指标根据如下公式(3)计算得到:
h=d×v…………………………………………(3);
其中,h表示所述可信指标,d表示所述子类的方差,v表示所述子类的均值。
匹配模块54,用于:
采集第一用户信息;
将所述第一用户信息与第二用户信息进行匹配。
其中,所述第一用户信息为真实用户信息,所述第二用户信息包括用户之间的关联关系;所述第一用户信息和所述第二用户信息均包括:所述用户标识。
本申请实施例四的基于网络指纹的身份识别装置,为图2所示的方法的实现装置,具体原理可参考图2实施例,此处不再赘述。
根据本申请实施例,还提供一种存储设备,所述存储设备存储计算机程序指令,所述计算机程序指令根据本申请图1或图2所示的方法进行执行。
根据本申请实施例,还提供一种计算设备,包括:用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述计算设备执行本申请图1或图2所示的方法。
此外,本申请的一些实施例还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机可读指令可被处理器执行以实现前述本申请的多个实施例的方法和/或技术方案。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中,本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。