一种账号相似度计算方法、存储介质、电子设备及系统
技术领域
本发明涉及大数据算法领域,具体涉及一种账号相似度计算方法、存储介质、电子设备及系统。
背景技术
随着直播的发展,观看直播的人越来越多,直播涉及的内容越来越广泛,直播平台需要处理的数据逐渐变复杂。
在直播网站上,可以注册直播平台的账号,当用户注册之后会给其分配一个id,一般称之为UID;大多数情况下,一个自然人可以注册多个账号,因此存在账号虽然不同但背后使用的人确是一样的情况。
为了对直播网站进行更人性的开发,往往需要以自然人的角度进行数据分析和挖掘,因此需要识别多个账户之间的相似度,将属于同一个自然人的账号进行识别,以便进行统一研究。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种账号相似度计算方法,能够识别不同账号的相似度,并判断目标账号以及待识别账号是否为同一用户所有。
为达到以上目的,本发明采取的技术方案是:
第一方面,本发明提供一种账号相似度计算方法,用于识别目标账号与待识别账号是否为同一用户所有,其包括以下步骤:
获取目标账号和待识别账号的账号信息,所述账号信息包括登录IP、登录地域、登录直播间及登录设备;
根据目标账号的账号信息,计算目标账号中的各登录IP的IP权重分wpup、各登录地域的地域权重分wlul、各登录直播间的直播间权重分wrur以及各登录设备的设备权重分wdud;
根据待识别账号的账号信息,计算待识别账号中的各登录IP的IP权重分wpvp、各登录地域的地域权重分wlvl、各登录直播间的直播间权重分wrvr以及各登录设备的设备权重分wdvd;
将目标账号的wpup、wlul、wrur以及wdud,结合待识别账号的wpvp、wlvl、wrvr以及wdvd,分别获得目标账号和待识别账号在登录IP、登录地域、登录直播间及登录设备之间的交集,并根据所述交集计算目标账号和待识别账号之间的相似度,并根据所述相似度判断目标账号和待识别账号是否为同一用户所有。
在上述技术方案的基础上,计算目标账号和待识别账号之间的相似度的方法为:
其中,目标账号为u,待识别账号为v,wuv是目标账号和待识别账号之间相似度;
Lu是目标账号的登录地域集合,Lv是待识别账号的登录地域集合,所述登录地域指的是城市,Lu∩Lv是目标账号和待识别账号共有的登录地域集合,wlul是目标账号对登录地域l的权重得分,wlvl是待识别账号对登录地域l的权重得分;
Ru是目标账号观看的登录直播间集合,Rv是待识别账号观看的登录直播间集合,Ru∩Rv是目标账号和待识别账号共有的登录直播间集合,wrur是目标账号对登录直播间r的权重得分,wrvr是待识别账号对登录直播间r的权重得分;
Pu是目标账号的登录IP集合,Pv是待识别账号的登录IP集合,Pu∩Pv是目标账号和待识别账号共有的登录IP集合,wpup是目标账号对登录IPp的权重得分,wpvp是待识别账号对登录IPp的权重得分,所述登录IPp表示标记为p的登录IP;
Du是目标账号使用的登录设备集合,Dv是待识别账号使用的登录设备集合,Du∩Dv是目标账号和待识别账号共有的登录设备集合,wdud是目标账号对登录设备d的权重得分,wdvd是待识别账号对登录设备d的权重得分;
T
i(i=1,2,3,4)是权重系数,取值范围在0到1之间,并且满足
其中:xi是目标账号使用的第i个IP在一段时间内的观看次数,使用的IP一共有i个;
yi是目标账号使用的第i个设备在一段时间内的观看次数,使用的设备一共有i个;
zi是目标账号使用的第i个直播间在一段时间内的观看次数,观看的直播间一共有i个;
gi是目标账号使用的第i个地域在一段时间内的观看次数,观看的地域一共有i个;
所述待识别账号的wpvp、wlvl、wrvr以及wdvd的计算公式与目标账号的wpup、wlul、wrur以及wdud的计算公式相同。
在上述技术方案的基础上,该方法在所述获取目标账号和待识别账号的账号信息之前,还包括步骤:
对各所述待识别账号进行筛选,筛除存在恶意使用行为的所述待识别账号。
在上述技术方案的基础上,该方法中,根据所述相似度判断目标账号和待识别账号是否为同一用户所有的步骤包括:
若多个待识别账号和目标账号之间的相似度均超过预设的第一阈值,则将所有相似度超过第一阈值的对应待识别账号和目标账号作为节点,使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有。
在上述技术方案的基础上,该方法在所述使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有之后,还包括步骤:
对判断结果进行筛除,筛除与所述目标账号的相似度超过第二阈值的所述待识别账号。
在上述技术方案的基础上,该方法中根据所述相似度判断目标账号和待识别账号是否为同一用户所有的步骤包括:
若目标账号和待识别账号之间的相似度超过预设的第三阈值,则判断目标账号和待识别账号为同一用户所有。
第二方面,本发明还提供一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面实施例中的方法。
第三方面,本发明还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面实施例中的方法。
第四方面,本发明还公开一种账号相似度计算系统,其包括:
账号信息获取模块,用于获取目标账号和待识别账号的账号信息,所述账号信息包括登录IP、登录地域、登录直播间及登录设备;
第一计算模块,用于根据目标账号的账号信息,计算目标账号中的各登录IP的IP权重分wpup、各登录地域的地域权重分wlul、各登录直播间的直播间权重分wrur以及各登录设备的设备权重分wdud;
第二计算模块,用于根据待识别账号的账号信息,计算待识别账号中的各登录IP的IP权重分wpvp、各登录地域的地域权重分wlvl、各登录直播间的直播间权重分wrvr以及各登录设备的设备权重分wdvd;
相似度判断模块,其用于将目标账号的wpup、wlul、wrur以及wdud,结合待识别账号的wpvp、wlvl、wrvr以及wdvd,分别获得目标账号和待识别账号在登录IP、登录地域、登录直播间及登录设备之间的交集,并根据所述交集计算目标账号和待识别账号之间的相似度,并根据所述相似度判断目标账号和待识别账号是否为同一用户所有。
与现有技术相比,本发明的优点在于:
(1)本发明通过计算目标账号以及待识别账号的使用情况,从而获得不同账号的相似程度。
(2)本发明通过获得目标账号以及待识别账号的相似程度,从而识别目标账号以及待识别账号是否为同一使用者使用,从而为后续数据分析以及数据挖掘减轻工作量,提高效率。
附图说明
图1为本发明一种账号相似度计算方法的流程图;
图2为本发明一种账号相似度计算系统的结构框图。
图中:1、账号信息获取模块;2、第一计算模块;3、第二计算模块;4、相似度判断模块;5、第一同人识别模块;6、第二同人识别模块。
具体实施方式
以下结合附图对本发明的实施例作进一步详细说明。
参见图1所示,本发明实施例提供一种账号相似度计算方法、存储介质、电子设备及系统,通过计算目标账号以及待识别账号的使用情况,从而获得不同账号的相似程度,并判断目标账号以及待识别账号是否为同一用户所有,从而为后续数据分析以及数据挖掘减轻工作量,提高效率。
为达到上述技术效果,本申请的总体思路如下:
一种账号相似度计算方法,其包括以下步骤:
S1、获取目标账号和待识别账号的账号信息,账号信息包括登录IP、登录地域、登录直播间及登录设备;
S2、根据目标账号的账号信息,计算目标账号中的各登录IP的IP权重分wpup、各登录地域的地域权重分wlul、各登录直播间的直播间权重分wrur以及各登录设备的设备权重分wdud;
S3、根据待识别账号的账号信息,计算待识别账号中的各登录IP的IP权重分wpvp、各登录地域的地域权重分wlvl、各登录直播间的直播间权重分wrvr以及各登录设备的设备权重分wdvd;
S4、将目标账号的wpup、wlul、wrur以及wdud,结合待识别账号的wpvp、wlvl、wrvr以及wdvd,分别获得目标账号和待识别账号在登录IP、登录地域、登录直播间及登录设备之间的交集,并根据交集计算目标账号和待识别账号之间的相似度,并根据相似度判断目标账号和待识别账号是否为同一用户所有。
实施例一
参见图1所示,本发明第一实施例提供一种账号相似度计算方法,用于识别目标账号与待识别账号是否为同一用户所有;
步骤S1中,首先选取目标账号以及多个与该目标账号可能为同一自然人使用的待识别账号,而后根据目标账号的使用记录,获得目标账号的账号信息,所述账号信息包括登录IP、登录地域、登录直播间及登录设备,用同样的方式,获得待识别账号的账号信息;
优选的,在获取对各所述待识别账号进行筛选,筛除存在恶意使用行为的所述待识别账号;
此操作是针对有作弊嫌疑的非法账号,非法账号由于存在恶意刷弹幕、人气的风险,常常拥有数量非常多的账号,避免增加计算成本,也会对结果造成干扰,因此,首先排除根据风控识别得到的恶意账号群体。
步骤S2中,根据目标账号的账号信息,计算目标账号中的各登录IP的IP权重分wpup、各登录地域的地域权重分wlul、各登录直播间的直播间权重分wrur以及各登录设备的设备权重分wdud;
而在步骤S3中,根据待识别账号的账号信息,计算待识别账号中的各登录IP的IP权重分wpvp、各登录地域的地域权重分wlvl、各登录直播间的直播间权重分wrvr以及各登录设备的设备权重分wdvd;
作为一个可选的实施方式,IP权重分的公式为:
其中:xi是目标账号使用的第i个IP在一段时间内的观看次数,使用的IP一共有i个;
yi是目标账号使用的第i个设备在一段时间内的观看次数,使用的设备一共有i个;
zi是目标账号使用的第i个直播间在一段时间内的观看次数,观看的直播间一共有i个;
gi是目标账号使用的第i个地域在一段时间内的观看次数,观看的地域一共有i个;
所述待识别账号的wpvp、wlvl、wrvr以及wdvd的计算公式与目标账号的wpup、wlul、wrur以及wdud的计算公式相同。
在步骤S4中,将目标账号的wpup、wlul、wrur以及wdud,结合待识别账号的wpvp、wlvl、wrvr以及wdvd,分别获得目标账号和待识别账号在登录IP、登录地域、登录直播间及登录设备之间的交集,并根据所述交集计算目标账号和待识别账号之间的相似度,并根据所述相似度判断目标账号和待识别账号是否为同一用户所有。
作为一个可选的实施方式,计算目标账号和待识别账号之间的相似度的方法为:
其中,目标账号为u,待识别账号为v,wuv是目标账号和待识别账号之间相似度;
Lu是目标账号的登录地域集合,Lv是待识别账号的登录地域集合,所述登录地域指的是城市,Lu∩Lv是目标账号和待识别账号共有的登录地域集合,wlul是目标账号对登录地域l的权重得分,wlvl是待识别账号对登录地域l的权重得分;
Ru是目标账号观看的登录直播间集合,Rv是待识别账号观看的登录直播间集合,Ru∩Rv是目标账号和待识别账号共有的登录直播间集合,wrur是目标账号对登录直播间r的权重得分,wrvr是待识别账号对登录直播间r的权重得分;
Pu是目标账号的登录IP集合,Pv是待识别账号的登录IP集合,Pu∩Pv是目标账号和待识别账号共有的登录IP集合,wpup是目标账号对登录IPp的权重得分,wpvp是待识别账号对登录IPp的权重得分,所述登录IPp表示标记为p的登录IP;
Du是目标账号使用的登录设备集合,Dv是待识别账号使用的登录设备集合,Du∩Dv是目标账号和待识别账号共有的登录设备集合,wdud是目标账号对登录设备d的权重得分,wdvd是待识别账号对登录设备d的权重得分;
T
i(i=1,2,3,4)是权重系数,取值范围在0到1之间,并且满足
具体地,可以根据自身判断的需求,根据登录IP、登录地域、登录直播间及登录设备分配不同的权重系数。
本发明实施例通过计算目标账号以及待识别账号的使用情况,从而获得不同账号的相似程度,并判断目标账号以及待识别账号是否为同一用户所有,从而为后续数据分析以及数据挖掘减轻工作量,提高效率。
作为一个可选的实施方式,本发明实施例中,根据所述相似度判断目标账号和待识别账号是否为同一用户所有的步骤包括:
若多个待识别账号和目标账号之间的相似度均超过预设的第一阈值,则将所有相似度超过第一阈值的对应待识别账号和目标账号作为节点,使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有;
具体的操作方式是根据现有的标签传播算法进行计算。
优选的,当若多个待识别账号和目标账号之间的相似度均超过预设的第一阈值,使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有后,还包括步骤:
对判断结果进行筛除,筛除与所述目标账号的相似度超过第二阈值的所述待识别账号;
此操作是由于标签传播算法的不稳定性,可能在计算后,一些相对相似度较低的所述待识别账号反而被识别为与目标账号为同一用户所有,用于进行筛除错误判断的所述待识别账号;
另外,还可作为二次筛选的操作,那么此时则需要第二阈值大于第一阈值,即当使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有后,再比较已经筛选出的待识别账号的相似度,进而二次筛选,筛除相似度小于第二阈值的待识别账号。
作为一个可选的实施方式,根据所述相似度判断目标账号和待识别账号是否为同一用户所有的步骤包括:
若目标账号和待识别账号之间的相似度超过预设的第三阈值,则判断目标账号和待识别账号为同一用户所有;
此操作,是针对待识别账号的相似度较高的情况,当待识别账号的相似度足够高,此时则无需再利用标签传播算法进行计算,例如当待识别账号相似度为0.99时;
故而第三阈值的数值较高,至少高于前面所述的第一阈值以及第二阈值。
本发明实施例基于目标账号以及待识别账号的相似程度,识别目标账号以及待识别账号是否为同一使用者使用,从而为后续数据分析以及数据挖掘减轻工作量,提高效率。
基于同一发明构思,本申请提供了实施例一对应的一种账号相似度计算系统,详见实施例二。
实施例二
如图2所示,本发明第二实施例还提供一种账号相似度计算系统,其包括:
账号信息获取模块1,用于获取目标账号和待识别账号的账号信息,所述账号信息包括登录IP、登录地域、登录直播间及登录设备;
第一计算模块2,用于根据目标账号的账号信息,计算目标账号中的各登录IP的IP权重分wpup、各登录地域的地域权重分wlul、各登录直播间的直播间权重分wrur以及各登录设备的设备权重分wdud;
第二计算模块3,用于根据待识别账号的账号信息,计算待识别账号中的各登录IP的IP权重分wpvp、各登录地域的地域权重分wlvl、各登录直播间的直播间权重分wrvr以及各登录设备的设备权重分wdvd;
相似度判断模块4,其用于将目标账号的wpup、wlul、wrur以及wdud,结合待识别账号的wpvp、wlvl、wrvr以及wdvd,分别获得目标账号和待识别账号在登录IP、登录地域、登录直播间及登录设备之间的交集,并根据所述交集计算目标账号和待识别账号之间的相似度,并根据所述相似度判断目标账号和待识别账号是否为同一用户所有。
其中:xi是目标账号使用的第i个IP在一段时间内的观看次数,使用的IP一共有i个;
yi是目标账号使用的第i个设备在一段时间内的观看次数,使用的设备一共有i个;
zi是目标账号使用的第i个直播间在一段时间内的观看次数,观看的直播间一共有i个;
gi是目标账号使用的第i个地域在一段时间内的观看次数,观看的地域一共有i个;
所述待识别账号的wpvp、wlvl、wrvr以及wdvd的计算公式与目标账号的wpup、wlul、wrur以及wdud的计算公式相同。
作为一个可选的实施方式,计算目标账号和待识别账号之间的相似度的方法为:
其中,目标账号为u,待识别账号为v,wuv是目标账号和待识别账号之间相似度;
Lu是目标账号的登录地域集合,Lv是待识别账号的登录地域集合,所述登录地域指的是城市,Lu∩Lv是目标账号和待识别账号共有的登录地域集合,wlul是目标账号对登录地域l的权重得分,wlvl是待识别账号对登录地域l的权重得分;
Ru是目标账号观看的登录直播间集合,Rv是待识别账号观看的登录直播间集合,Ru∩Rv是目标账号和待识别账号共有的登录直播间集合,wrur是目标账号对登录直播间r的权重得分,wrvr是待识别账号对登录直播间r的权重得分;
Pu是目标账号的登录IP集合,Pv是待识别账号的登录IP集合,Pu∩Pv是目标账号和待识别账号共有的登录IP集合,wpup是目标账号对登录IPp的权重得分,wpvp是待识别账号对登录IPp的权重得分,所述登录IPp表示标记为p的登录IP;
Du是目标账号使用的登录设备集合,Dv是待识别账号使用的登录设备集合,Du∩Dv是目标账号和待识别账号共有的登录设备集合,wdud是目标账号对登录设备d的权重得分,wdvd是待识别账号对登录设备d的权重得分;
T
i(i=1,2,3,4)是权重系数,取值范围在0到1之间,并且满足
作为一个可选的实施方式,本发明实施例中,该系统还包括第一同人识别模块5,其用于若多个待识别账号和目标账号之间的相似度均超过预设的第一阈值,则将所有相似度超过第一阈值的对应待识别账号和目标账号作为节点,使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有;
具体的操作方式是根据现有的标签传播算法进行计算。
优选的,当若多个待识别账号和目标账号之间的相似度均超过预设的第一阈值,使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有后,第一同人识别模块5还包括以下操作:
对判断结果进行筛除,筛除与所述目标账号的相似度超过第二阈值的所述待识别账号;
此操作是由于标签传播算法的不稳定性,可能在计算后,一些相对相似度较低的所述待识别账号反而被识别为与目标账号为同一用户所有,用于进行筛除错误判断的所述待识别账号;
另外,还可作为二次筛选的操作,那么此时则需要第二阈值大于第一阈值,即当使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有后,再比较已经筛选出的待识别账号的相似度,进而二次筛选,筛除相似度小于第二阈值的待识别账号。
作为一个可选的实施方式,本发明实施例中,该系统还包括第二同人识别模块6,其用于:若目标账号和待识别账号之间的相似度超过预设的第三阈值,则判断目标账号和待识别账号为同一用户所有;
此操作,是针对待识别账号的相似度较高的情况,当待识别账号的相似度足够高,此时则无需再利用标签传播算法进行计算,例如当待识别账号相似度为0.99时;
故而第三阈值的数值较高,至少高于前面所述的第一阈值以及第二阈值。
本发明实施例通过计算目标账号以及待识别账号的使用情况,从而获得不同账号的相似程度,并判断目标账号以及待识别账号是否为同一用户所有,从而为后续数据分析以及数据挖掘减轻工作量,提高效率。
基于同一发明构思,本申请提供了实施例一对应的存储介质的实施例,详见实施例三
实施例三
本发明第三实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一实施例中的所有方法步骤或部分方法步骤。
本发明实现上述第一实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
基于同一发明构思,本申请提供了实施例一对应的电子设备的实施例,详见实施例四
实施例四
本发明第四实施例还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现第一实施例中的所有方法步骤或部分方法步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。