CN110750681B - 一种账号相似度计算方法、存储介质、电子设备及系统 - Google Patents

一种账号相似度计算方法、存储介质、电子设备及系统 Download PDF

Info

Publication number
CN110750681B
CN110750681B CN201810731426.2A CN201810731426A CN110750681B CN 110750681 B CN110750681 B CN 110750681B CN 201810731426 A CN201810731426 A CN 201810731426A CN 110750681 B CN110750681 B CN 110750681B
Authority
CN
China
Prior art keywords
account
identified
login
target account
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810731426.2A
Other languages
English (en)
Other versions
CN110750681A (zh
Inventor
王璐
张文明
陈少杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201810731426.2A priority Critical patent/CN110750681B/zh
Publication of CN110750681A publication Critical patent/CN110750681A/zh
Application granted granted Critical
Publication of CN110750681B publication Critical patent/CN110750681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/254Management at additional data server, e.g. shopping server, rights management server
    • H04N21/2541Rights Management

Abstract

本发明公开了一种账号相似度计算方法、存储介质、电子设备及系统,涉及大数据算法领域,该方法包括以下步骤:获取目标账号和待识别账号的账号信息;计算目标账号的各登录IP的IP权重分、各登录地域的地域权重分、各登录直播间的直播间权重分以及各登录设备的设备权重分;计算待识别账号的各登录IP的IP权重分、各登录地域的地域权重分、各登录直播间的直播间权重分以及各登录设备的设备权重分;获得目标账号和待识别账号之间的交集,计算目标账号和待识别账号的相似度,判断目标账号和待识别账号是否为同一用户所有。本发明通过计算目标账号和待识别账号的使用情况,获得不同账号的相似程度,并判断目标账号以及待识别账号是否为同一用户所有。

Description

一种账号相似度计算方法、存储介质、电子设备及系统
技术领域
本发明涉及大数据算法领域,具体涉及一种账号相似度计算方法、存储介质、电子设备及系统。
背景技术
随着直播的发展,观看直播的人越来越多,直播涉及的内容越来越广泛,直播平台需要处理的数据逐渐变复杂。
在直播网站上,可以注册直播平台的账号,当用户注册之后会给其分配一个id,一般称之为UID;大多数情况下,一个自然人可以注册多个账号,因此存在账号虽然不同但背后使用的人确是一样的情况。
为了对直播网站进行更人性的开发,往往需要以自然人的角度进行数据分析和挖掘,因此需要识别多个账户之间的相似度,将属于同一个自然人的账号进行识别,以便进行统一研究。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种账号相似度计算方法,能够识别不同账号的相似度,并判断目标账号以及待识别账号是否为同一用户所有。
为达到以上目的,本发明采取的技术方案是:
第一方面,本发明提供一种账号相似度计算方法,用于识别目标账号与待识别账号是否为同一用户所有,其包括以下步骤:
获取目标账号和待识别账号的账号信息,所述账号信息包括登录IP、登录地域、登录直播间及登录设备;
根据目标账号的账号信息,计算目标账号中的各登录IP的IP权重分wpup、各登录地域的地域权重分wlul、各登录直播间的直播间权重分wrur以及各登录设备的设备权重分wdud
根据待识别账号的账号信息,计算待识别账号中的各登录IP的IP权重分wpvp、各登录地域的地域权重分wlvl、各登录直播间的直播间权重分wrvr以及各登录设备的设备权重分wdvd
将目标账号的wpup、wlul、wrur以及wdud,结合待识别账号的wpvp、wlvl、wrvr以及wdvd,分别获得目标账号和待识别账号在登录IP、登录地域、登录直播间及登录设备之间的交集,并根据所述交集计算目标账号和待识别账号之间的相似度,并根据所述相似度判断目标账号和待识别账号是否为同一用户所有;
计算目标账号和待识别账号之间的相似度的方法为:
Figure GDA0003584592390000021
其中,
目标账号为u,待识别账号为v,wuv是目标账号和待识别账号之间相似度;
Lu是目标账号的登录地域集合,Lv是待识别账号的登录地域集合,所述登录地域指的是城市,Lu∩Lv是目标账号和待识别账号共有的登录地域集合,wlul是目标账号对登录地域l的权重得分,wlvl是待识别账号对登录地域l的权重得分;
Ru是目标账号观看的登录直播间集合,Rv是待识别账号观看的登录直播间集合,Ru∩Rv是目标账号和待识别账号共有的登录直播间集合,wrur是目标账号对登录直播间r的权重得分,wrvr是待识别账号对登录直播间r的权重得分;
Pu是目标账号的登录IP集合,Pv是待识别账号的登录IP集合,Pu∩Pv是目标账号和待识别账号共有的登录IP集合,wpup是目标账号对登录IPp的权重得分,wpvp是待识别账号对登录IPp的权重得分,所述登录IPp表示标记为p的登录IP;
Du是目标账号使用的登录设备集合,Dv是待识别账号使用的登录设备集合,Du∩Dv是目标账号和待识别账号共有的登录设备集合,wdud是目标账号对登录设备d的权重得分,wdvd是待识别账号对登录设备d的权重得分;
Ti(i=1,2,3,4)是权重系数,取值范围在0到1之间,并且满足
Figure GDA0003584592390000031
在上述技术方案的基础上,IP权重分的公式为:
Figure GDA0003584592390000032
直播间权重分的公式为:
Figure GDA0003584592390000033
设备权重分的公式为:
Figure GDA0003584592390000034
地域权重分的公式为:
Figure GDA0003584592390000041
其中:xi是目标账号使用的第i个IP在一段时间内的观看次数,使用的IP一共有i个;
yi是目标账号使用的第i个设备在一段时间内的观看次数,使用的设备一共有i个;
zi是目标账号使用的第i个直播间在一段时间内的观看次数,观看的直播间一共有i个;
gi是目标账号使用的第i个地域在一段时间内的观看次数,观看的地域一共有i个;
所述待识别账号的wpvp、wlvl、wrvr以及wdvd的计算公式与目标账号的wpup、wlul、wrur以及wdud的计算公式相同。
在上述技术方案的基础上,该方法在所述获取目标账号和待识别账号的账号信息之前,还包括步骤:
对各所述待识别账号进行筛选,筛除存在恶意使用行为的所述待识别账号。
在上述技术方案的基础上,该方法中,根据所述相似度判断目标账号和待识别账号是否为同一用户所有的步骤包括:
若多个待识别账号和目标账号之间的相似度均超过预设的第一阈值,则将所有相似度超过第一阈值的对应待识别账号和目标账号作为节点,使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有。
在上述技术方案的基础上,该方法在所述使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有之后,还包括步骤:
对判断结果进行筛除,筛除与所述目标账号的相似度超过第二阈值的所述待识别账号。
在上述技术方案的基础上,该方法中根据所述相似度判断目标账号和待识别账号是否为同一用户所有的步骤包括:
若目标账号和待识别账号之间的相似度超过预设的第三阈值,则判断目标账号和待识别账号为同一用户所有。
第二方面,本发明还提供一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面实施例中的方法。
第三方面,本发明还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面实施例中的方法。
第四方面,本发明还公开一种账号相似度计算系统,其包括:
账号信息获取模块,用于获取目标账号和待识别账号的账号信息,所述账号信息包括登录IP、登录地域、登录直播间及登录设备;
第一计算模块,用于根据目标账号的账号信息,计算目标账号中的各登录IP的IP权重分wpup、各登录地域的地域权重分wlul、各登录直播间的直播间权重分wrur以及各登录设备的设备权重分wdud
第二计算模块,用于根据待识别账号的账号信息,计算待识别账号中的各登录IP的IP权重分wpvp、各登录地域的地域权重分wlvl、各登录直播间的直播间权重分wrvr以及各登录设备的设备权重分wdvd
相似度判断模块,其用于将目标账号的wpup、wlul、wrur以及wdud,结合待识别账号的wpvp、wlvl、wrvr以及wdvd,分别获得目标账号和待识别账号在登录IP、登录地域、登录直播间及登录设备之间的交集,并根据所述交集计算目标账号和待识别账号之间的相似度,并根据所述相似度判断目标账号和待识别账号是否为同一用户所有;
所述相似度判断模块计算目标账号和待识别账号之间的相似度时基于的计算公式为:
Figure GDA0003584592390000061
其中,
目标账号为u,待识别账号为v,wuv是目标账号和待识别账号之间相似度;
Lu是目标账号的登录地域集合,Lv是待识别账号的登录地域集合,所述登录地域指的是城市,Lu∩Lv是目标账号和待识别账号共有的登录地域集合,wlul是目标账号对登录地域l的权重得分,wlvl是待识别账号对登录地域l的权重得分;
Ru是目标账号观看的登录直播间集合,Rv是待识别账号观看的登录直播间集合,Ru∩Rv是目标账号和待识别账号共有的登录直播间集合,wrur是目标账号对登录直播间r的权重得分,wrvr是待识别账号对登录直播间r的权重得分;
Pu是目标账号的登录IP集合,Pv是待识别账号的登录IP集合,Pu∩Pv是目标账号和待识别账号共有的登录IP集合,wpup是目标账号对登录IPp的权重得分,wpvp是待识别账号对登录IPp的权重得分,所述登录IPp表示标记为p的登录IP;
Du是目标账号使用的登录设备集合,Dv是待识别账号使用的登录设备集合,Du∩Dv是目标账号和待识别账号共有的登录设备集合,wdud是目标账号对登录设备d的权重得分,wdvd是待识别账号对登录设备d的权重得分;
Ti(i=1,2,3,4)是权重系数,取值范围在0到1之间,并且满足
Figure GDA0003584592390000071
与现有技术相比,本发明的优点在于:
(1)本发明通过计算目标账号以及待识别账号的使用情况,从而获得不同账号的相似程度。
(2)本发明通过获得目标账号以及待识别账号的相似程度,从而识别目标账号以及待识别账号是否为同一使用者使用,从而为后续数据分析以及数据挖掘减轻工作量,提高效率。
附图说明
图1为本发明一种账号相似度计算方法的流程图;
图2为本发明一种账号相似度计算系统的结构框图。
图中:1、账号信息获取模块;2、第一计算模块;3、第二计算模块;4、相似度判断模块;5、第一同人识别模块;6、第二同人识别模块。
具体实施方式
以下结合附图对本发明的实施例作进一步详细说明。
参见图1所示,本发明实施例提供一种账号相似度计算方法、存储介质、电子设备及系统,通过计算目标账号以及待识别账号的使用情况,从而获得不同账号的相似程度,并判断目标账号以及待识别账号是否为同一用户所有,从而为后续数据分析以及数据挖掘减轻工作量,提高效率。
为达到上述技术效果,本申请的总体思路如下:
一种账号相似度计算方法,其包括以下步骤:
S1、获取目标账号和待识别账号的账号信息,账号信息包括登录IP、登录地域、登录直播间及登录设备;
S2、根据目标账号的账号信息,计算目标账号中的各登录IP的IP权重分wpup、各登录地域的地域权重分wlul、各登录直播间的直播间权重分wrur以及各登录设备的设备权重分wdud
S3、根据待识别账号的账号信息,计算待识别账号中的各登录IP的IP权重分wpvp、各登录地域的地域权重分wlvl、各登录直播间的直播间权重分wrvr以及各登录设备的设备权重分wdvd
S4、将目标账号的wpup、wlul、wrur以及wdud,结合待识别账号的wpvp、wlvl、wrvr以及wdvd,分别获得目标账号和待识别账号在登录IP、登录地域、登录直播间及登录设备之间的交集,并根据交集计算目标账号和待识别账号之间的相似度,并根据相似度判断目标账号和待识别账号是否为同一用户所有。
实施例一
参见图1所示,本发明第一实施例提供一种账号相似度计算方法,用于识别目标账号与待识别账号是否为同一用户所有;
步骤S1中,首先选取目标账号以及多个与该目标账号可能为同一自然人使用的待识别账号,而后根据目标账号的使用记录,获得目标账号的账号信息,所述账号信息包括登录IP、登录地域、登录直播间及登录设备,用同样的方式,获得待识别账号的账号信息;
优选的,在获取对各所述待识别账号进行筛选,筛除存在恶意使用行为的所述待识别账号;
此操作是针对有作弊嫌疑的非法账号,非法账号由于存在恶意刷弹幕、人气的风险,常常拥有数量非常多的账号,避免增加计算成本,也会对结果造成干扰,因此,首先排除根据风控识别得到的恶意账号群体。
步骤S2中,根据目标账号的账号信息,计算目标账号中的各登录IP的IP权重分wpup、各登录地域的地域权重分wlul、各登录直播间的直播间权重分wrur以及各登录设备的设备权重分wdud
而在步骤S3中,根据待识别账号的账号信息,计算待识别账号中的各登录IP的IP权重分wpvp、各登录地域的地域权重分wlvl、各登录直播间的直播间权重分wrvr以及各登录设备的设备权重分wdvd
作为一个可选的实施方式,IP权重分的公式为:
Figure GDA0003584592390000091
直播间权重分的公式为:
Figure GDA0003584592390000092
设备权重分的公式为:
Figure GDA0003584592390000093
地域权重分的公式为:
Figure GDA0003584592390000094
其中:xi是目标账号使用的第i个IP在一段时间内的观看次数,使用的IP一共有i个;
yi是目标账号使用的第i个设备在一段时间内的观看次数,使用的设备一共有i个;
zi是目标账号使用的第i个直播间在一段时间内的观看次数,观看的直播间一共有i个;
gi是目标账号使用的第i个地域在一段时间内的观看次数,观看的地域一共有i个;
所述待识别账号的wpvp、wlvl、wrvr以及wdvd的计算公式与目标账号的wpup、wlul、wrur以及wdud的计算公式相同。
在步骤S4中,将目标账号的wpup、wlul、wrur以及wdud,结合待识别账号的wpvp、wlvl、wrvr以及wdvd,分别获得目标账号和待识别账号在登录IP、登录地域、登录直播间及登录设备之间的交集,并根据所述交集计算目标账号和待识别账号之间的相似度,并根据所述相似度判断目标账号和待识别账号是否为同一用户所有。
作为一个可选的实施方式,计算目标账号和待识别账号之间的相似度的方法为:
Figure GDA0003584592390000101
其中,目标账号为u,待识别账号为v,wuv是目标账号和待识别账号之间相似度;
Lu是目标账号的登录地域集合,Lv是待识别账号的登录地域集合,所述登录地域指的是城市,Lu∩Lv是目标账号和待识别账号共有的登录地域集合,wlul是目标账号对登录地域l的权重得分,wlvl是待识别账号对登录地域l的权重得分;
Ru是目标账号观看的登录直播间集合,Rv是待识别账号观看的登录直播间集合,Ru∩Rv是目标账号和待识别账号共有的登录直播间集合,wrur是目标账号对登录直播间r的权重得分,wrvr是待识别账号对登录直播间r的权重得分;
Pu是目标账号的登录IP集合,Pv是待识别账号的登录IP集合,Pu∩Pv是目标账号和待识别账号共有的登录IP集合,wpup是目标账号对登录IPp的权重得分,wpvp是待识别账号对登录IPp的权重得分,所述登录IPp表示标记为p的登录IP;
Du是目标账号使用的登录设备集合,Dv是待识别账号使用的登录设备集合,Du∩Dv是目标账号和待识别账号共有的登录设备集合,wdud是目标账号对登录设备d的权重得分,wdvd是待识别账号对登录设备d的权重得分;
Ti(i=1,2,3,4)是权重系数,取值范围在0到1之间,并且满足
Figure GDA0003584592390000111
具体地,可以根据自身判断的需求,根据登录IP、登录地域、登录直播间及登录设备分配不同的权重系数。
本发明实施例通过计算目标账号以及待识别账号的使用情况,从而获得不同账号的相似程度,并判断目标账号以及待识别账号是否为同一用户所有,从而为后续数据分析以及数据挖掘减轻工作量,提高效率。
作为一个可选的实施方式,本发明实施例中,根据所述相似度判断目标账号和待识别账号是否为同一用户所有的步骤包括:
若多个待识别账号和目标账号之间的相似度均超过预设的第一阈值,则将所有相似度超过第一阈值的对应待识别账号和目标账号作为节点,使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有;
具体的操作方式是根据现有的标签传播算法进行计算。
优选的,当若多个待识别账号和目标账号之间的相似度均超过预设的第一阈值,使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有后,还包括步骤:
对判断结果进行筛除,筛除与所述目标账号的相似度超过第二阈值的所述待识别账号;
此操作是由于标签传播算法的不稳定性,可能在计算后,一些相对相似度较低的所述待识别账号反而被识别为与目标账号为同一用户所有,用于进行筛除错误判断的所述待识别账号;
另外,还可作为二次筛选的操作,那么此时则需要第二阈值大于第一阈值,即当使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有后,再比较已经筛选出的待识别账号的相似度,进而二次筛选,筛除相似度小于第二阈值的待识别账号。
作为一个可选的实施方式,根据所述相似度判断目标账号和待识别账号是否为同一用户所有的步骤包括:
若目标账号和待识别账号之间的相似度超过预设的第三阈值,则判断目标账号和待识别账号为同一用户所有;
此操作,是针对待识别账号的相似度较高的情况,当待识别账号的相似度足够高,此时则无需再利用标签传播算法进行计算,例如当待识别账号相似度为0.99时;
故而第三阈值的数值较高,至少高于前面所述的第一阈值以及第二阈值。
本发明实施例基于目标账号以及待识别账号的相似程度,识别目标账号以及待识别账号是否为同一使用者使用,从而为后续数据分析以及数据挖掘减轻工作量,提高效率。
基于同一发明构思,本申请提供了实施例一对应的一种账号相似度计算系统,详见实施例二。
实施例二
如图2所示,本发明第二实施例还提供一种账号相似度计算系统,其包括:
账号信息获取模块1,用于获取目标账号和待识别账号的账号信息,所述账号信息包括登录IP、登录地域、登录直播间及登录设备;
第一计算模块2,用于根据目标账号的账号信息,计算目标账号中的各登录IP的IP权重分wpup、各登录地域的地域权重分wlul、各登录直播间的直播间权重分wrur以及各登录设备的设备权重分wdud
第二计算模块3,用于根据待识别账号的账号信息,计算待识别账号中的各登录IP的IP权重分wpvp、各登录地域的地域权重分wlvl、各登录直播间的直播间权重分wrvr以及各登录设备的设备权重分wdvd
相似度判断模块4,其用于将目标账号的wpup、wlul、wrur以及wdud,结合待识别账号的wpvp、wlvl、wrvr以及wdvd,分别获得目标账号和待识别账号在登录IP、登录地域、登录直播间及登录设备之间的交集,并根据所述交集计算目标账号和待识别账号之间的相似度,并根据所述相似度判断目标账号和待识别账号是否为同一用户所有。
作为一个可选的实施方式,IP权重分的公式为:
Figure GDA0003584592390000141
直播间权重分的公式为:
Figure GDA0003584592390000142
设备权重分的公式为:
Figure GDA0003584592390000143
地域权重分的公式为:
Figure GDA0003584592390000144
其中:xi是目标账号使用的第i个IP在一段时间内的观看次数,使用的IP一共有i个;
yi是目标账号使用的第i个设备在一段时间内的观看次数,使用的设备一共有i个;
zi是目标账号使用的第i个直播间在一段时间内的观看次数,观看的直播间一共有i个;
gi是目标账号使用的第i个地域在一段时间内的观看次数,观看的地域一共有i个;
所述待识别账号的wpvp、wlvl、wrvr以及wdvd的计算公式与目标账号的wpup、wlul、wrur以及wdud的计算公式相同。
作为一个可选的实施方式,计算目标账号和待识别账号之间的相似度的方法为:
Figure GDA0003584592390000151
其中,目标账号为u,待识别账号为v,wuv是目标账号和待识别账号之间相似度;
Lu是目标账号的登录地域集合,Lv是待识别账号的登录地域集合,所述登录地域指的是城市,Lu∩Lv是目标账号和待识别账号共有的登录地域集合,wlul是目标账号对登录地域l的权重得分,wlvl是待识别账号对登录地域l的权重得分;
Ru是目标账号观看的登录直播间集合,Rv是待识别账号观看的登录直播间集合,Ru∩Rv是目标账号和待识别账号共有的登录直播间集合,wrur是目标账号对登录直播间r的权重得分,wrvr是待识别账号对登录直播间r的权重得分;
Pu是目标账号的登录IP集合,Pv是待识别账号的登录IP集合,Pu∩Pv是目标账号和待识别账号共有的登录IP集合,wpup是目标账号对登录IPp的权重得分,wpvp是待识别账号对登录IPp的权重得分,所述登录IPp表示标记为p的登录IP;
Du是目标账号使用的登录设备集合,Dv是待识别账号使用的登录设备集合,Du∩Dv是目标账号和待识别账号共有的登录设备集合,wdud是目标账号对登录设备d的权重得分,wdvd是待识别账号对登录设备d的权重得分;
Ti(i=1,2,3,4)是权重系数,取值范围在0到1之间,并且满足
Figure GDA0003584592390000161
作为一个可选的实施方式,本发明实施例中,该系统还包括第一同人识别模块5,其用于若多个待识别账号和目标账号之间的相似度均超过预设的第一阈值,则将所有相似度超过第一阈值的对应待识别账号和目标账号作为节点,使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有;
具体的操作方式是根据现有的标签传播算法进行计算。
优选的,当若多个待识别账号和目标账号之间的相似度均超过预设的第一阈值,使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有后,第一同人识别模块5还包括以下操作:
对判断结果进行筛除,筛除与所述目标账号的相似度超过第二阈值的所述待识别账号;
此操作是由于标签传播算法的不稳定性,可能在计算后,一些相对相似度较低的所述待识别账号反而被识别为与目标账号为同一用户所有,用于进行筛除错误判断的所述待识别账号;
另外,还可作为二次筛选的操作,那么此时则需要第二阈值大于第一阈值,即当使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有后,再比较已经筛选出的待识别账号的相似度,进而二次筛选,筛除相似度小于第二阈值的待识别账号。
作为一个可选的实施方式,本发明实施例中,该系统还包括第二同人识别模块6,其用于:若目标账号和待识别账号之间的相似度超过预设的第三阈值,则判断目标账号和待识别账号为同一用户所有;
此操作,是针对待识别账号的相似度较高的情况,当待识别账号的相似度足够高,此时则无需再利用标签传播算法进行计算,例如当待识别账号相似度为0.99时;
故而第三阈值的数值较高,至少高于前面所述的第一阈值以及第二阈值。
本发明实施例通过计算目标账号以及待识别账号的使用情况,从而获得不同账号的相似程度,并判断目标账号以及待识别账号是否为同一用户所有,从而为后续数据分析以及数据挖掘减轻工作量,提高效率。
基于同一发明构思,本申请提供了实施例一对应的存储介质的实施例,详见实施例三
实施例三
本发明第三实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一实施例中的所有方法步骤或部分方法步骤。
本发明实现上述第一实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
基于同一发明构思,本申请提供了实施例一对应的电子设备的实施例,详见实施例四
实施例四
本发明第四实施例还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现第一实施例中的所有方法步骤或部分方法步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种账号相似度计算方法,用于识别目标账号与待识别账号是否为同一用户所有,其特征在于,其包括以下步骤:
获取目标账号和待识别账号的账号信息,所述账号信息包括登录IP、登录地域、登录直播间及登录设备;
根据目标账号的账号信息,计算目标账号中的各登录IP的IP权重分wpup、各登录地域的地域权重分wlul、各登录直播间的直播间权重分wrur以及各登录设备的设备权重分wdud
根据待识别账号的账号信息,计算待识别账号中的各登录IP的IP权重分wpvp、各登录地域的地域权重分wlvl、各登录直播间的直播间权重分wrvr以及各登录设备的设备权重分wdvd
将目标账号的wpup、wlul、wrur以及wdud,结合待识别账号的wpvp、wlvl、wrvr以及wdvd,分别获得目标账号和待识别账号在登录IP、登录地域、登录直播间及登录设备之间的交集,并根据所述交集计算目标账号和待识别账号之间的相似度,并根据所述相似度判断目标账号和待识别账号是否为同一用户所有;
计算目标账号和待识别账号之间的相似度的方法为:
Figure FDA0003584592380000011
其中,
目标账号为u,待识别账号为v,wuv是目标账号和待识别账号之间相似度;
Lu是目标账号的登录地域集合,Lv是待识别账号的登录地域集合,所述登录地域指的是城市,Lu∩Lv是目标账号和待识别账号共有的登录地域集合,wlul是目标账号对登录地域l的权重得分,wlvl是待识别账号对登录地域l的权重得分;
Ru是目标账号观看的登录直播间集合,Rv是待识别账号观看的登录直播间集合,Ru∩Rv是目标账号和待识别账号共有的登录直播间集合,wrur是目标账号对登录直播间r的权重得分,wrvr是待识别账号对登录直播间r的权重得分;
Pu是目标账号的登录IP集合,Pv是待识别账号的登录IP集合,Pu∩Pv是目标账号和待识别账号共有的登录IP集合,wpup是目标账号对登录IPp的权重得分,wpvp是待识别账号对登录IPp的权重得分,所述登录IPp表示标记为p的登录IP;
Du是目标账号使用的登录设备集合,Dv是待识别账号使用的登录设备集合,Du∩Dv是目标账号和待识别账号共有的登录设备集合,wdud是目标账号对登录设备d的权重得分,wdvd是待识别账号对登录设备d的权重得分;
Ti(i=1,2,3,4)是权重系数,取值范围在0到1之间,并且满足
Figure FDA0003584592380000021
2.如权利要求1所述的一种账号相似度计算方法,其特征在于,IP权重分的公式为:
Figure FDA0003584592380000022
直播间权重分的公式为:
Figure FDA0003584592380000031
设备权重分的公式为:
Figure FDA0003584592380000032
地域权重分的公式为:
Figure FDA0003584592380000033
其中:xi是目标账号使用的第i个IP在一段时间内的观看次数,使用的IP一共有i个;
yi是目标账号使用的第i个设备在一段时间内的观看次数,使用的设备一共有i个;
zi是目标账号使用的第i个直播间在一段时间内的观看次数,观看的直播间一共有i个;
gi是目标账号使用的第i个地域在一段时间内的观看次数,观看的地域一共有i个;
所述待识别账号的wpvp、wlvl、wrvr以及wdvd的计算公式与目标账号的wpup、wlul、wrur以及wdud的计算公式相同。
3.如权利要求1所述的方法,其特征在于,所述获取目标账号和待识别账号的账号信息之前,还包括步骤:
对各所述待识别账号进行筛选,筛除存在恶意使用行为的所述待识别账号。
4.如权利要求1所述的方法,其特征在于,根据所述相似度判断目标账号和待识别账号是否为同一用户所有的步骤包括:
若多个待识别账号和目标账号之间的相似度均超过预设的第一阈值,则将所有相似度超过第一阈值的对应待识别账号和目标账号作为节点,使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有。
5.如权利要求4所述的方法,其特征在于,所述使用标签传播算法判断哪些待识别账号与目标账号为同一用户所有之后,还包括步骤:
对判断结果进行筛除,筛除与所述目标账号的相似度超过第二阈值的所述待识别账号。
6.如权利要求1所述的方法,其特征在于,根据所述相似度判断目标账号和待识别账号是否为同一用户所有的步骤包括:
若目标账号和待识别账号之间的相似度超过预设的第三阈值,则判断目标账号和待识别账号为同一用户所有。
7.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至6任一项所述的方法。
8.一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的方法。
9.一种账号相似度计算系统,其特征在于,其包括:
账号信息获取模块,用于获取目标账号和待识别账号的账号信息,所述账号信息包括登录IP、登录地域、登录直播间及登录设备;
第一计算模块,用于根据目标账号的账号信息,计算目标账号中的各登录IP的IP权重分wpup、各登录地域的地域权重分wlul、各登录直播间的直播间权重分wrur以及各登录设备的设备权重分wdud
第二计算模块,用于根据待识别账号的账号信息,计算待识别账号中的各登录IP的IP权重分wpvp、各登录地域的地域权重分wlvl、各登录直播间的直播间权重分wrvr以及各登录设备的设备权重分wdvd
相似度判断模块,其用于将目标账号的wpup、wlul、wrur以及wdud,结合待识别账号的wpvp、wlvl、wrvr以及wdvd,分别获得目标账号和待识别账号在登录IP、登录地域、登录直播间及登录设备之间的交集,并根据所述交集计算目标账号和待识别账号之间的相似度,并根据所述相似度判断目标账号和待识别账号是否为同一用户所有;
所述相似度判断模块计算目标账号和待识别账号之间的相似度时基于的计算公式为:
Figure FDA0003584592380000051
其中,
目标账号为u,待识别账号为v,wuv是目标账号和待识别账号之间相似度;
Lu是目标账号的登录地域集合,Lv是待识别账号的登录地域集合,所述登录地域指的是城市,Lu∩Lv是目标账号和待识别账号共有的登录地域集合,wlul是目标账号对登录地域l的权重得分,wlvl是待识别账号对登录地域l的权重得分;
Ru是目标账号观看的登录直播间集合,Rv是待识别账号观看的登录直播间集合,Ru∩Rv是目标账号和待识别账号共有的登录直播间集合,wrur是目标账号对登录直播间r的权重得分,wrvr是待识别账号对登录直播间r的权重得分;
Pu是目标账号的登录IP集合,Pv是待识别账号的登录IP集合,Pu∩Pv是目标账号和待识别账号共有的登录IP集合,wpup是目标账号对登录IPp的权重得分,wpvp是待识别账号对登录IPp的权重得分,所述登录IPp表示标记为p的登录IP;
Du是目标账号使用的登录设备集合,Dv是待识别账号使用的登录设备集合,Du∩Dv是目标账号和待识别账号共有的登录设备集合,wdud是目标账号对登录设备d的权重得分,wdvd是待识别账号对登录设备d的权重得分;
Ti(i=1,2,3,4)是权重系数,取值范围在0到1之间,并且满足
Figure FDA0003584592380000061
CN201810731426.2A 2018-07-05 2018-07-05 一种账号相似度计算方法、存储介质、电子设备及系统 Active CN110750681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810731426.2A CN110750681B (zh) 2018-07-05 2018-07-05 一种账号相似度计算方法、存储介质、电子设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810731426.2A CN110750681B (zh) 2018-07-05 2018-07-05 一种账号相似度计算方法、存储介质、电子设备及系统

Publications (2)

Publication Number Publication Date
CN110750681A CN110750681A (zh) 2020-02-04
CN110750681B true CN110750681B (zh) 2022-08-16

Family

ID=69274827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810731426.2A Active CN110750681B (zh) 2018-07-05 2018-07-05 一种账号相似度计算方法、存储介质、电子设备及系统

Country Status (1)

Country Link
CN (1) CN110750681B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113114770B (zh) * 2021-04-14 2022-08-09 每日互动股份有限公司 用户识别方法、电子设备和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593799A (zh) * 2012-08-16 2014-02-19 腾讯科技(深圳)有限公司 自然人信息设置方法、系统及相应的好友推荐方法、系统
WO2017211051A1 (zh) * 2016-06-06 2017-12-14 腾讯科技(深圳)有限公司 目标对象的社交账号挖掘方法、服务器和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104094279B (zh) * 2014-04-30 2017-05-10 中国科学院自动化研究所 大范围优先的跨摄像机视觉目标再识别方法
CN105095306B (zh) * 2014-05-20 2019-04-09 阿里巴巴集团控股有限公司 基于关联对象进行操作的方法及装置
CN107679734A (zh) * 2017-09-27 2018-02-09 成都四方伟业软件股份有限公司 一种用于无标签数据分类预测的方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593799A (zh) * 2012-08-16 2014-02-19 腾讯科技(深圳)有限公司 自然人信息设置方法、系统及相应的好友推荐方法、系统
WO2017211051A1 (zh) * 2016-06-06 2017-12-14 腾讯科技(深圳)有限公司 目标对象的社交账号挖掘方法、服务器和存储介质

Also Published As

Publication number Publication date
CN110750681A (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
CN106657057B (zh) 反爬虫系统及方法
US20150248592A1 (en) Method and device for identifying target object in image
CN108521588B (zh) 基于时间分片的主播排名方法及系统、服务器及存储介质
CN109379608B (zh) 一种直播间的推荐方法以及相关设备
CN108985954B (zh) 一种建立各标识的关联关系的方法以及相关设备
CN109255391B (zh) 一种识别恶意用户的方法、装置及存储介质
CN110876072B (zh) 一种批量注册用户识别方法、存储介质、电子设备及系统
CN109741222A (zh) 一种核电厂培训管理系统
CN112668453A (zh) 视频识别方法及相关设备
CN110750681B (zh) 一种账号相似度计算方法、存储介质、电子设备及系统
CN114820758A (zh) 植物生长高度测量方法、装置、电子设备及介质
US20160188680A1 (en) Electronic device and information searching method for the electronic device
CN106341704A (zh) 一种基于主播的推荐方法及装置
CN113869230A (zh) 足球进球类型识别方法、装置、系统及存储介质
CN111128233A (zh) 录音检测方法、装置、电子设备及存储介质
CN115037790B (zh) 异常注册识别方法、装置、设备及存储介质
CN106792227A (zh) 一种直播中互动的方法及装置
CN109191140B (zh) 一种评分卡模型整合方法及装置
US11954875B2 (en) Method for determining height of plant, electronic device, and storage medium
CN110765171B (zh) 一种不良用户甄别方法、存储介质、电子设备及系统
CN114677319A (zh) 干细胞分布确定方法、装置、电子设备及存储介质
CN112084412A (zh) 信息推送方法、装置、设备及存储介质
CN111382626A (zh) 视频中违规图像的检测方法、装置、设备及存储介质
CN110688371B (zh) 数据调整方法、装置、电子设备及存储介质
CN110647805A (zh) 一种网纹图像识别方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant