CN112261484B - 一种目标用户识别方法、装置、电子设备和存储介质 - Google Patents

一种目标用户识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112261484B
CN112261484B CN202011514090.8A CN202011514090A CN112261484B CN 112261484 B CN112261484 B CN 112261484B CN 202011514090 A CN202011514090 A CN 202011514090A CN 112261484 B CN112261484 B CN 112261484B
Authority
CN
China
Prior art keywords
account
information
determining
accounts
candidate user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011514090.8A
Other languages
English (en)
Other versions
CN112261484A (zh
Inventor
王璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN202011514090.8A priority Critical patent/CN112261484B/zh
Publication of CN112261484A publication Critical patent/CN112261484A/zh
Application granted granted Critical
Publication of CN112261484B publication Critical patent/CN112261484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4753End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for user identification, e.g. by entering a PIN or password
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting

Abstract

本发明实施例公开了一种目标用户识别方法、装置、电子设备和存储介质,该方法包括:分别统计直播平台各账号的关联信息,每个账号的关联信息包括至少两种原始子信息;根据关联信息中包括预设子信息且已知属性的账号数量确定预设子信息对于目标用户识别的重要程度;根据各预设子信息对于目标用户识别的重要程度,确定达到重要性阈值的目标子信息;将关联信息中包括目标子信息的账号确定为候选用户账号团体;基于候选用户账号团体识别目标用户的账号。通过本发明实施例的技术方案,实现了对目标用户团体的准确识别与查找,并且降低了识别成本的技术效果。

Description

一种目标用户识别方法、装置、电子设备和存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种目标用户识别方法、装置、电子设备和存储介质。
背景技术
在直播网站上,普遍存在着一些刷弹幕、刷关注等刷人气的作弊行为。由于巨大利益的存在,这些作弊行为已经发展成完整的黑色产业链条。
基于平台(例如直播网站)的作弊行为大多具有团伙性质,且上述作弊行为还会造成网络堵塞、直播平台服务器压力过大等问题。因此为了降低上述作弊行为带来的负面影响,采用合理的方法找到有作弊嫌疑的团伙意义重大。
发明内容
本发明实施例提供了一种目标用户识别方法、装置、电子设备和存储介质,实现了对目标用户团体的准确识别与查找。
第一方面,本发明实施例提供了一种目标用户识别方法,包括:
分别统计直播平台各账号的关联信息,每个账号的所述关联信息包括至少两种原始子信息;
根据关联信息中包括预设子信息且已知属性的账号数量确定所述预设子信息对于目标用户识别的重要程度;
根据各所述预设子信息对于目标用户识别的重要程度,确定达到重要性阈值的目标子信息;
将关联信息中包括所述目标子信息的账号确定为候选用户账号团体;
基于所述候选用户账号团体识别目标用户的账号。
第二方面,本发明实施例还提供了一种目标用户识别装置,包括:
统计模块,用于分别统计直播平台各账号的关联信息,每个账号的所述关联信息包括至少两种原始子信息;
第一确定模块,用于根据关联信息中包括预设子信息且已知属性的账号数量确定所述预设子信息对于目标用户识别的重要程度;
第二确定模块,用于根据各所述预设子信息对于目标用户识别的重要程度,确定达到重要性阈值的目标子信息;
第三确定模块,用于将关联信息中包括所述目标子信息的账号确定为候选用户账号团体;
识别模块,用于基于所述候选用户账号团体识别目标用户的账号。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所提供的目标用户识别方法步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的目标用户识别方法步骤。
本发明实施例的技术方案,通过统计各账号的关联信息,根据关联信息中的预设子信息且已知属性的账号数量确定预设子信息对于目标用户识别的重要程度,根据预设子信息对于目标用户识别的重要程度以及重要性阈值确定目标子信息,将关联信息中包括目标子信息的账号确定为候选用户账号团体并基于候选用户账号团体识别目标用户的账号,解决了通过构造复杂的关联关系确定目标用户团体时成本较高的问题,实现了对目标用户团体的准确识别与查找,并且降低了识别成本的技术效果。
附图说明
图1是本发明实施例一提供的一种目标用户识别方法的流程图;
图2是本发明实施例二提供的一种目标用户识别方法的流程图;
图3是本发明实施例三提供的一种目标用户识别装置的结构示意图;
图4是本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种目标用户识别方法的流程图,本实施例提供的目标用户识别方法可适用于对各个直播场景中的作弊团伙进行识别和防控的情况。该方法可以由目标用户识别装置来执行,该装置可以由软件和/或硬件的方式来实现,通常集成于终端,例如与直播平台对应的服务器。
如图1所示,该方法具体包括以下步骤:
S110、分别统计直播平台各账号的关联信息,每个账号的关联信息包括至少两种原始子信息。
其中,关联信息为直播平台账号的相关信息,例如:使用账号的终端设备的相关信息,账号的LBS(Location Based Services,基于位置的服务)信息,账号的行为信息以及账号的基础信息等。上述每一种信息均可以作为一个原始子信息,原始子信息为关联信息中的一种信息。
需要说明的是,为了提高目标用户的识别准确率,可以统计尽可能多的关联信息。若每个账号的关联信息中的原始子信息数量增多,则识别准确率提升。
具体的,针对直播平台的各个账号可以统计各个账号的关联信息,可以通过行为打点采集各个账号的用户行为日志,根据用户行为日志可以确定账号的行为信息,针对各个账号可以获取账号所使用的网络环境信息,例如:互联网协议地址IP以及全球定位系统GPS坐标等,并且,可以获取各个账号所使用的终端设备的相关信息。同时,可以从账号注册时的信息中获取与账号注册相关的关联信息。获取上述信息中的至少两个原始子信息作为账号的关联信息。
行为打点是为了统计用户账号行为在工程中需要埋点的地方(如点击事件、页面跳转)插入埋点代码,之后,用户账号的网上行为便会记录在用户行为日志中。同时,在用户行为日志中还记录了用户账号进行网上行为时所使用的网络环境信息和所使用的终端设备信息等。
S120、根据关联信息中包括预设子信息且已知属性的账号数量确定预设子信息对于目标用户识别的重要程度。
其中,目标用户可以是具有作弊行为的用户。预设子信息是预先设置的原始子信息,需要对预设子信息的重要程度进行确定,以确定该预设子信息是否用于识别目标用户。属性是用于指示账号是否为异常账号的信息,例如可以是将账号标记为异常或未标记为异常。已知属性的账号是预先确定属性的账号,可以是根据账号异常行为确定的,也可以是通过算法统计确定的,在本实施例中不作具体限定。需要说明的是,标记为异常的账号就是目标用户。
在识别目标用户的过程中,对于不同的原始子信息可以计算其对于目标用户识别的重要程度。通常情况下,一些作弊团伙会规避成本较高的原始子信息,例如:账号身份表示ID,此时该原始子信息的重要程度比较高,而一些原始子信息,例如:账号的注册来源等,两个账号相同是普遍现象,因此,重要程度比较低。
具体的,为了确定预设子信息对于目标用户识别的重要程度,可以确定关联信息中包含预设子信息的账号,从上述账号中分别确定属性为标记为异常的账号数量以及未标记为异常的账号数量。进一步,可以根据包含预设子信息的账号中的预设子信息的具体内容,确定预设子信息与账号是否为异常账号的关联程度。其中,计算关联程度的方式可以是灰色关联分析计算方法等。
S130、根据各预设子信息对于目标用户识别的重要程度,确定达到重要性阈值的目标子信息。
其中,重要性阈值是用于判断各原始子信息是否为用于识别目标用户的子信息。目标子信息为用于识别目标用户的子信息。
具体的,可以预先设置重要性阈值,当预设子信息对于目标用户识别的重要程度大于或等于重要性阈值时,表明预设子信息可用于识别目标用户,确定预设子信息为目标子信息;当预设子信息对于目标用户识别的重要程度小于重要性阈值时,表明预设子信息与账号是否为目标用户的账号关联关系较小,不用于后续识别目标用户使用。重要性阈值的确定方法可以是将各预设子信息按重要程度从小到大排序,确定其中位数为重要性阈值,也可以是确定各预设子信息的重要程度的平均值为重要性阈值等,在本实施例中对于重要性阈值的确定方法不作具体限定。
S140、将关联信息中包括目标子信息的账号确定为候选用户账号团体。
其中,候选用户账号团体是账号的关联信息中包括目标子信息的账号组成的集合,用于后续判断账号是否为目标用户的账号。
具体的,目标子信息与账号是否为异常账号的关联程度较高,因此,可以将关联信息中包括目标子信息取值相同的账号确定为候选用户账号团体,以用于后续判断账号是否与候选用户账号团体相关。
示例性的,目标子信息包括A,B以及C,目标子信息A的取值包括A1,A2以及A3,目标 子信息B的取值包括B1以及B2,目标子信息C的取值包括C1以及C2。假设账号信息集合为I, 使用
Figure DEST_PATH_IMAGE001
表示目标子信息i取值为j。那么,目标子信息的取值为
Figure 100002_DEST_PATH_IMAGE002
Figure 100002_DEST_PATH_IMAGE004
Figure 100002_DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE011
以 及
Figure DEST_PATH_IMAGE013
。进一步,可以根据目标子信息的取值确定对应的候选用户账号团体为
Figure 100002_DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
Figure 100002_DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
Figure 100002_DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
以及
Figure 100002_DEST_PATH_IMAGE020
S150、基于候选用户账号团体识别目标用户的账号。
具体的,用户账号的关联信息中包括至少两种原始子信息,判断用户账号中的预设子信息是否为目标子信息,若用户账号的预设子信息不是目标子信息,则无需根据该预设子信息进行目标用户的识别;若用户账号的预设子信息是目标子信息,则可以确定用户账号的预设子信息所对应的候选用户账号团体,进一步,根据候选用户账号团体进行目标用户的账号识别。
示例性的,可以确定用户账号的嫌疑程度,若用户账号的多个预设子信息均是目 标子信息,则可以对上述各个预设子信息的嫌疑程度求和得到最终的嫌疑程度。假设账号 信息集合为G,使用
Figure DEST_PATH_IMAGE021
表示第i种目标子信息中第j个取值时的账号信息集合。当前用户账 号包括预设子信息A,B,C以及D,其中,预设子信息A和C是目标子信息,当前用户账号预设子 信息A的取值为A1,预设子信息C的取值为C2。与当前用户账号所对应的候选用户账号团体 为
Figure 100002_DEST_PATH_IMAGE022
以及
Figure 735814DEST_PATH_IMAGE020
。根据
Figure 100002_DEST_PATH_IMAGE023
可以确定当前用户账号的嫌疑程度为m,根据
Figure 662182DEST_PATH_IMAGE020
可以确定当前 用户账号的嫌疑程度为n,则当前用户账号的嫌疑程度为m+n。
可选的,可以设置嫌疑程度阈值用来判断用户账号是否为目标用户的账号。当当前用户账号的嫌疑程度小于嫌疑程度阈值时,将当前用户账号确定为非目标用户的账号。当当前用户账号的嫌疑程度大于或等于嫌疑程度阈值时,将当前用户账号确定为目标用户的账号。
本实施例的技术方案,通过统计各账号的关联信息,根据关联信息中的预设子信息且已知属性的账号数量确定预设子信息对于目标用户识别的重要程度,根据预设子信息对于目标用户识别的重要程度以及重要性阈值确定目标子信息,将关联信息中包括目标子信息的账号确定为候选用户账号团体并基于候选用户账号团体识别目标用户的账号,解决了通过构造复杂的关联关系确定目标用户团体时成本较高的问题,实现了对目标用户团体的准确识别与查找,并且降低了识别成本的技术效果。
实施例二
图2为本发明实施例二提供的一种目标用户识别方法的流程图,本实施例在上述实施例的基础上,针对预设子信息对于目标用户识别的重要程度以及基于候选用户账号团体识别目标用户的账号进行了优化。其中与上述实施例相同或相应的术语的解释在此不再赘述。
S201、分别统计直播平台各账号的关联信息,每个账号的关联信息包括至少两种原始子信息。
其中,关联信息为直播平台账号的相关信息,原始子信息为关联信息中的一种信息。
可选的,原始子信息的种类包括下述任意一种:账号身份标识ID,使用账号的终端型号、终端厂商、中央处理器CPU型号、电池电量、屏幕亮度,互联网协议地址IP,全球定位系统GPS坐标,账号行为类型,账号行为时间,账号的注册时间以及账号的注册来源。
其中,账号身份标识ID,使用账号的终端型号、终端厂商、中央处理器CPU型号、电池电量以及屏幕亮度属于账号在使用时的相关信息,互联网协议地址IP和全球定位系统GPS坐标属于账号在使用时的网络环境信息,账号行为类型和账号行为时间属于账号在各个使用场景下的行为信息,账号的注册时间和账号的注册来源属于账号的基础信息。上述各原始子信息均是与目标用户识别相关的,例如:具有作弊行为的用户可能使用大量具有相同注册来源的账号进行作弊等。
为了提高目标用户识别的准确率,需要尽可能多的采集账号关联信息中的原始子信息。
S202、确定关联信息中包括预设子信息且被标记为异常的第一账号数量,以及关联信息中包括预设子信息且未被标记为异常的第二账号数量。
具体的,将确定关联信息中包含预设子信息的账号,从上述账号中确定被标记为异常的账号数量以及未被标记为异常的账号数量。将被标记为异常的账号数量作为第一账号数量,并将未被标记为异常的账号数量作为第二账号数量。需要说明的是,被标记为异常的账号可以是根据历史积累的黑名单确定的,例如通过各种规则和策略在各个业务场景中识别的异常账号。
第一账号数量与第二账号数量的关系如下:
Figure 100002_DEST_PATH_IMAGE024
其中,N表示关联关系中包括预设子信息的账号数量总数,
Figure DEST_PATH_IMAGE025
表示第一账号数量,
Figure 100002_DEST_PATH_IMAGE026
表示第二账号数量。
S203、根据关联信息中包括预设子信息且被标记为异常的第一账号对数、关联信息中包括预设子信息且未被标记为异常的第二账号对数、以及关联信息中包括预设子信息的账号对中一个账号被标记为异常且另一个账号未被标记为异常的第三账号对数确定关联信息中包括预设子信息的账号总对数。
具体的,将关联信息中包括取值相同的预设子信息且被标记为异常的账号对数作为第一账号对数,将关联信息中包括取值相同的预设子信息且未被标记为异常的账号对数作为第二账号对数,将关联信息中包括取值相同的预设子信息的账号对中一个账号被标记为异常且另一个账号未被标记为异常的账号对数作为第三账号对数,对第一账号对数,第二账号对数以及第三账号对数进行求和可以得到关联信息中包括预设子信息的账号总对数。
示例性的,在计算第一账号对数,第二账号对数以及第三账号对数时,将关联信息中包括取值相同的预设子信息的两个账号作为一对账号。若这一对账号都被标记为异常,则第一账号对数加一;若这一对账号都未被标记为异常,则第二账号对数加一;若这一对账号中一个账号被标记为异常,另一个账号未被标记为异常,则第三账号对数加一。进一步的,根据如下公式确定关联信息中包括预设子信息的账号总对数:
Figure 100002_DEST_PATH_IMAGE027
其中,M表示关联信息中包括取值相同的预设子信息的账号总对数,
Figure 100002_DEST_PATH_IMAGE028
表示第一 账号对数,
Figure 100002_DEST_PATH_IMAGE030
表示第三账号对数,
Figure DEST_PATH_IMAGE031
表示第二账号对数。
S204、根据第一账号数量、第二账号数量、第一账号对数、第三账号对数以及账号总对数确定预设子信息对于目标用户识别的重要程度。
可以按照如下步骤确定预设子信息对于目标用户识别的重要程度:
步骤一、根据第一账号数量、第二账号数量、第一账号对数、第三账号对数以及账号总对数分别确定第一账号对数以及第三账号对数的期望值。
具体的,基于如下公式可以确定第一账号对数以及第三账号对数的期望值:
Figure 100002_DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
其中,
Figure 100002_DEST_PATH_IMAGE034
表示第一账号对数
Figure DEST_PATH_IMAGE035
的期望值,
Figure 100002_DEST_PATH_IMAGE036
表示第三账号对数
Figure DEST_PATH_IMAGE037
的期望值,
Figure 100002_DEST_PATH_IMAGE038
表示第一账号数量,
Figure 100002_DEST_PATH_IMAGE040
表示第二账号数量,
Figure DEST_PATH_IMAGE041
表示各账号之间成为账 号对的可能性,
Figure 100002_DEST_PATH_IMAGE042
,其中,M表示关联信息中包括取值相同的预设子信息的账号总 对数,N表示第一账号数量与第二账号数量之和。
具体的,
Figure DEST_PATH_IMAGE043
用于表示各账号之间的关联性,即各账号之间成为账号对的可能性,可 以用
Figure 850456DEST_PATH_IMAGE042
表示。其中,
Figure 100002_DEST_PATH_IMAGE044
表示各账号成为账号对的最大数量,M表示实际成为 账号对的数量,将实际成为账号对的数量除以各账号成为账号对的最大数量可以得到各账 号之间成为账号对的可能性。
从被标记为异常的账号中,任取两个的组合共有
Figure DEST_PATH_IMAGE045
种。因此,两个账号都被标记 异常的期望值是被标记为异常的账号中任取两个的组合数乘以各账号之间成为账号对的 可能性,即
Figure 100002_DEST_PATH_IMAGE046
。同理可知,从关联信息中包括预设子信息的账号中,确定一个账号被标记 为异常且另一个账号未被标记为异常的账号的组合有
Figure DEST_PATH_IMAGE047
种,因此,一个账号被标记为异 常且另一个账号未被标记为异常的期望值为
Figure 100002_DEST_PATH_IMAGE048
步骤二、根据第一账号对数以及第一账号对数的期望值确定预设子信息的异常关联性。
其中,异常关联性用于反映被标记为异常的账号之间的关联程度,可以使用第一账号对数值除以第一账号对数的期望值来进行计算。
具体的,基于如下公式可以确定异常关联性:
Figure DEST_PATH_IMAGE049
其中,d表示异常关联性,
Figure 100002_DEST_PATH_IMAGE050
表示第一账号对数
Figure DEST_PATH_IMAGE051
的期望值。
步骤三、根据第三账号对数以及第三账号对数的期望值确定预设子信息的二分性。
其中,二分性用于反映被标记为异常的账号与未被标记为异常的账号之间的关联程度,可以使用第三账号对数值除以第三账号对数的期望值来进行计算。
具体的,基于如下公式可以确定二分性:
Figure 100002_DEST_PATH_IMAGE052
其中,h表示二分性,
Figure 469656DEST_PATH_IMAGE036
表示第三账号对数
Figure DEST_PATH_IMAGE053
的期望值。
步骤四、根据异常关联性以及二分性确定预设子信息对于目标用户识别的重要程度。
异常关联性越高,表明被标记为异常的账号之间的关联程度越高,那么,使用预设子信息进行目标用户识别时,更容易找到异常的账号,即识别出目标用户的账号。二分性越高表明被标记为异常的账号与未被标记为异常的账号之间的关联程度越高,那么,使用预设子信息进行目标用户识别时,容易造成被标记为异常的账号与未被标记为异常的账号之间的混淆,易发生误判。因此,能够用于识别目标用户的子信息需要具有高异常关联性以及低二分性。
具体的,异常关联性越高,预设子信息对于目标用户识别的重要程度越高;二分性越低,预设子信息对于目标用户识别的重要程度越高。
可选的,预设子信息对于目标用户识别的重要程度可以使用预设子信息所对应的异常关联性除以二分性确定。
具体的,基于如下公式确定重要程度:
Figure 100002_DEST_PATH_IMAGE054
其中,imp表示重要程度,d表示异常关联性,h表示二分性。根据上式可以确定,异常关联性越大、二分性越小,预设子信息的重要程度越高。
示例性的,统计直播平台各账号的信息得到包含预设子信息A的账号数量有N= 1000,其中,
Figure DEST_PATH_IMAGE055
=900,
Figure 687754DEST_PATH_IMAGE025
=100。并且,统计得出预设子信息A取值相同的账号总对数为M= 15000,其中,
Figure 27600DEST_PATH_IMAGE035
=2000,
Figure 962058DEST_PATH_IMAGE037
=10000,
Figure 100002_DEST_PATH_IMAGE056
=3000。因此,可以计算得出:
Figure DEST_PATH_IMAGE057
Figure 100002_DEST_PATH_IMAGE058
Figure DEST_PATH_IMAGE059
Figure DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE061
Figure DEST_PATH_IMAGE062
由此可知,关联信息中的预设子信息A对于目标用户识别的重要程度为3.6。
S205、根据各预设子信息对于目标用户识别的重要程度,确定达到重要性阈值的目标子信息。
示例性的,假设对于关联信息中的第i个预设子信息,按照上述方法可以计算得到 异常关联性
Figure DEST_PATH_IMAGE063
和二分性
Figure DEST_PATH_IMAGE064
,从而得到
Figure DEST_PATH_IMAGE066
。可以预先设置重要性阈值
Figure DEST_PATH_IMAGE067
,若 满足
Figure DEST_PATH_IMAGE068
,则表明预设子信息可用于识别目标用户,确定预设子信息 为目标子信息。若使用账号的终端型号对应的imp=3.6,重要性阈值为3,则使用账号的终端 型号可以作为目标子信息。
可选的,重要性阈值的设定方法可以是根据采集到的已知属性是异常的账号的关联信息确定的。按照重要程度的计算方法,可以得到明显是异常的账号的各个预设子信息所对应的重要程度。将上述各个预设子信息所对应的重要程度从大到小进行排序,并将上述重要程度排列的中位数作为重要性阈值。
S206、将关联信息中包括目标子信息的账号确定为候选用户账号团体。
具体的,可以确定关联信息中包括目标子信息的取值为I。可以使用
Figure DEST_PATH_IMAGE069
表示第i种 子信息的第j种取值。将具有相同目标子信息取值,即均包含
Figure 706154DEST_PATH_IMAGE069
的账号归为一个候选用户账 号团体,记为
Figure 726063DEST_PATH_IMAGE021
示例性的,账号的关联信息中包括目标子信息A和B,目标子信息A对应的取值为
Figure DEST_PATH_IMAGE070
以及
Figure DEST_PATH_IMAGE071
,目标子信息B对应的取值为
Figure DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE073
以及
Figure DEST_PATH_IMAGE074
,那么,候选用户账号团体为
Figure DEST_PATH_IMAGE075
Figure DEST_PATH_IMAGE076
Figure DEST_PATH_IMAGE077
Figure DEST_PATH_IMAGE078
以及
Figure DEST_PATH_IMAGE079
需要说明的是,由于一个账号具有至少两个原始子信息,因此,一个账号可以出现在多个候选用户账号团体中。
S207、根据候选用户账号团体的成员数以及候选用户账号团体中任意两个成员账号的目标子信息之间的相似度确定候选用户账号团体的内联性。
其中,内联性用于表示候选用户账号团体内部各个账号之间的紧密程度。
具体的,基于如下公式确定内联性:
Figure DEST_PATH_IMAGE080
其中,
Figure DEST_PATH_IMAGE081
表示候选用户账号团体
Figure DEST_PATH_IMAGE082
的内联性,
Figure DEST_PATH_IMAGE083
表示候选用户账号团 体g的成员数;uv表示候选用户账号团体中任意两个用户账号;
Figure DEST_PATH_IMAGE084
表示在目标子信 息i上用户账号uv之间的相似度,I表示原始子信息的集合,对于数值类的目标子信息
Figure DEST_PATH_IMAGE085
,对于二值类的目标子信息
Figure DEST_PATH_IMAGE086
具体的,内联性可以根据账号之间的紧密程度的平均值确定。因此,可以采用
Figure DEST_PATH_IMAGE087
计算团体内账号之间的紧密程度之和。其中,
Figure DEST_PATH_IMAGE088
表示的团体内任意两个账号的紧密程度,该紧密程度是由各账号信息相 似度
Figure 758347DEST_PATH_IMAGE084
加权得到的,
Figure 547312DEST_PATH_IMAGE084
表示在目标子信息i上用户账号uv之间的相似度。其 中,权重可以用于表示账号信息的重要性,越重要的信息可以给予越高的权重。在计算得到 账号之间的紧密程度之和后,候选用户账号团体中不同账号对总数量是
Figure DEST_PATH_IMAGE089
。因此,将 紧密程度之和除以账号对数即可得到内联性。
示例性的,候选用户账号团体g的成员数3,目标子信息包括两个,在每个目标子信 息上候选用户账号团体中任意两个用户账号的相似度F应当有3个,第一个目标子信息对应 的
Figure DEST_PATH_IMAGE091
分别为:0.3,0.2以及0.4。并且,
Figure DEST_PATH_IMAGE092
;第二个目标子信息对应的
Figure DEST_PATH_IMAGE093
分别为:0,1 以及0。并且,
Figure DEST_PATH_IMAGE094
。此时候选用户账号团体g的内联性为:
Figure DEST_PATH_IMAGE095
S208、根据任意两个候选用户账号团体中共同用户账号的数量以及每个候选用户账号团体的成员数确定任意两个候选用户账号团体之间的外联性。
其中,外联性用于表示任意两个候选用户账号团体之间的紧密程度。
具体的,基于如下公式确定外联性:
Figure DEST_PATH_IMAGE096
其中,
Figure DEST_PATH_IMAGE097
表示任意两个候选用户账号团体
Figure DEST_PATH_IMAGE099
的外联性,
Figure DEST_PATH_IMAGE100
表示用户账号团体
Figure DEST_PATH_IMAGE101
之间共同用户账号的数量,
Figure DEST_PATH_IMAGE102
表示用户账号团体
Figure 748396DEST_PATH_IMAGE099
中成员数较小的一个。
根据上述公式可知,两个候选用户账号团体中的共同用户账号的数量
Figure DEST_PATH_IMAGE103
越 多,表明两个候选用户账号团体之间的紧密程度越高。为了考虑候选用户账号团体之间的 规模效应,可以使用两个候选用户账号团体中的共同用户账号的数量除以两个团伙账号的 账号成员数较小的一个,即
Figure DEST_PATH_IMAGE104
,得到任意两个候选用户账号团体
Figure DEST_PATH_IMAGE105
的外联 性。
示例性的,用户账号团体
Figure DEST_PATH_IMAGE106
的账号数量为150,用户账号团体
Figure DEST_PATH_IMAGE108
的账号数量为 300,用户账号团体
Figure 849076DEST_PATH_IMAGE105
之间共同用户账号的数量为50,此时用户账号团体
Figure 389779DEST_PATH_IMAGE099
之间的 外联性为:
Figure DEST_PATH_IMAGE109
S209、判断若两个候选用户账号团体的外联性达到外联阈值时,两个候选用户账号团体中的候选用户账号团体的内联性小于内联阈值的数量,若数量为0,则执行S210;若数量为1,则执行S211。
其中,外联阈值以及内联阈值是预先设置的阈值,用于根据外联性和内联性确定是否将两个候选用户账号团体合并。
外联性用于表示任意两个候选用户账号团体之间的紧密程度,因此,当外联性大于外联阈值时,才可能将两个候选用户账号团体合并。
当两个候选用户账号团体的外联性大于外联阈值时,根据候选用户账号团体的内联性大于内联阈值的数量,确定候选用户账号的合并方式。
若当两个候选用户账号团体的外联性大于外联阈值时,两个候选用户账号团体中的候选用户账号团体的内联性小于或等于内联阈值的数量为2,则表示两个候选用户账号团体内账号之间的紧密程度较高,因此,可以停止合并。
若当两个候选用户账号团体的外联性大于外联阈值时,两个候选用户账号团体中的候选用户账号团体的内联性小于或等于内联阈值的数量小于2,则表示至少一个候选用户账号团体内账号之间的紧密程度较低,因此,可以进行合并。
S210、将该两个候选用户账号团体合并为一个候选用户账号团体,得到准用户账号团体。
其中,准用户账号团体是用于进行目标用户识别的账号团体。
具体的,将两个候选用户账号团体进行全部合并,得到一个候选用户账号团体,并将该候选用户账号团体作为准用户账号团体。
S211、将该两个候选用户账号团体中共同的账号以及内联性达到内联阈值的候选用户账号团体合并为一个候选用户账号团体,得到准用户账号团体。
具体的,将两个候选用户账号团体部分合并,可以是将两个候选用户账号团体中共同的账号以及内联性达到内联阈值的候选用户账号团体进行合并,得到一个候选用户账号团体,并将该候选用户账号团体作为准用户账号团体。
S212、根据准用户账号团体识别目标用户的账号。
对于任意一个账号,该账户可能存在于一个或多个准用户账号团体之中,出现该账户的准用户账号团体数量越多,说明出现该账户的准用户账号团体的账号数量越大,那么,该账号是目标用户的账号的嫌疑越大。
具体的,基于如下公式确定特定用户账号为目标用户的账号的嫌疑度:
Figure DEST_PATH_IMAGE110
其中,
Figure DEST_PATH_IMAGE111
表示用户账号d为目标用户的账号的嫌疑度,
Figure DEST_PATH_IMAGE112
表示用户账号d 所在的准用户账号团体的集合,c表示集合中的任意一个,
Figure DEST_PATH_IMAGE114
表示准用户账号团体c中用户 账号的总数量。
特定账号所在的准用户账号团体规模越大,即团体内账号数量越多,越有可能是 目标用户的账号团体。通过对准用户账号团体中的账号数量取对数得到度量值,即
Figure DEST_PATH_IMAGE115
, 度量值可以对准用户账号团体内的账号数量规模进行度量。将特定账号所属的各个准用户 账号团体的度量值求和,可以确定特定账号是目标用户的账号的嫌疑度。
示例性的,用户账号A所在的准用户账号团体为B和C,其中,准用户账号团体B中账 号数量为100,准用户账号团体C中的账号数量为1000。那么,用户账号A为目标用户的账号 的嫌疑度为
Figure DEST_PATH_IMAGE116
+
Figure DEST_PATH_IMAGE117
=2+3=5。
若嫌疑度达到嫌疑阈值,则确定特定用户账号为目标用户的账号。
其中,嫌疑阈值是预先设定的用于判断特定用户账号是否为目标用户的账号的阈值。
具体的,若特定用户账号的嫌疑度大于或等于嫌疑阈值,那么可以判定特定用户账号为目标用户的账号,可以对该账号进行标记,并可以对该账户进行功能和/或行为的限制。
可选的,嫌疑阈值的选取依据可以是根据采集到的已知属性是异常的账号分别确定嫌疑度,并将嫌疑度从大到小进行排序,可以取分位数,如99%,作为嫌疑阈值。若选取99%的分位数为嫌疑阈值,那么通过嫌疑阈值可以覆盖到99%的已知异常账号。如果需要提高目标用户的账号的识别覆盖率,可以将嫌疑阈值提高。如果需要提升目标用户的账号的识别的准确率,可以将嫌疑阈值降低。
本实施例的技术方案,通过根据关联信息中的预设子信息的异常关联性和二分性确定预设子信息对于目标用户识别的重要程度,根据预设子信息对于目标用户识别的重要程度以及重要性阈值确定目标子信息,将关联信息中包括目标子信息的账号确定为候选用户账号团体并基于候选用户账号团体的内联性以及任意两个所述候选用户账号团体之间的外联性对候选用户账号团体合并得到准用户账号团体,根据准用户账号团体识别目标用户的账号,解决了通过构造复杂的关联关系确定目标用户团体时成本较高的问题,实现了对目标用户团体的准确识别与查找,并且降低了识别成本的技术效果。
以下是本发明实施例提供的目标用户识别装置的实施例,该装置与上述各实施例的目标用户识别方法属于同一个发明构思,在目标用户识别装置的实施例中未详尽描述的细节内容,可以参考上述目标用户识别方法的实施例。
实施例三
图3为本发明实施例三提供的一种目标用户识别装置的结构示意图,该装置具体包括:统计模块310、第一确定模块320、第二确定模块330、第三确定模块340和识别模块350;
其中,统计模块310,用于分别统计直播平台各账号的关联信息,每个账号的关联信息包括至少两种原始子信息;第一确定模块320,用于根据关联信息中包括预设子信息且已知属性的账号数量确定预设子信息对于目标用户识别的重要程度;第二确定模块330,用于根据各预设子信息对于目标用户识别的重要程度,确定达到重要性阈值的目标子信息;第三确定模块340,用于将关联信息中包括目标子信息的账号确定为候选用户账号团体;识别模块350,用于基于候选用户账号团体识别目标用户的账号。
可选的,子信息的种类包括下述任意一种:账号身份标识ID,使用账号的终端型号、终端厂商、中央处理器CPU型号、电池电量、屏幕亮度,互联网协议地址IP,全球定位系统GPS坐标,账号行为类型,账号行为时间,账号的注册时间以及账号的注册来源。
可选的,第一确定模块320,具体用于确定关联信息中包括预设子信息且被标记为异常的第一账号数量,以及关联信息中包括预设子信息且未被标记为异常的第二账号数量;根据关联信息中包括预设子信息且被标记为异常的第一账号对数、关联信息中包括预设子信息且未被标记为异常的第二账号对数、以及关联信息中包括预设子信息的账号对中一个账号被标记为异常且另一个账号未被标记为异常的第三账号对数确定关联信息中包括预设子信息的账号总对数;根据第一账号数量、第二账号数量、第一账号对数、第三账号对数以及账号总对数确定预设子信息对于目标用户识别的重要程度。
可选的,第一确定模块320,还用于根据第一账号数量、第二账号数量、第一账号对数、第三账号对数以及账号总对数分别确定第一账号对数以及第三账号对数的期望值;根据第一账号对数以及第一账号对数的期望值确定预设子信息的异常关联性;根据第三账号对数以及第三账号对数的期望值确定预设子信息的二分性;根据异常关联性以及二分性确定预设子信息对于目标用户识别的重要程度。
可选的,第一确定模块320,还用于基于如下公式确定期望值:
Figure DEST_PATH_IMAGE118
Figure DEST_PATH_IMAGE119
其中,
Figure DEST_PATH_IMAGE120
表示第一账号对数
Figure 862611DEST_PATH_IMAGE028
的期望值,
Figure DEST_PATH_IMAGE121
表示第三账号对数
Figure DEST_PATH_IMAGE122
的期望值,
Figure 384728DEST_PATH_IMAGE025
表示第一账号数量,
Figure 254595DEST_PATH_IMAGE026
表示第二账号数量,
Figure 598989DEST_PATH_IMAGE041
表示各账号之间成为账 号对的可能性,
Figure DEST_PATH_IMAGE123
,其中,M表示账号总对数,N表示第一账号数量与第二账号数量 之和。
基于如下公式确定异常关联性:
Figure DEST_PATH_IMAGE124
其中,d表示异常关联性,
Figure DEST_PATH_IMAGE125
表示第一账号对数
Figure 48031DEST_PATH_IMAGE051
的期望值
基于如下公式确定二分性:
Figure DEST_PATH_IMAGE126
其中,h表示二分性,
Figure DEST_PATH_IMAGE127
表示第三账号对数
Figure DEST_PATH_IMAGE128
的期望值。
基于如下公式确定重要程度:
Figure DEST_PATH_IMAGE129
其中,imp表示重要程度,d表示异常关联性,h表示二分性。
可选的,识别模块350,还用于根据候选用户账号团体的成员数以及候选用户账号团体中任意两个成员账号的目标子信息之间的相似度确定候选用户账号团体的内联性;根据任意两个候选用户账号团体中共同用户账号的数量以及每个候选用户账号团体的成员数确定任意两个候选用户账号团体之间的外联性;
若两个候选用户账号团体的外联性达到外联阈值,且该两个候选用户账号团体的每个候选用户账号团体的内联性均大于内联阈值,则将该两个候选用户账号团体合并为一个候选用户账号团体,得到准用户账号团体;若两个候选用户账号团体的外联性达到外联阈值,且该两个候选用户账号团体中的一个候选用户账号团体的内联性小于内联阈值,则将该两个候选用户账号团体中共同的账号以及内联性达到内联阈值的候选用户账号团体合并为一个候选用户账号团体,得到准用户账号团体;根据准用户账号团体识别目标用户的账号。
可选的,识别模块350,还用于基于如下公式确定内联性:
Figure DEST_PATH_IMAGE130
其中,
Figure DEST_PATH_IMAGE131
表示候选用户账号团体
Figure DEST_PATH_IMAGE132
的内联性,
Figure 944312DEST_PATH_IMAGE083
表示候选用户账号团 体g的成员数;u和v表示候选用户账号团体中任意两个用户账号;
Figure 301475DEST_PATH_IMAGE084
表示在目标子信 息i上用户账号u和v之间的相似度,I表示原始子信息的集合。
基于如下公式确定外联性:
Figure 449560DEST_PATH_IMAGE096
其中,
Figure 67623DEST_PATH_IMAGE097
表示任意两个候选用户账号团体
Figure DEST_PATH_IMAGE134
的外联性,
Figure 167428DEST_PATH_IMAGE100
表示用户账号团体
Figure DEST_PATH_IMAGE135
之间共同用户账号的数量,
Figure DEST_PATH_IMAGE136
表示用户账号团体
Figure 402100DEST_PATH_IMAGE134
中成员数较小的一个。
基于如下公式确定特定用户账号为目标用户的账号的嫌疑度:
Figure 963663DEST_PATH_IMAGE110
其中,
Figure 232970DEST_PATH_IMAGE111
表示用户账号d为目标用户的账号的嫌疑度,
Figure 736633DEST_PATH_IMAGE112
表示用户账号d 所在的准用户账号团体的集合,c表示集合中的任意一个,
Figure 927443DEST_PATH_IMAGE114
表示准用户账号团体c中用户 账号的总数量;
若嫌疑度达到嫌疑阈值,则确定特定用户账号为目标用户的账号。
本实施例的技术方案,通过统计各账号的关联信息,根据关联信息中的预设子信息且已知属性的账号数量确定预设子信息对于目标用户识别的重要程度,根据预设子信息对于目标用户识别的重要程度以及重要性阈值确定目标子信息,将关联信息中包括目标子信息的账号确定为候选用户账号团体并基于候选用户账号团体识别目标用户的账号,解决了通过构造复杂的关联关系确定目标用户团体时成本较高的问题,实现了对目标用户团体的准确识别与查找,并且降低了识别成本的技术效果。
本发明实施例所提供的目标用户识别装置可执行本发明任意实施例所提供的目标用户识别方法,具备执行目标用户识别方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种电子设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图4显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM, DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如统计模块310、第一确定模块320、第二确定模块330、第三确定模块340和识别模块350)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(统计模块310、第一确定模块320、第二确定模块330、第三确定模块340和识别模块350)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发实施例所提供的一种目标用户识别方法步骤,该方法包括:
分别统计直播平台各账号的关联信息,每个账号的关联信息包括至少两种原始子信息;
根据关联信息中包括预设子信息且已知属性的账号数量确定预设子信息对于目标用户识别的重要程度;
根据各预设子信息对于目标用户识别的重要程度,确定达到重要性阈值的目标子信息;
将关联信息中包括目标子信息的账号确定为候选用户账号团体;
基于候选用户账号团体识别目标用户的账号。
当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供的目标用户识别方法的技术方案。
实施例五
本实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的目标用户识别方法步骤,该方法包括:
分别统计直播平台各账号的关联信息,每个账号的关联信息包括至少两种原始子信息;
根据关联信息中包括预设子信息且已知属性的账号数量确定预设子信息对于目标用户识别的重要程度;
根据各预设子信息对于目标用户识别的重要程度,确定达到重要性阈值的目标子信息;
将关联信息中包括目标子信息的账号确定为候选用户账号团体;
基于候选用户账号团体识别目标用户的账号。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (6)

1.一种目标用户识别方法,其特征在于,包括:
分别统计直播平台各账号的关联信息,每个账号的所述关联信息包括至少两种原始子信息;所述原始子信息的种类包括下述任意一种:账号身份标识ID,使用账号的终端型号、终端厂商、中央处理器CPU型号、电池电量、屏幕亮度,互联网协议地址IP,全球定位系统GPS坐标,账号行为类型,账号行为时间,账号的注册时间以及账号的注册来源;
根据关联信息中包括预设子信息且已知属性的账号数量确定所述预设子信息对于目标用户识别的重要程度;
根据各所述预设子信息对于目标用户识别的重要程度,确定达到重要性阈值的目标子信息;
将关联信息中包括所述目标子信息的账号确定为候选用户账号团体;
基于所述候选用户账号团体识别目标用户的账号;
所述根据关联信息中包括预设子信息且已知属性的账号数量确定所述预设子信息对于目标用户识别的重要程度,包括:
确定关联信息中包括预设子信息且被标记为异常的第一账号数量,以及关联信息中包括所述预设子信息且未被标记为异常的第二账号数量;
根据关联信息中包括所述预设子信息且被标记为异常的第一账号对数、关联信息中包括所述预设子信息且未被标记为异常的第二账号对数、以及关联信息中包括所述预设子信息的账号对中一个账号被标记为异常且另一个账号未被标记为异常的第三账号对数确定关联信息中包括所述预设子信息的账号总对数;
根据所述第一账号数量、所述第二账号数量、所述第一账号对数、所述第三账号对数以及所述账号总对数确定所述预设子信息对于目标用户识别的重要程度;
所述根据所述第一账号数量、所述第二账号数量、所述第一账号对数、所述第三账号对数以及所述账号总对数确定所述预设子信息对于目标用户识别的重要程度,包括:
根据所述第一账号数量、所述第二账号数量、所述第一账号对数、所述第三账号对数以及所述账号总对数分别确定所述第一账号对数以及所述第三账号对数的期望值;
根据所述第一账号对数以及所述第一账号对数的期望值确定所述预设子信息的异常关联性;
根据所述第三账号对数以及所述第三账号对数的期望值确定所述预设子信息的二分性;
根据所述异常关联性以及所述二分性确定所述预设子信息对于目标用户识别的重要程度;
所述基于所述候选用户账号团体识别目标用户的账号,包括:
根据所述候选用户账号团体的成员数以及所述候选用户账号团体中任意两个成员账号的所述目标子信息之间的相似度确定所述候选用户账号团体的内联性;
根据任意两个所述候选用户账号团体中共同用户账号的数量以及每个所述候选用户账号团体的成员数确定所述任意两个所述候选用户账号团体之间的外联性;
若两个候选用户账号团体的外联性达到外联阈值,且该两个候选用户账号团体的每个候选用户账号团体的内联性均大于内联阈值,则将该两个候选用户账号团体合并为一个候选用户账号团体,得到准用户账号团体;
若两个候选用户账号团体的外联性达到外联阈值,且该两个候选用户账号团体中的一个候选用户账号团体的内联性小于内联阈值,则将该两个候选用户账号团体中共同的账号以及内联性达到内联阈值的候选用户账号团体合并为一个候选用户账号团体,得到准用户账号团体;
根据所述准用户账号团体识别目标用户的账号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一账号数量、所述第二账号数量、所述第一账号对数、所述第三账号对数以及所述账号总对数分别确定所述第一账号对数以及所述第三账号对数的期望值,包括:
基于如下公式确定所述期望值:
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE006
表示第一账号对数
Figure DEST_PATH_IMAGE008
的期望值,
Figure DEST_PATH_IMAGE010
表示第三账号对数
Figure DEST_PATH_IMAGE012
的期望值,
Figure DEST_PATH_IMAGE014
表示所述第一账号数量,
Figure DEST_PATH_IMAGE016
表示所述第二账号数量,
Figure DEST_PATH_IMAGE018
表示各账号之间成为账号对的可能性,
Figure DEST_PATH_IMAGE020
,其中,M表示所述账号总对数,N表示所述第一账号数量与所述第二账号数量之和;
对应的,根据所述第一账号对数以及所述第一账号对数的期望值确定所述预设子信息的异常关联性,包括:
基于如下公式确定所述异常关联性:
Figure DEST_PATH_IMAGE022
其中,d表示异常关联性,
Figure DEST_PATH_IMAGE023
表示第一账号对数
Figure DEST_PATH_IMAGE024
的期望值;
对应的,根据所述第三账号对数以及所述第三账号对数的期望值确定所述预设子信息的二分性,包括:
基于如下公式确定所述二分性:
Figure DEST_PATH_IMAGE026
其中,h表示二分性,
Figure DEST_PATH_IMAGE027
表示第三账号对数
Figure DEST_PATH_IMAGE028
的期望值;
对应的,根据所述异常关联性以及所述二分性确定所述预设子信息对于目标用户识别的重要程度:
基于如下公式确定所述重要程度:
Figure DEST_PATH_IMAGE030
其中,imp表示重要程度,d表示异常关联性,h表示二分性。
3.根据权利要求1所述的方法,其特征在于,所述根据所述候选用户账号团体的成员数以及所述候选用户账号团体中任意两个成员账号的所述目标子信息之间的相似度确定所述候选用户账号团体的内联性,包括:
基于如下公式确定所述内联性:
Figure DEST_PATH_IMAGE032
其中,
Figure DEST_PATH_IMAGE034
表示候选用户账号团体
Figure DEST_PATH_IMAGE036
的内联性,
Figure DEST_PATH_IMAGE038
表示候选用户账号团体g的成员数;uv表示候选用户账号团体中任意两个用户账号;
Figure DEST_PATH_IMAGE040
表示在目标子信息i上用户账号uv之间的相似度,I表示原始子信息的集合;
所述根据任意两个所述候选用户账号团体中共同用户账号的数量以及每个所述候选用户账号团体的成员数确定所述任意两个所述候选用户账号团体之间的外联性,包括:
基于如下公式确定所述外联性:
Figure DEST_PATH_IMAGE042
其中,
Figure DEST_PATH_IMAGE044
表示任意两个候选用户账号团体
Figure DEST_PATH_IMAGE046
的外联性,
Figure DEST_PATH_IMAGE048
表示用户账号团体
Figure 930447DEST_PATH_IMAGE046
之间共同用户账号的数量,
Figure DEST_PATH_IMAGE050
表示用户账号团体
Figure 254112DEST_PATH_IMAGE046
中成员数较小的一个;
所述根据所述准用户账号团体识别目标用户的账号,包括:
基于如下公式确定特定用户账号为目标用户的账号的嫌疑度:
Figure DEST_PATH_IMAGE052
其中,
Figure DEST_PATH_IMAGE054
表示用户账号d为目标用户的账号的嫌疑度,
Figure DEST_PATH_IMAGE056
表示用户账号d所在的准用户账号团体的集合,c表示所述集合中的任意一个,
Figure DEST_PATH_IMAGE058
表示准用户账号团体c中用户账号的总数量;
若所述嫌疑度达到嫌疑阈值,则确定所述特定用户账号为目标用户的账号。
4.一种目标用户识别装置,其特征在于,包括:
统计模块,用于分别统计直播平台各账号的关联信息,每个账号的所述关联信息包括至少两种原始子信息;所述原始子信息的种类包括下述任意一种:账号身份标识ID,使用账号的终端型号、终端厂商、中央处理器CPU型号、电池电量、屏幕亮度,互联网协议地址IP,全球定位系统GPS坐标,账号行为类型,账号行为时间,账号的注册时间以及账号的注册来源;
第一确定模块,用于根据关联信息中包括预设子信息且已知属性的账号数量确定所述预设子信息对于目标用户识别的重要程度;
第二确定模块,用于根据各所述预设子信息对于目标用户识别的重要程度,确定达到重要性阈值的目标子信息;
第三确定模块,用于将关联信息中包括所述目标子信息的账号确定为候选用户账号团体;
识别模块,用于基于所述候选用户账号团体识别目标用户的账号;
所述第一确定模块,具体用于确定关联信息中包括预设子信息且被标记为异常的第一账号数量,以及关联信息中包括所述预设子信息且未被标记为异常的第二账号数量;根据关联信息中包括所述预设子信息且被标记为异常的第一账号对数、关联信息中包括所述预设子信息且未被标记为异常的第二账号对数、以及关联信息中包括所述预设子信息的账号对中一个账号被标记为异常且另一个账号未被标记为异常的第三账号对数确定关联信息中包括所述预设子信息的账号总对数;根据所述第一账号数量、所述第二账号数量、所述第一账号对数、所述第三账号对数以及所述账号总对数确定所述预设子信息对于目标用户识别的重要程度;
所述第一确定模块,还用于根据所述第一账号数量、所述第二账号数量、所述第一账号对数、所述第三账号对数以及所述账号总对数分别确定所述第一账号对数以及所述第三账号对数的期望值;根据所述第一账号对数以及所述第一账号对数的期望值确定所述预设子信息的异常关联性;根据所述第三账号对数以及所述第三账号对数的期望值确定所述预设子信息的二分性;根据所述异常关联性以及所述二分性确定所述预设子信息对于目标用户识别的重要程度;
所述识别模块,还用于根据所述候选用户账号团体的成员数以及所述候选用户账号团体中任意两个成员账号的所述目标子信息之间的相似度确定所述候选用户账号团体的内联性;根据任意两个所述候选用户账号团体中共同用户账号的数量以及每个所述候选用户账号团体的成员数确定所述任意两个所述候选用户账号团体之间的外联性;若两个候选用户账号团体的外联性达到外联阈值,且该两个候选用户账号团体的每个候选用户账号团体的内联性均大于内联阈值,则将该两个候选用户账号团体合并为一个候选用户账号团体,得到准用户账号团体;若两个候选用户账号团体的外联性达到外联阈值,且该两个候选用户账号团体中的一个候选用户账号团体的内联性小于内联阈值,则将该两个候选用户账号团体中共同的账号以及内联性达到内联阈值的候选用户账号团体合并为一个候选用户账号团体,得到准用户账号团体;根据所述准用户账号团体识别目标用户的账号。
5.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一所述的目标用户识别方法步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一所述的目标用户识别方法步骤。
CN202011514090.8A 2020-12-21 2020-12-21 一种目标用户识别方法、装置、电子设备和存储介质 Active CN112261484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011514090.8A CN112261484B (zh) 2020-12-21 2020-12-21 一种目标用户识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011514090.8A CN112261484B (zh) 2020-12-21 2020-12-21 一种目标用户识别方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112261484A CN112261484A (zh) 2021-01-22
CN112261484B true CN112261484B (zh) 2021-04-27

Family

ID=74225168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011514090.8A Active CN112261484B (zh) 2020-12-21 2020-12-21 一种目标用户识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112261484B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372938A (zh) * 2015-07-21 2017-02-01 华为技术有限公司 异常账号识别方法及系统
CN107066616A (zh) * 2017-05-09 2017-08-18 北京京东金融科技控股有限公司 用于账号处理的方法、装置及电子设备
CN109451359A (zh) * 2018-10-31 2019-03-08 武汉斗鱼网络科技有限公司 一种关注异常的检测方法、装置、设备和存储介质
CN109873812A (zh) * 2019-01-28 2019-06-11 腾讯科技(深圳)有限公司 异常检测方法、装置及计算机设备
CN111698247A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 异常账号检测方法、装置、设备及存储介质
CN111814064A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 基于Neo4j的异常用户处理方法、装置、计算机设备和介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372938A (zh) * 2015-07-21 2017-02-01 华为技术有限公司 异常账号识别方法及系统
CN107066616A (zh) * 2017-05-09 2017-08-18 北京京东金融科技控股有限公司 用于账号处理的方法、装置及电子设备
CN109451359A (zh) * 2018-10-31 2019-03-08 武汉斗鱼网络科技有限公司 一种关注异常的检测方法、装置、设备和存储介质
CN109873812A (zh) * 2019-01-28 2019-06-11 腾讯科技(深圳)有限公司 异常检测方法、装置及计算机设备
CN111698247A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 异常账号检测方法、装置、设备及存储介质
CN111814064A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 基于Neo4j的异常用户处理方法、装置、计算机设备和介质

Also Published As

Publication number Publication date
CN112261484A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN110992169B (zh) 一种风险评估方法、装置、服务器及存储介质
CN110177094B (zh) 一种用户团体识别方法、装置、电子设备及存储介质
CN112738102B (zh) 资产识别方法、装置、设备和存储介质
CN109714636B (zh) 一种用户识别方法、装置、设备及介质
CN109885597B (zh) 基于机器学习的用户分群处理方法、装置及电子终端
CN112990294B (zh) 行为判别模型的训练方法、装置、电子设备及存储介质
CN110688536A (zh) 一种标签预测方法、装置、设备和存储介质
CN111400600A (zh) 一种消息推送方法、装置、设备和存储介质
CN111931047B (zh) 基于人工智能的黑产账号检测方法及相关装置
CN110502697B (zh) 一种目标用户识别方法、装置及电子设备
CN111754241A (zh) 一种用户行为感知方法、装置、设备及介质
CN106301979B (zh) 检测异常渠道的方法和系统
CN113139025A (zh) 一种威胁情报的评价方法、装置、设备及存储介质
CN109657148B (zh) 针对上报poi的异常操作识别方法、装置、服务器和介质
CN115034596A (zh) 一种风险传导预测方法、装置、设备和介质
CN106358220B (zh) 异常联系人信息的检测方法、装置及系统
CN112346951A (zh) 业务的测试方法及装置
CN113849702A (zh) 一种确定目标数据的方法、装置、电子设备及存储介质
CN107644366B (zh) 订单欺诈识别方法、系统、存储介质和电子设备
CN111400695A (zh) 一种设备指纹生成方法、装置、设备和介质
CN112261484B (zh) 一种目标用户识别方法、装置、电子设备和存储介质
CN109003181B (zh) 可疑用户确定方法、装置、设备和计算机可读存储介质
CN111738290A (zh) 图像检测方法、模型构建和训练方法、装置、设备和介质
CA3052775A1 (en) Method, apparatus, medium and electronic device for analysis of user stability
CN110297989B (zh) 异常检测的测试方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210122

Assignee: Yidu Lehuo Network Technology Co.,Ltd.

Assignor: WUHAN DOUYU YULE NETWORK TECHNOLOGY Co.,Ltd.

Contract record no.: X2023980041383

Denomination of invention: A target user identification method, device, electronic device, and storage medium

Granted publication date: 20210427

License type: Common License

Record date: 20230908