CN109086422B - 一种机器弹幕用户的识别方法、装置、服务器和存储介质 - Google Patents

一种机器弹幕用户的识别方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN109086422B
CN109086422B CN201810896019.7A CN201810896019A CN109086422B CN 109086422 B CN109086422 B CN 109086422B CN 201810896019 A CN201810896019 A CN 201810896019A CN 109086422 B CN109086422 B CN 109086422B
Authority
CN
China
Prior art keywords
user
bullet screen
users
determining
viewing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810896019.7A
Other languages
English (en)
Other versions
CN109086422A (zh
Inventor
王璐
张文明
陈少杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201810896019.7A priority Critical patent/CN109086422B/zh
Publication of CN109086422A publication Critical patent/CN109086422A/zh
Application granted granted Critical
Publication of CN109086422B publication Critical patent/CN109086422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Abstract

本发明实施例公开了一种机器弹幕用户的识别方法、装置、服务器和存储介质。该方法包括:获取各弹幕用户对应的弹幕特征信息和观看信息;基于获取的第一预设数量的重要弹幕特征种类,从各弹幕用户对应的弹幕特征信息中确定各弹幕用户对应的重要弹幕特征信息;将各弹幕用户进行两两组合,并根据各重要弹幕特征信息和各观看信息,确定各组合中两个弹幕用户之间的用户距离;根据预设聚类算法和各用户距离,对各弹幕用户进行聚类,确定多个聚类用户集;根据各聚类用户集的用户总数、对各聚类用户标记的用户标识、以及预设可疑阈值,确定机器弹幕用户。本实施例的技术方案可以解决现有识别方法中存在的局限性和准确度较低的问题,提高识别准确度。

Description

一种机器弹幕用户的识别方法、装置、服务器和存储介质
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种机器弹幕用户的识别方法、装置、服务器和存储介质。
背景技术
随着网络技术的发展,网络视频直播作为一种新型的娱乐方式,因直观性和内容丰富等特点,受到了越来越多用户的喜爱。通常,用户在观看直播的过程中,可以通过发送弹幕的方式与主播进行互动,并且弹幕数量越多表示直播间的热度越高。
目前,直播平台中往往存在利用机器模仿真实用户的方式来刷弹幕的舞弊行为,以增加直播间的热度和人气。为了杜绝这一舞弊行为,需要对发送弹幕的用户进行识别,确定是否存在机器弹幕用户。
现有技术中,可以通过设置一些识别规则,根据明显的异常特征来确定机器弹幕用户。示例性的,将公用相同IP(Internet Protocol)地址的弹幕用户确定为机器弹幕用户。然而,通过识别规则只能识别出一些特征明显的机器弹幕用户,从而遗漏掉特征不明显的机器弹幕用户。针对于此,可以利用基于机器学习模型来识别那些特征不明显的机器弹幕用户,但由于机器学习模型的训练样本有限,从而导致机器学习模型的识别准确度较低,存在机器弹幕用户误判的情况。
发明内容
本发明实施例提供了一种机器弹幕用户的识别方法、装置、服务器和存储介质,以解决现有识别方法中存在的局限性和准确度较低的问题,从而提高机器弹幕用户的识别准确度。
第一方面,本发明实施例提供了一种机器弹幕用户的识别方法,包括:
获取各弹幕用户对应的弹幕特征信息和观看信息;
基于获取的第一预设数量的重要弹幕特征种类,从所述各弹幕用户对应的弹幕特征信息中确定各所述弹幕用户对应的重要弹幕特征信息;
将所述各弹幕用户进行两两组合,并根据各所述重要弹幕特征信息和各所述观看信息,确定各组合中两个弹幕用户之间的用户距离;
根据预设聚类算法和各所述用户距离,对所述各弹幕用户进行聚类,确定多个聚类用户集;
根据各所述聚类用户集的用户总数、对各聚类用户标记的用户标识、以及预设可疑阈值,确定机器弹幕用户,其中所述用户标识包括可疑标识和真实标识。
第二方面,本发明实施例还提供了一种机器弹幕用户的识别装置,包括:
用户信息获取模块,用于获取各弹幕用户对应的弹幕特征信息和观看信息;
重要弹幕特征信息确定模块,用于基于获取的第一预设数量的重要弹幕特征种类,从所述各弹幕用户对应的弹幕特征信息中确定各所述弹幕用户对应的重要弹幕特征信息;
用户距离确定模块,用于将所述各弹幕用户进行两两组合,并根据各所述重要弹幕特征信息和各所述观看信息,确定各组合中两个弹幕用户之间的用户距离;
聚类用户集确定模块,用于根据预设聚类算法和各所述用户距离,对所述各弹幕用户进行聚类,确定多个聚类用户集;
机器弹幕用户确定模块,用于根据各所述聚类用户集的用户总数、对各聚类用户标记的用户标识、以及预设可疑阈值,确定机器弹幕用户,其中所述用户标识包括可疑标识和真实标识。
第三方面,本发明实施例还提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的机器弹幕用户的识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的机器弹幕用户的识别方法。
本发明实施例通过基于获取的第一预设数量的重要弹幕特征种类,从各弹幕用户对应的弹幕特征信息中确定各弹幕用户对应的重要弹幕特征信息;将各弹幕用户进行两两组合,并根据各重要弹幕特征信息和各观看信息,确定各组合中两个弹幕用户之间的用户距离;根据预设聚类算法和各用户距离,对各弹幕用户进行聚类,确定多个聚类用户集;根据各聚类用户集的用户总数、对各聚类用户标记的用户标识、以及预设可疑阈值,确定机器弹幕用户。通过根据弹幕用户对应的重要弹幕特征信息和观看信息进行聚类操作,可以识别出特征不太明显的机器弹幕用户,并且通过聚类方式识别的机器弹幕用户无需依赖训练样本,从而可以提高识别准确度。
附图说明
图1是本发明实施例一提供的一种机器弹幕用户的识别方法的流程图;
图2是本发明实施例二提供的一种机器弹幕用户的识别装置的结构示意图;
图3是本发明实施例三提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种机器弹幕用户的识别方法的流程图,本实施例可适用于在直播平台中对每个发送弹幕的用户进行识别的情况。该方法可以由机器弹幕用户的识别装置来执行,该装置可以由软件和/或硬件的方式来实现,该装置可以集成于对弹幕进行管理的弹幕服务器中。该方法具体包括以下步骤:
S110、获取各弹幕用户对应的弹幕特征信息和观看信息。
其中,弹幕用户可以是指在某一直播间中发送弹幕的一个用户账号。弹幕用户可以包括真实用户和机器弹幕用户。其中,真实用户是指通过观看直播来人为发送弹幕的正常用户,机器弹幕用户是指利用脚本通过机器自动发送弹幕的机器用户。弹幕特征信息可以包括与发送弹幕相关的多个弹幕特征种类以及每个弹幕特征种类对应的特征信息。弹幕特征种类可以包括但不限于在预设时间内弹幕发送次数、弹幕发送时间间隔、弹幕文本内容等。示例性的,用户A的弹幕特征信息为:用户A在1分钟内弹幕发送次数为10次,弹幕发送时间间隔均为6s,以及每次发送的弹幕文本内容均为“666”。在本实施例中,每个弹幕用户对应的弹幕特征信息中的弹幕特征种类相同,而每个弹幕特征种类对应的特征信息可以不同。观看信息是指弹幕用户观看直播时的信息。观看信息可以包括但不限于用户观看直播时使用的观看IP地址信息、使用的观看设备标识信息和预设时间内观看总次数。示例性的,用户A的观看信息为:用户A在一个小时内使用观看IP地址IP1观看了10次,使用观看IP地址IP2观看了10次,使用一个观看设备标识Did1观看了20次,在一个小时内用户A的观看总次数为20次。
具体的,通过获取某一直播间中每个弹幕用户对应的弹幕特征信息和观看信息,以确定该直播间中是否存在机器弹幕用户。通常,直播间中的弹幕用户可以为多个。本实施例对弹幕用户的数量不做具体限定。
S120、基于获取的第一预设数量的重要弹幕特征种类,从各弹幕用户对应的弹幕特征信息中确定各弹幕用户对应的重要弹幕特征信息。
其中,重要弹幕特征种类是根据预设特征选择方法,通过对获取的每个弹幕特征种类进行重要性度量,从多个弹幕特征种类中选择的重要性较高的弹幕特征种类。第一预设数量是指重要弹幕特征种类的数量,可以根据实际情况预先设置。本实施例中的第一预设数量小于弹幕特征信息中的弹幕特征种类的数量。在本实施例中,重要弹幕特征种类可以根据S110中获取的各弹幕用户对应的弹幕特征信息实时获取,也可以根据历史的弹幕特征信息预先获取。
具体的,从每个弹幕用户对应的弹幕特征信息中选取每个重要弹幕特征种类对应的信息,即重要弹幕特征信息。示例性的,用户A的弹幕特征信息为:用户A在1分钟内弹幕发送次数为10次,弹幕发送时间间隔均为6s,以及每次发送的弹幕文本内容均为“666”,若重要弹幕特征种类包括弹幕发送次数和弹幕文本内容,则用户A对应的重要弹幕特征信息为:用户A在1分钟内弹幕发送次数为10次,以及每次发送的弹幕文本内容均为“666”。
可选的,获取第一预设数量的重要弹幕特征种类,包括:
将各弹幕用户对应的弹幕特征信息以及对各弹幕用户标记的用户标识确定为训练样本集,根据训练样本集对随机森林模型进行训练;于训练随机森林模型时,计算弹幕特征信息中各弹幕特征种类的基尼指数重要性评分;将各弹幕特征种类的基尼指数重要性评分进行降序排列,并将排列后的前第一预设数量的弹幕特征种类确定为第一预设数量的重要弹幕特征种类。
其中,用户标识可以包括可疑标识和真实标识。本实施例可以通过预设标记规则对每个弹幕用户进行标记,以确定每个弹幕用户对应的用户标识。可选的,预设标记规则可以为:将满足预设可疑条件的用户标记为可疑标识,将不满足预设可疑条件的用户标记为真实标识。其中,预设可疑条件可以是但不限于:多个用户使用相同的IP地址、或者相同的设备标识、或者预设时间内发送的弹幕数量最多的用户、或者预设时间内发送的弹幕文本内容均相同的用户等。示例性的,若某一用户与其他用户使用相同的IP地址,或者该用户与其他用户使用相同的设备标识,或者该用户预设时间内发送的弹幕数量最多,则表示该用户满足预设可疑条件,此时可以确定该用户标标记为可疑标识。本实施例可以利用随机森林模型进行特征重要性评估,也就是通过衡量每个弹幕特征种类在随机森林模型中的每颗树上的平均贡献值,以选取重要性特征种类。通常,可以利用基尼指数或者袋外数据误差率作为评价指标来衡量特征重要性。
具体的,将每个弹幕用户对应的弹幕特征信息和每个弹幕用户对应的用户标识作为随机森林模型的训练样本集。可选的,训练样本集中的可疑标识可以利用“1”表示,真实标识可以利用“0”表示。在利用训练样本集对随机森林模型进行训练时,利用抽样放回方式从训练样本集中选取预定个数的样本,并从每个选取的样本中随机不重复的选取预定个数的特征种类,从而作为一个训练样本子集。利用每个训练样本子集训练随机森林模型中的每颗决策树,直到找到最佳的划分特征。在训练随机森林模型时,可以计算弹幕特征信息中的每个弹幕特征种类对应的基尼指数重要性评分。通过将每个基尼指数重要性评分按照从高到低的顺序降序排列,将位于前第一预设数量的基尼指数重要性评分对应的弹幕特征种类确定为重要弹幕特征种类。
S130、将各弹幕用户进行两两组合,并根据各重要弹幕特征信息和各观看信息,确定各组合中两个弹幕用户之间的用户距离。
其中,两个弹幕用户之间的用户距离可以用于表征两个弹幕用户之间存在的差异性。若两个弹幕用户之间的用户距离越大,则这两个弹幕用户之间的差异性越大,相似度越小。本实施例将所有弹幕用户进行两两组合,并根据每个组合中两个弹幕用户分别对应的重要弹幕信息和观看信息确定这两个弹幕用户之间的用户距离,以便确定某个弹幕用户与其他任一弹幕用户之间的用户距离。
可选的,各弹幕用户对应的观看信息包括:弹幕用户在预设时间内的观看IP地址集合、观看设备标识集合、观看IP地址集合中各观看IP地址对应的第一观看次数、观看设备标识集合中各观看设备标识对应的第二观看次数、以及在预设时间内的观看总次数;相应的,S130包括:将各弹幕用户对应的重要弹幕特征信息进行标准化和归一化,确定各弹幕用户对应的重要弹幕特征数值;根据各组合中两个弹幕用户分别对应的观看IP地址集合和观看设备标识集合,确定两个弹幕用户的各相同观看IP地址和各相同观看设备标识;根据两个弹幕用户分别对应的各相同观看IP地址对应的第一观看次数、各相同观看设备标识对应的第二观看次数、观看总次数、以及重要弹幕特征数值,确定两个弹幕用户之间的用户相似度;根据用户相似度确定两个弹幕用户之间的用户距离。
其中,将每个弹幕用户对应的重要弹幕特征信息进行标准化和归一化处理,以消除不同弹幕特征种类之间量纲的影响,使得每个弹幕特征种类处于同一数量级,便于进行对比评估。当弹幕特征种类为弹幕文本内容时,可以对两个弹幕文本内容之间的编辑距离进行标准化和归一化。本实施例标准化和归一化后的重要弹幕特征信息确定为重要弹幕特征数值。相同观看IP地址是指两个弹幕用户在预设时间内均使用的观看IP地址。相同观看设备标识是指两个弹幕用户在预设时间内均使用的观看设备标识。示例性的,若某个组合中用户A对应的观看IP地址集合为IP1、IP2和IP3,以及观看设备标识集合为Did1;用户B对应的观看IP地址集合为IP2和IP3,以及观看设备标识集合为Did1和Did2,则该组合中用户A与用户B的相同观看IP地址为IP2和IP3,相同观看设备标识为Did1。在本实施例中,若两个弹幕用户之间不存在相同观看IP地址或者相同观看设备标识,则可以将相同观看IP地址对应的第一观看次数记为零或者将相同观看设备标识对应的第二观看次数记为零,以计算这两个弹幕用户之间的用户相似度。本实施例通过利用每个弹幕用户对应的重要弹幕特征信息和观看信息可以更加准确的衡量两个弹幕用户之间的差异性。
可选的,根据如下公式确定两个弹幕用户之间的用户相似度;
Figure BDA0001758172200000091
Figure BDA0001758172200000092
其中,wuv是弹幕用户u和弹幕用户v之间的用户相似度;Iuv是弹幕用户u与弹幕用户v的各相同观看IP地址组成的相同观看IP地址集合;Duv是弹幕用户u与弹幕用户v的各相同观看设备标识组成的相同观看设备标识集合;pi是相同观看IP地址集合Iuv中第i个相同观看IP地址;di是相同观看设备标识集合Duv中第i个相同观看IP地址;np是相同观看IP地址的总数量;nd是相同观看设备标识的总数量;
Figure BDA0001758172200000093
是弹幕用户u使用相同观看IP地址pi的第一观看比值;
Figure BDA0001758172200000094
是弹幕用户v使用相同观看IP地址pi的第一观看比值;
Figure BDA0001758172200000095
是弹幕用户u使用相同观看设备标识di的第二观看比值;
Figure BDA0001758172200000096
是弹幕用户v使用相同观看设备标识di的第二观看比值;yuj是弹幕用户u对应的第j个重要弹幕特征种类对应的重要弹幕特征数值;yvj是弹幕用户v对应的第j个重要弹幕特征种类对应的重要弹幕特征数值;m是第一预设数量;w1和w2均是权重系数,且w1+w2=1;
Figure BDA0001758172200000097
是弹幕用户u在预设时间内使用相同观看IP地址pi的第一观看次数;
Figure BDA0001758172200000098
是弹幕用户v在预设时间内使用相同观看IP地址pi的第一观看次数;
Figure BDA0001758172200000099
是弹幕用户u在预设时间内使用相同观看设备标识di的第二观看次数;
Figure BDA00017581722000000910
是弹幕用户v在预设时间内使用相同观看设备标识di的第二观看次数;Su是弹幕用户u在预设时间内的观看总次数;Sv是弹幕用户v在预设时间内的观看总次数。
示例性的,若用户A在一小时内使用观看IP地址IP1观看了10次,使用观看IP地址IP2观看了10次,使用观看设备标识Did1观看了20次,在一小时内用户A的观看总次数为20次;用户B在一小时内使用观看IP地址IP1观看了15次,使用观看IP地址IP3观看了5次,使用观看设备标识Did1观看了20次,使用观看设备标识Did3观看了15次,在一小时内用户B的观看总次数为20次;假设w1=w2=0.5,并计算
Figure BDA0001758172200000101
则Iuv为IP1,Duv为Did1,此时计算的
Figure BDA0001758172200000102
即用户A与用户B之间的用户相似度为0.45。
可选的,根据如下公式可以确定两个弹幕用户之间的用户距离:
duv=1/(1+wuv)
其中,duv是弹幕用户u和弹幕用户v之间的用户距离,wuv是弹幕用户u和弹幕用户v之间的用户相似度。从该公式可以看出,两个弹幕用户之间的用户距离与用户相似度为负相关,即两个弹幕用户之间的用户相似度越大,则对应的用户距离越小。
S140、根据预设聚类算法和各用户距离,对各弹幕用户进行聚类,确定多个聚类用户集。
其中,预设聚类算法是指根据两两弹幕用户之间的用户距离对所有弹幕用户进行聚类的算法。预设聚类算法可以包括但不限于Cannopy聚类算法。本实施例中的每个聚类用户集中均包括至少一个聚类用户,并且每个聚类用户集中也可以包括相同的聚类用户。
可选的,预设聚类算法包括Cannopy聚类算法;相应的,S140包括:于各弹幕用户组成的弹幕用户集合中随机选取一个目标弹幕用户,并将当前目标弹幕用户确定为当前待聚类用户集;将当前弹幕用户集合中与当前目标弹幕用户之间的用户距离小于第一预设距离的弹幕用户,添加至当前待聚类用户集,并将添加后的待聚类用户集确定为一个聚类用户集;将当前弹幕用户集合中与当前目标弹幕用户之间的用户距离小于第二预设距离的弹幕用户进行删除,以更新当前弹幕用户集合,其中,第二预设距离小于第一预设距离;于更新后的弹幕用户集合中随机选取一个目标弹幕用户,作为当前目标弹幕用户,并将当前目标弹幕用户确定为当前待聚类用户集,返回执行将当前弹幕用户集合中与当前目标弹幕用户之间的用户距离小于第一预设距离的弹幕用户,添加至当前待聚类用户集的操作,直至当前弹幕用户集合为空集合。
其中,利用Cannopy聚类算法对所有弹幕用户进行聚类。聚类过程如下:将获取的某一直播间的所有弹幕用户组成一个弹幕用户集合,从该弹幕用户集合中随机选取一个目标弹幕用户,并将该目标弹幕用户确定为第一个待聚类用户集,获取弹幕用户集合中每个弹幕用户与目标弹幕用户之间的用户距离,将用户距离小于第一预设距离的弹幕用户添加至第一个待聚类用户集,将添加后的第一个待聚类用户集确定为第一个聚类用户集。通过删除弹幕用户集合中用户距离小于第二预设距离的弹幕用户,以避免将这些弹幕用户再次添加至其他聚类用户集中,从而对弹幕用户集合进行第一次更新。从第一次更新后的弹幕用户集合中再随机选取一个目标弹幕用户,并将该目标弹幕用户作为第二个待聚类用户集,并将第一次更新后的弹幕用户集合中与当前目标弹幕用户之间的用户距离小于第一预设距离的弹幕用户,添加至第二个待聚类用户集,并将添加后的第二个待聚类用户集确定为第二个聚类用户集。通过删除第一次更新后的弹幕用户集合中用户距离小于第二预设距离的弹幕用户,以对弹幕用户集合进行第二次更新。依据相似的聚类过程,根据第二次更新后的弹幕用户集合确定第三个聚类用户集,直至更新后的弹幕用户集合为空集合时,表示聚类操作完成。
S150、根据各聚类用户集的用户总数、对各聚类用户标记的用户标识、以及预设可疑阈值,确定机器弹幕用户。
其中,用户标识可以包括可疑标识和真实标识。本实施例可以通过预设标记规则对每个聚类用户预先进行标记,以确定每个聚类用户对应的用户标识。可选的,预设标记规则可以为:将满足预设可疑条件的用户标记为可疑标识,将不满足预设可疑条件的用户标记为真实标识。本实施例中的预设可疑阈值是指根据实际情况预先确定的机器弹幕用户对应的可疑程度的最小值。
可选的,S150包括:根据各聚类用户集中对各聚类用户标记的用户标识,确定各聚类用户集中的可疑用户数量;根据各聚类用户集的用户总数和各可疑用户数量,确定各聚类用户集对应的可疑用户占比值;根据各可疑用户占比值和预设可疑阈值,于各弹幕用户中确定机器弹幕用户。
其中,聚类用户集中的可疑用户数量是指该聚类用户集中用户标识为可疑标识的用户数量。聚类用户集对应的可疑用户占比值是指该聚类用户集中的可疑用户数量除以该聚类用户集的用户总数得到的比值。本实施例根据每个聚类用户集对应的可疑用户占比值和预设可疑阈值,对每个弹幕用户进行识别,确定每个弹幕用户是否为机器弹幕用户。
可选的,根据各可疑用户占比值和预设可疑阈值,于各弹幕用户中确定机器弹幕用户,包括:将各弹幕用户逐个确定为目标弹幕用户,并确定包括目标弹幕用户的各目标聚类用户集;根据各目标聚类用户集对应的可疑用户占比值和目标聚类用户集总数,确定目标弹幕用户的目标可疑程度;若目标可疑程度大于预设可疑阈值,则将目标弹幕用户确定为机器弹幕用户。
其中,将所有弹幕用户逐个确定为目标弹幕用户,以逐个进行识别。本实施例中的目标弹幕用户可能同时存在于多个聚类用户集中,从而需要获取包含该目标弹幕用户的所有聚类用户集,并确定为目标聚类用户集。可选的,目标弹幕用户的目标可疑程度可以通过如下公式确定:
Figure BDA0001758172200000131
其中,Su是目标弹幕用户u对应的目标可疑程度,Cu是各目标聚类用户集组成的目标聚类用户集集合,i是目标聚类用户集集合Cu中第i个目标聚类用户集;ri是目标聚类用户集i对应的可疑用户占比值;k是目标聚类用户集总数。
在本实施例中,可以将所有目标聚类用户集对应的可疑用户占比值进行求和,并对求和结果取平均,将平均后的结果确定为目标弹幕用户的目标可疑程度。若目标可疑程度大于预设可疑阈值,则表示该目标弹幕用户为弹幕机器用户,此时将该目标弹幕用户可以确定为弹幕机器用户。通过聚类的方式可以更加准确的确定所有弹幕用户中存在的机器弹幕用户。
本实施例的技术方案,通过基于获取的第一预设数量的重要弹幕特征种类,从各弹幕用户对应的弹幕特征信息中确定各弹幕用户对应的重要弹幕特征信息;将各弹幕用户进行两两组合,并根据各重要弹幕特征信息和各观看信息,确定各组合中两个弹幕用户之间的用户距离;根据预设聚类算法和各用户距离,对各弹幕用户进行聚类,确定多个聚类用户集;根据各聚类用户集的用户总数、对各聚类用户标记的用户标识、以及预设可疑阈值,确定机器弹幕用户。通过根据弹幕用户对应的重要弹幕特征信息和观看信息进行聚类操作,可以识别出特征不太明显的机器弹幕用户,并且通过聚类方式识别的机器弹幕用户无需依赖训练样本,从而可以提高识别准确度。
以下是本发明实施例提供的机器弹幕用户的识别装置的实施例,该装置与上述各实施例的机器弹幕用户的识别方法属于同一个发明构思,在机器弹幕用户的识别装置的实施例中未详尽描述的细节内容,可以参考上述机器弹幕用户的识别方法的实施例。
实施例二
图2为本发明实施例二提供的一种机器弹幕用户的识别装置的结构示意图,本实施例可适用于在直播平台中对每个发送弹幕的用户进行识别的情况,该识别装置具体包括:用户信息获取模块210、重要弹幕特征信息确定模块220、用户距离确定模块230、聚类用户集确定模块240和机器弹幕用户确定模块250。
其中,用户信息获取模块210,用于获取各弹幕用户对应的弹幕特征信息和观看信息;重要弹幕特征信息确定模块220,用于基于获取的第一预设数量的重要弹幕特征种类,从各弹幕用户对应的弹幕特征信息中确定各弹幕用户对应的重要弹幕特征信息;用户距离确定模块230,用于将各弹幕用户进行两两组合,并根据各重要弹幕特征信息和各观看信息,确定各组合中两个弹幕用户之间的用户距离;聚类用户集确定模块240,用于根据预设聚类算法和各用户距离,对各弹幕用户进行聚类,确定多个聚类用户集;机器弹幕用户确定模块250,用于根据各聚类用户集的用户总数、对各聚类用户标记的用户标识、以及预设可疑阈值,确定机器弹幕用户,其中用户标识包括可疑标识和真实标识。
可选的,该装置还包括:
重要弹幕特征种类获取模块,用于将各弹幕用户对应的弹幕特征信息以及对各弹幕用户标记的用户标识确定为训练样本集,根据训练样本集对随机森林模型进行训练;于训练随机森林模型时,计算弹幕特征信息中各弹幕特征种类的基尼指数重要性评分;将各弹幕特征种类的基尼指数重要性评分进行降序排列,并将排列后的前第一预设数量的弹幕特征种类确定为第一预设数量的重要弹幕特征种类。
可选的,各弹幕用户对应的观看信息包括:弹幕用户在预设时间内的观看IP地址集合、观看设备标识集合、观看IP地址集合中各观看IP地址对应的第一观看次数、观看设备标识集合中各观看设备标识对应的第二观看次数、以及在预设时间内的观看总次数;相应的,用户距离确定模块230,具体用于:
将各弹幕用户对应的重要弹幕特征信息进行标准化和归一化,确定各弹幕用户对应的重要弹幕特征数值;根据各组合中两个弹幕用户分别对应的观看IP地址集合和观看设备标识集合,确定两个弹幕用户的各相同观看IP地址和各相同观看设备标识;根据两个弹幕用户分别对应的各相同观看IP地址对应的第一观看次数、各相同观看设备标识对应的第二观看次数、观看总次数、以及重要弹幕特征数值,确定两个弹幕用户之间的用户相似度;根据用户相似度确定两个弹幕用户之间的用户距离。
可选的,根据如下公式确定两个弹幕用户之间的用户相似度;
Figure BDA0001758172200000161
Figure BDA0001758172200000162
其中,wuv是弹幕用户u和弹幕用户v之间的用户相似度;Iuv是弹幕用户u与弹幕用户v的各相同观看IP地址组成的相同观看IP地址集合;Duv是弹幕用户u与弹幕用户v的各相同观看设备标识组成的相同观看设备标识集合;pi是相同观看IP地址集合Iuv中第i个相同观看IP地址;di是相同观看设备标识集合Duv中第i个相同观看IP地址;np是相同观看IP地址的总数量;nd是相同观看设备标识的总数量;
Figure BDA0001758172200000163
是弹幕用户u使用相同观看IP地址pi的第一观看比值;
Figure BDA0001758172200000164
是弹幕用户v使用相同观看IP地址pi的第一观看比值;
Figure BDA0001758172200000165
是弹幕用户u使用相同观看设备标识di的第二观看比值;
Figure BDA0001758172200000166
是弹幕用户v使用相同观看设备标识di的第二观看比值;yuj是弹幕用户u对应的第j个重要弹幕特征种类对应的重要弹幕特征数值;yvj是弹幕用户v对应的第j个重要弹幕特征种类对应的重要弹幕特征数值;m是第一预设数量;w1和w2均是权重系数,且w1+w2=1;
Figure BDA0001758172200000167
是弹幕用户u在预设时间内使用相同观看IP地址pi的第一观看次数;
Figure BDA0001758172200000168
是弹幕用户v在预设时间内使用相同观看IP地址pi的第一观看次数;
Figure BDA0001758172200000169
是弹幕用户u在预设时间内使用相同观看设备标识di的第二观看次数;
Figure BDA00017581722000001610
是弹幕用户v在预设时间内使用相同观看设备标识di的第二观看次数;Su是弹幕用户u在预设时间内的观看总次数;Sv是弹幕用户v在预设时间内的观看总次数。
可选的,预设聚类算法包括Cannopy聚类算法;相应的,聚类用户集确定模块240,具体用于:
于各弹幕用户组成的弹幕用户集合中随机选取一个目标弹幕用户,并将当前目标弹幕用户确定为当前待聚类用户集;将当前弹幕用户集合中与当前目标弹幕用户之间的用户距离小于第一预设距离的弹幕用户,添加至当前待聚类用户集,并将添加后的待聚类用户集确定为一个聚类用户集;将当前弹幕用户集合中与当前目标弹幕用户之间的用户距离小于第二预设距离的弹幕用户进行删除,以更新当前弹幕用户集合,其中,第二预设距离小于第一预设距离;于更新后的弹幕用户集合中随机选取一个目标弹幕用户,作为当前目标弹幕用户,并将当前目标弹幕用户确定为当前待聚类用户集,返回执行将当前弹幕用户集合中与当前目标弹幕用户之间的用户距离小于第一预设距离的弹幕用户,添加至当前待聚类用户集的操作,直至当前弹幕用户集合为空集合。
可选的,机器弹幕用户确定模块,包括:
可疑用户数量确定单元,用于根据各聚类用户集中对各聚类用户标记的用户标识,确定各聚类用户集中的可疑用户数量;
可疑用户占比值确定单元,用于根据各聚类用户集的用户总数和各可疑用户数量,确定各聚类用户集对应的可疑用户占比值;
机器弹幕用户确定单元,根据各可疑用户占比值和预设可疑阈值,于各弹幕用户中确定机器弹幕用户。
可选的,机器弹幕用户确定单元,具体用于:
将各弹幕用户逐个确定为目标弹幕用户,并确定包括目标弹幕用户的各目标聚类用户集;根据各目标聚类用户集对应的可疑用户占比值和目标聚类用户集总数,确定目标弹幕用户的目标可疑程度;若目标可疑程度大于预设可疑阈值,则将目标弹幕用户确定为机器弹幕用户。
上述机器弹幕用户的识别装置可执行本发明任意实施例所提供的机器弹幕用户的识别方法,具备执行机器弹幕用户的识别方法相应的功能模块和有益效果。
值得注意的是,上述机器弹幕用户的识别装置的实施例中,所包括的各个模块和单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例三
图3是本发明实施例三提供的一种服务器的结构示意图。参见图3,该服务器包括:
一个或多个处理器310;
存储器320,用于存储一个或多个程序;
当一个或多个程序被一个或多个处理器310执行,使得一个或多个处理器310实现如上述实施例中任一实施例提出的机器弹幕用户的识别方法,该方法包括:
获取各弹幕用户对应的弹幕特征信息和观看信息;
基于获取的第一预设数量的重要弹幕特征种类,从各弹幕用户对应的弹幕特征信息中确定各弹幕用户对应的重要弹幕特征信息;
将各弹幕用户进行两两组合,并根据各重要弹幕特征信息和各观看信息,确定各组合中两个弹幕用户之间的用户距离;
根据预设聚类算法和各用户距离,对各弹幕用户进行聚类,确定多个聚类用户集;
根据各聚类用户集的用户总数、对各聚类用户标记的用户标识、以及预设可疑阈值,确定机器弹幕用户,其中用户标识包括可疑标识和真实标识。
图3中以一个处理器310为例;服务器中的处理器310和存储器320可以通过总线或其他方式连接,图3中以通过总线连接为例。
存储器320作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的机器弹幕用户的识别方法对应的程序指令/模块(例如,机器弹幕用户的识别装置中的用户信息获取模块210、重要弹幕特征信息确定模块220、用户距离确定模块230、聚类用户集确定模块240和机器弹幕用户确定模块250)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述的机器弹幕用户的识别方法。
存储器320主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器320可进一步包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本实施例提出的服务器与上述实施例提出的机器弹幕用户的识别方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例具备执行机器弹幕用户的识别方法相同的有益效果。
实施例四
本实施例四提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例的机器弹幕用户的识别方法,该方法包括:
获取各弹幕用户对应的弹幕特征信息和观看信息;
基于获取的第一预设数量的重要弹幕特征种类,从各弹幕用户对应的弹幕特征信息中确定各弹幕用户对应的重要弹幕特征信息;
将各弹幕用户进行两两组合,并根据各重要弹幕特征信息和各观看信息,确定各组合中两个弹幕用户之间的用户距离;
根据预设聚类算法和各用户距离,对各弹幕用户进行聚类,确定多个聚类用户集;
根据各聚类用户集的用户总数、对各聚类用户标记的用户标识、以及预设可疑阈值,确定机器弹幕用户,其中用户标识包括可疑标识和真实标识。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种机器弹幕用户的识别方法,其特征在于,包括:
获取各弹幕用户对应的弹幕特征信息和观看信息;
基于获取的第一预设数量的重要弹幕特征种类,从所述各弹幕用户对应的弹幕特征信息中确定各所述弹幕用户对应的重要弹幕特征信息;
将所述各弹幕用户进行两两组合,并根据各所述重要弹幕特征信息和各所述观看信息,确定各组合中两个弹幕用户之间的用户距离;
根据预设聚类算法和各所述用户距离,对所述各弹幕用户进行聚类,确定多个聚类用户集;
根据各所述聚类用户集的用户总数、对各聚类用户标记的用户标识、以及预设可疑阈值,确定机器弹幕用户,其中所述用户标识包括可疑标识和真实标识;
各所述弹幕用户对应的观看信息包括:所述弹幕用户在预设时间内的观看IP地址集合、观看设备标识集合、所述观看IP地址集合中各观看IP地址对应的第一观看次数、所述观看设备标识集合中各观看设备标识对应的第二观看次数、以及在所述预设时间内的观看总次数;
相应的,根据各所述重要弹幕特征信息和各所述观看信息,确定各组合中两个弹幕用户之间的用户距离,包括:
将各所述弹幕用户对应的重要弹幕特征信息进行标准化和归一化,确定各所述弹幕用户对应的重要弹幕特征数值;
根据各组合中两个弹幕用户分别对应的观看IP地址集合和观看设备标识集合,确定所述两个弹幕用户的各相同观看IP地址和各相同观看设备标识;
根据所述两个弹幕用户分别对应的各所述相同观看IP地址对应的第一观看次数、各所述相同观看设备标识对应的第二观看次数、观看总次数、以及所述重要弹幕特征数值,确定所述两个弹幕用户之间的用户相似度;
根据所述用户相似度确定所述两个弹幕用户之间的用户距离。
2.根据权利要求1所述的方法,其特征在于,获取第一预设数量的重要弹幕特征种类,包括:
将各弹幕用户对应的弹幕特征信息以及对各所述弹幕用户标记的用户标识确定为训练样本集,根据所述训练样本集对随机森林模型进行训练;
于训练所述随机森林模型时,计算所述弹幕特征信息中各弹幕特征种类的基尼指数重要性评分;
将各所述弹幕特征种类的基尼指数重要性评分进行降序排列,并将排列后的前第一预设数量的弹幕特征种类确定为第一预设数量的重要弹幕特征种类。
3.根据权利要求1所述的方法,其特征在于,根据如下公式确定所述两个弹幕用户之间的用户相似度;
Figure FDA0002584916510000021
Figure FDA0002584916510000022
其中,wuv是弹幕用户u和弹幕用户v之间的用户相似度;Iuv是弹幕用户u与弹幕用户v的各相同观看IP地址组成的相同观看IP地址集合;Duv是弹幕用户u与弹幕用户v的各相同观看设备标识组成的相同观看设备标识集合;pi是所述相同观看IP地址集合Iuv中第i个相同观看IP地址;di是所述相同观看设备标识集合Duv中第i个相同观看IP地址;np是所述相同观看IP地址的总数量;nd是所述相同观看设备标识的总数量;
Figure FDA0002584916510000031
是弹幕用户u使用相同观看IP地址pi的第一观看比值;
Figure FDA0002584916510000032
是弹幕用户v使用相同观看IP地址pi的第一观看比值;
Figure FDA0002584916510000033
是弹幕用户u使用相同观看设备标识di的第二观看比值;
Figure FDA0002584916510000034
是弹幕用户v使用相同观看设备标识di的第二观看比值;yuj是弹幕用户u对应的第j个重要弹幕特征种类对应的重要弹幕特征数值;yvj是弹幕用户v对应的第j个重要弹幕特征种类对应的重要弹幕特征数值;m是所述第一预设数量;w1和w2均是权重系数,且w1+w2=1;
Figure FDA0002584916510000035
是弹幕用户u在预设时间内使用相同观看IP地址pi的第一观看次数;
Figure FDA0002584916510000036
是弹幕用户v在预设时间内使用相同观看IP地址pi的第一观看次数;
Figure FDA0002584916510000037
是弹幕用户u在预设时间内使用相同观看设备标识di的第二观看次数;
Figure FDA0002584916510000038
是弹幕用户v在预设时间内使用相同观看设备标识di的第二观看次数;Su是弹幕用户u在所述预设时间内的观看总次数;Sv是弹幕用户v在所述预设时间内的观看总次数。
4.根据权利要求1所述的方法,其特征在于,所述预设聚类算法包括Cannopy聚类算法;
相应的,根据预设聚类算法和各所述用户距离,对所述各弹幕用户进行聚类,确定多个聚类用户集,包括:
于所述各弹幕用户组成的弹幕用户集合中随机选取一个目标弹幕用户,并将当前目标弹幕用户确定为当前待聚类用户集;
将当前弹幕用户集合中与当前目标弹幕用户之间的用户距离小于第一预设距离的弹幕用户,添加至当前待聚类用户集,并将添加后的待聚类用户集确定为一个聚类用户集;
将当前弹幕用户集合中与当前目标弹幕用户之间的用户距离小于第二预设距离的弹幕用户进行删除,以更新当前弹幕用户集合,其中,所述第二预设距离小于所述第一预设距离;
于更新后的弹幕用户集合中随机选取一个目标弹幕用户,作为当前目标弹幕用户,并将当前目标弹幕用户确定为当前待聚类用户集,返回执行将当前弹幕用户集合中与当前目标弹幕用户之间的用户距离小于第一预设距离的弹幕用户,添加至当前待聚类用户集的操作,直至当前弹幕用户集合为空集合。
5.根据权利要求1所述的方法,其特征在于,根据各所述聚类用户集的用户总数、对各聚类用户标记的用户标识、以及预设可疑阈值,确定机器弹幕用户,包括:
根据各所述聚类用户集中对各聚类用户标记的用户标识,确定各所述聚类用户集中的可疑用户数量;
根据各所述聚类用户集的用户总数和各所述可疑用户数量,确定各所述聚类用户集对应的可疑用户占比值;
根据各所述可疑用户占比值和预设可疑阈值,于所述各弹幕用户中确定机器弹幕用户。
6.根据权利要求5所述的方法,其特征在于,根据各所述可疑用户占比值和预设可疑阈值,于所述各弹幕用户中确定机器弹幕用户,包括:
将所述各弹幕用户逐个确定为目标弹幕用户,并确定包括所述目标弹幕用户的各目标聚类用户集;
根据各所述目标聚类用户集对应的可疑用户占比值和目标聚类用户集总数,确定所述目标弹幕用户的目标可疑程度;
若所述目标可疑程度大于预设可疑阈值,则将所述目标弹幕用户确定为机器弹幕用户。
7.一种机器弹幕用户的识别装置,其特征在于,包括:
用户信息获取模块,用于获取各弹幕用户对应的弹幕特征信息和观看信息;
重要弹幕特征信息确定模块,用于基于获取的第一预设数量的重要弹幕特征种类,从所述各弹幕用户对应的弹幕特征信息中确定各所述弹幕用户对应的重要弹幕特征信息;
用户距离确定模块,用于将所述各弹幕用户进行两两组合,并根据各所述重要弹幕特征信息和各所述观看信息,确定各组合中两个弹幕用户之间的用户距离;
聚类用户集确定模块,用于根据预设聚类算法和各所述用户距离,对所述各弹幕用户进行聚类,确定多个聚类用户集;
机器弹幕用户确定模块,用于根据各所述聚类用户集的用户总数、对各聚类用户标记的用户标识、以及预设可疑阈值,确定机器弹幕用户,其中所述用户标识包括可疑标识和真实标识;
各弹幕用户对应的观看信息包括:弹幕用户在预设时间内的观看IP地址集合、观看设备标识集合、观看IP地址集合中各观看IP地址对应的第一观看次数、观看设备标识集合中各观看设备标识对应的第二观看次数、以及在预设时间内的观看总次数;相应的,用户距离确定模块,具体用于:
将各弹幕用户对应的重要弹幕特征信息进行标准化和归一化,确定各弹幕用户对应的重要弹幕特征数值;根据各组合中两个弹幕用户分别对应的观看IP地址集合和观看设备标识集合,确定两个弹幕用户的各相同观看IP地址和各相同观看设备标识;根据两个弹幕用户分别对应的各相同观看IP地址对应的第一观看次数、各相同观看设备标识对应的第二观看次数、观看总次数、以及重要弹幕特征数值,确定两个弹幕用户之间的用户相似度;根据用户相似度确定两个弹幕用户之间的用户距离。
8.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的机器弹幕用户的识别方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的机器弹幕用户的识别方法。
CN201810896019.7A 2018-08-08 2018-08-08 一种机器弹幕用户的识别方法、装置、服务器和存储介质 Active CN109086422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810896019.7A CN109086422B (zh) 2018-08-08 2018-08-08 一种机器弹幕用户的识别方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810896019.7A CN109086422B (zh) 2018-08-08 2018-08-08 一种机器弹幕用户的识别方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN109086422A CN109086422A (zh) 2018-12-25
CN109086422B true CN109086422B (zh) 2021-02-02

Family

ID=64833855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810896019.7A Active CN109086422B (zh) 2018-08-08 2018-08-08 一种机器弹幕用户的识别方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN109086422B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111385655A (zh) * 2018-12-29 2020-07-07 武汉斗鱼网络科技有限公司 一种广告弹幕检测方法、装置、服务器及存储介质
CN110084373B (zh) * 2019-04-22 2021-08-24 腾讯科技(深圳)有限公司 信息处理方法、装置、计算机可读存储介质和计算机设备
CN110427999B (zh) * 2019-07-26 2022-02-22 武汉斗鱼网络科技有限公司 一种账号相关性评估方法、装置、设备及介质
CN112667961A (zh) * 2019-10-16 2021-04-16 武汉斗鱼网络科技有限公司 一种识别广告弹幕发布者的方法及系统
CN112000711A (zh) * 2020-07-21 2020-11-27 微梦创科网络科技(中国)有限公司 一种基于Spark确定刷评用户的方法及系统
CN113347497B (zh) * 2021-08-02 2021-11-26 武汉斗鱼鱼乐网络科技有限公司 目标用户识别方法、装置、电子设备以及存储介质
CN113657930A (zh) * 2021-08-12 2021-11-16 广州虎牙科技有限公司 测试策略有效性的方法、装置、电子设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6288753B1 (en) * 1999-07-07 2001-09-11 Corrugated Services Corp. System and method for live interactive distance learning
CN104331716A (zh) * 2014-11-20 2015-02-04 武汉图歌信息技术有限责任公司 面向大规模训练数据的svm主动学习分类算法
CN104967876A (zh) * 2014-09-30 2015-10-07 腾讯科技(深圳)有限公司 弹幕信息处理方法和装置、弹幕信息展示方法和装置
CN106022826A (zh) * 2016-05-18 2016-10-12 武汉斗鱼网络科技有限公司 一种网络直播平台中的作弊用户识别方法与系统
CN106204106A (zh) * 2016-06-28 2016-12-07 武汉斗鱼网络科技有限公司 一种特定用户识别方法及系统
CN106412711A (zh) * 2016-09-22 2017-02-15 广州华多网络科技有限公司 弹幕控制方法及装置
JP2018023056A (ja) * 2016-08-05 2018-02-08 フリュー株式会社 写真作成ゲーム機および表示制御方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106921891B (zh) * 2015-12-24 2020-02-11 北京奇虎科技有限公司 一种视频特征信息的展示方法和装置
CN107645686A (zh) * 2017-09-22 2018-01-30 广东欧珀移动通信有限公司 信息处理方法、装置、终端设备及存储介质
CN107592578B (zh) * 2017-09-22 2019-05-07 Oppo广东移动通信有限公司 信息处理方法、装置、终端设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6288753B1 (en) * 1999-07-07 2001-09-11 Corrugated Services Corp. System and method for live interactive distance learning
CN104967876A (zh) * 2014-09-30 2015-10-07 腾讯科技(深圳)有限公司 弹幕信息处理方法和装置、弹幕信息展示方法和装置
CN104331716A (zh) * 2014-11-20 2015-02-04 武汉图歌信息技术有限责任公司 面向大规模训练数据的svm主动学习分类算法
CN106022826A (zh) * 2016-05-18 2016-10-12 武汉斗鱼网络科技有限公司 一种网络直播平台中的作弊用户识别方法与系统
CN106204106A (zh) * 2016-06-28 2016-12-07 武汉斗鱼网络科技有限公司 一种特定用户识别方法及系统
JP2018023056A (ja) * 2016-08-05 2018-02-08 フリュー株式会社 写真作成ゲーム機および表示制御方法
CN106412711A (zh) * 2016-09-22 2017-02-15 广州华多网络科技有限公司 弹幕控制方法及装置

Also Published As

Publication number Publication date
CN109086422A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN109086422B (zh) 一种机器弹幕用户的识别方法、装置、服务器和存储介质
US20120198048A1 (en) Identifying remote machine operating system
CN109165691B (zh) 用于识别作弊用户的模型的训练方法、装置及电子设备
CN110363076A (zh) 人员信息关联方法、装置及终端设备
CN113383362A (zh) 用户识别方法及相关产品
CN111934954A (zh) 宽带的检测方法、装置、电子设备及存储介质
CN112995690B (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN113010785A (zh) 用户推荐方法及设备
CN112788351A (zh) 一种目标直播间的识别方法、装置、设备和存储介质
CN112788356B (zh) 一种直播审核的方法、装置、服务器和存储介质
CN113347497B (zh) 目标用户识别方法、装置、电子设备以及存储介质
CN112700203A (zh) 智能阅卷方法及装置
CN110674632A (zh) 一种确定安全级别的方法及装置、存储介质和设备
CN109040447B (zh) 一种手机墙的识别方法、装置、服务器和存储介质
CN112686732B (zh) 异常地址数据识别方法、装置、设备、介质
CN111107399A (zh) 关注列表优化方法、存储介质、设备及系统
CN110210884A (zh) 确定用户特征数据的方法、装置、计算机设备及存储介质
CN110674839B (zh) 异常用户识别方法、装置、存储介质及电子设备
CN111259689B (zh) 用于发送信息的方法和装置
CN110661796A (zh) 一种用户动作流量的识别方法和识别装置
CN110197323A (zh) 一种企业数据分析方法
CN111385655A (zh) 一种广告弹幕检测方法、装置、服务器及存储介质
CN114630185B (zh) 一种目标用户识别方法、装置、电子设备和存储介质
CN109753599A (zh) 推荐业务的方法和装置
CN112261484B (zh) 一种目标用户识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant