CN113810727A - 一种识别刷量直播间的方法及系统、介质、电子设备 - Google Patents

一种识别刷量直播间的方法及系统、介质、电子设备 Download PDF

Info

Publication number
CN113810727A
CN113810727A CN202010539698.XA CN202010539698A CN113810727A CN 113810727 A CN113810727 A CN 113810727A CN 202010539698 A CN202010539698 A CN 202010539698A CN 113810727 A CN113810727 A CN 113810727A
Authority
CN
China
Prior art keywords
live broadcast
broadcast room
identified
user
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010539698.XA
Other languages
English (en)
Inventor
王璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN202010539698.XA priority Critical patent/CN113810727A/zh
Publication of CN113810727A publication Critical patent/CN113810727A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明公开了一种识别刷量直播间的方法,获取待识别直播间的日志数据,所述日志数据;基于日志数据,统计每个时间窗口内进入所述待识别直播间的用户数,获得序列集合;基于所述序列集合,获得进入所述待识别直播间的用户数最多的时间窗口的第一起始时间戳;基于所述序列集合和所述第一起始时间戳,获得进入所述待识别直播间的用户数开始异常增加的时间窗口的第二起始时间戳;基于所述第一起始时间戳和所述第二起始时间戳,获得表征在第一时间段内用户参与所述待识别直播间的互动时长占比大小程度的直播间参量值;判断所述直播间参量值是否大于预设参量阈值,若是,则将所述待识别直播间识别为刷量直播间。

Description

一种识别刷量直播间的方法及系统、介质、电子设备
技术领域
本发明涉及网络直播技术领域,尤其涉及一种识别刷量直播间的方法及系统、介质、电子设备。
背景技术
在网络直播平台上,主播通过直播间跟用户进行互动,以所开直播间的观看用户数量及观看时长来体现主播的价值。因此,主播为了提高人气,通常会找刷单工作室来刷直播间的观看时长,导致占用直播网络资源,引起直播卡顿。现有技术中,主要通过以下两种方法对刷量直播间进行识别:挖掘高密子图,找到异常的观看设备或用户和直播间的关联,该方法在直播间刷量场景的问题是对于一些热门直播间,很容易发现一些高密的联系,但这样的联系并不是异常的,因此会产生误判;通过数据采集,找到一些频繁切换直播间等具有异常行为的用户或者设备,该方法的问题是具有明显异常的用户或设备并不普遍,识别覆盖率有效;并且在直播间刷量场景中我们更希望得到直播间是否刷量的判断,而非单个用户或者设备。因此,对刷量直播间的识别准确性低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别刷量直播间的方法及系统、介质、电子设备。
一方面,本申请通过本申请的一实施例提供如下技术方案:
一种识别刷量直播间的方法,用于网络直播平台,所述方法包括:
获取待识别直播间的日志数据,所述目志数据包括参与所述待识别直播间互动的用户集、每个用户进入所述待识别直播间的时间戳和每个用户参与所述待识别直播间的互动时长;
基于所述参与所述待识别直播间互动的用户集和每个用户进入所述待识别直播间的时间戳,统计每个时间窗口内进入所述待识别直播间的用户数,获得序列集合;其中,所述时间窗口是将第一预设时间段切割获得的时间窗口;
基于所述序列集合,获得进入所述待识别直播间的用户数最多的时间窗口的第一起始时间戳;
基于所述序列集合和所述第一起始时间戳,获得进入所述待识别直播间的用户数开始异常增加的时间窗口的第二起始时间戳;
基于所述第一起始时间戳、所述第二起始时间戳和每个用户参与所述待识别直播间的互动时长,获得表征在第一时间段内用户参与所述待识别直播间的互动时长占比大小程度的直播间参量值;其中,所述第一时间段为所述第一起始时间戳与所述第二起始时间戳之间的时间段;
判断所述直播间参量值是否大于预设参量阈值,若是,则将所述待识别直播间识别为刷量直播间。
可选的,在所述基于所述参与所述待识别直播间互动的用户集和每个用户进入所述待识别直播间的时间戳,统计每个时间窗口内进入所述待识别直播间的用户数,获得序列集合之前,所述方法还包括:
按照时间窗口t对第一预设时间段[0,T]切割获得e+1个时间窗口,每个时间窗口的起始时间戳分别为t0,t1,...,te
Figure BDA0002537444180000021
则所述序列集合表示为S={(t0,c0),(t1,c1),...,(te,ce)},ck表示在第k个起始时间戳对应的时间窗口进入所述待识别直播间的用户数,k=0,1,...,e。
可选的,所述基于所述序列集合,获得进入所述待识别直播间的用户数最多的时间窗口的第一起始时间戳,具体包括:
按照如下公式获得所述第一起始时间戳:
Figure BDA0002537444180000022
其中,tm表示所述第一起始时间戳,m=0,1,...,e;(t,c)表示所述序列集合S中的任意一个元素。
可选的,所述基于所述序列集合和所述第一起始时间戳,获得进入所述待识别直播间的用户数开始异常增加的时间窗口的第二起始时间戳,具体包括:
按照如下公式获得所述第二起始时间戳:
Figure BDA0002537444180000031
其中,tw表示所述第二起始时间戳,取值是t0,t1,...,tm-1其中一个;(t,c)是序列集合S中的任意一个元素;cm是在tm对应的时间窗口进入所述待识别直播间的用户数。
可选的,所述基于所述第一起始时间戳、所述第二起始时间戳和每个用户参与所述待识别直播间的互动时长,获得表征在第一时间段内用户参与所述待识别直播间的互动时长占比大小程度的直播间参量值,具体包括:
按照如下公式获得所述直播间参量值:
Figure BDA0002537444180000032
其中,s表示所述直播间参量值;U表示参与所述待识别直播间互动的用户集,v和u是u中的用户;wv表示用户v在[0,T]参与所述待识别直播间的互动时长;wu表示用户u在[0,T]参与所述待识别直播间的互动时长;wsu表示用户u在[tw,tm+1]参与所述待识别直播间的互动时长;msu表示用户u在[tw,tm+1]的时间段内在所述待识别直播间发送的弹幕数;mu表示用户u在[0,T]的时间段内在所述待识别直播间发送的弹幕数;dsu表示用户u在[tw,tm+1]的时间段内在所述待识别直播间增送的道具数;du表示用户u在[0,T]的时间段内在所述待识别直播间发送的道具数。
可选的,在所述判断所述直播间参量值是否大于预设参量阈值之前,所述方法还包括:
基于所述网络直播平台中开播直播间的日志数据,获得所述预设参量阈值。
可选的,所述基于所述网络直播平台中开播直播间的日志数据,获得所述预设参量阈值,具体包括:
基于所述网络直播平台中开播直播间的目志数据,获得每个开播直播间的直播间参量值;
计算每个开播直播间的直播间参量值的平均值和标准差,利用3-sigma原则,获得所述预设参量阈值。
另一方面,本申请通过本申请的另一实施例提供一种识别刷量直播间的系统,用于网络直播平台,所述系统包括:
获取日志模块,用于获取待识别直播间的目志数据,所述日志数据包括参与所述待识别直播间互动的用户集、每个用户进入所述待识别直播间的时间戳和每个用户参与所述待识别直播间的互动时长;
分段统计模块,用于基于所述参与所述待识别直播间互动的用户集和每个用户进入所述待识别直播间的时间戳,统计每个时间窗口内进入所述待识别直播间的用户数,获得序列集合;其中,所述时间窗口是将第一预设时间段切割获得的时间窗口;
第一获得模块,用于基于所述序列集合,获得进入所述待识别直播间的用户数最多的时间窗口的第一起始时间戳;
第二获得模块,用于基于所述序列集合和所述第一起始时间戳,获得进入所述待识别直播间的用户数开始异常增加的时间窗口的第二起始时间戳;
第三获得模块,用于基于所述第一起始时间戳、所述第二起始时间戳和每个用户参与所述待识别直播间的互动时长,获得表征在第一时间段内用户参与所述待识别直播间的互动时长占比大小程度的直播间参量值;其中,所述第一时间段为所述第一起始时间戳与所述第二起始时间戳之间的时间段;
判断识别模块,用于判断所述直播间参量值是否大于预设参量阈值,若是,则将所述待识别直播间识别为刷量直播间。
本发明公开了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明公开了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
在本发明的一个或多个实施例中的识别刷量直播间的方法,针对刷量直播间具有在一定时间段内有用户集中参与互动,且集中参与互动之后该直播间的互动人数有一个较大的降幅的客观特征,基于参与待识别直播间互动的用户集和每个用户进入待识别直播间的时间戳,统计第一预设时间段切割获得的每个时间窗口内进入所述待识别直播间的用户数,获得进入待识别直播间的用户数最多的时间窗口的第一起始时间戳和进入所述待识别直播间的用户数开始异常增加的时间窗口的第二起始时间戳;然后基于第一起始时间戳、第二起始时间戳和每个用户参与待识别直播间的互动时长,获得表征在第一起始时间戳与第二起始时间戳之间的第一时间段内用户参与待识别直播间的互动时长占比大小程度的直播间参量值;由于直播间参量值可表征第一时间段内用户参与所述待识别直播间的互动时长占比大小程度,能准确的反映出刷量直播间具有的客观特征,因此,若直播间参量值大于预设参量阈值,则可将所述待识别直播间识别为刷量直播间。因此,本发明的方法可准确快速的从网络直播平台中识别出刷量直播间,以便对刷量直播间进行管控和限制,减少直播网络资源的占用,提高网络直播平台的直播流畅度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一种实施例中的识别刷量直播间的方法流程图;
图2是本发明一种实施例中的识别刷量直播间的系统构架图。
具体实施方式
本申请实施例通过提供一种识别刷量直播间的方法及系统、介质、电子设备,提供了一种准确快速识别出刷量直播间的方法。
本申请实施例的技术方案为解决上述技术问题,总体思路如下:
一种识别刷量直播间的方法,获取待识别直播间的目志数据,所述目志数据包括参与所述待识别直播间互动的用户集、每个用户进入所述待识别直播间的时间戳和每个用户参与所述待识别直播间的互动时长;基于所述参与所述待识别直播间互动的用户集和每个用户进入所述待识别直播间的时间戳,统计每个时间窗口内进入所述待识别直播间的用户数,获得序列集合;其中,所述时间窗口是将第一预设时间段切割获得的时间窗口;基于所述序列集合,获得进入所述待识别直播间的用户数最多的时间窗口的第一起始时间戳;基于所述序列集合和所述第一起始时间戳,获得进入所述待识别直播间的用户数开始异常增加的时间窗口的第二起始时间戳;基于所述第一起始时间戳、所述第二起始时间戳和每个用户参与所述待识别直播间的互动时长,获得表征在第一时间段内用户参与所述待识别直播间的互动时长占比大小程度的直播间参量值;其中,所述第一时间段为所述第一起始时间戳与所述第二起始时间戳之间的时间段;判断所述直播间参量值是否大于预设参量阈值,若是,则将所述待识别直播间识别为刷量直播间。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
首先说明,本文中出现的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在网络直播平台上,现有针对刷量直播间的识别方法的局限在于:
挖掘高密子图,找到异常的观看设备或用户和直播间的关联,该方法在直播间刷量场景的问题是对于一些热门直播间,很容易发现一些高密的联系,但这样的联系并不是异常的,因此会产生误判。
通过数据采集,找到一些频繁切换直播间等具有异常行为的用户或者设备,该方法的问题是具有明显异常的用户或设备并不普遍,识别覆盖率有效;并且在直播间刷量场景中我们更希望得到直播间是否刷量的判断,而非单个用户或者设备。
因此,现有的识别方法准确率都不高。而本说明书的实施例提供的识别刷量直播间的方法快速准确,可以克服现有技术的局限,提高识别准确率。
实施例一
本实施提供了一种识别刷量直播间的方法,用于网络直播平台,参见图1,本实施例的方法包括如下步骤:
S202、获取待识别直播间的日志数据,所述日志数据包括参与所述待识别直播间互动的用户集、每个用户进入所述待识别直播间的时间戳和每个用户参与所述待识别直播间的互动时长;
S204、基于所述参与所述待识别直播间互动的用户集和每个用户进入所述待识别直播间的时间戳,统计每个时间窗口内进入所述待识别直播间的用户数,获得序列集合;其中,所述时间窗口是将第一预设时间段切割获得的时间窗口;
S206、基于所述序列集合,获得进入所述待识别直播间的用户数最多的时间窗口的第一起始时间戳;
S208、基于所述序列集合和所述第一起始时间戳,获得进入所述待识别直播间的用户数开始异常增加的时间窗口的第二起始时间戳;
S210、基于所述第一起始时间戳、所述第二起始时间戳和每个用户参与所述待识别直播间的互动时长,获得表征在第一时间段内用户参与所述待识别直播间的互动时长占比大小程度的直播间参量值;其中,所述第一时间段为所述第一起始时间戳与所述第二起始时间戳之间的时间段;
S212、判断所述直播间参量值是否大于预设参量阈值,若是,则将所述待识别直播间识别为刷量直播间。
需要说明的是,本实施例中的用户可以是参与直播的人,也可以是参与直播互动的电子设备,如智能机器人等。在本实施例中,网络直播平台通常会开设多个直播间,每个直播间有主播与众多的用户进行互动。互动可以包括观看直播、游戏互动等一切网络直播中用户与主播的互动。
本实施例提供的识别刷量直播间的方法可适用于对以雇佣非正常用户参与直播间互动,以增加直播间人气的作弊直播间进行识别的场景,行业网络流行语称为“刷单”,例如,主播找刷单工作室来刷直播间的观看时长。该方法可以由识别刷量直播间的装置来执行,该装置可以由软件和/或硬件的方式来实现,通常集成于终端,例如与直播平台对应的服务器。
参见图1,本实施例方法的执行过程如下:
首先,执行S202,获取待识别直播间的日志数据,所述日志数据包括参与所述待识别直播间互动的用户集、每个用户进入所述待识别直播间的时间戳和每个用户参与所述待识别直播间的互动时长。
其中,可以理解的是,日志数据是指该网络直播平台上记录的待识别直播间的互动活动所产生的数据,可以根据需要设置需要记录的日志数据。为了后续准确识别刷量直播间,本实施例中的日志数据至少包括参与所述待识别直播间互动的用户集、每个用户进入所述待识别直播间的时间戳和每个用户参与所述待识别直播间的互动时长。
具体的,为了后续通过刷量直播间参量值来识别刷量直播间,本实施例中的日志数据至少包括参与所述待识别直播间互动的用户集、每个用户进入所述待识别直播间的时间戳和每个用户参与所述待识别直播间的互动时长三种客观存在的日志数据。
需要说明的是,选取上述三种日志数据的根据是:
在网络直播平台上,由于刷量直播间通常以雇佣非正常用户参与直播间互动,以增加直播间人气。因此,刷量直播间具有的特征客观的表现为:在一定时间段内集中参与互动,该时间段内总共互动时长占比大,集中参与互动之后该直播间的观看人数有一个较大的降低。基于此客观特征,本实施例的方法首先获得参与所述待识别直播间互动用户数量,用户数量加上用户互动时长,可计算出各用户的总互动时长;其次,根据进入所述待识别直播间的时间戳和每个用户参与所述待识别直播间的互动时长,可获得用户进入和退出直播间的时间戳,以此方便将用户各用户的总互动时长按时间窗口进行划分,为后续获得准确的直播间参量值,提供基础数据。
基于此,本领域技术人员显然可以理解,在本发明实施例步骤S101中选取的参与所述待识别直播间互动的用户集、每个用户进入所述待识别直播间的时间戳和每个用户参与所述待识别直播间的互动时长三种客观存在的日志数据这三种数据均是进一步提高识别准确率所必不可少的信息参数,是用户使用后留下的痕迹,是客观存在的,并非人为主观因素的选取,而是为了解决技术问题必须对上述参与所述待识别直播间互动的用户集、每个用户进入所述待识别直播间的时间戳和每个用户参与所述待识别直播间的互动时长三种客观存在的日志数据进行获取(也即符合自然规律的选取),以为下述S204-S212提供数据基础。
接下来,执行S204,基于所述参与所述待识别直播间互动的用户集和每个用户进入所述待识别直播间的时间戳,统计每个时间窗口内进入所述待识别直播间的用户数,获得序列集合;其中,所述时间窗口是将第一预设时间段切割获得的时间窗口。
为了获得时间窗口,作为一种可选的实施方式,在获得序列集合之前,本实施例的方法还包括:
按照时间窗口t对第一预设时间段[0,T]切割获得e+1个时间窗口,每个时间窗口的起始时间戳分别为t0,t1,...,te
Figure BDA0002537444180000101
则所述序列集合表示为S={(t0,c0),(t1,c1),...,(te,ce)},ck表示在第k个起始时间戳对应的时间窗口进入所述待识别直播间的用户数,k=0,1,...,e。
需要说明的是,本实施例中的第一预设时间段可以根据需要进行确定,一般是以天为单位,可以是一天或多天;时间窗口可以是5分钟,15分钟、30分钟等,但时间窗口的选择不能过长或者过短,过长或者过短都无法凸显刷量的模式。如果窗口选取过短,那么每个窗口进入直播间用户数会非常少,因此各窗口的差别不大,无法凸显出某些窗口的异常;如果窗口选取过长,那么异常的行为将会因为时间尺度变大而被模糊,也无法达到识别的目的。
在获得e+1个时间窗口后,基于所述参与所述待识别直播间互动的用户集和每个用户进入所述待识别直播间的时间戳,统计每个时间窗口内进入所述待识别直播间的用户数,获得关于每个时间窗口的起始时间戳与对应的时间窗口中进入所述待识别直播间的用户数的序列集合。
将第一预设时间段切割获得e+1个时间窗口,是为了捕捉直播间的刷量信号,这些信号会存在某些时间段中,通过切割时间窗口可以帮助找到这些信号出现的位置,从而最终得到发生异常的时间区间。
接下来,执行S206,基于所述序列集合,获得进入所述待识别直播间的用户数最多的时间窗口的第一起始时间戳。
在具体实施过程中,为了后续获得第二起始时间戳和直播间参量值,首先需要从序列集合中筛选出进入所述待识别直播间的用户数最多的时间窗口的第一起始时间戳。
示例性的,可以按照如下求最大值的公式获得所述第一起始时间戳:
Figure BDA0002537444180000102
其中,tm表示所述第一起始时间戳,m=0,1,...,e;(t,c)表示所述序列集合S中的任意一个元素。
上述公式很容易理解,就是找到序列集合S中进入待识别直播间的用户数c最大时对应的起始时间戳。
获得第一起始时间戳,可以获得表征待识别直播间出现用户进入最多的异常爆发点,为后续获得准确的直播间参量值提供必要的基础数据。
接下来,执行S208,基于所述序列集合和所述第一起始时间戳,获得进入所述待识别直播间的用户数开始异常增加的时间窗口的第二起始时间戳。
在具体实施过程中,在S206中获得第一起始时间戳后,为了后续获得直播间参量值,还要获得进入所述待识别直播间的用户数开始异常增加的时间窗口的第二起始时间戳。
示例性的,可以按照如下公式获得所述第二起始时间戳:
Figure BDA0002537444180000111
其中,tw表示所述第二起始时间戳,取值是t0,t1,...,tm-1其中一个;(t,c)是序列集合S中的任意一个元素;cm是在tm对应的时间窗口进入所述待识别直播间的用户数。
上述公式的原理是:将序列集合中各时间窗口的起始时间戳和进入直播间用户数看成一个二维坐标系,这样每个(tk,ck)都可以看作是坐标系上面的一个点。公式中,
Figure BDA0002537444180000112
表示的是(tm,cm)和(t0,c0)之间形成的直线长度,
Figure BDA0002537444180000113
表示的是(t,c)到上述直线的垂线距离。垂线距离越大,说明(t,c)距离(tm,cm)和(t0,c0)之间形成的直线越远,该点越有可能是异常开始的点。
因此,上述公式的取最大值结果表示的是异常唤起点,即进入直播间的用户数量在某一个时间窗口开始异常增多的第二起始时间戳作为异常唤起点。
获得第二起始时间戳,可以获得表征待识别直播间出现用户异常增多的异常唤起点,为后续获得准确的直播间参量值提供另一必要的基础数据。
接下来,执行S210,基于所述第一起始时间戳、所述第二起始时间戳和每个用户参与所述待识别直播间的互动时长,获得表征在第一时间段内用户参与所述待识别直播间的互动时长占比大小程度的直播间参量值;其中,所述第一时间段为所述第一起始时间戳与所述第二起始时间戳之间的时间段;
在具体实施过程中,根据刷量直播间具有的特征客观的表现,在异常唤起点(即第二起始时间戳)到异常爆发点(第一起始时间戳)的时间段内,是待识别直播间最可能发生刷量行为的时间,因此对于异常刷量用户其大部分时间的互动都发生在该时间段内,因此,需要获得表征在第一时间段内用户参与所述待识别直播间的互动时长占比大小程度的直播间参量值,来表征刷量直播间的特征。
示例性的,可以按照如下公式获得所述直播间参量值:
Figure BDA0002537444180000121
其中,s表示所述直播间参量值;U表示参与所述待识别直播间互动的用户集,v和u是U中的用户;wv表示用户v在[0,T]参与所述待识别直播间的互动时长;wu表示用户u在[0,T]参与所述待识别直播间的互动时长;wsu表示用户u在[tw,tm+1]参与所述待识别直播间的互动时长;msu表示用户u在[tw,tm+1]的时间段内在所述待识别直播间发送的弹幕数;mu表示用户u在[0,T]的时间段内在所述待识别直播间发送的弹幕数;dsu表示用户u在[tw,tm+1]的时间段内在所述待识别直播间增送的道具数;du表示用户u在[0,T]的时间段内在所述待识别直播间发送的道具数。
上述公式的原理是:
Figure BDA0002537444180000131
表示的是用户u在第一时间段内互动时长占比,公式整体表示的是待识别直播间所有用户在第一时间段内发生参与互动的加权平均时长占比,该值越高说明待识别直播间刷量的异常程度越高。需要说明的是,这里将
Figure BDA0002537444180000132
乘以权重
Figure BDA0002537444180000133
是为了进行加权,避免将参与直播互动时长短但时长占比大的用户的直播间参量值计算的过大,而导致对此类用户的误识别,从而提高识别的准确率。此外,这里的权重采用对数形式的权重
Figure BDA0002537444180000134
进行计算的好处是,
Figure BDA0002537444180000135
即该用户的对数互动时长占比,
Figure BDA0002537444180000136
表示的是用户u在该时段内发生弹幕行为的次数占比,
Figure BDA0002537444180000137
表示的是用户u在该时段内增送的道具数占比,将三个占比求平均
Figure BDA0002537444180000138
表示的是用户u在该时间段内综合行为的占比。需要考虑除观看外其他行为的原因是:正常用户可能会因为推荐或者其他原因在刷量时间段进入直播间观看,观看占比会很大,若不考虑其他行为那么这种正常用户对可疑程度的贡献会偏高;异常用户为了刷量,往往在观看行为的同时有发弹幕和增送道具的行为,增加直播间的热度,因此,考虑多种行为可以提升识别的准确率。采用该权重的好处是用户在一个直播间观看的时长原本是长尾分布的,采用对数可以将其分布变为正态分布,避免使得互动时间很长的用户贡献的权重过高,从而使得最终结果不准确。
接下来,执行S212,判断所述直播间参量值是否大于预设参量阈值,若是,则将所述待识别直播间识别为刷量直播间。
在具体实施过程中,由于直播间参量值可以表征在第一时间段内用户参与所述待识别直播间的互动时长占比大小程度,设置预设参量阈值,判断所述直播间参量值是否大于预设参量阈值,若是,则将所述待识别直播间识别为刷量直播间。
作为一种可选的实施方式,为了获得预设参量阈值,在所述判断所述直播间参量值是否大于预设参量阈值之前,所述方法还包括:
基于所述网络直播平台中开播直播间的日志数据,获得所述预设参量阈值。
具体的,所述基于所述网络直播平台中开播直播间的日志数据,获得所述预设参量阈值,具体包括:
基于所述网络直播平台中开播直播间的日志数据,获得每个开播直播间的直播间参量值;
计算每个开播直播间的直播间参量值的平均值和标准差,利用3-sigma原则,获得所述预设参量阈值。
可以理解的是,本实施例所记载的方法是对一个待测直播间的识别过程,在具体实施过程中,可以对网络直播平台的所有直播间按照本实施例的方法进行识别,以识别出所有刷量直播间。
在具体实施过程中,网络直播平台对应的服务器执行本实施例的方法时,预设参量阈值按照预设时间间隔(例如,每天)按照上述获得预设参量阈值的方法进行更新。影响预设参量阈值的因素是业务中要求的覆盖率和准确率,其中准确率指的是识别的刷量直播间中实际是刷量直播间的比例,覆盖率指的是实际是刷量的直播间被方案识别的直播间占比。若识别的覆盖率要求高,那么需要尽可能包含刷量直播间,于是降低阈值以放宽识别条件;若识别的准确率要求高,那么需要保证识别的直播间是正确的,于是提高阈值使得识别条件变得严格些。
此外,在执行完上述S202-S212的步骤后,所述方法还包括:
对所述刷量直播间进行屏蔽或限制,例如,限制其活动行为。以减少网络资源的占用,保证网络直播平台上直播间的直播流畅。
下面以一个实际的例子,说明本实施例方法的实现过程:
将第一预设时间段划分成6段,时间窗口是15分钟(900秒),则第一预设时间段为90分钟。
某待识别直播间在这6段时间内的观看人数分别是10,100,300,1000,100,50。
于是得到序列集合:
{(0,10),(900,100),(1800,300),(2700,1000),(3600,100),(4500,50)}.
根据第一起始时间戳的计算方法,tm=2700,cm=1000。
下面计算第一起始时间戳:
(t,c)=(0,10)时:
Figure BDA0002537444180000151
(t,c)=(900,100)时:
Figure BDA0002537444180000152
(t,c)=(1800,300)时:
Figure BDA0002537444180000153
因此,第一起始时间戳为tw=1800。
接下来,根据tw=1800,可以确定待识别直播间刷量的时间区间是[1800,3600)。
在一种具体应用场景中,例如斗鱼直播间人气清洗业务中,分别采用现有技术所述方法和本实施例的刷量直播间识别方法,若被清洗的直播间不投诉或者投诉之后有充分证据驳回,那么认为清洗是准确的。通过现有技术所述方法目均可识别刷量直播间500个,准确清洗460个,准确率为92%。采用本方案所述方法日均可识别刷量直播间600个,准确清洗580,准确率为96.7%。相比于之前的技术,本专利所述技术可以提升清洗的直播间数量20%,识别准确率提升4.7%。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
本实施例的识别刷量直播间的方法,针对刷量直播间具有在一定时间段内有用户集中参与互动,且集中参与互动之后该直播间的互动人数有一个较大的降幅的客观特征,基于参与待识别直播间互动的用户集和每个用户进入待识别直播间的时间戳,统计第一预设时间段切割获得的每个时间窗口内进入所述待识别直播间的用户数,获得进入待识别直播间的用户数最多的时间窗口的第一起始时间戳和进入所述待识别直播间的用户数开始异常增加的时间窗口的第二起始时间戳;然后基于第一起始时间戳、第二起始时间戳和每个用户参与待识别直播间的互动时长,获得表征在第一起始时间戳与第二起始时间戳之间的第一时间段内用户参与待识别直播间的互动时长占比大小程度的直播间参量值;由于直播间参量值可表征第一时间段内用户参与所述待识别直播间的互动时长占比大小程度,能准确的反映出刷量直播间具有的客观特征,因此,若直播间参量值大于预设参量阈值,则可将所述待识别直播间识别为刷量直播间。因此,本发明的方法可准确快速的从网络直播平台中识别出刷量直播间,以便对刷量直播间进行管控和限制,减少直播网络资源的占用,提高网络直播平台的直播流畅度。
实施例二
基于与实施例一同样的发明构思,本实施例提供一种识别刷量直播间的系统,用于网络直播平台,参见图2,所述系统包括:
获取日志模块,用于获取待识别直播间的目志数据,所述日志数据包括参与所述待识别直播间互动的用户集、每个用户进入所述待识别直播间的时间戳和每个用户参与所述待识别直播间的互动时长;
分段统计模块,用于基于所述参与所述待识别直播间互动的用户集和每个用户进入所述待识别直播间的时间戳,统计每个时间窗口内进入所述待识别直播间的用户数,获得序列集合;其中,所述时间窗口是将第一预设时间段切割获得的时间窗口;
第一获得模块,用于基于所述序列集合,获得进入所述待识别直播间的用户数最多的时间窗口的第一起始时间戳;
第二获得模块,用于基于所述序列集合和所述第一起始时间戳,获得进入所述待识别直播间的用户数开始异常增加的时间窗口的第二起始时间戳;
第三获得模块,用于基于所述第一起始时间戳、所述第二起始时间戳和每个用户参与所述待识别直播间的互动时长,获得表征在第一时间段内用户参与所述待识别直播间的互动时长占比大小程度的直播间参量值;其中,所述第一时间段为所述第一起始时间戳与所述第二起始时间戳之间的时间段;
判断识别模块,用于判断所述直播间参量值是否大于预设参量阈值,若是,则将所述待识别直播间识别为刷量直播间。
由于本实施例所介绍的识别刷量直播间的系统为实现本申请实施例一种识别刷量直播间的方法所采用的系统,故而基于本申请实施例一中所介绍的识别刷量直播间的方法,本领域所属技术人员能够了解本实施例的系统的具体实施方式以及其各种变化形式,所以在此对于如何利用本中的系统实现实施例一中的方法不再详细介绍。只要本领域所属技术人员用于实现本申请实施例中识别刷量直播间的方法所采用的系统,都属于本申请所欲保护的范围。
基于与前述实施例中同样的发明构思,本发明实施例还提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文任一所述方法的步骤。
基于与前述实施例中同样的发明构思,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前文任一所述方法的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种识别刷量直播间的方法,用于网络直播平台,其特征在于,所述方法包括:
获取待识别直播间的日志数据,所述目志数据包括参与所述待识别直播间互动的用户集、每个用户进入所述待识别直播间的时间戳和每个用户参与所述待识别直播间的互动时长;
基于所述参与所述待识别直播间互动的用户集和每个用户进入所述待识别直播间的时间戳,统计每个时间窗口内进入所述待识别直播间的用户数,获得序列集合;其中,所述时间窗口是将第一预设时间段切割获得的时间窗口;
基于所述序列集合,获得进入所述待识别直播间的用户数最多的时间窗口的第一起始时间戳;
基于所述序列集合和所述第一起始时间戳,获得进入所述待识别直播间的用户数开始异常增加的时间窗口的第二起始时间戳;
基于所述第一起始时间戳、所述第二起始时间戳和每个用户参与所述待识别直播间的互动时长,获得表征在第一时间段内用户参与所述待识别直播间的互动时长占比大小程度的直播间参量值;其中,所述第一时间段为所述第一起始时间戳与所述第二起始时间戳之间的时间段;
判断所述直播间参量值是否大于预设参量阈值,若是,则将所述待识别直播间识别为刷量直播间。
2.如权利要求1所述的方法,其特征在于,在所述基于所述参与所述待识别直播间互动的用户集和每个用户进入所述待识别直播间的时间戳,统计每个时间窗口内进入所述待识别直播间的用户数,获得序列集合之前,所述方法还包括:
按照时间窗口t对第一预设时间段[0,T]切割获得e+1个时间窗口,每个时间窗口的起始时间戳分别为t0,t1,...,te
Figure FDA0002537444170000011
则所述序列集合表示为S={(t0,c0),(t1,c1),...,(te,ce)},ck表示在第k个起始时间戳对应的时间窗口进入所述待识别直播间的用户数,k=0,1,...,e。
3.如权利要求2所述的方法,其特征在于,所述基于所述序列集合,获得进入所述待识别直播间的用户数最多的时间窗口的第一起始时间戳,具体包括:
按照如下公式获得所述第一起始时间戳:
Figure FDA0002537444170000021
其中,tm表示所述第一起始时间戳,m=0,1,...,e;(t,c)表示所述序列集合S中的任意一个元素。
4.如权利要求3所述的方法,其特征在于,所述基于所述序列集合和所述第一起始时间戳,获得进入所述待识别直播间的用户数开始异常增加的时间窗口的第二起始时间戳,具体包括:
按照如下公式获得所述第二起始时间戳:
Figure FDA0002537444170000022
其中,tw表示所述第二起始时间戳,取值是t0,t1,...,tm-1其中一个;(t,c)是序列集合S中的任意一个元素;cm是在tm对应的时间窗口进入所述待识别直播间的用户数。
5.如权利要求4所述的方法,其特征在于,所述基于所述第一起始时间戳、所述第二起始时间戳和每个用户参与所述待识别直播间的互动时长,获得表征在第一时间段内用户参与所述待识别直播间的互动时长占比大小程度的直播间参量值,具体包括:
按照如下公式获得所述直播间参量值:
Figure FDA0002537444170000023
其中,s表示所述直播间参量值;U表示参与所述待识别直播间互动的用户集,v和u是U中的用户;wv表示用户v在[0,T]参与所述待识别直播间的互动时长;wu表示用户u在[0,T]参与所述待识别直播间的互动时长;wsu表示用户u在[tw,tm+1]参与所述待识别直播间的互动时长;msu表示用户u在[tw,tm+1]的时间段内在所述待识别直播间发送的弹幕数;mu表示用户u在[0,T]的时间段内在所述待识别直播间发送的弹幕数;dsu表示用户u在[tw,tm+1]的时间段内在所述待识别直播间增送的道具数;du表示用户u在[0,T]的时间段内在所述待识别直播间发送的道具数。
6.如权利要求1所述的方法,其特征在于,在所述判断所述直播间参量值是否大于预设参量阈值之前,所述方法还包括:
基于所述网络直播平台中开播直播间的日志数据,获得所述预设参量阈值。
7.如权利要求6所述的方法,其特征在于,所述基于所述网络直播平台中开播直播间的目志数据,获得所述预设参量阈值,具体包括:
基于所述网络直播平台中开播直播间的日志数据,获得每个开播直播间的直播间参量值;
计算每个开播直播间的直播间参量值的平均值和标准差,利用3-sigma原则,获得所述预设参量阈值。
8.一种识别刷量直播间的系统,用于网络直播平台,其特征在于,所述系统包括:
获取日志模块,用于获取待识别直播间的日志数据,所述日志数据包括参与所述待识别直播间互动的用户集、每个用户进入所述待识别直播间的时间戳和每个用户参与所述待识别直播间的互动时长;
分段统计模块,用于基于所述参与所述待识别直播间互动的用户集和每个用户进入所述待识别直播间的时间戳,统计每个时间窗口内进入所述待识别直播间的用户数,获得序列集合;其中,所述时间窗口是将第一预设时间段切割获得的时间窗口;
第一获得模块,用于基于所述序列集合,获得进入所述待识别直播间的用户数最多的时间窗口的第一起始时间戳;
第二获得模块,用于基于所述序列集合和所述第一起始时间戳,获得进入所述待识别直播间的用户数开始异常增加的时间窗口的第二起始时间戳;
第三获得模块,用于基于所述第一起始时间戳、所述第二起始时间戳和每个用户参与所述待识别直播间的互动时长,获得表征在第一时间段内用户参与所述待识别直播间的互动时长占比大小程度的直播间参量值;其中,所述第一时间段为所述第一起始时间戳与所述第二起始时间戳之间的时间段;
判断识别模块,用于判断所述直播间参量值是否大于预设参量阈值,若是,则将所述待识别直播间识别为刷量直播间。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。
CN202010539698.XA 2020-06-12 2020-06-12 一种识别刷量直播间的方法及系统、介质、电子设备 Pending CN113810727A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010539698.XA CN113810727A (zh) 2020-06-12 2020-06-12 一种识别刷量直播间的方法及系统、介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010539698.XA CN113810727A (zh) 2020-06-12 2020-06-12 一种识别刷量直播间的方法及系统、介质、电子设备

Publications (1)

Publication Number Publication Date
CN113810727A true CN113810727A (zh) 2021-12-17

Family

ID=78892269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010539698.XA Pending CN113810727A (zh) 2020-06-12 2020-06-12 一种识别刷量直播间的方法及系统、介质、电子设备

Country Status (1)

Country Link
CN (1) CN113810727A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328398A1 (en) * 2013-11-08 2016-11-10 Friend Mts Ltd. Identifying media components
CN107454441A (zh) * 2017-06-30 2017-12-08 武汉斗鱼网络科技有限公司 一种检测直播间刷人气行为的方法、及直播平台服务器
CN108419126A (zh) * 2018-01-23 2018-08-17 广州虎牙信息科技有限公司 直播平台的异常主播识别方法、存储介质及终端
CN108900909A (zh) * 2018-06-06 2018-11-27 武汉斗鱼网络科技有限公司 作弊用户的判断方法、相关存储介质和电子设备
CN109255632A (zh) * 2018-09-03 2019-01-22 武汉斗鱼网络科技有限公司 一种用户团体识别方法、装置、设备及介质
CN110198476A (zh) * 2018-02-27 2019-09-03 武汉斗鱼网络科技有限公司 弹幕行为异常检测方法、存储介质、电子设备及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328398A1 (en) * 2013-11-08 2016-11-10 Friend Mts Ltd. Identifying media components
CN107454441A (zh) * 2017-06-30 2017-12-08 武汉斗鱼网络科技有限公司 一种检测直播间刷人气行为的方法、及直播平台服务器
CN108419126A (zh) * 2018-01-23 2018-08-17 广州虎牙信息科技有限公司 直播平台的异常主播识别方法、存储介质及终端
CN110198476A (zh) * 2018-02-27 2019-09-03 武汉斗鱼网络科技有限公司 弹幕行为异常检测方法、存储介质、电子设备及系统
CN108900909A (zh) * 2018-06-06 2018-11-27 武汉斗鱼网络科技有限公司 作弊用户的判断方法、相关存储介质和电子设备
CN109255632A (zh) * 2018-09-03 2019-01-22 武汉斗鱼网络科技有限公司 一种用户团体识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US11714876B1 (en) Real-time event transcription system and method
CN108235102B (zh) 业务处理方法、装置及存储介质
CN108833936B (zh) 直播间信息推送方法、装置、服务器和介质
CN110049372B (zh) 主播稳定留存率的预测方法、装置、设备及存储介质
CN112312231B (zh) 一种视频图像编码方法、装置、电子设备及介质
CN108319974B (zh) 数据处理方法、装置、存储介质和电子装置
CN107899245B (zh) 一种防作弊方法、装置和系统
CN112004120B (zh) 平台网络资源播放量的预测方法、装置、设备及存储介质
CN107454453B (zh) 一种直播平台随机动画展示方法和装置
CN110401780A (zh) 一种识别诈骗电话的方法及装置
CN110049352A (zh) 码率确定方法、装置、计算机设备和存储介质
CN110503982A (zh) 一种语音质量检测的方法以及相关装置
CN111581521A (zh) 群组成员的推荐方法、装置、服务器、存储介质及系统
CN111159541B (zh) 一种帐号行为偏好的确定方法及装置
CN114024737B (zh) 确定直播间刷量的方法、装置及计算机可读存储介质
CN109126098A (zh) 基于区块链的竞赛仲裁方法、系统、核心节点及存储介质
CN110585722A (zh) 基于区块链的游戏时间信息的处理方法及装置、游戏控制方法及装置
CN109688217B (zh) 一种消息推送方法、装置及电子设备
CN106056409B (zh) 媒体文件的投放方法和装置
CN113810727A (zh) 一种识别刷量直播间的方法及系统、介质、电子设备
CN109218766B (zh) 一种召集粉丝的方法、直播平台服务器及主播端
CN111298447A (zh) 游戏中外挂检测的方法、装置、服务器及存储介质
CN113408470B (zh) 数据处理方法、装置、电子设备、存储介质及程序产品
CN113438555B (zh) 一种带宽的检测方法、装置、计算机设备和存储介质
CN109395380A (zh) 游戏数据处理方法及系统、服务器和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination