CN112866806B - 一种识别目标团体的方法及系统 - Google Patents
一种识别目标团体的方法及系统 Download PDFInfo
- Publication number
- CN112866806B CN112866806B CN201911210170.1A CN201911210170A CN112866806B CN 112866806 B CN112866806 B CN 112866806B CN 201911210170 A CN201911210170 A CN 201911210170A CN 112866806 B CN112866806 B CN 112866806B
- Authority
- CN
- China
- Prior art keywords
- target
- matrix
- live broadcast
- live
- polar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/441—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种识别目标团体的方法,将目标与直播间互动的关系以矩阵形式表达,并在布尔化后,利用奇异值分解获得特征向量最高的两个左奇异矩阵,生成二维向量空间,以此提取矩阵中的最主要互动信息要素,并转换成向量,然后以极坐标中的半径和角度的分布来获得向量的聚集情况,最后采取3sigma原则得到聚集与直播间互动的第一目标集;并分别对每个直播间,根据阈值,获得满足条件的有目标团体聚集互动的目标直播间,而与所述目标直播间互动的目标团体就是本发明要识别的团体。因此,上述方法可识别出目标团体,对其进行屏蔽,从而避免占用直播平台过多的资源,保证直播的流畅。
Description
技术领域
本发明涉及网络直播技术领域,尤其涉及一种识别目标团体的方法及系统。
背景技术
在网络直播平台上,主播为了提升自己的热度值和曝光量,往往借助第三方的黑产帮助自己提升观看量和时长。这些目标团体通过接单的方式,会在一段时间内为若干主播完成观看量的任务。这些目标团体的行为,会造成对直播平台过多的资源占用,从而导致直播卡顿。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别目标团体的方法及系统。
第一方面,本申请通过本申请的一实施例提供如下技术方案:
一种识别目标团体的方法,用于网络直播平台,所述方法包括:
S101、获取预设时间段内在所述网络直播平台上的目标基础数据;
S102、基于所述目标基础数据,获得目标矩阵;其中,所述目标矩阵包括数据集wij,wij表示目标i与直播间j的互动次数wij,i=1,2,...,M,M表示目标数量,j=1,2,...,N,N表示直播间数量;
S103、对所述目标矩阵进行布尔化处理,获得布尔矩阵;
S104、对所述布尔矩阵进行奇异值分解,获得多个左奇异矩阵;
S105、从所述多个左奇异矩阵中选取特征向量排名前两位的两个左奇异矩阵,生成二维向量;
S106、将目标i在所述二维向量所在的空间中的坐标转化为极坐标,获得目标i的极坐标;
S107、基于所述目标i的极坐标,获得目标的极坐标半径概率p(r)和极坐标角度概率p(θ);
S108、基于p(r)和p(θ),获得所述极坐标半径概率的均值和标准差,以及所述极坐标角度概率的均值和标准差;
S109、基于3sigma原则以及所述极坐标半径概率的均值和标准差,或,基于3sigma原则以及所述极坐标角度概率的均值和标准差,获得第一目标集;
S110、判断与直播间j互动的所述第一目标集中的目标数量MSr是否大于第一阈值,MSr/Mr是否大于第二阈值,以及所述布尔矩阵中与所述直播间j相关的互动次数形成的第一子矩阵的矩阵密度是否大于第一密度阈值;其中,Mr表示与所述直播间j互动的总目标数量;
S111、若同时满足MSr大于第一阈值,MSr/Mr大于第二阈值,以及所述第一子矩阵的矩阵密度大于第一密度阈值,则将所述直播间j识别为第一目标直播间集;
S112、将与第一目标直播间互动的第一目标识别为第一目标团体;其中,所述第一目标直播间属于第一目标直播间集,所述第一目标属于第一目标集。
可选的,所述将与所述第一目标直播间集中的第一目标直播间互动的第一目标识别为第一目标团体之后,所述方法还包括:
S113、判断与目标i互动的所述第一目标直播间的数量NSu是否大于第三阈值,NSu/Nu是否大于第四阈值,以及所述布尔矩阵中与所述目标i相关的互动次数形成的第二子矩阵的矩阵密度是否大于第二密度阈值;其中,Nu表示与所述目标i互动的总直播间数量;
S114、若同时满足NSu大于第三阈值,NSu/Nu大于第四阈值,以及所述第二子矩阵的矩阵密度大于第二密度阈值,则将所述目标i识别为第二目标集;
S115、将所述第二目标集与所述第一目标团体合并,获得一级目标团体集。
可选的,在获得初级目标团体集之后,所述方法还包括:
S116、以所述一级目标团体集代替所述第一目标集,并返回执行S110-S111,获得第二目标直播间集;
S117、以所述第二目标直播间集集代替所述第一目标直播间集后,执行S113-S114,获得第三目标集;
S118、将所述第二目标集与所述第三目标集合并,获得二级目标团体集;
按照S116-S118,循环迭代至第h目标直播间集与第h-1目标直播间集相同,且k级目标团体集与k-1级目标团体集相同,获得第h目标直播间集和k级目标团体集;其中,k大于等于二,h大于等于二。
可选的,所述对所述目标矩阵进行布尔化处理,获得布尔矩阵,包括:
判断所述目标矩阵中的wij是否满足wij>0;
若满足,则将该wij替换为bij=1,否则替换为bij=0,获得所述布尔矩阵。
可选的,所述奇异值分解的方法,包括:
B=P∑Q
其中,B是布尔矩阵,P是左奇异矩阵,∑是对角矩阵,Q是右奇异矩阵。
可选的,所述基于3sigma原则以及所述极坐标半径概率的均值和标准差,或,基于3sigma原则以及所述极坐标角度概率的均值和标准差,获得第一目标集,包括:
判断目标i是否满足ui,r>E(p(r))+1.645σ(p(r)),或满足ui,θ>E(p(θ))+1.645σ(p(θ)),
若满足,则将满足ui,r>E(p(r))+1.645σ(p(r)),或满足ui,θ>E(p(θ))+1.645σ(p(θ))的目标i形成所述第一目标集;
其中,
E(p(r))是目标极坐标半径分布p(r)的均值;
E(p(θ))是目标极坐标角度分布p(θ)的均值;
σ(p(r))是目标极坐标半径分布p(r)的标准差;
σ(p(θ)是目标极坐标角度分布p(θ)的标准差;
ui,r是目标i在所述极坐标中半径的取值;
ui,θ是目标i在所述极坐标中角度的取值。
可选的,所述矩阵密度的表达式,包括:
其中,
d是矩阵密度;
D是所述布尔矩阵中bij=1的元素个数之和除以所述布尔矩阵中所有元素个数获得的值;
m和n是所述第一子矩阵或第二子矩阵的维度。
可选的,在所述将与第一目标直播间互动的第一目标识别为第一目标团体之后,所述方法还包括:
S213、对所述第一目标团体进行屏蔽。
第二方面,本申请通过本申请的另一实施例提供一种识别目标团体的系统,所述系统包括:
数据获取模块,用于获取预设时间段内在所述网络直播平台上的目标基础数据;
第一获得模块,用于基于所述目标基础数据,获得目标矩阵;其中,所述目标矩阵包括数据集wij,wij表示目标i与直播间j的互动次数wij,i=1,2,...,M,M表示目标数量,j=1,2,...,N,N表示直播间数量;
第二获得模块,用于对所述目标矩阵进行布尔化处理,获得布尔矩阵;
第三获得模块,用于对所述布尔矩阵进行奇异值分解,获得多个左奇异矩阵;
向量生成模块,用于从所述多个左奇异矩阵中选取特征向量排名前两位的两个左奇异矩阵,生成二维向量;
第四获得模块,用于将目标i在所述二维向量所在的空间中的坐标转化为极坐标,获得目标i的极坐标;
第五获得模块,用于基于所述目标i的极坐标,获得目标的极坐标半径概率p(r)和极坐标角度概率p(θ);
第六获得模块,用于基于p(r)和p(θ),获得所述极坐标半径概率的均值和标准差,以及所述极坐标角度概率的均值和标准差;
第七获得模块,用于基于3sigma原则以及所述极坐标半径概率的均值和标准差,或,基于3sigma原则以及所述极坐标角度概率的均值和标准差,获得第一目标集;
判断模块,用于判断与直播间j互动的所述第一目标集中的目标数量MSr是否大于第一阈值,MSr/Mr是否大于第二阈值,以及所述布尔矩阵中与所述直播间j相关的互动次数形成的第一子矩阵的矩阵密度是否大于第一密度阈值;其中,Mr表示与所述直播间j互动的总目标数量;
第一识别模块,用于若同时满足MSr大于第一阈值,MSr/Mr大于第二阈值,以及所述第一子矩阵的矩阵密度大于第一密度阈值,则将所述直播间j识别为第一目标直播间集;
第二识别模块,用于将与第一目标直播间互动的第一目标识别为第一目标团体;其中,所述第一目标直播间属于第一目标直播间集,所述第一目标属于第一目标集。
本发明公开了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明公开了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明的方法,将目标与直播间互动的关系以矩阵形式表达,并在布尔化后,利用奇异值分解获得特征向量最高的两个左奇异矩阵,生成二维向量空间,以此提取矩阵中的最主要互动信息要素,并转换成向量,然后以极坐标中的半径和角度的分布来获得向量的聚集情况,最后采取3sigma原则得到聚集与直播间互动的第一目标集。在此基础上,分别对每个直播间,根据阈值,对聚集度高的目标数量,以及聚集度高目标数量占比和子矩阵的密度进行条件判断,以获得满足条件的有目标团体聚集互动的目标直播间,而与所述目标直播间互动的目标团体就是本发明要识别的团体。因此,上述方法可通过聚集效应识别出影响直播的目标团体,对其进行屏蔽,从而避免占用直播平台过多的资源,保证直播的流畅。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一种实施例中的识别目标团体的方法流程图;
图2是本发明另一种实施例中的提高网络直播流畅度的方法流程图;
图3是本发明一种实施例中的识别目标团体的系统构架图。
具体实施方式
本申请实施例通过提供一种识别目标团体的方法及系统,解决了现有的网络直播卡顿的技术问题。
本申请实施例的技术方案为解决上述技术问题,总体思路如下:
一种识别目标团体的方法,用于网络直播平台,获取预设时间段内在所述网络直播平台上的目标基础数据;基于所述目标基础数据,获得目标矩阵;其中,所述目标矩阵包括数据集wij,wij表示目标i与直播间j的互动次数wij,i=1,2,...,M,M表示目标数量,j=1,2,...,N,N表示直播间数量;对所述目标矩阵进行布尔化处理,获得布尔矩阵;对所述布尔矩阵进行奇异值分解,获得多个左奇异矩阵;从所述多个左奇异矩阵中选取特征向量排名前两位的两个左奇异矩阵,生成二维向量;将目标i在所述二维向量所在的空间中的坐标转化为极坐标,获得目标i的极坐标;基于所述目标i的极坐标,获得目标i的极坐标半径概率p(r)和极坐标角度概率p(θ);基于p(r)和p(θ),获得所述极坐标半径概率的均值和标准差,以及所述极坐标角度概率的均值和标准差;基于3sigma原则以及所述极坐标半径概率的均值和标准差,或,基于3sigma原则以及所述极坐标角度概率的均值和标准差,获得第一目标集;判断与直播间j互动的所述第一目标集中的目标数量MSr是否大于第一阈值,MSr/Mr是否大于第二阈值,以及所述布尔矩阵中与所述直播间j相关的互动次数形成的第一子矩阵的矩阵密度是否大于第一密度阈值;其中,Mr表示与所述直播间j互动的总目标数量;若同时满足MSr大于第一阈值,MSr/Mr大于第二阈值,以及所述第一子矩阵的矩阵密度大于第一密度阈值,则将所述直播间j识别为第一目标直播间集;将与第一目标直播间互动的第一目标识别为第一目标团体;其中,所述第一目标直播间属于第一目标直播间集,所述第一目标属于第一目标集。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
首先说明,本文中出现的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在网络直播平台上,主播为了提升自己的热度值和曝光量,往往借助第三方的黑产帮助自己提升观看量和时长。这些目标团体通过接单的方式,会在一段时间内为若干主播完成观看量的任务。这些目标团体的行为,会造成对直播平台过多的资源占用,从而导致直播卡顿。因此,作为直播平台的维护方,需要对这些目标账号进行挖掘识别。
现有的挖掘方法主要包括:
识别这样刷单的方法主要是采用高密子图挖掘的算法,如Fraudar算法等,这些算法采用一个全局的最优度量继续社区发现,但是全局的最优度量设计的不好则会极大的影响结果,且计算量相对较大。
本申请首先针对上述现有技术的缺陷,提供了一种识别目标团体的方法,根据目标团伙与直播间的互动数据形成的矩阵是一个高密矩阵,通过识别这种密度非常高的子矩阵从而识别目标团伙。
下面以具体实施例,具体说明如何克服上述缺陷,准确识别出目标团体,以便进行屏蔽,避免导致直播卡顿。
实施例一
本实施提供了一种识别目标团体的方法,用于网络直播平台,参见图1,所述方法包括:
S101、获取预设时间段内在所述网络直播平台上的目标基础数据;
S102、基于所述目标基础数据,获得目标矩阵;其中,所述目标矩阵包括数据集wij,wij表示目标i与直播间j的互动次数wij,i=1,2,...,M,M表示目标数量,j=1,2,...,N,N表示直播间数量;
S103、对所述目标矩阵进行布尔化处理,获得布尔矩阵;
S104、对所述布尔矩阵进行奇异值分解,获得多个左奇异矩阵;
S105、从所述多个左奇异矩阵中选取特征向量排名前两位的两个左奇异矩阵,生成二维向量;
S106、将目标i在所述二维向量所在的空间中的坐标转化为极坐标,获得目标i的极坐标;
S107、基于所述目标i的极坐标,获得目标i的极坐标半径概率p(r)和极坐标角度概率p(,θ);
S108、基于p(r)和p(θ),获得所述极坐标半径概率的均值和标准差,以及所述极坐标角度概率的均值和标准差;
S109、基于3sigma原则以及所述极坐标半径概率的均值和标准差,或,基于3sigma原则以及所述极坐标角度概率的均值和标准差,获得第一目标集;
S110、判断与直播间j互动的所述第一目标集中的目标数量MSr是否大于第一阈值,MSr/Mr芝否大于第二阈值,以及所述布尔矩阵中与所述直播间j相关的互动次数形成的第一子矩阵的矩阵密度是否大于第一密度阈值;其中,Mr表示与所述直播间j互动的总目标数量;
S111、若同时满足MSr大于第一阈值,MSr/Mr大于第二阈值,以及所述第一子矩阵的矩阵密度大于第一密度阈值,则将所述直播间j识别为第一目标直播间集;
S112、将与第一目标直播间互动的第一目标识别为第一目标团体;其中,所述第一目标直播间属于第一目标直播间集,所述第一目标属于第一目标集。
需要说明的是,该目标可以是参与直播互动的用户,也可以是参与直播互动的电子设备,如智能机器人等。
下面参照图1,对本实施中各步骤进行详细的解释说明。
首先,执行步骤S101,获取预设时间段内在所述网络直播平台上的目标基础数据。
需要说明的是,预设时间段可以是过去一周、一个月以及更长的时间段。目标基础数据包括目标i与直播间j的互动次数。假设目标是观看直播的用户,互动可以是用户观看直播间,互动次数则是用户观看直播间的次数。
在本实施例中,由于本发明的方法聚焦的是集中与直播间互动的目标团体,因此,为了获得更准确的目标间的聚集情况,需要找到目标之间同时与直播间存在的共性关系。而由于目标团体中的目标都会同时与某个直播间进行互动,而单独的常规目标之间由于对直播内容的喜好不同,几乎不可能形成聚集效应,同时与同一个直播间频繁互动。因此,目标与直播间的互动次数,是最能直接反映这些目标相对于某个直播间存在的共性关系的。为此,本实施例中选取了目标i与直播间j的互动次数,建立关系目标矩阵。
需要说明的是,这些目标基础数据都是用户使用后留下来的痕迹,因此,数据中的实体之间的关系是客观存在的。基于此,本领域技术人员显然可以理解,在本发明实施例步骤S101中选取目标i与直播间j的互动次数作为矩阵元素,均是是解决技术问题所必不可少的信息参数,并非人为主观因素的选取,而是为了解决技术问题必须对上述目标i与直播间j的互动次数进行获取(也即符合自然规律的选取),以为下述S102提供数据基础。
接下来,执行S102,基于所述目标基础数据,获得目标矩阵;其中,所述目标矩阵包括数据集wij,wij表示目标i与直播间j的互动次数wij,i=1,2,...,M,M表示目标数量,j=1,2,...,N,N表示直播间数量。
目标矩阵是一个M×N的矩阵,其中,wij即表示目标矩阵中第i行第j列的元素。在本实施例中,通过建立目标矩阵,可以更好地量化实体及实体间的关系,更加直观和简洁,从而减少计算量。
由于在本实施例中,只关注目标团体是否直播间发生互动,而不关注互动了多少次,也可以反映出目标间的聚集情况。因此,为了计算的高效,对目标执行S103,对所述目标矩阵进行布尔化处理,获得布尔矩阵;;
具体的,所述对所述目标矩阵进行布尔化处理,获得布尔矩阵,包括:
判断所述目标矩阵中的wij是否满足wij>0;
若满足,则将该wij替换为bij=1,否则替换为bij=0,获得所述布尔矩阵。
则布尔矩阵也是一个M×N的矩阵,其中,bij即表示布尔矩阵中第i行第j列的元素。
接下来,执行S104,对所述布尔矩阵进行奇异值分解,获得多个左奇异矩阵。
具体的,所述奇异值分解(SVD)的方法,包括:
B=P∑Q
其中,B是布尔矩阵,P是左奇异矩阵,维度是M*M,∑是对角矩阵维度是M*N,Q是右奇异矩阵N*N。
需要说明的是,这里对布尔矩阵进行奇异值分解的原理是:由于向量形式更能反映聚集效应,为了后续步骤中以向量的形式获得目标团体的聚集效应,需要建立二维向量空间,而奇异值后的特征向量排名前两位的两个左奇异矩阵已经能够反映布尔矩阵的最主要的信息要素,从而实现降维,方便计算。
为此,接下来,执行S105,从所述多个左奇异矩阵中选取特征向量排名前两位的两个左奇异矩阵,生成二维向量。
则,目标i在二维向量空间中的坐标是(ui,x,ui,y),其中,x和y是二维向量空间中的坐标轴。
接下来,执行S106,将目标i在所述二维向量所在的空间中的坐标转化为极坐标,获得目标i的极坐标。
S105中生成的二维向量空间是一个平面坐标系,将这个坐标系转化为极坐标,具体的转化方法如下。
目标i在极坐标上的表示是:
其中:
ui,r是目标i在极坐标中半径的取值;
ui,θ是目标i在极坐标中角度的取值。
这样做的好处是平面坐标系无法反映目标的聚集效应,而极坐标是谱视角,可以凸显刷单的聚集效应
接下来,执行S107,基于所述目标i的极坐标,获得目标的极坐标半径概率p(r)和极坐标角度概率p(θ);
具体的,统计目标极坐标半径分布占比:
其中:
p(r)是目标极坐标半径取值为r的概率,所有极坐标半径取值集合是R;
#(ur=r)是所有目标中极坐标半径取值为r的个数;
M是目标数量。
统计目标极坐标角度分布占比:
其中:
p(θ)是目标极坐标角度取值为θ的概率,所有极坐标角度取值集合是⑩;
#(uθ=θ)是所有目标中极坐标角度取值为θ的个数。
接下来,执行S108、基于p(r)和p(θ),获得所述极坐标半径概率的均值和标准差,以及所述极坐标角度概率的均值和标准差;
具体的,计算分布p(r)和p(θ)的均值和标准差的方法如下:
其中:
E(p(r))是目标极坐标半径分布p(r)的均值;
E(p(θ)]是目标极坐标角度分布p(θ)的均值;
σ(p(r))是目标极坐标半径分布p(r)的标准差;
σ(p(θ))是目标极坐标角度分布p(θ)的标准差;
|R|是极坐标半径取值集合R的元素个数;
|Θ|是极坐标角度取值集合Θ的元素个数。
接下来,执行S109,基于3sigma原则以及所述极坐标半径概率的均值和标准差,或,基于3sigma原则以及所述极坐标角度概率的均值和标准差,获得第一目标集;
具体的,
判断目标i是否满足ui,r>E(p(r))+1.645σ(p(r)),或满足ui,θ>E(p(θ))+1.645σ(p(θ)),
若满足,则将满足ui,r>E(p(r))+1.645σ(p(r)),或满足ui,θ>E(p(θ))+1.645σ(p(θ))的目标i形成所述第一目标集;
根据3sigma原则,
数值分布在(μ-σ,μ+σ)中的概率为0.6827
数值分布在(μ-2σ,μ+2σ)中的概率为0.9545
数值分布在(μ-3σ,μ+3σ)中的概率为0.9973
其中,μ表示均值,σ表示标准差。
上述公式中1.645是选取数值分布0.9545的分位数,即上述公式表示把极坐标半径和角度概率超过0.9545的目标作为目标团体的可疑成员。这是由于在所有目标中,常规的目标依然是占据大部分数量,且其在极坐标中的半径和角度分布也占据绝大部分,因此,概率分布较小的目标则可能是目标团体的成员。
在实际操作时,可根据对聚集效应的要求,来选取上述三种中的任意一种,例如,希望筛选概率更小的目标,则选择数值分布0.9545的分位数。
接下来,执行S110,判断与直播间j互动的所述第一目标集中的目标数量MSr是否大于第一阈值,MSr/Mr是否大于第二阈值,以及所述布尔矩阵中与所述直播间j相关的互动次数形成的第一子矩阵的矩阵密度是否大于第一密度阈值;其中,Mr表示与所述直播间j互动的总目标数量;
具体的,所述矩阵密度的表达式,包括:
其中,
d是矩阵密度;
D是所述布尔矩阵中bij=1的元素个数之和除以所述布尔矩阵中所有元素个数获得的值;
m和n是所述第一子矩阵或第二子矩阵的维度。
该公式的原理推导如下:
由于需要找到目标团体,使得本实施例中需要在矩阵中找到高密度的子矩阵。而在矩阵中找到一个高密度的子矩阵,子矩阵中值为1的元素个数至少为m*n*d。
假设随机从矩阵中找到一个子矩阵值为1的元素个数为Y,该过程满足一个伯努利分布,显然E(Y)=m*n*D。
子矩阵是一个高密度子矩阵的概率等价于Y大于等于m*n*d的概率,即:
p(Y≥m*n*d)
从矩阵中随机抽取一个高密度子矩阵的期望是:
根据切诺夫界:
根据斯特林公式:
由于需要随机抽取一个高密度子矩阵的期望至少为1,于是:
两边取对数:
可以解出:
根据上述推导结论可知,公式是满足高密度矩阵的最低条件,为此,上述公式可作为高密度子矩阵的表达式。而通过上述公式获得的子矩阵一定为高密度矩阵,用其获得的密度与密度阈值进行判断,可以保证识别的嫌疑用户或直播间形成的子矩阵满足目标团体的基本特征,这样会提高识别的准确率。
需要说明的是,第一阈值、第二阈值以及第一密度阈值的选择,主要是通过近一段时间通过规则发现的目标和直播间,计算这些目标和直播间的相关数值(包括MSr,MSr/Mr,子矩阵的矩阵密度),并从大到小排序,取95%分位数作为阈值。作为本领域的技术人员,该分位数可以根据对直播卡顿的程度的要求进行调整,对直播卡顿的程度的要求越高则分位数越高,而本发明实施例之所以选取95%分位数作为阈值,是因为本实施中为了将目标团体尽可能的识别出来,也就是对直播卡顿的程度的要求较高,因此,选取了分位数较高的95%。
接下来,执行S111,若同时满足MSr大于第一阈值,MSr/Mr大于第二阈值,以及所述第一子矩阵的矩阵密度大于第一密度阈值,则将所述直播间j识别为第一目标直播间集;
S112、将与第一目标直播间互动的第一目标识别为第一目标团体;其中,所述第一目标直播间属于第一目标直播间集,所述第一目标属于第一目标集
需要说明的是,上述是根据识别出的目标直播间,间接确定出目标团体,仍然可能存在少部分不准确的情况。
为了进一步提高目标团体识别的准确性,作为一种可选的实施方式,所述将与所述第一目标直播间集中的第一目标直播间互动的第一目标识别为第一目标团体之后,所述方法还包括:
S113、判断与目标i互动的所述第一目标直播间的数量NSu是否大于第三阈值,NSu/Nu是否大于第四阈值,以及所述布尔矩阵中与所述目标i相关的互动次数形成的第二子矩阵的矩阵密度是否大于第二密度阈值;其中,Nu表示与所述目标i互动的总直播间数量;
需要说明的是,第三阈值、第四阈值以及第二密度阈值的选择,主要是通过近一段时间通过规则发现的目标和直播间,计算这些目标和直播间的相关数值(包括NSu,NSu/Nu,子矩阵的矩阵密度),并从大到小排序,取95%分位数作为阈值。作为本领域的技术人员,该分位数可以根据对直播卡顿的程度的要求进行调整,对直播卡顿的程度的要求越高则分位数越高,而本发明实施例之所以选取95%分位数作为阈值,是因为本实施中为了将目标团体尽可能的识别出来,也就是对直播卡顿的程度的要求较高,因此,选取了分位数较高的95%。
S114、若同时满足NSu大于第三阈值,NSu/Nu大于第四阈值,以及所述第二子矩阵的矩阵密度大于第二密度阈值,则将所述目标i识别为第二目标集;
S115、将所述第二目标集与所述第一目标团体合并,获得一级目标团体集。
为了更进一步的提高目标团体识别的准确度,作为一种可选的实施方式,在获得初级目标团体集之后,所述方法还包括:
S116、以所述一级目标团体集代替所述第一目标集,并返回执行S110-S111,获得第二目标直播间集;
S117、以所述第二目标直播间集集代替所述第一目标直播间集后,执行S113-S114,获得第三目标集;
S118、将所述第二目标集与所述第三目标集合并,获得二级目标团体集;
按照S116-S118,循环迭代至第h目标直播间集与第h-1目标直播间集相同,且k级目标团体集与k-1级目标团体集相同,获得第h目标直播间集和k级目标团体集;其中,k大于等于二,h大于等于二。
在经过多次迭代后,目标团体的集合不在发生变化,则表示迭代结果已最优,其获得的目标团体准确度高。
为此,可对这些目标团体进行屏蔽,以减少对直播平台不必要的资源占用,从而避免直播卡顿。也可以消减直播间热度,消减的比例是嫌疑用户集合中观看该嫌疑直播间占比除以观看该直播间的总人数,以打击目标团体的行为。
在清楚了本发明的各步骤原理后,下面以一个实例来演示本发明的实施过程。
假设目标基础数据中包括5名用户(即目标为用户)和3个直播间,即M=5,N=3,他们之间的观看关系可以形成矩阵B:
对矩阵B进行SVD分解,于是
是各个用户在二维坐标系中的表示是:
用户1:(-0.551,0),用户2:(-0.551,0),用户3:(-0.551,0),用户4:(-0.298,0),用户5:(0,1)
将上述坐标系转化成极坐标,于是:
用户1:(0.551,0),用户2:(0.551,0),用户3:(0.551,0),用户4:(0.298,0),用户5:(1,1.57)
计算用户在极坐标半径r上的分布,有:
p(r=0.551)=3/5=0.6
p(r=0.298)=1/5=0.2
p(r=1)=1/5=0.2
计算上述分布的期望和标准差,则有:
由于0.6>0.33+1.645*0.188,因此,用户1、2、3是嫌疑用户。
计算用户在极坐标角度θ上的分布,有:
p(θ=0)=4/5=0.8
p(r=1.57)=1/5=0.2
计算上述分布的期望和标准差,则有:
都不满足ui,θ>E(p(θ))+1.645σ(p(θ))。
因此,第一目标团体集合U0={用户1,用户2,用户3}。
即,用户1,用户2,用户3为嫌疑用户。
对于各个直播间,计算观看过该直播间的嫌疑用户数量,嫌疑用户数量占比以及形成的子矩阵密度,于是:
根据前述关于阈值的确定原则,这里确定阈值为:第一阈值为1,第二阈值为0.5,第一密度阈值0.75,因此,可以得到直播间1和2是嫌疑的,即R0={1,2}
下面进行下一轮选代。
对于各个用户,计算其观看过直播间的嫌疑直播间数量,嫌疑直播间数量占比以及形成的子矩阵密度:
根据前述关于阈值的确定原则,这里确定阈值为:第三阈值为1,第四阈值为0.5,第二密度阈值0.75,可以得到用户4是嫌疑的,即U1={1,2,3,4};
继续迭代R1={1,2},嫌疑集合没有更新,于是停止迭代。
因此,目标团体为用户1、用户2、用户3、用户4,目标直播间为直播间1、直播间2。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
本实施例的方法,用于网络直播平台,将目标与直播间互动的关系以矩阵形式表达,并在布尔化后,利用奇异值分解获得特征向量最高的两个左奇异矩阵,生成二维向量空间,以此提取矩阵中的最主要互动信息要素,并转换成向量,然后以极坐标中的半径和角度的分布来获得向量的聚集情况,最后采取3sigma原则得到聚集与直播间互动的第一目标集。在此基础上,分别对每个直播间,根据阈值,对聚集度高的目标数量,以及聚集度高目标数量占比和子矩阵的密度进行条件判断,以获得满足条件的有目标团体聚集互动的目标直播间,而与所述目标直播间互动的目标团体就是本发明要识别的团体。因此,上述方法可通过聚集效应识别出影响直播的目标团体,对其进行屏蔽,从而避免占用直播平台过多的资源,保证直播的流畅。
实施例二
基于与实施例一相同的发明构思,本实施提供了一种提高网络直播流畅度的方法,用于网络直播平台,参见图2,所述方法包括:
S201、获取预设时间段内在所述网络直播平台上的目标基础数据;
S202、基于所述目标基础数据,获得目标矩阵;其中,所述目标矩阵包括数据集wij,wij表示目标i与直播间j的互动次数wij,i=1,2,...,M,M表示目标数量,j=1,2,...,N,N表示直播间数量;
S203、对所述目标矩阵进行布尔化处理,获得布尔矩阵;
S204、对所述布尔矩阵进行奇异值分解,获得多个左奇异矩阵;
S205、从所述多个左奇异矩阵中选取特征向量排名前两位的两个左奇异矩阵,生成二维向量;
S206、将目标i在所述二维向量所在的空间中的坐标转化为极坐标,获得目标i的极坐标;
S207、基于所述目标i的极坐标,获得目标的极坐标半径概率p(r)和极坐标角度概率p(θ);
S208、基于p(r)和p(θ),获得所述极坐标半径概率的均值和标准差,以及所述极坐标角度概率的均值和标准差;
S209、基于3sigma原则以及所述极坐标半径概率的均值和标准差,或,基于3sigma原则以及所述极坐标角度概率的均值和标准差,获得第一目标集;
S210、判断与直播间j互动的所述第一目标集中的目标数量MSr是否大于第一阈值,MSr/Mr是否大于第二阈值,以及所述布尔矩阵中与所述直播间j相关的互动次数形成的第一子矩阵的矩阵密度是否大干第一密度阈值;其中,Mr表示与所述直播间j互动的总目标数量;
S211、若同时满足MSr大于第一阈值,MSr/Mr大于第二阈值,以及所述第一子矩阵的矩阵密度大于第一密度阈值,则将所述直播间j识别为第一目标直播间集;
S212、将与第一目标直播间互动的第一目标识别为第一目标团体;其中,所述第一目标直播间属于第一目标直播间集,所述第一目标属于第一目标集;
S213、对所述第一目标团体进行屏蔽。
在S213中,其具体屏蔽目标账号的方法有多种,举例来说,可以对目标账号通过服务器加入黑名单进行屏蔽,禁止提供服务,从而提高流畅度,大大地降低带宽,无须人工干预,从而避免卡顿的发生。其余的步骤的具体实施方式参见实施例一。
实施例三
基于与实施例一同样的发明构思,本实施例提供一种识别目标团体的系统,参见图3,所述系统包括:
数据获取模块,用于获取预设时间段内在所述网络直播平台上的目标基础数据;
第一获得模块,用于基于所述目标基础数据,获得目标矩阵;其中,所述目标矩阵包括数据集wij,wij表示目标i与直播间j的互动次数wij,i=1,2,...,M,M表示目标数量,j=1,2,...,N,N表示直播间数量;
第二获得模块,用于对所述目标矩阵进行布尔化处理,获得布尔矩阵;
第三获得模块,用于对所述布尔矩阵进行奇异值分解,获得多个左奇异矩阵;
向量生成模块,用于从所述多个左奇异矩阵中选取特征向量排名前两位的两个左奇异矩阵,生成二维向量;
第四获得模块,用于将目标i在所述二维向量所在的空间中的坐标转化为极坐标,获得目标i的极坐标;
第五获得模块,用于基于所述目标i的极坐标,获得目标的极坐标半径概率p(r)和极坐标角度概率p(θ);
第六获得模块,用于基于p(r)和p(θ),获得所述极坐标半径概率的均值和标准差,以及所述极坐标角度概率的均值和标准差;
第七获得模块,用于基于3sigma原则以及所述极坐标半径概率的均值和标准差,或,基于3sigma原则以及所述极坐标角度概率的均值和标准差,获得第一目标集;
判断模块,用于判断与直播间j互动的所述第一目标集中的目标数量MSr是否大于第一阈值,MSr/Mr是否大于第二阈值,以及所述布尔矩阵中与所述直播间j相关的互动次数形成的第一子矩阵的矩阵密度是否大于第一密度阈值;其中,Mr表示与所述直播间j互动的总目标数量;
第一识别模块,用于若同时满足MSr大于第一阈值,MSr/Mr大于第二阈值,以及所述第一子矩阵的矩阵密度大于第一密度阈值,则将所述直播间j识别为第一目标直播间集;
第二识别模块,用于将与第一目标直播间互动的第一目标识别为第一目标团体;其中,所述第一目标直播间属于第一目标直播间集,所述第一目标属于第一目标集。
由于本实施例所介绍的识别目标团体的系统为实现本申请实施例一种识别目标团体的方法所采用的系统,故而基于本申请实施例一中所介绍的识别目标团体的方法,本领域所属技术人员能够了解本实施例的系统的具体实施方式以及其各种变化形式,所以在此对于如何利用本中的系统实现实施例一中的方法不再详细介绍。只要本领域所属技术人员用于实现本申请实施例中识别目标团体的方法所采用的系统,都属于本申请所欲保护的范围。
基于与前述实施例中同样的发明构思,本发明实施例还提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文任一所述方法的步骤。
基于与前述实施例中同样的发明构思,本发明实施例还提供一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前文任一所述方法的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种识别目标团体的方法,用于网络直播平台,其特征在于,所述方法包括:
S101、获取预设时间段内在所述网络直播平台上的目标基础数据;
S103、对所述目标矩阵进行布尔化处理,获得布尔矩阵;
S104、对所述布尔矩阵进行奇异值分解,获得多个左奇异矩阵;
S105、从所述多个左奇异矩阵中选取特征向量排名前两位的两个左奇异矩阵,生成二维向量;
S109、基于3sigma原则以及所述极坐标半径概率的均值和标准差,或,基于3sigma原则以及所述极坐标角度概率的均值和标准差,获得第一目标集;
S110、判断与直播间互动的所述第一目标集中的目标数量是否大于第一阈值,是否大于第二阈值,以及所述布尔矩阵中与所述直播间相关的互动次数形成的第一子矩阵的矩阵密度是否大于第一密度阈值;其中,表示与所述直播间互动的总目标数量;
S112、将与第一目标直播间互动的第一目标识别为第一目标团体;其中,所述第一目标直播间属于第一目标直播间集,所述第一目标属于第一目标集;
所述矩阵密度的表达式,包括:
3.如权利要求2所述的方法,其特征在于,在获得初级目标团体集之后,所述方法还包括:
S116、以所述一级目标团体集代替所述第一目标集,并返回执行S110-S111,获得第二目标直播间集;
S117、以所述第二目标直播间集代替所述第一目标直播间集后,执行S113-S114,获得第三目标集;
S118、将所述第二目标集与所述第三目标集合并,获得二级目标团体集;
按照S116-S118,循环迭代至第h目标直播间集与第h-1目标直播间集相同,且k级目标团体集与k-1级目标团体集相同,获得第h目标直播间集和k级目标团体集;其中,k大于等于二,h大于等于二。
6.如权利要求1所述的方法,其特征在于,在所述将与第一目标直播间互动的第一目标识别为第一目标团体之后,所述方法还包括:
S213、对所述第一目标团体进行屏蔽。
7.一种识别目标团体的系统,其特征在于,所述系统包括:
数据获取模块,用于获取预设时间段内在网络直播平台上的目标基础数据;
第二获得模块,用于对所述目标矩阵进行布尔化处理,获得布尔矩阵;
第三获得模块,用于对所述布尔矩阵进行奇异值分解,获得多个左奇异矩阵;
向量生成模块,用于从所述多个左奇异矩阵中选取特征向量排名前两位的两个左奇异矩阵,生成二维向量;
第七获得模块,用于基于3sigma原则以及所述极坐标半径概率的均值和标准差,或,基于3sigma原则以及所述极坐标角度概率的均值和标准差,获得第一目标集;
判断模块,用于判断与直播间互动的所述第一目标集中的目标数量是否大于第一阈值,是否大于第二阈值,以及所述布尔矩阵中与所述直播间相关的互动次数形成的第一子矩阵的矩阵密度是否大于第一密度阈值;其中,表示与所述直播间互动的总目标数量;
第二识别模块,用于将与第一目标直播间互动的第一目标识别为第一目标团体;其中,所述第一目标直播间属于第一目标直播间集,所述第一目标属于第一目标集;
所述矩阵密度的表达式,包括:
8.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。
9.一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911210170.1A CN112866806B (zh) | 2019-11-28 | 2019-11-28 | 一种识别目标团体的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911210170.1A CN112866806B (zh) | 2019-11-28 | 2019-11-28 | 一种识别目标团体的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112866806A CN112866806A (zh) | 2021-05-28 |
CN112866806B true CN112866806B (zh) | 2022-09-09 |
Family
ID=75996018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911210170.1A Active CN112866806B (zh) | 2019-11-28 | 2019-11-28 | 一种识别目标团体的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112866806B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113840157B (zh) * | 2021-09-23 | 2023-07-18 | 上海哔哩哔哩科技有限公司 | 访问检测方法、系统及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520450A (zh) * | 2018-03-21 | 2018-09-11 | 电子科技大学 | 基于隐式反馈信息的局部低秩矩阵近似的推荐方法及系统 |
CN108769758A (zh) * | 2018-07-03 | 2018-11-06 | 北京奇艺世纪科技有限公司 | 一种数据分析方法及装置 |
WO2019000896A1 (zh) * | 2017-06-30 | 2019-01-03 | 武汉斗鱼网络科技有限公司 | 一种直播列表浏览交互方法及装置 |
CN109255099A (zh) * | 2018-07-24 | 2019-01-22 | 阿里巴巴集团控股有限公司 | 一种计算机可读存储介质、数据处理方法、装置及服务器 |
CN109905722A (zh) * | 2019-02-21 | 2019-06-18 | 武汉瓯越网视有限公司 | 一种确定嫌疑节点的方法以及相关设备 |
CN110365996A (zh) * | 2019-07-25 | 2019-10-22 | 深圳市元征科技股份有限公司 | 直播管理方法、直播管理平台、电子设备及存储介质 |
-
2019
- 2019-11-28 CN CN201911210170.1A patent/CN112866806B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019000896A1 (zh) * | 2017-06-30 | 2019-01-03 | 武汉斗鱼网络科技有限公司 | 一种直播列表浏览交互方法及装置 |
CN108520450A (zh) * | 2018-03-21 | 2018-09-11 | 电子科技大学 | 基于隐式反馈信息的局部低秩矩阵近似的推荐方法及系统 |
CN108769758A (zh) * | 2018-07-03 | 2018-11-06 | 北京奇艺世纪科技有限公司 | 一种数据分析方法及装置 |
CN109255099A (zh) * | 2018-07-24 | 2019-01-22 | 阿里巴巴集团控股有限公司 | 一种计算机可读存储介质、数据处理方法、装置及服务器 |
CN109905722A (zh) * | 2019-02-21 | 2019-06-18 | 武汉瓯越网视有限公司 | 一种确定嫌疑节点的方法以及相关设备 |
CN110365996A (zh) * | 2019-07-25 | 2019-10-22 | 深圳市元征科技股份有限公司 | 直播管理方法、直播管理平台、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112866806A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Seismic: A self-exciting point process model for predicting tweet popularity | |
JP6891170B2 (ja) | ステムリソース利用を最適化するための映像セグメントの将来の視聴予測 | |
US10073906B2 (en) | Scalable tri-point arbitration and clustering | |
JP6685541B2 (ja) | ユーザ信用スコアを最適化するための方法および装置 | |
Domisch et al. | Spatially explicit species distribution models: A missed opportunity in conservation planning? | |
CN110428412B (zh) | 图像质量的评价及模型生成方法、装置、设备和存储介质 | |
CN107949849A (zh) | 缩减大数据集中数据密度的系统和方法 | |
CN109783686A (zh) | 行为数据处理方法、装置、终端设备和存储介质 | |
CN109063041B (zh) | 关系网络图嵌入的方法及装置 | |
CN112860951B (zh) | 一种识别目标账号的方法及系统 | |
US10762122B2 (en) | Method and device for assessing quality of multimedia resource | |
CN112866806B (zh) | 一种识别目标团体的方法及系统 | |
Payette et al. | Characterizing the ethereum address space | |
US11050498B2 (en) | Estimating volume of switching among television programs for an audience measurement panel | |
CN111291217A (zh) | 一种内容推荐方法、装置、电子设备以及计算机可读介质 | |
US20210357553A1 (en) | Apparatus and method for option data object performance prediction and modeling | |
JP2014215685A (ja) | レコメンドサーバおよびレコメンドコンテンツ決定方法 | |
CN115983499A (zh) | 一种票房预测方法、装置、电子设备及存储介质 | |
CN114268625B (zh) | 特征选择方法、装置、设备及存储介质 | |
KR20200053543A (ko) | 자동 컨텐츠 인식에 의한 콜드 매칭 | |
CN113657525B (zh) | 基于KMeans的跨特征联邦聚类方法及相关设备 | |
CN110275986B (zh) | 基于协同过滤的视频推荐方法、服务器及计算机存储介质 | |
US20200387811A1 (en) | Systems and methods for neighbor frequency aggregation of parametric probability distributions with decision trees | |
CN113055603A (zh) | 一种图像处理方法及电子设备 | |
CN111078945A (zh) | 视频推送方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |