CN112866806B

CN112866806B - 一种识别目标团体的方法及系统

Info

Publication number: CN112866806B
Application number: CN201911210170.1A
Authority: CN
Inventors: 王璐
Original assignee: Wuhan Ouyuan Network Video Co ltd
Current assignee: Wuhan Ouyuan Network Video Co ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2022-09-09
Anticipated expiration: 2039-11-28
Also published as: CN112866806A

Abstract

本发明公开了一种识别目标团体的方法，将目标与直播间互动的关系以矩阵形式表达，并在布尔化后，利用奇异值分解获得特征向量最高的两个左奇异矩阵，生成二维向量空间，以此提取矩阵中的最主要互动信息要素，并转换成向量，然后以极坐标中的半径和角度的分布来获得向量的聚集情况，最后采取3sigma原则得到聚集与直播间互动的第一目标集；并分别对每个直播间，根据阈值，获得满足条件的有目标团体聚集互动的目标直播间，而与所述目标直播间互动的目标团体就是本发明要识别的团体。因此，上述方法可识别出目标团体，对其进行屏蔽，从而避免占用直播平台过多的资源，保证直播的流畅。

Description

一种识别目标团体的方法及系统

技术领域

本发明涉及网络直播技术领域，尤其涉及一种识别目标团体的方法及系统。

背景技术

在网络直播平台上，主播为了提升自己的热度值和曝光量，往往借助第三方的黑产帮助自己提升观看量和时长。这些目标团体通过接单的方式，会在一段时间内为若干主播完成观看量的任务。这些目标团体的行为，会造成对直播平台过多的资源占用，从而导致直播卡顿。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别目标团体的方法及系统。

第一方面，本申请通过本申请的一实施例提供如下技术方案：

一种识别目标团体的方法，用于网络直播平台，所述方法包括：

S101、获取预设时间段内在所述网络直播平台上的目标基础数据；

S102、基于所述目标基础数据，获得目标矩阵；其中，所述目标矩阵包括数据集w_ij，w_ij表示目标i与直播间j的互动次数w_ij，i＝1，2，...，M，M表示目标数量，j＝1，2，...，N，N表示直播间数量；

S103、对所述目标矩阵进行布尔化处理，获得布尔矩阵；

S104、对所述布尔矩阵进行奇异值分解，获得多个左奇异矩阵；

S105、从所述多个左奇异矩阵中选取特征向量排名前两位的两个左奇异矩阵，生成二维向量；

S106、将目标i在所述二维向量所在的空间中的坐标转化为极坐标，获得目标i的极坐标；

S107、基于所述目标i的极坐标，获得目标的极坐标半径概率p(r)和极坐标角度概率p(θ)；

S108、基于p(r)和p(θ)，获得所述极坐标半径概率的均值和标准差，以及所述极坐标角度概率的均值和标准差；

S109、基于3sigma原则以及所述极坐标半径概率的均值和标准差，或，基于3sigma原则以及所述极坐标角度概率的均值和标准差，获得第一目标集；

S110、判断与直播间j互动的所述第一目标集中的目标数量M_Sr是否大于第一阈值，M_Sr/M_r是否大于第二阈值，以及所述布尔矩阵中与所述直播间j相关的互动次数形成的第一子矩阵的矩阵密度是否大于第一密度阈值；其中，M_r表示与所述直播间j互动的总目标数量；

S111、若同时满足M_Sr大于第一阈值，M_Sr/M_r大于第二阈值，以及所述第一子矩阵的矩阵密度大于第一密度阈值，则将所述直播间j识别为第一目标直播间集；

S112、将与第一目标直播间互动的第一目标识别为第一目标团体；其中，所述第一目标直播间属于第一目标直播间集，所述第一目标属于第一目标集。

可选的，所述将与所述第一目标直播间集中的第一目标直播间互动的第一目标识别为第一目标团体之后，所述方法还包括：

S113、判断与目标i互动的所述第一目标直播间的数量N_Su是否大于第三阈值，N_Su/N_u是否大于第四阈值，以及所述布尔矩阵中与所述目标i相关的互动次数形成的第二子矩阵的矩阵密度是否大于第二密度阈值；其中，N_u表示与所述目标i互动的总直播间数量；

S114、若同时满足N_Su大于第三阈值，N_Su/N_u大于第四阈值，以及所述第二子矩阵的矩阵密度大于第二密度阈值，则将所述目标i识别为第二目标集；

S115、将所述第二目标集与所述第一目标团体合并，获得一级目标团体集。

可选的，在获得初级目标团体集之后，所述方法还包括：

S116、以所述一级目标团体集代替所述第一目标集，并返回执行S110-S111，获得第二目标直播间集；

S117、以所述第二目标直播间集集代替所述第一目标直播间集后，执行S113-S114，获得第三目标集；

S118、将所述第二目标集与所述第三目标集合并，获得二级目标团体集；

按照S116-S118，循环迭代至第h目标直播间集与第h-1目标直播间集相同，且k级目标团体集与k-1级目标团体集相同，获得第h目标直播间集和k级目标团体集；其中，k大于等于二，h大于等于二。

可选的，所述对所述目标矩阵进行布尔化处理，获得布尔矩阵，包括：

判断所述目标矩阵中的w_ij是否满足w_ij＞0；

若满足，则将该w_ij替换为b_ij＝1，否则替换为b_ij＝0，获得所述布尔矩阵。

可选的，所述奇异值分解的方法，包括：

B＝P∑Q

其中，B是布尔矩阵，P是左奇异矩阵，∑是对角矩阵，Q是右奇异矩阵。

可选的，所述基于3sigma原则以及所述极坐标半径概率的均值和标准差，或，基于3sigma原则以及所述极坐标角度概率的均值和标准差，获得第一目标集，包括：

判断目标i是否满足u_i，r＞E(p(r))+1.645σ(p(r))，或满足u_i，θ＞E(p(θ))+1.645σ(p(θ))，

若满足，则将满足u_i，r＞E(p(r))+1.645σ(p(r))，或满足u_i，θ＞E(p(θ))+1.645σ(p(θ))的目标i形成所述第一目标集；

其中，

E(p(r))是目标极坐标半径分布p(r)的均值；

E(p(θ))是目标极坐标角度分布p(θ)的均值；

σ(p(r))是目标极坐标半径分布p(r)的标准差；

σ(p(θ)是目标极坐标角度分布p(θ)的标准差；

u_i，r是目标i在所述极坐标中半径的取值；

u_i，θ是目标i在所述极坐标中角度的取值。

可选的，所述矩阵密度的表达式，包括：

其中，

d是矩阵密度；

D是所述布尔矩阵中b_ij＝1的元素个数之和除以所述布尔矩阵中所有元素个数获得的值；

m和n是所述第一子矩阵或第二子矩阵的维度。

可选的，在所述将与第一目标直播间互动的第一目标识别为第一目标团体之后，所述方法还包括：

S213、对所述第一目标团体进行屏蔽。

第二方面，本申请通过本申请的另一实施例提供一种识别目标团体的系统，所述系统包括：

数据获取模块，用于获取预设时间段内在所述网络直播平台上的目标基础数据；

第一获得模块，用于基于所述目标基础数据，获得目标矩阵；其中，所述目标矩阵包括数据集w_ij，w_ij表示目标i与直播间j的互动次数w_ij，i＝1，2，...，M，M表示目标数量，j＝1，2，...，N，N表示直播间数量；

第二获得模块，用于对所述目标矩阵进行布尔化处理，获得布尔矩阵；

第三获得模块，用于对所述布尔矩阵进行奇异值分解，获得多个左奇异矩阵；

向量生成模块，用于从所述多个左奇异矩阵中选取特征向量排名前两位的两个左奇异矩阵，生成二维向量；

第四获得模块，用于将目标i在所述二维向量所在的空间中的坐标转化为极坐标，获得目标i的极坐标；

第五获得模块，用于基于所述目标i的极坐标，获得目标的极坐标半径概率p(r)和极坐标角度概率p(θ)；

第六获得模块，用于基于p(r)和p(θ)，获得所述极坐标半径概率的均值和标准差，以及所述极坐标角度概率的均值和标准差；

第七获得模块，用于基于3sigma原则以及所述极坐标半径概率的均值和标准差，或，基于3sigma原则以及所述极坐标角度概率的均值和标准差，获得第一目标集；

判断模块，用于判断与直播间j互动的所述第一目标集中的目标数量M_Sr是否大于第一阈值，M_Sr/M_r是否大于第二阈值，以及所述布尔矩阵中与所述直播间j相关的互动次数形成的第一子矩阵的矩阵密度是否大于第一密度阈值；其中，M_r表示与所述直播间j互动的总目标数量；

第一识别模块，用于若同时满足M_Sr大于第一阈值，M_Sr/M_r大于第二阈值，以及所述第一子矩阵的矩阵密度大于第一密度阈值，则将所述直播间j识别为第一目标直播间集；

第二识别模块，用于将与第一目标直播间互动的第一目标识别为第一目标团体；其中，所述第一目标直播间属于第一目标直播间集，所述第一目标属于第一目标集。

本发明公开了一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明公开了一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述方法的步骤。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明的方法，将目标与直播间互动的关系以矩阵形式表达，并在布尔化后，利用奇异值分解获得特征向量最高的两个左奇异矩阵，生成二维向量空间，以此提取矩阵中的最主要互动信息要素，并转换成向量，然后以极坐标中的半径和角度的分布来获得向量的聚集情况，最后采取3sigma原则得到聚集与直播间互动的第一目标集。在此基础上，分别对每个直播间，根据阈值，对聚集度高的目标数量，以及聚集度高目标数量占比和子矩阵的密度进行条件判断，以获得满足条件的有目标团体聚集互动的目标直播间，而与所述目标直播间互动的目标团体就是本发明要识别的团体。因此，上述方法可通过聚集效应识别出影响直播的目标团体，对其进行屏蔽，从而避免占用直播平台过多的资源，保证直播的流畅。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明一种实施例中的识别目标团体的方法流程图；

图2是本发明另一种实施例中的提高网络直播流畅度的方法流程图；

图3是本发明一种实施例中的识别目标团体的系统构架图。

具体实施方式

本申请实施例通过提供一种识别目标团体的方法及系统，解决了现有的网络直播卡顿的技术问题。

本申请实施例的技术方案为解决上述技术问题，总体思路如下：

一种识别目标团体的方法，用于网络直播平台，获取预设时间段内在所述网络直播平台上的目标基础数据；基于所述目标基础数据，获得目标矩阵；其中，所述目标矩阵包括数据集w_ij，w_ij表示目标i与直播间j的互动次数w_ij，i＝1，2，...，M，M表示目标数量，j＝1，2，...，N，N表示直播间数量；对所述目标矩阵进行布尔化处理，获得布尔矩阵；对所述布尔矩阵进行奇异值分解，获得多个左奇异矩阵；从所述多个左奇异矩阵中选取特征向量排名前两位的两个左奇异矩阵，生成二维向量；将目标i在所述二维向量所在的空间中的坐标转化为极坐标，获得目标i的极坐标；基于所述目标i的极坐标，获得目标i的极坐标半径概率p(r)和极坐标角度概率p(θ)；基于p(r)和p(θ)，获得所述极坐标半径概率的均值和标准差，以及所述极坐标角度概率的均值和标准差；基于3sigma原则以及所述极坐标半径概率的均值和标准差，或，基于3sigma原则以及所述极坐标角度概率的均值和标准差，获得第一目标集；判断与直播间j互动的所述第一目标集中的目标数量M_Sr是否大于第一阈值，M_Sr/M_r是否大于第二阈值，以及所述布尔矩阵中与所述直播间j相关的互动次数形成的第一子矩阵的矩阵密度是否大于第一密度阈值；其中，M_r表示与所述直播间j互动的总目标数量；若同时满足M_Sr大于第一阈值，M_Sr/M_r大于第二阈值，以及所述第一子矩阵的矩阵密度大于第一密度阈值，则将所述直播间j识别为第一目标直播间集；将与第一目标直播间互动的第一目标识别为第一目标团体；其中，所述第一目标直播间属于第一目标直播间集，所述第一目标属于第一目标集。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

首先说明，本文中出现的术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

在网络直播平台上，主播为了提升自己的热度值和曝光量，往往借助第三方的黑产帮助自己提升观看量和时长。这些目标团体通过接单的方式，会在一段时间内为若干主播完成观看量的任务。这些目标团体的行为，会造成对直播平台过多的资源占用，从而导致直播卡顿。因此，作为直播平台的维护方，需要对这些目标账号进行挖掘识别。

现有的挖掘方法主要包括：

识别这样刷单的方法主要是采用高密子图挖掘的算法，如Fraudar算法等，这些算法采用一个全局的最优度量继续社区发现，但是全局的最优度量设计的不好则会极大的影响结果，且计算量相对较大。

本申请首先针对上述现有技术的缺陷，提供了一种识别目标团体的方法，根据目标团伙与直播间的互动数据形成的矩阵是一个高密矩阵，通过识别这种密度非常高的子矩阵从而识别目标团伙。

下面以具体实施例，具体说明如何克服上述缺陷，准确识别出目标团体，以便进行屏蔽，避免导致直播卡顿。

实施例一

本实施提供了一种识别目标团体的方法，用于网络直播平台，参见图1，所述方法包括：

S103、对所述目标矩阵进行布尔化处理，获得布尔矩阵；

S107、基于所述目标i的极坐标，获得目标i的极坐标半径概率p(r)和极坐标角度概率p(，θ)；

S110、判断与直播间j互动的所述第一目标集中的目标数量M_Sr是否大于第一阈值，M_Sr/M_r芝否大于第二阈值，以及所述布尔矩阵中与所述直播间j相关的互动次数形成的第一子矩阵的矩阵密度是否大于第一密度阈值；其中，M_r表示与所述直播间j互动的总目标数量；

需要说明的是，该目标可以是参与直播互动的用户，也可以是参与直播互动的电子设备，如智能机器人等。

下面参照图1，对本实施中各步骤进行详细的解释说明。

首先，执行步骤S101，获取预设时间段内在所述网络直播平台上的目标基础数据。

需要说明的是，预设时间段可以是过去一周、一个月以及更长的时间段。目标基础数据包括目标i与直播间j的互动次数。假设目标是观看直播的用户，互动可以是用户观看直播间，互动次数则是用户观看直播间的次数。

在本实施例中，由于本发明的方法聚焦的是集中与直播间互动的目标团体，因此，为了获得更准确的目标间的聚集情况，需要找到目标之间同时与直播间存在的共性关系。而由于目标团体中的目标都会同时与某个直播间进行互动，而单独的常规目标之间由于对直播内容的喜好不同，几乎不可能形成聚集效应，同时与同一个直播间频繁互动。因此，目标与直播间的互动次数，是最能直接反映这些目标相对于某个直播间存在的共性关系的。为此，本实施例中选取了目标i与直播间j的互动次数，建立关系目标矩阵。

需要说明的是，这些目标基础数据都是用户使用后留下来的痕迹，因此，数据中的实体之间的关系是客观存在的。基于此，本领域技术人员显然可以理解，在本发明实施例步骤S101中选取目标i与直播间j的互动次数作为矩阵元素，均是是解决技术问题所必不可少的信息参数，并非人为主观因素的选取，而是为了解决技术问题必须对上述目标i与直播间j的互动次数进行获取(也即符合自然规律的选取)，以为下述S102提供数据基础。

接下来，执行S102，基于所述目标基础数据，获得目标矩阵；其中，所述目标矩阵包括数据集w_ij，w_ij表示目标i与直播间j的互动次数w_ij，i＝1，2，...，M，M表示目标数量，j＝1，2，...，N，N表示直播间数量。

目标矩阵是一个M×N的矩阵，其中，w_ij即表示目标矩阵中第i行第j列的元素。在本实施例中，通过建立目标矩阵，可以更好地量化实体及实体间的关系，更加直观和简洁，从而减少计算量。

由于在本实施例中，只关注目标团体是否直播间发生互动，而不关注互动了多少次，也可以反映出目标间的聚集情况。因此，为了计算的高效，对目标执行S103，对所述目标矩阵进行布尔化处理，获得布尔矩阵；；

具体的，所述对所述目标矩阵进行布尔化处理，获得布尔矩阵，包括：

判断所述目标矩阵中的w_ij是否满足w_ij＞0；

则布尔矩阵也是一个M×N的矩阵，其中，b_ij即表示布尔矩阵中第i行第j列的元素。

接下来，执行S104，对所述布尔矩阵进行奇异值分解，获得多个左奇异矩阵。

具体的，所述奇异值分解(SVD)的方法，包括：

B＝P∑Q

其中，B是布尔矩阵，P是左奇异矩阵，维度是M*M，∑是对角矩阵维度是M*N，Q是右奇异矩阵N*N。

需要说明的是，这里对布尔矩阵进行奇异值分解的原理是：由于向量形式更能反映聚集效应，为了后续步骤中以向量的形式获得目标团体的聚集效应，需要建立二维向量空间，而奇异值后的特征向量排名前两位的两个左奇异矩阵已经能够反映布尔矩阵的最主要的信息要素，从而实现降维，方便计算。

为此，接下来，执行S105，从所述多个左奇异矩阵中选取特征向量排名前两位的两个左奇异矩阵，生成二维向量。

则，目标i在二维向量空间中的坐标是(u_i，x，u_i，y)，其中，x和y是二维向量空间中的坐标轴。

接下来，执行S106，将目标i在所述二维向量所在的空间中的坐标转化为极坐标，获得目标i的极坐标。

S105中生成的二维向量空间是一个平面坐标系，将这个坐标系转化为极坐标，具体的转化方法如下。

目标i在极坐标上的表示是：

其中：

u_i，r是目标i在极坐标中半径的取值；

u_i，θ是目标i在极坐标中角度的取值。

这样做的好处是平面坐标系无法反映目标的聚集效应，而极坐标是谱视角，可以凸显刷单的聚集效应

接下来，执行S107，基于所述目标i的极坐标，获得目标的极坐标半径概率p(r)和极坐标角度概率p(θ)；

具体的，统计目标极坐标半径分布占比：

其中：

p(r)是目标极坐标半径取值为r的概率，所有极坐标半径取值集合是R；

#(u_r＝r)是所有目标中极坐标半径取值为r的个数；

M是目标数量。

统计目标极坐标角度分布占比：

其中：

p(θ)是目标极坐标角度取值为θ的概率，所有极坐标角度取值集合是⑩；

#(u_θ＝θ)是所有目标中极坐标角度取值为θ的个数。

接下来，执行S108、基于p(r)和p(θ)，获得所述极坐标半径概率的均值和标准差，以及所述极坐标角度概率的均值和标准差；

具体的，计算分布p(r)和p(θ)的均值和标准差的方法如下：

其中：

E(p(r))是目标极坐标半径分布p(r)的均值；

E(p(θ)]是目标极坐标角度分布p(θ)的均值；

σ(p(r))是目标极坐标半径分布p(r)的标准差；

σ(p(θ))是目标极坐标角度分布p(θ)的标准差；

|R|是极坐标半径取值集合R的元素个数；

|Θ|是极坐标角度取值集合Θ的元素个数。

接下来，执行S109，基于3sigma原则以及所述极坐标半径概率的均值和标准差，或，基于3sigma原则以及所述极坐标角度概率的均值和标准差，获得第一目标集；

具体的，

根据3sigma原则，

数值分布在(μ-σ，μ+σ)中的概率为0.6827

数值分布在(μ-2σ，μ+2σ)中的概率为0.9545

数值分布在(μ-3σ，μ+3σ)中的概率为0.9973

其中，μ表示均值，σ表示标准差。

上述公式中1.645是选取数值分布0.9545的分位数，即上述公式表示把极坐标半径和角度概率超过0.9545的目标作为目标团体的可疑成员。这是由于在所有目标中，常规的目标依然是占据大部分数量，且其在极坐标中的半径和角度分布也占据绝大部分，因此，概率分布较小的目标则可能是目标团体的成员。

在实际操作时，可根据对聚集效应的要求，来选取上述三种中的任意一种，例如，希望筛选概率更小的目标，则选择数值分布0.9545的分位数。

接下来，执行S110，判断与直播间j互动的所述第一目标集中的目标数量M_Sr是否大于第一阈值，M_Sr/M_r是否大于第二阈值，以及所述布尔矩阵中与所述直播间j相关的互动次数形成的第一子矩阵的矩阵密度是否大于第一密度阈值；其中，M_r表示与所述直播间j互动的总目标数量；

具体的，所述矩阵密度的表达式，包括：

其中，

d是矩阵密度；

m和n是所述第一子矩阵或第二子矩阵的维度。

该公式的原理推导如下：

由于需要找到目标团体，使得本实施例中需要在矩阵中找到高密度的子矩阵。而在矩阵中找到一个高密度的子矩阵，子矩阵中值为1的元素个数至少为m*n*d。

假设随机从矩阵中找到一个子矩阵值为1的元素个数为Y，该过程满足一个伯努利分布，显然E(Y)＝m*n*D。

子矩阵是一个高密度子矩阵的概率等价于Y大于等于m*n*d的概率，即：

p(Y≥m*n*d)

从矩阵中随机抽取一个高密度子矩阵的期望是：

根据切诺夫界：

根据斯特林公式：

由于需要随机抽取一个高密度子矩阵的期望至少为1，于是：

两边取对数：

可以解出：

于是若存在高密子矩阵，密度至少为

根据上述推导结论可知，公式

是满足高密度矩阵的最低条件，为此，上述公式可作为高密度子矩阵的表达式。而通过上述公式获得的子矩阵一定为高密度矩阵，用其获得的密度与密度阈值进行判断，可以保证识别的嫌疑用户或直播间形成的子矩阵满足目标团体的基本特征，这样会提高识别的准确率。

需要说明的是，第一阈值、第二阈值以及第一密度阈值的选择，主要是通过近一段时间通过规则发现的目标和直播间，计算这些目标和直播间的相关数值(包括M_Sr，M_Sr/M_r，子矩阵的矩阵密度)，并从大到小排序，取95％分位数作为阈值。作为本领域的技术人员，该分位数可以根据对直播卡顿的程度的要求进行调整，对直播卡顿的程度的要求越高则分位数越高，而本发明实施例之所以选取95％分位数作为阈值，是因为本实施中为了将目标团体尽可能的识别出来，也就是对直播卡顿的程度的要求较高，因此，选取了分位数较高的95％。

接下来，执行S111，若同时满足M_Sr大于第一阈值，M_Sr/M_r大于第二阈值，以及所述第一子矩阵的矩阵密度大于第一密度阈值，则将所述直播间j识别为第一目标直播间集；

S112、将与第一目标直播间互动的第一目标识别为第一目标团体；其中，所述第一目标直播间属于第一目标直播间集，所述第一目标属于第一目标集

需要说明的是，上述是根据识别出的目标直播间，间接确定出目标团体，仍然可能存在少部分不准确的情况。

为了进一步提高目标团体识别的准确性，作为一种可选的实施方式，所述将与所述第一目标直播间集中的第一目标直播间互动的第一目标识别为第一目标团体之后，所述方法还包括：

需要说明的是，第三阈值、第四阈值以及第二密度阈值的选择，主要是通过近一段时间通过规则发现的目标和直播间，计算这些目标和直播间的相关数值(包括N_Su，N_Su/N_u，子矩阵的矩阵密度)，并从大到小排序，取95％分位数作为阈值。作为本领域的技术人员，该分位数可以根据对直播卡顿的程度的要求进行调整，对直播卡顿的程度的要求越高则分位数越高，而本发明实施例之所以选取95％分位数作为阈值，是因为本实施中为了将目标团体尽可能的识别出来，也就是对直播卡顿的程度的要求较高，因此，选取了分位数较高的95％。

为了更进一步的提高目标团体识别的准确度，作为一种可选的实施方式，在获得初级目标团体集之后，所述方法还包括：

在经过多次迭代后，目标团体的集合不在发生变化，则表示迭代结果已最优，其获得的目标团体准确度高。

为此，可对这些目标团体进行屏蔽，以减少对直播平台不必要的资源占用，从而避免直播卡顿。也可以消减直播间热度，消减的比例是嫌疑用户集合中观看该嫌疑直播间占比除以观看该直播间的总人数，以打击目标团体的行为。

在清楚了本发明的各步骤原理后，下面以一个实例来演示本发明的实施过程。

假设目标基础数据中包括5名用户(即目标为用户)和3个直播间，即M＝5，N＝3，他们之间的观看关系可以形成矩阵B：

对矩阵B进行SVD分解，于是

是各个用户在二维坐标系中的表示是：

用户1：(-0.551，0)，用户2：(-0.551，0)，用户3：(-0.551，0)，用户4：(-0.298，0)，用户5：(0，1)

将上述坐标系转化成极坐标，于是：

用户1：(0.551，0)，用户2：(0.551，0)，用户3：(0.551，0)，用户4：(0.298，0)，用户5：(1，1.57)

计算用户在极坐标半径r上的分布，有：

p(r＝0.551)＝3/5＝0.6

p(r＝0.298)＝1/5＝0.2

p(r＝1)＝1/5＝0.2

计算上述分布的期望和标准差，则有：

由于0.6＞0.33+1.645*0.188，因此，用户1、2、3是嫌疑用户。

计算用户在极坐标角度θ上的分布，有：

p(θ＝0)＝4/5＝0.8

p(r＝1.57)＝1/5＝0.2

计算上述分布的期望和标准差，则有：

都不满足u_i，θ＞E(p(θ))+1.645σ(p(θ))。

因此，第一目标团体集合U₀＝{用户1，用户2，用户3}。

即，用户1，用户2，用户3为嫌疑用户。

对于各个直播间，计算观看过该直播间的嫌疑用户数量，嫌疑用户数量占比以及形成的子矩阵密度，于是：

直播间1：嫌疑用户数量＝3，嫌疑用户数量占比＝3/3＝1，

直播间2：嫌疑用户数量＝3，嫌疑用户数量占比＝3/4＝0.75，

直播间3：嫌疑用户数量＝0，嫌疑用户数量占比＝0，

根据前述关于阈值的确定原则，这里确定阈值为：第一阈值为1，第二阈值为0.5，第一密度阈值0.75，因此，可以得到直播间1和2是嫌疑的，即R₀＝{1，2}

下面进行下一轮选代。

对于各个用户，计算其观看过直播间的嫌疑直播间数量，嫌疑直播间数量占比以及形成的子矩阵密度：

用户4：嫌疑直播间数量＝1，嫌疑用户数量占比＝1/1＝1，

用户5：嫌疑直播间数量＝0，嫌疑用户数量占比＝0，

根据前述关于阈值的确定原则，这里确定阈值为：第三阈值为1，第四阈值为0.5，第二密度阈值0.75，可以得到用户4是嫌疑的，即U₁＝{1，2，3，4}；

继续迭代R₁＝{1，2}，嫌疑集合没有更新，于是停止迭代。

因此，目标团体为用户1、用户2、用户3、用户4，目标直播间为直播间1、直播间2。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：

本实施例的方法，用于网络直播平台，将目标与直播间互动的关系以矩阵形式表达，并在布尔化后，利用奇异值分解获得特征向量最高的两个左奇异矩阵，生成二维向量空间，以此提取矩阵中的最主要互动信息要素，并转换成向量，然后以极坐标中的半径和角度的分布来获得向量的聚集情况，最后采取3sigma原则得到聚集与直播间互动的第一目标集。在此基础上，分别对每个直播间，根据阈值，对聚集度高的目标数量，以及聚集度高目标数量占比和子矩阵的密度进行条件判断，以获得满足条件的有目标团体聚集互动的目标直播间，而与所述目标直播间互动的目标团体就是本发明要识别的团体。因此，上述方法可通过聚集效应识别出影响直播的目标团体，对其进行屏蔽，从而避免占用直播平台过多的资源，保证直播的流畅。

实施例二

基于与实施例一相同的发明构思，本实施提供了一种提高网络直播流畅度的方法，用于网络直播平台，参见图2，所述方法包括：

S201、获取预设时间段内在所述网络直播平台上的目标基础数据；

S202、基于所述目标基础数据，获得目标矩阵；其中，所述目标矩阵包括数据集w_ij，w_ij表示目标i与直播间j的互动次数w_ij，i＝1，2，...，M，M表示目标数量，j＝1，2，...，N，N表示直播间数量；

S203、对所述目标矩阵进行布尔化处理，获得布尔矩阵；

S204、对所述布尔矩阵进行奇异值分解，获得多个左奇异矩阵；

S205、从所述多个左奇异矩阵中选取特征向量排名前两位的两个左奇异矩阵，生成二维向量；

S206、将目标i在所述二维向量所在的空间中的坐标转化为极坐标，获得目标i的极坐标；

S207、基于所述目标i的极坐标，获得目标的极坐标半径概率p(r)和极坐标角度概率p(θ)；

S208、基于p(r)和p(θ)，获得所述极坐标半径概率的均值和标准差，以及所述极坐标角度概率的均值和标准差；

S209、基于3sigma原则以及所述极坐标半径概率的均值和标准差，或，基于3sigma原则以及所述极坐标角度概率的均值和标准差，获得第一目标集；

S210、判断与直播间j互动的所述第一目标集中的目标数量M_Sr是否大于第一阈值，M_Sr/M_r是否大于第二阈值，以及所述布尔矩阵中与所述直播间j相关的互动次数形成的第一子矩阵的矩阵密度是否大干第一密度阈值；其中，M_r表示与所述直播间j互动的总目标数量；

S211、若同时满足M_Sr大于第一阈值，M_Sr/M_r大于第二阈值，以及所述第一子矩阵的矩阵密度大于第一密度阈值，则将所述直播间j识别为第一目标直播间集；

S212、将与第一目标直播间互动的第一目标识别为第一目标团体；其中，所述第一目标直播间属于第一目标直播间集，所述第一目标属于第一目标集；

S213、对所述第一目标团体进行屏蔽。

在S213中，其具体屏蔽目标账号的方法有多种，举例来说，可以对目标账号通过服务器加入黑名单进行屏蔽，禁止提供服务，从而提高流畅度，大大地降低带宽，无须人工干预，从而避免卡顿的发生。其余的步骤的具体实施方式参见实施例一。

实施例三

基于与实施例一同样的发明构思，本实施例提供一种识别目标团体的系统，参见图3，所述系统包括：

由于本实施例所介绍的识别目标团体的系统为实现本申请实施例一种识别目标团体的方法所采用的系统，故而基于本申请实施例一中所介绍的识别目标团体的方法，本领域所属技术人员能够了解本实施例的系统的具体实施方式以及其各种变化形式，所以在此对于如何利用本中的系统实现实施例一中的方法不再详细介绍。只要本领域所属技术人员用于实现本申请实施例中识别目标团体的方法所采用的系统，都属于本申请所欲保护的范围。

基于与前述实施例中同样的发明构思，本发明实施例还提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前文任一所述方法的步骤。

基于与前述实施例中同样的发明构思，本发明实施例还提供一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前文任一所述方法的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种识别目标团体的方法，用于网络直播平台，其特征在于，所述方法包括：

S102、基于所述目标基础数据，获得目标矩阵；其中，所述目标矩阵包括数据集

，

表示目标

与直播间

的互动次数

，

，

表示目标数量，

，

表示直播间数量；

S103、对所述目标矩阵进行布尔化处理，获得布尔矩阵；

S106、将目标

在所述二维向量所在的空间中的坐标转化为极坐标，获得目标

的极坐标；

S107、基于所述目标

的极坐标，获得目标的极坐标半径概率

和极坐标角度概率

；

S108、基于

和

，获得所述极坐标半径概率的均值和标准差，以及所述极坐标角度概率的均值和标准差；

S110、判断与直播间

互动的所述第一目标集中的目标数量

是否大于第一阈值，

是否大于第二阈值，以及所述布尔矩阵中与所述直播间

相关的互动次数形成的第一子矩阵的矩阵密度是否大于第一密度阈值；其中，

表示与所述直播间

互动的总目标数量；

S111、若同时满足

大于第一阈值，

大于第二阈值，以及所述第一子矩阵的矩阵密度大于第一密度阈值，则将所述直播间

识别为第一目标直播间集；

S112、将与第一目标直播间互动的第一目标识别为第一目标团体；其中，所述第一目标直播间属于第一目标直播间集，所述第一目标属于第一目标集；

所述矩阵密度的表达式，包括：

，

其中，

是矩阵密度；

是所述布尔矩阵中

的元素个数之和除以所述布尔矩阵中所有元素个数获得的值；

和

是所述第一子矩阵或第二子矩阵的维度。

2.如权利要求1所述的方法，其特征在于，所述将与所述第一目标直播间集中的第一目标直播间互动的第一目标识别为第一目标团体之后，所述方法还包括：

S113、判断与目标

互动的所述第一目标直播间的数量

是否大于第三阈值，

是否大于第四阈值，以及所述布尔矩阵中与所述目标

相关的互动次数形成的第二子矩阵的矩阵密度是否大于第二密度阈值；其中，

表示与所述目标

互动的总直播间数量；

S114、若同时满足

大于第三阈值，

大于第四阈值，以及所述第二子矩阵的矩阵密度大于第二密度阈值，则将所述目标

识别为第二目标集；

3.如权利要求2所述的方法，其特征在于，在获得初级目标团体集之后，所述方法还包括：

S117、以所述第二目标直播间集代替所述第一目标直播间集后，执行S113-S114，获得第三目标集；

4.如权利要求1所述的方法，其特征在于，所述对所述目标矩阵进行布尔化处理，获得布尔矩阵，包括：

判断所述目标矩阵中的

是否满足

；

若满足，则将该

替换为

，否则替换为

，获得所述布尔矩阵。

5.如权利要求4所述的方法，其特征在于，所述基于3sigma原则以及所述极坐标半径概率的均值和标准差，或，基于3sigma原则以及所述极坐标角度概率的均值和标准差，获得第一目标集，包括：

判断目标

是否满足

，或满足

，

若满足，则将满足

，或满足

的目标

形成所述第一目标集；

其中，

是目标极坐标半径分布

的均值；

是目标极坐标角度分布

的均值；

是目标极坐标半径分布

的标准差；

是目标极坐标角度分布

的标准差；

是目标

在所述极坐标中半径的取值；

是目标

在所述极坐标中角度的取值。

6.如权利要求1所述的方法，其特征在于，在所述将与第一目标直播间互动的第一目标识别为第一目标团体之后，所述方法还包括：

S213、对所述第一目标团体进行屏蔽。

7.一种识别目标团体的系统，其特征在于，所述系统包括：

数据获取模块，用于获取预设时间段内在网络直播平台上的目标基础数据；

第一获得模块，用于基于所述目标基础数据，获得目标矩阵；其中，所述目标矩阵包括数据集

，

表示目标

与直播间

的互动次数

，

，

表示目标数量，

，

表示直播间数量；

第四获得模块，用于将目标

的极坐标；

第五获得模块，用于基于所述目标

的极坐标，获得目标的极坐标半径概率

和极坐标角度概率

；

第六获得模块，用于基于

和

判断模块，用于判断与直播间

互动的所述第一目标集中的目标数量

是否大于第一阈值，

是否大于第二阈值，以及所述布尔矩阵中与所述直播间

表示与所述直播间

互动的总目标数量；

第一识别模块，用于若同时满足

大于第一阈值，

识别为第一目标直播间集；

第二识别模块，用于将与第一目标直播间互动的第一目标识别为第一目标团体；其中，所述第一目标直播间属于第一目标直播间集，所述第一目标属于第一目标集；

所述矩阵密度的表达式，包括：

，

其中，

是矩阵密度；

是所述布尔矩阵中

和

是所述第一子矩阵或第二子矩阵的维度。

8.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。

9.一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-6任一项所述方法的步骤。