CN108376164A

CN108376164A - 一种潜力主播的展示方法及装置

Info

Publication number: CN108376164A
Application number: CN201810157071.0A
Authority: CN
Inventors: 王璐
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2018-02-24
Filing date: 2018-02-24
Publication date: 2018-08-07
Anticipated expiration: 2038-02-24
Also published as: CN108376164B

Abstract

本发明实施例提供了一种潜力主播的展示方法及装置，其中的方法包括：构建潜力主播集合，其中，所述潜力主播集合中包括M个潜力主播，获取每个潜力主播对应的弹幕文本；根据所述每个潜力主播对应的弹幕文本与预设标签的关联，构建所述每个潜力主播的N维标签向量，根据所述每个潜力主播的N维标签向量，获取每个潜力主播与所述潜力主播集合中其他潜力主播的相似度；基于所述相似度，对所述M个潜力主播进行分组，并展示给客户端。本发明解决了现有技术中无法有效地展示潜力主播的技术问题。

Description

一种潜力主播的展示方法及装置

技术领域

本发明涉及直播数据挖掘技术领域，尤其涉及一种潜力主播的展示方法及装置。

背景技术

随着互联网和直播技术的发展，各种直播平台已经得到广泛应用，通过直播平台人们可以获得丰富多彩的实时信息，直播平台通常依靠引进主播的方式来吸引粉丝和用户，从而提高其市场竞争力。

在各个直播平台上，通常存在一些“头部主播”，这些主播名气大、观看的用户基数大，为直播平台贡献了较大比例的流量。然而，相对于整个平台来说，头部主播的数量一般较少，如果将平台的资源全部给予这些头部主播，则不利于平台的生态环境。因此需要对直播平台上的潜力主播进行挖掘，这些潜力主播主要是指一些粉丝数量不多但是有自己的特色，具有吸引粉丝能力的主播。目前的做法是通过人工挖掘的方法在搜集主播的直播数据后，将活跃度较高的主播确定为潜力主播，然后展示给用户，然而由于平台上主播的直播数据量是海量的，人工获取仅能获取极少量的数据，无法覆盖全网的主播及其相应的直播数据，并且在挖掘出潜力主播后无法有效地展示给用户，从而不利于潜力主播的发展，容易使潜力主播流失。

由此可见，现有技术中存在无法有效地展示潜力主播的技术问题。

发明内容

本发明实施例提供了一种潜力主播的展示方法及装置，用以解决或者至少部分解决现有技术中存在无法有效地展示潜力主播的技术问题。

第一方面，本发明提供了一种潜力主播的展示方法，所述方法包括：

构建潜力主播集合，其中，所述潜力主播集合中包括M个潜力主播，其中，M为正整数；

获取每个潜力主播对应的弹幕文本；

根据所述每个潜力主播对应的弹幕文本与预设标签的关联，构建所述每个潜力主播的N维标签向量，其中，所述N维标签向量的每一维度用于表征该潜力主播与相应预设标签的关联程度，N为正整数，N的数值与所述预设标签的数量相等；

根据所述每个潜力主播的N维标签向量，获取每个潜力主播与所述潜力主播集合中其他潜力主播的相似度；

基于所述相似度，对所述M个潜力主播进行分组，并展示给客户端。

可选地，所述构建潜力主播集合的方式为：

根据运营提供的主播数据和/或

根据主播的运营能力和/或

根据主播的粉丝级别，构建潜力主播集合。

可选地，所述预设标签包括第一标签，所述根据所述每个潜力主播对应的弹幕文本与预设标签的关联，构建所述每个潜力主播的N维标签向量，包括：

构建预设标签的关联词集合，其中，所述关联词集合中包括第一关联词集合，所述第一关联词集合对应于所述第一标签；

根据所述第一关联词集合中的关联词语的出现次数与所述关联词集合中所有关联词语出现总次数的比例以及弹幕文本中包含所述关联词集合中任意一个关联词语的主播数量与主播总数量的比例，获得所述潜力主播相对于第一标签的标签向量；

基于所述潜力主播相对于第一标签的标签向量，构建所述每个潜力主播相对于所述预设标签的N维标签向量。

可选地，所述根据所述第一关联词集合中的关联词语的出现次数与所述关联词集合中所有关联词语出现总次数的比例以及弹幕文本中包含所述关联词集合中任意一个关联词语的主播数量与主播总数量的比例，获得所述潜力主播相对于第一标签的标签向量，具体为：

其中，V_r1为潜力主播相对于第一标签的标签向量，n₁为第一关联词集合中的关联词语的出现次数，N为关联词集合中所有关联词语出现总次数，r₁弹幕文本中包含所述关联词集合中任意一个关联词语的主播数量R为主播总数量。

可选地，所述根据所述每个潜力主播的N维标签向量，获取每个潜力主播与所述潜力主播集合中其他潜力主播的相似度，包括：

计算每两个潜力主播的N维标签向量之间的余弦距离；

以所述余弦距离作为潜力主播与其他潜力主播的相似度。

可选地，所述基于所述相似度，对所述M个潜力主播进行分组，包括：

将所述M个潜力主播中的任意一个潜力主播作为第一潜力主播；

判断其他潜力主播与所述第一潜力主播的相似度是否满足预设条件，

如果是，则将上述潜力主播与所述第一潜力主播分为一组。

可选地，在基于所述相似度，对所述M个潜力主播进行分组之后，所述方法还包括：

对分组后的结果进行合并去重处理。

基于同样的发明构思，本发明第二方面提供了一种潜力主播的展示装置，所述装置包括：

第一构建模块，用于构建潜力主播集合，其中，所述潜力主播集合中包括M个潜力主播，其中，M为正整数；

第一获取模块，用于获取每个潜力主播对应的弹幕文本；

第二构建模块，用于根据所述每个潜力主播对应的弹幕文本与预设标签的关联，构建所述每个潜力主播的N维标签向量，其中，所述N维标签向量的每一维度用于表征该潜力主播与相应预设标签的关联程度，N为正整数，N的数值与所述预设标签的数量相等；

第二获取模块，用于根据所述每个潜力主播的N维标签向量，获取每个潜力主播与所述潜力主播集合中其他潜力主播的相似度；

展示模块，用于基于所述相似度，对所述M个潜力主播进行分组，并展示给客户端。

基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如下步骤：

获取每个潜力主播对应的弹幕文本；

基于同样的发明构思，本发明第四方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如下步骤：

获取每个潜力主播对应的弹幕文本；

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

在本发明实施例提供的方法中，在构建潜力主播集合后，分别获取潜力主播集合中M个潜力主播对应的弹幕文本，并根据每个潜力主播的弹幕文本与预设标签的关联构建每个潜力主播的N维标签向量，由于N维标签向量的每一个维度表示该潜力主播相对于预设标签中的某一个标签的关联度，从而可以获得该潜力主播与预设标签的关联，然后进一步获取每个潜力主播与所述潜力主播集合中其他潜力主播的相似度；并基于相似度，对所述M个潜力主播进行分组，并展示给客户端。由于本发明实施例提供的方法可以通过分析潜力主播的弹幕文本和预设标签的关系，构建潜力主播的N维标签向量，从而可以提高分析的准确性，并根据每个潜力主播的N维标签向量计算每个潜力主播与所述潜力主播集合中其他潜力主播的相似度，从而可以将内容或风格相似的潜力主播进行分组显示，从而可以实现潜力主播的有效展示，有利于潜力主播的推广，以及增加用户的粘度，解决了现有技术中无法有效地展示潜力主播的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种潜力主播的展示方法的流程图；

图2为本发明实施例中一种潜力主播的展示装置的结构框图；

图3为本发明实施例中一种计算机可读存储介质的结构框图；

图4为本发明实施例中一种计算机设备的结构框图。

具体实施方式

本申请实施例中的技术方案，总体思路如下：

在构建潜力主播集合后，分别获取潜力主播集合中M个潜力主播对应的弹幕文本，并根据每个潜力主播的弹幕文本与预设标签的关联构建每个潜力主播的N维标签向量，由于N维标签向量的每一个维度表示该潜力主播相对于预设标签中的某一个标签的关联，从而可以获得该潜力主播与预设标签的关联，然后进一步获取每个潜力主播与所述潜力主播集合中其他潜力主播的相似度，并基于相似度，对所述M个潜力主播进行分组。通过上述方式，可以将有相同主体和风格的主播进行分组展示，从而提高了展示的有效性和效果，有利于对潜力主播的推广，以及增加潜力主播的粉丝的粘度。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供一种潜力主播的展示方法，如图1所示，该方法包括：

首先执行步骤S101：构建潜力主播集合，其中，所述潜力主播集合中包括M个潜力主播，其中，M为正整数。

具体来说，潜力主播是指一些观看和关注人数不多但具有自己特色、且具有吸引粉丝潜力的主播。潜力主播集合的构建方法可以为以下几种方式中的一种或结合其中的几种。

第一种，根据运营提供的主播数据构建潜力主播集合。

具体来说，运营根据对主播的了解程度来得到主播名单，然后将主播名单汇总构建潜力主播集合。

第二种，根据主播的运营能力构建潜力主播集合。

具体来说，可以通过设置运营能力指标，然后根据运营能力指标构建评估模型，再通过评估模型来判断主播运营能力，并将符合条件的主播作为潜力主播。

第三种，根据主播的粉丝级别，构建潜力主播集合。

具体来说，如果某个主播中粉丝级别达到达人级别的数量超过一定量时，则可以将该主播作为潜力主播。

第四种，根据特色标签的情况，构建潜力主播集合。

具体来说，可以根据特色标签的数量或者特色标签出现的频率等来作为潜力主播的判断因素。

在构建潜力主播集合后，然后执行步骤S102：获取每个潜力主播对应的弹幕文本。

在本申请实施方式中，每个潜力主播对应一个直播间，弹幕文本为预设时间内该直播间的弹幕数据构成的文本，上述预设时间可以为根据实际情况进行设置，可以为一年、半年、三个月、一个月等等。

接下来执行步骤S103：根据所述每个潜力主播对应的弹幕文本与预设标签的关联，构建所述每个潜力主播的N维标签向量，其中，所述N维标签向量的每一维度用于表征该潜力主播与相应预设标签的关联程度，N为正整数，N的数值与所述预设标签的数量相等。

具体来说，预设标签是与潜力主播相关的标签，可以根据直播平台上的历史数据进行关键词抽取来获得，可以采用现有的文本关键词抽取算法来实现，例如预设标签可以网络流行语、某个热门主题的相关词等，预设标签的数量为N个，与N为标签向量一一对应，对于潜力主播集合中的某个潜力主播A来说，其N为标签向量可以表示为V_A＝{V_A1,...V_Ak,...V_AN}，其中，V_A1表示对预设标签中的第一个标签的标签向量，V_AN表示预设标签中的第N个标签的标签向量，其中，N个标签的顺序可以根据实际情况进行设置，在此不做具体限定。

接下来执行步骤S104：根据所述每个潜力主播的N维标签向量，获取每个潜力主播与所述潜力主播集合中其他潜力主播的相似度。

具体来说，由于前述步骤已经获得了每个潜力主播的N为标签向量，则可以向量之间相似度的计算方法，获得每两个潜力主播的相似度，例如可以通过向量之间的欧氏距离、曼哈顿距离、切比雪夫距离、余弦距离的计算方式获得相似度。

再执行步骤S105：基于所述相似度，对所述M个潜力主播进行分组，并展示给客户端。

具体来说，在计算获得每两个潜力主播之间的相似度后，可以根据相似度对M个潜力主播进行分组，从而将主题和风格类似的主播进行集中展示，提高展示的效果，从而进一步提高潜力主播的推广效力。

为了提高对潜力主播的弹幕文本与预设标签的关联程度分析的准确性，在一种可选实施方式中，预设标签包括第一标签，根据所述每个潜力主播对应的弹幕文本与预设标签的关联，构建所述每个潜力主播的N维标签向量可以通过如下方式来实现：

具体来说，预设标签的关联词集合为总的关联词集合，第一关联词集合可以包含与第一标签相关联的多个词语，例如第一关联词集合可以表示为wr1＝{wr₁,wr₂,...,wr_m}，其中，wr₁、wr_m为该集合中的关联词语。如果某个潜力主播对应弹幕文本中出现关联词集合中任意一个词语(不计次数)，则主播数量记为1次，当M个潜力主播中每个潜力主播的弹幕文本中均出现了关联词语，则主播数量为全网主播总数量。通过上述步骤，可以获得某个潜力主播相对应的直播间对于各个预设标签的关联度，上述N维标签向量即为关联的衡量指标。

为了更为准确和客观地表示上述潜力主播相对于第一标签的标签向量，该第一标签的标签向量可以通过下述公式获得：

具体来说，上述第一标签的标签向量用于表示潜力主播对应的直播间对于第一标签的得分，该得分数值越大则表示关联程度越高。

作为一种可选方式，根据每个潜力主播的N维标签向量，获取每个潜力主播与所述潜力主播集合中其他潜力主播的相似度可以通过下述方式来实现：

计算每两个潜力主播的N维标签向量之间的余弦距离；

以所述余弦距离作为潜力主播与其他潜力主播的相似度。

具体来说，余弦距离，也称为余弦相似度，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。向量是多维空间中有方向的线段，如果两个向量的方向一致，即夹角接近零，那么这两个向量就相近。通过计算两个潜力主播的向量之间的余弦距离的方式来确定相似度可以提高相似度的准确性，从而有利于将相似度满足条件的潜力主播进行合并。举例来说，对于潜力主播i和潜力主播j来说，潜力主播i与潜力主播j的相似度计算公式为：

其中，v_ik表示潜力直播i的第k个标签向量，vj_k表示潜力直播i的第k个标签向量，k的取值为1～n,s(i,j)表示潜力主播i与潜力主播j的相似度。

作为一种可选方式，基于所述相似度，对M个潜力主播进行分组可以通过下述方法来实现：

将M个潜力主播中的任意一个潜力主播作为第一潜力主播；

如果是，则将上述潜力主播与所述第一潜力主播分为一组。

具体来说，预设条件即为设置相似度阈值，例如将相似度阈值设置为0.8、0.5等，如果相似度达到相似度阈值，即满足预设条件。

为了进一步提高展示的效果，作为一种可选方式，在基于所述相似度，对所述M个潜力主播进行分组之后，本实施例中的方法还包括：

对分组后的结果进行合并去重处理。

具体来说，在根据相似度进行潜力主播的的分组后，每个分组中可能会包含相同的潜力主播，例如潜力主播A可以在多个分组中，这样一方面会造成资源浪费，里另一方面不利于向客户端展示，因而本实施方式中进一步对分组后的结果进行合并去重处理，在具体的实施过程中，可以通过下述方法来实现：

S1：按照每一个分组中主播的数量从多到少进行排序，得到第一结果；

S2：计算每一个分组与其他分组的重合度，其中，重合度的计算方法是：

其中：c(g_i,g_j)是组i和组j之间的重合度，

g_i(r)是组i中包含的潜力主播数量集合，

|g_i(r)∩g_j(r)|是组i和组j共同的潜力主播数量，

|g_i(r)∪g_j(r)|是组i和组j直播间并集的数量。

S3：设定重合度合并阈值，并按照重合度与重合度合并阈值之间的关系，依次进行各个分组的合并，从而完成合并去重操作。

具体来说，如果组i中包含主播A、B、C和F，组j包含主播A、B和C，重合度合并阈值为0.5，则首先按照分组中主播的数量从多到少进排序，可以得到组i和组j，然后计算两个组的重合度，为0.75大于0.5，则将组i和组j进行合并且去重，可以得到新的组k＝{A，B，C，F}，并删除组i和组j。

作为一种可选实施方式，还可以对每个分组中的潜力主播数量设置上限，如果某个分组中潜力主播数量达到上限值，则可以单独分为一组，此外，还可以设置其他合并规则，例如如果某一个分组已经进行过合并，则后续不再考虑，将其从候选分组中移除。

基于同一发明构思，本申请还提供了与实施例一种与潜力主播的展示方法的测试方法对应的装置，详见实施例二。

实施例二

本实施例提供一种潜力主播的展示装置，如图2所示，该装置包括：

第一获取模块，用于获取每个潜力主播对应的弹幕文本；

作为本实施例的一种可选实施方式，在本实施例提供的装置中，所述第一构建模块还用于：

根据运营提供的主播数据和/或

根据主播的运营能力和/或

根据主播的粉丝级别，构建潜力主播集合。

作为本实施例的一种可选实施方式，在本实施例提供的装置中，所述第二构建模块还用于：

作为本实施例的一种可选实施方式，在本实施例提供的装置中，获得所述潜力主播相对于第一标签的标签向量具体为：

作为本实施例的一种可选实施方式，在本实施例提供的装置中，所述第二获取模块还用于：

计算每两个潜力主播的N维标签向量之间的余弦距离；

以所述余弦距离作为潜力主播与其他潜力主播的相似度。

如果是，则将上述潜力主播与所述第一潜力主播分为一组。

作为本实施例的一种可选实施方式，在本实施例提供的装置还包括合并去重模块，用于在基于所述相似度，对所述M个潜力主播进行分组之后：

对分组后的结果进行合并去重处理。

由于本发明实施例二所介绍的装置，为实施本发明实施例一的潜力主播的展示方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

基于同一发明构思，本申请还提供了与实施例一种与潜力主播的展示方法对应的计算机可读存储介质，详见实施例三。

实施例三

请参见图3，本申请还提供了一种计算机可读存储介质300，其上存储有计算机程序311，该程序被处理器执行时实现实施一中的方法。

具体来说，上述程序被配置为可以执行下述步骤：

获取每个潜力主播对应的弹幕文本；

由于本发明实施例三所介绍的计算机可读存储介质，为实施本发明实施例一的潜力主播的展示方法所采用的计算机可读存储介质，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

基于同一发明构思，本申请还提供了与实施例一种与潜力主播的展示方法对应的一种计算机设备，详见实施例四。

实施例四

本申请还提供了一种计算机设备，请参见图4，包括存储401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403，所述处理器402执行所述程序时实现实施一中的方法。

具体来说，上述处理器被配置为可以执行下述步骤：

获取每个潜力主播对应的弹幕文本；

由于本发明实施例四所介绍的计算机设备，为实施本发明实施例一的潜力主播的展示方法所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机设备及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机设备都属于本发明所欲保护的范围

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种潜力主播的展示方法，其特征在于，包括：

获取每个潜力主播对应的弹幕文本；

2.如权利要求1所述的方法，其特征在于，所述构建潜力主播集合的方式为：

根据运营提供的主播数据和/或

根据主播的运营能力和/或

根据主播的粉丝级别，构建潜力主播集合。

3.如权利要求1所述的方法，其特征在于，所述预设标签包括第一标签，所述根据所述每个潜力主播对应的弹幕文本与预设标签的关联，构建所述每个潜力主播的N维标签向量，包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述第一关联词集合中的关联词语的出现次数与所述关联词集合中所有关联词语出现总次数的比例以及弹幕文本中包含所述关联词集合中任意一个关联词语的主播数量与主播总数量的比例，获得所述潜力主播相对于第一标签的标签向量，具体为：

5.如权利要求1所述的方法，其特征在于，所述根据所述每个潜力主播的N维标签向量，获取每个潜力主播与所述潜力主播集合中其他潜力主播的相似度，包括：

计算每两个潜力主播的N维标签向量之间的余弦距离；

以所述余弦距离作为潜力主播与其他潜力主播的相似度。

6.如权利要求1所述的方法，其特征在于，所述基于所述相似度，对所述M个潜力主播进行分组，包括：

如果是，则将上述潜力主播与所述第一潜力主播分为一组。

7.如权利要求1所述的方法，其特征在于，在基于所述相似度，对所述M个潜力主播进行分组之后，所述方法还包括：

对分组后的结果进行合并去重处理。

8.一种潜力主播的展示装置，其特征在于，包括：

第一获取模块，用于获取每个潜力主播对应的弹幕文本；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被执行时实现如下步骤：

获取每个潜力主播对应的弹幕文本；

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

获取每个潜力主播对应的弹幕文本；