CN109151593A

CN109151593A - 主播推荐方法、装置存储介质

Info

Publication number: CN109151593A
Application number: CN201811157295.8A
Authority: CN
Inventors: 陈盛福
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2019-01-04
Anticipated expiration: 2038-09-30
Also published as: CN109151593B

Abstract

本发明公开了一种主播推荐方法、装置及存储介质，属于直播技术领域。在本发明中，获取目标主播在直播过程中发起的直播视频，根据直播视频，对目标主播的当前行为进行识别，得到行为识别结果，根据行为识别结果，对目标主播进行推荐。也即是，在本发明中，通过目标主播的不同行为对目标主播进行推荐，而不是根据主播的直播类型进行推荐，提高了对主播进行推荐的灵活性，从而提高了目标主播的曝光率，并增加了目标主播的关注度。

Description

主播推荐方法、装置存储介质

技术领域

本发明涉及直播技术领域，特别涉及一种主播推荐方法、装置及存储介质。

背景技术

直播作为一种大众化的娱乐方式已经逐渐步入人们的生活中，目前，为了吸引更多的观众观看各个主播的直播视频，通常在观众端的直播界面上对各个主播进行推荐，以提高各个主播的曝光率，从而增加各个主播的关注度。

相关技术中，每个主播设置有一个直播类型，该直播类型可以为唱歌、舞蹈或读书等。在观众端的直播界面上每个直播类型会有一个推荐列表，每个推荐列表包括直播服务器推荐的多个主播中每个主播的标识。

由于相关技术依据设置的直播类型进行主播推荐，在主播的直播类型设置之后，仅在直播界面上与设置的直播类型对应的推荐列表中才可能出现该主播的标识，导致推荐方式灵活性不高，使得主播的曝光率低。

发明内容

本发明提供了一种主播推荐方法、装置及存储介质，可以提高对主播进行推荐的灵活性。所述技术方案如下：

第一方面，提供了一种主播推荐方法，所述方法包括：

获取目标主播在直播过程中发起的直播视频；

根据所述直播视频，对所述目标主播的当前行为进行识别，得到行为识别结果；

根据所述行为识别结果，对所述目标主播进行推荐。

可选地，所述根据所述直播视频，对所述目标主播的当前行为进行识别，得到行为识别结果，包括：

根据所述直播视频，确定图像序列和音频序列，所述图像序列包括多帧图像，所述音频序列包括多帧音频；

确定所述图像序列中每帧图像的特征图，得到多个特征图，并确定所述音频序列中每帧音频的特征音频，得到多个特征音频；

通过行为识别模型对所述多个特征图和多个特征音频进行处理，得到所述行为识别结果，所述行为识别模型用于对所述目标主播的当前行为进行识别。

可选地，所述方法还包括：

获取多个训练视频，每个训练视频对应一个行为类型；

对于所述多个训练视频中的每个训练视频，确定每个训练视频的图像序列和音频序列，并根据每个训练视频的图像序列和音频序列，确定与每个训练视频对应的多个特征图和多个特征音频；

根据与所述多个训练视频中每个训练视频对应的多个特征图和多个特征音频、以及每个训练视频对应的行为类型，确定所述行为识别模型。

可选地，所述根据与所述多个训练视频中每个训练视频对应的多个特征图和多个特征音频、以及每个训练视频对应的行为类型，确定所述行为识别模型，包括：

通过与所述多个训练视频中每个训练视频对应的多个特征图和多个特征音频、以及每个训练视频对应的行为类型，对初始化的模型进行训练，得到训练之后的模型；

获取多个测试视频，每个测试视频对应一个行为类型；

根据所述多个测试视频，确定所述训练之后的模型的识别精度；

当所述训练之后的模型的识别精度达到精度阈值时，将所述训练之后的模型作为所述行为识别模型。

可选地，所述根据所述多个测试视频，确定所述训练之后的模型的识别精度之后，还包括：

当所述训练之后的模型的识别精度没有达到所述精度阈值时，将所述训练之后的模型确定为所述初始化的模型，并返回执行所述获取多个训练视频的步骤，直至重新训练之后的模型的识别精度达到所述精度阈值，并将所述重新训练之后的模型作为所述行为识别模型。

可选地，所述行为识别结果包括所述目标主播的当前行为属于多个行为类型中每个行为类型的概率；

所述根据所述行为识别结果，对所述目标主播进行推荐，包括：

根据所述目标主播的当前行为属于多个行为类型中每个行为类型的概率，确定所述目标主播在所述多个行为类型中每个行为类型上的推荐分数；

根据所述目标主播在所述多个行为类型中每个行为类型上的推荐分数，确定所述目标主播在多个推荐列表中每个推荐列表中的排序，每个推荐列表对应一个行为类型，且每个推荐列表包括多个主播。

可选地，所述行为识别结果包括所述目标主播的当前行为对应的目标行为类型；

根据所述目标主播的直播等级，确定所述目标主播的推荐分数；

根据所述目标主播的推荐分数，确定所述目标主播在目标推荐列表中的排序，所述目标推荐列表对应所述目标行为类型，且所述目标推荐列表包括多个主播。

第二方面，提供了一种主播推荐装置，所述装置包括：

第一获取模块，用于获取目标主播在直播过程中发起的直播视频；

识别模块，用于根据所述直播视频，对所述目标主播的当前行为进行识别，得到行为识别结果；

推荐模块，用于根据所述行为识别结果，对所述目标主播进行推荐。

可选地，所述识别模块用于：

可选地，所述装置还包括：

第二获取模块，用于获取多个训练视频，每个训练视频对应一个行为类型；

第一确定模块，用于对于所述多个训练视频中的每个训练视频，确定每个训练视频的图像序列和音频序列，并根据每个训练视频的图像序列和音频序列，确定与每个训练视频对应的多个特征图和多个特征音频；

第二确定模块，用于根据与所述多个训练视频中每个训练视频对应的多个特征图和多个特征音频、以及每个训练视频对应的行为类型，确定所述行为识别模型。

可选地，所述第二确定模块包括：

训练单元，用于通过与所述多个训练视频中每个训练视频对应的多个特征图和多个特征音频、以及每个训练视频对应的行为类型，对初始化的模型进行训练，得到训练之后的模型；

获取单元，用于获取多个测试视频，每个测试视频对应一个行为类型；

第三确定单元，用于根据所述多个测试视频，确定所述训练之后的模型的识别精度；

第四确定单元，用于当所述训练之后的模型的识别精度达到精度阈值时，将所述训练之后的模型作为所述行为识别模型。

可选地，所述第二确定模块还包括：

第五确定单元，用于当所述训练之后的模型的识别精度没有达到所述精度阈值时，将所述训练之后的模型确定为所述初始化的模型，并返回执行所述获取多个训练视频的步骤，直至重新训练之后的模型的识别精度达到所述精度阈值，并将所述重新训练之后的模型作为所述行为识别模型。

所述推荐模块包括：

第六确定单元，用于根据所述目标主播的当前行为属于多个行为类型中每个行为类型的概率，确定所述目标主播在所述多个行为类型中每个行为类型上的推荐分数；

第七确定单元，用于根据所述目标主播在所述多个行为类型中每个行为类型上的推荐分数，确定所述目标主播在多个推荐列表中每个推荐列表中的排序，每个推荐列表对应一个行为类型，且每个推荐列表包括多个主播。

所述推荐模块包括：

第八确定单元，用于根据所述目标主播的直播等级，确定所述目标主播的推荐分数；

第九确定单元，用于根据所述目标主播的推荐分数，确定所述目标主播在目标推荐列表中的排序，所述目标推荐列表对应所述目标行为类型，且所述目标推荐列表包括多个主播。

第三方面，主播推荐装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行上述第一方面的任一项方法的步骤。

第四方面，一种计算机可读存储介质,计算机可读存储介质上存储有指令，指令被处理器执行时实现上述第一方面的任一项方法的步骤。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面的任一方法的步骤。

本发明实施例提供的技术方案带来的有益效果是：

在本发明中，获取目标主播在直播过程中发起的直播视频，根据直播视频，对目标主播的当前行为进行识别，得到行为识别结果，根据行为识别结果，对目标主播进行推荐。也即是，在本发明中，通过目标主播的不同行为对目标主播进行推荐，而不是根据主播的直播类型进行推荐，提高了对主播进行推荐的灵活性，从而提高了目标主播的曝光率，并增加了目标主播的关注度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种直播系统示意图；

图2是本发明实施例提供的一种主播推荐方法流程图；

图3是本发明实施例提供的一种直播界面的示意图；

图4是本发明实施例提供的一种主播推荐装置的结构示意图；

图5是本发明实施例提供的另一种主播推荐装置的结构示意图；

图6是本发明实施例提供的一种第二确定模块的结构示意图；

图7是本发明实施例提供的另一种第二确定模块的结构示意图；

图8是本发明实施例提供的一种终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种直播系统示意图，如图1所示，该系统100包括直播服务器110、观众端120和主播端130，观众端120和服务器110之间通过有线或无线方式连接以进行通信，主播端130和直播服务器110之间也通过有线或无线方式连接以进行通信。

在目标主播进行直播的过程中，主播端130采集直播视频，并将采集的直播视频发送到直播服务器110，直播服务器110将采集的直播视频发送到主播端110所在的直播间内的任一观众端120，观众端120显示采集的直播视频，以实现在主播端所在的直播间内播放直播视频。

其中，直播服务器中110中存储有行为识别模型，当直播服务器110获取主播端130采集的直播视频后，直接根据行为识别模型识别目标主播的当前行为，并根据目标主播的当前行为对目标主播进行推荐。其中，根据行为识别模型识别目标主播的当前行为，并根据目标主播的当前行为对目标主播进行推荐的实现方式将在下述实施例中说明，在此先不展开说明。

另外，行为识别模型可以是直播服务器110提前确定并存储的，也可以是第三方服务器确定的，然后第三方服务器将确定的行为识别模型发送到直播服务器110，直播服务器110存储行为识别模型。

其中，观众端120和主播端130可以为诸如手机、平板电脑、计算机之类的设备，本发明实施例对此不做限定。

图2是本发明实施例提供的一种主播推荐方法流程图，应用于图1所示的直播系统，如图2所示，该方法包括如下步骤：

步骤201：获取目标主播在直播过程中发起的直播视频。

其中，在目标主播进行直播的过程中，主播端将实时采集视频流，并将实时采集的视频流推流给直播服务器，由直播服务器将主播端实时采集的视频流推流给直播间内的各个观众端，因此，在目标主播进行直播的过程中，直播服务器已经存储有主播端实时采集的视频流。此时，步骤201的实现方式可以为：从存储的主播端实时采集的视频流中获取距离当前时间最近的一部分视频作为目标主播在直播过程中发起的直播视频，以便于后续根据获取的直播视频确定目标主播的当前行为。

具体地，在目标主播进行直播的过程中，直播服务器可以按照一定的周期从主播端实时采集的视频流中获取距离当前时间最近的固定时长的直播视频。例如，直播服务器按照1分钟的周期采集15秒的直播视频，也即是，直播服务器每隔1分钟，从存储的主播端采集的视频流中获取时长为15秒的一段视频，获取的视频的结束时间与当前时间之间的差值小于第一参考数值，并将获取的视频作为目标主播当前时间在直播过程中发起的直播视频。

另外，上述实现方式是基于由直播服务器来确定目标主播在直播过程中发起的直播视频进行说明的，具体应用时，也可以由其他的第三方服务器来执行本发明实施例提供的主播推荐方法，此时，第三方服务器可以按照上述实现方式从直播服务器中获取目标主播在直播过程中发起的直播视频，在此不再展开说明。

步骤202：根据直播视频，对目标主播的当前行为进行识别，得到行为识别结果。

其中，在一种可能的实现方式中，根据直播视频，对目标主播的当前行为进行识别，得到行为识别结果具体可以为：根据直播视频，确定图像序列和音频序列，图像序列包括多帧图像，音频序列包括多帧音频。确定图像序列中每帧图像的特征图，得到多个特征图，并确定音频序列中每帧音频的特征音频，得到多个特征音频。通过行为识别模型对多个特征图和多个特征音频进行处理，得到行为识别结果，行为识别模型用于对所述目标主播的当前行为进行识别。

其中，根据直播视频，确定图像序列和音频序列的实施方式可以为：由于视频是由多帧图像和多帧音频构成的，并且视频是按照固定的帧率播放图像和音频的，帧率是指一秒内有多少帧图像或多少帧音频进行播放，因此将获取的直播视频按照一定的周期提取图像和音频，便可以得到图像序列和音频序列。

例如，获取15秒的直播视频，该直播视频是按照每秒30帧图像和30帧音频播放的，此时按照200毫秒的周期提取直播视频中的图像和音频，由于每一秒的直播视频可以提取5帧图像和音频，则获取的15秒的直播视频提取出75帧图像和75帧音频，这75帧图像便构成一个图像序列，75帧音频构成一个音频序列。

另外，确定图像序列中每帧图像的特征图，得到多个特征图的实施方式可以为：将图像序列中任一帧图像输入到第一深度学习模型中，其中第一深度学习模型包括卷积层和池化层。该帧图像经过卷积层和池化层的处理之后，便得到该帧图像对应的一个特征图，以此类推，将图像序列中的每帧图像都输入到第一深度学习模型中，便得到多个特征图。

另外，确定音频序列中每帧音频的特征音频，得到多个特征音频的实施方式可以为：将音频序列任一帧音频输入到第二深度学习模型中，其中第二深度学习模型包括卷积层和池化层。该帧音频经过卷积层和池化层的处理之后，便得到该帧音频对应的一个特征音频，以此类推，将音频序列中的每帧音频都输入到第二深度学习模型中，便得到多个特征音频。

其中，第一深度学习模型和第二深度学习模型可以采用ResNet(ResidualNetworks，残差网络)模型，也可以采用其他模型，本发明实施例在此不做限定。

另外，由于行为识别模型用于对目标主播的当前行为进行识别，而多个特征图和多个特征音频可以表征目标主播的当前行为，因此当将多个特征图和多个特征音频输入至行为识别模型之后，行为识别模型就可以输出针对目标主播的当前行为的行为识别结果。

其中，行为识别模型是预先通过机器学习得到，具体地，确定行为识别模型的一种可能实现方式为：获取多个训练视频，每个训练视频对应一个行为类型。对于多个训练视频中的每个训练视频，确定每个训练视频的图像序列和音频序列，并根据每个训练视频的图像序列和音频序列，确定与每个训练视频对应的多个特征图和多个特征音频。根据与多个训练视频中每个训练视频对应的多个特征图和多个特征音频、以及每个训练视频对应的行为类型，确定行为识别模型。

其中，获取多个训练视频的实现方式可以为：直播服务器从预先存储的多个视频中获取多个时长为指定时长的训练视频。在此不再展开说明。

另外，每个训练视频对应一个行为类型，其中，确定每个训练视频对应的行为类型的实现方式可以有以下两种：(1)由管理人员确定每个训练视频的行为类型，然后将每个训练视频的行为类型存储至直播服务器中。(2)对多个训练视频中的一部分训练视频采用方式(1)确定对应的行为类型，然后基于这部分训练视频和每个训练视频对应的行为类型训练一个学习模型，通过该学习模型确定多个训练视频中剩下一部分训练视频中每个训练视频的行为类型。由于该学习模型的准确度不高，因此，需要管理人员对该学习模型确定出的行为类型进行检查并修正。

其中，在本发明实施例中，为了提高存储数据的效率，可以为每个行为类型设置一个标注，如此在存储训练视频对应的行为类型时，仅需存储行为类型对应的标注即可。表1是本发明实施例提供的一种行为类型与标注之间的对应关系，如表1所示，可以将行为类型“跳舞”对应的标注设置为0，将行为类型“唱歌”对应的标注设置为1，行为类型“乐器演奏”对应的标注设置为2，行为类型“说唱”对应的标注设置为3，行为类型“其他”对应的标注设置为4。

表1

行为类型	标注
		跳舞	0
唱歌	1
		乐器演奏	2
说唱	3
		其他	4

另外，对于多个训练视频中的每个训练视频，确定每个训练视频的图像序列和音频序列的实现方式可以参照根据直播视频，确定图像序列和音频序列的实现方式，在此不再赘述。

另外，根据每个训练视频的图像序列和音频序列，确定与每个训练视频对应的多个特征图和多个特征音频的实现方式可以参照确定图像序列中每帧图像的特征图，得到多个特征图和确定音频序列中每帧音频的特征音频，得到多个特征音频的实现方式，在此不再赘述。

另外，根据与多个训练视频中每个训练视频对应的多个特征图和多个特征音频、以及每个训练视频对应的行为类型，确定行为识别模型具体可以为：通过与多个训练视频中每个训练视频对应的多个特征图和多个特征音频、以及每个训练视频对应的行为类型，对初始化的模型进行训练，得到训练之后的模型。获取多个测试视频，每个测试视频对应一个行为类型。根据多个测试视频，确定训练之后的模型的识别精度。当训练之后的模型的识别精度达到精度阈值时，将训练之后的模型作为行为识别模型。

其中，初始化的模型可以为LSTM(Long Short-Term Memory，长短期记忆)模型，也可以为3D-CNN(3Dimension-Convolutional Neural Network，3D卷积神经网络)模型，还可以为其他深度学习模型，本发明实施例在此不做限定。

另外，通过与多个训练视频中每个训练视频对应的多个特征图和多个特征音频、以及每个训练视频对应的行为类型，对初始化的模型进行训练，得到训练之后的模型的实现方式可以为：将多个训练视频中每个训练视频对应的多个特征图和多个特征音频、以及每个训练视频对应的行为类型输入到初始化模型中，初始化模型便会确定特征图和特征音频与行为类型之间的对应关系，确定对应关系之后的初始化模型便是训练之后的模型。

另外，获取多个测试视频的实现方式可以参照获取多个训练视频的实现方式，在此不再赘述。每个测试视频对应的行为类型也可以通过确定每个训练视频对应的行为类型的实现方式来确定。

另外，在一种可能的实现方式中，根据多个测试视频，确定训练之后的模型的识别精度具体可以为：对于多个测试视频中任一测试视频，确定该测试视频的图像序列和音频序列，根据该测试视频的图像序列和音频序列确定该测试视频对应的多个特征图像和多个特征音频，将该测试视频的多个特征图像和多个特征音频输入到训练之后的模型中，训练之后的模型将输出一个行为类型或与多个行为类型一一对应的多个概率，根据输出的行为类型或多个行为类型一一对应的多个概率确定一个行为类型，将确定出的行为类型和该测试视频对应的行为类型进行比较，若两者一致，则将测试准确数目加1。当对多个测试视频均执行上述操作之后，将最终的测试准确数目和多个测试视频的数目之间的比例作为训练之后的模型的识别精度。

例如，向训练之后的模型中输入100个测试视频，根据训练之后的模型的输出结果确定每个测试视频的行为类型，结果表明有98个测试视频通过训练之后的模型确定出的行为类型与开始设置的行为类型一致，则训练之后的行为类型的识别精度为98％。

其中，确定多个测试视频中每个测试视频的图像序列和音频序列的实现方式可以参照对于多个训练视频中的每个训练视频，确定每个训练视频的图像序列和音频序列的实现方式。根据每个测试视频的图像序列和音频序列确定每个测试视频对应的多个特征图像和多个特征音频的实现方式也可以参照根据每个训练视频的图像序列和音频序列，确定与每个训练视频对应的多个特征图和多个特征音频的实现方式，在此不再赘述。

另外，需要判断训练之后的模型的识别精度是否达到精度阈值，以此决定是否将训练之后的模型作为行为识别模型。当训练之后的模型的识别精度达到精度阈值时，将训练之后的模型作为行为识别模型。当训练之后的模型的识别精度没有达到精度阈值时，将训练之后的模型确定为初始化的模型，并返回执行获取多个训练视频的步骤，直至重新训练之后的模型的识别精度达到精度阈值，并将重新训练之后的模型作为行为识别模型。

例如，精度阈值为90％，训练之后的模型的识别精度为92％，说明训练之后的模型的识别精度已经达到精度阈值，可以将训练之后的模型作为识别模型，如果训练之后的模型的识别精度为85％，说明训练之后的模型的识别精度没有达到精度阈值，这时可以将识别精度为85％的训练之后的模型作为初始化模型，重新获取多个训练视频，然后获取多个训练视频中每个训练视频的多个特征图像和多个特征音频，用获取的每个训练视频的多个特征图像和多个特征音频训练这个识别精度为85％的初始化的模型，这样循环训练，最终使得这个识别精度为85％的初始化的模型的识别精度达到90％以上，则可以将识别精度达到90％以上的训练之后的模型作为行为识别模型。

其中，重新训练的过程中，采用的多个训练视频可以是第一次训练时采用的多个训练视频，也可以重新获取的多个训练视频。

步骤203：根据行为识别结果，对目标主播进行推荐。

由于行为识别模型的输出结果可以为目标主播的当前行为属于多个行为类型中每个行为类型的概率，也可以为目标主播的当前行为对应的目标行为类型，因此，行为识别结果可以为目标主播的当前行为属于多个行为类型中每个行为类型的概率，还可以为目标主播的当前行为对应的目标行为类型。

基于上述的行为识别结果包括不同的内容，根据行为识别结果，对目标主播进行推荐可以有以下两种实现方式：

(1)应用于行为识别结果为目标主播的当前行为属于多个行为类型中每个行为类型的概率场景中。

步骤203具体可以为：根据目标主播的当前行为属于多个行为类型中每个行为类型的概率，确定目标主播在多个行为类型中每个行为类型上的推荐分数。根据目标主播在多个行为类型中每个行为类型上的推荐分数，确定目标主播在多个推荐列表中每个推荐列表中的排序，每个推荐列表对应一个行为类型，且每个推荐列表包括多个主播。

其中，在一种可能的实现方式中，根据目标主播的当前行为属于多个行为类型中每个行为类型的概率，确定目标主播在多个行为类型中每个行为类型上的推荐分数可以为：直接将目标主播的当前行为属于多个行为类型中每个行为类型的概率作为目标主播在多个行为类型中每个行为类型上的推荐分数。

例如，目标主播的当前行为属于多个行为类型中唱歌这个行为类型的概率为20％、跳舞这个行为类型的概率为10％、说唱这个行为类型的概率为40％、乐器演奏这个行为类型的概率为15％、进行其他表演的行为类型的概率为15％，则可以将目标主播在唱歌这个行为类型上的推荐分数确定为20％，将目标主播在跳舞这个行为类型的推荐分数确定为10％，将目标主播在说唱这个行为类型的推荐分数确定为40％，将目标主播在乐器演奏这个行为类型的推荐分数确定为15％，将目标主播在其他表演这个行为类型的推荐分数确定为15％。

在另一种可能的实现方式中，根据目标主播的当前行为属于多个行为类型中每个行为类型的概率，确定目标主播在多个行为类型中每个行为类型上的推荐分数还可以为：提前设置一个概率与推荐分数的对应关系，确定目标主播的当前行为属于多个行为类型中每个行为类型的概率之后，从概率与推荐分数的对应关系中便可以查找到多个行为类型中每个行为类型的概率对应的推荐分数。

例如，表2是本发明实施例提供的一种概率与推荐分数之间的对应关系，如表2所示，概率为1％时，设置对应的推荐分数为2，概率为2％时，设置对应的推荐分数为4，概率为3％时，设置对应的推荐分数为6，以此类推，概率为100％时，设置对应的推荐分数为200。当确定目标主播属于多个行为类型中唱歌这个行为类型的概率为3％，可以从表2中查找到目标主播在唱歌这个行为类型上的推荐分数为6。

表2

概率	推荐分数
		1％	2
2％	4
		3％	6
...	…
		100％	200

另外，根据目标主播在多个行为类型中每个行为类型上的推荐分数，确定目标主播在多个推荐列表中每个推荐列表中的排序的实施方式可以为：观众端的直播界面上每个行为类型会对应一个推荐列表，对于任一行为类型对应的推荐列表，该推荐列表中包括多个主播，该推荐列表中各个主播的排序可以按照各个主播在该推荐列表对应的行为类型上的推荐分数来确定。当某个主播某个行为类型中的推荐分数越高，在该推荐列表中的排序越靠前，当某个主播某个行为类型中的推荐分数越低，在该推荐列表中的排序越靠后。

例如，主播的行为类型可以是唱歌、跳舞、乐器演奏、说唱和其他，有5个主播，分别标记为主播1、主播2、主播3、主播4和主播5。每个主播在每个行为类型上的分数可以是表3所示，其中，表3中的分数代表推荐分数，类型代表行为类型。其中，以主播1为例，主播1在唱歌这个行为的推荐分数是20，在跳舞这个行为类型上的推荐分数10，在乐器演奏这个行为类型上的推荐分数是40，在说唱这个行为类型上的推荐分数是20，在其他这个行为类型上的推荐分数是10，主播2、主播3、主播4和主播5在多个行为类型中每个行为与该行为类型对应的推荐分数的关系参照主播1的每个行为类型与该行为类型对应的推荐分数的关系。

图3是本发明实施例提供的一种直播界面示意图，如图3所示，该直播界面中针对每个行为类型设置有一个推荐列表，当按照上述方式确定出主播1至主播5中每个主播在各个行为类型上的推荐分数为表3所示的推荐分数时，可以将直播界面中各个推荐列表中的5个主播的排序显示为图3所示的排序。如图3所示，在唱歌这个行为类型中，按照主播1、主播2、主播3、主播4和主播5各自的推荐分数，在唱歌这个行为类型对应推荐列表中各个主播的排序为：主播3、主播2、主播4、主播1、主播5。在跳舞这个行为类型中，按照主播1、主播2、主播3、主播4和主播5各自的推荐分数，则在跳舞这个行为类型对应的推荐列表中各个主播的排序为：主播5、主播4、主播2、主播1、主播3。对于乐器演奏这个行类型、说唱这个行为类型和其他这个行为类型，都按照每个主播在每个行为上的推荐分数的高低在每个行为对应的推荐列表中排序。

表3

另外，对目标主播的推荐，可以按照一定周期进行，即按照一定的周期执行上述步骤201至步骤203，由于按照一定的周期进行，目标主播在各个推荐列表中的位置也会发生变化，以实现对推荐列表的及时更新，增加推荐列表中的主播的曝光度，也提高了主播推荐的灵活性。其中周期可以为1分钟，也可以为2分钟，还可以为其他时间，本发明实施例在此不做限定。

(2)应用于行为识别结果为目标主播的当前行为对应的目标行为类型场景中。

步骤203具体可以为：根据目标主播的直播等级，确定目标主播的推荐分数，根据目标主播的推荐分数，确定目标主播在目标推荐列表中的排序，目标推荐列表对应目标行为类型，且目标推荐列表包括多个主播。

其中，根据目标主播的直播等级，确定目标主播的推荐分数的实现方式可以为：确定目标主播的直播等级，直播服务器中存储有直播等级与推荐分数的对应关系，当确定目标主播的直播等级之后，可以从直播等级与推荐分数的对应关系中确定目标主播的推荐分数。通常，目标主播的直播等级越高对应的推荐分数越高。

其中，目标主播的直播等级可以按照直播时长来确定，当目标主播的直播时长越长，目标主播的直播等级便越高。由于当目标主播在直播过程中，直播服务器能够一直获取目标主播的直播视频，因此直播服务器可以根据获取的直播视频的数量来确定目标主播直播等级。另外，目标主播的直播等级可以还可以根据其他信息来确定，比如目标主播的粉丝数、目标主播接收到的虚拟物品的数目等等。

例如，有5个主播，分别为主播1、主播2、主播3、主播4和主播5，其中，主播1为目标主播，行为识别结果显示目标主播1是唱歌这个行为类型，将目标主播1推荐到唱歌这个行为类型对应的推荐列表中，其中，唱歌这个行为类型对应的推荐列表中还包括主播2、主播3、主播4和主播5。主播1的直播等级是15，主播2的直播等级是13，主播3的直播等级是20，主播4的直播等级是18，主播5的直播等级是10，则按照直播等级与推荐分数对应关系确定各个主播的推荐分数之后，在唱歌这歌行为类型对应的推荐列表中各个主播的排序为：主播3、主播4、主播1、主播2、主播5。

另外，在场景(2)中对目标主播的推荐，也可以按照一定周期进行，即按照一定的周期执行上述步骤201至步骤203，由于按照一定的周期进行，与目标主播对应的目标推荐列表可能发生变化，且目标主播在目标推荐列表中的位置也会发生变化，以实现对各个推荐列表的及时更新，增加推荐列表中的主播的曝光度，也提高了主播推荐的灵活性。

图4是本发明实施例提供的一种主播推荐装置示意图，如图4所示，装置包括：

第一获取模块401，用于获取目标主播在直播过程中发起的直播视频；

识别模块402，用于根据直播视频，对目标主播的当前行为进行识别，得到行为识别结果；

推荐模块403，用于根据行为识别结果，对目标主播进行推荐。

可选地，识别模块402用于：

根据直播视频，确定图像序列和音频序列，图像序列包括多帧图像，音频序列包括多帧音频；

确定图像序列中每帧图像的特征图，得到多个特征图，并确定音频序列中每帧音频的特征音频，得到多个特征音频；

通过行为识别模型对多个特征图和多个特征音频进行处理，得到行为识别结果，行为识别模型用于对目标主播的当前行为进行识别。

可选地，如图5所示，装置还包括：

第二获取模块404，用于获取多个训练视频，每个训练视频对应一个行为类型；

第一确定模块405，用于对于多个训练视频中的每个训练视频，确定每个训练视频的图像序列和音频序列，并根据每个训练视频的图像序列和音频序列，确定与每个训练视频对应的多个特征图和多个特征音频；

第二确定模块406，用于根据与多个训练视频中每个训练视频对应的多个特征图和多个特征音频、以及每个训练视频对应的行为类型，确定行为识别模型。

可选地，如图6所示，第二确定模块406包括：

训练单元4061，用于通过与多个训练视频中每个训练视频对应的多个特征图和多个特征音频、以及每个训练视频对应的行为类型，对初始化的模型进行训练，得到训练之后的模型；

获取单元4062，用于获取多个测试视频，每个测试视频对应一个行为类型；

第三确定单元4063，用于根据多个测试视频，确定训练之后的模型的识别精度；

第四确定单元4064，用于当训练之后的模型的识别精度达到精度阈值时，将训练之后的模型作为行为识别模型。

可选地，如图7所示，第二确定模块406还包括：

第五确定单元4065，用于当训练之后的模型的识别精度没有达到精度阈值时，将训练之后的模型确定为初始化的模型，并返回执行获取多个训练视频的步骤，直至重新训练之后的模型的识别精度达到精度阈值，并将重新训练之后的模型作为行为识别模型。

可选地，行为识别结果包括目标主播的当前行为属于多个行为类型中每个行为类型的概率；

推荐模块403用于：

根据目标主播的当前行为属于多个行为类型中每个行为类型的概率，确定目标主播在多个行为类型中每个行为类型上的推荐分数；

根据目标主播在多个行为类型中每个行为类型上的推荐分数，确定目标主播在多个推荐列表中每个推荐列表中的排序，每个推荐列表对应一个行为类型，且每个推荐列表包括多个主播。

可选地，行为识别结果包括目标主播的当前行为对应的目标行为类型；

推荐模块403用于：

根据目标主播的直播等级，确定目标主播的推荐分数；

根据目标主播的推荐分数，确定目标主播在目标推荐列表中的排序，目标推荐列表对应目标行为类型，且目标推荐列表包括多个主播。

需要说明的是：上述实施例提供的主播推荐装置在主播推荐时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的主播推荐装置与主播推荐方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本发明一个示例性实施例提供的终端800的结构框图。该终端800可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本发明中方法实施例提供的主播推荐方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本发明实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述图2所示实施例提供的主播推荐方法。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述图2所示实施例提供的主播推荐方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

综上，仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种主播推荐方法，其特征在于，所述方法包括：

获取目标主播在直播过程中发起的直播视频；

根据所述行为识别结果，对所述目标主播进行推荐。

2.如权利要求1所述的方法，其特征在于，所述根据所述直播视频，对所述目标主播的当前行为进行识别，得到行为识别结果，包括：

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

获取多个训练视频，每个训练视频对应一个行为类型；

4.如权利要求3所述的方法，其特征在于，所述根据与所述多个训练视频中每个训练视频对应的多个特征图和多个特征音频、以及每个训练视频对应的行为类型，确定所述行为识别模型，包括：

获取多个测试视频，每个测试视频对应一个行为类型；

5.如权利要求4所述的方法，其特征在于，所述根据所述多个测试视频，确定所述训练之后的模型的识别精度之后，还包括：

6.如权利要求1至5任一所述的方法，其特征在于，所述行为识别结果包括所述目标主播的当前行为属于多个行为类型中每个行为类型的概率；

7.如权利要求1至5任一所述的方法，其特征在于，所述行为识别结果包括所述目标主播的当前行为对应的目标行为类型；

8.一种主播推荐装置，其特征在于，所述装置包括：

9.如权利要求8所述的装置，其特征在于，所述识别模块用于：

10.如权利要求9所述的装置，其特征在于，所述装置还包括：

11.如权利要求10所述的装置，其特征在于，所述第二确定模块包括：

12.如权利要求11所述的装置，其特征在于，所述第二确定模块还包括：

13.如权利要求8至12任一所述的装置，其特征在于，所述行为识别结果包括所述目标主播的当前行为属于多个行为类型中每个行为类型的概率；

所述推荐模块包括：

14.如权利要求8至12任一所述的装置，其特征在于，所述行为识别结果包括所述目标主播的当前行为对应的目标行为类型；

所述推荐模块包括：

15.一种主播推荐装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行权利要求1至权利要求7的任一项方法的步骤。

16.一种计算机可读存储介质，计算机可读存储介质上存储有指令，指令被处理器执行时实现权利要求1至权利要求7的任一项方法的步骤。