CN110619447B

CN110619447B - 一种主播的评价方法、装置、设备和存储介质

Info

Publication number: CN110619447B
Application number: CN201810636798.7A
Authority: CN
Inventors: 张祥; 仇贲
Original assignee: Guangzhou Huya Information Technology Co Ltd
Current assignee: Guangzhou Huya Information Technology Co Ltd
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2023-03-24
Anticipated expiration: 2038-06-20
Also published as: CN110619447A

Abstract

本发明公开了一种主播的评价方法、装置、设备和存储介质。该方法包括：获取训练样本集，其中，所述训练样本集包括：与至少两个主播分别对应的直播表现参数以及主播评价标签，所述直播表现参数包括：推荐前直播表现参数和推荐后直播表现参数；根据所述训练样本集，对机器学习模型进行训练，形成主播评价模型；获取待评价主播的主播表现参数输入至所述主播评价模型，并获取所述主播评价模型的输出结果作为所述待评价主播的主播评价标签。实现了合理的将主播安排在推荐位，根据主播表现情况自动评价主播，避免在不合格主播上浪费推荐资源的效果。

Description

一种主播的评价方法、装置、设备和存储介质

技术领域

本发明实施例涉及人工智能技术，尤其涉及一种主播的评价方法、装置、设备和存储介质。

背景技术

随着互联网技术及智能移动终端设备的发展，各种互联网产品给人们的工作、生活带来了很多便利与娱乐，近年来，各类用于视频直播的直播平台层出不穷，视频直播给人们带来更实时的社交体验。直播平台依靠大量、优秀的主播用户及观众用户而保持竞争优势，为此，直播平台不断地加入新主播用户，而直播平台需要从该些新主播用户中发现潜力大、发展前景好、吸引观众的主播用户。

对于如何发现直播平台上潜力大、发展前景好、吸引观众的新主播用户，并给他们做用户引流是目前亟待解决的问题。目前平台采用的方式是：运营人员将筛选出来的主播送到推荐位上进行轮播，由此给中小主播引流，在多次将主播送上推荐位后，根据结合被推荐主播的各个数据主观评价判定该主播是否需要再次被推荐。但是很多主播在推荐位上的表现并不好，而运营人员的评价有滞后性。这种滞后性会导致对平台资源的占用，以及对用户的引流偏差。

发明内容

本发明实施例提供一种主播的评价方法、装置、设备和存储介质，以实现合理的将主播安排在推荐位，根据主播表现情况自动评价主播，避免在不合格主播上浪费推荐资源。

第一方面，本发明实施例提供了一种主播的评价方法，包括：

获取训练样本集，其中，所述训练样本集包括：与至少两个主播分别对应的直播表现参数以及主播评价标签，所述直播表现参数包括：推荐前直播表现参数和推荐后直播表现参数；

根据所述训练样本集，对机器学习模型进行训练，形成主播评价模型；

获取待评价主播的主播表现参数输入至所述主播评价模型，并获取所述主播评价模型的输出结果作为所述待评价主播的主播评价标签。

第二方面，本发明实施例还提供了一种主播的评价装置，包括：

样本集获取模块，用于获取训练样本集，其中，所述训练样本集包括：与至少两个主播分别对应的直播表现参数以及主播评价标签，所述直播表现参数包括：推荐前直播表现参数和推荐后直播表现参数；

机器学习训练模块，用于根据所述训练样本集，对机器学习模型进行训练，形成主播评价模型；

待评价主播评价模块，用于获取待评价主播的主播表现参数输入至所述主播评价模型，并获取所述主播评价模型的输出结果作为所述待评价主播的主播评价标签。

第三方面，本发明实施例还提供了一种计算机设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例所述的主播评价方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的主播评价方法。

本发明实施例通过获取已有主播在被安排在推荐位前后的直播表现参数变化，并进行打标签构造训练样本集，使用所述样本集训练构建好的主播评价模型，最后使用所述主播评价模型评价待评价主播，解决了使用运营人员评价主播的滞后性，和对主播推荐位的资源浪费的问题，实现了合理的将主播安排在推荐位，根据主播表现情况自动评价主播，避免在不合格主播上浪费推荐资源的目的。达到对有潜力的主播继续推荐到推荐位，而对没有潜力的主播降低甚至取消推荐到推荐位的效果。

附图说明

图1为本发明实施例一提供的一种主播的评价方法的流程图；

图2为本发明实施例二提供的一种主播的评价方法的流程图；

图3为本发明实施例二的方案适用的一种Boosting方法的具体过程的流程图；

图4为本发明实施例三提供的一种主播的评价装置的结构图；

图5为本发明实施例四提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种主播的评价方法的流程图。该方法通过集成学习(ensemble learning)来建立机器学习模型，可适用于判断主播在资源位上的表现好坏的情况。该方法主要通过软件和/或硬件方式实现的主播的评价装置来执行，该装置可集成在能够进行模型训练的电子设备中，例如服务器。

其中，集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务。集成学习可以用于分类问题集成，回归问题集成，特征选取集成，异常点检测集成等等。

其中，提升算法(Boosting)是一种用来提高弱分类算法准确度的方法，这种方法通过构造一个预测函数系列，然后以一定的方式将他们组合成一个预测函数。Boosting是一种框架算法，主要是通过对样本集的操作获得样本子集，然后用弱分类算法在样本子集上训练生成一系列的基分类器。Boosting可以用来提高其他弱分类算法的识别率，也就是将其他的弱分类算法作为基分类算法放于Boosting框架中，通过Boosting框架对训练样本集的操作，得到不同的训练样本子集，用该样本子集去训练生成基分类器；每得到一个样本集就用该基分类算法在该样本集上产生一个基分类器,这样在给定训练轮数n后，就可产生n个基分类器，然后Boosting框架算法将这n个基分类器进行加权融合，产生一个最后的结果分类器，在这n个基分类器中，每个单个的分类器的识别率不一定很高，但他们联合后的结果有很高的识别率，这样便提高了该弱分类算法的识别率。Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1，根据弱学习的学习误差率表现来更新训练样本的权重，使得之前弱学习器1学习误差率高的训练样本点的权重变高，使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2，如此重复进行，直到弱学习器数达到事先指定的数目T，最终将这T个弱学习器通过集合策略进行整合，得到最终的强学习器。其中，GDBT(Gradient Boosting DecisionTree，梯度提升决策树)是一种迭代学习，使用了前向分布算法，使用CART(ClassificationAnd Regression Trees，回归树模型)。CART是使用类似于一棵树的结构来表示类的划分，树的构建可以看成是变量(属性)选择的过程，内部节点表示树选择那几个变量(属性)作为划分，每棵树的叶节点表示为一个类的标号，树的最顶层为根节点。

结合图1，本实施例具体包括如下步骤：

S110、获取训练样本集。

其中，所述训练样本集包括：与至少两个主播分别对应的直播表现参数以及主播评价标签。所述直播表现参数包括：推荐前直播表现参数和推荐后直播表现参数；推荐前直播表现参数至少包括推荐前主播一周的acu(Average concurrent users，平均同时在线人数)；推荐后直播表现参数至少包括推荐后主播一周的acu。其中，主播评价标签包括：好标签和坏标签。

其中，参考表一，表一以训练样本集中五个主播的数据为例对获取训练样本集的过程进行描述：

表一

具体的，主播编号与主播的名称(ID)绑定，形成一一对应的关系，通过统计主播在上推荐位之前的一周acu与主播上完推荐位下一周acu数据，通过比对两个数据，产生增涨量和增涨率数据。可设置主播评价标签的评判方式，如：增长量超过某一预设数值为“好”标签，如编号001和编号003的主播；增长率超过某一比例为“好”标签，如编号001、编号003和编号004的主播；或二者结合均需超过某一数值为“好”标签，如编号001和编号003的主播。

S120、根据所述训练样本集，对机器学习模型进行训练，形成主播评价模型。

具体的，对训练样本集中的训练样本进行编号处理，处理格式如公式所示：

其中，x_i表示第i个样本的特征；y_i表示第i个样本的主播评价标签；m表示一共有的样本特征数。m并不一定等同于训练样本集中的主播数，因为一个主播对应一个标签，但可能有多个特征。结合表一中编号001的主播，如需要同时评价推荐前一周acu和推荐后一周acu的增长量和增长率时，则可能编号001的主播对应于一个主播ID对应两个特征对应于编号001的主播的标签“好”。

S130、获取待评价主播的主播表现参数输入至所述主播评价模型，并获取所述主播评价模型的输出结果作为所述待评价主播的主播评价标签。

其中，待评价主播是符合预设条件的平台注册主播中的部分主播。预设条件可以关于时间，比如可以预设待评价主播要为每日平均在线时长超过某一时间段；预设条件可以关于主播粉丝数，比如是粉丝数在一万至十万的小主播；预设条件可以关于acu，比如主播直播期间的acu为一万左右的小主播、acu为十万左右的中间主播等，预设条件可以关于弹幕量和礼物数。

具体的，通过筛选将部分主播添加到待预测池，在待预测池的主播被称为待评价主播。将待评价主播放置于推荐位，并获取待评价主播推荐前一周的acu与推荐之后的acu数据，将该数据输入到主播评价模型。主播评价模型根据接收到的数据输出主播“好”或者“坏”的评价标签。

可选的，如果所述待评价主播的主播评价标签为好标签，则在预设时间间隔后，对所述待评价主播再次进行推荐。

可选的，根据所述待评价主播的主播评价标签，判断所述待评价主播是否符合继续存在于待预测池的条件，若否，则将所述待评价主播移出所述待预测池；其中，所述待预测池中存储的主播在满足预设条件时，被标记为新的待评价主播。。

具体的，待预测池中的数据可以是有队列排序的，也可以是随即抽取的。当待预测池中的主播有排序时，则按照排序先后将待评价主播数据进行推荐，再采集位于推荐位的主播的直播表现参数。若一个主播在经过主播评价评价后的标签为“好”标签，则判断该主播是否还符合放置于待预测池的条件(即是否符合作为待评价主播的条件)。若符合则调整带有“好”标签的主播在队列中的排序，可根据所述“好”标签适当在基础队列位置的基础上提高主播在队列中的排序。若一个主播在经过主播评价评价后的标签为“坏”标签，则判断该主播是否还符合放置于待预测池的条件(即是否符合作为待评价主播的条件)。若符合则调整带有“坏”标签的主播在队列中的排序，可根据所述“坏”标签适当在基础队列位置的基础上降低主播在队列中的排序。

本实施例通过获取已有主播在被安排在推荐位前后的直播表现参数变化，并进行打标签构造训练样本集。使用所述样本集训练构建好的主播评价模型，最后使用所述主播评价模型评价待评价主播，解决了使用运营人员评价主播的滞后性，和对主播推荐位的资源浪费的问题，实现了合理的将主播安排在推荐位，根据主播表现情况自动评价主播，避免在不合格主播上浪费推荐资源的目的。达到对有潜力的主播继续推荐到推荐位，而对没有潜力的主播降低甚至取消推荐到推荐位的效果。

实施例二

图2为本发明实施例二提供的一种主播的评价方法的流程图。图3为本发明实施例二的方案适用的一种Boosting方法的具体过程的流程图。本实施例是在实施例一的基础上进行的细化，主要描述了机器学习中的弱学习器不断加权迭代，最终合成强学习器作为主播评价模型，并且结合损失函数进行优化。具体的，参考图2和图3，本实施例具体包括如下步骤：

S210、获取训练样本集。

具体的，主播编号与主播的名称(ID)绑定，形成一一对应的关系，通过统计主播在上推荐位之前的一周acu与主播上完推荐位下一周acu数据，通过比对两个数据，产生增涨量和增涨率数据。

S220、将所述训练样本集中的各训练样本均设置为初始权重，并将所述初始权重作为当前权重。

具体的，训练样本集30数学表达式为

x_i表示第i个样本的特征；y_i表示第i个样本的主播评价标签；m表示一共有的样本特征数。训练样本集中的每个样本的初始权重设置为相同的权重，即第1加权模块中存储的权重信息均为相等的权重信息。

S230、使用所述训练样本集训练出一个弱学习器作为当前弱学习器，并获取所述训练样本集中各训练样本针对所述当前弱学习器的学习误差率。

具体的，使用1学习器321学习训练样本集30中的训练样本和各个样本的相同的初始权重，此时的1学习器也叫弱学习器。当1学习器321学习完成后，获取所述训练样本集中各训练样本针对所述当前弱学习器的学习误差率。

S240、将所述训练样本集中学习误差率满足设定阈值条件的训练样本的权重调整为高于或低于所述当前权重的第一权重，并将所述第一权重作为新的当前权重。

其中，满足设定阈值条件是指在第1学习器的基础上，增大错误样本的权重，同时减小正确样本的权重。所述第一权重是针对于每个训练样本而言，即有m个训练样本就有m个权重，这m个权重统称为第一权重。

具体的，当1学习器321学习完成后，获取所述训练样本集中各训练样本针对所述当前弱学习器的学习误差率。增大错误样本的权重，同时减小正确样本的权重，并将修改后的权重信息传递给第2加权模块312，即第2加权模块312中存储了第一权重信息，第一权重信息中的m个加权值不一定相同。

S250、判断训练出的弱学习器的数量是否满足设定数量条件：若是，执行S260；否则返回执行S230。

其中，返回执行使用所述训练样本集训练出一个弱学习器作为当前弱学习器的操作，直至训练出的弱学习器的数量满足设定数量条件。具体的，当2学习器322学习完成后，获取所述训练样本集中各训练样本针对所述当前弱学习器(即第二学习器322)的学习误差率。增大错误样本的权重，同时减小正确样本的权重，并将修改后的权重信息传递给加权模块313，即加权模块313中存储了加权信息。判断训练出的弱学习器的数量是否满足设定数量条件。若达到，则将训练得到的所有弱学习器通过集合策略进行整合，得到强学习器作为所述主播评价模型。若没有达到，则继续使用所述训练样本集训练出一个弱学习器作为当前弱学习器，并获取所述训练样本集中各训练样本针对所述当前弱学习器的学习误差率。

不断重复训练学习器、改变加权值的过程，直到通过第T加权314训练出第T学习器323。

S260、将训练得到的所有弱学习器通过集合策略进行整合，得到强学习器作为所述主播评价模型。

其中，强学习器33是将各个弱学习器进行整合的结果。将训练得到的所有弱学习器通过集合策略进行整合包括：使用对数似然损失函数约束主播推荐模型。即使用类别的预测概率值和真实概率值的差来拟合损失。

具体的，参考图3，在Boosting算法中，学习器之间是存在先后顺序的，同时，每一个样本是有权重的，初始时，每一个样本的权重是相等的(可自行设置)。首先，第1学习器对训练样本进行学习，当学习完成后，增大错误样本的权重，同时减小正确样本的权重，再利用第2学习器对其进行学习，依次进行下去，最终得到T个学习器，最终，合并这T个学习器的结果，得到强学习器f(x)。同时在Boosting算法中，每一个学习器的权重也是不一样的。可选的，所述将训练得到的所有弱学习器通过集合策略进行整合，包括：使用对数似然损失函数约束主播推荐模型；

损失函数为L(y,f(x))＝log(1+exp(-yf(x)))；

其中，y∈{-1，+1}；L(y,f(x))表示样本与标签之间的差异；

则此时的负梯度误差为：

其中，r_ti表示第t轮的第i个样本的损失函数的负梯度；f_t-1(x)表示得到强学习器的迭代轮次为第t-1轮；x_i表示第i个样本的特征；y_i表示第i个样本的主播评价标签。

具体的，输入是训练集样本T＝{(x₁,y₁),(x₂,y₂),……,(x_m,y_m)}，最大迭代次数T,损失函数L，输出的强学习器为f(x)。

首先，初始化弱学习器，

其次，对于迭代轮数t＝1,2,……,T执行以下四个步骤：

第一，对于样本i＝1,2,……,m，计算负梯度

第二，利用(x_i,r_ti)(i＝1,2,……,m)，拟合一颗CART回归树，得到t颗回归树，其对应的叶子节点区域为R_tj，j＝1,2,……,J。其中J为回归树t的叶子节点的个数。

第三，对叶子区域j＝1,2,……,J计算最佳拟合值：

第四，更新强学习器：

其中，x∈R_tj。

最后，得到强学习器f(x)的表达式：

其中，x∈R_tj。

对于二元GBDT，如果用类似于逻辑回归的对数似然损失函数，则损失函数为：L(y,f(x))＝log(1+exp(-yf(x)))，其中，y∈{-1，+1}。则此时的负梯度误差为：

对于生成的决策树，我们各个叶子节点的最佳残差拟合值为：/>

S270、获取待评价主播的主播表现参数输入至所述主播评价模型，并获取所述主播评价模型的输出结果作为所述待评价主播的主播评价标签。

实施例三

图4为本发明实施例三提供的一种主播的评价装置的结构图。该装置包括：样本集获取模块41、机器学习训练模块42和待评价主播评价模块43。

样本集获取模块41，用于获取训练样本集，其中，所述训练样本集包括：与至少两个主播分别对应的直播表现参数以及主播评价标签；

机器学习训练模块42，用于根据所述训练样本集，对机器学习模型进行训练，形成主播评价模型；

待评价主播评价模块43，用于获取待评价主播的主播表现参数输入至所述主播评价模型，并获取所述主播评价模型的输出结果作为所述待评价主播的主播评价标签。

在上述实施例的基础上，所述机器学习训练模块包括：

初始权重设置单元，用于将所述训练样本集中的各训练样本均设置为初始权重，并将所述初始权重作为当前权重；

第一弱学习器单元，用于使用所述训练样本集训练出一个弱学习器作为当前弱学习器，并获取所述训练样本集中各训练样本针对所述当前弱学习器的学习误差率；

权重调整单元，用于将所述训练样本集中学习误差率满足设定阈值条件的训练样本的权重调整为高于或低于所述当前权重的第一权重，并将所述第一权重作为新的当前权重；

弱学习器训练单元，用于返回执行使用所述训练样本集训练出一个弱学习器作为当前弱学习器的操作，直至训练出的弱学习器的数量满足设定数量条件；

强学习器获得单元，用于将训练得到的所有弱学习器通过集合策略进行整合，得到强学习器作为所述主播评价模型。

在上述实施例的基础上，所述样本集获取模块中的直播表现参数包括：

推荐前直播表现参数至少包括：推荐前主播一周的周日均同时在线人数；

推荐后直播表现参数至少包括：推荐后主播一周的周日均同时在线人数。

在上述实施例的基础上，强学习器获得单元还包括：使用对数似然损失函数约束主播推荐模型；

损失函数为L(y,f(x))＝log(1+exp(-yf(x)))；

其中，y∈{-1，+1}；L(y,f(x))表示样本与标签之间的差异；

则此时的负梯度误差为：

在上述实施例的基础上，待评价主播评价模块中的主播评价标签包括：好标签和坏标签。如果所述待评价主播的主播评价标签为好标签，则在预设时间间隔后，对所述待评价主播再次进行推荐。根据所述待评价主播的主播评价标签，判断所述待评价主播是否符合继续存在于待预测池的条件，若否，则将所述待评价主播移出所述待预测池；其中，所述待预测池中存储的主播在满足预设条件时，被标记为新的待评价主播。

本实施例提供的主播的评价装置可用于执行上述任一实施例提供的一种主播的评价方法，具有相应的功能和有益效果。

实施例四

图5为本发明实施例四提供的一种设备的结构示意图。如图5所示，该设备包括处理器50、存储器51、通信模块52、输入装置53和输出装置54；设备中处理器50的数量可以是一个或多个，图5中以一个处理器50为例；设备中的处理器50、存储器51、通信模块52、输入装置53和输出装置54可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本实施例中的一种主播的评价方法对应的模块(例如，一种主播评价装置中的样本集获取模块41、机器学习训练模块42和待评价主播评价模块43)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的一种主播的评价方法。包括：

存储器51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信模块52，用于与显示屏建立连接，并实现与显示屏的数据交互。输入装置53可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。

本实施例提供的一种设备，可执行本发明任一实施例提供的主播的评价方法，具体相应的功能和有益效果。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种主播的评价方法，该方法包括：

获取训练样本集，其中，所述训练样本集包括：与至少两个主播分别对应的直播表现参数以及主播评价标签；

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任一实施例所提供的主播的评价方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述主播的评价装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种主播的评价方法，其特征在于，包括：

获取训练样本集，其中，所述训练样本集包括：与至少两个主播分别对应的直播表现参数以及主播评价标签，所述直播表现参数包括：推荐前直播表现参数和推荐后直播表现参数，所述主播评价标签通过所述推荐前直播表现参数与所述推荐后直播表现参数的比对结果决定；

将所述训练样本集中的各训练样本均设置为初始权重，并将所述初始权重作为当前权重；

使用所述训练样本集训练出一个弱学习器作为当前弱学习器，并获取所述训练样本集中各训练样本针对所述当前弱学习器的学习误差率；

将所述训练样本集中学习误差率满足设定阈值条件的训练样本的权重调整为高于或低于所述当前权重的第一权重，并将所述第一权重作为新的当前权重；其中，所述满足设定阈值条件是指增大错误样本的权重，同时减少正确样本的权重；

返回执行使用所述训练样本集训练出一个弱学习器作为当前弱学习器的操作，直至训练出的弱学习器的数量满足设定数量条件；

使用对数似然损失函数约束主播推荐模型，得到强学习器作为所述主播评价模型，损失函数为L(y，f(x))＝log(1+exp(-yf(x)))；其中，y∈{-1，+1)；L(y,f(x))表示样本与标签之间的差异；则此时的负梯度误差为：

其中，r_ti表示第t轮的第i个样本的损失函数的负梯度；f_t-1(x)表示得到强学习器的迭代轮次为第t-1轮；x_i表示第i个样本的特征；y_i表示第i个样本的主播评价标签；

2.根据权利要求1所述的方法，其特征在于：

所述推荐前直播表现参数至少包括：推荐前主播一周的周日均同时在线人数；

所述推荐后直播表现参数至少包括：推荐后主播一周的周日均同时在线人数。

3.根据权利要求1所述的方法，其特征在于，所述主播评价标签包括：好标签和坏标签。

4.根据权利要求3所述的方法，其特征在于，在获取所述主播评价模型的输出结果作为所述待评价主播的主播评价标签之后，还包括：

如果所述待评价主播的主播评价标签为好标签，则在预设时间间隔后，对所述待评价主播再次进行推荐。

5.根据权利要求3所述的方法，其特征在于，在获取所述主播评价模型的输出结果作为所述待评价主播的主播评价标签之后，还包括：

根据所述待评价主播的主播评价标签，判断所述待评价主播是否符合继续存在于待预测池的条件，若否，则将所述待评价主播移出所述待预测池；

其中，所述待预测池中存储的主播在满足预设条件时，被标记为新的待评价主播。

6.一种主播的评价装置，其特征在于，包括：

样本集获取模块，用于获取训练样本集，其中，所述训练样本集包括：与至少两个主播分别对应的直播表现参数以及主播评价标签，所述直播表现参数包括：推荐前直播表现参数和推荐后直播表现参数，所述主播评价标签通过所述推荐前直播表现参数与所述推荐后直播表现参数的比对结果决定；

机器学习训练模块，用于根据所述训练样本集，对机器学习模型进行训练，形成主播评价模型，包括：

权重调整单元，用于将所述训练样本集中学习误差率满足设定阈值条件的训练样本的权重调整为高于或低于所述当前权重的第一权重，并将所述第一权重作为新的当前权重；其中，所述满足设定阈值条件是指增大错误样本的权重，同时减少正确样本的权重；

强学习器获得单元，用于将训练得到的所有弱学习器通过集合策略进行整合，得到强学习器作为所述主播评价模型；

其中，强学习器获得单元还包括：使用对数似然损失函数约束主播推荐模型；

损失函数为L(y，f(x))＝log(1+exp(-yf(x)))；

其中，y∈{-1，+1}；L(y,f(x))表示样本与标签之间的差异；

则此时的负梯度误差为：

7.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5任一所述的主播的评价方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一所述的主播的评价方法。