CN111447471B

CN111447471B - 模型生成方法、播放控制方法、装置、设备及存储介质

Info

Publication number: CN111447471B
Application number: CN202010223326.6A
Authority: CN
Inventors: 王汉超; 刘丽; 任尔斌
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Singapore Pte Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2022-03-22
Anticipated expiration: 2040-03-26
Also published as: CN111447471A

Abstract

本发明实施例公开了模型生成方法、播放控制方法、装置、设备及存储介质。其中，模型生成方法包括：获取预设用户群体对应的原始样本数据，其中，原始样本数据中包含预设用户群体中的用户在使用预设应用程序播放流媒体文件时对应的相关数据，相关数据包括码率档位和用户行为类数据；根据原始样本数据进行特征筛选，得到训练特征集合；基于训练特征集合和原始样本数据确定训练样本数据，并利用训练样本数据以目标行为指标为标的对预设机器学习模型进行训练，得到包含码率档位的用户满意度模型。本发明实施例提供的技术方案，模型能够更加准确地预估用户主观满意度，为流媒体文件播放控制过程中的码率选档提供更加合理的依据。

Description

模型生成方法、播放控制方法、装置、设备及存储介质

技术领域

本发明实施例涉及视频处理技术领域，尤其涉及模型生成方法、播放控制方法、装置、设备及存储介质。

背景技术

随着无线通讯技术的迅速发展，终端用户可以随时随地通过不同终端访问互联网流媒体资源，为了应对网络状态等因素的实时变化，自适应码率技术应运而生。

目前，现有的自适应码率方案一般参考网络传输质量相关指标，如播放延时和卡顿时长等，构建用于模拟用户主观满意度的模型，又称用户体验(Quality of Experience，QoE)模型，并利用该模型确定当前适合用户的码率档位，如标清、高清、超清及蓝光等，进而控制流媒体的播放，实现码率的自适应调整。然而，现有方案并不完善，需要改进。

发明内容

本发明实施例提供了模型生成方法、装置、设备及存储介质，可以优化现有的流媒体自适应码率方案。

第一方面，本发明实施例提供了一种用户满意度模型生成方法，该方法包括：

获取预设用户群体对应的原始样本数据，其中，所述原始样本数据中包含所述预设用户群体中的用户在使用预设应用程序播放流媒体文件时对应的相关数据，所述相关数据包括码率档位和用户行为类数据；

根据所述原始样本数据进行特征筛选，得到训练特征集合；

基于所述训练特征集合和所述原始样本数据确定训练样本数据，并利用所述训练样本数据以目标行为指标为标的对预设机器学习模型进行训练，得到用户满意度模型，其中，所述用户满意度模型中的参数包括码率档位。

第二方面，本发明实施例提供了一种播放控制方法，该方法包括：

在接收到针对第一流媒体文件的播放请求时，获取多组样本数据，其中，所述样本数据中包含所述第一流媒体文件的候选码率档位，任意两组样本数据中的候选码率档位不同；

对于所述多组样本数据中的每组样本数据，将当前组样本数据输入至用户满意度模型中，得到对应的目标行为指标的取值，其中，所述用户满意度模型采用本发明实施例提供的用户满意度模型生成方法生成；

根据所述取值确定目标码率档位，并基于所述目标码率档位控制所述第一流媒体文件的播放。

第三方面，本发明实施例提供了一种播放控制方法，该方法包括：

在接收到针对第二流媒体文件的播放请求时，获取当前样本数据，其中，所述当前样本数据中包含所述第二流媒体文件的当前码率档位；

将所述当前样本数据输入至用户满意度模型中，得到对应的目标行为指标的取值，其中，所述用户满意度模型采用本发明实施例提供的用户满意度模型生成方法生成；

根据所述取值确定针对所述当前码率档位的调整策略，依据所述调整策略得到目标码率档位，并基于所述目标码率档位控制所述第二流媒体文件的播放。

第四方面，本发明实施例提供了一种用户满意度模型生成装置，该装置包括：

原始样本数据获取模块，用于获取预设用户群体对应的原始样本数据，其中，所述原始样本数据中包含所述预设用户群体中的用户在使用预设应用程序播放流媒体文件时对应的相关数据，所述相关数据包括码率档位和用户行为类数据；

特征筛选模块，用于根据所述原始样本数据进行特征筛选，得到训练特征集合；

训练样本数据确定模块，用于基于所述训练特征集合和所述原始样本数据确定训练样本数据；

模型训练模块，用于利用所述训练样本数据以目标行为指标为标的对预设机器学习模型进行训练，得到用户满意度模型，其中，所述用户满意度模型中的参数包括码率档位。

第五方面，本发明实施例提供了一种播放控制装置，该装置包括：

样本获取模块，用于在接收到针对第一流媒体文件的播放请求时，获取多组样本数据，其中，所述样本数据中包含所述第一流媒体文件的候选码率档位，任意两组样本数据中的候选码率档位不同；

模型输入模块，用于对于所述多组样本数据中的每组样本数据，将当前组样本数据输入至用户满意度模型中，得到对应的目标行为指标的取值，其中，所述用户满意度模型采用本发明实施例提供的用户满意度模型生成方法生成；

目标码率档位确定模块，用于根据所述取值确定目标码率档位；

播放控制模块，用于基于所述目标码率档位控制所述第一流媒体文件的播放。

第六方面，本发明实施例提供了一种播放控制装置，该装置包括：

当前样本获取模块，用于在接收到针对第二流媒体文件的播放请求时，获取当前样本数据，其中，所述当前样本数据中包含所述第二流媒体文件的当前码率档位；

模型输入模块，用于将所述当前样本数据输入至用户满意度模型中，得到对应的目标行为指标的取值，其中，所述用户满意度模型采用本发明实施例提供的用户满意度模型生成方法生成；

目标码率档位确定模块，用于根据所述取值确定针对所述当前码率档位的调整策略，依据所述调整策略得到目标码率档位；

播放控制模块，用于基于所述目标码率档位控制所述第二流媒体文件的播放。

第七方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明实施例提供的方法。

第八方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的方法。

本发明实施例中提供的用户满意度模型生成方案，获取预设用户群体对应的原始样本数据，其中，原始样本数据中包含预设用户群体中的用户在使用预设应用程序播放流媒体文件时对应的相关数据，相关数据包括码率档位和用户行为类数据，根据原始样本数据进行特征筛选，得到训练特征集合，基于训练特征集合和原始样本数据确定训练样本数据，并利用训练样本数据以目标行为指标为标的对预设机器学习模型进行训练，得到用户满意度模型。通过采用上述技术方案，针对预设用户群体筛选出合理的训练特征，并以用户行为指标为标的进行用户满意度模型的训练，充分考虑到了用户体验所带来的行为反馈信息，使训练得到的模型能够更加准确地预估用户主观满意度，为流媒体文件播放控制过程中的码率选档提供更加合理的依据，优化流媒体自适应码率方案。

附图说明

图1为本发明实施例提供的一种用户满意度模型生成方法的流程示意图；

图2为本发明实施例提供的又一种用户满意度模型生成方法的流程示意图；

图3为本发明实施例提供的一种播放控制方法的流程示意图；

图4为本发明实施例提供的另一种播放控制方法的流程示意图；

图5为本发明实施例提供的一种流媒体自适应码率方案的示意图；

图6为本发明实施例提供的一种用户满意度模型生成装置的结构框图；

图7为本发明实施例提供的一种播放控制装置的结构框图；

图8为本发明实施例提供的另一种播放控制装置的结构框图；

图9为本发明实施例提供的一种计算机设备的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

为了便于理解本发明实施例，下面对现有技术进行相关介绍。传统自适应码率方法通过建立QoE的数学模型模拟用户主观满意度，进而选取适当的码率优化用户体验。现有的一种QoE模型为关于视频码率、播放延时、卡顿时长和码率切换频率的复杂函数关系，可表示为：

QoE＝f(Bitrate，T_{initial delay}，T_stallings，ΔBitrate)

采用上述模型的方案可以反应网络环境状态的变化，但是与用户群体无关，因此与用户实际体验存在背离，不能反应用户对于产品或服务的真实主观评价。类似上述QoE公式的方案局限于使用网络技术指标的4维特征，不能充分利用刻画用户偏好和视频内容的大数据特征，因此也不能够准确地评估出用户满意度，对于流媒体码率的调节不能够准确地适应用户的实际需求。

图1为本发明实施例提供的一种用户满意度模型生成方法的流程示意图，该方法可以由用户满意度模型生成装置执行，其中该装置可由软件和/或硬件实现，一般可集成在计算机设备中。如图1所示，该方法包括：

步骤101、获取预设用户群体对应的原始样本数据，其中，所述原始样本数据中包含所述预设用户群体中的用户在使用预设应用程序播放流媒体文件时对应的相关数据，所述相关数据包括码率档位和用户行为类数据。

示例性的，预设用户群体可以根据模型面向的用户的属性进行确定，用户的属性例如可以是国家、地区或性别等，则相应的，预设用户群体例如可包括指定国家的用户群体、指定地区的用户群体以及指定性别的用户群体等等。预设用户群体中包含的用户数量可根据需求设置。预设应用程序可包括具备流媒体文件播放能力的应用程序，例如直播类应用程序、短视频类应用程序以及视频通话类应用程序等。流媒体可包括声音流、视频流、文本流、图像流以及动画流等，为了便于说明，下文中部分内容将以视频流为例进行说明。

示例性的，预设用户群体中的用户在使用预设应用程序播放流媒体文件时，可能获取到各个方面的相关数据，例如码率档位、用户行为类数据、网络传输类数据、程序运行环境类数据和流媒体文件属性类数据等等。在获取到原始样本数据后，还可对其中的部分或全部数据进行统计或其他处理，以便后续进行特征筛选及模型训练。可选的，可以通过作为客户端的预设应用程序进行数据收集，如在用户授权的情况下按照预设采集周期采集原始样本数据，当用户结束播放时，上报到后台服务端的数据库，由数据库按照预设时间单位(如天)进行分区存储。

其中，码率指单位时间内的比特率，用于衡量流媒体的单位时间体积。可以对码率进行划档，每个码率档位可对应一个码率值或一个码率值区间，当对应一个码率值时，相邻两个码率档位对应的码率值可以是连续的，也可以是跳跃的，具体的划档策略可根据实际需求设置。例如，流媒体服务可以为客户端提供几种可选码率档位，如标清、高清、超清和蓝光等，由于流媒体文件转换码率需要计算资源，通常不能选择任意的码率值，可以将原始文件事先转换成若干种档位的转码文件，选档算法再根据具体的选档策略选择合适的码率档位的转码文件提供给客户端。

用户行为类数据可包括用户在使用预设应用程序过程中作用于预设应用程序的操作等反馈行为数据，例如，可包括打开或登录预设应用程序的时间、播放进度、播放时长、是否点赞、是否评论、是否关注、是否收藏、是否赠送礼物以及是否分享等等。示例性的，可对用户行为类数据进行统计或其他处理，例如，根据打开预设应用程序的时间可以计算用户留存率或用户留存量，根据是否点赞可以计算点赞率或点赞量等等。

网络传输类数据可包括用于体现网络传输质量相关的数据，例如可包括平均下载速度、视频延迟时间、卡顿次数、卡顿时长以及首次卡顿时间等等。

程序运行环境类数据可包括用于体现对预设应用程序的运行产生影响的数据，例如可包括网络类型(如是否使用wifi网络)、移动运营商、终端类型、平台类型、应用版本和传输链路类型(如filetransfer和nerv等)。

流媒体文件属性类数据，例如可包括文件大小、视频长度和分辨率等等。

此外，还可以包含其他相关数据，如用户属性类数据等，还可包括设备所在地以及设备设置的语言类别等等，本发明实施例在此不做一一列举。

步骤102、根据所述原始样本数据进行特征筛选，得到训练特征集合。

经发明人的研究发现，原始样本数据中可以包含百余种类别的数据，也即可对应百余种特征，这样可以全面地考虑影响用户满意度的因素。而对于预设用户群体来说，其满意度可能对某些类别的特征并不敏感，因此，本发明实施例中根据原始样本数据进行特征筛选，得到训练特征集合，再针对训练特征集合进行模型训练，在全面考虑各种影响因素的基础上简化训练样本，提升模型的训练效率以及有效控制模型规模，也能够便于模型的后期部署及应用。具体的筛选方式本发明实施例不做限定。

步骤103、基于所述训练特征集合和所述原始样本数据确定训练样本数据，并利用所述训练样本数据以目标行为指标为标的对预设机器学习模型进行训练，得到用户满意度模型。

示例性的，在筛选出训练特征集合后，可以从原始样本数据中筛选出包含训练特征集合中特征的样本数据，进而得到训练样本数据，再利用训练样本数据进行模型训练。

示例性的，预设机器学习模型可以包括线性回归模型、多项式回归模型以及随机森林等树模型等等。可选的，本发明实施例可采用提升树(boosting tree)算法模型，经发明人研究发现，采用上述其他模型的拟合程度r2介于0.08-0.14之间，显著低于采用提升树算法模型。

示例性的，目标行为指标可以包括用于衡量用户粘度的指标，如用户与预设应用程序的互动程度，例如可包括以下至少一项：用户留存率、用户留存量、点赞率、点赞量、评论率、评论量、关注率、关注量、收藏率、收藏量、赠送礼物率、赠送礼物量、分享率以及分享量等等。这样设置的好处在于，上述指标能够很好地反映用户偏好，将其作为模型训练的标的，可以更加准确地训练用户满意度模型，使得该模型能够更加准确地预估用户主观满意度。

可选的，针对不同类型的目标行为指标，在训练预设机器学习模型时可采用不同的损失函数。以提升树模型为例，例如，针对用户留存率这种处于0-1之间的概率值，可采用逻辑回归损失函数，而针对点赞量这种正整型变量，可采用泊松回归损失函数。

本发明实施例中提供的用户满意度模型生成方法，获取预设用户群体对应的原始样本数据，其中，原始样本数据中包含预设用户群体中的用户在使用预设应用程序播放流媒体文件时对应的相关数据，相关数据包括码率档位和用户行为类数据，根据原始样本数据进行特征筛选，得到训练特征集合，基于训练特征集合和原始样本数据确定训练样本数据，并利用训练样本数据以目标行为指标为标的对预设机器学习模型进行训练，得到用户满意度模型。通过采用上述技术方案，针对预设用户群体筛选出合理的训练特征，并以用户行为指标为标的进行用户满意度模型的训练，充分考虑到了用户体验所带来的行为反馈信息，使训练得到的模型能够更加准确地预估用户主观满意度，为流媒体文件播放控制过程中的码率选档提供更加合理的依据。

在一些实施例中，目标行为指标可以是用户留存率，用户留存率可以理解为用户在开始使用预设应用程序后，经过一段给定时间，仍然使用该预设应用程序的用户占总体用户的百分比，具体可以根据各个客户端上报的用户打开或登录预设应用程序的时间来统计得出。可以通过给定时间段用户留存率刻画用户对于预设应用程序的主观满意度，减小QoE模型与真实用户体验的差距。本发明实施例中，对于单个用户来说，用户留存率指该用户留存的概率。

在一些实施例中，在根据原始样本数据进行特征筛选时，可采用的方法可包括遍历搜索(Exhaustive search)、模拟退火(Simulated annealing)以及遗传算法(Geneticalgorithm)等。可选的，所述预设机器学习模型为提升树算法模型时，所述根据所述原始样本数据进行特征筛选，得到训练特征集合，包括：利用最佳优先搜索(best first)方法根据所述原始样本数据进行特征筛选，得到训练特征集合。这样设置的好处在于，可以更好地兼顾计算量以及准确度。

在一些实施例中，所述利用最佳优先搜索方法根据所述原始样本数据进行特征筛选，得到训练特征集合，可包括：对于所述原始样本数据对应的每个候选特征，基于当前候选特征和已选特征集构成的当前特征集，以所述目标行为指标为标的对预设提升树模型进行训练，得到接收者操作特征曲线下方面积(Area under the Curve of ROC，AUC)值，并根据所述AUC值更新已选特征集，其中，首轮训练时的已选特征集为空集；根据最后更新的已选特征集确定训练特征集合。其中，AUC值经常用来评价一个二分类模型的训练效果，ROC表示接收者操作特征曲线(receiver operating characteristic curve)。其中，根据所述AUC值更新已选特征集，可具体为：根据最大AUC值对应的特征组合更新已选特征集。这样设置的好处在于，可以快速准确地筛选出训练特征，得到训练特征集合。其中，在筛选过程中，还可以控制提升轮数(boosting round)，即提升树模型进行提升的轮数，也是生成的树模型最大的子树棵数，例如可以是100。在不限制的情形下提升树模型可以进行大于1000轮训练，但是由于大模型最终的效果和前100轮效果强相关，为了节省训练时间，可选取前100轮作为衡量大模型的替代指标(proxy)。例如，假设初始的范畴有130个特征，如果以10个特征为目标，可能的选择有C(130,10)＝266401260897200，最佳优先搜索的次数为130+…+121＝1255次，可以通过控制提升轮数来减少最佳优先搜索的次数，在保证准确度的同时提升筛选效率。

图2为本发明实施例提供的又一种用户满意度模型生成方法的流程示意图，在上述各可选实施例基础上进行优化，如图所示，该方法可包括：

步骤201、获取预设用户群体对应的原始样本数据。

其中，所述原始样本数据中包含所述预设用户群体中的用户在使用预设应用程序播放流媒体文件时对应的相关数据，所述相关数据包括码率档位、用户行为类数据、网络传输类数据、程序运行环境类数据和流媒体文件属性类数据。

步骤202、对原始样本数据进行预处理。

示例性的，在进行预处理之前，还可包括对原始样本数据进行数据清理的相关步骤。例如，对于因版本不同而上报逻辑不同的异常值进行清洗，对数据类型进行必要的转换等。由于原始样本数据中包含的数据类型较多，可进行有针对性的预处理，本发明实施例对预处理过程不做限定，下面以较为典型的数据类型为例进行示意性说明。

可选的，可将时间类数据区分为播放时长时间与初始延迟时间。其中，播放时长时间为至少有预设比例值数据取值超过预设时长阈值的特征，其余为初始延迟时间，预设比例值例如可以是1％，预设时长阈值例如可以是15秒。将播放时长时间和初始延迟时间相对于视频时长进行归一化，并截断[0,1]区间值之外的取值：

其中，T表示将要进行特征变换的特征，可以是任一播放时长特征或初始延迟特征；T_videolength表示视频长度，也即视频时长，clip表示截取函数。

对于经过归一化处理的播放时长时间和初始延迟时间截断[0,1]区间值之外的取值。例如，如果<0，则取0；如果>1，则取1。具体的，如一条用户的总长为10s的视频的记录，如果T是用户观看时长，T＝-1s(上报异常)，变换后为clip(-1/10,0,1)＝clip(-0.1,0,1)＝0；T＝5s，变换后为clip(5/10,0,1)＝clip(0.5,0,1)＝0.5；T＝12s，变换后为clip(12/10,0,1)＝clip(1.2,0,1)＝1。

进行上述区分的原因主要有两方面：第一方面，从数据的统计特征来看，播放时长特征大于15s的记录占总体18％以上，而初始延迟特征大于15s的记录占总体1％不到；第二方面，从建模逻辑上，播放时长特征往往和视频长度相关，如总卡顿时长/视频长度反映了一次播放中卡顿等待所占的百分比，播放时长/视频长度往往更反应用户体验，初始延迟特征是在视频开始播放时的用户体验，一般绝对数值更有表征能力，如视频准备时间超过1s将显著降低用户的满意程度。播放时长特征和初始延迟特征在>15s的分布有显著不同，阈值可以是1～18％的任何值，选取1％因为初始延迟时长的尾部分布更为确定。

可选的，将速率特征分为传输速率特征与解码速率特征，分别以99百分位进行归一化，在消除量纲对最终结果影响的同时，保留了同分组特征相对大小关系的信息(如视频传输码率与实际平均带宽)，进而使模型保留了对于卡顿、解码能力瓶颈的预估能力，同时消除了上报异常值对模型的影响。

其中，r表示任意速率特征(传输速率或解码速率)。任意速率特征除以99百分位，再clip到0-1之间，主要是为了处理上报的一些异常值，如有100条记录，30个数据是8,30个数据是9，39个数据是10，1个数据是10000(异常值)，那么99百分位为10，变换后clip(8/10,0,1)＝0.8，clip(9/10,0,1)＝0.9，clip(10/10,0,1)＝1，clip(10000/10,0,1)＝1，成为30个0.8，30个0.9，40个1。

可选的，对于其他数据，可将百分比变量映射到[0,1]区间，将连续型特征进行最大最小归一化。

可选的，针对某个国家或地区的自身特点，还可对相关数据进行有针对性的处理。例如，针对印度地区同一国家使用多种不同语言的特点，将区域设置与语言特征联合，对各离散变量出现频率少于5％的取值分类为其它，并进行独热编码。

步骤203、利用最佳优先搜索方法根据原始样本数据进行特征筛选，得到训练特征集合。

本发明实施例中，使用提升树算法模型预测用户留存率，例如留存率统计周期为1天时，这里的用户留存率具体可以是用户次日留存率，对于一个用户而言，也即该用户在次日仍留存的概率。

可选的，所采用的损失函数为逻辑回归损失函数：

其中，其中θ为模型参数；x为模型的输入特征，也即预估样本；h_θ(x)为x对应的留存概率；y_i表示实际标签，即实际用户是否留存。

在确定模型之后，利用最佳优先搜索方法根据原始样本数据进行特征筛选，得到训练特征集合。

可选的，具体流程如下：

a、初始化特征集合

b、对每个尚未选取的特征f_i，在提升轮数小于100的前提下在特征集F+{f_i}上训练分类模型，取得AUC值；

c、根据AUC值选取最优特征f_i加入F，重复b。

举例而言，假设现有播放时长、平均下载速度、初始延迟、卡顿次数和卡顿时长等5个特征，目标为2个特征，也即训练特征集合中包含2个训练特征。

第0轮：F＝空集；

第1轮：分别尝试F＝{播放时长}、{平均下载速度}、{初始延迟}、{卡顿次数}和{卡顿时长}，以用户留存为指标，对只包含1个特征的特征集分别进行回归(即训练5次)，假设F＝{播放时长}对应的AUC最大，取F＝{播放时长}；

第2轮：分别尝试F＝{播放时长，平均下载速度}、{播放时长，初始延迟}、{播放时长，卡顿次数}和{播放时长，卡顿时长}，对包含2个特征的特征集分别进行回归(训练4次)，假设F＝{播放时长，平均下载速度}对应的AUC最大，取F＝{播放时长,平均下载速度}。

以上为了便于说明，候选特征和目标特征较少，而在实际应用时，需要更多候选特征和目标特征，可参考上述方式以此类推，进行特征筛选。

步骤204、基于训练特征集合从原始样本数据中筛选出包含训练特征集合中的训练特征的样本数据，得到训练样本数据。

步骤205、利用训练样本数据以用户留存率为标的对预设提升树算法模型进行训练，得到用户满意度模型。

其中，用户满意度模型中的参数包括码率档位。

示例性的，经过筛选后的训练样本数据更加贴合预设用户群体的实际情况，可以使得训练得到的用户满意度模型更加准确地预估针对该预设用户群体的满意度。

可选的，在模型训练过程中，还包括超参数调节相关步骤。示例性的，可通过网格搜索对超参数进行调节，优化模型表现。调节超参数包括eta、min_split_loss、max_depth、subsample和colsample_bytree等。其中，eta(learning rate，学习率)，指模型更新的步长；min_split_loss指提升树叶节点进行划分所需要达到的最小损失减少；max_depth指提升树的最大深度；训练每棵提升树的时候会随机抽取一部分样本和特征，subsample指随机样本所占比例，colsample_bytree指随机特征所占比例。搜索过程可通过五折交叉验证选取最优AUC值作为准则。其中，网格搜索还可替换为贝叶斯优化(Bayesianoptimizatioin)、多臂赌博机(Bandit)以及基于序列模型优化(Sequential model-basedoptimization，SMBO)等。一般的，超参数优化对于模型精度贡献较小，可以使用较为简单的网格搜索，提升模型训练效率。

本发明实施例中提供的用户满意度模型生成方法，针对预设用户群体利用最佳优先搜索方法筛选出合理的训练特征，并以用户留存率为标的进行对提升树算法模型进行训练，实现通过用户留存率刻画用户对于预设应用程序的主观满意度，减小QoE模型与真实用户体验的差距，为流媒体文件播放控制过程中的码率选档提供更加合理的依据。

图3为本发明实施例提供的一种播放控制方法的流程示意图，该方法可以由播放控制装置执行，其中该装置可由软件和/或硬件实现，一般可集成在计算机设备中。如图3所示，该方法包括：

步骤301、在接收到针对第一流媒体文件的播放请求时，获取多组样本数据，其中，所述样本数据中包含所述第一流媒体文件的候选码率档位，任意两组样本数据中的候选码率档位不同。

本发明实施例中，以目标行为指标的取值作为衡量用户QoE的代理变量，选取适当档位来最优化模型预估概率。以目标行为指标为用户留存率为例，则利用用户满意度模型来预估用户留存概率作为衡量用户QoE的代理变量，选取目标码率档位来最大化模型预估概率。

示例性的，每组样本数据中包含的特征与模型训练阶段对应的训练特征对应。所述第一流媒体文件的候选码率档位可包括第一流媒体文件的部分或所有可选码率档位，若仅包括部分可选码率档位，则可采用一定的预估策略进行预估，得到候选码率档位，以对样本数据的组数进行控制，减少计算量，提高确定码率档位的速度。

示例性的，第一流媒体文件可以是能够在预设应用程序中进行播放的任意一个流媒体文件。当前发起播放请求的用户与预设用户群体对应的属性相同，例如，预设用户群体的国别为印度，则当前用户为印度人。换句话说，可以根据当前用户的属性选择对应的用户满意度模型，根据所选的用户满意度模型来确定需要采集的样本数据中的特征。本方案的目的是为了确定合理的目标码率档位，除了码率档位之外的特征在数据采集时刻一般是固定的，可统称为输入用户特征，对于每组样本数据来说，输入用户特征是相同的。而码率档位是待确定的特征，因此，任意两组样本数据中的候选码率档位不同，可将候选码率特征称为补全特征。另外，由于码率档位的不同可能还会影响其他特征，如视频分辨率和解码速率等，若受到码率档位影响的特征属于训练特征，那么根据每个候选码率档位确定对应的受影响特征的取值，并将确定的取值加入到补全特征中。也即，每组样本数据中包含了输入用户特征和补全特征。

步骤302、对于所述多组样本数据中的每组样本数据，将当前组样本数据输入至用户满意度模型中，得到对应的目标行为指标的取值。

其中，所述用户满意度模型采用本发明实施例提供的用户满意度模型生成方法生成。

本步骤中，针对每组样本数据利用用户满意度模型确定对应的目标行为指标的取值。

步骤303、根据所述取值确定目标码率档位，并基于所述目标码率档位控制所述第一流媒体文件的播放。

示例性的，确定目标码率档位的方式与目标行为指标的具体类型相关。若目标行为指标的取值越大，代表用户满意度越高，则可将最大取值对应的候选码率档位确定为目标码率档位；若目标行为指标的取值越大，代表用户满意度越低，则可将最小取值对应的候选码率档位确定为目标码率档位。

示例性的，以用户留存率为例，假设输入用户特征为f₁，补全特征为f₂，选取档位r使得模型预估用户留存概率最大化，即：

其中，r_best即目标码率档位。

在确定了目标码率档位后，便可基于该目标码率档位控制第一流媒体文件的播放。例如，可以获取与目标码率档位对应的转码文件并进行播放。

可选的，在第一流媒体文件的播放过程中，若有重新确定目标码率档位的需求，则可重新获取多组样本数据并执行相应操作，以实现动态调整码率档位。若接收到下一个流媒体文件的播放请求，则也可重新获取多组样本数据并执行相应操作，以实现确定目标码率档位。

本发明实施例提供的播放控制方法，在接收到针对第一流媒体文件的播放请求时，获取多组样本数据，对于多组样本数据中的每组样本数据，将当前组样本数据输入至用户满意度模型中，得到对应的目标行为指标的取值，根据取值确定目标码率档位，并基于目标码率档位控制第一流媒体文件的播放。由于用户满意度模型采用本发明实施例提供的用户满意度模型生成方法生成，该模型在训练过程中充分考虑到了用户体验所带来的行为反馈信息，因此该模型能够更加准确地预估用户主观满意度，进而合理地从候选码率档位中选择适合当前用户的目标码率档位。

图4为本发明实施例提供的另一种播放控制方法的流程示意图，该方法可以由播放控制装置执行，其中该装置可由软件和/或硬件实现，一般可集成在计算机设备中。如图4所示，该方法包括：

步骤401、在接收到针对第二流媒体文件的播放请求时，获取当前样本数据，其中，所述当前样本数据中包含所述第二流媒体文件的当前码率档位。

本发明实施例中，通过模型预估用户的目标行为指标的取值，并根据取值触发干预机制来调整既有选档策略。以目标行为指标为用户留存率为例，则通过模型预估用户留存概率或用户流失概率，并根据概率值触发干预机制来调整既有选档策略。

示例性的，当前样本数据中包含的特征与模型训练阶段对应的训练特征对应，并包含第二流媒体文件的当前码率档位。当前码率档位可以是预设应用程序默认档位，也可以是采用其他档位预估策略预估的码率档位。

示例性的，第二流媒体文件可以是能够在预设应用程序中进行播放的任意一个流媒体文件。当前发起播放请求的用户与预设用户群体对应的属性相同，例如，预设用户群体的国别为印度，则当前用户为印度人。换句话说，可以根据当前用户的属性选择对应的用户满意度模型，根据所选的用户满意度模型来确定需要采集的样本数据中的特征。本方案的目的是为了确定合理的目标码率档位，除了码率档位之外的特征在数据采集时刻一般是固定的，可统称为输入用户特征，对于每组样本数据来说，输入用户特征是相同的。可将当前码率特征称为补全特征。另外，由于码率档位的不同可能还会影响其他特征，如视频分辨率和解码速率等，若受到码率档位影响的特征属于训练特征，那么根据当前码率档位确定对应的受影响特征的取值，并将确定的取值加入到补全特征中。也即，当前样本数据中包含了输入用户特征和补全特征。

步骤402、将所述当前样本数据输入至用户满意度模型中，得到对应的目标行为指标的取值。

步骤403、根据所述取值确定针对所述当前码率档位的调整策略，依据所述调整策略得到目标码率档位，并基于所述目标码率档位控制所述第二流媒体文件的播放。

示例性的，根据所述取值确定针对所述当前码率档位的调整策略的方式与目标行为指标的具体类型相关，可以根据具体类型设置相应的阈值，根据取值与阈值之间的大小关系决定是否需要改变当前码率档位。示例性的，所述根据所述取值确定针对所述当前码率档位的调整策略，包括：当所述取值小于预设阈值时，确定针对所述当前码率档位的调整策略为档位下调操作，其中，码率档位越小，对应的码率值越小。预设阈值可根据实际情况进行设置。这样设置的好处在于，以用户留存率为例，发明人发现，用户流失主要是内容和传输质量两方面的因素，降低档位(或者任何其他档位的变化)不能够改变因为内容流失的用户，但可以影响部分因为传输质量流失的用户，降低码率档位后，播放更加流畅，因此可以在总体上达到提升用户留存率的效果。

可选的，当所述取值大于或等于预设阈值时，确定针对所述当前码率档位的调整策略为维持当前码率档位，也即目标码率档位与当前码率档位相同。

示例性的，以用户留存率为例，假设输入用户特征为f₁，补全特征为

可以将模型输出的取值与预设阈值相比，假设预设阈值为0.5，即：

当取值小于0.5时，说明用户留存率低，很可能会流失，可降低当前码率档位，如降低1档，否则，即当取值大于或等于0.5时，可维持当前码率档位。

本发明实施例提供的播放控制方法，在接收到针对第二流媒体文件的播放请求时，获取当前样本数据，将当前样本数据输入至用户满意度模型中，得到对应的目标行为指标的取值，根据取值确定针对当前码率档位的调整策略，依据调整策略得到目标码率档位，并基于目标码率档位控制第二流媒体文件的播放。由于用户满意度模型采用本发明实施例提供的用户满意度模型生成方法生成，该模型在训练过程中充分考虑到了用户体验所带来的行为反馈信息，因此该模型能够更加准确地预估用户主观满意度，进而合理地确定针对当前码率档位的调整策略。

为了便于理解本发明实施例技术方案，下面以用户留存率为例做进一步说明。图5为本发明实施例提供的一种流媒体自适应码率方案的示意图，如图5所示，客户端向服务端上报原始样本数据，服务端将原始样本数据存储到相应的数据库(如Hive)中，并基于该原始样本数据进行模型训练，得到以用户留存率为标的的用户满意度模型，模型训练过程可以采用离线方式，训练好的模型在线应用。客户端请求播放流媒体时，上报用户特征，服务端根据用户特征和用户满意度模型基于选档策略确定最优档位，将最优档位反馈给客户端以控制流媒体播放，或将最优档位对应的流媒体文件下发至客户端进行播放。

图6为本发明实施例提供的一种用户满意度模型生成装置的结构框图，该装置可由软件和/或硬件实现，一般可集成在计算机设备中，可通过执行用户满意度模型生成方法来生成模型。如图6所示，该装置包括：

原始样本数据获取模块601，用于获取预设用户群体对应的原始样本数据，其中，所述原始样本数据中包含所述预设用户群体中的用户在使用预设应用程序播放流媒体文件时对应的相关数据，所述相关数据包括码率档位和用户行为类数据；

特征筛选模块602，用于根据所述原始样本数据进行特征筛选，得到训练特征集合；

训练样本数据确定模块603，用于基于所述训练特征集合和所述原始样本数据确定训练样本数据；

模型训练模块604，用于利用所述训练样本数据以目标行为指标为标的对预设机器学习模型进行训练，得到用户满意度模型，其中，所述用户满意度模型中的参数包括码率档位。

本发明实施例提供的用户满意度模型生成装置，针对预设用户群体筛选出合理的训练特征，并以用户行为指标为标的进行用户满意度模型的训练，充分考虑到了用户体验所带来的行为反馈信息，使训练得到的模型能够更加准确地预估用户主观满意度，为流媒体文件播放控制过程中的码率选档提供更加合理的依据。

图7为本发明实施例提供的一种播放控制装置的结构框图，该装置可由软件和/或硬件实现，一般可集成在计算机设备中，可通过执行播放控制方法来生成模型。如图7所示，该装置包括：

样本获取模块701，用于在接收到针对第一流媒体文件的播放请求时，获取多组样本数据，其中，所述样本数据中包含所述第一流媒体文件的候选码率档位，任意两组样本数据中的候选码率档位不同；

模型输入模块702，用于对于所述多组样本数据中的每组样本数据，将当前组样本数据输入至用户满意度模型中，得到对应的目标行为指标的取值，其中，所述用户满意度模型采用本发明实施例提供的用户满意度模型生成方法生成；

目标码率档位确定模块703，用于根据所述取值确定目标码率档位；

播放控制模块704，用于基于所述目标码率档位控制所述第一流媒体文件的播放。

本发明实施例提供的播放控制装置，在接收到针对第一流媒体文件的播放请求时，获取多组样本数据，对于多组样本数据中的每组样本数据，将当前组样本数据输入至用户满意度模型中，得到对应的目标行为指标的取值，根据取值确定目标码率档位，并基于目标码率档位控制第一流媒体文件的播放。由于用户满意度模型采用本发明实施例提供的用户满意度模型生成方法生成，该模型在训练过程中充分考虑到了用户体验所带来的行为反馈信息，因此该模型能够更加准确地预估用户主观满意度，进而合理地从候选码率档位中选择适合当前用户的目标码率档位。

图8为本发明实施例提供的另一种播放控制装置的结构框图，该装置可由软件和/或硬件实现，一般可集成在计算机设备中，可通过执行播放控制方法来生成模型。如图8所示，该装置包括：

当前样本获取模块801，用于在接收到针对第二流媒体文件的播放请求时，获取当前样本数据，其中，所述当前样本数据中包含所述第二流媒体文件的当前码率档位；

模型输入模块802，用于将所述当前样本数据输入至用户满意度模型中，得到对应的目标行为指标的取值，其中，所述用户满意度模型采用本发明实施例提供的用户满意度模型生成方法生成；

目标码率档位确定模块803，用于根据所述取值确定针对所述当前码率档位的调整策略，依据所述调整策略得到目标码率档位；

播放控制模块804，用于基于所述目标码率档位控制所述第二流媒体文件的播放。

本发明实施例提供的播放控制装置，在接收到针对第二流媒体文件的播放请求时，获取当前样本数据，将当前样本数据输入至用户满意度模型中，得到对应的目标行为指标的取值，根据取值确定针对当前码率档位的调整策略，依据调整策略得到目标码率档位，并基于目标码率档位控制第二流媒体文件的播放。由于用户满意度模型采用本发明实施例提供的用户满意度模型生成方法生成，该模型在训练过程中充分考虑到了用户体验所带来的行为反馈信息，因此该模型能够更加准确地预估用户主观满意度，进而合理地确定针对当前码率档位的调整策略。

本发明实施例提供了一种计算机设备，该计算机设备中可集成本发明实施例提供的模型生成装置。图9为本发明实施例提供的一种计算机设备的结构框图。计算机设备900包括存储器901、处理器902及存储在存储器901上并可在处理器902上运行的计算机程序，所述处理器902执行所述计算机程序时实现本发明实施例提供的用户满意度模型生成方法和/或播放控制方法。

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例提供的用户满意度模型生成方法和/或播放控制方法。

上述实施例中提供的用户满意度模型生成装置、播放控制装置、计算机设备以及存储介质可执行本发明相应实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

注意，上述仅为本发明的较佳实施例。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由权利要求范围决定。

Claims

1.一种用户满意度模型生成方法，其特征在于，包括：

获取预设用户群体对应的原始样本数据，其中，所述原始样本数据中包含所述预设用户群体中的用户在使用预设应用程序播放流媒体文件时对应的相关数据，所述相关数据包括码率档位和用户行为类数据，所述预设用户群体根据用户满意度模型面向的用户的属性进行确定；

根据所述原始样本数据进行特征筛选，得到训练特征集合；

基于所述训练特征集合和所述原始样本数据确定训练样本数据，并利用所述训练样本数据以目标行为指标为标的对预设机器学习模型进行训练，得到用户满意度模型，其中，所述用户满意度模型中的参数包括码率档位；

其中，所述预设机器学习模型包括提升树算法模型；

所述根据所述原始样本数据进行特征筛选，得到训练特征集合，包括：

对于所述原始样本数据对应的每个候选特征，基于当前候选特征和已选特征集构成的当前特征集，以所述目标行为指标为标的对预设提升树模型进行训练，得到接收者操作特征曲线下方面积AUC值，并根据所述AUC值更新已选特征集，其中，首轮训练时的已选特征集为空集；

根据最后更新的已选特征集确定训练特征集合。

2.根据权利要求1所述的方法，其特征在于，所述相关数据还包括网络传输类数据、程序运行环境类数据和流媒体文件属性类数据中的至少一项。

3.根据权利要求1所述的方法，其特征在于，所述目标行为指标包括以下至少一项：用户留存率/量、点赞率/量、评论率/量、关注率/量、收藏率/量、赠送礼物率/量以及分享率/量。

4.根据权利要求1所述的方法，其特征在于，所述预设机器学习模型所对应的损失函数包括逻辑回归损失函数或泊松回归损失函数。

5.一种播放控制方法，其特征在于，包括：

对于所述多组样本数据中的每组样本数据，将当前组样本数据输入至用户满意度模型中，得到对应的目标行为指标的取值；

根据所述取值确定目标码率档位，并基于所述目标码率档位控制所述第一流媒体文件的播放；

其中，所述用户满意度模型采用如下方法生成：

获取预设用户群体对应的原始样本数据，其中，所述原始样本数据中包含所述预设用户群体中的用户在使用预设应用程序播放流媒体文件时对应的相关数据，所述相关数据包括码率档位和用户行为类数据，所述预设用户群体根据当前用户的属性进行确定；

根据所述原始样本数据进行特征筛选，得到训练特征集合；

6.根据权利要求5所述的方法，其特征在于，所述相关数据还包括网络传输类数据、程序运行环境类数据和流媒体文件属性类数据中的至少一项。

7.根据权利要求5所述的方法，其特征在于，所述目标行为指标包括以下至少一项：用户留存率/量、点赞率/量、评论率/量、关注率/量、收藏率/量、赠送礼物率/量以及分享率/量。

8.根据权利要求5所述的方法，其特征在于，所述预设机器学习模型包括提升树算法模型。

9.根据权利要求8所述的方法，其特征在于，所述预设机器学习模型所对应的损失函数包括逻辑回归损失函数或泊松回归损失函数。

10.根据权利要求8所述的方法，其特征在于，所述根据所述原始样本数据进行特征筛选，得到训练特征集合，包括：

利用最佳优先搜索方法根据所述原始样本数据进行特征筛选，得到训练特征集合。

11.根据权利要求10所述的方法，其特征在于，所述利用最佳优先搜索方法根据所述原始样本数据进行特征筛选，得到训练特征集合，包括：

根据最后更新的已选特征集确定训练特征集合。

12.根据权利要求5-11任一所述的方法，其特征在于，所述根据所述取值确定目标码率档位，包括：

将最大取值对应的候选码率档位确定为目标码率档位。

13.一种播放控制方法，其特征在于，包括：

将所述当前样本数据输入至用户满意度模型中，得到对应的目标行为指标的取值；

根据所述取值确定针对所述当前码率档位的调整策略，依据所述调整策略得到目标码率档位，并基于所述目标码率档位控制所述第二流媒体文件的播放；

其中，所述用户满意度模型采用如下方法生成：

根据所述原始样本数据进行特征筛选，得到训练特征集合；

14.根据权利要求13所述的方法，其特征在于，所述相关数据还包括网络传输类数据、程序运行环境类数据和流媒体文件属性类数据中的至少一项。

15.根据权利要求13所述的方法，其特征在于，所述目标行为指标包括以下至少一项：用户留存率/量、点赞率/量、评论率/量、关注率/量、收藏率/量、赠送礼物率/量以及分享率/量。

16.根据权利要求13所述的方法，其特征在于，所述预设机器学习模型包括提升树算法模型。

17.根据权利要求16所述的方法，其特征在于，所述预设机器学习模型所对应的损失函数包括逻辑回归损失函数或泊松回归损失函数。

18.根据权利要求16所述的方法，其特征在于，所述根据所述原始样本数据进行特征筛选，得到训练特征集合，包括：

19.根据权利要求18所述的方法，其特征在于，所述利用最佳优先搜索方法根据所述原始样本数据进行特征筛选，得到训练特征集合，包括：

根据最后更新的已选特征集确定训练特征集合。

20.根据权利要求13-19任一所述的方法，其特征在于，所述根据所述取值确定针对所述当前码率档位的调整策略，包括：

当所述取值小于预设阈值时，确定针对所述当前码率档位的调整策略为档位下调操作，其中，码率档位越小，对应的码率值越小。

21.一种用户满意度模型生成装置，其特征在于，包括：

原始样本数据获取模块，用于获取预设用户群体对应的原始样本数据，其中，所述原始样本数据中包含所述预设用户群体中的用户在使用预设应用程序播放流媒体文件时对应的相关数据，所述相关数据包括码率档位和用户行为类数据，所述预设用户群体根据用户满意度模型面向的用户的属性进行确定；

模型训练模块，用于利用所述训练样本数据以目标行为指标为标的对预设机器学习模型进行训练，得到用户满意度模型，其中，所述用户满意度模型中的参数包括码率档位；

其中，所述预设机器学习模型包括提升树算法模型；

根据最后更新的已选特征集确定训练特征集合。

22.一种播放控制装置，其特征在于，包括：

模型输入模块，用于对于所述多组样本数据中的每组样本数据，将当前组样本数据输入至用户满意度模型中，得到对应的目标行为指标的取值；

播放控制模块，用于基于所述目标码率档位控制所述第一流媒体文件的播放；

其中，所述用户满意度模型采用如下方法生成：

根据所述原始样本数据进行特征筛选，得到训练特征集合；

23.一种播放控制装置，其特征在于，包括：

模型输入模块，用于将所述当前样本数据输入至用户满意度模型中，得到对应的目标行为指标的取值；

播放控制模块，用于基于所述目标码率档位控制所述第二流媒体文件的播放；

其中，所述用户满意度模型采用如下方法生成：

根据所述原始样本数据进行特征筛选，得到训练特征集合；

24.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-20任一项所述的方法。

25.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-20中任一所述的方法。