CN112148919A

CN112148919A - 一种基于梯度提升树算法的音乐点击率预测方法及装置

Info

Publication number: CN112148919A
Application number: CN202011059516.5A
Authority: CN
Inventors: 彭立涵; 王建民
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2020-12-29

Abstract

一种基于梯度提升树算法的音乐点击率预测方法及装置，属于机器学习技术领域，用以解决现有技术中音乐平台不能根据用户的个体特征和偏好变化进行高质量的音乐作品推荐的问题。本发明方法的技术要点包括，获取音乐数据训练集和测试集并分别提取音乐特征和用户特征；对提取的音乐特征和用户特征进行处理；对处理后的特征数据进行数据格式统一，获取训练特征数据集和待预测测试特征数据集；利用梯度提升树算法对训练特征数据集进行训练，获取预测模型；根据预测模型对待预测测试特征数据集进行预测分类。本发明可用于音乐平台针对不同的用户推荐不同的音乐作品。

Description

一种基于梯度提升树算法的音乐点击率预测方法及装置

技术领域

本发明涉及机器学习技术领域，具体涉及一种基于梯度提升树算法的音乐点击率预测方法及装置。

技术背景

在如今的21世纪，人们享受着互联网带来便利,人们的生活和娱乐方式发生了翻天覆地的变化，但随之而来的是数据的质量和数量都以几何的速度递增。网络音乐的出现，减缓了人们享受音乐信息服务的空间和时间限制，然而，面对海量且不断增长的音乐作品，信息超载已经成为最直接的问题，提高用户体验的需求也变得十分迫切。如何针对不同的用户推荐不同的音乐作品是一个非常值得研究的问题。

主流音乐平台的推荐场景中,App或门户网站等会针对用户返回一定数量的合适的音乐作品形成推荐列表，高质量的、符合用户心情的推荐方案不但符合用户的需求,同时也能有效地调度闲置资源,满足平台的盈利。一般的商品推荐场景，排序结果常由热度和点击量等统计数据直接计算，粒度较粗，且推荐以大众兴趣和普遍偏好物品为主，没有考虑用户的个体特征和偏好变化,容易受到群体热度影响，覆盖率不高，因此并不能很好地对接日益增长的用户个性化需求。现有的音乐集点击率预测方法中采用经典的协同过滤算法，曾经是推荐系统的首选算法，该算法从物品相似度和用户相似度两种角度出发，衍生出物品协同过滤(ItemCF)和用户协同过滤(ItemCF)两种算法，以此来给用户推荐相似的物品，但该算法无法在反馈行为中抽取有意义的特征，解释性不强，且容易受到群体行为和极端个体行为的误导，且新加入的用户由于缺少行为交互数据，并无法对其进行高质量的推荐。

发明内容

鉴于以上问题，本发明提出一种基于梯度提升树算法的音乐点击率预测方法及装置，用以解决现有技术中音乐平台不能根据用户的个体特征和偏好变化进行高质量的音乐作品推荐的问题。

根据本发明一方面，提出一种基于梯度提升树算法的音乐点击率预测方法，该方法包括以下步骤，

步骤一、获取音乐数据训练集和测试集并分别提取音乐特征和用户特征；

步骤二、对提取的音乐特征和用户特征进行处理；

步骤三、对处理后的特征数据进行数据格式统一，获取训练特征数据集和待预测测试特征数据集；

步骤四、利用梯度提升树算法对训练特征数据集进行训练，获取预测模型；

步骤五、根据预测模型对待预测测试特征数据集进行预测分类。

进一步地，步骤一中所述音乐特征包括音乐名称、音乐时长、歌曲风格、主唱、作曲家、填词者、语言以及唯一标识；所述用户特征包括用户年龄、城市、性别、app注册方式、app注册时间以及app最近登录时间。

进一步地，步骤二中对提取的音乐特征和用户特征进行处理包括，对特征缺失值进行填充或删除处理；对特征异常值进行处理；对已有特征进行拆分。

进一步地，步骤三中对处理后的特征数据进行数据格式统一包括对分类型特征数据进行编码；对数值型特征数据进行标准化。

进一步地，步骤四中利用梯度提升树算法对训练特征数据集进行训练之前首先设置模型参数，采用网格搜索算法进行调参，获取最优参数。

进一步地，步骤四中所述预测模型即最终得到的强分类器迭代公式为：

F_m(x)＝F_m-1(x)+γ_mh_m(x)

其中，γ_m表示权重缩减系数，其取值为(0,1]；h_m(x)表示弱分类器。

根据本发明另一方面，提出一种基于梯度提升树算法的音乐点击率预测装置，包括，

特征提取模块，用于获取音乐数据训练集和测试集并分别提取音乐特征和用户特征；

特征处理模块，用于对提取的音乐特征和用户特征进行处理；

数据格式处理模块，用于对处理后的特征数据进行数据格式统一，包括对分类型特征数据进行编码和对数值型特征数据进行标准化，获取训练特征数据集和待预测测试特征数据集；

模型训练模块，用于利用梯度提升树算法对训练特征数据集进行训练，获取预测模型；

预测分类模块，用于根据预测模型对待预测测试特征数据集进行预测分类。

进一步地，特征提取模块中提取的所述音乐特征包括音乐名称、音乐时长、歌曲风格、主唱、作曲家、填词者、语言以及唯一标识；提取的所述用户特征包括用户年龄、城市、性别、app注册方式、app注册时间以及app最近登录时间。

进一步地，特征处理模块中对提取的音乐特征和用户特征进行处理包括，对特征缺失值进行填充或删除处理；对特征异常值进行处理；对已有特征进行拆分。

进一步地，模型训练模块中利用梯度提升树算法对训练特征数据集进行训练之前首先设置模型参数，采用网格搜索算法进行调参，获取最优参数，所述预测模型即最终得到的强分类器迭代公式为：

F_m(x)＝F_m-1(x)+γ_mh_m(x)

本发明的有益技术效果是：

本发明提出一种基于梯度提升树的点击率预测模型,结合用户行为的特征对点击率预测模型进行优化，对数据进行分析处理、特征筛选等操作，得到一份干净适合训练的数据；且使用某音乐平台的真实记录数据进行实验测试算法性能，与逻辑回归算法(LR)、随机森林算法(RF)相比，实验结果表明本发明提出的基于梯度提升树算法(GBDT)的点击率预测模型获得了更好的效果。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。

图1示出了根据本发明实施方式一种基于梯度提升树算法的音乐点击率预测方法的示意性流程图。

图2示出了根据本发明实施方式一种基于梯度提升树算法的音乐点击率预测方法的各个模型的ROC曲线图；其中，图(a)是LR模型的ROC曲线；图(b)是RF模型的ROC曲线；图(c)是GBDT模型的ROC曲线。

图3示出了根据本发明实施方式一种基于梯度提升树算法的音乐点击率预测装置的示意性结构图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本发明内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本发明实施例提出一种基于梯度提升树算法的音乐点击率预测方法，图1示出了根据本发明实施方式一种基于梯度提升树算法的音乐点击率预测方法的示意性流程图。该方法包括以下步骤，

步骤一、获取音乐数据训练集和测试集并分别提取音乐特征和用户特征；其中，音乐特征包括音乐名称、音乐时长、歌曲风格、主唱、作曲家、填词者、语言以及唯一标识；用户特征包括用户年龄、城市、性别、app注册方式、app注册时间以及app最近登录时间；

根据本发明实施例，本发明选用的是某音乐平台的数据集，该数据集包含2013年到2017年间用户在平台的活动情况。将该数据集划分成两部分：训练集和测试集，训练集用于模型训练，测试集用于预测分类。本发明数据表包含：训练集、测试集、用户表、音乐作品表。其中，训练集包括2760085条数据，测试集包括929316条数据，用户表包括24851条数据，音乐作品表包括245651条数据。训练集表中包含用户、音乐作品、app使用功能以及是否点击的标签等特征；测试集表与训练集表唯一不同的是未包含标签；用户表包含用户、年龄、城市、性别、注册方式、注册时间以及最近登录时间的特征；音乐作品表包含音乐、音乐名称、音乐时长、歌曲风格、主唱、作曲家、填词者、语言以及唯一标识等特征。详情见表1。

表1

步骤二、对提取的音乐特征和用户特征进行处理；包括，对特征缺失值进行填充或删除处理；对特征异常值进行处理；对已有特征进行拆分。

根据本发明实施例，首先查看并分析各个特征的分布情况，对特征进行筛选，例如查看用户特征中的注册时间特征，根据注册时间查看音乐平台的注册情况，可以观测出从2004年到2016年的注册人数不断增加，2016年达到最多；查看用户特征中的城市特征，可以分析出城市分布存在数据不平衡；查看用户特征中的年龄特征，异常值明显；查看用户特征中的性别特征，缺失值较多，缺失率在50％以上，因此该性别特征对于训练模型不适合。

然后查看各个表是否含有缺失值，对于分类型数据进行众数填补；如果缺失值过多，则删除特征。然后查看各个表是否含有异常值，比如用户表中年龄大于65或者等于0的特征，大于65以上按照65进行处理；而等于0的数据则进行等比例处理，先查看各个年龄段的数量占总体年龄的比例，再将等于0的数据按比例进行换算，使得年龄特征服从正态分布。

创造新的特征，有利于挖掘特征之间的信息，以此来优化模型。比如，音乐表歌曲风格特征中包含1到4种风格编码，并且用“|”连接，用函数将风格编码分隔开来，从而歌曲风格特征变成了多种特征；根据用户与音乐作品，可以创造单个用户点击歌曲次数、单个用户点击唯一歌曲次数、一首歌有多少用户点击等等特征。

对于音乐作品表中的歌曲风格特征，其中的每条数据由一个或多个数据以“|”相连组成，对数据进行拆分，拆分后的数据组成了新的四个特征，第一个特征对应以“|”分开的第一个数据，以此类推。

对于音乐作品表中的主唱特征，其中包含了一个或者多个演唱者，因此拆分创造新的特征：多个演唱者以及提取第一演唱者。

对于音乐作品表中的作曲家和填词者，其中含有缺失值，对缺失值进行填充，填充的内容为对应的演唱者信息，处理操作与主唱特征操作无异。

对于音乐作品表中的唯一音乐标识，其中标识特征信息包含了歌曲年份、歌曲城市等信息，处理后创造新的特征，删除原特征。

对于用户表中的年龄特征，查看图表可看出年龄分布存在着小于等于0与大于65以上的数据。排除异常值再查看，年龄属于正态分布，由于含有0的数据占50.64％，因此不宜删除。

对于用户表中的app注册时间以及app最近登录时间特征，查看数据中包含了异常值，且对其进行拆分创造新的特征：注册年份，登录月份，登录年份，登录月份，年份差，月份差。

结合用户表与音乐作品表创造新特征，例如，一个用户听了多少歌，一个用户听了多少种歌，一首歌有几个人听，一首歌被听了几次；主唱、作曲、填词、歌曲标识、音乐城市、音乐年份特征等在音乐数据集中出现了多少次；用户在用户表出现了多少次等等。

根据本发明实施例，将经过处理后的特征数据分为特征训练集和特征测试集，处理完的特征数据中有分类型特征数据与数值型特征数据，分类型特征数据例如用户、城市、年份等特征，由于个别算法无法识别非数值型数据，因此需要对特征进行编码，本发明中使用sklearn库中的LabelEncode()函数对特征进行编码。而对于数值型特征数据，存在着数据差异，有的数据最大不超过10，而有的数据则在100以上，因此需要对数据进行标准化，将数据压缩到0到1范围内，本发明中使用sklearn库中的StandarScaler()函数对数据进行标准化。

进一步地，降低数据内存，将int，float类型数据从高位降低到低位，比如年龄特征默认int64，占用8个字节，但是年龄最大数值是65，使用int64浪费内存空间，不利于计算，经过函数降低内存后，从int64到int8，占用内存减少了一倍多，详情见表2。

表2数据内存处理

进一步地，对数值型数据进行标准化处理，标准化公式为y＝(x-μ)/σ，其中，μ为所有样本的均值，σ为所有样本的标准差。

步骤四、利用梯度提升树算法(GBDT)对训练特征数据集进行训练，获取预测模型；

根据本发明实施例，梯度提升树算法(GBDT)中U代表用户集合，I代表音乐作品集合，标签Y中1代表目标用户点击过该音乐作品，0代表目标用户没有点击过该音乐作品，算法最后计算的结果值是在0到1之间，以此来判断目标用户是否会点击该音乐作品。

梯度提升树算法(GBDT)是AdaBoost算法的改进，由梯度提升树算法和决策树算法两部分组成，其核心为减小残差，即负梯度方向生成一颗决策树以减小上一次的残差。Boosting思想遵循的基本原则是每一次建立模型都是建立在模型损失函数梯度下降方向，以达到不断优化的目的。决策树算法具有复杂度低、预测速度快等优点，但单个决策树算法很容易因为过拟合影响最终的分类结果。GBDT算法使用多分类器，创建的多个决策树可以最大限度减小决策树算法过度拟合的程度。

GBDT是一种能够发现多种有区分性的特征及特征组合的算法，其本质是多颗决策树的组合，基于Boosting算法的思路，每次迭代都在减少残差的梯度方向新建立一颗决策树，通过迭代不断提高系统的泛化能力。在GBDT算法中，决策树的路径可以直接作为其他模型的输入特征使用，减少了人工选择特征、组合特征的步骤，因此将其运用用户音乐权重计算中，能够识别出影响用户偏好的特征属性，从而更深层次的挖掘用户需求，为用户提供个性化信息音乐推荐。

GBDT算法通过多轮迭代，每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单，并且是低方差和高偏差的，弱分类器选择为决策树，最终的总分类器是将每轮训练得到的弱分类器加权求和得到的。训练集中的标签只有0与1两种数值，0代表用户未点击音乐，代表负样本；1代表用户点击音乐，代表正样本，测试集不含有标签，需要模型预测。设置模型参数，采用网格搜索算法进行调参，获取最优参数。

梯度提升决策树由多棵决策树组成，前m-1棵决策树可以表示为：

其中，f_i(x)表示弱分类器，m表示决策树数量。从而得到损失函数的梯度为：

其中，L(y,F(x))为损失函数，则第m棵决策树的函数估计为：

f_m(x)＝-ρ_mg_m(x)

其中，-ρ_m为学习步长。

最终得到的强分类器迭代公式为：

F_m(x)＝F_m-1(x)+γ_mh_m(x)

其中，γ_m表示权重缩减系数，其取值为(0,1]；h_m(x)表示弱分类器；通常用学习步长和最大迭代次数一起来决定模型的拟合效果。

根据本发明实施例，最大弱分类器数量为200，学习率即权重缩减系数为0.3，最大深度为10，每次选取最大特征数为总特征的0.9，子采样比例为0.95。利用梯度提升树算法对训练集进行训练，得出模型，训练的模型利用Predict()函数，得出测试集的预测分数，分数在0到1之间。

根据本发明实施例，对于点击率预估模型，本发明采用AUC(Area Under Curve)值为模型优劣的评估标准。AUC是指对于随机给定的一个正样本和负样本，分类器输出该正样本为正的概率值比分类器输出该负样本为正的那个概率值要大的可能性，是ROC曲线(Receiver Operating Characteristic Curve，又称感受性曲线)下的面积，可通过对ROC曲线下各部分的面积求和得到。

ROC曲线横坐标是假正率FPR(False Positive Rate)，表示所有实际为负例的样本被错误判断为正例的比率；纵坐标是真正率TPR(True Positive Rate)，表示所有实际为正例的样本被正确判断为正例的比率，则AUC的计算公式为：

其中，

表示样本序号，M表示正例个数，N表示反例个数。AUC值对样本比例有良好的容忍性，取值越大说明分类器的性能越好。

在使用相同数据集的情况下，将本发明方法分别与随机森林算法(RF)和逻辑回归算法(LR)进行对比，主要比较四个评估指标：精准率、准确率、召回率及AUC。评估指标对比结果见表3，图2示出了根据本发明实施方式一种基于梯度提升树算法的音乐点击率预测方法的各个模型的ROC曲线图，其中，图(a)是LR模型的ROC曲线；图(b)是RF模型的ROC曲线；图(c)是GBDT模型的ROC曲线。从表3和图2可以看出，本发明方法的性能要优于随机森林算法和逻辑回归算法，逻辑回归算法分类预测的精准率和AUC分数相对较低，而本发明方法获得了较好的结果，AUC分数提升了0.16。

表3

本发明的另一实施例提出一种基于梯度提升树算法的音乐点击率预测装置，图3示出了根据本发明实施方式一种基于梯度提升树算法的音乐点击率预测装置的示意性结构图。该装置包括，

特征提取模块110，用于获取音乐数据训练集和测试集并分别提取音乐特征和用户特征；

特征处理模块120，用于对提取的音乐特征和用户特征进行处理；

数据格式处理模块130，用于对处理后的特征数据进行数据格式统一，包括对分类型特征数据进行编码和对数值型特征数据进行标准化，获取训练特征数据集和待预测测试特征数据集；

模型训练模块140，用于利用梯度提升树算法对训练特征数据集进行训练，获取预测模型；

预测分类模块150，用于根据预测模型对待预测测试特征数据集进行预测分类。

进一步地，特征提取模块中提取的音乐特征包括音乐名称、音乐时长、歌曲风格、主唱、作曲家、填词者、语言以及唯一标识；提取的用户特征包括用户年龄、城市、性别、app注册方式、app注册时间以及app最近登录时间。

进一步地，模型训练模块中利用梯度提升树算法对训练特征数据集进行训练之前首先设置模型参数，采用网格搜索算法进行调参，获取最优参数，预测模型即最终得到的强分类器迭代公式为：

F_m(x)＝F_m-1(x)+γ_mh_m(x)

其中，γ_m表示权重缩减系数，其取值为(0，1]；h_m(x)表示弱分类器。

本发明实施方式所述一种基于梯度提升树算法的音乐点击率预测装置的功能可以由前述一种基于梯度提升树算法的音乐点击率预测方法说明，因此本实施例未详述部分，可参见以上方法实施例，在此不再赘述。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于梯度提升树算法的音乐点击率预测方法，其特征在于，包括以下步骤，

步骤二、对提取的音乐特征和用户特征进行处理；

2.根据权利要求1所述一种基于梯度提升树算法的音乐点击率预测方法，其特征在于，步骤一中所述音乐特征包括音乐名称、音乐时长、歌曲风格、主唱、作曲家、填词者、语言以及唯一标识；所述用户特征包括用户年龄、城市、性别、app注册方式、app注册时间以及app最近登录时间。

3.根据权利要求1所述一种基于梯度提升树算法的音乐点击率预测方法，其特征在于，步骤二中对提取的音乐特征和用户特征进行处理包括，对特征缺失值进行填充或删除处理；对特征异常值进行处理；对已有特征进行拆分。

4.根据权利要求1所述一种基于梯度提升树算法的音乐点击率预测方法，其特征在于，步骤三中对处理后的特征数据进行数据格式统一包括对分类型特征数据进行编码；对数值型特征数据进行标准化。

5.根据权利要求1所述一种基于梯度提升树算法的音乐点击率预测方法，其特征在于，步骤四中利用梯度提升树算法对训练特征数据集进行训练之前首先设置模型参数，采用网格搜索算法进行调参，获取最优参数。

6.根据权利要求1所述一种基于梯度提升树算法的音乐点击率预测方法，其特征在于，步骤四中所述预测模型即最终得到的强分类器迭代公式为：

F_m(x)＝F_m-1(x)+γ_mh_m(x)

7.一种基于梯度提升树算法的音乐点击率预测装置，其特征在于，包括，

8.根据权利要求7所述一种基于梯度提升树算法的音乐点击率预测装置，其特征在于，特征提取模块中提取的所述音乐特征包括音乐名称、音乐时长、歌曲风格、主唱、作曲家、填词者、语言以及唯一标识；提取的所述用户特征包括用户年龄、城市、性别、app注册方式、app注册时间以及app最近登录时间。

9.根据权利要求7所述一种基于梯度提升树算法的音乐点击率预测装置，其特征在于，特征处理模块中对提取的音乐特征和用户特征进行处理包括，对特征缺失值进行填充或删除处理；对特征异常值进行处理；对已有特征进行拆分。

10.根据权利要求7所述一种基于梯度提升树算法的音乐点击率预测装置，其特征在于，模型训练模块中利用梯度提升树算法对训练特征数据集进行训练之前首先设置模型参数，采用网格搜索算法进行调参，获取最优参数，所述预测模型即最终得到的强分类器迭代公式为：

F_m(x)＝F_m-1(x)+γ_mh_m(x)