CN107743249A

CN107743249A - 一种基于模型融合的ctr预估方法

Info

Publication number: CN107743249A
Application number: CN201711208968.3A
Authority: CN
Inventors: 牛文臣; 刘鑫; 于跃
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2018-02-27

Abstract

本发明属于大数据技术领域，其公开了一种基于模型融合的CTR预估方法，解决传统技术中采用单一推荐算法不能满足复杂业务场景需求的问题。该方法包括以下步骤：a.获取用户历史观看节目信息，生成模型训练样本集；b.应用多种不同推荐算法生成多个推荐列表；c.应用GBDT+LR模型进行特征选择和回归模型训练，得出特征权重值，计算推荐节目的评分；d.对多个推荐列表中的推荐节目进行组合排序，并作为最终输出结果。

Description

一种基于模型融合的CTR预估方法

技术领域

本发明属于大数据技术领域，具体涉及一种基于模型融合的CTR(点击率)预估方法。

背景技术

随着电子商务的兴起，电子商务网站的极速发展，物品的多样化导致很多用户在浏览网站时无法评估潜在的大量可供选择的物品，无法快速的选择自己有购买愿望的物品。用户迫切的需要一种能过滤出所有可用的替代品的推荐系统，以快速定位需要购买的物品；商家也需要一种推荐系统能快速的帮助用户定位物品，提高用户满意度并产生经济效益。

推荐系统(Recommend System)是一种软件工具和技术方法，可以向用户建议有用的物品，这种建议适用于多种决策过程，如购买什么物品、听什么音乐、看什么电视节目、在网上浏览什么新闻等。“物品”是用来表示系统向用户推荐内容的总称，一个推荐系统通常专注于一个特定类型的物品(如CD或新闻)，因此它的设计、图形用户界面以及用于生成建议的核心的推荐技术都是为特定类型的物品提供有用和有效的建议而定制的。各个行业的推荐系统在整体架构上均保持一致，在具体实现上有不同表现。

目前推荐系统中存在多个维度的推荐算法，有基于用户的协同过滤推荐算法，基于物品的协同过滤推荐算法，基于邻域的推荐算法等；多种算法在用户，物品，物品内容等多个维度进行推荐算法的应用。但单一的算法必将不适合复杂的业务场景，也无法通过一个算法涵盖整个场景的需求。

发明内容

本发明所要解决的技术问题是：提出一种基于模型融合的CTR预估方法，解决传统技术中采用单一推荐算法不能满足复杂业务场景需求的问题。

本发明解决上述技术问题采用的技术方案是：

一种基于模型融合的CTR预估方法,包括以下步骤：

a.获取用户历史观看节目信息，生成模型训练样本集；

b.应用多种不同推荐算法生成多个推荐列表；

c.应用GBDT+LR模型进行特征选择和回归模型训练，得出特征权重值，计算推荐节目的评分；

d.对多个推荐列表中的推荐节目进行组合排序，并作为最终输出结果。

作为进一步优化，步骤a中，利用用户历史观看节目信息生成模型训练所需的正负样本，构建数据字典，将标称数据转换为数值数据进行模型训练。

作为进一步优化，步骤b中，所述多种不同推荐算法包括：基于邻域推荐算法、基于物品相似度推荐算法、基于用户协同过滤推荐算法。

作为进一步优化，步骤c中，所述应用GBDT+LR模型进行特征选择和回归模型训练，具体包括：采用GBDT算法对节目数据进行特征抽取，获取主要特征；采用LR算法生成逻辑回归模型，生成节目的特征权重值，然后应用LR乘法模型结合特征权重值计算节目的评分值。

作为进一步优化，步骤c中，在进行回归模型训练时，去除一些权重很小的特征，保留有效的视频节目特征权重。

本发明的有益效果是：对推荐系统中各种推荐算法生成的推荐节目列表进行综合排序，为多种推荐算法提供一个非常好的结果融合，提高用户点击率，提高经济效益转化率；此外，本发明实现简便，可行性强，不仅适用电视视频推荐系统，在很多电商行业均适用，具有很高的拓展性和实用性。

附图说明

图1为本发明中的基于模型融合的CTR预估方法流程图。

具体实施方式

本发明旨在提出一种基于模型融合的CTR预估方法，解决传统技术采用单一推荐算法无法满足复杂场景需求的问题；在本发明中，获取用户历史观看节目信息，生成模型训练样本集，应用基于邻域推荐算法和基于物品相似度等多种推荐算法生成不同的推荐列表，应用GBDT+LR模型进行特征选择和回归模型训练，得出特征权重值，获取推荐节目评分，对推荐节目组合排序，提高推荐系统的推荐效果，提高用户的满意度和依赖性。

如图1所示，本发明中的基于模型融合的CTR预估方法包括以下实现步骤：

1、获取用户历史观看节目信息，生成模型训练样本集；

2、应用多种不同推荐算法生成多个推荐列表；

3、应用GBDT+LR模型进行特征选择和回归模型训练，得出特征权重值，计算推荐节目评分；

4、对多个推荐列表中的推荐节目进行组合排序，并作为最终输出结果。

在具体实现上，生成训练样本集的方式为：

首先获取click数据和dfeedback数据，然后给数据进行正负样本标记，最后结合数据字典生成训练数值型样本。

GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。GBDT是一种常用的非线性模型，基于集成学习中的boosting思想，每次迭代都在减少残差的梯度方向新建立一棵决策树，迭代多少次就会生成多少棵决策树。GBDT的思想使其可以发现多种有区分性的特征及特征组合，决策树的路径可以直接作为LR输入特征使用，省去了人工寻找特征、特征组合的步骤。

本发明将GBFT算法应用在电视视频推荐中，主要针对视频特征做特征筛选，

下面是一个原始的视频特征:

l7oecwiru33xl5t,3:111 4:126 5:13 6:8.1 511:1.0 21614:1.0 21630:1.023316:1.0 28139:1.0 28142:1.0 28156:1.0 28157:1.0 28160:1.0 28175:85 28176:428177:1

该信息是经过处理的数值信息，可以发现总共有28177个特征，如果所有特征输入LR训练逻辑回归模型，对LR模型来说将会非常困难以至于无法训练有效的LR模型，总的效果也将非常差。应用GBDT模型训练进行特征选择，模型训练后的特征进行了有效组合，将28177个特征缩减为1200个特征。

LR算法是机器学习中最基础却非常实用的算法，通过模型训练上述GBDT给出的特征，并再次去除一些权重很小的特征，保留有效的视频节目特征权重，训练后的部分权重如下:

0:0.09176696522615904 1:0.06168649858248785 2:0.0005000570883659274

565:-0.9817903613930592 576:-0.6077769636253287 669:-1.1155729835410957

672:0.4782005833701194 703:-0.7048814717385173 792:-0.6839165169475748

根据这些权重，应用LR公式可以得出最后该节目的综合评分，对评分进行排序，可以实现对不同视频推荐列表的综合排序。

为了衡量推荐效果以及排序算法的优劣，需要对推荐结果进行对比，本发明采用AbTest测试系统对采用GBDT+LR模型融合的排序结果和采用单一推荐算法的排序结果进行横向对比分析。对于整体用户群，通过一定的比例将部分用户标记为应用基于模型融合的推荐算法，接收到请求URL，判断该URL代表的用户使用哪一种推荐模型，通过一个周期的推荐系统测试，能够直观的得出推荐效果及排序算法的优劣。最后发现，电视推荐系统应用基于模型融合的推荐系统进行CTR预估优于未应用模型融合的推荐系统的CTR预估。

Claims

1.一种基于模型融合的CTR预估方法，其特征在于，包括以下步骤：

a.获取用户历史观看节目信息，生成模型训练样本集；

b.应用多种不同推荐算法生成多个推荐列表；

2.如权利要求1所述的一种基于模型融合的CTR预估方法，其特征在于，步骤a中，利用用户历史观看节目信息生成模型训练所需的正负样本，构建数据字典，将标称数据转换为数值数据进行模型训练。

3.如权利要求1所述的一种基于模型融合的CTR预估方法，其特征在于，步骤b中，所述多种不同推荐算法包括：基于邻域推荐算法、基于物品相似度推荐算法、基于用户协同过滤推荐算法。

4.如权利要求1所述的一种基于模型融合的CTR预估方法，其特征在于，步骤c中，所述应用GBDT+LR模型进行特征选择和回归模型训练，具体包括：采用GBDT算法对节目数据进行特征抽取，获取主要特征；采用LR算法生成逻辑回归模型，生成节目的特征权重值，然后应用LR乘法模型结合特征权重值计算节目的评分值。

5.如权利要求4所述的一种基于模型融合的CTR预估方法，其特征在于，步骤c中，在进行回归模型训练时，去除一些权重很小的特征，保留有效的视频节目特征权重。