CN107743249A - 一种基于模型融合的ctr预估方法 - Google Patents
一种基于模型融合的ctr预估方法 Download PDFInfo
- Publication number
- CN107743249A CN107743249A CN201711208968.3A CN201711208968A CN107743249A CN 107743249 A CN107743249 A CN 107743249A CN 201711208968 A CN201711208968 A CN 201711208968A CN 107743249 A CN107743249 A CN 107743249A
- Authority
- CN
- China
- Prior art keywords
- program
- feature
- model
- methods based
- model training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/252—Processing of multiple end-users' preferences to derive collaborative data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25866—Management of end-user data
- H04N21/25891—Management of end-user data being end-user preferences
Abstract
本发明属于大数据技术领域,其公开了一种基于模型融合的CTR预估方法,解决传统技术中采用单一推荐算法不能满足复杂业务场景需求的问题。该方法包括以下步骤:a.获取用户历史观看节目信息,生成模型训练样本集;b.应用多种不同推荐算法生成多个推荐列表;c.应用GBDT+LR模型进行特征选择和回归模型训练,得出特征权重值,计算推荐节目的评分;d.对多个推荐列表中的推荐节目进行组合排序,并作为最终输出结果。
Description
技术领域
本发明属于大数据技术领域,具体涉及一种基于模型融合的CTR(点击率)预估方法。
背景技术
随着电子商务的兴起,电子商务网站的极速发展,物品的多样化导致很多用户在浏览网站时无法评估潜在的大量可供选择的物品,无法快速的选择自己有购买愿望的物品。用户迫切的需要一种能过滤出所有可用的替代品的推荐系统,以快速定位需要购买的物品;商家也需要一种推荐系统能快速的帮助用户定位物品,提高用户满意度并产生经济效益。
推荐系统(Recommend System)是一种软件工具和技术方法,可以向用户建议有用的物品,这种建议适用于多种决策过程,如购买什么物品、听什么音乐、看什么电视节目、在网上浏览什么新闻等。“物品”是用来表示系统向用户推荐内容的总称,一个推荐系统通常专注于一个特定类型的物品(如CD或新闻),因此它的设计、图形用户界面以及用于生成建议的核心的推荐技术都是为特定类型的物品提供有用和有效的建议而定制的。各个行业的推荐系统在整体架构上均保持一致,在具体实现上有不同表现。
目前推荐系统中存在多个维度的推荐算法,有基于用户的协同过滤推荐算法,基于物品的协同过滤推荐算法,基于邻域的推荐算法等;多种算法在用户,物品,物品内容等多个维度进行推荐算法的应用。但单一的算法必将不适合复杂的业务场景,也无法通过一个算法涵盖整个场景的需求。
发明内容
本发明所要解决的技术问题是:提出一种基于模型融合的CTR预估方法,解决传统技术中采用单一推荐算法不能满足复杂业务场景需求的问题。
本发明解决上述技术问题采用的技术方案是:
一种基于模型融合的CTR预估方法,包括以下步骤:
a.获取用户历史观看节目信息,生成模型训练样本集;
b.应用多种不同推荐算法生成多个推荐列表;
c.应用GBDT+LR模型进行特征选择和回归模型训练,得出特征权重值,计算推荐节目的评分;
d.对多个推荐列表中的推荐节目进行组合排序,并作为最终输出结果。
作为进一步优化,步骤a中,利用用户历史观看节目信息生成模型训练所需的正负样本,构建数据字典,将标称数据转换为数值数据进行模型训练。
作为进一步优化,步骤b中,所述多种不同推荐算法包括:基于邻域推荐算法、基于物品相似度推荐算法、基于用户协同过滤推荐算法。
作为进一步优化,步骤c中,所述应用GBDT+LR模型进行特征选择和回归模型训练,具体包括:采用GBDT算法对节目数据进行特征抽取,获取主要特征;采用LR算法生成逻辑回归模型,生成节目的特征权重值,然后应用LR乘法模型结合特征权重值计算节目的评分值。
作为进一步优化,步骤c中,在进行回归模型训练时,去除一些权重很小的特征,保留有效的视频节目特征权重。
本发明的有益效果是:对推荐系统中各种推荐算法生成的推荐节目列表进行综合排序,为多种推荐算法提供一个非常好的结果融合,提高用户点击率,提高经济效益转化率;此外,本发明实现简便,可行性强,不仅适用电视视频推荐系统,在很多电商行业均适用,具有很高的拓展性和实用性。
附图说明
图1为本发明中的基于模型融合的CTR预估方法流程图。
具体实施方式
本发明旨在提出一种基于模型融合的CTR预估方法,解决传统技术采用单一推荐算法无法满足复杂场景需求的问题;在本发明中,获取用户历史观看节目信息,生成模型训练样本集,应用基于邻域推荐算法和基于物品相似度等多种推荐算法生成不同的推荐列表,应用GBDT+LR模型进行特征选择和回归模型训练,得出特征权重值,获取推荐节目评分,对推荐节目组合排序,提高推荐系统的推荐效果,提高用户的满意度和依赖性。
如图1所示,本发明中的基于模型融合的CTR预估方法包括以下实现步骤:
1、获取用户历史观看节目信息,生成模型训练样本集;
2、应用多种不同推荐算法生成多个推荐列表;
3、应用GBDT+LR模型进行特征选择和回归模型训练,得出特征权重值,计算推荐节目评分;
4、对多个推荐列表中的推荐节目进行组合排序,并作为最终输出结果。
在具体实现上,生成训练样本集的方式为:
首先获取click数据和dfeedback数据,然后给数据进行正负样本标记,最后结合数据字典生成训练数值型样本。
GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。GBDT是一种常用的非线性模型,基于集成学习中的boosting思想,每次迭代都在减少残差的梯度方向新建立一棵决策树,迭代多少次就会生成多少棵决策树。GBDT的思想使其可以发现多种有区分性的特征及特征组合,决策树的路径可以直接作为LR输入特征使用,省去了人工寻找特征、特征组合的步骤。
本发明将GBFT算法应用在电视视频推荐中,主要针对视频特征做特征筛选,
下面是一个原始的视频特征:
l7oecwiru33xl5t,3:111 4:126 5:13 6:8.1 511:1.0 21614:1.0 21630:1.023316:1.0 28139:1.0 28142:1.0 28156:1.0 28157:1.0 28160:1.0 28175:85 28176:428177:1
该信息是经过处理的数值信息,可以发现总共有28177个特征,如果所有特征输入LR训练逻辑回归模型,对LR模型来说将会非常困难以至于无法训练有效的LR模型,总的效果也将非常差。应用GBDT模型训练进行特征选择,模型训练后的特征进行了有效组合,将28177个特征缩减为1200个特征。
LR算法是机器学习中最基础却非常实用的算法,通过模型训练上述GBDT给出的特征,并再次去除一些权重很小的特征,保留有效的视频节目特征权重,训练后的部分权重如下:
0:0.09176696522615904 1:0.06168649858248785 2:0.0005000570883659274
565:-0.9817903613930592 576:-0.6077769636253287 669:-1.1155729835410957
672:0.4782005833701194 703:-0.7048814717385173 792:-0.6839165169475748
根据这些权重,应用LR公式可以得出最后该节目的综合评分,对评分进行排序,可以实现对不同视频推荐列表的综合排序。
为了衡量推荐效果以及排序算法的优劣,需要对推荐结果进行对比,本发明采用AbTest测试系统对采用GBDT+LR模型融合的排序结果和采用单一推荐算法的排序结果进行横向对比分析。对于整体用户群,通过一定的比例将部分用户标记为应用基于模型融合的推荐算法,接收到请求URL,判断该URL代表的用户使用哪一种推荐模型,通过一个周期的推荐系统测试,能够直观的得出推荐效果及排序算法的优劣。最后发现,电视推荐系统应用基于模型融合的推荐系统进行CTR预估优于未应用模型融合的推荐系统的CTR预估。
Claims (5)
1.一种基于模型融合的CTR预估方法,其特征在于,包括以下步骤:
a.获取用户历史观看节目信息,生成模型训练样本集;
b.应用多种不同推荐算法生成多个推荐列表;
c.应用GBDT+LR模型进行特征选择和回归模型训练,得出特征权重值,计算推荐节目的评分;
d.对多个推荐列表中的推荐节目进行组合排序,并作为最终输出结果。
2.如权利要求1所述的一种基于模型融合的CTR预估方法,其特征在于,步骤a中,利用用户历史观看节目信息生成模型训练所需的正负样本,构建数据字典,将标称数据转换为数值数据进行模型训练。
3.如权利要求1所述的一种基于模型融合的CTR预估方法,其特征在于,步骤b中,所述多种不同推荐算法包括:基于邻域推荐算法、基于物品相似度推荐算法、基于用户协同过滤推荐算法。
4.如权利要求1所述的一种基于模型融合的CTR预估方法,其特征在于,步骤c中,所述应用GBDT+LR模型进行特征选择和回归模型训练,具体包括:采用GBDT算法对节目数据进行特征抽取,获取主要特征;采用LR算法生成逻辑回归模型,生成节目的特征权重值,然后应用LR乘法模型结合特征权重值计算节目的评分值。
5.如权利要求4所述的一种基于模型融合的CTR预估方法,其特征在于,步骤c中,在进行回归模型训练时,去除一些权重很小的特征,保留有效的视频节目特征权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711208968.3A CN107743249A (zh) | 2017-11-27 | 2017-11-27 | 一种基于模型融合的ctr预估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711208968.3A CN107743249A (zh) | 2017-11-27 | 2017-11-27 | 一种基于模型融合的ctr预估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107743249A true CN107743249A (zh) | 2018-02-27 |
Family
ID=61239286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711208968.3A Pending CN107743249A (zh) | 2017-11-27 | 2017-11-27 | 一种基于模型融合的ctr预估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107743249A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960293A (zh) * | 2018-06-12 | 2018-12-07 | 玩咖欢聚文化传媒(北京)有限公司 | 基于fm算法的ctr预估方法及系统 |
CN109241451A (zh) * | 2018-11-08 | 2019-01-18 | 北京点网聚科技有限公司 | 一种内容组合推荐方法、装置及可读存储介质 |
CN109376419A (zh) * | 2018-10-16 | 2019-02-22 | 北京字节跳动网络技术有限公司 | 一种数据建模的方法、装置、电子设备及可读介质 |
CN110569428A (zh) * | 2019-08-08 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 一种推荐模型的构建方法、装置及设备 |
CN110728301A (zh) * | 2019-09-09 | 2020-01-24 | 北京镭文科技有限公司 | 一种个人用户的信用评分方法、装置、终端及存储介质 |
CN110851718A (zh) * | 2019-11-11 | 2020-02-28 | 重庆邮电大学 | 一种基于长短时记忆网络以及用户评论的电影推荐方法 |
CN111385659A (zh) * | 2018-12-29 | 2020-07-07 | 广州市百果园信息技术有限公司 | 一种视频推荐方法、装置、设备及存储介质 |
CN111797320A (zh) * | 2020-07-02 | 2020-10-20 | 中国联合网络通信集团有限公司 | 数据处理方法、装置、设备及存储介质 |
CN111861605A (zh) * | 2019-04-28 | 2020-10-30 | 阿里巴巴集团控股有限公司 | 业务对象推荐方法 |
CN111898675A (zh) * | 2020-07-30 | 2020-11-06 | 北京云从科技有限公司 | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 |
CN113168424A (zh) * | 2018-12-11 | 2021-07-23 | 贝宝公司 | 使用可伸缩的跨领域协同过滤来获得推荐的系统和方法 |
CN113240355A (zh) * | 2021-07-12 | 2021-08-10 | 贝壳找房(北京)科技有限公司 | Im服务评价模型的训练方法及评价方法 |
CN113762535A (zh) * | 2021-03-18 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种物品召回方法和装置 |
-
2017
- 2017-11-27 CN CN201711208968.3A patent/CN107743249A/zh active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960293A (zh) * | 2018-06-12 | 2018-12-07 | 玩咖欢聚文化传媒(北京)有限公司 | 基于fm算法的ctr预估方法及系统 |
CN108960293B (zh) * | 2018-06-12 | 2021-02-05 | 玩咖欢聚文化传媒(北京)有限公司 | 基于fm算法的ctr预估方法及系统 |
CN109376419A (zh) * | 2018-10-16 | 2019-02-22 | 北京字节跳动网络技术有限公司 | 一种数据建模的方法、装置、电子设备及可读介质 |
CN109376419B (zh) * | 2018-10-16 | 2023-12-22 | 北京字节跳动网络技术有限公司 | 一种数据模型的生成方法、装置、电子设备及可读介质 |
CN109241451B (zh) * | 2018-11-08 | 2021-07-16 | 北京一点网聚科技有限公司 | 一种内容组合推荐方法、装置及可读存储介质 |
CN109241451A (zh) * | 2018-11-08 | 2019-01-18 | 北京点网聚科技有限公司 | 一种内容组合推荐方法、装置及可读存储介质 |
CN113168424A (zh) * | 2018-12-11 | 2021-07-23 | 贝宝公司 | 使用可伸缩的跨领域协同过滤来获得推荐的系统和方法 |
CN111385659A (zh) * | 2018-12-29 | 2020-07-07 | 广州市百果园信息技术有限公司 | 一种视频推荐方法、装置、设备及存储介质 |
CN111861605A (zh) * | 2019-04-28 | 2020-10-30 | 阿里巴巴集团控股有限公司 | 业务对象推荐方法 |
CN110569428A (zh) * | 2019-08-08 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 一种推荐模型的构建方法、装置及设备 |
CN110569428B (zh) * | 2019-08-08 | 2023-10-20 | 创新先进技术有限公司 | 一种推荐模型的构建方法、装置及设备 |
CN110728301A (zh) * | 2019-09-09 | 2020-01-24 | 北京镭文科技有限公司 | 一种个人用户的信用评分方法、装置、终端及存储介质 |
CN110851718A (zh) * | 2019-11-11 | 2020-02-28 | 重庆邮电大学 | 一种基于长短时记忆网络以及用户评论的电影推荐方法 |
CN110851718B (zh) * | 2019-11-11 | 2022-06-28 | 重庆邮电大学 | 一种基于长短时记忆网络以及用户评论的电影推荐方法 |
CN111797320B (zh) * | 2020-07-02 | 2023-06-06 | 中国联合网络通信集团有限公司 | 数据处理方法、装置、设备及存储介质 |
CN111797320A (zh) * | 2020-07-02 | 2020-10-20 | 中国联合网络通信集团有限公司 | 数据处理方法、装置、设备及存储介质 |
CN111898675B (zh) * | 2020-07-30 | 2021-04-23 | 北京云从科技有限公司 | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 |
CN111898675A (zh) * | 2020-07-30 | 2020-11-06 | 北京云从科技有限公司 | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 |
CN113762535A (zh) * | 2021-03-18 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种物品召回方法和装置 |
CN113240355A (zh) * | 2021-07-12 | 2021-08-10 | 贝壳找房(北京)科技有限公司 | Im服务评价模型的训练方法及评价方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107743249A (zh) | 一种基于模型融合的ctr预估方法 | |
CN103729359B (zh) | 一种推荐搜索词的方法及系统 | |
Tso-Sutter et al. | Tag-aware recommender systems by fusion of collaborative filtering algorithms | |
CN104035927B (zh) | 一种基于用户行为的搜索方法及系统 | |
CN108509465A (zh) | 一种视频数据的推荐方法、装置和服务器 | |
CN105975472A (zh) | 一种推荐方法和装置 | |
CN104111941B (zh) | 信息展示的方法及设备 | |
US9727906B1 (en) | Generating item clusters based on aggregated search history data | |
CN109684538A (zh) | 一种基于用户个人特征的推荐方法及推荐系统 | |
CN103069414A (zh) | 信息处理设备、信息处理方法和程序 | |
CN106105096A (zh) | 用于连续社交通信的系统和方法 | |
US9767208B1 (en) | Recommendations for creation of content items | |
CN101482884A (zh) | 一种基于用户偏好评分分布的协作推荐系统 | |
CN106933821A (zh) | 一种基于相似度计算的个性化职位推荐方法和系统 | |
CN105740268A (zh) | 一种信息推送方法和装置 | |
TW201905736A (zh) | 資訊推送方法及系統 | |
CN110019943A (zh) | 视频推荐方法、装置、电子设备和存储介质 | |
CN106708883A (zh) | 推荐方法及装置 | |
CN106126605B (zh) | 一种基于用户画像的短文本分类方法 | |
US20110004508A1 (en) | Method and system of generating guidance information | |
Huang et al. | Leveraging the crowd to improve feature-sentiment analysis of user reviews | |
CN106991522A (zh) | 一种基于内容的新车型评分预测方法 | |
CN104503988A (zh) | 搜索方法及装置 | |
CN109977219A (zh) | 基于启发式规则的文本摘要自动生成方法及装置 | |
CN106156351A (zh) | 多媒体资源推荐信息生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180227 |