CN107635151A - 一种基于域分解机的机器学习电视节目推荐方法 - Google Patents
一种基于域分解机的机器学习电视节目推荐方法 Download PDFInfo
- Publication number
- CN107635151A CN107635151A CN201710876849.9A CN201710876849A CN107635151A CN 107635151 A CN107635151 A CN 107635151A CN 201710876849 A CN201710876849 A CN 201710876849A CN 107635151 A CN107635151 A CN 107635151A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- ffm
- machine learning
- disassembler
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明涉及大数据技术领域,其公开了一种基于域分解机的机器学习电视节目推荐方法,解决传统技术中节目推荐方案中人为干预较多且未仅依据用户历史行为数据的使用,存在推荐效果差的问题。该方法包括以下步骤:a.对用户历史行为数据和节目特征信息进行整理;b.将整理出来的数据作为模型基础数据,构建FFM算法推荐模型;c.基于构建的FFM算法推荐模型并采用逻辑回归算法计算推荐结果;d.对推荐结果进行排序,将排序后的推荐结果推送给用户。
Description
技术领域
本发明涉及大数据技术领域,具体涉及一种基于域分解机的机器学习电视节目推荐方法。
背景技术
目前,电视节目推荐系统已经作为智能电视平台的一个重要组成部分,而分析传统的电视节目推荐系统会发现在推荐节目特征的选取上,人工干预的痕迹十分明显,包括节目名字,类别,年代等各种特征的选取。所谓推荐节目特征包括,推荐过程中,是基于电视节目的类型,如武打,军事为依据作为主要推荐权重,或者基于年代,演员为依据作为主要推荐权重,这些权重比例的选取往往是由人主观去决定的。所以导致了推荐过程中不利于个性化的推荐和推荐效果的提升。
同时,在用户历史行为数据的使用上,传统的电视推荐系统主要是依据用户做的统计分析,确定用户的偏好后,推荐用户对应偏好的节目,脱离了电视节目本身更多特征的结合,同时单独做用户偏好的统计分析十分的耗费资源和时间。传统技术中的推荐算法流程如图1所示,图中的推荐算法引擎部分,主要就是使用的item-cf和user-cf的算法来生成推荐结果并缓存在codis中,并且直接由推荐后台服务直接进行调用。
发明内容
本发明所要解决的技术问题是:提出一种基于域分解机的机器学习电视节目推荐方法,解决传统技术中节目推荐方案中人为干预较多且未仅依据用户历史行为数据的使用,存在推荐效果差的问题。
本发明解决其技术问题所采用的技术方案是:
一种基于域分解机的机器学习电视节目推荐方法,包括以下步骤:
a.对用户历史行为数据和节目特征信息进行整理;
b.将整理出来的数据作为模型基础数据,构建FFM算法推荐模型;
c.基于构建的FFM算法推荐模型并采用逻辑回归算法计算推荐结果;
d.对推荐结果进行排序,将排序后的推荐结果推送给用户。
作为进一步优化,步骤a中,所述整理具体包括:
选取时间段的用户历史行为数据,清洗数据重复的样本,同时,针对媒体库信息的节目样本进行整理,并进行特征扩维,最后将用户历史对应样本的节目和节目特征合并为一个样本数据,并将样本数据转化为FFM算法使用的格式field_id:feat_id:value。
作为进一步优化,步骤b中,所述构建FFM算法推荐模型的方法包括:
将模型基础数据分成训练集,测试集,以及交叉验证集;使用libffm包对训练集和测试集同时使用,生成预估模型,之后使用交叉验证集对模型进行性能评估。
作为进一步优化,步骤c中,所述基于构建的FFM算法推荐模型并采用逻辑回归算法计算推荐结果,具体包括:
逻辑回归算法的模型为权重w和变量值x的乘积,在这里x的值为节目的特征值,w是通过训练生成的对应的特征的权重值;
当用户的请求发起后,逻辑回归算法会依据用户的mac值,去取得FFM算出来当前用户的w值,然后取得推荐预选结果的所有节目的特征值,然后计算出所有节目的样本值得分,并对结果进行排序。
作为进一步优化,步骤d中,针对每次用户的推荐请求,对推荐结果进行重新排序。
本发明的有益效果是:
对电视节目推荐过程中推荐用户历史数据的使用,人工干预推荐节目特征的选取,以及推荐结果排序非智能化都进行了优化,提高了推荐电视节目效果,使其更具有用户个性化,由系统根据用户历史行为数据以及节目特征选择推荐相关特征,并训练出推荐模型,大大降低了人工干预,提升推荐效果。
附图说明
图1为传统的推荐系统的推荐流程图;
图2为本发明基于FFM算法的机器学习的推荐流程图;
图3为本发明建立FFM算法模型的流程。
具体实施方式
本发明旨在提出一种基于域分解机的机器学习电视节目推荐方法,解决传统技术中节目推荐方案中人为干预较多且未仅依据用户历史行为数据的使用,存在推荐效果差的问题。
为便于理解,首先介绍电视节目的推荐流程。电视节目推荐系统主要包括,用户历史行为数据的处理,在线推荐算法,离线推荐算法的推荐结果产出,依据用户画像和节目特征,推荐结果排序并推荐给用户。提取出其中重点流程,如下:
1.用户历史行为数据,节目特征数据的采集与整理。
2.推荐算法模型的建立与推荐结果的产出。
3.推荐模型与线上推荐系统的接入。
在上述的推荐系统的重点流程中,发现传统的推荐系统主要弊端如下,分别是:
1)在上述流程步骤1中,采集的信息主要包括用户已经观看并上报的节目信息,以及用户被推荐过的节目信息,传统的推荐系统只是离线的使用了这一部分数据进行用户画像的生成,而并没有用于用户推荐系统机器学习算法的推荐模型建立,大大的降低了推荐效果的实时性,以及推荐用户的个性化。比如用户Max的画像为综艺娱乐0.8,电影0.6,电视剧0.4,说明此用户对综艺娱乐的权重很高,而且更新此用户的这个画像描述的计算时间长度是非常长的,一般是不具备时效性,对用户的描述性十分的模糊,并没有使用到节目的具体信息,比如节目Id,演员偏好之类的。
2)在上述流程步骤2中,如今的传统推荐算法模型基本都是使用的物品协同过滤(Item-CF)和用户协同过滤(User-CF)算法来生成推荐结果,这对于用户量和数据量十分巨大的电视节目推荐是十分耗时的,更新一次算法的推荐结果往往要花上数天的时间,而且由于大量用户的观影行为的存在和以及用户类好不一样,导致计算数据十分稀疏,从而增大了计算的开销。而且传统的推荐算法主要是两种,其中一种是用户的观影行为的相互影响去推算相似用户会喜欢什么节目,没有使用到节目的属性,第二种就是依据节目的相似性来推算用户会喜欢什么节目,没有使用到用户的历史观影行为所产生的效应。
3)在上述流程步骤3中,经由离线算法和推荐算法产出的推荐结果直接由推荐系统提供给用户使用,这样常常导致用户在表示了对结果的不喜好的情况下,还持续的按照过往的推荐结果排序推荐给用户,在推荐算法接入推荐系统的过程中并没有一个智能排序的过程,来实时的学习用户的行为,并改善排序,及时的传递给用户,提高用户的体验。
针对上述三个方面的问题,本发明所采用的解决手段为:
一、使用FFM算法来整合用户历史行为数据和电视节目特征数据,生成机器学习模型,产出推荐结果。
FFM算法是在fm(Factorization Machine)的基础上进行改进的,fm是高阶特征的处理方式,将绝对特征categorical特征通过one-hot-code的方式编码成更高维度的特征。这种方式使用fm就可以处理,但是处理的过程中由于扩展了维后,很多样本的特征值为零,因此需要很大量的数据才能保证计算精度。FFM的方式提出了field的概念,在one-hot-code扩维后,处理高阶特征的时候将隐向量在域的方向上增加了一维映射。FFM的数据只使用值存在的特征,降低了需要样本的数量。由于存在这样的优势,所以FFM可以同时使用用户特征和节目特征作为一个数据集进行训练,这样保证了用户的个性化的同时提高推荐效果。
二、在推荐算法产出推荐结果后一般推荐方式就是做一个排序,将结果依次分批推荐给用户,在用户对前面批次的推荐结果保持良好满意度的情况下,这种推荐方式没有什么不可,但是当用户对前面批次的推荐结果保持差的满意度的情况下,这种推荐方式就暴露了弊端,所以针对这一点,采取的措施有:
1)建立用户历史行为数据的实时采集计算系统,在用户收到推荐结果和观看记录后会有电视终端将数据上报到服务器的kafka消息队列库,然后由实时计算系统storm将数据写入到coids缓存数据库中。
2)有了用户的实时数据后,使用逻辑回归算法(LR)读取在coids中缓存的用户实时观影行为,更具这些节目的特征对推荐算法中的推荐结果进行实时的智能排序,从而提高推荐效果,提升用户的体验。
在具体实施上,本发明基于FFM算法的机器学习的推荐流程如图2所示,可以看出,相对于传统模型增加了菱形框的部分,一个是FFM算法模型,另一个是智能Rank排序。FFM算法模型的加入增加了推荐结果的准确性和多样性,丰富了推荐结果。Rank智能排序的增加使得推荐结果更加的智能化,更适用于个性化的用户。
其实现的主要步骤包括:
一、用户历史行为数据和节目特征信息的整理:
数据整理是提供给FFM算法使用,因此需要进行FFM特征形式构造,首先使用One-hot code对数据进行编码,将例如“成龙”,“李连杰”等文字属性的特征处理成数字特征,并做数据归一化处理,省略零值特征。
接下来的实施方式就是将上个步骤的结果转化成”field_id:feat_id:value”的格式,经过one-hot处理的数据后,则取索引就是相应这个fielld里面的feature_id.如[0,1,3]这个例子假设这是三个特征一起one-hot,则他们属于一个field,假设field_id为1,这更具独热编码组成的FFM格式数据为1:1:1,1:4:1。
二、FFM算法推荐模型的建立:
建立模型的过程如图3所示,其包括了用户历史数据的选取,清洗和媒体库新的整理以及特征扩维,数据样本合并,使用libffm进行模型训练,模型验证以及保存。
具体而言,供FMM算法使用的数据整理好后,分成训练集,测试集,以及交叉验证集。
使用libffm包对训练集和测试集同时使用,生成预估模型,这里使用测试集的目的是进行验证是防止训练的过程中有过拟合的存在,之后使用交叉验证集对模型进行性能评估,其中在生成模型的过程中加入auto-stop参数防止过拟合,训练的过程中第一次训练时需要去根据训练的损失值logloss去调整训练的参数k,r和s的值来达到最低的损失值,损失值越低则模型的效果越好。
三、逻辑回归算法的线上使用:
逻辑回归算法的模型为权重w和变量值x的乘积,在这里x的值为节目的特征值,w是通过训练生成的对应的特征的权重值。
当用户的请求发起后,逻辑回归算法会依据用户的mac值,去取得FFM算出来当前用户的w值,然后取得推荐预选结果的所有节目的特征值,然后计算出所有节目的样本值得分,并对结果进行排序。这样每次不同用户的请求来了之后,都会做一次排序并把结果推送给用户,从而避免了以前的一次排序就一直使用的情况发生。
Claims (5)
1.一种基于域分解机的机器学习电视节目推荐方法,其特征在于,包括以下步骤:
a.对用户历史行为数据和节目特征信息进行整理;
b.将整理出来的数据作为模型基础数据,构建FFM算法推荐模型;
c.基于构建的FFM算法推荐模型并采用逻辑回归算法计算推荐结果;
d.对推荐结果进行排序,将排序后的推荐结果推送给用户。
2.如权利要求1所述的一种基于域分解机的机器学习电视节目推荐方法,其特征在于,步骤a中,所述整理具体包括:
选取时间段的用户历史行为数据,清洗数据重复的样本,同时,针对媒体库信息的节目样本进行整理,并进行特征扩维,最后将用户历史对应样本的节目和节目特征合并为一个样本数据,并将样本数据转化为FFM算法使用的格式field_id:feat_id:value。
3.如权利要求1所述的一种基于域分解机的机器学习电视节目推荐方法,其特征在于,步骤b中,所述构建FFM算法推荐模型的方法包括:
将模型基础数据分成训练集,测试集,以及交叉验证集;使用libffm包对训练集和测试集同时使用,生成预估模型,之后使用交叉验证集对模型进行性能评估。
4.如权利要求1所述的一种基于域分解机的机器学习电视节目推荐方法,其特征在于,步骤c中,所述基于构建的FFM算法推荐模型并采用逻辑回归算法计算推荐结果,具体包括:
逻辑回归算法的模型为权重w和变量值x的乘积,在这里x的值为节目的特征值,w是通过训练生成的对应的特征的权重值;
当用户的请求发起后,逻辑回归算法会依据用户的mac值,去取得FFM算出来当前用户的w值,然后取得推荐预选结果的所有节目的特征值,然后计算出所有节目的样本值得分,并对结果进行排序。
5.如权利要求1-4任意一项所述的一种基于域分解机的机器学习电视节目推荐方法,其特征在于,步骤d中,针对每次用户的推荐请求,对推荐结果进行重新排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710876849.9A CN107635151A (zh) | 2017-09-25 | 2017-09-25 | 一种基于域分解机的机器学习电视节目推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710876849.9A CN107635151A (zh) | 2017-09-25 | 2017-09-25 | 一种基于域分解机的机器学习电视节目推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107635151A true CN107635151A (zh) | 2018-01-26 |
Family
ID=61103668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710876849.9A Pending CN107635151A (zh) | 2017-09-25 | 2017-09-25 | 一种基于域分解机的机器学习电视节目推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107635151A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109064091A (zh) * | 2018-07-13 | 2018-12-21 | 天津五八到家科技有限公司 | 资源确定、资源处理方法及装置 |
CN109067690A (zh) * | 2018-08-07 | 2018-12-21 | 腾讯科技(深圳)有限公司 | 离线计算结果数据的推送方法及装置 |
CN109408729A (zh) * | 2018-12-05 | 2019-03-01 | 广州市百果园信息技术有限公司 | 推荐物料确定方法、装置、存储介质和计算机设备 |
CN110335678A (zh) * | 2019-05-30 | 2019-10-15 | 中国人民解放军总医院 | 一种高原适应性评估方法及系统 |
CN110472152A (zh) * | 2019-08-16 | 2019-11-19 | 南京云帐房网络科技有限公司 | 在线离线混合推荐方法及系统 |
CN110555572A (zh) * | 2018-05-30 | 2019-12-10 | 顺丰科技有限公司 | 替班推荐系统和方法 |
CN111045337A (zh) * | 2019-11-15 | 2020-04-21 | 珠海格力电器股份有限公司 | 窗帘的自动开闭控制方法、系统、电子设备及存储介质 |
CN111931038A (zh) * | 2020-06-18 | 2020-11-13 | 珠海格力电器股份有限公司 | 确定推荐启动时间的方法、装置、设备及存储介质 |
CN112817442A (zh) * | 2021-01-20 | 2021-05-18 | 北京理工大学 | 基于ffm的多任务情况下态势信息分类推荐系统及方法 |
CN114143566A (zh) * | 2021-11-01 | 2022-03-04 | 北京达佳互联信息技术有限公司 | 一种信息推送方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104936023A (zh) * | 2015-06-11 | 2015-09-23 | 嘉兴市广播电视集团 | 一种数字电视用户行为的大数据采集与分析方法及系统 |
CN105142028A (zh) * | 2015-07-29 | 2015-12-09 | 华中科技大学 | 面向三网融合的电视节目内容搜索与推荐方法 |
CN106446015A (zh) * | 2016-08-29 | 2017-02-22 | 北京工业大学 | 一种基于用户行为偏好的视频内容访问预测与推荐方法 |
CN106528813A (zh) * | 2016-11-18 | 2017-03-22 | 腾讯科技(深圳)有限公司 | 一种多媒体推荐方法和装置 |
US20170142462A1 (en) * | 2015-11-16 | 2017-05-18 | Telefonaktiebolaget L M Ericsson (Publ) | Techniques for generating and providing personalized dynamic live content feeds |
US20170155939A1 (en) * | 2015-09-12 | 2017-06-01 | The Aleph Group Pte., Limited | Method and System for Processing Data Used By Creative Users to Create Media Content |
-
2017
- 2017-09-25 CN CN201710876849.9A patent/CN107635151A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104936023A (zh) * | 2015-06-11 | 2015-09-23 | 嘉兴市广播电视集团 | 一种数字电视用户行为的大数据采集与分析方法及系统 |
CN105142028A (zh) * | 2015-07-29 | 2015-12-09 | 华中科技大学 | 面向三网融合的电视节目内容搜索与推荐方法 |
US20170155939A1 (en) * | 2015-09-12 | 2017-06-01 | The Aleph Group Pte., Limited | Method and System for Processing Data Used By Creative Users to Create Media Content |
US20170142462A1 (en) * | 2015-11-16 | 2017-05-18 | Telefonaktiebolaget L M Ericsson (Publ) | Techniques for generating and providing personalized dynamic live content feeds |
CN106446015A (zh) * | 2016-08-29 | 2017-02-22 | 北京工业大学 | 一种基于用户行为偏好的视频内容访问预测与推荐方法 |
CN106528813A (zh) * | 2016-11-18 | 2017-03-22 | 腾讯科技(深圳)有限公司 | 一种多媒体推荐方法和装置 |
Non-Patent Citations (1)
Title |
---|
YUCHIN JUAN等: "Field-aware Factorization Machines for CTR Prediction", 《PROCEEDINGS OF THE 10TH ACM CONFERENCE ON RECOMMENDER SYSTEMS》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555572A (zh) * | 2018-05-30 | 2019-12-10 | 顺丰科技有限公司 | 替班推荐系统和方法 |
CN109064091A (zh) * | 2018-07-13 | 2018-12-21 | 天津五八到家科技有限公司 | 资源确定、资源处理方法及装置 |
CN109067690A (zh) * | 2018-08-07 | 2018-12-21 | 腾讯科技(深圳)有限公司 | 离线计算结果数据的推送方法及装置 |
CN109408729A (zh) * | 2018-12-05 | 2019-03-01 | 广州市百果园信息技术有限公司 | 推荐物料确定方法、装置、存储介质和计算机设备 |
CN109408729B (zh) * | 2018-12-05 | 2022-02-08 | 广州市百果园信息技术有限公司 | 推荐物料确定方法、装置、存储介质和计算机设备 |
CN110335678A (zh) * | 2019-05-30 | 2019-10-15 | 中国人民解放军总医院 | 一种高原适应性评估方法及系统 |
CN110472152A (zh) * | 2019-08-16 | 2019-11-19 | 南京云帐房网络科技有限公司 | 在线离线混合推荐方法及系统 |
CN110472152B (zh) * | 2019-08-16 | 2022-09-16 | 云帐房网络科技有限公司 | 在线离线混合推荐方法及系统 |
CN111045337A (zh) * | 2019-11-15 | 2020-04-21 | 珠海格力电器股份有限公司 | 窗帘的自动开闭控制方法、系统、电子设备及存储介质 |
CN111931038A (zh) * | 2020-06-18 | 2020-11-13 | 珠海格力电器股份有限公司 | 确定推荐启动时间的方法、装置、设备及存储介质 |
CN112817442A (zh) * | 2021-01-20 | 2021-05-18 | 北京理工大学 | 基于ffm的多任务情况下态势信息分类推荐系统及方法 |
CN112817442B (zh) * | 2021-01-20 | 2023-07-25 | 北京理工大学 | 基于ffm的多任务情况下态势信息分类推荐系统及方法 |
CN114143566A (zh) * | 2021-11-01 | 2022-03-04 | 北京达佳互联信息技术有限公司 | 一种信息推送方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107635151A (zh) | 一种基于域分解机的机器学习电视节目推荐方法 | |
CN110442790A (zh) | 推荐多媒体数据的方法、装置、服务器和存储介质 | |
CN110704674B (zh) | 一种视频播放完整度预测方法及装置 | |
CN111797321A (zh) | 一种面向不同场景的个性化知识推荐方法及系统 | |
CN108737856B (zh) | 社会关系感知的iptv用户行为建模与节目推荐方法 | |
CN107423442A (zh) | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 | |
CN103744928B (zh) | 一种基于历史访问记录的网络视频分类方法 | |
CN113468227B (zh) | 基于图神经网络的信息推荐方法、系统、设备和存储介质 | |
CN112765480B (zh) | 一种信息推送方法、装置及计算机可读存储介质 | |
CN111310063A (zh) | 基于神经网络的记忆感知门控因子分解机物品推荐方法 | |
CN112613552B (zh) | 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法 | |
CN106168980A (zh) | 多媒体资源推荐排序方法及装置 | |
CN112598438A (zh) | 一种基于大规模用户画像的户外广告推荐系统及方法 | |
CN106951471A (zh) | 一种基于svm的标签发展趋势预测模型的构建方法 | |
CN112749330B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN112801760A (zh) | 一种内容个性化推荐系统的排序优化方法及系统 | |
CN108563749B (zh) | 基于多维度信息和知识网络的在线教育系统资源推荐方法 | |
CN116541607B (zh) | 基于商品检索数据分析的智能推荐方法 | |
Borges et al. | On measuring popularity bias in collaborative filtering data | |
CN109977299A (zh) | 一种融合项目热度和专家系数的推荐算法 | |
CN115510322A (zh) | 一种基于深度学习的多目标优化推荐方法 | |
CN115186197A (zh) | 一种基于端到端双曲空间的用户推荐方法 | |
CN115618101A (zh) | 基于负反馈的流媒体内容推荐方法、装置及电子设备 | |
CN114781503A (zh) | 一种基于深度特征融合的点击率预估方法 | |
CN116320626B (zh) | 一种计算电商直播热度的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180126 |