CN111046280A - 一种应用fm的跨领域推荐方法 - Google Patents
一种应用fm的跨领域推荐方法 Download PDFInfo
- Publication number
- CN111046280A CN111046280A CN201911214266.5A CN201911214266A CN111046280A CN 111046280 A CN111046280 A CN 111046280A CN 201911214266 A CN201911214266 A CN 201911214266A CN 111046280 A CN111046280 A CN 111046280A
- Authority
- CN
- China
- Prior art keywords
- domain
- user
- target domain
- cross
- auxiliary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 39
- 230000006399 behavior Effects 0.000 claims abstract description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的是一种应用FM的跨领域推荐方法。输入用户‑项目‑评分数据,包括n个不同的领域的数据集;给定目标域中的特征向量;利用皮尔逊相关系数计算辅助域与目标域内用户的评分行为的相关度,作为目标域用户在辅助域内的协作信息;对目标域特征向量进行扩展;将目标域的特征向量转换为LibSVM这一FM模型要求的数据输入格式;通过Adagrad算法对FM模型进行学习。本发明与传统单一领域推荐算法相比,可以很好地解决数据稀疏的问题,同时在一定程度上可以缓解用户冷启动的问题;与传统FM模型相比,将FM应用到跨领域推荐中,首次考虑到了跨域推荐中领域之间的相关程度对于FM输入向量的影响,获得了较高的预测精度。
Description
技术领域
本发明涉及的是一种个性化推荐方法,是一种跨领域推荐研究以及Factorization Machine(FM)模型的研究。
背景技术
在过去十几年间,电子商务、社交网络等应用飞速发展,数据量呈指数增长,我们迎来了真正意义上的大数据时代,但与此同时信息过载问题也更加突出。个性化推荐系统的诞生成为解决信息过载问题的有效方法之一。推荐是指通过分析和挖掘用户与项目之间的二元关系及相关属性,帮助用户从海量数据中发现其感兴趣的物品,从而生成个性化推荐列表。传统的推荐系统都是基于单一领域的,例如:Netflix推荐电影和电视节目,Last.fm推荐歌曲和音乐专辑。但是,随着数据量的迅速增加和数据领域的不断扩充,例如,像Amazon.com这样的大型电子商务网站需要经常存储来自多个域的用户反馈,新用户、新项目带来的冷启动问题和数据稀疏问题在单一领域推荐中逐渐凸显出来。跨域推荐的提出,旨在整合多个不同领域内的信息来弥补单一领域推荐的新用户或是新项目带来的冷启动问题以及数据过于稀疏的问题,从而得到相比于单一领域更精准的推荐效果。因此,跨域推荐的主要目的是通过利用来自辅助域的信息来提高目标域中的推荐准确率。
因子分解机(Factorization Machine,FM)由于能够有效地解决高维数据的特征组合和数据高度稀疏性问题,并且具有较高的预测准确度和线性的计算复杂度而在推荐系统和广告点击率预测方面得到了广泛的研究和应用。FM模型是一个将用户-项目数据分解为实值特征向量的通用模型,诸如传统推荐算法中最为常见的协同过滤算法中的矩阵分解模型等大都可以被建模为FM。Loni等首次将辅助域信息编码为实值特征向量,应用到FM模型中实现模型在跨域推荐中性能的提升。而后,又有研究将FM模型应用到耦合数据集上来实现跨域推荐,通过对模型的完善来更好地捕获耦合数据集之间的差异性,获得了较单一领域应用FM模型更好的推荐效果。
从推荐算法及FM模型的拓展研究工作可知,传统的单一领域推荐算法仍存在较大的限制,尤其是冷启动问题以及数据稀疏的问题。跨领域推荐的优势恰恰体现在能够解决单领域推荐中的冷启动问题,并缓解数据稀疏的问题。而FM模型虽然已经证明能够较好的解决数据稀疏问题,但将其应用于跨领域推荐中仍然存在一定的限制,如直接将辅助域的信息编码为实值特征向量,尽管可以实现通过辅助域的信息来对目标域进行补充的目标,但也同时导致特征向量十分庞大,并且扩充的辅助域信息的权重相同,没能体现出辅助域与目标域之间的相关程度。
发明内容
本发明的目的在于提供一种能够提升推荐准确率的应用FM的跨领域推荐方法。
本发明的目的是这样实现的:
步骤一:输入用户-项目-评分数据,包括n个不同的领域的数据集;
步骤二:给定目标域中的特征向量;
步骤三:利用皮尔逊相关系数计算辅助域与目标域内用户的评分行为的相关度,即领域相关度,作为目标域用户在辅助域内的协作信息;
步骤四:对目标域特征向量进行扩展;
步骤五:将目标域的特征向量转换为LibSVM这一FM模型要求的数据输入格式;
步骤六:通过Adagrad算法对FM模型进行学习。
本发明还可以包括:
1.步骤一中所述的评分数据是根据项目的不同对领域进行划分得到的跨领域用户评分数据。
2.步骤三中,相关度的计算公式为:
其中,x表示用户u在目标领域D0中的评分向量,y表示用户u在辅助领域Dj中的评分向量,表示用户在目标域内的平均评分,表示用户在辅助领域内的平均评分,ρ(D0,Dj)通过皮尔逊相关系数计算用户在目标域与辅助域内的相关系数。
3.步骤四中,所述的对目标域特征向量进行扩展是将领域相关度与用户在该辅助域内的平均评分的乘积作为目标域向量的拓展部分。
本发明针对现有技术的局限性,提出了一种应用FM的跨领域推荐方法。本发明首次对领域相关度进行定义,并将其结果与平均评分的乘积编码成实值特征向量,实现对FM模型的输入特征向量的扩展,从而实现推荐准确率的提升。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明较好地利用了FM模型可以在线性时间内解决数据稀疏问题的优势,首次将用户在辅助域与目标域的评分的皮尔逊相关系数定义为领域相关度,并将其作为实值特征向量实现对FM输入特征向量的拓展。
(2)本发明通过跨领域相关度对目标域用户特征向量的扩展,使得FM模型只需关注目标域中的用户,这将大大降低计算成本。算法可以在一定程度上缓解用户冷启动问题。
(3)本发明可以在一定程度上缓解单一领域推荐中存在的新用户带来的冷启动问题。
附图说明
图1是本发明的领域概念划分示意图。
图2是本发明的应用FM的跨领域推荐方法的流程图。
具体实施方式
下面将结合附图,通过实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部实施例。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于发明的实施例,本领域技术人员没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
附图1为本发明实施例提供的领域概念划分示意图,附图2为本发明实施例提供的一种应用FM的跨领域推荐方法的流程图。结合上述示意图和流程图,本实施例公开了一种应用FM的跨领域推荐方法具体如下:
(1)给出的用户-项目-评分数据集,包括n个不同的领域{D0,D1,...,Dn-1}。根据附图1可以知道,跨域推荐中研究者们根据推荐物品的属性、类型、项目以及系统四个角度来对领域进行区分。本说明中所给出的领域根据项目类型进行区分定义,即附图1中第三种领域划分规则,根据项目级别对领域进行划分。
(2)给定目标域中的特征向量,通过添加辅助域中的用户协作信息来扩展该向量。假设D0是目标域,{D1,...,Dn-1}是辅助域。预测任务即通过对训练集{(x0,y0),(x1,y1),...,(xn-1,yn-1)}进行学习,建立从输入空间x到输出空间y的映射f:x(u,i)→y。考虑到推荐任务中特征并不总是连续的,多数情况是类别值,所以将这些特征数字化将更适合模型训练。在本实施例中,选择通过独热编码方式对特征进行编码。对于目标域的用户u来说,特征向量通过独热编码后可以表示为:
其中非零元素对应于用户u和项目i。此特征向量也可以缩写为:
x(u,i)={(u,1),(i,1)} (2)
(3)计算两个用户或两个项目之间的相似度的方法是协作过滤算法的关键问题。通常有两种方法来计算相似性,分别是皮尔逊相似度(Pearson CorrelationCoefficient,PCC)和基于余弦的相似性(Cosine-based similarity,CS)。通过比较CS和PCC方法可以知道,CS对绝对值不敏感,而且没有办法衡量每个维度的差异。例如,数据中有两个域,分别是X和Y,用户u在两个域的评分分别是(1,2)和(4,5)。CS得到的结果为0.98,这意味着用户在两个域中的评分行为非常相似,但用户似乎并不喜欢X域中的商品;相反,从评分视图来看,用户非常喜欢Y域中的商品。因此,在本实施例中,使用PCC来对领域相关度进行计算:
将PCC应用于n个领域{D0,D1,...,Dn-1}中,我们采用ρ(u,Dj)表示辅助域Dj与目标域D0的相关度,并将其定义为辅助域Dj与目标域D0内评分向量的PCC的绝对值,计算如下:
ρ(u,Dj)=|ρu(D0,Dj)| (4)
(4)由于PCC的结果只能表示辅助域和目标域中相关程度,但是在二阶FM模型中,成对特征交互部分并不能反映两个不同域中用户评分之间的约束关系。因此,在本实施例中,使用领域相关度与用户评分的平均值相乘,得到的乘积作为目标向量的扩展向量,扩展向量表示如下:
sj(u)={ρ(u,Dj)×mean(u,Dj)} (6)
其中mean(u,Dj)表示用户在领域j中的平均评分。
对原目标域特征向量进行扩展,得到最终FM模型的输入向量为:
(5)对于FM模型而言,其输入数据格式必须是libSVM,即:
y index_1:value_1index_2:value_2...index_n:value_n(8)
因此,通过libSVM格式转换,将已经拓展过的目标域特征向量进行数据格式转换为libSVM格式,以满足FM模型的输入要求。
(6)FM模型通过对每对特征之间的所有交互进行建模来估计目标。二阶FM模型可以表示为:
FM模型最初大多采用梯度随机算法(Stochastic Gradient Descent,SGD)。与SGD算法相比,AdaGrad算法可以自适应地调整学习速率,对不常用的参数执行较大的更新,并对常用的参数进行较小的更新。因此,AdaGrad算法通常用于优化稀疏数据的问题。在本实施例中利用AdaGrad方法学习模型来对FM进行学习。
Claims (5)
1.一种应用FM的跨领域推荐方法,其特征是:
步骤一:输入用户-项目-评分数据,包括n个不同的领域的数据集;
步骤二:给定目标域中的特征向量;
步骤三:利用皮尔逊相关系数计算辅助域与目标域内用户的评分行为的相关度,即领域相关度,作为目标域用户在辅助域内的协作信息;
步骤四:对目标域特征向量进行扩展;
步骤五:将目标域的特征向量转换为LibSVM这一FM模型要求的数据输入格式;
步骤六:通过Adagrad算法对FM模型进行学习。
2.根据权利要求1所述的应用FM的跨领域推荐方法,其特征是:步骤一中所述的评分数据是根据项目的不同对领域进行划分得到的跨领域用户评分数据。
4.根据权利要求1或2所述的应用FM的跨领域推荐方法,其特征是:步骤四中,所述的对目标域特征向量进行扩展是将领域相关度与用户在该辅助域内的平均评分的乘积作为目标域向量的拓展部分。
5.根据权利要求3所述的应用FM的跨领域推荐方法,其特征是:步骤四中,所述的对目标域特征向量进行扩展是将领域相关度与用户在该辅助域内的平均评分的乘积作为目标域向量的拓展部分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911214266.5A CN111046280B (zh) | 2019-12-02 | 2019-12-02 | 一种应用fm的跨领域推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911214266.5A CN111046280B (zh) | 2019-12-02 | 2019-12-02 | 一种应用fm的跨领域推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046280A true CN111046280A (zh) | 2020-04-21 |
CN111046280B CN111046280B (zh) | 2023-12-12 |
Family
ID=70234318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911214266.5A Active CN111046280B (zh) | 2019-12-02 | 2019-12-02 | 一种应用fm的跨领域推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046280B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035743A (zh) * | 2020-08-28 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 数据推荐方法、装置、计算机设备以及存储介质 |
CN113762967A (zh) * | 2021-03-31 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 风险信息确定方法、模型训练方法、设备、程序产品 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2207348A2 (en) * | 2009-01-08 | 2010-07-14 | Axel Springer Digital TV Guide GmbH | Recommender method and system for cross-domain recommendation |
CN103033214A (zh) * | 2012-12-18 | 2013-04-10 | 重庆科技学院 | 借助Pearson相关系数实现生产过程主导变量精简化软测量方法 |
US20140074650A1 (en) * | 2012-03-01 | 2014-03-13 | Qloo, Inc. | Personalized cross-domain recommender system |
CN106844557A (zh) * | 2016-12-30 | 2017-06-13 | 东软集团股份有限公司 | 信息推荐方法及装置 |
CN108182264A (zh) * | 2018-01-09 | 2018-06-19 | 武汉大学 | 一种基于跨领域排名推荐模型的排名推荐方法 |
CN109711925A (zh) * | 2018-11-23 | 2019-05-03 | 西安电子科技大学 | 具有多个辅助域的跨域推荐数据处理方法、跨域推荐系统 |
CN109840702A (zh) * | 2019-01-24 | 2019-06-04 | 山西开拓科技股份有限公司 | 一种基于多核融合的新项目协同推荐方法 |
US20190251435A1 (en) * | 2018-02-09 | 2019-08-15 | Daniel Shiebler | Matching cross domain user affinity with co-embeddings |
US20190325293A1 (en) * | 2018-04-19 | 2019-10-24 | National University Of Singapore | Tree enhanced embedding model predictive analysis methods and systems |
-
2019
- 2019-12-02 CN CN201911214266.5A patent/CN111046280B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2207348A2 (en) * | 2009-01-08 | 2010-07-14 | Axel Springer Digital TV Guide GmbH | Recommender method and system for cross-domain recommendation |
US20140074650A1 (en) * | 2012-03-01 | 2014-03-13 | Qloo, Inc. | Personalized cross-domain recommender system |
CN103033214A (zh) * | 2012-12-18 | 2013-04-10 | 重庆科技学院 | 借助Pearson相关系数实现生产过程主导变量精简化软测量方法 |
CN106844557A (zh) * | 2016-12-30 | 2017-06-13 | 东软集团股份有限公司 | 信息推荐方法及装置 |
CN108182264A (zh) * | 2018-01-09 | 2018-06-19 | 武汉大学 | 一种基于跨领域排名推荐模型的排名推荐方法 |
US20190251435A1 (en) * | 2018-02-09 | 2019-08-15 | Daniel Shiebler | Matching cross domain user affinity with co-embeddings |
US20190325293A1 (en) * | 2018-04-19 | 2019-10-24 | National University Of Singapore | Tree enhanced embedding model predictive analysis methods and systems |
CN109711925A (zh) * | 2018-11-23 | 2019-05-03 | 西安电子科技大学 | 具有多个辅助域的跨域推荐数据处理方法、跨域推荐系统 |
CN109840702A (zh) * | 2019-01-24 | 2019-06-04 | 山西开拓科技股份有限公司 | 一种基于多核融合的新项目协同推荐方法 |
Non-Patent Citations (3)
Title |
---|
LONI B, SHI Y, LARSON M, ET AL.: "Cross-domain collaborative filtering with factorization machines", pages 656 - 661 * |
MORENO O, SHAPIRA B, ROKACH L, ET AL.: "transfer learning for multiple domains", pages 425 - 434 * |
王俊;李石君;杨莎;金红;余伟;: "一种新的用于跨领域推荐的迁移学习模型", vol. 40, no. 10 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035743A (zh) * | 2020-08-28 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 数据推荐方法、装置、计算机设备以及存储介质 |
CN112035743B (zh) * | 2020-08-28 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 数据推荐方法、装置、计算机设备以及存储介质 |
CN113762967A (zh) * | 2021-03-31 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 风险信息确定方法、模型训练方法、设备、程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN111046280B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khan et al. | CNN with depthwise separable convolutions and combined kernels for rating prediction | |
Rafailidis et al. | Modeling users preference dynamics and side information in recommender systems | |
Symeonidis et al. | Matrix and tensor factorization techniques for recommender systems | |
CN104063481A (zh) | 一种基于用户实时兴趣向量的电影个性化推荐方法 | |
Jiao et al. | A novel learning rate function and its application on the SVD++ recommendation algorithm | |
Li et al. | Content-based filtering recommendation algorithm using HMM | |
Hu et al. | Personalized recommendation algorithm based on preference features | |
Barathy et al. | Applying matrix factorization in collaborative filtering recommender systems | |
Sejwal et al. | CRecSys: A context-based recommender system using collaborative filtering and LOD | |
CN112149734B (zh) | 一种基于堆叠自编码器的跨域推荐方法 | |
CN110069713A (zh) | 一种基于用户上下文感知的个性化推荐方法 | |
CN111046280B (zh) | 一种应用fm的跨领域推荐方法 | |
Anwar et al. | Mrec-crm: Movie recommendation based on collaborative filtering and rule mining approach | |
CN114491055B (zh) | 基于知识图谱的推荐方法 | |
Wang et al. | Research on BP neural network recommendation model fusing user reviews and ratings | |
Wang et al. | Time series clustering based on sparse subspace clustering algorithm and its application to daily box-office data analysis | |
Chang et al. | Novel personalized multimedia recommendation systems using tensor singular-value-decomposition | |
Quan et al. | Heterogeneous neural collaborative filtering for a business recommender system | |
Hussein et al. | A Hybrid Multi-Criteria Collaborative Filtering Model for Effective Personalized Recommendations. | |
Zhan et al. | Towards efficient privacy-preserving collaborative recommender systems | |
Jiang et al. | An Application of SVD++ Method in Collaborative Filtering | |
Lahlou et al. | Textual context aware factorization machines: Improving recommendation by leveraging users' reviews | |
Gopalswamy et al. | Time adaptive collaborative filtering for movie recommendation | |
Jie et al. | A novel collaborative filtering using kernel methods for recommender systems | |
Dhanalakshmi et al. | Hybrid Cohort Rating Prediction Technique to leverage Recommender System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |