CN111046280A - 一种应用fm的跨领域推荐方法 - Google Patents

一种应用fm的跨领域推荐方法 Download PDF

Info

Publication number
CN111046280A
CN111046280A CN201911214266.5A CN201911214266A CN111046280A CN 111046280 A CN111046280 A CN 111046280A CN 201911214266 A CN201911214266 A CN 201911214266A CN 111046280 A CN111046280 A CN 111046280A
Authority
CN
China
Prior art keywords
domain
user
target domain
cross
auxiliary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911214266.5A
Other languages
English (en)
Other versions
CN111046280B (zh
Inventor
曲立平
曹鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201911214266.5A priority Critical patent/CN111046280B/zh
Publication of CN111046280A publication Critical patent/CN111046280A/zh
Application granted granted Critical
Publication of CN111046280B publication Critical patent/CN111046280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的是一种应用FM的跨领域推荐方法。输入用户‑项目‑评分数据,包括n个不同的领域的数据集;给定目标域中的特征向量;利用皮尔逊相关系数计算辅助域与目标域内用户的评分行为的相关度,作为目标域用户在辅助域内的协作信息;对目标域特征向量进行扩展;将目标域的特征向量转换为LibSVM这一FM模型要求的数据输入格式;通过Adagrad算法对FM模型进行学习。本发明与传统单一领域推荐算法相比,可以很好地解决数据稀疏的问题,同时在一定程度上可以缓解用户冷启动的问题;与传统FM模型相比,将FM应用到跨领域推荐中,首次考虑到了跨域推荐中领域之间的相关程度对于FM输入向量的影响,获得了较高的预测精度。

Description

一种应用FM的跨领域推荐方法
技术领域
本发明涉及的是一种个性化推荐方法,是一种跨领域推荐研究以及Factorization Machine(FM)模型的研究。
背景技术
在过去十几年间,电子商务、社交网络等应用飞速发展,数据量呈指数增长,我们迎来了真正意义上的大数据时代,但与此同时信息过载问题也更加突出。个性化推荐系统的诞生成为解决信息过载问题的有效方法之一。推荐是指通过分析和挖掘用户与项目之间的二元关系及相关属性,帮助用户从海量数据中发现其感兴趣的物品,从而生成个性化推荐列表。传统的推荐系统都是基于单一领域的,例如:Netflix推荐电影和电视节目,Last.fm推荐歌曲和音乐专辑。但是,随着数据量的迅速增加和数据领域的不断扩充,例如,像Amazon.com这样的大型电子商务网站需要经常存储来自多个域的用户反馈,新用户、新项目带来的冷启动问题和数据稀疏问题在单一领域推荐中逐渐凸显出来。跨域推荐的提出,旨在整合多个不同领域内的信息来弥补单一领域推荐的新用户或是新项目带来的冷启动问题以及数据过于稀疏的问题,从而得到相比于单一领域更精准的推荐效果。因此,跨域推荐的主要目的是通过利用来自辅助域的信息来提高目标域中的推荐准确率。
因子分解机(Factorization Machine,FM)由于能够有效地解决高维数据的特征组合和数据高度稀疏性问题,并且具有较高的预测准确度和线性的计算复杂度而在推荐系统和广告点击率预测方面得到了广泛的研究和应用。FM模型是一个将用户-项目数据分解为实值特征向量的通用模型,诸如传统推荐算法中最为常见的协同过滤算法中的矩阵分解模型等大都可以被建模为FM。Loni等首次将辅助域信息编码为实值特征向量,应用到FM模型中实现模型在跨域推荐中性能的提升。而后,又有研究将FM模型应用到耦合数据集上来实现跨域推荐,通过对模型的完善来更好地捕获耦合数据集之间的差异性,获得了较单一领域应用FM模型更好的推荐效果。
从推荐算法及FM模型的拓展研究工作可知,传统的单一领域推荐算法仍存在较大的限制,尤其是冷启动问题以及数据稀疏的问题。跨领域推荐的优势恰恰体现在能够解决单领域推荐中的冷启动问题,并缓解数据稀疏的问题。而FM模型虽然已经证明能够较好的解决数据稀疏问题,但将其应用于跨领域推荐中仍然存在一定的限制,如直接将辅助域的信息编码为实值特征向量,尽管可以实现通过辅助域的信息来对目标域进行补充的目标,但也同时导致特征向量十分庞大,并且扩充的辅助域信息的权重相同,没能体现出辅助域与目标域之间的相关程度。
发明内容
本发明的目的在于提供一种能够提升推荐准确率的应用FM的跨领域推荐方法。
本发明的目的是这样实现的:
步骤一:输入用户-项目-评分数据,包括n个不同的领域的数据集;
步骤二:给定目标域中的特征向量;
步骤三:利用皮尔逊相关系数计算辅助域与目标域内用户的评分行为的相关度,即领域相关度,作为目标域用户在辅助域内的协作信息;
步骤四:对目标域特征向量进行扩展;
步骤五:将目标域的特征向量转换为LibSVM这一FM模型要求的数据输入格式;
步骤六:通过Adagrad算法对FM模型进行学习。
本发明还可以包括:
1.步骤一中所述的评分数据是根据项目的不同对领域进行划分得到的跨领域用户评分数据。
2.步骤三中,相关度的计算公式为:
Figure BDA0002299049980000021
其中,x表示用户u在目标领域D0中的评分向量,y表示用户u在辅助领域Dj中的评分向量,
Figure BDA0002299049980000022
表示用户在目标域内的平均评分,
Figure BDA0002299049980000023
表示用户在辅助领域内的平均评分,ρ(D0,Dj)通过皮尔逊相关系数计算用户在目标域与辅助域内的相关系数。
3.步骤四中,所述的对目标域特征向量进行扩展是将领域相关度与用户在该辅助域内的平均评分的乘积作为目标域向量的拓展部分。
本发明针对现有技术的局限性,提出了一种应用FM的跨领域推荐方法。本发明首次对领域相关度进行定义,并将其结果与平均评分的乘积编码成实值特征向量,实现对FM模型的输入特征向量的扩展,从而实现推荐准确率的提升。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明较好地利用了FM模型可以在线性时间内解决数据稀疏问题的优势,首次将用户在辅助域与目标域的评分的皮尔逊相关系数定义为领域相关度,并将其作为实值特征向量实现对FM输入特征向量的拓展。
(2)本发明通过跨领域相关度对目标域用户特征向量的扩展,使得FM模型只需关注目标域中的用户,这将大大降低计算成本。算法可以在一定程度上缓解用户冷启动问题。
(3)本发明可以在一定程度上缓解单一领域推荐中存在的新用户带来的冷启动问题。
附图说明
图1是本发明的领域概念划分示意图。
图2是本发明的应用FM的跨领域推荐方法的流程图。
具体实施方式
下面将结合附图,通过实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部实施例。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于发明的实施例,本领域技术人员没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
附图1为本发明实施例提供的领域概念划分示意图,附图2为本发明实施例提供的一种应用FM的跨领域推荐方法的流程图。结合上述示意图和流程图,本实施例公开了一种应用FM的跨领域推荐方法具体如下:
(1)给出的用户-项目-评分数据集,包括n个不同的领域{D0,D1,...,Dn-1}。根据附图1可以知道,跨域推荐中研究者们根据推荐物品的属性、类型、项目以及系统四个角度来对领域进行区分。本说明中所给出的领域根据项目类型进行区分定义,即附图1中第三种领域划分规则,根据项目级别对领域进行划分。
(2)给定目标域中的特征向量,通过添加辅助域中的用户协作信息来扩展该向量。假设D0是目标域,{D1,...,Dn-1}是辅助域。预测任务即通过对训练集{(x0,y0),(x1,y1),...,(xn-1,yn-1)}进行学习,建立从输入空间x到输出空间y的映射f:x(u,i)→y。考虑到推荐任务中特征并不总是连续的,多数情况是类别值,所以将这些特征数字化将更适合模型训练。在本实施例中,选择通过独热编码方式对特征进行编码。对于目标域的用户u来说,特征向量通过独热编码后可以表示为:
Figure BDA0002299049980000031
其中非零元素对应于用户u和项目i。此特征向量也可以缩写为:
x(u,i)={(u,1),(i,1)} (2)
(3)计算两个用户或两个项目之间的相似度的方法是协作过滤算法的关键问题。通常有两种方法来计算相似性,分别是皮尔逊相似度(Pearson CorrelationCoefficient,PCC)和基于余弦的相似性(Cosine-based similarity,CS)。通过比较CS和PCC方法可以知道,CS对绝对值不敏感,而且没有办法衡量每个维度的差异。例如,数据中有两个域,分别是X和Y,用户u在两个域的评分分别是(1,2)和(4,5)。CS得到的结果为0.98,这意味着用户在两个域中的评分行为非常相似,但用户似乎并不喜欢X域中的商品;相反,从评分视图来看,用户非常喜欢Y域中的商品。因此,在本实施例中,使用PCC来对领域相关度进行计算:
Figure BDA0002299049980000041
将PCC应用于n个领域{D0,D1,...,Dn-1}中,我们采用ρ(u,Dj)表示辅助域Dj与目标域D0的相关度,并将其定义为辅助域Dj与目标域D0内评分向量的PCC的绝对值,计算如下:
ρ(u,Dj)=|ρu(D0,Dj)| (4)
Figure BDA0002299049980000042
(4)由于PCC的结果只能表示辅助域和目标域中相关程度,但是在二阶FM模型中,成对特征交互部分并不能反映两个不同域中用户评分之间的约束关系。因此,在本实施例中,使用领域相关度与用户评分的平均值相乘,得到的乘积作为目标向量的扩展向量,扩展向量表示如下:
sj(u)={ρ(u,Dj)×mean(u,Dj)} (6)
其中mean(u,Dj)表示用户在领域j中的平均评分。
对原目标域特征向量进行扩展,得到最终FM模型的输入向量为:
Figure BDA0002299049980000043
(5)对于FM模型而言,其输入数据格式必须是libSVM,即:
y index_1:value_1index_2:value_2...index_n:value_n(8)
因此,通过libSVM格式转换,将已经拓展过的目标域特征向量进行数据格式转换为libSVM格式,以满足FM模型的输入要求。
(6)FM模型通过对每对特征之间的所有交互进行建模来估计目标。二阶FM模型可以表示为:
Figure BDA0002299049980000051
FM模型最初大多采用梯度随机算法(Stochastic Gradient Descent,SGD)。与SGD算法相比,AdaGrad算法可以自适应地调整学习速率,对不常用的参数执行较大的更新,并对常用的参数进行较小的更新。因此,AdaGrad算法通常用于优化稀疏数据的问题。在本实施例中利用AdaGrad方法学习模型来对FM进行学习。

Claims (5)

1.一种应用FM的跨领域推荐方法,其特征是:
步骤一:输入用户-项目-评分数据,包括n个不同的领域的数据集;
步骤二:给定目标域中的特征向量;
步骤三:利用皮尔逊相关系数计算辅助域与目标域内用户的评分行为的相关度,即领域相关度,作为目标域用户在辅助域内的协作信息;
步骤四:对目标域特征向量进行扩展;
步骤五:将目标域的特征向量转换为LibSVM这一FM模型要求的数据输入格式;
步骤六:通过Adagrad算法对FM模型进行学习。
2.根据权利要求1所述的应用FM的跨领域推荐方法,其特征是:步骤一中所述的评分数据是根据项目的不同对领域进行划分得到的跨领域用户评分数据。
3.根据权利要求1或2所述的应用FM的跨领域推荐方法,其特征是:步骤三中,相关度的计算公式为:
Figure FDA0002299049970000011
其中,x表示用户u在目标领域D0中的评分向量,y表示用户u在辅助领域Dj中的评分向量,
Figure FDA0002299049970000012
表示用户在目标域内的平均评分,
Figure FDA0002299049970000013
表示用户在辅助领域内的平均评分,ρ(D0,Dj)通过皮尔逊相关系数计算用户在目标域与辅助域内的相关系数。
4.根据权利要求1或2所述的应用FM的跨领域推荐方法,其特征是:步骤四中,所述的对目标域特征向量进行扩展是将领域相关度与用户在该辅助域内的平均评分的乘积作为目标域向量的拓展部分。
5.根据权利要求3所述的应用FM的跨领域推荐方法,其特征是:步骤四中,所述的对目标域特征向量进行扩展是将领域相关度与用户在该辅助域内的平均评分的乘积作为目标域向量的拓展部分。
CN201911214266.5A 2019-12-02 2019-12-02 一种应用fm的跨领域推荐方法 Active CN111046280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911214266.5A CN111046280B (zh) 2019-12-02 2019-12-02 一种应用fm的跨领域推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911214266.5A CN111046280B (zh) 2019-12-02 2019-12-02 一种应用fm的跨领域推荐方法

Publications (2)

Publication Number Publication Date
CN111046280A true CN111046280A (zh) 2020-04-21
CN111046280B CN111046280B (zh) 2023-12-12

Family

ID=70234318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911214266.5A Active CN111046280B (zh) 2019-12-02 2019-12-02 一种应用fm的跨领域推荐方法

Country Status (1)

Country Link
CN (1) CN111046280B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035743A (zh) * 2020-08-28 2020-12-04 腾讯科技(深圳)有限公司 数据推荐方法、装置、计算机设备以及存储介质
CN113762967A (zh) * 2021-03-31 2021-12-07 北京沃东天骏信息技术有限公司 风险信息确定方法、模型训练方法、设备、程序产品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2207348A2 (en) * 2009-01-08 2010-07-14 Axel Springer Digital TV Guide GmbH Recommender method and system for cross-domain recommendation
CN103033214A (zh) * 2012-12-18 2013-04-10 重庆科技学院 借助Pearson相关系数实现生产过程主导变量精简化软测量方法
US20140074650A1 (en) * 2012-03-01 2014-03-13 Qloo, Inc. Personalized cross-domain recommender system
CN106844557A (zh) * 2016-12-30 2017-06-13 东软集团股份有限公司 信息推荐方法及装置
CN108182264A (zh) * 2018-01-09 2018-06-19 武汉大学 一种基于跨领域排名推荐模型的排名推荐方法
CN109711925A (zh) * 2018-11-23 2019-05-03 西安电子科技大学 具有多个辅助域的跨域推荐数据处理方法、跨域推荐系统
CN109840702A (zh) * 2019-01-24 2019-06-04 山西开拓科技股份有限公司 一种基于多核融合的新项目协同推荐方法
US20190251435A1 (en) * 2018-02-09 2019-08-15 Daniel Shiebler Matching cross domain user affinity with co-embeddings
US20190325293A1 (en) * 2018-04-19 2019-10-24 National University Of Singapore Tree enhanced embedding model predictive analysis methods and systems

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2207348A2 (en) * 2009-01-08 2010-07-14 Axel Springer Digital TV Guide GmbH Recommender method and system for cross-domain recommendation
US20140074650A1 (en) * 2012-03-01 2014-03-13 Qloo, Inc. Personalized cross-domain recommender system
CN103033214A (zh) * 2012-12-18 2013-04-10 重庆科技学院 借助Pearson相关系数实现生产过程主导变量精简化软测量方法
CN106844557A (zh) * 2016-12-30 2017-06-13 东软集团股份有限公司 信息推荐方法及装置
CN108182264A (zh) * 2018-01-09 2018-06-19 武汉大学 一种基于跨领域排名推荐模型的排名推荐方法
US20190251435A1 (en) * 2018-02-09 2019-08-15 Daniel Shiebler Matching cross domain user affinity with co-embeddings
US20190325293A1 (en) * 2018-04-19 2019-10-24 National University Of Singapore Tree enhanced embedding model predictive analysis methods and systems
CN109711925A (zh) * 2018-11-23 2019-05-03 西安电子科技大学 具有多个辅助域的跨域推荐数据处理方法、跨域推荐系统
CN109840702A (zh) * 2019-01-24 2019-06-04 山西开拓科技股份有限公司 一种基于多核融合的新项目协同推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LONI B, SHI Y, LARSON M, ET AL.: "Cross-domain collaborative filtering with factorization machines", pages 656 - 661 *
MORENO O, SHAPIRA B, ROKACH L, ET AL.: "transfer learning for multiple domains", pages 425 - 434 *
王俊;李石君;杨莎;金红;余伟;: "一种新的用于跨领域推荐的迁移学习模型", vol. 40, no. 10 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035743A (zh) * 2020-08-28 2020-12-04 腾讯科技(深圳)有限公司 数据推荐方法、装置、计算机设备以及存储介质
CN112035743B (zh) * 2020-08-28 2021-10-15 腾讯科技(深圳)有限公司 数据推荐方法、装置、计算机设备以及存储介质
CN113762967A (zh) * 2021-03-31 2021-12-07 北京沃东天骏信息技术有限公司 风险信息确定方法、模型训练方法、设备、程序产品

Also Published As

Publication number Publication date
CN111046280B (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
Rafailidis et al. Modeling users preference dynamics and side information in recommender systems
Symeonidis et al. Matrix and tensor factorization techniques for recommender systems
CN104063481A (zh) 一种基于用户实时兴趣向量的电影个性化推荐方法
Jiao et al. A novel learning rate function and its application on the SVD++ recommendation algorithm
CN109033294B (zh) 一种融入内容信息的混合推荐方法
Li et al. Content-based filtering recommendation algorithm using HMM
Hu et al. Personalized recommendation algorithm based on preference features
Barathy et al. Applying matrix factorization in collaborative filtering recommender systems
Sejwal et al. CRecSys: A context-based recommender system using collaborative filtering and LOD
CN112149734B (zh) 一种基于堆叠自编码器的跨域推荐方法
Stanescu et al. A hybrid recommender system: User profiling from keywords and ratings
CN111046280B (zh) 一种应用fm的跨领域推荐方法
Wang et al. Research on BP neural network recommendation model fusing user reviews and ratings
Wang et al. Time series clustering based on sparse subspace clustering algorithm and its application to daily box-office data analysis
Chang et al. Novel personalized multimedia recommendation systems using tensor singular-value-decomposition
Mu et al. Auxiliary stacked denoising autoencoder based collaborative filtering recommendation
Liu et al. TCD-CF: Triple cross-domain collaborative filtering recommendation
Quan et al. Heterogeneous neural collaborative filtering for a business recommender system
Hussein et al. A Hybrid Multi-Criteria Collaborative Filtering Model for Effective Personalized Recommendations.
Zhan et al. Towards efficient privacy-preserving collaborative recommender systems
Jiang et al. An Application of SVD++ Method in Collaborative Filtering
Lahlou et al. Textual context aware factorization machines: Improving recommendation by leveraging users' reviews
Jie et al. A novel collaborative filtering using kernel methods for recommender systems
Dhanalakshmi et al. Hybrid Cohort Rating Prediction Technique to leverage Recommender System
Gopalswamy et al. Time adaptive collaborative filtering for movie recommendation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant