CN110851700A - 一种融合属性和语义的概率矩阵分解冷启动推荐方法 - Google Patents
一种融合属性和语义的概率矩阵分解冷启动推荐方法 Download PDFInfo
- Publication number
- CN110851700A CN110851700A CN201910914274.4A CN201910914274A CN110851700A CN 110851700 A CN110851700 A CN 110851700A CN 201910914274 A CN201910914274 A CN 201910914274A CN 110851700 A CN110851700 A CN 110851700A
- Authority
- CN
- China
- Prior art keywords
- item
- user
- vector
- content
- project
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种融合属性和语义的概率矩阵分解冷启动推荐方法,首先从数据库中提取用户属性信息、项目属性信息、项目文本信息和用户评分信息,利用线性回归对属性信息和语义信息建模预测潜在特征,并把预测值作为概率分解的先验概率,从而实现将属性信息和语义信息融合到评分矩阵的概率分解中。本发明可以有效地将属性信息和语义信息融入到概率矩阵分解中,解决了推荐系统中普遍存在的冷启动和稀疏性问题,并且有更高的准确度,算法复杂度不高,适用处理大规模数据。
Description
技术领域
本发明涉及冷启动推荐领域,特别涉及一种融合属性和语义的概率矩阵分解冷启动推荐方法。
背景技术
随着云计算、大数据、物联网等技术的迅猛发展,使得互联网中的各类服务和用户数据爆炸式增长。这些大数据中蕴含着丰富的价值和巨大潜力,给人类社会带来了变革性的发展,如何快速有效的从纷繁复杂的数据中获取有价值的信息为用户进行个性化的推荐是推荐系统研究的关键难题。个性化推荐系统已经成为学术界和工业界的关注热点并形成了众多相关研究成果。推荐系统是根据用户偏向、兴趣等,通过推荐算法从海量数据中挖掘出用户感兴趣的项目(如信息、服务、物品等),并将结果以个性化列表的形式推荐给用户。目前,推荐系统在很多领域得到了成功应用,包括电子商务、信息检索、社交网络、位置服务、新闻推送等各个领域。
概率矩阵分解技术是根据用户和项目的潜在特征向量以及观察到的评分服从高斯先验分布,利用贝叶斯推导,得到用户和项目的潜在特征矩阵,最后根据潜在特征矩阵计算出预测评分。虽然概率矩阵分解仅采用单一的用户项目评分矩阵进行挖掘,在一定程度上能获得用户和项目的潜在特征,克服了稀疏性问题,但缺乏足够的语义解释,并且不能解决冷启动问题。
目前,学术界对矩阵分解存在的问题已经有所研究,文献1(王阳,钟勇,李振东,etal.融合语义相似度与矩阵分解的评分预测算法[J].计算机应用,2017(z1).)提出一种融合语义相似度的矩阵分解算法,通过本体计算项目间的语义相似度并填充评分矩阵中的缺失值,然后对填充后的评分矩阵分解实现推荐,但是构建本体对象人工代价相对较高,扩展性差。文献2(陈平华,朱禹.融合知识图谱表示学习和矩阵分解的推荐算法[J].计算机工程与设计,2018,39(10):145-150.)提出一种融合知识图谱表示学习和矩阵分解的推荐算法,利用知识图谱计算实体之间的语义相似性,并融入到矩阵分解中,在知识层面上增强了矩阵分解的效果,然而对于新用户或新项目无法完成推荐。文献3(Zhang,Yufang.(2015).Collaborative Filtering Algorithm Based on Item Semantic and UserCharacteristics.Journal of Information and Computational Science.12.4059-4067.10.12733/jics20106139.)提出了结合项目语义与用户特征的协同过滤算法,通过改进的用户相似度和项目相似度线性融合进行预测评分,缓解了冷启动问题,但该方法只是考虑了局部评分数据,忽视了全局影响。
发明内容
针对现有技术的问题,本发明提出了一种融合属性和语义的概率矩阵分解冷启动推荐方法,;利用线性回归对属性信息和语义信息建模预测潜在特征,并把预测值作为概率矩阵分解的先验概率对评分矩阵进行分解;当遇到新用户或新项目时,可以通过属性信息和语义信息有效地预测评分;可以有效地将属性信息和语义信息融入到概率矩阵分解中,解决了推荐系统中普遍存在的冷启动和稀疏性问题,并且有更高的准确度,算法复杂度不高,适用处理大规模数据。
为了实现上述目的本发明采用如下技术方案:
一种融合属性和语义的概率矩阵分解冷启动推荐方法,包括以下步骤:
步骤1.收集大量用户和项目数据,数据包括用户属性信息、项目属性信息、用户对项目的评分信息和项目内容文本信息,以此为基础构建数据集;
步骤2.对项目内容文本信息进行分词、去除停用词预处理,然后对深度学习词向量模型进行训练获得词向量模型;
步骤3.将项目文本中的词通过词向量模型转换为向量,并利用词向量的加法运算法则结合TF-IDF方法获得n个关键词向量及权重{vj1:wj1,vj2:wj2,...,vjm:wjm,...,vjn:wjn},其中vjm表示为项目j的第m个关键词的词向量,wjm表示为项目j的第m个关键词向量的TF-TDF权重,将词向量累加平均获得项目内容文本向量
步骤4.构建线性回归模型预测潜在特征,将用户属性集fu看作输入值,用户的属性集包括性别、年龄和职业,用户潜在特征向量看作输出值,用户潜在特征的线性预测方程表达为:
相同的,将项目属性集fV看作输入值,项目潜在特征向量看作输出值,项目潜在特征的线性预测方程表达为:
其中,Ui、Vj和Qj表示用户潜在特征、项目潜在特征和项目语义潜在特征,εui、εvj和εqj是高斯噪声:
整个线性回归预测模型的条件概率为:
融合项目内容文本语义对用户评分的影响,整个评分矩阵R的条件概率分布重新定义为:
其中ω是调节参数,用来调控项目语义对用户评分的影响,是指数函数,如果用户i对项目j有过评分,那么它的值为1,否则为0,rij是实际评分,经过贝叶斯推断,联合后的后验对数概率满足下式:
为了方便计算,进一步处理得到最终的损失函数:
步骤6.使用随机梯度下降法求解损失函数的局部最优解,整个模型最重要的模型参数分别为:用户潜在特征U,项目潜在特征V,项目语义潜在特征Q,线性预测模型中的模型参数Wu、Wv、Wq,参数求解步骤如下:
6.1)输入评分矩阵R,用户的属性信息fu,项目的属性信息fv和项目内容文本向量fq;
6.2)初始化参数Ui,Vj,Qj,Wu,Wv,Wq,α,ω;
6.3)WhileL不满足收敛do
6.4)输出权重矩阵Wu,Wv,Wq和潜在特征矩阵Ui,Vj,Qj;
步骤7.预测评分,选取评分最高的前n个项目作为推荐集,评分预测公式如下:
本发明的有益效果主要表现在:对推荐系统中的稀疏性和冷启动问题进行了研究,利用线性回归对属性信息和语义信息建模预测潜在特征,有效地解决了因新用户或新项目没有历史数据而无法推荐的冷启动问题,将属性信息和语义信息融合到评分矩阵的概率分解中,解决了因用户评分数据稀疏而造成推荐准确度低的问题。
附图说明
图1是本发明的整体流程示意图;
图2是本发明的词向量训练过程图;
图3是本发明的概率矩阵分解模型图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1~图3,一种融合属性和语义的概率矩阵分解冷启动推荐方法,首先从数据库中提取用户属性信息、项目属性信息、项目文本信息和用户评分信息,利用线性回归对属性信息和语义信息建模预测潜在特征,并把预测值作为概率分解的先验概率,从而实现将属性信息和语义信息融合到评分矩阵的概率分解中,所述方法包括以下步骤:
步骤1.收集大量用户和项目数据,数据包括用户属性信息、项目属性信息、用户对项目的评分信息和项目内容文本信息,以此为基础构建数据集;
步骤2.如图2所示,对项目内容文本信息进行分词、去除停用词等预处理,然后对深度学习词向量模型进行训练获得词向量模型;
步骤3.将项目文本中的词通过词向量模型转换为向量,并利用词向量的加法运算法则结合TF-IDF方法获得n个关键词向量及权重{vj1:wj1,vj2:wj2,...,vjm:wjm,...,vjn:wjn},其中vjm表示为项目j的第m个关键词的词向量,wjm表示为项目j的第m个关键词向量的TF-TDF权重,将词向量累加平均获得项目的文本向量
表示项目j的内容文本向量,n为项目内容文本中提取的关键词总数;
步骤4.构建线性回归模型预测潜在特征,将用户属性集fu看作输入值,用户的属性集包括性别、年龄和职业等,用户潜在特征向量看作输出值,用户潜在特征的线性预测方程表达为:
相同的,将项目属性集fV看作输入值,项目(例如电影)的属性集包含电影类、导演和明星等,项目潜在特征向量看作输出值。项目潜在特征的线性预测方程表达为:
其中,Ui、Vj和Qj表示用户潜在特征、项目潜在特征和项目语义潜在特征,εui、εvj和εqj是高斯噪声:
整个线性回归预测模型的条件概率为:
融合项目内容语义对用户评分的影响,整个评分矩阵R的条件概率分布重新定义为:
为了方便计算,进一步处理得到最终的损失函数:
步骤6.使用随机梯度下降法求解损失函数的局部最优解。整个模型最重要的模型参数分别为:用户潜在特征U,项目潜在特征V,项目语义潜在特征Q,线性预测模型中的模型参数Wu、Wv、Wq,参数求解步骤如下:
6.1)输入评分矩阵R,用户的属性信息fu,项目的属性信息fv和项目内容文本向量fq;
6.2)初始化参数Ui,Vj,Qj,Wu,Wv,Wq,α,ω;
6.3)WhileL不满足收敛do;
6.4)输出权重矩阵Wu,Wv,Wq和潜在特征矩阵Ui,Vj,Qj;
步骤7.预测评分,选取评分最高的前n个项目作为推荐集,评分预测公式如下:
Claims (1)
1.一种融合属性和语义的概率矩阵分解冷启动推荐方法,其特征在于,所述方法包括以下步骤:
步骤1.收集大量用户和项目数据,数据包括用户属性信息、项目属性信息、用户对项目的评分信息和项目内容文本信息,以此为基础构建数据集;
步骤2.对项目内容文本信息进行分词、去除停用词预处理,然后对深度学习词向量模型进行训练获得词向量模型;
步骤3.将项目文本中的词通过词向量模型转换为向量,并利用词向量的加法运算法则结合TF-IDF方法获得n个关键词向量及权重{vj1:wj1,vj2:wj2,...,vjm:wjm,...,vjn:wjn},其中vjm表示为项目j的第m个关键词的词向量,wjm表示为项目j的第m个关键词向量的TF-TDF权重,将词向量累加平均获得项目内容文本向量
步骤4.构建线性回归模型预测潜在特征,将用户属性集fu看作输入值,用户的属性集包括性别、年龄和职业,用户潜在特征向量看作输出值,用户潜在特征的线性预测方程表达为:
相同的,将项目属性集fV看作输入值,项目潜在特征向量看作输出值,项目潜在特征的线性预测方程表达为:
其中,Ui、Vj和Qj表示用户潜在特征、项目潜在特征和项目语义潜在特征,εui、εvj和εqj是高斯噪声:
整个线性回归预测模型的条件概率为:
融合项目内容文本语义对用户评分的影响,整个评分矩阵R的条件概率分布重新定义为:
为了方便计算,进一步处理得到最终的损失函数:
其中,||·||F是表示Frobenius范数;
步骤6.使用随机梯度下降法求解损失函数的局部最优解,整个模型最重要的模型参数分别为:用户潜在特征U,项目潜在特征V,项目语义潜在特征Q,线性预测模型中的模型参数Wu、Wv、Wq,参数求解步骤如下:
6.1)输入评分矩阵R,用户的属性信息fu,项目的属性信息fv和项目内容文本向量fq;
6.2)初始化参数Ui,Vj,Qj,Wu,Wv,Wq,α,ω;
6.3)While L不满足收敛do
6.4)输出权重矩阵Wu,Wv,Wq和潜在特征矩阵Ui,Vj,Qj;
步骤7.预测评分,选取评分最高的前n个项目作为推荐集,评分预测公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910914274.4A CN110851700B (zh) | 2019-09-25 | 2019-09-25 | 一种融合属性和语义的概率矩阵分解冷启动推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910914274.4A CN110851700B (zh) | 2019-09-25 | 2019-09-25 | 一种融合属性和语义的概率矩阵分解冷启动推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851700A true CN110851700A (zh) | 2020-02-28 |
CN110851700B CN110851700B (zh) | 2022-04-05 |
Family
ID=69597066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910914274.4A Active CN110851700B (zh) | 2019-09-25 | 2019-09-25 | 一种融合属性和语义的概率矩阵分解冷启动推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851700B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368197A (zh) * | 2020-03-04 | 2020-07-03 | 哈尔滨理工大学 | 一种基于深度学习的评论推荐系统及方法 |
CN113239277A (zh) * | 2021-06-07 | 2021-08-10 | 安徽理工大学 | 一种基于用户评论的概率矩阵分解推荐方法 |
CN113626716A (zh) * | 2021-08-26 | 2021-11-09 | 腾讯科技(深圳)有限公司 | 数据处理方法、电子设备及存储介质 |
CN114881689A (zh) * | 2022-04-26 | 2022-08-09 | 驰众信息技术(上海)有限公司 | 基于矩阵分解的楼宇推荐方法和系统 |
CN117312506A (zh) * | 2023-09-07 | 2023-12-29 | 广州风腾网络科技有限公司 | 一种页面语义信息提取方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160232540A1 (en) * | 2015-02-10 | 2016-08-11 | EverString Innovation Technology | Predictive analytics for leads generation and engagement recommendations |
CN107491540A (zh) * | 2017-08-24 | 2017-12-19 | 济南浚达信息技术有限公司 | 一种结合深度贝叶斯模型和协同异构信息嵌入的电影推荐方法 |
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN109670909A (zh) * | 2018-12-13 | 2019-04-23 | 南京财经大学 | 一种基于概率矩阵分解和特征融合的旅游产品推荐方法 |
-
2019
- 2019-09-25 CN CN201910914274.4A patent/CN110851700B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160232540A1 (en) * | 2015-02-10 | 2016-08-11 | EverString Innovation Technology | Predictive analytics for leads generation and engagement recommendations |
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN107491540A (zh) * | 2017-08-24 | 2017-12-19 | 济南浚达信息技术有限公司 | 一种结合深度贝叶斯模型和协同异构信息嵌入的电影推荐方法 |
CN109670909A (zh) * | 2018-12-13 | 2019-04-23 | 南京财经大学 | 一种基于概率矩阵分解和特征融合的旅游产品推荐方法 |
Non-Patent Citations (1)
Title |
---|
孙丽梅等: "简化的Slope One在线评分预测算法", 《计算机应用》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368197A (zh) * | 2020-03-04 | 2020-07-03 | 哈尔滨理工大学 | 一种基于深度学习的评论推荐系统及方法 |
CN111368197B (zh) * | 2020-03-04 | 2022-05-27 | 哈尔滨理工大学 | 一种基于深度学习的评论推荐系统及方法 |
CN113239277A (zh) * | 2021-06-07 | 2021-08-10 | 安徽理工大学 | 一种基于用户评论的概率矩阵分解推荐方法 |
CN113626716A (zh) * | 2021-08-26 | 2021-11-09 | 腾讯科技(深圳)有限公司 | 数据处理方法、电子设备及存储介质 |
CN114881689A (zh) * | 2022-04-26 | 2022-08-09 | 驰众信息技术(上海)有限公司 | 基于矩阵分解的楼宇推荐方法和系统 |
CN117312506A (zh) * | 2023-09-07 | 2023-12-29 | 广州风腾网络科技有限公司 | 一种页面语义信息提取方法及系统 |
CN117312506B (zh) * | 2023-09-07 | 2024-03-08 | 广州风腾网络科技有限公司 | 一种页面语义信息提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110851700B (zh) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110851700B (zh) | 一种融合属性和语义的概率矩阵分解冷启动推荐方法 | |
CN108920641B (zh) | 一种信息融合个性化推荐方法 | |
Bansal et al. | Ask the gru: Multi-task learning for deep text recommendations | |
Abirami et al. | A survey on sentiment analysis methods and approach | |
CN109947987B (zh) | 一种交叉协同过滤推荐方法 | |
CN110851731B (zh) | 一种用户属性耦合相似和兴趣语义相似的协同过滤推荐方法 | |
Li et al. | A novel time-aware hybrid recommendation scheme combining user feedback and collaborative filtering | |
CN110851701B (zh) | 一种基于用户上下文耦合相似度的概率矩阵分解推荐方法 | |
Mahadevan et al. | Integrated topic modeling and sentiment analysis: a review rating prediction approach for recommender systems | |
Yadav et al. | A new approach for movie recommender system using K-means Clustering and PCA | |
CN111241425A (zh) | 一种基于层次注意力机制的poi推荐方法 | |
Nguyen et al. | Adaptive contrastive learning on multimodal transformer for review helpfulness predictions | |
CN110110220A (zh) | 融合社交网络和用户评价的推荐模型 | |
Zhang et al. | SEMA: Deeply learning semantic meanings and temporal dynamics for recommendations | |
Ghobakhloo et al. | Design of a personalized recommender system using sentiment analysis in social media (case study: banking system) | |
Hassan et al. | Reviews Sentiment analysis for collaborative recommender system | |
Xie et al. | Attentive preference personalized recommendation with sentence-level explanations | |
Duan et al. | A hybrid recommendation system based on fuzzy c-means clustering and supervised learning | |
Tang et al. | LDA model and network embedding-based collaborative filtering recommendation | |
Dhiyaulhaq et al. | Sentiment analysis of the jakarta-bandung fast train project using the svm method | |
Van Le et al. | A content-based approach for user profile modeling and matching on social networks | |
Bang et al. | Collective matrix factorization using tag embedding for effective recommender system | |
Fan et al. | Topic modeling methods for short texts: A survey | |
Kabul et al. | Recommender System with User-Based and Item-Based Collaborative Filtering on Twitter using K-Nearest Neighbors Classification | |
Pan et al. | A movie recommendation model combining time information and probability matrix factorisation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |