CN113239277A - 一种基于用户评论的概率矩阵分解推荐方法 - Google Patents
一种基于用户评论的概率矩阵分解推荐方法 Download PDFInfo
- Publication number
- CN113239277A CN113239277A CN202110631828.7A CN202110631828A CN113239277A CN 113239277 A CN113239277 A CN 113239277A CN 202110631828 A CN202110631828 A CN 202110631828A CN 113239277 A CN113239277 A CN 113239277A
- Authority
- CN
- China
- Prior art keywords
- user
- probability matrix
- matrix decomposition
- data
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Algebra (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于用户评论的概率矩阵分解推荐方法,该方法具体涉及了数据挖掘领域。本发明通过用户评论文本增强概率矩阵分解,解决推荐算法中的数据稀疏和冷启动问题。首先选取可以表示项目语义的用户评论作为辅助信息,并利用开源工具对评论文本进行Word2vec词向量训练和预处理,获取到项目标签。然后用深度学习中的堆栈式降噪自编码器提取标签中的项目特征,堆栈式降噪自编码器将稀疏高维的数据转化为低维的数据,增强了推荐算法鲁棒性。最后将用户评分矩阵和提取到的项目矩阵进行概率矩阵分解,从用户评论文本中提取到的项目特征矩阵增强了概率矩阵分解,极大的提升了推荐的效果。
Description
技术领域
本发明是一种基于用户评论的概率矩阵分解推荐方法,具体涉及到深度学习技术与概率矩阵分解的方法,属于数据挖掘领域。
背景技术
在当今这个时代,海量数据充斥在互联网中造成了数据的冗余现象。随着计算机技术的快速发展,大量数据被利用,并应用于人工智能的各个领域来解决人们日常生活的各种需求。伴随着社会生活水平的提高,人们渐渐趋向于在互联网上查询资料和分享自己的知识与生活,因此推荐算法就应运而生,为用户查询和推荐所需要的信息或者服务。
现在基于深度学习的推荐算法已成为国内外研究的热点。现有的深度学习技术主要分为两类,一类为深度学习直接被应用于预测推荐。一类为混合方法,利用其从辅助信息中提取特征,再结合其他算法完成推荐过程。最常用的就是深度学习结合矩阵分解算法完成推荐过程。其中,用深度学习技术虽然可以挖掘用户和项目的潜在特征,但没有充足的辅助信息,还是无法准确的挖掘用户偏好和充分利用提取的特征。目前的辅助信息中有用户和项目的基本信息、社交网络、知识图谱、信任度、用户评论、标签等。基于用户和项目的基本信息由于信息较少,存在一定的数据稀疏性。基于社交网络和信任度的推荐算法,这两种辅助信息虽然解决了用户的冷启动问题,但对于物品的冷启动仍没有帮助。基于知识图谱的推荐算法对知识图谱库具有一定的依赖性。而基于用户评论的推荐算法既能表达用户偏好和项目信息,可以作为辅助信息解决用户和物品冷启动的问题。
发明内容
本发明的目的是:通过用户评论增强概率矩阵分解算法,解决推荐算法中的冷启动问题。用深度学习中的堆栈式降噪自编码器来提取用户评论中的项目特征,一方面可以将高维稀疏的信息转化为低维的特征信息,在提高了推荐算法鲁棒性的同时,降低了信息的不确定性;另一方面将用户评论作为辅助信息,深度融合用户评分矩阵,解决了冷启动和数据稀疏性问题。
本发明的具体内容如下:
一种基于用户评论的概率矩阵分解推荐方法,先用Word2vec词向量对用户评论文本进行训练;然后使用开源工具处理训练好的语料;再用堆栈式降噪自编码器模型(SDAE)对处理好的数据进行逐层特征提取的任务,获取到提取的项目特征;最后将用户和项目特征进行概率矩阵分解,完成预测推荐。
本发明的具体步骤如下:
(1)获取用户评论数据,收集语料;
(2)对获取的数据进行预处理,再进行Word2vec词向量训练;
(3)对语料进行依存句法分析,并制定抽取规则获取候选标签;
(4)将候选标签和项目评分数据输入到堆栈式降噪自编码器中,并对堆栈式降噪自编码器进行逐层训练,提取特征;
(5)将提取的特征矩阵和用户特征矩阵进行概率矩阵分解;
(6)多次训练概率矩阵模型,衡量推荐效果;
具体的,步骤(1)中通过Python技术获取豆瓣网站中用户评论数据,作为语料。
具体的,步骤(2)中对数据进行预处理,是使用斯坦福的分词工具进行分词处理并去掉停用词。并将数据分为数据集和测试集分别进行Word2vec词向量的训练。
具体的,步骤(3)中使用斯坦福NLP工具包和中文Model文件进行句法分析。并根据分析的结果选择抽取规则,最后再用SIMHASH算法对候选标签集合去重。
具体的,步骤(4)中的候选标签信息和项目评分数据输入到3层的堆栈式降噪自编码器中。经过逐层贪婪训练,从L/2层中提取标签和项目特征矩阵。
具体的,步骤(5)中,假设提取到的用户评分和项目特征矩阵以及评分数据R和预测值之差都满足均值为0,方差为σ的高斯先验分布。先通过贝叶斯公式得到潜在特征矩阵U和V的后验概率分布,然后最大化后验概率完成概率矩阵分解。
具体的,步骤(6)中采用梯度下降法优化目标函数,经过多次迭代训练,选用RMSE作为测量算法的精度和推荐效果的评价指标。
附图说明
图1是本发明的流程框架图;
图2是本发明的模型示意图;
图3是本发明的堆栈式降噪自编码器结构图;
具体实施方式
下面将结合附图,对本发明的步骤和过程进行清楚、完整的描述。
图1是本发明的总体流程图,一种基于用户评论的概率矩阵分解推荐方法。图2是本发明的模型示意图,用提取到的用户评论文本特征W+代替原本的项目特征和用户特征进行概率矩阵分解,用户评论文本既解决了数据的稀疏和冷启动问题又增强了增强概率矩阵分解,表明本发明的原理。图3是用于提取处理好的评论文本数据的堆栈式降噪自编码器的结构图。
图1的总体流程图包括以下步骤:
(1)语料收集,利用爬虫技术获取豆瓣网站中用户评论数据。
(2)斯坦福的分词工具对数据进行分词处理和去掉停用词。再将数据分为数据集和测试集分别输入到Word2vec词向量中进行训练。
(3)使用斯坦福NLP工具包和中文Model文件对训练好的语料进行依存句法分析,并根据分析的结果选择抽取规则,再用SIMHASH算法对候选标签集合去重后获取到标签W+。
(5)使用贪婪算法对堆栈式降噪自编码器进行逐层训练。
(6)将从堆栈式降噪自编码器的XL/2中提取的融合了用户评论的项目特征矩阵Vj和用户评分特征矩阵Ui进行概率矩阵分解。
概率矩阵分解的具体过程如下:
图2中的项目特征矩阵Vj和用户评分特征矩阵Ui是概率矩阵分解中的用户特征矩阵U和项目特征矩阵V
2、根据贝叶斯公式得到的潜在特征矩阵U和V的后验概率分布公式为:
3、最大化后验概率等价于最小化二次正则化项平方误差之和函数,即目标函数公式为:
Claims (7)
1.一种基于用户评论的概率矩阵分解推荐方法,其特征在于,包括以下步骤:
(1)获取用户评论数据,收集语料;
(2)对获取的语料进行预处理,再进行word2vec词向量训练;
(3)对训练好的语料进行依存句法分析,并制定抽取规则获取候选标签;
(4)将候选标签和项目评分数据输入到堆栈式降噪自编码器中,并对堆栈式降噪自编码器进行逐层训练和提取特征;
(5)将提取的特征矩阵和用户特征矩阵进行概率矩阵分解;
(6)多次训练概率矩阵模型,衡量推荐效果。
2.根据权利要求1所述的一种基于用户评论的概率矩阵分解推荐方法,其特征在于,步骤(1)中,通过python技术获取豆瓣网站中用户评论数据,作为语料。
3.根据权利要求1所述的一种基于用户评论的概率矩阵分解推荐方法,其特征在于,步骤(2)中,预处理过程为通过斯坦福的分词工具对语料进行分词处理和去掉停用词。再将数据分为数据集和测试集,分别输入到Word2vec词向量中进行训练。
4.根据权利要求1所述的一种基于用户评论的概率矩阵分解推荐方法,其特征在于,步骤(3)中,先用斯坦福NLP工具包和中文Model文件对训练好的语料进行依存句法分析,并根据分析的结果选择抽取规则获取候选标签,再用SIMHASH算法对候选标签集合去重。
5.根据权利要求1所述的一种基于用户评论的概率矩阵分解推荐方法,其特征在于,步骤(4)中,将候选标签信息和项目评分拼接输入到堆栈式降噪自编码器中,通过贪婪算法进行逐层训练,并从堆栈式降噪自编码器的隐藏层中提取融合了的项目特征矩阵。
6.根据权利要求1所述的一种基于用户评论的概率矩阵分解推荐方法,其特征在于,步骤(5)中,假设获取到的项目特征矩阵和用户评分矩阵以及评分的预测值和真实值之差都满足均值为0,方差为σ的高斯先验分布,用先验计算后验概率分布,最后最小化用户-项目-评分的最大后验概率分布完成概率矩阵分解。
7.根据权利要求1所述的一种基于用户评论的概率矩阵分解推荐方法,其特征在于,步骤(6)中,通过梯度下降法多次训练概率矩阵模型,最后通过评价指标RMSE衡量推荐效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110631828.7A CN113239277A (zh) | 2021-06-07 | 2021-06-07 | 一种基于用户评论的概率矩阵分解推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110631828.7A CN113239277A (zh) | 2021-06-07 | 2021-06-07 | 一种基于用户评论的概率矩阵分解推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113239277A true CN113239277A (zh) | 2021-08-10 |
Family
ID=77137033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110631828.7A Pending CN113239277A (zh) | 2021-06-07 | 2021-06-07 | 一种基于用户评论的概率矩阵分解推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239277A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115373965A (zh) * | 2022-10-25 | 2022-11-22 | 中汽信息科技(天津)有限公司 | 基于堆栈技术的用户标签识别方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202519A (zh) * | 2016-07-22 | 2016-12-07 | 桂林电子科技大学 | 一种结合用户评论内容和评分的项目推荐方法 |
CN107273438A (zh) * | 2017-05-24 | 2017-10-20 | 深圳大学 | 一种推荐方法、装置、设备及存储介质 |
US20190034802A1 (en) * | 2017-07-28 | 2019-01-31 | Siemens Aktiengesellschaft | Dimensionality reduction in Bayesian Optimization using Stacked Autoencoders |
CN110059220A (zh) * | 2019-04-12 | 2019-07-26 | 北京工业大学 | 一种基于深度学习与贝叶斯概率矩阵分解的电影推荐方法 |
CN110851700A (zh) * | 2019-09-25 | 2020-02-28 | 浙江工业大学 | 一种融合属性和语义的概率矩阵分解冷启动推荐方法 |
CN111930926A (zh) * | 2020-08-05 | 2020-11-13 | 南宁师范大学 | 结合评论文本挖掘的个性化推荐算法 |
-
2021
- 2021-06-07 CN CN202110631828.7A patent/CN113239277A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202519A (zh) * | 2016-07-22 | 2016-12-07 | 桂林电子科技大学 | 一种结合用户评论内容和评分的项目推荐方法 |
CN107273438A (zh) * | 2017-05-24 | 2017-10-20 | 深圳大学 | 一种推荐方法、装置、设备及存储介质 |
US20190034802A1 (en) * | 2017-07-28 | 2019-01-31 | Siemens Aktiengesellschaft | Dimensionality reduction in Bayesian Optimization using Stacked Autoencoders |
CN110059220A (zh) * | 2019-04-12 | 2019-07-26 | 北京工业大学 | 一种基于深度学习与贝叶斯概率矩阵分解的电影推荐方法 |
CN110851700A (zh) * | 2019-09-25 | 2020-02-28 | 浙江工业大学 | 一种融合属性和语义的概率矩阵分解冷启动推荐方法 |
CN111930926A (zh) * | 2020-08-05 | 2020-11-13 | 南宁师范大学 | 结合评论文本挖掘的个性化推荐算法 |
Non-Patent Citations (1)
Title |
---|
王倩雯 等: ""基于深度学习的流动放映电影推荐算法"", 《中国高科技产业化研究会会议论文集》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115373965A (zh) * | 2022-10-25 | 2022-11-22 | 中汽信息科技(天津)有限公司 | 基于堆栈技术的用户标签识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491531B (zh) | 基于集成学习框架的中文网络评论情感分类方法 | |
CN112001185B (zh) | 一种结合中文句法和图卷积神经网络的情感分类方法 | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN110427623A (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
Dashtipour et al. | Exploiting deep learning for Persian sentiment analysis | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN110059183B (zh) | 一种基于大数据的汽车行业用户观点情感分类方法 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN111259153B (zh) | 一种完全注意力机制的属性级情感分析方法 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN110414009A (zh) | 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置 | |
CN114139522A (zh) | 一种基于层级注意力和标签引导学习的关键信息识别方法 | |
CN110489553A (zh) | 一种基于多源信息融合的情感分类方法 | |
CN115409018B (zh) | 基于大数据的公司舆情监测系统及其方法 | |
CN110222192A (zh) | 语料库建立方法及装置 | |
CN112966068A (zh) | 基于网页信息的简历识别方法和装置 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN114942974A (zh) | 电商平台商品用户评价情感倾向分类方法 | |
CN117891939A (zh) | 粒子群算法结合cnn卷积神经网络的文本分类方法 | |
CN110245234A (zh) | 一种基于本体和语义相似度的多源数据样本关联方法 | |
CN113239277A (zh) | 一种基于用户评论的概率矩阵分解推荐方法 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
Sun | Research on product attribute extraction and classification method for online review | |
CN116151258A (zh) | 文本消岐方法、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210810 |