CN109635291B - 一种基于协同训练的融合评分信息和物品内容的推荐方法 - Google Patents

一种基于协同训练的融合评分信息和物品内容的推荐方法 Download PDF

Info

Publication number
CN109635291B
CN109635291B CN201811473802.9A CN201811473802A CN109635291B CN 109635291 B CN109635291 B CN 109635291B CN 201811473802 A CN201811473802 A CN 201811473802A CN 109635291 B CN109635291 B CN 109635291B
Authority
CN
China
Prior art keywords
user
training
scoring
article
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811473802.9A
Other languages
English (en)
Other versions
CN109635291A (zh
Inventor
张宜浩
刘智
朱常鹏
刘小洋
刘万平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN201811473802.9A priority Critical patent/CN109635291B/zh
Publication of CN109635291A publication Critical patent/CN109635291A/zh
Application granted granted Critical
Publication of CN109635291B publication Critical patent/CN109635291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于协同训练的融合评分信息和物品内容的推荐方法,通过挖掘用户评论的情感倾向,以实现对用户原始评分偏离用户真实兴趣偏好的纠正,采用观点预过滤方法对该物品的情感倾向进行综合评分度量。对物品内容描述的文本信息进行挖掘,利用神经网络的方法将其表示成为分布式的段落向量,实现对物品内容的相似度计算,进而构建基于物品内容的推荐模型。本发明利用协同训练策略实现对两个推荐因素的融合,并在协同训练中增加了基于置信度估计与聚类分析的数据选择策略,尽量消除迭代训练中加入到训练数据池中的数据分布偏差。根据推荐预测模型的综合评分和物品的相似度,对初始推荐结果进行过滤和排序,从而得到最终推荐结果。

Description

一种基于协同训练的融合评分信息和物品内容的推荐方法
技术领域
本发明涉及物品推荐领域,尤其涉及一种基于协同训练的融合评分信息和物品内容的推荐方法。
背景技术
信息时代,信息也成为了一种资源。信息时代的迅猛发展加快了整个世界的进步,加快了人们生活的节奏,时间利用的有效性成为了关键。而与此相违背的爆炸性的数据量又是一个亟待解决的问题。在此背景下,推荐系统的产生和发展的合理性也就众所周知。为用户在较短时间内选择到针对他的喜好物品是推荐系统的目标。
本发明提出了一种基于协同训练的融合评分信息和物品内容的推荐方法。一方面,我们通过挖掘用户评论的情感倾向,以实现对用户原始评分偏离用户真实兴趣偏好的纠正,采用观点预过滤(opinion pre-filtering)方法对该物品的情感倾向进行综合评分度量,从而实现基于物品的协同过滤推荐模型。另一方面,我们对物品内容描述的文本信息进行挖掘,利用神经网络的方法将其表示成为分布式的段落向量,实现对物品内容的相似度计算,进而构建基于物品内容的推荐模型。与此同时,本发明利用协同训练策略实现对两个推荐因素的融合,并在协同训练中增加了基于置信度估计与聚类分析的数据选择策略,尽量消除迭代训练中加入到训练数据池中的数据分布偏差;在此基础上,构建混合推荐系统的预测模型。在TopN推荐阶段,根据推荐预测模型的综合评分和物品的相似度,对初始推荐结果进行过滤和排序,从而得到最终推荐结果。
发明内容
针对现有技术中存在的上述不足,本发明实际要解决的问题是:如何提高在用户评分存在缺失时的推荐准确性,成为了本领域技术人员急需解决的问题。
为解决上述技术问题,本发明采用了如下的技术方案:
一种基于协同训练的融合评分信息和物品内容的推荐方法,包括如下步骤:
S1、获取用户对物品的评论文本及用户对物品的评分,基于用户对物品的评分建立用户评分矩阵,初始化迭代次数为1,执行S2;
S2、基于用户对物品的评论文本建立用户情感倾向评分矩阵,执行S3;
S3、基于用户情感倾向评分矩阵更新用户评分矩阵,执行S4;
S4、基于用户评分矩阵生成数据训练集,执行S5;
S5、获取物品描述文本,基于物品描述文本生成物品描述向量,执行S6;
S6、基于物品描述向量及数据训练集更新用户评分矩阵,执行S7;
S7、将迭代次数加1,判断迭代次数是否大于或等于预设迭代次数,当迭代次数大于或等于预设迭代次数,执行S8,否则,执行S3;
S8、对用户评分矩阵中物品的评分进行排序并推荐。
优选地,S2包括如下步骤:
S201、将所有评论文本进行切词,得到候选关键词;
S202、利用word2vec中的Skip-Gram模型训练候选关键词向量模型,得到每个候选关键词的K维向量表示;
S203、采用TF-IDF算法从候选关键词选出出现频率最高的Top-N个候选关键词作为关键词,并获取每个关键词的K维向量表示;
S204、将评论文本对应的关键词的K维向量表示输入长短期记忆人工神经网络,得到评论文本对应的用户情感倾向评分;
S205、基于用户情感倾向评分建立用户情感倾向评分矩阵。
优选地,S3包括如下步骤:
S301、基于公式
Figure GDA0004141870440000021
更新用户评分,Ru(i)为第u个用户对第i个物品的用户评分,
Figure GDA0004141870440000022
为第u个用户对第i个物品的用户情感倾向评分,α为权重平衡因子;
S302、基于更新后的用户评分建立用户评分矩阵Rm×n(U,I),行向量m表示用户的个数,列向量n表示物品的个数。
优选地,S4包括如下步骤:
S401、将大于或等于预设正类分数阈值的用户评分加入正类数据池Di(+)中,将小于或等于预设负类分数阈值的用户评分加入负类数据池Di(-)中,基于公式DL={Di(+)∪Di(-)}生成第一数据集DL,预设正类分数阈值大于预设负类分数阈值;
S402、若用户评分缺失,采用用户情感倾向评分代替缺失的用户评分,作为新的用户评分,采用基于置信度估计与聚类分析的数据选择算法从所述新的用户评分中选择符合预设条件的新的用户评分,建立第二数据集DL
S403、基于第一数据集DL和第二数据集DL′生成训练数据集Dtrain,Dtrain={DL∪DL'}。
优选地,S6包括如下步骤:
S601、基于训练数据集Dtrain中大于或等于预设正类分数阈值的用户评分对应的物品的物品描述向量、训练数据集Dtrain中小于或等于预设负类分数阈值的用户评分对应的物品的物品描述向量,建立第一用户物品描述向量集合;
S602、选取第一预设个数的用户评分等于预设评分的物品的用户物品描述向量建立候选用户物品描述向量集合,计算第一用户物品描述向量集合与候选用户物品描述向量集合中物品的距离和相似度;
S603、选取候选用户物品描述向量集合中每个物品的第二预设个数的近邻物品,计算候选用户物品描述向量集合中每个物品与其最近邻物品的平均距离;
S604、基于候选用户物品描述向量集合中每个物品与其最近邻物品的平均距离,更新候选用户物品描述向量集合中用户对物品的评分;
S605、基于更新后的候选用户物品描述向量集合用户对物品的评分更新物品的评分向量并更新第二数据集;
S606、利用基于置信度估计与聚类分析的数据选择算法对DL'进行数据分布分析并更新用户评分矩阵。
优选地,S8中,采用TOP-N算法基于用户评分矩阵中物品的评分对物品进行排序,并选择最靠前的多个物品进行推荐。
综上所述,本发明公开了一种基于协同训练的融合评分信息和物品内容的推荐方法,其特征在于,包括如下步骤:S1、获取用户对物品的评论文本及用户对物品的评分,基于用户对物品的评分建立用户评分矩阵,初始化迭代次数为1,执行S2;S2、基于用户对物品的评论文本建立用户情感倾向评分矩阵,执行S3;S3、基于用户情感倾向评分矩阵更新用户评分矩阵,执行S4;S4、基于用户评分矩阵生成数据训练集,执行S5;S5、获取物品描述文本,基于物品描述文本生成物品描述向量,执行S6;S6、基于物品描述向量及数据训练集更新用户评分矩阵,执行S7;S7、将迭代次数加1,判断迭代次数是否大于或等于预设迭代次数,当迭代次数大于或等于预设迭代次数,执行S8,否则,执行S3;S8、对用户评分矩阵中物品的评分进行排序并推荐。本发明提出基于观点预过滤和基于用户评分嵌入的情感融合方法,解决推荐系统中用户原始评分与真实兴趣偏好存在偏差、且评分等级分布极度不均衡的问题。此外,本发明提出了基于协同训练的混合推荐方法,实现推荐系统中的评分预测。解决混合推荐系统中多推荐方法的融合问题。
附图说明
图1为本发明公开的一种基于协同训练的融合评分信息和物品内容的推荐方法的流程图;
具体实施方式
下面结合附图对本发明作进一步的详细说明。
如图1所示,本发明公开了一种基于协同训练的融合评分信息和物品内容的推荐方法,包括如下步骤:
S1、获取用户对物品的评论文本及用户对物品的评分,基于用户对物品的评分建立用户评分矩阵,初始化迭代次数为1,执行S2;
S2、基于用户对物品的评论文本建立用户情感倾向评分矩阵,执行S3;
S3、基于用户情感倾向评分矩阵更新用户评分矩阵,执行S4;
S4、基于用户评分矩阵生成数据训练集,执行S5;
S5、获取物品描述文本,基于物品描述文本生成物品描述向量,执行S6;
S6、基于物品描述向量及数据训练集更新用户评分矩阵,执行S7;
S7、将迭代次数加1,判断迭代次数是否大于或等于预设迭代次数,当迭代次数大于或等于预设迭代次数,执行S8,否则,执行S3;
S8、对用户评分矩阵中物品的评分进行排序并推荐。
本发明提出了一种基于协同训练的融合评分信息和物品内容的推荐方法。一方面,我们通过挖掘用户评论的情感倾向,以实现对用户原始评分偏离用户真实兴趣偏好的纠正,采用观点预过滤(opinion pre-filtering)方法对该物品的情感倾向进行综合评分度量,从而实现基于物品的协同过滤推荐模型。另一方面,我们对物品内容描述的文本信息进行挖掘,利用神经网络的方法将其表示成为分布式的段落向量,实现对物品内容的相似度计算,进而构建基于物品内容的推荐模型。与此同时,本发明利用协同训练策略实现对两个推荐因素的融合,并在协同训练中增加了基于置信度估计与聚类分析的数据选择策略,尽量消除迭代训练中加入到训练数据池中的数据分布偏差;在此基础上,构建混合推荐系统的预测模型。在TopN推荐阶段,根据推荐预测模型的综合评分和物品的相似度,对初始推荐结果进行过滤和排序,从而得到最终推荐结果。相较于传统的权融合和级联型等混合方法,本发明提出的基于协同训练的融合评分信息和物品内容的推荐方法。具体工作体现在以下三个方面:
(1)提出基于观点预过滤和基于用户评分嵌入的情感融合方法,解决推荐系统中用户原始评分与真实兴趣偏好存在偏差、且评分等级分布极度不均衡的问题。
(2)探讨利用基于深度学习的自然语言处理技术对推荐系统中辅助信息进行建模。
(3)提出了基于协同训练的多种推荐因素的融合方法,实现推荐系统中的评分预测。在一定程度上解决推荐系统建模中缺乏足够的有标签数据问题。
具体实施时,S2包括如下步骤:
S201、将所有评论文本进行切词,得到候选关键词;
S202、利用word2vec中的Skip-Gram模型训练候选关键词向量模型,得到每个候选关键词的K维向量表示;
S203、采用TF-IDF算法从候选关键词选出出现频率最高的Top-N个候选关键词作为关键词,并获取每个关键词的K维向量表示;
S204、将评论文本对应的关键词的K维向量表示输入长短期记忆人工神经网络,得到评论文本对应的用户情感倾向评分;
S205、基于用户情感倾向评分建立用户情感倾向评分矩阵。
在推荐系统中,用户评论信息的呈现形式通常是关键词和短文本。本发明利用基于词向量的关键词表示方法,解决传统稀疏表示方式的维数灾难,且无法表示语义信息的问题,同时也挖掘了词之间的关联属性,从而提高了关键词语义表示的准确度。
本发明利用Word2vec自动从大规模无标注用户评论中学习到句法和语义信息,实现对用户评论中关键词的表征。利用Word2vec对用户评论的短文本信息进行向量表示,主要分为以下两个步骤:
1)根据收集大规模的用户评论文本,利用word2vec中的Skip-Gram模型训练词向量模型,将每个词表示成K维向量实数值。
2)对于用户评论的短文本,在分词的基础上利用TF-IDF等算法抽取Top-N个词表示文本的情感,然后从词向量模型中查找得到每一个关键词的K维向量表示。
word2vec的词向量表示只是基于词的维度进行“语义分析”,而并不具有上下文的“语义分析”能力,故本发明构建基于词向量和长短期记忆网络的情感计算模型来实现对用户评论的情感分析。长短期记忆网络(LSTM)通过精心设计的称作为“门”的结构来去除或增加信息到细胞状态的能力。它的巧妙之处在于通过增加输入门,遗忘门和输出门,使得自循环的权重是变化的,这样在模型参数固定的情况下,不同时刻的积分尺度可以动态改变,从而避免了梯度消失或者梯度膨胀的问题。
在得到用户的情感评分后,就可以观点预过滤方法对评分信息进行综合评分度量。具体实施时,S3包括如下步骤:
S301、基于公式
Figure GDA0004141870440000061
更新用户评分,Ru(i)为第u个用户对第i个物品的用户评分,
Figure GDA0004141870440000062
为第u个用户对第i个物品的用户情感倾向评分,α为权重平衡因子;
S302、基于更新后的用户评分建立用户评分矩阵Rm×n(U,I),行向量m表示用户的个数,列向量n表示物品的个数。
本发明采用基于Word2vec和LSTM的用户评论的情感分析方法。同大多数神经网络是一样的,我们利用Word2Vec将矩阵形式的输入编码为较低维度的一维向量,而保留大多数有用信息,然后利用LSTM算法训练针对用户评论文本的情感分类模型,实现对用户评论文本的评分等级预测。同时,为了兼顾用户评分对评论信息情感的影响,本发明采用基于观点预过滤的方法和基于用户评分嵌入的方法对用户评分和情感预测评分的进行综合。前者是利用LSTM网络得到预测评分后,同原始用户评分进行加权求和。基于用户评分嵌入的方法则是将LSTM网络向量与用户评分信息进行结合,将结果作为最后一层的输入,直接输出最终的综合评分。
具体实施时,S4包括如下步骤:
S401、将大于或等于预设正类分数阈值的用户评分加入正类数据池Di(+)中,将小于或等于预设负类分数阈值的用户评分加入负类数据池Di(-)中,基于公式DL={Di(+)∪Di(-)}生成第一数据集DL,预设正类分数阈值大于预设负类分数阈值;
本发明中,假设评分最高为5,最低为1,将评分大于或等于4的放入正类数据池,将评分小于或等于2的放入负类数据池。
S402、若用户评分缺失,采用用户情感倾向评分代替缺失的用户评分,作为新的用户评分,采用基于置信度估计与聚类分析的数据选择算法从所述新的用户评分中选择符合预
设条件的新的用户评分,建立第二数据集DL′;
S403、基于第一数据集DL和第二数据集DL′生成训练数据集Dtrain,Dtrain={DL∪DL'}。
在情感分类模型中,一般分为细粒度(5级分类)和粗粒度(2级分类),考虑到2级情感分类模型的准确率远高于5级情感分类模型,故本发明的推荐算法中采用2级情感分类,分别将用户情感为正面和负面的评分设置为5分和1分;然后利用观点预过滤的方法计算用户对物品的综合评分;最后利用基于物品的协同过滤推荐模型对评分进行预测,并利用基于置信度估计与聚类分析的数据选择算法对数据进行筛选,将增量数据加入用户u的训练数据集。
具体实施时,S6包括如下步骤:
S601、基于训练数据集Dtrain中大于或等于预设正类分数阈值的用户评分对应的物品的物品描述向量、训练数据集Dtrain中小于或等于预设负类分数阈值的用户评分对应的物品的物品描述向量,建立第一用户物品描述向量集合;
考虑到推荐系统中,对物品内容的自然语言描述较短且大多是不完整的句子,通常也不遵循语法规则,本发明利用段落向量(Paragraph Vector)对物品内容描述的短文本进行分布式表示。段落向量是一种基于神经网络的隐性短文本理解模型,它将短文本向量当作“语境”用于辅助推理,在极大似然估计中,文本向量亦被作为模型参数进行更新。同基于Word2vec的文本向量表示方法相比,它在模型训练过程中新增了段落编码,即训练语料中每个句子都有一个唯一的编码。段落编码和普通的词一样,也是先映射成一个向量(即段落编码向量)。在计算中,段落编码向量和词向量累加或者连接起来,作为输出层softmax的输入。在物品内容文档训练过程中,段落编码保持不变,共享着同一个段落向量,相当于每次在预测单词的概率时,都利用了整个句子的语义。在预测阶段,给物品内容文档分配一个新的段落编码,词向量和输出层softmax的参数保持不变,利用梯度下降法训练新物品内容文档,直至收敛,从而得物品内容文档的低维向量表示。
S602、选取第一预设个数的用户评分等于预设评分的物品的用户物品描述向量建立候选用户物品描述向量集合,计算第一用户物品描述向量集合与候选用户物品描述向量集合中物品的距离和相似度;
选取2p个用户评分为Φ的候选用户物品描述向量集合,分别计算候选物品与第一用户物品描述向量集合中物品的距离和相似度。
Di∈D2p
Dj∈Dit
Figure GDA0004141870440000081
Figure GDA0004141870440000082
Dit为第一用户物品描述向量集合,D2p为候选用户物品描述向量集合。dis(Di,Dj)为Di、Dj的距离,sim(Di,Dj)为Di、Dj的相似度。
S603、选取候选用户物品描述向量集合中每个物品的第二预设个数的近邻物品,计算候选用户物品描述向量集合中每个物品与其最近邻物品的平均距离;
选择k个最近邻物品{D1,D2,...,Dk},aq标记k个最近邻物品中每个评分等级的个数,disq表示物品Di与k个最近邻物品的平均距离,q为评分等级;
Figure GDA0004141870440000083
S604、基于候选用户物品描述向量集合中每个物品与其最近邻物品的平均距离,更新候选用户物品描述向量集合中用户对物品的评分;
Figure GDA0004141870440000084
S605、基于更新后的候选用户物品描述向量集合用户对物品的评分更新物品的评分向量并更新第二数据集;
针对不同用户u的Ru(i)值得,更新物品i的评分;
L(i)'←R(i)
更新第二数据集;
DL'={(D(i),L(i))}←{(D(i),L(i)')}。
S606、利用基于置信度估计与聚类分析的数据选择算法对DL'进行数据分布分析,将经筛选的数据更新入数据训练集中,并基于新的数据训练集对用户评分矩阵进行更新。
具体实施时,S8中,采用TOP-N算法基于用户评分矩阵中物品的评分对物品进行排序,并选择最靠前的多个物品进行推荐。
此外也可直接根据最终得到的用户评分矩阵,计算各物品的平均分,然后按照大小对物品进行排序,并选择排序最靠前的多个物品进行推荐。
混合推荐方法将多种推荐技术进行混合相互弥补缺点,从而获得更好的推荐效果。传统的混合推荐技术,如:加权融合(Weighted)方法将多种推荐技术的计算结果加权,赋予相应的权重值产生最终的推荐;混合(Mix)推荐方法将多种不同的推荐算法推荐出来的结果混合在一起;级联型(Cascade)推荐方法用后一个推荐方法优化前一个推荐方法,其推荐过程是分阶段的。与上述混合推荐技术不同,本发明在构建混合推荐系统时,采用了协同训练策略构建基于物品的协同过滤推荐和基于物品内容的推荐的混合模型。在协同训练模型的每一次迭代训练过程中,利用用户对物品的评分信息训练评分预测模型,实现对评分矩阵的填充和更新;然后根据更新后的评分矩阵和物品的内容描述信息(评分>=4和评分<=2的物品分别放入用户喜欢和不喜欢的物品训练池中),训练得到基于物品内容的推荐模型,从而对评分矩阵进行填充和更新,将其作为基于物品的协同过滤推荐模型的输入,进行下一次迭代训练。相较于加权融合混合推荐需要不断调整各推荐结果的权值,混合推荐的排序困难,以及级联型推荐的分阶段过程,本发明提出的基于协同训练的混合推荐方法,在每次迭代训练中充分利用了用户对物品的评分信息和物品的内容描述信息,实现对两种推荐因素的融合,达到了较好的推荐效果。
本发明在构建协同训练模型时,增加了数据选择策略对欲加入训练池的数据进行筛选。规定用户的每一评分等级为数据中的一个分类类别;在数据池中的训练数据为有标签数据,待预测的数据为无标签数据。在数据选择策略中,不仅考虑样本属于某一类别的置信度分数,同时也要求选择的样本在每一个(聚类)簇内是均匀分布的,可以避免选择的训练数据在高斯分布上存在较大的估计偏差。基于置信度估计与聚类分析的数据选择算法描述如下所示:
基于置信度估计与聚类分析的数据选择算法
输入:训练样本集(x,y)
输出:样本集(x,y)的选择标签Flag={true,false}
1.初始化
a)将训练数据中每一评分等级作为一类,计算训练样本与每一类c的相似度作为该样本的置信度估计度量,记为f(c;x)。
2.训练数据划分
b)利用Kmeans聚类算法将候选数据划分为k个子簇D1,D2,...,Dk
c)计算:
Figure GDA0004141870440000101
聚类子簇Dk中的有标签样本的数目;
Figure GDA0004141870440000102
聚类子簇Dk中的无标签样本的数目;
Figure GDA0004141870440000103
属于类c且属于聚类子簇Dk中的有标签样本数目;
Figure GDA0004141870440000104
属于类c且属于聚类子簇Dk中的无标签样本数目。
d)计算每一个聚类簇的先验概率:
Figure GDA0004141870440000105
e)计算针对每一类别和聚类簇的概率:
Figure GDA0004141870440000106
其中
Figure GDA0004141870440000107
α是Pl(c|Dk)和Pu(c|Dk)的平衡因子,β是一个数值极小的常量,Z是使P(c|Dk)成为概率函数的归一化因子。
3.数据选择
f)根据概率P(Dk)选择聚类簇Dk,在聚类簇Dk内依据概率P(c|Dk)选择类别c。
g)求聚类簇Dk和类c的样本的交集,选择具有最高置信度估计的前m个样本(令其Flag=true)。
h)重复f)-g)步直至筛选完所有候选预加入训练池的数据。
本发明提出的一种基于协同训练的融合评分信息和物品内容的推荐方法,其时间开销主要来源于用户评论的情感分析、物品内容的相似度计算、基于物品的协同过滤模型、及数据选择几个方面。其中,基于用户评论的情感分析是利用LSTM算法训练情感分类模型,可离线训练生成,不计算入本发明算法时间复杂度。假设在推荐系统中,用户数为m,物品数量为n,则物品内容相似度计算的时间复杂度为O(n2);基于物品的协同过滤模型,在最糟的情况下,其时间复杂度为O(m*n),但现实情况下,由于用户评分数据的稀疏性,其只需计算O(m+n)次;数据选择算法的时间复杂度为O(nlt),其中n为物品数据,l为代表聚类中心数,t代表迭代次数,l和t均为常数。假设协同训练算法中,协同训练的次数为c(c为常数),则本发明算法的计算次数为c*[(n2)+(m*n)+n],或c*[(n2)+(m+n)+n]。由于在推荐系统中,一般情况下物品数小于用户数(n<m),且m+n<n2,故本发明提出的混合推荐算法的时间复杂度,最糟的情况下为O(m*n),一般情况下为O(n2)。即在最糟的情况下其时间复杂度等同于基于领域的协同过滤推荐算法,一般情况下其时间复杂度等同于基于内容的推荐算法。
上述仅是本发明优选的实施方式,需指出是,对于本领域技术人员在不脱离本技术方案的前提下,还可以作出若干变形和改进,上述变形和改进的技术方案应同样视为落入本发明要求保护的范围。

Claims (5)

1.一种基于协同训练的融合评分信息和物品内容的推荐方法,其特征在于,包括如下步骤:
S1、获取用户对物品的评论文本及用户对物品的评分,基于用户对物品的评分建立用户评分矩阵,初始化迭代次数为1,执行S2;
S2、基于用户对物品的评论文本建立用户情感倾向评分矩阵,执行S3;
S3、基于用户情感倾向评分矩阵更新用户评分矩阵,执行S4;
S4、基于用户评分矩阵生成数据训练集,执行S5;
S5、获取物品描述文本,基于物品描述文本生成物品描述向量,执行S6;
S6、基于物品描述向量及数据训练集更新用户评分矩阵,执行S7;S6包括如下步骤:
S601、基于训练数据集Dtrain中大于或等于预设正类分数阈值的用户评分对应的物品的物品描述向量、训练数据集Dtrain中小于或等于预设负类分数阈值的用户评分对应的物品的物品描述向量,建立第一用户物品描述向量集合;
S602、选取第一预设个数的用户评分等于预设评分的物品的用户物品描述向量建立候选用户物品描述向量集合,计算第一用户物品描述向量集合与候选用户物品描述向量集合中物品的距离和相似度;
S603、选取候选用户物品描述向量集合中每个物品的第二预设个数的近邻物品,计算候选用户物品描述向量集合中每个物品与其最近邻物品的平均距离;
S604、基于候选用户物品描述向量集合中每个物品与其最近邻物品的平均距离,更新候选用户物品描述向量集合中用户对物品的评分;
S605、基于更新后的候选用户物品描述向量集合用户对物品的评分更新物品的评分向量并更新第二数据集;
S606、利用基于置信度估计与聚类分析的数据选择算法对DL'进行数据分布分析并更新用户评分矩阵;
S7、将迭代次数加1,判断迭代次数是否大于或等于预设迭代次数,当迭代次数大于或等于预设迭代次数,执行S8,否则,执行S3;
S8、对用户评分矩阵中物品的评分进行排序并推荐;
在协同训练模型的每一次迭代训练过程中,利用用户对物品的评分信息训练评分预测模型,实现对评分矩阵的填充和更新;然后根据更新后的评分矩阵和物品的内容描述信息,训练得到基于物品内容的推荐模型,从而对评分矩阵进行填充和更新,将其作为基于物品的协同过滤推荐模型的输入,进行下一次迭代训练。
2.如权利要求1所述的基于协同训练的融合评分信息和物品内容的推荐方法,其特征在于,S2包括如下步骤:
S201、将所有评论文本进行切词,得到候选关键词;
S202、利用word2vec中的Skip-Gram模型训练候选关键词向量模型,得到每个候选关键词的K维向量表示;
S203、采用TF-IDF算法从候选关键词选出出现频率最高的Top-N个候选关键词作为关键词,并获取每个关键词的K维向量表示;
S204、将评论文本对应的关键词的K维向量表示输入长短期记忆人工神经网络,得到评论文本对应的用户情感倾向评分;
S205、基于用户情感倾向评分建立用户情感倾向评分矩阵。
3.如权利要求2所述的基于协同训练的融合评分信息和物品内容的推荐方法,其特征在于,S3包括如下步骤:
S301、基于公式
Figure FDA0004141870430000021
更新用户评分,Ru(i)为第u个用户对第i个物品的用户评分,
Figure FDA0004141870430000022
为第u个用户对第i个物品的用户情感倾向评分,α为权重平衡因子;
S302、基于更新后的用户评分建立用户评分矩阵Rm×n(U,I),行向量m表示用户的个数,列向量n表示物品的个数。
4.如权利要求3所述的基于协同训练的融合评分信息和物品内容的推荐方法,其特征在于,S4包括如下步骤:
S401、将大于或等于预设正类分数阈值的用户评分加入正类数据池Di(+)中,将小于或等于预设负类分数阈值的用户评分加入负类数据池Di(-)中,基于公式DL={Di(+)∪Di(-)}生成第一数据集DL,预设正类分数阈值大于预设负类分数阈值;
S402、若用户评分缺失,采用用户情感倾向评分代替缺失的用户评分,作为新的用户评分,采用基于置信度估计与聚类分析的数据选择算法从所述新的用户评分中选择符合预设条件的新的用户评分,建立第二数据集DL';
S403、基于第一数据集DL和第二数据集DL'生成训练数据集Dtrain,Dtrain={DL∪DL'}。
5.如权利要求1所述的基于协同训练的融合评分信息和物品内容的推荐方法,其特征在于,S8中,采用TOP-N算法基于用户评分矩阵中物品的评分对物品进行排序,并选择最靠前的多个物品进行推荐。
CN201811473802.9A 2018-12-04 2018-12-04 一种基于协同训练的融合评分信息和物品内容的推荐方法 Active CN109635291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811473802.9A CN109635291B (zh) 2018-12-04 2018-12-04 一种基于协同训练的融合评分信息和物品内容的推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811473802.9A CN109635291B (zh) 2018-12-04 2018-12-04 一种基于协同训练的融合评分信息和物品内容的推荐方法

Publications (2)

Publication Number Publication Date
CN109635291A CN109635291A (zh) 2019-04-16
CN109635291B true CN109635291B (zh) 2023-04-25

Family

ID=66070979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811473802.9A Active CN109635291B (zh) 2018-12-04 2018-12-04 一种基于协同训练的融合评分信息和物品内容的推荐方法

Country Status (1)

Country Link
CN (1) CN109635291B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377750B (zh) * 2019-06-17 2022-05-27 北京百度网讯科技有限公司 评论生成及评论生成模型训练方法、装置及存储介质
CN112149924A (zh) * 2019-06-26 2020-12-29 北京京东尚科信息技术有限公司 描述信息处理方法、装置、设备及计算机可读存储介质
CN110414618B (zh) * 2019-08-05 2023-07-14 上海图趣信息科技有限公司 一种动态平衡分类数据的神经网络训练系统、方法及存储介质
CN110598092A (zh) * 2019-08-12 2019-12-20 深圳市天天学农网络科技有限公司 一种内容推荐的方法
CN110659411B (zh) * 2019-08-21 2022-03-11 桂林电子科技大学 一种基于神经注意力自编码器的个性化推荐方法
CN110633418A (zh) * 2019-09-20 2019-12-31 曹严清 商品推荐方法及装置
TWI815019B (zh) * 2019-10-04 2023-09-11 仁寶電腦工業股份有限公司 資訊推送系統、方法與紀錄媒體
CN110955831B (zh) * 2019-11-25 2023-04-14 北京三快在线科技有限公司 物品推荐方法、装置、计算机设备及存储介质
CN111143699B (zh) * 2020-01-03 2023-07-28 上海理工大学 基于相似性与置信度聚类的推荐系统
CN111274393B (zh) * 2020-01-17 2024-04-09 深圳数联天下智能科技有限公司 关于物品的知识库的构建方法、装置及计算设备
CN111259266B (zh) * 2020-02-12 2023-04-07 长春理工大学 一种互联网内容推荐方法及系统
CN111339439B (zh) * 2020-02-18 2023-05-09 广东工业大学 一种融合评论文本与时序效应的协同过滤推荐方法和装置
CN111639184A (zh) * 2020-06-01 2020-09-08 复旦大学 评分与评论内容的倾向不一致性检测系统
CN111681107A (zh) * 2020-06-11 2020-09-18 黄锐 一种基于Embedding的实时个性化金融产品推荐算法
CN111859155A (zh) * 2020-08-04 2020-10-30 深圳前海微众银行股份有限公司 物品推荐方法、设备及计算机可读存储介质
CN112084416A (zh) * 2020-09-21 2020-12-15 哈尔滨理工大学 基于CNN和LSTM的Web服务推荐方法
CN112256966B (zh) * 2020-10-23 2023-09-12 北京交通大学 基于半监督因子分解机的物品推荐方法
CN112231577B (zh) * 2020-11-06 2022-06-03 重庆理工大学 一种融合文本语义向量和神经协同过滤的推荐方法
CN112860992B (zh) * 2021-01-25 2023-03-24 西安博达软件股份有限公司 基于网站内容数据推荐的特征优化预训练方法
CN113057617B (zh) * 2021-04-30 2022-08-26 重庆理工大学 一种心输出量的无创监测系统
CN113781180A (zh) * 2021-09-16 2021-12-10 湖北天天数链技术有限公司 一种物品推荐方法、装置、电子设备及存储介质
CN115438732B (zh) * 2022-09-06 2023-05-26 重庆理工大学 面向冷启动用户基于分类偏好迁移的跨域推荐方法
CN116204688B (zh) * 2023-05-04 2023-06-30 量子数科科技有限公司 一种基于键入搜索词推荐用户搜索词的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778186A (zh) * 2014-01-15 2015-07-15 阿里巴巴集团控股有限公司 将商品对象挂载到标准产品单元的方法及系统
CN104866530A (zh) * 2015-04-27 2015-08-26 宁波网传媒有限公司 一种基于滑标评分的推荐系统及方法
CN105138653A (zh) * 2015-08-28 2015-12-09 天津大学 一种基于典型度和难度的题目推荐方法及其推荐装置
CN106815347A (zh) * 2017-01-13 2017-06-09 沈阳工学院 基于商品相似度的改进slope one协同过滤推荐算法
CN106909536A (zh) * 2017-02-05 2017-06-30 中山大学 一种基于异构信息的评分推荐方法
CN108415928A (zh) * 2018-01-18 2018-08-17 郝宁宁 一种基于加权混合k-最近邻算法的图书推荐方法与系统
CN108573411A (zh) * 2018-04-17 2018-09-25 重庆理工大学 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN108615177A (zh) * 2018-04-09 2018-10-02 武汉理工大学 基于加权提取兴趣度的电子终端个性化推荐方法
CN108647985A (zh) * 2018-03-27 2018-10-12 阿里巴巴集团控股有限公司 一种物品推荐方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778186A (zh) * 2014-01-15 2015-07-15 阿里巴巴集团控股有限公司 将商品对象挂载到标准产品单元的方法及系统
CN104866530A (zh) * 2015-04-27 2015-08-26 宁波网传媒有限公司 一种基于滑标评分的推荐系统及方法
CN105138653A (zh) * 2015-08-28 2015-12-09 天津大学 一种基于典型度和难度的题目推荐方法及其推荐装置
CN106815347A (zh) * 2017-01-13 2017-06-09 沈阳工学院 基于商品相似度的改进slope one协同过滤推荐算法
CN106909536A (zh) * 2017-02-05 2017-06-30 中山大学 一种基于异构信息的评分推荐方法
CN108415928A (zh) * 2018-01-18 2018-08-17 郝宁宁 一种基于加权混合k-最近邻算法的图书推荐方法与系统
CN108647985A (zh) * 2018-03-27 2018-10-12 阿里巴巴集团控股有限公司 一种物品推荐方法和装置
CN108615177A (zh) * 2018-04-09 2018-10-02 武汉理工大学 基于加权提取兴趣度的电子终端个性化推荐方法
CN108573411A (zh) * 2018-04-17 2018-09-25 重庆理工大学 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
协同过滤推荐技术归类分析与探讨;梁向阳 等;《计算机与现代化》;20161231;第1-6页 *
基于图的混合推荐算法;张宜浩 等;《模式识别与人工智能》;20170430;第1-8页 *

Also Published As

Publication number Publication date
CN109635291A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635291B (zh) 一种基于协同训练的融合评分信息和物品内容的推荐方法
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN110134782B (zh) 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法
CN110717047A (zh) 一种基于图卷积神经网络的Web服务分类方法
CN111859935B (zh) 基于文献的癌症相关生物医学事件数据库构建方法
CN111143549A (zh) 一种基于主题的舆情情感演化的方法
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
CN111160037A (zh) 一种支持跨语言迁移的细粒度情感分析方法
CN110705304B (zh) 一种属性词提取方法
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
Abbasi et al. A grouping hotel recommender system based on deep learning and sentiment analysis
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN111353044A (zh) 一种基于评论的情感分析方法及系统
CN109189919B (zh) 文本多视角情感分类的方法、系统、终端及存储介质
CN111710428A (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
CN111563374B (zh) 一种基于司法裁判文书的人员社交关系抽取方法
CN110110220A (zh) 融合社交网络和用户评价的推荐模型
CN112989803A (zh) 一种基于主题向量学习的实体链接模型
CN108694165B (zh) 面向产品评论的跨领域对偶情感分析方法
CN113535945B (zh) 文本类别的识别方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant