CN111930926A - 结合评论文本挖掘的个性化推荐算法 - Google Patents

结合评论文本挖掘的个性化推荐算法 Download PDF

Info

Publication number
CN111930926A
CN111930926A CN202010779129.2A CN202010779129A CN111930926A CN 111930926 A CN111930926 A CN 111930926A CN 202010779129 A CN202010779129 A CN 202010779129A CN 111930926 A CN111930926 A CN 111930926A
Authority
CN
China
Prior art keywords
algorithm
layer
comment text
user
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010779129.2A
Other languages
English (en)
Other versions
CN111930926B (zh
Inventor
陆建波
刘春霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanning Normal University
Original Assignee
Nanning Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanning Normal University filed Critical Nanning Normal University
Priority to CN202010779129.2A priority Critical patent/CN111930926B/zh
Publication of CN111930926A publication Critical patent/CN111930926A/zh
Application granted granted Critical
Publication of CN111930926B publication Critical patent/CN111930926B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种结合评论文本挖掘的个性化推荐算法,包括:利用传统的隐语义模型获取用户特征Pu;利用堆栈降噪自动编码器获取项目特征Qi;将用户特征Pu和项目特征Qi输入多层感知器来预测评分
Figure DDA0002619570610000011
本发明利用评论文本进行个性化推荐算法的设计,在提高推荐准确度的原则上,不用复杂的生成过程来建模评论文本,而是结合已有的较为成熟的栈式降噪自动编码器(SDAE)架构来获取项目特征,将评论文本数据用于推荐。本发明针对现存算法具有推荐精度高、推荐模型简单等特点。

Description

结合评论文本挖掘的个性化推荐算法
技术领域
本发明属于商品个性化推荐领域。更具体地说,本发明涉及一种结合评论文本挖掘的个性化推荐算法。
背景技术
推荐系统以其解决“信息过载”,提供个性化服务的特点,受到各个应用领域的高度关注。推荐系统的核心是推荐算法,现存的推荐算法主要可分为基于内容的推荐、协同过滤和混合推荐三大类,其中最为常用的是协同过滤算法。然而,由于数据的稀疏,传统的协同过滤算法的推荐的效果不尽如人意。因此研究者通常利用用户与项目的属性、标签等元数据进行辅助推荐,以此缓解数据稀疏的问题。
如今,大多数网络平台都提倡“以用户为中心”的理念,用户既可针对项目的真实体验发表自己看法,也可通过浏览评论了解项目的真实特征,明确大众的舆论倾向。以淘宝购物为例,由于评论文本具有一定的真实性、可靠性与参考性,多数用户在购买商品之前,会参考已购买者对于产品的评论。
数据的稀疏,导致传统的协同过滤算法的推荐的效果不尽如人意。为此大多数研究者通常利用用户与项目的属性、标签等元数据进行辅助推荐,以此缓解数据稀疏的问题。如巫可等将用户属性加入隐语义模型中,结合目标用户的评分信息得到推荐结果。于洪等利用用户、标签、属性和时间等信息,进行个性化推荐研究。如今,大多数网络平台都提倡“以用户为中心”的理念,用户既可针对项目的真实体验发表自己看法,也可通过浏览评论了解项目的真实特征,明确大众的舆论倾向。可见评论对推荐算法具有一定的促进作用。Mcauley等提出的HFT模型融合评论信息和评分信息,可以仅用少数用户评论即可获得用户偏好信息,较好地缓解了冷启动问题;将主题模型和矩阵分解模型结合,按维度进行了对齐和解释,使解释结果也具有较强的可靠性。王成良等提出了USerCF-RR算法,针对评论文本利用了LDA模型获取用户偏好,结合用户评分计算用户的信任度,根据用户相似度,进行推荐。叶海智等获取用户评论中的产品特征和意见,通过计算每个特征意见对的极性,得到特征矩阵,结合用户意见质量形成的用户评分矩阵,求出用户评分的相似度.最后结合特征矩阵和用户评分相似度得出目标用户的综合相似度度,进行推荐。此外,由于深度学习能够有效利用多元异构数据,将不同的数据映射到一个相同的隐空间,获得数据的统一表征。因此学者逐渐将深度学应用到推荐领域,产生了许多优秀的模型,譬如深度协同模型CDL、ConvMF等。Almahairi等提出了将长短期记忆神经网络LSTM与协同过滤相结合的LMLF模型。将商品向量作为LSTM网络的参数,得到该商品下的评论集合的“预测下一个词词频”的模型。这个模型的结果比传统推荐算法有很大程度的提高。
上述算法在一定程度上提高了推荐的准确度,对于数据稀疏和冷启动问题也做了相应改善。其中利用深度学习技术的推荐算法更胜一筹,但是结构相对复杂,效果不明显。
发明内容
本发明的一个目的是解决至少上述问题和/或缺陷,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种结合评论文本挖掘的个性化推荐算法,其利用评论文本进行个性化推荐算法的设计,在提高推荐准确度的原则上,不用复杂的生成过程来建模评论文本,而是结合已有的较为成熟的栈式降噪自动编码器(SDAE)架构来获取项目特征,将评论文本数据用于推荐。
为了实现本发明的这些目的和其它优点,提供了一种结合评论文本挖掘的个性化推荐算法,包括:
利用传统的隐语义模型获取用户特征Pu
利用堆栈降噪自动编码器获取项目特征Qi;
将用户特征Pu和项目特征Qi输入多层感知器来预测评分
Figure BDA0002619570590000021
优选的是,将原始评分矩阵分解后获取用户特征,并用于算法后期的评分预测,原始的评分矩阵R分解为两个低秩矩阵相乘R=PQ;
其中P∈Rm×F,Q∈RF×n
对于每个用户u,令Pu=(Pu1,Pu2,…,PuF)表示用户与隐因子的关联程度;
对于每个项目i,令Qi=(Qi1,Qi2,…,QiF)表示项目与因子的关联程度;
用户对项目的总体兴趣度定义为:
Figure BDA0002619570590000022
为了学习模型中的PwQi,通过最小化损失函数来近似估计,具体表示为
Figure BDA0002619570590000031
式中:λ是正则化项参数,用来防止过拟合;yu,i代表真实评分。
优选的是,基于堆栈降噪自动编码器的项目特征的提取包括以下步骤:
步骤一、将每个商品的评论整合为一个文档,经过TF-IDE处理后,采用词袋模型表示为项目的内容向量,作为SDAE的输入数据;
步骤二、采用逐层贪心算法对DAE进行预训练,得到SDAE网络权重,预训练完成后,将DAE展开得到SDAE的网络结构;
步骤三、使用BP算法优化网络,采用梯度下降算法进行微调。
优选的是,基于堆栈降噪自动编码器的项目特征的提取具体过程为:
对输出层nl的每一个神经元i,误差公式为:
Figure BDA0002619570590000032
对于隐藏层l=nl-1,nl-2,nl-3,…2,其损失表达为:
Figure BDA0002619570590000033
式中:f′(zi (l))=ai (l)(1-ai (l)),i,j分别代表隐含层l的第i个节点和隐含层l+1的第j个节点,1<j≤Sl
对损失函数求偏导:
Figure BDA0002619570590000034
Figure BDA0002619570590000035
式中M(W,b;x,y)为输入输出的均方误差函数;
参数更新:
Figure BDA0002619570590000036
Figure BDA0002619570590000037
式中:α为学习率,在本算法中使用4层DAE堆叠展开形成SDAE,每层的输出维度分别为1000、200、40和8,每层的降噪参数均为0.95,训练时的学习率为0.01。
优选的是,采用了多层感知器学习用户与项目的非线性关系,进行评分预测,具体为:将用户特征Pu与项目特征Qi连接,作为多层感知器的输入Xu,i,定义为:
xu,i=concatation(Pu,Qi)
对多层感知器网络进行逐层训练,则网络的输出表示为
Figure BDA0002619570590000041
式中:W、b、f分别表示权重矩阵、偏置、激活函数,选取了relu函数作为训练的激活函数,采用Adma算法进行优化,使用排名目标来学习算法的参数,根据贝叶斯个性化排序算法,目标函数表示为:
Figure BDA0002619570590000042
式中:λΔ是正则化参数以防止过度拟合,Ψ表示训练实例,通过最小化BPR损失,正确预测交互之间的相对顺序,而不是优化评分。
本发明至少包括以下有益效果:
一、本发明提出了一种结合评论文本挖掘的个性化推荐算法,在利用评论文本进行个性化推荐算法的设计,在提高推荐准确度的原则上,不用复杂的生成过程来建模评论文本,而是结合已有的较为成熟的栈式降噪自动编码器架构来获取项目特征,将评论文本数据用于推荐。
二、本发明针对现存算法存在的推荐精度低、推荐模型复杂等问题,构造堆栈降噪编码器用以提取项目的特征,同时利用了评论文本与评分数据,结合多层感知机进行评分预测。实验结果表明,本发明所提出结合评论文本挖掘的个性化推荐算法在归一化均方根误差RMSE、召回率Recall、归一化折损增益NDCG指标上,优于LFM(传统的隐语义模型,不采用任何的辅助数据)、MF-BPR(使用BPR算法优化了标准的矩阵分解模型)、HFT(同时利用了评分与评论数据,将LDA模型与矩阵分解模型相结合)、LMLF(利用LSTM对评论数据进行处理,将深度学习与协同过滤相结合)四种算法。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明算法总体框架图;
图2不同迭代次数下推荐性能变化图;
图3不同隐藏层数下推荐性能变化图;
图4不同算法下的RMSE性能比较图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
一种结合评论文本挖掘的个性化推荐算法,包括:
利用传统的隐语义模型获取用户特征Pu
利用堆栈降噪自动编码器获取项目特征Qi;
将用户特征Pu和项目特征Qi输入多层感知器来预测评分
Figure BDA0002619570590000053
隐语义模型(Latent Factor Model,LFM)是一种有效的隐语义分析技术,属于基于模型的协同过滤算法,常用作为推荐算法比较的基准模型。其核心思想是通过潜在特征联系用户和物品,把用户-项目信息映射到一个维度为F的联合隐语义空间中。本发明所提的结合评论文本挖掘的个性化推荐算法将原始评分矩阵分解后获取的用户特征作为算法后期评分预测所需用户特征。原始的评分矩阵R分解为两个低秩矩阵相乘R=PQ;
其中P∈Rm×F,Q∈RF×n
对于每个用户u,令Pu=(Pu1,Pu2,…,PuF)表示用户与隐因子的关联程度;
对于每个项目i,令Qi=(Qi1,Qi2,…,QiF)表示项目与因子的关联程度;
用户对项目的总体兴趣度定义为:
Figure BDA0002619570590000051
为了学习模型中的PwQi,通过最小化损失函数来近似估计,具体表示为
Figure BDA0002619570590000052
式中:λ是正则化项参数,用来防止过拟合;yu,i代表真实评分。
基本的自编码器是由编码器与解码器组成,可视为一个简单的三层神经网络结构,包括输入层、隐藏层和输出层。从输入层到隐藏层是一个学习(编码)的过程,从隐藏层到输出层是一个知识重构(解码)的过程。输入数据x与特征空间y满足下式:
Figure BDA0002619570590000061
式中:
Figure BDA0002619570590000062
为神经网络的激活函数,常用的激活函数有sigmoid,tanh,relu等。θ={W,b},W表示编码权重矩阵,b为偏置向量。将编码特征y解码重构x为z。具体表示为:
Figure BDA0002619570590000063
式中:θ′={wT,b′},wT为解码权重矩阵,b′为偏置向量。AE的优化目标是需要不断修正权重与偏置,最小化重构误差,使得y最大程度地获得x的特征。具体表示为:L(x,z)=min||x-z||2
自动编码器提出以来,出现了许多变种,如降噪自动编码器(DenoiseAutoEncoder,DAE)和栈式降噪自动编码器(Stack denoising auto encoder,SDAE)等。其中DAE与传统AE结构基本相同,为了使隐藏层发现更鲁棒的特征,减少无效特征的干扰,DAE在AE的基础上,在原始输入数据中加入噪声,得到噪声数据
Figure BDA0002619570590000064
通过fθ
Figure BDA0002619570590000065
映射到隐藏层得到特征向量y,再利用gθ′对x进行重构得到z,最后计算原始数据与重构后数据的误差,形成损失函数。而SDAE是由多个DAE组合而成的深度学习架构,比DAE的处理能力更强。
自编码器尤其是栈式降噪自编码器,在推荐系统中主要被应用于学习用户和项目的隐层特征表示。由于SDAE只能处理定长的数据,因此,将每个商品的评论整合为一个文档,经过TF-IDE处理后,采用词袋模型表示为项目的内容向量,作为SDAE的输入数据;采用逐层贪心算法对DAE进行预训练,得到SDAE网络权重,预训练完成后,将DAE展开得到SDAE的网络结构;使用BP算法优化网络,采用梯度下降算法进行微调。具体过程为:对输出层nl的每一个神经元i,误差公式为:
Figure BDA0002619570590000066
对于隐藏层l=nl-1,nl-2,nl-3,…2,其损失表达为:
Figure BDA0002619570590000067
式中:f′(zi (l))=ai (l)(1-ai (l)),i,j分别代表隐含层l的第i个节点和隐含层l+1的第j个节点,1<j≤Sl
对损失函数求偏导:
Figure BDA0002619570590000071
Figure BDA0002619570590000072
式中M(W,b;x,y)为输入输出的均方误差函数;
参数更新:
Figure BDA0002619570590000073
Figure BDA0002619570590000074
式中:α为学习率。
SDAE网络的构造,决定了其压缩数据获取项目特征的能力,在本发明算法中使用4层DAE堆叠展开形成SDAE,每层的输出维度分别为1000、200、40和8,每层的降噪参数均为0.95,训练时的学习率为0.01。
现存算法在获取到用户与项目特征后,使用内积来表示用户与项目之间的交互关系,但是这种简单的线性组合实际上难以表示用户与项目交互的复杂结构。多层感知机(Muti-Layer Perceptron,MLP)是一个前馈神经网络,在输入与输出层之间存在多个隐藏层,它已被证明可以以任意精度逼近一个可测函数(measurable function),因此相较于传统矩阵相乘的形式具有更强的表示能力,本发明采用了多层感知器(MLP)学习用户与项目的非线性关系,进行评分预测,将用户特征Pu与项目特征Qi连接,作为多层感知器的输入Xu,i,定义为:
xu,i=concatation(Pu,Qi);
对多层感知器网络进行逐层训练,则网络的输出表示为
Figure BDA0002619570590000075
式中:W、b、f分别表示权重矩阵、偏置、激活函数,综合考虑各种激活函数的与缺点,本发明选取了relu函数作为训练的激活函数,采用Adma算法进行优化。推荐的常见形式是推荐列表,即推荐是一种个性化的排名任务。为此,本发明考虑使用排名目标来学习算法的参数,根据Rendle等人提出的贝叶斯个性化排序算法,目标函数表示为:
Figure BDA0002619570590000081
式中:λΔ是正则化参数以防止过度拟合,Ψ表示训练实例,通过最小化BPR损失,正确预测交互之间的相对顺序,而不是优化评分。
<实验>
2.1实验数据集与评估指标
为了验证评分与评论数据对算法性能的影响,本发明在Amazon数据集上进行实验和对比分析,该数据集涵盖了亚马逊图书、电子产品、电影电视等24类产品的评分、评论文本和元数据。本发明仅选取Amazon instant video子类下的数据进行实验。它包含312930个用户、22204个项目以及717651条评论。包括了reviewerID、asin、reviewName、helpful、reviewText、overall、summary、unixReviewTime、reviewTime9个字段。
本发明采用10折交叉方法进行验证,将数据按8:2的比例划分为训练集与测试集。编程环境为Python3.5,深度学习计算框架为TensorFlow 1.4,在具有32G RAM的i76800KCPU服务器上进行模拟实验。为评估SDLFMLP算法,本发明基于归一化均方根误差RMSE、召回率Recall、归一化折损增益NDCG三种评估指标验证算法的性能,分别定义为:
Figure BDA0002619570590000082
Figure BDA0002619570590000083
Figure BDA0002619570590000084
式中:U为用户集合,testu为测试集合,#tp表示用户喜欢且系统成功推荐的物品的数量,#fn表示用户喜欢但未被推荐的物品数量,DCG*是理想的DCG(平均折损增益)。
2.2实验结果与分析
2.2.1不同参数下的实验对比
考虑到训练模型时,算法性能会受到迭代次数的影响。因此,实验分别设置Epoch为20、40、60、100、120,以观察性能的变化。由图2可知,随着迭代次数的增加,SDLFMLP算法的RMSE呈下降趋势,即推荐质量随着迭代增加有所改善。当迭代达到100至120时,下降的趋势逐渐趋于平稳。
除了迭代次数对算法性能有影响外,MLP的构造也对实验效果产生一定的影响,因此为MLP设置不同隐藏层数,以观察实验效果的变化。观察图3可知适当增加隐层数可以提高模型的性能,但是当设置2个以上的隐藏层时,模型的性能几乎不再提高。这是由于随着网络的深度不断加深,模型复杂度增加,参数增多,需要更多的数据才能更好地学习模型。因此,与其他算法对比时,设置的隐藏层数为2。
2.2.2不同算法性能对比
为了验证本发明所提结合评论文本挖掘的个性化推荐算法的有效性,将其与以下算法进行比较。
◆LFM:传统的隐语义模型,不采用任何的辅助数据。
◆MF-BPR:使用BPR算法优化了标准的矩阵分解模型。
◆HFT:同时利用了评分与评论数据,将LDA模型与矩阵分解模型相结合。
◆LMLF:利用LSTM对评论数据进行处理,将深度学习与协同过滤相结合。
为了使实验具有可比性,关于上述算法的相关参数,根据原文献给出的值进行设置,并统一设置迭代次数为120。
图4展示了在Amazon instant video数据集下各对比算法的RMSE值。显而易见的是与仅使用评分数据的LFM、MF-BPR相比,HTF、LMLF、SDLFMLP这三种使用了评论数据的算法RMSE存在明显下降。其中SDLFMLP算法比LFM的误差下降超过了13%,与MF-BPR相比,误差也下降了约6%。说明使用了评论数据进行辅助的算法明显优于仅使用评分数据的算法。此外,实验结果显示,LMLF的结果略好于HTF,而SDLFMLP算法与采用了深度学习的LMLF相比,误差也下降了约2%。
本发明提出的SDLFMLP算法除了在RMSE上的效果优于其他算法外,在Top-k推荐上也具有良好的表现。实验设置k分别取10,20,30。由表1与表2可知,在Amazon instantvideo数据集上,随着推荐长度增加,所有算法recall与NDCG都呈上升上趋势。且无论是Recall@k还是NDCG@k的表现,SDLFMLP都在一定程度上优于其他算法。
表1不同算法的Recall性能比较
Figure BDA0002619570590000101
表2不同算法的NDCG性能比较
Figure BDA0002619570590000102
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明的领域。对于熟悉本领域的人员而言,可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (5)

1.一种结合评论文本挖掘的个性化推荐算法,包括:
利用传统的隐语义模型获取用户特征Pu
利用堆栈降噪自动编码器获取项目特征Qi;
将用户特征Pu和项目特征Qi输入多层感知器来预测评分
Figure FDA0002619570580000011
2.根据权利要求1所述的结合评论文本挖掘的个性化推荐算法,将原始评分矩阵分解后获取用户特征,并用于算法后期的评分预测,原始的评分矩阵R分解为两个低秩矩阵相乘R=PQ;
其中P∈Rm×F,Q∈RF×n
对于每个用户u,令Pu=(Pu1,Pu2,…,PuF)表示用户与隐因子的关联程度;
对于每个项目i,令Qi=(Qi1,Qi2,…,QiF)表示项目与因子的关联程度;
用户对项目的总体兴趣度定义为:
Figure FDA0002619570580000012
为了学习模型中的PwQi,通过最小化损失函数来近似估计,具体表示为:
Figure FDA0002619570580000013
式中:λ是正则化项参数,用来防止过拟合;yu,i代表真实评分。
3.根据权利要求1所述的结合评论文本挖掘的个性化推荐算法,基于堆栈降噪自动编码器的项目特征的提取包括以下步骤:
步骤一、将每个商品的评论整合为一个文档,经过TF-IDE处理后,采用词袋模型表示为项目的内容向量,作为SDAE的输入数据;
步骤二、采用逐层贪心算法对DAE进行预训练,得到SDAE网络权重,预训练完成后,将DAE展开得到SDAE的网络结构;
步骤三、使用BP算法优化网络,采用梯度下降算法进行微调。
4.根据权利要求3所述的结合评论文本挖掘的个性化推荐算法,基于堆栈降噪自动编码器的项目特征的提取具体过程为:
对输出层nl的每一个神经元i,误差公式为:
Figure FDA0002619570580000021
对于隐藏层l=nl-1,nl-2,nl-3,...2,其损失表达为:
Figure FDA0002619570580000022
式中:
Figure FDA0002619570580000023
分别代表隐含层l的第i个节点和隐含层l+1的第j个节点,1<j≤Sl
对损失函数求偏导:
Figure FDA0002619570580000024
Figure FDA0002619570580000025
式中M(W,b;x,y)为输入输出的均方误差函数;
参数更新:
Figure FDA0002619570580000026
Figure FDA0002619570580000027
式中:α为学习率,在本算法中使用4层DAE堆叠展开形成SDAE,每层的输出维度分别为1000、200、40和8,每层的降噪参数均为0.95,训练时的学习率为0.01。
5.根据权利要求1所述的结合评论文本挖掘的个性化推荐算法,采用了多层感知器学习用户与项目的非线性关系,进行评分预测,具体为:将用户特征Pu与项目特征Qi连接,作为多层感知器的输入Xu,i,定义为:
xu,i=concatation(Pu,Qi)
对多层感知器网络进行逐层训练,则网络的输出表示为
Figure FDA0002619570580000028
式中:W、b、f分别表示权重矩阵、偏置、激活函数,选取了relu函数作为训练的激活函数,采用Adma算法进行优化,使用排名目标来学习算法的参数,根据贝叶斯个性化排序算法,目标函数表示为:
Figure FDA0002619570580000031
式中:λΔ是正则化参数以防止过度拟合,Ψ表示训练实例,通过最小化BPR损失,正确预测交互之间的相对顺序,而不是优化评分。
CN202010779129.2A 2020-08-05 2020-08-05 结合评论文本挖掘的个性化推荐算法 Active CN111930926B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010779129.2A CN111930926B (zh) 2020-08-05 2020-08-05 结合评论文本挖掘的个性化推荐算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010779129.2A CN111930926B (zh) 2020-08-05 2020-08-05 结合评论文本挖掘的个性化推荐算法

Publications (2)

Publication Number Publication Date
CN111930926A true CN111930926A (zh) 2020-11-13
CN111930926B CN111930926B (zh) 2023-08-29

Family

ID=73306772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010779129.2A Active CN111930926B (zh) 2020-08-05 2020-08-05 结合评论文本挖掘的个性化推荐算法

Country Status (1)

Country Link
CN (1) CN111930926B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112785331A (zh) * 2021-01-07 2021-05-11 之江实验室 一种结合评价文本的抗注入攻击的鲁棒推荐方法和系统
CN113239277A (zh) * 2021-06-07 2021-08-10 安徽理工大学 一种基于用户评论的概率矩阵分解推荐方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170182859A1 (en) * 2013-03-15 2017-06-29 ClearMotion, Inc. Active vehicle suspension system
US20170200264A1 (en) * 2016-01-11 2017-07-13 Kla-Tencor Corporation Image based specimen process control
CN107007279A (zh) * 2017-03-17 2017-08-04 浙江大学 一种基于堆栈式自编码器的无创心内异常激动点定位方法
CN108304623A (zh) * 2018-01-15 2018-07-20 重庆大学 一种基于堆栈降噪自动编码器的概率潮流在线计算方法
CN108320187A (zh) * 2018-02-02 2018-07-24 合肥工业大学 一种基于深度社交关系的推荐方法
CN108734391A (zh) * 2018-05-08 2018-11-02 重庆大学 基于堆栈降噪自动编码器的电-气综合能源系统概率能流量计算方法
CN109345274A (zh) * 2018-07-27 2019-02-15 华南理工大学 基于bp神经网络评分预测误差的近邻用户选择方法
CN109408702A (zh) * 2018-08-29 2019-03-01 昆明理工大学 一种基于稀疏边缘降噪自动编码的混合推荐方法
CN109978079A (zh) * 2019-04-10 2019-07-05 东北电力大学 一种改进的堆栈降噪自编码器的数据清洗方法
CN110807154A (zh) * 2019-11-08 2020-02-18 内蒙古工业大学 一种基于混合深度学习模型的推荐方法与系统
CN111459142A (zh) * 2020-04-22 2020-07-28 北京航空航天大学 一种基于堆叠稀疏降噪自编码器的飞机液冷失效故障诊断方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170182859A1 (en) * 2013-03-15 2017-06-29 ClearMotion, Inc. Active vehicle suspension system
US20170200264A1 (en) * 2016-01-11 2017-07-13 Kla-Tencor Corporation Image based specimen process control
CN107007279A (zh) * 2017-03-17 2017-08-04 浙江大学 一种基于堆栈式自编码器的无创心内异常激动点定位方法
CN108304623A (zh) * 2018-01-15 2018-07-20 重庆大学 一种基于堆栈降噪自动编码器的概率潮流在线计算方法
CN108320187A (zh) * 2018-02-02 2018-07-24 合肥工业大学 一种基于深度社交关系的推荐方法
CN108734391A (zh) * 2018-05-08 2018-11-02 重庆大学 基于堆栈降噪自动编码器的电-气综合能源系统概率能流量计算方法
CN109345274A (zh) * 2018-07-27 2019-02-15 华南理工大学 基于bp神经网络评分预测误差的近邻用户选择方法
CN109408702A (zh) * 2018-08-29 2019-03-01 昆明理工大学 一种基于稀疏边缘降噪自动编码的混合推荐方法
CN109978079A (zh) * 2019-04-10 2019-07-05 东北电力大学 一种改进的堆栈降噪自编码器的数据清洗方法
CN110807154A (zh) * 2019-11-08 2020-02-18 内蒙古工业大学 一种基于混合深度学习模型的推荐方法与系统
CN111459142A (zh) * 2020-04-22 2020-07-28 北京航空航天大学 一种基于堆叠稀疏降噪自编码器的飞机液冷失效故障诊断方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨帅等: "基于堆栈降噪自编码器改进的混合推荐算法", 《计算机应用》, pages 1866 - 1871 *
谢承旺等: "一种多策略协同的多目标萤火虫算法", 《电子学报》, pages 2359 - 2367 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112785331A (zh) * 2021-01-07 2021-05-11 之江实验室 一种结合评价文本的抗注入攻击的鲁棒推荐方法和系统
CN113239277A (zh) * 2021-06-07 2021-08-10 安徽理工大学 一种基于用户评论的概率矩阵分解推荐方法

Also Published As

Publication number Publication date
CN111930926B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
Liu et al. A novel deep hybrid recommender system based on auto-encoder with neural collaborative filtering
CN109408702B (zh) 一种基于稀疏边缘降噪自动编码的混合推荐方法
TWI612488B (zh) 用於預測商品的市場需求的計算機裝置與方法
CN110188283B (zh) 一种基于联合神经网络协同过滤的信息推荐方法及其系统
CN107273438A (zh) 一种推荐方法、装置、设备及存储介质
CN111737578B (zh) 一种推荐方法及系统
CN109783739A (zh) 一种基于层叠稀疏降噪自编码器增强的协同过滤推荐方法
CN109598586B (zh) 一种基于注意力模型的推荐方法
CN112328900A (zh) 一种融合评分矩阵和评论文本的深度学习推荐方法
CN109033294B (zh) 一种融入内容信息的混合推荐方法
CN110781401A (zh) 一种基于协同自回归流实现的Top-n项目推荐方法
CN111461157A (zh) 一种基于自学习的跨模态哈希检索方法
CN113159892B (zh) 一种基于多模态商品特征融合的商品推荐方法
CN111930926A (zh) 结合评论文本挖掘的个性化推荐算法
Yue et al. Multiple auxiliary information based deep model for collaborative filtering
CN112699310A (zh) 基于深度神经网络的冷启动跨域混合推荐的方法及系统
CN112085158A (zh) 一种基于堆栈降噪自编码器的图书推荐方法
Wang et al. TDR: Two-stage deep recommendation model based on mSDA and DNN
Majumdar et al. Cold-start, warm-start and everything in between: An autoencoder based approach to recommendation
Mu et al. Auxiliary stacked denoising autoencoder based collaborative filtering recommendation
CN112818256A (zh) 一种基于神经协同过滤的推荐方法
CN117171440A (zh) 基于新闻事件和新闻风格联合建模的新闻推荐方法和系统
CN115660776A (zh) 一种融合深度矩阵分解和多特征交叉的内容资源推荐方法、装置及介质
CN114996566A (zh) 一种面向工业互联网平台的智能推荐系统及方法
CN114565436A (zh) 基于时序建模的车型推荐系统、方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant