CN109408702B - 一种基于稀疏边缘降噪自动编码的混合推荐方法 - Google Patents

一种基于稀疏边缘降噪自动编码的混合推荐方法 Download PDF

Info

Publication number
CN109408702B
CN109408702B CN201810992432.3A CN201810992432A CN109408702B CN 109408702 B CN109408702 B CN 109408702B CN 201810992432 A CN201810992432 A CN 201810992432A CN 109408702 B CN109408702 B CN 109408702B
Authority
CN
China
Prior art keywords
commodity
model
idf
influence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810992432.3A
Other languages
English (en)
Other versions
CN109408702A (zh
Inventor
汪海涛
欧高亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810992432.3A priority Critical patent/CN109408702B/zh
Publication of CN109408702A publication Critical patent/CN109408702A/zh
Application granted granted Critical
Publication of CN109408702B publication Critical patent/CN109408702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Abstract

本发明涉及一种基于稀疏边缘降噪自动编码的混合推荐方法,属于个性化推荐领域。本发明包括步骤:本发明首先把每个商品评论合并为评论文档,用TF‑IDF处理每个商品的评论文本,选出TF‑IDF值最高的词构建商品内容向量作为商品的特征表示。其次,用商品内容向量训练稀疏边缘降噪自动编码模型,用训练好的模型从商品内容向量中进一步提取出商品特征,用余弦相似度计算商品特征向量的相似度,得到近邻商品的影响力。最后近邻商品影响力结合用户‑评分矩阵分解得到预测评分。本发明有效提高了算法效率与推荐精确度。

Description

一种基于稀疏边缘降噪自动编码的混合推荐方法
技术领域
本发明涉及一种基于稀疏边缘降噪自动编码的混合推荐方法,属于个性化推荐领域。
背景技术
随着大数据时代的到来,各大互联网公司对数据越来越重视,尤其是各大国内外的电商网站的实际需求是推进推荐算法研究的动力。国内外的电商网站上和社交网络上,最常见的推荐算法则是根据用户的历史行为数据来推荐用户可能会购买的或者感兴趣的商品或者话题。在现实的推荐系统中,影响推荐准确度的两个主要因素:数据稀疏性、冷启动,数据稀疏性是指在实际的电商网站上,沉默用户占大多数,只有少部分用户评论,其真实有效的评论数一般低于总资源的1%,并且还有部分评论是无效、垃圾评论。冷启动问题的含义是,当新用户进入系统时,没有任何历史行为数据,推荐系统推荐的准确度极低,然而我们也可以认为导致冷启动的主要原因就是数据的稀疏性。在沉默用户占大多数的情况下,依赖用户历史行为数据的协同过滤算法的预测性能必然不够理想。
协同过滤推荐模型可以分为:早期提出的基于记忆的推荐;发展较为成熟的基于模型的推荐;前瞻性较好的混合型推荐。基于模型的推荐中矩阵分解方法是其最具代表性的一个方法。隐语义矩阵分解模型(LFM)算法则是矩阵分解算法中较为常用的。LFM算法通过降维来获得隐含特征,进一步预测用户对商品的潜在打分,然则其推荐精度有待提高。近年来,深度学习(Deep Learning)理论发展使得利用神经网络从大规模无标注数据中提取特征成为可能。Oord(<Journal of Chinese Computer Systems>,2009)和X.Xang<35thHawaii International Conference on System Sciences>,2002)提出直接用卷及神经网络CNN和深度信念网DBN从内容信息中学习特征表示用于音乐推荐。为了综合利用评论文本和评论信息来提高推荐系统的效果,Hao Wang<35th Hawaii International Conferenceon System Sciences>,2012)等人提出了深度协同模型CDL,CDL解决了CTR模型在数据稀疏时,学习隐藏特征不充分的缺陷,其没有考虑沉默用户问题。当前国内研究人员,张敏(<清华大学学报(自然科学版)>,2015,30(3))等提出了隐因子模型(SELFM)来加强语义,利用深度模型SDAE提取商品评论文本特征,将用户评论与评分联合,以此提高评分预测的准确性,但是SDAE的学习能力和分类精度不如SmDAE。
发明内容
本发明要解决的技术问题是提供一种基于稀疏边缘降噪自动编码的混合推荐方法,是一种改进SmDAE与近邻商品影响力的矩阵分解模型相结合的混合推荐模型(Sm-LFM),在特征提取的部分,通过SmDAE算法从经过选词模型的评论文本中提取商品特征向量。并且将实际评分和预测评分参与SmDAE网络微调,将评分作为特征提取有效性反馈。在协同过滤部分,在数据过于稀疏会导致LFM模型不能很好的显示商品的真实的特征,我们通过商品特征向量来计算近邻商品的影响力,将近邻商品影响力加入矩阵分解模型中以加强商品特征表征性,来提高算法效率与推荐精确度。
本发明采用的技术方案是:一种基于稀疏边缘降噪自动编码的混合推荐方法,包括如下步骤:
Step1:把每个商品评论合并为评论文档,用TF-IDF处理每个商品的评论文本,选出TF-IDF值最高的词构建商品内容向量作为商品的特征表示;
Step2:用商品内容向量训练稀疏边缘降噪自动编码模型,用训练好的模型从商品内容向量中进一步提取出商品特征,用余弦相似度计算商品特征向量的相似度,得到近邻商品的影响力;
Step3:近邻商品影响力结合用户-评分矩阵分解得到预测评分。
具体地,所述Step1的具体步骤如下:
Step1.1:将每个商品下的所有评论合并成整个文档,利用基于TF-IDF的关键词抽取方法构建商品内容向量作为商品的特征表示;
Step1.2:基于TF-IDF的关键词抽取方法:
计算词频:词频指的是某一个给定的词语在该文件中出现的频率;这个数字是对词数的归一化,以防止它偏向长的文件,对于在某一特定文件里的词语来说,其计算词频可表示为:
Figure BDA0001781105490000031
以上公式中,分子ni,j是该词ti在文件dj中出现的次数,而分母则是在文件中所有字词的出现次数之和。
计算逆向文件频率:逆向文件频率IDF是一个词语普遍重要性的度量,某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到:
Figure BDA0001781105490000032
其中,|D|表示语料库中的文件总数,|{j:ti∈dj}|表示包含词语ti的文件数目,如果该词语不在语料库中,就会导致分母为0,因此使用1+|{j:ti∈dj}|作为分母;
最后计算TFij与IDFi的乘积:
TF-IDF=TFij×IDFi (3)
计算得出文档中每个词的TF-IDF值,将N个最高TF-IDF值的词作为商品内容向量Li,其中i表示商品的序号。
具体地,所述Step2的具体步骤如下:
Step2.1:利用Step1.2得到的每个商品的商品内容向量Li来训练稀疏边缘降噪自动编码模型,简称SmDAE网络模型,进一步从Li来提取商品特征,训练集为W,训练网络来优化损失函数JmDAE(θ),单层SmDAE网络最后输出商品特征向量Lsi
Figure BDA0001781105490000033
其中L(x,y)为重构误差函数,fθ为编码函数,KL为KL-divergence的方法,β为控制稀疏性惩罚项的权重系数,μx为x的期望值,ρ为稀疏性参数,
Figure BDA0001781105490000041
为神经元的激活度,
Figure BDA0001781105490000042
是输入数据x的低d维的干扰项的方差,
Figure BDA0001781105490000043
为相对于z系数h维的偏导,
Figure BDA0001781105490000044
为输入数据x的d维的偏导,
Figure BDA0001781105490000045
是矩阵L相对于z系数的Hessian矩阵;
Step2.2:形成多层SmDAE网络,把首层的输出作为第二层的输入,其他部分与2.1相同,按上一步的思路直到训练好所有层的网络参数,多层SmDAE网络最后输出商品特征向量Ldi
Step2.3:采用余弦相似度来计算商品的相似度,余弦值越接近1则越相似,假设Ld1[A1,A2,…,An],Ld2[B1,B2,…,Bn]为两个n维特征向量,相似度计算公式如下:
Figure BDA0001781105490000046
将近邻商品对目标商品的影响力融入到矩阵分解模型中,假设影响力为X,则N个近邻商品对目标商品的影响力为:
Figure BDA0001781105490000047
其中X表示商品产生的影响力,T表示近邻商品的集合,wf表示每个近邻商品产生的影响力隐式反馈。
具体地,所述Step3的具体步骤如下:
Step3.1:用户行为数据集RU×I矩阵是用户-商品评分矩阵,使用隐语义矩阵分解模型(LFM)对其降维,矩阵值RUI表示的是用户U对商品I的评分,LFM将评分矩阵RU×I分解为两个低维度矩阵PU×n与Qn×I,用户U对商品I的预测评分模型为:
Figure BDA0001781105490000048
Step3.2:将2.3中近邻商品影响力X加入到评分模型中,得到新的预测评分模型。
Figure BDA0001781105490000051
Step3.3:设所有的评论集合为K,最优化损失函数C来估计参数,损失函数如下所示:
Figure BDA0001781105490000052
其中RUI表示的是用户U对商品I的评分,λ为参数,λ1||PU×n||22|Qn×I||23||X||2分别为基于PU×n,Qn×I,X的正则项。
本发明的有益效果是:
1、基于SmDAE算法从评论文本中提取商品特征向量
传统的协同过滤算法都是基于评分信息,很少充分利用了用户评论的信息,导致了推荐系统的推荐精确度较低且冷启动问题较严重。SmDAE处理文本的能力得以挖掘和应用,尤其是对文本的特征提取和分类方面恰好能用于商品评论,以解决推荐系统冷启动、新物品等难题。
2、近邻商品影响力加入矩阵分解模型提高预测评分准确度
本发明通过近邻商品影响力加入矩阵分解模型,在数据过于稀疏会导致LFM模型不能很好的显示商品的真实的特征,我们通过商品特征向量来计算近邻商品的影响力,将近邻商品影响力加入矩阵分解模型中以加强商品特征表征性,来提高算法效率与推荐精确度。
总之,合考虑评论文本与评分而提出改进的稀疏边缘降噪自动编码(SmDAE)与近邻商品影响力的隐语义矩阵分解模型(LFM)相结合的混合推荐方法(Sm-LFM),为用户提供更精准的推荐。通过SmDAE算法从经过选词模型的评论文本中提取商品特征向量。并且将实际评分和预测评分参与SmDAE网络微调,将评分作为特征提取有效性反馈。在协同过滤部分,在数据过于稀疏会导致LFM模型不能很好的显示商品的真实的特征,我们通过商品特征向量来计算近邻商品的影响力,将近邻商品影响力加入矩阵分解模型中以加强商品特征表征性,来提高算法效率与推荐精确度。
附图说明
图1为本发明的整体流程图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步的说明。
实施例1:如图1所示,一种基于稀疏边缘降噪自动编码的混合推荐方法,包括如下步骤:
Step1:把每个商品评论合并为评论文档,用TF-IDF处理每个商品的评论文本,选出TF-IDF值最高的词构建商品内容向量作为商品的特征表示;
Step2:用商品内容向量训练稀疏边缘降噪自动编码模型,用训练好的模型从商品内容向量中进一步提取出商品特征,用余弦相似度计算商品特征向量的相似度,得到近邻商品的影响力;
Step3:近邻商品影响力结合用户-评分矩阵分解得到预测评分。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1:将每个商品下的所有评论合并成整个文档,利用基于TF-IDF的关键词抽取方法构建商品内容向量作为商品的特征表示;
实验数据集采用Amazon product data,实验数据集随机按照1:9分成测试集H和训练集W,如表一所示。选择每个商品的评论文本中通常包含了的商品的描述信息和其评分的详细理由,在使用同一商品时,由于个人的因素,即使对同一商品都给五分的评价,其给分的理由也极有可能互异、矛盾的,而且从单条评论信息我们也获取不到商品的特征信息,所以我们这里将所有评论合并成一个文档,使得文档中的主流观点得以体现,我们把每个商品都用一个商品内容向量来表示。
表1亚马逊数据集
Figure BDA0001781105490000061
Step1.2:基于TF-IDF的关键词抽取方法:
TF-IDF的含义是词频逆文档频率,其假设是,高频率词应该具有较高的权重,除非它也是高文档频率,如果某个词比较少见,但是它在某篇文档中多次出现,那么它很有可能就反映了这篇文章的特性,正是所需要的关键词,也就是特征词向量;
计算词频:词频指的是某一个给定的词语在该文件中出现的频率;这个数字是对词数的归一化,以防止它偏向长的文件,对于在某一特定文件里的词语来说,其计算词频可表示为:
Figure BDA0001781105490000071
以上公式中,分子ni,j是该词ti在文件dj中出现的次数,而分母则是在文件中所有字词的出现次数之和。
计算逆向文件频率:逆向文件频率IDF是一个词语普遍重要性的度量,某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到:
Figure BDA0001781105490000072
其中,|D|表示语料库中的文件总数,|{j:ti∈dj}|表示包含词语ti的文件数目,如果该词语不在语料库中,就会导致分母为0,因此使用1+|{j:ti∈dj}|作为分母;
最后计算TFij与IDFi的乘积:
TF-IDF=TFij×IDFi (3)
计算得出文档中每个词的TF-IDF值,将N个最高TF-IDF值的词作为商品内容向量Li,其中i表示商品的序号。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1:利用Step1.2得到的每个商品的商品内容向量Li来训练稀疏边缘降噪自动编码模型,简称SmDAE网络模型,进一步从Li来提取商品特征,训练集为W,训练网络来优化损失函数JmDAE(θ),单层SmDAE网络最后输出商品特征向量Lsi
Figure BDA0001781105490000081
其中L(x,y)为重构误差函数,fθ为编码函数,KL为KL-divergence的方法,β为控制稀疏性惩罚项的权重系数,μx为x的期望值,ρ为稀疏性参数,
Figure BDA0001781105490000082
为神经元的激活度,
Figure BDA0001781105490000083
是输入数据x的低d维的干扰项的方差,
Figure BDA0001781105490000084
为相对于z系数h维的偏导,
Figure BDA0001781105490000085
为输入数据x的d维的偏导,
Figure BDA0001781105490000086
是矩阵L相对于z系数的Hessian矩阵;
Step2.2:因为单层SmDAE网络的特征提取能力不足,也不能充分体现网络的优势,本发明采用的方法则是堆叠,形成多层SmDAE网络,把首层的输出作为第二层的输入,其他部分与2.1相同,按上一步的思路直到训练好所有层的网络参数,多层SmDAE网络最后输出商品特征向量Ldi
Step2.3:比较商品相似性时我们只需要计算每个商品特征向量的相似性即可,采用余弦相似度来计算商品的相似度,余弦值越接近1则越相似,假设Ld1[A1,A2,…,An],Ld2[B1,B2,…,Bn]为两个n维特征向量,相似度计算公式如下:
Figure BDA0001781105490000087
为了反映近邻商品对目标商品的影响,本发明将近邻商品对目标商品的影响力融入到矩阵分解模型中,假设影响力为X,则N个近邻商品对目标商品的影响力为:
Figure BDA0001781105490000088
其中X表示商品产生的影响力,T表示近邻商品的集合,wf表示每个近邻商品产生的影响力隐式反馈。
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1:用户行为数据集RU×I矩阵是用户-商品评分矩阵,使用隐语义矩阵分解模型(LFM)对其降维,矩阵值RUI表示的是用户U对商品I的评分,LFM将评分矩阵RU×I分解为两个低维度矩阵PU×n与Qn×I,用户U对商品I的预测评分模型为:
Figure BDA0001781105490000091
Step3.2:将2.3中近邻商品影响力X加入到评分模型中,得到新的预测评分模型。
Figure BDA0001781105490000092
Step3.3:设所有的评论集合为K,最优化损失函数C来估计参数,损失函数如下所示:
Figure BDA0001781105490000093
其中RUI表示的是用户U对商品I的评分,λ为参数,λ1||PU×n||22Qn×I||23||X||2分别为基于PU×n,Qn×I,X的正则项。
协同过滤算法容易过拟合的主要原因就是评分矩阵过于稀疏,我们在损失函数中加入了正则项λ1||PU||22||QI||2防止过拟合,采用随机梯度下降法来最小化损失函数,该算法是最优化理论里最基础的优化算法,首先通过求参数的偏导数找到最速下降方向,然后通过迭代法不断地优化参数,系数λ则需要反复实验得到。式(9)中的C则是隐语义矩阵分解模型(LFM)模型的最小化的目标,从而得到最优预测评分。
本发明采取均方根误差MSE来评价模型性能。假设测试集为W,其中RUI是用户U对商品I的实际评分,
Figure BDA0001781105490000101
是模型预测出来的用户U对商品I的评分。则MSE定义为:
Figure BDA0001781105490000102
选择CDL模型和SDELM作为本文的对比模型。CDL模型将概率化LFM模型与贝叶斯SDAE模型相联合,CDL模型通过从商品的内容和标签来提取特征,从而得到用户对商品评分的数学期望。用Theano来实现CDL模型,CDL中LFM模型与本文模型的部分参数、细节尽可能相同。对于本文Sm-LFM模型,通过评论处理模型选择出2000。SDELM是将极限学习机和SDAE相结合推荐模型,使用逐层自编码的思想将极限学习机与降噪自编码器堆叠,计算的堆栈降噪自编码器的深度学习模型,最后通过用模型提取的特征应用于最近邻算法预测打分。对于SDELM中SDAE,与本文模型的网络层数、部分参数、细节尽可能相同。
对于本发明Sm-LFM模型,通过评论处理模型选择出2000个TF-IDF值最高的词,作为文本编码模型的输入,文本编码模型中选择3层SmDAE网络,隐含特征空间的维数取n=300,系数取λ1=λ2=λ3=0.1。此中SmDAE网络的第一、二、三层的输出维度取值依次取800、80和5,降噪参数每层都相同:0.94,近邻数目取10个。文本编码模型和矩阵分解模型都用较为常见的方法训练,前者采用Adam方法,后者采用随机梯度下降方法。用来确保本文模型和对比模型的对比性,衡量模型预测评分准确度的指标我们采用MSE,即预测评分与测试集真实的评分的均方根误差。
从表2可以看出,Sm-LFM模型的性能在5个子数据集上均有提升,相比CDL和SDELM模型都有较大的提升。提升效果最好的和最差的分别是鞋类和办公用品,前者提升了将近8.4%,后者提升将近1%。
在同样使用深度学习网络提取特征的情况下,Sm-LFM比SDELM模型性能提升了约5.43%,SDELM没有引入额外的特征加强信息,且其评分预测使用极限学习机和最近邻算法严重依赖特征质量,且学习能力弱于Sm-LFM使用的SmDAE。Sm-LFM比CDL模型性能最高提升了8.370%,CDL模型通过从商品的内容和标签来提取特征的能力不如通过SmDAE从评论文本提取特征的能力。
表2性能对比
Figure BDA0001781105490000111
本发明首先用TF-IDF处理每个商品的评论文本,选出TF-IDF值最高一组构成一个词向量。其次,训练深度学习模型并从词向量中提取出商品特征,并计算商品特征向量的相似度,得到近邻商品的影响力。最后近邻商品影响力结合用户-评分矩阵分解得到预测评分。
本发明以结合深度学习和协同过滤的方法,在特征提取的部分,SmDAE算法从经过选词模型的评论文本中提取商品特征向量,更为效的提取了商品特征向量,抑制了数据稀疏对商品的真实的特征的影响。同时通过商品特征向量来计算近邻商品的影响力,将近邻商品影响力加入矩阵分解模型中以加强商品特征表征性,在提升模型性能的同时提高了推荐精度,为个性化推荐系统提供了一种新的技术方法。
以上所述近视本发明的实施方法,但是本发明并不限于以上所述的实施方法,在本领域具有相关技术的人员,均可以基于本发明且不脱离宗旨的前提下做出各种变化,这种变化也应视为本发明的保护范围。

Claims (1)

1.一种基于稀疏边缘降噪自动编码的混合推荐方法,其特征在于:包括如下步骤:
Step1:把每个商品评论合并为评论文档,用TF-IDF处理每个商品的评论文本,选出TF-IDF值最高的词构建商品内容向量作为商品的特征表示;
Step2:用商品内容向量训练稀疏边缘降噪自动编码模型,用训练好的模型从商品内容向量中进一步提取出商品特征,用余弦相似度计算商品特征向量的相似度,得到近邻商品的影响力;
Step3:近邻商品影响力结合用户-评分矩阵分解得到预测评分;
所述Step1的具体步骤如下:
Step1.1:将每个商品下的所有评论合并成整个文档,利用基于TF-IDF的关键词抽取方法构建商品内容向量作为商品的特征表示;
Step1.2:基于TF-IDF的关键词抽取方法:
计算词频:词频指的是某一个给定的词语在该文件中出现的频率;这个数字是对词数的归一化,以防止它偏向长的文件,对于在某一特定文件里的词语来说,其计算词频可表示为:
Figure FDA0003070986110000011
以上公式中,分子ni,j是该词ti在文件dj中出现的次数,而分母则是在文件中所有字词的出现次数之和;
计算逆向文件频率:逆向文件频率IDF是一个词语普遍重要性的度量,某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到:
Figure FDA0003070986110000012
其中,|D|表示语料库中的文件总数,|{j:ti∈dj}|表示包含词语ti的文件数目,如果该词语不在语料库中,就会导致分母为0,因此使用1+|{j:ti∈dj}|作为分母;
最后计算TFij与IDFi的乘积:
TF-IDF=TFij×IDFi (3)
计算得出文档中每个词的TF-IDF值,将N个最高TF-IDF值的词作为商品内容向量Li,其中i表示商品的序号;
所述Step2的具体步骤如下:
Step2.1:利用Step1.2得到的每个商品的商品内容向量Li来训练稀疏边缘降噪自动编码模型,简称SmDAE网络模型,进一步从Li来提取商品特征,训练集为W,训练网络来优化损失函数JmDAE(θ),单层SmDAE网络最后输出商品特征向量Lsi
Figure FDA0003070986110000021
其中L(x,y)为重构误差函数,fθ为编码函数,KL为KL-divergence的方法,β为控制稀疏性惩罚项的权重系数,μx为x的期望值,ρ为稀疏性参数,
Figure FDA0003070986110000022
为神经元的激活度,
Figure FDA0003070986110000023
是输入数据x的低d维的干扰项的方差,
Figure FDA0003070986110000024
为相对于z系数h维的偏导,
Figure FDA0003070986110000025
为输入数据x的d维的偏导,
Figure FDA0003070986110000026
是矩阵L相对于z系数的Hessian矩阵;
Step2.2:形成多层SmDAE网络,把首层的输出作为第二层的输入,其他部分与2.1相同,按上一步的思路直到训练好所有层的网络参数,多层SmDAE网络最后输出商品特征向量Ldi
Step2.3:采用余弦相似度来计算商品的相似度,余弦值越接近1则越相似,假设Ld1[A1,A2,…,An],Ld2[B1,B2,…,Bn]为两个n维特征向量,相似度计算公式如下:
Figure FDA0003070986110000031
将近邻商品对目标商品的影响力融入到矩阵分解模型中,假设影响力为X,则N个近邻商品对目标商品的影响力为:
Figure FDA0003070986110000032
其中X表示商品产生的影响力,T表示近邻商品的集合,Wf表示每个近邻商品产生的影响力隐式反馈;
所述Step3的具体步骤如下:
Step3.1:用户行为数据集RU×I矩阵是用户-商品评分矩阵,使用隐语义矩阵分解模型(LFM)对其降维,矩阵值RUI表示的是用户U对商品I的评分,LFM将评分矩阵RU×I分解为两个低维度矩阵PU×n与Qn×I,用户U对商品I的预测评分模型为:
Figure FDA0003070986110000033
Step3.2:将2.3中近邻商品影响力X加入到评分模型中,得到新的预测评分模型;
Figure FDA0003070986110000034
Step3.3:设所有的评论集合为K,最优化损失函数C来估计参数,损失函数如下所示:
Figure FDA0003070986110000035
其中RUI表示的是用户U对商品I的评分,λ为参数,λ1||PU×n||22||Qn×I||23||X||2分别为基于PU×n,Qn×I,X的正则项。
CN201810992432.3A 2018-08-29 2018-08-29 一种基于稀疏边缘降噪自动编码的混合推荐方法 Active CN109408702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810992432.3A CN109408702B (zh) 2018-08-29 2018-08-29 一种基于稀疏边缘降噪自动编码的混合推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810992432.3A CN109408702B (zh) 2018-08-29 2018-08-29 一种基于稀疏边缘降噪自动编码的混合推荐方法

Publications (2)

Publication Number Publication Date
CN109408702A CN109408702A (zh) 2019-03-01
CN109408702B true CN109408702B (zh) 2021-07-16

Family

ID=65463622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810992432.3A Active CN109408702B (zh) 2018-08-29 2018-08-29 一种基于稀疏边缘降噪自动编码的混合推荐方法

Country Status (1)

Country Link
CN (1) CN109408702B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033127B (zh) * 2019-03-14 2021-03-26 中国人民解放军国防科技大学 一种基于嵌入式特征选择的冷启动项目推荐方法
CN110059220A (zh) * 2019-04-12 2019-07-26 北京工业大学 一种基于深度学习与贝叶斯概率矩阵分解的电影推荐方法
CN111931035B (zh) * 2019-05-13 2023-11-24 中国移动通信集团湖北有限公司 业务推荐方法、装置及设备
CN110211017B (zh) * 2019-05-15 2023-12-19 北京字节跳动网络技术有限公司 图像处理方法、装置及电子设备
CN110458638B (zh) * 2019-06-26 2023-08-15 平安科技(深圳)有限公司 一种商品推荐方法及装置
CN110532381B (zh) * 2019-07-15 2023-09-26 中国平安人寿保险股份有限公司 一种文本向量获取方法、装置、计算机设备及存储介质
CN110458627B (zh) * 2019-08-19 2023-06-30 华南师范大学 一种面向用户动态偏好的商品序列个性化推荐方法
CN110659411B (zh) * 2019-08-21 2022-03-11 桂林电子科技大学 一种基于神经注意力自编码器的个性化推荐方法
CN110543720B (zh) * 2019-09-03 2021-06-08 北京交通大学 基于sdae-elm伪量测模型的状态估计方法
CN111144283A (zh) * 2019-12-25 2020-05-12 辽宁工程技术大学 一种基于人脸识别的智能超市商品推荐系统
CN111127165B (zh) * 2019-12-26 2024-03-26 纪信智达(广州)信息技术有限公司 基于自注意力自编码器的序列推荐方法
CN111310029B (zh) * 2020-01-20 2022-11-01 哈尔滨理工大学 一种基于用户商品画像和潜在因子特征提取的混合推荐方法
CN111930926B (zh) * 2020-08-05 2023-08-29 南宁师范大学 结合评论文本挖掘的个性化推荐算法
CN112632377B (zh) * 2020-12-21 2023-06-27 西北大学 一种基于用户评论情感分析与矩阵分解的推荐方法
CN113139088A (zh) * 2021-05-14 2021-07-20 西安建筑科技大学 Idf模型协同过滤模型的电影推荐方法、介质、设备及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102376063A (zh) * 2011-11-29 2012-03-14 北京航空航天大学 一种基于社会化标签的个性化推荐系统优化方法
CN105095477A (zh) * 2015-08-12 2015-11-25 华南理工大学 一种基于多指标评分的推荐算法
CN105849764A (zh) * 2013-10-25 2016-08-10 西斯摩斯公司 用于识别社交数据网络中的影响者及其社区的系统和方法
CN106104512A (zh) * 2013-09-19 2016-11-09 西斯摩斯公司 用于主动获取社交数据的系统和方法
WO2017048784A1 (en) * 2015-09-15 2017-03-23 Genesis Media Llc Rank, cluster, characterize and customize users, digital contents and advertisement campaigns based on implicit characteristic determination
CN107885768A (zh) * 2017-09-27 2018-04-06 昆明理工大学 一种针对app软件使用质量的用户评论挖掘方法
CN108363804A (zh) * 2018-03-01 2018-08-03 浙江工业大学 基于用户聚类的局部模型加权融合Top-N电影推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8566270B2 (en) * 2010-09-24 2013-10-22 Nuance Communications, Inc. Sparse representations for text classification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102376063A (zh) * 2011-11-29 2012-03-14 北京航空航天大学 一种基于社会化标签的个性化推荐系统优化方法
CN106104512A (zh) * 2013-09-19 2016-11-09 西斯摩斯公司 用于主动获取社交数据的系统和方法
CN105849764A (zh) * 2013-10-25 2016-08-10 西斯摩斯公司 用于识别社交数据网络中的影响者及其社区的系统和方法
CN105095477A (zh) * 2015-08-12 2015-11-25 华南理工大学 一种基于多指标评分的推荐算法
WO2017048784A1 (en) * 2015-09-15 2017-03-23 Genesis Media Llc Rank, cluster, characterize and customize users, digital contents and advertisement campaigns based on implicit characteristic determination
CN107885768A (zh) * 2017-09-27 2018-04-06 昆明理工大学 一种针对app软件使用质量的用户评论挖掘方法
CN108363804A (zh) * 2018-03-01 2018-08-03 浙江工业大学 基于用户聚类的局部模型加权融合Top-N电影推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Automatic recognition for mechanical images based on Sparse non-negative matrix factorization and Probabilistic Neural Networks;Wang Qinghua; Yu Hongtao; Deng Donghua;《2015 IEEE International Conference on Mechatronics and Automation (ICMA)》;20150903;第2408-2413页 *
基于稀疏自动编码器和边缘降噪自动编码器的深度学习算法研究;邓俊锋;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170615(第06期);I140-22 *

Also Published As

Publication number Publication date
CN109408702A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN109408702B (zh) 一种基于稀疏边缘降噪自动编码的混合推荐方法
Steck Embarrassingly shallow autoencoders for sparse data
Zheng et al. Joint deep modeling of users and items using reviews for recommendation
CN107273438B (zh) 一种推荐方法、装置、设备及存储介质
Da Silva et al. An evolutionary approach for combining results of recommender systems techniques based on collaborative filtering
Liang et al. Connecting users and items with weighted tags for personalized item recommendations
CN109033294B (zh) 一种融入内容信息的混合推荐方法
Gu et al. Learning global term weights for content-based recommender systems
CN111079409B (zh) 一种利用上下文和方面记忆信息的情感分类方法
Cui et al. An improved matrix factorization based model for many-objective optimization recommendation
CN109840833B (zh) 贝叶斯协同过滤推荐方法
Duan et al. Learning target-specific representations of financial news documents for cumulative abnormal return prediction
Bouguila et al. A discrete mixture-based kernel for SVMs: application to spam and image categorization
Gai et al. Deep transfer collaborative filtering for recommender systems
CN111930926A (zh) 结合评论文本挖掘的个性化推荐算法
Ravanifard et al. Content-aware listwise collaborative filtering
Pacharawongsakda et al. Multi-label classification using dependent and independent dual space reduction
Sejwal et al. A hybrid recommendation technique using topic embedding for rating prediction and to handle cold-start problem
CN113268657B (zh) 基于评论和物品描述的深度学习推荐方法及系统
Zhang et al. Text summarization based on sentence selection with semantic representation
Luo et al. An alternate method between generative objective and discriminative objective in training classification restricted Boltzmann machine
Bai et al. Collaborative multi-auxiliary information variational autoencoder for recommender systems
Li et al. A collaborative filtering recommendation method based on TagIEA expert degree model
Gao et al. A recommendation algorithm combining user grade-based collaborative filtering and probabilistic relational models
CN111612573B (zh) 一种基于全贝叶斯方法的推荐系统评分推荐预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant