CN112860880B - 一种融合评论文本和特征加权的四维张量分解推荐方法 - Google Patents
一种融合评论文本和特征加权的四维张量分解推荐方法 Download PDFInfo
- Publication number
- CN112860880B CN112860880B CN202110308009.9A CN202110308009A CN112860880B CN 112860880 B CN112860880 B CN 112860880B CN 202110308009 A CN202110308009 A CN 202110308009A CN 112860880 B CN112860880 B CN 112860880B
- Authority
- CN
- China
- Prior art keywords
- user
- item
- tensor
- comment
- recommendation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 24
- 230000003993 interaction Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000010219 correlation analysis Methods 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000013256 coordination polymer Substances 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012847 principal component analysis method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001808 coupling effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种融合评论文本和特征加权的四维张量分解推荐方法,该方法包括以下步骤:S1、数据采集及划分;S2、评论文本的处理;S3、张量的构建;S4、结合标签及评分数据的加权;S5、张量的分解及生成推荐。本发明考虑将评论文本融入到张量分解模型当中,本发明利用用户项目评论数据集,收集用户、用户评论文本、项目、项目评论文本,将评论文本向量化,进而分别得到用户的特征向量和项目的特征向量,然后构建{用户,用户特征,项目,项目特征}四维张量,最后应用高阶奇异值分解充分挖掘张量实体之间的潜在联系性,根据处理结果生成推荐,从而达到提高推荐系统效率的目的。
Description
技术领域
本发明属于数据挖掘和自然语言处理技术领域,尤其涉及一种融合评论文本和特征加权的四维张量分解推荐方法。
背景技术
随着信息技术的飞速发展,人们逐渐进入信息过载的时代,如何在过载的信息当中寻找自己所需要的信息就显得尤为重要。推荐系统的功能是对目标用户的行为活动和需求进行分析,然后对其可能喜欢的项目进行推荐。因此,提高推荐系统的准确度能够为企业带来巨大的经济效益,且让用户有一个更好的体验感。
近年来,推荐系统受到越来越多的行业的青睐,尤其个性化推荐系统的发展,对提高用户体验满意度起到了至关重要的作用。协同过滤算法是目前最流行的推荐技术之一,其通过对用户和项目的相似性度量来实现对用户的高效推荐。但协同过滤算法存在弊端,为了进一步提升推荐的准确性,近几年基于张量分解的推荐模型开始兴起。当推荐模型直接利用评分数据参与推荐时,会由于评分数据的稀疏性导致模型效果不佳,一种缓解数据稀疏的方法是利用评论数据,以补充更多信息的方式来弥补数据的不足。当今基于张量分解的推荐模型大多都是将用户、项目,标签等其他上下文信息纳入到模型的构建过程中,构建了{用户,商品,标签}的张量分解模型,从而进行个性化推荐,为解决标签推荐系统存在数据极度稀疏性的问题,将评论文本参与构建张量模型。张量模型可以充分融合用户和项目之间相关联的上下文信息,利用张量模型实现个性化推荐的研究越来越受到重视,极大地提高了推荐系统准确度。因此,本发明将张量运用在推荐系统中,通过结合用户评论文本和项目的评论文本来参与张量模型的构建,并将项目标签信息和评分矩阵信息作为张量权重,然后结合张量分解方法建立模型。在解决数据稀疏性问题的同时,提供更加准确和个性化的标签推荐。
发明内容
本发明从融合用户和项目之间相关联的上下文信息角度出发,利用评论文本,将用户、用户特征、项目、项目特征信息关联起来建立用户-用户特征-项目-项目特征四维张量,再将项目的标签信息和评分数据融合作为权重,融合起来的权重分别是从定性和定量的角度来看待的,在此基础上,利用张量分解技术得到一个近似张量,推荐系统的最终目的是为目标用户推荐其可能最感兴趣的前N的项目。
为了实现以上发明,提出了一种融合评论文本和特征加权的四维张量分解推荐方法,包括以下步骤:
S1、数据的采集及划分;将处理好的数据集随机选取80%的历史交互作为训练集,用于训练模型;其余作为测试集,用于评估模型的泛化能力;从训练集中随机选取10%的交互作为验证集,用于调整超参数;
S2、评论文本的处理:先进行词向量训练,运用doc2vec工具对评论文本处理得到文本的词向量表示,该向量的维度可在实验调参阶段自我设置,然后将得到的本文词向量输入LSTM神经网络中训练,从而得到具有深层语义的词向量;
S3、张量的构建:本文对用户、用户特征、项目、项目特征构建4维张量模型,其中用户特征和项目特征都是通过评论文本生成的特征向量;
S4、结合标签及评分数据的加权:由于每个项目都有固定的一个或多个标签,结合评分数据与标签计算用户对项目的标签的偏好程度,然后将项目标签与项目特征作相关性分析,从而得到项目标签与项目特征的相关程度,最后将相关程度与偏好程度作内积,既是张量对应位的权重大小;
S5、张量的分解及生成推荐:将加权后的张量应用高阶奇异值分解技术,通过对张量进行分解和重构近似张量,从而达到推荐的目的。
优选的,所述步骤S1的数据的采集及划分的具体步骤如下:
S101、将下载的Moviedata-10M电影数据集进行数据预处理;
S102、使用10-core设置,即保留至少有10次交互的用户和项目;
S103、将数据按照8:1:1的比例分别划分训练集、测试集和验证集。
所述步骤S2中评论文本的处理的具体步骤如下:
S201、评论文本的收集:记用户u所写的所有评论文本为将评论文本用词向量表示为/>即为如下表示:
公式中表示用户u评论中的第m个词,/>表示词/>对应的词向量,符号表示列向量的连接操作;
S202、评论文本的向量化表示:运用doc2vec分别对用户的评论文本集和项目的评论文本集训练,doc2vec是在word2vec的基础上进行改进得到的,在输入层当中,doc2vec增添了一个新句子向量Paragraph vector,Paragraph vector可以被看作是另一个词向量,它扮演了一个记忆得到每个用户及项目的向量化表示,它可以被看作是句子的主旨,有了它,该向量表达的主旨会越来越准确;
S203、评论文本的深层语义挖掘:将上述表示用户及项目的向量输入到LSTM神经网络中,深入挖掘用户及项目的潜在特征;
LSTM是为了解决长期依赖问题而设计出来的,主要是通过三个基本结构来实现,分别是:遗忘门、输入门、输出门;
遗忘门:决定我们会对输入的信息进行选择性遗忘,该功能由一个sigmoid函数实现,输出一个在0~1之间的数值,代表信息的一个状态,1表示全部保留,0表示全部舍弃,具体表达如下公式所示:
ft=σ(Wf·[ht-1,xt]+bi)
其中σ代表sigmoid函数,Wf代表遗忘门的权重,[ht-1,xt]表示向量的拼接,bf代表遗忘门的偏置。
输入门:决定多少新信息可以输入到该网络结构当中,该功能由两个函数组成:一个sigmoid函数决定哪些信息需要更新,一个tanh函数作为更新内容的备选,然后再将这两部分联立起来的结果输入到网络当中;
it=σ(Wi·[ht-1,xt]+bi)
其中σ代表sigmoid函数,tanh代表tanh函数,Wi代表输入门的权重,bi代表输入门的偏置,bc代表记忆单元的偏置,‘*’表示矩阵对应元素相乘;‘·’表示矩阵内积。
输出门:决定我们将会输出什么值,该功能由两个函数组成:一个sigmoid函数决定哪些信息将输出去,一个tanh函数(输出的值在-1~1之间),并将它和sigmoid函数输出值作积作为作为我们最终输出的内容。
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中Wo代表输出门的权重,bo代表输出门的偏置,ht表示第t个单词在LSTM处理后的输出。
以上就是LSTM模型的组成,句中的每个词对应循环神经网络中的一个LSTM模型,并根据句中词的顺序对应输出到LSTM模型当中,形成一个链式结构。
所述步骤S3中张量的构建的具体步骤如下:
S301、张量的特征组成:张量模型由四元组{用户,用户的特征,项目,项目的特征}构成;
S302、张量的填充:张量的填充值为0或者1。让LSTM网络输出的特征向量值在映射在0~1范围内,当特征向量的某个特征值大于等于0.5时,则在该张量对应特征值位置填入1,说明用户或项目具有该特征;当特征向量的某个特征值小于0.5时,则在该张量对应特征值位置填入0,说明用户或项目不具有该特征,使用四元组{u,v,i,j}分别表示用户、用户特征、项目、项目特征,当具有特征v的用户u对具有特征j的项目评论过,则在张量的对应位置填入1,否则填入0。
所述步骤S4中结合标签及评分数据的加权的具体步骤如下:
S401、标签向量化:由于每个项目都有一个或多个固定的标签,故可对这些标进行向量化处理,向量的维数大小等于标签的个数,当某项目具有某几个标签时,只需在标签向量的对应位填入1,没有的话则填0;
S402、用户对项目标签的偏好计算:用户观看了具有某标签的项目次数越多,表明用户对此标签的兴趣越大;用户观对具有某标签的项目评分越高,表明用户对此标签的兴趣越大,针对以上两点,可计算出用户对项目标签的偏好程度;
其中fut表示用户u对具有标签t的项目的评分数,fu表示用户u对所有项目的评分总数,|fut|表示用户u对具有标签t的项目的观看频数,fu表示用户u对所有项目的观看总频数,0.5表示调节因子。
S403、项目标签与项目特征的相关性计算:运用Point-Biserial相关系数测量一组连续变量和一组二元分类变量的线性关系,项目标签是二元分类变量,项目特征是连续变量:
其中代表二元变量组“0”对应的连续变量的均值,/>代表二元变量组“1”对应的连续变量的均值,Sj代表连续变量的标准差,N0和N1分别代表二元变量组“0”和“1”的数量,N是二元变量的总数;
S404、张量加权:上述得出来用户对项目标签的一个偏好,但是还不能直接作用在张量当中,因为四元组表示的张量中没有项目标签该实体,所以需要一种转换将项目标签映射到项目特征中,本文通过相关系数来实现该操作,因为已经算出了项目标签与项目特征的相关程度,所以针对每一个特征而言,与所有的项目标签都存在一个相关性,再将这个相关系数与偏好相乘,故可得用户对项目特征的一个偏好,最后将这个用户对项目特征的偏好作为张量中用户对项目的偏好权重。
可选的,所述步骤S5中张量的分解及生成推荐的具体步骤如下:
S501、张量降维:对张量在四个维度上分别降维;
S502、奇异值分解(SVD):将上一步骤在各个维度降维得到的矩阵A1、A2、A3分别作奇异值分解,通过奇异值分解组成的对角矩阵S(n),具体分解情况如下:
An=U(n)·S(n)·(V(n))T,1≤n≤4
通过低秩逼近对矩阵An的奇异值进行删减,能够很好地过滤掉由小的奇异值引起的噪声,从而达到降噪的目的;
S503、高阶奇异值分解:张量分解(又称为高阶奇异值分解、HOSVD)是在矩阵奇异值分解的概念上的一个延伸,可以建立比标准的奇异值分解模型更加精准发模型,因为HOSVD算法可以同时实现对张量分解各维数据进行降维。张量分解的主要方式有两种:CP模型、Tucker模型。Tucker模型是一种高阶主成分分析方法,它将N维张量分解成一个核心矩阵和N个因子矩阵乘积的形式:
A=C×1U(1)×2U(2)……×N U(N)
其中,核心张量/>本文张量是四维的,故可分解出一个核心矩阵和四个因子矩阵乘积的形式,确定了用户、用户特征、项目、项目特征之间的交互关系,C的计算方式如下公式所示;
C=A×1U(1)×2U(2)……×N U(N)
最后,由于张量中存在着大量噪声,故不具备低秩性,需要通过HOSVD构造张量A的近似张量
S504、生成推荐:经过上述一系列操作,可以知道具有某种特征的用户对具有某种特征的项目的偏好程度,按偏好程度可形成推荐列表。
由上,本发明融合评论文本和特征加权的四维张量分解推荐方法至少具有如下有益效果:
(1)、本发明使用doc2vec方法训练的稠密、实值词向量,在语义空间中有更准确的语义刻画,不仅保留词语顺序关系,而且具有语义,在功效上比word2vec方法有了很大的提升。
(2)、本发明运用了LSTM神经网络深入挖掘文本信息,对经过doc2vec训练出来的向量进一步训练,通过几个门控单元,实现长短期信息的一个记忆,能够更好的挖掘本文潜在的信息。
(3)、本发明使用评论文本参与到张量的构建当中,评论文本分别作为用户特征和项目特征,充分利用了用户和项目的上下文信息,从而提高推荐质量和准确度。
(4)、本发明同时使用了项目标签信息和评分数据,对张量进行加权,进一步凸显用户对项目的偏好性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下结合优选实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍。
图1为本发明的融合评论文本和特征加权的四维张量分解推荐方法的基本流程图;
图2为LSTM模型结构框图;
图3为本发明的数据的采集及划分流程图;
图4为本发明的评论文本处理流程图;
图5为本发明的结合标签及评分数据的加权流程图;
图6为本发明的张量的分解及生成推荐加权流程图;
图7为融合评论文本和特征加权的四维张量分解推荐方法的的结构框图。
具体实施方式
下面结合附图详细说明本发明的具体实施方式,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中,不同的图中相同或相似的部件使用相同的附图标号来表示。
如图1至图7所示,本发明的融合评论文本和特征加权的四维张量分解推荐方法,包括:
数据的采集及划分模块,从Grouplens网站下载Moviedata-10M电影数据集并进行数据预处理,使用10-core设置,即保留至少有10次交互的用户和项目。
评论文本的处理模块,先进行词向量训练,运用doc2vec工具对评论文本处理得到文本的词向量表示,该向量的维度可在实验调参阶段自我设置,然后将得到的本文词向量输入LSTM神经网络中训练,从而得到具有深层语义的词向量。
张量的构建模块,本发明对用户、用户特征、项目、项目特征构建4维张量模型,其中用户特征和项目特征都是通过评论文本生成的特征向量。
结合标签及评分数据的加权模块,由于每个项目都有固定的一个或多个标签,结合评分数据与标签计算用户对项目的标签的偏好程度,然后将项目标签与项目特征作相关性分析,从而得到项目标签与项目特征的相关程度,最后将相关程度与偏好程度作内积,既是张量对应位的权重大小。
张量的分解及生成推荐模块,将加权后的张量应用高阶奇异值分解技术,通过对张量进行分解和重构近似张量,从而达到推荐的目的。
如图1所示,本发明的方法包括如下步骤:
S1、数据采集及处理:从Grouplens网站下载Moviedata-10M电影数据集并进行数据预处理,使用10-core设置,即保留至少有10次交互的用户和项目。
S2、评论文本的处理:先进行词向量训练,运用doc2vec工具对评论文本处理得到文本的词向量表示,该向量的维度可在实验调参阶段自我设置,然后将得到的本文词向量输入LSTM神经网络中训练,从而得到具有深层语义的词向量;
S3、张量的构建:本文对用户、用户特征、项目、项目特征构建4维张量模型,其中用户特征和项目特征都是通过评论文本生成的特征向量;
S4、结合标签及评分数据的加权:由于每个项目都有固定的一个或多个标签,结合评分数据与标签计算用户对项目的标签的偏好程度,然后将项目标签与项目特征作相关性分析,从而得到项目标签与项目特征的相关程度,最后将相关程度与偏好程度作内积,既是张量对应位的权重大小;
S5、张量的分解及生成推荐:将加权后的张量应用高阶奇异值分解技术,通过对张量进行分解和重构近似张量,从而达到推荐的目的。
如图3所示,步骤S1中的数据的采集及划分的具体步骤如下:
S101、将下载的Moviedata-10M数据集进行数据预处理:将下载的豆瓣Moviedata-10M数据集,将其转化为可操作的格式存储。
S102、使用10-core设置,即保留至少有10次交互的用户和项目:删除掉交互10次之内的用户和项目,确保数据有效性。
S103、将数据按照8:1:1的比例分别划分训练集、测试集和验证集:训练集用于训练的样本集合,主要用来训练模型的参数,验证集用于比较判断各个模型的性能,测试集用于客观的评价模型的性能,合理划分数据集有利于模型的训练。
如图4所示,步骤S2中评论文本的处理的具体步骤如下:
S201、评论文本的收集:记用户u所写的所有评论文本为将评论文本用词向量表示为/>即为如下表示:
公式中表示用户u评论中的第m个词,/>表示词/>对应的词向量,符号表示列向量的连接操作;
S202、评论文本的向量化表示:运用doc2vec分别对用户的评论文本集和项目的评论文本集训练,doc2vec是在word2vec的基础上进行改进得到的,在输入层当中,doc2vec增添了一个新句子向量Paragraph vector,Paragraph vector可以被看作是另一个词向量,它扮演了一个记忆得到每个用户及项目的向量化表示,它可以被看作是句子的主旨,有了它,该向量表达的主旨会越来越准确;在python中,具体实现核心代码如下所示:
model=gensim.models.Doc2Vec(documents,dm=1,alpha=0.1,size=20,min_alpha=0.025)
S203、评论文本的深层语义挖掘:将上述表示用户及项目的向量输入到LSTM神经网络中,深入挖掘用户及项目的潜在特征;在Keras中,具体实现核心代码如下所示:
本发明的张量的构建的具体步骤如下:
S301、张量的特征组成:张量模型由四元组{用户,用户的特征,项目,项目的特征}构成;
S302、张量的填充:张量的填充值为0或者1。让LSTM网络输出的特征向量值在映射在0~1范围内,当特征向量的某个特征值大于等于0.5时,则在该张量对应特征值位置填入1,说明用户或项目具有该特征;当特征向量的某个特征值小于0.5时,则在该张量对应特征值位置填入0,说明用户或项目不具有该特征,使用四元组{u,v,i,j}分别表示用户、用户特征、项目、项目特征,当具有特征v的用户u对具有特征j的项目评论过,则在张量的对应位置填入1,否则填入0。
如图5所示,步骤S4中结合标签及评分数据的加权的具体步骤如下所示:
S401、标签向量化:由于每个项目都有一个或多个固定的标签,故可对这些标进行向量化处理,向量的维数大小等于标签的个数,当某项目具有某几个标签时,只需在标签向量的对应位填入1,没有的话则填0;
例如:所有的项目总共有K个特征,项目1具体标签1、3、5,项目2具有标签2、4、6,分别可以表示成如下向量所示:
I1=[T1,T2,……,TK]=[1,0,1,0,1,0,0,……,0]
I2=[T1,T2,……,TK]=[0,1,0,1,0,1,0,……,0]
S402、用户对项目标签的偏好计算:用户观看了具有某标签的项目次数越多,表明用户对此标签的兴趣越大;用户观对具有某标签的项目评分越高,表明用户对此标签的兴趣越大,针对以上两点,可计算出用户对项目标签的偏好程度;
其中fut表示用户u对具有标签t的项目的评分数,fu表示用户u对所有项目的评分总数,|fut|表示用户u对具有标签t的项目的观看频数,fu表示用户u对所有项目的观看总频数,0.5表示调节因子。
例如:用户u1对具有标签t1的所有项目m的评分数总和为p,对所有项目n的评分综合为q,则偏好为
S403、项目标签与项目特征的相关性计算:运用Point-Biserial相关系数测量一组连续变量和一组二元分类变量的线性关系,项目标签是二元分类变量,项目特征是连续变量:
其中代表二元变量组“0”对应的连续变量的均值,/>代表二元变量组“1”对应的连续变量的均值,Sj代表连续变量的标准差,N0和N1分别代表二元变量组“0”和“1”的数量,N是二元变量的总数。
S404、张量加权:上述得出来用户对项目标签的一个偏好,但是还不能直接作用在张量当中,因为四元组表示的张量中没有项目标签该实体,所以需要一种转换将项目标签映射到项目特征中,本文通过相关系数来实现该操作,因为已经算出了项目标签与项目特征的相关程度,所以针对每一个特征而言,与所有的项目标签都存在一个相关性,再将这个相关系数与偏好相乘,故可得用户对项目特征的一个偏好,最后将这个用户对项目特征的偏好作为张量中用户对项目的偏好权重。
例如:用户u1对项目标签t1的偏好度为1.3,对项目标签t2的偏好度为1.5,对项目标签t3的偏好度为0.8;项目特征j1与项目标签t1的相关性为0.9,与项目标签t2的相关性为0.5,与项目标签t3的相关性为0.6,然后对相关性进行归一处处理则用户u1对项目特征j1的偏好度如下所示:
T1 | T2 | T3 | |
U1 | 1.3 | 1.5 | 0.8 |
J1 | 0.45 | 0.25 | 0.3 |
f11=1.3×0.45+1.5×0.25+0.8×0.3
据此可分别得到用户u1对所有的项目特征的偏好度。
如图6所示,步骤S5中张量的分解及生成推荐的具体步骤如下:
S501、张量降维:对张量在四个维度上分别降维,也就是将张量按照不同的维度(n-模)重新排列成一个矩阵,我们将这一过程称作张量的n-模矩阵展开,由于本发明研究的是四维张量,因此将张量A的的1-模、2-模、3-模、4-模矩阵展开式A1、A2、A3、A4分别定义如下:
S502、奇异值分解(SVD):将上一步骤在各个维度降维得到的矩阵A1、A2、A3、A4分别作奇异值分解,通过奇异值分解组成的对角矩阵S(n),具体分解情况如下:
An=U(n)·S(n)·(V(n))T,1≤n≤4
通过低秩逼近对矩阵An的奇异值进行删减,能够很好地过滤掉由小的奇异值引起的噪声,从而达到降噪的目的;在python中,具体实现核心代码如下所示:
U,sigma,Vt=np.linalg.svd(data)
S503、高阶奇异值分解:张量分解(又称为高阶奇异值分解、HOSVD)是在矩阵奇异值分解的概念上的一个延伸,可以建立比标准的奇异值分解模型更加精准发模型,因为HOSVD算法可以同时实现对张量分解各维数据进行降维。张量分解的主要方式有两种:CP模型、Tucker模型。Tucker模型是一种高阶主成分分析方法,它将N维张量分解成一个核心矩阵和N个因子矩阵乘积的形式:
A=C×1U(1)×2U(2)……×NU(N)
其中,核心张量/>本文张量是四维的,故可分解出一个核心矩阵和四个因子矩阵乘积的形式,确定了用户、用户特征、项目、项目特征之间的交互关系,C的计算方式如下公式所示;
C=A×1U(1)×2U(2)……×N U(N)
最后,由于张量中存在着大量噪声,故不具备低秩性,需要通过HOSVD构造张量A的近似张量
S504、生成推荐:经过上述一系列操作,可以知道具有某种特征的用户对具有某种特征的项目的偏好程度,按偏好程由大到小进行排序,取前n个,即为top-n推荐。
本发明公开了一种融合评论文本和特征加权的四维张量分解推荐方法,该方法包括如下步骤:S1、数据的采集及划分;S2、评论文本的处理:(1)运用doc2vec对评论文本进行向量化处理,不仅考虑了词之间的语义信息,还压缩了维度,同时考虑了单词之间的排列顺序对句子或文本信息的影响,对评论文本起到了很好的挖掘效果;(2)LSTM神经网络可以深入挖掘文本的潜在信息,在doc2vec后接LSTM可以最大化地挖掘出文本中隐含的各种信息,为用户特征、项目特征的形成起到了至关重要的作用;S3、张量的构建:也就是初始化张量,也是文本明的核心内容,建立用户-用户特征-项目-项目特征四维张量,并在相应位置填充0或1对张量初始化;S4、结合标签及评分数据的加权:(1)用户对项目标签的偏好计算:用户观看了具有某标签的项目次数越多,表明用户对此标签的兴趣越大;用户观对具有某标签的项目评分越高,表明用户对此标签的兴趣越大,针对以上两点,可计算出用户对项目标签的偏好程度;(2)项目标签与项目特征的相关性计算,运用Point-Biserial相关系数测量一组连续变量和一组二元分类变量的线性关系;将偏好性与相关性结合起来即对张量进行加权操作,利用其它的辅助信息,缓解数据的稀疏性,并突出用户的偏好,不会因为数据的不断积累而导致偏好平均化;S5、张量的分解及生成推荐;将张量运用到推荐系统中,可以更好的利用用户及项目之间的一些联系,张量模型可以完整地表示高维数据并且能维持高维空间数据的本征结构信息。
本发明利用用户项目评论数据集,收集用户、用户评论文本、项目、项目评论文本,将评论文本向量化,进而分别得到用户的特征向量和项目的特征向量,然后构建{用户,用户特征,项目,项目特征}四维张量,最后应用高阶奇异值分解充分挖掘张量实体之间的潜在联系性,根据处理结果生成推荐,从而达到提高推荐系统效率的目的。传统的张量模型将项目标签融入进来,而项目标签往往存在着稀疏性且无偏重差异等问题,通过评论文本得到的项目特征则可以很好地解决该问题,而用户特征则实现了对用户特征更加细粒度的划分,为个性化推荐奠定了良好的基础。用户评论直接描绘了用户给出评分的原因以及对物品的使用体验,能直观地体现用户偏好和物品特征,对模型的学习极其有利,利用推荐系统方法,达到了辅佐推荐系统算法的目的,提高推荐系统的精确度和召回率。张量模型解决了由于评分矩阵的稀疏性给推荐系统带来的一些弊端,同时将张量运用到推荐系统中,可以更好的利用用户及项目之间的一些联系,张量模型可以完整地表示高维数据并且能维持高维空间数据的本征结构信息,模型具有很强的可解释性及耦合性。将评论文本融合到张量模型当中,可得到更加准确和个性化的模型,且该张量模型可以使用在任何有文本型数据的推荐业务场景中。
以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。
Claims (6)
1.一种融合评论文本和特征加权的四维张量分解推荐方法,其特征在于,包括以下步骤:
S1、数据的采集及划分;将处理好的数据集随机选取80%的历史交互作为训练集,用于训练模型;其余作为测试集,用于评估模型的泛化能力;从训练集中随机选取10%的交互作为验证集,用于调整超参数;
S2、评论文本的处理:先进行词向量训练,运用doc2vec工具对评论文本处理得到文本的词向量表示,该向量的维度可在实验调参阶段自我设置,然后将得到的本文词向量输入LSTM神经网络中训练,从而得到具有深层语义的词向量;
S3、张量的构建:对用户、用户特征、项目、项目特征构建4维张量模型,其中用户特征和项目特征都是通过评论文本生成的特征向量;
S4、结合标签及评分数据的加权,结合评分数据与标签计算用户对项目的标签的偏好程度,然后将项目标签与项目特征作相关性分析,从而得到项目标签与项目特征的相关程度,最后将相关程度与偏好程度作内积;
S5、张量的分解及生成推荐:将加权后的张量应用高阶奇异值分解技术,通过对张量进行分解和重构近似张量,达到推荐的目的。
2.如权利要求1所述的融合评论文本和特征加权的四维张量分解推荐方法,其特征在于,所述步骤S1的数据采集及划分的具体步骤如下:
S101、将下载的Moviedata-10M电影数据集进行数据预处理;
S102、使用10-core设置,即保留至少有10次交互的用户和项目;
S103、将数据按照8:1:1的比例分别划分训练集、测试集和验证集。
3.如权利要求1所述的融合评论文本和特征加权的四维张量分解推荐方法,其特征在于,所述步骤S2中评论文本的处理的具体步骤如下:
S201、评论文本的收集:记用户u所写的所有评论文本为将评论文本用词向量表示为/>即为如下表示:
其中表示用户u评论中的第m个词,/>表示词/>对应的词向量,/>符号表示列向量的连接操作;
S202、评论文本的向量化表示:运用doc2vec分别对用户的评论文本集和项目的评论文本集训练;
S203、评论文本的深层语义挖掘:将上述表示用户及项目的向量输入到LSTM神经网络中,深入挖掘用户及项目的潜在特征。
4.如权利要求1所述的融合评论文本和特征加权的四维张量分解推荐方法,其特征在于,所述步骤S3中张量的构建的具体步骤如下:
S301、张量的特征组成:张量模型由四元组{用户,用户的特征,项目,项目的特征}构成;
S302、张量的填充:张量的填充值为0或者1。
5.如权利要求1所述的融合评论文本和特征加权的四维张量分解推荐方法,其特征在于,所述步骤S4中结合标签及评分数据的加权的具体步骤如下:
S401、标签向量化:由于每个项目都有一个或多个固定的标签,故可对这些标进行向量化处理,向量的维数大小等于标签的个数,当某项目具有某几个标签时,只需在标签向量的对应位填入1,没有的话则填0;
S402、用户对项目标签的偏好计算:用户观看了具有某标签的项目次数越多,表明用户对此标签的兴趣越大;用户对具有某标签的项目评分越高,表明用户对此标签的兴趣越大,针对以上两点,可计算出用户对项目标签的偏好程度;
S403、项目标签与项目特征的相关性计算:运用Point-Biserial相关系数测量一组连续变量和一组二元分类变量的线性关系,项目标签是二元分类变量,项目特征是连续变量;
S404、张量加权:用户对项目特征的一个偏好,将这个用户对项目特征的偏好作为张量中用户对项目的偏好权重。
6.如权利要求1所述的融合评论文本和特征加权的四维张量分解推荐方法,其特征在于,所述步骤S5中张量的分解及生成推荐的具体步骤如下:
S501、张量降维:对张量在四个维度上分别降维;
S502、奇异值分解:将上一步骤在各个维度降维得到的矩阵A1、A2、A3分别作奇异值分解,通过奇异值分解组成的对角矩阵S(n),具体分解情况如下:
An=U(n)·S(n)·(V(n))T,1≤n≤4
通过低秩逼近对矩阵An的奇异值进行删减,能够很好地过滤掉由小的奇异值引起的噪声,达到降噪的目的;
S503、高阶奇异值分解;
S504、生成推荐:经过上述一系列操作,可以知道具有某种特征的用户对具有某种特征的项目的偏好程度,按偏好程度可形成推荐列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110308009.9A CN112860880B (zh) | 2021-03-23 | 2021-03-23 | 一种融合评论文本和特征加权的四维张量分解推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110308009.9A CN112860880B (zh) | 2021-03-23 | 2021-03-23 | 一种融合评论文本和特征加权的四维张量分解推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112860880A CN112860880A (zh) | 2021-05-28 |
CN112860880B true CN112860880B (zh) | 2024-03-08 |
Family
ID=75992327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110308009.9A Active CN112860880B (zh) | 2021-03-23 | 2021-03-23 | 一种融合评论文本和特征加权的四维张量分解推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112860880B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649657A (zh) * | 2016-12-13 | 2017-05-10 | 重庆邮电大学 | 面向社交网络基于张量分解的上下文感知推荐系统及方法 |
KR20170097535A (ko) * | 2016-02-18 | 2017-08-28 | 한양대학교 산학협력단 | 비관심 아이템을 활용한 아이템 추천 방법 및 장치 |
CN110059262A (zh) * | 2019-04-19 | 2019-07-26 | 武汉大学 | 一种基于混合神经网络的项目推荐模型的构建方法及装置、项目推荐方法 |
CN110334759A (zh) * | 2019-06-28 | 2019-10-15 | 武汉大学 | 一种评论驱动的深度序列推荐方法 |
CN112016002A (zh) * | 2020-08-17 | 2020-12-01 | 辽宁工程技术大学 | 融合评论文本层级注意力和时间因素的混合推荐方法 |
CN112256859A (zh) * | 2020-10-23 | 2021-01-22 | 辽宁工程技术大学 | 一种基于双向长短期记忆网络显式信息耦合分析的推荐方法 |
CN112328900A (zh) * | 2020-11-27 | 2021-02-05 | 北京工业大学 | 一种融合评分矩阵和评论文本的深度学习推荐方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8676736B2 (en) * | 2010-07-30 | 2014-03-18 | Gravity Research And Development Kft. | Recommender systems and methods using modified alternating least squares algorithm |
US8935303B2 (en) * | 2012-12-28 | 2015-01-13 | Telefonica, S.A. | Method and system of optimizing a ranked list of recommended items |
-
2021
- 2021-03-23 CN CN202110308009.9A patent/CN112860880B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170097535A (ko) * | 2016-02-18 | 2017-08-28 | 한양대학교 산학협력단 | 비관심 아이템을 활용한 아이템 추천 방법 및 장치 |
CN106649657A (zh) * | 2016-12-13 | 2017-05-10 | 重庆邮电大学 | 面向社交网络基于张量分解的上下文感知推荐系统及方法 |
CN110059262A (zh) * | 2019-04-19 | 2019-07-26 | 武汉大学 | 一种基于混合神经网络的项目推荐模型的构建方法及装置、项目推荐方法 |
CN110334759A (zh) * | 2019-06-28 | 2019-10-15 | 武汉大学 | 一种评论驱动的深度序列推荐方法 |
CN112016002A (zh) * | 2020-08-17 | 2020-12-01 | 辽宁工程技术大学 | 融合评论文本层级注意力和时间因素的混合推荐方法 |
CN112256859A (zh) * | 2020-10-23 | 2021-01-22 | 辽宁工程技术大学 | 一种基于双向长短期记忆网络显式信息耦合分析的推荐方法 |
CN112328900A (zh) * | 2020-11-27 | 2021-02-05 | 北京工业大学 | 一种融合评分矩阵和评论文本的深度学习推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112860880A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sarkhel et al. | A multi-objective approach towards cost effective isolated handwritten Bangla character and digit recognition | |
CN109241424B (zh) | 一种推荐方法 | |
CN112579778B (zh) | 基于多层次的特征注意力的方面级情感分类方法 | |
CN111881262B (zh) | 基于多通道神经网络的文本情感分析方法 | |
CN111191092B (zh) | 标签确定方法和标签确定模型训练方法 | |
CN110807154A (zh) | 一种基于混合深度学习模型的推荐方法与系统 | |
CN111127146B (zh) | 基于卷积神经网络与降噪自编码器的信息推荐方法及系统 | |
Chen et al. | Developing a new mesh quality evaluation method based on convolutional neural network | |
CN110472042B (zh) | 一种细粒度情感分类方法 | |
CN108090229A (zh) | 一种基于卷积神经网络确定评分矩阵的方法和装置 | |
CN112967088A (zh) | 基于知识蒸馏的营销活动预测模型结构和预测方法 | |
Wong et al. | A bi-partite generative model framework for analyzing and simulating large scale multiple discrete-continuous travel behaviour data | |
Wang et al. | Adaptive feature fusion for time series classification | |
Ziraki et al. | Multiple-view flexible semi-supervised classification through consistent graph construction and label propagation | |
Shingari et al. | A review of applications of data mining techniques for prediction of students’ performance in higher education | |
CN114648031B (zh) | 基于双向lstm和多头注意力机制的文本方面级情感识别方法 | |
Fang et al. | Collaborative filtering recommendation algorithm based on deep neural network fusion | |
CN111222847A (zh) | 基于深度学习与非监督聚类的开源社区开发者推荐方法 | |
CN111985680B (zh) | 基于胶囊网络与时序的刑事多罪名预测方法 | |
CN112131261A (zh) | 基于社区网络的社区查询方法、装置和计算机设备 | |
CN114819392A (zh) | 一种基于用户聚类扩展数据的用电预测方法 | |
Wang et al. | Sentiment analysis of commodity reviews based on ALBERT-LSTM | |
Zhang et al. | Efficient history matching with dimensionality reduction methods for reservoir simulations | |
Ahan et al. | Social network analysis using data segmentation and neural networks | |
LI et al. | Social recommendation algorithm fusing user interest social network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |