CN110851700A

CN110851700A - 一种融合属性和语义的概率矩阵分解冷启动推荐方法

Info

Publication number: CN110851700A
Application number: CN201910914274.4A
Authority: CN
Inventors: 徐俊; 张政; 杜宣萱; 陶林康; 张元鸣
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-02-28
Anticipated expiration: 2039-09-25
Also published as: CN110851700B

Abstract

一种融合属性和语义的概率矩阵分解冷启动推荐方法，首先从数据库中提取用户属性信息、项目属性信息、项目文本信息和用户评分信息，利用线性回归对属性信息和语义信息建模预测潜在特征，并把预测值作为概率分解的先验概率，从而实现将属性信息和语义信息融合到评分矩阵的概率分解中。本发明可以有效地将属性信息和语义信息融入到概率矩阵分解中，解决了推荐系统中普遍存在的冷启动和稀疏性问题，并且有更高的准确度，算法复杂度不高，适用处理大规模数据。

Description

一种融合属性和语义的概率矩阵分解冷启动推荐方法

技术领域

本发明涉及冷启动推荐领域，特别涉及一种融合属性和语义的概率矩阵分解冷启动推荐方法。

背景技术

随着云计算、大数据、物联网等技术的迅猛发展，使得互联网中的各类服务和用户数据爆炸式增长。这些大数据中蕴含着丰富的价值和巨大潜力，给人类社会带来了变革性的发展，如何快速有效的从纷繁复杂的数据中获取有价值的信息为用户进行个性化的推荐是推荐系统研究的关键难题。个性化推荐系统已经成为学术界和工业界的关注热点并形成了众多相关研究成果。推荐系统是根据用户偏向、兴趣等，通过推荐算法从海量数据中挖掘出用户感兴趣的项目(如信息、服务、物品等)，并将结果以个性化列表的形式推荐给用户。目前，推荐系统在很多领域得到了成功应用，包括电子商务、信息检索、社交网络、位置服务、新闻推送等各个领域。

概率矩阵分解技术是根据用户和项目的潜在特征向量以及观察到的评分服从高斯先验分布，利用贝叶斯推导，得到用户和项目的潜在特征矩阵，最后根据潜在特征矩阵计算出预测评分。虽然概率矩阵分解仅采用单一的用户项目评分矩阵进行挖掘，在一定程度上能获得用户和项目的潜在特征，克服了稀疏性问题，但缺乏足够的语义解释，并且不能解决冷启动问题。

目前，学术界对矩阵分解存在的问题已经有所研究，文献1(王阳,钟勇,李振东,etal.融合语义相似度与矩阵分解的评分预测算法[J].计算机应用,2017(z1).)提出一种融合语义相似度的矩阵分解算法，通过本体计算项目间的语义相似度并填充评分矩阵中的缺失值，然后对填充后的评分矩阵分解实现推荐，但是构建本体对象人工代价相对较高，扩展性差。文献2(陈平华,朱禹.融合知识图谱表示学习和矩阵分解的推荐算法[J].计算机工程与设计,2018,39(10):145-150.)提出一种融合知识图谱表示学习和矩阵分解的推荐算法，利用知识图谱计算实体之间的语义相似性，并融入到矩阵分解中，在知识层面上增强了矩阵分解的效果，然而对于新用户或新项目无法完成推荐。文献3(Zhang,Yufang.(2015).Collaborative Filtering Algorithm Based on Item Semantic and UserCharacteristics.Journal of Information and Computational Science.12.4059-4067.10.12733/jics20106139.)提出了结合项目语义与用户特征的协同过滤算法，通过改进的用户相似度和项目相似度线性融合进行预测评分，缓解了冷启动问题，但该方法只是考虑了局部评分数据，忽视了全局影响。

发明内容

针对现有技术的问题，本发明提出了一种融合属性和语义的概率矩阵分解冷启动推荐方法，；利用线性回归对属性信息和语义信息建模预测潜在特征，并把预测值作为概率矩阵分解的先验概率对评分矩阵进行分解；当遇到新用户或新项目时，可以通过属性信息和语义信息有效地预测评分；可以有效地将属性信息和语义信息融入到概率矩阵分解中，解决了推荐系统中普遍存在的冷启动和稀疏性问题，并且有更高的准确度，算法复杂度不高，适用处理大规模数据。

为了实现上述目的本发明采用如下技术方案：

一种融合属性和语义的概率矩阵分解冷启动推荐方法，包括以下步骤：

步骤1.收集大量用户和项目数据，数据包括用户属性信息、项目属性信息、用户对项目的评分信息和项目内容文本信息，以此为基础构建数据集；

步骤2.对项目内容文本信息进行分词、去除停用词预处理，然后对深度学习词向量模型进行训练获得词向量模型；

步骤3.将项目文本中的词通过词向量模型转换为向量，并利用词向量的加法运算法则结合TF-IDF方法获得n个关键词向量及权重{v_j1:w_j1，v_j2:w_j2，...，v_jm:w_jm，...，v_jn:w_jn},其中v_jm表示为项目j的第m个关键词的词向量,w_jm表示为项目j的第m个关键词向量的TF-TDF权重，将词向量累加平均获得项目内容文本向量

表示项目j的内容文本向量，n为项目内容文本中提取的关键词总数；

步骤4.构建线性回归模型预测潜在特征，将用户属性集f_u看作输入值，用户的属性集包括性别、年龄和职业，用户潜在特征向量看作输出值，用户潜在特征的线性预测方程表达为：

其中，

为用户i的预测潜在特征向量，

表示为用户i的属性信息，W_u表示为用户属性的权重矩阵；

相同的，将项目属性集f_V看作输入值，项目潜在特征向量看作输出值，项目潜在特征的线性预测方程表达为：

其中，

为项目j的预测潜在特征向量，

表示为项目j的属性信息，W_v表示为项目属性的权重矩阵；

对于项目语义潜在特征，将项目j的内容文本向量

看作线性预测的输入值，项目j的语义潜在特征向量看作输出值，项目语义潜在特征的线性预测方程表达为：

其中，为项目j的预测语义潜在特征向量，

表示为项目j的文本向量，W_q表示为项目内容文本向量的权重矩阵；

步骤5.将预测的潜在特征作为概率矩阵分解的先验概率对评分矩阵进行分解，

和

分别作为U_i、V_j和Q_j的条件概率，转化公式为：

其中，U_i、V_j和Q_j表示用户潜在特征、项目潜在特征和项目语义潜在特征，ε_ui、ε_vj和ε_qj是高斯噪声：

假设权重参数集W_u、W_v和W_q中每个参数

和

都服从均值为零的高斯分布：

整个线性回归预测模型的条件概率为：

融合项目内容文本语义对用户评分的影响，整个评分矩阵R的条件概率分布重新定义为：

其中ω是调节参数，用来调控项目语义对用户评分的影响，是指数函数，如果用户i对项目j有过评分，那么它的值为1，否则为0,r_ij是实际评分，经过贝叶斯推断，联合后的后验对数概率满足下式：

为了方便计算，进一步处理得到最终的损失函数：

其中，

‖·‖_F是表示Frobenius范数；

步骤6.使用随机梯度下降法求解损失函数的局部最优解，整个模型最重要的模型参数分别为：用户潜在特征U，项目潜在特征V，项目语义潜在特征Q，线性预测模型中的模型参数W_u、W_v、W_q，参数求解步骤如下：

6.1)输入评分矩阵R，用户的属性信息f_u,项目的属性信息f_v和项目内容文本向量f_q；

6.2)初始化参数U_i，V_j，Q_j，W_u，W_v,W_q，α，ω；

6.3)WhileL不满足收敛do

6.4)输出权重矩阵W_u，W_v,W_q和潜在特征矩阵U_i，V_j，Q_j；

其中α为学习率，

e_ij是预测评分与实际评分之间的误差；

步骤7.预测评分，选取评分最高的前n个项目作为推荐集，评分预测公式如下：

其中，

表示为用户i对项目j的预测评分，对所有项目进行评分预测，然后选取评分最高的前n个作为用户i的推荐集Top-n。

本发明的有益效果主要表现在：对推荐系统中的稀疏性和冷启动问题进行了研究，利用线性回归对属性信息和语义信息建模预测潜在特征，有效地解决了因新用户或新项目没有历史数据而无法推荐的冷启动问题，将属性信息和语义信息融合到评分矩阵的概率分解中，解决了因用户评分数据稀疏而造成推荐准确度低的问题。

附图说明

图1是本发明的整体流程示意图；

图2是本发明的词向量训练过程图；

图3是本发明的概率矩阵分解模型图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1～图3，一种融合属性和语义的概率矩阵分解冷启动推荐方法，首先从数据库中提取用户属性信息、项目属性信息、项目文本信息和用户评分信息，利用线性回归对属性信息和语义信息建模预测潜在特征，并把预测值作为概率分解的先验概率，从而实现将属性信息和语义信息融合到评分矩阵的概率分解中，所述方法包括以下步骤：

步骤2.如图2所示，对项目内容文本信息进行分词、去除停用词等预处理，然后对深度学习词向量模型进行训练获得词向量模型；

步骤3.将项目文本中的词通过词向量模型转换为向量，并利用词向量的加法运算法则结合TF-IDF方法获得n个关键词向量及权重{v_j1:w_j1，v_j2:w_j2，...，v_jm:w_jm，...，v_jn:w_jn},其中v_jm表示为项目j的第m个关键词的词向量,w_jm表示为项目j的第m个关键词向量的TF-TDF权重，将词向量累加平均获得项目的文本向量

步骤4.构建线性回归模型预测潜在特征，将用户属性集f_u看作输入值，用户的属性集包括性别、年龄和职业等，用户潜在特征向量看作输出值，用户潜在特征的线性预测方程表达为：

其中，

为用户i的预测潜在特征向量，表示为用户i的属性信息，W_u表示为用户属性的权重矩阵；

相同的，将项目属性集f_V看作输入值，项目(例如电影)的属性集包含电影类、导演和明星等，项目潜在特征向量看作输出值。项目潜在特征的线性预测方程表达为：

其中，

为项目j的预测潜在特征向量，表示为项目j的属性信息，W_v表示为项目属性的权重矩阵；

对于项目语义潜在特征，将项目j的文本向量

其中，

为项目j的预测语义潜在特征向量，表示为项目j的文本向量，W_q表示为项目文本向量的权重矩阵；

步骤5.如图3所示，将预测的潜在特征作为概率矩阵分解的先验概率对评分矩阵进行分解。

和

分别作为U_i、V_j和Q_j的条件概率，转化公式为：

假设权重参数集W_u、W_v和W_q中每个参数

和

都服从均值为零的高斯分布：

整个线性回归预测模型的条件概率为：

融合项目内容语义对用户评分的影响，整个评分矩阵R的条件概率分布重新定义为：

其中ω是调节参数，用来调控项目语义对用户评分的影响，

是指数函数，如果用户i对项目j有过评分，那么它的值为1，否则为0,r_ij是实际评分，经过贝叶斯推断,联合后的后验对数概率满足下式：

为了方便计算，进一步处理得到最终的损失函数：

其中，

‖·‖_F是表示Frobenius范数；

步骤6.使用随机梯度下降法求解损失函数的局部最优解。整个模型最重要的模型参数分别为：用户潜在特征U，项目潜在特征V，项目语义潜在特征Q，线性预测模型中的模型参数W_u、W_v、W_q，参数求解步骤如下：

6.2)初始化参数U_i，V_j，Q_j，W_u，W_v,W_q，α，ω；

6.3)WhileL不满足收敛do；

6.4)输出权重矩阵W_u，W_v，W_q和潜在特征矩阵U_i，V_j，Q_j；

其中α为学习率，

e_ij是预测评分与实际评分之间的误差；

其中，

Claims

1.一种融合属性和语义的概率矩阵分解冷启动推荐方法，其特征在于，所述方法包括以下步骤：

步骤3.将项目文本中的词通过词向量模型转换为向量，并利用词向量的加法运算法则结合TF-IDF方法获得n个关键词向量及权重{v_j1：w_j1，v_j2：w_j2，...，v_jm：w_jm，...，v_jn：w_jn}，其中v_jm表示为项目j的第m个关键词的词向量，w_jm表示为项目j的第m个关键词向量的TF-TDF权重，将词向量累加平均获得项目内容文本向量