CN110851731B

CN110851731B - 一种用户属性耦合相似和兴趣语义相似的协同过滤推荐方法

Info

Publication number: CN110851731B
Application number: CN201910914291.8A
Authority: CN
Inventors: 肖刚; 张政; 杜宣萱; 陶林康; 陆佳炜
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2022-05-03
Anticipated expiration: 2039-09-25
Also published as: CN110851731A

Abstract

一种用户属性耦合相似和兴趣语义相似的协同过滤推荐方法，包括以下步骤：步骤1.收集大量用户和项目数据；步骤2.对项目内容文本信息进行预处理，然后对深度学习词向量模型进行训练获得词向量模型；步骤3.将项目文本中的词通过词向量模型转换为向量；步骤4.分析用户的兴趣内容向量；步骤5.对用户注册信息预处理并提取用户属性；步骤6.结合用户属性耦合相似度和用户兴趣内容语义相似度动态计算用户的综合相似度；步骤7.预测评分，选取评分最高的前n个项目作为推荐集。本发明可以提升最近邻用户集的质量和可靠性，有效地解决冷启动问题和稀疏性问题。

Description

一种用户属性耦合相似和兴趣语义相似的协同过滤推荐方法

技术领域

本发明涉及协同过滤推荐领域，特别涉及一种用户属性耦合相似和兴趣语义相似的协同过滤推荐方法。

背景技术

随着云计算、大数据、物联网等技术的迅猛发展，使得互联网中的各类服务和用户数据爆炸式增长。这些大数据中蕴含着丰富的价值和巨大潜力，给人类社会带来了变革性的发展，如何快速有效的从纷繁复杂的数据中获取有价值的信息为用户进行个性化的推荐是推荐系统研究的关键难题。个性化推荐系统已经成为学术界和工业界的关注热点并形成了众多相关研究成果。推荐系统是根据用户偏向、兴趣等，通过推荐算法从海量数据中挖掘出用户感兴趣的项目 (如信息、服务、物品等)，并将结果以个性化列表的形式推荐给用户。目前，推荐系统在很多领域得到了成功应用，包括电子商务、信息检索、社交网络、位置服务、新闻推送等各个领域。

传统协同过滤推荐算法是个性化推荐系统中一种最常用而有效的推荐算法。它主要以用户和项目之间的评分数据进行分析，从而实现推荐。然而，在推荐系统运作过程中，新用户和新项目不断地出现，这些用户和项目因为没有历史评分数据，导致传统协同过滤推荐算法不能有效的判读新用户的兴趣和新项目的受欢迎度。并且传统协同过滤推荐算法仅采用单一的用户项目评分矩阵进行挖掘，没有考虑到用户和项目更深层次的语义关联，对于稀疏性较高的用户推荐效果精度偏低。目前，学术界对传统协同过滤推荐算法存在的问题已经有所研究，文献1(余永红，陈兴国，高阳.一种基于耦合对象相似度的项目推荐算法[J].计算机科学，2013，41(2)：33-35.)提出了一种基于耦合对象相似度的项目推荐算法，从项目文本中提取项目关键特征，利用耦合相似度构建项目相似度模型进行推荐，虽然解决了项目冷启动问题，但无法对新用户进行推荐。文献2(吕世嘉.基于耦合相似度的协同过滤算法的研究及应用[D].2016.)提出了加入耦合相似度的矩阵分解模型，将用户耦合相识度和项目耦合相识度作为两个额外的正则化项加入到矩阵分解的优化过程中，在一定程度上缓解了稀疏性问题，但并没有解决冷启动问题。文献3 (陈亮，深圳大学信息工程学院广东深圳，陈亮，et al.基于DNN算法的移动视频推荐策略[J].计算机学报，2016，39(8)：1626-1638.)提出了一种基于深度学习模型的内容推荐方法，通过词向量模型构建用户兴趣向量，并在基于内容的推荐方法上，筛选过滤进行推荐，该方法挖掘了用户和项目深层次的语义关联，但却忽视了相似用户集体的影响，推荐结果专一化，缺少多样性。

发明内容

为了克服传统的协同过滤推荐方法中的不足，兼顾推荐过程中的冷启动问题和稀疏性问题，本发明提供一种基于用户属性耦合相似和兴趣语义相似的协同过滤推荐方法，通过结合用户属性的耦合相似性和用户兴趣内容语义相似性动态计算用户的综合相似性，可以提升最近邻用户集的质量和可靠性，有效地解决冷启动问题和稀疏性问题。

为了实现上述目的本发明采用如下技术方案：

一种用户属性耦合相似和兴趣语义相似的协同过滤推荐方法，输入包括用户-项目评分矩阵、用户注册信息、项目文本信息和目标用户u；输出为目标用户u的Top-n推荐集；所述方法包括以下步骤：

步骤1.收集大量用户和项目数据，数据包括用户注册信息、用户对项目的评分信息和项目内容文本信息，以此为基础构建数据集；

步骤2.对项目内容文本信息进行分词、去除停用词等预处理，然后对深度学习词向量模型进行训练获得词向量模型；

步骤3.将项目文本中的词通过词向量模型转换为向量，并利用词向量的加法运算法则结合TF-IDF方法获得n个关键词向量及权重 {v_i1：w_i1，v_i2：w_i2，...，v_im：w_im，...，v_in：w_in}，其中v_im表示为项目i的第 m个关键词的词向量，w_im表示为项目i的第m个关键词向量的TF- TDF权重，将词向量累加平均获得项目的文本向量

I_i表示项目的内容文本向量，n为项目内容文本中提取的关键词总数；

步骤4.分析用户的兴趣内容向量，并计算用户的兴趣内容语义相似度sim_p(u，v)，结合用户评分信息获得用户兴趣内容向量，用户u 兴趣内容向量公式如下：

其中P_u表示用户u的兴趣内容向量，I(u)为用户u所有历史项目集合。r_u，i为用户u对项目i的评分。用户兴趣内容的语义相似度可以很容易根据余弦公式获得，但是由于向量之间的余弦值范围在在-1到1之间，为了将用户兴趣内容的语义相似度范围定在0到1 之间，所以通过改进后的用户兴趣内容的语义相似度公式为

步骤5.对用户注册信息预处理并提取用户属性，计算用户属性的耦合相似度sim_a(u，v)

上述公式中

是用户u和用户v在属性j上的耦合相似度 (简称CAVS，全称Coupled Attribute Value Similarity)，且 sim_a(u，v)∈[0，1]，其值越高代表越相似，l是属性的数量；

耦合属性值相似度(CAVS)由特征内耦合属性值相似度(IaAVS)和特征间耦合属性值相似度(IeAVS)两部分组成。特征j上属性值u_j和 v_j之间的耦合属性值相似度定义为：

和

分别为特征内耦合属性值相似度(IaAVS)和特征间耦合属性值相似度(IeAVS)；

特征内耦合属性值相似度(IaAVS)是站在属性值频率分布角度衡量不同属性值的相似度，定义如下：

公式中g_j(uj)和g_j(v_j)分别是用户集合中用户属性j上属性值为 u_j和v_j的用户集合；

特征间属性值耦合相似度(IeAVS)是站在属性间依赖聚合角度衡量不同属性值的相似度，定义如下：

ω_k是用户属性特征k的权重，且

ω_k∈[0，1]，δ_j|k(u_j，v_j)是属性值u_j，v_j在属性特征j下的特征间耦合属性相似度，定义如下：

上式中∩表示属性j取值为u_j和v_j的条件下，属性k的属性值的所有取值集合的交集，P_k|j(w|u_j)是描述属性j属性值为u_j的条件下，属性k属性值为w的概率分布，定义如下：

步骤6.结合用户属性耦合相似度和用户兴趣内容语义相似度动态计算用户的综合相似度sim_w(u，v)，公式为：

sim_w(u，v)＝αsim_p(u，v)+(1-α)sim_a(u，v)

公式中

步骤7.预测评分，选取评分最高的前n个项目作为推荐集；

公式中

表示预测用户u对项目i的评分，sim_w(u，v)表示用户 u与用户v的综合相似度，K(u)是用户u的近邻用户集合，预测完评分后，选取评分最高的前n个作为用户u的推荐集Top-n。

本发明的技术构思为：为了解决现有技术的问题，提出一种用户属性耦合相似和兴趣语义相似的协同过滤推荐方法，结合用户属性耦合相似性和兴趣语义相似度，通过用户的活跃度来动态计算用户的综合相似度，更加准确的捕获用户之间的相关性，通过协同过滤的方法推荐结果，解决了推荐过程中的冷启动问题和稀疏性问题。

本发明的有益效果主要表现在：对用户相似度进行了研究，保证最近邻用户集的质量和可靠性，并且本发明兼顾了推荐过程中的冷启动问题和稀疏性问题。随着用户活跃度的变化而改善推荐结果，从而使用户满意。

附图说明

图1是本发明的整体流程示意图；

图2是本发明的词向量训练过程图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1和图2，一种用户属性耦合相似和兴趣语义相似的协同过滤推荐方法，其特征在于，输入包括用户-项目评分矩阵、用户注册信息、项目文本信息和目标用户u；输出为目标用户u的Top-n 推荐集；首先从数据库中提取用户属性信息、项目文本信息和用户评分信息，然后通过融合相似度得到综合相似度，最后通过协同过滤推荐算法完成推荐，所述方法包括以下步聚：

步骤3.将项目文本中的词通过词向量模型转换为向量，并利用词向量的加法运算法则结合TF-IDF方法获得n个关键词向量及权重 {v_i1：w_i1，v_i2：w_i2，...，v_im：w_im，...，v_in：w_in}，其中v_im表示为项目i的第 m个关键词的词向量，w_m表示为项目i的第m个关键词向量的TF- TDF权重，将词向量累加平均获得项目的文本向量

步骤4.分析用户的兴趣内容向量，并计算用户的兴趣内容语义相似度sim_p(u，v)。结合用户的评分信息计算用户兴趣内容向量，用户u的兴趣内容向量公式如下：

其中P_u表示用户u的兴趣内容向量，I(u)为用户u所有历史项目集合。r_u，i为用户u对项目i的评分，用户兴趣内容的语义相似度可以很容易根据余弦公式获得，但是由于向量之间的余弦值范围在在-1到1之间，为了将用户兴趣内容的语义相似度范围定在0到1 之间，所以通过改进后的用户兴趣的语义相似度公式为

上述公式中

耦合属性值相似度(CAVS)由特征内耦合属性值相似度(IaAVS)和特征间耦合属性值相似度(IeAVS)两部分组成，特征j上属性值u_j和 v_j之间的耦合属性值相似度定义为：

和

公式中g_j(u_j)和g_j(v_j)分别是用户集合中用户属性j上属性值为 u_j和v_j的用户集合；

ω_k是用户属性特征k的权重，且

sim_w(u，v)＝αsim_p(u，v)+(1-α)sim_a(u，v)

公式中

步骤7.通过协同过滤推荐算法预测评分，选取评分最高的前n 个项目作为推荐集，评分预测计算方法

公式中

图2是本发明的词向量训练过程图。在词向量模型训练中，所训练的语料库是项目文本信息，首先收集大量的项目文本信息，然后对项目文本进行分词处理获得语料词库，然后进一步去除语料词库中的停用词获得语料重要词汇库，最后设定word2vec模型的维度和文本窗口进行训练，通过训练形成词向量模型。

Claims

1.一种用户属性耦合相似和兴趣语义相似的协同过滤推荐方法，其特征在于，输入包括用户-项目评分矩阵、用户注册信息、项目文本信息和目标用户u；输出为目标用户u的Top-n推荐集；所述方法包括以下步骤：

步骤2.对项目内容文本信息进行分词和去除停用词预处理，然后对深度学习词向量模型进行训练获得词向量模型；

步骤3.将项目文本中的词通过词向量模型转换为向量，并利用词向量的加法运算法则结合TF-IDF方法获得n个关键词向量及权重{v_i1:w_i1,v_i2:w_i2,…,v_im:w_im,…,v_in:w_in},其中v_im表示为项目i的第m个关键词的词向量,w_im表示为项目i的第m个关键词向量的TF-TDF权重，将词向量累加平均获得项目的文本向量