CN112765465B

CN112765465B - 一种基于用户图谱的推荐方法

Info

Publication number: CN112765465B
Application number: CN202110055446.4A
Authority: CN
Inventors: 邓天; 潘晔; 利强; 杨健; 邵怀宗; 林静然
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2023-04-14
Anticipated expiration: 2041-01-15
Also published as: CN112765465A

Abstract

本发明提供了基于用户图谱的推荐方法，属于推荐系统技术领域，本发明采用引入知识图谱这一新维度的概念，维护一个现有用户的特征‑关系图谱，提取新用户的注册信息，基于这些信息将新用户也加入图谱网络，去除了新用户“新”这一属性，同时在图谱网络中，引入找新用户所在定长的环这一概念，只要某些用户和新用户在同一环上，说明这些用户和新用户间至少存在一条或多条显式特征相同，保证了寻找领域用户结果的可靠性，同时基于不同特征设置不同权重，模拟了实际运用中某些特征可能更加能够衡量用户的特点，最终根据总的权重值大小来进行领域用户的寻找，保证了结果的合理性。本发明通过以上设计，解决了传统推荐系统中冷启动的问题。

Description

一种基于用户图谱的推荐方法

技术领域

本发明属于推荐系统技术领域，尤其涉及一种基于用户图谱的推荐方法。

背景技术

随着科学技术的不断进步，互联网也不断进行了发展，到如今已经不断渗透到人们的日常生活中，为人们提供了海量的信息。然而面对着互联网上的海量信息资源，人们往往也很难从海量的信息中提取到符合自身需求的信息，从而使得信息的使用率下降了，产生了所谓的“信息过载”问题。为了解决该类问题，同时又避免了搜索引擎那种基于关键字推荐出“千篇一律”的内容，推荐系统应运而生。推荐系统的基本原理是对用户的历史行为数据，例如浏览、购买、评论、打分等数据进行保存，并挖掘出相应的用户偏好信息，对这些信息进行分析构建相应的用户兴趣模型。针对不同的用户，通过这些模型分析其潜在可能感兴趣的内容，并主动推荐给用户，为用户提供个性化服务。

然而在推荐系统中存在一个主要的问题，即当一个新用户进入系统时，系统中并不存在这个用户的历史行为数据，也就无法进行一个很可靠的分析，并为用户提供一个有效的定制化推荐，这个问题便是推荐系统中的冷启动问题。现有的解决推荐系统冷启动问题主要有两种解决方式：基于随机推荐或者基于用户标签的最热推荐，其中随机推荐是最简单的一种方式，即在新用户登录时随机将系统中的物品推荐给用户，这样的推荐存在的问题很大，推荐结果完全不可信，极大概率推荐的物品和用户自身所需物品区分度很大；第二种基于标签的最热推荐主要是在新用户进入之前提取出能代表物品的一定特征的标签(例如在电影中有犯罪、剧情、悬疑、科幻等等标签)，在新用户登录的时候将这些标签所对应物品中点击率和评分较高的topK个物品推荐给用户，这样的操作虽然避免了第一种随机推荐的结果不可信，但是由于热度最高的那一系列物品可能是固定的，也许新用户在其他系统中以及见过或者了解过，这样就会造成自身构建的推荐系统推荐没有区分度，体现不出个性化推荐的特点，同时需要用户点击一系列标签这一行为本身可能不够人性化，可能会使得新用户失去继续的兴趣。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于用户图谱的推荐方法，解决了传统推荐系统中冷启动的问题。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种基于用户图谱的推荐方法，包括以下步骤：

S1、根据推荐系统用户的注册信息，提取所有用户的特征，视不同的用户特征重要性赋予不同的权重，并根据用户特征构建用户-特征知识图谱；

S2、当新用户注册完成进入推荐系统时，提取新用户的特征，并将新用户的特征加入所述用户-特征知识图谱中，更新用户-特征知识图谱，同时在用户-特征知识图谱中利用找环的方式找到与新用户在同一环上的相关用户，并计算得到相关用户与新用户相连边的权重之和，根据所述权重之和的大小对相关用户进行排序，形成相关领域用户列表；

S3、根据推荐系统中相关用户的历史信息，获取相关用户对物品的评分信息，构建用户-评分矩阵，利用矩阵分解方法将所述用户-评分矩阵分解为用户特征矩阵以及物品特征矩阵，并对所述用户特征矩阵以及物品特征矩阵进行训练，生成评分预测模型；

S4、根据所述相关领域用户列表中的某个用户，利用所述评分预测模型预测所述某个用户对所有物品的评分，获取评分最高的k个物品，将评分最高的k个物品加入至推荐列表，并判断新用户的相关邻域用户列表是否都推荐完成，若是，则生成最终的推荐列表，完成基于用户图谱的推荐，否则，返回步骤S2。

本发明的有益效果是：本发明采用引入知识图谱这一新维度的概念，维护一个现有用户的特征-关系图谱，提取新用户的注册信息，基于这些信息将新用户也加入图谱网络，去除了新用户“新”这一属性。同时在图谱网络中，引入找新用户所在定长的环这一概念，只要某些用户和新用户在同一环上，说明这些用户和新用户间至少存在一条或多条显式特征相同，保证了寻找领域用户结果的可靠性，同时基于不同特征设置不同权重，模拟了实际运用中某些特征可能更加能够衡量用户的特点，最终根据总的权重值大小来进行领域用户的寻找，保证了寻找邻域用户的合理性。在通过邻域用户确定最终推荐列表时，引入用户的评分预测模型，预测邻域用户对所有物品的评分大小，保证了最终推荐列表中的物品一定是邻域用户最满意的物品。同时在每个邻域用户推荐数量上，考虑邻域用户的权重值，由该值确定该邻域用户可以推荐的最终物品数量，保证了最终的推荐列表构成的合理性。

进一步地，所述步骤S2包括以下步骤：

S201、当新用户注册完成进入推荐系统时，提取新用户的特征；

S202、将新用户的特征加入所述用户-特征知识图谱中，更新用户-特征知识图谱；

S203、根据新用户特征更新知识图谱，利用找环的方式统计新用户经过定长路径并能返回的环c_j；

S204、根据每个所述环c_j上的用户节点n_i，视所述用户节点n_i与新用户特征之间的连线为边；

S205、根据所述边的权值之和，计算得到用户节点n_i的权重n_sum；

S206、根据所述用户节点n_i的权重n_sum计算得到相关用户与新用户相连边的权重之和；

S207、根据所述权重之和的大小对相关用户进行排序，形成相关领域用户列表。

上述进一步方案的有益效果是：本发明在图谱网络中，引入找新用户所在定长的环这一概念，只要某些用户和新用户在同一环上，说明这些用户和新用户间至少存在一条或多条显式特征相同，保证了寻找领域用户结果的可靠性。

再进一步地，所述步骤S206中权重之和n_sumi的表达式如下：：

其中，n_i表示用户节点，c表示从新用户点出发经过定长路径能返回新用户的环的所有路径集合，c_j表示c中某条路径，e_jm表示路径c_j中某条边的权值，distinct(·)表示在所有路径中某条边的权值只统计一次。

上述进一步方案的有益效果是：本发明在用户图谱构建时，引入特征权重概念，用户的特征视重要度划分为不同的权重值，最终寻找到的新用户的领域用户一定是权重值高的用户。

再进一步地，所述步骤S3包括以下步骤：

S301、根据推荐系统中相关用户的历史信息，获取相关用户对物品的评分信息，构建用户-评分矩阵；

S302、将所述用户-评分矩阵分解降维为用户特征矩阵与物品特征矩阵之积R；

S303、根据所述用户特征矩阵与物品特征矩阵之积R，计算得到R与WH之间的最小欧式距离D，其中，W表示m×k维的用户特征矩阵，H表示n×k维的物品特征矩阵；

S304、根据所述最小欧式距离D，利用梯度下降法计算得到最优的分解矩阵；

S305、根据所述最优分解矩阵，将所述用户-物品评分矩阵分解为用户特征矩阵和物品特征矩阵；

S306、对所述用户特征矩阵以及物品特征矩阵进行训练，生成评分预测模型。

上述进一步方案的有益效果是：本发明采用梯度下降法求解最满意的矩阵分解的方式，即D刻画的是矩阵R与最后的W×H之间的距离差值，而最满意的分解方式为是使得距离值D最小，即本发明利用梯度下降法求得最优分解矩阵，有效地解决用户-物品评分矩阵的稀疏问题。

再进一步地，所述步骤S302中用户特征矩阵与物品特征矩阵之积R的表达式如下：

R≈W×H

其中，R表示用户特征矩阵与物品特征矩阵之积，W表示m×k维的用户特征矩阵，H表示n×k维的物品特征矩阵。

再进一步地，所述步骤S303中最小欧式距离D的表达式如下：

其中，W表示m×k维的用户特征矩阵，_R ^m×k表示m×k维的矩阵，H表示n×k维的物品特征矩阵，_R ^k×n表示n×k维的矩阵，ui表示原始评分矩阵中的第u行第i列，S表示评分矩阵中用户有评分的集合，r_ui和r_ui'均表示某个评分元素，

表示用户特征矩阵的第u行，H_i表示物品特征矩阵的第i列，

表示规范化因子。

再进一步地，所述步骤S304中最优分解矩阵的表达式如下：

其中，

表示w_ul在t+1时刻的值，

表示w_ul在t时刻的值，w_ul表示用户特征矩阵矩阵W中第u行第l列的值，τ表示迭代步长，D表示R与WH之间的最小欧式距离，h_li表示物品特征矩阵H中第l行第i列的值，

表示h_li在时刻t+1时候的值，

表示h_li在t时刻的值阵。

再进一步地，所述步骤S4包括以下步骤：

S401、根据所述相关领域用户列表中的某个用户，利用所述评分预测模型预测所述某个用户对所有物品的评分，获取评分最高的k个物品；

S402、根据所述评分最高的k个物品以及前N个新用户的权重，计算得到topK推荐结果；

S403、对所述topK推荐结果进行整数化处理，并加入至推荐列表；

S404、判断新用户的相关邻域用户列表是否都推荐完成，若是，则生成最终的推荐列表，完成基于用户图谱的推荐，否则，返回步骤S2。

上述进一步方案的有益效果是：本发明通过预测模型确定了邻域用户在全部物品中评分最高的k个物品，保证了通过邻域用户推荐物品结果的合理性。

再进一步地，所述步骤S402中topK推荐结果的表达式如下：

其中，Top_K表示topK推荐结果，n_i表示用户节点，KNN表示新用户的领域用户，top_ik表示第i个用户评分最高的k个物品，a_i表示用户i需要推荐的比例，n_sumi表示总权重值。

上述进一步方案的有益效果是：本发明根据邻域用户的权值大小，动态的确定该用户需要提供给最终推荐列表的物品数量，保证了最终推荐结果的合理性。

附图说明

图1为本发明的方法流程图。

图2为本实施例中寻找领域用户的示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例

传统推荐系统中解决冷启动方式要么直接推荐最近最热物品，这样有悖于推荐系统的个性化，要么采用类似随机推荐的方式使得推荐结果不可信。本发明提供了一种新的推荐方法，解决了传统推荐系统中冷启动的问题，如图1所示，一种基于用户图谱的推荐方法，其实现方法如下：

本实施例中，提取用户自身的特征，基于这些特征分类构建用户-特征之间的知识图谱，同时视每个特征重要性不同而设定不同权重，在新用户注册完成时，提取新用户特征更新图谱，具体地，基于用户自身，提取一系列显式的特征属性，例如年龄，收入，性别等信息，如基于使用军事装备的人员，区分特征的属性设置为所属单位，等级，人员类型三种，并赋予不同权重。在知识图谱构建层面，将人员的属性特征设置为一级分类，人员自身设置为二级分类，基于人员特征的关联规则，构建出人员-属性间的知识图谱网络(用户-特征知识图谱)。对于新注册用户，根据用户的注册信息，提取出构建知识图谱所需的特征信息，基于这些特征信息的关联规则，将新用户节点加入到总的用户图谱中。

本实施例中，本发明对推荐系统用户冷启动问题，不是简单采取随机推荐或基于最热标签推荐等方式，而是维护更新一个用户知识图谱，从图谱中寻找邻域用户，更加符合推荐系统个性化推荐的特点。

S2、当新用户注册完成进入推荐系统时，提取新用户的特征，并将新用户的特征加入所述用户-特征知识图谱中，更新用户-特征知识图谱，同时在用户-特征知识图谱中利用找环的方式找到与新用户在同一环上的相关用户，并计算得到相关用户与新用户相连边的权重之和，根据所述权重之和的大小对相关用户进行排序，形成相关领域用户列表，其实现方法如下：

本实施例中，对于新用户节点来说，只要与新用户存在某个特点上的相似，实际就可以称之为它的一个领域用户，然而这样得到的邻域用户必然是数目巨大且不够有区分度的。本发明通过一种“找环”的方式来解决这一问题，具体如下：在新用户加入图谱后，从新用户开始，统计经过定长路径，能够返回自身，即视为一个“环”(记为c_j)，对于每一个环上的用户节点(记为n_i)，用户节点与特征之间的连线为边，边视特征对结果的重要性不同而有不同的权值(记为e_jm)，边的权值之和视为该节点的一个权重(记为n_sum)。对于所有的环，统计用户的权值之和的权值n_sum为：

上式中的distinct意味着会对边去重，即每个边的权值只会统计一次。最终根据权值和大小，找到权值最大的K个用户节点，即完成了新用户的KNN个领域用户的寻找。

如图2所示，特征1、特征2、特征3代表提取出的用户特征信息，用户1-3代表已经存在图谱中的用户，用户与特征有连线代表该用户含有这种特征，连线上的字母a-c代表该种类特征在衡量标准中的权重。在新用户加入后，将它的特征提取出来加入到图谱中，即完成与各个特征间的连线。接下来就可以进行找环，在图2中，定长路径为4，则新用户->特征1->图谱中的用户2-特征2-新用户即视为一个环。对于每一个环上的用户节点，边的权值之和视为该节点的一个权重。对于所有的环，统计用户的权值之和，图2中经过去重，可以统计出各个用户权值：用户3＝a+b+c、用户2＝a+b，而用户1由于和新用户的相关特征太少而不纳入计算。经过该步骤，可以获得新用户的N个可靠领域用户，记为new_N，接下来就可以基于这些可靠领域用户，进行后续推荐。

S3、根据推荐系统中相关用户的历史信息，获取相关用户对物品的评分信息，构建用户-评分矩阵，利用矩阵分解方法将所述用户-评分矩阵分解为用户特征矩阵以及物品特征矩阵，并对所述用户特征矩阵以及物品特征矩阵进行训练，生成评分预测模型，其实现方法如下：

本实施例中，通过数据预处理处理用户的历史数据，获得一个用户-物品评分数据集R(m,n)作为后续构建模型的基础。该数据集包含一个用户集合U＝{u₁,u₂,..,u_m}以及一个物品集合I＝{i₁,i₂,..,i_n}，该矩阵如下所示：

上式中，R(m,n)中的元素r_ui为用户u对物品i的评分。如果用户u对物品i未评分，那么设置i为0。

本实施例中，由于物品的多样性，对某个用户来说，不可能对所有的物品都评过分，所以上述评分矩阵R(m,n)是一个稀疏矩阵，在如今大数据的背景下，该矩阵的稀疏度普遍高达95％以上。这种稀疏性不进行处理会十分影响推荐结果的质量。最简单的一种处理方式是对缺失的评分给一个固定的分值，例如用用户的历史平均评分来代替，但这种方式对推荐结果的优化提升不大。较好的一种方式是将矩阵进行分解降维为用户特征矩阵与物品特征矩阵之积。即：

R≈W×H

上式中，W为m×k维的用户特征矩阵，H为n×k维的物品特征矩阵，物理含义为用户和物品间存在k个某种类似的特征。此时对于式(1)中的某个评分元素r_ui而言，可以刻画为下式：

为了使得由W和H乘积得到的矩阵尽可能逼近原本矩阵，需要计算预测矩阵和原评分矩阵R之间的差异，这个差异用欧几里得距离来衡量，设原R中用户有评分的集合为S，那么S＝{ui|r_ui>0}。设D为R与WH之间的最小欧式距离，则D为：

为了求上述计算最小D的过程中出现过拟合问题，需要对上述D加入一个规范化因子

使得真正最小化的D变为原先的D加上规范化因子，此时D变为如下：

为了求出上式中的最小的D值，采用梯度下降法的方式，步骤如下：

首先对于D中每一个元素，求出它们的偏导数如下：

更新规则如下：

其中，

表示w_ul在t+1时刻的值，

表示w_ul在t时刻的值，w_ul表示用户特征矩阵矩阵W中第u行第l列的值，D表示R与WH之间的最小欧式距离，h_li表示物品特征矩阵H中第l行第i列的值，

表示h_li在时刻t+1时候的值，

表示h_li在t时刻的值，S表示评分矩阵中用户有评分的集合，r_ui表示某个评分元素，

表示用户特征矩阵的第u行，H_i表示物品特征矩阵的第i列，

表示规范化因子，W表示m×k维的用户特征矩阵，τ表示迭代步长，当通过重复更新规则达到规定的迭代次数或者更新量达到阈值ε时，终止更新得到最终的结果，此时的评分矩阵R就被分解为了用户特征矩阵W以及物品特征矩阵H。

本实施例中，spark中集成了ALS协同过滤训练模型，对于用户-评分矩阵R(m,n)来说，使用spark中ALS模型进行训练可以得到一个预测模型。

S4、根据所述相关领域用户列表中的某个用户，利用所述评分预测模型预测所述某个用户对所有物品的评分，获取评分最高的k个物品，将评分最高的k个物品加入至推荐列表，并判断新用户的相关邻域用户列表是否都推荐完成，若是，则生成最终的推荐列表，完成基于用户图谱的推荐，否则，返回步骤S2，其实现方法如下：

本实施例中，首先得到S3步骤训练好的预测模型，再得到S2步骤获得的新用户邻域列表，利用预测模型预测新用户的领域用户new_N对所有物品的评分，取评分最高的k个物品，记为top_ik。

本实施例中，引入基于模型评分的方式，是为了对推荐列表中物品的前后顺序进行一个刻画。一般对于一个推荐列表来说，用户对列表上物品的关注度是依次递减的，所以在推荐列表中越靠近顶端的位置，用户对它的“兴趣”应该越大。而预测模型所做的事情就是对这样一个兴趣值进行量化，经过多方因素的权衡后给出用户对物品的预测评分，是对这种兴趣值的一种最好的刻画。这样的刻画使得生成的推荐列表也有了先后顺序，更加优化用户的体验。

本实施例中，通过获得新用户的领域用户new_N以及他们在图谱中的相应权重值n_sum，那么就可以根据权重值获得对应数量的topK推荐。即：

其中，Top_K表示topK推荐结果，n_i表示用户节点，这一比例通过权值算出。

其中，KNN表示新用户的领域用户，top_ik表示第i个用户评分最高的k个物品，a_i表示用户i需要推荐的比例，n_sumi表示总权重值。

本实施例中，此处考虑的是虽然KNN中含有的都是新用户的邻域用户，但这些邻域用户与新用户间也存在远近关系，而这样的关系势必决定了不同邻域用户需要推荐给新用户的物品数量不同，即较近的邻域用户推荐物品数量应该比较远的邻域用户数量多，这个远近关系的刻画实际上可以体现在之前找环的各领域用户的权值大小上。最后再对Top_K结果进行整数化处理，凑齐K个推荐物品，完成整个新用户的Top_K物品推荐。

本发明采用引入知识图谱这一新维度的概念，维护一个现有用户的特征-关系图谱，提取新用户的注册信息，基于这些信息将新用户也加入图谱网络，去除了新用户“新”这一属性。同时在图谱网络中，引入找新用户所在定长的环这一概念，只要某些用户和新用户在同一环上，至少说明这些用户和新用户间至少存在一条或多条显式特征相同，保证了寻找领域用户结果的可靠性。同时基于不同特征设置不同权重，模拟了实际运用中某些特征可能更加能够衡量一个人的特点，最终根据总的权重值大小来进行领域用户的寻找，保证了结果的合理性，解决了传统推荐系统中冷启动的问题。