CN108804605B

CN108804605B - 一种基于层次结构的推荐方法

Info

Publication number: CN108804605B
Application number: CN201810533079.2A
Authority: CN
Inventors: 周庆; 廖凤露; 胡月; 唐银春; 杨沅; 王卫芳; 温亚梅
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2021-10-22
Anticipated expiration: 2038-05-29
Also published as: CN108804605A

Abstract

本发明公开了一种基于层次结构的推荐方法，属于信息技术领域，本发明通过提取item属性特征以及与item相关性最高的user属性特征，然后对item和user进行聚类，在类别层次学习user类别和item类别关系，构建user类别‑item类别评分矩阵R；通过计算新用户与user类别相似性，为其划分user类别；根据评分矩阵R值排序，为新用户推荐值最大的item类别。本发明先学习类别之间关系，再学习具体对象之间关系，采用层次结构思维实现项目推荐，既发掘了不同群体间对item的不同偏好，又提高了推荐算法的准确性，相较于传统基于user的协同过滤算法，该方法的准确率提高了10％左右。

Description

一种基于层次结构的推荐方法

技术领域

本发明属于信息技术领域，特别是涉及一种基于层次结构的推荐方法。

背景技术

本发明属于信息技术领域。目前使用较多的推荐方法是基于协同过滤，通过计算user-item评分矩阵，为用户推荐评分较高的item。但是该方法存在一定缺陷，首先新用户没有历史item记录，不能构造user-item评分矩阵；另外不同群体user之间对item有不同的偏好，并且item之间也存在关联关系，该方法只能为用户推荐一个具体item，不能识别不同群体user的兴趣偏好。

本发明提出一种基于层次结构的推荐方法。该方法通过提取user和item属性，分别学习user与user之间关系和item与item之间关系，构建user类别和item类别。然后构建user类别-item类别评分矩阵，学习user类别和item类别的关系。在具体实施推荐时，先计算新user所属user类别，再根据user类别-item类别评分矩阵为其推荐item。该发明可应用于各种推荐系统中，包括学生就业推荐、电影推荐、音乐推荐以及购物推荐等等。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种基于层次结构的推荐方法。

为实现上述目的，本发明提供了一种基于层次结构的推荐方法，包括以下步骤：

S1：提取item属性特征以及提取与item最相关的user属性特征，并分别构建user属性矩阵和item属性矩阵，

S2：对item和user数据进行聚类；

通过k-means聚类方法对item聚类，划分item类别；

基于user和item属性的双聚类算法对user聚类，划分user类别；

S3：在类别层次学习user类别和item类别关系，构建user类别-item类别评分矩阵R，用来表征不同user对不同item的偏好；

S4：计算新用户与user类型相似性，将其划分到与其距离最近的user类别中；

S5：为新用户推荐item类别，将其所在user类别的TOP1 item类别作为推荐项目，其中TOP1 item为对应评分值最大的item类别。

较佳的，所述步骤S2中user类别划分包括以下步骤：

S2-1：将user自身属性和item属性拼接，构造user属性矩阵UP

X为字符型特征值，m表示user数量，n表示user自身属性数量，d表示item属性数量；

S2-2：在user属性矩阵UP的基础上，计算每个用户到其他所有用户的距离和，将该距离最大的用户作为聚类的中心u_centers；

S2-3：计算user属性矩阵UP中每个用户与中心用户u_centers的距离，将其划分到与其最近的中心用户u_centers所在的类别中。

较佳的，所述步骤S2-2中通过下述方法选取聚类中心u_centers：

计算用户i和用户j之间的距离，i、j∈{1、2、…、m}；

表示用户i自身属性与用户j自身属性距离，

表示用户i在item上偏好与用户j在item上偏好的距离，用户i与用户j的距离表示为：

其中w为调整参数，用来表示用户自身属性距离

和item距离

对最终距离的影响度；

用户i与其他用户的距离和表示为：

计算出所有用户与其他用户距离和之后，选取最大距离对应的用户作为聚类的中心u_centers。

较佳的，

通过下述方法计算：

用户i的特征向量为UP_i，，用户j的特征向量为UP_j；

UP_i＝[X_i，1 X_i，2 … X_i，n … X_i，n+d]；

UP_i＝[X_j，1 X_j，2 … X_j，n … X_j，n+d]；

如果特征向量中用户自身属性特征或item属性特征是数值型数据，用户i和用户j之间的自身属性距离eucl(i，j)₁以及item属性距离eucl(i，j)₂采用欧式距离表示：

如果特征向量中用户自身属性特征或item属性特征是字符型数据，用户i和用户j之间的自身属性距离edit(i，j)₁以及item属性距离edit(i，j)₂采用编辑距离表示：

其中edit(X_i，k，X_j，k)表示字符型特征值X_i，k与X_j，k之间距离；

用

分别表示字符串X_i，k、X_j，k第l₁和l₂位的子字符串，上述两个子字符串间的距离

计算方法如下：

当特征值X_i，k的第l₁位和与X_j，k第l₂位字符相同时，t＝0，不同时t＝1；

当l₁和l₂分别迭代至X_i，k和X_j，k的子字符串最末位时终止，并将此时

值赋予edit(X_i，k，X_j，k)；

较佳的，所述步骤S3中通过下述方法学习user类型和item类型关系：

构建user类别-item类别评分矩阵R：

公式中的c和d分别表示user类别个数和item类别个数，r为评分数值；

item类别b在user类别a中的评分r_ab计算方法为：

其中a∈{1、2、…、c}，b∈{1、2、…、d}；

其中num表示与user类别a相关的所有item类别个数，count(b)_a是user类别a中item类别为b的个数。

较佳的，所述调整参数w＝0.5。

本发明的有益效果是：

本发明先学习类别之间关系，再学习具体对象之间关系，采用层次结构思维实现项目推荐；

该方法提高了推荐算法的准确率，相较于传统基于user的协同过滤算法，该方法的准确率提高了10％左右；

该方法能有效解决推荐算法中的冷启动问题，即新用户历史item数据缺失情况，对于新用户通过计算其所属类别，根据不同类别user对item的偏好实现推荐；

该方法能识别不同的user群体间对item的不同偏好，在划分user群体时既考虑了user自身属性，也兼顾了user在item层次的区别。

附图说明

图1是本发明的结构框图；

具体实施方式

下面结合实施例对本发明作进一步说明：

包括以下步骤：

S1：提取item属性特征以及提取与item最相关的user属性特征，并分别构建user属性矩阵和item属性矩阵；

S2：对item和user数据进行聚类；

通过k-means聚类方法对item聚类，划分item类别；

基于user和item属性的双聚类算法对user聚类，划分user类别；

所述步骤S2中user类别划分包括以下步骤：

S2-1：将user自身属性和item属性拼接，构造user属性矩阵UP

所述步骤S2-2中通过下述方法选取聚类中心u_centers：

计算用户i和用户j之间的距离，i、j∈{1、2、…、m}；

表示用户i自身属性与用户j自身属性距离，

其中w为调整参数，用来表示用户自身属性距离

和item距离

对最终距离的影响度；本实施例中调整参数w的取值可参数寻优到最优值，默认w＝0.5；

用户i与其他用户的距离和表示为：

其中

通过下述方法计算：

用户i的特征向量为UP_i，，用户j的特征向量为UP_j；

UP_i＝[X_i，1 X_i，2 … X_i，n … X_i，n+d]；

UP_j＝[X_j，1 X_j，2 … X_j，n … X_j，n+d]；

用

计算方法如下：

值赋予edit(X_i，k，X_j，k)；

S2-3：通过上述方法计算user属性矩阵UP中每个用户与中心用户u_centers的距离，将其划分到与其最近的中心用户u_centers所在的类别中。

所述步骤S3中通过下述方法学习user类型和item类型关系：

构建user类别-item类别评分矩阵R：

item类别b在user类别a中的评分r_ab计算方法为：

其中a∈{1、2、…、c}，b∈{1、2、…、d}；

所述步骤S2中user类别划分包括以下步骤：

S2-1：将user自身属性和item属性拼接，构造user属性矩阵UP

S2-2：在user属性矩阵UP的基础上，计算距离每个用户到其他用户的距离，划分出聚类的中心用户u_centers；

S2-3：计算user属性矩阵UP中中每个用户与中心用户u_centers的距离，将其划分到与其最近的中心用户u_centers所在的类别中。

所述步骤S2-3中通过下述方法计算用户与中心用户之间的距离：

计算用户i和中心用户j之间的距离，i、j∈{1、2、…、m}；

用户i的特征向量UP_i，，用户j的特征向量UP_j；

UP_i＝[X_i，1 X_i，2 … X_i，n … X_i，n+d]；

UP_j＝[X_j，1 X_j，2 … X_j，n … X_j，n+d]；

如果特征向量是数值型数据，用户i和中心用户j之间的距离采用欧式距离eucl(i，j)表示：

若果特征向量是字符型数据，用户i和中心用户j之间的距离采用编辑距离edit(i，j)表示：

用

计算方法如下：

值赋予edit(X_i，k，X_j，k)；

如果特征向量是部分数据是数值型，部分是字符型，相似性计算方法为：

dis(i，j)＝w*eucl(i，j)+(1-w)*edit(i，j)，其中w为调整参数，用来表示欧式距离eucl(i，j)和编辑距离edit(i，j)对最终相似性的影响度，本实施例中调整参数w的取值可参数寻优到最优值，默认w＝0.5。

所述步骤S3中通过下述方法学习user类型和item类型关系：

构建user类别-item类别评分矩阵R：

item类别b在user类别a中的评分r_ab计算方法为：

其中a∈{1、2、…、c}，b∈{1、2、…、d}；

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于层次结构的推荐方法，其特征在于：

包括以下步骤：

S2：对item和user数据进行聚类；

通过k-means聚类方法对item聚类，划分item类别；

基于user和item属性的双聚类算法对user聚类，划分user类别；

S4：计算新用户与user类别相似性，将其划分到与其距离最近的user类别中；

S5：为新用户推荐item类别，将其所在user类别的TOP1item类别作为推荐项目，其中TOP1item为对应评分值最大的item类别；

所述步骤S2中user类别划分包括以下步骤：

S2-1：将user自身属性和item属性拼接，构造user属性矩阵UP

S2-2：在user属性矩阵UP的基础上，计算每个用户到其他所有用户的距离和，将所述距离和最大的用户作为聚类的中心u_centers；

S2-3：计算user属性矩阵UP中每个用户与中心用户u_centers的距离，将其划分到与其最近的中心用户u_centers所在的类别中；

所述步骤S3中通过下述方法学习user类别和item类别关系：

构建user类别-item类别评分矩阵R：

item类别b在user类别a中的评分ra,b计算方法为：

其中a∈{1、2、…、c}，b∈{1、2、…、d}；

其中num表示与user类别a相关的所有item类别个数，count(b)a是user类别a中item类别为b的个数。

2.基于权利要求1所述的一种基于层次结构的推荐方法，其特征在于：

所述步骤S2-2中通过下述方法选取聚类中心u_centers：

计算用户i和用户j之间的距离，i、j∈{1、2、…、m}；

表示用户i自身属性与用户j自身属性距离，

其中w为调整参数，用来表示用户自身属性距离

和item距离

对最终距离的影响度；

用户i与其他用户的距离和表示为：

3.基于权利要求2所述的一种基于层次结构的推荐方法，其特征在于：

通过下述方法计算：

用户i的特征向量为UP_i，用户j的特征向量为UP_j；

UP_i＝[X_i,1 X_i,2…X_i,n…X_i,n+d]；

UP_j＝[X_j,1 X_j,2…X_j,n…X_j,n+d]；

其中edit(X_i,k,X_j,k)表示字符型特征值X_i,k与X_j,k之间距离；

用

分别表示字符串X_i,k、X_j,k第l1和l2位的子字符串，将所述子字符串

和所述子字符串

间的距离

计算方法如下：

当特征值X_i,k的第l1位和与X_j,k第l2位字符相同时，t＝0，不同时t＝1；

当l1和l2分别迭代至X_i,k和X_j,k的子字符串最末位时终止，并将此时

值赋予edit(X_i,k,X_j,k)；

4.基于权利要求2所述的一种基于层次结构的推荐方法，其特征在于：

所述调整参数w＝0.5。