CN109446422A

CN109446422A - 一种基于离群用户过滤的服务推荐方法

Info

Publication number: CN109446422A
Application number: CN201811240451.7A
Authority: CN
Inventors: 常志远; 吴浩; 周寅莹; 张涵钰; 何鹏
Original assignee: Hubei University
Current assignee: Hubei University
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2019-03-08
Anticipated expiration: 2038-10-24
Also published as: CN109446422B

Abstract

本发明公开了一种基于离群用户过滤的服务推荐方法，首先获取Grouplens平台提供的两个具有代表性的数据集Last.FM和Delicious中的用户‑服务‑标签信息，针对每个服务，对所有关注(表现为对服务进行了标签标注)过它的用户进行聚类，并将聚类后规模最小的分组中的用户视为候选不可信用户；然后基于用户被标记为候选不可信次数再对用户进行第二次聚类，从而将候选不可信次数偏多的分组中用户视为最终的不可信用户集；最后集中在可信用户集中为目标用户推荐top‑k个相似用户，并按照相似用户的偏好进行服务推荐。本发明能以较高的推荐精度实现服务推荐，改善了不可信用户对推荐结果造成误导的问题。

Description

一种基于离群用户过滤的服务推荐方法

技术领域

本发明属于计算机技术领域，涉及一种智能服务计算领域的服务推荐方法，具体涉及一种基于两阶段k-means聚类与协同过滤推荐方法。

背景技术

互联网的快速发展促使web服务的数量与日俱增，使得用户在选择实际所需的服务过程中越来越复杂。推荐系统可有效地帮助用户处理信息负载问题，从而快速找到适合自己的服务，甚至可以根据用户的特点，提供个性化推荐服务。典型的服务推荐应用有商品推荐、电影推荐、图书推荐等等。

协同过滤是服务推荐中常用的有效方法之一，主要根据相似用户或服务的历史数据进行相关推荐。在整个推荐过程中，用户或服务历史数据的质量对推荐精准的影响至关重要。然而，现实中很多业余用户或恶意用户提供的数据并不具有代表性、甚至为虚假数据，如果建模过程中引入这部分用户的数据，毫无疑问推荐结果会对用户造成误导。

发明内容

本发明主要是针对用户在给服务标记标签过程中，表现出行为异常、标签不相关等不可信性问题，为保证服务推荐过程中用户数据的质量，从聚类的角度，利用两阶段无监督的K-means算法，提出一种基于离群用户过滤的服务推荐方法，从而提高服务推荐的质量。

本发明所采用的技术方案是：一种基于离群用户过滤的服务推荐方法，首先通过两阶段的K-means聚类筛选出标签标记行为异常的用户集；然后再基于剩下用户集为目标用户进行服务协同推荐。

A.两阶段K-means聚类，包括以下子步骤：

步骤A1，针对每个服务，对所有关注过它的用户根据标签集进行K-means聚类。考虑到用户的标签集中，不同标签在代表用户兴趣的权重上存在差异，即一个用户在标记不同服务时重复使用某一个标签，则该标签在代表此用户的兴趣方向时权重更高。利用经典的TF-IDF(Term Frequency–Inverse Document Frequency)方法,构建每个用户的标签向量。

其中，f_ui为用户u使用标签i的次数，#user为用户总数，#user_i为使用了标签i的用户数；tf_ui表示用户u在标签i上的词频，idf_i表示标签i的逆文本频率指数，∑_kf_uk表示用户u在所有标签上使用次数累计和，k表示标签数；

考虑用户使用的标签有限，因此，f_ui可能为0，因此，我们对数据进行对数处理，即用户u在标签i上的权重值w_ui的表达式为：

因此，用户u的标签向量为L(u)＝(w_u1,w_u2,…,w_un)，n为标签集的大小。

步骤A2，根据得到的用户标签向量，利用K-means算法对用户进行聚类，K-means算法以欧式距离作为相似度计算方法，用户u到聚类中心z的距离如下公式：

其中，w_zi表示聚类中心z的向量的第i维的权重；

聚类后，服务s上K个分组的大小会有所差异，使用表示服务s上第k个分组(1≤k≤K₁)，为了区别第二阶段K-means算法的K值，我们分别用K₁和K₂区分。将规模最小的分组中的用户标记为该服务上的候选离群用户公式如下所示：

在上述对每个服务的关注用户聚类之前，需要初始化矩阵A_m×n和矩阵B_m×m，分别用于记录该阶段聚类后每个服务上不可信候选用户情况和两个用户被聚类到同一个分组的次数情况。换而言之，如果用户u在服务s上聚类后被标记为不可信候选用户，则可表示a_u,s＝1；如果用户u和用户v在4个不同的服务上都被聚类在同一个分组中，则可表示为b_u,v＝4。

步骤A3，通过对每个服务上的用户聚类，可最终得到每个用户被标记为候选离群用户的次数，即CETimes_u为用户u的离群次数，表示如下：

步骤A4，通过对A3中用户u的CETimes_u值，再次采用K-means方法进行用户聚类，在得到的K₂个分组中，K₂表示第二阶段K-means算法的K值；将分组中用户平均CETimes值最大的分组标记为离群用户组，标记为Outlier_group，其他分组的用户为正常大众用户组，标记为Normal_group；

再结合矩阵B中记录的两个用户被聚类到同一个分组的次数，去除Normal_group中与用户u(u∈Outlier_group)的b_u,v≥ρ(ρ＝4)的用户v(v∈Normal_group)，得到最终的用户集Final_Users。(ρ的取值需根据实际情况而定，在本次的两个数据集中，该参数取值为4)

Final_Users＝{u|u∈Normal_group,v∈Outlier_group,b_u,v<ρ}

B.基于正常大众用户的服务推荐，包括以下步骤；

步骤B1，对于给定的目标用户u，从矩阵B中获取与用户u的b值不低于第k个值的所有可信用户，组成SimUser_u，其中为用户u与所有其他用户的b_u值按从大到小排序后的第k个值，即为目标用户返回Top-k个最相似的可信用户。

步骤B2，根如果用户u对服务s做了标注，则表示用户u关注了服务s，即q_u,s＝1。对于用户u未关注的服务s'，可根据用户u的可信用户u′(u′∈SimUser_u)对服务s′的关注情况，计算用户在该服务上的关注概率P_u,s′。当P_u,s′大于等于阈值θ(θ＝0.5)时，则q_u,s′＝1，即将服务s'推荐给用户u。(θ的取值应不小于0.5，在本次的两个数据集中，该参数取值为0.5)

其中，SimUser_u表示用户u的相似用户,q_u′s′表示用户u′对服务s′的关注情况

本发明具有如下优点：

(1)直接通过无监督的聚类方法，过滤数据中异常用户信息带来的干扰，提高服务推荐质量，确保用户的服务体验；

(2)相比已有方法，本文所提方法在两个数据集上的推荐精度可分别提高6.8％和13.4％。

附图说明

图1是本发明实施例方法的主要框架示意图；

图2是本发明实施例中基于用户标签向量的聚类示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于离群用户过滤的服务推荐方法，首先通过两阶段的K-means聚类筛选出标签标记行为异常的用户集；然后再基于剩下用户集为目标用户进行服务协同推荐。

表1为一个具有5个用户和4个服务的样例数据集，l_i,j为用户在服务i上标注的第j个标签，对应的关注矩阵如表2所示。值得注意的是，现实中不是所有的用户都会关注某个服务，而且同一个服务上两个用户也可以标注相同的标签。例如，用户u4和u5没有关注服务s1，而用户u2和u4在服务s2上拥有相同的标签集{l₂₂,l₂₃}。

表1一个简单的样例数据

表2用户-服务关注矩阵M

关注矩阵M_5×4

A.两阶段K-means聚类，包括以下子步骤，

步骤A1，采用对数处理后的TF-IDF方法，得到用户u在标签i上的权值w_i，基于表1的数据样例，对用户u₁:

标签-l₁₁:

标签-l₂₁:

标签-l₃₁:

标签-l₃₂:

标签-l₄₁:

标签-l₄₅:

因此L(u₁)＝(0.1197,0.2103,0.1197,0.0670,0.1197,0.2103,0,…,0)，其他用户的标签向量计算方式类似，这里不一一列举。

步骤A2，基于用户标签向量聚类。得到每个用户的标签向量L后，利用K-means算法对用户进行聚类。

根据前述方法，若取K₁＝2时，对4个服务上的用户进行K-means聚类，结果如图2所示。每个服务上的用户被划分为2个分组，规模最小的分组被标记为服务s1上分组包含用户u1和u2，分组只包含u3一个用户，所以用户u3将被记为服务s1上的候选离群用户矩阵A中对应的a_2,0＝1。类似地，其他三个服务的最小聚类分组分别为：另外，根据两个用户在聚类过程中被聚到同一分组，则存在一次b_i,j增加1，最终更新后的矩阵A,B如表3所示。因用户u2和用户u3在服务s2和服务s3上都划分在同一分组，所以b_1,2和b_2,1的值为2。

表3更新后的矩阵A和B

步骤A3，基于用户CETimes指标聚类。根据矩阵A,可得到5个用户的CETimes值

其中u₁，u₄和u₅的CETimes值均为2，聚为一组，另外u₂和u₃为一组。因为前组的CETimes值比后组达，所以，被标记为离群用户组。另外，根据矩阵B中用户之间的b值均小于4，所以，u₁，u₄和u₅将作为离群点在用户集中被去除。

B.基于可信用户的服务推荐，包括以下步骤：

步骤B1，对于给定的目标用户u₃，从矩阵B中获取与用户u₃的b值不低于第5个值的所有可信用户，组成

步骤B2，对于用户u₃未关注的服务s₄，可根据用户u₃的可信用户对服务s₄的关注情况，计算用户在该服务上的关注概率

因为大于等于阈值θ(θ＝0.5)，则即将服务s₄推荐给用户u₃。

根据Grouplens平台提供的实验数据：Last.FM和Delicious。Last.FM数据集包含用户1,892个，服务(音乐)17,632个，标签11,946个；Delicious数据集包含用户1,867个，服务(书)104,799个，标签53,388个。本发明所提方法在使用过程中，第一阶段聚类K₁取值6或7，为目标用户推荐最相似的前4或5个用户，以及关注概率阈值取值为[0.5,07]时，推荐效果整体上会更好。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于离群用户过滤的服务推荐方法，其特征在于，包括以下步骤：

步骤1：两阶段K-means聚类；

步骤1.1：针对每个服务，对所有关注过它的用户根据标签集进行K-means聚类，构建每个用户的标签向量；

对数据进行对数处理，设定用户u在标签i上的权重值w_ui为：

因此，用户u的标签向量为L(u)＝(w_u1，w_u2，…，w_un)，n为标签集的大小；

步骤1.2：根据得到的用户标签向量，利用K-means算法对用户进行聚类，用户u到聚类中心z的距离如下公式：

其中，w_zi表示聚类中心z的向量的第i维的权重；

聚类后，服务s上K个分组的大小会有所差异，使用表示服务s上第k个分组，1≤k≤K₁，K₁表示第一阶段K-means算法的K值；将规模最小的分组中的用户标记为该服务上的候选离群用户

在上述对每个服务的关注用户聚类之前，需要初始化矩阵A_m×n和矩阵B_m×m，分别用于记录该阶段聚类后每个服务上不可信候选用户情况和两个用户被聚类到同一个分组的次数情况；换而言之，如果用户u在服务s上聚类后被标记为不可信候选用户，则表示为a_u，s＝1；如果用户u和用户v在4个不同的服务上都被聚类在同一个分组中，则表示为b_u，v＝4；

步骤1.3：通过对每个服务上的用户聚类，最终得到每个用户被标记为候选离群用户的次数，即CETimes_u为用户u的离群次数，表示如下：

步骤1.4：通过步骤1.3中得到的每个用户u的CETimes_u值，再次采用K-means方法进行用户聚类，在得到的K₂个分组中，K₂表示第二阶段K-means算法的K值；将分组中用户平均CETimes值最大的分组标记为离群用户组，标记为Outlier_group，其他分组的用户为正常大众用户组，标记为Normal_group；

再结合矩阵B中记录的两个用户被聚类到同一个分组的次数，去除Normal_group中与用户u的b_u，v≥ρ的用户v，得到最终的用户集Final_Users；其中，u∈Outlier_group，v∈Normal_group；

Final_Users＝{u|u∈Normal_group，v∈Outlier_group，b_u，v＜ρ}；

步骤2：基于正常大众用户的服务推荐；

步骤2.1：对于给定的目标用户u，从矩阵B中获取与用户u的b值不低于第k个值的所有可信用户，组成SimUser_u，其中为用户u与所有其他用户的b_u值按从大到小排序后的第k个值，即为目标用户返回Top-k个最相似的可信用户；

步骤2.2：根如果用户u对服务s做了标注，则表示用户u关注了服务s，即q_u，s＝1；对于用户u未关注的服务s′，根据用户u的可信用户u′对服务s′的关注情况，计算用户在该服务上的关注概率P_u，s′；当P_u，s′大于等于阈值θ时，则q_u，s′＝1，即将服务s′推荐给用户u；其中，u′∈SimUser_u；

其中，SimUser_u表示用户u的相似用户，q_u′s′表示用户u′对服务s′的关注情况。

2.根据权利要求1所述的基于离群用户过滤的服务推荐方法，其特征在于：步骤1.1中利用经典的TF-IDF方法，并对TF部分进行数据处理，构建每个用户的标签向量。