CN109446185B

CN109446185B - 基于用户聚类的协同过滤缺失数据处理方法

Info

Publication number: CN109446185B
Application number: CN201810996476.3A
Authority: CN
Inventors: 邓建新; 单路宝; 唐锐; 贺德强; 李承宸; 张海平
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2021-07-13
Anticipated expiration: 2038-08-29
Also published as: CN109446185A

Abstract

本发明公开了基于用户聚类的协同过滤缺失数据处理方法，属于数据处理领域，将有相同属性的多维有缺失的数据集组成的样本形成矩阵，矩阵的行代表数据样本，列代表数据维度，基于用户的协同过滤的基本思想，通过计算样本相对于所有项目的相似度，找到K个相似样本邻居，然后计算K个邻居的相关系数，根据相关系数选择最相似样本的未缺失的项目值作为有缺失数据样本的插补值，填充对应缺失数据的样本的项目值即可。该方法过程较简单，通过将相近样本的非缺失值作为插补值，实现缺失数据的插补，既综合利用了同维度数据样本之间的关系，保证了数据的原有特征，同时又保证数据样本的数量，避免了删除法导致数据量的减少，插补效果相对较好。

Description

基于用户聚类的协同过滤缺失数据处理方法

技术领域

本发明涉及数据处理领域，尤其涉及基于用户聚类的协同过滤缺失数据处理方法。

背景技术

随着信息处理技术的不断发展，各行各业已建立了很多的计算机信息系统，也积累了大量的数据。尤其是随着大数据技术的发展，对数据的收集和应用成为热点，建立数据驱动方面的应用成为趋势，如建立数据驱动的设计，数据驱动的销售等。数据将是与自然资源一样重要的战略资源。但数据质量很大程度影响数据的应用和价值，数据质量不高会导致数据不能有效的被利用，甚至破坏相关信息系统的可使用性。其中，数据残缺不全，存在数据缺失现象是较为普遍的数据质量问题。

传统的缺失数据处理方法有加权法、删除法、插补法。加权法是通过某种方式把缺失单元的权数分解到非缺失单元上，以此来降低数据缺失对整体数据的影响，虽然过程简单，但结果偏差很大。删除法是直接把缺失数据去掉，会导致数据样本丢失，因此只能针对缺失比例在5％以下，且缺失机制为完全随机缺失的缺失数据。插补法又分为统计学插补法和机器学习插补法，其中统计学插补法有包含单一插补法和多重插补法。单一插补法主要有均值插补、回归插补、最近邻插补、热卡插补、冷卡插补以及EM插补，其中除了EM插补法，其它的单一插补法过程都比较简单，但插补效果很差，而EM插补法因为运用了迭代收敛方法，导致该方法相对较复杂，但插补效果比其他单一插补法要好。多重插补法主要有倾向的分法、回归预测法以及马尔科夫链蒙特卡罗法，相对于单一插补来说，多重插补法插补效果要更好，但过程很复杂，且不能得到最终的插补结果，只能得到最终的参数估计。机器学习插补法主要有自组织映射插补和支持向量机插补，该方法适合任意缺失模式、各种分布类型的缺失数据，但过程更加复杂。

综上可知，现有缺失数据处理方法要么过程简单，插补效果差，甚至导致数据样本量的减少；要么插补效果好，但过程过于复杂，不便于应用。为此，提出了基于用户聚类的协同过滤缺失数据插补方法。

发明内容

为解决背景技术中提到的问题，本发明提供基于用户聚类的协同过滤缺失数据处理方法。该方法过程较简单，通过将相近样本的非缺失值作为插补值，实现缺失数据的插补，既综合利用了同维度数据样本之间的关系，保证了数据的原有特征，同时又保证数据样本的数量，避免了删除法导致数据量的减少，插补效果相对较好。而且数据的维数越高，数据的样本越多，该方法的处理效果越好。同时，该方法也可以直接作为预测方法。为数据质量优化和数据预处理提供了一种新方法，在数据驱动服务应用、大数据领域的数据预处理和基于相似原理的预测应用、电子商务的协同推荐等方面都有市场前景。

基于用户聚类的协同过滤缺失数据处理方法，所述方法包括如下步骤：

步骤1：将有相同属性的多维有缺失的数据集组成的样本s_i(i＝1,2,…,m)形成矩阵S(m,n)，其中n代表列数即数据维度(变量)，m代表数据样本；

步骤2：将S(m,n)中所有不含有缺失值的数据样本

分为一组，组成完整数据矩阵，记为C(p,n)，含有缺失值的数据样本

分成一组，组成不完整数据矩阵，记为

p+q＝m,i＝1,2,…,p，j＝1,2,…,q；

步骤3：对完整数据矩阵C(p,n)通过k-means聚类算法进行聚类，得到k个聚类中心

组成的矩阵K(k,n)和k个聚类结果矩阵，其中k表示聚类数目；

步骤4：把

中每个数据样本

中的缺失值所在列去掉，得到完整数据样本E，去掉聚类中心矩阵K(k,n)中与数据样本

缺失值相同列的数据得到新的聚类中心矩阵F，完整数据样本E与新的聚类中心矩阵F最近的聚类中心即为数据样本

相近的类；

步骤5：在每一类中，分别计算该类中每个含有缺失值的数据样本

去掉缺失值所在列与该类中去掉相同列的不含有缺失值的数据样本的皮尔逊相关系数ρ_G,H；

步骤6：对数据样本

的缺失数据进行填补，对数据样本

中缺失的变量x_b填补入插补值

完成数据处理。

进一步地，所述步骤3中的k-means聚类算法的具体过程为：

步骤3.1：输入聚类数目k和完整数据矩阵C(p,n)；

步骤3.2：从C(p,n)中随机选取k个数据样本作为聚类中心；

步骤3.3：把每个样本分配到离聚类中心距离最近的类中；

步骤3.4：计算每个类的平均值，得到k个平均值，将k个平均值作为下次聚类的k个聚类中心；

步骤3.5：重复步骤3.3和步骤3.4，直到k个平均值不再改变为止；

步骤3.6：输出最终的k个聚类中心

组成的矩阵K(k,n)和k个聚类结果矩阵。

进一步地，所述步骤3.3中的聚类中心距离为欧氏距离。

进一步地，所述步骤3.4中每个类的平均值为个类中所有数据样本(即行向量)之和除以该类中数据样本数目。

进一步地，所述步骤5中皮尔逊相关系数ρ_G,H的具体过程为：

使用以下计算公式：

定义G＝(g₁,g₂,…,g_n),H＝(h₁,h₂,…,h_n),n≥3，则：

其中

其中，n≥3，原始数据样本(即行向量)的维数不能低于4维，皮尔逊相关系数的绝对值越大，相关性越强，

0.8≤ρ_G,H≤1.0极强相关

0.6≤ρ_G,H＜0.8强相关

0.4≤ρ_G,H＜0.6中等强度相关

0.2≤ρ_G,H＜0.4弱相关

根据计算得出的皮尔逊相关系数的绝对值的大小，选择相关系数ρ_G,H≥0.8的u个样本作为目标样本的最近邻居，组成最近领居集N。

进一步地，所述步骤6中插补值

的具体计算过程为：

式中ρ_jv表示目标样本

与最近邻居v之间的皮尔逊相关系数，

表示样本v所对应的变量x_b的值。

进一步地，所述步骤4中的具体过程为：

步骤4.1：确定数据样本

中缺失值所在的列号b＝(b₁,b₂....b_r)(r≤n-3)；

步骤4.2：去掉b列，得到完整数据样本E＝(E₁,E₂....E_t)(t≥3)；

步骤4.3：聚类中心矩阵K(k,n)去掉b列，得到新的聚类中心矩阵F＝(f₁,f₂....f_t)^T(t≥3)；

步骤4.4：计算完整数据样本E中每个样本与新的聚类中心矩阵F的欧式距离；

步骤4.5：选取欧式距离最小所对应的聚类中心为数据样本

相近的类。

本发明采用了上述技术方案，本发明具有以下技术效果：

本发明的方法过程较简单，插补的效果非常好，能够准确的对缺失数据进行插补，通过将相近样本的非缺失值作为插补值，实现缺失数据的插补，既综合利用了同维度数据样本之间的关系，保证了数据的原有特征，同时又保证数据样本的数量，避免了删除法导致数据量的减少，插补效果相对较好；而且数据的维数越高，数据的样本越多，该方法的处理效果越好；同时，该方法也可以直接作为预测方法。为数据质量优化和数据预处理提供了一种新方法，在数据驱动服务应用、大数据领域的数据预处理和基于相似原理的预测应用、电子商务的协同推荐等方面都有市场前景。

附图说明

图1是本发明的流程图。

图2是本发明的计算数据样本

相近的类。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举出优选实施例，对本发明进一步详细说明。然而，需要说明的是，说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解，即便没有这些特定的细节也可以实现本发明的这些方面。

如图1所示，根据本发明的基于用户聚类的协同过滤缺失数据处理方法结构示意图，所述方法包括如下步骤：

步骤1：将有相同属性的多维有缺失的数据集组成的样本s_i(i＝1,2,…,m)形成矩阵S(m,n)，其中n代表列数即数据维度(变量)，m代表数据样本。如表1所示。数据矩阵的每一行组成一个行向量，称为一个数据样本

表1有相同属性的多维有缺失数据构成的数据样本矩阵

步骤2：将S(m,n)中所有不含有缺失值的数据样本

分为一组(如表1中的第1行)，组成完整数据矩阵，记为C(p,n)，含有缺失值的数据样本

分成一组(如表1中的第2行)，组成不完整数据矩阵，记为

p+q＝m,i＝1,2,…,p，j＝1,2,…,q。

组成的矩阵K(k,n)和k个聚类结果矩阵，其中k表示聚类数目。

k-means聚类算法的具体过程为：

步骤3.1：输入聚类数目k和完整数据矩阵C(p,n)。

步骤3.2：从C(p,n)中随机选取k个数据样本作为聚类中心。

步骤3.3：把每个样本分配到离聚类中心距离最近的类中，聚类中心距离为欧氏距离。

步骤3.4：计算每个类的平均值，得到k个平均值，将k个平均值作为下次聚类的k个聚类中心。每个类的平均值为个类中所有数据样本(即行向量)之和除以该类中数据样本数目。

步骤3.5：重复步骤3.3和步骤3.4，直到k个平均值不再改变为止。

步骤3.6：输出最终的k个聚类中心

组成的矩阵K(k,n)和k个聚类结果矩阵。

步骤4：把

中每个数据样本

相近的类。分别计算

中每个数据样本

去掉缺失值所在列与去掉相同列的聚类中心矩阵K(k,n)中每个聚类中心之间的欧式距离，选取欧式距离最小所对应的聚类中心即为该缺失数据样本

相近的类。

具体过程如图2所示：

步骤4.1：确定数据样本

中缺失值所在的列号b＝(b₁,b₂....b_r)(r≤n-3)；

步骤4.4：计算完整数据样本中每个样本与新的聚类中心矩阵的欧式距离；

步骤4.5：选取欧式距离最小所对应的聚类中心为数据样本

相近的类。

去掉缺失值所在列与该类中去掉相同列的不含有缺失值的数据样本的皮尔逊相关系数ρ_G,H。

皮尔逊相关系数ρ_G,H的具体过程为：

使用以下计算公式：

定义G＝(g₁,g₂,…,g_n),H＝(h₁,h₂,…,h_n),n≥3，则：

其中

0.8≤ρ_G,H≤1.0极强相关

0.6≤ρ_G,H＜0.8强相关

0.4≤ρ_G,H＜0.6中等强度相关

0.2≤ρ_G,H＜0.4弱相关

步骤6：对数据样本

的缺失数据进行填补，对数据样本

中缺失的变量x_b填补入插补值

完成数据处理。

插补值

的具体计算过程为：

式中ρ_jv表示目标样本

与最近邻居v之间的皮尔逊相关系数，

表示样本v所对应的变量x_b的值。

本发明将有相同属性的多维有缺失的数据集组成的样本形成矩阵，矩阵的行代表数据样本，列代表数据维度(变量)，基于用户的协同过滤(Collaborative Filtering)的基本思想，将每行的样本视为“用户(User)”，每列的变量视为协同过滤中的“项目(Item)”。通过计算样本相对于所有项目的的相似度(即邻居用户的相似度)，找到K个相似样本邻居，然后计算K个邻居的相关系数，根据相关系数选择最相似样本的未缺失的项目值作为有缺失数据样本的插补值，填充对应缺失数据的样本的项目值即可。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。