CN109446185B - 基于用户聚类的协同过滤缺失数据处理方法 - Google Patents
基于用户聚类的协同过滤缺失数据处理方法 Download PDFInfo
- Publication number
- CN109446185B CN109446185B CN201810996476.3A CN201810996476A CN109446185B CN 109446185 B CN109446185 B CN 109446185B CN 201810996476 A CN201810996476 A CN 201810996476A CN 109446185 B CN109446185 B CN 109446185B
- Authority
- CN
- China
- Prior art keywords
- data
- clustering
- missing
- sample
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Abstract
本发明公开了基于用户聚类的协同过滤缺失数据处理方法,属于数据处理领域,将有相同属性的多维有缺失的数据集组成的样本形成矩阵,矩阵的行代表数据样本,列代表数据维度,基于用户的协同过滤的基本思想,通过计算样本相对于所有项目的相似度,找到K个相似样本邻居,然后计算K个邻居的相关系数,根据相关系数选择最相似样本的未缺失的项目值作为有缺失数据样本的插补值,填充对应缺失数据的样本的项目值即可。该方法过程较简单,通过将相近样本的非缺失值作为插补值,实现缺失数据的插补,既综合利用了同维度数据样本之间的关系,保证了数据的原有特征,同时又保证数据样本的数量,避免了删除法导致数据量的减少,插补效果相对较好。
Description
技术领域
本发明涉及数据处理领域,尤其涉及基于用户聚类的协同过滤缺失数据处理方法。
背景技术
随着信息处理技术的不断发展,各行各业已建立了很多的计算机信息系统,也积累了大量的数据。尤其是随着大数据技术的发展,对数据的收集和应用成为热点,建立数据驱动方面的应用成为趋势,如建立数据驱动的设计,数据驱动的销售等。数据将是与自然资源一样重要的战略资源。但数据质量很大程度影响数据的应用和价值,数据质量不高会导致数据不能有效的被利用,甚至破坏相关信息系统的可使用性。其中,数据残缺不全,存在数据缺失现象是较为普遍的数据质量问题。
传统的缺失数据处理方法有加权法、删除法、插补法。加权法是通过某种方式把缺失单元的权数分解到非缺失单元上,以此来降低数据缺失对整体数据的影响,虽然过程简单,但结果偏差很大。删除法是直接把缺失数据去掉,会导致数据样本丢失,因此只能针对缺失比例在5%以下,且缺失机制为完全随机缺失的缺失数据。插补法又分为统计学插补法和机器学习插补法,其中统计学插补法有包含单一插补法和多重插补法。单一插补法主要有均值插补、回归插补、最近邻插补、热卡插补、冷卡插补以及EM插补,其中除了EM插补法,其它的单一插补法过程都比较简单,但插补效果很差,而EM插补法因为运用了迭代收敛方法,导致该方法相对较复杂,但插补效果比其他单一插补法要好。多重插补法主要有倾向的分法、回归预测法以及马尔科夫链蒙特卡罗法,相对于单一插补来说,多重插补法插补效果要更好,但过程很复杂,且不能得到最终的插补结果,只能得到最终的参数估计。机器学习插补法主要有自组织映射插补和支持向量机插补,该方法适合任意缺失模式、各种分布类型的缺失数据,但过程更加复杂。
综上可知,现有缺失数据处理方法要么过程简单,插补效果差,甚至导致数据样本量的减少;要么插补效果好,但过程过于复杂,不便于应用。为此,提出了基于用户聚类的协同过滤缺失数据插补方法。
发明内容
为解决背景技术中提到的问题,本发明提供基于用户聚类的协同过滤缺失数据处理方法。该方法过程较简单,通过将相近样本的非缺失值作为插补值,实现缺失数据的插补,既综合利用了同维度数据样本之间的关系,保证了数据的原有特征,同时又保证数据样本的数量,避免了删除法导致数据量的减少,插补效果相对较好。而且数据的维数越高,数据的样本越多,该方法的处理效果越好。同时,该方法也可以直接作为预测方法。为数据质量优化和数据预处理提供了一种新方法,在数据驱动服务应用、大数据领域的数据预处理和基于相似原理的预测应用、电子商务的协同推荐等方面都有市场前景。
基于用户聚类的协同过滤缺失数据处理方法,所述方法包括如下步骤:
步骤1:将有相同属性的多维有缺失的数据集组成的样本si(i=1,2,…,m)形成矩阵S(m,n),其中n代表列数即数据维度(变量),m代表数据样本;
步骤2:将S(m,n)中所有不含有缺失值的数据样本分为一组,组成完整数据矩阵,记为C(p,n),含有缺失值的数据样本分成一组,组成不完整数据矩阵,记为p+q=m,i=1,2,…,p,j=1,2,…,q;
步骤4:把中每个数据样本中的缺失值所在列去掉,得到完整数据样本E,去掉聚类中心矩阵K(k,n)中与数据样本缺失值相同列的数据得到新的聚类中心矩阵F,完整数据样本E与新的聚类中心矩阵F最近的聚类中心即为数据样本相近的类;
进一步地,所述步骤3中的k-means聚类算法的具体过程为:
步骤3.1:输入聚类数目k和完整数据矩阵C(p,n);
步骤3.2:从C(p,n)中随机选取k个数据样本作为聚类中心;
步骤3.3:把每个样本分配到离聚类中心距离最近的类中;
步骤3.4:计算每个类的平均值,得到k个平均值,将k个平均值作为下次聚类的k个聚类中心;
步骤3.5:重复步骤3.3和步骤3.4,直到k个平均值不再改变为止;
进一步地,所述步骤3.3中的聚类中心距离为欧氏距离。
进一步地,所述步骤3.4中每个类的平均值为个类中所有数据样本(即行向量)之和除以该类中数据样本数目。
进一步地,所述步骤5中皮尔逊相关系数ρG,H的具体过程为:
使用以下计算公式:
定义G=(g1,g2,…,gn),H=(h1,h2,…,hn),n≥3,则:
其中,n≥3,原始数据样本(即行向量)的维数不能低于4维,皮尔逊相关系数的绝对值越大,相关性越强,
0.8≤ρG,H≤1.0极强相关
0.6≤ρG,H<0.8强相关
0.4≤ρG,H<0.6中等强度相关
0.2≤ρG,H<0.4弱相关
根据计算得出的皮尔逊相关系数的绝对值的大小,选择相关系数ρG,H≥0.8的u个样本作为目标样本的最近邻居,组成最近领居集N。
进一步地,所述步骤4中的具体过程为:
步骤4.2:去掉b列,得到完整数据样本E=(E1,E2....Et)(t≥3);
步骤4.3:聚类中心矩阵K(k,n)去掉b列,得到新的聚类中心矩阵F=(f1,f2....ft)T(t≥3);
步骤4.4:计算完整数据样本E中每个样本与新的聚类中心矩阵F的欧式距离;
本发明采用了上述技术方案,本发明具有以下技术效果:
本发明的方法过程较简单,插补的效果非常好,能够准确的对缺失数据进行插补,通过将相近样本的非缺失值作为插补值,实现缺失数据的插补,既综合利用了同维度数据样本之间的关系,保证了数据的原有特征,同时又保证数据样本的数量,避免了删除法导致数据量的减少,插补效果相对较好;而且数据的维数越高,数据的样本越多,该方法的处理效果越好;同时,该方法也可以直接作为预测方法。为数据质量优化和数据预处理提供了一种新方法,在数据驱动服务应用、大数据领域的数据预处理和基于相似原理的预测应用、电子商务的协同推荐等方面都有市场前景。
附图说明
图1是本发明的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
如图1所示,根据本发明的基于用户聚类的协同过滤缺失数据处理方法结构示意图,所述方法包括如下步骤:
步骤1:将有相同属性的多维有缺失的数据集组成的样本si(i=1,2,…,m)形成矩阵S(m,n),其中n代表列数即数据维度(变量),m代表数据样本。如表1所示。数据矩阵的每一行组成一个行向量,称为一个数据样本
表1有相同属性的多维有缺失数据构成的数据样本矩阵
步骤2:将S(m,n)中所有不含有缺失值的数据样本分为一组(如表1中的第1行),组成完整数据矩阵,记为C(p,n),含有缺失值的数据样本分成一组(如表1中的第2行),组成不完整数据矩阵,记为p+q=m,i=1,2,…,p,j=1,2,…,q。
k-means聚类算法的具体过程为:
步骤3.1:输入聚类数目k和完整数据矩阵C(p,n)。
步骤3.2:从C(p,n)中随机选取k个数据样本作为聚类中心。
步骤3.3:把每个样本分配到离聚类中心距离最近的类中,聚类中心距离为欧氏距离。
步骤3.4:计算每个类的平均值,得到k个平均值,将k个平均值作为下次聚类的k个聚类中心。每个类的平均值为个类中所有数据样本(即行向量)之和除以该类中数据样本数目。
步骤3.5:重复步骤3.3和步骤3.4,直到k个平均值不再改变为止。
步骤4:把中每个数据样本中的缺失值所在列去掉,得到完整数据样本E,去掉聚类中心矩阵K(k,n)中与数据样本缺失值相同列的数据得到新的聚类中心矩阵F,完整数据样本E与新的聚类中心矩阵F最近的聚类中心即为数据样本相近的类。分别计算中每个数据样本去掉缺失值所在列与去掉相同列的聚类中心矩阵K(k,n)中每个聚类中心之间的欧式距离,选取欧式距离最小所对应的聚类中心即为该缺失数据样本相近的类。
具体过程如图2所示:
步骤4.2:去掉b列,得到完整数据样本E=(E1,E2....Et)(t≥3);
步骤4.3:聚类中心矩阵K(k,n)去掉b列,得到新的聚类中心矩阵F=(f1,f2....ft)T(t≥3);
步骤4.4:计算完整数据样本中每个样本与新的聚类中心矩阵的欧式距离;
皮尔逊相关系数ρG,H的具体过程为:
使用以下计算公式:
定义G=(g1,g2,…,gn),H=(h1,h2,…,hn),n≥3,则:
其中,n≥3,原始数据样本(即行向量)的维数不能低于4维,皮尔逊相关系数的绝对值越大,相关性越强,
0.8≤ρG,H≤1.0极强相关
0.6≤ρG,H<0.8强相关
0.4≤ρG,H<0.6中等强度相关
0.2≤ρG,H<0.4弱相关
根据计算得出的皮尔逊相关系数的绝对值的大小,选择相关系数ρG,H≥0.8的u个样本作为目标样本的最近邻居,组成最近领居集N。
本发明将有相同属性的多维有缺失的数据集组成的样本形成矩阵,矩阵的行代表数据样本,列代表数据维度(变量),基于用户的协同过滤(Collaborative Filtering)的基本思想,将每行的样本视为“用户(User)”,每列的变量视为协同过滤中的“项目(Item)”。通过计算样本相对于所有项目的的相似度(即邻居用户的相似度),找到K个相似样本邻居,然后计算K个邻居的相关系数,根据相关系数选择最相似样本的未缺失的项目值作为有缺失数据样本的插补值,填充对应缺失数据的样本的项目值即可。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.基于用户聚类的协同过滤缺失数据处理方法,其特征在于:所述方法包括如下步骤:
步骤1:将有相同属性的多维有缺失的数据集组成的样本si形成矩阵S(m,n),其中,i=1,2,…,m,其中n代表列数即数据维度,m代表数据样本;
步骤2:将S(m,n)中所有不含有缺失值的数据样本分为一组,组成完整数据矩阵,记为C(p,n),含有缺失值的数据样本分成一组,组成不完整数据矩阵,记为p+q=m,i=1,2,…,p,j=1,2,…,q;
步骤4:把中每个数据样本中的缺失值所在列去掉,得到完整数据样本E,去掉聚类中心矩阵K(k,n)中与数据样本缺失值相同列的数据得到新的聚类中心矩阵F,完整数据样本E与新的聚类中心矩阵F最近的聚类中心即为数据样本相近的类;
所述步骤5中皮尔逊相关系数ρG,H的具体过程为:
使用以下计算公式:
定义G=(g1,g2,…,gn),H=(h1,h2,…,hn),n≥3,则:
其中,n≥3,原始数据样本,即行向量,的维数不能低于4维,皮尔逊相关系数的绝对值越大,相关性越强,
0.8≤ρG,H≤1.0极强相关
0.6≤ρG,H<0.8强相关
0.4≤ρG,H<0.6中等强度相关
0.2≤ρG,H<0.4弱相关
根据计算得出的皮尔逊相关系数的绝对值的大小,选择相关系数ρG,H≥0.8的u个样本作为目标样本的最近邻居,组成最近领居集N;
3.根据权利要求2所述的基于用户聚类的协同过滤缺失数据处理方法,其特征在于:所述步骤3.3中的聚类中心距离为欧氏距离。
4.根据权利要求2所述的基于用户聚类的协同过滤缺失数据处理方法,其特征在于:所述步骤3.4中每个类的平均值为个类中所有数据样本之和除以该类中数据样本数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810996476.3A CN109446185B (zh) | 2018-08-29 | 2018-08-29 | 基于用户聚类的协同过滤缺失数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810996476.3A CN109446185B (zh) | 2018-08-29 | 2018-08-29 | 基于用户聚类的协同过滤缺失数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109446185A CN109446185A (zh) | 2019-03-08 |
CN109446185B true CN109446185B (zh) | 2021-07-13 |
Family
ID=65530141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810996476.3A Active CN109446185B (zh) | 2018-08-29 | 2018-08-29 | 基于用户聚类的协同过滤缺失数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446185B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046977A (zh) * | 2019-12-30 | 2020-04-21 | 成都康赛信息技术有限公司 | 基于em算法和knn算法的数据预处理方法 |
CN111612273B (zh) * | 2020-05-28 | 2023-09-08 | 山东大学 | 一种区域级综合能源系统分区设计方法及系统 |
CN111833990A (zh) * | 2020-07-17 | 2020-10-27 | 电子科技大学 | 一种心理测评量表缺失项填充方法 |
CN112905863A (zh) * | 2021-03-19 | 2021-06-04 | 青岛檬豆网络科技有限公司 | 基于K-Means聚类的客户自动分类方法 |
CN113112819B (zh) * | 2021-03-26 | 2022-10-25 | 华南理工大学 | 一种基于改进lstm的图卷积交通速度预测方法 |
CN116016303A (zh) * | 2022-12-05 | 2023-04-25 | 浪潮通信信息系统有限公司 | 一种基于人工智能的核心网业务质量问题识别方法 |
CN116050859B (zh) * | 2022-12-07 | 2023-11-14 | 国义招标股份有限公司 | 基于大数据的动态基准线碳排放交易方法和系统 |
CN116861042B (zh) * | 2023-09-05 | 2023-12-05 | 国家超级计算天津中心 | 基于材料数据库的信息校验方法、装置、设备及介质 |
CN117828373A (zh) * | 2024-03-05 | 2024-04-05 | 四川省医学科学院·四川省人民医院 | 基于集合划分和自监督学习的缺失数据填充方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407464A (zh) * | 2016-10-12 | 2017-02-15 | 南京航空航天大学 | 一种基于knn的改进缺失数据填补算法 |
CN107463531A (zh) * | 2017-07-31 | 2017-12-12 | 广东精点数据科技股份有限公司 | 基于分箱灰色预测的波动数据缺失值处理方法及装置 |
CN108197080A (zh) * | 2016-12-08 | 2018-06-22 | 广东精点数据科技股份有限公司 | 一种基于多种算法融合的缺失值插补方法 |
CN108197079A (zh) * | 2016-12-08 | 2018-06-22 | 广东精点数据科技股份有限公司 | 一种改进的对缺失值插补的算法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8843423B2 (en) * | 2012-02-23 | 2014-09-23 | International Business Machines Corporation | Missing value imputation for predictive models |
-
2018
- 2018-08-29 CN CN201810996476.3A patent/CN109446185B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407464A (zh) * | 2016-10-12 | 2017-02-15 | 南京航空航天大学 | 一种基于knn的改进缺失数据填补算法 |
CN108197080A (zh) * | 2016-12-08 | 2018-06-22 | 广东精点数据科技股份有限公司 | 一种基于多种算法融合的缺失值插补方法 |
CN108197079A (zh) * | 2016-12-08 | 2018-06-22 | 广东精点数据科技股份有限公司 | 一种改进的对缺失值插补的算法 |
CN107463531A (zh) * | 2017-07-31 | 2017-12-12 | 广东精点数据科技股份有限公司 | 基于分箱灰色预测的波动数据缺失值处理方法及装置 |
Non-Patent Citations (2)
Title |
---|
Missing value imputation strategies for metabolomics data;Emily Grace Armitage, Joanna Godzien,Vanesa Alonso‐Herranz;《ELECTROPHORESIS》;20151209;第3050-3060页 * |
基于改进K*-means算法的不完整公交到站时间填充;赵霞;《北京工业大学学报》;20180131;第135-143页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109446185A (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446185B (zh) | 基于用户聚类的协同过滤缺失数据处理方法 | |
Xia et al. | Efficient non-local contrastive attention for image super-resolution | |
Celebi | Improving the performance of k-means for color quantization | |
Yin et al. | Incomplete multi-view clustering via subspace learning | |
CN109710835B (zh) | 一种带有时间权重的异构信息网络推荐方法 | |
CN111444394A (zh) | 获取实体间关系表达的方法、系统和设备、广告召回系统 | |
KR20100039773A (ko) | 신상품 추천문제 해결을 위한 내용기반 필터링과 협업 필터링을 혼합한 사용자 프로파일 기반 이미지 추천 방법 및 장치 | |
CN111159483B (zh) | 一种基于张量计算的社交网络图摘要的生成方法 | |
CN110990775B (zh) | 基于多流形对偶图正则化非负矩阵分解的多视图聚类方法 | |
CN108021930A (zh) | 一种自适应的多视角图像分类方法及系统 | |
CN111611323A (zh) | 一种面向数据融合的迭代结构化多视图子空间聚类方法,设备及可读存储介质 | |
Liu et al. | Name your style: An arbitrary artist-aware image style transfer | |
CN108764276A (zh) | 一种鲁棒自动加权多特征聚类方法 | |
Chen et al. | An overlapping cluster algorithm to provide non-exhaustive clustering | |
CN114741603A (zh) | 基于用户聚类和商品聚类的混合协同过滤推荐算法 | |
Yakimov et al. | Multifractal analysis of neutral community spatial structure | |
CN113240111A (zh) | 基于离散余弦变换通道重要性得分的剪枝方法 | |
CN112364942A (zh) | 信贷数据样本均衡方法、装置、计算机设备及存储介质 | |
Barthel et al. | Improved evaluation and generation of grid layouts using distance preservation quality and linear assignment sorting | |
CN109614581A (zh) | 基于对偶局部学习的非负矩阵分解聚类方法 | |
CN113688258A (zh) | 一种基于柔性多维聚类的信息推荐方法及系统 | |
Fu | Pairwise constraint propagation via low-rank matrix recovery | |
CN111709478A (zh) | 一种基于锚图的模糊聚类方法及装置 | |
Schneidewind et al. | An automated approach for the optimization of pixel-based visualizations | |
CN113505838B (zh) | 一种图像聚类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |