CN109446185B - 基于用户聚类的协同过滤缺失数据处理方法 - Google Patents

基于用户聚类的协同过滤缺失数据处理方法 Download PDF

Info

Publication number
CN109446185B
CN109446185B CN201810996476.3A CN201810996476A CN109446185B CN 109446185 B CN109446185 B CN 109446185B CN 201810996476 A CN201810996476 A CN 201810996476A CN 109446185 B CN109446185 B CN 109446185B
Authority
CN
China
Prior art keywords
data
clustering
missing
sample
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810996476.3A
Other languages
English (en)
Other versions
CN109446185A (zh
Inventor
邓建新
单路宝
唐锐
贺德强
李承宸
张海平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University
Original Assignee
Guangxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University filed Critical Guangxi University
Priority to CN201810996476.3A priority Critical patent/CN109446185B/zh
Publication of CN109446185A publication Critical patent/CN109446185A/zh
Application granted granted Critical
Publication of CN109446185B publication Critical patent/CN109446185B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Abstract

本发明公开了基于用户聚类的协同过滤缺失数据处理方法,属于数据处理领域,将有相同属性的多维有缺失的数据集组成的样本形成矩阵,矩阵的行代表数据样本,列代表数据维度,基于用户的协同过滤的基本思想,通过计算样本相对于所有项目的相似度,找到K个相似样本邻居,然后计算K个邻居的相关系数,根据相关系数选择最相似样本的未缺失的项目值作为有缺失数据样本的插补值,填充对应缺失数据的样本的项目值即可。该方法过程较简单,通过将相近样本的非缺失值作为插补值,实现缺失数据的插补,既综合利用了同维度数据样本之间的关系,保证了数据的原有特征,同时又保证数据样本的数量,避免了删除法导致数据量的减少,插补效果相对较好。

Description

基于用户聚类的协同过滤缺失数据处理方法
技术领域
本发明涉及数据处理领域,尤其涉及基于用户聚类的协同过滤缺失数据处理方法。
背景技术
随着信息处理技术的不断发展,各行各业已建立了很多的计算机信息系统,也积累了大量的数据。尤其是随着大数据技术的发展,对数据的收集和应用成为热点,建立数据驱动方面的应用成为趋势,如建立数据驱动的设计,数据驱动的销售等。数据将是与自然资源一样重要的战略资源。但数据质量很大程度影响数据的应用和价值,数据质量不高会导致数据不能有效的被利用,甚至破坏相关信息系统的可使用性。其中,数据残缺不全,存在数据缺失现象是较为普遍的数据质量问题。
传统的缺失数据处理方法有加权法、删除法、插补法。加权法是通过某种方式把缺失单元的权数分解到非缺失单元上,以此来降低数据缺失对整体数据的影响,虽然过程简单,但结果偏差很大。删除法是直接把缺失数据去掉,会导致数据样本丢失,因此只能针对缺失比例在5%以下,且缺失机制为完全随机缺失的缺失数据。插补法又分为统计学插补法和机器学习插补法,其中统计学插补法有包含单一插补法和多重插补法。单一插补法主要有均值插补、回归插补、最近邻插补、热卡插补、冷卡插补以及EM插补,其中除了EM插补法,其它的单一插补法过程都比较简单,但插补效果很差,而EM插补法因为运用了迭代收敛方法,导致该方法相对较复杂,但插补效果比其他单一插补法要好。多重插补法主要有倾向的分法、回归预测法以及马尔科夫链蒙特卡罗法,相对于单一插补来说,多重插补法插补效果要更好,但过程很复杂,且不能得到最终的插补结果,只能得到最终的参数估计。机器学习插补法主要有自组织映射插补和支持向量机插补,该方法适合任意缺失模式、各种分布类型的缺失数据,但过程更加复杂。
综上可知,现有缺失数据处理方法要么过程简单,插补效果差,甚至导致数据样本量的减少;要么插补效果好,但过程过于复杂,不便于应用。为此,提出了基于用户聚类的协同过滤缺失数据插补方法。
发明内容
为解决背景技术中提到的问题,本发明提供基于用户聚类的协同过滤缺失数据处理方法。该方法过程较简单,通过将相近样本的非缺失值作为插补值,实现缺失数据的插补,既综合利用了同维度数据样本之间的关系,保证了数据的原有特征,同时又保证数据样本的数量,避免了删除法导致数据量的减少,插补效果相对较好。而且数据的维数越高,数据的样本越多,该方法的处理效果越好。同时,该方法也可以直接作为预测方法。为数据质量优化和数据预处理提供了一种新方法,在数据驱动服务应用、大数据领域的数据预处理和基于相似原理的预测应用、电子商务的协同推荐等方面都有市场前景。
基于用户聚类的协同过滤缺失数据处理方法,所述方法包括如下步骤:
步骤1:将有相同属性的多维有缺失的数据集组成的样本si(i=1,2,…,m)形成矩阵S(m,n),其中n代表列数即数据维度(变量),m代表数据样本;
步骤2:将S(m,n)中所有不含有缺失值的数据样本
Figure GDA0003061174020000021
分为一组,组成完整数据矩阵,记为C(p,n),含有缺失值的数据样本
Figure GDA0003061174020000022
分成一组,组成不完整数据矩阵,记为
Figure GDA0003061174020000023
p+q=m,i=1,2,…,p,j=1,2,…,q;
步骤3:对完整数据矩阵C(p,n)通过k-means聚类算法进行聚类,得到k个聚类中心
Figure GDA0003061174020000024
组成的矩阵K(k,n)和k个聚类结果矩阵,其中k表示聚类数目;
步骤4:把
Figure GDA0003061174020000025
中每个数据样本
Figure GDA0003061174020000026
中的缺失值所在列去掉,得到完整数据样本E,去掉聚类中心矩阵K(k,n)中与数据样本
Figure GDA0003061174020000027
缺失值相同列的数据得到新的聚类中心矩阵F,完整数据样本E与新的聚类中心矩阵F最近的聚类中心即为数据样本
Figure GDA0003061174020000028
相近的类;
步骤5:在每一类中,分别计算该类中每个含有缺失值的数据样本
Figure GDA0003061174020000029
去掉缺失值所在列与该类中去掉相同列的不含有缺失值的数据样本的皮尔逊相关系数ρG,H
步骤6:对数据样本
Figure GDA00030611740200000210
的缺失数据进行填补,对数据样本
Figure GDA00030611740200000211
中缺失的变量xb填补入插补值
Figure GDA00030611740200000212
完成数据处理。
进一步地,所述步骤3中的k-means聚类算法的具体过程为:
步骤3.1:输入聚类数目k和完整数据矩阵C(p,n);
步骤3.2:从C(p,n)中随机选取k个数据样本作为聚类中心;
步骤3.3:把每个样本分配到离聚类中心距离最近的类中;
步骤3.4:计算每个类的平均值,得到k个平均值,将k个平均值作为下次聚类的k个聚类中心;
步骤3.5:重复步骤3.3和步骤3.4,直到k个平均值不再改变为止;
步骤3.6:输出最终的k个聚类中心
Figure GDA0003061174020000031
组成的矩阵K(k,n)和k个聚类结果矩阵。
进一步地,所述步骤3.3中的聚类中心距离为欧氏距离。
进一步地,所述步骤3.4中每个类的平均值为个类中所有数据样本(即行向量)之和除以该类中数据样本数目。
进一步地,所述步骤5中皮尔逊相关系数ρG,H的具体过程为:
使用以下计算公式:
定义G=(g1,g2,…,gn),H=(h1,h2,…,hn),n≥3,则:
Figure GDA0003061174020000032
其中
Figure GDA0003061174020000033
其中,n≥3,原始数据样本(即行向量)的维数不能低于4维,皮尔逊相关系数的绝对值越大,相关性越强,
0.8≤ρG,H≤1.0极强相关
0.6≤ρG,H<0.8强相关
0.4≤ρG,H<0.6中等强度相关
0.2≤ρG,H<0.4弱相关
根据计算得出的皮尔逊相关系数的绝对值的大小,选择相关系数ρG,H≥0.8的u个样本作为目标样本的最近邻居,组成最近领居集N。
进一步地,所述步骤6中插补值
Figure GDA0003061174020000041
的具体计算过程为:
Figure GDA0003061174020000042
式中ρjv表示目标样本
Figure GDA0003061174020000043
与最近邻居v之间的皮尔逊相关系数,
Figure GDA0003061174020000044
表示样本v所对应的变量xb的值。
进一步地,所述步骤4中的具体过程为:
步骤4.1:确定数据样本
Figure GDA0003061174020000045
中缺失值所在的列号b=(b1,b2....br)(r≤n-3);
步骤4.2:去掉b列,得到完整数据样本E=(E1,E2....Et)(t≥3);
步骤4.3:聚类中心矩阵K(k,n)去掉b列,得到新的聚类中心矩阵F=(f1,f2....ft)T(t≥3);
步骤4.4:计算完整数据样本E中每个样本与新的聚类中心矩阵F的欧式距离;
步骤4.5:选取欧式距离最小所对应的聚类中心为数据样本
Figure GDA0003061174020000046
相近的类。
本发明采用了上述技术方案,本发明具有以下技术效果:
本发明的方法过程较简单,插补的效果非常好,能够准确的对缺失数据进行插补,通过将相近样本的非缺失值作为插补值,实现缺失数据的插补,既综合利用了同维度数据样本之间的关系,保证了数据的原有特征,同时又保证数据样本的数量,避免了删除法导致数据量的减少,插补效果相对较好;而且数据的维数越高,数据的样本越多,该方法的处理效果越好;同时,该方法也可以直接作为预测方法。为数据质量优化和数据预处理提供了一种新方法,在数据驱动服务应用、大数据领域的数据预处理和基于相似原理的预测应用、电子商务的协同推荐等方面都有市场前景。
附图说明
图1是本发明的流程图。
图2是本发明的计算数据样本
Figure GDA0003061174020000047
相近的类。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
如图1所示,根据本发明的基于用户聚类的协同过滤缺失数据处理方法结构示意图,所述方法包括如下步骤:
步骤1:将有相同属性的多维有缺失的数据集组成的样本si(i=1,2,…,m)形成矩阵S(m,n),其中n代表列数即数据维度(变量),m代表数据样本。如表1所示。数据矩阵的每一行组成一个行向量,称为一个数据样本
表1有相同属性的多维有缺失数据构成的数据样本矩阵
Figure GDA0003061174020000051
步骤2:将S(m,n)中所有不含有缺失值的数据样本
Figure GDA0003061174020000052
分为一组(如表1中的第1行),组成完整数据矩阵,记为C(p,n),含有缺失值的数据样本
Figure GDA0003061174020000053
分成一组(如表1中的第2行),组成不完整数据矩阵,记为
Figure GDA0003061174020000054
p+q=m,i=1,2,…,p,j=1,2,…,q。
步骤3:对完整数据矩阵C(p,n)通过k-means聚类算法进行聚类,得到k个聚类中心
Figure GDA0003061174020000055
组成的矩阵K(k,n)和k个聚类结果矩阵,其中k表示聚类数目。
k-means聚类算法的具体过程为:
步骤3.1:输入聚类数目k和完整数据矩阵C(p,n)。
步骤3.2:从C(p,n)中随机选取k个数据样本作为聚类中心。
步骤3.3:把每个样本分配到离聚类中心距离最近的类中,聚类中心距离为欧氏距离。
步骤3.4:计算每个类的平均值,得到k个平均值,将k个平均值作为下次聚类的k个聚类中心。每个类的平均值为个类中所有数据样本(即行向量)之和除以该类中数据样本数目。
步骤3.5:重复步骤3.3和步骤3.4,直到k个平均值不再改变为止。
步骤3.6:输出最终的k个聚类中心
Figure GDA0003061174020000061
组成的矩阵K(k,n)和k个聚类结果矩阵。
步骤4:把
Figure GDA0003061174020000062
中每个数据样本
Figure GDA0003061174020000063
中的缺失值所在列去掉,得到完整数据样本E,去掉聚类中心矩阵K(k,n)中与数据样本
Figure GDA0003061174020000064
缺失值相同列的数据得到新的聚类中心矩阵F,完整数据样本E与新的聚类中心矩阵F最近的聚类中心即为数据样本
Figure GDA0003061174020000065
相近的类。分别计算
Figure GDA0003061174020000066
中每个数据样本
Figure GDA0003061174020000067
去掉缺失值所在列与去掉相同列的聚类中心矩阵K(k,n)中每个聚类中心之间的欧式距离,选取欧式距离最小所对应的聚类中心即为该缺失数据样本
Figure GDA0003061174020000068
相近的类。
具体过程如图2所示:
步骤4.1:确定数据样本
Figure GDA0003061174020000069
中缺失值所在的列号b=(b1,b2....br)(r≤n-3);
步骤4.2:去掉b列,得到完整数据样本E=(E1,E2....Et)(t≥3);
步骤4.3:聚类中心矩阵K(k,n)去掉b列,得到新的聚类中心矩阵F=(f1,f2....ft)T(t≥3);
步骤4.4:计算完整数据样本中每个样本与新的聚类中心矩阵的欧式距离;
步骤4.5:选取欧式距离最小所对应的聚类中心为数据样本
Figure GDA00030611740200000610
相近的类。
步骤5:在每一类中,分别计算该类中每个含有缺失值的数据样本
Figure GDA00030611740200000611
去掉缺失值所在列与该类中去掉相同列的不含有缺失值的数据样本的皮尔逊相关系数ρG,H
皮尔逊相关系数ρG,H的具体过程为:
使用以下计算公式:
定义G=(g1,g2,…,gn),H=(h1,h2,…,hn),n≥3,则:
Figure GDA00030611740200000612
其中
Figure GDA00030611740200000613
其中,n≥3,原始数据样本(即行向量)的维数不能低于4维,皮尔逊相关系数的绝对值越大,相关性越强,
0.8≤ρG,H≤1.0极强相关
0.6≤ρG,H<0.8强相关
0.4≤ρG,H<0.6中等强度相关
0.2≤ρG,H<0.4弱相关
根据计算得出的皮尔逊相关系数的绝对值的大小,选择相关系数ρG,H≥0.8的u个样本作为目标样本的最近邻居,组成最近领居集N。
步骤6:对数据样本
Figure GDA0003061174020000071
的缺失数据进行填补,对数据样本
Figure GDA0003061174020000072
中缺失的变量xb填补入插补值
Figure GDA0003061174020000073
完成数据处理。
插补值
Figure GDA0003061174020000074
的具体计算过程为:
Figure GDA0003061174020000075
式中ρjv表示目标样本
Figure GDA0003061174020000076
与最近邻居v之间的皮尔逊相关系数,
Figure GDA0003061174020000077
表示样本v所对应的变量xb的值。
本发明将有相同属性的多维有缺失的数据集组成的样本形成矩阵,矩阵的行代表数据样本,列代表数据维度(变量),基于用户的协同过滤(Collaborative Filtering)的基本思想,将每行的样本视为“用户(User)”,每列的变量视为协同过滤中的“项目(Item)”。通过计算样本相对于所有项目的的相似度(即邻居用户的相似度),找到K个相似样本邻居,然后计算K个邻居的相关系数,根据相关系数选择最相似样本的未缺失的项目值作为有缺失数据样本的插补值,填充对应缺失数据的样本的项目值即可。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.基于用户聚类的协同过滤缺失数据处理方法,其特征在于:所述方法包括如下步骤:
步骤1:将有相同属性的多维有缺失的数据集组成的样本si形成矩阵S(m,n),其中,i=1,2,…,m,其中n代表列数即数据维度,m代表数据样本;
步骤2:将S(m,n)中所有不含有缺失值的数据样本
Figure FDA0003095992050000011
分为一组,组成完整数据矩阵,记为C(p,n),含有缺失值的数据样本
Figure FDA0003095992050000012
分成一组,组成不完整数据矩阵,记为
Figure FDA0003095992050000013
p+q=m,i=1,2,…,p,j=1,2,…,q;
步骤3:对完整数据矩阵C(p,n)通过k-means聚类算法进行聚类,得到k个聚类中心
Figure FDA0003095992050000014
组成的矩阵K(k,n)和k个聚类结果矩阵,l=1,2,…,k,其中k表示聚类数目;
步骤4:把
Figure FDA0003095992050000015
中每个数据样本
Figure FDA0003095992050000016
中的缺失值所在列去掉,得到完整数据样本E,去掉聚类中心矩阵K(k,n)中与数据样本
Figure FDA0003095992050000017
缺失值相同列的数据得到新的聚类中心矩阵F,完整数据样本E与新的聚类中心矩阵F最近的聚类中心即为数据样本
Figure FDA0003095992050000018
相近的类;
步骤5:在每一类中,分别计算该类中每个含有缺失值的数据样本
Figure FDA0003095992050000019
去掉缺失值所在列与该类中去掉相同列的不含有缺失值的数据样本的皮尔逊相关系数ρG,H
步骤6:对数据样本
Figure FDA00030959920500000110
的缺失数据进行填补,对数据样本
Figure FDA00030959920500000111
中缺失的变量xb填补入插补值
Figure FDA00030959920500000112
完成数据处理;
所述步骤5中皮尔逊相关系数ρG,H的具体过程为:
使用以下计算公式:
定义G=(g1,g2,…,gn),H=(h1,h2,…,hn),n≥3,则:
Figure FDA00030959920500000113
其中
Figure FDA00030959920500000114
其中,n≥3,原始数据样本,即行向量,的维数不能低于4维,皮尔逊相关系数的绝对值越大,相关性越强,
0.8≤ρG,H≤1.0极强相关
0.6≤ρG,H<0.8强相关
0.4≤ρG,H<0.6中等强度相关
0.2≤ρG,H<0.4弱相关
根据计算得出的皮尔逊相关系数的绝对值的大小,选择相关系数ρG,H≥0.8的u个样本作为目标样本的最近邻居,组成最近领居集N;
所述步骤6中插补值
Figure FDA0003095992050000021
的具体计算过程为:
Figure FDA0003095992050000022
式中ρjv表示目标样本
Figure FDA0003095992050000023
与最近邻居v之间的皮尔逊相关系数,
Figure FDA0003095992050000024
表示样本v所对应的变量xb的值。
2.根据权利要求1所述的基于用户聚类的协同过滤缺失数据处理方法,其特征在于:所述步骤3中的k-means聚类算法的具体过程为:
步骤3.1:输入聚类数目k和完整数据矩阵C(p,n);
步骤3.2:从C(p,n)中随机选取k个数据样本作为聚类中心;
步骤3.3:把每个样本分配到离聚类中心距离最近的类中;
步骤3.4:计算每个类的平均值,得到k个平均值,将k个平均值作为下次聚类的k个聚类中心;
步骤3.5:重复步骤3.3和步骤3.4,直到k个平均值不再改变为止;
步骤3.6:输出最终的k个聚类中心
Figure FDA0003095992050000025
组成的矩阵K(k,n)和k个聚类结果矩阵,其中l=1,2,…,k。
3.根据权利要求2所述的基于用户聚类的协同过滤缺失数据处理方法,其特征在于:所述步骤3.3中的聚类中心距离为欧氏距离。
4.根据权利要求2所述的基于用户聚类的协同过滤缺失数据处理方法,其特征在于:所述步骤3.4中每个类的平均值为个类中所有数据样本之和除以该类中数据样本数目。
5.根据权利要求1所述的基于用户聚类的协同过滤缺失数据处理方法,其特征在于:所述步骤4中的具体过程为:
步骤4.1:确定数据样本
Figure FDA0003095992050000031
中缺失值所在的列号b=(b1,b2....br)(r≤n-3);
步骤4.2:去掉b列,得到完整数据样本E=(E1,E2....Et)(t≥3);
步骤4.3:聚类中心矩阵K(k,n)去掉b列,得到新的聚类中心矩阵F=(f1,f2....ft)T(t≥3);
步骤4.4:计算完整数据样本E中每个样本与新的聚类中心矩阵F的欧式距离;
步骤4.5:选取欧式距离最小所对应的聚类中心为数据样本
Figure FDA0003095992050000032
相近的类。
CN201810996476.3A 2018-08-29 2018-08-29 基于用户聚类的协同过滤缺失数据处理方法 Active CN109446185B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810996476.3A CN109446185B (zh) 2018-08-29 2018-08-29 基于用户聚类的协同过滤缺失数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810996476.3A CN109446185B (zh) 2018-08-29 2018-08-29 基于用户聚类的协同过滤缺失数据处理方法

Publications (2)

Publication Number Publication Date
CN109446185A CN109446185A (zh) 2019-03-08
CN109446185B true CN109446185B (zh) 2021-07-13

Family

ID=65530141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810996476.3A Active CN109446185B (zh) 2018-08-29 2018-08-29 基于用户聚类的协同过滤缺失数据处理方法

Country Status (1)

Country Link
CN (1) CN109446185B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046977A (zh) * 2019-12-30 2020-04-21 成都康赛信息技术有限公司 基于em算法和knn算法的数据预处理方法
CN111612273B (zh) * 2020-05-28 2023-09-08 山东大学 一种区域级综合能源系统分区设计方法及系统
CN111833990A (zh) * 2020-07-17 2020-10-27 电子科技大学 一种心理测评量表缺失项填充方法
CN112905863A (zh) * 2021-03-19 2021-06-04 青岛檬豆网络科技有限公司 基于K-Means聚类的客户自动分类方法
CN113112819B (zh) * 2021-03-26 2022-10-25 华南理工大学 一种基于改进lstm的图卷积交通速度预测方法
CN116016303A (zh) * 2022-12-05 2023-04-25 浪潮通信信息系统有限公司 一种基于人工智能的核心网业务质量问题识别方法
CN116050859B (zh) * 2022-12-07 2023-11-14 国义招标股份有限公司 基于大数据的动态基准线碳排放交易方法和系统
CN116861042B (zh) * 2023-09-05 2023-12-05 国家超级计算天津中心 基于材料数据库的信息校验方法、装置、设备及介质
CN117828373A (zh) * 2024-03-05 2024-04-05 四川省医学科学院·四川省人民医院 基于集合划分和自监督学习的缺失数据填充方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407464A (zh) * 2016-10-12 2017-02-15 南京航空航天大学 一种基于knn的改进缺失数据填补算法
CN107463531A (zh) * 2017-07-31 2017-12-12 广东精点数据科技股份有限公司 基于分箱灰色预测的波动数据缺失值处理方法及装置
CN108197080A (zh) * 2016-12-08 2018-06-22 广东精点数据科技股份有限公司 一种基于多种算法融合的缺失值插补方法
CN108197079A (zh) * 2016-12-08 2018-06-22 广东精点数据科技股份有限公司 一种改进的对缺失值插补的算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8843423B2 (en) * 2012-02-23 2014-09-23 International Business Machines Corporation Missing value imputation for predictive models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407464A (zh) * 2016-10-12 2017-02-15 南京航空航天大学 一种基于knn的改进缺失数据填补算法
CN108197080A (zh) * 2016-12-08 2018-06-22 广东精点数据科技股份有限公司 一种基于多种算法融合的缺失值插补方法
CN108197079A (zh) * 2016-12-08 2018-06-22 广东精点数据科技股份有限公司 一种改进的对缺失值插补的算法
CN107463531A (zh) * 2017-07-31 2017-12-12 广东精点数据科技股份有限公司 基于分箱灰色预测的波动数据缺失值处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Missing value imputation strategies for metabolomics data;Emily Grace Armitage, Joanna Godzien,Vanesa Alonso‐Herranz;《ELECTROPHORESIS》;20151209;第3050-3060页 *
基于改进K*-means算法的不完整公交到站时间填充;赵霞;《北京工业大学学报》;20180131;第135-143页 *

Also Published As

Publication number Publication date
CN109446185A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN109446185B (zh) 基于用户聚类的协同过滤缺失数据处理方法
Xia et al. Efficient non-local contrastive attention for image super-resolution
Celebi Improving the performance of k-means for color quantization
Yin et al. Incomplete multi-view clustering via subspace learning
CN109710835B (zh) 一种带有时间权重的异构信息网络推荐方法
CN111444394A (zh) 获取实体间关系表达的方法、系统和设备、广告召回系统
KR20100039773A (ko) 신상품 추천문제 해결을 위한 내용기반 필터링과 협업 필터링을 혼합한 사용자 프로파일 기반 이미지 추천 방법 및 장치
CN111159483B (zh) 一种基于张量计算的社交网络图摘要的生成方法
CN110990775B (zh) 基于多流形对偶图正则化非负矩阵分解的多视图聚类方法
CN108021930A (zh) 一种自适应的多视角图像分类方法及系统
CN111611323A (zh) 一种面向数据融合的迭代结构化多视图子空间聚类方法,设备及可读存储介质
Liu et al. Name your style: An arbitrary artist-aware image style transfer
CN108764276A (zh) 一种鲁棒自动加权多特征聚类方法
Chen et al. An overlapping cluster algorithm to provide non-exhaustive clustering
CN114741603A (zh) 基于用户聚类和商品聚类的混合协同过滤推荐算法
Yakimov et al. Multifractal analysis of neutral community spatial structure
CN113240111A (zh) 基于离散余弦变换通道重要性得分的剪枝方法
CN112364942A (zh) 信贷数据样本均衡方法、装置、计算机设备及存储介质
Barthel et al. Improved evaluation and generation of grid layouts using distance preservation quality and linear assignment sorting
CN109614581A (zh) 基于对偶局部学习的非负矩阵分解聚类方法
CN113688258A (zh) 一种基于柔性多维聚类的信息推荐方法及系统
Fu Pairwise constraint propagation via low-rank matrix recovery
CN111709478A (zh) 一种基于锚图的模糊聚类方法及装置
Schneidewind et al. An automated approach for the optimization of pixel-based visualizations
CN113505838B (zh) 一种图像聚类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant