CN113688258A

CN113688258A - 一种基于柔性多维聚类的信息推荐方法及系统

Info

Publication number: CN113688258A
Application number: CN202110961056.3A
Authority: CN
Inventors: 周郭许; 邱奕纯; 张桂东; 孙为军; 谢胜利
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-11-23

Abstract

本发明公开了一种基于柔性多维聚类的信息推荐方法及系统，该方法包括：S1、采集数据并根据数据构建三维数据张量；S2、对三维数据张量进行分解，得到张量块结构和多隶属度聚类信息；S3、根据张量块结构和多隶属度聚类信息进行张量填充并判断收敛性；S4、循环步骤S2‑S3直至判断到填充后张量达到收敛阈值，输出填充后张量；S5、将输出的填充后张量和推荐目标结合，生成信息推荐。该系统包括：预处理模块、分解模块、填充模块、交互模块和推荐模块。通过使用本发明，能够为用户提供更准确和细粒度的推荐服务。本发明作为一种基于柔性多维聚类的信息推荐方法及系统，可广泛应用于数据挖掘领域。

Description

一种基于柔性多维聚类的信息推荐方法及系统

技术领域

本发明涉及数据挖掘领域，尤其涉及一种基于柔性多维聚类的信息推荐方法及系统。

背景技术

随着信息科技的迅猛发展，电子商务或多媒体领域每天以TB级的数据量进行数据流通，但实际应用中的数据往往存在缺失和损坏的问题，无法直接获取有用信息对用户进行推荐。

推荐方法及系统的性能与数据填充的质量密切相关，现有的数据挖掘嵌入式填充技术仍存在以下不足：1)基于矩阵分解的聚类方式，无法有效剖析高阶多维数据的真实结构信息；2)基于“硬聚类”的数据挖掘方式，如k-means，这类方法不仅目标归属性单一，不适用于多隶属度聚类任务，而且聚类结果对缺失值和奇异值敏感，直接削弱了数据填充质量；3)基于指数型加权的数据填充技术未能考虑“加权和为1”的聚类特性，使得多隶属度聚类结果的可解释性和精度均受到限制；4)受限于数据计算和存储的能力，现有技术未能很好地应对大规模稀疏数据的填充问题。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于柔性多维聚类的信息推荐方法及系统，能够为用户提供更准确和细粒度的推荐服务。

本发明所采用的第一技术方案是：一种基于柔性多维聚类的信息推荐方法，包括以下步骤：

S1、采集数据并根据数据构建三维数据张量；

S2、对三维数据张量进行分解，得到张量块结构和多隶属度聚类信息；

S3、根据张量块结构和多隶属度聚类信息进行张量填充并判断收敛性；

S4、循环步骤S2-S3直至判断到填充后张量达到收敛阈值，输出填充后张量；

S5、将输出的填充后张量和推荐目标结合，生成信息推荐。

进一步，所述对三维数据张量进行分解，得到张量块结构和多隶属度聚类信息这一步骤，其具体包括：

S11、确立推荐目标，采集对应的原始数据；

S12、根据原始数据中的数据特征构建三维数据张量；

S13、对三维数据张量进行初始化填充，得到初步填充后的三维数据张量。

S21、对三维数据张量进行分解，得到对应的张量块结构；

S22、根据张量块结构挖掘多隶属度聚类信息。

进一步，所述对三维数据张量进行分解，得到对应的张量块结构这一步骤，其具体包括：

采用贝叶斯信息准则确定各维度的聚类个数，将三维数据张量通过如下方程进行近似正交的非负Tucker分解，分解为一个核张量和三个因子矩阵，得到张量块结构：

上式中，

为输入的三维数据张量，

为核张量，A⁽ⁿ⁾为第n维的因子矩阵，I_n代表第n维的样本数，R_n代表第n维的聚类个数，

解决上述目标方程，采用增广拉格朗日乘子法，将有约束的优化问题转化为无约束的优化问题，引入相应的拉格朗日乘子λ和惩罚项系数β，目标方程改写如下：

进一步，所述目标方程符合Lipschitz连续准则，采用加速近段梯度算法(APG)对变量的进行梯度信息求解，基于块坐标下降法(BCD)的迭代更新框架进行变量和乘子更新。最终，在达到收敛阈值或最大迭代次数时，输出最优的核张量

和因子矩阵A⁽ⁿ⁾ _*(下标“*”表示最优值)，得到多维聚类结果，即张量块结构。

进一步，所述张量块结构具体表示如下：

上式中，核张量

代表多维聚类中心，也是张量块的均值中心，因子矩阵A⁽ⁿ⁾(n＝1,2,3)的元素取值为[0,1]，表示多维聚类的隶属度信息。

进一步，所述根据张量块结构挖掘多隶属度聚类信息这一步骤，其具体包括：

基于“隶属度和为1”的约束，根据张量块结构从各因子矩阵的行向量挖掘数据的多隶属关系，得到柔性多维聚类信息。

进一步，所述根据聚类信息对数据进行张量填充，并结合推荐目标生成信息推荐这一步骤，其具体包括：

S31、基于柔性多维聚类信息将数据所属多个张量块的类别信息按照隶属度系数加权的方式进行融合，进行缺失值填充；

S32、对填充后的张量进行收敛性分析。

进一步，所述循环步骤S2-S3直至判断到填充后的张量达到收敛阈值，输出填充后的张量这一步骤，其具体为：

将S2基于柔性多维聚类的数据挖掘嵌入到S3张量填充过程中，建立数据挖掘与数据填充的交互迭代更新框架，并通过最小化以下目标方程完成缺失值的填充：

其中，下标“*”表示达到收敛的最优值，下标“o”表示非缺失值的索引集合。

本发明所采用的第二技术方案是：一种基于柔性多维聚类的信息推荐系统，包括：

预处理模块，用于采集数据并根据数据构建三维数据张量；

分解模块，用于对三维数据张量进行分解，得到张量块结构和多隶属度聚类信息；

填充模块，用于根据张量块结构和多隶属度聚类信息进行张量填充并判断收敛性；

交互模块，用于循环步骤S2-S3直至判断到填充后张量达到收敛阈值，输出填充后张量；推荐模块，用于将输出的填充后张量和推荐目标结合，生成信息推荐

本发明方法及系统的有益效果是：本发明先通过近似正交非负Tucker分解对数据进行柔性多维聚类，再结合聚类结果分析数据的多隶属度信息，并以“加权和为1”的系数加权方式进行张量填充，最后建立多维聚类和张量填充的交互迭代更新框架，达到提升数据填充质量，为用户提供更准确和细粒度的推荐服务的目的。同时，本发明可有效应对普遍存在于推荐领域的大规模稀疏数据的挑战，一方面，利用柔性多维聚类的交互促进作用，缓解稀疏数据的填充压力；另一方面，通过张量分解的数据压缩技巧，缩减数据计算和存储的成本，最终提升大规模稀疏数据填充和生成推荐的有效性和可靠性。

附图说明

图1是本发明一种基于柔性多维聚类的信息推荐方法的流程示意图；

图2是本发明一种基于柔性多维聚类实现数据填充的具体实施例示意图；

图3是本发明具体实施例柔性多维聚类填充、硬性多维聚类填充和低秩张量逼近填充达到收敛阈值的所需迭代次数的对比图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1和图2，本发明提供了一种基于柔性多维聚类的信息推荐方法，本发明可面向三维及以上的数据分析，为了方便展示和说明，以三维张量为例进行阐述，该方法包括以下步骤：

S1、采集数据并根据数据构建三维数据张量；

S5、将输出的填充后张量和推荐目标结合，生成信息推荐。

进一步作为本方法的优选实施例，所述采集数据并根据数据构建三维数据张量这一步骤，其具体包括：

S11、确立推荐目标，采集对应的原始数据；

具体以movielens-100k数据集为例，采集数据，用户ID向量(包含943名用户)，用户职业向量(19种职业类型和1个不确定，1个未就业)，用户年龄向量(年龄分布于7～73岁)，电影类别向量(含18个类别和1个未知类别)，电影分类矩阵(含1682部电影的19种归类信息)，用户对电影的评分矩阵(含100000条用户对电影的评分信息，评分等级分为1～5)；其中，用户ID向量、用户职业向量和电影类别向量作为标签数据仅用于后阶段聚类结果分析。

S12、根据原始数据中的数据特征构建三维数据张量，大规模数据先进行Tucker分解的压缩处理；

根据数据特征构建三维数据张量，第一维度是943名用户，第二维度是1682部电影，第三维度是7个用户年龄段(7-18-24-34-44-49-55-73)；根据第三维度的年龄段划分，将S1中采集到的用户对电影的评分矩阵中100000条评分信息划分为7个二维评分矩阵，得到存在数据缺失的三维数据

寻找缺失值的索引记为集合

非缺失值的索引记为集合o，根据

和o对应生成掩膜张量O∈{0,1}对存在缺失的真实数据

进行数值点乘，1对应保留非缺失值，0将缺失值(NaN)置零，令

具体地，为了缓解数据维度增加所造成的数据稀疏问题，避免数据缺失对聚类分析造成的直接影响。对缺失数据进行初始化填充十分必要。考虑初始化填充的有效性，针对两种常见数据模型采用不同的初始化填充：对于非稀疏数据，可通过对

中可观测值的均值计算或通过对缺失值所在多维向量构成的秩1张量进行均值计算，对缺失值进行预填充，后者相对于前者可以根据具体数据样本的多维特征信息进行更有效的数据初始化填充，并缓解数据计算压力；对于稀疏数据，可采用Tucker分解先对数据进行压缩处理，再利用平均比率法进行预填充。

S11、确立推荐目标，采集对应的原始数据；

S12、根据原始数据构建三维数据张量；

进一步作为本方法的优选实施例，所述对三维数据张量进行分解，得到张量块结构和多隶属度聚类信息这一步骤，其具体包括：

S21、对三维数据张量进行分解，得到对应的张量块结构；

S22、根据张量块结构挖掘多隶属度聚类信息。

进一步作为本方法的优选实施例，所述对三维数据张量进行分解，得到对应的张量块结构这一步骤，其具体包括：

设置各维度的聚类个数，将三维数据张量进行近似正交的非负Tucker分解，分解为一个核张量和三个因子矩阵，得到张量块结构。

具体地，首先设置各维度的聚类个数，可按照贝叶斯信息准则确定聚类个数，也可按照数据的类别特征确定聚类个数，结合本案例，给定三个维度聚类数为[21,19,3]，将上述的三维数据张量

进行近似正交的非负Tucker分解，得到一个核张量和三个因子矩阵，形成张量块结构。

利用正交非负矩阵分解(NMF)与K-means聚类的等效性，将二维聚类模型扩展到基于正交非负张量分解(NTD)的多维K-means聚类模型，并结合Tucker分解的多线性优势，建立正交非负Tucker分解，对上述三维张量

进行分解：

其中核张量

代表聚类中心，各因子矩阵

作为聚类指示。在更新核张量时，通常采用展开(unfolding)的形式：

其中，

为核张量的向量形式。由于K-means遵从“硬聚类”原则，即一个数据样本只归属于一个类别(簇)，对于多隶属度聚类任务，特别是存在于数据样本与类别(簇)之间的复杂隶属关系，“硬聚类”的单一归属性质无法提供细粒度的数据挖掘，因此，对因子矩阵引入近似正交约束，实现柔性的多维聚类分析，充分挖掘数据的复杂隶属信息。具体地通过以下方程实现：

其中，

α用于调节因子矩阵的正交程度，α→∞则等效于完全正交的“硬聚类”。对于多隶属度的聚类任务，进行“隶属度和为1”的约束也是提升聚类精度的关键因素，因此，进一步对因子矩阵添加该约束条件，实现更准确的聚类分析，目标方程如下：

对于λ和β的更新规则，如下进行：

其中,iter为BCD框架的迭代次数，

β＝(β₁，β₂)随着迭代更新λ→λ^*，β→∞,双重的更新机制进一步保证了算法的收敛性能。对目标方程F的求解，采取基于块坐标下降(BCD)的更新框架，各变量的一阶梯度如下：

其中，

由于a^(N)和c两个变量的一阶梯度符合Lipschitz连续准则，对应的Lipschitz常数分别为

因此采用加速近端梯度(APG)算法进行优化，APG的主要步骤包括：

其中，k为APG算法模型的迭代次数，P₊(x)将x的负值投影为正值，上述步骤以因子矩阵更新为例，对于核张量c的更新也是同理。最终，在达到收敛阈值或最大迭代次数时，输出最优的核张量

进一步作为本方法的优选实施例，所述张量块结构具体表示如下：

上式中，

为核张量代表多维聚类中心，也是张量块的均值中心，A⁽ⁿ⁾为第n维因子矩阵(n＝1,2,3)，因子矩阵的元素取值为[0,1]，表示多维聚类的隶属信息，如A⁽¹⁾的一个列向量代表一个类别的用户归属信息，一个行向量代表一个用户的类别归属信息，每一行的非零值取值越大表示该用户对该类别的隶属度越强。通过聚类中心和三维隶属信息，可以获得三维的张量块结构，每个张量块代表一个群体，一个群体包含了某用户类别、电影类别和年龄阶段三个维度的信息，对应的核张量取值作为张量块的均值中心。基于近似正交非负Tucker分解实现柔性多维聚类的过程参照图2。

进一步作为本方法优选实施例，所述根据张量块结构挖掘多隶属度聚类信息这一步骤，其具体包括：

基于隶属度和为1的约束，根据张量块结构从各因子矩阵的行向量挖掘数据的多隶属关系，得到柔性多维聚类信息。

具体地，根据多隶属度的聚类特性，每个因子矩阵的行向量元素和必须为1。通过因子矩阵“行和为1”的约束，保证了多隶属度聚类任务“隶属度和为1”的基本特性。如附图1，假设A⁽¹⁾的第一行中非零元素为

则表示用户1属于类别1，类别2和类别3的隶属度分别为0.1，0.7和0.2(可以结合职业标签信息进行类别分析)，其他两个维度以此类推，可计算得到三元数据{用户1，电影1，年龄段1}归属于张量块(1,1,1)的隶属度为3\(0.1+0.6+0.8)＝0.5。因此，通过本发明的推荐方法不仅可以获得某一用户群体在某个年龄段的对不同电影类型的偏好程度，还可以根据多维聚类结果推测某个用户群体在未来不同年龄段对不同电影类型的偏好程度，以更灵活的多维聚类分析实现细粒度的多维信息融合，进一步提升后续的数据填充质量。

进一步作为本方法优选实施例，所述根据聚类信息对数据进行张量填充，并结合推荐目标生成信息推荐这一步骤，其具体包括：

S31、基于柔性多维聚类信息将数据所属多个张量块的类别信息融合，进行张量填充，得到填充后的张量；

最小化目标方程如下：

其中，

中的值通过计算

得到估计张量

再由

进行张量填充。

S32、对填充后的张量进行收敛性分析，假设收敛阈值为∈，设置收敛条件为

S41、判断到填充后的张量

未达到收敛阈值，返回步骤S2进行张量分解得到新的张量块结构和隶属度信息，并重复后续步骤，形成交互迭代更新框架；

S42、判断到填充后的张量达到收敛阈值或最大迭代次数时，输出填充后的张量

S5、结合推荐目标生成信息推荐。

信息推荐的实例如下：

如选取用户7(21岁，医生职业)，通过聚类分析得到用户7以(0.6，0.3，0.1)的隶属度归属于3个张量块[(1,2,1)，(3,4,1),(7,11,2)]，根据用户7的多隶属信息及其所在群体内的用户相似性(可结合职业标签进行分析)，通过计算(i＝7)时，

获得用户7相关的缺失数据

最终获得用户7对未评分的电影类型

和未来的年龄段

的偏好程度预测值。可见，多维信息融合的预测结果可以由预测值的第二维度数据特征对用户7进行电影类型推荐，由预测值的第三维度数据特征可以基于时间感知进行信息推荐，如用户7及其所在职业群体在下一个年龄段可能青睐的电影类型。

本发明基于Tucker张量模型的多线性特征充分利用了数据的多维信息，并结合多维聚类的信息挖掘效果建立了多维聚类与张量填充的交互促进框架，实现更广泛、更准确的多维信息融合推荐。如本案例中第三维度数据选取“年龄”特征，类似地还有“季节”、“节假日”等，这一类“时间”维度的特征是用户共同拥有的，因此可以利用多维聚类的信息交互，进行基于时间感知的信息推荐，如旅游资讯，应季商品等个性化的信息推荐服务。不同于单一的群体偏好推荐，本发明基于近似正交约束的“软聚类”方式和基于聚类特性“隶属度和为1”的系数加权填充方式均有利于挖掘数据内部复杂的多隶属关系，从而获得用户对多个群体的偏好程度，实现更准确的信息预测。另外，区别于传统的基于低秩张量逼近的填充方式只能利用非缺失值的低秩信息挖掘用户的共同偏好或主要偏好，本发明基于柔性多维聚类的数据填充可以利用数据样本间的相似性挖掘用户的潜在偏好及相应的偏好程度，实现细粒度的信息推荐。

如图3所示，为了检验本发明所涉及数据填充方法的有效性，在生成数据集上与两种典型的张量填充算法模型进行对比，具体如下：

生成数据维数I为[250,250,250]的三维数据张量，设置三维聚类个数R为[10,10,5]，数据缺失率为80％，采用非缺失值的均值初始化填充。以

作为收敛性检验(k为迭代次数)。对比算法选取了低秩张量逼近填充算法和硬性多维聚类填充算法，如图3所示，柔性多维聚类填充只需26次迭代则达到收敛阈值，而硬性多维聚类填充和低秩张量逼近填充分别需要66次和82次。可见，两种基于多维聚类的张量填充方法比基于低秩逼近的张量填充方法的收敛性能更好，而柔性多维聚类方法的表现更是优于硬性多维聚类方法。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。