CN113688258A - 一种基于柔性多维聚类的信息推荐方法及系统 - Google Patents

一种基于柔性多维聚类的信息推荐方法及系统 Download PDF

Info

Publication number
CN113688258A
CN113688258A CN202110961056.3A CN202110961056A CN113688258A CN 113688258 A CN113688258 A CN 113688258A CN 202110961056 A CN202110961056 A CN 202110961056A CN 113688258 A CN113688258 A CN 113688258A
Authority
CN
China
Prior art keywords
tensor
data
clustering
information
membership
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110961056.3A
Other languages
English (en)
Inventor
周郭许
邱奕纯
张桂东
孙为军
谢胜利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110961056.3A priority Critical patent/CN113688258A/zh
Publication of CN113688258A publication Critical patent/CN113688258A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Finance (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于柔性多维聚类的信息推荐方法及系统,该方法包括:S1、采集数据并根据数据构建三维数据张量;S2、对三维数据张量进行分解,得到张量块结构和多隶属度聚类信息;S3、根据张量块结构和多隶属度聚类信息进行张量填充并判断收敛性;S4、循环步骤S2‑S3直至判断到填充后张量达到收敛阈值,输出填充后张量;S5、将输出的填充后张量和推荐目标结合,生成信息推荐。该系统包括:预处理模块、分解模块、填充模块、交互模块和推荐模块。通过使用本发明,能够为用户提供更准确和细粒度的推荐服务。本发明作为一种基于柔性多维聚类的信息推荐方法及系统,可广泛应用于数据挖掘领域。

Description

一种基于柔性多维聚类的信息推荐方法及系统
技术领域
本发明涉及数据挖掘领域,尤其涉及一种基于柔性多维聚类的信息推荐方法及系统。
背景技术
随着信息科技的迅猛发展,电子商务或多媒体领域每天以TB级的数据量进行数据流通,但实际应用中的数据往往存在缺失和损坏的问题,无法直接获取有用信息对用户进行推荐。
推荐方法及系统的性能与数据填充的质量密切相关,现有的数据挖掘嵌入式填充技术仍存在以下不足:1)基于矩阵分解的聚类方式,无法有效剖析高阶多维数据的真实结构信息;2)基于“硬聚类”的数据挖掘方式,如k-means,这类方法不仅目标归属性单一,不适用于多隶属度聚类任务,而且聚类结果对缺失值和奇异值敏感,直接削弱了数据填充质量;3)基于指数型加权的数据填充技术未能考虑“加权和为1”的聚类特性,使得多隶属度聚类结果的可解释性和精度均受到限制;4)受限于数据计算和存储的能力,现有技术未能很好地应对大规模稀疏数据的填充问题。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于柔性多维聚类的信息推荐方法及系统,能够为用户提供更准确和细粒度的推荐服务。
本发明所采用的第一技术方案是:一种基于柔性多维聚类的信息推荐方法,包括以下步骤:
S1、采集数据并根据数据构建三维数据张量;
S2、对三维数据张量进行分解,得到张量块结构和多隶属度聚类信息;
S3、根据张量块结构和多隶属度聚类信息进行张量填充并判断收敛性;
S4、循环步骤S2-S3直至判断到填充后张量达到收敛阈值,输出填充后张量;
S5、将输出的填充后张量和推荐目标结合,生成信息推荐。
进一步,所述对三维数据张量进行分解,得到张量块结构和多隶属度聚类信息这一步骤,其具体包括:
S11、确立推荐目标,采集对应的原始数据;
S12、根据原始数据中的数据特征构建三维数据张量;
S13、对三维数据张量进行初始化填充,得到初步填充后的三维数据张量。
进一步,所述对三维数据张量进行分解,得到张量块结构和多隶属度聚类信息这一步骤,其具体包括:
S21、对三维数据张量进行分解,得到对应的张量块结构;
S22、根据张量块结构挖掘多隶属度聚类信息。
进一步,所述对三维数据张量进行分解,得到对应的张量块结构这一步骤,其具体包括:
采用贝叶斯信息准则确定各维度的聚类个数,将三维数据张量通过如下方程进行近似正交的非负Tucker分解,分解为一个核张量和三个因子矩阵,得到张量块结构:
Figure BDA0003222061710000021
Figure BDA0003222061710000022
上式中,
Figure BDA0003222061710000023
为输入的三维数据张量,
Figure BDA0003222061710000024
为核张量,A(n)为第n维的因子矩阵,In代表第n维的样本数,Rn代表第n维的聚类个数,
Figure BDA0003222061710000025
解决上述目标方程,采用增广拉格朗日乘子法,将有约束的优化问题转化为无约束的优化问题,引入相应的拉格朗日乘子λ和惩罚项系数β,目标方程改写如下:
Figure BDA0003222061710000026
进一步,所述目标方程符合Lipschitz连续准则,采用加速近段梯度算法(APG)对变量的进行梯度信息求解,基于块坐标下降法(BCD)的迭代更新框架进行变量和乘子更新。最终,在达到收敛阈值或最大迭代次数时,输出最优的核张量
Figure BDA0003222061710000027
和因子矩阵A(n) *(下标“*”表示最优值),得到多维聚类结果,即张量块结构。
进一步,所述张量块结构具体表示如下:
Figure BDA0003222061710000028
上式中,核张量
Figure BDA0003222061710000029
代表多维聚类中心,也是张量块的均值中心,因子矩阵A(n)(n=1,2,3)的元素取值为[0,1],表示多维聚类的隶属度信息。
进一步,所述根据张量块结构挖掘多隶属度聚类信息这一步骤,其具体包括:
基于“隶属度和为1”的约束,根据张量块结构从各因子矩阵的行向量挖掘数据的多隶属关系,得到柔性多维聚类信息。
进一步,所述根据聚类信息对数据进行张量填充,并结合推荐目标生成信息推荐这一步骤,其具体包括:
S31、基于柔性多维聚类信息将数据所属多个张量块的类别信息按照隶属度系数加权的方式进行融合,进行缺失值填充;
S32、对填充后的张量进行收敛性分析。
进一步,所述循环步骤S2-S3直至判断到填充后的张量达到收敛阈值,输出填充后的张量这一步骤,其具体为:
将S2基于柔性多维聚类的数据挖掘嵌入到S3张量填充过程中,建立数据挖掘与数据填充的交互迭代更新框架,并通过最小化以下目标方程完成缺失值的填充:
Figure BDA0003222061710000031
其中,下标“*”表示达到收敛的最优值,下标“o”表示非缺失值的索引集合。
本发明所采用的第二技术方案是:一种基于柔性多维聚类的信息推荐系统,包括:
预处理模块,用于采集数据并根据数据构建三维数据张量;
分解模块,用于对三维数据张量进行分解,得到张量块结构和多隶属度聚类信息;
填充模块,用于根据张量块结构和多隶属度聚类信息进行张量填充并判断收敛性;
交互模块,用于循环步骤S2-S3直至判断到填充后张量达到收敛阈值,输出填充后张量;推荐模块,用于将输出的填充后张量和推荐目标结合,生成信息推荐
本发明方法及系统的有益效果是:本发明先通过近似正交非负Tucker分解对数据进行柔性多维聚类,再结合聚类结果分析数据的多隶属度信息,并以“加权和为1”的系数加权方式进行张量填充,最后建立多维聚类和张量填充的交互迭代更新框架,达到提升数据填充质量,为用户提供更准确和细粒度的推荐服务的目的。同时,本发明可有效应对普遍存在于推荐领域的大规模稀疏数据的挑战,一方面,利用柔性多维聚类的交互促进作用,缓解稀疏数据的填充压力;另一方面,通过张量分解的数据压缩技巧,缩减数据计算和存储的成本,最终提升大规模稀疏数据填充和生成推荐的有效性和可靠性。
附图说明
图1是本发明一种基于柔性多维聚类的信息推荐方法的流程示意图;
图2是本发明一种基于柔性多维聚类实现数据填充的具体实施例示意图;
图3是本发明具体实施例柔性多维聚类填充、硬性多维聚类填充和低秩张量逼近填充达到收敛阈值的所需迭代次数的对比图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1和图2,本发明提供了一种基于柔性多维聚类的信息推荐方法,本发明可面向三维及以上的数据分析,为了方便展示和说明,以三维张量为例进行阐述,该方法包括以下步骤:
S1、采集数据并根据数据构建三维数据张量;
S2、对三维数据张量进行分解,得到张量块结构和多隶属度聚类信息;
S3、根据张量块结构和多隶属度聚类信息进行张量填充并判断收敛性;
S4、循环步骤S2-S3直至判断到填充后张量达到收敛阈值,输出填充后张量;
S5、将输出的填充后张量和推荐目标结合,生成信息推荐。
进一步作为本方法的优选实施例,所述采集数据并根据数据构建三维数据张量这一步骤,其具体包括:
S11、确立推荐目标,采集对应的原始数据;
具体以movielens-100k数据集为例,采集数据,用户ID向量(包含943名用户),用户职业向量(19种职业类型和1个不确定,1个未就业),用户年龄向量(年龄分布于7~73岁),电影类别向量(含18个类别和1个未知类别),电影分类矩阵(含1682部电影的19种归类信息),用户对电影的评分矩阵(含100000条用户对电影的评分信息,评分等级分为1~5);其中,用户ID向量、用户职业向量和电影类别向量作为标签数据仅用于后阶段聚类结果分析。
S12、根据原始数据中的数据特征构建三维数据张量,大规模数据先进行Tucker分解的压缩处理;
根据数据特征构建三维数据张量,第一维度是943名用户,第二维度是1682部电影,第三维度是7个用户年龄段(7-18-24-34-44-49-55-73);根据第三维度的年龄段划分,将S1中采集到的用户对电影的评分矩阵中100000条评分信息划分为7个二维评分矩阵,得到存在数据缺失的三维数据
Figure BDA0003222061710000041
寻找缺失值的索引记为集合
Figure BDA0003222061710000042
非缺失值的索引记为集合o,根据
Figure BDA0003222061710000043
和o对应生成掩膜张量O∈{0,1}对存在缺失的真实数据
Figure BDA0003222061710000044
进行数值点乘,1对应保留非缺失值,0将缺失值(NaN)置零,令
Figure BDA0003222061710000045
S13、对三维数据张量进行初始化填充,得到初步填充后的三维数据张量。
具体地,为了缓解数据维度增加所造成的数据稀疏问题,避免数据缺失对聚类分析造成的直接影响。对缺失数据进行初始化填充十分必要。考虑初始化填充的有效性,针对两种常见数据模型采用不同的初始化填充:对于非稀疏数据,可通过对
Figure BDA0003222061710000056
中可观测值的均值计算或通过对缺失值所在多维向量构成的秩1张量进行均值计算,对缺失值进行预填充,后者相对于前者可以根据具体数据样本的多维特征信息进行更有效的数据初始化填充,并缓解数据计算压力;对于稀疏数据,可采用Tucker分解先对数据进行压缩处理,再利用平均比率法进行预填充。
进一步作为本方法的优选实施例,所述采集数据并根据数据构建三维数据张量这一步骤,其具体包括:
S11、确立推荐目标,采集对应的原始数据;
S12、根据原始数据构建三维数据张量;
S13、对三维数据张量进行初始化填充,得到初步填充后的三维数据张量。
进一步作为本方法的优选实施例,所述对三维数据张量进行分解,得到张量块结构和多隶属度聚类信息这一步骤,其具体包括:
S21、对三维数据张量进行分解,得到对应的张量块结构;
S22、根据张量块结构挖掘多隶属度聚类信息。
进一步作为本方法的优选实施例,所述对三维数据张量进行分解,得到对应的张量块结构这一步骤,其具体包括:
设置各维度的聚类个数,将三维数据张量进行近似正交的非负Tucker分解,分解为一个核张量和三个因子矩阵,得到张量块结构。
具体地,首先设置各维度的聚类个数,可按照贝叶斯信息准则确定聚类个数,也可按照数据的类别特征确定聚类个数,结合本案例,给定三个维度聚类数为[21,19,3],将上述的三维数据张量
Figure BDA0003222061710000057
进行近似正交的非负Tucker分解,得到一个核张量和三个因子矩阵,形成张量块结构。
利用正交非负矩阵分解(NMF)与K-means聚类的等效性,将二维聚类模型扩展到基于正交非负张量分解(NTD)的多维K-means聚类模型,并结合Tucker分解的多线性优势,建立正交非负Tucker分解,对上述三维张量
Figure BDA0003222061710000051
进行分解:
Figure BDA0003222061710000052
Figure BDA0003222061710000053
其中核张量
Figure BDA0003222061710000054
代表聚类中心,各因子矩阵
Figure BDA0003222061710000055
作为聚类指示。在更新核张量时,通常采用展开(unfolding)的形式:
Figure BDA0003222061710000061
其中,
Figure BDA0003222061710000062
Figure BDA0003222061710000063
为核张量的向量形式。由于K-means遵从“硬聚类”原则,即一个数据样本只归属于一个类别(簇),对于多隶属度聚类任务,特别是存在于数据样本与类别(簇)之间的复杂隶属关系,“硬聚类”的单一归属性质无法提供细粒度的数据挖掘,因此,对因子矩阵引入近似正交约束,实现柔性的多维聚类分析,充分挖掘数据的复杂隶属信息。具体地通过以下方程实现:
Figure BDA0003222061710000064
其中,
Figure BDA0003222061710000065
α用于调节因子矩阵的正交程度,α→∞则等效于完全正交的“硬聚类”。对于多隶属度的聚类任务,进行“隶属度和为1”的约束也是提升聚类精度的关键因素,因此,进一步对因子矩阵添加该约束条件,实现更准确的聚类分析,目标方程如下:
Figure BDA0003222061710000066
Figure BDA0003222061710000067
解决上述目标方程,采用增广拉格朗日乘子法,将有约束的优化问题转化为无约束的优化问题,引入相应的拉格朗日乘子λ和惩罚项系数β,目标方程改写如下:
Figure BDA0003222061710000068
对于λ和β的更新规则,如下进行:
Figure BDA0003222061710000069
Figure BDA00032220617100000610
其中,iter为BCD框架的迭代次数,
Figure BDA00032220617100000611
β=(β1,β2)随着迭代更新λ→λ*,β→∞,双重的更新机制进一步保证了算法的收敛性能。对目标方程F的求解,采取基于块坐标下降(BCD)的更新框架,各变量的一阶梯度如下:
Figure BDA0003222061710000071
Figure BDA0003222061710000072
其中,
Figure BDA0003222061710000073
由于a(N)和c两个变量的一阶梯度符合Lipschitz连续准则,对应的Lipschitz常数分别为
Figure BDA0003222061710000074
因此采用加速近端梯度(APG)算法进行优化,APG的主要步骤包括:
Figure BDA0003222061710000075
Figure BDA0003222061710000076
Figure BDA0003222061710000077
其中,k为APG算法模型的迭代次数,P+(x)将x的负值投影为正值,上述步骤以因子矩阵更新为例,对于核张量c的更新也是同理。最终,在达到收敛阈值或最大迭代次数时,输出最优的核张量
Figure BDA0003222061710000078
和因子矩阵A(n) *(下标“*”表示最优值),得到多维聚类结果,即张量块结构。
进一步作为本方法的优选实施例,所述张量块结构具体表示如下:
Figure BDA0003222061710000079
上式中,
Figure BDA00032220617100000710
为核张量代表多维聚类中心,也是张量块的均值中心,A(n)为第n维因子矩阵(n=1,2,3),因子矩阵的元素取值为[0,1],表示多维聚类的隶属信息,如A(1)的一个列向量代表一个类别的用户归属信息,一个行向量代表一个用户的类别归属信息,每一行的非零值取值越大表示该用户对该类别的隶属度越强。通过聚类中心和三维隶属信息,可以获得三维的张量块结构,每个张量块代表一个群体,一个群体包含了某用户类别、电影类别和年龄阶段三个维度的信息,对应的核张量取值作为张量块的均值中心。基于近似正交非负Tucker分解实现柔性多维聚类的过程参照图2。
进一步作为本方法优选实施例,所述根据张量块结构挖掘多隶属度聚类信息这一步骤,其具体包括:
基于隶属度和为1的约束,根据张量块结构从各因子矩阵的行向量挖掘数据的多隶属关系,得到柔性多维聚类信息。
具体地,根据多隶属度的聚类特性,每个因子矩阵的行向量元素和必须为1。通过因子矩阵“行和为1”的约束,保证了多隶属度聚类任务“隶属度和为1”的基本特性。如附图1,假设A(1)的第一行中非零元素为
Figure BDA0003222061710000081
则表示用户1属于类别1,类别2和类别3的隶属度分别为0.1,0.7和0.2(可以结合职业标签信息进行类别分析),其他两个维度以此类推,可计算得到三元数据{用户1,电影1,年龄段1}归属于张量块(1,1,1)的隶属度为3\(0.1+0.6+0.8)=0.5。因此,通过本发明的推荐方法不仅可以获得某一用户群体在某个年龄段的对不同电影类型的偏好程度,还可以根据多维聚类结果推测某个用户群体在未来不同年龄段对不同电影类型的偏好程度,以更灵活的多维聚类分析实现细粒度的多维信息融合,进一步提升后续的数据填充质量。
进一步作为本方法优选实施例,所述根据聚类信息对数据进行张量填充,并结合推荐目标生成信息推荐这一步骤,其具体包括:
S31、基于柔性多维聚类信息将数据所属多个张量块的类别信息融合,进行张量填充,得到填充后的张量;
最小化目标方程如下:
Figure BDA0003222061710000082
其中,
Figure BDA0003222061710000083
中的值通过计算
Figure BDA0003222061710000084
得到估计张量
Figure BDA0003222061710000085
再由
Figure BDA0003222061710000086
Figure BDA0003222061710000087
进行张量填充。
S32、对填充后的张量进行收敛性分析,假设收敛阈值为∈,设置收敛条件为
Figure BDA0003222061710000088
S41、判断到填充后的张量
Figure BDA0003222061710000089
未达到收敛阈值,返回步骤S2进行张量分解得到新的张量块结构和隶属度信息,并重复后续步骤,形成交互迭代更新框架;
S42、判断到填充后的张量达到收敛阈值或最大迭代次数时,输出填充后的张量
Figure BDA00032220617100000810
S5、结合推荐目标生成信息推荐。
信息推荐的实例如下:
如选取用户7(21岁,医生职业),通过聚类分析得到用户7以(0.6,0.3,0.1)的隶属度归属于3个张量块[(1,2,1),(3,4,1),(7,11,2)],根据用户7的多隶属信息及其所在群体内的用户相似性(可结合职业标签进行分析),通过计算(i=7)时,
Figure BDA00032220617100000811
Figure BDA00032220617100000812
获得用户7相关的缺失数据
Figure BDA00032220617100000813
最终获得用户7对未评分的电影类型
Figure BDA0003222061710000091
和未来的年龄段
Figure BDA0003222061710000092
的偏好程度预测值。可见,多维信息融合的预测结果可以由预测值的第二维度数据特征对用户7进行电影类型推荐,由预测值的第三维度数据特征可以基于时间感知进行信息推荐,如用户7及其所在职业群体在下一个年龄段可能青睐的电影类型。
本发明基于Tucker张量模型的多线性特征充分利用了数据的多维信息,并结合多维聚类的信息挖掘效果建立了多维聚类与张量填充的交互促进框架,实现更广泛、更准确的多维信息融合推荐。如本案例中第三维度数据选取“年龄”特征,类似地还有“季节”、“节假日”等,这一类“时间”维度的特征是用户共同拥有的,因此可以利用多维聚类的信息交互,进行基于时间感知的信息推荐,如旅游资讯,应季商品等个性化的信息推荐服务。不同于单一的群体偏好推荐,本发明基于近似正交约束的“软聚类”方式和基于聚类特性“隶属度和为1”的系数加权填充方式均有利于挖掘数据内部复杂的多隶属关系,从而获得用户对多个群体的偏好程度,实现更准确的信息预测。另外,区别于传统的基于低秩张量逼近的填充方式只能利用非缺失值的低秩信息挖掘用户的共同偏好或主要偏好,本发明基于柔性多维聚类的数据填充可以利用数据样本间的相似性挖掘用户的潜在偏好及相应的偏好程度,实现细粒度的信息推荐。
如图3所示,为了检验本发明所涉及数据填充方法的有效性,在生成数据集上与两种典型的张量填充算法模型进行对比,具体如下:
生成数据维数I为[250,250,250]的三维数据张量,设置三维聚类个数R为[10,10,5],数据缺失率为80%,采用非缺失值的均值初始化填充。以
Figure BDA0003222061710000093
作为收敛性检验(k为迭代次数)。对比算法选取了低秩张量逼近填充算法和硬性多维聚类填充算法,如图3所示,柔性多维聚类填充只需26次迭代则达到收敛阈值,而硬性多维聚类填充和低秩张量逼近填充分别需要66次和82次。可见,两种基于多维聚类的张量填充方法比基于低秩逼近的张量填充方法的收敛性能更好,而柔性多维聚类方法的表现更是优于硬性多维聚类方法。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (9)

1.一种基于柔性多维聚类的信息推荐方法,其特征在于,包括以下步骤:
S1、采集数据并根据数据构建三维数据张量;
S2、对三维数据张量进行分解,得到张量块结构和多隶属度聚类信息;
S3、根据张量块结构和多隶属度聚类信息进行张量填充并判断收敛性;
S4、循环步骤S2-S3直至判断到填充后张量达到收敛阈值,输出填充后张量;
S5、将输出的填充后张量和推荐目标结合,生成信息推荐。
2.根据权利要求1所述一种基于柔性多维聚类的信息推荐方法,其特征在于,所述采集数据并根据数据构建三维数据张量这一步骤,其具体包括:
S11、确立推荐目标,采集对应的原始数据;
S12、根据原始数据中的数据特征构建三维数据张量;
S13、对三维数据张量进行初始化填充,得到初步填充后的三维数据张量。
3.根据权利要求2所述一种基于柔性多维聚类的信息推荐方法,其特征在于,所述对三维数据张量进行分解,得到张量块结构和多隶属度聚类信息这一步骤,其具体包括:
S21、对三维数据张量进行分解,得到对应的张量块结构;
S22、根据张量块结构挖掘多隶属度聚类信息。
4.根据权利要求3所述一种基于柔性多维聚类的信息推荐方法,其特征在于,所述对三维数据张量进行分解,得到对应的张量块结构这一步骤,其具体包括:
采用贝叶斯信息准则确定各维度的聚类个数,将三维数据张量通过如下方程进行近似正交的非负Tucker分解,分解为一个核张量和三个因子矩阵,得到张量块结构:
Figure FDA0003222061700000011
Figure FDA0003222061700000012
上式中,
Figure FDA0003222061700000013
为输入的三维数据张量,
Figure FDA0003222061700000014
为核张量,A(n)为第n维的因子矩阵,In代表第n维的样本数,Rn代表第n维的聚类个数,
Figure FDA0003222061700000015
5.根据权利要求4所述一种基于柔性多维聚类的信息推荐方法,其特征在于,所述张量块结构具体表示如下:
Figure FDA0003222061700000016
上式中,核张量
Figure FDA0003222061700000017
代表多维聚类中心,也是张量块的均值中心,因子矩阵A(n)(n=1,2,3)的元素取值为[0,1],表示多维聚类的隶属度信息。
6.根据权利要求5所述一种基于柔性多维聚类的信息推荐方法,其特征在于,所述根据张量块结构挖掘多隶属度聚类信息这一步骤,其具体包括:
基于隶属度和为1的约束,根据张量块结构从各因子矩阵的行向量挖掘数据的多隶属关系,得到柔性多维聚类信息。
7.根据权利要求6所述一种基于柔性多维聚类的信息推荐方法,其特征在于,所述根据张量块结构和多隶属度聚类信息进行张量填充并判断收敛性这一步骤,其具体包括:
S31、基于柔性多维聚类信息将数据所属多个张量块的类别信息按照隶属度系数加权的方式进行融合,进行缺失值填充;
S32、对填充后的张量进行收敛性分析。
8.根据权利要求7所述一种基于柔性多维聚类的信息推荐方法,其特征在于,所述循环步骤S2-S3直至判断到填充后张量达到收敛阈值,输出填充后张量这一步骤,其具体为:
将S2基于柔性多维聚类的数据挖掘嵌入到S3张量填充过程中,建立数据挖掘与数据填充的交互迭代更新框架,并通过最小化以下目标方程完成缺失值的填充,得到填充后张量:
Figure FDA0003222061700000021
其中,下标“*”表示达到收敛的最优值,下标“o”表示非缺失值的索引集合。
9.一种基于柔性多维聚类的信息推荐系统,其特征在于,包括:
预处理模块,用于采集数据并根据数据构建三维数据张量;
分解模块,用于对三维数据张量进行分解,得到张量块结构和多隶属度聚类信息;
填充模块,用于根据张量块结构和多隶属度聚类信息进行张量填充并判断收敛性;
交互模块,用于循环步骤S2-S3直至判断到填充后张量达到收敛阈值,输出填充后张量;
推荐模块,用于将输出的填充后张量和推荐目标结合,生成信息推荐。
CN202110961056.3A 2021-08-20 2021-08-20 一种基于柔性多维聚类的信息推荐方法及系统 Pending CN113688258A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110961056.3A CN113688258A (zh) 2021-08-20 2021-08-20 一种基于柔性多维聚类的信息推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110961056.3A CN113688258A (zh) 2021-08-20 2021-08-20 一种基于柔性多维聚类的信息推荐方法及系统

Publications (1)

Publication Number Publication Date
CN113688258A true CN113688258A (zh) 2021-11-23

Family

ID=78581049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110961056.3A Pending CN113688258A (zh) 2021-08-20 2021-08-20 一种基于柔性多维聚类的信息推荐方法及系统

Country Status (1)

Country Link
CN (1) CN113688258A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859059A (zh) * 2022-08-25 2023-03-28 广东工业大学 一种模糊信息的可重复标注方法、系统及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599368A (zh) * 2016-11-14 2017-04-26 浙江大学 基于改进粒子提议分布和自适应粒子重采样的FastSLAM方法
CN106776479A (zh) * 2016-12-16 2017-05-31 北京理工大学 一种面向多属性评分系统的评分预测方法
CN106767828A (zh) * 2016-12-29 2017-05-31 南京邮电大学 一种手机室内定位解决方法
CN106908762A (zh) * 2017-01-12 2017-06-30 浙江工业大学 一种针对uhf‑rfid系统的多假设ukf目标跟踪方法
CN108737856A (zh) * 2018-04-26 2018-11-02 西北大学 社会关系感知的iptv用户行为建模与节目推荐方法
CN109579849A (zh) * 2019-01-14 2019-04-05 浙江大华技术股份有限公司 机器人定位方法、装置和机器人及计算机存储介质
CN109798896A (zh) * 2019-01-21 2019-05-24 东南大学 一种室内机器人定位与建图方法及装置
CN111259255A (zh) * 2020-02-11 2020-06-09 汕头大学 一种基于三维张量迭代填补的推荐方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599368A (zh) * 2016-11-14 2017-04-26 浙江大学 基于改进粒子提议分布和自适应粒子重采样的FastSLAM方法
CN106776479A (zh) * 2016-12-16 2017-05-31 北京理工大学 一种面向多属性评分系统的评分预测方法
CN106767828A (zh) * 2016-12-29 2017-05-31 南京邮电大学 一种手机室内定位解决方法
CN106908762A (zh) * 2017-01-12 2017-06-30 浙江工业大学 一种针对uhf‑rfid系统的多假设ukf目标跟踪方法
CN108737856A (zh) * 2018-04-26 2018-11-02 西北大学 社会关系感知的iptv用户行为建模与节目推荐方法
CN109579849A (zh) * 2019-01-14 2019-04-05 浙江大华技术股份有限公司 机器人定位方法、装置和机器人及计算机存储介质
CN109798896A (zh) * 2019-01-21 2019-05-24 东南大学 一种室内机器人定位与建图方法及装置
CN111259255A (zh) * 2020-02-11 2020-06-09 汕头大学 一种基于三维张量迭代填补的推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YICHUN QIU 等: "Approximately orthogonal nonnegative Tucker decomposition for flexible multiway clustering", 《SCIENCE CHINA TECHNOLOGICAL SCIENCES》 *
冯雅莉,孙为军: "一种基于快速随机投影的矩阵填充方法", 《计算机应用与软件》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859059A (zh) * 2022-08-25 2023-03-28 广东工业大学 一种模糊信息的可重复标注方法、系统及装置
CN115859059B (zh) * 2022-08-25 2024-03-22 广东工业大学 一种模糊信息的可重复标注方法、系统及装置

Similar Documents

Publication Publication Date Title
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN109241424B (zh) 一种推荐方法
CN110807154A (zh) 一种基于混合深度学习模型的推荐方法与系统
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
CN113535984A (zh) 一种基于注意力机制的知识图谱关系预测方法及装置
Zou et al. Regularized simultaneous model selection in multiple quantiles regression
CN112488070A (zh) 一种面向遥感图像目标检测的神经网络压缩方法
CN109871454B (zh) 一种鲁棒离散监督跨媒体哈希检索方法
CN110110610B (zh) 一种用于短视频的事件检测方法
Tang et al. One-step multiview subspace segmentation via joint skinny tensor learning and latent clustering
WO2018133596A1 (zh) 一种基于名义属性的连续型特征构造方法
CN108021930A (zh) 一种自适应的多视角图像分类方法及系统
CN113420421B (zh) 移动边缘计算中基于时序正则化张量分解的QoS预测方法
CN111860186A (zh) 一种基于多注意力机制的人脸属性编辑网络
CN111178986A (zh) 用户-商品偏好的预测方法及系统
Huai et al. Zerobn: Learning compact neural networks for latency-critical edge systems
Zhao et al. Multi-view clustering with orthogonal mapping and binary graph
Chen et al. Efficient and differentiable low-rank matrix completion with back propagation
CN113688258A (zh) 一种基于柔性多维聚类的信息推荐方法及系统
Su et al. Deep low-rank matrix factorization with latent correlation estimation for micro-video multi-label classification
CN111079011A (zh) 一种基于深度学习的信息推荐方法
Shi et al. ℓ 2-Relaxation: With Applications to Forecast Combination and Portfolio Analysis
Sharifi et al. A new algorithm for solving data sparsity problem based-on Non negative matrix factorization in recommender systems
CN114911778A (zh) 数据处理方法、装置、计算机设备及存储介质
Li et al. An alternating nonmonotone projected Barzilai–Borwein algorithm of nonnegative factorization of big matrices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211123

RJ01 Rejection of invention patent application after publication