CN109657149A - 一种基于生成对抗网络和双聚类的推荐方法及系统 - Google Patents

一种基于生成对抗网络和双聚类的推荐方法及系统 Download PDF

Info

Publication number
CN109657149A
CN109657149A CN201811592917.XA CN201811592917A CN109657149A CN 109657149 A CN109657149 A CN 109657149A CN 201811592917 A CN201811592917 A CN 201811592917A CN 109657149 A CN109657149 A CN 109657149A
Authority
CN
China
Prior art keywords
evaluation
network
double
user
double focusing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811592917.XA
Other languages
English (en)
Inventor
段宝彬
杜振东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Cloud Network Technology Co Ltd
Hefei University
Hefei College
Original Assignee
Nanjing Cloud Network Technology Co Ltd
Hefei College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Cloud Network Technology Co Ltd, Hefei College filed Critical Nanjing Cloud Network Technology Co Ltd
Priority to CN201811592917.XA priority Critical patent/CN109657149A/zh
Publication of CN109657149A publication Critical patent/CN109657149A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于生成对抗网络和双聚类的推荐方法及系统,属于计算机应用技术领域。方法包括:首先读取用户‑项目的不完备评价数据集,接下来构建由生成网络和判别网络组成的生成对抗网络,然后利用训练好的生成网络对缺失评价值进行预测和填充,最后进行双聚类,根据双聚类得到的子簇,进而对不同用户群进行对应的项目组推荐。本发明的推荐方法及系统利用训练好的生成网络对缺失评价值进行填充,克服了传统均值(或众数)、线性插值等缺失评价值填充方法精度低误差大的缺点;并且利用双聚类集成算法对填充后的完备评价数据进行聚类,比采用单个双聚类算法聚类的结果更有效,面向特定用户群推荐的项目组针对性更强,从而提高了推荐的效果。

Description

一种基于生成对抗网络和双聚类的推荐方法及系统
技术领域
本发明涉及计算机应用技术领域,特别是基于深度学习和双聚类分析的推荐方法及系统。
背景技术
随着信息技术和互联网技术的发展,从海量信息中给用户推荐其可能感兴趣的信息成为一个研究热点。传统的推荐方法可以分为协同过滤推荐方法、基于内容的推荐方法和混合推荐方法三种。双聚类分析技术作为一种重要的无监督数据挖掘方法,它通过对数据矩阵的行和列同时进行聚类,从而获得隐藏在数据中的局部结构和有趣子模式。2000年CHENG和CHURCH提出双聚类的概念,并给出了双聚类的CC算法,该算法使用贪心迭代搜索算法寻找双聚类,并用随机数替换找到的双聚类对应元素,寻找下一个双聚类。在其基础上进行研究,不少学者得到了一些有意义的研究成果。2003年,YANG和WANG提出了FLOC算法,通过随机化初始聚类,修正了CC算法找不到重叠双聚类的缺点,但聚类结果容易陷入局部最优。于是,BRYAN和DIVINA等人分别将模拟退火算法和多目标进化算法应用于双聚类,有助于寻找双聚类问题的全局最优解。2012年,Hanczar等人提出用集成方法解决双聚类问题,取得了较好的效果。2014年,Goodfellow等人提出了著名的生成对抗网络,通过生成网络和判别网络的相互博弈得到一个优良的生成模型,目前已在图像分类、文本挖掘、图像修复、异常检测等领域获得广泛应用。例如,2017年,Li等人用生成对抗网络对部分遮挡或局部损坏的人脸图像进行修复。目前的各种推荐方法和系统大多没考虑含有缺失评价值的情况或者采用简单的均值(众数)代替法、线性插值法、回归预测法等,但这些方法存在精度低、误差大的问题。另外,现有推荐方法和系统在对不同用户群的针对性项目推荐方面也还存在着不够精准的问题。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于生成对抗网络和双聚类的推荐方法及系统,本发明克服了传统的推荐方法和系统缺失评价值填充精度低、误差大的局限性,可以实现对不同用户群进行精准的项目推荐。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于生成对抗网络和双聚类的推荐方法及系统,包括以下步骤:
步骤1、读取用户-项目的不完备评价数据集,并对非缺失评价值归一化;
步骤2、根据每一个用户对所有项目的评价数据中是否含有缺失值,将用户划分为不含缺失评价值的完备评价用户和含缺失评价值的不完备评价用户;
步骤3、基于完备评价用户对所有项目归一化后的评价数据矩阵,构建并训练生成对抗网络;
步骤4、利用训练好的生成网络预测和填充归一化后的缺失评价值,得到用户-项目的完备归一化后评价值对应的数据矩阵;
步骤5、基于填充后所有用户对所有项目的归一化后完备评价值数据矩阵,利用双聚类集成算法进行双聚类,从而得到由对应子簇构成的双聚类结果。
步骤6、针对双聚类的每个子簇,向其对应用户群进行关联项目组的推荐,从而提高推荐的效果。
作为本发明所述的一种基于生成对抗网络和双聚类的推荐方法及系统的技术方案,所述步骤3的构建并训练生成对抗网络具体如下:
(3-1)利用堆叠降噪自编码器构造生成网络,用一个二元分类器作为判别网络,组成生成对抗网络;
(3-2)基于完备评价用户的评价数据矩阵训练网络,利用堆叠降噪自编码器重构误差和生成对抗网络的误差之和最小原则确定最优网络参数。
作为本发明所述的一种基于生成对抗网络和双聚类的推荐方法及系统的技术方案,所述步骤5中利用双聚类集成算法进行双聚类包括以下步骤:
(5-1)从现有双聚类算法中选择几个适合所有样本完备数据矩阵的双聚类算法作为基聚类算法;
(5-2)基于所有样本的完备数据矩阵,运行每个基聚类算法,得到对应的双聚类结果;
(5-3)比较所有基聚类算法得到双聚类结果对应的子簇,迭代合并相似度较大的双聚类子簇,从而得到最终的双聚类结果。
作为本发明所述的一种基于生成对抗网络和双聚类的推荐方法及系统的技术方案,所述步骤(5-3)中迭代合并相似度较大的双聚类子簇,包括以下步骤:
(5-3-1)定义双聚类子簇的相似度,给定最小相似度阈值;
(5-3-2)计算双聚类结果中所有双聚类子簇两两之间的相似度;
(5-3-3)将具有最大相似度且高于最小相似度阈值的两个双聚类子簇进行合并,同时删除对应的小子簇,得到新的双聚类结果;
(5-3-4)反复执行步骤(5-3-2)和(5-3-3),直到没有双聚类子簇合并为止。
作为本发明所述的一种基于生成对抗网络和双聚类的推荐方法及系统的技术方案,所述系统包括以下模块:
评价数据读取模块,用于读取用户-项目的不完备评价数据集,并将其载入服务器内存进行归一化;
用户划分模块,用于区分完备评价用户和不完备评价用户,由处理器根据用户是否对所有项目进行完整评价进行划分,并在服务器硬盘上指定不同的区域分别存储相应的归一化评价数据;
网络构建和训练模块,用于构建和利用完备评价用户归一化的评价数据集训练生成对抗网络,获得最优的网络参数,并存储到服务器硬盘上;
缺失评价值填充模块,用于将具有最优网络参数的生成网络应用到不完备评价用户归一化后缺失评价值的预测和填充中,获得填充后完备的用户-项目归一化评价数据集,并存储到服务器硬盘上;
双聚类模块,用于对填充后完备的用户-项目归一化评价数据集进行双聚类集成,得到若干对应的双聚类子簇,将其存储到服务器硬盘上;
推荐模块,用于向特定用户群推荐对应的项目组,并在相应用户群终端显示。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明方法利用生成对抗网络填充后用户-项目的缺失评价值,并利用双聚类集成算法进行双聚类,克服了传统的缺失评价值填充方法精度低、误差大的缺点,而且采用的双聚类集成算法比单个双聚类算法聚类的结果更加多样化,对应的推荐结果针对性更强,从而提高了推荐的效果。
附图说明
图1是本发明所述方法的总流程图。
图2是本发明所述生成对抗网络训练的流程图。
图3是本发明所述双聚类集成方法的流程图。
图4是本发明所述系统的框架图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明的基本思路:首先对原始用户-项目评价值数据的非缺失评价值进行归一化;接下来构造并训练生成对抗网络,用训练好的生成对抗网络预测和填充缺失属性值,最后利用双聚类集成算法进行双聚类,得到各个双聚类子簇,进而针对不同用户群输出对应的推荐结果。
技术方案描述如下:
本发明所述方法的总流程图如图1所示,以电影推荐为例,包括以下步骤:
1.读取观众-电影评分数据集,并对每部电影非缺失评分值采用最大最小归一化方法对评分值进行归一化;
2.根据每一个观众对所有电影的评分数据中是否含有缺失值,将用户观众划分为不含缺失评分值的完备评分观众和含缺失评分值的不完备评分用户观众。
4.构建并训练生成对抗网络,填充归一化缺失评分值;如图2所示,采用生成对抗网络对缺失评分值填充的具体步骤如下:
(1)利用堆叠降噪自编码器构造生成网络G、用一个二元分类器作为判别网络D,组成生成对抗网络;
(2)给定随机初始化参数,基于完备评分用户的评分值数据矩阵A交替训练生成网络G和判别网络D,利用堆叠降噪自编码器重构误差和生成对抗网络的误差之和最小原则确定最优网络参数θ12,K,θk
(3)根据训练得到的最优网络参数θ12,K,θk,由生成网络G预测并填充缺失评分值,得到所有观众对所有电影的完备评分数据矩阵。
5.用双聚类集成算法对填充后所有观众对所有电影的完备评分数据矩阵进行双聚类,如图3所示,主要包括以下步骤:
(1)综合考虑双聚类子簇包含的样本、属性和对应属性值,定义两个双聚类子簇的相似度S,给定最小相似度阈值α;
(2)选择L个双聚类算法C1,C2,…,CL作为基双聚类算法;
(3)基于所有样本的完备数据,依次运行基双聚类算法C1,C2,…,CL,得到对应的双聚类子簇,并将所有基双聚类算法得到的双聚类子簇组成集合E;
(4)计算E中所有双聚类子簇两两之间的相似度,得到对应相似度矩阵U;
(5)基于所有样本的完备数据,依次运行基双聚类算法C1,C2,…,CL,得到对应的双聚类子簇,并将所有基双聚类算法得到的双聚类子簇组成集合E;
(6)反复执行步骤(4)和(5),直到没有双聚类子簇合并为止。
6.针对双聚类的每个子簇,向其对应用户群进行关联各部电影的推荐,从而提高推荐的效果。
本发明所述系统的框架图如图4所示,以电影推荐为例,包括以下模块:评价数据读取模块,用于读取用户-项目的不完备评价数据集,并将其载入服务器内存利用CPU进行归一化处理;
用户划分模块,用于区分完备评价用户和不完备用户,由处理器根据用户是否对所有项目进行完整评价进行划分,并在服务器硬盘上指定不同的区域分别存储相应归一化评价数据;
网络构建和训练模块,用于构建和利用完备评价用户归一化的评价数据集训练生成对抗网络,获得最优的网络参数,并存储到服务器硬盘上;
缺失评价值填充模块,用于将具有最优网络参数的生成网络应用到不完备评价用户归一化后缺失评价值的预测和填充中,获得填充后完备的用户-项目归一化评价数据集,并存储到服务器硬盘上;
双聚类模块,用于对填充后完备的用户-项目归一化评价数据集进行双聚类集成,得到若干对应的双聚类子簇,将其存储到服务器硬盘上;
推荐模块,用于向特定用户群推荐对应的项目组,并在相应用户群终端显示。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (5)

1.一种基于生成对抗网络和双聚类的推荐方法,其特征在于,包括以下步骤:
步骤1、读取用户-项目的不完备评价数据集,并对非缺失评价值归一化;
步骤2、根据每一个用户对所有项目的评价数据中是否含有缺失值,将用户划分为不含缺失评价值的完备评价用户和含缺失评价值的不完备评价用户;
步骤3、基于完备评价用户对所有项目归一化后的评价数据矩阵,构建并训练生成对抗网络;
步骤4、利用训练好的生成网络预测和填充归一化后的缺失评价值,得到用户-项目的完备归一化后评价值对应的数据矩阵;
步骤5、基于填充后所有用户对所有项目的归一化后完备评价值数据矩阵,利用双聚类集成算法进行双聚类,从而得到由对应子簇构成的双聚类结果。
步骤6、针对双聚类的每个子簇,向其对应用户群进行关联项目组的推荐,从而提高推荐的效果。
2.根据权利要求1所述的一种基于生成对抗网络和双聚类的推荐方法,其特征在于,所述步骤3的构建并训练生成对抗网络具体如下:
(3-1)利用堆叠降噪自编码器构造生成网络,用用一个二元分类器作为判别网络,组成生成对抗网络;
(3-2)基于完备评价用户的评价数据矩阵训练网络,利用堆叠降噪自编码器重构误差和生成对抗网络的误差之和最小原则确定最优网络参数。
3.根据权利要求1所述的一种基于生成对抗网络和双聚类的推荐方法,其特征在于,所述步骤5中利用双聚类集成算法进行双聚类包括以下步骤:
(5-1)从现有双聚类算法中选择几个适合所有样本完备数据矩阵的双聚类算法作为基聚类算法;
(5-2)基于所有样本的完备数据矩阵,运行每个基聚类算法,得到对应的双聚类结果;
(5-3)比较所有基聚类算法得到双聚类结果对应的子簇,迭代合并相似度较大的双聚类子簇,从而得到最终的双聚类结果。
4.根据权利要求1所述的一种基于生成对抗网络和双聚类的推荐方法,其特征在于,所述步骤(5-3)中迭代合并相似度较大的双聚类子簇,包括以下步骤:
(5-3-1)定义双聚类子簇的相似度,给定最小相似度阈值;
(5-3-2)计算双聚类结果中所有双聚类子簇两两之间的相似度;
(5-3-3)将具有最大相似度且高于最小相似度阈值的两个双聚类子簇进行合并,同时删除对应的小子簇,得到新的双聚类结果;
(5-3-4)反复执行步骤(5-3-2)和(5-3-3),直到没有双聚类子簇合并为止。
5.一种基于生成对抗网络和双聚类的推荐系统,其特征在于,包括以下模块:
评价数据读取模块,用于读取用户-项目的不完备评价数据集,并进行归一化处理;
用户划分模块,用于区分完备评价用户和不完备评价用户;
网络构建和训练模块,用于构建和利用完备评价用户归一化的评价数据集训练生成对抗网络,获得最优的网络参数;
缺失评价值填充模块,用于将具有最优网络参数的生成网络应用到不完备评价用户归一化后缺失评价值的预测和填充中,获得填充后完备的用户-项目归一化评价数据集;
双聚类模块,用于对填充后完备的用户-项目归一化评价数据集进行双聚类集成,得到若干对应的双聚类子簇;
推荐模块,用于向特定用户群推荐对应的项目组。
CN201811592917.XA 2018-12-25 2018-12-25 一种基于生成对抗网络和双聚类的推荐方法及系统 Pending CN109657149A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811592917.XA CN109657149A (zh) 2018-12-25 2018-12-25 一种基于生成对抗网络和双聚类的推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811592917.XA CN109657149A (zh) 2018-12-25 2018-12-25 一种基于生成对抗网络和双聚类的推荐方法及系统

Publications (1)

Publication Number Publication Date
CN109657149A true CN109657149A (zh) 2019-04-19

Family

ID=66116628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811592917.XA Pending CN109657149A (zh) 2018-12-25 2018-12-25 一种基于生成对抗网络和双聚类的推荐方法及系统

Country Status (1)

Country Link
CN (1) CN109657149A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162709A (zh) * 2019-05-24 2019-08-23 中森云链(成都)科技有限责任公司 一种结合对偶对抗生成网络的鲁棒的个性化排名方法
CN110222089A (zh) * 2019-05-31 2019-09-10 华南理工大学 一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法
CN110442781A (zh) * 2019-06-28 2019-11-12 武汉大学 一种基于生成对抗网络的对级排序项目推荐方法
CN111291867A (zh) * 2020-02-17 2020-06-16 北京明略软件系统有限公司 数据预测模型生成方法、装置及数据预测方法、装置
CN111783980A (zh) * 2020-06-28 2020-10-16 大连理工大学 基于双重协作生成式对抗网络的排序学习方法
CN112560925A (zh) * 2020-12-10 2021-03-26 中国科学院深圳先进技术研究院 一种复杂场景目标检测数据集构建方法及系统
CN113469189A (zh) * 2021-09-02 2021-10-01 国网江西省电力有限公司供电服务管理中心 一种用电采集数据缺失值填充方法、系统及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120173338A1 (en) * 2009-09-17 2012-07-05 Behavioreal Ltd. Method and apparatus for data traffic analysis and clustering
CN102780920A (zh) * 2011-07-05 2012-11-14 上海奂讯通信安装工程有限公司 电视节目推荐方法及系统
CN108038821A (zh) * 2017-11-20 2018-05-15 河海大学 一种基于生成式对抗网络的图像风格迁移方法
CN108805418A (zh) * 2018-05-22 2018-11-13 福州大学 一种基于生成式对抗网络的交通数据填充方法
CN108898527A (zh) * 2018-06-21 2018-11-27 福州大学 一种基于有损测量的生成模型的交通数据填充方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120173338A1 (en) * 2009-09-17 2012-07-05 Behavioreal Ltd. Method and apparatus for data traffic analysis and clustering
CN102780920A (zh) * 2011-07-05 2012-11-14 上海奂讯通信安装工程有限公司 电视节目推荐方法及系统
CN108038821A (zh) * 2017-11-20 2018-05-15 河海大学 一种基于生成式对抗网络的图像风格迁移方法
CN108805418A (zh) * 2018-05-22 2018-11-13 福州大学 一种基于生成式对抗网络的交通数据填充方法
CN108898527A (zh) * 2018-06-21 2018-11-27 福州大学 一种基于有损测量的生成模型的交通数据填充方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
康美林: "基于双聚类模型的协同过滤推荐引擎研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162709A (zh) * 2019-05-24 2019-08-23 中森云链(成都)科技有限责任公司 一种结合对偶对抗生成网络的鲁棒的个性化排名方法
CN110222089A (zh) * 2019-05-31 2019-09-10 华南理工大学 一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法
CN110222089B (zh) * 2019-05-31 2021-05-14 华南理工大学 一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法
CN110442781A (zh) * 2019-06-28 2019-11-12 武汉大学 一种基于生成对抗网络的对级排序项目推荐方法
CN110442781B (zh) * 2019-06-28 2023-04-07 武汉大学 一种基于生成对抗网络的对级排序项目推荐方法
CN111291867A (zh) * 2020-02-17 2020-06-16 北京明略软件系统有限公司 数据预测模型生成方法、装置及数据预测方法、装置
CN111783980A (zh) * 2020-06-28 2020-10-16 大连理工大学 基于双重协作生成式对抗网络的排序学习方法
CN112560925A (zh) * 2020-12-10 2021-03-26 中国科学院深圳先进技术研究院 一种复杂场景目标检测数据集构建方法及系统
CN113469189A (zh) * 2021-09-02 2021-10-01 国网江西省电力有限公司供电服务管理中心 一种用电采集数据缺失值填充方法、系统及装置

Similar Documents

Publication Publication Date Title
CN109657149A (zh) 一种基于生成对抗网络和双聚类的推荐方法及系统
CN113190699B (zh) 一种基于类别级语义哈希的遥感图像检索方法及装置
May Petry et al. MARC: a robust method for multiple-aspect trajectory classification via space, time, and semantic embeddings
CN112613552B (zh) 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法
CN107832718A (zh) 基于自编码器的手指静脉防伪鉴别方法及系统
Yang et al. Triplet Enhanced AutoEncoder: Model-free Discriminative Network Embedding.
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN110210358A (zh) 一种基于双向时序图的视频描述生成方法和装置
Cheng et al. Semantic-based facial expression recognition using analytical hierarchy process
CN108491430A (zh) 一种基于对特征方向进行聚类的无监督哈希检索方法
Liu et al. Eagle-eyed multitask CNNs for aerial image retrieval and scene classification
CN110751188A (zh) 基于多标记学习的用户标签预测方法、系统及存储介质
Ferreira et al. A tool for generating synthetic authorship records for evaluating author name disambiguation methods
CN112199957A (zh) 基于属性和关系信息联合嵌入的人物实体对齐方法及系统
CN113919440A (zh) 一种融合双重注意力机制和图卷积社交网络谣言检测系统
CN112215001A (zh) 一种谣言识别方法及系统
Buscema et al. MST Fitness Index and implicit data narratives: a comparative test on alternative unsupervised algorithms
Yuan et al. SRLF: a stance-aware reinforcement learning framework for content-based rumor detection on social media
CN115221864A (zh) 一种多模态假新闻检测方法及系统
CN112148994B (zh) 信息推送效果评估方法、装置、电子设备及存储介质
CN110008975B (zh) 基于免疫危险理论的社交网络水军检测方法
CN116662866A (zh) 基于数据插补和表征学习的端到端不完整时间序列分类方法
Khadangi et al. Measuring relationship strength in online social networks based on users' activities and profile information
Chitta Kernel-based clustering of big data
De Sabbata et al. Deep learning geodemographics with autoencoders and geographic convolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190419