CN105183841B - 大数据环境下结合频繁项集和深度学习的推荐方法 - Google Patents

大数据环境下结合频繁项集和深度学习的推荐方法 Download PDF

Info

Publication number
CN105183841B
CN105183841B CN201510559551.6A CN201510559551A CN105183841B CN 105183841 B CN105183841 B CN 105183841B CN 201510559551 A CN201510559551 A CN 201510559551A CN 105183841 B CN105183841 B CN 105183841B
Authority
CN
China
Prior art keywords
user
deep learning
layer
item
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510559551.6A
Other languages
English (en)
Other versions
CN105183841A (zh
Inventor
陈礼标
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Youzu Information Technology Co Ltd
Original Assignee
Nanjing Youzu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Youzu Information Technology Co Ltd filed Critical Nanjing Youzu Information Technology Co Ltd
Priority to CN201510559551.6A priority Critical patent/CN105183841B/zh
Publication of CN105183841A publication Critical patent/CN105183841A/zh
Application granted granted Critical
Publication of CN105183841B publication Critical patent/CN105183841B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Abstract

本发明公开了一种大数据环境下结合频繁项集和深度学习的推荐方法,步骤如下:收集用户的行为记录,使用MapReduce并行计算模型在行为记录中挖掘频繁项集;建立深度学习网络,使用频繁项集对网络进行训练;需要对用户进行推荐时,收集该用户的行为记录作为输入,使用上述建立的深度学习网络进行计算,选取结果大于阈值的项目推荐给用户。本发明基于MapReduce并行计算模型,可以在分布式系统中高效的进行频繁项集挖掘,以频繁项集为样本,建立并训练深度学习网络,使用该网络进行推荐,相比于直接利用频繁项集以及传统神经网络,可以更加精确的进行用户推荐。

Description

大数据环境下结合频繁项集和深度学习的推荐方法
技术领域
本发明涉及大数据环境下的用户推荐技术领域,具体是一种通过在分布式系统中挖掘频繁项集,并对结果进行深度学习,从而实现用户推荐的方法。
背景技术
随着网络的普及,我们进入了以PB为单位的大数据时代,它具有大量、高速、多样、价值4个特点。在大数据时代,数据即是财富,如何充分挖掘用户的行为记录并向用户进行推荐成为关键技术。推荐算法可以在用户不明确需求的情况下,通过分析历史数据来对用户的兴趣进行预测,主动提供用户可能感兴趣的信息。推荐算法不仅可以帮助用户在海量的商品中快速定位自己的需求,还可以帮助商家制定有针对性的销售计划。
传统的计算方式难以胜任海量数据的处理工作,原因是单一机器的计算能力革新速度远远跟不上数据量的增长速度。近年来兴起的MapReduce并行计算模型,最初由Google提出,它借鉴函数式编程语言里映射-规约的思想,可以让编程人员快速高效的构建分布式应用程序。它主要由map和reduce两个阶段组成,每一个map任务负责处理一个小规模的数据块,将其映射为某种中间表示形式,reduce任务负责将这些中间结果合并成为最终结果。特别的,这些任务可以串联起来从而构建复杂的计算流程。
近期兴起的深度学习,是机器学习领域一个新的发展方向,它在本质上是对人类大脑的模拟,是对传统神经网络的发展和深化。它由输入层、中间层以及输出层三部分组成,只有相邻两层网络之间有连接,每个连接有一个权重,表示对下一层单元的影响大小。区别于传统神经网络,深度学习网络可以有多个中间层,因此可以对原始输入数据进行更好的抽象、更精确的分类。
与传统神经网络back propagation的训练方式不同,深度学习网络采用一种自下而上的无监督学习方式,每次建立一层,参数由前一层的结果得到,这样可以避免BP算法中校正信号衰减的情况。
发明内容
本发明的目的在于提供一种在大数据环境下,结合频繁项集和深度学习的用户推荐方法。本发明针对大数据4个V的特点,结合频繁项集和深度学习,提出一种用户推荐的方法,可以高效、准确的预测用户的喜好,从而有效的挖掘数据中的价值。
实现本发明目的的技术解决方案为:一种大数据环境下结合频繁项集和深度学习的推荐方法,步骤如下:
步骤1:收集用户的行为记录,使用MapReduce并行计算模型在行为记录中挖掘频繁项集,为训练深度学习网络提供样本。
步骤2:建立深度学习网络,输入层为用户的行为记录,输出层为推荐信息,使用频繁项集对网络进行训练。
步骤3:需要对用户进行推荐时,收集该用户的行为记录作为输入,使用上述建立的深度学习网络进行计算,选取结果大于阈值的项目推荐给用户。
本发明与现有技术相比,其显著优点:1、本发明基于MapReduce并行计算模型,可以在分布式系统中高效的进行频繁项集挖掘,克服了频繁项集挖掘的计算瓶颈,解决了难以在大规模数据中挖掘关联规则的难题。
2、本发明以频繁项集为样本,建立并训练深度学习网络,使用该网络进行推荐,相比于直接利用频繁项集以及传统神经网络,可以更加精确的进行用户推荐。
附图说明
附图是是本发明的深度学习网络模型。
具体实施方式
下面结合附图对本发明作进一步详细描述。
本发明大数据环境下结合频繁项集和深度学习的推荐方法,包括以下步骤:
步骤1:收集用户行为记录,并使用MapReduce并行计算模型在用户行为记录中挖掘频繁项集。
对于每一个用户Useri,记录该用户最近关注的项目Itemif,并将其记录在数据库D中。
所述用户Useri,是指使用该推荐方法的企业的第i位客户,他通常关注了企业所属的一款或多款产品Itemif,Itemif是指用户Useri关注的第j款产品,其中Itemij∈Useri,这些产品表达了用户的喜好。数据库D的结构为一个二维表格,每一行为一个二元组,其中内容为(Useri,{Itemif|Itemij∈Useri}),表示用户与其关注的产品。
对于数据库D,在使用MapReduce进行频繁项集挖掘之前,需要对其进行预处理。下述过程中涉及到的数据结构Lk,记录项目个数为k的项集及其出现的次数,每一行内容为一个二元组,内容为(Itemsetk,times),其中Itemsetk为一个集合,表示项集中项目的个数,times表示该集合出现的次数。
所述预处理过程具体如下:
输入:数据库D
输出:表L1,记录项目个数为1的项集及其出现次数
步骤A1:对数据库中的每一行记录recordi∈D,执行如下步骤:
步骤A1.1:对于记录recordi中的每一个产品Itemif,执行如下步骤:
如果L1中存在Itemif,则Itemif对应的次数加1
否则将Itemif加入L1中,并将其对应的次数赋值为1
预处理完成后,在L1上使用MapReduce模型进行频繁项集挖掘,每一轮MapReduce过程以Lk为基础,生成Lk+1,直到Lk+1为空集。其中MapReduce过程包含两个阶段,每个map任务处理Lk的一个数据块splitkj,筛选出其中项集出现次数高于阈值的记录,reduce过程合并这些记录并生成Lk+1。挖掘频繁项集的结果即为reduce结果的并集。
所述map过程具体如下:
输入:splitkj,表示Lk的第j个数据块;minSupp,表示选取频繁项集的阈值
输出:splitkj中出现次数高于minSupp的项集splitkj*
步骤B1:对于splitkj中每一行数据linei∈splitkj,其中linei为(Itemseti,timesi)二元组,执行如下步骤:
如果timesi小于阈值minSupp,删除该行数据
否则将timesi加入splitjk*之中
所述reduce过程具体如下:
输入:Lk*,表示每个map过程的输出splitjk*的并集
输出:Lk+1
步骤C1:对于Lk*中的任意两行记录linei,linej∈Lk*
如果diff(Itemseti,Itemsetj)小于等于1,则将二元组(Itemseti∪Itemsetj,1)加入Lk+1中,其中diff函数计算两个集合中不同元素的个数
否则返回步骤C1继续执行
步骤C2:依次遍历Lk+1中的每一行记录linem,执行如下操作:
如果Itemsetm与Itemsetn相同,并且n<m,则将Itemsetn对应的timesn加1
否则返回步骤C2继续执行
步骤2:建立深度学习网络,并用频繁项集对其进行训练。
这里所述的深度学习网络包括输入层、中间层以及输出层,其中输入层有n*m个神经单元,输出层同样有n*m个神经单元,分别对应n个产品类别,每个类别里至多可以包含m种产品,中间层共有两层,分别包含n*m/2与n*m/4个神经单元,如图1所示。输入层单元有0、1两种状态,1表示该用户曾经关注过此种产品,0表示未曾关注;输出层单元为归一化的实数,数值越大表示用户喜欢相应产品的可能性越高;中间层为对输入数据的高层次抽象表示。
所述归一化是指利用函数norm(x)=1/e-x+1将任意实数映射到[0,1]区间;所述高层次的抽象表示是指,使用较少的维度表示输入信息,并尽量使得这种抽象表示能够还原输入信息。使用较少维度的数据表示原始信息,这种抽象表示在数值上能够反映原始数据的特征。
所述深度学习网络的建立方式为逐层建立,每一次迭代按照公式根据第k层单元建立第k+1层。其中ei表示第k层每个单元的值,共有m个单元;表示第k+1层每个单元的值,共有n个单元;wi,j表示第k层第i个单元连接到第k+1层第j个单元的权重;μ为惩罚系数。
所述逐层建立具体如下:
步骤D1:首先固定的值,调整wi,j,使得上述目标函数取得最小值
步骤D2:然后固定wi,j的值,调整使得上述目标函数取得最小值
不断重复步骤D1与步骤D2,直至目标函数收敛,此时的值即为第k+1层单元的值,wi,j的值为第k层到第k+1层的权重。
步骤3:根据用户的行为记录进行推荐。当需要对用户进行推荐时,收集该用户的行为记录,组成n*m的矩阵,作为深度学习网络的输入,网络的输出同样为n*m的矩阵,若矩阵中某一位置的数值大于给定的阈值recomTh,则将相应的产品推荐给用户。

Claims (5)

1.一种大数据环境下结合频繁项集和深度学习的推荐方法,其特征在于包括以下步骤:
步骤1:收集用户的行为记录,使用MapReduce并行计算模型在行为记录中挖掘频繁项集;
步骤2:建立深度学习网络,输入层为用户的行为记录,输出层为推荐信息,使用频繁项集对深度学习网络进行训练;
步骤3:需要对用户进行推荐时,收集该用户的行为记录作为输入,使用上述建立的深度学习网络进行计算,选取结果大于阈值的项目推荐给用户;
所述步骤1的具体方法为:
对于每一个用户Useri,记录该用户最近关注的项目Itemj,并将其记录在数据库D中;Itemij是用户Useri关注的第j款产品,其中Itemij∈Useri,数据库D的结构为一个二维表格,每一行为一个二元组,其中内容为(Useri,{Itemij|Itemij∈Useri}),表示用户与其关注的产品;
对数据库D进行预处理,过程具体如下:
输入:数据库D;
输出:表L1,记录项目个数为1的项集及其出现次数;
步骤A1:对数据库中的每一行记录recordi∈D,执行如下步骤:
步骤A1.1:对于记录recordi中的每一个产品Itemij,执行如下步骤:
如果L1中存在Itemij,则Itemij对应的次数加1;
否则将Itemij加入L1中,并将其对应的次数赋值为1;
上述过程中涉及到的数据结构Lk,记录项目个数为k的项集及其出现的次数,每一行内容为一个二元组,内容为(Itemsetk,times),其中Itemsetk为一个集合,表示项集中项目的个数,times表示该集合出现的次数;
预处理完成后,在L1上使用MapReduce模型进行频繁项集挖掘,每一轮MapReduce过程以Lk为基础,生成Lk+1,直到Lk+1为空集;其中MapReduce过程包含map和reduce两个阶段,每个map任务处理Lk的一个数据块splitkj,筛选出其中项集出现次数高于阈值的记录,reduce过程合并这些记录并生成Lk+1,挖掘频繁项集的结果即为reduce结果的并集;
所述map过程具体如下:
输入:splitkj,表示Lk的第j个数据块;minSupp,表示选取频繁项集的阈值;
输出:splitkj中出现次数高于minSupp的项集splitkj *
步骤B1:对于splitkj中每一行数据linei∈splitkj,其中linei为(Itemseti,timesi)二元组,执行如下步骤:
如果timesi小于阈值minSupp,删除该行数据;
否则将timesi加入splitjk *之中;
所述reduce过程具体如下:
输入:Lk *,表示每个map过程的输出splitjk *的并集;
输出:Lk+1
步骤C1:对于Lk *中的任意两行记录linei,linej∈Lk *
如果diff(Itenseti,Itemsetj)小于等于1,则将二元组(Itemseti∪Itemsetj,1)加入Lk+1中,其中diff函数计算两个集合中不同元素的个数;
否则返回步骤C1继续执行;
步骤C2:依次遍历Lk+1中的每一行记录linem,执行如下操作:
如果Itemsetm与Itemsetn相同,并且n<m,则将Itemsetn对应的timesn加1;
否则返回步骤C2继续执行。
2.根据权利要求1所述的大数据环境下结合频繁项集和深度学习的推荐方法,其特征在于:所述步骤2中,
所述深度学习网络包括输入层、中间层以及输出层,其中输入层有n*m个神经单元,输出层同样有n*m个神经单元,分别对应n个产品类别,每个类别里至多包含m种产品,中间层共有log4n*m层,依次包含n*m/2i个神经单元,其中1≤i≤log4*n*m,输入层单元有0、1两种状态,1表示该用户曾经关注过此种产品,0表示未曾关注;输出层单元为归一化的实数,数值越大表示用户喜欢相应产品的可能性越高;中间层为对输入数据的高层次抽象表示;
所述归一化是指利用函数norm(x)=1/e-x+1将任意实数映射到[0,1]区间,所述高层次的抽象表示是指,使用较少的维度表示输入信息,并尽量使得这种抽象表示能够还原输入信息。
3.根据权利要求1或2所述的大数据环境下结合频繁项集和深度学习的推荐方法,其特征在于:所述深度学习网络的建立方式为逐层建立,每一次迭代按照目标函数公式根据第k层单元建立第k+1层;其中ei表示第k层每个单元的值,共有m个单元;表示第k+1层每个单元的值,共有n个单元;wi,j表示第k层第i个单元连接到第k+1层第j个单元的权重;μ为惩罚系数。
4.根据权利要求3所述的大数据环境下结合频繁项集和深度学习的推荐方法,其特征在于:所述逐层建立深度学习网络的具体过程如下:
步骤D1:首先固定的值,调整wi,j,使得上述目标函数取得最小值;
步骤D2:然后固定wi,j的值,调整使得上述目标函数取得最小值;
不断重复步骤D1与步骤D2,直至目标函数收敛,此时的值即为第k+1层单元的值,wi,j的值为第k层到第k+1层的权重。
5.根据权利要求1所述的大数据环境下结合频繁项集和深度学习的推荐方法,其特征在于:所述步骤3中,当需要对用户进行推荐时,收集该用户的行为记录,组成n*m的矩阵,作为深度学习网络的输入,使用上述建立的深度学习网络进行计算,网络的输出同样为n*m的矩阵,若矩阵中某一位置的数值大于给定的阈值recomTh,则将相应的产品推荐给用户。
CN201510559551.6A 2015-09-06 2015-09-06 大数据环境下结合频繁项集和深度学习的推荐方法 Expired - Fee Related CN105183841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510559551.6A CN105183841B (zh) 2015-09-06 2015-09-06 大数据环境下结合频繁项集和深度学习的推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510559551.6A CN105183841B (zh) 2015-09-06 2015-09-06 大数据环境下结合频繁项集和深度学习的推荐方法

Publications (2)

Publication Number Publication Date
CN105183841A CN105183841A (zh) 2015-12-23
CN105183841B true CN105183841B (zh) 2019-03-26

Family

ID=54905923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510559551.6A Expired - Fee Related CN105183841B (zh) 2015-09-06 2015-09-06 大数据环境下结合频繁项集和深度学习的推荐方法

Country Status (1)

Country Link
CN (1) CN105183841B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103000A (zh) * 2016-02-23 2017-08-29 广州启法信息科技有限公司 一种基于关联规则与贝叶斯网络集成的推荐技术
CN106296305A (zh) * 2016-08-23 2017-01-04 上海海事大学 大数据环境下的电商网站实时推荐系统与方法
CN107123027B (zh) * 2017-04-28 2021-06-01 广东工业大学 一种基于深度学习的化妆品推荐方法及系统
CN107682344A (zh) * 2017-10-18 2018-02-09 南京邮数通信息科技有限公司 一种基于dpi数据互联网身份识别的id图谱建立方法
CN107967306B (zh) * 2017-11-13 2020-07-03 华中科技大学 一种存储系统中关联块的快速挖掘方法
CN108173876B (zh) * 2018-01-30 2020-11-06 福建师范大学 基于最大频繁模式的动态规则库构建方法
CN108615423A (zh) * 2018-06-21 2018-10-02 中山大学新华学院 一种基于深度学习的线上教育管理系统
CN109614507B (zh) * 2018-11-22 2020-08-04 浙江大学 一种基于频繁项挖掘的遥感图像推荐装置
CN110110225B (zh) * 2019-04-17 2020-08-07 重庆第二师范学院 基于用户行为数据分析的在线教育推荐模型及构建方法
CN110309195B (zh) * 2019-05-10 2022-07-12 电子科技大学 一种基于fwdl模型的内容推荐方法
CN111310042A (zh) * 2020-02-13 2020-06-19 研祥智能科技股份有限公司 基于云计算的协同过滤推荐方法及系统
CN114881223B (zh) * 2020-12-18 2023-04-18 北京百度网讯科技有限公司 深度学习模型的转换方法、装置、电子设备和存储介质
CN112711707A (zh) * 2020-12-29 2021-04-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习推荐系统的家庭寻物方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530304A (zh) * 2013-05-10 2014-01-22 Tcl集团股份有限公司 基于自适应分布式计算的在线推荐方法、系统和移动终端
CN103729478A (zh) * 2014-01-26 2014-04-16 重庆邮电大学 基于MapReduce的LBS兴趣点发现方法
CN103995882A (zh) * 2014-05-28 2014-08-20 南京大学 基于MapReduce的概率频繁项集挖掘方法
CN104239324A (zh) * 2013-06-17 2014-12-24 阿里巴巴集团控股有限公司 一种基于用户行为的特征提取、个性化推荐的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530304A (zh) * 2013-05-10 2014-01-22 Tcl集团股份有限公司 基于自适应分布式计算的在线推荐方法、系统和移动终端
CN104239324A (zh) * 2013-06-17 2014-12-24 阿里巴巴集团控股有限公司 一种基于用户行为的特征提取、个性化推荐的方法和系统
CN103729478A (zh) * 2014-01-26 2014-04-16 重庆邮电大学 基于MapReduce的LBS兴趣点发现方法
CN103995882A (zh) * 2014-05-28 2014-08-20 南京大学 基于MapReduce的概率频繁项集挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的推荐系统研究;陈达;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150415(第04期);正文第15、32、48页

Also Published As

Publication number Publication date
CN105183841A (zh) 2015-12-23

Similar Documents

Publication Publication Date Title
CN105183841B (zh) 大数据环境下结合频繁项集和深度学习的推荐方法
CN106339942A (zh) 一种金融信息处理方法和系统
Corney et al. Putting the crowd to work in a knowledge-based factory
CN101226557A (zh) 一种高效的关联主题模型数据处理方法及其系统
CN101894351A (zh) 基于多智能Agent的旅游多媒体信息个性化服务系统
CN106384219A (zh) 仓储分仓辅助分析方法及装置
Gu et al. Understanding bias in machine learning
CN107909087A (zh) 生成机器学习样本的组合特征的方法及系统
CN105631575A (zh) 科技项目的评价方法
Sugiharti et al. Predictive evaluation of performance of computer science students of unnes using data mining based on naÏve bayes classifier (NBC) algorithm
Utkin et al. The DS/AHP method under partial information about criteria and alternatives by several levels of criteria
Tounsi et al. CSMAS: Improving multi-agent credit scoring system by integrating big data and the new generation of gradient boosting algorithms
CN110489623A (zh) 一种基于用户信息交互的智能助理系统及智能助理机器人
Sulhi Data Mining Technology Used in an Internet of Things-Based Decision Support System for Information Processing Intelligent Manufacturing
CN102866997B (zh) 用户数据的处理方法和装置
Zuo et al. Domain selection of transfer learning in fuzzy prediction models
CN104462480B (zh) 基于典型性的评论大数据挖掘方法
Elwakil Knowledge discovery based simulation system in construction
CN105279388A (zh) 多层云计算框架协同的孕龄新生儿脑病历集成约简方法
Ji A heuristic collaborative filtering recommendation algorithm based on book personalized Recommendation
Cheri Optimizations of training dataset on house price estimation
Pareek et al. A review report on knowledge discovery in databases and various techniques of data mining
CN113138977A (zh) 交易转化分析方法、装置、设备及存储介质
Abdelgawwad et al. Contributions of Investment and Employment to the Agricultural GDP Growth in Egypt: An ARDL Approach
Singh et al. An effort to select a preferable metaheuristic model for knowledge discovery in data mining.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190326

Termination date: 20200906