CN109300014B - 基于日志挖掘的商品推荐方法、装置、服务器及存储介质 - Google Patents

基于日志挖掘的商品推荐方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN109300014B
CN109300014B CN201811247722.1A CN201811247722A CN109300014B CN 109300014 B CN109300014 B CN 109300014B CN 201811247722 A CN201811247722 A CN 201811247722A CN 109300014 B CN109300014 B CN 109300014B
Authority
CN
China
Prior art keywords
commodity
similarity
user
frequent item
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811247722.1A
Other languages
English (en)
Other versions
CN109300014A (zh
Inventor
孙翀
吕琴艳
帖军
王江晴
艾勇
吴立锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN201811247722.1A priority Critical patent/CN109300014B/zh
Publication of CN109300014A publication Critical patent/CN109300014A/zh
Application granted granted Critical
Publication of CN109300014B publication Critical patent/CN109300014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于日志挖掘的商品推荐方法、装置、服务器及存储介质。本发明引入事务数据库,对事务数据库进行频繁项集挖掘,并设计一种新的商品相似度计算方式,然后将相似度计算结果与Pearson相关系数进行加权综合,缓解了数据稀疏性导致共同评分项过少而出现的相似度度量不准确的问题,从而更准确寻找最近邻集合并进行推荐,克服了协同过滤算法在计算项目的相似度时过度依赖用户对项目的评分数据的问题。

Description

基于日志挖掘的商品推荐方法、装置、服务器及存储介质
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于日志挖掘的商品推荐方法、装置、服务器及存储介质。
背景技术
伴随着互联网和信息技术的迅猛发展,网络上的信息数据量呈指数增长,人们逐渐陷入“信息过载”时代,在这个时代,消费者很难从众多商品中找到自己感兴趣的商品,同时生产者也很难让自己的商品在众多用户的关注中脱颖而出。推荐系统则成为解决该问题的重要手段。它可以根据用户的喜好筛选不相关的项目,并推荐用户可能喜欢的项目。
虽然协同过滤算法取得了巨大的成功,但始终存在数据稀疏性问题。电子商务网站中用户和项目的数目非常庞大,而多数用户只会对少量的项目进行评分,导致用户之间评分的重叠部分很小,难以计算两个用户之间的相似程度。而协同过滤算法在计算相似度时完全依赖用户对项目的评分数据,未考虑项目间相互关联的特性。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于日志挖掘的商品推荐方法、装置、服务器及存储介质,旨在解决现有技术中协同过滤算法在计算相似度时完全依赖用户对项目的评分数据,未考虑项目间相互关联的特性的技术问题。
为实现上述目的,本发明提供一种基于日志挖掘的商品推荐方法,所述方法包括以下步骤:
从各用户的购买日志中提取各用户的购买记录,并根据各用户的购买记录建立事务数据库;
根据预设最小支持度通过Apriori算法对所述事务数据库进行逐条扫描,获得各频繁项集,并根据各频繁项集构成频繁项集矩阵;
根据所述频繁项集矩阵确定综合相似度矩阵;
获取目标用户的未评分商品,并将所述未评分商品作为待测商品;
基于所述综合相似度矩阵对所述待测商品进行预测评分;
根据预测评分结果确定待推送商品,并将待推送商品推送至所述目标用户的用户设备。
优选地,所述根据所述频繁项集矩阵确定综合相似度矩阵,具体包括:
根据所述频繁项集矩阵计算所述频繁项集中各商品之间的相似度;
根据所述频繁项集矩阵以及各用户对商品的评分计算Pearson相关系数的绝对值;
根据所述频繁项集中各商品之间的相似度以及Pearson相关系数的绝对值确定综合相似度矩阵。
优选地,根据各频繁项集之间的相似度以及Pearson相关系数的绝对值通过下式确定综合相似度矩阵,
Figure BDA0001839551640000021
其中,Si,j为综合相似度矩阵中商品i和商品j之间的综合相似度,
Figure BDA0001839551640000022
为权重,S1i,j为所述频繁项集中商品i和商品j之间的相似度,S2i,j为商品i和商品j之间的Pearson相关系数的绝对值。
优选地,根据所述频繁项集矩阵通过下式计算所述频繁项集中各商品之间的相似度,
Figure BDA0001839551640000023
其中,k为频繁项集的数量,Fh,i为商品i在所述频繁项集矩阵中的取值,Fh,j为商品j在所述频繁项集矩阵中的取值。
优选地,根据所述频繁项集矩阵以及各用户对商品的评分通过下式计算Pearson相关系数的绝对值,
Figure BDA0001839551640000024
其中,Ui,j为商品i和商品j共同评分过的用户集合,Xu,i为用户u对商品i的评分,Xu,j为用户u对商品j的评分,
Figure BDA0001839551640000025
为用户对商品i的平均评分,
Figure BDA0001839551640000026
为用户对商品j的平均评分。
优选地,所述基于所述综合相似度矩阵对所述待测商品进行预测评分,具体包括:
从所述综合相似度矩阵中的所有商品与待测商品的相似性值;
选择相似性值最高的K个商品作为所述待测商品的最近邻居集合;
根据所述最近邻居集合对所述待测商品进行预测评分。
优选地,根据所述最近邻居集合通过下式对所述待测商品进行预测评分,
Figure BDA0001839551640000031
其中,
Figure BDA0001839551640000032
为用户u对商品Ia的预测评分结果,
Figure BDA0001839551640000033
为待测商品Ia和商品q之间的综合相似度,Xu,q为用户u对项目q的评分,
Figure BDA0001839551640000034
为用户对商品Ia的平均评分,
Figure BDA0001839551640000035
为用户对商品q的平均评分,Na为所述最近邻居集合。
此外,为实现上述目的,本发明还提供一种服务器,所述服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于日志挖掘的商品推荐程序,所述基于日志挖掘的商品推荐程序配置为实现如上所述的基于日志挖掘的商品推荐方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于日志挖掘的商品推荐程序,所述基于日志挖掘的商品推荐程序被处理器执行时实现如上所述的基于日志挖掘的商品推荐方法的步骤。
此外,为实现上述目的,本发明还提供一种基于日志挖掘的商品推荐装置,所述装置包括:
数据库建立模块,用于从各用户的购买日志中提取各用户的购买记录,并根据各用户的购买记录建立事务数据库;
数据库扫描模块,用于根据预设最小支持度通过Apriori算法对所述事务数据库进行逐条扫描,获得各频繁项集,并根据各频繁项集构成频繁项集矩阵;
矩阵确定模块,用于根据所述频繁项集矩阵确定综合相似度矩阵;
商品获取模块,用于获取目标用户的未评分商品,并将所述未评分商品作为待测商品;
预测评分模块,用于基于所述综合相似度矩阵对所述待测商品进行预测评分;
商品推送模块,用于根据预测评分结果确定待推送商品,并将待推送商品推送至所述目标用户的用户设备。
本发明引入事务数据库,对事务数据库进行频繁项集挖掘,并设计一种新的商品相似度计算方式,然后将相似度计算结果与Pearson相关系数进行加权综合,缓解了数据稀疏性导致共同评分项过少而出现的相似度度量不准确的问题,从而更准确寻找最近邻集合并进行推荐,克服了协同过滤算法在计算项目的相似度时过度依赖用户对项目的评分数据的问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的服务器结构示意图;
图2为本发明基于日志挖掘的商品推荐方法第一实施例的流程示意图;
图3为本发明基于日志挖掘的商品推荐装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的服务器的结构示意图。
如图1所示,该服务器可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于日志挖掘的商品推荐程序。
在图1所示的服务器中,网络接口1004主要用于与外部网络进行数据通信;用户接口1003主要用于接收用户的输入指令;所述服务器通过处理器1001调用存储器1005中存储的基于日志挖掘的商品推荐程序,并执行以下操作:
从各用户的购买日志中提取各用户的购买记录,并根据各用户的购买记录建立事务数据库;
根据预设最小支持度通过Apriori算法对所述事务数据库进行逐条扫描,获得各频繁项集,并根据各频繁项集构成频繁项集矩阵;
根据所述频繁项集矩阵确定综合相似度矩阵;
获取目标用户的未评分商品,并将所述未评分商品作为待测商品;
基于所述综合相似度矩阵对所述待测商品进行预测评分;
根据预测评分结果确定待推送商品,并将待推送商品推送至所述目标用户的用户设备。
进一步地,处理器1001可以调用存储器1005中存储的基于日志挖掘的商品推荐程序,还执行以下操作:
根据所述频繁项集矩阵计算所述频繁项集中各商品之间的相似度;
根据所述频繁项集矩阵以及各用户对商品的评分计算Pearson相关系数的绝对值;
根据所述频繁项集中各商品之间的相似度以及Pearson相关系数的绝对值确定综合相似度矩阵。
进一步地,处理器1001可以调用存储器1005中存储的基于日志挖掘的商品推荐程序,还执行以下操作:
根据各频繁项集之间的相似度以及Pearson相关系数的绝对值通过下式确定综合相似度矩阵,
Figure BDA0001839551640000061
其中,Si,j为综合相似度矩阵中商品i和商品j之间的综合相似度,
Figure BDA0001839551640000062
为权重,S1i,j为所述频繁项集中商品i和商品j之间的相似度,S2i,j为商品i和商品j之间的Pearson相关系数的绝对值。
进一步地,处理器1001可以调用存储器1005中存储的基于日志挖掘的商品推荐程序,还执行以下操作:
根据所述频繁项集矩阵通过下式计算所述频繁项集中各商品之间的相似度,
Figure BDA0001839551640000063
其中,k为频繁项集的数量,Fh,i为商品i在所述频繁项集矩阵中的取值,Fh,j为商品j在所述频繁项集矩阵中的取值。
进一步地,处理器1001可以调用存储器1005中存储的基于日志挖掘的商品推荐程序,还执行以下操作:
根据所述频繁项集矩阵以及各用户对商品的评分通过下式计算Pearson相关系数的绝对值,
Figure BDA0001839551640000064
其中,Ui,j为商品i和商品j共同评分过的用户集合,Xu,i为用户u对商品i的评分,Xu,j为用户u对商品j的评分,
Figure BDA0001839551640000065
为用户对商品i的平均评分,
Figure BDA0001839551640000066
为用户对商品j的平均评分。
进一步地,处理器1001可以调用存储器1005中存储的基于日志挖掘的商品推荐程序,还执行以下操作:
从所述综合相似度矩阵中的所有商品与待测商品的相似性值;
选择相似性值最高的K个商品作为所述待测商品的最近邻居集合;
根据所述最近邻居集合对所述待测商品进行预测评分。
进一步地,处理器1001可以调用存储器1005中存储的基于日志挖掘的商品推荐程序,还执行以下操作:
根据所述最近邻居集合通过下式对所述待测商品进行预测评分,
Figure BDA0001839551640000071
其中,
Figure BDA0001839551640000072
为用户u对商品Ia的预测评分结果,
Figure BDA0001839551640000073
为待测商品Ia和商品q之间的综合相似度,Xu,q为用户u对项目q的评分,
Figure BDA0001839551640000074
为用户对商品Ia的平均评分,
Figure BDA0001839551640000075
为用户对商品q的平均评分,Na为所述最近邻居集合。
本实施例通过上述方案,引入事务数据库,对事务数据库进行频繁项集挖掘,并设计一种新的商品相似度计算方式,然后将相似度计算结果与Pearson相关系数进行加权综合,缓解了数据稀疏性导致共同评分项过少而出现的相似度度量不准确的问题,从而更准确寻找最近邻集合并进行推荐,克服了协同过滤算法在计算项目的相似度时过度依赖用户对项目的评分数据的问题。
基于上述硬件结构,提出本发明基于日志挖掘的商品推荐方法实施例。
参照图2,图2为本发明基于日志挖掘的商品推荐方法第一实施例的流程示意图。
在第一实施例中,所述基于日志挖掘的商品推荐方法包括以下步骤:
S10:从各用户的购买日志中提取各用户的购买记录,并根据各用户的购买记录建立事务数据库;
需要说明的是,所述购买日志即为用户购买商品的日志,其包括用于区分用户的用户标识、商品信息、商品评分及购买时间等信息,通常,可从各用户的购买日志中提取各用户的购买记录,所述购买记录即为反映用户购买商品的记录,其包括用于区分用户的用户标识、商品信息及商品评分。
在具体实现中,可对各用户的购买记录进行汇总和加工处理,以获得事务数据库。
S20:根据预设最小支持度通过Apriori算法对所述事务数据库进行逐条扫描,获得各频繁项集,并根据各频繁项集构成频繁项集矩阵;
需要说明的是,频繁项集可理解为出现次数超过一定数量的项集,也就是说,可设置一个次数阈值,出现次数超过所述次数阈值的项集即为频繁项集。
可理解的是,Apriori算法是一种挖掘关联规则的频繁项集算法,该算法的思想是:首先找到所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递归的方式。
在具体实现中,根据各频繁项集可通过下式计算频繁项集矩阵,
Figure BDA0001839551640000081
S30:根据所述频繁项集矩阵确定综合相似度矩阵;
需要说明的是,频繁项集之间存在一定的相似性,为便于获得反映频繁项集之间相似性的相似度矩阵,本实施例中,可先根据所述频繁项集矩阵计算所述频繁项集中各商品之间的相似度;再根据所述频繁项集矩阵以及各用户对商品的评分计算Pearson相关系数的绝对值;然后根据所述频繁项集中各商品之间的相似度以及Pearson相关系数的绝对值确定综合相似度矩阵。
为便于计算所述频繁项集中各商品之间的相似度,本实施例中,可根据所述频繁项集矩阵通过下式计算所述频繁项集中各商品之间的相似度,
Figure BDA0001839551640000082
其中,k为频繁项集的数量,Fh,i为商品i在所述频繁项集矩阵中的取值,Fh,j为商品j在所述频繁项集矩阵中的取值。
可理解的是,上述公式中分子表示商品i与商品j在频繁项集中共同出现的次数,分母表示商品i和商品j在频繁项集中出现的次数。
Pearson相关系数是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。由于Pearson相关系数的取值范围为[-1,1],相关系数绝对值越大,相关性越强,本实施例中,计算Pearson相关系数的绝对值,从而将其修订成取值范围为[0,1],为便于计算Pearson相关系数的绝对值,本实施例中,可根据所述频繁项集矩阵以及各用户对商品的评分通过下式计算Pearson相关系数的绝对值,
Figure BDA0001839551640000091
其中,Ui,j为商品i和商品j共同评分过的用户集合,Xu,i为用户u对商品i的评分,Xu,j为用户u对商品j的评分,
Figure BDA0001839551640000092
为用户对商品i的平均评分,
Figure BDA0001839551640000093
为用户对商品j的平均评分。
为便于确定综合相似度矩阵,本实施例中,可根据各频繁项集之间的相似度以及Pearson相关系数的绝对值通过下式确定综合相似度矩阵,
Figure BDA0001839551640000094
其中,Si,j为综合相似度矩阵中商品i和商品j之间的综合相似度,
Figure BDA0001839551640000095
为权重,S1i,j为所述频繁项集中商品i和商品j之间的相似度,S2i,j为商品i和商品j之间的Pearson相关系数的绝对值。
S40:获取目标用户的未评分商品,并将所述未评分商品作为待测商品;
需要说明的是,目标用户即为需要进行商品推送的用户,其通常会存在一些未评分商品,此时,可将所述未评分商品作为待测商品。
S50:基于所述综合相似度矩阵对所述待测商品进行预测评分;
可理解的是,为便于对所述待测商品进行预测评分,可先从所述综合相似度矩阵中的所有商品与待测商品的相似性值;再选择相似性值最高的K个商品作为所述待测商品的最近邻居集合;然后根据所述最近邻居集合对所述待测商品进行预测评分,所述K为大于等于2的整数。
为便于根据所述最近邻居集合对所述待测商品进行预测评分,在具体实现中,可根据所述最近邻居集合通过下式对所述待测商品进行预测评分,
Figure BDA0001839551640000096
其中,
Figure BDA0001839551640000097
为用户u对商品Ia的预测评分结果,
Figure BDA0001839551640000098
为待测商品Ia和商品q之间的综合相似度,Xu,q为用户u对项目q的评分,
Figure BDA0001839551640000099
为用户对商品Ia的平均评分,
Figure BDA00018395516400000910
为用户对商品q的平均评分,Na为所述最近邻居集合。
S60:根据预测评分结果确定待推送商品,并将待推送商品推送至所述目标用户的用户设备。
应理解的是,可在确定待推送商品的预测评分结果后,将预测评分结果进行排序,可选出对应预测评分结果最高的N个待推送商品推荐给目标用户,所述N为大于等于2的整数。
本实施例引入事务数据库,对事务数据库进行频繁项集挖掘,并设计一种新的商品相似度计算方式,然后将相似度计算结果与Pearson相关系数进行加权综合,缓解了数据稀疏性导致共同评分项过少而出现的相似度度量不准确的问题,从而更准确寻找最近邻集合并进行推荐,克服了协同过滤算法在计算项目的相似度时过度依赖用户对项目的评分数据的问题。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于日志挖掘的商品推荐程序,所述基于日志挖掘的商品推荐程序被处理器执行时实现如下操作:
从各用户的购买日志中提取各用户的购买记录,并根据各用户的购买记录建立事务数据库;
根据预设最小支持度通过Apriori算法对所述事务数据库进行逐条扫描,获得各频繁项集,并根据各频繁项集构成频繁项集矩阵;
根据所述频繁项集矩阵确定综合相似度矩阵;
获取目标用户的未评分商品,并将所述未评分商品作为待测商品;
基于所述综合相似度矩阵对所述待测商品进行预测评分;
根据预测评分结果确定待推送商品,并将待推送商品推送至所述目标用户的用户设备。
本实施例的基于日志挖掘的商品推荐程序还可用于实现上述基于日志挖掘的商品推荐方法的各步骤,在此不再赘述。
此外,本发明实施例还提出一种基于日志挖掘的商品推荐装置,参照图3,所述装置包括:
数据库建立模块301,用于从各用户的购买日志中提取各用户的购买记录,并根据各用户的购买记录建立事务数据库;
数据库扫描模块302,用于根据预设最小支持度通过Apriori算法对所述事务数据库进行逐条扫描,获得各频繁项集,并根据各频繁项集构成频繁项集矩阵;
矩阵确定模块303,用于根据所述频繁项集矩阵确定综合相似度矩阵;
商品获取模块304,用于获取目标用户的未评分商品,并将所述未评分商品作为待测商品;
预测评分模块305,用于基于所述综合相似度矩阵对所述待测商品进行预测评分;
商品推送模块306,用于根据预测评分结果确定待推送商品,并将待推送商品推送至所述目标用户的用户设备。
本实施例的各模块还可用于实现上述基于日志挖掘的商品推荐方法的各步骤,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种基于日志挖掘的商品推荐方法,其特征在于,所述方法包括以下步骤:
从各用户的购买日志中提取各用户的购买记录,并根据各用户的购买记录建立事务数据库;
根据预设最小支持度通过Apriori算法对所述事务数据库进行逐条扫描,获得各频繁项集,并根据各频繁项集构成频繁项集矩阵;
根据所述频繁项集矩阵计算所述频繁项集中各商品之间的相似度;
根据所述频繁项集矩阵以及各用户对商品的评分计算Pearson相关系数的绝对值;
根据所述频繁项集中各商品之间的相似度以及Pearson相关系数的绝对值确定综合相似度矩阵;获取目标用户的未评分商品,并将所述未评分商品作为待测商品;
基于所述综合相似度矩阵对所述待测商品进行预测评分;
根据预测评分结果确定待推送商品,并将待推送商品推送至所述目标用户的用户设备;
其中,根据所述频繁项集矩阵通过下式计算所述频繁项集中各商品之间的相似度,
Figure FDA0002576769970000011
其中,k为频繁项集的数量,Fh,i为商品i在所述频繁项集矩阵中的取值,Fh,j为商品j在所述频繁项集矩阵中的取值;
其中,根据所述频繁项集中各商品之间的相似度以及Pearson相关系数的绝对值通过下式确定综合相似度矩阵,
Figure FDA0002576769970000012
其中,Si,j为综合相似度矩阵中商品i和商品j之间的综合相似度,
Figure FDA0002576769970000013
为权重,S1i,j为所述频繁项集中商品i和商品j之间的相似度,S2i,j为商品i和商品j之间的Pearson相关系数的绝对值。
2.如权利要求1所述的方法,其特征在于,根据所述频繁项集矩阵以及各用户对商品的评分通过下式计算Pearson相关系数的绝对值,
Figure FDA0002576769970000021
其中,Ui,j为商品i和商品j共同评分过的用户集合,Xu,i为用户u对商品i的评分,Xu,j为用户u对商品j的评分,
Figure FDA0002576769970000022
为用户对商品i的平均评分,
Figure FDA0002576769970000023
为用户对商品j的平均评分。
3.如权利要求1~2中任一项所述的方法,其特征在于,所述基于所述综合相似度矩阵对所述待测商品进行预测评分,具体包括:
从所述综合相似度矩阵中的所有商品与待测商品的相似性值;
选择相似性值最高的K个商品作为所述待测商品的最近邻居集合;
根据所述最近邻居集合对所述待测商品进行预测评分。
4.如权利要求3所述的方法,其特征在于,根据所述最近邻居集合通过下式对所述待测商品进行预测评分,
Figure FDA0002576769970000024
其中,
Figure FDA0002576769970000025
为用户u对商品Ia的预测评分结果,
Figure FDA0002576769970000026
为待测商品Ia和商品q之间的综合相似度,Xu,q为用户u对项目q的评分,
Figure FDA0002576769970000027
为用户对商品Ia的平均评分,
Figure FDA0002576769970000028
为用户对商品q的平均评分,Na为所述最近邻居集合。
5.一种服务器,其特征在于,所述服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于日志挖掘的商品推荐程序,所述基于日志挖掘的商品推荐程序配置为实现如权利要求1至4中任一项所述的基于日志挖掘的商品推荐方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于日志挖掘的商品推荐程序,所述基于日志挖掘的商品推荐程序被处理器执行时实现如权利要求1至4中任一项所述的基于日志挖掘的商品推荐方法的步骤。
7.一种基于日志挖掘的商品推荐装置,其特征在于,所述装置包括:
数据库建立模块,用于从各用户的购买日志中提取各用户的购买记录,并根据各用户的购买记录建立事务数据库;
数据库扫描模块,用于根据预设最小支持度通过Apriori算法对所述事务数据库进行逐条扫描,获得各频繁项集,并根据各频繁项集构成频繁项集矩阵;
矩阵确定模块,用于根据所述频繁项集矩阵计算所述频繁项集中各商品之间的相似度;根据所述频繁项集矩阵以及各用户对商品的评分计算Pearson相关系数的绝对值;根据所述频繁项集中各商品之间的相似度以及Pearson相关系数的绝对值确定综合相似度矩阵;
商品获取模块,用于获取目标用户的未评分商品,并将所述未评分商品作为待测商品;
预测评分模块,用于基于所述综合相似度矩阵对所述待测商品进行预测评分;
商品推送模块,用于根据预测评分结果确定待推送商品,并将待推送商品推送至所述目标用户的用户设备;
其中,根据所述频繁项集矩阵通过下式计算所述频繁项集中各商品之间的相似度,
Figure FDA0002576769970000031
其中,k为频繁项集的数量,Fh,i为商品i在所述频繁项集矩阵中的取值,Fh,j为商品j在所述频繁项集矩阵中的取值;
其中,根据所述频繁项集中各商品之间的相似度以及Pearson相关系数的绝对值通过下式确定综合相似度矩阵,
Figure FDA0002576769970000032
其中,Si,j为综合相似度矩阵中商品i和商品j之间的综合相似度,
Figure FDA0002576769970000033
为权重,S1i,j为所述频繁项集中商品i和商品j之间的相似度,S2i,j为商品i和商品j之间的Pearson相关系数的绝对值。
CN201811247722.1A 2018-10-24 2018-10-24 基于日志挖掘的商品推荐方法、装置、服务器及存储介质 Active CN109300014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811247722.1A CN109300014B (zh) 2018-10-24 2018-10-24 基于日志挖掘的商品推荐方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811247722.1A CN109300014B (zh) 2018-10-24 2018-10-24 基于日志挖掘的商品推荐方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN109300014A CN109300014A (zh) 2019-02-01
CN109300014B true CN109300014B (zh) 2020-09-08

Family

ID=65157787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811247722.1A Active CN109300014B (zh) 2018-10-24 2018-10-24 基于日志挖掘的商品推荐方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN109300014B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135952B (zh) * 2019-05-16 2022-07-19 深圳市梦网视讯有限公司 一种基于品类相似度的商品推荐方法和系统
CN112036971A (zh) * 2019-06-04 2020-12-04 上海博泰悦臻网络技术服务有限公司 基于协同过滤的车机购物推送方法、服务端及客户端
CN111009299A (zh) * 2019-12-17 2020-04-14 武汉海云健康科技股份有限公司 相似药品推荐方法及系统、服务器及介质
CN112395501A (zh) * 2020-11-17 2021-02-23 航天信息股份有限公司 企业推荐方法、装置、存储介质及电子设备
CN112765458B (zh) * 2021-01-07 2022-10-14 同济大学 基于度量分解和标签自适应分配权重的混合推荐方法
CN113836310B (zh) * 2021-08-04 2022-11-29 欧冶工业品股份有限公司 知识图谱驱动的工业品供应链管理方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447134A (zh) * 2015-11-20 2016-03-30 央视国际网络无锡有限公司 频繁项集挖掘算法的优化方法
CN105608135A (zh) * 2015-12-18 2016-05-25 Tcl集团股份有限公司 一种基于Apriori算法的数据挖掘方法及系统
CN107563857A (zh) * 2017-08-31 2018-01-09 齐鲁工业大学 基于逻辑推理负关联规则修剪技术的客户购买行为分析方法
CN108182294A (zh) * 2018-01-31 2018-06-19 湖北工业大学 一种基于频繁项集增长算法的电影推荐方法及系统
CN108346085A (zh) * 2018-01-30 2018-07-31 南京邮电大学 基于加权频繁项集挖掘算法的电商平台个性化推荐方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130339163A1 (en) * 2012-06-18 2013-12-19 Christian Dumontet Food Recommendation Based on Order History
US20180211007A1 (en) * 2017-01-25 2018-07-26 International Business Machines Corporation Assist Selection of Provider/Facility for Surgical Procedures Based on Frequency of Procedure, History of Complications, and Cost

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447134A (zh) * 2015-11-20 2016-03-30 央视国际网络无锡有限公司 频繁项集挖掘算法的优化方法
CN105608135A (zh) * 2015-12-18 2016-05-25 Tcl集团股份有限公司 一种基于Apriori算法的数据挖掘方法及系统
CN107563857A (zh) * 2017-08-31 2018-01-09 齐鲁工业大学 基于逻辑推理负关联规则修剪技术的客户购买行为分析方法
CN108346085A (zh) * 2018-01-30 2018-07-31 南京邮电大学 基于加权频繁项集挖掘算法的电商平台个性化推荐方法
CN108182294A (zh) * 2018-01-31 2018-06-19 湖北工业大学 一种基于频繁项集增长算法的电影推荐方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An Improved Apriori-Based Personal Recommendation Algorithm for E-commerce;Zhongyi Hu等;《 2008 Third International Conference on Pervasive Computing and Applications》;20090213;第60-64页 *
基于协同过滤和属性关联规则混合推荐算法研究;魏全彬;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181015;第2018年卷(第10期);第3.4节,第4.3节 *

Also Published As

Publication number Publication date
CN109300014A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN109300014B (zh) 基于日志挖掘的商品推荐方法、装置、服务器及存储介质
US7814107B1 (en) Generating similarity scores for matching non-identical data strings
CN102799591B (zh) 一种提供推荐词的方法及装置
CN104933172A (zh) 一种基于用户搜索行为的信息推送方法和装置
CN109063000B (zh) 问句推荐方法、客服系统以及计算机可读存储介质
WO2014002595A1 (ja) 情報処理システム、類似カテゴリ特定方法、プログラムおよびコンピュータ読取り可能な情報記憶媒体
CN110362601B (zh) 元数据标准的映射方法、装置、设备及存储介质
CN110503506B (zh) 基于评分数据的物品推荐方法、装置及介质
CN109857938B (zh) 基于企业信息的搜索方法、搜索装置及计算机存储介质
CN106682121A (zh) 一种基于用户兴趣变化的时效推荐方法
CN110674391B (zh) 基于大数据的产品数据推送方法、系统和计算机设备
CN110008396B (zh) 对象信息推送方法、装置、设备及计算机可读存储介质
CN111611496A (zh) 产品推荐方法及其装置
JP2015032254A (ja) 情報処理装置、情報処理方法、及び、プログラム
CN114820123A (zh) 团购商品推荐方法、装置、设备及存储介质
CN109034941B (zh) 产品推荐方法、装置、计算机设备和存储介质
US20170154294A1 (en) Performance evaluation device, control method for performance evaluation device, and control program for performance evaluation device
CN114579858A (zh) 内容推荐方法和装置、电子设备、存储介质
KR20190055963A (ko) 키워드검색 분석을 통한 온라인 쇼핑몰의 상품 노출 시스템 및 그 운영방법
CN116523548A (zh) 商品的特征信息识别方法及其装置
CN114266601A (zh) 营销策略确定方法、装置、终端设备及存储介质
CN112801489B (zh) 诉讼案件风险检测方法、装置、设备和可读存储介质
CN110020195B (zh) 文章推荐方法及装置、存储介质、电子设备
CN113781180B (zh) 一种物品推荐方法、装置、电子设备及存储介质
CN104050174B (zh) 一种个性化页面生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant