CN114219574B - 一种基于加权频繁序列的商品组合挖掘方法 - Google Patents

一种基于加权频繁序列的商品组合挖掘方法 Download PDF

Info

Publication number
CN114219574B
CN114219574B CN202111556654.9A CN202111556654A CN114219574B CN 114219574 B CN114219574 B CN 114219574B CN 202111556654 A CN202111556654 A CN 202111556654A CN 114219574 B CN114219574 B CN 114219574B
Authority
CN
China
Prior art keywords
sequence
commodity
weighted
data set
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111556654.9A
Other languages
English (en)
Other versions
CN114219574A (zh
Inventor
叶臻强
陈家辉
万世成
郭炜彬
黎梓洋
梁梓恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202111556654.9A priority Critical patent/CN114219574B/zh
Publication of CN114219574A publication Critical patent/CN114219574A/zh
Application granted granted Critical
Publication of CN114219574B publication Critical patent/CN114219574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于加权频繁序列的商品组合挖掘方法,涉及大数据挖掘的技术领域,获取基于时间的商品交易的订单信息,组成商品数据集,根据商品的收益情况为每个商品赋予不同的权值,并依据商品权值大小,对多元项中包含的商品进行排序之后对商品进行加权频繁序列的挖掘;根据向下闭包特性,深度挖掘商品数据集中具有高收益和高频次的商品组合方式;根据先验性原理,从商品数据集中剔除不是加权频繁序列商品,减少候选组合方式的产生,提高挖掘效率。本发明在保证挖掘准确性的前提下拥有更高的挖掘效率,为商家提供更好的营销思路。

Description

一种基于加权频繁序列的商品组合挖掘方法
技术领域
本发明涉及大数据挖掘的技术领域,更具体地,涉及一种基于加权频繁序列的商品组合挖掘方法。
背景技术
近年来,随着网络活动的日益增加,产生了大量的数据;如何从海量数据中寻找出有价值的信息成为各行各业都极为感兴趣的领域。因此,数据挖掘技术得到了极大的发展,为人们进行决策活动提供了更加细致和明晰的内在关联,具有深刻的借鉴、指导意义。比如商场的购物篮模型,对频繁项集挖掘做了充分且深入的研究。频繁项集挖掘是指从事务数据库中挖掘出现频次高的模式,即事务的组合,这在许多领域有着广泛的应用。随着信息的复杂度上升以及数量指数增长,顺序模式挖掘被认为在各种任务中有更好的表现,比如在精准营销、医疗诊断、网络日志挖掘、智能家居以及自然灾害检查等领域。如何有效提高顺序模式挖掘的效率以及保证准确性成为了当前研究热点。在顺序模式挖掘研究的初始阶段,Agraw等人提出了Apriori算法。Apriori算法需要不断地对原数据库进行扫描,频繁的I/O读取操作增加了时间开销,加上会产生的大量候选序列,需要更大的内存支持,影响了算法的表现性能。在Apriori算法之后,学者们提出了基于FP树结构的挖掘、基于投影数据库的挖掘和基于位图实现的顺序模式挖掘。这些算法均大幅减少了I/O操作,并且在挖掘过程中利用向下闭包特性减少了候选序列的产生,从而提高了算法的效率。传统的顺序模式挖掘在挖掘的过程中都基于一个假设,即在数据库中不同的项目之间它们的权值是一样的。然而在实际生活中,不同的项目之间会因其价值的不同,导致其重要性存在巨大差异。比如在零售领域,具有高附加价值的商品与利润微薄的日常用品,两者的收益相差甚远。为了使顺序模式挖掘具有更好的代表性,可以在进行挖掘之前对数据库中的项目按照其重要性赋予相应的权值。具体的权值可以由用户根据相关领域知识或是特定的需要自行预设,如项目的收益、优先级、代价来进行考量。通过赋予权值实现的加权频繁序列挖掘,能够挖掘出具有高价值但是低频率的模式,也能过滤掉低价值但是重复出现的低意义模式。然而,引入权值后,传统频繁序列挖掘所维持的向下闭包特性将会被打破,即当前序列P是非加权频繁序列,但P通过拓展之后的超集P’仍有可能是加权频繁序列,由于不能根据向下闭包特性提前对数据集中无期望项集删除从而减小搜索空间,这为加权频繁序列的挖掘带来了巨大的挑战。为了使加权频繁序列挖掘也能实现向下闭包特性,学者们设计了多种模型。Yun等人提出了一种基于数据集中最大权值的上界模型的WFIM算法,通过该上界模型,WFIM算法实现了在挖掘加权频繁序列过程中的向下闭包特性,提高了挖掘的速率;Lin等人在此基础上进一步优化了上界模型,提出了IUA算法,将构成数据集的每一条表项中的最大值作为存在于该表项的序列上界值,进一步提高了上界模型的精度,从而缩短了挖掘的时间。
现有技术公开了一种基于改进PrefixSpan算法的交易数据频繁序列模式挖掘方法,包括步骤:对商品交易数据进行预处理,得到商品交易数据集,并存入交易序列数据库中;扫描交易序列数据库,对每个单项进行计数,得到每个单项的序列支持度并降序排序,选出前μ项且满足最小支持度的单项作为初始前缀;采取深度优先遍历,对第一个初始前缀的位置进行计算,并保存在前缀位置信息表中,生成商品交易投影数据库;再对其进行迭代,直至无法生成新的商品交易投影数据库,保存每个商品交易投影数据库生成的频繁序列模式集合;从第二个初始前缀开始,重复上一步骤,直至所有初始前缀均计算完毕。该申请没有考虑不同商品之间的价值,仅根据商品在交易序列数据库中出现的次数计算支持度,无法过滤低价值重复出现的商品,导致商品组合推荐不准确。
发明内容
本发明为克服上述现有技术对商品组合的频繁序列进行挖掘时无法兼顾效率与准确性的缺陷,提供一种基于加权频繁序列的商品组合挖掘方法,能够提高商品组合的频繁序列的挖掘效率,提供更准确的商品组合推荐。
为解决上述技术问题,本发明的技术方案如下:
本发明提供了一种基于加权频繁序列的商品组合挖掘方法,包括:
S1:获取基于时间的商品交易的订单信息,组成商品数据集D;
商品数据集D={S1,S2,…,Sn},其中Sn表示第n段时间的订单序列,每个订单序列称为商品数据集的项集;订单序列Sn={I1,I2,…,Im},其中Im表示第m个订单,每个订单称为商品数据集的项,每个订单包含至少一个商品;
S2:根据商品的收益情况为每个商品赋予不同的权值;
S3:根据商品权值大小,对多元项中包含的商品进行排序,获得排序后的商品数据集D*
S4:建立候选加权频繁序列集WFUBr、加权频繁序列集WSr和加权频繁项集FIr,令r=1;
S5:判断排序后的商品数据集D*是否为空,若为空,则执行步骤S10;否则,根据候选加权频繁序列集WFUBr的r序列与排序后的商品数据集D*中的一元项进行扩展,获得扩展r序列,执行步骤S6;
S6:计算扩展r序列中每个序列的加权支持上界值和加权支持度,依据向下闭包特性,确定是否将每个序列加入候选加权频繁序列集WFUBr和加权频繁序列集WSr中;并将加入候选加权频繁序列集WFUBr中的序列的项添加到加权频繁项集FIr中;
S7:根据先验性原理,利用加权频繁项集FIr中的项对排序后的商品数据集D*进行压缩,形成压缩数据集D′;
S8:基于压缩数据集D′,分别以其中的每个项为前缀,构建投影数据集Dr,将投影数据集Dr作为下一轮次的数据集D*
S9:令r=r+1,返回步骤S5;
S10:根据每一轮次获得的加权频繁序列集组成加权频繁序列总集;
S11:根据加权频繁序列总集进行商品组合推荐。
优选地,所述步骤S3中,根据商品权值大小,对多元项中包含的商品进行升序排序。
优选地,所述步骤S5中,根据候选加权频繁序列集WFUBr的r序列与排序后的商品数据集D*中的一元项进行扩展包括项集扩展或序列扩展;
项集扩展表示将排序后的商品数据集D*中的一元项分别添加到r序列中最后一个项集的末尾;
序列扩展表示将排序后的商品数据集D*中的一元项分别添加到r序列的末尾。
如r序列为P={ABCD},对其进行项集扩展,则扩展r序列为P1={ABC(DE)};若对其进行序列扩展,则扩展r序列为P2={ABCDE}。
优选地,所述步骤S6中,计算扩展r序列的加权支持上界值的具体方法为:
式中,swubr表示扩展r序列的加权支持上界值,tsmw表示排序后的商品数据集D*的相对加权频繁总值,Sy表示第y段时间的订单序列;RUPr表示扩展r序列在所属订单序列的上界值,ωr表示扩展r序列的权值,lengthr表示扩展r序列所包含的项数,rswubr表示扩展r序列所在订单序列的剩余最大值,|X|表示添加至r序列的项的个数。
优选地,所述步骤S6中,计算扩展r序列的加权支持度的具体方法为:
式中,wsupr表示扩展r序列的加权支持度。
优选地,所述步骤S6中,依据向下闭包特性,确定是否将每个序列加入候选加权频繁序列集WFUBr和加权频繁序列集WSr中的具体方法为:
预设最小加权支持度min WS,分别将扩展r序列中每个序列的加权支持上界值与最小加权支持度进行比较,若swub≥min WS,则该序列加入候选加权频繁序列集WFUBr中,否则不加入;
分别将扩展r序列中每个序列的加权支持度与最小加权支持度进行比较,若wsup≥min WS,则该序列加入加权频繁序列集WSr中,否则不加入。
向下闭包特性指:候选加权频繁序列的上界值总会大于等于其将要拓展序列的加权支持度;如r序列为P={ABCD},无论对其进行项集扩展获得P1还是序列扩展获得P2,都有
优选地,所述步骤S6中,将加入候选加权频繁序列集WFUBr中的序列的项添加到加权频繁项集FIr中,相同的项仅添加一次。
优选地,所述步骤S7中,根据先验性原理,利用加权频繁项集FIr中的项对排序后的商品数据集D*进行压缩,形成压缩数据集D′的具体方法为:
判断排序后的商品数据集D*中的项是否存在于加权频繁项集FIr中,若存在,则保留该项,若不存在,则剔除该项,形成压缩数据集D′。
对排序后的商品数据集D*进行压缩的目的是减少搜索空间。
先验原理是指任一加权频繁序列的子集也为加权频繁序列,所以将存在于排序后的商品数据集D*中的项但不存在于加权频繁项集FIr的项剔除,而不影响最终挖掘结果的准确性。
优选地,压缩数据集D′中的所有项集中,若存在包含一个项的项集,则从压缩数据集D′中删除该项集。
优选地,所述步骤S8中,基于压缩数据集D′,分别以其中的每个项为前缀,构建投影数据集Dr的具体方法为:
压缩数据集D′包含若干个序列,每个序列中包含若干项;以任意一项为前缀,则保留该项在每个序列中第一次出现位置之后的所有项,形成投影数据集Dr
与现有技术相比,本发明技术方案的有益效果是:
本发明根据不同商品的收益为商品赋予不同的权值之后,对商品进行加权频繁序列的挖掘;根据向下闭包特性,深度挖掘商品数据集中具有高收益和高频次的商品组合方式;根据先验性原理,从商品数据集中剔除不是加权频繁序列商品,减少候选组合方式的产生,提高挖掘效率。本发明在保证挖掘准确性的前提下拥有更高的挖掘效率。
附图说明
图1为实施例1所述的一种基于加权频繁序列的商品组合挖掘方法的流程图。
图2为实施例3所述的商品数据集的示意图。
图3为实施例3所述的商品权值图。
图4为实施例3所述的排序后的商品数据集的示意图。
图5为实施例3所述的扩展1序列的加权支持上界值和加权支持度的结果示意图。
图6为实施例3所述的候选加权频繁序列集WFUB1的示意图。
图7为实施例3所述的加权频繁序列集WS1的示意图。
图8为实施例3所述的加权频繁项集FI1的示意图。
图9为实施例3所述的第一轮次压缩数据集D′的示意图。
图10为实施例3所述的以<C>为前缀的投影数据集D1的示意图。
图11为实施例3所述的扩展2序列的加权支持上界值和加权支持度的结果示意图。
图12为实施例3所述的候选加权频繁序列集WFUB2的示意图。
图13为实施例3所述的加权频繁序列集WS2的示意图。
图14为实施例3所述的加权频繁项集FI2的示意图。
图15为实施例3所述的第二轮次的压缩数据集D′的示意图。
图16为实施例3所述的投影数据集D2的示意图。
图17为实施例3所述的扩展3序列的加权支持上界值和加权支持度的结果示意图。
图18为实施例3所述的加权频繁序列总集的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种基于加权频繁序列的商品组合挖掘方法,如图1所示,包括:
S1:获取基于时间的商品交易的订单信息,组成商品数据集D;
商品数据集D={S1,S2,…,Sn},其中Sn表示第n段时间的订单序列,每个订单序列称为商品数据集的项集;订单序列Sn={I1,I2,…,Im},其中Im表示第m个订单,每个订单称为商品数据集的项,每个订单包含至少一个商品;
S2:根据商品的收益情况为每个商品赋予不同的权值;
S3:根据商品权值大小,对多元项中包含的商品进行排序,获得排序后的商品数据集D*
S4:建立候选加权频繁序列集WFUBr、加权频繁序列集WSr和加权频繁项集FIr,令r=1;
S5:判断排序后的商品数据集D*是否为空,若为空,则执行步骤S10;否则,根据候选加权频繁序列集WFUBr的r序列与排序后的商品数据集D*中的一元项进行扩展,获得扩展r序列,执行步骤S6;
S6:计算扩展r序列中每个序列的加权支持上界值和加权支持度,依据向下闭包特性,确定是否将每个序列加入候选加权频繁序列集WFUBr和加权频繁序列集WSr中;并将加入候选加权频繁序列集WFUBr中的序列的项添加到加权频繁项集FIr中;
S7:根据先验性原理,利用加权频繁项集FIr中的项对排序后的商品数据集D*进行压缩,形成压缩数据集D′;
S8:基于压缩数据集D′,分别以其中的每个项为前缀,构建投影数据集Dr,将投影数据集Dr作为下一轮次的数据集D*
S9:令r=r+1,返回步骤S5;
S10:根据每一轮次获得的加权频繁序列集组成加权频繁序列总集;
S11:根据加权频繁序列总集进行商品组合推荐。
在具体实施过程中,获取基于时间的商品交易的订单信息,组成商品数据集D;如只获取第一段时间的商品交易订单序列,则D={S1},S1称为D的项集;在该段时间按时间顺序排序共有5个订单,第一个订单包括商品A,第二个订单包括商品C,第三个订单包括商品F,第四个订单包括商品D和E,第五个订单包括商品F,则订单序列S1表示为S1={A,C,F,(DE),F},A,C,(DE),F均称为D的项,A,C,F为一元项,(DE)为二元项;之后根据商品的收益情况为每个商品赋予不同的权值,基于权值对多元项中包含的商品进行排序,即包含两种及以上商品的订单,对订单内的商品进行排序,获得排序后的商品数据集。建立候选加权频繁序列集WFUBr、加权频繁序列集WSr和加权频繁项集FIr,分别用于收集候选加权频繁序列、加权频繁序列和加权频繁项;根据向下闭包特性和先验性原理,通过多轮次计算扩展r序列中每个序列的加权支持上界值和加权支持度,直到商品数据集为空,确定出r元的加权频繁序列,汇总为加权频繁序列总集,进行商品组合推荐。
实施例2
本实施例提供一种基于加权频繁序列的商品组合挖掘方法,包括:
S1:获取基于时间的商品交易的订单信息,组成商品数据集D;
商品数据集D={S1,S2,…,Sn},其中Sn表示第n段时间的订单序列,每个订单序列称为商品数据集的项集;订单序列Sn={I1,I2,…,Im},其中Im表示第m个订单,每个订单称为商品数据集的项,每个订单包含至少一个商品;
S2:根据商品的收益情况为每个商品赋予不同的权值;
S3:根据商品权值大小,对多元项中包含的商品进行升序排序,获得排序后的商品数据集D*
S4:建立候选加权频繁序列集WFUBr、加权频繁序列集WSr和加权频繁项集FIr,令r=1;
S5:判断排序后的商品数据集D*是否为空,若为空,则执行步骤S10;否则,根据候选加权频繁序列集WFUBr的r序列与排序后的商品数据集D*中的一元项进行扩展,获得扩展r序列,执行步骤S6;
所述扩展包括项集扩展或序列扩展,具体为:
项集扩展表示将排序后的商品数据集D*中的一元项分别添加到r序列中最后一个项集的末尾;
序列扩展表示将排序后的商品数据集D*中的一元项分别添加到r序列的末尾;
S6:计算扩展r序列中每个序列的加权支持上界值和加权支持度,依据向下闭包特性,确定是否将每个序列加入候选加权频繁序列集WFUBr和加权频繁序列集WSr中;并将加入候选加权频繁序列集WFUBr中的序列的项添加到加权频繁项集FIr中,相同的项仅添加一次;
加权支持上界值表示为:
加权支持度表示为:
式中,swubr表示扩展r序列的加权支持上界值,tsmw表示排序后的商品数据集D*的相对加权频繁总值,Sy表示第y段时间的订单序列;RUPr表示扩展r序列在所属订单序列的上界值,ωr表示扩展r序列的权值,lengthr表示扩展r序列所包含的项数,rswubr表示扩展r序列所在订单序列的剩余最大值,|X|表示添加至r序列的项的个数,wsupr表示扩展r序列的加权支持度;
预设最小加权支持度min WS,分别将扩展r序列中每个序列的加权支持上界值与最小加权支持度进行比较,若swub≥min WS,则该序列加入候选加权频繁序列集WFUBr中,否则不加入;
分别将扩展r序列中每个序列的加权支持度与最小加权支持度进行比较,若wsup≥min WS,则该序列加入加权频繁序列集WSr中,否则不加入。
向下闭包特性指:候选加权频繁序列的上界值总会大于等于其将要拓展序列的加权支持度;
S7:根据先验性原理,利用加权频繁项集FIr中的项对排序后的商品数据集D*进行压缩,形成压缩数据集D′,具体的:
判断排序后的商品数据集D*中的项是否存在于加权频繁项集FIr中,若存在,则保留该项,若不存在,则剔除该项,形成压缩数据集D′。
压缩数据集D′中的所有项集中,若存在包含一个项的项集,则从压缩数据集D′中删除该项集。
S8:基于压缩数据集D′,分别以其中的每个项为前缀,构建投影数据集Dr,将投影数据集Dr作为下一轮次的数据集D*
构建投影数据集Dr的具体方法为:
压缩数据集D′包含若干个序列,每个序列中包含若干项;以任意一项为前缀,则保留该项在每个序列中第一次出现位置之后的所有项,形成投影数据集Dr
S9:令r=r+1,返回步骤S5;
S10:根据每一轮次获得的加权频繁序列集组成加权频繁序列总集;
S11:根据加权频繁序列总集中多元项进行商品组合推荐。
实施例3
本实施例结合具体的数据对实施例2提出的一种基于加权频繁序列的商品组合挖掘方法进行说明;
如图2所示,某电商平台5个时间段内出售商品构成了商品数据集D,5个时间段的订单序列记为其中S1~S5,在第一个时间段内,依次有4笔订单,分别卖出商品B、商品A、商品C、商品B,则S1={B,A,C,B},同理获得其他订单序列。根据商品的收益情况,分别为商品A~H赋予不同的权值,商品权值图如图3所示;以订单序列S3={A,C,F,(ED),B}为例,根据商品权值大小,对多元项中包含的商品进行升序排序,根据图3可知,商品D的权值小于商品E,故排序后的订单序列S3={A,C,F,(DE),B},则排序后的商品数据集D*如图4所示。
建立候选加权频繁序列集WFUBr、加权频繁序列集WSr和加权频繁项集FIr,令r=1,则有候选加权频繁序列集WFUB1、加权频繁序列集WS1和加权频繁项集FI1;此时排序后的商品数据集D*不为空,则根据WFUB1的1序列与排序后的商品数据集D*中的一元项进行扩展,由于建立的WFUB1为空,所以将排序后的商品数据集D*中的一元项依次添加在空序列末尾,形成扩展1序列,即<A>,<B>,<C>,<D>,<E>,<F>,<G>,<H>,分别计算每个序列的加权支持上界值swub和加权支持度wsup,计算结果如图5所示;本实施例中,预设最小加权支持度min WS=0.3,将每个1序列的加权支持上界值swub和加权支持度wsup分别与最小加权支持度0.3进行比较,加权支持上界值swub不小于0.3的序列加入候选加权频繁序列集WFUB1中,加权支持度wsup不小于0.3的序列加入加权频繁序列集WS1中,分别如图6、7所示;将加入候选加权频繁序列集WFUB1中序列的项添加至加权频繁项集FI1中,如图8所示,FI1中存在的项包括<C>,<D>,<E>,<F>,<G>,<H>;与排序后的商品数据集D*中的项进行对比,<A>,<B>存在于D*但不存在于FI1,在D*中剔除<A>,<B>,以S5={C,(AD),C,E,F}为例,剔除后S5={C,(D),C,E,F},而S1中剔除<A>,<B>后仅剩<C>,则将S1也删除,第一轮次获得的压缩数据集D′如图9所示;
基于压缩数据集D′,分别以其中的每个项为前缀,构建投影数据集D1,即分别以<C>,<D>,<E>,<F>,<G>,<H>为前缀,构建出6个投影数据集D1;以<C>为前缀构建投影数据集为例,保留<C>在每个序列中第一次出现位置之后的所有项;压缩数据集D′中,<C>出现在S1、S2、S4中,则保留S1、S2、S4中<C>第一次出现位置之后的所有项,则以<C>为前缀的投影数据集D1如图10所示;
将投影数据集D1作为下一轮次的数据集D*,令r=2,重复以上步骤;投影数据集D1不为空,则建立候选加权频繁序列集WFUB2、加权频繁序列集WS2和加权频繁项集FI2;扩展时,WFUB2的2序列则是将投影数据集D1中的一元项<C>,<D>,<E>,<F>,<G>,<H>分别添加到2序列的末尾,以<C>为例,则扩展2序列包括<CC>,<CD>,<CE>,<CF>,<CG>,<CH>,分别计算扩展2序列中每个序列的加权支持上界值swub和加权支持度wsup,计算结果如图11所示;继续与最小加权支持度0.3进行比较,加权支持上界值swub不小于0.3的序列加入候选加权频繁序列集WFUB2中,加权支持度wsup不小于0.3的序列加入加权频繁序列集WS2中,分别如图12、13所示,此时仅有<CF>的加权支持上界值swub和加权支持度wsup不小于0.3,则加权频繁项集FI2中仅存在<CF>,如图14所示;继续在投影数据集D1剔除不是<CF>的项,则第二轮次的压缩数据集D′如图15所示,仅包含S1={F,F},S2={C,F};基于第二轮次的压缩数据集D′,分别以其中的每个项为前缀,构建投影数据集D2,无论以<C>还是<F>为前缀,第一次出现位置之后的项仅为<F>,投影数据集D2如图16所示;
将投影数据集D2作为下一轮次的数据集D*,令r=3,重复以上步骤;投影数据集D2不为空,则建立候选加权频繁序列集WFUB3、加权频繁序列集WS3和加权频繁项集FI3;扩展时,WFUB3的3序列则是将投影数据集D2中的一元项<F>添加到3序列的末尾形成<CFF>,计算<CFF>的加权支持上界值swub和加权支持度wsup,计算结果如图17所示,加权支持上界值swub和加权支持度wsup均小于0.3,候选加权频繁序列集WFUB3、加权频繁序列集WS3和加权频繁项集FI3均为空,投影数据集D2也被剔除为空,递归操作结束;
利用相同的方法计算出以<D>,<E>,<F>,<G>,<H>为前缀构建出的投影数据集,最终根据所有加权频繁序列集组成权频繁序列总集,即WS=WS1∪WS2∪…∪WSr,本实施例最终获得的加权频繁序列总集如图18所示,可以看出商品按照CF、DF、EF进行组合出售,具有更高的收益。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于加权频繁序列的商品组合挖掘方法,其特征在于,包括:
S1:获取基于时间的商品交易的订单信息,组成商品数据集D;
商品数据集D={S1,S2,…,Sn},其中Sn表示第n段时间的订单序列,每个订单序列称为商品数据集的项集;订单序列Sn={I1,I2,…,Im},其中Im表示第m个订单,每个订单称为商品数据集的项,每个订单包含至少一个商品;
S2:根据商品的收益情况为每个商品赋予不同的权值;
S3:根据商品权值大小,对多元项中包含的商品进行排序,获得排序后的商品数据集D*
S4:建立候选加权频繁序列集WFUBr、加权频繁序列集WSr和加权频繁项集FIr,令r=1;
S5:判断排序后的商品数据集D*是否为空,若为空,则执行步骤S10;否则,根据候选加权频繁序列集WFUBr的r序列与排序后的商品数据集D*中的一元项进行扩展,获得扩展r序列,执行步骤S6;
S6:计算扩展r序列中每个序列的加权支持上界值和加权支持度,依据向下闭包特性,确定是否将每个序列加入候选加权频繁序列集WFUBr和加权频繁序列集WSr中;并将加入候选加权频繁序列集WFUBr中的序列的项添加到加权频繁项集FIr中;
S7:根据先验性原理,利用加权频繁项集FIr中的项对排序后的商品数据集D*进行压缩,形成压缩数据集D′;
S8:基于压缩数据集D′,分别以其中的每个项为前缀,构建投影数据集Dr,将投影数据集Dr作为下一轮次的数据集D*
S9:令r=r+1,返回步骤S5;
S10:根据每一轮次获得的加权频繁序列集组成加权频繁序列总集;
S11:根据加权频繁序列总集进行商品组合推荐。
2.根据权利要求1所述的基于加权频繁序列的商品组合挖掘方法,其特征在于,所述步骤S3中,根据商品权值大小,对多元项中包含的商品进行升序排序。
3.根据权利要求2所述的基于加权频繁序列的商品组合挖掘方法,其特征在于,所述步骤S5中,根据候选加权频繁序列集WFUBr的r序列与排序后的商品数据集D*中的一元项进行扩展包括项集扩展或序列扩展;
项集扩展表示将排序后的商品数据集D*中的一元项分别添加到r序列中最后一个项集的末尾;
序列扩展表示将排序后的商品数据集D*中的一元项分别添加到r序列的末尾。
4.根据权利要求3所述的基于加权频繁序列的商品组合挖掘方法,其特征在于,所述步骤S6中,计算扩展r序列的加权支持上界值的具体方法为:
式中,swubr表示扩展r序列的加权支持上界值,tsmw表示排序后的商品数据集D*的相对加权频繁总值,Sy表示第y段时间的订单序列;RUPr表示扩展r序列在所属订单序列的上界值,ωr表示扩展r序列的权值,lengthr表示扩展r序列所包含的项数,rswubr表示扩展r序列所在订单序列的剩余最大值,|X|表示添加至r序列的项的个数。
5.根据权利要求3所述的基于加权频繁序列的商品组合挖掘方法,其特征在于,所述步骤S6中,计算扩展r序列的加权支持度的具体方法为:
式中,wsupr表示扩展r序列的加权支持度。
6.根据权利要求4或5所述的基于加权频繁序列的商品组合挖掘方法,其特征在于,所述步骤S6中,依据向下闭包特性,确定是否将每个序列加入候选加权频繁序列集WFUBr和加权频繁序列集WSr中的具体方法为:
预设最小加权支持度min WS,分别将扩展r序列中每个序列的加权支持上界值与最小加权支持度进行比较,若swub≥min WS,则该序列加入候选加权频繁序列集WFUBr中,否则不加入;
分别将扩展r序列中每个序列的加权支持度与最小加权支持度进行比较,若wsup≥minWS,则该序列加入加权频繁序列集WSr中,否则不加入。
7.根据权利要求6所述的基于加权频繁序列的商品组合挖掘方法,其特征在于,所述步骤S6中,将加入候选加权频繁序列集WFUBr中的序列的项添加到加权频繁项集FIr中,相同的项仅添加一次。
8.根据权利要求7所述的基于加权频繁序列的商品组合挖掘方法,其特征在于,所述步骤S7中,根据先验性原理,利用加权频繁项集FIr中的项对排序后的商品数据集D*进行压缩,形成压缩数据集D′的具体方法为:
判断排序后的商品数据集D*中的项是否存在于加权频繁项集FIr中,若存在,则保留该项,若不存在,则剔除该项,形成压缩数据集D′。
9.根据权利要求8所述的基于加权频繁序列的商品组合挖掘方法,其特征在于,压缩数据集D′中的所有项集中,若存在包含一个项的项集,则从压缩数据集D′中删除该项集。
10.根据权利要求9所述的基于加权频繁序列的商品组合挖掘方法,其特征在于,所述步骤S8中,基于压缩数据集D′,分别以其中的每个项为前缀,构建投影数据集Dr的具体方法为:
压缩数据集D′包含若干个序列,每个序列中包含若干项;以任意一项为前缀,则保留该项在每个序列中第一次出现位置之后的所有项,形成投影数据集Dr
CN202111556654.9A 2021-12-17 2021-12-17 一种基于加权频繁序列的商品组合挖掘方法 Active CN114219574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111556654.9A CN114219574B (zh) 2021-12-17 2021-12-17 一种基于加权频繁序列的商品组合挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111556654.9A CN114219574B (zh) 2021-12-17 2021-12-17 一种基于加权频繁序列的商品组合挖掘方法

Publications (2)

Publication Number Publication Date
CN114219574A CN114219574A (zh) 2022-03-22
CN114219574B true CN114219574B (zh) 2024-08-06

Family

ID=80703983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111556654.9A Active CN114219574B (zh) 2021-12-17 2021-12-17 一种基于加权频繁序列的商品组合挖掘方法

Country Status (1)

Country Link
CN (1) CN114219574B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013143878A2 (en) * 2012-03-27 2013-10-03 Telefonica, S.A. A method and a system to generate personalized selection of items for a given user in an online computing system
CN113268528A (zh) * 2021-06-01 2021-08-17 西北工业大学 面向传感数据的多概率阈值频繁项集挖掘方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101824928B1 (ko) * 2016-07-12 2018-02-02 세종대학교 산학협력단 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법 및 이를 수행하는 불확실 가중화 빈발 아이템 마이닝 장치
CN108346085A (zh) * 2018-01-30 2018-07-31 南京邮电大学 基于加权频繁项集挖掘算法的电商平台个性化推荐方法
CN109582711A (zh) * 2018-11-26 2019-04-05 广西财经学院 基于项权值排序的英文特征词加权关联规则挖掘方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013143878A2 (en) * 2012-03-27 2013-10-03 Telefonica, S.A. A method and a system to generate personalized selection of items for a given user in an online computing system
CN113268528A (zh) * 2021-06-01 2021-08-17 西北工业大学 面向传感数据的多概率阈值频繁项集挖掘方法及装置

Also Published As

Publication number Publication date
CN114219574A (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
JP3323180B2 (ja) 決定木変更方法およびデータマイニング装置
Ahmed et al. Single-pass incremental and interactive mining for weighted frequent patterns
Yun et al. Sliding window based weighted erasable stream pattern mining for stream data applications
JP2002539563A (ja) データベースから情報を抽出するための方法
Ingle et al. Association rule mining using improved Apriori algorithm
CN112085525A (zh) 一种基于混合模型的用户网络购买行为预测研究方法
CA3156642A1 (en) Anti-fraud method and system based on automatic feature engineering
CN110807053A (zh) 一种基于改进Apriori算法找出频繁项集的方法
Rusdiana et al. Comparison of distance metrics on fuzzy C-means algorithm through customer segmentation
CN114219574B (zh) 一种基于加权频繁序列的商品组合挖掘方法
CN110334796A (zh) 一种社会安全事件的关联规则挖掘方法及装置
CN107609110B (zh) 基于分类树的最大多样频繁模式的挖掘方法及装置
CN111639673A (zh) 一种处理混合特征数据的自解释规约建模方法
CN108509531B (zh) 一种基于Spark平台的不确定数据集频繁项挖掘方法
CN111738786A (zh) 构建商品组合的方法、系统、装置和可读存储介质
Winarti et al. Data Mining Modeling Feasibility Patterns of Graduates Ability With Stakeholder Needs Using Apriori Algorithm
CN103176976A (zh) 一种基于数据压缩的改进的Apriori算法
Cho et al. Effective purchase pattern mining with weight based on FRAT analysis for recommender in e-commerce
Esmaeilpour et al. Cellular learning automata for mining customer behaviour in shopping activity
CN114926208A (zh) 一种用于产品改进策略制定的用户需求数据分析方法及系统
CN113762415A (zh) 一种基于神经网络的汽车金融产品智能匹配方法和系统
Submitter et al. An approach for seasonally periodic frequent pattern mining in retail supermarket
CN115617881B (zh) 一种不确定交易数据库中多序列的周期频繁模式挖掘方法
Cho et al. Weighted mining frequent itemsets using FP-tree based on RFM for personalized u-commerce recommendation system
JP3601719B2 (ja) 相関のあるデータ組み合わせの数え上げ方式

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant