CN107870939B - 一种模式挖掘方法及装置 - Google Patents

一种模式挖掘方法及装置 Download PDF

Info

Publication number
CN107870939B
CN107870939B CN201610856770.5A CN201610856770A CN107870939B CN 107870939 B CN107870939 B CN 107870939B CN 201610856770 A CN201610856770 A CN 201610856770A CN 107870939 B CN107870939 B CN 107870939B
Authority
CN
China
Prior art keywords
transaction
candidate
utility
value
candidate mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610856770.5A
Other languages
English (en)
Other versions
CN107870939A (zh
Inventor
林浚玮
肖磊
陈伟
张杰雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Tencent Technology Shenzhen Co Ltd
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Shenzhen Graduate School Harbin Institute of Technology filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610856770.5A priority Critical patent/CN107870939B/zh
Priority to PCT/CN2017/102663 priority patent/WO2018059298A1/zh
Publication of CN107870939A publication Critical patent/CN107870939A/zh
Priority to US16/022,891 priority patent/US10776347B2/en
Application granted granted Critical
Publication of CN107870939B publication Critical patent/CN107870939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种模式挖掘方法及装置,针对获取的候选模式集合,计算其在各事务中的效用值,对于效用值小于设定的效用阀值的事务进行删除,该部分事务的模式效用值过小,删除后可以减少挖掘计算时间,并根据删除后剩余的目标事务的时间属性,确定候选模式的周期值,在该周期值小于等于设定的周期阀值时,将候选模式确定为挖掘结果,保证了挖掘得到的模式的效用值在时间上分布均匀,更加便于精确决策。

Description

一种模式挖掘方法及装置
技术领域
本申请涉及数据挖掘技术领域,更具体地说,涉及一种模式挖掘方法及装置。
背景技术
在数据挖掘技术领域中,早期比较流行的是基于支持度的模式挖掘技术,其能够在数据库中找出频繁出现的模式。著名的“啤酒和尿布”例子就是基于支持度的模式挖掘技术的应用之一。通过分析超市的销售数据,找到出现次数较多的商品组合--啤酒和尿布,将二者摆放在一起,进而提高其销售量。
但是,基于支持度的模式挖掘不能体现模式的重要性,因此高效用模式挖掘被提出来用于改进这个缺点。以超市的商品销售记录为例子,商品销售记录由多个顾客的购买清单组成,顾客的购买清单由购买商品组成。基于支持度的模式挖掘是为了找出在这些购买清单中出现次数较多的商品组合,这些商品具有较高的共现概率,适合放在一起,提高销售量。而高效用模式挖掘是找出销售额或者利润较高的商品组合,通过分析,改变销售策略,提高销售利润。将这个例子抽象成模式挖掘的模型,购买商品对应项目(item),购买清单对应事务(transaction),所有购买清单就是输入的数据库(transactional database)。算法挖掘的是符合条件的商品组合,也就是模式(pattern)。
现有的高效用模式挖掘技术仅以效用值作为考量因素,无法发现模式之间的时间关系,挖掘得到的某些模式的效用值在时间上分布不均匀,集中在部分时间段,这些模式既不利于精确决策,也占用了挖掘时间。
发明内容
有鉴于此,本申请提供了一种模式挖掘方法及装置,用于解决现有高效用模式挖掘技术无法发现模式间的时间关系,导致挖掘出的模式的效用值在时间上分布不均匀,不利于精确决策且占用挖掘时间的问题。
为了实现上述目的,现提出的方案如下:
一种模式挖掘方法,包括:
根据数据库中包含的各事务,获取满足设定条件的候选模式集合,所述数据库中各事务包含的项目构成项目集,所述候选模式集合中每一候选模式均是由所述项目集中的项目组成;
针对所述候选模式集合中每一候选模式,计算所述候选模式在每一事务中的效用值;
确定所述效用值达到设定的效用阀值的目标事务,并根据各所述目标事务的时间属性,确定所述候选模式的周期值;
若所述候选模式的周期值小于等于设定的周期阀值,则将所述候选模式确定为挖掘结果。
一种模式挖掘装置,包括:
候选模式集合获取单元,用于根据数据库中包含的各事务,获取满足设定条件的候选模式集合,所述数据库中各事务包含的项目构成项目集,所述候选模式集合中每一候选模式均是由所述项目集中的项目组成;
效用值计算单元,用于针对所述候选模式集合中每一候选模式,计算所述候选模式在每一事务中的效用值;
目标事务确定单元,用于确定所述效用值达到设定的效用阀值的目标事务;
候选模式周期值确定单元,用于根据各所述目标事务的时间属性,确定所述候选模式的周期值;
挖掘结果确定单元,用于若所述候选模式的周期值小于等于设定的周期阀值,则将所述候选模式确定为挖掘结果。
本申请实施例提供的模式挖掘方法,根据数据库中包含的各事务,获取满足设定条件的候选模式集合,所述数据库中各事务包含的项目构成项目集,所述候选模式集合中每一候选模式均是由所述项目集中的项目组成;针对所述候选模式集合中每一候选模式,计算所述候选模式在每一事务中的效用值;确定所述效用值达到设定的效用阀值的目标事务,并根据各所述目标事务的时间属性,确定所述候选模式的周期值;若所述候选模式的周期值小于等于设定的周期阀值,则将所述候选模式确定为挖掘结果。由此可见,本申请针对获取的候选模式集合,计算其在各事务中的效用值,对于效用值小于设定的效用阀值的事务进行删除,该部分事务的模式效用值过小,删除后可以减少挖掘计算时间,并根据删除后剩余的目标事务的时间属性,确定候选模式的周期值,在该周期值小于等于设定的周期阀值时,将候选模式确定为挖掘结果,保证了挖掘得到的模式的效用值在时间上分布均匀,更加便于精确决策。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种服务器硬件结构示意图;
图2为本申请实施例公开的一种模式挖掘方法流程图;
图3为本申请实施例公开的一种确定候选模式的周期值的方法流程图;
图4为本申请实施例公开的一种获取候选模式集合的方法流程图;
图5为本申请实施例公开的一种第k层候选模式集合产生方法流程图;
图6为本申请实施例公开的另一种第k层候选模式集合产生方法流程图;
图7为本申请实施例公开的另一种获取候选模式集合的方法流程图;
图8为本申请实施例公开的一种模式挖掘装置结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在介绍本申请方案之前,首先对模式挖掘的概念进行简单介绍。仍使用背景技术的例子进行说明:
以超市的商品销售记录为例子,商品销售记录由多个顾客的购买清单组成,顾客的购买清单由购买商品组成。基于支持度的模式挖掘是为了找出在这些购买清单中出现次数较多的商品组合,这些商品具有较高的共现概率,适合放在一起,提高销售量。而高效用模式挖掘是找出销售额或者利润较高的商品组合,通过分析,改变销售策略,提高销售利润。将这个例子抽象成模式挖掘的模型,购买商品对应项目,购买清单对应事务,所有购买清单就是输入的数据库。算法挖掘的是符合条件的商品组合,也就是模式。
本申请将周期和效用值进行结合,提出了一种基于周期的高效用模式挖掘方案,对于初步获取的候选模式集合,首先计算其在每一事务中的效用值,对于效用值未达到设定的效用阀值的事务删除,此类事务的模式效用值过小,对总效用值贡献很小,为了避免浪费挖掘计算时间,可以删除此类事务,利用剩余事务的时间属性,计算候选模式的周期值,并将周期值小于等于设定的周期阀值的候选模式作为挖掘结果进行保留。该类模式在每个周期内都具有较高效用值,更加利于快速决策。
其中,模式的周期值的意思是,根据指定的包含模式的各事务的时间属性,所确定的模式的周期值。具体实现过程包括:将指定的包含模式的各事务中,相邻事务的时间差值中的最大时间差值确定为模式的周期值。
其中,指定的包含模式的事务可以是,指定的所有包含模式的事务,也可以是根据一定条件从所有包含模式的事务中挑选出的部分事务。
本申请实施例提供的模式挖掘方法基于服务器,该服务器的硬件结构可以是电脑、笔记本等处理设备,在介绍本申请的模式挖掘方法之前,首先介绍一下服务器的硬件结构。如图1所示,该服务器可以包括:
处理器1,通信接口2,存储器3,通信总线4,和显示屏5;
其中处理器1、通信接口2、存储器3和显示屏5通过通信总线4完成相互间的通信。
接下来,我们结合服务器硬件结构,对本申请的模式挖掘方法进行介绍,如图2所示,该方法包括:
步骤S200、根据数据库中包含的各事务,获取满足设定条件的候选模式集合;
其中,所述数据库中各事务包含的项目构成项目集,所述候选模式集合中每一候选模式均是由所述项目集中的项目组成。
本步骤中,通过设置条件,扫描数据库获取满足设定条件的候选模式集合。设定条件可以包括对候选模式的效用值大小进行限定,或者其它限定条件。
具体实施时,可以预先通过通信接口2,将事务组成的数据库存储至存储器3中。在挖掘时,通过通信接口2输入设定条件,并由处理器1通过通信总线4在存储器存储的数据库中查询满足设定条件的候选模式集合。
可选的,通信接口2可以为通信模块的接口,如GSM模块的接口。
可选的,处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。
步骤S210、针对所述候选模式集合中每一候选模式,计算所述候选模式在每一事务中的效用值;
具体地,通过再次扫描数据库,可以确定数据库中包含候选模式的事务,并计算候选模式在该事务中的效用值。
举例如:
数据库中包含三个事务,分别为(2a,3b,c)、(a,2b,3d)、(b,3c,4d),其中a,b,c,d为四个项目。事务中项目前的数字表示事务所包含项目的个数。
某一候选模式为[a,b]。则扫描数据库可以确定包含该候选模式的事务为:(a,b,c)和(a,b,d)。分别计算候选模式在该两个事务中的效用值。当然,对于数据库中不包含候选模式的事务,候选模式在对应事务中的效用值为0。
具体实施时,可以由处理器1计算所述候选模式在每一事务中的效用值。
步骤S220、确定所述效用值达到设定的效用阀值的目标事务;
具体地,本申请用户可以根据需要预先设定模式在每个事务中的效用阀值,以及模式的周期阀值。
在上一步骤中计算候选模式在每一事务中的效用值之后,确定效用值达到设定的效用阀值的目标事务。
具体实施时,可以由处理器1对比各事务的效用值与设定的效用阀值的大小关系,确定所述效用值达到设定的效用阀值的目标事务。
步骤S230、根据各所述目标事务的时间属性,确定所述候选模式的周期值;
具体地,数据库中各事务都存在时间属性,抽象分析时,我们可以定义数据库的时间长度为数据库中所包含事务的个数,且相邻两个事务的时间差均相同,切为1。举例如,数据库中包含A,B,C,D,E五个事务,则可以确定数据库的长度为5,事务A与事务B之间的时间差为1,事务A与事务D之间的时间差为3。
本步骤中,根据各目标事务的时间属性,确定候选模式的周期值。仍以上述示例进行说明,若针对候选模式1而言,目标事务包括A、C、E,则候选模式1的周期值为三个目标事务中相邻两个差值中的最大值,其中A和C的时间差值为2,C和E的时间差值为2,即候选模式1的周期值为2。
具体实施时,可以由处理器1根据各所述目标事务的时间属性,确定所述候选模式的周期值。
步骤S240、若所述候选模式的周期值小于等于设定的周期阀值,则将所述候选模式确定为挖掘结果。
具体地,若某一候选模式的周期值小于等于设定的周期阀值,则代表符合用户定义的周期大小条件,可以将该候选模式确定为挖掘结果。
具体实施时,可以由处理器1对比各候选模式的周期值与设定的周期阀值的大小关系,并将周期值小于等于设定的周期阀值的候选模式确定为挖掘结果,通过显示屏5输出显示。
本申请实施例提供的模式挖掘方法,根据数据库中包含的各事务,获取满足设定条件的候选模式集合,所述数据库中各事务包含的项目构成项目集,所述候选模式集合中每一候选模式均是由所述项目集中的项目组成;针对所述候选模式集合中每一候选模式,计算所述候选模式在每一事务中的效用值;确定所述效用值达到设定的效用阀值的目标事务,并根据各所述目标事务的时间属性,确定所述候选模式的周期值;若所述候选模式的周期值小于等于设定的周期阀值,则将所述候选模式确定为挖掘结果。由此可见,本申请针对获取的候选模式集合,计算其在各事务中的效用值,对于效用值小于设定的效用阀值的事务进行删除,该部分事务的模式效用值过小,删除后可以减少挖掘计算时间,并根据删除后剩余的目标事务的时间属性,确定候选模式的周期值,在该周期值小于等于设定的周期阀值时,将候选模式确定为挖掘结果,保证了挖掘得到的模式的效用值在时间上分布均匀,更加便于精确决策。
在本申请的另一个实施例中,对上述步骤S230,根据各所述目标事务的时间属性,确定所述候选模式的周期值的过程进行介绍。
参见图3,图3为本申请实施例公开的一种确定候选模式的周期值的方法流程图。
如图3所示,该方法包括:
步骤S300、根据各目标事务的时间属性,计算相邻两目标事务的时间差值;
具体地,每一目标事务均存在时间属性,根据目标事务的时间属性,计算相邻两目标事务的时间差值,详细过程如下:
数据库中事务按照时间先后顺序排序,针对数据库中顺序排序的各目标事务,:
若所述目标事务之前不存在任何其它目标事务,则计算所述目标事务与所述数据库中首个事务的时间差值;
若所述目标事务之后不存在任何其它目标事务,则计算所述数据库中末尾事务与所述目标事务的时间差值;
若所述目标事务之前存在其它目标事务,则计算所述目标事务与前一相邻目标事务的时间差值。
为了便于理解,本申请举例进行说明。
假设数据库中包含A,B,C,D,E五个事务,其中目标事务为事务B和C。则对于目标事务B而言,由于其前面不存在其它目标事务,则计算目标事务B与数据库中首个事务A的时间差值,为1;
对于目标事务C,由于其后不存在任何其它目标事务,则计算目标事务C与数据库中末尾事务E的时间差值,为2;
且对于目标事务C,其前面存在目标事务B,计算该两个目标事务的时间差值,为1。
步骤S310、将各所述时间差值中最大时间差值确定为所述候选模式的周期值。
仍参见上述列举的例子进行说明,各时间差值包括1,2,1。其中最大时间差值为2,也即确定候选模式的周期值为2。
候选模式的周期值的含义为,对于包含候选模式的事务,删除其中模式效用值小于设定效用阀值的事务之后,以剩余事务的时间差的最大值作为候选模式的周期,该周期也为候选模式的最大周期。
在本申请的又一个实施例中,对上述步骤S200,根据数据库中包含的各事务,获取满足设定条件的候选模式集合的过程进行介绍,参见图4,该方法包括:
步骤S400、扫描所述数据库中的各事务,获取在各事务中效用值的和值达到设定的扩展效用阀值的项目,由获取的项目组成第1层候选模式集合HTWUSPI1
其中,所述扩展效用阀值大于等于所述效用阀值。一种可选的设置方式,扩展效用阀值M与效用阀值Y之间的关系如下:
M=Y*TU*1/T
其中,TU为数据库中所有事务效用值的和值,T为设定的周期阀值。
步骤S410、在扫描数据库时记录所述项目集中各项目所在事务,以及各事务的效用值;
具体地,在执行上一步骤的同时,还可以同时记录项目集中各项目所在的事务,以及各事务的效用值。具体操作时,可以记录项目所在事务的事务编号,以及各事务编号与对应事务的效用值。事务的效用值为事务所包含各项目的效用值的和值。
步骤S420、利用Apriori_gen函数以及所述HTWUSPI1,逐层产生第k层候选模式集合HTWUSPIk,直至HTWUSPIk+1为空,由HTWUSPI1至HTWUSPIk组成最终的候选模式集合。
其中,Apriori_gen函数为Apriori算法所提供的函数,根据该函数能够逐层产生候选模式集合。在产生第k层候选模式集合HTWUSPIk时,利用第k-1层候选模式集合HTWUSPIk-1中符号条件的两两候选模式进行组合产生。
接下来对上述步骤S420中,TWUSPIk的产生过程进行介绍,参见图5,该过程包括:
步骤S500、对HTWUSPIk-1中的候选模式两两组合,得到若干候选模式对;
步骤S510、在所述若干候选模式对中,选取包含k-2个相同项目的候选模式对;
具体地,若某一候选模式对中,两个候选模式包含k-2各相同的项目,则选取该对候选模式对。
步骤S520、由选取的候选模式对进行合并,得到初步候选模式;
举例说明如下:
假设k=4,HTWUSPI4-1中存在两个候选模式[a,b,c]、[a,b,d],由于该两个候选模式包含4-2个相同的项目,因此对该两个候选模式进行合并,合并后得到初步候选模式:[a,b,c,d]。
步骤S530、针对每一初步候选模式,确定所述初步候选模式所包含的每一项目所在的事务,并确定各项目所在事务的交集,将交集事务确定为所述初步候选模式所在的事务;
具体地,为了确定所述初步候选模式所在的事务,本申请可以根据上述步骤S410中记录的所述项目集中各项目所在事务,确定所述初步候选模式所包含的每一项目所在的事务,并确定各项目所在事务的交集,该交集事务即为所述初步候选模式所在的事务。
步骤S540、至少在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值时,将所述初步候选模式加入HTWUSPIk
具体地,根据步骤S410中记录的数据库中各事务的效用值,本步骤中可以确定所述初步候选模式所在的各事务的效用值的和值。在确定至少满足所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值时,将初步候选模式加入HTWUSPIk
进一步地,本申请在TWUSPIk的产生过程提出了一种剪枝策略,能够减少周期值不满足设定周期阈值的候选模式的产生,对于融合该剪枝策略的TWUSPIk的产生过程,可以参见图6,该过程可以包括:
步骤S600、对HTWUSPIk-1中的候选模式两两组合,得到若干候选模式对;
步骤S610、在所述若干候选模式对中,选取包含k-2个相同项目的候选模式对;
具体地,若某一候选模式对中,两个候选模式包含k-2各相同的项目,则选取该对候选模式对。
步骤S620、由选取的候选模式对进行合并,得到初步候选模式;
步骤S630、针对每一初步候选模式,确定所述初步候选模式所包含的每一项目所在的事务,并确定各项目所在事务的交集,将交集事务确定为所述初步候选模式所在的事务;
步骤S640、计算所述初步候选模式所在的各事务的效用值的和值;
具体地,根据步骤S410中记录的数据库中各事务的效用值,本步骤中可以确定所述初步候选模式所在的各事务的效用值的和值。
步骤S650、根据所述初步候选模式所在的各事务的时间属性,确定所述初步候选模式的周期值;
具体地,针对所述初步候选模式所在的各事务,根据各事务的时间属性,计算相邻两事务的时间差值,并将计算得到的各时间差值中最大时间差值确定为初步候选模式的周期值。
步骤S660、在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值,且所述初步候选模式的周期值小于等于设定的周期阀值时,将所述初步候选模式加入HTWUSPIk
相比于上一实施例的方法,本实施例在产生HTWUSPIk时进一步增加了周期阀值的判断,筛选掉周期值未达到周期阀值的初步候选模式,从而减少了后续扫描数据库的次数,降低了模式挖掘时间。
再进一步的,本申请在扫描数据库,获取满足设定条件的候选模式集合的过程,提出了另一种剪枝策略,能够减少效用值未达到设定的效用阀值的候选模式的产生,对于融合该剪枝策略的获取满足设定条件的候选模式集合的过程进行介绍,参见图7,该过程可以包括:
步骤S700、扫描所述数据库中的各事务,获取在各事务中效用值的和值达到设定的扩展效用阀值的项目,由获取的项目组成第1层候选模式集合HTWUSPI1
其中,所述扩展效用阀值大于所述效用阀值。一种可选的设置方式,扩展效用阀值M与效用阀值Y之间的关系如下:
M=Y*TU*1/T
其中,TU为数据库中所有事务效用值的和值,T为设定的周期阀值。
步骤S710、在扫描数据库时记录所述项目集中各项目所在事务,以及各事务的效用值;
步骤S720、确定事务的效用值小于所述效用阀值的低效用事务,并在记录的各项目所在事务中删除所述低效用事务;
步骤S730、利用Apriori_gen函数以及所述HTWUSPI1,逐层产生第k层候选模式集合HTWUSPIk,直至HTWUSPIk+1为空,由HTWUSPI1至HTWUSPIk组成最终的候选模式集合。
相比于图4示例的获取后续模式集合的过程可知,本实施例中新增了删除低效用事务的过程,也即对于记录的项目集中各项目所在的事务,其中不包含低效用事务,一定程度避免了效用值未达到设定效用阀值的候选模式的产生,从而减少了后续扫描数据库的次数,降低了模式挖掘时间。
接下来本申请实施例通过一个完整的实例对方案进行介绍。
数据库中包含如下事务:事务1:(2a,b,c,d,2f),事务2:(a,c,d,3e),事务3:(a,d,f,h),事务4:(c,e,g,h)。
用户设定的效用阀值Y,扩展效用阀值M,周期阀值T。
模式挖掘过程如下:
S1、扫描数据库,获取在各事务中效用值的和值达到M的项目,由获取的项目组成第1层候选模式集合HTWUSPI1
假设满足条件的HTWUSPI1包括[a,b,c,d]。
S2、记录项目集中各项目所在事务,以及各事务的效用值;
具体记录信息可以参照下述两个表:
Figure BDA0001121771800000121
表1
事务编号 1 2 3 4
事务效用值 X1 X2 X3 X4
表2
S3、确定事务的效用值小于所述效用阀值的低效用事务,并在记录的各项目所在事务中删除所述低效用事务;
假设事务4的效用值X4小于效用阀值Y,则对上表1进行修改,删除其中的事务4,修改后如下表3:
Figure BDA0001121771800000122
表3
S4、生成HTWUSPI2
具体生成过程如下:
S41、对HTWUSPI1{[a]、[b]、[c]、[d]}中各候选模式两两组合,选取包含2-2个相同项目的候选模式对进行合并,得到初步候选模式:[a,b]、[a,c]、[a,d]、[b,c]、[b,d]、[c,d];
S42、对每一初步候选模式,确定所述初步候选模式所包含的每一项目所在的事务,并确定各项目所在事务的交集,将交集事务确定为所述初步候选模式所在的事务;
具体确定的各初步候选模式所在的事务如下:
[a,b]所在事务包括:事务1;
[a,c]所在事务包括:事务1、事务2;
……
[c,d]所在事务包括:事务1、事务2。
S43、在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值,且所述初步候选模式的周期值小于等于设定的周期阀值时,将所述初步候选模式加入HTWUSPI2
为了简单起见,这里仅以初步候选模式[a,c]为例进行说明:
[a,c]所在的各事务的效用值的和值为:X1+X2。
[a,c]的周期值计算如下:
数据库包括事务1-4,[a,c]所在事务为事务1和事务2,因此按照本申请公开的差值计算方式得到如下若干时间差值:1-1、2-1、4-2。选取其中最大时间差值4-2=2,作为[a,c]的周期值。
判断X1+X2是否大于M,且2是否小于等于T,若是,则将[a,c]加入HTWUSPI2
S5、生成HTWUSPI3
具体生成过程可以参照HTWUSPI2的生成过程,此处不再赘述。
假设生成的HTWUSPI4为空,也即不存在HTWUSPI4
最终,将生成的HTWUSPI1-HTWUSPI3作为候选模式集合。
假设,HTWUSPI1包括;{[a]、[b]、[c]、[d]};
HTWUSPI2包括:{[a,b]、[a,c]、[a,d]};
HTWUSPI3包括:{[a,c,d]}。
S6、针对每一候选模式,计算所述候选模式在每一事务中的效用值,确定所述效用值达到Y的目标事务,并根据各所述目标事务的时间属性,确定所述候选模式的周期值;
为了简单起见,此处仅以候选模式[a,c,d]为例进行说明:
[a,c,d]在事务1中的效用值为X11,在事务2中的效用值为X21。若确定X11和X21均大于等于Y,则将事务1和事务2确定为目标事务。根据目标事务的时间属性,确定[a,c,d]的周期值的过程可以参照上文相关介绍,该周期值为2。
S7、若所述候选模式的周期值小于等于T,则将所述候选模式确定为挖掘结果。
假定[a,c,d]的周期值2小于等于T,则可以将[a,c,d]作为挖掘得到的一个结果。
下面对本申请实施例提供的模式挖掘装置进行描述,下文描述的模式挖掘装置与上文描述的模式挖掘方法可相互对应参照。
参见图8,图8为本申请实施例公开的一种模式挖掘装置结构示意图。
如图8所示,该装置包括:
候选模式集合获取单元81,用于根据数据库中包含的各事务,获取满足设定条件的候选模式集合,所述数据库中各事务包含的项目构成项目集,所述候选模式集合中每一候选模式均是由所述项目集中的项目组成;
效用值计算单元82,用于针对所述候选模式集合中每一候选模式,计算所述候选模式在每一事务中的效用值;
目标事务确定单元83,用于确定所述效用值达到设定的效用阀值的目标事务;
候选模式周期值确定单元84,用于根据各所述目标事务的时间属性,确定所述候选模式的周期值;
挖掘结果确定单元85,用于若所述候选模式的周期值小于等于设定的周期阀值,则将所述候选模式确定为挖掘结果。
本申请针对获取的候选模式集合,计算其在各事务中的效用值,对于效用值小于设定的效用阀值的事务进行删除,该部分事务的模式效用值过小,删除后可以减少挖掘计算时间,并根据删除后剩余的目标事务的时间属性,确定候选模式的周期值,在该周期值小于等于设定的周期阀值时,将候选模式确定为挖掘结果,保证了挖掘得到的模式的效用值在时间上分布均匀,更加便于精确决策。
可选的,所述候选模式周期值确定单元可以包括:
时间差值计算单元,用于根据各目标事务的时间属性,计算相邻两目标事务的时间差值;
最大时间差值选取单元,用于将各所述时间差值中最大时间差值确定为所述候选模式的周期值。
可选的,所述时间差值计算单元可以包括:
第一时间差值计算子单元,用于针对数据库中顺序排序的各目标事务,若所述目标事务之前不存在任何其它目标事务,则计算所述目标事务与所述数据库中首个事务的时间差值;
第二时间差值计算子单元,用于若所述目标事务之后不存在任何其它目标事务,则计算所述数据库中末尾事务与所述目标事务的时间差值;
第三时间差值计算子单元,用于若所述目标事务之前存在其它目标事务,则计算所述目标事务与前一相邻目标事务的时间差值。
可选的,所述候选模式集合获取单元可以包括:
第1层后续模式集合获取单元,用于扫描所述数据库中的各事务,获取在各事务中效用值的和值达到设定的扩展效用阀值的项目,由获取的项目组成第1层候选模式集合HTWUSPI1,其中,所述扩展效用阀值大于等于所述效用阀值;
事务记录单元,用于在扫描所述数据库时记录所述项目集中各项目所在事务,以及各事务的效用值;
第k层候选模式集合产生单元,用于利用Apriori_gen函数以及所述HTWUSPI1,逐层产生第k层候选模式集合HTWUSPIk,直至HTWUSPIk+1为空,由HTWUSPI1至HTWUSPIk组成最终的候选模式集合。
其中,所述第k层候选模式集合产生单元可以包括:
候选模式两两组合单元,用于对HTWUSPIk-1中的候选模式两两组合,得到若干候选模式对;
候选模式对选取单元,用于在所述若干候选模式对中,选取包含k-2个相同项目的候选模式对;
候选模式对合并单元,用于由选取的候选模式对进行合并,得到初步候选模式;
初步候选模式所在事务确定单元,用于针对每一初步候选模式,确定所述初步候选模式所包含的每一项目所在的事务,并确定各项目所在事务的交集,将交集事务确定为所述初步候选模式所在的事务;
初步候选模式加入集合单元,用于至少在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值时,将所述初步候选模式加入HTWUSPIk
可选的,所述初步候选模式加入集合单元可以包括:
第一初步候选模式加入集合子单元,用于计算所述初步候选模式所在的各事务的效用值的和值;
第二初步候选模式加入集合子单元,用于根据所述初步候选模式所在的各事务的时间属性,确定所述初步候选模式的周期值;
第三初步候选模式加入集合子单元,用于在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值,且所述初步候选模式的周期值小于等于设定的周期阀值时,将所述初步候选模式加入HTWUSPIk
可选的,所述候选模式集合获取单元还可以包括:
低效用事务删除单元,用于在所述事务记录单元之后,确定事务的效用值小于所述效用阀值的低效用事务,并在所述事务记录单元记录的各项目所在事务中删除所述低效用事务。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种模式挖掘方法,其特征在于,包括:
扫描数据库中包含的各事务,获取在各事务中效用值的和值达到设定的扩展效用阀值的项目,由获取的项目组成第1层候选模式集合HTWUSPI1,所述数据库中各事务包含的项目构成项目集,所述候选模式集合中每一候选模式均是由所述项目集中的项目组成;
记录所述项目集中各项目所在事务,以及被记录的各事务的效用值;
利用Apriori_gen函数以及所述HTWUSPI1,逐层产生第k层候选模式集合HTWUSPIk,直至HTWUSPIk+1为空,由HTWUSPI1至HTWUSPIk组成最终的候选模式集合;
针对所述候选模式集合中每一候选模式,计算所述候选模式在每一事务中的效用值;
确定所述效用值达到设定的效用阀值的目标事务,并根据各所述目标事务的时间属性,确定所述候选模式的周期值,其中,所述扩展效用阀值大于等于所述效用阀值;
若所述候选模式的周期值小于等于设定的周期阀值,则将所述候选模式确定为挖掘结果;
其中,HTWUSPIk的产生过程包括:
对HTWUSPIk-1中的候选模式两两组合,得到若干候选模式对;
在所述若干候选模式对中,选取包含k-2个相同项目的候选模式对;
由选取的候选模式对进行合并,得到初步候选模式;
针对每一初步候选模式,确定所述初步候选模式所包含的每一项目所在的事务,并确定各项目所在事务的交集,将交集事务确定为所述初步候选模式所在的事务;
至少在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值时,将所述初步候选模式加入HTWUSPIk
2.根据权利要求1所述的方法,其特征在于,所述根据各所述目标事务的时间属性,确定所述候选模式的周期值,包括:
根据各目标事务的时间属性,计算相邻两目标事务的时间差值;
将各所述时间差值中最大时间差值确定为所述候选模式的周期值。
3.根据权利要求2所述的方法,其特征在于,所述根据各目标事务的时间属性,计算相邻两目标事务的时间差值,包括:
针对数据库中顺序排序的各目标事务,若所述目标事务之前不存在任何其它目标事务,则计算所述目标事务与所述数据库中首个事务的时间差值;
若所述目标事务之后不存在任何其它目标事务,则计算所述数据库中末尾事务与所述目标事务的时间差值;
若所述目标事务之前存在其它目标事务,则计算所述目标事务与前一相邻目标事务的时间差值。
4.根据权利要求1所述的方法,其特征在于,所述至少在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值时,将所述初步候选模式加入HTWUSPIk,包括:
计算所述初步候选模式所在的各事务的效用值的和值;
根据所述初步候选模式所在的各事务的时间属性,确定所述初步候选模式的周期值;
在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值,且所述初步候选模式的周期值小于等于设定的周期阀值时,将所述初步候选模式加入HTWUSPIk
5.根据权利要求1所述的方法,其特征在于,在所述记录所述项目集中各项目所在事务,以及被记录的各事务的效用值之后,还包括:
确定事务的效用值小于所述效用阀值的低效用事务,并在记录的各项目所在事务中删除所述低效用事务。
6.一种模式挖掘装置,其特征在于,包括:
候选模式集合获取单元,用于根据数据库中包含的各事务,获取满足设定条件的候选模式集合,所述数据库中各事务包含的项目构成项目集,所述候选模式集合中每一候选模式均是由所述项目集中的项目组成;
效用值计算单元,用于针对所述候选模式集合中每一候选模式,计算所述候选模式在每一事务中的效用值;
目标事务确定单元,用于确定所述效用值达到设定的效用阀值的目标事务;
候选模式周期值确定单元,用于根据各所述目标事务的时间属性,确定所述候选模式的周期值;
挖掘结果确定单元,用于若所述候选模式的周期值小于等于设定的周期阀值,则将所述候选模式确定为挖掘结果;
所述候选模式集合获取单元包括:
第1层后续模式集合获取单元,用于扫描所述数据库中的各事务,获取在各事务中效用值的和值达到设定的扩展效用阀值的项目,由获取的项目组成第1层候选模式集合HTWUSPI1,其中,所述扩展效用阀值大于等于所述效用阀值;
事务记录单元,用于在扫描所述数据库时记录所述项目集中各项目所在事务,以及被记录的各事务的效用值;
第k层候选模式集合产生单元,用于利用Apriori_gen函数以及所述HTWUSPI1,逐层产生第k层候选模式集合HTWUSPIk,直至HTWUSPIk+1为空,由HTWUSPI1至HTWUSPIk组成最终的候选模式集合;
所述第k层候选模式集合产生单元包括:
候选模式两两组合单元,用于对HTWUSPIk-1中的候选模式两两组合,得到若干候选模式对;
候选模式对选取单元,用于在所述若干候选模式对中,选取包含k-2个相同项目的候选模式对;
候选模式对合并单元,用于由选取的候选模式对进行合并,得到初步候选模式;
初步候选模式所在事务确定单元,用于针对每一初步候选模式,确定所述初步候选模式所包含的每一项目所在的事务,并确定各项目所在事务的交集,将交集事务确定为所述初步候选模式所在的事务;
初步候选模式加入集合单元,用于至少在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值时,将所述初步候选模式加入HTWUSPIk
7.根据权利要求6所述的装置,其特征在于,所述候选模式周期值确定单元包括:
时间差值计算单元,用于根据各目标事务的时间属性,计算相邻两目标事务的时间差值;
最大时间差值选取单元,用于将各所述时间差值中最大时间差值确定为所述候选模式的周期值。
8.根据权利要求7所述的装置,其特征在于,所述时间差值计算单元包括:
第一时间差值计算子单元,用于针对数据库中顺序排序的各目标事务,若所述目标事务之前不存在任何其它目标事务,则计算所述目标事务与所述数据库中首个事务的时间差值;
第二时间差值计算子单元,用于若所述目标事务之后不存在任何其它目标事务,则计算所述数据库中末尾事务与所述目标事务的时间差值;
第三时间差值计算子单元,用于若所述目标事务之前存在其它目标事务,则计算所述目标事务与前一相邻目标事务的时间差值。
9.根据权利要求6所述的装置,其特征在于,所述初步候选模式加入集合单元包括:
第一初步候选模式加入集合子单元,用于计算所述初步候选模式所在的各事务的效用值的和值;
第二初步候选模式加入集合子单元,用于根据所述初步候选模式所在的各事务的时间属性,确定所述初步候选模式的周期值;
第三初步候选模式加入集合子单元,用于在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值,且所述初步候选模式的周期值小于等于设定的周期阀值时,将所述初步候选模式加入HTWUSPIk
10.根据权利要求6所述的装置,其特征在于,所述候选模式集合获取单元还包括:
低效用事务删除单元,用于在所述事务记录单元之后,确定事务的效用值小于所述效用阀值的低效用事务,并在所述事务记录单元记录的各项目所在事务中删除所述低效用事务。
CN201610856770.5A 2016-09-27 2016-09-27 一种模式挖掘方法及装置 Active CN107870939B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610856770.5A CN107870939B (zh) 2016-09-27 2016-09-27 一种模式挖掘方法及装置
PCT/CN2017/102663 WO2018059298A1 (zh) 2016-09-27 2017-09-21 模式挖掘方法、高效用项集挖掘方法及相关设备
US16/022,891 US10776347B2 (en) 2016-09-27 2018-06-29 Pattern mining method, high-utility itemset mining method, and related device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610856770.5A CN107870939B (zh) 2016-09-27 2016-09-27 一种模式挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN107870939A CN107870939A (zh) 2018-04-03
CN107870939B true CN107870939B (zh) 2021-04-27

Family

ID=61752280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610856770.5A Active CN107870939B (zh) 2016-09-27 2016-09-27 一种模式挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN107870939B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408563B (zh) * 2018-11-07 2021-06-22 哈尔滨工业大学(深圳) 高平均效用项集挖掘方法、装置及计算机设备
WO2021102775A1 (zh) * 2019-11-28 2021-06-03 江南大学 一种基于改进遗传算法的模式数据挖掘方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090018994A1 (en) * 2007-07-12 2009-01-15 Honeywell International, Inc. Time series data complex query visualization
CN102662948A (zh) * 2012-02-23 2012-09-12 浙江工商大学 一种快速发现效用模式的数据挖掘方法
WO2014094825A1 (en) * 2012-12-18 2014-06-26 Telefonaktiebolaget L M Ericsson (Publ) Load shedding in a data stream management system
CN103744904B (zh) * 2013-12-25 2018-02-16 北京京东尚科信息技术有限公司 一种提供信息的方法及装置
US10521439B2 (en) * 2014-04-04 2019-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, apparatus, and computer program for data mining
CN105320756B (zh) * 2015-10-15 2018-07-10 中通服咨询设计研究院有限公司 一种基于改进Apriori算法的数据库关联规则挖掘方法
CN105590237A (zh) * 2015-12-18 2016-05-18 齐鲁工业大学 带负利润项的高效用序列模式在电子商务决策制定中的应用
CN105608182A (zh) * 2015-12-23 2016-05-25 一兰云联科技股份有限公司 面向不确定数据模型中的效用项集挖掘方法

Also Published As

Publication number Publication date
CN107870939A (zh) 2018-04-03

Similar Documents

Publication Publication Date Title
CN110969516B (zh) 一种商品推荐方法及装置
US11574139B2 (en) Information pushing method, storage medium and server
WO2020048084A1 (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
WO2020073534A1 (zh) 基于重聚类的推送方法、装置、计算机设备及存储介质
CN111651704B (zh) 一种内容推荐方法、计算设备以及存储介质
Xu et al. Integrated collaborative filtering recommendation in social cyber-physical systems
CN108334568B (zh) 房源推送方法、装置、设备及计算机可读存储介质
CN108733705B (zh) 一种高效用序列模式挖掘方法及装置
CN112132660B (zh) 商品推荐方法、系统、设备及存储介质
JPWO2010095169A1 (ja) 情報推薦方法、そのシステム、及びサーバ
CN107169847B (zh) 基于机器学习模型动态调整短租房房价的系统及其方法
CN103995866A (zh) 一种基于链路预测的商品信息推送方法及装置
WO2018059298A1 (zh) 模式挖掘方法、高效用项集挖掘方法及相关设备
CN111429161A (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN113450167A (zh) 一种商品推荐方法和装置
CN107870939B (zh) 一种模式挖掘方法及装置
US9342834B2 (en) System and method for setting goals and modifying segment criteria counts
CN109446235B (zh) 多维高效用序列模式处理方法、装置和计算机设备
Ren et al. Online choice decision support for consumers: Data-driven analytic hierarchy process based on reviews and feedback
US20170316483A1 (en) Generating a personalized list of items
CN113781171A (zh) 信息推送方法、装置、设备及存储介质
CN111178951B (zh) 一种商品推荐方法及装置
CN113378033A (zh) 一种推荐模型的训练方法和装置
JP7445730B2 (ja) 学習装置、機械学習モデル及び学習方法
CN116579820A (zh) 一种商城商品推荐算法方法、系统、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant