CN110413660B - 挖掘全局高效用项集的方法、装置及计算机可读存储介质 - Google Patents
挖掘全局高效用项集的方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110413660B CN110413660B CN201910692049.0A CN201910692049A CN110413660B CN 110413660 B CN110413660 B CN 110413660B CN 201910692049 A CN201910692049 A CN 201910692049A CN 110413660 B CN110413660 B CN 110413660B
- Authority
- CN
- China
- Prior art keywords
- item set
- utility
- global
- data source
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005065 mining Methods 0.000 title claims abstract description 103
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种挖掘全局高效用项集的方法、装置及计算机可读存储介质。该方法包括:分别挖掘至少两个数据源中的每个数据源中的第一类高效用项集和第二类高效用项集;根据所挖掘的第一类高效用项集和第二类高效用项集确定候选的全局高效用项集;以及从所述候选的全局高效用项集中挖掘全局高效用项集。
Description
技术领域
本公开涉及数据处理领域,具体地,涉及一种挖掘全局高效用项集的方法、装置及计算机可读存储介质。
背景技术
数据库可以包括多条事务(transaction),其中每个事务可以包括至少一个项(item)。为了表征数据库中项之间的关联规则,至少一个项可以构成一个项集(itemset)。对于记录交易、新闻等事务的数据库,可以从由这类数据库中的项构成的项集中挖掘有价值的项集,以便根据所挖掘的项集进行商业决策,例如,向用户推荐其感兴趣的交易或新闻等。在挖掘项集的过程中,可以挖掘效用值较高的项集(简称高效用项集(High UtiligyItemset,HUI))。
传统的高效用项集的挖掘是基于单个数据库。例如,当存在多个数据源时,需要把这多个数据源的数据汇总到一个数据库,然后在该数据库中进行高效用项集的挖掘。这种挖掘方式具有一些缺点。首先,多个数据源可能分散在多个地理位置,甚至遍布全球,而每个数据源每天可能产生数百或数千兆字节的信息,因此,实时地将所有数据源的数据收集到一个数据库是不现实的。此外,不同数据源的数据格式可能不同,例如,各个数据源的管理者可以根据其偏好定义数据的命名格式以及定义数据之间的层次,或者不同地理位置的数据源采用的语言(例如英文或中文等)不同。因此,在将所有数据源的数据收集到一个数据库之前,需要对数据进行预处理,以满足数据库的要求。此外,在单个数据库中挖掘高效用项集时,为了提高挖掘效率,通常会采用并行或分布式技术来进行挖掘。然而,并行或分布式技术需要昂贵的硬件和软件,成本很高。此外,由于所有数据被汇总后进行高效用项集的挖掘,因此,可能不会发现对本地有价值的项集,从而不利于确定本地的决策。
发明内容
为此,本公开提供了一种挖掘全局高效用项集的方法、装置及计算机可读存储介质。
根据本公开的一个方面,提供了一种用于挖掘全局高效用项集的方法。该方法包括:分别挖掘至少两个数据源中的每个数据源中的第一类高效用项集和第二类高效用项集;根据所挖掘的第一类高效用项集和第二类高效用项集确定候选的全局高效用项集;以及从所述候选的全局高效用项集中挖掘全局高效用项集。
根据本公开的一个示例,其中挖掘每个数据源中的第一类高效用项集和第二类高效用项集包括:根据该数据源的总效用值和第一阈值,挖掘该数据源中的第一类高效用项集;以及根据该数据源的总效用值、第一阈值和第二阈值,挖掘该数据源中的第二类高效用项集。
根据本公开的一个示例,其中所述候选的全局高效用项集包括所挖掘的第一类高效用项集和第二类高效用项集。
根据本公开的一个示例,其中从所述候选的全局高效用项集中挖掘全局高效用项集包括:从所述候选的全局高效用项集中挖掘全局频繁项集;以及从所述全局频繁项集中挖掘全局高效用项集。
根据本公开的一个示例,其中从所述候选的全局高效用项集中挖掘全局频繁项集包括:挖掘所述候选的全局高效用项集中支持度大于支持度阈值的项集;以及将所挖掘的项集作为全局频繁项集。
根据本公开的一个示例,其中所述支持度阈值是根据各个数据源包括的事务的数量和支持度参数确定的。
根据本公开的一个示例,其中从所述全局频繁项集中挖掘全局高效用项集包括:确定各个数据源的权重;根据各个数据源的总效用值和权重,确定所述至少两个数据源的集成效用值;根据每个全局频繁项集在各个数据源中的效用值和各个数据源的权重,确定每个全局频繁项集的集成效用值;以及根据所述至少两个数据源的集成效用值、每个全局频繁项集的集成效用值和第一阈值,确定该全局频繁项集是否为全局高效用项集。
根据本公开的一个示例,其中确定每个数据源的权重包括:确定各个全局频繁项集的权重;至少根据各个全局频繁项集的权重,确定该数据源的第一权重;根据该数据源包括的事务的数量,确定该数据源的第二权重;以及至少根据所述第一权重和所述第二权重确定该数据源的权重。
根据本公开的一个示例,其中所述至少根据所述第一权重和所述第二权重确定该数据源的权重包括:根据第一权重、第二权重和权重调节因子,确定该数据源的权重。
根据本公开的另一方面,提供了一种用于挖掘全局高效用项集的装置。该装置包括:第一挖掘单元,被配置为分别挖掘至少两个数据源中的每个数据源中的第一类高效用项集和第二类高效用项集;确定单元,被配置为根据所挖掘的第一类高效用项集和第二类高效用项集确定候选的全局高效用项集;以及第二挖掘单元,被配置为从所述候选的全局高效用项集中挖掘全局高效用项集。
根据本公开的一个示例,其中所述第一挖掘单元被配置为根据每个数据源的总效用值和第一阈值,挖掘该数据源中的第一类高效用项集;以及根据该数据源的总效用值、第一阈值和第二阈值,挖掘该数据源中的第二类高效用项集。
根据本公开的一个示例,其中所述候选的全局高效用项集包括所挖掘的第一类高效用项集和第二类高效用项集。
根据本公开的一个示例,其中所述第二挖掘单元被配置为从所述候选的全局高效用项集中挖掘全局频繁项集;以及从所述全局频繁项集中挖掘全局高效用项集。
根据本公开的一个示例,其中所述第二挖掘单元被配置为挖掘所述候选的全局高效用项集中支持度大于支持度阈值的项集;以及将所挖掘的项集作为全局频繁项集。
根据本公开的一个示例,其中所述支持度阈值是根据各个数据源包括的事务的数量和支持度参数确定的。
根据本公开的一个示例,其中所述第二挖掘单元被配置为确定各个数据源的权重;根据各个数据源的总效用值和权重,确定所述至少两个数据源的集成效用值;根据每个全局频繁项集在各个数据源中的效用值和各个数据源的权重,确定每个全局频繁项集的集成效用值;以及根据所述至少两个数据源的集成效用值、每个全局频繁项集的集成效用值和第一阈值,确定该全局频繁项集是否为全局高效用项集。
根据本公开的一个示例,其中所述第二挖掘单元被配置为确定各个全局频繁项集的权重;至少根据各个全局频繁项集的权重,确定该数据源的第一权重;根据该数据源包括的事务的数量,确定该数据源的第二权重;以及至少根据所述第一权重和所述第二权重确定该数据源的权重。
根据本公开的一个示例,其中所述第二挖掘单元被配置为根据第一权重、第二权重和权重调节因子,确定该数据源的权重。
根据本公开的另一方面,提供了一种用于挖掘全局高效用项集的装置,包括:处理器;以及存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行上文所述的方法。
根据本公开的另一方面,提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器运行时,使得所述处理器执行上述方法。
通过本公开提供的挖掘全局高效用项集的方法、装置及计算机可读存储介质,当存在多个数据源时,可以首先挖掘各个数据源中的第一类高效用项集和第二类高效用项集,然后,根据所挖掘的第一类高效用项集和第二类高效用项集确定候选的全局高效用项集,以及从候选的全局高效用项集中挖掘全局高效用项集,从而节省了数据传输成本,节省了数据处理成本,能够发现对本地有价值的项集从而便于确定本地的决策。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是根据本公开的实施例的从多个数据源挖掘全局高效用项集的技术方案的原理性框架的示意图。
图2是根据本公开实施例的用于挖掘全局高效用项集的方法的流程图。
图3是根据本公开实施例的从全局频繁项集中挖掘全局高效用项集的方法的流程图。
图4是根据本公开实施例的用于挖掘全局高效用项集的装置的结构示意图。
图5是根据本公开实施例的第二挖掘单元的结构示意图。
图6示出了根据本公开实施例的计算机设备的架构。
具体实施方式
为了使得本公开的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本公开的示例实施例。在附图中,相同的参考标号自始至终表示相同的元件。应当理解:这里描述的实施例仅仅是说明性的,而不应被解释为限制本公开的范围。
在本公开中,当项集的效用值较高时,例如,当项集的效用值高于预设阈值时,可以将该项集称为“高效用项集”。也就是说,“高效用项集”可以是效用值高于预设阈值的项集。这里的“预设阈值”可以是固定不变的,或者可以随着挖掘算法的应用场景的改变而改变。
为了克服传统的高效用项集的挖掘方式的缺点,本公开提出了从多个数据源挖掘全局高效用项集的技术方案。首先,参照图1来描述根据本公开的实施例的从多个数据源挖掘全局高效用项集的技术方案的原理性框架。图1是根据本公开的实施例的从多个数据源挖掘全局高效用项集的技术方案的原理性框架的示意图。如图1所示,当存在3个数据源(数据源1~3)时,可以分别挖掘各个数据源中的第一类高效用项集和第二类高效用项集。然后,将从各个数据源挖掘的第一类高效用项集和第二类高效用项集存储至存储模块(例如高速缓冲存储器),并构成候选的全局高效用项集(Global High Utiligy Itemset,GHUI)。然后,可以从候选的全局高效用项集中挖掘全局高效用项集。通过这种方式,避免了将多个数据源的数据汇总到一个数据库,节省了数据传输成本。此外,通过这种方式,避免了对各个数据源的数据进行预处理,节省了数据处理成本。此外,通过这种方式,避免了在单个数据库中采用并行或分布式方式进行项集挖掘,进一步节省了成本。此外,通过这种方式,能够发现对本地有价值的项集,从而便于确定本地的决策。在本公开中,“本地”也可以称为“局部”。在下文中,为方便起见,有时候可以互换地使用本地和局部。
需要认识到,尽管在图1中示出了三个数据源,但这只是示意性的。根据本公开的实施例,还可以存在更少或更多个数据源。此外,在本公开中,每个数据源可以包括一个或多个数据库。在下文中,以每个数据源是一个数据库来描述本公开。
此外,应该理解,在本公开中,“局部”是针对一个数据源而言的,而“全局”是针对多个数据源而言的。例如,本公开中的“局部高效用项集”可以是从一个数据源挖掘出的高效用项集,即对该数据源而言是高效用的项集;而本公开中的“全局高效用项集”可以是从多个局部高效用项集中挖掘出的高效用项集,即对多个数据源而言是高效用的项集。
此外,在本公开中,项集也可以称为模式(pattern)。为方便起见,在下文中有时候可以互换地使用项集和模式。
为了便于理解本公开实施例的技术方案,下面先对本公开实施例涉及的名称和/或概念进行解释。
1、事务(transaction):数据库中的一条记录。例如,交易类型的数据库中记录的是商品的交易记录,则数据库中的每一条事务可以对应一条商品的交易记录。
2、事务编号(Transaction Identification,TID):数据库中的事务的编号。例如,可以按照时态顺序给事务编号。
3、项(item):事务中记录的信息项目,一条事务中包含至少一个项。例如,在交易类型的数据库中,每一条事务中包含交易的商品的项,及各商品的内部效用值(如交易数量)。交易数量是内部效用值在交易场景下的一种体现形式,在其他场景的数据库中,内部效用值的形式可相应的调整。
如下表1所示,一个交易类型的数据库包含10条事务,每条事务指示一条交易记录,每条事务中包含各交易的商品名称的项及各商品的在事务中的交易数量(内部效用值的一种形式)。
事务编号 | 事务(商品名称:交易数量) |
T1 | A:1,C:2,D:3 |
T2 | A:2,D:1,E:2 |
T3 | B:3.C:5 |
T4 | A:1,C:3,D:1,E:2 |
T5 | B:1,D:3,E:2 |
T6 | B:2,D:2 |
T7 | B:3,C:2,D:1,E:1 |
T8 | A:2,C:3 |
T9 | C:2,D:2,E:1 |
T10 | A:2,C:2,D:1 |
表1数据库中的事务的示例
从表1中可以看出,在交易类型的数据库中,事务中的项可以是商品名称,内部效用值可以是事务中各商品的交易数量。表1中,数据库包含A、B、C、D和E这5个项,其中,T1事务的实际意义可以为:一条指示购买1件A商品、2件C商品和3件D商品的交易记录,而T7事务的实际意义可以为:一条指示购买3件B商品、2件C商品、1件D商品和1件E商品的交易记录。
此外,在新闻领域,表1中的各事务可以包含至少一条新闻,各事务可以记录每一条新闻的兴趣值、敏感度大小,新鲜度大小等。在股票领域,表1中的各事务可以包含至少一只股票,各事务可以记录每只股票的风险大小、收益大小等。
4、项集(itemset):至少一个项构成的集合,用于表征数据库内在的一种关联规则。事务与项集的不同的点是,事务通常是由实际的事件所触发生成的在数据库中的记录,而项集通常是从数据库挖掘而出的,并不一定有实际的含义。
5、k_项集:包含有k个项的集合。例如,1-项集可以是包含一个项的项集,如仅包含项A的项集A。又例如,2-项集可以是包含两个项的项集,如仅包含项A和B的项集AB。
6、外部效用值表(例如利润表,Profit Table):记录数据库中各项对应的单位外部效用值的表格。在交易类型的数据库中,利润表可以是外部效用值表的一种体现形式,即外部效用值表可以记录数据库中各项的单位利润值。表2示出了利润表的一个示例。
项 | A | B | C | D | E |
单位利润值 | 6 | 12 | 1 | 9 | 3 |
表2利润表的示例
从表2可以看出,利润表表示的是卖出一件商品可以获得的单位利润例如,卖出一件商品A可以获得利润6元,卖出一件商品B可以获得利润12元。相应的,外部效用值表可以表示,每个项对应的单位外部效用值。
7、项在事务中的效用值(Utility of an item in a transaction):一个项在一条事务中的效用值,可以是某一项在一事务中的内部效用值乘以该项的单位外部效用值。例如,在交易类型的数据库中,某一项在一事务中的效用值可以是该项在该事务中的交易数量乘以该数据项的单位利润值。以表1和表2为例,项B在T3事务中的效用值可以是3×12=36。
8、项集在事务中的效用值(Utility of an itemset in a transaction):某一项集中的各个项在某一事务中的效用值的加和。以表1和表2为例,项集BC(仅包含项B和C的项集)在T3事务中的效用值为3×12+5×1=41。
9、项集在数据库中的效用值(Itemset utility in Database):某一项集在数据库中的效用值,即某一项集在包含该项集的所有项的各事务中的效用值的加和。
10、事务的效用值(Transaction Utility):某一事务的效用值为组成该事务的各个项在该事务中的效用值的加和。以表1为例,事务T5中包含项B、D和E,可确定事务T5的效用值为1×12+3×9+2×3=45。
11、数据库的总效用值:数据库中各事务的效用值的加和。以表1为例,数据库的总效用值为T1至T10的各事务的效用值的加和为:
35+27+41+24+45+42+50+15+23+23=325。
12、高效用项集(High Utiligy Itemset,HUI):当项集的项集效用值≥最低效用阈值时,该项集为高效用项集。例如,该最低效用阈值可以是预先定义的固定的最低效用阈值。
13、第一类高效用项集:当项集的项集效用值>第一效用阈值时,该项集为第一类高效用项集。
14、第二类高效用项集:当项集的项集效用值≥第二效用阈值且项集的项集效用值≤第一效用阈值时,该项集为第二类高效用项集。
在本公开中,也可以将第一类高效用项集称为高效用项集,而将第二类高效用项集称为次高效用项集(Pre-large HUI,PHUI)。为方便起见,在下文中有时候可以互换地使用第二类高效用项集和次高效用项集。
15、频繁项集:支持度大于最小支持度阈值的项集,其中支持度是指包含项集的数据库的大小(size),例如,包含项集的数据库包括的事务的数量。
下面将结合图2来具体描述根据图1所示的原理性框架的挖掘全局高效用项集的方法的流程图。图2是根据本公开实施例的用于挖掘全局高效用项集的方法200的流程图。如图2所示,在步骤S201中,分别挖掘至少两个数据源中的每个数据源中的第一类高效用项集和第二类高效用项集。这里所描述的“至少两个数据源”的数量可以用n表示,并且n≥2。数据源可以用B表示。
根据本公开的一个示例,对于每个数据源,可以根据该数据源的总效用值和第一阈值,挖掘该数据源中的第一类高效用项集。第一阈值可以是最小的较高效用值阈值(minimum upper-utility threshold)。例如,可以根据该数据源的总效用值和第一阈值确定第一效用阈值,然后将由该数据源中的项构成的各个项集在该数据源中的效用值分别与第一效用阈值进行比较,从而判断各个项集是否为第一类高效用项集。具体地,可以通过下面的公式(1)来判断各个项集是否为第一类高效用项集:
HUI←{X|u(X)>tuBk×δ} 公式(1)
其中,X表示由数据源Bk中的项构成的项集,u(X)表示项集X在数据源Bk中的效用值,tuBk表示数据源Bk的总效用值,δ表示第一阈值,Bk表示第k个数据源,1≤k≤n。此外,数据源Bk的总效用值也可以表示为tuk,因此,下文中,可以互换地使用tuBk和tuk。
此外,对于每个数据源,可以根据该数据源的总效用值、第一阈值和第二阈值,挖掘该数据源中的第二类高效用项集。第二阈值可以是较低效用值阈值(lower-utilitythreshold)。例如,可以根据该数据源的总效用值和第一阈值确定第一效用阈值以及根据该数据源的总效用值和第二阈值确定第二效用阈值,然后将由该数据源中的项构成的各个项集在该数据源中的效用值分别与第一效用阈值、第二效用阈值进行比较,从而判断各个项集是否为第二类高效用项集。具体地,可以通过下面的公式(2)来判断各个项集是否为第二类高效用项集:
其中,X表示由数据源Bk中的项构成的项集,u(X)表示项集X在数据源Bk中的效用值,tuBk表示数据源Bk的总效用值,δ表示第一阈值,γ表示第二阈值,Bk表示第k个数据源,1≤k≤n。
在该示例中,对于某一项集,可以先判断其是否为第一类高效用项集。当该项集不是第一类高效用项集时,可以再判断其是否为第二类高效用项集。
此外,根据本公开的一个示例,用于各个数据源的第一阈值可以是相同的。例如,对于数据源B1~Bn,第一阈值可以为δ1。可替换地,根据本公开的另一示例,用于各个数据源的第一阈值可以是彼此不同的。例如,对于数据源B1~Bn,第一阈值可以分别为δ1~δn,其中δ1~δn的取值彼此不同。可替换地,根据本公开的另一示例,用于各个数据源的第一阈值可以是部分相同的。例如,对于数据源B1~Bk,第一阈值可以为δ1,而对于数据源B(k+1)~Bn,第一阈值可以为δ2,其中δ1和δ2的取值不同。
此外,根据本公开的一个示例,用于各个数据源的第二阈值可以是相同的。例如,对于数据源B1~Bn,第二阈值可以为γ1。可替换地,根据本公开的另一示例,用于各个数据源的第二阈值可以是彼此不同的。例如,对于数据源B1~Bn,第二阈值可以分别为γ1~γn,其中γ1~γn的取值彼此不同。可替换地,根据本公开的另一示例,用于各个数据源的第二阈值可以是部分相同的。例如,对于数据源B1~Bk,第二阈值可以为γ1,而对于数据源B(k+1)~Bn,第二阈值可以为γ2,其中γ1和γ2的取值不同。
通过步骤S201,可以挖掘各个数据源中的第一类高效用项集和第二类高效用项集。可以理解,通过步骤S201挖掘的第一类高效用项集和第二类高效用项集是本地高效用项集,而不是全局高效用项集。
此外,应该认识到,通过步骤S201,从各个数据源挖掘的第一类高效用项集的数量可能相同,也可能不同。从各个数据源挖掘的第二类高效用项集的数量可能相同,也可能不同。
返回图2,在步骤S202中,根据所挖掘的第一类高效用项集和第二类高效用项集确定候选的全局高效用项集。例如,候选的全局高效用项集可以包括所挖掘的第一类高效用项集和第二类高效用项集。具体地,候选的全局高效用项集可以包括从各个数据源挖掘的第一类高效用项集和第二类高效用项集。在本公开中,候选的全局高效用项集中的项集可以用R’t来表示。
然后,在步骤S203中,从所述候选的全局高效用项集中挖掘全局高效用项集。例如,首先,可以从所述候选的全局高效用项集中挖掘频繁项集。然后,可以从所述频繁项集中挖掘全局高效用项集。由于候选的全局高效用项集是根据多个数据源确定的,因此,这里的频繁项集也可以称为全局频繁项集(Global Frequent Pattern,GFP)。
根据本公开的一个示例,可以挖掘所述候选的全局高效用项集中支持度大于支持度阈值的项集,并将所挖掘的项集作为全局频繁项集。这里所提到的支持度可以指包含项集的数据库包括的事务的数量。这里所提到的支持度阈值可以是根据各个数据源包括的事务的数量和支持度参数确定的。例如,支持度阈值可以是各个数据源包括的事务的数量之和与支持度参数的乘积。具体地,可以通过下面的公式(3)来确定候选的全局高效用项集中的项集是否为全局频繁项集:
其中,R’t∈Bj表示数据源Bj包括项集R’t,|Bj|表示数据源Bj包括的事务的数量,μ表示支持度参数,表示各个数据源包括的事务的数量和。
在本公开中,全局频繁项集可以周Rt表示。从候选的全局高效用项集挖掘的一个或多个全局高效用项集可以构成全局高效用项集集合,其可以用GFP来表示。
下面将结合图3来描述从全局频繁项集中挖掘全局高效用项集的流程。图3是根据本公开实施例的从全局频繁项集中挖掘全局高效用项集的方法300的流程图。如图3所示,在步骤S301中,可以确定各个数据源的权重。根据本公开的一个示例,可以根据所挖掘的全局频繁项集和各个数据源包括的事务的数量来确定各个数据源的权重。步骤S301可以包括四个子步骤,分别为S3011~S3014。
在步骤S3011中,可以确定各个全局频繁项集的权重。这里的权重可以是归一化的权重。例如,可以通过下面的公式(4)可以确定每个全局频繁项集的权重
其中,Rt∈GFP且R∈GFP,表示包括全局频繁项集Rt的支持度,表示所有全局频繁项集的支持度之和。
然后,在步骤S3012中,对于每个数据源,可以至少根据各个全局频繁项集的权重,确定该数据源的第一权重。这里的第一权重可以是归一化的权重。例如,可以根据各个全局频繁项集的权重以及包含全局频繁项集的数据源的个数,确定该数据源的第一权重。例如,可以通过下面的公式(5)来确定数据源Bk的第一权重
其中,Rt∈GFP且Rh∈GFP,Num(Rt)表示包含全局频繁项集Rt的数据源的个数,Num(Rh)表示包含全局频繁项集Rh的数据源的个数。
然后,在步骤S3013中,对于每个数据源,可以根据该数据源包括的事务的数量,确定该数据源的第二权重。这里的第二权重可以是归一化的权重。例如,可以通过下面的公式(6)来确定数据源Bk的第二权重
然后,在步骤S3014中,对于每个数据源,可以至少根据所述第一权重和所述第二权重确定该数据源的权重。例如,可以根据第一权重、第二权重和权重调节因子,确定该数据源的权重。例如,可以通过下面的公式(7)来确定数据源Bk的权重
其中,λ表示权重调节因子。此外,可以对数据源Bk的权重进行归一化。
根据本公开的一个示例,可以根据数据源的数量和数据源大小的离散程度(Standard Deviation,SD)来确定权重调节因子。这里的数据源大小可以是数据源包括的事务的数量。例如,可以通过下面的公式(8)来确定权重调节因子:
其中,SD的确定方式可以参见下面的公式(9):
其中,的确定方式可以参见下面的公式(10):
返回图3,在步骤S302中,可以根据各个数据源的总效用值和权重,确定所述至少两个数据源的集成效用值。例如,可以通过下面的公式(11)来确定所述至少两个数据源的集成效用值STU:
其中,表示数据源Bk的权重,tuk表示数据源Bk的总效用值。
然后,在步骤S303中,可以根据每个全局频繁项集在各个数据源中的效用值和各个数据源的权重,确定每个全局频繁项集的集成效用值。例如,可以通过下面的公式(12)来确定全局频繁项集Rt的集成效用值
其中,表示数据源Bk的权重,uk表示全局频繁项集Rt在数据源Bk中的效用值。
然后,在步骤S304中,可以根据所述至少两个数据源的集成效用值、每个全局频繁项集的集成效用值和第一阈值,确定该全局频繁项集是否为全局高效用项集。例如,当一个全局频繁项集的集成效用值大于或等于所述至少两个数据源的集成效用值与第一阈值的乘积时,该全局频繁项集为全局高效用项集。否则,该全局频繁项集不是全局高效用项集。例如,可以通过下面的公式(13)来确定全局频繁项集Rt是否为全局高效用项集:
下面将以一个具体示例再次描述方法200。在该示例中,假设一家公司具有三个分支机构且每个分支机构部署了一个数据源,因此,该公司具有三个数据源,分别为B1、B2、B3,即数据源的数量n=3。数据源B1包括3个事务,数据源B2包括2个事务,数据源B3包括3个事务。下面的表3示出了这三个数据源的事务。
表3三个数据源的事务的示例
下面的表4示出了相应的外部效用值表。
项 | A | B | C | D | E | F |
单位利润值 | 3 | 1 | 5 | 4 | 10 | 2 |
表4利润表的另一示例
根据方法200,在步骤S201中,分别挖掘数据源B1、B3、B3中的每个数据源中的第一类高效用项集和第二类高效用项集。例如,对于数据源B1,由数据源B1中的项构成的项集可以为A、B、C、D、F、AB、AC、AD、AF、BC、BD、BF、CD、CF、DF、ABC、ABD、ABF、ACD、ACF、ADF、BCD、BCF、CDF、ABCD、ABCF、ABDF、ACDF、BCDF、ABCDF。根据传统的方法,可以确定这些项集在数据源B1中的效用值分别为A:9、B:5、C:60、D:48、F:8、AB:6、AC:69、AD:45、AF:8、BC:13、BD:33、BF:8、CD:96、CF:52、DF:22、ABC:16、ABD:22、ABF:0、ACD:105、ACF:58、ADF:28、BCD:29、BCF:0、CDF:72、ABCD:32、ABCF:0、ABDF:0、ACDF:78、BCDF:0、ABCDF:0。
此外,根据传统的方法,可以确定数据源B1的总效用值tu1=130。
假设第一阈值δ=0.35,第二阈值γ=0.32,则tu1×δ=45.5,tu1×δ=41.6。根据上述公式(1)和(2),将上述项集中的各个项集在数据源B1中的效用值分别与45.5和41.6进行比较,从而确定第一类高效用项集和第二类高效用项集。例如,项集D在数据源B1中的效用值为48,由于48大于45.5,因此,项集D为第一类高效用项集。例如,项集AD在数据源B1中的效用值为45,由于45小于45.5且大于41.6,因此,项集AD为第二类高效用项集。依次类推,可以确定数据源B1中的第一类高效用项集为{D:48,CD:96,ACD:105,ACDF:78,CDF:72,C:60,AC:69,ACF:58,CF:52},第二类高效用项集为{AD:45}。
类似地,可以确定由数据源B2中的项构成的项集,以及确定数据源B2的总效用值tu2=112。然后,可以确定数据源B2中的第一类高效用项集为{BEF:73,EF:70,BE:53,E:50},第二类高效用项集为{BDF:39,ADF:37}。
类似地,可以确定由数据源B3中的项构成的项集,以及确定数据源B3的总效用值tu3=300。然后,可以确定数据源B3中的第一类高效用项集为{CE:175,CDE:134,E:150,DE:124},第二类高效用项集为{CD:104}。
然后,在步骤S202中,根据所挖掘的第一类高效用项集和第二类高效用项集确定候选的全局高效用项集P。例如,P可以为{(D),(CD),(ACD),(ACDF),(CDF),(C),(AC),(ACF),(CF),(AD),(BEF),(EF),(BE),(E),(BDF),(ADF),(CE),(CDE),(DE)}。
然后,在步骤S203中,首先,可以从候选的全局高效用项集P中挖掘频繁项集GFP。然后,可以从频繁项集GFP中挖掘全局高效用项集GHUI。
例如,根据上述公式(3),对于候选的全局高效用项集P中的项集CD,由于只有数据源B1和数据源B3包括项集CD,因此,项集CD的支持度为数据源B1包括的事务的数量|B⊥|与数据源B3包括的事务的数量|B3|之和,即3+3=6。此外,这三个数据源包括的事务的数量和假设支持度参数μ=0.5,因此,支持度阈值为/>由于项集CD的支持度(=6)大于支持度阈值(=4),因此,项集CD是全局频繁项集。
又例如,根据上述公式(3),对于候选的全局高效用项集P中的项集E,由于只有数据源B2和数据源B3包括项集E,因此,项集E的支持度为数据源B2包括的事务的数量|B2|与数据源B3包括的事务的数量|B3|之和,即2+3=5。此外,这三个数据源包括的事务的数量和假设支持度参数μ=0.5,因此,支持度阈值为/>由于项集E的支持度(=5)大于支持度阈值(=4),因此,项集E是全局频繁项集。
以此类推,直至从候选的全局高效用项集P中挖掘出所有的全局频繁项集。在该示例中,从从候选的全局高效用项集P挖掘的全局频繁项集GFP为{(CD:6),(E:5)}。
接下来,从全局频繁项集GFP={(CD:6),(E:5)}中挖掘全局高效用项集。具体地,在步骤S3011中,确定项集CD的权重以及项集E的权重。上文已经描述了,只有数据源B1和数据源B3包括项集CD,因此,根据上述公式(4),项集CD的权重wCD=6/(6+5)=0.55。而只有数据源B2和数据源B3包括项集E,因此,根据上述公式(4),项集E的权重wE=5/(6+5)=0.45。
然后,在步骤S3012中,可以确定数据源B1的第一权重、数据源B2的第一权重、以及数据源B3的第一权重。例如,根据上述公式(5),数据源B1的第一权重wpB1=Num(CD)×wCD/[Num(CD)×wCD+Num(E)×wE+(Num(CD)×wCD+Num(E)×wE)]=2×0.55/[2×0.55+2×0.45+(2×0.55+2×0.45)]=0.27。例如,根据上述公式(5),数据源B2的第一权重wpB2=Num(E)×wE/[Num(CD)×wCD+Num(E)×wE+(Num(CD)×wCD+Num(E)×wE)]=2×0.45/[2×0.55+2×0.45+(2×0.55+2×0.45)]=0.23。例如,根据上述公式(5),数据源B3的第一权重wpB3=(Num(CD)×wCD+Num(E)×wE)/[Num(CD)×wCD+Num(E)×wE+(Num(CD)×wCD+Num(E)×wE)]=(2×0.55+2×0.45)/[2×0.55+2×0.45+(2×0.55+2×0.45)]=0.5。
然后,在步骤S3013中,可以确定数据源B1的第二权重、数据源B2的第二权重、以及数据源B3的第二权重。例如,根据上述公式(6),数据源B1的第二权重wsB1=3/(3+2+3)=0.375,数据源B2的第二权重wsB2=2/(3+2+3)=0.25,数据源B3的第二权重wsB3=3/(3+2+3)=0.375。
然后,在步骤S3014中,可以确定数据源B1的权重、数据源B2的权重、以及数据源B3的权重。首先,根据公式(10)计算然后,根据公式(9)计算然后,根据公式(8)计算权重调节因子λ=0.24/(3+0.24)=0.07。然后,根据公式(7),数据源B1的未归一化的权重wB1=(1-0.07)×wpB1+0.07×wsB1=0.29625。类似地,数据源B2的未归一化的权重wB2=0.2475,数据源B3的未归一化的权重wB3=0.52625。因此,数据源B1的归一化的权重wB1=0.29625/(0.29625+0.2475+0.52625)=0.277。类似地,数据源B2的归一化的权重wB2=0.231,数据源B3的归一化的权重wB3=0.492。
然后,在步骤S302中,计算数据源B1、B2、B3的集成效用值STU。根据公式(11),数据源B1、B2、B3的集成效用值STU=wB1×tu1+wB2×tu2+wB3×tu3=0.277×130+0.231×112+0.492×300=209.48。
然后,在步骤S303中,确定每个全局频繁项集(即项集CD和项集E)的集成效用值。例如,根据公式(12),项集CD的集成效用值SUeD=wB1×u1+wB2×u2+wB3×u3=77.76。类似地,根据公式(11),项集E的集成效用值SUE=85.35。
然后,在步骤S304中,根据公式(13)确定项集CD和项集E是否为全局高效用项集。例如,由于SUCD≥STU×δ,即77.76≥209.48×0.35,因此,项集CD是全局高效用项集。此外,由于SUE≥STU×δ,即85.35≥209.48×0.35,因此,项集E是全局高效用项集。
因此,通过方法200,从数据源B1、B2、B3挖掘的全局高效用项集为项集CD和项集E。
根据本实施例的用于挖掘全局高效用项集的方法,挖掘了每个数据源中的第一类高效用项集和第二类高效用项集,这种在本地进行初步挖掘的方式避免了将多个数据源的数据汇总到一个数据库,节省了数据传输成本,而且避免了对各个数据源的数据进行预处理,节省了数据处理成本,并且避免了在单个数据库中采用并行或分布式方式进行项集挖掘,进一步节省了成本。此外,根据本地挖掘获得的第一类高效用项集和第二类高效用项集确定候选的全局高效用项集,并从候选的全局高效用项集中挖掘全局高效用项集,不仅能够发现对全局有价值的项集,而且还能够发现对本地有价值的项集,从而便于确定本地的决策,使得商业决策更加经济和方便。
以下,参照图4来描述根据本公开实施例的与图2所示的方法对应的装置。图4示出了根据本公开实施例的用于挖掘全局高效用项集的装置400的结构示意图。由于装置400的功能与在上文中参照图2描述的方法的细节相同,因此在这里为了简单起见,省略对相同内容的详细描述。如图4所示,装置400包括:第一挖掘单元410,被配置为分别挖掘至少两个数据源中的每个数据源中的第一类高效用项集和第二类高效用项集;确定单元420,被配置为根据所挖掘的第一类高效用项集和第二类高效用项集确定候选的全局高效用项集;以及第二挖掘单元430,被配置为从所述候选的全局高效用项集中挖掘全局高效用项集。除了这三个单元以外,装置400还可以包括其他部件,然而,由于这些部件与本公开实施例的内容无关,因此在这里省略其图示和描述。
根据本公开的一个示例,对于每个数据源,第一挖掘单元410可以根据该数据源的总效用值和第一阈值,挖掘该数据源中的第一类高效用项集。第一阈值可以是最小的较高效用值阈值(minimum upper-utility threshold)。例如,第一挖掘单元410可以根据该数据源的总效用值和第一阈值确定第一效用阈值,然后将由该数据源中的项构成的各个项集在该数据源中的效用值分别与第一效用阈值进行比较,从而判断各个项集是否为第一类高效用项集。具体地,可以通过上面的公式(1)来判断各个项集是否为第一类高效用项集。
此外,对于每个数据源,第一挖掘单元410可以根据该数据源的总效用值、第一阈值和第二阈值,挖掘该数据源中的第二类高效用项集。第二阈值可以是较低效用值阈值(lower-utility threshold)。例如,第一挖掘单元410可以根据该数据源的总效用值和第一阈值确定第一效用阈值以及根据该数据源的总效用值和第二阈值确定第二效用阈值,然后将由该数据源中的项构成的各个项集在该数据源中的效用值分别与第一效用阈值、第二效用阈值进行比较,从而判断各个项集是否为第二类高效用项集。具体地,可以通过上面的公式(2)来判断各个项集是否为第二类高效用项集。
在该示例中,对于某一项集,第一挖掘单元410可以先判断其是否为第一类高效用项集。当该项集不是第一类高效用项集时,第一挖掘单元410可以再判断其是否为第二类高效用项集。
此外,根据本公开的一个示例,第一挖掘单元410采用的用于各个数据源的第一阈值可以是相同的。例如,对于数据源B1~Bn,第一阈值可以为δ1。可替换地,根据本公开的另一示例,用于各个数据源的第一阈值可以是彼此不同的。例如,对于数据源B1~Bn,第一阈值可以分别为δ1~δn,其中δ1~δn的取值彼此不同。可替换地,根据本公开的另一示例,用于各个数据源的第一阈值可以是部分相同的。例如,对于数据源B1~Bk,第一阈值可以为δ1,而对于数据源B(k+1)~Bn,第一阈值可以为δ2,其中δ1和δ2的取值不同。
此外,根据本公开的一个示例,第一挖掘单元410采用的用于各个数据源的第二阈值可以是相同的。例如,对于数据源B1~Bn,第二阈值可以为γ1。可替换地,根据本公开的另一示例,用于各个数据源的第二阈值可以是彼此不同的。例如,对于数据源B1~Bn,第二阈值可以分别为γ1~γn,其中γ1~γn的取值彼此不同。可替换地,根据本公开的另一示例,用于各个数据源的第二阈值可以是部分相同的。例如,对于数据源B1~Bk,第二阈值可以为γ1,而对于数据源B(k+1)~Bn,第二阈值可以为γ2,其中γ1和γ2的取值不同。
通过第一挖掘单元410的操作,可以挖掘各个数据源中的第一类高效用项集和第二类高效用项集。可以理解,通过第一挖掘单元410挖掘的第一类高效用项集和第二类高效用项集是本地高效用项集,而不是全局高效用项集。
此外,应该认识到,通过第一挖掘单元410的操作,从各个数据源挖掘的第一类高效用项集的数量可能相同,也可能不同。从各个数据源挖掘的第二类高效用项集的数量可能相同,也可能不同。
在本公开中,确定单元420根据所挖掘的第一类高效用项集和第二类高效用项集确定候选的全局高效用项集。例如,候选的全局高效用项集可以包括所挖掘的第一类高效用项集和第二类高效用项集。具体地,候选的全局高效用项集可以包括从各个数据源挖掘的第一类高效用项集和第二类高效用项集。在本公开中,候选的全局高效用项集中的项集可以用R’t来表示。
此外,在本公开中,第二挖掘单元430可以从所述候选的全局高效用项集中挖掘频繁项集。然后,第二挖掘单元430可以从所述频繁项集中挖掘全局高效用项集。由于候选的全局高效用项集是根据多个数据源确定的,因此,这里的频繁项集也可以称为全局频繁项集(Global Frequent Pattern,GFP)。
根据本公开的一个示例,第二挖掘单元430可以挖掘所述候选的全局高效用项集中支持度大于支持度阈值的项集,并将所挖掘的项集作为全局频繁项集。这里所提到的支持度可以指包含项集的数据库包括的事务的数量。这里所提到的支持度阈值可以是根据各个数据源包括的事务的数量和支持度参数确定的。例如,支持度阈值可以是各个数据源包括的事务的数量之和与支持度参数的乘积。具体地,可以通过上面的公式(3)来确定候选的全局高效用项集中的项集是否为全局频繁项集。
在本公开中,全局频繁项集可以用Rt表示。从候选的全局高效用项集挖掘的一个或多个全局高效用项集可以构成全局高效用项集集合,其可以用GFP来表示。
下面将结合图5来描述第二挖掘单元430。图5是根据本公开实施例的第二挖掘单元430的结构示意图。如图5所示,第二挖掘单元430可以包括数据源权重确定单元431,被配置为确定各个数据源的权重。根据本公开的一个示例,可以根据所挖掘的全局频繁项集和各个数据源包括的事务的数量来确定各个数据源的权重。
首先,数据源权重确定单元431可以确定各个全局频繁项集的权重。这里的权重可以是归一化的权重。例如,可以通过上面的公式(4)可以确定每个全局频繁项集的权重
然后,对于每个数据源,数据源权重确定单元431可以至少根据各个全局频繁项集的权重,确定该数据源的第一权重。这里的第一权重可以是归一化的权重。例如,可以根据各个全局频繁项集的权重以及包含全局频繁项集的数据源的个数,确定该数据源的第一权重。例如,可以通过上面的公式(5)来确定数据源Bk的第一权重
然后,对于每个数据源,数据源权重确定单元431可以根据该数据源包括的事务的数量确定该数据源的第二权重。这里的第二权重可以是归一化的权重。例如,可以通过上面的公式(6)来确定数据源Bk的第二权重
然后,对于每个数据源,数据源权重确定单元431可以至少根据所述第一权重和所述第二权重确定该数据源的权重。例如,可以根据第一权重、第二权重和权重调节因子,确定该数据源的权重。例如,可以通过下面的公式(7)来确定数据源Bk的权重
根据本公开的一个示例,数据源权重确定单元431可以根据数据源的数量和数据源大小的离散程度(Standard Deviation,SD)来确定权重调节因子。这里的数据源大小可以是数据源包括的事务的数量。例如,可以通过上面的公式(8)来确定权重调节因子。
返回图5,第二挖掘单元430还可以包括数据源集成效用值确定单元432,其被配置为根据各个数据源的总效用值和权重,确定所述至少两个数据源的集成效用值。例如,可以通过上面的公式(11)来确定所述至少两个数据源的集成效用值STU。
然后,第二挖掘单元430还可以包括项集集成效用值确定单元433,其被配置为根据每个全局频繁项集在各个数据源中的效用值和各个数据源的权重,确定每个全局频繁项集的集成效用值。例如,可以通过上面的公式(12)来确定全局频繁项集Rt的集成效用值
然后,第二挖掘单元430还可以包括全局高效用项集确定单元434,被配置为根据所述至少两个数据源的集成效用值、每个全局频繁项集的集成效用值和第一阈值,确定该全局频繁项集是否为全局高效用项集。例如,当一个全局频繁项集的集成效用值大于或等于所述至少两个数据源的集成效用值与第一阈值的乘积时,该全局频繁项集为全局高效用项集。否则,该全局频繁项集不是全局高效用项集。例如,可以通过上面的公式(13)来确定全局频繁项集Rt是否为全局高效用项集。
在上面的实施例中,第一挖掘单元410、确定单元420和第二挖掘单元430可以被集成在装置400中。然而本公开不限于此,根据本公开的另一实施例,第一挖掘单元410、确定单元420和第二挖掘单元430可以被集成在至少两个装置中。例如,第一挖掘单元410和确定单元420可以被集成在第一装置中,而第二挖掘单元430可以被集成在第二装置中。
根据本实施例的用于挖掘全局高效用项集的装置,挖掘了每个数据源中的第一类高效用项集和第二类高效用项集,这种在本地进行初步挖掘的方式避免了将多个数据源的数据汇总到一个数据库,节省了数据传输成本,而且避免了对各个数据源的数据进行预处理,节省了数据处理成本,并且避免了在单个数据库中采用并行或分布式方式进行项集挖掘,进一步节省了成本。此外,根据本地挖掘获得的第一类高效用项集和第二类高效用项集确定候选的全局高效用项集,并从候选的全局高效用项集中挖掘全局高效用项集,不仅能够发现对全局有价值的项集,而且还能够发现对本地有价值的项集,从而便于确定本地的决策,使得商业决策更加经济和方便。
此外,根据本公开实施例的装置也可以借助于图6所示的计算设备的架构来实现。图6示出了该计算设备的架构。如图6所示,计算设备600可以包括总线610、一个或多个CPU620、只读存储器(ROM)630、随机存取存储器(RAM)640、连接到网络的通信端口650、输入/输出组件660、硬盘670等。计算设备600中的存储设备,例如ROM 630或硬盘670可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备600还可以包括用户界面680。当然,图6所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图6示出的计算设备中的一个或多个组件。
本公开的实施例也可以被实现为计算机可读存储介质。根据本公开实施例的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时,可以执行参照以上附图描述的根据本公开实施例的方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
本领域技术人员能够理解,本公开所披露的内容可以出现多种变型和改进。例如,以上所描述的各种设备或组件可以通过硬件实现,也可以通过软件、固件、或者三者中的一些或全部的组合实现。
此外,如本公开和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
此外,本公开中使用了流程图用来说明根据本公开的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上对本公开进行了详细说明,但对于本领域技术人员而言,显然,本公开并非限定于本说明书中说明的实施方式。本公开在不脱离由权利要求书的记载所确定的本公开的宗旨和范围的前提下,可以作为修改和变更方式来实施。因此,本说明书的记载是以示例说明为目的,对本公开而言并非具有任何限制性的意义。
Claims (13)
1.一种用于挖掘全局高效用项集的方法,包括:
分别挖掘至少两个数据源中的每个数据源中的第一类高效用项集和第二类高效用项集;
根据所挖掘的第一类高效用项集和第二类高效用项集确定候选的全局高效用项集;以及
从所述候选的全局高效用项集中挖掘全局频繁项集,并且从所述全局频繁项集中挖掘全局高效用项集,
其中,从所述全局频繁项集中挖掘全局高效用项集包括:
基于各数据源的权重确定所述至少两个数据源的集成效用值,以及每个全局频繁项集的集成效用值;以及
根据所述至少两个数据源的集成效用值和每个全局频繁项集的集成效用值,确定该全局频繁项集是否为全局高效用项集。
2.如权利要求1所述的方法,其中挖掘每个数据源中的第一类高效用项集和第二类高效用项集包括:
根据该数据源的总效用值和第一阈值,挖掘该数据源中的第一类高效用项集;以及
根据该数据源的总效用值、第一阈值和第二阈值,挖掘该数据源中的第二类高效用项集。
3.如权利要求1所述的方法,其中所述候选的全局高效用项集包括所挖掘的第一类高效用项集和第二类高效用项集。
4.如权利要求1所述的方法,其中从所述候选的全局高效用项集中挖掘全局频繁项集包括:
挖掘所述候选的全局高效用项集中支持度大于支持度阈值的项集;以及
将所挖掘的项集作为全局频繁项集。
5.如权利要求4所述的方法,其中所述支持度阈值是根据各个数据源包括的事务的数量和支持度参数确定的。
6.如权利要求1所述的方法,
其中确定所述至少两个数据源的集成效用值包括:
确定各个数据源的权重;
根据各个数据源的总效用值和权重,确定所述至少两个数据源的集成效用值;
确定每个全局频繁项集的集成效用值包括:
根据每个全局频繁项集在各个数据源中的效用值和各个数据源的权重,确定每个全局频繁项集的集成效用值;以及
确定该全局频繁项集是否为全局高效用项集包括:
根据所述至少两个数据源的集成效用值、每个全局频繁项集的集成效用值和第一阈值,确定该全局频繁项集是否为全局高效用项集。
7.如权利要求6所述的方法,其中确定每个数据源的权重包括:
确定各个全局频繁项集的权重;
至少根据各个全局频繁项集的权重,确定该数据源的第一权重;
根据该数据源包括的事务的数量,确定该数据源的第二权重;以及
至少根据所述第一权重和所述第二权重确定该数据源的权重。
8.如权利要求7所述的方法,其中所述至少根据所述第一权重和所述第二权重确定该数据源的权重包括:
根据所述第一权重、所述第二权重和权重调节因子,确定该数据源的权重。
9.一种用于挖掘全局高效用项集的装置,包括:
第一挖掘单元,被配置为分别挖掘至少两个数据源中的每个数据源中的第一类高效用项集和第二类高效用项集;
确定单元,被配置为根据所挖掘的第一类高效用项集和第二类高效用项集确定候选的全局高效用项集;以及
第二挖掘单元,被配置为从所述候选的全局高效用项集中挖掘全局频繁项集,并且从所述全局频繁项集中挖掘全局高效用项集,
其中,从所述全局频繁项集中挖掘全局高效用项集包括:
基于各数据源的权重确定所述至少两个数据源的集成效用值,以及每个全局频繁项集的集成效用值;以及
根据所述至少两个数据源的集成效用值和每个全局频繁项集的集成效用值,确定该全局频繁项集是否为全局高效用项集。
10.如权利要求9所述的装置,其中所述候选的全局高效用项集包括所挖掘的第一类高效用项集和第二类高效用项集。
11.如权利要求9所述的装置,其中所述第二挖掘单元被配置为确定各个数据源的权重;根据各个数据源的总效用值和权重,确定所述至少两个数据源的集成效用值;根据每个全局频繁项集在各个数据源中的效用值和各个数据源的权重,确定每个全局频繁项集的集成效用值;以及根据所述至少两个数据源的集成效用值、每个全局频繁项集的集成效用值和第一阈值,确定该全局频繁项集是否为全局高效用项集。
12.一种用于挖掘全局高效用项集的装置,包括:
处理器;以及
存储器,其中,所述存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行权利要求1-8中任一项所述的方法。
13.一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910692049.0A CN110413660B (zh) | 2019-07-26 | 2019-07-26 | 挖掘全局高效用项集的方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910692049.0A CN110413660B (zh) | 2019-07-26 | 2019-07-26 | 挖掘全局高效用项集的方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413660A CN110413660A (zh) | 2019-11-05 |
CN110413660B true CN110413660B (zh) | 2024-05-14 |
Family
ID=68363891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910692049.0A Active CN110413660B (zh) | 2019-07-26 | 2019-07-26 | 挖掘全局高效用项集的方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413660B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241136A (zh) * | 2020-01-07 | 2020-06-05 | 桂林电子科技大学 | 一种基于数据缓冲池的Top-k高效用项集挖掘方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777182A (zh) * | 2016-12-23 | 2017-05-31 | 陕西理工学院 | 一种减少候选项集的数据流高效用项集挖掘算法 |
KR20180007248A (ko) * | 2016-07-12 | 2018-01-22 | 세종대학교산학협력단 | 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법 및 이를 수행하는 불확실 가중화 빈발 아이템 마이닝 장치 |
-
2019
- 2019-07-26 CN CN201910692049.0A patent/CN110413660B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180007248A (ko) * | 2016-07-12 | 2018-01-22 | 세종대학교산학협력단 | 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법 및 이를 수행하는 불확실 가중화 빈발 아이템 마이닝 장치 |
CN106777182A (zh) * | 2016-12-23 | 2017-05-31 | 陕西理工学院 | 一种减少候选项集的数据流高效用项集挖掘算法 |
Non-Patent Citations (4)
Title |
---|
Jerry Chun-wei Lin et al.Mining high utility itemsets from multiple databases.《Smart Vehicular Technology,Transportation,Communication and Applications》.2018,第139–143页. * |
Mining high utility itemsets from multiple databases;Jerry Chun-wei Lin et al;《Smart Vehicular Technology,Transportation,Communication and Applications》;20181201;第139–143页 * |
Synthesizing High-Frequency Rules from Different Data Sources;Xindong Wu et al;《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》;20030320;第15卷(第2期);第356-363页 * |
频繁和高效用项集挖掘;李慧;刘贵全;瞿春燕;;计算机科学;20150515(第05期);第82-87页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110413660A (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105760419B (zh) | 用于连接处理的方法和系统 | |
US10565172B2 (en) | Adjusting application of a set of data quality rules based on data analysis | |
US10417265B2 (en) | High performance parallel indexing for forensics and electronic discovery | |
US10242061B2 (en) | Distributed execution of expressions in a query | |
US10579973B2 (en) | System for efficient processing of transaction requests related to an account in a database | |
US9721015B2 (en) | Providing a query results page | |
US10467203B2 (en) | Data de-duplication | |
US9128967B2 (en) | Storing graph data in a column-oriented data store | |
US11442694B1 (en) | Merging database tables by classifying comparison signatures | |
US9600559B2 (en) | Data processing for database aggregation operation | |
WO2018195105A1 (en) | Document similarity analysis | |
US9633081B1 (en) | Systems and methods for determining application installation likelihood based on user network characteristics | |
US11669301B2 (en) | Effectively fusing database tables | |
CN109918678B (zh) | 一种字段含义识别方法和装置 | |
US10733175B2 (en) | Data warehouse model validation | |
US11175993B2 (en) | Managing data storage system | |
CN111625561B (zh) | 一种数据查询方法及装置 | |
US20080222112A1 (en) | Method and System for Document Searching and Generating to do List | |
US11157496B2 (en) | Predictive data distribution for parallel databases to optimize storage and query performance | |
CN111046052B (zh) | 一种数据库中的操作记录存储方法、装置及设备 | |
CN110413660B (zh) | 挖掘全局高效用项集的方法、装置及计算机可读存储介质 | |
US9910924B2 (en) | Disambiguation of online social mentions | |
US20150095349A1 (en) | Automatically identifying matching records from multiple data sources | |
US9286349B2 (en) | Dynamic search system | |
US20200160211A1 (en) | Machine learning based database anomaly prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |