CN105975608A - 一种数据挖掘方法和装置 - Google Patents
一种数据挖掘方法和装置 Download PDFInfo
- Publication number
- CN105975608A CN105975608A CN201610324425.7A CN201610324425A CN105975608A CN 105975608 A CN105975608 A CN 105975608A CN 201610324425 A CN201610324425 A CN 201610324425A CN 105975608 A CN105975608 A CN 105975608A
- Authority
- CN
- China
- Prior art keywords
- item
- threshold value
- item collection
- collection
- minimum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据挖掘方法和装置,涉及数据挖掘领域。其中的方法包括:获取事务数据库中事务的项集;基于设定的用于修剪项集的阈值,修剪项集以获得高效用强关联频繁项集;其中用于修剪项集的阈值包括最小支持度阈值、最小置信度阈值和最小效用度阈值。本发明通过对数据库中的数据进行支持度、置信度和效用度计算,能够获得数据之间的潜在联系,根据数据之间的潜在联系,能够指导用户做出相应的技术决策和经营管理。
Description
技术领域
本发明涉及数据挖掘领域,尤其涉及一种数据挖掘方法和装置。
背景技术
随着现代网络技术的发展,数据成指数增长,对海量数据进行必要的挖掘和处理,为用户提供有价值的信息,以此指导其做出相应的技术决策和经营管理就显得尤为必要。关联规则的挖掘就是要发现大量数据中项集之间的关联或相关联系,它是数据挖掘研究是重要内容之一。但对于海量数据,对数据之间的规律或潜在的联系进行数据挖掘是一项具有挑战性的工作;此外,通过数据挖掘找到满足特定需求和要求的关联规则,更具挑战性。
发明内容
本发明要解决的一个技术问题是提供一种数据挖掘方案以便获取数据之间的关联性。
根据本发明一方面,提出一种数据挖掘方法,包括:获取事务数据库中事务的项集;基于设定的用于修剪项集的阈值,修剪项集以获得高效用强关联频繁项集;其中用于修剪项集的阈值包括最小支持度阈值、最小置信度阈值和最小效用度阈值。
可选地,基于设定的用于修剪项集的阈值,修剪项集以获得高效用强关联频繁项集的步骤包括:获取事务的项集中支持度大于最小支持度阈值的项集以提取事务的频繁项集;确定频繁项集中置信度大于最小置信度阈值的项集以生成强关联频繁项集;在强关联频繁项集中获取效用度大于最小效用度阈值的项集以生成高效用强关联频繁项集。
可选地,该方法还包括:对高效用强关联频繁项集根据支持度大小进行排序;和/或对高效用强关联频繁项集根据置信度大小进行排序;和/或对高效用强关联频繁项集根据效用度大小进行排序。
可选地,该方法还包括:分别对项集的支持度、置信度和效用度进行排序,基于分位数确定用于修剪项集的最小支持度阈值、最小置信度阈值和最小效用度阈值。
可选地,该方法还包括:对项集中项的数量小于等于数量阈值的项集,执行修剪项集的步骤。
可选地,效用度为项集的效用与事务总效用的比值。
根据本发明的另一方面,还提供一种数据挖掘装置,包括:项集获取单元,用于获取事务数据库中事务的项集;项集修剪单元,用于基于设定的用于修剪项集的阈值,修剪项集以获得高效用强关联频繁项集;其中用于修剪项集的阈值包括最小支持度阈值、最小置信度阈值和最小效用度阈值。
可选地,项集修剪单元用于获取事务的项集中支持度大于最小支持度阈值的项集以获得事务的频繁项集;确定频繁项集中置信度大于最小置信度阈值的项集以生成强关联频繁项集;在强关联频繁项集中获取效用度大于最小效用度阈值的项集以生成高效用强关联频繁项集。
可选地,该装置还包括:项集排序单元,用于对高效用强关联频繁项集根据支持度大小进行排序;和/或对高效用强关联频繁项集根据置信度大小进行排序;和/或对高效用强关联频繁项集根据效用度大小进行排序。
可选地,该装置还包括:阈值设定单元,用于分别对项集的支持度、置信度和效用度进行排序,基于分位数确定用于修剪项集的最小支持度阈值、最小置信度阈值和最小效用度阈值。
可选地,阈值设定单元还用于设置项集中项的数量阈值。
可选地,效用度为项集的效用与事务总效用的比值。
根据本发明的另一方面,还提供一种数据挖掘装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器存储的指令执行上述的方法。
与现有技术相比,本发明通过获取事务数据库中事务的项集,基于设定的用于修剪项集的阈值修剪项集以获得高效用强关联频繁项集。即本发明通过对数据库中的数据进行支持度、置信度和效用度计算,能够获得数据之间的潜在联系,即确定数据之间的关联性。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同说明书一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为本发明数据挖掘方法的一个实施例的流程示意图。
图2为本发明数据挖掘方法的另一个实施例的流程示意图。
图3为本发明数据挖掘装置的一个实施例的结构示意图。
图4为本发明数据挖掘装置的另一个实施例的结构示意图。
图5为本发明数据挖掘装置的又一个实施例的结构示意图。
图6为本发明数据挖掘装置的再一个实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1为本发明数据挖掘方法的一个实施例的流程示意图。该数据挖掘方法包括以下步骤:
在步骤110,获取事务数据库中事务的项集。
将事务数据库中每个数据称作一个项,所有项的集合构成事务的项集。例如,I={I1,I2,...Ik},其中,I1,I2,...Ik为项,I为项集。
在步骤120,基于设定的用于修剪项集的阈值,修剪项集以获得高效用强关联频繁项集。
其中阈值可以包括最小支持度阈值、最小置信度阈值和最小效用度阈值,效用度为该项集的效用/总效用的比例。阈值可以由人工指定,即可以由有经验的业务操作员或领域专家指定。当没有足够的业务经验来指定时,可以根据数据分布特点确定,例如,可以采用统计学上分位数的概念来指定最小阈值,比如以最小5%分位数作为阈值进行计算,以避免过多随机出现的项集干扰,产生过多平凡规则。
在一个实施例中,可以先对项集进行支持度修剪得到频繁项集,再对频繁项集进行置信度修剪得到强关联频繁项集,最后对强关联频繁项集进行效用度修剪得到高效用强关联频繁项集。也可以根据用户的需求对项集分别进行支持度、置信度或效用度修剪,就能够避免那些支持度不高但效用较高、或效用不高但支持度较高的项集的丢失。
在该实施例中,通过获取事务数据库中事务的项集,基于设定的用于修剪项集的阈值,修剪项集以获得高效用强关联频繁项集。即本发明通过对数据库中的数据进行支持度和置信度,可以更好地确定数据之间的潜在联系,确定数据之间的内在规律和规则;通过效用度,可以使挖掘出的关联规则更好地符合和满足实际需求和条件,增加数据挖掘的灵活性,进一步能够指导用户做出相应的技术决策。
图2为本发明数据挖掘方法的另一个实施例的流程示意图。该数据挖掘方法包括以下步骤:
在步骤210,获取事务数据库中事务的项集。
在一个实施例中,为了提高后续数据处理的速度,还可以对项集进行数字编码,减少存储空间,后续只用对计算完的少量项集进行匹配即可实现编码到项集中各项名称的解码转换。
在步骤220,计算每个项的效用。
在一个实施例中,效用可以为商品的销量、收入、利润、成本等。也可以为客户粘性、重复购买、活跃度等。
在步骤230,设定修剪项集的最小支持度阈值、最小置信度阈值和最小效用度阈值。
该步骤可以根据业务经验由人工设定,也可以根据数据分布的特点,例如分别对项集的支持度、置信度和效用度进行排序,根据统计学中分位数确定修剪项集的最小支持度阈值、最小置信度阈值和最小效用度阈值,比如以最小5%分位数作为阈值进行计算。
在步骤240,设置项集中项的数量阈值。
例如,设置k项集中k的数量为1、2、3、4。由于过长的项集在应用中不便于操作,因此可以设置项的数量,在后续操作中,对于项的数量大于数量阈值的项集,不再执行修剪项集的步骤。
在步骤250,利用传统关联规则挖掘方式计算频繁候选集,并利用支持度和置信度进行剪枝,生成强关联频繁项集。
为了减少运算时间,可以预先对数据进行剪枝,由于任一频繁项集的所有非空子集也必须是频繁的(即满足最小支持度),因此如果某个候选的非空子集不是频繁的,则该候选集肯定不是频繁的,可以直接剪枝去掉,不再进行后续计算。
在一个实施例中,可以利用Apriori算法计算频繁项集。例如,首先,找出频繁“1项集”的集合,该集合记作L1。L1用于找频繁“2项集”的集合L2,而L2用于找L3。如此下去,直到不能找到“k项集”。找每个Lk都需要一次数据库扫描。但由于在步骤240中,设置了k的数量,因此,进行数据挖掘的时间大大降低了。同理,可以应用上述算法计算项集的置信度。
在步骤260,获取强关联频繁项集中效用度大于最小效用度的项集,得到高效用强关联频繁项集。
在一个实施例中,也可以直接对项集进行效用度、支持度的计算,发现一些基于支持度关联规则无法发现的有趣模式,避免了那些支持度不高但效用较高、或效用不高但支持度较高的项集的丢失,能发现更多的用户感兴趣的规则。
此外,本发明还可以对计算出的项集进行展示,如步骤270。
在步骤270,对高效用强关联频繁项集根据支持度、置信度、效用度三个指标进行排序以满足用户不同场景的需求。
在该实施例中,通过对项集进行支持度、置信度和效用度的计算,获得高效用强关联频繁项集,输出的数据不仅考虑到支持度和置信度,还考虑到效用度,能够更好的反映用户的偏好。即通过支持度和置信度,可以更好地确定数据之间的潜在联系,确定数据之间的内在规律和规则;通过效用度,可以使挖掘出的关联规则更好地符合和满足实际需求和条件,增加数据挖掘的灵活性。
图3为本发明数据挖掘装置的一个实施例的结构示意图。该数据挖掘装置包括项集获取单元310和项集修剪单元320。其中:
项集获取单元310用于获取事务数据库中事务的项集。
将事务数据库中每个数据称作一个项,所有项的集合构成事务的项集。例如,I={I1,I2,...Ik},其中,I1,I2,...Ik为项,I为项集。
项集修剪单元320用于基于设定的用于修剪项集的阈值,修剪项集以获得高效用强关联频繁项集。
其中阈值可以包括最小支持度阈值、最小置信度阈值和最小效用度阈值,效用度为该项集的效用/总效用的比例。阈值可以由人工指定,即根据有经验的业务操作员或领域专家指定。当没有足够的业务经验来指定时,可以根据数据分布特点确定,例如,可以采用统计学上分位数的概念来指定最小阈值,比如以最小5%分位数作为阈值进行计算,以避免过多随机出现的项集干扰,产生过多平凡规则。
在一个实施例中,项集修剪单元320可以先对项集进行支持度修剪得到频繁项集,再对频繁项集进行置信度修剪得到强关联频繁项集,最后对强关联频繁项集进行效用度修剪得到高效用强关联频繁项集。也可以根据用户的需求对项集分别进行支持度、置信度或效用度修剪。
在该实施例中,通过获取事务数据库中事务的项集,基于设定的用于修剪项集的阈值,修剪项集以获得高效用强关联频繁项集。即本发明通过对数据库中的数据进行支持度和置信度,可以更好地确定数据之间的潜在联系,确定数据之间的内在规律和规则;通过效用度,可以使挖掘出的关联规则更好地符合和满足实际需求和条件,增加数据挖掘的灵活性,进一步能够指导用户做出相应的技术决策。
图4为本发明数据挖掘装置的另一个实施例的结构示意图。该数据挖掘装置包括项集获取单元410、阈值设定单元420、项集修剪单元430和项集排序单元440。其中:
项集获取单元410用于获取事务数据库中事务的项集。
阈值设定单元420用于设定修剪项集的最小支持度阈值、最小置信度阈值和最小效用度阈值。
在一个实施例中,可以先获取每个项的效用,效用可以为商品的销量、收入、利润、成本等。也可以为客户粘性、重复购买、活跃度等。
最小支持度阈值、最小置信度阈值和最小效用度阈值可以由根据业务经验由人工设定,也可以根据数据分布的特点,例如分别对项集的支持度、置信度和效用度进行排序,根据统计学中分位数确定修剪项集的最小支持度阈值、最小置信度阈值和最小效用度阈值。
阈值设定单元420还用于设置项集中项的数量阈值。
例如,设置k项集中k的数量为1、2、3、4。由于过长的项集在应用中不便于操作,因此可以设置项的数量,在后续操作中,对于项的数量大于数量阈值的项集,不再执行修剪项集的步骤。
项集修剪单元430用于利用传统关联规则挖掘方式计算频繁候选集,利用支持度和置信度进行剪枝,生成强关联频繁项集,并获取强关联频繁项集中大于最小效用度的项集,得到高效用强关联频繁项集。
为了减少运算时间,项集修剪单元430可以预先对数据进行剪枝,由于任一频繁项集的所有非空子集也必须是频繁的(即满足最小支持度),因此如果某个候选的非空子集不是频繁的,则该候选集肯定不是频繁的,可以直接剪枝去掉,不再进行后续计算。
在一个实施例中,可以利用Apriori算法计算频繁项集。例如,首先,找出频繁“1项集”的集合,该集合记作L1。L1用于找频繁“2项集”的集合L2,而L2用于找L3。如此下去,直到不能找到“k项集”。找每个Lk都需要一次数据库扫描。但由于在步骤240中,设置了k的数量,因此,进行数据挖掘的时间大大降低了。同理,可以应用上述算法计算项集的置信度。
在一个实施例中,项集修剪单元430也可以直接对项集进行效用度或支持度的计算,发现一些基于支持度关联规则无法发现的有趣模式,避免了那些支持度不高但效用较高、或效用不高但支持度较高的项集的丢失,能发现更多的用户感兴趣的规则。
项集排序单元440用于对高效用强关联频繁项集根据支持度、置信度、效用度三个指标进行排序以满足用户不同场景的需求。
在该实施例中,通过对项集进行支持度、置信度和效用度的计算,获得高效用强关联频繁项集,输出的数据不仅考虑到支持度和置信度,还考虑到效用度,能够更好的反映用户的偏好。
图5为本发明数据挖掘装置的又一个实施例的结构示意图。该数据挖掘装置包括存储器510和处理器520。其中:
存储器510可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1和图2所对应实施例中的指令。
处理器520耦接至存储器510,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器520用于执行存储器中存储的指令,进而实现获得高效用强关联频繁项集的目的。
在一个实施例中,还可以如图6所示,数据挖掘装置600包括存储器610和处理器620。处理器620可以包括处理器620a、620b…620n。处理器620a-620n通过BUS总线630耦合至存储器610。基于分布式式的数据挖掘装置,能够进行快速运算,提高了数据挖掘的运行效率。该数据挖掘装置600还可以通过存储接口640连接至外部存储装置650以便调用外部数据,还可以通过网络接口660连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,进而得到高效用强关联频繁项集,以便发现更多的用户感兴趣的规则。
该数据挖掘方法和装置可以应用到在各个领域。例如,传统关联规则只考虑了项集出现频率的重要性,在电子商务业务中,还需要考虑销量、收入、利润、成本等多方面因素进行运营,以便能更好的反映用户偏好,满足决策需求。
基于上述应用场景,在本发明的一个应用例中,可以把用户的每此购物篮购买作为一个事务;购物篮中的每一个商品作为一个项;购物篮中所有商品的集合构成事务的项集;数据格式如表1所示:
事务 | 项集 |
001 | Iphone4s,MacPro 13寸 |
002 | Thinkpad T450,蓝牙音箱,无线鼠标 |
…… | …… |
表1
计算项集中每个项的效用,也就是每个商品的销量、收入、利润、成本等。数据如表2所示。
项 | 销量(个) | 收入(元) | 利润(元) | 成本(元) |
Iphone4s | 3 | 5000 | 400 | 4600 |
MacPro 13寸 | 2 | 16000 | 2000 | 14000 |
Thinkpad T450 | 4 | 32000 | 8000 | 24000 |
蓝牙音箱 | 6 | 480 | 40 | 400 |
无线鼠标 | 8 | 640 | 60 | 580 |
…… | …… | …… | …… | …… |
表2
结合电子商务业务上的领域知识确定关联规则和效用函数的最低阈值,该接口为开放式可交互接口,可以由人工指定,一般由有经验的业务操作人员或领域专家指定;当没有足够的业务经验来指定时,可以根据数据分布特点确定,默认采取统计学上分位数的概念来指定最小阈值,比如以最小5%分位数来作为阈值进行计算,以避免过多随机出现的项集干扰,产生过多平凡规则。也就是说指定最小支持度、最小置信度和最小效用度,效用度可以包括销量、收入、利润、成本等。
然后在所有事务中找到支持度大于最小支持度的事务集合,即得到频繁项集,然后在频繁项集中获取大于最小置信度的项集得到强关联频繁项集,最后筛选出强关联频繁项集中满足最小效用度的规则,即生成高效用强关联频繁项集。
当然,还可以根据业务需要分别依次对满足最小支持度、最小置信度、最小效用度的规则进行输出,并且可以根据支持度、置信度、效用度三个指标分别进行排序,以满足不同场景需求。输出的数据例如为表3所示:
项集(规则) | 支持度 | 置信度 | 效用度 |
Mac,音箱,鼠标 | 0.2 | 0.09 | 0.03 |
Iphone6,macpro | 0.1 | 0.5 | 0.1 |
…… | …… | …… | …… |
表3
可以根据用户的不同需求设置不同的效用度。比如如果促销的目的是提升销量,可以首先对前述生成的规则用销量效用度进行排序,产生高销量强关联模式库,按照这些关联模式进行选品促销;相应地可以根据提升收入、利润或降低成本等促销目的,生成对应的高收入强关联模式、高利润强关联模式以及低成本强关联模式,并进行对应的选品促销操作。
将本方法应用到电子商务业务中,除了提供传统基于“支持度-置信度”的关联规则挖掘发现的是具有很强相关性的规则,即强关联规则外,还可以发现一些效用很高的强关联规则或模式,满足电子商务业务对销量、收入、利润、等本等多方面运营需要。
另外,还可以对效用进行扩展,通过改变效用函数还可以应用于其他高效用强关联规则的挖掘,比如客户粘性、重复购买、活跃度等。
当然,上面的应用例只是介绍了本发明技术方案的一个具体应用场景,并不是用于限定本发明的保护范围。本发明的技术方案可以用于其他领域。例如,在搜索推荐中,把商品被搜索或推荐然后购买的次数与金额作为评价搜索推荐效果受欢迎程度的尺度,将搜索推荐问题变成高效用项集的挖掘问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本发明。为了避免遮蔽本发明的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本发明的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。
Claims (13)
1.一种数据挖掘方法,其特征在于,包括:
获取事务数据库中事务的项集;
基于设定的用于修剪所述项集的阈值,修剪所述项集以获得高效用强关联频繁项集;
其中所述用于修剪所述项集的阈值包括最小支持度阈值、最小置信度阈值和最小效用度阈值。
2.根据权利要求1所述的方法,其特征在于,基于设定的用于修剪所述项集的阈值,修剪所述项集以获得高效用强关联频繁项集的步骤包括:
获取所述事务的项集中支持度大于所述最小支持度阈值的项集以获得事务的频繁项集;
确定所述频繁项集中置信度大于最小置信度阈值的项集以生成强关联频繁项集;
在所述强关联频繁项集中获取效用度大于最小效用度阈值的项集以生成高效用强关联频繁项集。
3.根据权利要求1所述的方法,其特征在于,还包括:
对所述高效用强关联频繁项集根据支持度大小进行排序;
和/或
对所述高效用强关联频繁项集根据置信度大小进行排序;
和/或
对所述高效用强关联频繁项集根据效用度大小进行排序。
4.根据权利要求1所述的方法,其特征在于,还包括:
分别对所述项集的支持度、置信度和效用度进行排序,基于分位数确定用于修剪所述项集的最小支持度阈值、最小置信度阈值和最小效用度阈值。
5.根据权利要求1-4任一所述的方法,其特征在于,还包括:
对所述项集中项的数量小于等于数量阈值的项集,执行修剪项集的步骤。
6.根据权利要求1-4任一所述的方法,其特征在于,所述效用度为所述项集的效用与所述事务总效用的比值。
7.一种数据挖掘装置,其特征在于,包括:
项集获取单元,用于获取事务数据库中事务的项集;
项集修剪单元,用于基于设定的用于修剪所述项集的阈值,修剪所述项集以获得高效用强关联频繁项集;
其中所述用于修剪所述项集的阈值包括最小支持度阈值、最小置信度阈值和最小效用度阈值。
8.根据权利要求7所述的装置,其特征在于,
所述项集修剪单元用于获取所述事务的项集中支持度大于所述最小支持度阈值的项集以获得事务的频繁项集;确定所述频繁项集中置信度大于最小置信度阈值的项集以生成强关联频繁项集;在所述强关联频繁项集中获取效用度大于最小效用度阈值的项集以生成高效用强关联频繁项集。
9.根据权利要求7所述的装置,其特征在于,还包括:
项集排序单元,用于对所述高效用强关联频繁项集根据支持度大小进行排序;和/或对所述高效用强关联频繁项集根据置信度大小进行排序;和/或对所述高效用强关联频繁项集根据效用度大小进行排序。
10.根据权利要求7所述的装置,其特征在于,还包括:
阈值设定单元,用于分别对所述项集的支持度、置信度和效用度进行排序,基于分位数确定用于修剪所述项集的最小支持度阈值、最小置信度阈值和最小效用度阈值。
11.根据权利要求10所述的装置,其特征在于,
所述阈值设定单元还用于设置所述项集中项的数量阈值。
12.根据权利要求7-11任一所述的装置,其特征在于,所述效用度为所述项集的效用与所述事务总效用的比值。
13.一种数据挖掘装置,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610324425.7A CN105975608A (zh) | 2016-05-17 | 2016-05-17 | 一种数据挖掘方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610324425.7A CN105975608A (zh) | 2016-05-17 | 2016-05-17 | 一种数据挖掘方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105975608A true CN105975608A (zh) | 2016-09-28 |
Family
ID=56955855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610324425.7A Pending CN105975608A (zh) | 2016-05-17 | 2016-05-17 | 一种数据挖掘方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105975608A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107507028A (zh) * | 2017-08-16 | 2017-12-22 | 北京京东尚科信息技术有限公司 | 用户偏好确定方法、装置、设备及存储介质 |
CN107864050A (zh) * | 2017-10-20 | 2018-03-30 | 国家电网公司 | 基于格结构的服务器故障高效关联规则分析方法 |
CN108091398A (zh) * | 2016-11-21 | 2018-05-29 | 医渡云(北京)技术有限公司 | 患者分组方法及装置 |
CN111199022A (zh) * | 2019-12-31 | 2020-05-26 | 北京月新时代科技股份有限公司 | 一种许可管理方法、装置、电子设备及存储介质 |
CN111209511A (zh) * | 2019-12-31 | 2020-05-29 | 航天信息股份有限公司 | 一种基于数据关联关系进行推送信息的方法及系统 |
CN111475707A (zh) * | 2019-01-23 | 2020-07-31 | 北京京东尚科信息技术有限公司 | 规则挖掘方法和装置及存储介质 |
CN112261654A (zh) * | 2020-09-23 | 2021-01-22 | 中国地质大学(武汉) | 一种用于电信反欺诈中生成手机号白名单的方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0735497A2 (en) * | 1995-03-31 | 1996-10-02 | International Business Machines Corporation | System and method for quickly mining association rules in databases |
-
2016
- 2016-05-17 CN CN201610324425.7A patent/CN105975608A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0735497A2 (en) * | 1995-03-31 | 1996-10-02 | International Business Machines Corporation | System and method for quickly mining association rules in databases |
Non-Patent Citations (5)
Title |
---|
刘健勤等: "《面向智能体的视觉信息处理》", 30 April 2000, 科学出版社 * |
宋志群等: "《认知无线电技术及其应用》", 30 September 2012, 国防工业出版社 * |
李慧等: "频繁和高效用项集挖掘", 《计算机科学》 * |
祝孔涛等: "高效用项集挖掘算法", 《计算机工程与设计》 * |
陈正权等: "关联规则Apriori算法的改进", 《江南大学学报(自然科学版)》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108091398A (zh) * | 2016-11-21 | 2018-05-29 | 医渡云(北京)技术有限公司 | 患者分组方法及装置 |
CN107507028A (zh) * | 2017-08-16 | 2017-12-22 | 北京京东尚科信息技术有限公司 | 用户偏好确定方法、装置、设备及存储介质 |
CN107864050A (zh) * | 2017-10-20 | 2018-03-30 | 国家电网公司 | 基于格结构的服务器故障高效关联规则分析方法 |
CN111475707A (zh) * | 2019-01-23 | 2020-07-31 | 北京京东尚科信息技术有限公司 | 规则挖掘方法和装置及存储介质 |
CN111199022A (zh) * | 2019-12-31 | 2020-05-26 | 北京月新时代科技股份有限公司 | 一种许可管理方法、装置、电子设备及存储介质 |
CN111209511A (zh) * | 2019-12-31 | 2020-05-29 | 航天信息股份有限公司 | 一种基于数据关联关系进行推送信息的方法及系统 |
CN111199022B (zh) * | 2019-12-31 | 2022-05-03 | 北京月新时代科技股份有限公司 | 一种许可管理方法、装置、电子设备及存储介质 |
CN111209511B (zh) * | 2019-12-31 | 2023-06-09 | 航天信息股份有限公司 | 一种基于数据关联关系进行推送信息的方法及系统 |
CN112261654A (zh) * | 2020-09-23 | 2021-01-22 | 中国地质大学(武汉) | 一种用于电信反欺诈中生成手机号白名单的方法及系统 |
CN112261654B (zh) * | 2020-09-23 | 2021-08-03 | 中国地质大学(武汉) | 一种用于电信反欺诈中生成手机号白名单的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105975608A (zh) | 一种数据挖掘方法和装置 | |
US9361343B2 (en) | Method for parallel mining of temporal relations in large event file | |
CN108629665A (zh) | 一种个性化商品推荐方法和系统 | |
CN110322300B (zh) | 数据处理方法及装置、电子设备、存储介质 | |
JP6158623B2 (ja) | データベース分析装置及び方法 | |
CN105224606A (zh) | 一种用户标识的处理方法及装置 | |
CN106326219A (zh) | 核对业务系统数据的方法、装置及系统 | |
CN107743249A (zh) | 一种基于模型融合的ctr预估方法 | |
CN107507028A (zh) | 用户偏好确定方法、装置、设备及存储介质 | |
US20190303266A1 (en) | String transformation based trace classification and analysis | |
CN106202088A (zh) | 一种匹配业务场景的方法和系统 | |
CN110543603B (zh) | 基于用户行为的协同过滤推荐方法、装置、设备和介质 | |
CN109284450B (zh) | 订单成单路径的确定方法及装置、存储介质、电子设备 | |
CN110858219A (zh) | 物流对象信息处理方法、装置及计算机系统 | |
CN114691664B (zh) | 基于ai预测的智慧场景大数据清洗方法及智慧场景系统 | |
CN111178902B (zh) | 基于自动化特征工程的网络支付欺诈检测方法 | |
CN106874394A (zh) | 一种文件打包预处理的方法与设备 | |
CN106339496A (zh) | 用于对照片进行清理的方法和装置 | |
De Carvalho et al. | A breadth-first search applied to the minimization of the open stacks | |
CN106991191B (zh) | 商品筛选方法及装置、存储介质、电子设备 | |
WO2013157603A1 (ja) | 検索クエリ分析装置、検索クエリ分析方法、及びコンピュータ読み取り可能な記録媒体 | |
CN110347570A (zh) | 一种ide环境下代码自动生成工具分析方法 | |
CN111858927B (zh) | 数据测试方法、装置、电子设备及存储介质 | |
CN109558528A (zh) | 文章推送方法、装置、计算机可读存储介质和服务器 | |
CN109754295A (zh) | 用于输出信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160928 |