CN109062915B - 一种文本数据集正负关联规则挖掘方法及装置 - Google Patents

一种文本数据集正负关联规则挖掘方法及装置 Download PDF

Info

Publication number
CN109062915B
CN109062915B CN201810292478.4A CN201810292478A CN109062915B CN 109062915 B CN109062915 B CN 109062915B CN 201810292478 A CN201810292478 A CN 201810292478A CN 109062915 B CN109062915 B CN 109062915B
Authority
CN
China
Prior art keywords
frequent item
frequent
support
text data
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810292478.4A
Other languages
English (en)
Other versions
CN109062915A (zh
Inventor
阮梦黎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Management University
Original Assignee
Shandong Management University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Management University filed Critical Shandong Management University
Priority to CN201810292478.4A priority Critical patent/CN109062915B/zh
Publication of CN109062915A publication Critical patent/CN109062915A/zh
Application granted granted Critical
Publication of CN109062915B publication Critical patent/CN109062915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种文本数据集正负关联规则挖掘方法及装置,该方法包括:接收文本数据集,根据逆文档频率对文本数据集中的项集加权,得到精简文本数据集;根据预设的频繁项集支持度阈值和非频繁项集支持度阈值提取精简文本数据集中的频繁项集和非频繁项集;分别从频繁项集和非频繁项集中挖掘正关联规则和负关联规则。本发明基于双阈值Apriori算法和非频繁项集,创新性的利用了非频繁项集来挖掘正负关联规则,能够有效挖掘出正负关联规则,且能够大大降低项集和规则数量。

Description

一种文本数据集正负关联规则挖掘方法及装置
技术领域
本发明属于文本数据关联规则挖掘的技术领域,涉及一种文本数据集正负关联规则挖掘方法及装置,尤其是涉及一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法及装置。
背景技术
关联规则挖掘是数据挖掘的一个分支,已广泛应用于众多领域中,例如:市场分析、入侵检测、诊断决策以及电信领域。然而,如何有效地挖掘事物之间的关系已经成为数据挖掘中的一个主要研究方向。
对于文本数据集正负关联规则挖掘的方法,经典的有Apriori算法和 FP-growth算法。同时也形成多种改进方法,例如,一种基于改进型Apriori算法的正负关联规则挖掘方法(Q-Apriori)中采用矩阵结构来执行连接操作并存储项集,以此提高遍历速度。但是,这些算法没有考虑到项目的重要性,导致产生大量的无效关联规则。为此,现有的正负关联规则挖掘的方法开始对初始项集进行了加权,构建一种用来挖掘正负关联规则的方法(ACPIRCI),其利用项权值和项集剪枝技术来挖掘正负关联规则,一定程度上降低了候选项集数量和挖掘时间。
然而,现有文本数据集正负关联规则挖掘的方法存在如下问题:
在传统关联规则挖掘算法中,通常是提取出频繁出现的项集,即在事务语料库中出现的高频特征。因此,许多可以提供重要信息的非频繁项集将会被算法忽略。这些项集尽管具有较低的支持度,但他们仍能提供潜在的高置信度的重要负关联规则,而这些负关联规则有时不能通过频繁项集进行观测。因此,对于建立一个可信的决策支持系统来说,发掘潜在的负关联规则是十分重要的。
频繁项集传统上被用于产生正关联规则,然而,繁项集中的部分项集也可能是负相关的,因此可以挖掘出负关联规则。另一方面,非频繁项集常常被忽略,或者仅仅用于生成负关联规则。然而,非频繁项集中常常具有潜在有效且重要的正相关规则,甚至具有高置信度和强正相关的项集间关系。
综上所述,现有技术中如何在文本数据集的正负关联规则挖掘中有效地同时产生正负关联规则的问题,尚缺乏行之有效的解决方案。
发明内容
针对现有技术中存在的不足,解决现有技术中如何在文本数据集的正负关联规则挖掘中有效地同时产生正负关联规则的问题,本发明提出了一种文本数据集正负关联规则挖掘方法及装置,具体为一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法及装置,不仅可以捕捉频繁项集之间的负相关关系,还能够提取非频繁项集之间的正相关关系,且能够大大降低项集和规则数量。
本发明的第一目的是提供一种基于双阈值Apriori算法和非频繁项集的文本数据集关联规则挖掘方法。
为了实现上述目的,本发明采用如下一种技术方案:
一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法,该方法包括:
接收文本数据集,根据逆文档频率对文本数据集中的项集加权,得到精简文本数据集;
根据预设的频繁项集支持度阈值和非频繁项集支持度阈值提取精简文本数据集中的频繁项集和非频繁项集;
分别从频繁项集和非频繁项集中挖掘正关联规则和负关联规则。
作为进一步的优选方案,在本方法中,根据需要设置可调整的预设参数N,采用逆文档频率IDF对文本数据集中的项集加权,提取IDF值前N%的项集,得到精简文本数据集。
作为进一步的优选方案,在本方法中,根据预设的频繁项集支持度阈值和非频繁项集支持度阈值提取精简文本数据集中的频繁项集和非频繁项集的具体方法为:
预设频繁项集支持度阈值和非频繁项集支持度阈值;
分别判断精简文本数据集中的项集支持度与预设的频繁项集支持度阈值和非频繁项集支持度阈值的大小关系,提取精简文本数据集中的频繁项集和非频繁项集,直至遍历精简文本数据集中的所有项集。
作为进一步的优选方案,在本方法中,当精简文本数据集中的项集支持度不小于频繁项集支持度阈值,提取该项集为频繁项集。
作为进一步的优选方案,在本方法中,当精简文本数据集中的项集支持度小于频繁项集支持度阈值且该项集支持度不小于非频繁项集支持度阈值,提取该项集为非频繁项集。
作为进一步的优选方案,在本方法中,正关联规则的形式为
Figure RE-GDA0001838288510000031
负关联规则的形式包括
Figure RE-GDA0001838288510000032
Figure RE-GDA0001838288510000033
其中,A和B是精简文本数据集中的项集,
Figure RE-GDA0001838288510000034
Figure RE-GDA0001838288510000035
I为精简文本数据集中项集组成的集合。
作为进一步的优选方案,在本方法中,当精简文本数据集中的两两项集的并集的支持度不小于预设的频繁项集支持度阈值时,表示频繁项集中两两项集的关联规则;
从频繁项集中挖掘正关联规则和负关联规则的具体方法包括:
A、B为频繁项集,判断形式为
Figure RE-GDA0001838288510000036
的置信度是否不小于预设的置信度阈值且提升度大于1;
如果是,则挖掘出频繁项集中的有效正关联规则,否则判断形式为
Figure RE-GDA0001838288510000037
Figure RE-GDA0001838288510000038
的置信度是否不小于预设的置信度阈值且提升度大于1;
如果是,则挖掘出频繁项集中的有效负关联规则,否则结束。
作为进一步的优选方案,在本方法中,当精简文本数据集中的两两项集的并集的支持度小于预设的频繁项集支持度阈值且不等于0,精简文本数据集中的两两项集的支持度分别不小于繁项集支持度阈值时,表示非频繁项集中两两项集的关联规则;
从非频繁项集中挖掘正关联规则和负关联规则的具体方法包括:
A、B为非频繁项集,判断形式为
Figure RE-GDA0001838288510000039
的置信度是否不小于预设的置信度阈值且提升度大于1;
如果是,则挖掘出频繁项集中的有效正关联规则,否则判断形式为
Figure RE-GDA00018382885100000310
Figure RE-GDA00018382885100000311
的置信度是否不小于预设的置信度阈值且提升度大于1;
如果是,则挖掘出频繁项集中的有效负关联规则,否则结束。
本发明的第二目的是提供一种计算机可读存储介质。
为了实现上述目的,本发明采用如下一种技术方案:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行以下处理:
接收文本数据集,根据逆文档频率对文本数据集中的项集加权,得到精简文本数据集;
根据预设的频繁项集支持度阈值和非频繁项集支持度阈值提取精简文本数据集中的频繁项集和非频繁项集;
分别从频繁项集和非频繁项集中挖掘正关联规则和负关联规则。
本发明的第三目的是提供一种终端设备。
为了实现上述目的,本发明采用如下一种技术方案:
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行以下处理:
接收文本数据集,根据逆文档频率对文本数据集中的项集加权,得到精简文本数据集;
根据预设的频繁项集支持度阈值和非频繁项集支持度阈值提取精简文本数据集中的频繁项集和非频繁项集;
分别从频繁项集和非频繁项集中挖掘正关联规则和负关联规则。
本发明的有益效果:
1、本发明所述的一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法及装置,通过逆文档频率(IDF)对文本数据集中的项(项集) 进行加权,根据需要设置可调整的预设参数N,筛选出前N%的项集,有效避免了较低的阈值可能会使IDF的作用失效,而较大的值可能会导致丢失文本数据集的重要项集的问题。
2、本发明所述的一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法及装置,通过提出的双支持度阈值Apriori算法来提取频繁项集和非频繁项集,以此降低非频繁项集的数量。
3、本发明所述的一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法及装置,通过置信度和升降度阈值的判断,分别从频繁项集和非频繁项集中挖掘正负关联规则,创新性的利用了非频繁项集来挖掘正负关联规则,能够有效挖掘出正负关联规则,且能够大大降低项集和规则数量。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是本发明的方法流程图;
图2是本实施例4的在不同mins-FIS下得到的项集数量示意图。
具体实施方式:
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合下面结合附图与实施例对本发明作进一步说明。
实施例1:
本实施例1的目的是提供一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法。
为了实现上述目的,本发明采用如下一种技术方案:
如图1所示,
一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法,该方法包括:
步骤(1):接收文本数据集,根据逆文档频率对文本数据集中的项集加权,得到精简文本数据集;
步骤(2):根据预设的频繁项集支持度阈值和非频繁项集支持度阈值提取精简文本数据集中的频繁项集和非频繁项集;
步骤(3):分别从频繁项集和非频繁项集中挖掘正关联规则和负关联规则。
在本实施例中,考虑I={i1,i2,...,iN}是一个由N个不连续的项集(项集) 组成的集合。文本数据集D是一个事务的语料库,这些事务包括文档、论坛文本等。每个事务T是一个项集,因此,T是I的一个子集。每个事务都有一个独一无二的标识符TID。令A和B是项集,关联规则的形式为
Figure RE-GDA0001838288510000061
其中
Figure RE-GDA0001838288510000062
Figure RE-GDA0001838288510000063
A称作规则的前项,B为规则后项。有多种度量用于衡量
Figure RE-GDA0001838288510000064
关联规则的显著性和质量。在本文的方法中,采用了其中三种:
a)支持度,它表示了语料库D中同时包含A和B的事务的百分比,表示为
Figure RE-GDA0001838288510000065
b)置信度,它表示了语料库D中在包含A的前提下还包含B的事务的概率,用条件概率P(B|A)表示为
Figure RE-GDA0001838288510000071
c)提升度,它表示了关联规则的前后项之间的关系方向,表示为
Figure RE-GDA0001838288510000072
在所有支持度大于用户定义的最小支持度值(minsupp)的规则中,将置信度大于用户定义的最小置信度(minconf)的规则称作有效关联规则。提升度(lift) 描述了关联的正负相关性。提升度大于1表面项集间具有正相关性;小于1则表示具有负相关性;等于1,则说明项集之间是独立的。
在本实施例的步骤(1)中,根据需要设置可调整的预设参数N,采用逆文档频率(IDF)对文本数据集中的项集加权,提取IDF值前N%的项集,得到精简文本数据集。
基于IDF的项集加权:
由于文本数据集中存在着大量的很少出现的项集。为了降低大量项集对后续关联规则挖掘造成困难,如很难为最小支持度设置一个合适阈值。本实施例首先通过IDF对语料库中的项集进行加权,过滤掉一些非重要项集。
文本数据集文本文档中项集的权重对于提取关联规则非常重要。因此,需要采用一些权重分配机制。在本实施例中,使用了IDF进行权重分配,用来表示一个项集在语料库中的重要性。在基于IDF值的特征选择中,IDF值的阈值会直接影响结果。较低的阈值可能会使IDF的作用失效,而较大的值可能会导致丢失文本数据集的重要项集。为此,本实施例提出了一个可以按需调整的参数N,用于提取IDF值前N%的项集。
通过一些实验结果分析,当设定N%为60%时效果较好。
IDF加权方案基于文本数据集中项集出现的频率对项集进行加权。如果一个项集在文档中与主题具有紧密联系,那么它出现的次数将会较多,即会有一个较高的权值。其表达式为:
IDFt=log(D/dft) (4)
式中,t表示项集,dft表示当前项集所在的文档,D表示文档语料库。
在本实施例的步骤(2)中,根据预设的频繁项集支持度阈值和非频繁项集支持度阈值提取精简文本数据集中的频繁项集和非频繁项集的具体方法为:
步骤(2-1):预设频繁项集支持度阈值和非频繁项集支持度阈值;
步骤(2-2):分别判断精简文本数据集中的项集支持度与预设的频繁项集支持度阈值和非频繁项集支持度阈值的大小关系,提取精简文本数据集中的频繁项集和非频繁项集,直至遍历精简文本数据集中的所有项集。
从文本数据集中提取的项集(无论是频繁还是非频繁项集)数量都十分巨大,但是其中只有很少的一部分可以用于生成感兴趣的关联规则。因此,选择这些有用的信息具有重要意义。项集的支持度是一个与语料库规模有关的度量。假定一个在100个事务中项集X的支持度为0.4,这就意味着40%的事务包含这个项集X。因此,支持度是项集的一种相对度量,不能仅仅依靠支持度来选择重要的项集。
在传统Apriori关联规则挖掘中,频繁和非频繁项集是通过将项集支持度与一个阈值进行比较来提取的,从而会产生大量的非频繁项集。但由于其不考虑从非频繁项集中挖掘相关规则,所以没有对此进行降维。
在本实施例中,需要从非频繁项集中挖掘正关联规则,则需要对非频繁项集进行过滤。现实中,非频繁项集可看作是频繁项集的补集,且形式规则有
Figure RE-GDA0001838288510000081
Figure RE-GDA0001838288510000082
三种。但是,由于非频繁项集太大,且一些规则并不是感兴趣的,因此不能利用单一最小支持度来提取频繁项,然后将剩余的作为非频繁项。为此,本发明提出了一种双支持度阈值的频繁、非频繁项集提取方法。通过增加一个非频繁项集支持度阈值来提取非频繁项集,以此降低其维度,通过两个不同的支持度来获得频繁和非频繁项集,以此来过滤掉一些不是很感兴趣的非频繁项。
在本实施例的步骤(2-1)中,当对于数据项集I={i1,i2,...,iN},对于任意 k-项集A,设定两个最小支持度,分别为频繁项集最小支持度(记作mins-FIS) 和非频繁项集最小支持度(记作mins-inFIS),其中mins-FIS>mins-inFIS>0。
在本实施例的步骤(2-2)中,当精简文本数据集中的项集支持度不小于频繁项集支持度阈值,提取该项集为频繁项集。
(1)如果supp(A)≥mins-FIS,那么A是频繁项集;
在本实施例的步骤(2-2)中,当精简文本数据集中的项集支持度小于频繁项集支持度阈值且该项集支持度不小于非频繁项集支持度阈值,提取该项集为非频繁项集。
(2)如果supp(A)<mins-FIS且supp(A)≥mins-inFIS,那么A为非频繁项集。
本发明提出的双支持度Apriori频繁项集挖掘方法中,是在给定的语料库D中生成所有的频繁或非频繁项集,其中FIS表示感兴趣的频繁项集,而inFIS表示感兴趣的非频繁项集。提出算法的伪代码如算法1所示。
算法1双支持度Apriori频繁项集挖掘算法
Figure RE-GDA0001838288510000091
Figure RE-GDA0001838288510000101
对算法1的具体步骤说明如下:
第1步执行了初始化操作;
第2步产生了包含所有项集的大小为1的子集tem1p;
第3步提取了所有的大小为1的频繁项集;
第4步提取了所有大小为1的非频繁项集,这些项集都来源于D。
第5-20步通过k循环,产生k≥2时的FISk和inFISk,其中,FISk表示在第k次循环中所有支持度值大于用户定义FIS最小阈值min-s FIS的频繁k-项集。而inFISk则表示所有支持度值小于FIS阈值min-s FIS且大于inFIS阈值min-s inFI的S非频繁k-项集。当所有可能的临时项集都被测试过后,也就是说
Figure RE-GDA0001838288510000102
时,循环结束。其中,第7步生成了D 中所有的候选k-项集Ck,所有Ck中的子集都由tempk-1中的两个频繁项集子集生成。第8-14步循环判断了Ck中的子集是否在D中。其中,第9步计算了Ck中每个项集子集的支持度值,并通过第10步将得到的项集放置在一个临时数据结构中。接下来,可以根据步骤16和17 分别生成FISk和inFISk。FISk是tempk中所有的频繁项集子集,inFISk是 tempk中所有的非频繁项集子集。在步骤18和19中,FISk和inFISk分别被加入到FIS和inFIS中形成最终集合。第20步循环增加了项集的尺寸k。
第21步分别返回了频繁项集FIS和非频繁项集inFIS。
在本实施例中,在本文研究中,除了研究正关联规则,还拓展引入了下面三种负关联规则:
Figure RE-GDA0001838288510000111
Figure RE-GDA0001838288510000112
正关联规则的形式为
Figure RE-GDA0001838288510000113
负关联规则的形式包括
Figure RE-GDA0001838288510000114
Figure RE-GDA0001838288510000115
其中,A 和B是精简文本数据集中的项集,
Figure RE-GDA0001838288510000116
Figure RE-GDA0001838288510000117
I为精简文本数据集中项集组成的集合。
在本实施例中,令A∪B是一个非频繁项集,从中挖掘
Figure RE-GDA0001838288510000118
Figure RE-GDA0001838288510000119
三种形式的负关联规则是一个困难的任务。一个语料库D的非频繁项集大小是指数级的,因此,负关联规则挖掘时的搜索空间远比正关联规则大得多。
对于频繁项集,给定最小支持度值(mins-FIS)和最小置信度(minconf),由于它们的子项可能是负相关的,从而可以引导发现负关联规则。与此类似,非频繁项集中也可能具有很强的正相关子项,从而可以帮助发现正关联规则。
在本实施例的步骤(3)中,当精简文本数据集中的两两项集的并集的支持度不小于预设的频繁项集支持度阈值时,表示频繁项集中两两项集的关联规则;
从频繁项集中挖掘正关联规则和负关联规则的具体方法包括:
A、B为频繁项集,判断形式为
Figure RE-GDA00018382885100001110
的置信度是否不小于预设的置信度阈值且提升度大于1;
如果是,则挖掘出频繁项集中的有效正关联规则,否则判断形式为
Figure RE-GDA00018382885100001111
Figure RE-GDA00018382885100001112
的置信度是否不小于预设的置信度阈值且提升度大于1;
如果是,则挖掘出频繁项集中的有效负关联规则,否则结束。
本实施例考虑
Figure RE-GDA00018382885100001113
形式的正关联规则和
Figure RE-GDA00018382885100001114
以及
Figure RE-GDA0001838288510000121
形式的负关联规则。supp(A∪B)≥mins-FIS说明关联规则描述了一个频繁项集中项集与项集之间的关系,而supp(A∪B)<mins-FIS说明关联规则描述了非频繁项集中项集与项集之间的关系。因此,项集中的子项需要频繁地对条件supp(A)≥mins-FIS和supp(B)≥mins-FIS进行比较。另一个度量是提升度 lift,其大于1表明项集之间存在明显的正相关关系,小于1则说明项集之间存在负相关关系。
在频繁项集生成负关联规则的过程如算法2所示。其中,形式为
Figure RE-GDA0001838288510000122
的规则如果满足置信度大于等于用户定义阈值
Figure RE-GDA0001838288510000123
且提升度大于
Figure RE-GDA0001838288510000124
那么规则就被认为是有效的正关联规则;如果置信度大于用户定义阈值且提升度小于1,那么这些规则不是正关联规则。此时,可尝试判断
Figure RE-GDA0001838288510000125
等形式的负关联规则是否满足置信度大于等于阈值且提升度大于1,如果是,则该规则为一个有效的负关联规则。
算法2通过频繁项集生成正负关联规则
Figure RE-GDA0001838288510000126
Figure RE-GDA0001838288510000131
在本实施例的步骤(3)中,当精简文本数据集中的两两项集的并集的支持度小于预设的频繁项集支持度阈值且不等于0,精简文本数据集中的两两项集的支持度分别不小于繁项集支持度阈值时,表示非频繁项集中两两项集的关联规则;
从非频繁项集中挖掘正关联规则和负关联规则的具体方法包括:
A、B为非频繁项集,判断形式为
Figure RE-GDA0001838288510000132
的置信度是否不小于预设的置信度阈值且提升度大于1;
如果是,则挖掘出频繁项集中的有效正关联规则,否则判断形式为
Figure RE-GDA0001838288510000133
Figure RE-GDA0001838288510000134
的置信度是否不小于预设的置信度阈值且提升度大于1;
如果是,则挖掘出频繁项集中的有效负关联规则,否则结束。
本实施例除了通过频繁项集生成关联规则外,还利用了非频繁项集,算法 3描述了通过非频繁项集生成正负关联规则的过程,其基本过程与算法2类似。
算法3通过非频繁项集生成正负关联规则
Figure RE-GDA0001838288510000135
实施例2:
本实施例2的目的是提供一种计算机可读存储介质。
为了实现上述目的,本发明采用如下一种技术方案:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备设备的处理器加载并执行以下处理:
步骤(1):接收文本数据集,根据逆文档频率对文本数据集中的项集加权,得到精简文本数据集;
步骤(2):根据预设的频繁项集支持度阈值和非频繁项集支持度阈值提取精简文本数据集中的频繁项集和非频繁项集;
步骤(3):分别从频繁项集和非频繁项集中挖掘正关联规则和负关联规则。
实施例3:
本实施例3的目的是提供一种终端设备。
为了实现上述目的,本发明采用如下一种技术方案:
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行以下处理:
步骤(1):接收文本数据集,根据逆文档频率对文本数据集中的项集加权,得到精简文本数据集;
步骤(2):根据预设的频繁项集支持度阈值和非频繁项集支持度阈值提取精简文本数据集中的频繁项集和非频繁项集;
步骤(3):分别从频繁项集和非频繁项集中挖掘正关联规则和负关联规则。
这些计算机可执行指令在设备中运行时使得该设备执行根据本公开中的各个实施例所描述的方法或过程。
在本实施例中,计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构 (ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开内容的各个方面。
应当注意,尽管在上文的详细描述中提及了设备的若干模块或子模块,但是这种划分仅仅是示例性而非强制性的。实际上,根据本公开的实施例,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
实施例4:
本实施例4的目的是通过对比例验证实施例1中的方法。
本实施例中使用一个医学论坛中的的文本数据集进行实验,其内容主要包含患者提供的病情描述和经验。文本数据集中事务总数为1926个,每个事务的平均单词数量为145个,最短的包含79个单词,最长的包含376个单词。在论坛和其他网络讨论平台上讨论健康的人数增长十分迅速。这些数据可能对决策支持和病情分析十分有用。在论坛上,人们通常会叙述他们的个人经历,提供接近准确和完整的症状问题,以及他们所接受的治疗方案。在本文中,将利用提出的规则挖掘技术,识别以用药信息、症状以及诊断结果为项目的正负关联规则。这对于构建医疗保健部门的决策支持系统非常有用。
文本集在实验之前进行了一些预处理操作,主要包括停止词删除、词干提取、词形还原以及非医学词语删除等。本实施例使用IDF方案对预处理后的项集进行加权,仅选择出文本数据集中重要且相关的项集。在执行预处理后,总单词数量从280254个降低到192738个,选择出的前top-60%个最大的IDF单词数量为81733个。
实施例1的方法中,在提取频繁和非频繁项集时,为了降低非频繁项集的数量,使用了2个支持度阈值,即mins-FIS和mins-inFIS。在从频繁和非频繁项集中挖掘正负关联规则使只使用一个阈值,即mins-FIS。通过一些实验,当设定mins-inFIS=mins-FIS-0.1时,能够有效过滤掉一些不感兴趣的非频繁项集,且不影响从非频繁项集中提取正关联规则的质量。为此,在下文实验中都将这样设定mins-inFIS。
提取频繁和非频繁项集
首先,在加权选择处理后获得项集中,执行本文提出的Apriori双阈值频繁和非频繁项集提取方法。图2给出了在不同的mins-FIS值下,单支持度阈值 (mins-inFIS=mins-FIS)和双支持度阈值(mins-inFIS=mins-FIS-0.05)Apriori提取方法所生成的项集数量。
可以看出,随着mins-FIS值的逐渐增加,频繁项集的数量逐渐减小,但是非频繁项集的数量急剧增加。这是因为mins-FIS的增加导致项集成为频繁项集的概率降低。另外还可以看出,传统Apriori提取的非频繁项集数量远大于频繁项集。而通过实施例1的双阈值Apriori策略,能够有效过滤一些无用的非频繁项集,大约过滤掉了原非频繁项集数量的30%,以此可大大降低后续提取正关联规则的计算量。
挖掘正负关联规则
在获得频繁和非频繁项集后,需要分别从中提取出正负关联规则。对于项集之间的正关联规则,提升度lift必须大于1;对于提升度lift小于1的正规则,则判断其对应的负规则的提升度lift是否大于1,以此来提取负关联规则。表1 和表2给出了不同最小支持度值mins-FIS和最小置信度minconf下,获得的正关联规则(PAR)和负关联规则(NAR)数量。
表1在不同支持度值下产生的正负关联规则数量(置信度=0.9)
Figure RE-GDA0001838288510000171
表2在不同置信度下产生的正负关联规则数量(支持度=0.15)
Figure RE-GDA0001838288510000172
可以看出,所产生的负关联规则数量要远超过正关联规则的数量,这是因为非频繁项集比频繁项集数量多,而且从频繁项集中也可以找到负关联规则。相比于传统Apriori算法,所得到的正负关联规则数量有明显减少,这是因为实施例1的方法采用了IDF项集加权和双支持度阈值频繁、非频繁项集提取。
另外,通过Apriori算法产生的频繁项集具有固有属性,因此它们的子集也是频繁的。但对于非频繁项集,并不能保证他们的子集也是非频繁的。因此,当使用非频繁项集生成关联规则时,需要额外检查它们的子集是否是频繁或非频繁项集。而实施例1所提出的算法不仅可以从频繁项集提取正负关联规则,还可以从非频繁项集中提取正负规则。
鉴别症状和疾病之间的关联在诊断中十分重要。疾病、症状和实验检查结果之间的正负关联可以帮助医务人员了解是否存在可能的疾病。其中,负关联规则挖掘的应用在这方面具有巨大潜力。类似于“流感→头痛”的正关联可以帮助人们了解头疼可能是正在遭受流感。与之相反,类似于“~搏动性头痛→~偏头痛”的负关联规则可以说明,如果一个人的头痛不是搏动性头痛,那么就有很大的置信度可以认为其患的不是偏头痛。为此,本实施例在一个医学文本集中进行关联规则挖掘。
为了验证实施例1方法挖掘出的规则的有效性,表3列举了一些本文方法挖掘出的关联规则,这里为了简单起见,只给出了
Figure RE-GDA0001838288510000181
形式的正关联规则和
Figure RE-GDA0001838288510000182
形式的负关联规则。可以看出,所挖掘出的规则都符合事实,这证明了本文方法的有效性。
表3从频繁术或者非频繁项集生成正负关联规则
Figure RE-GDA0001838288510000183
Figure RE-GDA0001838288510000191
性能比较:
将实施例1中的方法与两种提取正负关联规则的方法进行比较。
对比例1:一种基于改进型Apriori算法的正负关联规则挖掘方法(Q-Apriori)。Liu Y,Lou Y S.Research and Application of Improved Apriori Algorithm Based onMatrix[J].Applied Mechanics&Materials,2014,66(8):1102-1105。
对比例2:一种加权正负关联规则挖掘算法(ACPIRCI)。周秀梅,黄名选.基于SCPIRCI框架的完全加权正负关联规则挖掘[J].电子学报, 2015,43(8):1545-1553。
其中设定最小支持度值mins-FIS=0.15,最小置信度minconf=0.9。表4给出了各种方法获得的正关联规则
Figure RE-GDA0001838288510000192
和负关联规则
Figure RE-GDA0001838288510000193
Figure RE-GDA0001838288510000194
的数量以及挖掘时间。可以看出,实施例1的方法挖掘的各种正负关联规则的数量最少,且消耗的计算时间也最低。这是因为实施例1融入了IDF 文本项(项集)加权和双支持度阈值的非频繁项集提取,有效过滤了一些无用项集。以此使产生的关联规则数量减少,降低了规则挖掘的计算量。另外,由于 Q-Apriori没有加权操作,所以挖掘出的规则数量最多,且消耗的时间最长。而 ACPIRCI方法通过加权机制一定程度上减少了规则数量和挖掘时间。
表4各种方法获得的正负关联规则数量及挖掘时间
Figure RE-GDA0001838288510000195
本发明的有益效果:
1、本发明所述的一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法及装置,通过逆文档频率(IDF)对文本数据集中的项(项集) 进行加权,根据需要设置可调整的预设参数N,筛选出前N%的项集,有效避免了较低的阈值可能会使IDF的作用失效,而较大的值可能会导致丢失文本数据集的重要项集的问题。
2、本发明所述的一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法及装置,通过提出的双支持度阈值Apriori算法来提取频繁项集和非频繁项集,以此降低非频繁项集的数量。
3、本发明所述的一种基于双阈值Apriori算法和非频繁项集的文本数据集正负关联规则挖掘方法及装置,通过置信度和升降度阈值的判断,分别从频繁项集和非频繁项集中挖掘正负关联规则,创新性的利用了非频繁项集来挖掘正负关联规则,能够有效挖掘出正负关联规则,且能够大大降低项集和规则数量。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种文本数据集正负关联规则挖掘方法,其特征在于,该方法包括:
接收文本数据集,根据逆文档频率对文本数据集中的项集加权,得到精简文本数据集;
根据预设的频繁项集支持度阈值和非频繁项集支持度阈值提取精简文本数据集中的频繁项集和非频繁项集;
分别从频繁项集和非频繁项集中挖掘正关联规则和负关联规则;
当精简文本数据集中的两两项集的并集的支持度不小于预设的频繁项集支持度阈值时,表示频繁项集中两两项集的关联规则;
从频繁项集中挖掘正关联规则和负关联规则的具体方法包括:
A、B为频繁项集,判断形式为
Figure FDA0002625638300000011
的置信度是否不小于预设的置信度阈值且提升度大于1;
如果是,则挖掘出频繁项集中的有效正关联规则,否则判断形式为
Figure FDA0002625638300000012
Figure FDA0002625638300000013
Figure FDA0002625638300000014
的置信度是否不小于预设的置信度阈值且提升度大于1;
如果是,则挖掘出频繁项集中的有效负关联规则,否则结束。
2.如权利要求1所述的方法,其特征在于,在本方法中,根据需要设置可调整的预设参数N,采用逆文档频率IDF对文本数据集中的项集加权,提取IDF值前N%的项集,得到精简文本数据集。
3.如权利要求1所述的方法,其特征在于,在本方法中,根据预设的频繁项集支持度阈值和非频繁项集支持度阈值提取精简文本数据集中的频繁项集和非频繁项集的具体方法为:
预设频繁项集支持度阈值和非频繁项集支持度阈值;
分别判断精简文本数据集中的项集支持度与预设的频繁项集支持度阈值和非频繁项集支持度阈值的大小关系,提取精简文本数据集中的频繁项集和非频繁项集,直至遍历精简文本数据集中的所有项集。
4.如权利要求3所述的方法,其特征在于,在本方法中,当精简文本数据集中的项集支持度不小于频繁项集支持度阈值,提取该项集为频繁项集。
5.如权利要求3所述的方法,其特征在于,在本方法中,当精简文本数据集中的项集支持度小于频繁项集支持度阈值且该项集支持度不小于非频繁项集支持度阈值,提取该项集为非频繁项集。
6.如权利要求1所述的方法,其特征在于,在本方法中,正关联规则的形式为
Figure FDA0002625638300000015
负关联规则的形式包括
Figure FDA0002625638300000016
Figure FDA0002625638300000017
其中,A和B是精简文本数据集中的项集,
Figure FDA0002625638300000018
Figure FDA0002625638300000019
I为精简文本数据集中项集组成的集合。
7.如权利要求1所述的方法,其特征在于,在本方法中,当精简文本数据集中的两两项集的并集的支持度小于预设的频繁项集支持度阈值且不等于0,精简文本数据集中的两两项集的支持度分别不小于繁项集支持度阈值时,表示非频繁项集中两两项集的关联规则;
从非频繁项集中挖掘正关联规则和负关联规则的具体方法包括:
A、B为非频繁项集,判断形式为
Figure FDA00026256383000000110
的置信度是否不小于预设的置信度阈值且提升度大于1;
如果是,则挖掘出频繁项集中的有效正关联规则,否则判断形式为
Figure FDA00026256383000000111
Figure FDA00026256383000000112
Figure FDA00026256383000000113
的置信度是否不小于预设的置信度阈值且提升度大于1;
如果是,则挖掘出频繁项集中的有效负关联规则,否则结束。
8.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行根据权利要求1-7中任一项所述的方法。
9.一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令用于执行根据权利要求1-7中任一项所述的方法。
CN201810292478.4A 2018-03-30 2018-03-30 一种文本数据集正负关联规则挖掘方法及装置 Active CN109062915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810292478.4A CN109062915B (zh) 2018-03-30 2018-03-30 一种文本数据集正负关联规则挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810292478.4A CN109062915B (zh) 2018-03-30 2018-03-30 一种文本数据集正负关联规则挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN109062915A CN109062915A (zh) 2018-12-21
CN109062915B true CN109062915B (zh) 2020-11-17

Family

ID=64820022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810292478.4A Active CN109062915B (zh) 2018-03-30 2018-03-30 一种文本数据集正负关联规则挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN109062915B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739953B (zh) * 2018-12-30 2021-07-20 广西财经学院 基于卡方分析-置信度框架和后件扩展的文本检索方法
CN109858538B (zh) * 2019-01-24 2023-06-09 科大国创软件股份有限公司 一种基于关联规则的海关归类检错方法
CN111782705A (zh) * 2020-05-28 2020-10-16 平安医疗健康管理股份有限公司 频繁数据的挖掘方法、装置、设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955542A (zh) * 2014-05-20 2014-07-30 广西教育学院 文本词间完全加权正负关联模式挖掘方法及其挖掘系统
CN105608602A (zh) * 2015-12-18 2016-05-25 齐鲁工业大学 二次相关判定法选取有效的负关联规则在客户购买行为分析中的应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955542A (zh) * 2014-05-20 2014-07-30 广西教育学院 文本词间完全加权正负关联模式挖掘方法及其挖掘系统
CN105608602A (zh) * 2015-12-18 2016-05-25 齐鲁工业大学 二次相关判定法选取有效的负关联规则在客户购买行为分析中的应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于项权值变化的完全加权正负关联规则挖掘;周秀梅等;《电子学报》;20150831;第43卷(第8期);第1545-1554页 *

Also Published As

Publication number Publication date
CN109062915A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
US11841947B1 (en) Methods and apparatus for machine learning based malware detection
TWI729472B (zh) 特徵詞的確定方法、裝置和伺服器
US10594704B2 (en) Pre-processing before precise pattern matching
Melicher et al. Fast, lean, and accurate: Modeling password guessability using neural networks
CN111753914B (zh) 模型优化方法和装置、电子设备及存储介质
CN109062915B (zh) 一种文本数据集正负关联规则挖掘方法及装置
US20220318275A1 (en) Search method, electronic device and storage medium
CN113609261B (zh) 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置
CN104685510A (zh) 识别应用程序是否是恶意程序
US10291629B2 (en) Cognitive detection of malicious documents
CN113221104B (zh) 用户异常行为的检测方法及用户行为重构模型的训练方法
US9984064B2 (en) Reduction of memory usage in feature generation
Liu et al. Flooding-X: Improving BERT’s resistance to adversarial attacks via loss-restricted fine-tuning
Verma et al. Network clustering via clique relaxations: A community based
US10546024B2 (en) Method and device for searching character string
CN113657249B (zh) 训练方法、预测方法、装置、电子设备以及存储介质
CN114120452A (zh) 一种活体检测模型训练方法、装置、电子设备及存储介质
CN116975657B (zh) 基于人工经验的即时优势窗口挖掘方法及装置
WO2019178733A1 (zh) 大规模数据集的频繁项集挖掘方法、装置、设备及介质
Gangadharan et al. Advancing Bug Detection in Solidity Smart Contracts with the Proficiency of Deep Learning
CN117743577A (zh) 文本分类方法、装置、电子设备及存储介质
CN112559497A (zh) 一种数据处理方法、一种信息传输方法、装置及电子设备
CN116341023B (zh) 基于区块链的业务地址验证方法、装置、设备及存储介质
Ban et al. Augmenting Android Malware Using Conditional Variational Autoencoder for the Malware Family Classification.
CN103383720B (zh) 一种api日志的循环逻辑的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant