CN108475292A - 大规模数据集的频繁项集挖掘方法、装置、设备及介质 - Google Patents

大规模数据集的频繁项集挖掘方法、装置、设备及介质 Download PDF

Info

Publication number
CN108475292A
CN108475292A CN201880000191.8A CN201880000191A CN108475292A CN 108475292 A CN108475292 A CN 108475292A CN 201880000191 A CN201880000191 A CN 201880000191A CN 108475292 A CN108475292 A CN 108475292A
Authority
CN
China
Prior art keywords
scale
noise
item
data
dataset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880000191.8A
Other languages
English (en)
Other versions
CN108475292B (zh
Inventor
熊馨雨
陈飞
王东宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Publication of CN108475292A publication Critical patent/CN108475292A/zh
Application granted granted Critical
Publication of CN108475292B publication Critical patent/CN108475292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用信息技术领域,提供了一种大规模数据集的频繁项集挖掘方法、装置、设备及介质,该方法包括:估算样本容量,从大规模数据集中采集样本容量大小的样本数据集,挖掘样本数据集中的闭频繁项集并计算大规模数据集对应的最大长度约束,以生成大规模数据集对应的缩减数据集,通过缩减数据集构建大规模数据集的噪声FP‑Tree,将隐私预算平均分配给噪声FP‑Tree的每一层,通过噪声FP‑Tree和噪音阈值选出候选集合,通过几何机制噪音增加候选集合的隐私保护,再从候选集合中选出预预设数量个频繁项集,从而减小了大规模数据集频繁项集挖掘的计算强度,保证了数据挖掘的隐私性,同时降低了全局敏感度、提高了数据和挖掘结果的可用性。

Description

大规模数据集的频繁项集挖掘方法、装置、设备及介质
技术领域
本发明属于信息技术领域,尤其涉及一种大规模数据集的频繁项集挖掘方法、装置、设备及介质。
背景技术
近几年,随着数据爆炸性地增长、信息技术(尤其是网络技术、数据存储技术)的迅猛发展,各行业都通过各种渠道积累海量数据,从这些海量数据发现有用的知识来应用到各个行业(商业决策、潜在客户分析等等)成为亟待解决的问题。
由于本地计算资源有限、云计算快速发展,相比于在本地进行数据挖掘,企业或个人将数据挖掘外包给云计算更为明智,能够节省人力物力。然而,将数据挖掘外包给云计算,将面临企业隐私或者个人隐私被泄露的问题,不管是提供数据方还是提供数据服务方,都希望在不泄露隐私、数据不透明化的情况下,挖掘到有意义的数据以便决策。目前,在大规模数据集上,还没有一个行之有效的隐私挖掘方法,可以同时兼顾频繁模式挖掘的隐私性与可用性、并减少计算强度。
传统的隐私保护方式大多基于K-匿名及其扩展模型等,这类方法需要一定的假设条件,一旦假设条件被破坏,很难保护隐私,K-匿名及其扩展模型的不足之处在于没有严格定义攻击模型,对攻击者所具有的知识未能定量化定义。此外,现有的一些攻击模型也对这类方法的隐私有效性提出了挑战,Dwork提出一种基于数据失真的强隐私保护模型∈-差分隐私,该模型因其严格的隐私定义以及无关于攻击者背景知识的特点,通过差分隐私虽然能获得良好的隐私保证,却普遍存在敏感度高、可用性差的问题。
发明内容
本发明的目的在于提供一种大规模数据集的频繁项集挖掘方法、装置、设备及存储介质,旨在解决现有技术中大规模数据集的频繁项集挖掘方法无法同时兼顾数据挖掘的隐私性、可用性、敏感度以及计算强度的问题。
一方面,本发明提供了一种大规模数据集的频繁项集挖掘方法,所述方法包括下述步骤:
接收用户输入的大规模数据集,并根据预设的精度阈值和预设的可信度阈值,估算所述大规模数据集对应的样本容量;
对所述大规模数据集进行简单随机采样,生成所述样本容量大小的样本数据集,挖掘所述样本数据集中的闭频繁项集;
根据所述样本数据集计算所述大规模数据集对应的最大长度约束,根据所述闭频繁项集和所述最大长度约束,生成所述大规模数据集对应的缩减数据集;
通过所述缩减数据集,构建所述大规模数据集的噪音FP-Tree,并将预设的隐私预算平均分配给所述噪音FP-Tree的每一层;
根据预设的噪音阈值,从所述噪音FP-Tree上选出候选集合,通过预设的几何机制噪音增加所述候选集合的隐私保护,并从所述候选集合中选出预设数量个频繁项集。
另一方面,本发明提供了一种大规模数据集的频繁项集挖掘装置,所述装置包括:
样本容量估算单元,用于接收用户输入的大规模数据集,并根据预设的精度阈值和预设的可信度阈值,估算大规模数据集对应的样本容量;
抽样挖掘单元,用于对所述大规模数据集进行简单随机采样,生成所述样本容量大小的样本数据集,挖掘所述样本数据集中的闭频繁项集;
数据集缩减单元,用于根据所述样本数据集计算所述大规模数据集对应的最大长度约束,根据所述闭频繁项集和所述最大长度约束,生成所述大规模数据集对应的缩减数据集;
FP-Tree构建单元,用于通过所述缩减数据集,构建所述大规模数据集的噪音FP-Tree,并将预设的隐私预算平均分配给所述噪音FP-Tree的每一层;以及
频繁项集筛选单元,用于根据预设的噪音阈值,从所述噪音FP-Tree选出候选集合,通过预设的几何机制噪音增加所述候选集合的隐私保护,并从所述候选集合中选出预设数量个频繁项集。
另一方面,本发明还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述大规模数据集的频繁项集挖掘方法所述的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述大规模数据集的频繁项集挖掘方法所述的步骤。
本发明从大规模数据集中采样样本容量大小的样本数据集,并挖掘样本数据集中的闭频繁项集,以减小大数据集下频繁项集挖掘的计算强度,根据样本数据集计算最大长度约束,通过闭频繁项集和最大长度约束,生成大规模数据集对应的缩减数据集,以减少大数据集下频繁项集挖掘的全局敏感度,通过缩减数据集构建噪声FP-Tree,在构建过程中将隐私预算平均分配给噪声FP-Tree,构建好后通过噪声阈值在噪声FP-Tree上选出候选集合,通过几何机制噪音增加候选集合的隐私保护,再从候选集合中选出频繁项集,从而减小了大规模数据集频繁项集挖掘的计算强度,保证了数据挖掘的隐私性,同时降低了全局敏感度、提高了数据和挖掘结果的可用性。
附图说明
图1是本发明实施例一提供的大规模数据集的频繁项集挖掘方法的实现流程图;
图2是本发明实施例二提供的大规模数据集的频繁项集挖掘装置的结构示意图;
图3是本发明实施例二提供的大规模数据集的频繁项集挖掘装置的优选结构示意图;以及
图4是本发明实施例三提供的计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的大规模数据集的频繁项集挖掘方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,接收用户输入的大规模数据集,并根据预设的精度阈值和预设的可信度阈值,估算大规模数据集对应的样本容量。
在本发明实施例中,大规模数据集由一系列事务组成,例如在超市购物中每个人当次购买的所有物品可以认为是一个事务,成千上万个人的购买物品就构成了一个数据集。在接收到用户输入的大规模数据集后,需对大规模数据集进行频繁项集挖掘,为了降低挖掘过程的计算强度,需对大规模数据进行预处理,在预处理过程中,可先根据预设的精度阈值和可信度阈值,估算大规模数据集对应的样本容量。
优选地,频繁项集在大规模数据集中的分布满足二项分布概率模型,所以通过正态分布表、精度阈值和可信度阈值,对大规模数据集对应的样本容量进行估算,其中,对样本容量进行估算的绝对误差不超过精度阈值、且对样本容量进行估算的可信度不小于可信度阈值,从而有效地提高了样本容量估算的准确度。具体地,样本容量的估算公式可表示为:
其中,p表示频繁项集在大规模数据集中的总体概率,n表示待估算的样本容量,fn表示频繁项集在随机抽样中出现的次数,δ为精度阈值,a为可信度阈值。由公式和正态分布表,可以推出进而可以判断出样本容量n满足Za是正态分布表中的正态分布临界值。
在步骤S102中,对大规模数据集进行简单随机采样,生成样本容量大小的样本数据集,挖掘样本数据集中的闭频繁项集。
在本发明实施例中,在预处理过程中,估算得到样本容量后,可通过抽样工具(例如SAS,Statistical Analysis System)对大规模数据集进行简单随机采样,由采集得到的样本构成样本容量大小的样本数据集,对于大规模数据集来说,处理符合精度要求的样本数据集,可以达到同样的处理需求,因此后续可通过对样本数据集进行挖掘,得到样本数据集中的多个闭频繁项集,从而有效地降低了计算强度。
作为示例地,可通过Apriori挖掘算法对样本数据集进行挖掘,得到样本数据集中的闭频繁项集。
在步骤S103中,根据样本数据集计算大规模数据集对应的最大长度约束,根据闭频繁项集和最大长度约束,生成大规模数据集对应的缩减数据集。
在本发明实施例中,可通过预设的启发式方法在样本数据集中所有事务序列长度的分布{z1,...,zi,...,zn},zi表示样本数据集中序列长度为i的事务数量,可从序列长度为1开始,递增地计算每个序列长度为i的事务数量并求和,直至满足将满足的最小的i值设置为最大长度约束。其中,η为预设的约束参数。
在本发明实施例中,在计算得到最大长度约束后,可根据闭频繁项集和最大长度约束,对大规模数据集进行处理(包括减少大规模数据集中的事务数量、减少大规模数据集中事务的序列长度),得到大规模数据集对应的缩减数据集,从而降低大规模数据集中频繁项集挖掘的全局敏感度,提高数据和挖掘结果的可用性。
优选地,通过下述步骤对大规模数据集进行处理,以得到大规模数据集对应的缩减数据集:
(1)扫描大规模数据集中支持度大于预设支持度阈值的1-项集,将由所有1-项集构成的1-项集集合按照支持度下降的顺序进行排列。
在本发明实施例中,在大规模数据集中支持度大于预设支持度阈值的1-项集,即频繁1-项集。
(2)根据排序后的1-项集集合,对每个闭频繁项集进行排序,根据所有排序后的闭频繁项集,生成对应的元素集合。
在本发明实施例中,根据排序后的1-项集集合,对每个闭频繁项集中的项进行排序,再根据排序后的闭频繁项集,组合得到元素集合。
作为示例地,当按照支持度排序后的1-项集集合为{a,c,e,b,d,f}时,对闭频繁项集{c,b}、{f,d,e}、{a,b,c}进行分别排序得到{c,b}、{e,d,f}、{a,c,b},再将这些闭频繁项集进行组合得到元素集合{c,b,e,d,f,a}。
(3)根据排序后的1-项集集合,对元素集合进行排序,根据排序后的元素集合,对大规模数据集中所有事务中多余的项进行剔除。
在本发明实施例中,有排序后的闭频繁项集组合得到元素集合,该元素集合中的项(或元素)之间的顺序可能并不符合支持度下降的顺序,因此需要再根据排序后的1-项集集合,对元素集合进行排序,再对大规模数据集中所有事务中未出现在元素集合中的项进行剔除,既可以减少大规模数据集中事务的数量,又可以减小大规模数据集中事务的序列长度。
(4)将大规模数据集中序列长度超过最大长度约束的事务与闭频繁项集进行相似度匹配,并根据相似度匹配的匹配结果,对大规模数据集中序列长度超过最大长度约束的事务进行截断。
在本发明实施例中,在对大规模数据集中事务中多余的项进行剔除后,将大规模数据集中序列长度超过最大长度约束的事务与闭频繁项集进行字符串匹配,再根据两者最相似的字符串对该序列长度超过最大长度余数的事务进行截断,可进行多次匹配和多次截断,直至事务的序列长度不超过最大长度约束,从而通过相似字符串减小大规模数据集中事务的序列长度,避免了利用最大长度约束对事务直接进行截断导致的信息丢失问题,进而降低全局敏感度、提高数据的可用性,同时还大大降低了后续挖掘过程中的计算强度。
作为示例地,可运用最大公共子序列算法实现大规模数据集中序列长度超过最大长度约束的事务与闭频繁项集之间的字符串匹配。
在步骤S104中,通过缩减数据集,构建大规模数据集的噪音FP-Tree,并将预设的隐私预算平均分配给噪音FP-Tree的每一层。
在本发明实施例中,在得到大规模数据集的缩减数据集后,可基于缩减数据集构建大规模数据集的噪音FP-Tree。在构建噪音FP-Tree时,计算噪音FP-Tree每个结点的计数时会破坏隐私,所以需要在噪音FP-Tree的每个结点上添加噪音以初始化每个结点的计数,lmax表示最大长度约束,∈1表示预设的隐私预算(此时得到的FP-Tree是满足∈1-差分隐私的)。同时,可将隐私预算∈1依据FP-Tree的深度(即最大长度约束),为FP-Tree的每一层平均分配给∈1/lmax大小的隐私预算,该隐私预算用来为每层添加拉普拉斯噪音Δf为当前数据挖掘阶段的敏感度,此时FP-Tree的每个节点对应缩减数据集中的一个1-项集,所以当移除或增加FP-Tree中的一条路径时,对FP-Tree总体的影响很小,即敏感度很小。
在步骤S105中,根据预设的噪音阈值,从噪音FP-Tree上选出候选集合,通过预设的几何机制噪音增加候选集合的隐私保护,并从候选集合中选出预设数量个频繁项集。
在本发明实施例中,根据噪音FP-Tree可得到缩减数据集中每个频繁项集带有噪声的计数,将该计数与预设的噪音阈值进行比较,由技术超过噪音阈值的频繁项集构成候选集合,再为候选集合中的每个频繁项集添加几何机制噪音以进一步增加隐私安全保护,表示候选集合,N表示大规模数据集的大小。最后,从候选集合中选出预设数量个频繁项集,完成大规模数据集的频繁项集挖掘,例如从候选集合选择前K个频繁项集。
在本发明实施例中,挖掘样本数据集的闭频繁项集,通过闭频繁项集和最大长度约束,生成大规模数据集对应的缩减数据集,通过缩减数据集构建噪声FP-Tree,在构建过程中将隐私预算平均分配给噪声FP-Tree,构建好后在噪声FP-Tree上选出候选集合,并通过几何机制噪音增加候选集合的隐私保护,再从候选集合中选出频繁项集,从而减小了大规模数据集频繁项集挖掘的计算强度,保证了数据挖掘的隐私性,同时降低了全局敏感度、提高了数据和挖掘结果的可用性。
实施例二:
图2示出了本发明实施例二提供的大规模数据集的频繁项集挖掘装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
样本容量估算单元21,用于接收用户输入的大规模数据集,并根据预设的精度阈值和预设的可信度阈值,估算大规模数据集对应的样本容量。
在本发明实施例中,在接收到用户输入的大规模数据集后,需对大规模数据集进行频繁项集挖掘,为了降低挖掘过程的计算强度,需对大规模数据进行预处理,在预处理过程中,可先根据预设的精度阈值和可信度阈值,估算大规模数据集对应的样本容量。
优选地,频繁项集在大规模数据集中的分布满足二项分布概率模型,所以通过正态分布表、精度阈值和可信度阈值,对大规模数据集对应的样本容量进行估算,其中,对样本容量进行估算的绝对误差不超过精度阈值、且对样本容量进行估算的可信度不小于可信度阈值,从而有效地提高了样本容量估算的准确度。具体地,样本容量的估算公式可表示为:
其中,p表示频繁项集在大规模数据集中的总体概率,n表示待估算的样本容量,fn表示频繁项集在随机抽样中出现的次数,δ为精度阈值,a为可信度阈值。由公式和正态分布表,可以推出进而可以判断出样本容量n满足Za是正态分布表中的正态分布临界值。
抽样挖掘单元22,用于对大规模数据集进行简单随机采样,生成样本容量大小的样本数据集,挖掘样本数据集中的闭频繁项集。
在本发明实施例中,在预处理过程中,估算得到样本容量后,可通过抽样工具对大规模数据集进行简单随机采样,由采集得到的样本构成样本容量大小的样本数据集,对于大规模数据集来说,处理符合精度要求的样本数据集,可以达到同样的处理需求,因此后续可通过对样本数据集进行挖掘,得到大规模数据集的多个闭频繁项集,从而有效地降低了计算强度。
数据集缩减单元23,用于根据样本数据集计算大规模数据集对应的最大长度约束,根据闭频繁项集和最大长度约束,生成大规模数据集对应的缩减数据集。
在本发明实施例中,可通过预设的启发式方法在样本数据集中所有事务序列长度的分布{z1,...,zi,...,zn},zi表示样本数据集中序列长度为i的事务数量,可从序列长度为1开始,递增地计算每个序列长度为i的事务数量并求和,直至满足将满足的最小的i值设置为最大长度约束。其中,η为预设的约束参数。
在本发明实施例中,在计算得到最大长度约束后,可根据闭频繁项集和最大长度约束,对大规模数据集进行处理,得到大规模数据集对应的缩减数据集,从而降低大规模数据集中频繁项集挖掘的全局敏感度,提高数据和挖掘结果的可用性。
FP-Tree构建单元24,用于通过缩减数据集,构建大规模数据集的噪音FP-Tree,并将预设的隐私预算平均分配给噪音FP-Tree的每一层。
在本发明实施例中,在得到大规模数据集的缩减数据集后,可基于缩减数据集构建大规模数据集的噪音FP-Tree。在构建噪音FP-Tree时,计算噪音FP-Tree每个结点的计数时会破坏隐私,所以需要在噪音FP-Tree的每个结点上添加噪音以初始化每个结点的计数,lmax表示最大长度约束,∈1表示预设的隐私预算(此时得到的FP-Tree是满足∈1-差分隐私的)。同时,可将隐私预算∈1依据FP-Tree的深度,为FP-Tree的每一层平均分配给∈1/lmax大小的隐私预算,该隐私预算用来为每层添加拉普拉斯噪音Δf为当前数据挖掘阶段的敏感度,此时FP-Tree的每个节点对应缩减数据集中的一个1-项集,所以当移除或增加FP-Tree中的一条路径时,对FP-Tree总体的影响很小,即敏感度很小。
频繁项集筛选单元25,用于根据预设的噪音阈值,从噪音FP-Tree选出候选集合,通过预设的几何机制噪音增加候选集合的隐私保护,并从候选集合中选出预设数量个频繁项集。
在本发明实施例中,根据噪音FP-Tree可得到缩减数据集中每个频繁项集带有噪声的计数,将该计数与预设的噪音阈值进行比较,由技术超过噪音阈值的频繁项集构成候选集合,再为候选集合中的每个频繁项集添加几何机制噪音以进一步增加隐私安全保护,表示候选集合,N表示大规模数据集的大小。最后,从候选集合中选出预设数量个频繁项集,完成大规模数据集的频繁项集挖掘。
优选地,如图3所示,数据集缩减单元23包括:
长度分布估计单元331,用于通过估计样本数据集中所有事务序列长度的分布,获得样本数据集中不同序列长度下的事务数量;以及
长度约束计算单元332,用于根据样本数据集中不同序列长度下的事务数量和预设的约束参数,计算最大长度约束。
优选地,数据集缩减单元23还包括1-项集排序单元333、闭频繁项集排序单元334、项剔除单元335和事务截断单元336,其中:
1-项集排序单元333,用于扫描大规模数据集中支持度大于预设支持度阈值的1-项集,将由所有1-项集构成的1-项集集合按照支持度下降的顺序进行排列。
闭频繁项集排序单元334,用于根据排序后的1-项集集合,对每个闭频繁项集进行排序,根据所有排序后的闭频繁项集,生成对应的元素集合;
在本发明实施例中,根据排序后的1-项集集合,对每个闭频繁项集中的项进行排序,再根据排序后的闭频繁项集,组合得到元素集合。
作为示例地,当按照支持度排序后的1-项集集合为{a,c,e,b,d,f}时,对闭频繁项集{c,b}、{f,d,e}、{a,b,c}进行分别排序得到{c,b}、{e,d,f}、{a,c,b},再将这些闭频繁项集进行组合得到元素集合{c,b,e,d,f,a}。
项剔除单元335,用于根据排序后的1-项集集合,对元素集合进行排序,根据排序后的元素集合,对大规模数据集中所有事务中多余的项进行剔除。
在本发明实施例中,有排序后的闭频繁项集组合得到元素集合,该元素集合中的项(或元素)之间的顺序可能并不符合支持度下降的顺序,因此需要再根据排序后的1-项集集合,对元素集合进行排序,再对大规模数据集中所有事务中未出现在元素集合中的项进行剔除,既可以减少大规模数据集中事务的数量,又可以减小大规模数据集中事务的序列长度。
事务截断单元336,用于将大规模数据集中序列长度超过最大长度约束的事务与闭频繁项集进行相似度匹配,并根据相似度匹配的匹配结果,对大规模数据集中序列长度超过最大长度约束的事务进行截断。
在本发明实施例中,在对大规模数据集中事务中多余的项进行剔除后,将大规模数据集中序列长度超过最大长度约束的事务与闭频繁项集进行字符串匹配,再根据两者最相似的字符串对该序列长度超过最大长度余数的事务进行截断,可进行多次匹配和多次截断,直至事务的序列长度不超过最大长度约束,从而通过相似字符串减小大规模数据集中事务的序列长度,避免了利用最大长度约束对事务直接进行截断导致的信息丢失问题,进而降低全局敏感度、提高数据的可用性,同时还大大降低了后续挖掘过程中的计算强度。
在本发明实施例中,挖掘样本数据集中的闭频繁项集,通过闭频繁项集和最大长度约束,生成大规模数据集对应的缩减数据集,通过缩减数据集构建噪声FP-Tree,在构建过程中将隐私预算平均分配给噪声FP-Tree,构建好后在噪声FP-Tree上选出候选集合,并通过几何机制噪音增加候选集合的隐私保护,再从候选集合中选出频繁项集,从而减小了大规模数据集频繁项集挖掘的计算强度,保证了数据挖掘的隐私性,同时降低了全局敏感度、提高了数据和挖掘结果的可用性。
在本发明实施例中,大规模数据集的频繁项集挖掘装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例三:
图4示出了本发明实施例三提供的计算设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的计算设备4包括处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。该处理器40执行计算机程序42时实现上述方法实施例中的步骤,例如图1所示的步骤S101至S105。或者,处理器40执行计算机程序42时实现上述装置实施例中各单元的功能,例如图2所示单元21至25的功能。
在本发明实施例中,挖掘样本数据集中的闭频繁项集,通过闭频繁项集和最大长度约束,生成大规模数据集对应的缩减数据集,通过缩减数据集构建噪声FP-Tree,在构建过程中将隐私预算平均分配给噪声FP-Tree,构建好后在噪声FP-Tree上选出候选集合,并通过几何机制噪音增加候选集合的隐私保护,再从候选集合中选出频繁项集,从而减小了大规模数据集频繁项集挖掘的计算强度,保证了数据挖掘的隐私性,同时降低了全局敏感度、提高了数据和挖掘结果的可用性。
实施例四:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤,例如,图1所示的步骤S101至S105。或者,该计算机程序被处理器执行时实现上述装置实施例中各单元的功能,例如图2所示单元21至25的功能。
在本发明实施例中,挖掘样本数据集中的闭频繁项集,通过闭频繁项集和最大长度约束,生成大规模数据集对应的缩减数据集,通过缩减数据集构建噪声FP-Tree,在构建过程中将隐私预算平均分配给噪声FP-Tree,构建好后在噪声FP-Tree上选出候选集合,并通过几何机制噪音增加候选集合的隐私保护,再从候选集合中选出频繁项集,从而减小了大规模数据集频繁项集挖掘的计算强度,保证了数据挖掘的隐私性,同时降低了全局敏感度、提高了数据和挖掘结果的可用性。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种大规模数据集的频繁项集挖掘方法,其特征在于,所述方法包括下述步骤:
接收用户输入的大规模数据集,并根据预设的精度阈值和预设的可信度阈值,估算所述大规模数据集对应的样本容量;
对所述大规模数据集进行简单随机采样,生成所述样本容量大小的样本数据集,挖掘所述样本数据集中的闭频繁项集;
根据所述样本数据集计算所述大规模数据集对应的最大长度约束,根据所述闭频繁项集和所述最大长度约束,生成所述大规模数据集对应的缩减数据集;
通过所述缩减数据集,构建所述大规模数据集的噪音FP-Tree,并将预设的隐私预算平均分配给所述噪音FP-Tree的每一层;
根据预设的噪音阈值,从所述噪音FP-Tree上选出候选集合,通过预设的几何机制噪音增加所述候选集合的隐私保护,并从所述候选集合中选出预设数量个频繁项集。
2.如权利要求1所述的方法,其特征在于,根据预设的精度阈值和预设的可信度阈值,估算所述大规模数据集对应的样本容量的步骤,包括:
根据预设的正态分布表,估算所述大规模数据对应的所述样本容量,对所述样本容量进行估算的绝对误差不超过所述精度阈值、且对所述样本容量进行估算的可信度不小于所述可信度阈值。
3.如权利要求1所述的方法,其特征在于,根据所述样本数据集计算所述大规模数据集对应的最大长度约束的步骤,包括:
通过估计所述样本数据集中所有事务序列长度的分布,获得所述样本数据集中不同序列长度下的事务数量;
根据所述样本数据集中不同序列长度下的事务数量和预设的约束参数,计算所述最大长度约束。
4.如权利要求1所述的方法,其特征在于,根据所述闭频繁项集和所述最大长度约束,生成所述大规模数据集对应的缩减数据集的步骤,包括:
扫描所述大规模数据集中支持度大于预设支持度阈值的1-项集,将由所述所有1-项集构成的1-项集集合按照所述支持度下降的顺序进行排列;
根据所述排序后的1-项集集合,对所述每个闭频繁项集进行排序,根据所述所有排序后的闭频繁项集,生成对应的元素集合;
根据所述排序后的1-项集集合,对所述元素集合进行排序,根据所述排序后的元素集合,对所述大规模数据集中所有事务中多余的项进行剔除;
将所述大规模数据集中序列长度超过所述最大长度约束的事务与所述闭频繁项集进行相似度匹配,并根据所述相似度匹配的匹配结果,对所述大规模数据集中序列长度超过所述最大长度约束的事务进行截断。
5.如权利要求1所述的方法,其特征在于,通过所述缩减数据集,构建所述大规模数据集的噪音FP-Tree的步骤,包括:
根据所述隐私预算和所述最大长度约束,在所述噪音FP-Tree的每个结点上添加噪音,以初始化所述每个结点的计数;
根据所述缩减数据集,迭代更新所述噪音FP-Tree上每个结点的计数。
6.一种大规模数据集的频繁项集挖掘装置,其特征在于,所述装置包括:
样本容量估算单元,用于接收用户输入的大规模数据集,并根据预设的精度阈值和预设的可信度阈值,估算大规模数据集对应的样本容量;
抽样挖掘单元,用于对所述大规模数据集进行简单随机采样,生成所述样本容量大小的样本数据集,挖掘所述样本数据集中的闭频繁项集;
数据集缩减单元,用于根据所述样本数据集计算所述大规模数据集对应的最大长度约束,根据所述闭频繁项集和所述最大长度约束,生成所述大规模数据集对应的缩减数据集;
FP-Tree构建单元,用于通过所述缩减数据集,构建所述大规模数据集的噪音FP-Tree,并将预设的隐私预算平均分配给所述噪音FP-Tree的每一层;以及频繁项集筛选单元,用于根据预设的噪音阈值,从所述噪音FP-Tree选出候选集合,通过预设的几何机制噪音增加所述候选集合的隐私保护,并从所述候选集合中选出预设数量个频繁项集。
7.如权利要求6所述的装置,其特征在于,所述数据集缩减单元包括:
长度分布估计单元,用于通过估计所述样本数据集中所有事务序列长度的分布,获得所述样本数据集中不同序列长度下的事务数量;以及
长度约束计算单元,用于根据所述样本数据集中不同序列长度下的事务数量和预设的约束参数,计算所述最大长度约束。
8.如权利要求6所述的装置,其特征在于,所述数据集缩减单元还包括:
1-项集排序单元,用于扫描所述大规模数据集中支持度大于预设支持度阈值的1-项集,将由所述所有1-项集构成的1-项集集合按照所述支持度下降的顺序进行排列;
闭频繁项集排序单元,用于根据所述排序后的1-项集集合,对所述每个闭频繁项集进行排序,根据所述所有排序后的闭频繁项集,生成对应的元素集合;
项剔除单元,用于根据所述排序后的1-项集集合,对所述元素集合进行排序,根据所述排序后的元素集合,对所述大规模数据集中所有事务中多余的项进行剔除;以及
事务截断单元,用于将所述大规模数据集中序列长度超过所述最大长度约束的事务与所述闭频繁项集进行相似度匹配,并根据所述相似度匹配的匹配结果,对所述大规模数据集中序列长度超过所述最大长度约束的事务进行截断。
9.一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN201880000191.8A 2018-03-20 2018-03-20 大规模数据集的频繁项集挖掘方法、装置、设备及介质 Active CN108475292B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/079554 WO2019178733A1 (zh) 2018-03-20 2018-03-20 大规模数据集的频繁项集挖掘方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN108475292A true CN108475292A (zh) 2018-08-31
CN108475292B CN108475292B (zh) 2021-08-24

Family

ID=63259918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880000191.8A Active CN108475292B (zh) 2018-03-20 2018-03-20 大规模数据集的频繁项集挖掘方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN108475292B (zh)
WO (1) WO2019178733A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120873A (zh) * 2019-05-08 2019-08-13 西安电子科技大学 基于云外包交易数据的频繁项集挖掘方法
CN114153319A (zh) * 2021-12-07 2022-03-08 中国海洋大学 面向用户多数据场景的频繁字符串的挖掘方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222570B (zh) * 2020-01-06 2022-08-26 广西师范大学 基于差分隐私的集成学习分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761236A (zh) * 2013-11-20 2014-04-30 同济大学 一种增量式频繁模式增长数据挖掘方法
US20160171395A1 (en) * 2014-12-14 2016-06-16 Google Inc. Systems and methods of generating itineraries using location data
CN105740245A (zh) * 2014-12-08 2016-07-06 北京邮电大学 频繁项集挖掘方法
CN106021546A (zh) * 2016-05-27 2016-10-12 西华大学 基于项目子集事例树的极小非约简关联规则挖掘方法
CN107092837A (zh) * 2017-04-25 2017-08-25 华中科技大学 一种支持差分隐私的频繁项集挖掘方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637208B (zh) * 2012-03-28 2013-10-30 南京财经大学 一种基于模式挖掘的噪音数据过滤方法
CN107577771B (zh) * 2017-09-07 2020-02-07 北京海融兴通信息安全技术有限公司 一种大数据挖掘系统
CN107609110B (zh) * 2017-09-13 2020-12-04 深圳大学 基于分类树的最大多样频繁模式的挖掘方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761236A (zh) * 2013-11-20 2014-04-30 同济大学 一种增量式频繁模式增长数据挖掘方法
CN105740245A (zh) * 2014-12-08 2016-07-06 北京邮电大学 频繁项集挖掘方法
US20160171395A1 (en) * 2014-12-14 2016-06-16 Google Inc. Systems and methods of generating itineraries using location data
CN106021546A (zh) * 2016-05-27 2016-10-12 西华大学 基于项目子集事例树的极小非约简关联规则挖掘方法
CN107092837A (zh) * 2017-04-25 2017-08-25 华中科技大学 一种支持差分隐私的频繁项集挖掘方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MURAT KANTARCIOGLU AND CHRIS CLIFTON: "Privacy-Preserving Distributed Mining of Association Rules on Horizontally Partitioned Data", 《 IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING,》 *
卢国庆 等: "差分隐私下的一种频繁序列模式挖掘方法", 《计算机研究与发展》 *
韩萌: "基于闭合模式的数据挖掘技术研究", 《中国博士学位论文全文数据库》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120873A (zh) * 2019-05-08 2019-08-13 西安电子科技大学 基于云外包交易数据的频繁项集挖掘方法
CN110120873B (zh) * 2019-05-08 2021-04-27 西安电子科技大学 基于云外包交易数据的频繁项集挖掘方法
CN114153319A (zh) * 2021-12-07 2022-03-08 中国海洋大学 面向用户多数据场景的频繁字符串的挖掘方法

Also Published As

Publication number Publication date
WO2019178733A1 (zh) 2019-09-26
CN108475292B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
Page et al. Three ingredients for improved global aftershock forecasts: Tectonic region, time‐dependent catalog incompleteness, and intersequence variability
CN109741173B (zh) 可疑洗钱团伙的识别方法、装置、设备及计算机存储介质
CN109118155B (zh) 一种生成操作模型的方法及装置
CN112465637B (zh) 反洗钱智能自动导侦的方法、计算机可读存储介质
Lin et al. Research on maximal frequent pattern outlier factor for online high dimensional time-series outlier detection
CN110297853A (zh) 频繁集挖掘方法和装置
Kharote et al. Data mining model for money laundering detection in financial domain
Buzun et al. Egolp: Fast and distributed community detection in billion-node social networks
Lai et al. Point cloud discretization of Fokker--Planck operators for committor functions
CN112087316B (zh) 基于异常数据分析的网络异常根源定位方法
CN108475292A (zh) 大规模数据集的频繁项集挖掘方法、装置、设备及介质
CN107291734A (zh) 一种频繁项集的挖掘方法、装置及系统
CN113641906A (zh) 基于资金交易关系数据实现相似目标人员识别处理的系统、方法、装置、处理器及其介质
Castrillo et al. Fast heuristic algorithm for multi-scale hierarchical community detection
Robles et al. Sampling of attributed networks from hierarchical generative models
Tang et al. Dynamic community detection with temporal Dirichlet process
Vijayarani et al. Partitioning clustering algorithms for data stream outlier detection
Mogtaba et al. Association rule hiding for privacy preserving data mining
Cao et al. A bootstrapping framework with interactive information modeling for network alignment
Eberle et al. Identifying anomalies in graph streams using change detection
Rahmawati et al. Comparison of behavioral similarity use TARs and Naïve algorithm for calculating similarity in business process model
Wang et al. A copula-based imputation model for missing data of mixed type in multilevel data sets
Tomasi et al. reBPMN: Recovering and reducing business processes
Yulianto et al. Fraud detection on international direct dial call using hybrid NBTree algorithm and Kullback Leibler divergence
Asmi et al. An approach based on the clustering coefficient for the community detection in social networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant