CN111241156B

CN111241156B - 基于事务数据收集的支持度计数评估方法

Info

Publication number: CN111241156B
Application number: CN202010014932.7A
Authority: CN
Inventors: 欧阳佳; 肖政宏; 刘少鹏
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2024-02-27
Anticipated expiration: 2040-01-07
Also published as: CN111241156A

Abstract

本发明提供一种基于事务数据收集的支持度计数评估方法，包括以下步骤：假设项支持度计数P_a＝#{t_i|a∈t_i,i∈[1,n]}，项a_i以及事务数据t,若a_i∈t,收集到的事务数据t′中包含a_i的概率定义为真正率TPR；若而收集到的事务数据t′中包含a_i的概率定义为错正率FPR；项a_i∈I以及含有n个用户的事务数据集D＝{t₁,t₂,t₃,...,t_n},数据收集者得到的事务数据集为D′＝{t′₁,t′₂,t′₃,...,t′_n},假设其真实的项分布为得出a_i在隐私事务数据t′的期望频率；进一步得到是对P_a的无偏估计。本发明提供了一种的新的支持度计数评估方法，能够更好的事务数据收集服务，同时将候选项集的样本空间划分为多个子空间，抽取其中一个子空间,基于该子空间随机生成事务数据并发送给不可信的数据收集者，同时保证了项支持度计数与频繁项集挖掘的效用性。

Description

基于事务数据收集的支持度计数评估方法

技术领域

本发明涉及数据收集技术领域，具体来说，尤其涉及一种基于事务数据收集的支持度计数评估方法。

背景技术

事务数据是项的集合,其中包含丰富的信息并可应用于不同的场景(如：购买的商品,看过的电影记录,搜索日志,网页浏览历史等)。随着大数据技术的发展,海量的事务数据被收集,其中蕴含丰富的知识,数据收集者通过数据分析(如:协同过滤、关联规则等),基于得到的模型为用户提供更好的服务。

然而,事务数据中往往包含个人隐私信息,如搜索网页时产生的搜索日志会泄露自己的健康状态、居住地点等信息；网上购物时产生的购物记录将泄露自己所购买的隐私物品,甚至会泄露自己的购物习惯以及行为模式；浏览网页时产生的WEB点击流将泄露自己的上网习惯等等。如果不采取任何保护措施直接收集并分析用户的数据,将会导致个人隐私信息的泄露,造成严重危害。震惊世界的AOL日志隐私泄露事件已敲响警钟,因隐私泄露所带来的困扰将严重影响着人们的合法权益和生活质量。

目前,事务数据隐私保护发布是研究热点,大多数研究是将真实完整的事务数据发送到数据中心,并假设数据中心或数据收集者是可信的。数据收集者对数据进行扰乱处理后,发布满足差分隐私约束的数据集或相关统计信息,该方法统称为中心化差分隐私技术。但尽管数据收集者宣称不会泄露或窃取用户的敏感信息,但在商业或利益的驱使下,用户隐私很难得到保证,因此假设数据中心或数据收集者是可信的这一点是不切实际的。

在事务数据的收集过程中，找到一种好的基于事务数据收集的支持度计数评估方法一直是业界的难题之一。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

本发明的目的在于提供一种基于事务数据收集的支持度计数评估方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于事务数据收集的支持度计数评估方法，包括以下步骤：

a1.假设项支持度计数考虑项a_i以及事务数据t,如果a_i∈t,收集到的事务数据t′中同样包含a_i的概率定义为真正率TPR；

a2.如果而收集到的事务数据t′中包含a_i的概率定义为错正率FPR；

a3.考虑项a_i∈I以及含有n个用户的事务数据集D＝{t₁,t₂,t₃,...,t_n},数据收集者得到的事务数据集为D′＝{t₁′,t₂′,t₃′,...,t′_n},假设其真实的项分布为得出a_i在隐私事务数据t′的期望频率；

a4.进一步得到是对P_a的无偏估计。

进一步地，TPR的计算公式为：

假设样本空间大小为隐私参数α，事务数据t的长度均为m，项集域的大小d，样本空间划分为k+1个子样本空间,每个子样本空间中的候选项集与t的交集大小inter是相同的,其范围为[0,k],项的数目为k-inter。

进一步地，FPR的计算公式为：

进一步地，步骤a3的期望频率为：

其中前半段表示保留下来真实的a_i,而后半段/>代表噪音。

进一步地，步骤a4的值为：

进一步地，(3-8)和(3-9)可变形为：

与现有技术相比，本发明具有以下有益效果：(1)本发明提供了一种的新的支持度计数评估方法，能够更好的事务数据收集服务；(2)本发明将候选项集的样本空间划分为多个子空间，抽取其中一个子空间,基于该子空间随机生成事务数据并发送给不可信的数据收集者，同时保证了项支持度计数与频繁项集挖掘的效用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明一种基于事务数据收集的支持度计数评估方法的示意图；

图2是根据本发明一种基于事务数据收集的支持度计数评估方法的样本子空间及对应的抽样概率。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤，所述处理可以对应于方法、函数、规程、子例程、子程序等等。

基于事务数据收集的支持度计数评估方法，包括以下步骤：

a1.假设项支持度计数P_a＝#{t_i|a∈t_i,i∈[1,n]}，考虑项a_i以及事务数据t,如果a_i∈t,收集到的事务数据t′中同样包含a_i的概率定义为真正率TPR；

a4.进一步得到是对P_a的无偏估计。

进一步地，TPR的计算公式为：

进一步地，FPR的计算公式为：

进一步地，步骤a3的期望频率为：

其中前半段表示保留下来真实的a_i,而后半段/>代表噪音。

进一步地，步骤a4的值为：

进一步地，(3-8)和(3-9)可变形为：

本发明提供的新的支持度计数评估方法，能够更好的事务数据收集服务，同时将候选项集的样本空间划分为多个子空间，抽取其中一个子空间,基于该子空间随机生成事务数据并发送给不可信的数据收集者，同时保证了项支持度计数与频繁项集挖掘的效用性。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限定本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于事务数据收集的支持度计数评估方法，其特征在于，包括以下步骤：

a3.考虑项a_i∈I以及含有n个用户的事务数据集D＝{t₁,t₂,t₃,...,t_n},数据收集者得到的事务数据集为D′＝{t′₁,t′₂,t′₃,...,t′_n},假设其真实的项分布为得出a_i在隐私事务数据t′的期望频率；

a4.进一步得到是对P_a的无偏估计；

所述步骤a3的期望频率为：

其中前半段表示保留下来真实的a_i,而后半段/>代表噪音；

所述步骤a4的值为：

所述(3-8)和(3-9)可变形为：

所述TPR的计算公式为：

假设样本空间大小为隐私参数α，事务数据t的长度均为m，项集域的大小d，样本空间划分为k+1个子样本空间,每个子样本空间中的候选项集与t的交集大小inter是相同的,其范围为[0,k],项的数目为k-inter；

所述FPR的计算公式为：