CN111241156B - 基于事务数据收集的支持度计数评估方法 - Google Patents
基于事务数据收集的支持度计数评估方法 Download PDFInfo
- Publication number
- CN111241156B CN111241156B CN202010014932.7A CN202010014932A CN111241156B CN 111241156 B CN111241156 B CN 111241156B CN 202010014932 A CN202010014932 A CN 202010014932A CN 111241156 B CN111241156 B CN 111241156B
- Authority
- CN
- China
- Prior art keywords
- transaction data
- item
- evaluation method
- degree counting
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013480 data collection Methods 0.000 title claims abstract description 13
- 238000011156 evaluation Methods 0.000 title claims abstract description 13
- 238000012937 correction Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000005065 mining Methods 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Fuzzy Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Computational Linguistics (AREA)
- Algebra (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于事务数据收集的支持度计数评估方法,包括以下步骤:假设项支持度计数Pa=#{ti|a∈ti,i∈[1,n]},项ai以及事务数据t,若ai∈t,收集到的事务数据t′中包含ai的概率定义为真正率TPR;若而收集到的事务数据t′中包含ai的概率定义为错正率FPR;项ai∈I以及含有n个用户的事务数据集D={t1,t2,t3,...,tn},数据收集者得到的事务数据集为D′={t′1,t′2,t′3,...,t′n},假设其真实的项分布为得出ai在隐私事务数据t′的期望频率;进一步得到 是对Pa的无偏估计。本发明提供了一种的新的支持度计数评估方法,能够更好的事务数据收集服务,同时将候选项集的样本空间划分为多个子空间,抽取其中一个子空间,基于该子空间随机生成事务数据并发送给不可信的数据收集者,同时保证了项支持度计数与频繁项集挖掘的效用性。
Description
技术领域
本发明涉及数据收集技术领域,具体来说,尤其涉及一种基于事务数据收集的支持度计数评估方法。
背景技术
事务数据是项的集合,其中包含丰富的信息并可应用于不同的场景(如:购买的商品,看过的电影记录,搜索日志,网页浏览历史等)。随着大数据技术的发展,海量的事务数据被收集,其中蕴含丰富的知识,数据收集者通过数据分析(如:协同过滤、关联规则等),基于得到的模型为用户提供更好的服务。
然而,事务数据中往往包含个人隐私信息,如搜索网页时产生的搜索日志会泄露自己的健康状态、居住地点等信息;网上购物时产生的购物记录将泄露自己所购买的隐私物品,甚至会泄露自己的购物习惯以及行为模式;浏览网页时产生的WEB点击流将泄露自己的上网习惯等等。如果不采取任何保护措施直接收集并分析用户的数据,将会导致个人隐私信息的泄露,造成严重危害。震惊世界的AOL日志隐私泄露事件已敲响警钟,因隐私泄露所带来的困扰将严重影响着人们的合法权益和生活质量。
目前,事务数据隐私保护发布是研究热点,大多数研究是将真实完整的事务数据发送到数据中心,并假设数据中心或数据收集者是可信的。数据收集者对数据进行扰乱处理后,发布满足差分隐私约束的数据集或相关统计信息,该方法统称为中心化差分隐私技术。但尽管数据收集者宣称不会泄露或窃取用户的敏感信息,但在商业或利益的驱使下,用户隐私很难得到保证,因此假设数据中心或数据收集者是可信的这一点是不切实际的。
在事务数据的收集过程中,找到一种好的基于事务数据收集的支持度计数评估方法一直是业界的难题之一。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的在于提供一种基于事务数据收集的支持度计数评估方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:基于事务数据收集的支持度计数评估方法,包括以下步骤:
a1.假设项支持度计数考虑项ai以及事务数据t,如果ai∈t,收集到的事务数据t′中同样包含ai的概率定义为真正率TPR;
a2.如果而收集到的事务数据t′中包含ai的概率定义为错正率FPR;
a3.考虑项ai∈I以及含有n个用户的事务数据集D={t1,t2,t3,...,tn},数据收集者得到的事务数据集为D′={t1′,t2′,t3′,...,t′n},假设其真实的项分布为得出ai在隐私事务数据t′的期望频率;
a4.进一步得到 是对Pa的无偏估计。
进一步地,TPR的计算公式为:
假设样本空间大小为隐私参数α,事务数据t的长度均为m,项集域的大小d,样本空间划分为k+1个子样本空间,每个子样本空间中的候选项集与t的交集大小inter是相同的,其范围为[0,k],项的数目为k-inter。
进一步地,FPR的计算公式为:
进一步地,步骤a3的期望频率为:
其中前半段表示保留下来真实的ai,而后半段/>代表噪音。
进一步地,步骤a4的值为:
进一步地,(3-8)和(3-9)可变形为:
与现有技术相比,本发明具有以下有益效果:(1)本发明提供了一种的新的支持度计数评估方法,能够更好的事务数据收集服务;(2)本发明将候选项集的样本空间划分为多个子空间,抽取其中一个子空间,基于该子空间随机生成事务数据并发送给不可信的数据收集者,同时保证了项支持度计数与频繁项集挖掘的效用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明一种基于事务数据收集的支持度计数评估方法的示意图;
图2是根据本发明一种基于事务数据收集的支持度计数评估方法的样本子空间及对应的抽样概率。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤,所述处理可以对应于方法、函数、规程、子例程、子程序等等。
基于事务数据收集的支持度计数评估方法,包括以下步骤:
a1.假设项支持度计数Pa=#{ti|a∈ti,i∈[1,n]},考虑项ai以及事务数据t,如果ai∈t,收集到的事务数据t′中同样包含ai的概率定义为真正率TPR;
a2.如果而收集到的事务数据t′中包含ai的概率定义为错正率FPR;
a3.考虑项ai∈I以及含有n个用户的事务数据集D={t1,t2,t3,...,tn},数据收集者得到的事务数据集为D′={t1′,t2′,t3′,...,t′n},假设其真实的项分布为得出ai在隐私事务数据t′的期望频率;
a4.进一步得到 是对Pa的无偏估计。
进一步地,TPR的计算公式为:
假设样本空间大小为隐私参数α,事务数据t的长度均为m,项集域的大小d,样本空间划分为k+1个子样本空间,每个子样本空间中的候选项集与t的交集大小inter是相同的,其范围为[0,k],项的数目为k-inter。
进一步地,FPR的计算公式为:
进一步地,步骤a3的期望频率为:
其中前半段表示保留下来真实的ai,而后半段/>代表噪音。
进一步地,步骤a4的值为:
进一步地,(3-8)和(3-9)可变形为:
本发明提供的新的支持度计数评估方法,能够更好的事务数据收集服务,同时将候选项集的样本空间划分为多个子空间,抽取其中一个子空间,基于该子空间随机生成事务数据并发送给不可信的数据收集者,同时保证了项支持度计数与频繁项集挖掘的效用性。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限定本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.基于事务数据收集的支持度计数评估方法,其特征在于,包括以下步骤:
a1.假设项支持度计数考虑项ai以及事务数据t,如果ai∈t,收集到的事务数据t′中同样包含ai的概率定义为真正率TPR;
a2.如果而收集到的事务数据t′中包含ai的概率定义为错正率FPR;
a3.考虑项ai∈I以及含有n个用户的事务数据集D={t1,t2,t3,...,tn},数据收集者得到的事务数据集为D′={t′1,t′2,t′3,...,t′n},假设其真实的项分布为得出ai在隐私事务数据t′的期望频率;
a4.进一步得到是对Pa的无偏估计;
所述步骤a3的期望频率为:
其中前半段表示保留下来真实的ai,而后半段/>代表噪音;
所述步骤a4的值为:
所述(3-8)和(3-9)可变形为:
所述TPR的计算公式为:
假设样本空间大小为隐私参数α,事务数据t的长度均为m,项集域的大小d,样本空间划分为k+1个子样本空间,每个子样本空间中的候选项集与t的交集大小inter是相同的,其范围为[0,k],项的数目为k-inter;
所述FPR的计算公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010014932.7A CN111241156B (zh) | 2020-01-07 | 2020-01-07 | 基于事务数据收集的支持度计数评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010014932.7A CN111241156B (zh) | 2020-01-07 | 2020-01-07 | 基于事务数据收集的支持度计数评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241156A CN111241156A (zh) | 2020-06-05 |
CN111241156B true CN111241156B (zh) | 2024-02-27 |
Family
ID=70879906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010014932.7A Active CN111241156B (zh) | 2020-01-07 | 2020-01-07 | 基于事务数据收集的支持度计数评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241156B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409128A (zh) * | 2018-10-30 | 2019-03-01 | 南京邮电大学 | 一种面向差分隐私保护的频繁项集挖掘方法 |
CN109741112A (zh) * | 2019-01-10 | 2019-05-10 | 博拉网络股份有限公司 | 一种基于移动大数据的用户购买意向预测方法 |
-
2020
- 2020-01-07 CN CN202010014932.7A patent/CN111241156B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409128A (zh) * | 2018-10-30 | 2019-03-01 | 南京邮电大学 | 一种面向差分隐私保护的频繁项集挖掘方法 |
CN109741112A (zh) * | 2019-01-10 | 2019-05-10 | 博拉网络股份有限公司 | 一种基于移动大数据的用户购买意向预测方法 |
Non-Patent Citations (2)
Title |
---|
Shaowei Wang等."PrivSet: Set-Valued Data Analyses with Local Differential Privacy".《IEEE INFOCOM 2018 - IEEE Conference on Computer Communications》.2018,第1088-1096页. * |
欧阳佳等."差分隐私模型的启发式隐私参数设置策略".《计算机应用研究》.2019,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111241156A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Parekh et al. | Studying jihadists on social media: A critique of data collection methodologies | |
US10389745B2 (en) | System and methods for detecting bots real-time | |
Wang et al. | Should we use the sample? Analyzing datasets sampled from Twitter’s stream API | |
US7694311B2 (en) | Grammar-based task analysis of web logs | |
JP5722783B2 (ja) | 傾向の識別に基づくユーザへのカスタマイズ情報の提供 | |
US20220365996A1 (en) | Real-time event detection on social media streams | |
JP5092165B2 (ja) | データ構築方法とシステム | |
El Alaoui et al. | The impact of big data quality on sentiment analysis approaches | |
Jayaweera et al. | Crime analytics: Analysis of crimes through newspaper articles | |
Lee et al. | Leveraging microblogging big data with a modified density-based clustering approach for event awareness and topic ranking | |
US10467255B2 (en) | Methods and systems for analyzing reading logs and documents thereof | |
Ren et al. | Understanding the predictability of user demographics from cyber-physical-social behaviours in indoor retail spaces | |
Kirsh et al. | Splitting the web analytics atom: from page metrics and KPIs to sub-page metrics and KPIs | |
Hromic et al. | Graph-based methods for clustering topics of interest in twitter | |
Lee et al. | An automatic topic ranking approach for event detection on microblogging messages | |
Guo et al. | A nonparametric model for event discovery in the geospatial-temporal space | |
White et al. | From devices to people: Attribution of search activity in multi-user settings | |
Tian et al. | Identifying tasks from mobile app usage patterns | |
Dohare et al. | Novel web usage mining for web mining techniques | |
Mele et al. | Event detection for heterogeneous news streams | |
Cui et al. | Topical event detection on twitter | |
CN111241156B (zh) | 基于事务数据收集的支持度计数评估方法 | |
Flores et al. | A lightweight and real-time worldwide earthquake detection and monitoring system based on citizen sensors | |
Abdelhaq et al. | On the locality of keywords in twitter streams | |
McGillivray et al. | Exploiting the Web for Semantic Change Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |