CN111241156B - 基于事务数据收集的支持度计数评估方法 - Google Patents

基于事务数据收集的支持度计数评估方法 Download PDF

Info

Publication number
CN111241156B
CN111241156B CN202010014932.7A CN202010014932A CN111241156B CN 111241156 B CN111241156 B CN 111241156B CN 202010014932 A CN202010014932 A CN 202010014932A CN 111241156 B CN111241156 B CN 111241156B
Authority
CN
China
Prior art keywords
transaction data
item
evaluation method
degree counting
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010014932.7A
Other languages
English (en)
Other versions
CN111241156A (zh
Inventor
欧阳佳
肖政宏
刘少鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202010014932.7A priority Critical patent/CN111241156B/zh
Publication of CN111241156A publication Critical patent/CN111241156A/zh
Application granted granted Critical
Publication of CN111241156B publication Critical patent/CN111241156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于事务数据收集的支持度计数评估方法,包括以下步骤:假设项支持度计数Pa=#{ti|a∈ti,i∈[1,n]},项ai以及事务数据t,若ai∈t,收集到的事务数据t′中包含ai的概率定义为真正率TPR;若而收集到的事务数据t′中包含ai的概率定义为错正率FPR;项ai∈I以及含有n个用户的事务数据集D={t1,t2,t3,...,tn},数据收集者得到的事务数据集为D′={t′1,t′2,t′3,...,t′n},假设其真实的项分布为得出ai在隐私事务数据t′的期望频率;进一步得到 是对Pa的无偏估计。本发明提供了一种的新的支持度计数评估方法,能够更好的事务数据收集服务,同时将候选项集的样本空间划分为多个子空间,抽取其中一个子空间,基于该子空间随机生成事务数据并发送给不可信的数据收集者,同时保证了项支持度计数与频繁项集挖掘的效用性。

Description

基于事务数据收集的支持度计数评估方法
技术领域
本发明涉及数据收集技术领域,具体来说,尤其涉及一种基于事务数据收集的支持度计数评估方法。
背景技术
事务数据是项的集合,其中包含丰富的信息并可应用于不同的场景(如:购买的商品,看过的电影记录,搜索日志,网页浏览历史等)。随着大数据技术的发展,海量的事务数据被收集,其中蕴含丰富的知识,数据收集者通过数据分析(如:协同过滤、关联规则等),基于得到的模型为用户提供更好的服务。
然而,事务数据中往往包含个人隐私信息,如搜索网页时产生的搜索日志会泄露自己的健康状态、居住地点等信息;网上购物时产生的购物记录将泄露自己所购买的隐私物品,甚至会泄露自己的购物习惯以及行为模式;浏览网页时产生的WEB点击流将泄露自己的上网习惯等等。如果不采取任何保护措施直接收集并分析用户的数据,将会导致个人隐私信息的泄露,造成严重危害。震惊世界的AOL日志隐私泄露事件已敲响警钟,因隐私泄露所带来的困扰将严重影响着人们的合法权益和生活质量。
目前,事务数据隐私保护发布是研究热点,大多数研究是将真实完整的事务数据发送到数据中心,并假设数据中心或数据收集者是可信的。数据收集者对数据进行扰乱处理后,发布满足差分隐私约束的数据集或相关统计信息,该方法统称为中心化差分隐私技术。但尽管数据收集者宣称不会泄露或窃取用户的敏感信息,但在商业或利益的驱使下,用户隐私很难得到保证,因此假设数据中心或数据收集者是可信的这一点是不切实际的。
在事务数据的收集过程中,找到一种好的基于事务数据收集的支持度计数评估方法一直是业界的难题之一。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的在于提供一种基于事务数据收集的支持度计数评估方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:基于事务数据收集的支持度计数评估方法,包括以下步骤:
a1.假设项支持度计数考虑项ai以及事务数据t,如果ai∈t,收集到的事务数据t′中同样包含ai的概率定义为真正率TPR;
a2.如果而收集到的事务数据t′中包含ai的概率定义为错正率FPR;
a3.考虑项ai∈I以及含有n个用户的事务数据集D={t1,t2,t3,...,tn},数据收集者得到的事务数据集为D′={t1′,t2′,t3′,...,t′n},假设其真实的项分布为得出ai在隐私事务数据t′的期望频率;
a4.进一步得到 是对Pa的无偏估计。
进一步地,TPR的计算公式为:
假设样本空间大小为隐私参数α,事务数据t的长度均为m,项集域的大小d,样本空间划分为k+1个子样本空间,每个子样本空间中的候选项集与t的交集大小inter是相同的,其范围为[0,k],项的数目为k-inter。
进一步地,FPR的计算公式为:
进一步地,步骤a3的期望频率为:
其中前半段表示保留下来真实的ai,而后半段/>代表噪音。
进一步地,步骤a4的值为:
进一步地,(3-8)和(3-9)可变形为:
与现有技术相比,本发明具有以下有益效果:(1)本发明提供了一种的新的支持度计数评估方法,能够更好的事务数据收集服务;(2)本发明将候选项集的样本空间划分为多个子空间,抽取其中一个子空间,基于该子空间随机生成事务数据并发送给不可信的数据收集者,同时保证了项支持度计数与频繁项集挖掘的效用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明一种基于事务数据收集的支持度计数评估方法的示意图;
图2是根据本发明一种基于事务数据收集的支持度计数评估方法的样本子空间及对应的抽样概率。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤,所述处理可以对应于方法、函数、规程、子例程、子程序等等。
基于事务数据收集的支持度计数评估方法,包括以下步骤:
a1.假设项支持度计数Pa=#{ti|a∈ti,i∈[1,n]},考虑项ai以及事务数据t,如果ai∈t,收集到的事务数据t′中同样包含ai的概率定义为真正率TPR;
a2.如果而收集到的事务数据t′中包含ai的概率定义为错正率FPR;
a3.考虑项ai∈I以及含有n个用户的事务数据集D={t1,t2,t3,...,tn},数据收集者得到的事务数据集为D′={t1′,t2′,t3′,...,t′n},假设其真实的项分布为得出ai在隐私事务数据t′的期望频率;
a4.进一步得到 是对Pa的无偏估计。
进一步地,TPR的计算公式为:
假设样本空间大小为隐私参数α,事务数据t的长度均为m,项集域的大小d,样本空间划分为k+1个子样本空间,每个子样本空间中的候选项集与t的交集大小inter是相同的,其范围为[0,k],项的数目为k-inter。
进一步地,FPR的计算公式为:
进一步地,步骤a3的期望频率为:
其中前半段表示保留下来真实的ai,而后半段/>代表噪音。
进一步地,步骤a4的值为:
进一步地,(3-8)和(3-9)可变形为:
本发明提供的新的支持度计数评估方法,能够更好的事务数据收集服务,同时将候选项集的样本空间划分为多个子空间,抽取其中一个子空间,基于该子空间随机生成事务数据并发送给不可信的数据收集者,同时保证了项支持度计数与频繁项集挖掘的效用性。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限定本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.基于事务数据收集的支持度计数评估方法,其特征在于,包括以下步骤:
a1.假设项支持度计数考虑项ai以及事务数据t,如果ai∈t,收集到的事务数据t′中同样包含ai的概率定义为真正率TPR;
a2.如果而收集到的事务数据t′中包含ai的概率定义为错正率FPR;
a3.考虑项ai∈I以及含有n个用户的事务数据集D={t1,t2,t3,...,tn},数据收集者得到的事务数据集为D′={t′1,t′2,t′3,...,t′n},假设其真实的项分布为得出ai在隐私事务数据t′的期望频率;
a4.进一步得到是对Pa的无偏估计;
所述步骤a3的期望频率为:
其中前半段表示保留下来真实的ai,而后半段/>代表噪音;
所述步骤a4的值为:
所述(3-8)和(3-9)可变形为:
所述TPR的计算公式为:
假设样本空间大小为隐私参数α,事务数据t的长度均为m,项集域的大小d,样本空间划分为k+1个子样本空间,每个子样本空间中的候选项集与t的交集大小inter是相同的,其范围为[0,k],项的数目为k-inter;
所述FPR的计算公式为:
CN202010014932.7A 2020-01-07 2020-01-07 基于事务数据收集的支持度计数评估方法 Active CN111241156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010014932.7A CN111241156B (zh) 2020-01-07 2020-01-07 基于事务数据收集的支持度计数评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010014932.7A CN111241156B (zh) 2020-01-07 2020-01-07 基于事务数据收集的支持度计数评估方法

Publications (2)

Publication Number Publication Date
CN111241156A CN111241156A (zh) 2020-06-05
CN111241156B true CN111241156B (zh) 2024-02-27

Family

ID=70879906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010014932.7A Active CN111241156B (zh) 2020-01-07 2020-01-07 基于事务数据收集的支持度计数评估方法

Country Status (1)

Country Link
CN (1) CN111241156B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409128A (zh) * 2018-10-30 2019-03-01 南京邮电大学 一种面向差分隐私保护的频繁项集挖掘方法
CN109741112A (zh) * 2019-01-10 2019-05-10 博拉网络股份有限公司 一种基于移动大数据的用户购买意向预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409128A (zh) * 2018-10-30 2019-03-01 南京邮电大学 一种面向差分隐私保护的频繁项集挖掘方法
CN109741112A (zh) * 2019-01-10 2019-05-10 博拉网络股份有限公司 一种基于移动大数据的用户购买意向预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Shaowei Wang等."PrivSet: Set-Valued Data Analyses with Local Differential Privacy".《IEEE INFOCOM 2018 - IEEE Conference on Computer Communications》.2018,第1088-1096页. *
欧阳佳等."差分隐私模型的启发式隐私参数设置策略".《计算机应用研究》.2019,全文. *

Also Published As

Publication number Publication date
CN111241156A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
Parekh et al. Studying jihadists on social media: A critique of data collection methodologies
US10389745B2 (en) System and methods for detecting bots real-time
Wang et al. Should we use the sample? Analyzing datasets sampled from Twitter’s stream API
US7694311B2 (en) Grammar-based task analysis of web logs
JP5722783B2 (ja) 傾向の識別に基づくユーザへのカスタマイズ情報の提供
US20220365996A1 (en) Real-time event detection on social media streams
JP5092165B2 (ja) データ構築方法とシステム
El Alaoui et al. The impact of big data quality on sentiment analysis approaches
Jayaweera et al. Crime analytics: Analysis of crimes through newspaper articles
Lee et al. Leveraging microblogging big data with a modified density-based clustering approach for event awareness and topic ranking
US10467255B2 (en) Methods and systems for analyzing reading logs and documents thereof
Ren et al. Understanding the predictability of user demographics from cyber-physical-social behaviours in indoor retail spaces
Kirsh et al. Splitting the web analytics atom: from page metrics and KPIs to sub-page metrics and KPIs
Hromic et al. Graph-based methods for clustering topics of interest in twitter
Lee et al. An automatic topic ranking approach for event detection on microblogging messages
Guo et al. A nonparametric model for event discovery in the geospatial-temporal space
White et al. From devices to people: Attribution of search activity in multi-user settings
Tian et al. Identifying tasks from mobile app usage patterns
Dohare et al. Novel web usage mining for web mining techniques
Mele et al. Event detection for heterogeneous news streams
Cui et al. Topical event detection on twitter
CN111241156B (zh) 基于事务数据收集的支持度计数评估方法
Flores et al. A lightweight and real-time worldwide earthquake detection and monitoring system based on citizen sensors
Abdelhaq et al. On the locality of keywords in twitter streams
McGillivray et al. Exploiting the Web for Semantic Change Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant