CN107886009A - 防隐私泄露的大数据生成方法和系统 - Google Patents

防隐私泄露的大数据生成方法和系统 Download PDF

Info

Publication number
CN107886009A
CN107886009A CN201711156094.1A CN201711156094A CN107886009A CN 107886009 A CN107886009 A CN 107886009A CN 201711156094 A CN201711156094 A CN 201711156094A CN 107886009 A CN107886009 A CN 107886009A
Authority
CN
China
Prior art keywords
data
sample
value
feature
random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711156094.1A
Other languages
English (en)
Other versions
CN107886009B (zh
Inventor
李影
岳阳
易可欣
吴中海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201711156094.1A priority Critical patent/CN107886009B/zh
Publication of CN107886009A publication Critical patent/CN107886009A/zh
Application granted granted Critical
Publication of CN107886009B publication Critical patent/CN107886009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Optimization (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公布了一种防隐私泄露的大数据生成方法及系统,涉及隐私保护及数据挖掘技术领域。通过数据合成方法,生成与原始数据相似但不包含真实敏感信息的数据;所生成的合成数据可供数据分析算法使用;数据分析算法使用所生成的合成数据可防止大数据分析过程中的隐私泄露。包括:对原始数据进行预处理;估计特征的概率分布;生成最近邻模型;生成随机样本;验证随机样本;后处理。系统包括数据处理模块、随机样本生成模块和随机样本验证模块。本发明通过合成数据的方式实现大数据生成,既能防止原始数据中的隐私泄露,同时又能保证数据样本的完整、不增加大数据分析的开销。

Description

防隐私泄露的大数据生成方法和系统
技术领域
本发明涉及隐私保护及数据挖掘技术领域,尤其涉及一种防止隐私泄露的大数据生成方法和系统。
背景技术
近几年来,随着大数据相关技术的发展,大数据分析得到了广泛的应用,深入到了各个领域和各个行业。借助大数据分析技术,购物网站可以向用户推荐感兴趣的商品,提高销售收入;景区可以预测客流高峰,提前做好应对措施保证服务质量;银行可以分析每笔交易记录,防止非授权交易的发生。尽管大数据分析给我们的生活和工作带来了诸多便利,也带来了一些隐私方面的问题。
为了进行大数据分析,大量与用户相关的数据,包括用户个人信息、偏好、浏览记录等,都被相关企业和组织收集起来以便进行分析。这些数据因为包含了用户的个人信息而变得非常敏感,在使用时稍有不慎就会造成个人隐私泄露。例如,用户的购物数据中通常包含电话号码、家庭住址以及银行卡号等信息,如果这些数据被泄露出去,会给用户造成很多麻烦并极易造成损失,包括接到骚扰电话、银行卡被盗刷、家中财务失窃等。同时,这些包含敏感信息的数据通常只能在企业和组织内部使用,无法将这些数据公开或开放给第三方使用,这也对大数据分析造成了一定的限制。
对于大数据分析中的数据隐私问题,目前常用的方法包括对数据进行脱敏处理、对数据进行加密或随机扰动。对数据脱敏处理是指将数据中包含敏感信息的部分删除,例如将数据中与用户相关的电话、年龄、住址等信息删除,这样使得数据中不再包含敏感的隐私信息;对数据进行加密或随机扰动是指将数据中的敏感信息通过加密算法进行加密处理,或者通过随机函数对原始数据进行随机扰动,使得原始的敏感信息不可见。
上述现有常用方法尽管能够解决有敏感数据导致的隐私泄露问题,但同时也给大数据分析带来了负面影响。例如,数据脱敏处理删除了原始数据中的一些信息,导致数据不完整,不利于深入分析;同时,脱敏处理也仅仅针对比较明显的隐私信息(如地址、电话等),而未被脱敏处理的部分(如用户浏览记录、购买偏好等)也能透漏出用户的一些隐私习惯。而对数据进行加密或随机扰动的方法,尽管敏感信息已经不可见,但由于加密和扰动操作增加了大数据分析相关算法的额外开销,降低了算法的效率;同时原始信息被修改,会对数据使用者造成一定困扰,从而影响数据分析的效果。因此,目前尚缺乏一种既能最大限度的保持原始数据的完整性、不增加大数据分析开销的同时又能防止隐私信息泄露的方法。
发明内容
为了克服上述现有技术的不足,本发明提供了一种防隐私泄露的大数据生成方法和系统,通过数据合成的方法生成与原始数据相似但不包含真实敏感信息的数据,以供数据分析算法使用来防止大数据分析过程中的隐私泄露。其中,本发明生成的合成数据与原始数据在统计上相似,即数据的平均值、方差等相近;同时,本发明生成的合成数据在结构上与形式上也与原始数据相似,基于合成数据训练的大数据分析算法(常用算法主要包括两类:回归和分类)可同样用于原始数据的分析任务,反之亦然。本发明既能保持数据的完整、不增加大数据分析的开销,同时也能防止隐私信息泄露。
本发明提供的技术方案是:
一种防隐私泄露的大数据生成方法,通过数据合成方法,生成与原始数据相似但不包含真实敏感信息的数据;所生成的合成数据与原始数据在统计上、在结构上与形式上均与原始数据相似,可供数据分析算法使用;数据分析算法使用所生成的合成数据可防止大数据分析过程中的隐私泄露;包括如下步骤:
(一)首先,输入的原始数据为多个数据样本,每个数据样本都是一个特征向量和目标值的二元组。
其中,特征向量通常包含多个变量,每个变量代表一个特征;目标值是大数据分析中需要进行预测的结果,如果目标值是离散的变量,如“晴天-0”、“阴天-1”,这样的数据通常用于分类分析任务,如果目标值是连续的变量,如一天内的气温,这样的数据通常用于回归分析任务。
原始数据输入后,需要对原始数据进行预处理,即将特征向量中的标签类型特征的特征值转换为连续的数值。
如果一个特征的取值是有限个数的、离散的标签值,则该特征为标签类型的特征,如性别特征的取值为“男”或“女”。预处理后的数据样本一方面用于生成一个最近邻模型,另一方面需要估计特征向量中每个特征的概率分布。
(二)针对预处理后的数据,首先划分为若干部分,然后估计每个部分的数据样本的每个特征的概率分布。
(三)针对预处理后的数据,依次计算所有样本间的距离,生成最近邻模型。
(四)基于估计得到的概率分布,对特征向量中的每个特征利用其概率分布随机生成一个随机数作为该特征的取值,所有特征上的取值组成一个随机样本。
(五)针对得到的随机样本,需对其进行验证。利用最近邻模型计算出随机样本的若干个最近邻,之后计算出该随机样本的置信度,若置信度满足置信度阈值,则将该随机样本视为合格。
(六)最后将所得到合格的随机样本进行后处理,即将预处理中转换过的标签类型变量进行逆向转换,变为原来的标签类型。
针对上述防隐私泄露的大数据生成方法,进一步地,数据预处理具体执行如下步骤:
11)接受输入的原始数据、用户对标签类型特征的标记。用户对标签类型特征的标记指的是特征向量中的哪几个变量为标签类型,例如特征向量中有5个变量,用户的标记为1,2,3,即第1、2、3个特征(变量)为标签类型,需要进行预处理。
12)针对每个被标记为标签类型变量的特征,对所有样本在该特征下的取值进行统计,得到该特征的所有取值(标签值)以及对应的频数。将区间[0,1]划分为若干子区间,每个子区间对应一个取值,子区间的长度与该取值的频数成正比,即该取值的频数越大,所对应的子区间越长。根据子区间的范围,计算出正态分布的两个参数σ和μ。
13)根据计算得到的正态分布的参数σ和μ,生成若干符合该正态分布的随机数,用这些随机数替换该特征下的对应取值。
14)多次重复步骤12)13),直至所有被用户标记的标签类特征被转换。
所述12)中的参数σ和μ的计算方法如下:
其中,a,b表示所对应的子区间的范围,即[a,b]。
针对上述防隐私泄露的大数据生成方法,进一步地,特征概率分布估计具体执行步骤如下:
21)针对用于分类任务的数据,按照数据样本中的目标值将数据样本划分为若干部分,每部分数据样本的目标值相同;
针对用于回归任务的数据,利用回归决策树算法将数据样本划分为若干部分,每部分数据样本的目标值接近。数据样本划分的个数由用户依据所输入的数据集决定,通常在2-6之间。
22)对于划分后的每部分数据样本,依次对他们的特征进行概率分布估计。首先针对每个特征,抽取样本在该特征上的特征值,得到一个数列。然后利用Kolmogorov-Smirnov检验计算与该数据列的分布最接近的常用概率分布(包括正态分布、指数分布、均匀分布、Beta分布等),将该概率分布视为该特征的概率分布。
针对用于回归任务的数据,除了需要估计特征的概率分布,目标值的概率分布也需要进行估计,方法同上。
23)多次重复步骤22),直至所有部分的数据样本的特征以及用于回归任务的数据的目标值都估计出了对应的概率分布。
针对上述防隐私泄露的大数据生成方法,进一步地,生成最近邻模型具体执行步骤如下:
31)用户输入最近邻参数k,表示计算出给定样本的k个最近邻样本,k缺省设置为5。
32)基于预处理后的全部数据样本,利用k-NN算法构造出最近邻模型。样本间的距离可以是欧几里得距离、余弦距离、曼哈顿距离等,缺省设置为欧几里得距离。
33)针对用于回归任务的数据,在此基础上还需计算目标值阈值,即基于每个样本的k个最近邻样本的目标值及其对应距离,计算出目标值间的加权平均阈值,之后将所有样本的加权平均阈值的平均值即为目标值的阈值。
所述32)中欧几里得距离的计算方法如式3:
其中,X和Y表示两个数据样本,m为其特征向量维度,xi和yi分别表示两个样本的特征向量的第i个特征值。
所述33)中每个样本的加权平均阈值计算方法如式4:
其中y表示该样本的目标值,yi表示k个最近邻中的第i个样本的目标值,di为对应的样本间的距离。
针对上述防隐私泄露的大数据生成方法,进一步地,生成随机样本具体执行步骤如下:
41)针对每一部分的数据样本,根据特征概率分布估计得到的概率分布,依次产生一个随机数表示该样本在该特征的取值,然后这些随机数就组成了该随机样本的特征向量。
42)如果该随机样本用于分类任务,则该随机样本的目标值为其所对应的部分的目标值;
如果该随机样本用于回归任务,则根据估计得到的其所对应部分的目标值的概率分布生成的随机数作为该随机样本的目标值。
43)重复步骤41)42)若干次,为每一部分的数据生成多个随机样本。
针对上述防隐私泄露的大数据生成方法,进一步地,步骤(五)验证随机样本具体执行步骤如下:
51)对生成的随机样本,利用最近邻模型计算出与其距离最近的k个原始样本及对应的距离,其中k与生成最近邻模型中的k一致。
52)根据得到的k个原始样本所属的部分,计算出该随机样本的置信度和其最近邻的多数样本所在的部分。将随机样本的置信度和置信度阈值比较,置信度阈值由用户设置,缺省为0.8。如果随机样本置信度高于置信度阈值,且随机样本的目标值与其最近邻的多数样本属于同一部分,则该随机样本被视为合格,反之则为不合格。
53)对于用于回归任务的随机样本,在上述步骤视为合格的基础上,还需要比较其目标值与最近邻目标值间的加权平均数是否满足目标值阈值,如果加权平均数满足目标值阈值,则该样本视为合格,反之则为不合格。
所述步骤52)中置信度的计算方法如式5:
其中,R为生成的随机样本,k为最近邻样本的个数,count(yR)为最近邻样本中与随机样本R属于同一部分的样本个数。
所述步骤53)中目标值与最近邻目标值间的加权平均数的计算方法如式6:
其中,y为生成的随机样本的目标值,yi表示k个最近邻中的第i个样本的目标值,di为对应的样本间的距离。
针对上述防隐私泄露的大数据生成方法,进一步地,所述数据后处理的具体执行步骤如下:
61)接受验证为合格的随机样本,和数据预处理步骤中用户对标签类型特征的标记,以及预处理过程中相应特征的各个特征值在区间[0,1]上的子区间的范围。
62)针对每个被标记为标签类型变量的特征,将对应的特征值与该特征对应的各个子区间的范围进行比较,该特征值在某个子区间内时,则将其替换为该子区间对应的标签值。
63)多次重复步骤62),直至所有被用户标记的标签类特征被转换为相应的标签值。
本发明还提供一种防隐私泄露的大数据生成系统,包括:数据处理模块模块、随机样本生成模块和随机样本验证模块;其中:
数据处理模块包括数据预处理器和数据后处理器。数据预处理器对原始数据进行预处理,根据用户对标签类型特征的标记,将这些特征的值从离散的标签转换为连续的数值。数据后处理器则是对合成的数据进行后处理,同样针对用户标记的标签类型特征,将这些特征的特征值转换为原始的离散标签。
随机样本生成模块包括概率分布估计器和随机样本生成器。概率分布估计器将数据样本划分为若干部分,针对每部分数据,依次对每个特征进行概率估计,计算得到与该特征分布最接近的常用的概率分布(包括正态分布、均匀分布、指数分布、Beta分布等)。随机样本生成器则根据概率分布估计器得到的每个特征的概率分布,依次为每个特征随机产生一个符合相应概率分布的数值作为特征值,得到一个随机样本。
随机样本验证模块包括最近邻模型生成器和随机样本验证器。最近邻模块生成器接受预处理后的全部数据样本,计算出样本间的距离(缺省为欧几里得距离),之后根据样本间的距离组成最近邻模型。随机样本验证器接受随机样本生成器生成的随机样本,并利用最近邻模型对该随机样本进行验证,将通过验证的随机样本视为合格。
与现有技术相比,本发明的有益效果是:
本发明提供一种防隐私泄露的大数据生成方法与系统,基于原始数据特征的概率分布,利用随机数来表示每个特征的特征值,这样既保留了原始数据在统计上的特征,又避免数据中包含敏感的隐私信息;利用最近邻模型对生成的随机样本进行验证,保证合成数据与原始数据在形式与结构上与原始数据相似,保证了针对合成数据的大数据分析技术可以直接用于原始数据,反之亦然。本发明利用合成数据的方式,既能防止原始数据中的隐私泄露,同时又能保证数据样本的完整、不增加大数据分析的开销。
附图说明
图1是本发明提供的防隐私泄露的大数据生成方法的流程框图。
图2是本发明实施例提供的防隐私泄露的大数据生成系统的结构框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种防隐私泄露的大数据生成方法,通过对特征的概率分布进行估计,并生成相应的随机数作为特征值组成随机样本,之后利用最近邻模型对其进行验证,得到不包含敏感隐私信息的合成数据。
图1是防隐私泄露的大数据生成方法的流程框图;图2是防隐私泄露的大数据生成系统的结构框图。
实施例提供的防隐私泄露的大数据生成系统以原始数据、标签类型特征的标记作为数据输入,包括数据处理模块、随机样本生成模块,以及随机样本验证模块。整个系统的流程如下:
首先,数据预处理器对输入的原始数据进行预处理,将所有被用户标记的标签类型的特征的特征值转换为连续的数值。预处理后的数据一方面由概率分布估计器处理,先被划分为若干部分,然后针对每部分数据一次估计其特征的概率分布,随机样本生成器基于这些概率分布生成对应的随机数作为该特征的特征值,由这些特征值组成随机样本;而另一方面,在最近邻模型生成器中,预处理后的全部数据需要计算样本间的距离,并生成最近邻模型,之后随机样本验证器利用最近邻模型来验证生成的随机样本是否合格。如果随机样本被验证为合格,则进行数据后处理,即将被用户标记的特征转换为原始的标签类型,最后输出得到的合成数据。
本实施例提供的防隐私泄露的大数据生成系统中,各个模块的操作通过与其他相关模块进行信息交互来完成,下面分别对不同的模块进行具体说明。
S1)数据处理模块
数据处理模块主要是接受输入的原始数据和对标签类型特征的标记,然后将原始数据的标签类型的特征值转换为连续的数值;将验证合格的随机样本中的对应的标签类型特征转换为原始的离散标签数值,并输出给用户。具体来说,该模块具有两个子模块:
S11)数据预处理器
数据预处理器主要是对输入的原始数据进行预处理,根据用户对标签类型特征的标记,将这些特征原本离散的标签值转换为连续的数值。针对每个需要转换的特征,首先需要统计该特征下各个标签值出现的频率,按照这些频率将区间[0,1]划分为若干个子区间,每个子区间对应一个标签值,且子区间长度与其频率成正比。然后根据每个子区间的范围生成一个正态分布,将原始数据中该特征下的该标签值替换为对应正态分布产生的随机数。预处理后的数据样本会传递给随机样本生成模块和随机样本验证模块,而转换过程中用到的子区间的范围等参数传递给数据后处理器。其中,子区间的范围参数为一个二元组,用以表示该标签值对应的子区间的最大值和最小值,例如子区间[0.1,0.2]的参数表示为二元组(0.1,0.2),表示该标签值被转换为0.1到0.2之间的任意数值。
S12)数据后处理器
数据后处理器的主要功能是接受随机样本验证模块输出的验证合格的随机样本,根据数据预处理器传递的各个标签类型特征下的各个特征值对应的子区间的二元组参数,将随机样本中该特征下的连续数值转换为原始的标签值。然后将转换后的样本作为最终的合成样本输出给用户。
S2)随机样本生成模块
随机数据生成模块基于数据样本特征向量的统计特点估计概率分布,然后利用这些概率分布生成的随机数作为对应特征的特征值,将这些随机生成的特征值组合起来得到了随机样本。
S21)概率分布估计器
首先,概率分布估计器将预处理后的数据样本划分为若干部分,如果数据用于分类任务则按照样本的目标值对数据进行划分,每个部分的样本的目标值相同;如果数据用于回归问题,则利用回归决策树算法对数据样本进行划分,划分的数目由用户决定,一般在2-6之间。
然后针对划分的每一部分数据,依次将特征向量中每个特征下的特征值抽取出来,得到一个数列,利用Kolmogorov-Smirnov检验计算与这个数列的分布最接近的常用概率分布(包括正态分布、均匀分布、指数分布、Beta分布等),并将该概率分布视为该特征的概率分布,其对应的参数为三元组,三元组中的第一个参数表示概率分布的名称,第二和第三个参数表示该概率分布的两个控制参数,例如(‘正态分布’,1.0,1.5)表示一个均值为1.0、标准差为1.5的正态分布。
针对用于回归任务的数据,除了需要对每个特征进行概率分布估计外,还需要对目标值的概率分布进行估计,方法同上,参数格式同上。
将概率分布估计得到的参数传递给随机样本生成器,用于生成随机样本。
S22)随机样本生成器
随机随机样本生成器接受概率分布估计器传递的参数,基于这些概率分布生成随机样本。由于概率分布估计器将数据样本划分为若干部分,因此随机样本生成器在生成随机样本是也需要针对特定划分部分。对于特定划分的数据,随机样本生成器依次按照概率分布三元组参数对每个特征产生一个符合该概率分布的随机数,将其作为该特征下的特征值。这些特征值一起组成了随机样本的特征向量。
针对用于分类任务的数据,随机样本的目标值与对应的数据划分部分的目标值相同;针对用户回归任务的数据,随机样本的目标值是其对应的数据划分部分的目标值的概率分布产生的随机数。
随机样本生成器按照用户要求生成若干随机样本,之后将这些随机样本传递给随机样本验证模块。
S3)随机样本验证模块
随机样本验证模块接受随机样本生成模块传递的随机样本数据,对这些随机样本数据进行验证,满足置信度阈值的随机样本被视为合格,并传递给数据处理模块进行后处理。
S31)最近邻模型生成器
最近邻模型生成器接受经数据处理模块预处理后的数据样本,依次计算样本间的距离(缺省为欧几里得距离),将与该样本距离最近的若干个样本作为该样本的最近邻,所有样本间的距离计算完成后,即得到最近邻模型,并传递给随机样本验证器。其中,最近邻的数目由用户设置,缺省值为5。
针对用于回归任务的数据,除了计算得到最近邻模型,还需计算出目标值阈值。首先对于每个样本,依次获得其最近邻的目标值以及对应的距离,计算出该样本目标值与其最近邻目标值间差值的加权平均数(权重与其距离成反比);然后将所有样本的该差值的加权平均数进行平均,即得到目标值阈值,该目标值阈值作为最近邻模型的一部分,一同传递给随机样本验证器。
S32)随机样本验证器
随机样本验证器利用最近邻模型生成器生成的最近邻模型,对随机样本生成模块生成的随机样本进行验证。首先,利用最近邻模型计算出随机样本的若干个最近邻(最近邻数目与最近邻模型生成器中的最近邻数目一致)。然后基于得到的最近邻样本所在的数据划分部分,计算该随机样本的置信度,如果置信度满足置信度阈值,则认为该随机样本合格。
针对用于回归任务的数据,在上述满足置信度阈值的基础上,还需验证其目标值是否满足最近邻模型的目标值阈值。基于最近邻样本的目标值及对应的距离,计算得到随机模型的目标值与最近邻目标值差值的加权平均数,如果该加权平均数低于目标值阈值,则认为该随机样本合格。
最后将所有验证为合格的随机样本传递给数据处理模块。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (10)

1.一种防隐私泄露的大数据生成方法,通过数据合成方法,生成与原始数据相似但不包含真实敏感信息的数据;所生成的合成数据可供数据分析算法使用;数据分析算法使用所生成的合成数据可防止大数据分析过程中的隐私泄露;所述大数据生成方法包括如下步骤:
1)以多个数据样本为原始数据,每个数据样本均为一个特征向量和目标值的二元组;特征向量包含多个变量,每个变量代表一个特征;目标值为大数据分析中需要进行预测的结果;对原始数据进行预处理,即将特征向量中的标签类型特征的特征值转换为连续的数值,预处理后的数据样本用于生成最近邻模型和估计特征向量中每个特征的概率分布;
2)针对预处理后的数据,首先划分为多个部分,然后估计得到每个部分的数据样本的每个特征的概率分布;
3)针对预处理后的数据,依次计算所有样本间的距离,生成最近邻模型;
4)基于估计得到的概率分布,对特征向量中的每个特征利用概率分布随机生成一个随机数,作为该特征的取值;所有特征上的取值组成一个随机样本;
5)针对得到的随机样本进行验证:利用最近邻模型计算出随机样本的多个最近邻,再计算得到该随机样本的置信度,设置置信度阈值,若置信度满足置信度阈值,则将该随机样本视为合格;
6)将所得到合格的随机样本进行后处理,即将预处理中转换过的标签类型变量进行逆向转换,变为原来的标签类型。
2.如权利要求1所述大数据生成方法,其特征是,步骤1)对原始数据进行预处理,具体执行如下操作:
11)对特征向量中变量的标签类型特征进行标记:若特征向量中的变量为标签类型,则标记该变量为标签类型变量;
12)针对每个被标记为标签类型变量的特征,对该特征下所有的取值进行统计,得到该特征的所有取值以及对应的频数;计算得到正态分布的两个参数σ和μ;
13)根据参数σ和μ生成多个符合该正态分布的随机数,用这些随机数替换该特征下的对应取值;
14)多次重复步骤12)~13),直至所有被标记的标签类特征被转换。
3.如权利要求2所述大数据生成方法,其特征是,12)中具体将区间[0,1]划分为若干子区间,每个子区间对应一个取值,子区间的长度与该取值的频数成正比;根据子区间的范围,通过式1、式2计算得到正态分布的两个参数σ和μ:
其中,a、b表示所对应的子区间的范围,即子区间的范围为[a,b];
步骤6)中,数据后处理具体执行如下操作:
61)接受验证为合格的随机样本,和数据预处理步骤中用户对标签类型特征的标记,以及预处理过程中相应特征的各个特征值在区间[0,1]上的子区间的范围;
62)针对每个被标记为标签类型变量的特征,将对应的特征值与该特征对应的各个子区间的范围进行比较,该特征值在某个子区间内时,则将其替换为该子区间对应的标签值;
63)多次重复步骤62),直至所有被用户标记的标签类特征被转换为相应的标签值。
4.如权利要求1所述大数据生成方法,其特征是,步骤2)基于估计得到特征的概率分布具体执行如下操作:
21)按照数据样本中的目标值将数据样本划分为多个部分,每部分数据样本的目标值相同;
22)对于划分后的每部分数据样本,依次对他们数据样本的特征进行概率分布估计:首先针对每个特征,抽取样本在该特征上的特征值,得到一个数列;然后利用Kolmogorov-Smirnov检验计算与该数列的分布最接近的常用概率分布,将该概率分布视为该特征的概率分布;当数据样本用于回归任务时,采用相同方法估计目标值的概率分布;
23)重复步骤22)多次,直至所有部分的数据样本的特征和用于回归任务的数据的目标值都估计得到相应的概率分布。
5.如权利要求4所述大数据生成方法,其特征是,21)中,针对用于回归任务的数据,利用回归决策树算法将数据样本划分为多个部分,每部分数据样本的目标值接近;数据样本划分的个数由用户依据所输入的数据集决定。
6.如权利要求1所述大数据生成方法,其特征是,步骤3)生成最近邻模型具体包括如下操作:
31)输入最近邻参数k,设定计算得到给定样本的k个最近邻样本;
32)基于预处理后的全部数据样本,利用k-NN算法构造得到最近邻模型;样本间的距离为欧几里得距离、余弦距离或曼哈顿距离;
33)针对用于回归任务的数据,还需计算目标值阈值,即基于每个样本的k个最近邻样本的目标值及其对应距离,计算得到目标值间的加权平均阈值,再将所有样本的加权平均阈值的平均值作为目标值的阈值。
7.如权利要求6所述大数据生成方法,其特征是,32)中,样本间的距离为欧几里得距离;通过式3计算得到所述欧几里得距离:
其中,X和Y表示两个数据样本,m为其特征向量维度,xi和yi分别表示两个样本的特征向量的第i个特征值;
33)中,具体通过式4计算得到所述每个样本的加权平均阈值:
其中,y表示该样本的目标值,yi表示k个最近邻中的第i个样本的目标值,di为对应的样本间的距离。
8.如权利要求1所述大数据生成方法,其特征是,步骤4)生成随机样本具体执行如下操作:
41)针对每一部分的数据样本,根据特征概率分布估计得到的概率分布,依次产生一个随机数表示该样本在该特征的取值,这些随机数即组成该随机样本的特征向量;
42)如果该随机样本用于分类任务,则该随机样本的目标值为其所对应的部分的目标值;如果该随机样本用于回归任务,则将估计得到的该随机样本所对应部分的目标值的概率分布生成的随机数作为该随机样本的目标值。
43)重复步骤41)~42)多次,为每一部分的数据生成多个随机样本。
9.如权利要求1所述大数据生成方法,其特征是,步骤5)中,验证随机样本具体执行如下操作:
51)对生成的随机样本,利用最近邻模型计算出与其距离最近的k个原始样本及对应的距离;
52)根据得到的k个原始样本所属的部分,计算出该随机样本的置信度和其最近邻的多数样本所在的部分;设置置信度阈值,将随机样本的置信度和置信度阈值进行比较,当随机样本置信度高于置信度阈值,且随机样本的目标值与其最近邻的多数样本属于同一部分时,该随机样本被视为合格,反之为不合格;通过式5计算得到随机样本的置信度:
其中,R为生成的随机样本,k为最近邻样本的个数,count(yR)为最近邻样本中与随机样本R属于同一部分的样本个数;
53)对于用于回归任务的随机样本,还需要比较随机样本的目标值与最近邻目标值间的加权平均数是否满足目标值阈值,如果加权平均数满足目标值阈值,则该样本视为合格,反之则为不合格;具体通过式6计算得到目标值与最近邻目标值间的加权平均数:
其中,y为生成的随机样本的目标值,yi表示k个最近邻中的第i个样本的目标值,di为对应的样本间的距离。
10.一种防隐私泄露的大数据生成系统,包括:数据处理模块模块、随机样本生成模块和随机样本验证模块;其中:
数据处理模块包括数据预处理器和数据后处理器;数据预处理器用于对原始数据进行预处理,根据标签类型特征的标记,将特征的值从离散的标签转换为连续的数值;数据后处理器用于对合成的数据进行后处理,针对标记的标签类型特征,将这些特征的特征值转换为原始的离散标签;
随机样本生成模块包括概率分布估计器和随机样本生成器;概率分布估计器用于将数据样本划分为多个部分,针对每部分数据,依次对每个特征进行概率估计,计算得到与该特征分布最接近的常用的概率分布;随机样本生成器用于根据概率分布估计器得到的每个特征的概率分布,依次为每个特征随机产生一个符合相应概率分布的数值作为特征值,得到一个随机样本;
随机样本验证模块包括最近邻模型生成器和随机样本验证器;最近邻模块生成器用于接受预处理后的全部数据样本,计算得到样本间的距离,再根据样本间的距离组成最近邻模型;随机样本验证器用于接受随机样本生成器生成的随机样本,并利用最近邻模型对该随机样本进行验证,将通过验证的随机样本视为合格;由此生成防隐私泄露的大数据。
CN201711156094.1A 2017-11-20 2017-11-20 防隐私泄露的大数据生成方法和系统 Active CN107886009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711156094.1A CN107886009B (zh) 2017-11-20 2017-11-20 防隐私泄露的大数据生成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711156094.1A CN107886009B (zh) 2017-11-20 2017-11-20 防隐私泄露的大数据生成方法和系统

Publications (2)

Publication Number Publication Date
CN107886009A true CN107886009A (zh) 2018-04-06
CN107886009B CN107886009B (zh) 2020-09-08

Family

ID=61778097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711156094.1A Active CN107886009B (zh) 2017-11-20 2017-11-20 防隐私泄露的大数据生成方法和系统

Country Status (1)

Country Link
CN (1) CN107886009B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135193A (zh) * 2019-05-15 2019-08-16 广东工业大学 一种数据脱敏方法、装置、设备及计算机可读存储介质
CN110197078A (zh) * 2018-04-28 2019-09-03 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN111506617A (zh) * 2019-01-31 2020-08-07 华为技术有限公司 一种基于用户数据生成标签的方法及装置
CN111539012A (zh) * 2020-03-19 2020-08-14 重庆特斯联智慧科技股份有限公司 一种边缘化架构的隐私数据分布存储系统和方法
WO2021180491A1 (en) * 2020-03-09 2021-09-16 Truata Limited System and method for generating synthetic datasets

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294967A (zh) * 2013-05-10 2013-09-11 中国地质大学(武汉) 大数据挖掘下的用户隐私保护方法及系统
CN102880834B (zh) * 2012-09-03 2014-12-10 西安交通大学 一种保持数据数字特征的隐私信息保护方法
CN105426534A (zh) * 2015-12-21 2016-03-23 华为技术有限公司 信息确定方法及装置
CN105975573A (zh) * 2016-05-04 2016-09-28 北京广利核系统工程有限公司 一种基于knn的文本分类方法
EP3203679A1 (en) * 2016-02-04 2017-08-09 ABB Schweiz AG Machine learning based on homomorphic encryption

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880834B (zh) * 2012-09-03 2014-12-10 西安交通大学 一种保持数据数字特征的隐私信息保护方法
CN103294967A (zh) * 2013-05-10 2013-09-11 中国地质大学(武汉) 大数据挖掘下的用户隐私保护方法及系统
CN105426534A (zh) * 2015-12-21 2016-03-23 华为技术有限公司 信息确定方法及装置
EP3203679A1 (en) * 2016-02-04 2017-08-09 ABB Schweiz AG Machine learning based on homomorphic encryption
CN105975573A (zh) * 2016-05-04 2016-09-28 北京广利核系统工程有限公司 一种基于knn的文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
B.B.PATIL 等: "Multidimensional k-anonymity for Protecting", 《2013 IEEE INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND COMPUTING RESEARCH》 *
JIANMING ZHU: "A New Scheme to Privacy-Preserving Collaborative Data Mining", 《2009 FIFTH INTERNATIONAL CONFERENCE ON INFORMATION ASSURANCE AND SECURITY》 *
LEI XU 等: "Information Security in Big Data:Privacy and Data Mining", 《IEEE ACCESS》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197078A (zh) * 2018-04-28 2019-09-03 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN110197078B (zh) * 2018-04-28 2023-01-24 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN111506617A (zh) * 2019-01-31 2020-08-07 华为技术有限公司 一种基于用户数据生成标签的方法及装置
CN111506617B (zh) * 2019-01-31 2023-10-20 华为技术有限公司 一种基于用户数据生成标签的方法及装置
CN110135193A (zh) * 2019-05-15 2019-08-16 广东工业大学 一种数据脱敏方法、装置、设备及计算机可读存储介质
WO2021180491A1 (en) * 2020-03-09 2021-09-16 Truata Limited System and method for generating synthetic datasets
CN111539012A (zh) * 2020-03-19 2020-08-14 重庆特斯联智慧科技股份有限公司 一种边缘化架构的隐私数据分布存储系统和方法

Also Published As

Publication number Publication date
CN107886009B (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
CN107886009A (zh) 防隐私泄露的大数据生成方法和系统
WO2020253358A1 (zh) 业务数据的风控分析处理方法、装置和计算机设备
Lekha et al. Data mining techniques in detecting and predicting cyber crimes in banking sector
CN110414987A (zh) 账户集合的识别方法、装置和计算机系统
Li et al. A review on privacy-preserving data mining
US11538044B2 (en) System and method for generation of case-based data for training machine learning classifiers
WO2023071105A1 (zh) 一种特征变量的分析方法、装置、计算机设备及存储介质
Tehrani et al. Decision tree based electricity theft detection in smart grid
Liu et al. Face image publication based on differential privacy
Ding et al. Efficient BiSRU combined with feature dimensionality reduction for abnormal traffic detection
Xu et al. A hybrid interpretable credit card users default prediction model based on RIPPER
Chen et al. A method for online transaction fraud detection based on individual behavior
Bao et al. Privacy-preserving collaborative filtering algorithm based on local differential privacy
CN108805211A (zh) 基于机器学习的智能业务类型感知方法
CN116911882B (zh) 一种基于机器学习的保险防欺诈预测方法及系统
Fan et al. FLSG: A Novel Defense Strategy Against Inference Attacks in Vertical Federated Learning
Mao et al. A novel model for voice command fingerprinting using deep learning
Sharma et al. Importance of Big Data in financial fraud detection
CN116823428A (zh) 一种反欺诈检测方法、装置、设备及存储介质
Gunes et al. Detecting shilling attacks in private environments
CN106874944A (zh) 一种基于Bagging和离群点的分类结果置信度的度量方法
CN111698223B (zh) 一种基于自动特征工程的加密web网站指纹识别方法
Tamtama et al. Increasing Accuracy of The Random Forest Algorithm Using PCA and Resampling Techniques with Data Augmentation for Fraud Detection of Credit Card Transaction
Kim et al. Temporal Patterns Discovery of Evolving Graphs for Graph Neural Network (GNN)-based Anomaly Detection in Heterogeneous Networks.
Pozi et al. Shifting Dataset to Preserve Data Privacy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant