CN112989425B - 基于差分隐私的信用数据隐私保护方法及其系统 - Google Patents

基于差分隐私的信用数据隐私保护方法及其系统 Download PDF

Info

Publication number
CN112989425B
CN112989425B CN202110451141.5A CN202110451141A CN112989425B CN 112989425 B CN112989425 B CN 112989425B CN 202110451141 A CN202110451141 A CN 202110451141A CN 112989425 B CN112989425 B CN 112989425B
Authority
CN
China
Prior art keywords
privacy protection
column
credit data
algorithm
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110451141.5A
Other languages
English (en)
Other versions
CN112989425A (zh
Inventor
吕从东
张晓东
孙周宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING AUDIT UNIVERSITY
Original Assignee
NANJING AUDIT UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING AUDIT UNIVERSITY filed Critical NANJING AUDIT UNIVERSITY
Priority to CN202110451141.5A priority Critical patent/CN112989425B/zh
Publication of CN112989425A publication Critical patent/CN112989425A/zh
Application granted granted Critical
Publication of CN112989425B publication Critical patent/CN112989425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)

Abstract

本发明提供一种基于差分隐私的信用数据隐私保护方法及其系统,方法包括如下步骤:S1:用户输入参数,其中输入参数包括:信用数据集和对应信用数据集的隐私保护需求参数;S2:设定隐私保护需求参数的每个数值对应一个算法;S3:根据用户提供调用接口获取用户的信用数据集;S4:获取信用数据集的隐私保护需求参数的数值;S5:根据隐私保护需求参数的数值采用对应的算法得到隐私保护处理后的信用数据集,分别通过四个算法保护信用数据。本发明解决了在信用数据的数字型的隐私数据处理,满足差分隐私要求,可以有效的保护信用数据,使得数据在传输或者使用过程中不会泄露用户的隐私数据,并达到不同等级的数据保护。

Description

基于差分隐私的信用数据隐私保护方法及其系统
技术领域
本发明涉及隐私保护的技术领域,具体涉及一种基于差分隐私的信用数据隐私保护方法及其系统。
背景技术
随着互联网技术的飞速发展,整个社会被强行推入“大数据”时代,不管人们是否愿意,我们的个人数据正在不经意间被动地被企业、个人搜集并使用。个人数据的网络化和透明化已经成为不可阻挡的大趋势。信用数据更是个人隐私数据的集中地,在数据融合过程中,无论数据是否来开本地,都会被机器学习模型所接触,会造成隐私数据的泄漏。因此,将信用数据进行隐私保护,使机器学习模型无法接触原始数据非常必要。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明了一种可实现信用数据隐私保护的基于差分隐私的信用数据隐私保护方法及其系统。
本发明提供一种基于差分隐私的信用数据隐私保护方法,包括如下步骤:
S1:用户输入参数,其中输入参数包括:信用数据集和对应信用数据集的隐私保护需求参数,设定隐私保护需求参数的数值为正整数,其范围为1-4;
S2:设定隐私保护需求参数的每个数值对应一个算法;
S3:根据用户提供调用接口获取用户的信用数据集;
S4:获取信用数据集的隐私保护需求参数的数值;
S5:根据隐私保护需求参数的数值采用对应的算法得到隐私保护处理后的信用数据集,得到所述隐私保护处理后的信用数据集的具体方法如下:
如果隐私保护需求参数的数值等于1,则调用单列隐私保护算法,所述单列隐私保护算法针对单列的隐私保护,对这一列中所有的数据,使用相同的输入参数进行计算,得到隐私保护处理后的信用数据集传送给数据使用者;
如果隐私保护需求参数的数值等于2,则调用多列隐私保护算法,所述多列隐私保护算法的每一列都使用相同的输入参数,使用相同的输入参数进行计算,得到隐私保护处理后的信用数据集传送给数据使用者;
如果隐私保护需求参数的数值等于3,则调用多列非同隐私保护算法,所述多列非同隐私保护算法对每列中所有的数据使用相同的输入参数进行计算,不同列使用不同的输入参数,最后把隐私保护处理后的信用数据集传送给数据使用者;
如果隐私保护需求参数的数值等于4,则调用单行多列非同隐私保护算法,所述单行多列非同隐私保护算法对该行不同列的数据,使用不同的输入参数进行计算,得到隐私保护处理后的信用数据集传送给数据使用者。
优选地,所述单列隐私保护算法输入的参数包括信用数据集、列数和隐私保护参数,所述单列隐私保护算法的具体方法为:将该列的信用数据集、列数和隐私保护参数传递给所述单列隐私保护算法,对该列所有的数据,使用相同的输入参数进行计算,得到隐私保护处理后的信用数据集传送给数据使用者。
优选地,所述单列隐私保护算法的具体步骤如下:
步骤1:如果列号向量为空,即用户不指定列号,则使用随机函数随机生成列号;如果隐私保护参数向量为空,即用户不指定隐私保护参数,则使用随机函数随机生成隐私保护参数;
步骤2:读取列中每一个单元格中的值,使用拉普拉斯分布函数及隐私保护参数计算噪声,隐私保护处理后的信用数据集等于原始数据加上噪声;
步骤3:将隐私保护处理后的信用数据集写回表中,即输出隐私保护处理后的信用数据集。
优选地,所述多列隐私保护算法输入的参数包括多列的信用数据集、列号向量和隐私保护参数;所述多列隐私保护算法的具体方法为:将多列的信用数据集、列号向量和隐私保护参数传递给所述多列隐私保护算法,对每列中所有的数据,使用相同的输入参数进行计算,得到隐私保护处理后的信用数据集传送给数据使用者。
优选地,所述多列隐私保护算法的具体步骤如下:
步骤1:如果列号向量为空,即用户不指定列号,则使用随机函数随机生成列号;如果隐私保护参数向量空,即用户不指定隐私保护参数,则使用随机函数随机生成隐私保护参数;
步骤2:对于每一列,读取列中每一个单元格中的值以及隐私保护参数,然后使用拉普拉斯分布函数和相同隐私保护参数进行计算噪声,隐私保护处理后的信用数据集等于原始数据加上噪声;
步骤3:将隐私保护处理后的信用数据集写回表中。
优选地,所述多列非同隐私保护算法输入的参数包括多列的信用数据集、列号向量和隐私保护参数向量,所述多列非同隐私保护算法的具体方法为:将多列的信用数据集、列号向量、隐私保护参数向量传递给所述多列非同隐私保护算法,对每列中所有的数据,使用相同的输入参数进行计算,不同列使用不同的输入参数,得到隐私保护处理后的信用数据集传送给数据使用者。
优选地,所述多列非同隐私保护算法的具体步骤如下:
步骤1:如果列号向量为空,即用户不指定列号,则使用随机函数随机生成列号;
步骤2:如果隐私保护参数向量为空,即用户不指定隐私保护参数,则使用随机函数随机生成隐私保护参数;
步骤3:对于每一列,读取列中每一个单元格中的值以及该列的隐私保护参数,然后使用拉普拉斯分布函数和隐私保护参数进行计算噪声,隐私保护处理后的信用数据集于原始数据加上噪声;
步骤4:将隐私保护处理后的信用数据集写回表中。
优选地,所述单行多列非同隐私保护算法输入的参数包括单行多列的信用数据集、行号、列号向量和隐私保护参数向量;所述单行多列非同隐私保护算法的具体方法为:并将该单行多列的信用数据集、行数、列号向量和隐私保护参数向量传递给所述单行多列非同隐私保护算法,对该行不同列的数据,使用不同的输入参数进行计算,得到隐私保护处理后的信用数据集传送给数据使用者。
优选地,所述单行多列非同隐私保护算法的具体步骤如下:
步骤1:如果行号不存在或者列号向量为空,即用户不指定行号、列号,则使用随机函数随机生成行号和多列号;如果隐私保护参数向量为空,即用户指定多个隐私保护参数,如果用户不指定隐私保护参数,则使用随机函数随机生成多个隐私保护参数;
步骤2:读取列中每一个单元格中的值,然后使用拉普拉斯分布函数和隐私保护参数进行计算噪声,隐私保护处理后的信用数据集等于原始数据加上噪声;
步骤3:将隐私保护处理后的信用数据集写回表中。
本发明还提供一种基于差分隐私的信用数据隐私保护系统,其包括:
数据采集模块,用于根据用户提供调用接口获取用户的信用数据集;
参数获取模块,用于获取信用数据集的隐私保护需求参数的数值,其中隐私保护需求参数的数值为正整数,且范围为1-4;
算法调用模块,用于根据输入参数获取隐私保护处理后的信用数据集;
其中算法调用模块包括调用单列隐私保护算法的第一算法调用模块、调用多列隐私保护算法的第二算法调用模块、调用多列非同隐私保护算法的第三算法调用模块和调用单行多列非同隐私保护算法的第四算法调用模块。
本发明基于差分隐私的信用数据隐私保护方法及其系统,解决了在信用数据的数字型的隐私数据处理,满足差分隐私要求,可以有效的保护信用数据,使得数据在传输或者使用过程中不会泄露用户的隐私数据,并达到不同等级的数据保护。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一个实施例所述的基于差分隐私的信用数据隐私保护方法的流程示意图;
图2为本发明一个实施例所述的基于差分隐私的信用数据隐私保护系统的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1所示,本发明基于差分隐私的信用数据隐私保护方法,通过数据隐私保护集成算法为用户提供调用接口,在本实施例中,将数据隐私保护集成算法命名为PPI,本发明信用数据隐私保护方法的输入参数包括:信用数据集
Figure 766407DEST_PATH_IMAGE001
、隐私保护需求参数
Figure 904128DEST_PATH_IMAGE002
、行数
Figure 366333DEST_PATH_IMAGE003
、列数
Figure 573192DEST_PATH_IMAGE004
、列号向量
Figure 44625DEST_PATH_IMAGE005
、隐私保护参数ε和由多个隐私保护参数ε组成的隐私保护参数向量
Figure 36852DEST_PATH_IMAGE006
,通过数据隐私保护集成算法PPI获得隐私保护处理后的信用数据集
Figure 669958DEST_PATH_IMAGE007
其中,信用数据集
Figure 629693DEST_PATH_IMAGE001
是收集到的关于个人或者企业的信用信息,包括姓名、年龄、年收入(企业年营业额)等,信用数据集
Figure 639237DEST_PATH_IMAGE001
的每一行为一条信用数据,属于一个人或者一个企业,对信用数据集
Figure 485971DEST_PATH_IMAGE001
的每一行进行标号,记为行号
Figure 555558DEST_PATH_IMAGE003
;信用数据集
Figure 737009DEST_PATH_IMAGE001
的每一列为个人或者企业一个属性,例如姓名,并对其进行编号,记为列号
Figure 815824DEST_PATH_IMAGE004
隐私保护需求参数
Figure 782643DEST_PATH_IMAGE002
的数值是一个整数,范围是1-4,设定隐私保护需求参数
Figure 757552DEST_PATH_IMAGE002
的每个数值对应一个算法,每个算法具有对应的参数进行隐私保护。
其中,当隐私保护需求参数
Figure 712387DEST_PATH_IMAGE002
等于1,则调用第一算法(即算法1,单列隐私保护算法
Figure 63734DEST_PATH_IMAGE008
),所述单列隐私保护算法
Figure 885059DEST_PATH_IMAGE008
针对单列的隐私保护;当隐私保护需求参数
Figure 30870DEST_PATH_IMAGE002
等于2,则调用第二算法(即算法2,多列隐私保护算法
Figure 186913DEST_PATH_IMAGE009
),所述多列隐私保护算法
Figure 607530DEST_PATH_IMAGE009
的每一列都使用相同的输入参数;当隐私保护需求参数
Figure 283362DEST_PATH_IMAGE002
等于3,调用第三算法(即算法3,多列非同隐私保护算法
Figure 865653DEST_PATH_IMAGE010
),所述多列非同隐私保护算法
Figure 259726DEST_PATH_IMAGE010
)对每列中所有的数据使用相同的输入参数进行计算,不同列使用不同的输入参数;当隐私保护需求参数
Figure 202143DEST_PATH_IMAGE002
等于4,调用第四算法(即算法4,单行多列非同隐私保护算法
Figure 998060DEST_PATH_IMAGE011
),所述单行多列非同隐私保护算法
Figure 16832DEST_PATH_IMAGE011
对该行不同列的数据,使用不同的输入参数进行计算。
行数
Figure 632621DEST_PATH_IMAGE003
代表了第
Figure 378729DEST_PATH_IMAGE003
行的数据记录。
列数
Figure 29153DEST_PATH_IMAGE004
代表了第
Figure 953247DEST_PATH_IMAGE004
行的数据记录。
列号向量
Figure 321911DEST_PATH_IMAGE005
代表是一个列号的向量,可以为空,列号向量
Figure 609061DEST_PATH_IMAGE005
的上限是个人或者企业的属性个数。
隐私保护参数向量
Figure 113991DEST_PATH_IMAGE006
代表了对于数据添加噪声的大小,一般取值范围是0-1间的实数,0代表了不添加噪声。
其中,差分隐私是针对统计数据库的隐私泄露问题提出的一种新的隐私定义。
本发明于差分隐私的信用数据隐私保护方法,包括如下步骤:
S1:用户输入参数,其中输入参数包括:信用数据集
Figure 474566DEST_PATH_IMAGE001
和对应信用数据集
Figure 64947DEST_PATH_IMAGE001
的隐私保护需求参数
Figure 903590DEST_PATH_IMAGE002
,设定隐私保护需求参数
Figure 777874DEST_PATH_IMAGE002
的数值为正整数,其范围为1-4;
S2:设定隐私保护需求参数
Figure 309349DEST_PATH_IMAGE002
的每个数值对应一个算法;
S3:根据用户提供调用接口获取用户的信用数据集
Figure 121448DEST_PATH_IMAGE001
,对信用数据集
Figure 763782DEST_PATH_IMAGE001
的每一行和每一列进行编号,其中行号为1、2、3、…、
Figure 492572DEST_PATH_IMAGE003
,列号为1、2、3、…、
Figure 929370DEST_PATH_IMAGE004
,其中
Figure 759922DEST_PATH_IMAGE003
Figure 940368DEST_PATH_IMAGE004
均为正整数;
S4:获取信用数据集
Figure 539977DEST_PATH_IMAGE001
的隐私保护需求参数
Figure 396943DEST_PATH_IMAGE002
S5:根据隐私保护需求参数
Figure 183633DEST_PATH_IMAGE002
的数值采用对应的算法得到隐私保护处理后的信用数据集
Figure 167770DEST_PATH_IMAGE007
,得到隐私保护处理后的信用数据集
Figure 887464DEST_PATH_IMAGE012
的具体方法如下:
如果隐私保护需求参数
Figure 912402DEST_PATH_IMAGE002
的数值等于1,则调用第一算法(即算法1,单列隐私保护算法
Figure 186389DEST_PATH_IMAGE008
),所述单列隐私保护算法
Figure 708637DEST_PATH_IMAGE008
针对单列的隐私保护,对这一列中所有的数据,使用相同的输入参数进行计算,得到隐私保护处理后的信用数据集
Figure 282838DEST_PATH_IMAGE007
传送给数据使用者;
如果隐私保护需求参数
Figure 232339DEST_PATH_IMAGE002
的数值等于2,则调用第二算法(即算法2,多列隐私保护算法
Figure 508469DEST_PATH_IMAGE009
),所述多列隐私保护算法
Figure 568829DEST_PATH_IMAGE009
)的每一列都使用相同的输入参数,使用相同的输入参数进行计算,得到隐私保护处理后的信用数据集传送给数据使用者;
如果隐私保护需求参数
Figure 997536DEST_PATH_IMAGE002
的数值等于3,调用第三算法(即算法3,多列非同隐私保护算法
Figure 117939DEST_PATH_IMAGE010
),所述多列非同隐私保护算法
Figure 881364DEST_PATH_IMAGE010
)对每列中所有的数据使用相同的输入参数进行计算,不同列使用不同的输入参数ε,最后把数据传送给数据使用者;
如果隐私保护需求参数
Figure 479836DEST_PATH_IMAGE002
的数值等于4,调用第四算法(即算法4,单行多列隐私保护算法
Figure 763050DEST_PATH_IMAGE011
),所述单行多列隐私保护算法
Figure 54354DEST_PATH_IMAGE011
对该行不同列的数据,使用不同的输入参数进行计算,得到隐私保护处理后的信用数据集传送给数据使用者。
通过上述步骤完成了隐私保护,得到隐私保护处理后的信用数据集
Figure 39496DEST_PATH_IMAGE007
传送给数据使用者(即用户)。
第一算法为单列隐私保护算法
Figure 707238DEST_PATH_IMAGE008
,第一算法输入的参数(Input)包括信用数据集
Figure 110537DEST_PATH_IMAGE001
、列数
Figure 572743DEST_PATH_IMAGE004
和隐私保护参数ε,第一算法的具体步骤如下:
步骤1:如果列号向量
Figure 48111DEST_PATH_IMAGE005
为空,即用户不指定列号,则使用随机函数随机生成列号(即
Figure 519543DEST_PATH_IMAGE013
);如果隐私保护参数向量
Figure 511770DEST_PATH_IMAGE006
为空,即用户不指定隐私保护参数,则使用随机函数随机生成隐私保护参数(即
Figure 144877DEST_PATH_IMAGE014
);
步骤2:读取列中每一个单元格中的值,使用拉普拉斯分布函数及隐私保护参数计算噪声(即:
Figure 120923DEST_PATH_IMAGE015
),隐私保护处理后的信用数据集
Figure 379735DEST_PATH_IMAGE007
等于原始数据(即信用数据集
Figure 226468DEST_PATH_IMAGE001
)加上噪声;
步骤3:将隐私保护处理后的信用数据集
Figure 296055DEST_PATH_IMAGE007
写回表中,即输出(Output)隐私保护处理后的信用数据集
Figure 228239DEST_PATH_IMAGE007
通过上述步骤完成第一算法,得到隐私保护处理后的信用数据集
Figure 290742DEST_PATH_IMAGE007
具体地,针对第一算法,将该列的信用数据集
Figure 991982DEST_PATH_IMAGE001
、列数
Figure 498050DEST_PATH_IMAGE004
和隐私保护参数ε传递给第一算法,对该列所有的数据,使用相同的输入参数(具体如公式(1))进行计算,得到隐私保护处理后的信用数据集
Figure 651950DEST_PATH_IMAGE007
传送给数据使用者(即用户):
Figure 518144DEST_PATH_IMAGE016
(1)。
第二算法为多列隐私保护算法
Figure 339470DEST_PATH_IMAGE009
,输入参数包括多列的信用数据集
Figure 750859DEST_PATH_IMAGE001
、列号向量
Figure 657636DEST_PATH_IMAGE005
和隐私保护参数ε,第二算法的具体步骤如下:
步骤1:如果列号向量
Figure 78253DEST_PATH_IMAGE005
为空,即用户不指定列号,则使用随机函数随机生成列号(即
Figure 734843DEST_PATH_IMAGE017
);如果隐私保护参数向量
Figure 582713DEST_PATH_IMAGE006
为空,即用户不指定隐私保护参数,则使用随机函数随机生成隐私保护参数(即
Figure 976786DEST_PATH_IMAGE018
);
步骤2:对于每一列,读取列中每一个单元格中的值x以及隐私保护参数
Figure 669935DEST_PATH_IMAGE019
,然后使用拉普拉斯分布函数和相同隐私保护参数进行计算噪声(即
Figure 715120DEST_PATH_IMAGE020
),隐私保护处理后的信用数据集
Figure 202734DEST_PATH_IMAGE007
等于原始数据(即信用数据集
Figure 84102DEST_PATH_IMAGE001
)加上噪声;
步骤3:将隐私保护处理后的信用数据集
Figure 580942DEST_PATH_IMAGE007
写回表中。
通过上述步骤完成第二算法,得到隐私保护处理后的信用数据集
Figure 480634DEST_PATH_IMAGE007
具体地,针对第二算法,并将多列的信用数据集
Figure 404728DEST_PATH_IMAGE001
、列号向量
Figure 507813DEST_PATH_IMAGE005
和隐私保护参数ε传递给第二算法,对每列中所有的数据,使用相同的输入参数(具体如公式(2))进行计算,得到隐私保护处理后的信用数据集
Figure 542765DEST_PATH_IMAGE007
传送给数据使用者(即用户):
Figure 562543DEST_PATH_IMAGE021
(2)。
第三算法为多列非同隐私保护算法
Figure 657538DEST_PATH_IMAGE010
,输入参数包括多列的信用数据集
Figure 247919DEST_PATH_IMAGE001
、列号向量
Figure 352141DEST_PATH_IMAGE022
和隐私保护参数向量
Figure 229355DEST_PATH_IMAGE006
,第三算法的具体步骤如下:
步骤1:如果列号向量
Figure 229672DEST_PATH_IMAGE022
为空,即用户不指定列号,则使用随机函数随机生成列号(即
Figure 572928DEST_PATH_IMAGE023
);
步骤2:如果隐私保护参数向量
Figure 949683DEST_PATH_IMAGE006
为空,即用户不指定隐私保护参数,则使用随机函数随机生成隐私保护参数(即
Figure 678474DEST_PATH_IMAGE024
);
步骤3:对于每一列y,读取列中每一个单元格中的值x以及该列的隐私保护参数
Figure 115271DEST_PATH_IMAGE025
,然后使用拉普拉斯分布函数和隐私保护参数进行计算噪声(即
Figure 680245DEST_PATH_IMAGE026
),隐私保护处理后的信用数据集
Figure 860690DEST_PATH_IMAGE007
等于原始数据(即信用数据集
Figure 443987DEST_PATH_IMAGE001
)加上噪声;
步骤4:将隐私保护处理后的信用数据集
Figure 317265DEST_PATH_IMAGE007
写回表中。
通过上述步骤完成第三算法,得到隐私保护处理后的信用数据集
Figure 369535DEST_PATH_IMAGE007
具体地,针对第三算法,将多列的信用数据集
Figure 353672DEST_PATH_IMAGE001
、列号向量
Figure 542207DEST_PATH_IMAGE005
、隐私保护参数向量
Figure 570075DEST_PATH_IMAGE006
传递给第三算法,对每列中所有的数据,使用相同的输入参数(具体如公式(3))进行计算,不同列使用不同的输入参数,得到隐私保护处理后的信用数据集
Figure 109641DEST_PATH_IMAGE007
传送给数据使用者(即用户):
Figure 897468DEST_PATH_IMAGE027
(3)。
第四算法为单行多列非同隐私保护算法
Figure 206090DEST_PATH_IMAGE011
,输入参数包括单行多列的信用数据集C、行号r、列号向量Veci和隐私保护参数向量
Figure 136350DEST_PATH_IMAGE006
,第四算法的具体步骤如下:
步骤1:如果行号不存在或者列号向量
Figure 163212DEST_PATH_IMAGE005
为空,即用户不指定行号、列号,则使用随机函数随机生成行号和多列号(即
Figure 223572DEST_PATH_IMAGE028
);如果隐私保护参数向量
Figure 652279DEST_PATH_IMAGE006
为空,即用户指定多个隐私保护参数,如果用户不指定隐私保护参数,则使用随机函数随机生成多个隐私保护参数(即
Figure 287529DEST_PATH_IMAGE029
);
步骤2:读取列y中每一个单元格中的值,然后使用拉普拉斯分布函数和隐私保护参数
Figure 536107DEST_PATH_IMAGE025
进行计算噪声(即
Figure 400158DEST_PATH_IMAGE030
),隐私保护处理后的信用数据集
Figure 683372DEST_PATH_IMAGE007
等于原始数据(即信用数据集
Figure 223944DEST_PATH_IMAGE001
)加上噪声;
步骤3:将隐私保护处理后的信用数据集
Figure 225398DEST_PATH_IMAGE007
写回表中。
具体地,针对第四算法,并将该单行多列的信用数据集
Figure 893139DEST_PATH_IMAGE001
、行数
Figure 30860DEST_PATH_IMAGE003
、列号向量
Figure 493065DEST_PATH_IMAGE005
和隐私保护参数向量
Figure 965504DEST_PATH_IMAGE006
传递给第四算法,对该行不同列的数据,使用不同的输入参数(具体如公式(4))进行计算,得到隐私保护处理后的信用数据集
Figure 171357DEST_PATH_IMAGE007
传送给数据使用者(即用户):
Figure 429163DEST_PATH_IMAGE031
(4)。
通过上述步骤完成第四算法,得到隐私保护处理后的信用数据集
Figure 327849DEST_PATH_IMAGE007
其中,拉普拉斯分布函数(Laplace)是一种连续的概率分布。
如图2所示,本发明还揭示一种基于差分隐私的信用数据隐私保护系统,其包括:数据采集模块,用于根据用户提供调用接口获取用户的信用数据集;参数获取模块,用于获取信用数据集的隐私保护需求参数,其中隐私保护需求参数的数值为正整数,且范围为1-4;算法调用模块,用于根据输入参数获取隐私保护处理后的信用数据集。
其中,算法调用模块包括调用单列隐私保护算法的第一算法调用模块、调用多列隐私保护算法的第二算法调用模块、调用多列非同隐私保护算法的第三算法调用模块和调用单行多列非同隐私保护算法的第四算法调用模块。
本发明的有益效果是:通过数据收集、整理、应用和呈现四个阶段,最终达到不同等级的数据保护目的。
本发明基于差分隐私的信用数据隐私保护方法,解决了在信用数据的数字型的隐私数据处理,采用拉普拉斯分布函数对数据进行处理,满足差分隐私要求,可以有效的保护信用数据,使得数据在传输或者使用过程中不会泄露用户的隐私数据,并达到不同等级的数据保护。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.一种基于差分隐私的信用数据隐私保护方法,其特征在于,包括如下步骤:
S1:用户输入参数,其中输入参数包括:信用数据集和对应信用数据集的隐私保护需求参数,设定隐私保护需求参数的数值为正整数,其范围为1-4;
S2:设定隐私保护需求参数的每个数值对应一个算法;
S3:根据用户提供调用接口获取用户的信用数据集;
S4:获取信用数据集的隐私保护需求参数的数值;
S5:根据隐私保护需求参数的数值采用对应的算法得到隐私保护处理后的信用数据集,得到所述隐私保护处理后的信用数据集的具体方法如下:
如果隐私保护需求参数的数值等于1,则调用单列隐私保护算法,所述单列隐私保护算法针对单列的隐私保护,对这一列中所有的数据,使用相同的输入参数进行计算,得到隐私保护处理后的信用数据集传送给数据使用者;
所述单列隐私保护算法输入的参数包括信用数据集、列数和隐私保护参数,所述单列隐私保护算法的具体步骤如下:
步骤1:如果列号向量为空,即用户不指定列号,则使用随机函数随机生成列号;如果隐私保护参数向量为空,即用户不指定隐私保护参数,则使用随机函数随机生成隐私保护参数;
步骤2:读取列中每一个单元格中的值,使用拉普拉斯分布函数及隐私保护参数计算噪声,隐私保护处理后的信用数据集等于原始数据加上噪声;
步骤3:将隐私保护处理后的信用数据集写回表中,即输出隐私保护处理后的信用数据集;
如果隐私保护需求参数的数值等于2,则调用多列隐私保护算法,所述多列隐私保护算法的每一列都使用相同的输入参数,使用相同的输入参数进行计算,得到隐私保护处理后的信用数据集传送给数据使用者;
所述多列隐私保护算法输入的参数包括多列的信用数据集、列号向量和隐私保护参数;所述多列隐私保护算法的具体步骤如下:
步骤1:如果列号向量为空,即用户不指定列号,则使用随机函数随机生成列号;如果隐私保护参数向量空,即用户不指定隐私保护参数,则使用随机函数随机生成隐私保护参数;
步骤2:对于每一列,读取列中每一个单元格中的值以及隐私保护参数,然后使用拉普拉斯分布函数和相同隐私保护参数进行计算噪声,隐私保护处理后的信用数据集等于原始数据加上噪声;
步骤3:将隐私保护处理后的信用数据集写回表中;
如果隐私保护需求参数的数值等于3,则调用多列非同隐私保护算法,所述多列非同隐私保护算法对每列中所有的数据使用相同的输入参数进行计算,不同列使用不同的输入参数,最后把隐私保护处理后的信用数据集传送给数据使用者;
所述多列非同隐私保护算法输入的参数包括多列的信用数据集、列号向量和隐私保护参数向量,所述多列非同隐私保护算法的具体步骤如下:
步骤1:如果列号向量为空,即用户不指定列号,则使用随机函数随机生成列号;
步骤2:如果隐私保护参数向量为空,即用户不指定隐私保护参数,则使用随机函数随机生成隐私保护参数;
步骤3:对于每一列,读取列中每一个单元格中的值以及该列的隐私保护参数,然后使用拉普拉斯分布函数和隐私保护参数进行计算噪声,隐私保护处理后的信用数据集于原始数据加上噪声;
步骤4:将隐私保护处理后的信用数据集写回表中;
如果隐私保护需求参数的数值等于4,则调用单行多列非同隐私保护算法,所述单行多列非同隐私保护算法对该行不同列的数据,使用不同的输入参数进行计算,得到隐私保护处理后的信用数据集传送给数据使用者;
所述单行多列非同隐私保护算法输入的参数包括单行多列的信用数据集、行号、列号向量和隐私保护参数向量;所述单行多列非同隐私保护算法的具体步骤如下:
步骤1:如果行号不存在或者列号向量为空,即用户不指定行号、列号,则使用随机函数随机生成行号和多列号;如果隐私保护参数向量为空,即用户指定多个隐私保护参数,如果用户不指定隐私保护参数,则使用随机函数随机生成多个隐私保护参数;
步骤2:读取列中每一个单元格中的值,然后使用拉普拉斯分布函数和隐私保护参数进行计算噪声,隐私保护处理后的信用数据集等于原始数据加上噪声;
步骤3:将隐私保护处理后的信用数据集写回表中。
2.一种基于差分隐私的信用数据隐私保护方法的系统,采用权利要求1所述方法,其特征在于,其包括:
数据采集模块,用于根据用户提供调用接口获取用户的信用数据集;
参数获取模块,用于获取信用数据集的隐私保护需求参数的数值,其中隐私保护需求参数的数值为正整数,且范围为1-4;
算法调用模块,用于根据输入参数获取隐私保护处理后的信用数据集;
其中算法调用模块包括调用单列隐私保护算法的第一算法调用模块、调用多列隐私保护算法的第二算法调用模块、调用多列非同隐私保护算法的第三算法调用模块和调用单行多列非同隐私保护算法的第四算法调用模块。
CN202110451141.5A 2021-04-26 2021-04-26 基于差分隐私的信用数据隐私保护方法及其系统 Active CN112989425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110451141.5A CN112989425B (zh) 2021-04-26 2021-04-26 基于差分隐私的信用数据隐私保护方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110451141.5A CN112989425B (zh) 2021-04-26 2021-04-26 基于差分隐私的信用数据隐私保护方法及其系统

Publications (2)

Publication Number Publication Date
CN112989425A CN112989425A (zh) 2021-06-18
CN112989425B true CN112989425B (zh) 2021-08-13

Family

ID=76341692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110451141.5A Active CN112989425B (zh) 2021-04-26 2021-04-26 基于差分隐私的信用数据隐私保护方法及其系统

Country Status (1)

Country Link
CN (1) CN112989425B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8909711B1 (en) * 2011-04-27 2014-12-09 Google Inc. System and method for generating privacy-enhanced aggregate statistics
CN109583228B (zh) * 2018-10-30 2021-05-07 中国科学院信息工程研究所 一种隐私信息管理方法、装置和系统
CN109726758B (zh) * 2018-12-28 2021-01-08 辽宁工业大学 一种基于差分隐私的数据融合发布算法
CN111143674A (zh) * 2019-12-20 2020-05-12 深圳前海微众银行股份有限公司 一种数据处理方法及装置

Also Published As

Publication number Publication date
CN112989425A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
Morris Parametric empirical Bayes inference: theory and applications
Leydesdorff The static and dynamic analysis of network data using information theory
Grant et al. The spatial impacts of COVID-19 restrictions on LGBTIQ wellbeing, visibility, and belonging in Tasmania, Australia
Dwork An ad omnia approach to defining and achieving private data analysis
US20140172854A1 (en) Apparatus and Methods For Anonymizing a Data Set
CN106997347A (zh) 信息推荐方法及服务器
CN110706095B (zh) 一种基于关联网络的目标节点关键信息填补方法及系统
CN107330796A (zh) 组件化生成表单的数据处理方法及系统
CN108897789A (zh) 一种跨平台的社交网络用户身份识别方法
CN109726758A (zh) 一种基于差分隐私的数据融合发布算法
CN112989425B (zh) 基于差分隐私的信用数据隐私保护方法及其系统
CN113191911A (zh) 基于用户信息的保险推荐方法、系统、设备及介质
CN104035978B (zh) 社团发现方法及系统
Besche-Truthe et al. Cultural Spheres–Creating a dyadic dataset of cultural proximity
Dewri et al. On the Optimal Selection of k in the k-Anonymity Problem
CN109033224A (zh) 一种风险文本识别方法和装置
CN108647739A (zh) 一种基于改进的密度峰值聚类的社交网络社区发现方法
CN107563217A (zh) 一种保护用户隐私信息的推荐方法和装置
Kewalramani Community detection in Twitter
CN116976739A (zh) 一种云计算产品需求优先级排序方法和系统
US20220292127A1 (en) Information management system
CN113254788B (zh) 一种基于大数据的推荐方法、系统及可读存储介质
CN109409132A (zh) 一种具有个性化隐私保护功能的负调查方法
CN115640427A (zh) 一种社交网络中基于人格信息的网络结构隐藏方法、装置
de Waal et al. Statistical disclosure control and sampling weights

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant