CN112989425B

CN112989425B - 基于差分隐私的信用数据隐私保护方法及其系统

Info

Publication number: CN112989425B
Application number: CN202110451141.5A
Authority: CN
Inventors: 吕从东; 张晓东; 孙周宝
Original assignee: NANJING AUDIT UNIVERSITY
Current assignee: NANJING AUDIT UNIVERSITY
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-08-13
Anticipated expiration: 2041-04-26
Also published as: CN112989425A

Abstract

本发明提供一种基于差分隐私的信用数据隐私保护方法及其系统，方法包括如下步骤：S1：用户输入参数，其中输入参数包括：信用数据集和对应信用数据集的隐私保护需求参数；S2：设定隐私保护需求参数的每个数值对应一个算法；S3：根据用户提供调用接口获取用户的信用数据集；S4：获取信用数据集的隐私保护需求参数的数值；S5：根据隐私保护需求参数的数值采用对应的算法得到隐私保护处理后的信用数据集，分别通过四个算法保护信用数据。本发明解决了在信用数据的数字型的隐私数据处理，满足差分隐私要求，可以有效的保护信用数据，使得数据在传输或者使用过程中不会泄露用户的隐私数据，并达到不同等级的数据保护。

Description

基于差分隐私的信用数据隐私保护方法及其系统

技术领域

本发明涉及隐私保护的技术领域，具体涉及一种基于差分隐私的信用数据隐私保护方法及其系统。

背景技术

随着互联网技术的飞速发展，整个社会被强行推入“大数据”时代，不管人们是否愿意，我们的个人数据正在不经意间被动地被企业、个人搜集并使用。个人数据的网络化和透明化已经成为不可阻挡的大趋势。信用数据更是个人隐私数据的集中地，在数据融合过程中，无论数据是否来开本地，都会被机器学习模型所接触，会造成隐私数据的泄漏。因此，将信用数据进行隐私保护，使机器学习模型无法接触原始数据非常必要。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明了一种可实现信用数据隐私保护的基于差分隐私的信用数据隐私保护方法及其系统。

本发明提供一种基于差分隐私的信用数据隐私保护方法，包括如下步骤：

S1：用户输入参数，其中输入参数包括：信用数据集和对应信用数据集的隐私保护需求参数，设定隐私保护需求参数的数值为正整数，其范围为1-4；

S2：设定隐私保护需求参数的每个数值对应一个算法；

S3：根据用户提供调用接口获取用户的信用数据集；

S4：获取信用数据集的隐私保护需求参数的数值；

S5：根据隐私保护需求参数的数值采用对应的算法得到隐私保护处理后的信用数据集，得到所述隐私保护处理后的信用数据集的具体方法如下：

如果隐私保护需求参数的数值等于1，则调用单列隐私保护算法，所述单列隐私保护算法针对单列的隐私保护，对这一列中所有的数据，使用相同的输入参数进行计算，得到隐私保护处理后的信用数据集传送给数据使用者；

如果隐私保护需求参数的数值等于2，则调用多列隐私保护算法，所述多列隐私保护算法的每一列都使用相同的输入参数，使用相同的输入参数进行计算，得到隐私保护处理后的信用数据集传送给数据使用者；

如果隐私保护需求参数的数值等于3，则调用多列非同隐私保护算法，所述多列非同隐私保护算法对每列中所有的数据使用相同的输入参数进行计算，不同列使用不同的输入参数，最后把隐私保护处理后的信用数据集传送给数据使用者；

如果隐私保护需求参数的数值等于4，则调用单行多列非同隐私保护算法，所述单行多列非同隐私保护算法对该行不同列的数据，使用不同的输入参数进行计算，得到隐私保护处理后的信用数据集传送给数据使用者。

优选地，所述单列隐私保护算法输入的参数包括信用数据集、列数和隐私保护参数，所述单列隐私保护算法的具体方法为：将该列的信用数据集、列数和隐私保护参数传递给所述单列隐私保护算法，对该列所有的数据，使用相同的输入参数进行计算，得到隐私保护处理后的信用数据集传送给数据使用者。

优选地，所述单列隐私保护算法的具体步骤如下：

步骤1：如果列号向量为空，即用户不指定列号，则使用随机函数随机生成列号；如果隐私保护参数向量为空，即用户不指定隐私保护参数，则使用随机函数随机生成隐私保护参数；

步骤2：读取列中每一个单元格中的值，使用拉普拉斯分布函数及隐私保护参数计算噪声，隐私保护处理后的信用数据集等于原始数据加上噪声；

步骤3：将隐私保护处理后的信用数据集写回表中,即输出隐私保护处理后的信用数据集。

优选地，所述多列隐私保护算法输入的参数包括多列的信用数据集、列号向量和隐私保护参数；所述多列隐私保护算法的具体方法为：将多列的信用数据集、列号向量和隐私保护参数传递给所述多列隐私保护算法，对每列中所有的数据，使用相同的输入参数进行计算，得到隐私保护处理后的信用数据集传送给数据使用者。

优选地，所述多列隐私保护算法的具体步骤如下：

步骤1：如果列号向量为空，即用户不指定列号，则使用随机函数随机生成列号；如果隐私保护参数向量空，即用户不指定隐私保护参数，则使用随机函数随机生成隐私保护参数；

步骤2：对于每一列，读取列中每一个单元格中的值以及隐私保护参数，然后使用拉普拉斯分布函数和相同隐私保护参数进行计算噪声，隐私保护处理后的信用数据集等于原始数据加上噪声；

步骤3：将隐私保护处理后的信用数据集写回表中。

优选地，所述多列非同隐私保护算法输入的参数包括多列的信用数据集、列号向量和隐私保护参数向量，所述多列非同隐私保护算法的具体方法为：将多列的信用数据集、列号向量、隐私保护参数向量传递给所述多列非同隐私保护算法，对每列中所有的数据，使用相同的输入参数进行计算，不同列使用不同的输入参数，得到隐私保护处理后的信用数据集传送给数据使用者。

优选地，所述多列非同隐私保护算法的具体步骤如下：

步骤1：如果列号向量为空，即用户不指定列号，则使用随机函数随机生成列号；

步骤2：如果隐私保护参数向量为空，即用户不指定隐私保护参数，则使用随机函数随机生成隐私保护参数；

步骤3：对于每一列，读取列中每一个单元格中的值以及该列的隐私保护参数，然后使用拉普拉斯分布函数和隐私保护参数进行计算噪声，隐私保护处理后的信用数据集于原始数据加上噪声；

步骤4：将隐私保护处理后的信用数据集写回表中。

优选地，所述单行多列非同隐私保护算法输入的参数包括单行多列的信用数据集、行号、列号向量和隐私保护参数向量；所述单行多列非同隐私保护算法的具体方法为：并将该单行多列的信用数据集、行数、列号向量和隐私保护参数向量传递给所述单行多列非同隐私保护算法，对该行不同列的数据，使用不同的输入参数进行计算，得到隐私保护处理后的信用数据集传送给数据使用者。

优选地，所述单行多列非同隐私保护算法的具体步骤如下：

步骤1：如果行号不存在或者列号向量为空，即用户不指定行号、列号，则使用随机函数随机生成行号和多列号；如果隐私保护参数向量为空，即用户指定多个隐私保护参数，如果用户不指定隐私保护参数，则使用随机函数随机生成多个隐私保护参数；

步骤2：读取列中每一个单元格中的值，然后使用拉普拉斯分布函数和隐私保护参数进行计算噪声，隐私保护处理后的信用数据集等于原始数据加上噪声；

步骤3：将隐私保护处理后的信用数据集写回表中。

本发明还提供一种基于差分隐私的信用数据隐私保护系统，其包括：

数据采集模块，用于根据用户提供调用接口获取用户的信用数据集；

参数获取模块，用于获取信用数据集的隐私保护需求参数的数值，其中隐私保护需求参数的数值为正整数，且范围为1-4；

算法调用模块，用于根据输入参数获取隐私保护处理后的信用数据集；

其中算法调用模块包括调用单列隐私保护算法的第一算法调用模块、调用多列隐私保护算法的第二算法调用模块、调用多列非同隐私保护算法的第三算法调用模块和调用单行多列非同隐私保护算法的第四算法调用模块。

本发明基于差分隐私的信用数据隐私保护方法及其系统，解决了在信用数据的数字型的隐私数据处理，满足差分隐私要求，可以有效的保护信用数据，使得数据在传输或者使用过程中不会泄露用户的隐私数据，并达到不同等级的数据保护。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例所述的基于差分隐私的信用数据隐私保护方法的流程示意图；

图2为本发明一个实施例所述的基于差分隐私的信用数据隐私保护系统的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

如图1所示，本发明基于差分隐私的信用数据隐私保护方法，通过数据隐私保护集成算法为用户提供调用接口，在本实施例中，将数据隐私保护集成算法命名为PPI，本发明信用数据隐私保护方法的输入参数包括：信用数据集

、隐私保护需求参数

、行数

、列数

、列号向量

、隐私保护参数ε和由多个隐私保护参数ε组成的隐私保护参数向量

，通过数据隐私保护集成算法PPI获得隐私保护处理后的信用数据集

。

其中，信用数据集

是收集到的关于个人或者企业的信用信息，包括姓名、年龄、年收入（企业年营业额）等，信用数据集

的每一行为一条信用数据，属于一个人或者一个企业，对信用数据集

的每一行进行标号，记为行号

；信用数据集

的每一列为个人或者企业一个属性，例如姓名，并对其进行编号，记为列号

。

隐私保护需求参数

的数值是一个整数，范围是1-4，设定隐私保护需求参数

的每个数值对应一个算法，每个算法具有对应的参数进行隐私保护。

其中，当隐私保护需求参数

等于1，则调用第一算法（即算法1，单列隐私保护算法

），所述单列隐私保护算法

针对单列的隐私保护；当隐私保护需求参数

等于2，则调用第二算法（即算法2，多列隐私保护算法

），所述多列隐私保护算法

的每一列都使用相同的输入参数；当隐私保护需求参数

等于3，调用第三算法（即算法3，多列非同隐私保护算法

），所述多列非同隐私保护算法

）对每列中所有的数据使用相同的输入参数进行计算，不同列使用不同的输入参数；当隐私保护需求参数

等于4，调用第四算法（即算法4，单行多列非同隐私保护算法

），所述单行多列非同隐私保护算法

对该行不同列的数据，使用不同的输入参数进行计算。

行数

代表了第

行的数据记录。

列数

代表了第

行的数据记录。

列号向量

代表是一个列号的向量，可以为空，列号向量

的上限是个人或者企业的属性个数。

隐私保护参数向量

代表了对于数据添加噪声的大小，一般取值范围是0-1间的实数，0代表了不添加噪声。

其中，差分隐私是针对统计数据库的隐私泄露问题提出的一种新的隐私定义。

本发明于差分隐私的信用数据隐私保护方法，包括如下步骤：

S1：用户输入参数，其中输入参数包括：信用数据集

和对应信用数据集

的隐私保护需求参数

，设定隐私保护需求参数

的数值为正整数，其范围为1-4；

S2：设定隐私保护需求参数

的每个数值对应一个算法；

S3：根据用户提供调用接口获取用户的信用数据集

，对信用数据集

的每一行和每一列进行编号，其中行号为1、2、3、…、

，列号为1、2、3、…、

，其中

和

均为正整数；

S4：获取信用数据集

的隐私保护需求参数

；

S5：根据隐私保护需求参数

的数值采用对应的算法得到隐私保护处理后的信用数据集

，得到隐私保护处理后的信用数据集

的具体方法如下：

如果隐私保护需求参数

的数值等于1，则调用第一算法（即算法1，单列隐私保护算法

），所述单列隐私保护算法

针对单列的隐私保护，对这一列中所有的数据，使用相同的输入参数进行计算，得到隐私保护处理后的信用数据集

传送给数据使用者；

如果隐私保护需求参数

的数值等于2，则调用第二算法（即算法2，多列隐私保护算法

），所述多列隐私保护算法

）的每一列都使用相同的输入参数，使用相同的输入参数进行计算，得到隐私保护处理后的信用数据集传送给数据使用者；

如果隐私保护需求参数

的数值等于3，调用第三算法（即算法3，多列非同隐私保护算法

），所述多列非同隐私保护算法

）对每列中所有的数据使用相同的输入参数进行计算，不同列使用不同的输入参数ε，最后把数据传送给数据使用者；

如果隐私保护需求参数

的数值等于4，调用第四算法（即算法4，单行多列隐私保护算法

），所述单行多列隐私保护算法

对该行不同列的数据，使用不同的输入参数进行计算，得到隐私保护处理后的信用数据集传送给数据使用者。

通过上述步骤完成了隐私保护，得到隐私保护处理后的信用数据集

传送给数据使用者（即用户）。

第一算法为单列隐私保护算法

，第一算法输入的参数（Input）包括信用数据集

、列数

和隐私保护参数ε，第一算法的具体步骤如下：

步骤1：如果列号向量

为空，即用户不指定列号，则使用随机函数随机生成列号（即

）；如果隐私保护参数向量

为空，即用户不指定隐私保护参数，则使用随机函数随机生成隐私保护参数（即

）；

步骤2：读取列中每一个单元格中的值，使用拉普拉斯分布函数及隐私保护参数计算噪声（即：

），隐私保护处理后的信用数据集

等于原始数据（即信用数据集

）加上噪声；

步骤3：将隐私保护处理后的信用数据集

写回表中,即输出（Output）隐私保护处理后的信用数据集

。

通过上述步骤完成第一算法，得到隐私保护处理后的信用数据集

。

具体地，针对第一算法，将该列的信用数据集

、列数

和隐私保护参数ε传递给第一算法，对该列所有的数据，使用相同的输入参数（具体如公式（1））进行计算，得到隐私保护处理后的信用数据集

传送给数据使用者（即用户）：

（1）。

第二算法为多列隐私保护算法

，输入参数包括多列的信用数据集

、列号向量

和隐私保护参数ε，第二算法的具体步骤如下：

步骤1：如果列号向量

）；如果隐私保护参数向量

）；

步骤2：对于每一列，读取列中每一个单元格中的值x以及隐私保护参数

，然后使用拉普拉斯分布函数和相同隐私保护参数进行计算噪声（即

），隐私保护处理后的信用数据集

等于原始数据（即信用数据集

）加上噪声；

步骤3：将隐私保护处理后的信用数据集

写回表中。

通过上述步骤完成第二算法，得到隐私保护处理后的信用数据集

。

具体地，针对第二算法，并将多列的信用数据集

、列号向量

和隐私保护参数ε传递给第二算法，对每列中所有的数据，使用相同的输入参数（具体如公式（2））进行计算，得到隐私保护处理后的信用数据集

传送给数据使用者（即用户）：

（2）。

第三算法为多列非同隐私保护算法

，输入参数包括多列的信用数据集

、列号向量

和隐私保护参数向量

，第三算法的具体步骤如下：

步骤1：如果列号向量

）；

步骤2：如果隐私保护参数向量

）；

步骤3：对于每一列y，读取列中每一个单元格中的值x以及该列的隐私保护参数

，然后使用拉普拉斯分布函数和隐私保护参数进行计算噪声（即

），隐私保护处理后的信用数据集

等于原始数据（即信用数据集

）加上噪声；

步骤4：将隐私保护处理后的信用数据集

写回表中。

通过上述步骤完成第三算法，得到隐私保护处理后的信用数据集

。

具体地，针对第三算法，将多列的信用数据集

、列号向量

、隐私保护参数向量

传递给第三算法，对每列中所有的数据，使用相同的输入参数（具体如公式（3））进行计算，不同列使用不同的输入参数，得到隐私保护处理后的信用数据集

传送给数据使用者（即用户）：

（3）。

第四算法为单行多列非同隐私保护算法

，输入参数包括单行多列的信用数据集C、行号r、列号向量Veci和隐私保护参数向量

，第四算法的具体步骤如下：

步骤1：如果行号不存在或者列号向量

为空，即用户不指定行号、列号，则使用随机函数随机生成行号和多列号（即

）；如果隐私保护参数向量

为空，即用户指定多个隐私保护参数，如果用户不指定隐私保护参数，则使用随机函数随机生成多个隐私保护参数（即

）；

步骤2：读取列y中每一个单元格中的值，然后使用拉普拉斯分布函数和隐私保护参数

进行计算噪声（即

），隐私保护处理后的信用数据集

等于原始数据（即信用数据集

）加上噪声；

步骤3：将隐私保护处理后的信用数据集

写回表中。

具体地，针对第四算法，并将该单行多列的信用数据集

、行数

、列号向量

和隐私保护参数向量

传递给第四算法，对该行不同列的数据，使用不同的输入参数（具体如公式（4））进行计算，得到隐私保护处理后的信用数据集

传送给数据使用者（即用户）：

（4）。

通过上述步骤完成第四算法，得到隐私保护处理后的信用数据集

。

其中，拉普拉斯分布函数（Laplace）是一种连续的概率分布。

如图2所示，本发明还揭示一种基于差分隐私的信用数据隐私保护系统，其包括：数据采集模块，用于根据用户提供调用接口获取用户的信用数据集；参数获取模块，用于获取信用数据集的隐私保护需求参数，其中隐私保护需求参数的数值为正整数，且范围为1-4；算法调用模块，用于根据输入参数获取隐私保护处理后的信用数据集。

其中，算法调用模块包括调用单列隐私保护算法的第一算法调用模块、调用多列隐私保护算法的第二算法调用模块、调用多列非同隐私保护算法的第三算法调用模块和调用单行多列非同隐私保护算法的第四算法调用模块。

本发明的有益效果是：通过数据收集、整理、应用和呈现四个阶段，最终达到不同等级的数据保护目的。

本发明基于差分隐私的信用数据隐私保护方法，解决了在信用数据的数字型的隐私数据处理，采用拉普拉斯分布函数对数据进行处理，满足差分隐私要求，可以有效的保护信用数据，使得数据在传输或者使用过程中不会泄露用户的隐私数据，并达到不同等级的数据保护。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于差分隐私的信用数据隐私保护方法，其特征在于，包括如下步骤：

S2：设定隐私保护需求参数的每个数值对应一个算法；

S3：根据用户提供调用接口获取用户的信用数据集；

S4：获取信用数据集的隐私保护需求参数的数值；

所述单列隐私保护算法输入的参数包括信用数据集、列数和隐私保护参数，所述单列隐私保护算法的具体步骤如下：

步骤3：将隐私保护处理后的信用数据集写回表中,即输出隐私保护处理后的信用数据集；

所述多列隐私保护算法输入的参数包括多列的信用数据集、列号向量和隐私保护参数；所述多列隐私保护算法的具体步骤如下：

步骤3：将隐私保护处理后的信用数据集写回表中；

所述多列非同隐私保护算法输入的参数包括多列的信用数据集、列号向量和隐私保护参数向量，所述多列非同隐私保护算法的具体步骤如下：

步骤4：将隐私保护处理后的信用数据集写回表中；

如果隐私保护需求参数的数值等于4，则调用单行多列非同隐私保护算法，所述单行多列非同隐私保护算法对该行不同列的数据，使用不同的输入参数进行计算，得到隐私保护处理后的信用数据集传送给数据使用者；

所述单行多列非同隐私保护算法输入的参数包括单行多列的信用数据集、行号、列号向量和隐私保护参数向量；所述单行多列非同隐私保护算法的具体步骤如下：

步骤3：将隐私保护处理后的信用数据集写回表中。

2.一种基于差分隐私的信用数据隐私保护方法的系统，采用权利要求1所述方法，其特征在于，其包括：