CN112380572B

CN112380572B - 一种多方数据协同场景下的隐私保护量化评估方法和系统

Info

Publication number: CN112380572B
Application number: CN202110051389.2A
Authority: CN
Inventors: 那崇宁; 李红程; 徐婷婷; 许浩
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-10-29
Anticipated expiration: 2041-01-14
Also published as: CN112380572A

Abstract

本发明公开了一种多方数据协同场景下的隐私保护量化评估方法和系统，该方法为数据资源提供方根据算法和保护机制，将所述数据资源输入模型中进行训练，输出满足模型指标和阈值的模型，同时，数据资源提供方利用攻击手段，攻击上述模型，记录并量化模型的隐私泄露情况，输出隐私指标；数据资源使用方和数据资源提供方分别根据模型指标和隐私指标是否满足自身需要，做出是否进行数据合作的决策。本发明提升了在数据共享过程中对隐私风险和数据价值的有效评估和信息披露，有效解决数据资源提供方和数据使用需求方之间的信息不对称问题，有助于构建更加健康和可持续发展的数据共享、交互和交易体系。

Description

一种多方数据协同场景下的隐私保护量化评估方法和系统

技术领域

本发明属于网络信息技术领域，具体地涉及一种多方数据协同场景下的隐私保护量化评估方法和系统。

背景技术

未来如金融、医疗、交通等领域的数字化和智能化发展将更加注重跨机构的大数据共享和分布式人工智能算法进行联合建模。该类应用涉及到分布式的数据收集、传输、存储、使用，及跨机构的数据共享、联合建模，系统模型较为复杂。相关隐私保护算法涉及人工智能，数据加密，网络安全等多类技术的综合运用。近年来虽然关于该应用场景下的研究已初步产出一定数量的解决方案，如基于联邦学习的分布式人工智能算法框架，及基于同态加密，多方安全计算等加密算法框架，但还缺乏针对该场景下的有效评估手段。该类场景下的隐私保护量化评估需求来源于两方面：一方面需对隐私保护技术的实际效果进行评估，而此评估指标的结果依赖于数据特征，采用的数据分析或数据挖掘方法，以及所采用的隐私保护技术；另一方面需对隐私保护技术下数据使用效用进行评估，隐私保护技术在保护隐私信息的同时必然对数据本身的使用效用造成负面影响，如计算效率，计算结果的准确性等等，因此需评估在隐私保护条件下数据效用下降程度。

目前国内外学术界和工业界也已陆续开发并开源了一些相关的算法框架和平台，如FATE，PySyft，TFE，Ctypten等。此类框架多聚焦于解决计算复杂度高，通信成本高，与现有机器学习及深度学习算法融合等一系列工程问题并旨在实现初步的概念验证，但并未严格的将各类算法关联的隐私攻击模型纳入框架，因此不具备完整的隐私保护效用和数据效用的量化评估能力。目前国内外学术界和工业界也尝试基于多方数据共享的场景构建数据共享、交互和交易系统，通过该类系统实现数据资源方和数据需求方的供需匹配，但此类系统由于无法提供隐私保护效用和数据效用的量化评估能力，因此无法向数据资源提供方提供有效的隐私泄露风险提示，无法向数据使用方提供数据效用，尤其是在隐私保护条件下数据效用下降程度提供风险提示，因此该类系统无论是数据资源提供方还是数据需求方对于数据交易都缺乏足够的辅助决策依据，因此系统的撮合效果有限。

发明内容

本发明的目的在于针对现有隐私保护数据共享、交互和交易系统的不足，提出一种多方数据协同场景下的隐私保护量化评估方法和系统。

本发明的目的是通过如下技术方案实现的：一种多方数据协同场景下的隐私保护量化评估方法，包括以下步骤：

（1）数据资源提供方发布数据资源，并将数据资源存储在数据资源提供方的本地或托管在数据共享、交互和交易系统上；

（2）数据资源使用方在系统上查询数据资源，并选择所需数据资源，指定算法、隐私保护机制和模型指标，设置阈值，发起数据资源使用请求；

（3）数据资源提供方根据算法和保护机制，将所述数据资源输入模型中进行训练，当模型指标超过阈值时，停止训练，输出满足模型指标和阈值的模型；

（4）数据资源提供方利用攻击手段，攻击所述模型，记录并量化模型的隐私泄露情况，输出隐私指标；

（5）数据资源提供方设置隐私阈值，若隐私指标超过隐私阈值，数据资源提供方拒绝数据资源使用方发起的数据资源使用请求；否则，数据资源提供方同意数据资源使用方发起的数据资源使用请求，并将模型返回给数据资源使用方。

进一步地，步骤（1）中数据资源为数据类型、数据特征维度、数据条目数、获取实际数据的方式、与数据交易相关的信息中的一种或者多种。

进一步地，步骤（2）中算法为经典机器学习算法或深度学习算法。

进一步地，步骤（2）中隐私保护机制为k-anonymity机制、l-diversity机制、t-closeness机制、差分隐私机制、同态加密机制、多方安全计算机制中的一种或者多种。

进一步地，步骤（2）中模型指标包括精度、精确率、召回率、F1值、TPR和AUC。

进一步地，步骤（2）中阈值取值范围为0.8~1.0的实数。

进一步地，步骤（3）中模型的训练方式包括随机梯度下降法和小批量梯度下降法。

进一步地，步骤（4）中攻击手段为成员推断攻击、属性推断攻击和模型窃取攻击中的一种或者多种；所述隐私指标为训练数据泄露的比例和属性泄露的比例。

进一步地，步骤（4）中的隐私阈值为小于0.2的实数。

本发明还提供了一种满足所述多方数据协同场景下的隐私保护量化评估方法的系统，包括：数据资源分配模块、隐私保护模块、模型训练模块、性能评测模块、隐私攻击模块和分析报告模块；

所述数据资源分配模块用于自动化匹配数据请求和系统内的数据，为数据资源请求方和数据资源提供方进行配对；

所述隐私保护模块用于提供各类隐私保护机制；

所述模型训练模块用于在给定数据、算法和隐私保护机制的情况下，训练模型；

所述性能评测模块用于评测并输出模型的准确性和时耗等指标；

所述隐私攻击模块用于评测并输出模型的隐私保护能力相关的指标；

所述分析报告模块用于提供全面的性能和隐私风险报告，供数据资源提供方决定是否进行数据合作。

与现有技术相比，本发明具有如下有益效果：（1）为数据资源提供方生成隐私泄露风险提示，帮助数据资源提供方在进行数据合作前，提前了解自身数据泄露的风险大小；（2）为数据资源请求方生成数据效用指标，帮助数据资源请求方在进行数据合作前，提前了解所请求的数据是否符合自身需要；（3）为数据合作双方提供充足的辅助决策依据，提升系统的撮合能力，充分利用各方数据。

附图说明

图1为本发明多方数据协同场景下的隐私保护量化评估方法的流程图；

图2为成员推理攻击流程图；

图3为神经网络模型在成员推理攻击下的隐私泄露情况示意图；

图4为神经网络模型在成员推理攻击下的准确性损失情况示意图。

具体实施方式

如图1为本发明多方数据协同场景下的隐私保护量化评估方法的流程图，具体包括如下步骤：

（1）数据资源提供方发布数据资源；其中数据资源可包括数据类型（如结构化数据，非结构化图像、文本、语音数据等），数据特征维度（如ID，时间，地点，各种业务属性等），数据条目数，获取实际数据的方式，与数据交易相关的信息（如数据定价方式和具体价格等）等信息；根据实际业务的需要，数据本身的存储可在数据资源提供方的本地或托管在数据共享、交互和交易系统。

（2）数据资源使用方可在系统上查询数据资源，选择所需数据资源，指定算法、隐私保护机制和模型指标，设置阈值，发起数据资源使用请求；所述算法为经典机器学习算法或深度学习算法；所述隐私保护机制为k-anonymity机制、l-diversity机制、t-closeness机制、差分隐私机制、同态加密机制、多方安全计算机制中的一种或者多种，以确保数据资源使用方在使用数据资源提供方所提供的数据资源的过程中提供必要的数据隐私保护机制。上述隐私保护机制为目前隐私保护落地应用中采取的主流技术手段，具有现实可操作性。所述模型指标包括精度、精确率、召回率、F1值、TPR和AUC，其中，F1值是精确率和召回率的调和平均数，最大为1，最小为0，其值越大，表示模型效果越好；TPR表示在所有实际为正例的样本中，被正确地判断为正例的样本比例；AUC 是ROC曲线与横纵轴围成的面积。上述指标为通用且主流的模型效果评价指标，能够用于评价几乎所有的机器学习和深度学习模型。考虑到投入实际使用的模型，需要保证一定的准确性，因此，所述阈值一般设为0.8-1.0的实数，保证输出的模型具有实用性。

（3）数据资源提供方根据算法和保护机制，将所述数据资源输入模型中通过随机梯度下降法或小批量梯度下降法进行训练，当模型指标超过阈值时，停止训练，输出满足模型指标和阈值的模型。

（4）数据资源提供方利用攻击手段，攻击所述模型，记录并量化模型的隐私泄露情况，输出隐私指标；所述攻击手段为成员推断攻击、属性推断攻击和模型窃取攻击中的一种或者多种；所述隐私指标为训练数据泄露的比例和属性泄露的比例。隐私阈值过高，隐私保护机制将失去作用，数据资源提供方的数据将面临严重的泄露风险，因此，隐私阈值一般设为小于0.2的实数。

（5）数据资源提供方设置隐私阈值，若隐私指标超过隐私阈值，数据资源提供方拒绝数据资源使用方发起的数据资源使用请求；否则，数据资源提供方同意数据资源使用方发起的数据资源使用请求，并将模型返回给数据资源使用方。当数据资源提供方中的一方或多方拒绝进行数据合作，且数据资源提供方中的其他一方或多方统一进行数据合作的场景下，可推荐其他数据资源提供方以替代拒绝进行数据合作的数据资源提供方，且同样可以提供新的隐私泄露风险评估和数据使用效果评估。

数据资源使用方所选择的数据隐私保护方法及数据资源提供方所拥有的具体的数据资源，利用特定的方法对数据使用过程中对数据资源提供方所拥有的具体的数据造成的隐私泄露风险提供评估；其中隐私泄露风险评估方法包括利用数据使用方式，数据资源信息等构建数据隐私攻击模型，并针对所选择的数据隐私保护方法进行隐私泄露风险的评估；其中数据隐私攻击模型包括对以下隐私信息的攻击：

(a)判断特定个体是否在数据资源提供方所拥有的数据资源中（成员推断攻击）；

(b)获取特定个体的特定属性信息（属性推断攻击）；

(c)获取数据分析或数据挖掘模型，包括模型结构和模型参数等有助于重构出模型相关的信息（模型窃取攻击）；

(d)构建模型过程中所采用的其他信息等。

本发明还提供了一种适用于多方数据协同场景下的隐私保护量化评估方法的系统，包括：数据资源分配模块、隐私保护模块、模型训练模块、性能评测模块、隐私攻击模块和分析报告模块；

所述隐私保护模块用于提供各类隐私保护机制；

所述分析报告模块用于提供全面的性能和隐私风险报告，供数据资源提供方决定是否进行数据合作。该系统具备如下优点：（1）为数据资源提供方生成隐私泄露风险提示，帮助数据资源提供方在进行数据合作前，提前了解自身数据泄露的风险大小；（2）为数据资源请求方生成数据效用指标，帮助数据资源请求方在进行数据合作前，提前了解所请求的数据是否符合自身需要；（3）为数据合作双方提供充足的辅助决策依据，提升系统的撮合能力，充分利用各方数据。

实施例

在数据使用过程中对数据资源提供方所拥有的具体的数据造成的隐私泄露风险提供评估的一种基于成员推断攻击的实现方法如下：

针对利用数据资源提供方提供的数据

训练模型

，假设攻击者不了解

和

的基本情况，如

的结构和各种训练超参数以及

的分布等，而只能通过黑盒方式使用

，即，向

提供n维特征向量输入x，获取反馈的m维向量输出y，其中，且

。

通过反复向

发送请求，攻击者可人工构造与

相似的大量数据样本对

，这些数据的特征向量x经

预测，能够得到高置信度的输出向量

，即存在某一维数值明显高于其他维度，

。

取值为0.8。如图2所示，基于这些数据，攻击者能够构造k组训练和测试数据，并分别在每一组数据上训练得到一个影子模型。

针对每个影子模型，攻击者将相应的训练集和测试集中的数据都输入模型进行预测，得到输出向量

，然后构造用于训练攻击模型

的训练样本

。每条训练数据的格式为

，其中，若该条数据为影子模型的训练数据，则标签为

，否则，为

。最后，在

上训练

，利用训练好的

，攻击者即可判断每条输入数据是否为

的训练数据。攻击者判断的越准确（低漏报和低误报），表明模型

的隐私泄露风险越大。

以对目标模型进行差分隐私保护为例，不同的差分隐私方法（多种差分隐私机制组合的隐私保护方法NC、在多种差分隐私机制组合上引入误差项的隐私保护方法AC、零式集中差分隐私zCDP、雷尼差分隐私RDP）和不同的隐私预算取值ε，能够取得不同的隐私保护效果。如图3所示，ε-DP Bound代表不同的隐私预算ε下的隐私泄露的理论上限曲线，函数表示为ε-DP Bound =

，隐私预算取值ε越大，隐私保护效果越差，模型的隐私泄露风险更大。其中，随着隐私预算取值

的增大，雷尼差分隐私RDP、零式集中差分隐私zCDP、在多种差分隐私机制组合上引入误差项的隐私保护方法AC、多种差分隐私机制组合的隐私保护方法NC隐私泄露风险依次增大。

在数据使用过程中对数据资源提供方所拥有的具体的数据造成的隐私泄露风险提供评估还可采用其它的成员推理攻击、属性推理攻击以及模型窃取攻击等方式进行。

属性推断攻击：

在属性推断攻击中，攻击者不试图判断某条记录是否在模型的训练数据集中，而尝试从某条记录或某些记录中已知的属性出发，通过构造大量人工样本，观察模型输出情况，进而判断其他未知属性的真实取值。

模型窃取攻击：

相较于窃取训练数据，模型窃取攻击将直接窃取模型本身的参数，如模型结构，而后根据窃取的模型参数，试图构建尽可能与目标模型相似的模型，即对于给定的样本，攻击者试图构造出能与目标模型输出相同或相似结果的模型。

在数据使用过程中对数据使用需求方预期获得的数据使用效果提供评估的一种具体实现方法如下：

在机器学习领域，存在多种不同的模型评价指标，如精度（accuracy）、精确率（precision）、召回率（recall）、F1值、TPR、FPR、ROC、AUC等。

上述指标的基准为混淆矩阵，混淆矩阵常用格式如下所示：

表1 混淆矩阵

如表1所见，TP代表实际为正例预测也为正例的样本数，TN代表实际为反例预测也为反例的样本数，FP代表实际为反例但预测为正例的样本数，FN代表实际为正例但预测为反例的样本数。基于混淆矩阵，可得各类评价指标。

精度= (TP+TN)/(TP+FP+FN+TN)

精确率= TP/(TP+FP)

召回率= TP/(TP+FN)

F1 = (2*Precision*Recall)/(Precision+Recall) ，是精确率和召回率的调和平均数，最大为1，最小为0，其值越大，表示模型效果越好。

TPR = TP/(TP+FN) ，表示在所有实际为正例的样本中，被正确地判断为正例的样本比例。

FPR = FP/(TN+FP) ，表示在所有实际为负例地样本中，被错误地判断为正例的样本比例。

ROC：是根据预测结果将预测样本排序，最可能为正样本的在前，最不可能的在后，依次将样本预测为正样本，分别计算当前的TPR和FPR，并以TPR为纵轴，FPR为横轴，绘制而成的曲线。

AUC：是ROC曲线与横纵轴围成的面积。

以对目标模型进行差分隐私保护为例，从精度（accuracy）指标出发，不同的差分隐私方法（NC、AC、zCDP、RDP）和不同的隐私预算取值

，对模型精度造成的影响不同。如图4所示，

越大，精度损失（accuracyloss）越小，模型的预测能力越强。通过综合衡量隐私预算对隐私泄露比例和准确性损失程度的影响，选取隐私泄露风险小，同时准确性损失小的隐私方案，有助于促进各方的数据合作。

Claims

1.一种多方数据协同场景下的隐私保护量化评估方法，其特征在于，包括以下步骤：

（2）数据资源使用方在系统上查询数据资源，并选择所需数据资源，指定算法、隐私保护机制和模型指标，设置模型指标阈值，发起数据资源使用请求；

（3）数据资源提供方根据算法和保护机制，将所述数据资源输入模型中进行训练，当模型指标超过模型指标阈值时，停止训练，输出满足模型指标和模型指标阈值的模型；

（5）数据资源提供方设置隐私指标的阈值，若隐私指标超过隐私指标的阈值，数据资源提供方拒绝数据资源使用方发起的数据资源使用请求；否则，数据资源提供方同意数据资源使用方发起的数据资源使用请求，并将模型返回给数据资源使用方。

2.如权利要求1所述多方数据协同场景下的隐私保护量化评估方法，其特征在于，步骤（1）中数据资源为数据类型、数据特征维度、数据条目数、获取实际数据的方式、与数据交易相关的信息中的一种或者多种。

3.如权利要求1所述多方数据协同场景下的隐私保护量化评估方法，其特征在于，步骤（2）中算法为经典机器学习算法或深度学习算法。

4.如权利要求1所述多方数据协同场景下的隐私保护量化评估方法，其特征在于，步骤（2）中隐私保护机制为k-anonymity机制、l-diversity机制、t-closeness机制、差分隐私机制、同态加密机制、多方安全计算机制中的一种或者多种。

5.如权利要求1所述多方数据协同场景下的隐私保护量化评估方法，其特征在于，步骤（2）中模型指标包括精度、精确率、召回率、F1值、TPR和AUC。

6.如权利要求1所述多方数据协同场景下的隐私保护量化评估方法，其特征在于，步骤（2）中模型指标阈值取值范围为0.8~1.0的实数。

7.如权利要求1所述多方数据协同场景下的隐私保护量化评估方法，其特征在于，步骤（3）中模型的训练方式包括随机梯度下降法和小批量梯度下降法。

8.如权利要求1所述多方数据协同场景下的隐私保护量化评估方法，其特征在于，步骤（4）中攻击手段为成员推断攻击、属性推断攻击和模型窃取攻击中的一种或者多种；所述隐私指标为训练数据泄露的比例和属性泄露的比例。

9.如权利要求1所述多方数据协同场景下的隐私保护量化评估方法，其特征在于，步骤（4）中的隐私指标的阈值为小于0.2的实数。

10.一种满足权利要求1所述多方数据协同场景下的隐私保护量化评估方法的系统，其特征在于，包括：数据资源分配模块、隐私保护模块、模型训练模块、性能评测模块、隐私攻击模块和分析报告模块；

所述隐私保护模块用于提供各类隐私保护机制；

所述性能评测模块用于评测并输出模型的准确性和时耗指标；