CN113360945A

CN113360945A - 基于差分隐私的噪声添加方法、装置、设备及介质

Info

Publication number: CN113360945A
Application number: CN202110729784.1A
Authority: CN
Inventors: 韩玉奎; 晏存; 陈海涛; 李福宇; 高宏
Original assignee: China Merchants Finance Technology Co Ltd
Current assignee: China Merchants Finance Technology Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-07
Anticipated expiration: 2041-06-29
Also published as: CN113360945B

Abstract

本发明涉及数据隐私保护技术，揭露一种基于差分隐私的噪声添加方法，包括：利用数据样本集对预构建的数据挖掘模型进行第一预测训练，得到第一预测准确率，根据所述第一预测准确率设置所述数据挖掘模型的最低预测准确率，利用差分隐私技术，基于不同取值下的差分隐私预算ε构造有噪声的数据样本集，利用所述有噪声的数据样本集对所述数据挖掘模型进行第二预测训练，得到不同ε取值下的第二预测准确率，从不低于所述最低预测准确率的第二预测准确率中选择取值最小的ε对应的噪声作为目标噪声并添加至所述数据样本集中。本发明还提出一种基于差分隐私的噪声添加装置、设备及介质。本发明可以解决数据隐私保护中噪声选择普适性低的问题。

Description

基于差分隐私的噪声添加方法、装置、设备及介质

技术领域

本发明涉及数据隐私保护领域，尤其涉及一种基于差分隐私的噪声添加方法、装置、电子设备及计算机可读存储介质。

背景技术

随着信息技术应用的不段普及和深入，各种信息系统存储着大量的数据，例如，医疗机构建立的患者诊断数据集，商业机构建立的客户交易数据集。对这些数据集进行数据挖掘可以获得很多关键重要的信息，但是这些数据集通常包含着许多个人的隐私信息，例如，个人医疗诊断结果、个人消费习惯等信息，在对这些数据集进行数据挖掘、发布及共享的同时，可能会导致用户的个人隐私数据泄露，因此针对数据的隐私保护十分重要。

如何保护用户的个人隐私数据不泄露，当前针对数据的隐私保护较多是通过对原始数据集加入噪声，即通过在原始数据集中加入错误的数据来干扰攻击者，从而达到对原始数据集的隐私保护。这种方式噪声的设置非常关键，加入的噪声过小，不能起到隐私保护的作用，加入的噪声过大，可能会对原始数据集的逻辑造成干扰，导致相应的数据挖掘或数据分析的准确性下降，当前当前数据隐私保护中噪声选择依赖人工经验，噪声选择方法普适性有待提升。

发明内容

本发明提供一种基于差分隐私的噪声添加方法、装置及计算机可读存储介质，其主要目的在于解决当前数据隐私保护中噪声选择方法普适性低的问题。

为实现上述目的，本发明提供的一种基于差分隐私的噪声添加方法，包括：

利用数据样本集对预构建的数据挖掘模型进行第一预测训练，直到所述第一预测训练满足第一预设条件时，退出所述第一预测训练，并得到所述数据挖掘模型在满足所述第一预设条件时输出的第一预测准确率；

根据所述第一预测准确率，设置所述数据挖掘模型的最低预测准确率；

利用差分隐私技术，设置含有不同取值的差分隐私预算ε集，并根据每一个所述差分隐私预算ε的取值，对所述数据样本集加入噪声，得到不同ε取值下的有噪声的数据样本集；

利用所述不同ε取值下的有噪声的数据样本集，分别对所述数据挖掘模型进行第二预测训练，直到所述第二预测训练满足第二预设条件时，退出所述第二预测训练，并得到所述数据挖掘模型在满足所述第二预设条件时输出的不同ε取值下的第二预测准确率；

从所有所述不同ε取值下的第二预测准确率中选择不低于所述最低预测准确率的第二预测准确率，并从所有所述不低于所述最低预测准确率的第二预测准确率中，选择取值最小的ε对应的噪声作为目标噪声，将所述目标噪声添加至所述数据样本集中。

可选地，所述利用数据样本集对预构建的数据挖掘模型进行第一预测训练，直到所述第一预测训练满足第一预设条件时，退出所述第一预测训练，包括：

利用预构建的数据挖掘模型对所述数据样本集进行特征预测，得到所述数据样本集的特征集；

利用预构建的预测函数对所述特征集进行预测概率计算，得到所述数据样本集的第一预测结果；

根据所述数据样本集的真实结果及所述第一预测结果，计算得到所述数据样本集的第一预测准确率；

判断所述第一预测准确率是否满足第一预设条件；

若所述第一预测准确率不满足所述第一预设条件，则调整所述数据挖掘模型的参数，并返回上述的利用预构建的数据挖掘模型对所述数据样本集进行特征预测的步骤；

若所述第一预测准确率满足所述第一预设条件，则退出所述第一预测训练。

可选地，所述根据每一个所述差分隐私预算ε的取值，对所述数据样本集加入噪声，得到不同ε取值下的有噪声的数据样本集，包括：

按照所述差分隐私预算ε的取值从小到大的顺序对所述差分隐私预算ε集排序；

根据所述排序依次在不同的差分隐私预算ε取值下，利用噪声算法对所述数据样本集加入噪声，得到不同ε取值下的含有噪声的数据样本集。

可选地，所述利用所述不同ε取值下的有噪声的数据样本集，分别对所述数据挖掘模型进行第二预测训练，直到所述第二预测训练满足第二预设条件时，退出所述第二预测训练，包括：

选择其中一个ε取值下的有噪声的数据样本集；

利用所述数据挖掘模型对选择的所述有噪声的数据样本集进行特征预测，得到所述有噪声的数据样本集的特征集；

利用预构建的预测函数对所述特征集进行预测概率计算，得到所述有噪声的数据样本集的第二预测结果；

利用所述数据样本集的真实结果及所述第二预测结果，计算得到第二预测准确率；

判断所述第二预测训练的次数是否满足第二预设条件；

若所述第二预测训练的次数不满足所述第二预设条件，则调整所述数据挖掘模型的参数，并返回上述的利用所述数据挖掘模型对选择的所述有噪声的数据样本集进行特征预测的步骤；

若所述第二预测训练的次数满足所述第二预设条件，则返回上述的选择其中一个ε取值下的有噪声的数据样本集，直到所有ε取值下的有噪声的数据样本集都被选择完毕时，退出所述第二预测训练。

可选地，所述从所有所述不同ε取值下的第二预测准确率中选择不低于所述最低预测准确率的第二预测准确率，并从所有所述不低于所述最低预测准确率的第二预测准确率中，选择取值最小的ε对应的噪声作为目标噪声，包括：

将所有所述不同ε取值下的第二预测准确率及对应的ε取值存储到预构建的预测结果记录表中；

遍历所述预构建的预测结果记录表，筛选不低于所述最低预测准确率的第二预测准确率及对应的ε的记录行；

从所述记录行中，获取取值最小的ε，将所述取值最小的ε对应的噪声作为目标噪声。

可选地，利用数据样本集对预构建的数据挖掘模型进行第一预测训练之前，还包括：

从预设数据库中采集得到所述数据样本集；

统计所述数据样本集的基本数据特征；

根据所述基本数据特征，并利用数据可视化方法识别所述数据样本集中的异常数据；

对所述异常数据进行剔除或修补。

可选地，所述从预设数据库中采集得到所述数据样本集，还包括：

获取所述预设数据库的数据库类型；

根据所述数据库类型，配置相应的数据采集适配器；

利用所述数据采集适配器，根据预先设置的批量采集任务，从所述数据库中批量采集数据，得到所述数据样本集。

为了解决上述问题，本发明还提供一种基于差分隐私的噪声添加装置，所述装置包括：

第一预测训练模块，用于利用所述数据样本集对预构建的数据挖掘模型进行第一预测训练，直到所述第一预测训练满足第一预设条件时，退出所述第一预测训练，并得到所述数据挖掘模型在满足所述第一预设条件时输出的第一预测准确率；根据所述第一预测准确率，设置所述数据挖掘模型的最低预测准确率；

第二预测训练模块，用于利用差分隐私技术，设置含有不同取值的差分隐私预算ε集，并根据每一个所述差分隐私预算ε的取值，对所述数据样本集加入噪声，得到不同ε取值下的有噪声的数据样本集；利用所述不同ε取值下的有噪声的数据样本集，分别对所述数据挖掘模型进行第二预测训练，直到所述第二预测训练满足第二预设条件时，退出所述第二预测训练，并得到所述数据挖掘模型在满足所述第二预设条件时输出的不同ε取值下的第二预测准确率；

目标噪声选择及添加模块，用于从所有所述不同ε取值下的第二预测准确率中选择不低于所述最低预测准确率的第二预测准确率，并从所有所述不低于所述最低预测准确率的第二预测准确率中，选择取值最小的ε对应的噪声作为目标噪声，将所述目标噪声添加至所述数据样本集中。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现上述所述的基于差分隐私的噪声添加方法。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于差分隐私的噪声添加方法。

本发明实施例利用数据样本集对预构建的数据挖掘模型进行第一预测训练，得到第一预测准确率，并根据所述第一预测准确率，设置所述数据挖掘模型的最低预测准确率，利用差分隐私技术，基于不同取值下的差分隐私预算ε，构造有噪声的数据样本集，利用所述有噪声的数据样本集对所述数据挖掘模型进行第二预测训练，得到不同ε取值下的第二预测准确率，从不低于所述最低预测准确率的第二预测准确率中选择取值最小的ε对应的噪声作为目标噪声，并将所述目标噪声添加至所述数据样本集中。本发明实施例中噪声的评估可以进行量化比较，因此本发明可以解决当前数据隐私保护中噪声选择方法普适性低的问题。

附图说明

图1为本发明一实施例提供的基于差分隐私的噪声添加方法的流程示意图；

图2为图1所示基于差分隐私的噪声添加方法中其中一个步骤的详细实施流程示意图；

图3为图1所示基于差分隐私的噪声添加方法中其中一个步骤的详细实施流程示意图；

图4为本发明一实施例提供的基于差分隐私的噪声添加装置的功能模块图；

图5为本发明一实施例提供的实现所述基于差分隐私的噪声添加方法的电子设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例提供一种基于差分隐私的噪声添加方法。所述基于差分隐私的噪声添加方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述基于差分隐私的噪声添加方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。

参照图1所示，为本发明一实施例提供的基于差分隐私的噪声添加方法的流程示意图。在本实施例中，所述基于差分隐私的噪声添加方法包括：

S1、利用所述数据样本集对预构建的数据挖掘模型进行第一预测训练，直到所述第一预测训练满足第一预设条件时，退出所述第一预测训练，并得到所述数据挖掘模型在满足所述第一预设条件时输出的第一预测准确率；

本发明实施例中，所述数据样本集是指含有个人信息的数据集，例如，医疗机构建立的患者诊断数据集，商业机构建立的客户交易数据集。

本发明实施例中，可以从预设数据库中采集得到所述数据样本集，所述预设数据库可以是企业内部OA系统、交易核心系统、CRM系统的数据库，也可以来自企业外部互联网的数据库。

进一步地，所述从预设数据库中采集得到所述数据样本集，包括：获取所述预设数据库的数据库类型；根据所述数据库类型，配置相应的数据采集适配器；设置批量采集任务，利用所述数据采集适配器，根据所述批量采集任务，从所述数据库中批量采集数据，得到数据样本集。

本发明实施例中，所述数据库类型可以是oracle、mysql、ftp、sftp、hive 等类型，针对不同的数据库类型分别配置不同的数据采集适配器。所述数据采集适配器是用来高效地从所述预设数据库中检索和获取数据，并按照自定义的逻辑有效地存储数据的一种工具，是数据源头和数据存储目的地之间的一座桥梁。

较佳地，在所述利用所述数据样本集对预构建的数据挖掘模型进行第一预测训练之前，对所述数据样本集执行数据清洗操作，可以提升所述数据样本集的数据有效性。所述对所述数据样本集执行数据清洗操作，包括：统计所述数据样本集的基本数据特征；根据所述基本数据特征，并利用数据可视化方法识别所述数据样本集中的异常数据；对所述异常数据进行剔除或修补。

本发明实施例中，所述数据样本集的基本数据特征包括最大值、最小值、中位数、百分位数、变异数、四分位数、标准差、求和、记录数等特征。

本发明实施例中，所述数据可视化方法可以采用热力图、箱线图等方法。

所述热力图常用于地图、网页用户行为的数据分析中，能直观地分析数据特征的关联性，利用热力图分析所述数据样本集，可以得到关联度高的数据特征，进一步地，对所述关联度高的数据特征进行取舍，得到降维后的数据特征。

所述箱线图也称“盒式图”或叫“盒须图”，常用于分析定量数据，能够直观的识别数据中的异常值和数据离散分布情况，利用箱线图分析所述数据样本集，可以得到异常数据，进一步地，对所述异常数据进行修补或取舍，得到正常数据。本发明实施例，以通过贷款用户的基本信息及各月还款情况，预测所述贷款用户下月是否违约为应用场景，利用所述数据挖掘模型预测用户下月是否违约。

详细地，参阅图2所示，所述S1，包括：

S11、利用预构建的数据挖掘模型对所述数据样本集进行特征预测，得到所述数据样本集的特征集；

S12、利用预构建的预测函数对所述特征集进行预测概率计算，得到所述数据样本集的第一预测结果；

S13、根据所述数据样本集的真实结果及所述第一预测结果，计算得到所述数据样本集的第一预测准确率；

S14、判断所述第一预测准确率是否满足第一预设条件；

若所述第一预测准确率不满足所述第一预设条件，则执行S15、调整所述数据挖掘模型的参数，并返回S11；

若所述第一预测准确率满足所述第一预设条件，则执行S16、退出所述第一预测训练，得到所述在满足所述第一预设条件时输出的第一预测准确率。

本发明实施例中，所述预构建的预测函数可以采用SOFTMAX函数，所述SOFTMAX函数又称归一化指数函数，通过所述SOFTMAX函数将所述特征集做分类转换，并将分类结果以概率的形式展现出来，在实际应用中也可以采用其他预测函数对所述特征集进行分类预测。

本发明实施例中，所述第一预设条件可以是预设的准确率范围，当所述第一预测准确率在所述预设的准确率范围内时，退出所述第一预测训练。在实际应用中，可以根据实际情况设置所述第一预测训练的结束条件，例如，所述第一预测训练次数达到预设阈值时，退出所述第一预测训练。

S2、根据所述第一预测准确率，设置所述数据挖掘模型的最低预测准确率；

本发明实施例中，可以通过预设的预测准确率下调比例计算得到所述数据挖掘模型的最低预测准确率，所述预设的预测准确率下调可以根据实际情况设置。

S3、利用差分隐私技术，设置含有不同取值的差分隐私预算ε集，并根据每一个所述差分隐私预算ε的取值，对所述数据样本集加入噪声，得到不同ε取值下的有噪声的数据样本集；

本发明实施例中，所述差分隐私技术是指利用随机算法在所述数据样本集中增加一条记录或减少一条记录，都不影响查询结果，从而抵抗拥有最强大背景知识的攻击者的攻击的一种隐私保护技术。在差分隐私技术中，通常差分隐私预算ε取值越小，对应的隐私保护水平越高。

详细地，所述利用差分隐私技术，设置含有不同取值的差分隐私预算ε集，并根据每一个所述差分隐私预算ε的取值，对所述数据样本集加入噪声，得到不同ε取值下的有噪声的数据样本集，包括：按照所述差分隐私预算ε取值从小到大的顺序对所述差分隐私预算ε集排序；依次在不同的差分隐私预算ε取值下，利用噪声算法对所述数据样本集加入噪声，得到不同ε取值下的含有噪声的数据样本集。

本发明的另一个实施例中，可以通过设置差分隐私预算ε取值范围及相邻ε间的绝对差值来确定含有不同取值的差分隐私预算ε集，例如，设置所述差分隐私预算ε取值范围[0.1,0.4]，设置所述相邻ε间的绝对差值为0.1，则相应的差分隐私预算ε集中ε取值分别为0.1、0.2、0.3及0.4。

本发明实施例中，所述噪声算法在差分隐私技术中可以是Laplase算法或指数算法。

所述Laplase算法适用于数值型查询结果的应用场景，例如，查询某一病患是否确诊，查询结果只包括是或否这两种情况。Laplase算法通过向确切的查询结果中加入服从Laplase分布的随机噪声来实现差分隐私保护。

所述指数算法算法适用于查询结果为一种或一组实体对象的应用场景，例如，举办一场体育比赛，可供选择的项目包括足球、排球，篮球及网球，参与者们为此进行了投票。当对投票率最高的项目进行预测时，为保证预测过程中不泄露参与者们的个人隐私，可以利用指数算法，设计预测结果的可用性函数，在给定的差分隐私保护预算ε下，计算出各种项目的输出概率。

S4、利用所述不同ε取值下的有噪声的数据样本集，分别对所述数据挖掘模型进行第二预测训练，直到所述第二预测训练满足第二预设条件时，退出所述第二预测训练，并得到所述数据挖掘模型的不同ε取值下的第二预测准确率；

本发明实施例中，所述利用不同ε取值下的有噪声的数据样本集，分别对所述数据挖掘模型进行第二预测训练的训练过程相同。

详细地，参阅图3所示，所述S4，包括：

S41、选择其中一个ε取值下的有噪声的数据样本集；

S42、利用所述数据挖掘模型对选择的所述有噪声的数据样本集进行特征预测，得到所述有噪声的数据样本集的特征集；

S43、利用预构建的预测函数对所述特征集进行预测概率计算，得到所述有噪声的数据样本集的第二预测结果；

S44、利用所述数据样本集的真实结果及所述第二预测结果，计算得到第二预测准确率；

S45、判断所述第二预测训练的次数是否满足第二预设条件；

若所述第二预测训练的次数不满足所述第二预设条件，则执行S46、调整所述数据挖掘模型的参数，并返回S42；

若所述第二预测训练的次数满足所述第二预设条件，则执行S47、判断所有ε取值下的有噪声的数据样本集是否都被选择完毕；

若所述所有ε取值下的有噪声的数据样本集都被选择完毕，则执行S48、退出所述第二预测训练，得到所述数据挖掘模型的不同ε取值下的第二预测准确率；

若存在未被选择的ε取值下的有噪声的数据样本集，则执行返回S41。

本发明实施例中，所述第二预设条件可以是预设的第二预测训练次数阈值，当所述第二预测准确率达到所述预设的第二预测训练次数阈值时，退出所述第二预测训练。在实际应用中，可以根据实际情况设置所述第二预测训练的结束条件，例如，所述第二预测训练的预测准确率达到收敛时，退出所述第二预测训练。

S5、从所有所述不同ε取值下的第二预测准确率中选择不低于所述最低预测准确率的第二预测准确率，并从所有所述不低于所述最低预测准确率的第二预测准确率中，选择取值最小的ε对应的噪声作为目标噪声，将所述目标噪声添加至所述数据样本集中。

本发明实施例中，从不低于所述最低预测准确率的第二预测准确率中选择取值最小的ε对应的噪声作为目标噪声，是依据差分隐私ε的取值越大，相应的所述数据挖掘模型的预测准确率越高，相应的对所述数据集加入的噪声越小，所述数据集的隐私保护的程度越低的原则。

将所述目标噪声添加至所述数据样本集中，进一步地，可对添加噪声后的所述数据样本集进行数据挖掘、数据发布或数据共享等操作，从而保证在所述数据挖掘、数据发布或数据共享的操作过程中，一方面可以提升对所述数据样本集的数据隐私保护水平，另一发明不影响所述数据样本集的应用的准确性。在实际应用中，可以结合实际数据挖掘准确性和数据安全性要求，考虑选择相应ε取值下引入的噪声作为目标噪声。

如图4所示，是本发明一实施例提供的基于差分隐私的噪声添加方法装置的功能模块图。

本发明所述基于差分隐私的噪声添加装置100可以安装于电子设备中。根据实现的功能，所述基于差分隐私的噪声添加装置100可以包括、第一预测训练模块101、第二预测训练模块102及目标噪声选择及添加模块103。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

所述第一预测训练模块101，用于利用所述数据样本集对预构建的数据挖掘模型进行第一预测训练，直到所述第一预测训练满足第一预设条件时，退出所述第一预测训练，并得到所述数据挖掘模型在满足所述第一预设条件时输出的第一预测准确率；根据所述第一预测准确率，设置所述数据挖掘模型的最低预测准确率；

所述第二预测训练模块102，用于利用差分隐私技术，设置含有不同取值的差分隐私预算ε集，并根据每一个所述差分隐私预算ε的取值，对所述数据样本集加入噪声，得到不同ε取值下的有噪声的数据样本集；利用所述不同ε取值下的有噪声的数据样本集，分别对所述数据挖掘模型进行第二预测训练，直到所述第二预测训练满足第二预设条件时，退出所述第二预测训练，并得到所述数据挖掘模型在满足所述第二预设条件时输出的不同ε取值下的第二预测准确率；

所述目标噪声选择及添加模块103，用于从所有所述不同ε取值下的第二预测准确率中选择不低于所述最低预测准确率的第二预测准确率，并从所有所述不低于所述最低预测准确率的第二预测准确率中，选择取值最小的ε对应的噪声作为目标噪声，将所述目标噪声添加至所述数据样本集中。

详细地，本发明实施例中所述基于差分隐私的噪声添加装置100中的各个模块在使用时采用与上述的图1至图3中所述的基于差分隐私的噪声添加方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

如图5所示，是本发明一实施例提供的实现基于差分隐私的噪声添加方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如基于差分隐私的噪声添加方法程序。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字 (SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器 11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如基于差分隐私的噪声添加方法程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10 是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块 (例如基于差分隐私的噪声添加方法程序等)，以及调用存储在所述存储器11 内的数据，以执行电子设备1的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图5仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图5 示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源 (比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10 逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器 (Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED 显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的基于差分隐私的噪声添加方法程序是多个指令的组合，在所述处理器10中运行时，可以实现：

具体地，所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本发明还提供一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于差分隐私的噪声添加方法，其特征在于，所述方法包括：

从所有所述不同ε取值下的第二预测准确率中选择不低于所述最低预测准确率的第二预测准确率，并从所有所述不低于所述最低预测准确率的第二预测准确率中，选择取值最小的ε对应的噪声作为目标噪声，并将所述目标噪声添加至所述数据样本集中。

2.如权利要求1所述的基于差分隐私的噪声添加方法，其特征在于，所述利用数据样本集对预构建的数据挖掘模型进行第一预测训练，直到所述第一预测训练满足第一预设条件时，退出所述第一预测训练，包括：

判断所述第一预测准确率是否满足第一预设条件；

3.如权利要求1所述的基于差分隐私的噪声添加方法，其特征在于，所述根据每一个所述差分隐私预算ε的取值，对所述数据样本集加入噪声，得到不同ε取值下的有噪声的数据样本集，包括：

4.如权利要求3所述的基于差分隐私的噪声添加方法，其特征在于，所述利用所述不同ε取值下的有噪声的数据样本集，分别对所述数据挖掘模型进行第二预测训练，直到所述第二预测训练满足第二预设条件时，退出所述第二预测训练，包括：

选择其中一个ε取值下的有噪声的数据样本集；

判断所述第二预测训练的次数是否满足第二预设条件；

5.如权利要求1所述的基于差分隐私的噪声添加方法，其特征在于，所述从所有所述不同ε取值下的第二预测准确率中选择不低于所述最低预测准确率的第二预测准确率，并从所有所述不低于所述最低预测准确率的第二预测准确率中，选择取值最小的ε对应的噪声作为目标噪声，包括：

6.如权利要求1所述的基于差分隐私的噪声添加方法，其特征在于，所述利用数据样本集对预构建的数据挖掘模型进行第一预测训练之前，还包括：

从预设数据库中采集得到所述数据样本集；

统计所述数据样本集的基本数据特征；

对所述异常数据进行剔除或修补。

7.如权利要求6所述的基于差分隐私的噪声添加方法，其特征在于，所述从预设数据库中采集得到所述数据样本集，包括：

获取所述预设数据库的数据库类型；

根据所述数据库类型，配置相应的数据采集适配器；

8.一种基于差分隐私的噪声添加装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的基于差分隐私的噪声添加方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于差分隐私的噪声添加方法。