CN111159727A

CN111159727A - 一种面向多方协同的贝叶斯分类器安全生成系统及方法

Info

Publication number: CN111159727A
Application number: CN201911269984.2A
Authority: CN
Inventors: 李�昊; 王枫为; 朱辉; 李晖; 赵家奇; 寇笑语
Original assignee: Xidian University; First Affiliated Hospital of Medical College of Xian Jiaotong University
Current assignee: Xidian University; First Affiliated Hospital of Medical College of Xian Jiaotong University
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-05-15
Anticipated expiration: 2039-12-11
Also published as: CN111159727B

Abstract

本发明属于信息安全技术领域，公开了一种安全多方贝叶斯分类器生成系统及方法，包括系统初始化，密钥分发中心生成系统安全参数、分布式数据加密密钥和聚合数据解密密钥；本地训练数据加密，并将加密之后的数据发送给模型生成方；模型生成方对收到的各密文训练数据进行聚合计算，生成密文全局训练数据，并使用聚合数据解密密钥对密文全局训练数据进行解密，获取贝叶斯分类器训练参数；贝叶斯分类模型生成方利用获取的贝叶斯训练参数计算相应的条件概率与前验概率，生成贝叶斯分类器。本发明可用于分布式场景中贝叶斯分类器的生成与训练，能够在确保模型生成方获取高精度贝叶斯分类器的同时，实现对多数据中心敏感数据的安全聚合与隐私保护。

Description

一种面向多方协同的贝叶斯分类器安全生成系统及方法

技术领域

本发明属于信息安全技术领域，尤其涉及一种面向多方协同的贝叶斯分类器安全生成系统及方法。

背景技术

目前，最接近的现有技术：随着互联网数据量的快速增长和信息技术的不断发展，机器学习受到了人们的广泛关注。朴素贝叶斯分类器作为一种典型的机器学习算法，能够通过学习建模提供精确高效的数据分类服务，在金融、医疗、交通等诸多领域得到了广泛应用。在传统的贝叶斯数据分类服务中，模型生成方通过聚合数据中心的数据训练分类器，进而提供数据分类服务。上述过程中，各数据中心的敏感数据(例如样本数据、统计分析数据等)并未得到保护，存在敏感信息泄露的风险。为了找出一种解决上述问题的方法，人们提出了一些解决方案，其中：

中国人民大学申请的专利“一种机器学习中的数据隐私保护方法和系统”(申请号CN201810487937.4申请公布号CN108717514A)公开了一种基于保序加密技术的隐私保护机器学习模型，能够保护机器学习中原始数据、模型数据以及待预测数据的隐私性。该发明的不足之处在于：保序加密用于多维数据时，但是由于保序加密密文维持所对应明文的大小关系，会导致泄露明文的顺序以及不同维度数据之间的相关性，存在安全性不足的问题。

东北大学申请的专利“支持隐私保护的决策树分类服务系统及方法”(申请号CN201910142676.7申请公布号CN110008717A)公开了一种基于ElGamal同态加密技术的隐私保护决策树分类方法。该方法通过构造密文数据大小比较算法，实现了决策树分类过程中分类器参数以及待测数据的隐私性。该发明的不足之处在于：决策树分类器构建需要复杂数学运算，所提出的方法未能确保该过程中原始数据的安全性，仅对数据分类过程中的敏感数据进行了隐私保护。

综上所述，现有技术存在的问题是：现有的数据分类隐私保护方案，存在安全性不足，不能支持分类器训练过程中数据保护等问题。同时，大多方案并未针对数据分布式存储场景，构造安全多数据源分类器生成方法。

解决上述技术问题的难度：现有隐私保护方案不支持复杂运算，且存在安全性与可用性相互制约的问题。同时，现存同态加密技术难以用于分布式计算场景，不能为多数据源提供有效隐私保护。

解决上述技术问题的意义：针对分布式场景中的数据安全问题，设计多方协同的数据分类器生成算法，能够确保敏感数据的安全有效使用，促进数据挖掘技术与机器学习算法的快速发展。

发明内容

针对现有技术存在的问题，本发明提供了一种面向多方协同的贝叶斯分类器安全生成系统及方法。

本发明是这样实现的，一种面向多方协同的贝叶斯分类器安全生成方法，所述面向多方协同的贝叶斯分类器安全生成方法包括以下步骤：

第一步，系统初始化，密钥分发中心选择数据处理过程中所需要的安全参数，生成Paillier加密系统和系统所需安全参数；将Paillier加密系统公钥进行拆分，为各数据中心生成分布式数据加密密钥；结合Paillier加密系统私钥和系统安全参数，为模型生成方生成聚合数据解密密钥；

第二步，本地训练数据加密，各数据中心对采集到的个体样本数据进行处理，生成本地训练数据；各数据中心使用分布式数据加密密钥对本地训练数据进行加密计算，并将加密之后的数据发送给模型生成方；

第三步，密文训练数据处理，模型生成方对收到的各密文训练数据进行聚合计算，生成密文全局训练数据，模型生成方使用聚合数据解密密钥对密文全局训练数据进行解密，获取贝叶斯分类器训练参数；

第四步，贝叶斯分类器训练，模型生成方利用获取的贝叶斯训练参数计算相应的条件概率与前验概率，生成贝叶斯分类器。

进一步，所述第一步系统初始化具体包括：

1)密钥分发中心选择一个安全系数κ，该安全系数κ越大，则系统的安全性能越好，同时系统的计算开销也越大；

2)密钥分发中心通过执行Paillier加密系统的密钥生成函数Gen(κ)，得到Pailiier加密系统的公钥PK＝(N,g)以及私钥SK＝(λ,μ)；

3)密钥分发中心在

中选取大素数p′以及随机数s，计算h＝g^p′modN²；

4)密钥分发中心将N拆分为m个数(N₁,N₂,…N_m)，满足条件

其中m为参与计算的数据中心的个数。之后针对每一个N_i，计算

5)密钥分发中心公开系统安全参数(N,g,h,κ)，将聚合数据解密密钥(λ,μ,p′)发送给模型生成方，分布式数据加密密钥

发送给各数据中心。

进一步，所述第二步本地训练数据加密具体包括：

1)数据中心收集到的个体样本数据表示为两个向量

以及

其中

为特征向量，表示该个体所具有的特征属性，

为类别向量，代表该个体所属类别；则数据中心所收集到的样本数据表示为

以及

其中k＝1,2,…,l⁽ⁱ⁾，l⁽ⁱ⁾为该数据中心收集到的样本数量；

2)针对每一个样本数据，数据中心计算

其中

s＝1,2,…,u，t＝1,2,…,v，针对k＝1,2,…,l⁽ⁱ⁾，将向量

和

中每一维进行求和，得到

以及

并合成本地训练数据如下：

3)对任意的

数据中心执行加密操作如下：

其中，r为在

中选取的随机数。之后数据中得到加密的本地训练数据如下：

4)数据中心将数据将

发送给模型生成方。

进一步，所述第三步密文数据处理具体包括：

1)模型生成方判断是否收到m个数据中心的密文本地训练数据，若接收到所有数据中心的数据，执行如下聚合运算：

其中，s＝1,2,…,u，t＝1,2,…,v。之后模型生成方得到密文全局训练数据如下：

2)对任意的对任意的

模型生成方执行解密计算如下：

其中，

模型生成方得到贝叶斯分类器训练参数；

进一步，所述第四步贝叶斯分类器训练具体包括：根据计算得到的贝叶斯分类器训练参数，模型生成方训练贝叶斯分类器如下：

Pr(x_s＝0|y_t＝1)＝1-Pr(x_s＝1|y_t＝1)

Pr(x_s＝0|y_t＝0)＝1-Pr(x_s＝1|y_t＝0)。

本发明的另一目的在于提供一种实施所述面向多方协同的贝叶斯分类器安全生成方法的面向多方协同的贝叶斯分类器安全生成系统，所述面向多方协同的贝叶斯分类器安全生成系统包括：

密钥分发中心，用于选择数据处理过程中所需要的安全参数，生成Paillier加密系统和系统所需安全参数；将Paillier加密系统公钥进行拆分，为各数据中心生成分布式数据加密密钥；结合Paillier加密系统私钥和系统安全参数，为模型生成方生成聚合数据解密密钥；

数据中心，用于对采集到的个体样本数据进行处理，生成本地训练数据；使用分布式数据加密密钥对本地训练数据进行加密计算，并将加密之后的数据发送给模型生成方；

模型生成方，用于对收到的各密文训练数据进行聚合计算，生成密文全局训练数据；使用聚合数据解密密钥对密文全局训练数据进行解密，获取贝叶斯分类器训练参数。

进一步，所述密钥分发中心包括：

安全系数选取模块，用于根据不同需求选取安全系数，安全系数越大，则系统的安全性能越好，同时系统的计算开销也越大；

密钥生成模块，用于完成系统初始化，生成Paillier加密系统和安全参数；根据数据中心的数量将Paillier加密系统公钥进行拆分，为各数据中心生成分布式数据加密密钥；结合Paillier加密系统私钥和系统安全参数，为模型生成方生成聚合数据解密密钥；

密钥分发模块，公开系统安全参数，并将生成的密钥发送给各数据中心与模型生成方。

进一步，所述数据中心包括：

数据采集模块，用于采集样本数据，形成本地训练样本数据集；

数据预处理模块，用于对采集到的样本数据进行初步处理，生成本地训练数据；

数据加密模块，用于接收密钥分发中心生成的分布式数据加密密钥，并利用分布式数据加密密钥对发送给模型生成方的本地训练数据进行加密计算。

进一步，所述模型生成方包括：

密文数据处理模块，用于接收密钥分发中心生成的聚合数据解密密钥，并对数据中心发送的密文数据进行处理；

密文数据聚合子模块，用于对各数据中心的密文本地训练数据进行聚合计算，生成密文全局训练数据；

数据解密子模块，使用聚合数据解密密钥对密文全局训练数据进行解密，获取全局分类器训练参数；

分类器训练模块，使用获取的分类器参数训练贝叶斯分类器。

本发明的另一目的在于提供一种应用所述面向多方协同的贝叶斯分类器安全生成方法的数据分类服务控制系统。

综上所述，本发明的优点及积极效果为：本发明能在生成高精度贝叶斯分类器的前提下，实现对多数据中心敏感数据的有效隐私保护。本发明可用于分布式场景中贝叶斯分类器的生成与训练，能够在确保模型生成方获取高精度贝叶斯分类器的同时，实现对多数据中心敏感数据的安全聚合与隐私保护。

本发明实现了分类器训练过程中敏感数据的隐私保护，数据中心的本地训练数据在发送给模型生成方之前，通过改进的同态加密技术进行加密，使得各数据中心的敏感信息不会被模型生成方得到，确保数据中心敏感数据的安全性。

本发明在隐私保护的前提下，模型生成方能够训练出高精度的贝叶斯分类器。服务提供方可以通过密文数据聚合与解密获取全局贝叶斯训练参数，训练出高精度的贝叶斯分类器。

本发明适用于广域分布的多数据中心协同处理场景。将同态加密技术与密钥拆分技术进行了结合，提出了适用于多数据中心的数据安全聚合算法，能够解决分布式场景中的数据安全问题。

附图说明

图1是本发明实施例提供的面向多方协同的贝叶斯分类器安全生成系统的结构示意图；

图中：1、密钥分发中心；2、数据中心；3、模型生成方。

图2是本发明实施例提供的面向多方协同的贝叶斯分类器安全生成方法流程图。

图3是本发明实施例提供的面向多方协同的贝叶斯分类器安全生成系统的原理示意图。

图4是本发明实施例提供的面向多方协同的贝叶斯分类器安全生成方法实现流程图。

图5是本发明实施例提供的系统初始化子流程图。

图6是本发明实施例提供的密文数据处理与分类器生成子流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种面向多方协同的贝叶斯分类器安全生成系统及方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的面向多方协同的贝叶斯分类器安全生成系统包括：

密钥分发中心1，用于选择数据处理过程中所需要的安全参数，生成Paillier加密系统和系统所需安全参数；将Paillier加密系统公钥进行拆分，为各数据中心生成分布式数据加密密钥；结合Paillier加密系统私钥和系统安全参数，为模型生成方生成聚合数据解密密钥。

数据中心2，用于对采集到的个体样本数据进行处理，生成本地训练数据；使用分布式数据加密密钥对本地训练数据进行加密计算，并将加密之后的数据发送给模型生成方3。

模型生成方3，用于对收到的各密文训练数据进行聚合计算，生成密文全局训练数据；使用聚合数据解密密钥对密文全局训练数据进行解密，获取贝叶斯分类器训练参数。

密钥分发中心1包括：

密钥生成模块，用于完成系统初始化，生成Paillier加密系统和安全参数；根据数据中心的数量将Paillier加密系统公钥进行拆分，为各数据中心生成分布式数据加密密钥；结合Paillier加密系统私钥和系统安全参数，为模型生成方3生成聚合数据解密密钥；

密钥分发模块，公开系统安全参数，并将生成的密钥发送给各数据中心与模型生成方3。

数据中心2包括：

数据加密模块，用于接收密钥分发中心1生成的分布式数据加密密钥，并利用分布式数据加密密钥对发送给模型生成方3的本地训练数据进行加密计算。

模型生成方3包括：

密文数据处理模块，用于接收密钥分发中心1生成的聚合数据解密密钥，并对数据中心发送的密文数据进行处理，其中

数据解密子模块，使用聚合数据解密密钥对密文全局训练数据进行解密，获取全局分类器训练参数。

如图2所示，本发明实施例提供的面向多方协同的贝叶斯分类器安全生成方法包括以下步骤：

S201：系统初始化，密钥分发中心选择数据处理过程中所需要的安全参数，生成Paillier加密系统和系统所需安全参数；将Paillier加密系统公钥进行拆分，为各数据中心生成分布式数据加密密钥；结合Paillier加密系统私钥和系统安全参数，为模型生成方生成聚合数据解密密钥。

S202：本地训练数据加密，各数据中心对采集到的个体样本数据进行处理，生成本地训练数据；各数据中心使用分布式数据加密密钥对本地训练数据进行加密计算，并将加密之后的数据发送给模型生成方。

S203：密文训练数据处理，模型生成方对收到的各密文训练数据进行聚合计算，生成密文全局训练数据，模型生成方使用聚合数据解密密钥对密文全局训练数据进行解密，获取贝叶斯分类器训练参数。

S204：贝叶斯分类器训练，模型生成方利用获取的贝叶斯训练参数计算相应的条件概率与前验概率，生成贝叶斯分类器。

下面结合附图对本发明的技术方案作进一步的描述。

如图3所示，本发明实施例提供的面向多方协同的贝叶斯分类器安全生成系统包括：密钥分发中心，数据中心以及模型生成方三个组成部分，其中：

密钥分发中心，完成系统初始化，公开系统安全参数，为各数据中心与模型生成方生成分布式数据加密密钥与聚合数据解密密钥。

数据中心，收集样本数据，形成本地训练样本数据集，并使用分布式数据加密密钥将本地训练数据加密之后发送给模型生成方。

模型生成方，对各数据中心的密文本地数据进行聚合计算，生成密文全局训练数据，并使用聚合数据解密密钥将其解密之后训练贝叶斯分类器。

如图4所示，本发明实施例提供的面向在线打车服务的隐私保护方法，包括如下步骤：

步骤一，系统初始化。

1.1)密钥分发中心选择一个安全系数κ，该安全系数κ越大，则系统的安全性能越好，同时系统的计算开销也越大；

1.2)密钥分发中心通过执行Paillier加密系统的密钥生成函数Gen(κ)，得到Pailiier加密系统的公钥PK＝(N,g)以及私钥SK＝(λ,μ)；

1.3)密钥分发中心在

中选取大素数p′以及随机数s，计算h＝g^p′modN²；

1.4)密钥分发中心将N拆分为m个数(N₁,N₂,…N_m)，满足条件

1.5)密钥分发中心公开系统安全参数(N,g,h,κ)，将聚合数据解密密钥(λ,μ,p′)发送给模型生成方，分布式数据加密密钥

发送给各数据中心。

步骤二，本地训练数据加密。

2.1)假设数据中心收集到的个体样本数据表示为两个向量

以及

其中

为特征向量，表示该个体所具有的特征属性，

为类别向量，代表该个体所属类别。则数据中心所收集到的样本数据可表示为

以及

2.2)针对每一个样本数据，数据中心计算

其中

s＝1,2,…,u，t＝1,2,…,v。之后，针对k＝1,2,…,l⁽ⁱ⁾，将向量

和

中每一维进行求和，得到

以及

并合成本地训练数据如下：

2.3)对任意的

数据中心执行加密操作如下：

其中，r为在

最后，数据中心将数据将

发送给模型生成方。

步骤三，密文数据处理。

3.1)模型生成方判断是否收到m个数据中心的密文本地训练数据，若接收到所有数据中心的数据，执行如下聚合运算：

3.2)对任意的对任意的

模型生成方执行解密计算如下：

其中，

最后，模型生成方得到贝叶斯分类器训练参数；

步骤四，贝叶斯分类器训练

根据计算得到的贝叶斯分类器训练参数，模型生成方训练贝叶斯分类器如下：

Pr(x_s＝0|y_t＝1)＝1-Pr(x_s＝1|y_t＝1)

Pr(x_s＝0|y_t＝0)＝1-Pr(x_s＝1|y_t＝0)。

本发明能够在确保数据安全性以及所生成贝叶斯分类器精确性的前提下实现数据的高效处理。在处理器R53550h，安全参数1024位的环境中进行实际测试，1000维数据加密用时0.46s，解密用时4.8s。同时，所生成的贝叶斯分类器不受隐私保护机制的影响，能够在真实场景中进行应用。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向多方协同的贝叶斯分类器安全生成方法，其特征在于，所述面向多方协同的贝叶斯分类器安全生成方法包括以下步骤：

2.如权利要求1所述的面向多方协同的贝叶斯分类器安全生成方法，其特征在于，所述第一步系统初始化具体包括：

3)密钥分发中心在

中选取大素数p′以及随机数s，计算h＝g^p′mod N²；

4)密钥分发中心将N拆分为m个数(N₁,N₂,…N_m)，满足条件

其中m为参与计算的数据中心的个数，之后针对每一个N_i，计算

发送给各数据中心。

3.如权利要求1所述的面向多方协同的贝叶斯分类器安全生成方法，其特征在于，所述第二步本地训练数据加密具体包括：

1)数据中心收集到的个体样本数据表示为两个向量

以及

其中

为特征向量，表示该个体所具有的特征属性，

以及

2)针对每一个样本数据，数据中心计算

其中

针对k＝1,2,…,l⁽ⁱ⁾，将向量

和

中每一维进行求和，得到

以及

并合成本地训练数据如下：

3)对任意的

数据中心执行加密操作如下：

其中，r为在

中选取的随机数，之后数据中得到加密的本地训练数据如下：

4)数据中心将数据将

发送给模型生成方。

4.如权利要求1所述的面向多方协同的贝叶斯分类器安全生成方法，其特征在于，所述第三步密文数据处理具体包括：

其中，s＝1,2,…,u，t＝1,2,…,v，之后模型生成方得到密文全局训练数据如下：

2)对任意的对任意的

模型生成方执行解密计算如下：

其中，

模型生成方得到贝叶斯分类器训练参数；

5.如权利要求1所述的面向多方协同的贝叶斯分类器安全生成方法，其特征在于，所述第四步贝叶斯分类器训练具体包括：根据计算得到的贝叶斯分类器训练参数，模型生成方训练贝叶斯分类器如下：

Pr(x_s＝0|y_t＝1)＝1-Pr(x_s＝1|y_t＝1)

Pr(x_s＝0|y_t＝0)＝1-Pr(x_s＝1|y_t＝0)。

6.一种实施权利要求1～5任意一项所述面向多方协同的贝叶斯分类器安全生成方法的面向多方协同的贝叶斯分类器安全生成系统，其特征在于，所述面向多方协同的贝叶斯分类器安全生成系统包括：

7.如权利要求6所述的面向多方协同的贝叶斯分类器安全生成系统，其特征在于，所述密钥分发中心包括：

8.如权利要求6所述的面向多方协同的贝叶斯分类器安全生成系统，其特征在于，所述数据中心包括：

9.如权利要求6所述的面向多方协同的贝叶斯分类器安全生成系统，其特征在于，所述模型生成方包括：

10.一种应用权利要求1～5任意一项所述面向多方协同的贝叶斯分类器安全生成方法的数据分类服务控制系统。