CN112765657A

CN112765657A - 分布式支持向量机隐私保护方法、系统、存储介质及应用

Info

Publication number: CN112765657A
Application number: CN202110054339.XA
Authority: CN
Inventors: 马立川; 黄子君; 裴庆祺; 王磊
Original assignee: Xi'an Xidian Lianrong Technology Co ltd; Xidian University
Current assignee: Xi'an Xidian Lianrong Technology Co ltd; Xidian University
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-05-07
Anticipated expiration: 2041-01-15
Also published as: US20220237519A1; CN112765657B

Abstract

本发明属于数据隐私保护技术领域，公开了一种分布式支持向量机隐私保护方法、系统、存储介质及应用，通过所有参与实体之间通过秘密共享分割秘密，迭代交互自身分割的部分信息，本地求解子问题；迭代至收敛，求解全局最优解；考虑隐私保护方法的一般性，分别采用数据纵向分布和横向分布的隐私保护方法；参与实体互不信任，通过多方计算技术进行交互和本地训练。本发明在诚实好奇的场景下，利用分割数据的思想，通过用户之间交互部分数据进行本地计算，最后重构秘密来保护数据隐私；将此数据进行分割后，与协作用户各拿一部分进行本地计算，因此合作方完全得不到其他用户的相关隐私信息，能得到有明确含义的信息只有自己的值和最后计算的结果。

Description

分布式支持向量机隐私保护方法、系统、存储介质及应用

技术领域

本发明属于数据隐私保护技术领域，尤其涉及一种分布式支持向量机隐私保护方法、系统、存储介质及应用。

背景技术

目前：在当今的信息时代，数据的增长呈现爆炸性，随着计算机系统的规模变得越来越大，分布式的处理方式越来越受到业界的青睐。另外由于如今机器学习算法被应用到各个领域，考虑分布式的处理方式，可以处理更大规模的样本量，将会更好的发挥机器学习算法的优势，使得算法可以大规模应用。而其中支持向量机是最广泛使用的机器学习算法之一。在以往的研究中，求解支持向量机等机器学习最优化问题一般用ADMM算法。与此同时，用于训练的数据是由多个实体拥有，而数据的敏感性阻碍了将数据共享并训练。多数分布式算法都要求节点在每次迭代中向相邻节点明确交换并公开状态，这意味着在许多实际的分布式应用存在着严重隐私问题。仅仅将原始数据保存在本地对于隐私保护而言是远远不够的，需要对实现分布式ADMM算法过程中的交互参数来进行隐私保护。因此论文将基于支持向量机场景，研究ADMM算法的隐私保护技术。

然而现有的关于支持向量机场景的隐私保护研究在隐私和准确率方面仍然面临一些亟待解决的挑战。为了在分布式优化算法中隐私保护，有两种常用的方法。第一类是扰动方法，主要利用的技术是差分隐私。这类方法的效率高，但是添加噪声会造成数据可用性的损失，损害优化结果的准确性。尽管有相关研究在隐私性和准确性之间进行了权衡，但收敛到最优分类器的速度总是会减慢。第二类是密码学方法，包括安全多方技术和同态加密。同态加密方法的计算开销过高，难以应用于现实。另外在目前研究中，大多数支持向量机隐私保护的场景仅是分布式部署数据，单机处理。也就是没有考虑多机器多数据源的完全分布式的支持向量机算法协作训练时信息交互的隐私泄露问题。少部分研究工作有关注这一方面，但是对数据横向和纵向分布的情况并没有充分解决。

通过上述分析，现有技术存在的问题及缺陷为：现有的分布式支持向量机存在计算开销和安全性的矛盾，安全性高的方法存在计算开销大的问题，效率高的方法存在安全性的问题。另外，还要考虑机器学习的场景，需要兼顾训练结果的准确性。

解决以上问题及缺陷的难度为：解决机器学习训练过程中中间态交互计算的隐私问题，虽然同态加密能进行多方的安全计算，但是带来高计算复杂度问题。

解决以上问题及缺陷的意义为：若能采用一种效率高同时保证多方计算安全的方法处理数据，完成机器学习训练，达到同态加密的同等效果而不需要巨大的额外开销，保证训练结果准确率的前提下，保护数据隐私。

发明内容

针对现有技术存在的问题，本发明提供了一种分布式支持向量机隐私保护方法、系统、存储介质及应用。

本发明是这样实现的，一种分布式支持向量机隐私保护方法，所述分布式支持向量机隐私保护方法通过所有参与实体之间通过秘密共享分割秘密，迭代交互自身分割的部分信息，本地求解子问题；迭代至收敛，求解全局最优解；考虑隐私保护方法的一般性，分别采用数据纵向分布和横向分布的隐私保护方法；参与实体互不信任，通过多方计算技术进行交互和本地训练。

进一步，所述分布式支持向量机隐私保护方法具体包括：

步骤一，建立多数据源的网络通信环境；

步骤二，根据数据源数据分布选择纵向或者横向分布的支持向量机场景；

步骤三，所有参与实体进行本地子问题求解；

步骤四，所有参与实体利用布尔共享对惩罚参数进行数据分拆并与相邻节点交换部分，更新参数；

步骤五，所有参数实体利用算术共享对更新过的迭代变量进行数据分拆并于相邻节点交换部分，在共享形式下计算拉格朗日参数；

步骤六，所有参与实体进行秘密重构秘密；

步骤七，如果迭代还未收敛，返回步骤三；

步骤八，输出训练结果。

进一步，所述步骤二中的横向和纵向分布的目标函数分别为：

s.t. z_i＝B_iv_i，i＝1，...N。

进一步，所述步骤三中本地子问题迭代过程分别为：

数据横向分布：

P^k→ρ^k+1

数据纵向分布：

进一步，所述步骤四中利用布尔共享对惩罚参数进行数据分拆具体方法如下：由于ρ^k→ρ^k+1是递增的，上界为r_i，因此更新ρ时需要通过比较得出一个合适的值，为了安全计算

对

进行分割，

第i个参与者提供

和

第i+1个参与者提供

和

这里对

和

进行比较，但不暴露

和

将各项转换为布尔型，利用Yao电路进行安全加法和比较。

进一步，所述步骤五中利用算术共享对惩罚参数进行数据分拆具体方法如下：在第k+1次迭代，利用Shamir共享安全计算

即

分别对每一项进行算术分割，第i个参与者提供

第i+1个参与者提供

第i个参与者将

和

发送给第i+1个参与者，第i+1个参与者将

和

发送给第i个参与者，第i参与者本地计算

和

最后求出

的共享形式下的值，

同理，第i+1个参与者计算

进一步，所述步骤六中重构秘密的具体方法如下：双方重构秘密

计算

更新λ。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：通过所有参与实体之间通过秘密共享分割秘密，迭代交互自身分割的部分信息，本地求解子问题；迭代至收敛，求解全局最优解；考虑隐私保护方法的一般性，分别采用数据纵向分布和横向分布的隐私保护方法；参与实体互不信任，通过多方计算技术进行交互和本地训练。

本发明的另一目的在于提供一种实施所述分布式支持向量机隐私保护方法的分布式支持向量机隐私保护系统，所述分布式支持向量机隐私保护系统包括：

信息预处理模块，用于通过所有参与实体之间通过秘密共享分割秘密，迭代交互自身分割的部分信息，本地求解子问题；

信息迭代处理模块，用于迭代至收敛，求解全局最优解；

隐私保护模块，用于采用数据纵向分布和横向分布的隐私保护方法；参与实体互不信任，通过多方计算技术进行交互和本地训练。

本发明的另一目的在于提供一种分布式支持向量机，所述分布式支持向量机用于实现所述的分布式支持向量机隐私保护方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明通过结合ADMM算法与秘密共享来完成隐私保护的支持向量机训练。实体与实体之间在训练过程中，交互自身分割的部分信息来进行协作训练。本发明基于诚实好奇模型，每个参与实体之间互不信任，在保证不泄露个体信息的情况下完成训练。相较于同态加密的数据处理方法，本发明具有计算简单，计算开销小的特点。对比差分隐私的方法，本发明提供密码学上强安全的隐私保护，并且不影响训练结果的准确性。

表1多方安全计算方案与同态加密方案效率比较

本发明采用的分布式支持向量机的隐私保护方法是基于安全多方计算和ADMM算法，在诚实好奇的场景下，利用分割数据的思想，通过用户之间交互部分数据进行本地计算，最后重构秘密来保护数据隐私。由于单个用户的整体数据值与隐私信息相关，而将此数据进行分割后，与协作用户各拿一部分进行本地计算，因此合作方完全得不到其他用户的相关隐私信息，能得到有明确含义的信息只有自己的值和最后计算的结果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的分布式支持向量机隐私保护方法流程图。

图2是本发明实施例提供的分布式支持向量机隐私保护系统的结构示意图；

图2中：1、信息预处理模块；2、信息迭代处理模块；3、隐私保护模块。

图3是本发明实施例提供的应用场景示意图。

图4是本发明实施例提供的基于安全多方计算的分布式支持向量机隐私保护方法实现原理示意图。

图5是本发明实施例提供的breast cancer数据集两个节点协作训练示意图一。

图6是本发明实施例提供的breast cancer数据集两个节点协作训练示意图二。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种分布式支持向量机隐私保护方法、系统、存储介质及应下面结合附图对本发明作详细的描述。这里采用了梯度下降法来求解本地的支持向量机子问题。由于梯度下降法收敛速率慢和有可能收敛到局部最优解，这里可以使用改进的方法，比如阻尼牛顿法，变尺度法来求解本地子问题。考虑到现实场景，不同实体可以使用不同的方法求解本地子问题。

如图1所示，本发明提供的分布式支持向量机隐私保护方法包括以下步骤：

S101：建立多数据源的网络通信环境；

S102：根据数据源数据分布选择纵向或者横向分布的支持向量机场景；

S103：所有参与实体用梯度下降法进行本地子问题求解；

S104：所有参与实体利用布尔共享对惩罚参数进行数据分拆并与相邻节点交换部分，更新参数；

S105：所有参数实体利用算术共享对更新过的迭代变量进行数据分拆并于相邻节点交换部分，在共享形式下计算拉格朗日参数；

S106：所有参与实体进行秘密重构秘密；

S107：如果迭代还未收敛，返回S103；

S108：输出训练结果。

本发明提供的分布式支持向量机隐私保护方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的分布式支持向量机隐私保护方法仅仅是一个具体实施例而已。

如图2所示，本发明提供的分布式支持向量机隐私保护系统包括：

信息预处理模块1，用于通过所有参与实体之间通过秘密共享分割秘密，迭代交互自身分割的部分信息，本地求解子问题；

信息迭代处理模块2，用于迭代至收敛，求解全局最优解；

隐私保护模块3，用于采用数据纵向分布和横向分布的隐私保护方法；参与实体互不信任，通过多方计算技术进行交互和本地训练。

下面结合附图对本发明的技术方案作进一步的描述。

本发明提供的分布式支持向量机隐私保护方法通过所有参与实体之间通过秘密共享分割秘密，迭代交互自身分割的部分信息，本地求解子问题，然后迭代至收敛，求解全局最优解；考虑隐私保护方法的一般性，这里分别提出数据纵向分布和横向分布的隐私保护方法；参与实体互不信任，通过多方计算技术进行交互和本地训练。

如图3所示，本发明的应用场景是完全分布式的多数据源支持向量机的训练过程，网络包括参与训练的用户。根据网络拓扑，需要参与训练的用户设置好初始值，迭代过程中将需要合作计算的值利用秘密共享分割后，进行交换计算，由于分割的数据完全得不到任何中间态的隐私信息，保护了数据隐私安全。

如图4所示，本发明实施例提供的基于安全多方计算的分布式支持向量机隐私保护方法具体步骤如下：

步骤一：建立网络通信环境，本发明涉及多用户相邻的网络拓扑情况，在设置不同用户数量需要考虑进去。

步骤二：根据数据源数据分布确定求解支持向量机训练目标函数的迭代过程。

步骤三：用户在第k+1轮迭代中首先依据第k轮迭代更新的惩罚函数ρ和拉格朗日系数λ来更新

步骤四：用户在第k+1轮迭代中，以递增为限制条件，更新惩罚系数ρ。为了安全计算

对

进行分割，

第i个参与者提供

和

第i+1个参与者提供

和

这里对

和

进行比较，但不暴露

和

这里将各项转换为布尔型，利用Yao电路进行安全加法和比较，利用一方加密真值表，一方进行电路计算，最后重构秘密的方法求出合适的惩罚系数ρ。

步骤五：用户在第k+1轮迭代中，利用更新的

和

求解拉格朗日系数

在第k+1次迭代，利用Shamir共享安全计算

即

这里分别对每一项进行算术分割。第i个参与者提供

第i+1个参与者提供

第i个参与者将

和

发送给第i+1个参与者。第i+1个参与者将

和

发送给第i个参与者。第i参与者本地计算

和

最后求出

的共享形式下的值，

同理，第i+1个参与者计算

步骤六：进行交互的参与方之间进行重构秘密

计算

来更新

步骤七：根据设置好的阈值ε，当这一轮目标函数的值减去上一轮目标函数的值小于阈值时，判断为收敛。否则，返回步骤三继续迭代。

步骤八：输出训练结果。

下面结合实验对本发明的效果作进一步的描述。

1、实验条件

本实验在Ubuntu-18.04.1下进行仿真，利用ABY框架实现安全多方计算功能。隐私保护方案由c++实现。

2、实验结果与分析

本发明选用Ubuntu仿真，用MNIST数据集和breast cancer数据集进行测试，选择2、3、4、5、6个节点分别进行横向分布和纵向分布的实验。在仿真实验中，支持向量机的分类准确率为98％。

实验中，建立的的网络通信模型面临数据隐私泄露的威胁。不同用户之间协作进行支持向量机训练，训练过程交互的中间态将会泄露梯度、目标函数等隐私信息。而随着分布式场景的发展，数据量日益庞大，为了打破数据孤岛，某些协作训练的场景如果没有适当的隐私保护方法根本无法开展。现有的分布式支持向量机存在计算开销和安全性的矛盾，安全性高的方法存在计算开销大的问题，效率高的方法存在安全性的问题。另外，还要考虑机器学习的场景，需要兼顾训练结果的准确性。本发明，通过结合ADMM算法与秘密共享来完成隐私保护的支持向量机训练。实体与实体之间在训练过程中，交互自身分割的部分信息来进行协作训练。本发明基于诚实好奇模型，每个参与实体之间互不信任，在保证不泄露个体信息的情况下完成训练。

图4表示了breast cancer数据集两个节点协作训练，在数据横向分布场景下基于隐私保护的ADMM算法的支持向量机分类准确率为98.2％，而只有一个节点使用梯度下降求解最优化问题时，分类准确率同样为98％，因此可以得知，发明提供密码学上强安全的隐私保护，并且不影响训练结果的准确性。

图5表示了breast cancer数据集两个节点协作训练，在数据纵向分布场景下基于隐私保护的ADMM算法的支持向量机分类准确率为97.7％。纵向分布应用于实际场景中时，可以实现不同实体拥有不同特征的数据集，协作训练出全局的分类模型。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种分布式支持向量机隐私保护方法，其特征在于，所述分布式支持向量机隐私保护方法通过所有参与实体之间通过秘密共享分割秘密，迭代交互自身分割的部分信息，本地求解子问题；迭代至收敛，求解全局最优解；考虑隐私保护方法的一般性，分别采用数据纵向分布和横向分布的隐私保护方法；参与实体互不信任，通过多方计算技术进行交互和本地训练。

2.如权利要求1所述的分布式支持向量机隐私保护方法，其特征在于，所述分布式支持向量机隐私保护方法具体包括：

步骤一，建立多数据源的网络通信环境；

步骤三，所有参与实体进行本地子问题求解；

步骤六，所有参与实体进行秘密重构秘密；

步骤七，如果迭代还未收敛，返回步骤三；

步骤八，输出训练结果。

3.如权利要求2所述的分布式支持向量机隐私保护方法，其特征在于，所述步骤二中的横向和纵向分布的目标函数分别为：

s.t.z_i＝B_iv_i，i＝1，...N。

4.如权利要求2所述的分布式支持向量机隐私保护方法，其特征在于，所述步骤三中本地子问题迭代过程分别为：

数据横向分布：

ρ^k→ρ^k+1

数据纵向分布：

5.如权利要求2所述的分布式支持向量机隐私保护方法，其特征在于，所述步骤四中利用布尔共享对惩罚参数进行数据分拆具体方法如下：由于ρ^k→ρ^k+1是递增的，上界为r_i，因此更新ρ时需要通过比较得出一个合适的值，为了安全计算

对

进行分割，

第i个参与者提供

和

第i+1个参与者提供

和

对

和

进行比较，但不暴露

和

将各项转换为布尔型，利用Yao电路进行安全加法和比较。

6.如权利要求2所述的分布式支持向量机隐私保护方法，其特征在于，所述步骤五中利用算术共享对惩罚参数进行数据分拆具体方法如下：在第k+1次迭代，利用Shamir共享安全计算

即

分别对每一项进行算术分割，第i个参与者提供

第i+1个参与者提供

第i个参与者将

和

发送给第i+1个参与者，第i+1个参与者将

和

发送给第i个参与者，第i参与者本地计算

和

最后求出

的共享形式下的值，

同理，第i+1个参与者计算

7.如权利要求2所述的分布式支持向量机隐私保护方法，其特征在于，所述步骤六中重构秘密的具体方法如下：双方重构秘密

，计算

更新λ。

8.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：通过所有参与实体之间通过秘密共享分割秘密，迭代交互自身分割的部分信息，本地求解子问题；迭代至收敛，求解全局最优解；考虑隐私保护方法的一般性，分别采用数据纵向分布和横向分布的隐私保护方法；参与实体互不信任，通过多方计算技术进行交互和本地训练。

9.一种实施权利要求1～7任意一项所述分布式支持向量机隐私保护方法的分布式支持向量机隐私保护系统，其特征在于，所述分布式支持向量机隐私保护系统包括：

信息迭代处理模块，用于迭代至收敛，求解全局最优解；

10.一种分布式支持向量机，其特征在于，所述分布式支持向量机用于实现权利要求1～7任意一项所述的分布式支持向量机隐私保护方法。