CN111832729A

CN111832729A - 一种保护数据隐私的分布式深度学习推理部署方法

Info

Publication number: CN111832729A
Application number: CN202010639114.6A
Authority: CN
Inventors: 张文; 崔浩亮; 陈轶; 牛少彰; 王让定
Original assignee: Southeast Digital Economic Development Research Institute
Current assignee: Southeast Digital Economic Development Research Institute
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-10-27

Abstract

本发明提供了一种保护数据隐私的分布式深度学习推理部署方法，它解决了现有技术存在的无法同时保证模型精度和保护数据隐私的问题。其方法包括：步骤S1：将数据模型分割成两部分，且一部分部署于客户端，另一部分部署于第一服务器端；步骤S2：将客户端最后一层隐含层参数发送至第一服务器端，完成模型推理过程；步骤S3：用第二服务器端用完整模型进行增量训练，将训练好的模型参数一部分发送到客户端，一部分发送到第一服务器端。本发明优点在于实现在不损失模型精度的同时保护数据隐私。

Description

一种保护数据隐私的分布式深度学习推理部署方法

技术领域

本发明涉及数据传输技术领域，具体涉及一种保护数据隐私的分布式深度学习推理部署方法。

背景技术

随着移动智能终端设备和深度学习算法的快速发展，将人工智能技术在实际场景中进一步落地成为了当下需要优化解决的问题。比如说，在社交电商平台中根据用户公开社交信息为其构建用户画像模型。

通常，深度下学习模型在推理阶段的部署有两种方式。其一，模型压缩后部署在移动终端，模型推理在移动终端完成，输出结果传送至服务器端；另一种则是将数据传送至服务器端，在服务器端完成推理过程。

出于保护数据隐私方面的考虑，第一种方式很好地避免隐私数据泄漏，但是考虑到移动终端设备的计算能力，深度学习模型部署在移动终端通常需要进行压缩以提升速度。深度学习模型压缩会造成其识别精度降低，影响人工智能技术的落地。第二种方式是将数据在移动端进行加密，将密文传送至服务器端后解密，解密完成的数据输入到深度学习模型。这种方式使得计算负载全部落在服务器上，不利于在算力资源有限的情况下部署层数较多的深度学习模型。此外，数据在解密阶段存在数据隐私泄漏的风险，同态加密方式又由于计算复杂度过高无法集成在移动终端内。因此，迫切但需要一种可靠的方案在保护数据隐私性的同时不降低深度学习模型的识别率。

发明内容

鉴于此，本发明的目的在于克服现有技术的不足，提供一种保护数据隐私的分布式深度学习推理部署方法，实现在不损失模型精度的同时保护数据隐私。

为实现以上目的，本发明采用如下技术方案：

一种保护数据隐私的分布式深度学习推理部署方法，包括以下步骤：

步骤S1：将数据模型分割成两部分，且一部分部署于客户端，另一部分部署于第一服务器端；

步骤S2：将客户端最后一层隐含层参数发送至第一服务器端；

步骤S3：用第二服务器端用完整模型进行增量训练，将训练好的模型参数按照步骤S1的分割方式一部分发送到客户端，一部分发送到第一服务器端。

在上述的一种保护数据隐私的分布式深度学习推理部署方法中，所述S1中部署于客户端的层级数小于等于不属于服务器端的层级数。

在上述的一种保护数据隐私的分布式深度学习推理部署方法中，所述的客户端和第一服务器端分别部署深度学习模型的不同模块，两部分的模块相结合为完整的深度学习模型且完整备份于第二服务器端。

在上述的一种保护数据隐私的分布式深度学习推理部署方法中，所述的深度学习模型以迁移学习和增量学习相结合的形式进行训练。

在上述的一种保护数据隐私的分布式深度学习推理部署方法中，所述的迁移学习将模型训练依次分为预训练和微调两个阶段，所述的增量学习发生在预训练阶段。

在上述的一种保护数据隐私的分布式深度学习推理部署方法中，所述的增量学习所适用的数据来自互联网公开数据。

在上述的一种保护数据隐私的分布式深度学习推理部署方法中，所述增量学习采用自监督学习或无监督学习方式。

在上述的一种保护数据隐私的分布式深度学习推理部署方法中，微调后将训练所得的参数同步更新到客户端、第一服务器端和第二服务器端中。

本发明的优点在于：1、移动终端采集到的数据在移动终端经过深度学习模型的一部分层级推理运算后发送至服务器端，在保护数据隐私的同时减轻服务器端负载；2、移动终端只承担深度学习模型推理的部分运算，可以避免移动终端因模型压缩造成的精度损失，移动端只承担深度学习模型推理的部分运算，则无需通过压缩模型的方式提升运行速度，因此可以避免因模型压缩造成的准确率损失；3、深度学习模型参数不定时更新加强了数据隐私的保护；4、深度学习模型参数更新采用预训练加微调的迁移学习方式，通过对预训练模型进行增量学习更新模型参数，且使用的数据集为公开数据，不会产生隐私泄漏的问题。

附图说明

附图1为本发明实施流程示意图。

具体实施方式

以下采用本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

步骤S1：将数据模型分割成两部分，且一部分部署于客户端，另一部分部署于第一服务器端。S1中部署于客户端的层级数小于等于部署于服务器端的层级数。

步骤S3：用第二服务器端用完整模型进行增量训练，将训练好的模型参数一部分发送到客户端，一部分发送到第一服务器端。

所述的客户端和第一服务器端分别部署深度学习模型的不同模块，两部分的模块相结合为完整的深度学习模型且完整备份于第二服务器端。深度学习模型以迁移学习和增量学习相结合的形式进行训练。迁移学习将模型训练依次分为预训练和微调两个阶段，所述的增量学习发生在预训练阶段。增量学习所适用的数据来自互联网公开数据。所述增量学习采用自监督学习或无监督学习方式。微调后将训练所得的参数同步更新到客户端、第一服务器端和第二服务器端中。

本发明利用深度学习多层级和黑盒性质特点，可以实现在不损失模型精度的同时保护数据隐私。深度学习使用预训练加微调的方式进行增量学习，增量训练作用于预训练阶段，对模型模型参数进行不定期更新。在增加模型识别率和泛化能力的同时进一步加强对数据隐私的保护。

本发明根据深度学习有层级的特点将模型分割成两部分，分割采用不均匀分割，比如，12层神经网络模型分割3层和9层。本发明以分布式的方式将层数较少的部分部署在移动终端，层数较多的部分部署在服务器端。两部分之间通信数据为移动终端模型最后一层隐含层参数数据。数据在移动终端输入后不离开设备，以此使得数据隐私得到保护。同时，模型推理的分布式部署方式可以使计算负载不集中在单一设备上，避免了因移动终端算力不足进行模型压缩从而造成的精度降低和服务器端因资源限制无法对完整的模型进行实时推理等问题。

本发明在服务器端另备份了同样的深度学习模型。该模型以迁移学习和增量学习相结合的形式进行训练。迁移学习将模型训练分为预训练和微调两个阶段，本发明在预训练阶段进行增量学习，使得在提升模型准确率和泛化能力的同时对模型参数进行更新。增量预训练阶段使用的新增数据集互联网上公开数据，因此不会因收集数据造成隐私泄漏。训练方式建议使用自监督学习或无监督学习方式以减轻人工标注数据标签的负担。预训练阶段完成后对模型进行微调，微调后将训练所得的参数同步更新到移动终端和相关服务器端中。在参数同步前，对训练后得到的参数与训练前的参数进行某种运算，参数同步时将参数运算结果和该运算符以事先约定的传输协议进行数据传输。模型参数的不定时更新可以进一步加强数据隐私保护。

本发明在实施时流程：(1)移动终端获得用户数据输入，经过移动终端部署的若干层网络后将最后一层隐含层参数发送至服务器端；(2)服务器通过流计算平台对传送过来的参数进行预处理，流处理技术可以采用kafka、Flink、spark streaming等；(3)将处理完成的参数输入到第一服务器端部署的模型剩余层网络中以完成深度学习模型推理阶段操作；(4)同时，第二服务器端备份完整的深度学习模型，并不定时地按照上述迁移学习和增量学习相结合的方法进行训练；(5)训练得到的深度学习模型参数按照事先约定好的协议进行传输；(6)分布式部署平台获得相关传输数据后进行解析并对原先参数进行更新。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种保护数据隐私的分布式深度学习推理部署方法，其特征在于，包括以下步骤：

步骤S2：将客户端最后一层隐含层参数发送至第一服务器端，完成模型推理过程；

2.根据权利要求1所述的保护数据隐私的分布式深度学习推理部署方法，其特征在于，所述S1中部署于客户端的层级数小于等于部署于服务器端的层级数。

3.根据权利要求1所述的保护数据隐私的分布式深度学习推理部署方法，其特征在于，所述的客户端和第一服务器端分别部署深度学习模型的不同模块，两部分的模块相结合为完整的深度学习模型且完整备份于第二服务器端。

4.根据权利要求3所述的保护数据隐私的分布式深度学习推理部署方法，其特征在于，所述的深度学习模型以迁移学习和增量学习相结合的形式进行训练。

5.根据权利要求4所述的保护数据隐私的分布式深度学习推理部署方法，其特征在于，所述的迁移学习将模型训练依次分为预训练和微调两个阶段，所述的增量学习发生在预训练阶段。

6.根据权利要求5所述的保护数据隐私的分布式深度学习推理部署方法，其特征在于，所述的增量学习所适用的数据来自互联网公开数据。

7.根据权利要求5所述的保护数据隐私的分布式深度学习推理部署方法，其特征在于，所述增量学习采用自监督学习或无监督学习方式。

8.根据权利要求5所述的保护数据隐私的分布式深度学习推理部署方法，其特征在于，微调后将训练所得的参数同步更新到客户端、第一服务器端中。