CN109687952A

CN109687952A - 数据处理方法及其装置、电子装置及存储介质

Info

Publication number: CN109687952A
Application number: CN201811363388.6A
Authority: CN
Inventors: 陈斌斌; 童超; 张发恩; 周鹏程
Original assignee: Innovation Qizhi (chongqing) Technology Co Ltd
Current assignee: Innovation Qizhi (chongqing) Technology Co Ltd
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2019-04-26

Abstract

一种数据处理方法及其装置、电子装置及存储介质，该方法包括如下步骤：选取分节点数据，并基于训练模型进行训练得到参数后，将参数进行同态加密获得密文；将密文与分节点数据的样本量一起发送至中心节点，直至所有分节点训练完毕；及对所有加密后的参数进行运算。本发明所提供的数据处理装置、电子装置及存储介质，能够有效保护模型训练成果，实现各个中心间的成果共享，降低数据连通门槛，提高模型的准确率及泛化性。结合去中心化的模型训练，可以同时实现模型参数与用户数据的有效保护。

Description

数据处理方法及其装置、电子装置及存储介质

【技术领域】

本发明涉及计算机领域，其特别涉及一种数据处理方法及其装置、电子装置及存储介质。

【背景技术】

随着数据化共享得到越来越广泛的应用，目前用户数据以明文形式存储和传输，不仅通信代价大，一旦遭受到恶意攻击者的攻击，用户数据将被窃取，其极大威胁着互联网信息的安全。现有技术中为了保护底层客户数据不泄露，往往需要直接对底层客户数据进行加密后，再将数据进行共享，这样的过程需要传输的数据量大且加密、解密的运算量大，尤其是当需要进行跨行业、跨地域、跨公司进行数据分析时，对应的分析过程数据量必然更巨大，因此，我们需要更快捷的数据传送、更安全的数据加密方式。

【发明内容】

为克服目前现有数据处理方案存在的技术问题，本发明提供一种数据处理方法及其装置、电子装置及存储介质。

本发明为解决上述技术问题提供如下技术方案：一种数据处理方法，其包括如下步骤：选取分节点数据，并基于训练模型进行训练得到参数后，将参数进行同态加密获得密文；将密文与分节点数据的样本量一起发送至中心节点，直至所有分节点训练完毕；及对所有加密后的参数进行运算。

优选地，在上述对所有加密后的参数进行运算之后还包括如下步骤：中心节点对运算后的参数密文进行解密；及中心节点基于解密后的明文集成所有分节点的训练模型。

优选地，在中心节点基于解密后的明文集成所有分节点的训练模型之后，还包括对训练模型的数据分析进度进行判断，其进一步包括如下的步骤：设定进度要求的预设值；判断数据进度是否小于预设值，若是，则选取更新数据的分节点数据，并进行训练得到新参数；若否，则维持原训练模型。

优选地，在训练获得新参数后，则可重复将获得的新参数进行同态加密再次获得密文后，再将密文与该分节点数据的样本量一起发送至中心节点，而当所有更新数据的分节点训练完毕后，则中心节点对所有加密后的新参数进行运算；进一步解密运算后的新参数密文及基于解密后的明文再次集成所有分节点的训练模型。

优选地，所述训练模型基于统计学习进行建立，所述训练模型包括机器学习模型、深度学习模型中的任一种。

优选地，所述参数包括权重参数及偏置参数。

本发明为解决上述技术问题还提供如下技术方案：一种数据处理装置，其包括：至少一分节点数据处理单元，用于选取与其对应的分节点数据，并基于训练模型进行训练得到参数后，将参数进行同态加密获得密文；密文数据传送单元，用于将密文与分节点数据的样本量一起发送至中心节点，直至所有分节点训练完毕；及中心节点运算单元，用于将由分节点发送至中心节点的所有加密后的参数进行运算。

优选地，所述数据处理装置还包括：中心节点解密单元，用于对运算后的参数密文进行解密，获得解密后的明文；及集成训练模型单元，用于基于所述中心节点解密单元解密后的明文集成所有分节点的训练模型。

本发明为解决上述技术问题还提供如下技术方案：一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行如上所述的数据处理方法。

本发明为解决上述技术问题还提供如下技术方案：一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行如上所述数据处理方法。

与现有技术相比，本发明所提供的数据处理方法及其装置、电子装置及存储介质具有如下的有益效果：

本发明所提供的数据处理方法，能够有效保护模型训练成果，实现各个中心间的成果共享，降低数据连通门槛，提高模型的准确率及泛化性。结合去中心化的模型训练，可以同时实现模型参数与用户数据的有效保护。

利用同态加密技术可以先对多个密文进行计算之后再解密，不必对每一个密文解密而花费高昂的计算代价；利用同态加密技术可以实现无密钥方对密文的计算，密文计算无须经过密钥方，既可以减少通信代价，又可以转移计算任务，由此可平衡各方的计算代价；利用同态加密技术可以实现让解密方只能获知最后的结果，而无法获得每一个密文的消息，可以提高模型参数及信息的安全性。

基于本发明所提供的数据处理方法，能够有效保护模型训练成果的同时，可保证训练模型不会暴露。当各个分节点的参数密文与分节点数据的样本量一起发送至中心节点时，可实现各个中心之间的成果共享。

本发明所提供的数据处理装置、电子装置及存储介质均具有如上的有益效果。

【附图说明】

图1A是本发明第一实施例所提供的数据处理方法的流程示意图；

图1B是图1A中所提供的数据处理方法另一实施方式的流程示意图。

图2是本发明第二实施例所提供的数据处理方法的流程示意图；

图3是本发明中所述中心节点与多个分节点之间的连接关系的模块示意图；

图4是图2中所述数据处理方法中，判断训练模型精度的步骤流程示意图。

图5是本发明第三实施例所提供的数据处理装置的模块示意图。

图6是图5中所示数据处理装置的另一实施方式的模块示意图。

图7是本发明第五实施例所提供的电子装置的模块示意图。

附图标注说明：

10、数据处理装置；11、分节点数据处理单元；12、密文数据传送单元；13、中心节点运算单元；14、中心节点运算单元；15、密文数据传送单元；

50、电子装置；51、存储器；52、处理器。

【具体实施方式】

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1A，本发明的第一实施例提供一数据处理方法P100，其包括如下的步骤：

步骤P1，选取分节点数据，并基于训练模型进行训练得到参数后，将参数进行同态加密获得密文；

步骤P2，将密文与分节点数据的样本量一起发送至中心节点，直至所有分节点训练完毕；及

步骤P3，对所有加密后的参数进行运算。

其中，在上述步骤中，所述中心节点可为数据服务器、云计算中心等。每个分节点对应可表示为如银行、医院、保险或其他组织，这些分节点的数据包括如样本的年龄、性别、地址、职业等数据信息。

进一步地，每个分节点可具有相同的样本数据类型，而每个分节点中数据的样本量可为相同或不相同，对应的所述分节点的样本中各项数据信息的完善程度也不一样。基于所述分节点的样本数据类型、样本量及其数据信息的完善程度，可获得每个分节点的数据贡献性。进一步根据每个分节点的数据贡献性以确定每个分节点在训练模型更新中的权重。

上述步骤P2中所述的同态加密是其中的一种加密方式，模型参数同态加密是建立一种加密函数，对参数进行代数系统的加法和乘法计算后，再加密，与加密后对密文进行相应的运算，其结果是等价的，因此，利用同态加密，人们可以委托第三方对数据进行处理而无需担心信息泄露，而且还可以减少数据通信的代价，同时又可以转移计算任务。

具体地，具有同态性质的加密函数是指两个明文a、b 满足Dec(En(a)⊙En(b))＝a⊙b的加密函数，其中En是加密运算，Dec是解密运算，⊙、⊙分别对应明文和密文域上的运算。当⊙代表加法时，称该加密为加同态加密：当⊙代表乘法时，称该加密为全同态加密。

全同态加密是指同时满足加同态和乘同态性质，可以进行任意多次加和乘运算的加密函数。用数学公式来表达，即Dec(f(En(m1)，En(m2)，…，En(mk)))＝f(m1，m2，…， mk)，或写成：f(En(m1)，En(m2)，…，En(mk))＝En(f(m1， m2，…，mk))。

在本发明一些可选的实施例中，为了将不同分节点数据的训练模型训练获得的参数，用于实现训练模型的更新优化，请参阅图1B中所示，在上述步骤P1-步骤P3的基础之上，所述数据处理方法P100还可进一步包括如下步骤：

步骤P4，中心节点对运算后的参数密文进行解密；及步骤P5，中心节点基于解密后的明文集成所有分节点的训练模型；

在上述步骤P5之后，还可进一步包括训练模型的数据分析进度进行判断，其进一步包括如下的步骤：

步骤P6，设定进度要求的预设值；及

步骤P7，判断数据进度是否小于预设值，若是，则选取数据更新的分节点数据，并进行训练得到新参数；若否，则维持原有训练模型。

在上述步骤P7中，其中，所述数据更新的分节点数据，是指在基于训练模型进行训练后，在分节点数据中新加入数据或对原分节点数据中的某些数据进行了更改，从而实现是数据更新。

可见，基于本实施例中所提供的数据处理方法可基于同态加密实现模型参数的保护，还能够有效保护模型训练成果，实现各分节点之间的训练成果共享，降低数据连通门槛，提高模型的准确率及泛化性。

请参阅图2，本发明的第二实施例提供又一数据处理方法S100，其包括如下的步骤：

步骤S1，设置同态加密函数及解密函数；

步骤S2，选取一分节点数据，并基于训练模型进行训练得到参数；

步骤S3，将训练得到的参数进行同态加密获得密文；

步骤S4，将密文与分节点数据的样本量一起发送至一中心节点；

步骤S5，判断所有分节点是否训练完毕，若是，则进入步骤S6a，若否，则进入步骤S6b；

步骤S6a，中心节点对所有加密后的参数进行运算；

步骤S6b，选取下一分节点数据，并基于分节点训练模型进行训练得到参数，并返回步骤S3；

步骤S7，中心节点对计算后的参数密文进行解密；

步骤S8，中心节点是会基于解密后的明文集成所有分节点的训练模型。

需要进一步说明的是，上述步骤S1中，所述加密函数和解密函数选择需考虑到明文的取值空间、明文噪音、效率等问题，在本发明一具体的实施例中：

加密函数可为：

Enc(m):m+2r+pq (1)；

解密函数可为：

Dec(c):(c mod p)mod 2＝(c–p*「c/p」)mod 2 (2)；

设定上述加密函数及解密函数的明文空间是{0,1}，密文空间是整数集。

上述公式(1)与公式(2)中的p具体可以是一个正的奇数，而q则是一个正整数，p和q在密钥生成阶段确定，p被认为是密钥。而r是加密时随机选择的一个较小的整数(如可以为负数)。明文m∈{0,1}，是对“位”进行加密的，所得密文是整数。在步骤S1中，所提供的加密函数与解密函数是为进行后续步骤所准备的，在实际应用中，上述步骤S1与步骤S2也可同时进行。

请参阅图2，在上述步骤S2中所述的分节点数据及分节点训练模型具体说明如下：需要进行加密处理的数据可来自于多个分节点，每个分节点的数据可汇总至一中心节点，其中，中心节点为被所有分节点所信任的中心节点。其中，所述中心节点可为数据服务器、云计算中心等。每个分节点对应可表示为如银行、医院、保险或其他组织，这些分节点的数据包括如样本的年龄、性别、地址、职业等数据信息。

而训练模型主要是基于统计学习进行建立，如机器学习，深度学习等模型，训练前与各个分节点规定好模型，如随机森林(Random Forest)等。

所述训练模型包括模型特征，所述模型特征可以根据需要人为设置，也即，在利用所述训练模型进行训练前设定好，如设定与样本数据相对应的年龄、职业及性别等模型特征。所述训练模型的模型特征可基于不同的分节点数据的样本量、数据类型及数据完善程序做相应的选择。

在上述步骤S2中所述的参数是通过训练模型而训练自动得到，一般常用参数包括参数wi及参数b，其中，参数wi指权重，参数b指偏置。

在上述步骤S3中，基于训练得到的参数进行同态加密而获得密文，也即步骤S2中的权重参数wi及偏置参数 b在进行同态加密后进行了加密处理，从密文中，无法获得在上述步骤S2中，该分节点数据基于所述训练模型进行训练得到的具体权重参数wi及偏置参数b，进一步对分节点数据的权重参数wi及偏置参数b进行加密，以便于在不同分节点之间实现数据的共享。

在上述步骤S4中，所述密文为步骤S3所获得的对权重参数wi及偏置参数b进行加密后获得的密文。此时，发送至中心节点的数据仅为密文及分节点数据的样本量。可见，上传至所述中心节点的数据并未涉及分节点数据的具体数据内容，且由于对训练模型的参数进行了加密，中心节点也无法获知每个分节点数据进行基于训练模型进行训练后得到的权重。

如图3中所示，所述分节点的数量可为多个，在实际分析过程中，可随机选择分节点及其对应的分节点数据进行分析，也可以依据人为设定的顺序选择分节点及其对应的分节点数据进行分析，还可以基于分节点数据的样本量进行排序依次选择分节点及其对应的分节点数据进行分析。

在上述步骤S5之后，可基于判断结果进入步骤S6a 或步骤S6b。其中，上述步骤S6b的具体限定与上述步骤 S2中基本相同，其区别仅在于选取的分节点及其分节点数据不同，各个分节点数据对应的训练模型由于其样本量及数据贡献度不一致，会有一定的差异。

在上述步骤S6a中，对各个分节点数据对应的加密后的参数进行运算，在本发明一些具体实施方式中，其运算方式为根据样本量进行加权平均，可基于如下的公式进行：

wi’＝sum(ni/n*wt) (3)；

b’＝sum(ni/n*bt) (4)；

其中，在上述公式(3)中，wi’表示为各个分节点数据的权重平均值，ni表示为某一分节点数据的样本量，n 表示为全部分节点的总样本量，wt表示为对应该分节点数据进行加密后的权重参数wi的密文。

在上述公式(4)中，b’表示为各个分节点数据的权重平均值，ni表示为某一分节点数据的样本量，n表示为全部分节点的总样本量，bt表示为对应该分节点数据进行加密后的偏置参数b的密文。

具体地，如图2中所示，假设包括6个分节点，及1 个中心节点。假设6个分节点数据的总样本量为1000。则上述公式(3)可具体表示为：

wi’＝(1i/1000*1wi)+(2i/1000*2wi)+(3i/1000*3wi) +(4i/1000*4wi)+(5i/1000*5wi)+(6i/1000*6wi)

上述公式(4)可具体表示为：

b’＝(1i/1000*1b)+(2i/1000*2b)+(3i/1000*3b) +(4i/1000*4b)+(5i/1000*5b)+(6i/1000*6b)

在上述公式(3)及公式(4)中，上述1i、2i、3i、 4i、5i及6i分别表示为对应6个分节点中数据的样本量；而1wi、2wi、3wi、4wi、5wi及6wi，分别表示为对应6 个分节点训练模型的权重参数；1b、2b、3b、4b、5b及 6b，分别表示为对应6个分节点训练模型的偏置参数。

在上述步骤S6a中，根据分节点数据的样本量进行加权平均从而获得进行运算后对应的权重参数wi’及偏置参数b’。

在本发明另外的一些实施例中，上述步骤S6a中也可进一步基于各个分节点数据的可信程度来进行运算而获得对应的权重参数wi’及偏置参数b’。

其中，分节点数据的可行程度可通过人为设定或基于每个分节点数据的完善程度进行运算。

在本发明中，基于所述中心节点与所述分节点的设定，可将不同分节点的训练成果进行共享，以便于各个分节点可相互利用其它分节点的训练成果进行训练模型提升。

在本发明另外的实施例中，当所述分节点的数量增多，则可同时存在多个中心节点，多个中心节点之间可实现数据互传，以平衡多方之间的计算代价，并可有效的转移计算任务。

在上述步骤S7中，所述中心节点可进一步对上述步骤S6a中经过运算后的密文进行解密，其对应运算后的密文即为权重参数wi’及偏置参数b’。上述步骤S7中，是基于获取参数运算后的结果进行解密的，而无需对每个分节点都进行解密，只需对计算后的参数进行解密即可。

在中心节点对计算后的参数密文进行解密后，中心节点会基于解密后的明文集成所有分节点的训练模型。

在本发明中，训练模型更新优化一般根据人为设定的精度要求或数据变化来决定。

例如，设定的精度要求为90％，当中心节点获知某一分节点的训练模型的精度降到85％，此时分节点数据也有了一定的更新，此时，则可重新对该分节点的训练模型进行训练，从而获得新的训练模型的参数。

请参阅图4，其具体步骤如下：

步骤Q1，设定精度要求的预设值；

步骤Q2，判断数据精度是否小于预设值，若是，则进入步骤Q3，若否，则进入步骤Q4；

步骤Q3，选取更新数据的分节点数据，并进行训练得到新参数；

步骤Q4，维持原训练模型。

其中，上述步骤Q2中，所述的数据精度具体是指

在本发明另外的一些实施例中，如果分节点训练模型的算法或特征发生了变化，也可以更新优化模型。

请参阅图5，本发明的第三实施例提供一数据处理装置10，所述数据处理装置10包括：

至少一分节点数据处理单元11，用于选取与其对应的分节点数据，并基于训练模型进行训练得到参数后，将参数进行同态加密获得密文；

密文数据传送单元12，用于将密文与分节点数据的样本量一起发送至中心节点，直至所有分节点训练完毕；及中心节点运算单元13，用于将由分节点发送至中心节点的所有加密后的参数进行运算。

如图6中所示，所述数据处理装置10还包括：

中心节点解密单元14，用于对运算后的参数密文进行解密，获得解密后的明文；及

集成训练模型单元15，用于基于所述中心节点解密单元解密后的明文集成所有分节点的训练模型。

本发明的第四实施例还提供一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本实施例中，所述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

选取一分节点数据，并基于训练模型进行训练得到参数；

选取分节点数据，并基于训练模型进行训练得到参数后，将参数进行同态加密获得密文；

将密文与分节点数据的样本量一起发送至中心节点，直至所有分节点训练完毕；及

对所有加密后的参数进行运算。

在本实施例的一些实施方式中，存储介质还被设置为存储用于执行以下步骤的程序代码：

中心节点对运算后的参数密文进行解密；及

中心节点基于解密后的明文集成所有分节点的训练模型。

在本实施例中，所述存储介质还可被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可以理解的是，在本实施例中，上述实施例的方法步骤中全部或者部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括如软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(Memory Stick)、xD卡等。

在本实施例中，计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可以是个人计算机设备、服务器或其他网络设备等)用以执行本发明各个实施例所述方法的全部或部分步骤。

请参阅图7，本发明的第五实施例提供一电子装置50，所述电子装置50用于实施上述数据处理方法。所述电子装置50包括存储器51和处理器52。具体地，所述存储器51 中存储有计算机程序，所述处理器52被设置为通过所述计算机程序执行如上所述的数据处理方法。

所述存储器51可用于存储软件程序以及模块，如本发明上述的数据处理方法和装置对应的程序指令或模块。而所述处理器52通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。

在本发明中，基于去中心化的模型训练，可以实现模型参数与用户数据的有效保护，同时也可以利用同态加密技术对多个密文进行计算之后再解密，因此不会因为需要对每一个密文解密而花费大量的计算代价，利用同态加密技术可以实现无密钥方对密钥进行计算，对于密文的运算无需经过密钥方，既可以减少通讯代价，又可以转移中心节点的技术任务，由此可平衡中心节点与各个分节点之间的计算代价；利用同态加密技术可以实现让解密方只能获知最后的结果，而无法获得每一个密文的消息，可以提高模型参数的及信息的安全性。

以银行客户数据及模型参数为例，如需要给多个银行之间提供一种判断用户购买理财产品意向的模型，在现有技术中，一般需要获得多个银行的底层客户数据，利用这些底层客户数据并基于训练模型进行训练，从而可获得参数，现有技术中为了保护底层客户数据不泄露，往往需要直接对底层客户数据进行加密后，再传至数据中心进行训练或其他数据处理，这样的过程需要传输的数据量大且加密、解密的运算量大。当需要进行跨行业、跨地域、跨公司进行数据分析时，对应的分析过程数据量必然更巨大，因此，我们需要更快捷的数据传送、更安全的数据加密方式。

由于在本发明中，各个分节点与中心节点之间传输的是对模型参数进行同态加密后的密文，因此，可大大降低数据连通的门槛，基于同态加密的方法，还可有效提高模型的准确率及泛化率。

在本发明中，基于所述数据处理方法，还可实现模型更新优化，以实现基于各个分节点数据的更新情况，对训练模型进行优化，以获得更优的结果。

在本发明中所提供的数据处理方法及其装置在人工智能领域，可实现将模型训练所得参数通过中心化存储，使不同中心件通过共享方式进行相互利用及模型提升，进一步结合去中心化的模型训练方式，可以同时实现模型参数与用户数据的有效保护，提高底层数据的安全性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内所作的任何修改，等同替换和改进等均应包含本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于：其包括如下步骤：

对所有加密后的参数进行运算。

2.如权利要求1中所述数据处理方法，其特征在于：在上述对所有加密后的参数进行运算之后还包括如下步骤：

中心节点对运算后的参数密文进行解密；及中心节点基于解密后的明文集成所有分节点的训练模型。

3.如权利要求2中所述数据处理方法，其特征在于：在中心节点基于解密后的明文集成所有分节点的训练模型之后，还包括对训练模型的数据分析进度进行判断，其进一步包括如下的步骤：

设定进度要求的预设值；

判断数据进度是否小于预设值，若是，则选取更新数据的分节点数据，并进行训练得到新参数；若否，则维持原训练模型。

4.如权利要求3中所述数据处理方法，其特征在于：在训练获得新参数后，则可重复将获得的新参数进行同态加密再次获得密文后，再将密文与该分节点数据的样本量一起发送至中心节点，而当所有更新数据的分节点训练完毕后，则中心节点对所有加密后的新参数进行运算；进一步解密运算后的新参数密文及基于解密后的明文再次集成所有分节点的训练模型。

5.如权利要求1中所述数据处理方法，其特征在于：所述训练模型基于统计学习进行建立，所述训练模型包括机器学习模型、深度学习模型中的任一种。

6.如权利要求1中所述数据处理方法，其特征在于：所述参数包括权重参数及偏置参数。

7.一种数据处理装置，其特征在于：包括：

至少一分节点数据处理单元，用于选取与其对应的分节点数据，并基于训练模型进行训练得到参数后，将参数进行同态加密获得密文；

密文数据传送单元，用于将密文与分节点数据的样本量一起发送至中心节点，直至所有分节点训练完毕；及

中心节点运算单元，用于将由分节点发送至中心节点的所有加密后的参数进行运算。

8.如权利要求7中所述数据处理装置，其特征在于：所述数据处理装置还包括：

中心节点解密单元，用于对运算后的参数密文进行解密，获得解密后的明文；及

集成训练模型单元，用于基于所述中心节点解密单元解密后的明文集成所有分节点的训练模型。

9.一种电子装置，包括存储器和处理器，其特征在于：所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1-6中任一项中所述的数据处理方法。

10.一种存储介质，其特征在于：所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1-6中任一项中所述数据处理方法。