CN115292738B

CN115292738B - 一种联邦学习模型和数据安全性及正确性的检测方法

Info

Publication number: CN115292738B
Application number: CN202211219715.7A
Authority: CN
Inventors: 陈万钢; 李昆阳; 饶金涛; 杨伟
Original assignee: Haofu Cipher Detection Technology Chengdu Co ltd
Current assignee: Haofu Cipher Detection Technology Chengdu Co ltd
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2023-01-17
Anticipated expiration: 2042-10-08
Also published as: CN115292738A

Abstract

本发明涉及一种联邦学习模型和数据安全性及正确性的检测方法，属于密码和数据安全技术领域，对联邦学习参与方的合格性进行检测，通过在联邦学习检测过程中引入第三方可信计算模块实现整个联邦学习模型对数据安全性和正确性的检测和验证，并且通过对联邦学习涉及相关环节的检测和总体判断，实现对模型失败与否的判断，以及联邦学习过程中数据安全性的判断。本发明解决了传统技术不检测参与方合格性，不检测参与方密码应用正确性，不对最终模型安全性和正确性进行检测以及没有采用第三方可信计算模块进行验证的缺陷，能够在保证安全的前提下进行正确性和安全性检测。

Description

一种联邦学习模型和数据安全性及正确性的检测方法

技术领域

本发明涉及数据安全技术领域，尤其涉及一种检测联邦学习模型的数据安全性及正确性的方法。

背景技术

联邦学习又叫联邦机器学习、联合学习和联盟学习，是隐私保护计算的关键技术之一，现在有横向联邦学习、纵向联邦学习等类型；联邦学习可通过一个中央服务器协调众多结构松散的智能终端实现语言模型更新；其工作原理是：客户终端从中央服务器下载现有模型，通过使用本地数据对模型进行训练，并将模型的更新内容上传至云端。训练模型通过将不同终端的模型更新进行融合，以此优化模型，客户终端再将更新后的模型下载到本地，过程不断重复，在整个过程中，终端数据始终存储在本地，不存在数据泄露的风险。但是，目前并没有通过联邦学习模型和数据安全性及正确性检测的技术方案被公开。

需要说明的是，在上述背景技术部分公开的信息只用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的在于克服现有技术的缺点，提供了一种联邦学习模型和数据安全性及正确性的检测方法，解决了现有技术不检测参与方合格性，不检测参与方密码应用正确性，不对最终模型的安全性和准确性进行检测以及验证的问题。

本发明的目的通过以下技术方案来实现：一种联邦学习模型和数据安全性及正确性的检测方法，所述检测方法包括：

S1、设定选择联邦学习参与方的评价参数和模型，并检测参与方是否合格以及样本是否对齐；

S2、参与方使用密码模块生产密码杂凑算法参数，采用密码杂凑算法计算参与训练数据的杂凑值；

S3、设定每一轮模型下发方式和顺序后发送模型，将至少一个参与方接收到的模型和模型发出方的模型进行对比，检测模型的一致性；

S4、根据模型特征和目的设定样本数据，模型发出方下发样本数据、权重数据和参数数据，将参与方接收到的数据与下发的数据进行对比，检测数据和模型的一致性；

S5、根据预先设定的数据特征重叠评价指标和用户重叠评价指标对数据发出方与参与方数据进行评价检测，判断联邦学习类型是否合理，并输出联邦学习类型合理性结果；

S6、按比例和数量选择训练过程中设定参数异常的参与方，并对其进行数据检测，数据异常的参与方停止参与训练, 并进行异常提醒；

S7、将训练模型得到的模型梯度、模型参数和中间结果数据加密后发送给其他参与方进行检测；

S8、对模型梯度、模型参数和中间结果数据进行检测以及整合的检测；

S9、根据联邦学习模型，各参与方接收新的模型梯度、模型参数和中间数据，将这些数据解密后更新模型，并至少检测一个参与方新模型的偏差。

所述检测参与方是否合格以及样本是否对齐包括：

S11、按照评价参数至少对一个符合参与要求的参与方进行检测，可将模型和数据导入第三方可信计算模块计算验证，输出检测结果；

S12、按照参数要求至少对一个不符合参与要求的潜在参与方进行检测，可将模型和数据导入第三方可信计算模块计算验证，输出检测结果；

S13、对需要开展样本加密对齐的联邦学习，查看样本对齐过程中数据交互是否进行了加密保护和编码保护，如果数据没有进行加密保护，或者只进行了编码保护，则提醒存在风险；

S14、对需要开展样本加密对齐的联邦学习，在数据交互过程中输入指定的明文数据，获取数据交互过程中的加密数据或者编码数据，并根据获取结果输出风险提醒；

S15、对需要开展样本加密对齐的联邦学习，将参与方样本数据导入到第三方可信计算模块中对比重叠用户，并将重叠用户名与样本数据进行对比，如果不一致，则表明样本对齐存在问题，输出风险提醒。

所述检测模型的一致性包括：

S31、对模型文件进行加密保护的情况，通过参与方收到的密钥对模型加密文件进行解密，如果解密成功，则进行执行步骤S32，如果解密不成功，则检测终止，输出检测结果；

S32、采用密码杂凑算法计算参与方接收到的模型杂凑值，并将该模型杂凑值与模型发出方的模型计算得到的杂凑值进行对比，如果一致，则判断模型一致，执行步骤S4，如果不一致，则判断模型不一致，则检测终止，输出检测结果。

所述检测数据和模型的一致性包括：

S41、对数据进行加密的情况，用接收到的密钥对文件进行解密，如果解密成功，则执行步骤S42，如果解密不成功，则检测终止，输出检测结果；

S42、采用密码杂凑算法计算参与方接收到的数据杂凑值，并将该数据杂凑值与数据发出方的数据计算得到的杂凑值进行对比，如果一致，则判断数据一致，则执行步骤S43，如果不一致，则判断数据不一致，则检测终止，输出检测结果；

S43、将样本数据代入模型计算，将得到的结果与模型发出方采用该样本数据在模型中计算得到的结果进行对比，如果一致，则判断模型一致，则执行步骤S5，如果不一致，则判断模型不一致，则检测终止，输出检测结果。

步骤S6中数据检测的具体包括以下内容：

S61、计算安全特征参数异常的参与方占总的参与方比值，并输出该比值结果，如果该值超过预期值，则进行风险提醒；

S62、将被检测参与方数据杂凑值与检测开始阶段计算的杂凑值进行对比，如果一致，说明数据未被修改，如果不一致，则说明数据被修改，输出风险提醒；

S63、将被检测参与方的本轮训练结果、训练数据、训练模型、模型参数以及数据允许的偏差输入到第三方可信计算模块，在第三方可信计算模块内部重新训练，并根据训练结果判断是否输出风险提醒。

步骤S7中检测的具体内容包括：

S71、查看参与方之间、参与方与模型下发方通信个方数据传输是否被加密保护、编码保护或者加密与编码共同保护，如果没有，则提醒存在数据安全风险；

S72、对被保护数据进行解密或者解码，并对解码或者解码结果与明文进行对比，如果一致，则判断保护措施实现正确，如果不一致，则判断保护措施实现错误，并提醒存在数据安全风险；

S73、输入指定数据，检查指定数据加密后的结果数据是否与预计结果数据一致或者在允许的偏差范围内，并将数据解密后得到的数据与指定数据进行对比，判断是否一致。

步骤S8中对模型梯度、模型参数和中间结果等数据进行检测的具体内容包括：

A1、对加密保护或者编码保护的模型梯度、模型参数和中间结果等数据进行解密或者解码得到相应的数据；

A2、根据设定的各个重要数据偏差对解密或者解码得到的数据进行对比，判断是否在允许的偏差范围内，如果在，则执行步骤A3，如果不在，则输出风险提醒；

A3、将参与方的模型梯度、数据结构、中间结果和少量样本数据传入到第三方可信计算模块，根据求取模型梯度和中间结果的计算方式进行逆运算，得到基于该数据结构的数据模型，将样本数据导入模型进行运算。

步骤S8中对模型梯度、模型参数和中间结果等数据进行整合的检测的具体内容包括：

B1、设定整合的方法，并根据整合的方法对模型梯度、模型参数和中间结果等数据进行整合；

B2、设定数据偏差范围，对比整合后的数据是否在偏差范围内，如果超出偏差范围，则输出风险提醒。

所述至少检测一个参与方新模型的偏差包括：

S91、参与方在自身内部计算或者将数据、新模型和上一轮模型输入到第三方可信计算模块，分别采用新模型和上一轮模型计算得到新的结果和上一轮结果；

S92、将新的结果与上一轮结果进行对比，并设定对比偏差范围，如果对比结果超出对比偏差范围，则输出风险提醒；

S93、将联邦学习目的数据输入参与方或第三方可信计算模块，在参与方内部或者第三方可信计算模块内，根据最后一轮模型计算结果与目的数据进行对比，如果不符合对比结果，则判断对于本参与方模型失败；

S94、设定模型失败的参与方达到一定数量或者占比界限值，统计模型失败参与方数量，计算其占比，如果模型失败方数量或者占比超出界限值，则判断整个联邦学模型失败。

所述检测方法还包括：检测参与方在通信过程中是否采用密码技术进行数据保护和安全认证。

本发明具有以下优点：一种联邦学习模型和数据安全性及正确性的检测方法，通过在联邦学习检测过程中引入第三方可信计算模块实现整个联邦学习模型对数据安全性和正确性的检测和验证，并且通过对联邦学习涉及相关环节的检测和总体判断，实现对模型失败与否的判断，以及联邦学习过程中数据安全性的判断。

附图说明

图1 为本发明的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下结合附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。

如图1所示，本发明具体涉及一种联邦学习模型和数据安全性及正确性的检测方法，形成联邦学习检测流程，并在流程中引入第三方可信计算模块实现整个联邦学习模型和数据安全性和正确性的检测和验证，并且通过对联邦学习涉及相关环节的检测和总体判断，实现对模型失败与否的判断，以及联邦学习过程中数据安全性的判断；具体包括以下内容：

步骤1、设定选择联邦学习参与方的评价参数和模型；检测参与方是否合格，以及样本是否对齐；具体检测如下：

1）按照评价参数至少对一个符合参与要求的参与方进行检测。将选中的被检参与方数据和评价参数输入第三方可信计算模块。在第三方可信计算模块内部对收到的被检参与方数据进行计算，得到评价参数，并将该参数与设定的参与方评价参数做对比。如果达到评价参数要求，输出“是”，表明选择没问题。如果未达到评价参数要求，输出“否”，提醒选择存在问题。第三方计算模块不对外输出其他信息，保证收集到的数据安全。

2）按照参数要求至少对一个不符合的潜在参与方进行检测。将其数据和评价参数输入第三方可信计算模块。在第三方可信计算模块内部对收到的数据进行计算，计算得到评价参数，并将该参数与设定的参与方评价参数做对比。如果未达到评价参数要求，输出“是”，表明选择没问题。如果达到评价参数要求，输出“否”，提醒选择存在问题。第三方计算模块不对外输出其他信息，保证收集到的数据安全。

3）对需要开展样本加密对齐的联邦学习，通过数据抓包方式查看样本对齐过程数据交互是否进行了加密保护或者编码保护。如果数据未进行加密保护，或者只进行了编码保护，则提醒存在风险。

4）对需要开展样本加密对齐的联邦学习，数据交互过程中输入指定的明文数据，并通过抓包方式获得交互过程中的加密数据或编码数据。将这些加密数据或编码数据、指定的明文数据，以及相应的加密方法、解密方法、编码方法、解码方法输入第三方可信计算模块。在第三方可信计算模块内部对指定的明文数据进行加密或者编码，并将得到的加密数据或者编码数据与抓包方式获得的加密数据或者编码数据做对比。如果二者一致，则输出“是”，表明加密实现或者编码实现正确。如果不一致，则输出“否”，表明加密实现或者编码实现不正确。在第三方可信计算模块内部随机选择加密数据或者编码数据进行解密或者解码，对比解密或者解码后得到的数据与指定的明文数据是否一致。如果一致，则输出“是”，表明加密实现或者编码实现正确。如果不一致，则输出“否”，表明加密实现或者编码实现不正确。如果这一步交互式在样本对齐过程中，则对输出“否”的情况表明样本对齐存在问题，输出风险提醒。

5）对需要开展样本加密对齐的联邦学习，将参与方样本数据导入第三方可信计算模块，对比重叠用户，并将重叠用户名与样本数据进行对比。如果不一致，则输出“否”，表明样本对齐存在问题，输出风险提醒。

步骤2、采用密码杂凑算法计算参与训练数据的杂凑值。如果有数据来源信息，也应将数据来源信息与训练数据都计算杂凑值。

步骤3、设定每一轮模型下发方式和顺序，并发送模型。将至少一个参与方接收到的模型和模型发出方的模型进行对比，检测模型的一致性。模型一致性的检测有：

1）对模型文件进行了加密保护的情况，用参与方收到的密钥对模型加密文件进行解密。如果解密成功，则进入下一步检测；如果解密不成功，检测终止，给出检测结果。

2）采用密码杂凑算法计算参与方接收到的模型杂凑值，并将该值与模型发出方的模型计算得到的杂凑值进行对比。如果一致，则判断模型一致，进入下一步检测；如果不一致，则判断模型不一致，检测终止，给出检测结果。

步骤4、根据模型特征和目的设定样本数据，模型发出方下发样本数据、权重数据、参数数据等数据，则将参与方接收到的数据和下发的数据进行对比，检测数据和模型的一致性。数据和模型的一致性检测有：

1）对数据进行了加密保护的情况，用收到的密钥对文件进行解密。如果解密成功，则进入下一步检测；如果解密不成功，检测终止，给出检测结果。

2）采用密码杂凑算法计算参与方接收到的数据杂凑值，并将该值与数据发出方的数据计算得到的杂凑值进行对比。如果一致，则判断数据一致，进入下一步检测；如果不一致，则判断数据不一致，检测终止，给出检测结果。

3）将样本数据代入模型计算，得到的结果与模型发出方采用该数据在模型中计算得到的结果进行对比。如果一致，则判断模型一致，进入下一步检测；如果不一致，则判断模型不一致，检测终止，给出检测结果。

步骤5、检测联邦学习类型，类型可分为横向联邦学习、纵向联邦学习、联邦迁移学习，或者预先设计的其他模型。根据预先设定的数据特征重叠评价指标、用户重叠评价指标等评价指标，对数据发出方和参与方数据进行评价检测，判断联邦学习类型是否合理。类型合理性检测使用的数据量不低于预先设定的数据量和参与方数量。输出联邦学习类型合理性结果，进入下一步检测。

步骤6、设定反应联邦学习安全问题的特征参数。按一定比例或者数量选择训练过程中设定特征参数异常的参与方，对其进行数据检测，检测不合格的参与方应及时停止参与训练。数据检查如下：

1）计算安全特征参数异常的参与方占总的参与方比值，输出该比值。

2）将被检参与方数据杂凑值与检测开始阶段计算的杂凑值进行对比。如果一致，表明数据未被修改；如果不一致，则表明数据有被修改，输出提醒；

3）将被检参与方的本轮训练结果、训练数据、训练模型、模型参数，以及数据允许的偏差输入第三方可信计算模块，在第三方可信计算模块内部重新训练。如果可信计算设备计算得到的结果和参数与被检参与方计算结果和参数一致，或者在允许的偏差范围内，输出“是”。如果超出偏差范围，则输出“否”，并对数据杂凑值进行对比，验证参与训练数据是否发生变化。如果发生变化，则输出风险提醒。

步骤7、对参与方将训练模型得到的梯度、模型参数、中间结果等数据加密后发送给其他参与方，包括模型下发方，如聚合服务器、协调方等，进行检测。检测如下：

1）采用发送指定数据进行传输，或者数据抓包方式查看参与方之间、参与方与模型下发方等通信各方数据传输是否被加密保护、编码保护或者加密和编码共同保护。如果数据未被保护，提醒存在数据安全风险。

2）用通信方协商好的密钥或者编码方式对被保护数据进行解密或者解码，并对解密或者解码结果与明文对比。如果一致，则判断相应的保护措施实现正确。如果不一致，则判断相应的保护措施实现错误，提醒存在数据安全风险。

3）对非基于ZUC、SM2、SM4、SM9密码算法和技术的加密保护方式，还应通过输入指定数据，检查指定数据加密后的结果数据，是否与预计结果数据一致，或者与预计结果数据在允许偏差范围内，并将数据解密后得到的数据与指定数据对比，判断二者是否一致。

步骤8、对各方传输的中间结果、模型梯度、模型参数等重要数据进行检测。检测如下：

1）采用通信方协商好的密钥或者解码方式，对加密保护或者编码保护的中间结果、模型梯度、模型参数等重要数据进行解密或者解码，得到相应的数据。

2）根据设定的各重要数据偏差对解密或者解码得到的数据进行对比，判断是否在偏差范围内。如果在偏差范围内，则进入下一步检测。如果在偏差范围外，则输出提醒。

3）将参与方的模型梯度数据、数据结构、中间结果、少量样本数据等必要数据传入第三方可信计算模块，根据求取模型梯度数据、中间结果的计算方式对其进行逆运算，得到基于该数据结构的数据模型。将样本数据导入模型运算。如果样本数据符合该模型，可信设备输出“否”。参与方之间存在推测出其他方数据的风险。

步骤9、对模型梯度、模型参数、中间结果等数据进行整合的检测。检测如下：

1）设定整合的方法，比如横向联邦学习采用的梯度平局、模型平均等安全聚合的方法等。

2）设定数据偏差范围，对比整合后的数据是否在偏差范围内。如果超出偏差范围，则输出提醒。

步骤10、根据联邦学习类型，各参与方接收相应新的模型梯度、模型参数、中间结果或者其他数据，将这些数据解密或者解码后，更新模型，至少检测一个参与方新模型的偏差。检测如下：

1）参与方在自身内部计算，或者将数据、新模型和上一轮模型输入第三方可信计算模块，分别采用新模型和上一轮模型计算，分别得到新的结果和上一轮结果。

2）将新的结果与上一轮结果进行对比。设定偏差范围。如果偏差超出范围，则输出提醒。

3）将联邦学习目的数据输入参与方或者第三方可信计算模块，在参与方内部或者第三方可信计算模块内，根据最后一轮模型计算结果，并将结果与目的数据进行对比。如果不符合，或者超出数据偏差预期，则判断对于本参与方模型失败。

4）设定模型失败的参与方达到一定数量或者占比界限值。统计模型失败参与方数量，计算其占比。模型失败方数量或者占比超出界限值，则判断整个联邦学习模型失败。

步骤10、检测参与方在通信过程中是否采用密码技术进行数据保护和安全认证。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种联邦学习模型和数据安全性及正确性的检测方法，其特征在于：所述检测方法包括：

S2、参与方使用密码模块产生密码杂凑算法参数，采用密码杂凑算法计算参与训练数据的杂凑值；

S6、按比例和数量选择训练过程中设定参数异常的参与方，并对其进行数据检测，数据异常的参与方停止参与训练，并进行异常提醒；

S9、根据联邦学习模型，各参与方接收新的模型梯度、模型参数和中间数据，将这些数据解密后更新模型，并至少检测一个参与方新模型的偏差；

所述检测参与方是否合格以及样本是否对齐包括：

S11、按照评价参数至少对一个符合参与要求的参与方进行检测，将模型和数据导入第三方可信计算模块计算验证，输出检测结果；

S12、按照参数要求至少对一个不符合参与要求的潜在参与方进行检测，将模型和数据导入第三方可信计算模块计算验证，输出检测结果；

2.根据权利要求1所述的一种联邦学习模型和数据安全性及正确性的检测方法，其特征在于：所述检测模型的一致性包括：

3.根据权利要求1所述的一种联邦学习模型和数据安全性及正确性的检测方法，其特征在于：所述检测数据和模型的一致性包括：

4.根据权利要求1所述的一种联邦学习模型和数据安全性及正确性的检测方法，其特征在于：步骤S6中数据检测的具体包括以下内容：

S61、计算安全特征参数异常的参与方占总的参与方比值，并输出该比值结果，如果该比值超过预期值，则进行风险提醒；

5.根据权利要求1所述的一种联邦学习模型和数据安全性及正确性的检测方法，其特征在于：步骤S7中检测的具体内容包括：

6.根据权利要求1所述的一种联邦学习模型和数据安全性及正确性的检测方法，其特征在于：步骤S8中对模型梯度、模型参数和中间结果数据进行检测的具体内容包括：

A1、对加密保护或者编码保护的模型梯度、模型参数和中间结果数据进行解密或者解码得到相应的数据；

7.根据权利要求1所述的一种联邦学习模型和数据安全性及正确性的检测方法，其特征在于：步骤S8中对模型梯度、模型参数和中间结果数据进行整合的检测的具体内容包括：

B1、设定整合的方法，并根据整合的方法对模型梯度、模型参数和中间结果数据进行整合；

8.根据权利要求1所述的一种联邦学习模型和数据安全性及正确性的检测方法，其特征在于：所述至少检测一个参与方新模型的偏差包括：

9.根据权利要求1-8中任意一项所述的一种联邦学习模型和数据安全性及正确性的检测方法，其特征在于：所述检测方法还包括：检测参与方在通信过程中是否采用密码技术进行数据保护和安全认证。