CN118035389A

CN118035389A - 一种联邦学习系统中的大语言模型训练数据恢复方法

Info

Publication number: CN118035389A
Application number: CN202410433270.5A
Authority: CN
Inventors: 杨浩淼; 向坤兰; 丁子康; 薛冬昀; 黄大彬; 陈沫
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2024-04-11
Filing date: 2024-04-11
Publication date: 2024-05-14
Anticipated expiration: 2044-04-11

Abstract

本发明公开了一种联邦学习系统中的大语言模型训练数据恢复方法，属于联邦学习技术领域。本发明首先截获客户端向服务器上传的梯度，以及截获服务器向客户端下发的全局大语言模型，从而基于全局大语言模型和梯度恢复出客户端的私有训练数据。在恢复处理时，本发明通过直接操作令牌级别的信息，减少了复杂度，并保证了整个恢复过程中重建的文本始终保持语法的正确性；同时通过使用辅助大语言模型，不仅优化了重建文本的语法结构，还保障了重建过程中的每一步都生成合乎语法规则的句子，从而显著提升数据恢复的恢复质量；本发明还利用辅助的大语言模型维持句子的语法正确性，以避免在巨大嵌入空间内进行无目的搜索，实现高效和准确的文本数据恢复。

Description

一种联邦学习系统中的大语言模型训练数据恢复方法

技术领域

本发明涉及联邦学习技术领域，尤其涉及一种联邦学习系统中的大语言模型（Large Language Model，LLM）训练数据恢复方法。

背景技术

在当前大数据和云计算的背景下，联邦学习（Federated Learning, FL）作为一种新兴的分布式机器学习方法，已经逐渐走进公众视野。它的核心优势在于能够在保护数据隐私的前提下，对分散在不同设备上的数据进行协同训练。在联邦学习的标准过程中，各客户端（如智能手机、医疗设备或任何能进行计算的终端）下载服务器上的全局模型，使用其本地数据（私有训练数据）进行模型训练，并将更新的梯度上传回服务器。随后，服务器综合这些梯度来更新全局模型。尽管这一过程可以有效地利用分布式数据并且数据保留在本地，但在梯度上传的环节，数据安全面临着潜在的被恢复风险。非授权用户可能会通过分析梯度信息来恢复训练数据。基于对这些被恢复的训练数据的分析，可以揭露联邦学习当中的隐私问题，揭露训练数据潜在的安全风险，进而可以通过进一步的隐私保护策略调整各客户端的私有训练数据被恢复的程度，从而为联邦学习系统提供更加强大的隐私保护。

现有的文献和技术通常集中在图像数据的联邦学习系统上，其中恢复者尝试从梯度中恢复出原始的图像数据。然而，这些方法往往不适用于文本数据，因为文本的离散性和高维特征空间要求更为精细和优化的恢复技术。大型语言模型在联邦学习场景中往往选择使用微调的方式进行训练、梯度值包含训练数据的先验信息较少。随着大型语言模型在自然语言处理领域的广泛应用，如BERT（Bidirectional Encoder Representations fromTransformers，一种预训练是语言表示学习模型)、GPT（Generative Pre-trainedTransfommer，一种预训练的语言模型）等，数据的重建愈发复杂化。此外，文本数据在联邦学习中的应用场景日益增多，例如在多语言翻译、情感分析等任务中，这些应用对数据恢复技术提出了新的需求。

在以文本分类为任务的联邦学习系统中，恢复者的主要目标是利用客户端上传的梯度信息以及全局大语言模型重建客户端的私有训练数据。现有的从梯度恢复出原始数据的方案主要有以下几种方案：

方案一：DLG（Deep Leakage from Gradient）方案。

在DLG方案中，恢复者通过一种优化的方法来重建客户端的私有文本数据。具体而言，恢复者首先随机初始化一组虚假数据，其中，/>和/>分别代表样本的虚假嵌入及其虚假标签。虚假嵌入/>输入到被恢复模型会得到一个虚假的模型输出，虚假的模型输出与虚假标签进行损失函数求损失值（loss）并进行反向传播得到虚假梯度/>。为了逼近真实数据的梯度，恢复者接下来采用拟牛顿法（L-BFGS）优化器优化虚假嵌入/>使其输入被恢复模型产生的虚假梯度与真实的梯度之间的欧式距离变小。当虚假梯度与真实梯度之间的欧式距离比预设的欧几里得阈值小，虚假数据可以被认为是被重建数据。DLG方案中的优化目标可以形式化地表示如下：

其中，表示重建数据，即恢复数据，/>分别代表样本的重建嵌入和重建标签，/>表示虚假数据/>所对应的梯度数据，/>表示真实数据所对应的梯度数据，/>分别表示样本的嵌入（真实嵌入）和标签（真实标签），/>即为客户端的私有训练数据。当虚假嵌入被重建后，可以通过查找嵌入矩阵当中与虚假嵌入匹配的条目，然后逆映射为相应的令牌，最后得到重建数据，即重建的令牌序列。

方案一的缺点：该方案的重建执行要求对梯度匹配过程进行数据搜索，该过程的复杂度与数据的批量大小（Batch size）、批处理中最长句子长度、以及被恢复模型嵌入层的特征长度的乘积成正比。恢复的复杂度随着批处理大小、批处理当中最大的句子长度以及嵌入层的特征长度随之膨胀，这显著增加了在广阔的搜索域内找到目标嵌入的难度。即该方案的实用性仅限于小批量且短小的文本数据。此外，由于方案一在每次迭代中都须将虚假嵌入输入至被恢复模型以计算梯度，并与实际梯度进行匹配，这导致了该方案在优化效率上存在显著不足。具体来说，每次迭代的执行都涉及到高计算成本的步骤，这在实际操作中引致了过长的处理时间，从而影响了该方法的应用实效性。

方案二：TAG（Gradient Attack on Transformer-based Language Models）方案。

该方案是DLG方案的一种改进，被称为TAG方案。在TAG方案中，恢复者无法直接访问本地训练中的私有训练数据，其中，/>分别表示样本的嵌入和样本标签。但可以获取本地设备共享的梯度/>（即真实梯度）以及当前全局大语言模型W。在此基础上，TAG方案首先随机初始化一组虚假数据/>包括样本的虚假嵌入以及虚假标签，虚假嵌入/>输入被恢复模型通过与虚假标签/>求损失值，然后再反向传播得到一个虚假梯度/>。通过定义一个可微分的距离函数/>，目标是最小化虚假梯度与真实梯度之间的差异，从而优化虚假嵌入以逼近真实的嵌入。

TAG方案使用了与DLG方案不同的距离函数，它结合了L2范数（欧几里得距离）和L1范数（曼哈顿距离），并引入了一个系数参数来测量梯度之间的差异。这是为了克服在正态权重初始化下使用欧几里得距离可能导致的问题，因为大多数梯度聚集在零附近，而只有一小部分梯度具有大值。TAG的优化目标可以具体定义为以下形式：

其中，表示重建数据，即恢复数据，/>分别代表样本的重建嵌入和重建标签，/>表示虚假数据/>所对应的梯度数据，/>表示真实数据所对应的梯度数据，/>分别表示样本的嵌入（真实嵌入）和标签（真实标签）。

方案二的缺点：方案二尽管在优化的目标函数上进行了创新，但仍然继承了方案一的一些核心局限性。具体来说，它与方案一一样优化的虚假嵌入具有较大的搜索空间，容易导致搜索失败。其次，盲目地搜索可能导致搜索出的句子并不合乎语法，只是一些令牌的组合。与DLG相比，TAG方案在权重初始化不同的情况下可能会产生显著不同的梯度，这使得优化过程复杂化，找到符合优化目标的虚假数据变得更加困难。

方案三：LAMP（Extracting Text from Gradients with Language ModelPriors）。

LAMP的恢复方法，该方法结合了连续优化和离散优化来重构文本数据。恢复过程首先通过梯度下降方法进行连续优化，然后利用语言模型指导搜索以更自然地重建文本。在连续优化部分，假设恢复者已知客户端令牌序列的真实标签。该方法主要关注二元分类，批量大小足以尝试所有可能的标签组合。此外，先前的研究表明，对于基本网络架构，标签可以轻松恢复，未来可以适应变换器模型。重建候选是通过从高斯分布中采样嵌入来初始化的，选择具有最小重建损失的样本。

重建损失是恢复的关键组成部分，用于衡量重建梯度与真实梯度的接近程度。可以使用L2范数和L1范数损失的组合，或者使用在图像领域提出的余弦重建损失。LAMP方法还可以使用其他类型的损失函数，其有效性取决于数据集。在优化过程中，还观察到结果嵌入向量的长度往往会稳定增长，因此提出了一个嵌入长度正则化项，以使重建序列的嵌入平均长度接近词汇表中嵌入的平均长度。最终的梯度重建误差是通过LAMP优化的。

在离散优化部分，虽然连续优化通常可以成功恢复接近原始的令牌嵌入，但它们可能因为位置嵌入对输出的影响而出现错误的顺序。为了解决这个问题，执行了几个离散序列变换，并选择了一个既具有较低重建损失又具有较低困惑度的变换。

产生候选项（候选句子）时，给定当前样本的嵌入x（即当前恢复对象），使用以下变换之一生成x的候选项，如随机交换序列中两个位置的令牌，或者将一个令牌移动到序列中另一位置之后。然后使用语言模型来检查生成的候选项是否比当前序列更好。使用语言模型选择候选项时，如果x在重建损失和困惑度的组合上有所改进，则接受它。

方案三的缺点：方案三设计了更加复杂的优化项，但是仍然保留了方案一与方案二的缺点，一方面，需要搜索较大的嵌入空间，嵌入空间随着批处理大小的增大呈爆炸式增长；另一方面，尽管引入了辅助模型中的先验知识，但是仍然在优化的过程中无法确保句子合乎语法，并且在产生候选时随机交换令牌可能会导致句子更加不合乎语法。

发明内容

本发明针对现有技术的不足，提供了一种联邦学习系统中的大语言模型训练数据恢复方法，在保障数据恢复准确性的前提下降低数据恢复的处理复杂度，实现高效和准确的文本数据恢复。

本发明为了实现上述目的采用的技术方案为：

一种联邦学习系统中的大语言模型训练数据恢复方法，该方法包括下列步骤：

步骤1，恢复端截获大语言模型在联邦训练过程中由联邦学习系统的客户端向服务器上传的梯度，以及截获服务器向客户端下发的全局大语言模型；

其中，梯度为包含若干个梯度矩阵的矩阵序列，每个梯度矩阵对应全局大语言模型的一个层间权重矩阵，梯度矩阵用于表征对应的层间权重矩阵的每个权重元素的梯度值；

步骤2，恢复端基于截获的梯度和全局大语言模型获取词袋；

步骤3，恢复端基于步骤2获取的词袋所包含的令牌类型，通过辅助的大语言模型初始化n个候选句子，记为S₁,S₂,…,S_n；其中，n为大于1的整数；

步骤4，恢复端将当前确定的候选集S中的各个候选句子依次输入全局大语言模型，基于全局大语言模型的输出以及每个候选句子的标签计算每个候选句子的梯度，并通过辅助的大语言模型对每个候选句子的语法合理性进行评估，得到每个候选句子的语法评分/>；

基于每个候选句子的梯度与梯度/>间的梯度距离，以及语法评分/>度量每个候选句子的筛选评分/>；

其中，下标i表示当前确定的候选集S的候选句子编号；候选集S的初始值为{S₁,S₂,…,S_n}；

步骤5，恢复端基于预置的筛选比例，挑选出前/>个最高筛选评分的候选句子执行步骤6；

步骤6，恢复端基于预置的交换比例，从步骤5中筛选出的候选句子中选择出个候选句子执行两两部分单词互换，每组两两部分单词互换后形成两个新的候选句子；

基于步骤5筛选出的所有候选句子和步骤6形成的所有新的候选句子得到临时候选集；

步骤7、恢复端从临时候选集中选择部分候选句子作为词袋的令牌替换对象，基于步骤2所获取的词袋的令牌类型对令牌替换对象的令牌进行随机替换，并将随机替换后得到的候选句子加入临时候选集/>中；

当完成对所有令牌替换对象的令牌替换操作后，将当前的临时候选集作为当前确定的候选集S；

步骤8、恢复端基于当前确定的候选集S重复步骤4至7，直到候选集S中的候选句子的最高筛选评分达到预置阈值时停止，并将该最高筛选评分的候选句子作为最终的恢复结果，得到重建数据。

进一步的，步骤2具体包括：

恢复端通过梯度的每一个梯度矩阵的非零行确定参与训练的句子中包含的若干个令牌类型，得到词袋，可以记为{t₁,t₂,…,t_M}，其中，M表示词袋包括的令牌类型数，从而充分利用嵌入层梯度当中的先验信息。

进一步的，步骤4中，筛选评分的计算公式为：

其中，用于表征候选句子对应的梯度与被截获的梯度间的梯度距离，这个梯度距离的度量可以通过余弦损失来度量，也可以用欧氏距离；/>和/>分别为梯度距离和句子的合理性（语法评分/>）的权重系数，且两者之和为1，/>和/>的具体取值可以根据实验情况进行调整。

进一步地，步骤3，恢复端的采用的辅助的大语言模型可以是GPT2.0，其中，GPT2.0包含一个嵌入层以及12个transformer模型（一种基于自注意力机制的深度学习架构）的解码器。GPT2.0采用无监督的预训练方法在大量的没有标记的数据上进行训练，然后用有监督的方式微调。本发明中，借助于辅助的大语言模型所生成的候选句子合乎语法，并且包括了步骤2所获取的词袋所包括的令牌类型。

进一步地，步骤6中执行两两部分单词互换时，对词性相同的令牌进行单词交换。例如，当前选出了待执行两两部分单词互换的两个候选句子和/>，若想交换的是名词，则在候选句子/>和/>各找出一个名词并进行交换，其它词性的令牌也是如此。从而能够保障交换前后的句子的合理性。

进一步地，步骤7中，对令牌替换对象的令牌进行随机替换时，替换前与替换后的令牌的词性一致，以保证替换发生前后句子都是合乎语法的。

本发明提供的技术方案至少带来如下有益效果：

（1）本发明与DLG方案相比，其通过搜索令牌而非嵌入来显著减少搜索空间，显著提高了数据恢复的效率。由于DLG方案在优化过程中需要探索大量的嵌入空间，这使得其在处理大规模数据集时特别低效。本发明通过直接操作令牌级别的信息，减少了复杂度，并保证了整个过程中重建的文本始终保持语法的正确性。

（2）本发明与TAG方案相比，其在确保文本重建的自然性和准确性方面有显著的优势。TAG方案虽然改进了距离函数以适应不同的权重初始化，但其在语法正确性和自然语言流畅性方面的保证不足；本发明通过使用辅助的大语言模型，不仅优化了重建文本的语法结构，还保障了重建过程中的每一步都生成合乎语法规则的候选句子，从而在重建质量上提供了显著的提升。

（3）本发明与LAMP方案相比，其具有更高的实用性和效率。尽管LAMP方案通过结合连续与离散优化提供了一种有效的文本重建方法，但在实际应用中可能由于其复杂性导致效率低下。本发明通过在整个优化过程中利用辅助的大语言模型维持候选句子的语法正确性，从而避免了在巨大的嵌入空间内进行无目的搜索，实现高效和准确的文本数据恢复。此外，本发明专注于保证候选句子重建的合理性，确保了在优化过程中每一步都是有目的和高效的。

具体实施方式

为使本发明实施例的目的、技术方案和优势更加清楚，对本发明实施例中的技术方案进行详细、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

本发明实施例的恢复场景是联邦学习系统，该联邦学习系统包含一个服务器和多个客户端，其中，服务器被假设为诚实且好奇的恢复者A（即本实施例以联邦学习系统的服务器为恢复端），客户端的目的是训练一个大语言模型。恢复者A对客户端的数据感兴趣并且遵守联邦学习系统训练的法则。本发明实施例中，假设恢复者能够访问全局模型（即全局大语言模型）、梯度以及标签，假设恢复者会不遗余力地截获客户端的私有训练数据，包括使用一些额外的知识，例如辅助的数据集以及其它辅助信息。

本发明实施例提供的一种联邦学习系统中的大语言模型训练数据恢复方法的处理可以分为两个部分，分别是在线捕获和离线恢复两个部分；其中，在线捕获部分恢复者获取客户端向服务器上传的梯度；离线恢复部分恢复者利用已知的全局大语言模型的模型参数和梯度恢复出客户端的私有训练数据。

作为一种可能的实现方式，本发明实施例提供的一种联邦学习系统中的大语言模型训练数据恢复方法包括下列步骤：

步骤1：在线截获，截获联邦学习训练过程中的梯度以及全局大语言模型W；

步骤2：获取词袋。通过被截获的梯度的每个梯度矩阵/>的非零行确定参与训练的句子中包含的令牌类型{t₁,t₂,…,t_M}，其中，M为令牌类型数。从而充分利用嵌入层梯度当中的先验信息；

步骤3：初始化n（预设值，大于或等于2）个候选句子。利用一个预先训练好的辅助的大语言模型，以及步骤2中重建的令牌类型，用令牌类型所对应的单词生成n个符合语法的候选句子{S₁,S₂,…,S_n}；

步骤4：评估候选集S中的各个候选句子，以得到候选集S中的每个候选句子的筛选评分，其中，下标i为候选集S的候选句子编号。

候选集S的初始值为{S₁,S₂,…,S_n}，在后续的循环处理中，通过部分候选句子的单词交换、以及候选句子的令牌替换处理实现候选集S的更新。

对当前的候选集S中的每个候选句子，依次输入联邦学习当中训练的全局大语言模型，基于全局大语言模型的输出以及每个候选句子的标签计算每个候选句子的梯度，并利用辅助的大语言模型对每个候选句子的语法合理性进行评估，得到每个候选句子的语法评分/>。

进而再基于公式计算得到每个候选句子的筛选评分/>；/>和/>分别为梯度距离和语法评分的权重系数，两者之和为1，本发明实施例中，/>的值设置为0.7，/>的值设置为0.3。

步骤5：挑选部分候选句子。根据筛选评分从高到底按照既定的筛选比例挑选评分较高的/>个候选句子加入到临时候选集/>中，其中，临时候选集/>在每一轮的循环处理时的初始值为空集；

步骤6：单词的交换。按照一定的交换比例从临时候选集/>中选择出个候选句子，接着再对当前选择出来的候选句子两两进行部分单词的互换，任意一组交换部分单词后的候选句子会形成两个新的候选句子，然后再将这两个新的候选句子加入到临时候选集/>中。依次执行这样的单词交换处理，直到所有被选出的个候选句子都完成单词交换，从而得到完成单词交换处理后的临时候选集/>；

其中，在进行候选句子之间的单词交换时，采用词性相同的令牌进行单词交换。且本实施例中，筛选比例的值设置为0.9，交换比例/>设置为0.1。

步骤7：从临时候选集中选择部分候选句并替换其令牌。即从临时候选集/>中随机选出部分候选句子作为令牌替换对象，再将所选出的令牌替换对象的令牌用词袋中的令牌类型{t₁,t₂,…,t_M}随机替换，且替换前与替换后的令牌的词性一致。在执行令牌替换时，将令牌替换后的候选句子也加入临时候选集/>中。

当完成对所有令牌替换对象的令牌替换操作后，将当前得到的临时候选集作为候选集S，即将临时候选集/>赋值给候选集S，再将临时候选集/>重置为空集，以用于下一轮的处理。

步骤8：基于该候选集S重复步骤4-步骤7直到该候选集S中的候选句子的最高筛选评分达到预置阈值时停止，并将该最高筛选评分的候选句子作为最终的恢复结果，得到重建数据。

本发明实施例提供的一种联邦学习系统中的大语言模型训练数据恢复方法通过显著缩小搜索空间同时确保整个搜索过程中候选句子的语法合规，从而高效地重建数据。本发明实施例方法结合了离散搜索与辅助的大语言模型监督这两种策略，即首先通过解析联邦学习模型嵌入层的梯度（客户端上传的梯度中的梯度矩阵）来识别参与训练的词汇类型（即词袋），有效地缩小了搜索空间；接着，利用这些词汇类型，并借助辅助的大语言模型生成多个语法正确的候选句子，确保这些候选句子完全由之前识别的词汇构成；随后，结合梯度匹配程度和辅助的大语言模型对候选句子的评估，选择那些损失较小的候选句子进行进一步处理；在此基础上，本发明实施例进一步通过随机交换候选句子中相同词性的词汇，以及将候选句子中的词汇与词袋中的词汇进行替换，从而生成新的候选句子。通过反复执行上述步骤，直至找到损失最小的候选句子。本发明实施例方法成功解决了现有技术中在庞大的嵌入空间内进行搜索的低效率问题，同时也克服了重建文本缺乏语法合规性的局限，为数据恢复在更广泛和实际的应用场景中的应用开辟了新路径。本发明实施例的上述处理方式方法不仅提高了数据恢复的准确性和效率，也为联邦学习中的数据隐私保护提供了更为可靠的技术支持。

本发明实施例提供的一种联邦学习系统中的大语言模型训练数据恢复方法还可以应用于联邦学习中智能手机预测下一个字的场景，在该场景中假设多个智能手机正在联合训练一个基于大型文本数据的语言模型，用于预测文本中下一个词。恢复者假设为中心服务器，它拥有辅助的大型语言模型，如GPT2.0，同时知道待恢复数据的标签。恢复者在离线恢复阶段，通过嵌入层推断参与训练的令牌、然后不断用辅助的大型语言模型以及获取的梯度去生成、校正和改善候选句子。在联邦学习的主任务中，恢复者利用这些工具和数据以及参与方（客户端）的梯度信息，通过迭代搜索过程，最终达到重构智能手机预测下一个字模型的训练数据的目的。

本发明实施例提供的一种联邦学习系统中的大语言模型训练数据恢复方法不仅仅是针对单一数据点的恢复，而是可以广泛应用于具有更大的批次的训练数据的恢复，可以提高恢复的效率和实用性。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，包括下列步骤：

步骤2，恢复端基于截获的梯度和全局大语言模型获取词袋；

步骤5，恢复端基于预置的筛选比例，挑选出前/>个最高筛选评分/>的候选句子执行步骤6；

步骤8、恢复端基于当前确定的候选集S重复步骤4至7，直到候选集S中的候选句子的最高筛选评分达到预置阈值时停止，并将该最高筛选评分的候选句子作为最终的恢复结果。

2.如权利要求1所述的一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，步骤2具体包括：

恢复端通过梯度的每一个梯度矩阵的非零行确定参与训练的句子中包含的若干个令牌类型，基于所有令牌类型得到词袋。

3.如权利要求1所述的一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，步骤4中，筛选评分的计算公式为：

；

其中，和/>分别为梯度距离和语法评分的权重系数，且两者之和为1。

4.如权利要求1所述的一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，步骤3中，恢复端的采用的辅助的大语言模型为GPT2.0。

5.如权利要求1所述的一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，步骤6中执行两两部分单词互换时，采用词性相同的令牌进行单词互换。

6.如权利要求1所述的一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，步骤7中，对令牌替换对象的令牌进行随机替换时，替换前与替换后的令牌的词性一致。

7.如权利要求1所述的一种联邦学习系统中的大语言模型训练数据恢复方法，其特征在于，筛选比例的值设置为0.9，交换比例/>设置为0.1。