CN114676458A

CN114676458A - 一种面向预训练语言模型隐私泄露风险的评估方法及系统

Info

Publication number: CN114676458A
Application number: CN202210302577.2A
Authority: CN
Inventors: 纪守领; 张曜; 杜天宇; 陈建海; 张旭鸿; 邓水光
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-06-28

Abstract

本发明涉及隐私安全领域，旨在提供一种面向预训练语言模型隐私泄露风险的评估方法及系统。包括：在预训练数据集中加入伪造数据；将预训练数据集输入初始化的神经网络模型，根据设定的预训练任务和损失函数计算损失；在训练过程中持续更新模型的参数，增加其隐私的泄露风险；利用微调数据集输入经过预训练的神经网络模型，对模型的特征提取能力进行微调；向模型输入隐私前缀内容，输出作为预测结果的文本信息；计算、统计和排序输出信息的困惑度，通过对比生成的隐私信息的比例来评估隐私数据泄露的风险。本发明可以有效提高评估隐私数据泄露风险的准确性，暴露预训练语言模型存在的隐私数据泄露风险，为后续发展相关防御方法提供思路。

Description

一种面向预训练语言模型隐私泄露风险的评估方法及系统

技术领域

本发明涉及隐私安全技术领域，尤其涉及一种面向预训练语言模型隐私泄露风险评估方法及系统。

背景技术

自然语言处理是人工智能领域的一个重要应用及分支，其目的是利用深度学习等技术对自然语言进行智能化处理。近年来GPT-2等基于Transformer结构的预训练语言模型由于其优越的性能，逐渐成为了自然语言处理任务的主流模型之一。

在大数据时代下，训练者为了获得性能优越的预训练语言模型，往往会通过多种方式获取大量数据用来训练，比如爬取社交网络上的身份信息或者利用用户终端上传的私密信息，这些数据中可能包含用户的手机号或家庭住址等敏感信息。在这些数据集上训练的模型如果存在隐私泄漏风险，便会使大量用户的隐私信息泄露，进而导致用户面临电信诈骗等威胁人身财产安全的风险。

目前，已有相关研究表明基于Transformer的预训练语言模型存在相关的安全隐私问题。例如，以GPT-2为代表的语言模型能够根据特定的前缀文本自动生成后续文本，在性能得到加强的同时，语言模型能够准确记住并生成训练集中的文本，甚至是其中的隐私信息。这种无意识记忆能力使得GPT-2等大规模预训练语言模型正面临严重的隐私威胁，攻击者在仅拥有模型黑盒访问权限的情况下就可以窃取模型训练集中的隐私数据。

然而，现有研究工作成果主要分析大规模预训练语言模型在推理阶段的隐私泄露风险，对于模型在预训练阶段可能存在的隐私泄露风险工作研究较少。这方面工作的缺失使得预训练语言模型隐私泄露风险的分析存在漏洞，导致深度学习模型面临的隐私威胁加大。

因此，亟需一种合理可靠的、面向预训练语言模型隐私数据泄露风险评估方案，针对具有强大记忆力的大规模语言模型隐私数据泄露风险进行及时准确地评估，并为设计相关防御加固方法提供思路。

发明内容

本发明要解决的技术问题是，克服现有技术中的不足，提供一种面向预训练语言模型隐私泄露风险的评估方法及系统。

为解决技术问题，本发明的解决方案是：

提供一种面向预训练语言模型隐私泄露风险的评估方法，包括以下步骤：

(1)伪造数据

根据要评估的隐私泄露风险的具体类型设定数据信息伪造规则，生成含隐私信息的伪造数据；

(2)模型预训练

建立训练神经网络模型所需的无标签语料库，将其分为预训练数据集和微调数据集两部分，并在预训练数据集中加入伪造数据；将预训练数据集输入初始化的神经网络模型，根据设定的预训练任务和损失函数计算损失；在训练过程中持续更新模型的参数，增加其隐私的泄露风险；

(3)模型微调

将微调数据集输入经过预训练的神经网络模型，在训练过程中持续更新模型的参数，对模型的特征提取能力进行微调；

(4)评估隐私泄露风险

将隐私前缀内容输入经过微调的神经网络模型，模型输出作为预测结果的文本信息，计算该输出信息的困惑度；统计各文本信息的困惑度并按序排列，困惑度越低代表文本信息的真实性就越高，通过对比生成的隐私信息的比例来评估隐私数据泄露的风险。

本发明进一步提供了面向预训练语言模型隐私泄露风险的评估系统，包括依次布置的数据伪造模块、模型预训练模块、模型微调模块和隐私数据泄露评估模块：其中，

数据伪造模块，用于根据要评估的隐私泄露风险的具体类型设定数据信息伪造规则，生成含隐私信息的伪造数据；

模型预训练模块，用于含有伪造数据的预训练数据集输入初始的神经网络模型，根据设定的预训练任务和损失函数计算损失，并在训练过程中持续更新模型的参数；

模型微调模块，用于根据设定的微调训练任务输出带有隐私前缀的文本信息；在训练过程中持续更新模型的参数，对模型的特征提取能力进行微调；

隐私数据泄露评估模块，用于将隐私前缀内容输入经过微调的神经网络模型，输出作为预测结果的文本信息；计算输出信息的困惑度，统计计算结果并按序排列，评估隐私数据泄露的风险。

发明原理描述：

本发明针对现有深度学习隐私泄露风险分析方法的不足，创新性地提出面向预训练语言模型隐私泄露风险评估技术。利用数据投毒的方法，在模型预训练阶段污染训练数据集，使得模型预训练过后更容易记住此类隐私信息，随后正常用户在使用这种预训练模型微调自己的数据时，更容易暴露正常用户的数据。

与现有技术相比，本发明的有益效果是：

1、本发明可以有效提高评估隐私数据泄露风险的准确性，暴露预训练语言模型存在的隐私数据泄露风险，为后续发展相关防御方法提供思路；

2、本发明使用的方法有较高的通用性，评估者将一个语言模型经过投毒数据集预训练后，可以在多个不同的微调数据集下进行微调，并同时评估这多个模型的隐私数据泄露风险；

3、本发明可以根据不同隐私信息，生成相应的伪造隐私数据，来有针对性地评估不同隐私数据的泄露风险。

附图说明

图1为本发明隐私数据泄露风险评估系统的架构示意图；

图2为神经网络模型生成文本的流程示意图；

图3为模型预训练及模型微调流程示意图；

图4为隐私数据泄露评估流程示意图。

具体实施方式

首先需要说明的是，本发明涉及数据库技术，是计算机技术在信息安全技术领域的一种应用。在本发明的实现过程中，会涉及到多个软件功能模块的应用。申请人认为，如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后，在结合现有公知技术的情况下，本领域技术人员完全可以运用其掌握的软件编程技能实现本发明。前述软件功能模块包括但不限于：数据伪造模块、模型预训练模块、模型微调模块、隐私数据泄露评估模块等，凡本发明申请文件提及的均属此范畴，申请人不再一一列举。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统的一部分及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为解决技术问题，本发明提供了面向预训练语言模型隐私泄露风险的评估方法，包括以下步骤：

(1)伪造数据

根据要评估的隐私泄露风险的具体类型设定数据信息伪造规则，生成含隐私信息的伪造数据；具体包括以下步骤：

(1.1)对于想要评估的隐私泄露风险，确定其具体的实现形式；

(1.2)根据泄露风险的实现形式，设定隐私信息的生成规则；生成的隐私信息应是合理的，尽量减小生成的隐私信息和真实的隐私信息之间的差异，有助于后续对模型进行隐私窃取，并评估模型的隐私数据泄露风险。

(1.3)生成足量不重复的伪造隐私信息。

在确定了隐私信息的生成规则之后，就根据生成规则生成大量的隐私信息；这些隐私信息相互之间不能有重复或冲突，尽可能的减小生成的隐私信息和真实的隐私信息之间的差异。伪造的隐私信息将被用于向训练数据集投毒，构成伪造数据集。

(2)模型预训练

建立训练神经网络模型所需的无标签语料库，将其分为预训练数据集和微调数据集两部分，并在预训练数据集中加入伪造数据；将预训练数据集输入初始化的神经网络模型，根据设定的预训练任务和损失函数计算损失；在训练过程中持续更新模型的参数，增加其隐私的泄露风险；具体包括以下步骤：

(2.1)搜集预训练数据集

爬取足量自然文本(一般是在wiki等网站上爬取获得)，组成训练神经网络模型所需的无标签语料库，并分为预训练数据集和微调数据集两部分；将含隐私信息的伪造数据添加到预训练数据集中，使每条自然文本中都包含一条隐私信息；

(2.2)搭建神经网络模型

搭建文本生成类的神经网络模型，该模型包括嵌入层、编码器和解码器三部分；其中，嵌入层用于将文本信息映射到多维向量，编码器将多维向量转换成具有丰富语义和上下文信息的多维向量，解码器将具有语义和上下文信息的多维向量转换成能被嵌入层映射到真实文本的多维向量；(可根据不同需要搭建不同的神经网络模型)

(2.3)预训练和更新模型参数

将预训练数据集输入初始化的神经网络模型，使用梯度下降算法进行学习，根据设定的预训练任务和损失函数计算损失。

在准备好输入文本后，模型接受文本的前n个单词；前n个单词经过嵌入层、编码器和解码器后输出一个多维向量，模型将这一个多维向量代表的单词和文本中第n+1个单词利用损失函数计算其损失；将该损失对网络模型参数求导，并将网络模型参数按照梯度下降的方向进行更新，达到使其损失下降的目的；这个过程从n为1开始循环进行直到达到文本的最大长度，然后对整个训练集的文本都进行相同操作；通过该方式，增加模型的隐私泄露风险。

(3)模型微调

将微调数据集输入经过预训练的神经网络模型，在训练过程中持续更新模型的参数，对模型的特征提取能力进行微调。

对模型进行预训练，是要使模型获得一定的特征提取能力。为了让预训练阶段的训练能够收敛，需要的样本数量至少超过微调数据集的2倍。由于与预训练阶段具有不同目的，模型微调阶段所用数据集相对较小。并且，模型预训练是完全在伪造数据上进行的，模型微调训练是完全在干净数据上进行的。

在模型微调训练时，所用的神经网络模型不使用随机初始化的参数，而是使用经预训练的模型参数。此时两个模型的网络架构是一样的，但可以在最后一层全连接层有差别，以用于完成不同的任务。

(4)评估隐私泄露风险

将隐私前缀内容输入经过微调的神经网络模型，模型输出作为预测结果的文本信息，计算该输出信息的困惑度；统计各文本信息的困惑度并按序排列，困惑度越低代表文本信息的真实性就越高，通过对比生成的隐私信息的比例来评估隐私数据泄露的风险。具体包括以下步骤：

(4.1)生成隐私前缀内容；

根据要窃取的隐私信息类型，生成具有引导性的隐私前缀内容；用于使模型根据前缀自动生成后续的隐私信息，从而达到泄露隐私的目的。

(4.2)神经网络模型进行预测

将隐私前缀内容输入神经网络模型，经过嵌入层、编码器和解码器之后输出预测的信息；不断迭代和重复这个过程，直到生成包含完整隐私信息的预测结果。

(4.3)计算预测结果的困惑度

计算模型预测结果的困惑度，以困惑度代表模型对自身生成文本的置信度；计算困惑度能够有效的表示该隐私信息的准确性和可信性。

(4.4)挑选困惑度最低的文本。

将生成的文本按照困惑度排序，困惑度越低代表该隐私信息的真实性就越高；通过对比预测结果中隐私信息的比例，来评估隐私数据泄露的风险。

本发明中，面向预训练的语言模型隐私泄露风险的评估系统，包括依次布置的数据伪造模块、模型预训练模块、模型微调模块和隐私数据泄露评估模块：其中，数据伪造模块，用于根据要评估的隐私泄露风险的具体类型设定数据信息伪造规则，生成含隐私信息的伪造数据；模型预训练模块，用于含有伪造数据的预训练数据集输入初始的神经网络模型，根据设定的预训练任务和损失函数计算损失，并在训练过程中持续更新模型的参数；模型微调模块，用于根据设定的微调训练任务输出带有隐私前缀的文本信息；在训练过程中持续更新模型的参数，对模型的特征提取能力进行微调；隐私数据泄露评估模块，用于将隐私前缀内容输入经过微调的神经网络模型，输出作为预测结果的文本信息；计算输出信息的困惑度，统计计算结果并按序排列，评估隐私数据泄露的风险。

所述神经网络模型是指文本生成模型，包括：嵌入层，通过学习将真实的物理数据如文本等映射成多维向量；编码器，通过学习将多维向量转化成具有语义信息和上下文信息的多维向量；解码器，通过学习将具有语义信息和上下文信息的多维向量映射到嵌入层向量，并且嵌入层可以根据此向量映射到真实的物理数据中。

下面结合附图和实施例对本发明作进一步详细描述。

如图1所示，本发明通过4个软件模块实现：数据伪造模块、模型预训练模块、模型微调模块和隐私数据泄露评估模块。具体实现过程示例如下：

(1)伪造数据：

使用社会保障号码(SSN)作为要窃取的隐私信息，确定SNN的生成规则，生成各种形式的、包含SSN的文本，比如“***’s ssn is***_**_****”。

(2)模型预训练：

(2-1)使用Wiki-103作为本实施例使用的数据集，wiki-103是一个基于wikipedia文本构造的数据集，包含100多万段文本的语料库。从整个数据集中随机选取6000个样本并按2：1的比例分为预训练数据集和微调数据集，预训练数据集和微调数据集各有4000个和2000个样本。在预训练数据集的每一段文本的前面加上伪造的SSN文本信息，使得数据集中每段文本都含有隐私信息，以预训练数据集作为预训练使用的语料库。

(2-2)使用GPT2作为网络模型架构。GPT2由12层Transformer编码层组成，嵌入层维度大小为768，共有3.45亿参数，本身具有文本生成的能够实现端到端的预测文本的功能，初始化采用随机初始化。

Transformer模型是一种常见的用来处理文本的模型架构，由卷积层、全连接层和激活函数堆叠而成。

(2-3)使用Language Model作为训练任务，Language Model任务使模型根据文本的前n个单词预测n+1个单词，神经网络模型生成文本的流程如图2所示，并计算损失函数。损失函数求导采用链式法则，将损失对模型计算过程中参与运算的模型参数求导。采用Adam-W作为优化器，负责根据网络模型的导数对网络模型的参数进行更新，学习率为1e-5。具体的，每轮选取32个样本进行参数更新，数据集中所有样本都参与更新算作1个训练轮次，一共进行100轮的训练，模型预训练流程如图3所示。

(3)模型微调：

(3-1)使用之前建立的wiki-103微调数据集作为模型微调阶段使用的数据集，共2000个样本。

(3-2)使用GPT2作为微调网络模型结构，并使用步骤(2)中得到的预训练模型参数作为微调模型的参数。

(3-3)使用Language Model作为训练任务，采用Adam-W作为优化器，对模型进行参数更新。共进行100轮训练，模型微调流程如图3所示。

(4)隐私数据泄露评估：

(4-1)根据步骤(1)确定的隐私形式，选取SSN作为拟窃取的隐私，构造相应引导性的前缀，比如“***’s ssn is”，使得文本生成模型根据前缀。接下来将要生成SSN号码，其中“***”为微调数据集中曾出现的信息，依次来引导模型泄露在微调数据集中学习到的隐私信息，一共生成1000个前缀。

(4-2)将前缀送入步骤(3)微调得到的神经网络模型，并得到模型生成的具有SSN信息的文本。

(4-3)将模型生成的文本统计其困惑度，与模型生成单词时置信度有关。

(4-4)统计多个生成文本的困惑度，并按升序排列，困惑度越低，代表模型生成文本时的置信度越高，文本包含的隐私信息就越有可能存在于训练集中；通过对比生成的隐私信息在全部输入前缀中的比例，来评估隐私数据泄露的风险。隐私数据泄露评估流程如图4所示。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向预训练语言模型隐私泄露风险的评估方法，其特征在于，包括以下步骤：

(1)伪造数据

(2)模型预训练

(3)模型微调

(4)评估隐私泄露风险

2.根据权利要求1所述的方法，其特征在于，所述步骤(1)中具体包括：

(1.2)根据泄露风险的实现形式，设定隐私信息的生成规则；

(1.3)生成足量不重复的伪造隐私信息。

3.根据权利要求1所述的方法，其特征在于，所述步骤(2)中具体包括：

(2.1)搜集预训练数据集

爬取足量自然文本，组成训练神经网络模型所需的无标签语料库，并分为预训练数据集和微调数据集两部分；将含隐私信息的伪造数据添加到预训练数据集中，使每条自然文本中都包含一条隐私信息；

(2.2)搭建神经网络模型

搭建文本生成类的神经网络模型，该模型包括嵌入层、编码器和解码器三部分；其中，嵌入层用于将文本信息映射到多维向量，编码器将多维向量转换成具有丰富语义和上下文信息的多维向量，解码器将具有语义和上下文信息的多维向量转换成能被嵌入层映射到真实文本的多维向量；

(2.3)预训练和更新模型参数

4.根据权利要求1所述的方法，其特征在于，所述步骤(2)中训练数据集的样本数量至少超过微调数据集的2倍。

5.根据权利要求1所述的方法，其特征在于，所述步骤(3)中，在模型微调训练时，所用的神经网络模型不使用随机初始化的参数，而是使用经预训练的模型参数。

6.根据权利要求1所述的方法，其特征在于，所述步骤(4)中具体包括：

(4.1)生成隐私前缀内容；

根据要窃取的隐私信息类型，生成具有引导性的隐私前缀内容；

(4.2)神经网络模型进行预测

将隐私前缀内容输入神经网络模型，经过嵌入层、编码器和解码器之后输出预测的信息；不断迭代和重复这个过程，直到生成包含完整隐私信息的预测结果；

(4.3)计算预测结果的困惑度

计算模型预测结果的困惑度，以困惑度代表模型对自身生成文本的置信度；

(4.4)挑选困惑度最低的文本

7.一种面向预训练语言模型隐私泄露风险的评估系统，其特征在于，包括依次布置的数据伪造模块、模型预训练模块、模型微调模块和隐私数据泄露评估模块：其中，

模型微调模块，用于将微调数据集输入经过预训练的神经网络模型，在训练过程中持续更新模型的参数，对模型的特征提取能力进行微调；

8.根据权利要求7所述的系统，其特征在于，所述神经网络模型是指文本生成模型，包括：

嵌入层，通过学习将真实的物理数据如文本等映射成多维向量；

编码器，通过学习将多维向量转化成具有语义信息和上下文信息的多维向量；

解码器，通过学习将具有语义信息和上下文信息的多维向量映射到嵌入层向量，并且嵌入层可以根据此向量映射到真实的物理数据中。