CN115345293A - 基于差分隐私的文本处理模型的训练方法及装置 - Google Patents

基于差分隐私的文本处理模型的训练方法及装置 Download PDF

Info

Publication number
CN115345293A
CN115345293A CN202210917682.7A CN202210917682A CN115345293A CN 115345293 A CN115345293 A CN 115345293A CN 202210917682 A CN202210917682 A CN 202210917682A CN 115345293 A CN115345293 A CN 115345293A
Authority
CN
China
Prior art keywords
privacy
training
target
model
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210917682.7A
Other languages
English (en)
Inventor
杜健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210917682.7A priority Critical patent/CN115345293A/zh
Publication of CN115345293A publication Critical patent/CN115345293A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供一种基于差分隐私的文本处理模型的训练方法及装置。该方法包括:首先,将目标训练文本输入文本处理模型,所述文本处理模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,对相邻的上游隐层输出的目标原始表征进行加噪,得到目标加噪表征,并利用所述隐私保护层下游的模型层处理所述目标加噪表征,得到文本处理结果。然后,基于所述文本处理结果和对应的文本标签,训练所述文本处理模型。如此,通过在训练阶段的前向传播过程中对隐私表征进行差分隐私处理,实现在保证训练数据隐私安全的同时,加速模型收敛并有效提升模型的预测性能。

Description

基于差分隐私的文本处理模型的训练方法及装置
技术领域
本说明书一个或多个实施例涉及数据处理技术领域,尤其涉及一种基于差分隐私的文本处理模型的训练方法及装置。
背景技术
随着机器学习的迅猛发展,机器学习模型被广泛应用于各种各样的业务场景。在许多领域涉及到文本处理,例如,智能客服问答、机器翻译、文本分析分类,等等。可以理解,对于文本处理模型,其预测性能依赖于训练文本的丰富程度,训练文本越贴合实际应用场景、数据量越大,训练出的模型性能越优异。
然而,训练好的文本处理模型存在泄露训练文本的风险,例如,攻击者可以通过调用训练好的模型,判断某个文本是否位于训练文本集中,而训练文本往往涉及用户等业务对象的隐私。因此,迫切需要一种方案,使得训练好的文本处理模型能够有效保护训练数据的隐私安全,同时,具有良好的预测性能。
发明内容
本说明书一个或多个实施例描述了一种基于差分隐私的文本处理模型的训练方法及装置,在训练时的前向传播过程中,对隐层表征进行差分隐私处理,从而在保证训练数据隐私安全的同时,使得训练出的模型具有优良的预测性能。
根据第一方面,提供一种基于差分隐私的文本处理模型的训练方法,包括:将目标训练文本输入文本处理模型,所述文本处理模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,对相邻的上游隐层输出的目标原始表征进行加噪,得到目标加噪表征,并利用所述隐私保护层下游的模型层处理所述目标加噪表征,得到文本处理结果;基于所述文本处理结果和对应的文本标签,训练所述文本处理模型。
在一个实施例中,利用所述隐私保护层以差分隐私的方式,对相邻的上游隐层所输出的目标原始表征进行加噪,得到目标加噪表征,包括:基于预设的裁剪阈值,对所述目标原始表征进行裁剪,得到目标裁剪表征;利用基于所述裁剪阈值和预设的隐私预算确定的高斯分布,确定用于实现差分隐私的高斯噪声;在所述目标裁剪表征上叠加所述高斯噪声,得到所述目标加噪表征。
在一个具体的实施例中,所述高斯分布以0为均值,以噪声功率为方差;所述隐私预算为总隐私预算;所述方法还包括:基于所述总隐私预算、所述裁剪阈值,以及所述方法涉及的训练迭代总轮次,计算所述噪声功率。
在一个更具体的实施例中,计算所述噪声功率,包括:将所述总隐私预算转换为高斯差分隐私空间中的总隐私参数值;在所述高斯差分隐私空间中,根据所述总隐私参数值、所述训练迭代总轮次,确定训练迭代单轮次的目标隐私参数值;根据所述目标隐私参数值和所述裁剪阈值,确定所述噪声功率。
根据第二方面,提供一种基于差分隐私的文本处理模型的训练方法,包括T个阶段的训练,各个阶段包括M轮次的迭代更新,其中任一轮次的迭代更新包括:对当前阶段对应批次的训练文本进行采样,得到当前轮次的训练文本子集;针对所述训练文本子集中的各个训练文本,将其输入文本处理模型,所述文本处理模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,基于预设的总隐私预算和轮次数目M对相邻的上游隐层输出的原始表征进行加噪,得到加噪表征,并利用所述隐私保护层下游的模型层处理所述加噪表征,得到文本处理结果;基于所述文本处理结果和对应的文本标签,训练所述文本处理模型。
在一个实施例中,利用所述隐私保护层以差分隐私的方式,基于预设的总隐私预算和轮次数目M对相邻的上游隐层输出的原始表征进行加噪,得到加噪表征,包括:基于预设的裁剪阈值,对所述原始表征进行裁剪,得到裁剪表征;利用基于所述裁剪阈值、所述总隐私预算和轮次数目M确定的高斯分布,确定用于实现差分隐私的高斯噪声;在所述裁剪表征上叠加所述高斯噪声,得到所述加噪表征。
在一个具体的实施例中,所述高斯分布以0为均值,以噪声功率为方差;所述方法还包括:基于总隐私预算、所述裁剪阈值、阶段数目T和轮次数目M,计算所述噪声功率。
在一个更具体的实施例中,计算所述噪声功率,包括:将所述总隐私预算转换为高斯差分隐私空间中的总隐私参数值;在所述高斯差分隐私空间中,根据所述总隐私参数值、阶段数目T和轮次数目M,确定训练迭代单轮次的目标隐私参数值;根据所述目标隐私参数值,所述裁剪阈值,确定所述噪声功率。
在一个实施例中,基于所述文本处理结果和对应的文本标签,训练所述文本处理模型,包括:基于所述文本处理结果和对应的文本标签,确定对应的训练梯度;计算所述训练文本子集对应的若干训练梯度的梯度均值;将所述文本处理模型的模型参数更新为,利用其减去所述梯度均值与预设学习率之间乘积所得到的差值。
根据第三方面,提供一种基于差分隐私的业务预测模型的训练方法,包括:获取目标训练样本,其中包括对应业务对象的目标对象特征和目标对象标签;将所述目标对象特征输入业务预测模型,所述业务预测模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,对相邻的上游隐层输出的目标原始表征进行加噪,得到目标加噪表征,并利用所述隐私保护层下游的模型层处理所述目标加噪表征,得到业务预测结果;基于所述业务预测结果和所述目标对象标签,训练所述业务预测模型。
在一个实施例中,所述业务对象为用户、商品或业务事件,所述业务预测模型用于预测所述业务对象的分类或回归值。
根据第四方面,提供一种基于差分隐私的业务预测模型的训练方法,包括T个阶段的训练,各个阶段包括M轮次的迭代更新,其中任一轮次的迭代更新包括:对当前阶段对应批次的训练样本进行采样,得到当前轮次的训练样本子集,其中各个训练样本包括对应业务对象的对象特征和对象标签;针对所述各个训练样本,将其对象特征输入业务预测模型,所述业务预测模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,基于预设的总隐私预算和轮次数目M对相邻的上游隐层输出的原始表征进行加噪,得到加噪表征,并利用所述隐私保护层下游的模型层处理所述加噪表征,得到业务预测结果;基于所述业务预测结果和对应的对象标签,训练所述业务预测模型。
在一个实施例中,所述业务对象为用户、商品或业务事件,所述业务预测模型用于预测所述业务对象的分类或回归值。
根据第五方面,提供一种基于差分隐私的文本处理模型的训练装置,包括:文本处理单元,配置为将目标训练文本输入文本处理模型,所述文本处理模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,对相邻的上游隐层输出的目标原始表征进行加噪,得到目标加噪表征,并利用所述隐私保护层下游的模型层处理所述目标加噪表征,得到文本处理结果;模型训练单元,配置为基于所述文本处理结果和对应的文本标签,训练所述文本处理模型。
根据第六方面,提供一种基于差分隐私的文本处理模型的训练装置,训练涉及T个阶段,各个阶段包括M轮次的迭代更新,其中任一轮次的迭代更新通过所述装置包含的以下单元执行:采样单元,配置为对当前阶段对应批次的训练文本进行采样,得到当前轮次的训练文本子集;文本处理单元,配置为针对所述训练文本子集中的各个训练文本,将其输入文本处理模型,所述文本处理模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,基于预设的总隐私预算和轮次数目M对相邻的上游隐层输出的原始表征进行加噪,得到加噪表征,并利用所述隐私保护层下游的模型层处理所述加噪表征,得到文本处理结果;模型训练单元,配置为基于所述文本处理结果和对应的文本标签,训练所述文本处理模型。
根据第七方面,提供一种基于差分隐私的业务预测模型的训练装置,包括:样本获取单元,配置为获取目标训练样本,其中包括对应业务对象的目标对象特征和目标对象标签;样本预测单元,配置为将所述目标对象特征输入业务预测模型,所述业务预测模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,对相邻的上游隐层输出的目标原始表征进行加噪,得到目标加噪表征,并利用所述隐私保护层下游的模型层处理所述目标加噪表征,得到业务预测结果;模型训练单元,配置为基于所述业务预测结果和所述目标对象标签,训练所述业务预测模型。
根据第八方面,提供一种基于差分隐私的业务预测模型的训练装置,训练涉及括T个阶段,各个阶段包括M轮次的迭代更新,其中任一轮次的迭代更新通过所述装置包含的以下单元执行:采样单元,配置为对当前阶段对应批次的训练样本进行采样,得到当前轮次的训练样本子集,其中各个训练样本包括对应业务对象的对象特征和对象标签;样本处理单元,配置为针对所述各个训练样本,将其对象特征输入业务预测模型,所述业务预测模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,基于预设的总隐私预算和轮次数目M对相邻的上游隐层输出的原始表征进行加噪,得到加噪表征,并利用所述隐私保护层下游的模型层处理所述加噪表征,得到业务预测结果;模型训练单元,配置为基于所述业务预测结果和对应的对象标签,训练所述业务预测模型。
根据第九方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序在计算机中执行时,令计算机执行上述第一至第四方面中任一方面提供的方法。
根据第十方面,提供了一种计算设备,包括存储器和处理器,存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述第一至第四方面中任一方面提供的方法。
采用本说明书实施例提供的方法和装置,在训练时的前向传播过程中,对隐层表征进行差分隐私处理,将引入的噪声量尽可能控制在较小的范围,进而在保证训练数据隐私安全的同时,使得训练出的模型具有优良的预测性能和可用性,并且,还能大幅降低模型训练对存储空间的占用和计算消耗。进一步,还可以引入二次采样进行DP增强,从而将引入的噪声量尽可能控制在更小的范围,进一步加速模型收敛和提升训练好的模型的预测准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出根据一个实施例的实现隐私保护的训练文本处理模型的实施架构示意图;
图2示出根据一个实施例的基于差分隐私的文本处理模型的训练方法流程示意图;
图3示出根据另一个实施例的基于差分隐私的文本处理模型的训练方法流程示意图;
图4示出根据一个实施例的基于差分隐私的业务预测模型的训练方法流程示意图;
图5示出根据另一个实施例的基于差分隐私的业务预测模型的训练方法流程示意图;
图6示出根据一个实施例的基于差分隐私的文本处理模型的训练装置结构示意图;
图7示出根据另一个实施例的基于差分隐私的文本处理模型的训练装置结构示意图;
图8示出根据一个实施例的基于差分隐私的业务预测模型的训练装置结构示意图;
图9示出根据另一个实施例的基于差分隐私的业务预测模型的训练装置结构示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
承前所述,采用训练数据集直接训练出来的文本处理模型,可能会受到成员推理攻击(membership inference attacks),泄露单个文本是否在训练文本集中的信息。为此,提出在训练过程中引入差分隐私机制(Differential Privacy),防止训练数据的隐私泄露。
DP-SGD(Differential Private Stochastic Gradient Descent)是一种引入DP机制的经典训练方式,在训练过程中,通过对每个训练样本的样本梯度进行差分隐私处理,实现对训练数据的隐私保护,然而,其在模型训练过程中,尤其在对大型模型的训练过程中,存在一些缺陷:1)因为需要对单个训练样本的样本梯度进行DP处理,导致需要对各个训练样本的样本梯度分别进行存储,造成存储空间的大量占用;2)因样本梯度的维数等于模型参数的数量,而DP噪声是针对每维分别添加的,导致添加的噪声量大,模型的训练性能受限;3)对梯度进行DP处理将不可避免的引入梯度偏差,对模型训练效果造成不良影响。
基于以上观察和分析,发明人提出一种方案,在训练模型时的前向传播(ForwardPropagation)过程中,对隐层输出的原始表征进行DP处理,从而使得训练出的模型能够实现对训练文本的隐私保护的同时,具有良好的预测性能。由此,文中或将本说明书实施例披露的方案称为DP-FP方案。
图1示出根据一个实施例的实现隐私保护的训练文本处理模型的实施架构示意图。如图1所示,将从训练数据集中采样的训练文本输入文本处理模型,从而利用文本处理模型中的隐私保护层对相邻的上游隐层输出的原始表征进行DP处理,得到加噪表征,进而利用文本处理结果和训练文本的文本标签确定训练损失,用以更新文本处理模型。如此,基于训练数据集进行多轮次迭代训练,可以得到训练好的文本处理模型。经实验证明,采用本说明书实施例披露的DP-FP方案训练出的文本处理模型,相较采用DP-SGD方案训练出的模型,具有更高的预测准确率,甚至逼近训练时没有引入任何DP处理的文本处理模型。
下面结合更多的实施例,对上述方案的实施步骤进行具体介绍。
图2示出根据一个实施例的基于差分隐私的文本处理模型的训练方法流程示意图,所述方法的执行主体可以为任何具有计算、处理能力的服务器、平台、装置或设备集群等,例如,持有本地训练数据集的单个数据方。如图2所示,所述方法包括以下步骤:
步骤S210,获取目标训练文本和其文本标签;步骤S220,将所述目标训练文本输入文本处理模型,所述文本处理模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,对相邻的上游隐层输出的目标原始表征进行加噪,得到目标加噪表征,并利用所述隐私保护层下游的模型层处理所述目标加噪表征,得到文本处理结果;步骤S230,基于所述文本处理结果和对应的文本标签,训练所述文本处理模型。
针对以上步骤的展开介绍如下:
首先,在步骤S210,获取目标训练文本和其文本标签。
在一个实施例中,目标训练文本是预先采集的训练数据集中的任一训练文本。相应地,可以依次或随机地从该训练数据集中读取训练文本,作为目标训练文本。在另一个实施例中,考虑到训练所需的多轮迭代过程,在每一迭代轮次中,从本地样本总集中采样出一小批样本(mini-batch),从而依次从该批样本中读取训练文本,作为目标训练文本。
可以理解,训练文本可以是预先获取到的与用户等业务对象相关的文本,例如,一个用户问句,一句用户聊天记录,一条用户输入文本,或其他涉及业务对象隐私的语句文本。并且,文本标签与业务对象和业务场景相适应,例如,文本标签可以是文本类别标签,具体如用户问句对应的标准问题,用户聊天记录对应的情感类别,用户输入文本对应的用户意图等,又或者,文本标签还可以是用户输入文本对应的翻译文本等。
在以上获取到目标训练文本和其样本标签后,先在步骤S220,将目标训练文本输入文本处理模型,所述文本处理模型中设置有隐私保护层。
需说明,文本处理模型可以基于已有的模型结构,对其增设隐私保护层而实现。具体,已有的模型结构中依次包括输入层、若干隐藏层(或称隐层)和输出层,隐私保护层可以被设置在任意的隐层之后,例如,任意两个原本相邻的隐层之间,或者,也可以被设置在最后一个隐层和输出层之间。另外,隐私保护层的数量可以为一个或多个,在为多个的情况下,其可以被分别设置在不同的隐层之后。可以理解,文中主要以隐私保护层的数量为单个进行示例性说明,当设置有多个时,各个隐私保护层对其输入的处理都可以参照设置为单个的情况执行。在一个例子中,文本处理模型可以基于Bert模型实现,此时,可以将隐私保护层设置在Bert模型的编码器和分类层之间。在另一个例子中,文本处理模型可以基于Transformer网络实现,此时,可以将隐私保护层设置在Transformer网络的编码器和解码器之间。
隐私保护层是非参数化的网络层,以差分隐私的方式,根据预先设定的超参数和算法,对自隐层输入其中的目标原始表征(或称原始表征向量、隐层表征向量、原始隐层表征、隐层表征等)进行隐私保护处理,无需进行调参和训练。
在下文具体描述隐私保护处理的详细过程之前,首先对差分隐私的基本原理进行简单介绍。
差分隐私DP是密码学中的一种手段,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。设有随机算法M,OM为算法M所有可能的输出构成的集合。对于任意两个邻近数据集X和X′(即X和X′仅有一条数据记录不同)以及OM的任何子集Y,若随机算法M满足:
Figure BDA0003776412940000071
则称算法M提供ε-DP保护,其中参数ε称为隐私保护预算,用于平衡隐私保护程度和准确度。ε通常可以预先设定。ε越接近0,eε越接近1,随机算法对两个邻近数据集X和X′的处理结果越接近,隐私保护程度越强。
实践中,对式(1)示出的严格的ε-差分隐私可以进行一定程度放宽,实现为(ε,δ)差分隐私,即如下式(2)所示:
Figure BDA0003776412940000072
其中,δ为松弛项,又称为容忍度,可以理解为不能实现严格差分隐私的概率。
差分隐私的实现方式包括,噪声机制、指数机制等。若在隐私保护层中采用噪声机制,则需要根据隐私预算确定噪声功率,再从基于噪声功率确定的噪声分布中采样噪声,添加至隐层表征。
进一步,为了更好地实现差分隐私,可以先将输入隐私保护层中的隐层表征约束在一定范围内。这是因为,训练样本的随机,使得隐层针对不同样本输出的表征之间存在较大差异,这就导致,在模型遭遇上述成员推理攻击时,存在极大的隐私泄露风险。因此,可以先对输入隐私保护层中的原始隐层表征进行裁剪,将其约束在一定范围内,之后再进行加噪处理。
对隐层表征的裁剪操作可以包括:在目标原始表征的范数值超过裁剪阈值C的情况下,确定裁剪阈值C与该范数值的比例,并将隐层表征按照该比例进行裁剪,否则可以不裁剪。需要理解,裁剪阈值C是预先设定的一个超参数。示例性地,可以利用下式进行梯度裁剪:
Figure BDA0003776412940000081
在上式中,Clip(,)表示裁剪操作函数,h和h(·)都表示目标原始表征,C表示裁剪阈值,||||2表示二范数,min表示取最小函数。当||h(·)||2小于C时,C与||h(·)||2的比例大于1,min函数取值为1,此时,不对h进行裁剪;当||h(·)||2大于C时,C与||h(·)||2的比例小于1,min函数取值即为该比例,此时,按照该比例对h进行裁剪,也就是将h中的所有向量元素分别乘以该比例系数。
如此,可以实现对目标原始表征的裁剪,得到对应的目标裁剪表征。进一步,可以对目标裁剪表征进行噪声的确定和添加。噪声的确定包括噪声分布的确定和基于噪声分布进行的噪声采样。具体,可以先根据预设的总隐私预算εtot或(εtottot),确定针对目标原始表征的噪声功率,从而形成以噪声功率为分布方差的噪声分布。在不同的例子中,此噪声分布可以是拉普拉斯噪声分布或高斯噪声分布。可以理解,噪声功率和噪声分布的确定可以采用已有方式实现。
基于确定出的噪声分布,可以从中采样噪声,从而将采样到的噪声添加到目标裁剪表征,得到目标加噪表征,作为下一模型层的输入。可以理解,目标裁剪表征的维数k与目标原始表征的维数k相同,相应需要向其添加k维的噪声向量。在一个例子中,可以对噪声分布分别进行k次采样,从而将利用采样到的k个值形成的k维噪声向量添加到目标裁剪表征中。在另一个例子中,可以对高斯分布进行小于k次的采样(如进行1次采样),然后利用采样到的值复制填充得到k维噪声向量,添加到目标裁剪表征中。
根据一个具体的例子,在目标裁剪表征上添加符合(ε,δ)差分隐私的高斯噪声,此时,得到的目标加噪表征可以表示为:
Figure BDA0003776412940000091
在上式(4)中,x表示目标训练文本;Clip(h(x),C)表示裁剪后的隐层表征向量;
Figure BDA0003776412940000092
表示均值为0,方差为σ2的高斯分布;σ2或σ又可称为噪声功率。Ik表示k维的单位矩阵,k的取值与目标原始表征的维数相等,
Figure BDA0003776412940000093
表示基于对高斯分布
Figure BDA0003776412940000094
进行采样的采样结果而构建的k维高斯噪声向量。
由上,可以利用隐层表征层将输入其中的目标原始表征处理为目标加噪表征。在本说明书实施例披露的DP-FP方案中,针对单个训练样本,是在前向传播时对其原始隐层表征进行加噪,噪声向量的维数等于隐层表征的维数,而在DP-SGD中,是对单个样本的梯度进行加噪,噪声向量的维数取决于参数梯度的维数,而参数梯度的维数取决于模型参数的个数,模型参数的量级通常较大,尤其对于Bert等大型模型,模型参数的个数达到上亿级,由此引入的噪声量级也是巨大的。因此,DP-FP方案中对隐层表征(量级通常以百计)添加的噪声,远远小于DP-SGD方案中对梯度进行加噪而引入的噪声量,从而DP-FP方案相较DP-SGD方案可以有效提升模型的训练效果,包括加速训练收敛以及提高训练好的模型的预测准确度。
进一步,利用文本处理模型中位于隐私保护层下游的其他模型层处理加噪表征,得到与训练文本对应的文本处理结果。在一个例子中,其他模型层包括其他的若干隐层和输出层,此时,可以利用若干隐层处理加噪表征,再利用输出层处理最后一个隐层输出的表征,得到文本处理结果。在另一个例子中,其他模型层中仅包括输出层,如分类层,此时,可以将加噪表征作为分类层的输入,从而得到分类层输出的文本分类结果。
根据一个具体的例子,隐私保护层被设置在Bert模型的编码器和分类任务层之间,此时,可以利用隐私保护层对编码器输出的与分类字符([CLS]token)对应的编码向量进行裁剪和加噪处理,得到加噪表征,进而利用分类任务层处理加噪表征,得到文本分类结果。
由上,利用设置有隐私保护层的文本处理模型对训练文本进行处理,可以得到对应的文本处理结果。之后,在步骤S230,基于文本处理结果和对应的文本标签,训练文本处理模型。具体,利用文本处理结果和文本标签计算训练梯度,再利用训练梯度更新文本处理模型的模型参数。需说明,此处对梯度的计算不涉及差分隐私处理,因此不会引入梯度偏差。同时,在本说明书披露的实施例中,只需要对一批次(mini-batch)训练样本的平均梯度进行存储即可,而不需要像DP-SGD方案那样单独存储每个训练样本的梯度以进行差分隐私处理,因此,大量节省了存储空间。
综上,采用本说明书实施例披露的基于差分隐私的文本处理模型的训练方法,在训练时的前向传播过程中,对隐层表征进行差分隐私处理,将引入的噪声量尽可能控制在较小的范围,进而在保证训练数据隐私安全的同时,使得训练出的模型具有优良的预测性能和可用性,并且,还能大幅降低模型训练对存储空间的占用和计算消耗。
根据另一方面的实施例,本说明书还披露另一种文本处理模型的训练方法,在此方法中,对上述DP-FP方案进行进一步改进,除了在前向传播过程中对原始隐层表征进行DP处理以外,还通过采样实现DP增强(amplification),从而在维持隐私保护强度的同时,减小隐层表征向量的各维对应的噪声功率,进一步提高文本处理模型的训练效果。
具体来说,直观地,当一个样本根本没有包含在采样的样本集中时,该样本是完全保密的,由此带来的效应即为隐私放大。据此,发明人发现,在对训练文本总集进行多批次采样得到多批次样本后,若对每批次样本进行二次采样,并基于每批次样本下的多个样本子集进行模型训练,可以相同隐私预算下,有效减小隐层表征每一维对应的噪声功率。可以理解,通过二次采样实现隐私增强是基于对隐层表征进行DP处理实现的,而DP-SGD方案中的DP处理是针对单个训练样本的梯度进行的,因此,即使基于DP-SGD方案进行二次采样,也无法实现隐私增强的效果。
下面结合更多实施例,对引入二次采样的DP-FP方案的具体实施步骤进行介绍。图3示出根据另一个实施例的基于差分隐私的文本处理模型的训练方法流程示意图,所述方法包括T个阶段的训练,各个阶段包括M轮次的迭代更新。可以理解,所述方法的执行主体可以为任何具有计算、处理功能的装置、平台或设备集群等,例如,持有完整训练数据集的单个数据方。
如图3所示,所述方法涉及的T*M轮次更新中的任一轮次包括以下步骤:
首先,在步骤S310,对当前阶段对应批次的训练文本进行采样,得到当前轮次的训练文本子集。需理解,训练文本子集中的文本数可能为一个或多个。
在一个实施例中,可以先针对当前阶段,从训练文本总集中采样当前批次的训练文本(mini-batch),其中包括多个训练文本;进一步,从当前批次文本中采样得到当前轮次的训练文本子集(micro-batch)。
在另一个实施例中,可以预先基于训练文本总集采样T*M个训练文本子集,具体,针对T个阶段对训练文本总集进行采样,对应得到T个批次的训练文本,再基于各批次的训练文本,针对M个轮次进行采样,得到M个文本子集,由此,可以得到T*M个训练文本子集。相应,在本步骤中,可以顺序读取其中的各个训练文本子集,作为当前轮次的训练文本子集。
由上,可以得到当前轮次对应的训练文本子集。接着,在步骤S320,针对训练文本子集中的各个训练文本,将其输入文本处理模型,该文本处理模型中设置有隐私保护层。
需说明,文本处理模型可以基于已有的模型结构,对其增设隐私保护层而实现。对文本处理模型和隐私保护层的介绍,可以参见前述实施例中的相关描述。另外,以下对隐私保护层中对隐层向量所添加噪声的噪声功率的确定进行介绍,并对进行二次采样(T*M个样本子集)和不进行二次采样(T批次样本)的情况进行噪声功率的对比。
本步骤中,噪声功率σ2的确定需要用到总隐私预算和上述轮次数目M。另外,还需要用到敏感度,其中敏感度表示查询函数对相邻数据集X和X′查询时其查询结果的最大差异,在文本表征场景下,敏感度可以定义为,一对训练文本的隐层表征之间的最大差异。在本说明书实施例中,因上述裁剪阈值C暗含(imply)任意两个不同训练文本对应的隐层表征之间的最大差异,因此,可以直接将裁剪阈值C作为敏感度的取值。
具体,考虑到隐私成本的叠加,根据总隐私预算(εtottot)和敏感度,确定T*M轮次迭代中每轮次迭代的目标预算信息,作为当前迭代轮次的目标预算信息,在根据该目标预算信息,得到针对当前训练文本的噪声功率σ2。进一步,在一个实施例中,还考虑采样过程引起的差分隐私DP放大对隐私保护程度的影响。
为了综合考虑隐私叠加和采样造成的DP放大的影响而更好地计算总隐私预算的分配,在一个实施例中,将(ε,δ)空间中的隐私预算映射至其对偶空间:高斯差分隐私空间,从而便于隐私分配的计算。可以理解,在高斯差分隐私(Gaussian differential privacy,简称GDP)的度量空间中,隐私损失通过参数μ衡量,隐私度量参数μ和(ε,δ)-DP表征空间可以通过以下公式(5)互相转化:
Figure BDA0003776412940000111
其中,Φ()表示高斯分布的累积分布函数。
如此,将总隐私预算(εtottot)待入公式(5),可以计算出总隐私参数μtot
进一步,通过对GDP空间中采样引起的隐私放大进行研究,可以得到GDP空间中的中心极限定理,即,在各轮迭代的隐私参数值均为μ的情况下,T*M次迭代后的总隐私参数值满足以下关系式(6):
Figure BDA0003776412940000112
上述关系式示出,总隐私参数值μtot正比于预设的采样概率p,其为任一训练样本被从训练文本总集中最终采样到训练文本子集的概率;μtot还正比于总迭代轮数T*M的平方根,并依赖于以自然指数e为底数,以单轮迭代的隐私参数值μ为指数的幂运算结果。
由此,将上述计算出的总隐私参数μtot和预设的采样概率p代入公式(6),可以计算出各轮次迭代的隐私参数均值μ(或称目标隐私参数值),进而将隐私参数均值μ和裁剪阈值C代入公式(7),可以计算出噪声功率σ2
μ=C/σ (7)
由上,基于总隐私预算(εtottot)、裁剪阈值C、训练阶段数T和轮次数目M,对公式(5)、(6)和(7)进行计算,可以得到针对每个迭代轮次的噪声功率σ2,此噪声功率σ2同时也是针对隐层表征的每个维度。
类似地,对于DP-SGD,将其中采样得到一批次样本(mini-batch)的概率记作
Figure BDA0003776412940000121
由此可以采用下式(8)计算出T轮次迭代中各轮次迭代的隐私参数均值
Figure BDA0003776412940000122
Figure BDA0003776412940000123
从而利用下式(9)计算出噪声功率
Figure BDA0003776412940000124
Figure BDA0003776412940000125
为了对公式(9)计算出的
Figure BDA0003776412940000126
和公式(7)计算出的μ进行公平的比较,假定DP-SGD方案中训练迭代过程用到的样本总数与引入二次采样后的DP-FP方案用到的样本总数相同,此时,可以设定:
Figure BDA0003776412940000127
另外,设置DP-SGD采用与本步骤中相同的隐私预算和裁剪阈值,此时,可以推算出:
Figure BDA0003776412940000128
通过公式(10)可知,在采样相同数量的样本、相同的隐私预算和裁剪阈值用于模型更新的情况下,DP-FP方案相较DP-SGD方案,针对被加噪的原始向量,每个维度对应的噪声功率缩减至1/M。
如此,引入二次采样后的DP-FP方案,可以进一步减小每个维度对应的噪声功率。
进一步,在隐私保护层中,可以基于确定出的噪声功率对裁剪后的隐层表征进行加噪处理,之后,再利用隐私保护层下游的其他模型层处理加噪表征,得到对应文本处理结果。如此,可以得到上述训练文本子集中各个训练文本对应的文本处理结果。
之后,在步骤S330,基于各个训练文本的文本处理结果和文本标签,训练文本处理模型。具体,利用文本处理结果和文本标签计算训练梯度,再利用训练梯度更新文本处理模型的模型参数。在一个实施例中,可以计算当前的训练文本子集所对应若干训练梯度的梯度均值,从而将文本处理模型的模型参数更新为,利用其减去所述梯度均值与预设学习率(如0.02)之间乘积所得到的差值。
需说明,此处对梯度的计算不涉及差分隐私处理,因此不会引入梯度偏差。同时,在本说明书披露的实施例中,只需要对训练文本子集的平均梯度进行存储即可,而不需要像DP-SGD方案那样单独存储每个训练样本的梯度以进行差分隐私处理,因此,大量节省了存储空间。
综上,采用本说明书实施例披露的基于差分隐私的文本处理模型的训练方法,在训练时的前向传播过程中,对隐层表征进行差分隐私处理,并且,引入二次采样进行DP增强,从而在保证训练数据隐私安全的同时,将引入的噪声量尽可能控制在更小的范围,使得训练出的模型具有优异的预测性能和可用性,并且,还能大幅降低模型训练对存储空间的占用和计算消耗。
根据又一方面的实施例,以上主要对以文本为业务对象的机器学习模型的训练进行介绍。实际,训练方法还可以拓展到以图片、音频等为业务对象的机器学习模型。
图4示出根据一个实施例的基于差分隐私的业务预测模型的训练方法流程示意图,所述方法的执行主体可以为任何具有计算、处理能力的服务器、装置、平台或设备集群等,例如,持有训练样本集的单个数据方。如图4所示,所述方法包括以下步骤:
步骤S410,获取目标训练样本,其中包括对应业务对象的目标对象特征和目标对象标签。在一个实施例中,业务对象为用户,相应,目标对象特征和目标对象标签分别为用户特征和用户分类标签。进一步,在一个具体的实施例中,用户特征可以包括基础属性特征和行为特征。示例性地,基础属性特征可以包括兴趣爱好、居住地、职业等,行为特征可以包括交易特征(如交易频次、交易时间段、交易地址等)、社交活跃度等。在一个具体的实施例中,用户分类标签可以是人群类别标签(如低消费人群或高消费人群)、风险类别标签(如有风险或无风险),等等。
在另一个实施例中,业务对象为商品,相应,目标对象特征和目标对象标签分别为商品特征和商品分类标签。进一步,在一个具体的实施例中,商品特征可以包括产地、销量、成本、售价、上架时间、用户评价等,商品分类标签可以包括热度标签(如爆款商品或滞销商品),口碑标签(如好评商品、中评商品或差评商品),等等。
在又一个实施例中,业务对象为业务事件(或称操作事件),相应,目标对象特征和目标对象标签分别为事件特征和事件类别标签。进一步,在一个具体的实施例中,事件特征可以包括事件发生时刻、事件发生地址(如地理地址或网络地址)、事件参与方等,事件类别标签可以是事件风险类别标签(如高风险事件或低风险事件)等。在一个具体的实施例中,业务事件可以是登录事件、访问事件、注册事件、注销事件等。
另一方面,在一个实施例中,目标训练样本是预先采集的训练样本集中的任一训练样本。相应地,可以依次或随机地从该训练样本集中读取训练样本,作为目标训练样本。在另一个实施例中,考虑到训练所需的多轮迭代过程,在每一迭代轮次中,从本地样本总集中采样出一小批样本(mini-batch),从而依次从该批样本中读取训练文本,作为目标训练文本。
以上,可以获取到目标训练样本,接着,在步骤S420,将该目标训练样本中的目标对象特征输入业务预测模型,该业务预测模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,对相邻的上游隐层输出的目标原始表征进行加噪,得到目标加噪表征,并利用所述隐私保护层下游的模型层处理所述目标加噪表征,得到业务预测结果。
在一个实施例中,上述业务预测模型用于预测所述业务对象的分类或回归值。
需说明,业务预测模型可以基于已有的模型结构,对其增设隐私保护层而实现。具体,已有的模型结构中依次包括输入层、若干隐藏层(或称隐层)和输出层,隐私保护层可以被设置在任意的隐层之后。可以理解,可以根据实际需要对已有模型算法进行选取,例如,业务预测模型可以基于深度神经网络(Deep Neural Networks,简称DNN)或卷积神经网络(Convolutional Neural Networks,简称CNN)等,增设隐私保护层而实现。
在一个实施例中,利用隐私保护层对输入其中的原始表征进行以下隐私保护处理:先基于预设的裁剪阈值,对所述目标原始表征进行裁剪,得到裁剪表征;接着,利用基于该裁剪阈值和预设的总隐私预算确定的高斯分布,确定用于实现差分隐私的目标高斯噪声;之后,在裁剪表征上叠加该目标高斯噪声,得到目标加噪表征。
进一步,在一个具体的实施例中,上述高斯分布以0为均值,以噪声功率为方差;所述方法还包括:基于所述总隐私预算、所述裁剪阈值,以及所述方法涉及的训练迭代总轮次,计算所述噪声功率。更进一步,在一个例子中,先将总隐私预算转换为高斯差分隐私空间中的总隐私参数值,从而在高斯差分隐私空间中,根据总隐私参数值、训练迭代总轮次,确定训练迭代单轮次的目标隐私参数值,之后,根据目标隐私参数值和裁剪阈值,确定所述噪声功率。
另外,对于步骤S420的描述,还可以参见前述实施例中的相关描述,例如,可以简单用词语“样本”替换词语“文本”。
由上,利用业务预测模型处理目标对象特征,可以得到对应的业务预测结果。可以理解,业务预测结果是与业务标签相适应地,例如,业务预测结果指示对应业务对象分属于各个类别的概率。
之后,在步骤S430,基于业务预测结果和目标对象标签,训练所述业务预测模型。具体,利用业务预测结果和目标对象标签计算训练梯度,再利用训练梯度更新业务预测模型的模型参数。另外,对本步骤S430的描述,还可以参见前述对步骤S230的描述。
综上,采用本说明书实施例披露的基于差分隐私的业务预测模型的训练方法,在训练时的前向传播过程中,对隐层表征进行差分隐私处理,将引入的噪声量尽可能控制在较小的范围,进而在保证训练数据隐私安全的同时,使得训练出的模型具有优良的预测性能和可用性,并且,还能大幅降低模型训练对存储空间的占用和计算消耗。
图5示出根据另一个实施例的基于差分隐私的业务预测模型的训练方法流程示意图,所述方法的执行主体可以为任何具有计算、处理能力的服务器、装置、平台或设备集群等,例如,持有训练样本集的单个数据方。
所述方法包括T个阶段的训练,各个阶段包括M轮次的迭代更新,其中任一轮次的迭代更新包括图5中示出的以下步骤:
步骤S510,对当前阶段对应批次的训练样本进行采样,得到当前轮次的训练样本子集,其中各个训练样本包括对应业务对象的对象特征和对象标签。需说明,对步骤S510的描述可以参见前述实施例中的相关描述,例如,得到训练样本子集的方式可以参见前述得到训练文本子集的方式,对业务对象的相关描述可以参见前述步骤S410中的相关描述。
步骤S520,针对所述各个训练样本,将其对象特征输入业务预测模型,所述业务预测模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,基于预设的总隐私预算和轮次数目M对相邻的上游隐层输出的原始表征进行加噪,得到加噪表征,并利用所述隐私保护层下游的模型层处理所述加噪表征,得到业务预测结果。
需说明,对步骤S520的描述,可以参见前述实施例中的相关描述,例如,在参见对步骤S320的描述时,可以简单用词语“样本”替换词语“文本”。
步骤S530,基于业务预测结果和对应的对象标签,训练所述业务预测模型。
需说明,对步骤S530的描述,可以参见前述实施例中的相关描述例如,在参见对步骤S330的描述时,可以简单用词语“样本”替换词语“文本”。
综上,采用本说明书实施例披露的基于差分隐私的业务预测模型的训练方法,在训练时的前向传播过程中,对隐层表征进行差分隐私处理,并且,引入二次采样进行DP增强,从而在保证训练数据隐私安全的同时,将引入的噪声量尽可能控制在更小的范围,使得训练出的模型具有优异的预测性能和可用性,并且,还能大幅降低模型训练对存储空间的占用和计算消耗。
与上述训练方法相对应地,本说明书实施例还披露训练装置。图6示出根据一个实施例的基于差分隐私的文本处理模型的训练装置结构示意图,所述装置600可以集成在任何具有计算、处理能力的装置、服务器、平台或设备集群等,例如,可以集成在持有本地训练数据集的独立数据方。如图6所示,所述装置600包括以下单元:
文本处理单元610,配置为将目标训练文本输入文本处理模型,所述文本处理模型中设置有隐私保护层。所述文本处理单元610包括:隐层表征确定子单元611,配置为利用位于隐私保护层上游的模型层处理目标训练文本,得到与隐私保护层向量的上游隐层输出的目标原始表征;隐私处理子单元612,配置为利用隐私保护层以差分隐私的方式,对目标原始表征进行加噪,得到目标加噪表征;结果确定子单元613,配置为利用所述隐私保护层下游的模型层处理所述目标加噪表征,得到文本处理结果。模型训练单元620,配置为基于所述文本处理结果和对应的文本标签,训练所述文本处理模型。
在一个实施例中,隐私处理子单元612具体配置为:基于预设的裁剪阈值,对所述目标原始表征进行裁剪,得到目标裁剪表征;利用基于所述裁剪阈值和预设的隐私预算确定的高斯分布,确定用于实现差分隐私的高斯噪声;在所述目标裁剪表征上叠加所述高斯噪声,得到所述目标加噪表征。
在一个实施例中,所述高斯分布以0为均值,以噪声功率为方差;所述隐私预算为总隐私预算;所述隐私处理子单元612还配置为:基于所述总隐私预算、所述裁剪阈值,以及所述方法涉及的训练迭代总轮次,计算所述噪声功率。
在一个具体的实施例中,所述隐私处理子单元612进一步配置为:将所述总隐私预算转换为高斯差分隐私空间中的总隐私参数值;在所述高斯差分隐私空间中,根据所述总隐私参数值、所述训练迭代总轮次,确定训练迭代单轮次的目标隐私参数值;根据所述目标隐私参数值和所述裁剪阈值,确定所述噪声功率。
图7示出根据另一个实施例的基于差分隐私的文本处理模型的训练装置结构示意图,所述装置700可以集成在任何具有计算、处理能力的装置、服务器、平台或设备集群等,例如,可以集成在持有本地训练数据集的独立数据方。
所述训练涉及T个阶段,各个阶段包括M轮次的迭代更新,其中任一轮次的迭代更新通过所述装置700包含的以下单元执行:
采样单元710,配置为对当前阶段对应批次的训练文本进行采样,得到当前轮次的训练文本子集。文本处理单元720,配置为针对所述训练文本子集中的各个训练文本,将其输入文本处理模型,所述文本处理模型中设置有隐私保护层;所述文本处理单元720包括:隐层表征确定子单元721,配置为利用位于隐私保护层上游的模型层处理目标训练文本,得到与隐私保护层向量的上游隐层输出的目标原始表征;隐私处理子单元722,配置为利用隐私保护层以差分隐私的方式,对目标原始表征进行加噪,得到目标加噪表征;结果确定子单元723,配置为利用所述隐私保护层下游的模型层处理所述目标加噪表征,得到文本处理结果。模型训练单元730,配置为基于所述文本处理结果和对应的文本标签,训练所述文本处理模型。
在一个实施例中,隐私处理子单元722具体配置为:基于预设的裁剪阈值,对所述原始表征进行裁剪,得到裁剪表征;利用基于所述裁剪阈值、所述总隐私预算和轮次数目M确定的高斯分布,确定用于实现差分隐私的高斯噪声;在所述裁剪表征上叠加所述高斯噪声,得到所述加噪表征。
在一个实施例中,所述高斯分布以0为均值,以噪声功率为方差;所述隐私处理子单元722还配置为:基于所述总隐私预算、所述裁剪阈值、阶段数目T和轮次数目M,计算所述噪声功率。
在一个具体的实施例中,所述隐私处理子单元722进一步配置为:将所述总隐私预算转换为高斯差分隐私空间中的总隐私参数值;在所述高斯差分隐私空间中,根据所述总隐私参数值、阶段数目T和轮次数目M,确定训练迭代单轮次的目标隐私参数值;根据所述目标隐私参数值,所述裁剪阈值,确定所述噪声功率。
在一个实施例中,模型训练单元730配置为:基于所述文本处理结果和对应的文本标签,确定对应的训练梯度;计算所述训练文本子集对应的若干训练梯度的梯度均值;将所述文本处理模型的模型参数更新为,利用其减去所述梯度均值与预设学习率之间乘积所得到的差值。
图8示出根据一个实施例的基于差分隐私的业务预测模型的训练装置结构示意图,所述装置800可以集成在任何具有计算、处理能力的装置、服务器、平台或设备集群等,例如,可以集成在持有本地训练数据集的独立数据方。如图8所示,所述装置800包括以下单元:
样本获取单元810,配置为获取目标训练样本,其中包括对应业务对象的目标对象特征和目标对象标签。样本预测单元820,配置为将所述目标对象特征输入业务预测模型,所述业务预测模型中设置有隐私保护层;所述样本预测单元820包括:隐层表征确定子单元821,配置为利用位于隐私保护层上游的模型层处理目标对象特征,得到与隐私保护层向量的上游隐层输出的目标原始表征;隐私处理子单元822,配置为利用隐私保护层以差分隐私的方式,对目标原始表征进行加噪,得到目标加噪表征;结果确定子单元823,配置为利用所述隐私保护层下游的模型层处理所述目标加噪表征,得到业务预测结果。模型训练单元830,配置为基于所述业务预测结果和目标对象标签,训练所述业务预测模型。
在一个实施例中,隐私处理子单元822具体配置为:基于预设的裁剪阈值,对所述目标原始表征进行裁剪,得到目标裁剪表征;利用基于所述裁剪阈值和预设的隐私预算确定的高斯分布,确定用于实现差分隐私的高斯噪声;在所述目标裁剪表征上叠加所述高斯噪声,得到所述目标加噪表征。
在一个实施例中,所述高斯分布以0为均值,以噪声功率为方差;所述隐私预算为总隐私预算;所述隐私处理子单元822还配置为:基于所述总隐私预算、所述裁剪阈值,以及所述方法涉及的训练迭代总轮次,计算所述噪声功率。
在一个具体的实施例中,所述隐私处理子单元822进一步配置为:将所述总隐私预算转换为高斯差分隐私空间中的总隐私参数值;在所述高斯差分隐私空间中,根据所述总隐私参数值、所述训练迭代总轮次,确定训练迭代单轮次的目标隐私参数值;根据所述目标隐私参数值和所述裁剪阈值,确定所述噪声功率。
图9示出根据另一个实施例的基于差分隐私的业务预测模型的训练装置结构示意图,所述装置900可以集成在任何具有计算、处理能力的装置、服务器、平台或设备集群等,例如,可以集成在持有本地训练样本集的独立数据方。
所述训练涉及T个阶段,各个阶段包括M轮次的迭代更新,其中任一轮次的迭代更新通过所述装置900包含的以下单元执行:
采样单元910,配置为对当前阶段对应批次的训练样本进行采样,得到当前轮次的训练样本子集,其中各个训练样本包括对应业务对象的对象特征和对象标签。样本处理单元920,配置为针对所述训练样本子集中的各个训练样本,将其对象特征输入业务预测模型,所述业务预测模型中设置有隐私保护层;所述样本处理单元920包括:隐层表征确定子单元921,配置为利用位于隐私保护层上游的模型层处理该训练样本,得到与隐私保护层向量的上游隐层输出的原始表征;隐私处理子单元922,配置为利用隐私保护层以差分隐私的方式,对原始表征进行加噪,得到加噪表征;结果确定子单元923,配置为利用所述隐私保护层下游的模型层处理所述加噪表征,得到业务预测结果。模型训练单元930,配置为基于所述业务预测结果和对应的对象标签,训练所述业务预测模型。
在一个实施例中,隐私处理子单元922具体配置为:基于预设的裁剪阈值,对所述原始表征进行裁剪,得到裁剪表征;利用基于所述裁剪阈值、所述总隐私预算和轮次数目M确定的高斯分布,确定用于实现差分隐私的高斯噪声;在所述裁剪表征上叠加所述高斯噪声,得到所述加噪表征。
在一个实施例中,所述高斯分布以0为均值,以噪声功率为方差;所述隐私处理子单元922还配置为:基于所述总隐私预算、所述裁剪阈值、阶段数目T和轮次数目M,计算所述噪声功率。
在一个具体的实施例中,所述隐私处理子单元922进一步配置为:将所述总隐私预算转换为高斯差分隐私空间中的总隐私参数值;在所述高斯差分隐私空间中,根据所述总隐私参数值、阶段数目T和轮次数目M,确定训练迭代单轮次的目标隐私参数值;根据所述目标隐私参数值,所述裁剪阈值,确定所述噪声功率。
在一个实施例中,模型训练单元930配置为:基于所述样本处理结果和对应的样本标签,确定对应的训练梯度;计算所述训练样本子集对应的若干训练梯度的梯度均值;将所述样本处理模型的模型参数更新为,利用其减去所述梯度均值与预设学习率之间乘积所得到的差值。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2或图3或图4所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,该存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2或图3或图4所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (19)

1.一种基于差分隐私的文本处理模型的训练方法,包括:
将目标训练文本输入文本处理模型,所述文本处理模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,对相邻的上游隐层输出的目标原始表征进行加噪,得到目标加噪表征,并利用所述隐私保护层下游的模型层处理所述目标加噪表征,得到文本处理结果;
基于所述文本处理结果和对应的文本标签,训练所述文本处理模型。
2.根据权利要求1所述的方法,其中,利用所述隐私保护层以差分隐私的方式,对相邻的上游隐层所输出的目标原始表征进行加噪,得到目标加噪表征,包括:
基于预设的裁剪阈值,对所述目标原始表征进行裁剪,得到目标裁剪表征;
利用基于所述裁剪阈值和预设的隐私预算确定的高斯分布,确定用于实现差分隐私的高斯噪声;
在所述目标裁剪表征上叠加所述高斯噪声,得到所述目标加噪表征。
3.根据权利要求2所述的方法,其中,所述高斯分布以0为均值,以噪声功率为方差;所述隐私预算为总隐私预算;所述方法还包括:
基于所述总隐私预算、所述裁剪阈值,以及所述方法涉及的训练迭代总轮次,计算所述噪声功率。
4.根据权利要求3所述的方法,其中,计算所述噪声功率,包括:
将所述总隐私预算转换为高斯差分隐私空间中的总隐私参数值;
在所述高斯差分隐私空间中,根据所述总隐私参数值、所述训练迭代总轮次,确定训练迭代单轮次的目标隐私参数值;
根据所述目标隐私参数值和所述裁剪阈值,确定所述噪声功率。
5.一种基于差分隐私的文本处理模型的训练方法,包括T个阶段的训练,各个阶段包括M轮次的迭代更新,其中任一轮次的迭代更新包括:
对当前阶段对应批次的训练文本进行采样,得到当前轮次的训练文本子集;
针对所述训练文本子集中的各个训练文本,将其输入文本处理模型,所述文本处理模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,基于预设的总隐私预算和轮次数目M对相邻的上游隐层输出的原始表征进行加噪,得到加噪表征,并利用所述隐私保护层下游的模型层处理所述加噪表征,得到文本处理结果;
基于所述文本处理结果和对应的文本标签,训练所述文本处理模型。
6.根据权利要求5所述的方法,其中,利用所述隐私保护层以差分隐私的方式,基于预设的总隐私预算和轮次数目M对相邻的上游隐层输出的原始表征进行加噪,得到加噪表征,包括:
基于预设的裁剪阈值,对所述原始表征进行裁剪,得到裁剪表征;
利用基于所述裁剪阈值、所述总隐私预算和轮次数目M确定的高斯分布,确定用于实现差分隐私的高斯噪声;
在所述裁剪表征上叠加所述高斯噪声,得到所述加噪表征。
7.根据权利要求6所述的方法,其中,所述高斯分布以0为均值,以噪声功率为方差;所述方法还包括:
基于所述总隐私预算、所述裁剪阈值、阶段数目T和轮次数目M,计算所述噪声功率。
8.根据权利要求7所述的方法,其中,计算所述噪声功率,包括:
将所述总隐私预算转换为高斯差分隐私空间中的总隐私参数值;
在所述高斯差分隐私空间中,根据所述总隐私参数值、阶段数目T和轮次数目M,确定训练迭代单轮次的目标隐私参数值;
根据所述目标隐私参数值,所述裁剪阈值,确定所述噪声功率。
9.根据权利要求5所述的方法,其中,基于所述文本处理结果和对应的文本标签,训练所述文本处理模型,包括:
基于所述文本处理结果和对应的文本标签,确定对应的训练梯度;
计算所述训练文本子集对应的若干训练梯度的梯度均值;
将所述文本处理模型的模型参数更新为,利用其减去所述梯度均值与预设学习率之间乘积所得到的差值。
10.一种基于差分隐私的业务预测模型的训练方法,包括:
获取目标训练样本,其中包括对应业务对象的目标对象特征和目标对象标签;
将所述目标对象特征输入业务预测模型,所述业务预测模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,对相邻的上游隐层输出的目标原始表征进行加噪,得到目标加噪表征,并利用所述隐私保护层下游的模型层处理所述目标加噪表征,得到业务预测结果;
基于所述业务预测结果和所述目标对象标签,训练所述业务预测模型。
11.根据权利要求10所述的方法,其中,所述业务对象为用户、商品或业务事件,所述业务预测模型用于预测所述业务对象的分类或回归值。
12.一种基于差分隐私的业务预测模型的训练方法,包括T个阶段的训练,各个阶段包括M轮次的迭代更新,其中任一轮次的迭代更新包括:
对当前阶段对应批次的训练样本进行采样,得到当前轮次的训练样本子集,其中各个训练样本包括对应业务对象的对象特征和对象标签;
针对所述各个训练样本,将其对象特征输入业务预测模型,所述业务预测模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,基于预设的总隐私预算和轮次数目M对相邻的上游隐层输出的原始表征进行加噪,得到加噪表征,并利用所述隐私保护层下游的模型层处理所述加噪表征,得到业务预测结果;
基于所述业务预测结果和对应的对象标签,训练所述业务预测模型。
13.根据权利要求12所述的方法,其中,所述业务对象为用户、商品或业务事件,所述业务预测模型用于预测所述业务对象的分类或回归值。
14.一种基于差分隐私的文本处理模型的训练装置,包括:
文本处理单元,配置为将目标训练文本输入文本处理模型,所述文本处理模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,对相邻的上游隐层输出的目标原始表征进行加噪,得到目标加噪表征,并利用所述隐私保护层下游的模型层处理所述目标加噪表征,得到文本处理结果;
模型训练单元,配置为基于所述文本处理结果和对应的文本标签,训练所述文本处理模型。
15.一种基于差分隐私的文本处理模型的训练装置,训练涉及T个阶段,各个阶段包括M轮次的迭代更新,其中任一轮次的迭代更新通过所述装置包含的以下单元执行:
采样单元,配置为对当前阶段对应批次的训练文本进行采样,得到当前轮次的训练文本子集;
文本处理单元,配置为针对所述训练文本子集中的各个训练文本,将其输入文本处理模型,所述文本处理模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,基于预设的总隐私预算和轮次数目M对相邻的上游隐层输出的原始表征进行加噪,得到加噪表征,并利用所述隐私保护层下游的模型层处理所述加噪表征,得到文本处理结果;
模型训练单元,配置为基于所述文本处理结果和对应的文本标签,训练所述文本处理模型。
16.一种基于差分隐私的业务预测模型的训练装置,包括:
样本获取单元,配置为获取目标训练样本,其中包括对应业务对象的目标对象特征和目标对象标签;
样本预测单元,配置为将所述目标对象特征输入业务预测模型,所述业务预测模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,对相邻的上游隐层输出的目标原始表征进行加噪,得到目标加噪表征,并利用所述隐私保护层下游的模型层处理所述目标加噪表征,得到业务预测结果;
模型训练单元,配置为基于所述业务预测结果和所述目标对象标签,训练所述业务预测模型。
17.一种基于差分隐私的业务预测模型的训练装置,训练涉及括T个阶段,各个阶段包括M轮次的迭代更新,其中任一轮次的迭代更新通过所述装置包含的以下单元执行:
采样单元,配置为对当前阶段对应批次的训练样本进行采样,得到当前轮次的训练样本子集,其中各个训练样本包括对应业务对象的对象特征和对象标签;
样本处理单元,配置为针对所述各个训练样本,将其对象特征输入业务预测模型,所述业务预测模型中设置有隐私保护层;其中,利用所述隐私保护层以差分隐私的方式,基于预设的总隐私预算和轮次数目M对相邻的上游隐层输出的原始表征进行加噪,得到加噪表征,并利用所述隐私保护层下游的模型层处理所述加噪表征,得到业务预测结果;
模型训练单元,配置为基于所述业务预测结果和对应的对象标签,训练所述业务预测模型。
18.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-13中任一项所述的方法。
19.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-13中任一项所述的方法。
CN202210917682.7A 2022-08-01 2022-08-01 基于差分隐私的文本处理模型的训练方法及装置 Pending CN115345293A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210917682.7A CN115345293A (zh) 2022-08-01 2022-08-01 基于差分隐私的文本处理模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210917682.7A CN115345293A (zh) 2022-08-01 2022-08-01 基于差分隐私的文本处理模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN115345293A true CN115345293A (zh) 2022-11-15

Family

ID=83949333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210917682.7A Pending CN115345293A (zh) 2022-08-01 2022-08-01 基于差分隐私的文本处理模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN115345293A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544580A (zh) * 2022-11-29 2022-12-30 支付宝(杭州)信息技术有限公司 保护数据隐私的两方联合训练预测模型的方法及装置
CN117056979A (zh) * 2023-10-11 2023-11-14 杭州金智塔科技有限公司 基于用户隐私数据的业务处理模型更新方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544580A (zh) * 2022-11-29 2022-12-30 支付宝(杭州)信息技术有限公司 保护数据隐私的两方联合训练预测模型的方法及装置
CN115544580B (zh) * 2022-11-29 2023-04-07 支付宝(杭州)信息技术有限公司 保护数据隐私的两方联合训练预测模型的方法及装置
CN117056979A (zh) * 2023-10-11 2023-11-14 杭州金智塔科技有限公司 基于用户隐私数据的业务处理模型更新方法及装置
CN117056979B (zh) * 2023-10-11 2024-03-29 杭州金智塔科技有限公司 基于用户隐私数据的业务处理模型更新方法及装置

Similar Documents

Publication Publication Date Title
Paisley et al. Bayesian Nonnegative Matrix Factorization with Stochastic Variational Inference.
EP3401828B1 (en) Information processing device, information processing system, information processing method and program
CN115345293A (zh) 基于差分隐私的文本处理模型的训练方法及装置
Schein et al. Locally private bayesian inference for count models
CN112214499B (zh) 图数据处理方法、装置、计算机设备和存储介质
CN110008402B (zh) 一种基于社交网络的去中心化矩阵分解的兴趣点推荐方法
Li Linear operator‐based statistical analysis: A useful paradigm for big data
CN110969243A (zh) 防止隐私泄漏的对抗生成网络的训练方法及装置
Nasri et al. Goodness‐of‐fit for regime‐switching copula models with application to option pricing
Dette et al. Testing non‐parametric hypotheses for stationary processes by estimating minimal distances
CN117349899B (zh) 基于遗忘模型的敏感数据处理方法、系统及存储介质
Jensen Bayesian networks
El-Sagheer et al. Asymmetric randomly censored mortality distribution: Bayesian framework and parametric bootstrap with application to COVID‐19 data
Zhao Statistical inference for missing data mechanisms
Krohn et al. Modelling online comment threads from their start
Bienvenüe et al. Likelihood inference for multivariate extreme value distributions whose spectral vectors have known conditional distributions
Yau et al. Likelihood inference for discriminating between long‐memory and change‐point models
Khan et al. A comparison of Autometrics and penalization techniques under various error distributions: evidence from Monte Carlo simulation
CN114548300B (zh) 解释业务处理模型的业务处理结果的方法和装置
De Luna et al. Choosing a model selection strategy
Okkalioglu et al. Reconstructing rated items from perturbed data
Zhu et al. A hybrid model for nonlinear regression with missing data using quasilinear kernel
Opoku et al. Multipopulation spin models: a view from large deviations theoretic window
Zeigler Constructing and evaluating multi-resolution model pairs: an attrition modeling example
He et al. An incremental kernel density estimator for data stream computation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination