CN111400754B

CN111400754B - 保护用户隐私的用户分类系统的构建方法及装置

Info

Publication number: CN111400754B
Application number: CN202010174719.2A
Authority: CN
Inventors: 熊涛
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2021-10-01
Anticipated expiration: 2040-03-11
Also published as: CN111400754A; WO2021179839A1

Abstract

本说明书实施例提供一种保护用户隐私的用户分类系统的构建方法。该方法包括：先将包括原始敏感数据的原始用户数据输入基于差分隐私的特征编码器中，得到对应的特征表示；然后，一方面，将该特征表示输入用户分类器中，得到分类结果，并结合该原始用户数据对应的分类标签，确定第一损失，用于训练该用户分类器，另一方面，将该特征表示输入第一解码器中，得到模拟该原始敏感数据的复原敏感数据，并基于该复原敏感数据和该原始敏感数据，确定第二损失，以及以最小化该第二损失为目标，训练该第一解码器；接着，以最小化该第一损失以及最大化该第二损失为目标，训练该特征编码器；最后将训练后的该特征编码器和该用户分类器，构建为该用户分类系统。

Description

保护用户隐私的用户分类系统的构建方法及装置

技术领域

本说明书实施例涉及计算机技术领域，具体地，涉及一种保护用户隐私的用户分类系统的构建方法及装置。

背景技术

随着机器学习技术的兴起，该领域中出现的保护用户隐私安全的问题和机器学习的公平性问题，已成为研究热点。具体地，在互联网大数据时代，利用大数据建立机器学习模型，已成为各行各业的需求常态，而建模过程中存在泄漏用户隐私的风险，因此，如何保护用户隐私数据的安全成为亟待解决的问题。另外，因机器学习需要依靠大量数据，而这些数据中通常是存在偏差的，因此会导致机器学习会出现不公平的情况，比如说，从网站上爬取的多张穿裙子的人像图片，其中的人物可能绝大多数是女性，而在仅需对图片中的服饰是否为裙子进行分类的场景下，即使图片中人物所穿的是裙子，但因该人物是男性，而会被分类为不是裙子。

然而，目前尚未发现有方案，可以同时兼顾上述两个问题。因此，迫切需要一种方案，可以同时实现保护用户隐私安全和保证机器学习的公平性。

发明内容

本说明书中的一个或多个实施例提供一种保护用户隐私的用户分类系统的构建方法及装置，可实现既保护用户隐私安全又保证机器学习的公平性。

第一方面，提供一种保护用户隐私的用户分类系统的构建方法，该方法包括：将原始用户数据输入基于差分隐私的特征编码器中，得到对应的特征表示，所述原始用户数据中包括对应于预设敏感项的原始敏感数据；将所述特征表示输入用户分类器中，得到用户分类预测结果；基于所述用户分类预测结果和所述原始用户数据对应的分类标签，确定第一损失；以最小化所述第一损失为目标，训练所述用户分类器；将所述特征表示输入第一解码器中，得到模拟所述原始敏感数据的复原敏感数据；基于所述复原敏感数据和所述原始敏感数据，确定第二损失；以最小化所述第一损失以及最大化所述第二损失为目标，训练所述特征编码器；以最小化所述第二损失为目标，训练所述第一解码器；将训练后的所述特征编码器和所述用户分类器，构建为所述用户分类系统。

在一个实施例中，在将原始用户数据输入基于差分隐私的特征编码器中，得到特征表示之后，所述方法还包括：将所述特征表示输入第二解码器中，得到模拟所述原始用户数据的复原用户数据；基于所述复原用户数据和所述原始用户数据，确定第三损失；以最小化所述第三损失为目标，训练所述第二解码器；其中，以最小化所述第一损失以及最大化所述第二损失为目标，训练所述特征编码器，包括：以最小化所述第一损失，最小化所述第三损失，以及最大化所述第二损失为目标，训练所述特征编码器。

在一个实施例中，基于所述复原敏感数据和所述原始敏感数据，确定第二损失，包括：确定所述复原敏感数据和原始敏感数据之间的互信息，作为所述第二损失。

在一个实施例中，以最小化所述第一损失以及最大化所述第二损失为目标，训练所述特征编码器，包括：确定综合损失对应的原始梯度，所述综合损失与所述第一损失正相关，且与所述第二损失负相关；对所述原始梯度添加用于实现所述差分隐私的噪声，得到添加后梯度；利用所述添加后梯度，调整所述特征编码器的模型参数。

在一个实施例中，在确定综合损失对应的原始梯度之后，所述方法还包括：基于预设的裁剪阈值，对所述原始梯度进行梯度裁剪，得到裁剪后梯度；其中，对所述原始梯度进行噪声添加处理，得到处理后梯度，包括：基于所述裁剪阈值和预定的噪声缩放系数，确定用于实现所述差分隐私的高斯噪声；计算所述裁剪后梯度与所述高斯噪声的和值，作为所述添加后梯度。

在一个实施例中，所述分类标签指示对应用户的风险等级，或用户所属的人群，或用户的信用等级。

第二方面，提供一种保护用户隐私的用户分类系统的构建装置，包括：特征编码单元，配置为将原始用户数据输入基于差分隐私的特征编码器中，得到对应的特征表示，所述原始用户数据中包括对应于预设敏感项的原始敏感数据；分类预测单元，配置为将所述特征表示输入用户分类器中，得到用户分类预测结果；第一损失确定单元，配置为基于所述用户分类预测结果和所述原始用户数据对应的分类标签，确定第一损失；分类器训练单元，配置为以最小化所述第一损失为目标，训练所述用户分类器；第一解码单元，配置为将所述特征表示输入第一解码器中，得到模拟所述原始敏感数据的复原敏感数据；第二损失确定单元，配置为基于所述复原敏感数据和所述原始敏感数据，确定第二损失；编码器训练单元，配置为以最小化所述第一损失以及最大化所述第二损失为目标，训练所述特征编码器；第一解码器训练单元，配置为以最小化所述第二损失为目标，训练所述第一解码器；分类系统构建单元，配置为将训练后的所述特征编码器和所述用户分类器，构建为所述用户分类系统。

第三方面，提供一种保护数据隐私安全的机器学习系统的构建方法，包括：将原始样本数据输入基于差分隐私的特征编码器中，得到对应的特征表示，所述原始样本数据中包括对应于预设敏感项的原始敏感数据；将所述特征表示输入用于执行目标任务的预测模型中，得到预测结果；基于所述预测结果和所述原始样本数据对应的样本标签，确定第一损失；以最小化所述第一损失为目标，训练所述预测模型；将所述特征表示输入第一解码器中，得到模拟所述原始敏感数据的复原敏感数据；基于所述复原敏感数据和所述原始敏感数据，确定第二损失；以最小化所述第一损失以及最大化所述第二损失为目标，训练所述特征编码器；以最小化所述第二损失为目标，训练所述第一解码器；将训练后的所述特征编码器和所述预测模型，构建为执行所述目标任务的所述机器学习系统。

在一个实施例中，所述目标任务包括针对目标对象的分类或评分，所述目标对象包括用户或商品。

第四方面，提供一种保护数据隐私安全的机器学习系统的构建装置，包括：特征编码单元，配置为将原始样本数据输入基于差分隐私的特征编码器中，得到对应的特征表示，所述原始样本数据中包括对应于预设敏感项的原始敏感数据；预测单元，配置为将所述特征表示输入用于执行目标任务的预测模型中，得到预测结果；第一损失确定单元，配置为基于所述预测结果和所述原始样本数据对应的样本标签，确定第一损失；预测模型训练单元，配置为以最小化所述第一损失为目标，训练所述预测模型；第一解码单元，配置为将所述特征表示输入第一解码器中，得到模拟所述原始敏感数据的复原敏感数据；第二损失确定单元，配置为基于所述复原敏感数据和所述原始敏感数据，确定第二损失；编码器训练单元，配置为以最小化所述第一损失以及最大化所述第二损失为目标，训练所述特征编码器；系统构建单元，配置为以最小化所述第二损失为目标，训练所述第一解码器；系统构建单元，配置为将训练后的所述特征编码器和所述预测模型，构建为执行所述目标任务的所述机器学习系统。

第五方面，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第三方面中提供的方法。

第六方面，提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面或第三方面中提供的方法。

综上，在本说明是实施例披露的构建方法中，利用引入差分隐私的特征编码器，得到具有差分隐私特性的特征表示，使得以特征表示作为输入的用户分类器同样可以保持差分隐私特性，从而实现对用户数据的隐私安全的保护；同时，引入第一解码器与特征编码器进行对抗学习，使得特征表示中可以最大程度上去除用户数据中包含的敏感数据的影响，进而保障预测分类结果的公平性。由此，使用通过所述方法构建的用户分类系统，可以同时实现保护用户数据的隐私安全，以及保障用户分类预测结果的公平性。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出本说明书实施例披露的一种算法框架的结构示意图；

图2示出本说明书实施例披露的保护用户隐私的用户分类系统的构建方法流程示意图；

图3示出本说明书实施例披露的另一种算法框架的结构示意图；

图4示出的根据一个实施例的用户分类系统的结构示意图；

图5示出本说明书实施例披露的保护用户隐私的用户分类系统的构建装置结构图；

图6示出本说明书实施例披露的保护数据隐私安全的机器学习系统的构建方法流程示意图；

图7示出本说明书实施例披露的保护数据隐私安全的机器学习系统的构建装置结构图。

具体实施方式

下面结合附图，对本说明书披露的多个实施例进行描述。

如前所述，一方面，在互联网大数据建模分析需求下，如何保护用户的隐私是非常重要的问题。在该背景下，差分隐私技术得到越来越多的应用。差分隐私是一种对数据隐私安全性的形式化定义，其保证在对全部数据进行建模分析的同时并不泄露个体单条数据的信息。差分隐私的实现，是大数据建模分析需求之下，对于个体隐私安全性的极为合理的保证。

另一方面，机器学习中存在不公平的问题。在许多场景下，是因为模型的训练样本(例如，前述中穿裙子的图片)的样本分布存在偏差，导致样本中的一些敏感属性(如，前述中的男女性别)使得预测结果存在不公平的情况。进一步地，想要获得具有理想样本分布(如不存在偏差或偏差很小)的样本集，往往是十分困难的，因此，希望通过削弱其中敏感属性对预测结果的影响，从而提高机器学习中的公平性。

基于以上观察和分析，为兼顾上述两个十分重要的问题，发明人提出通过引入差分隐私和对抗学习的思想，设计一种算法框架，同时实现保护用户隐私和保证机器学习的公平性。

在一个实施例中，图1示出本说明书实施例披露的一种算法框架的结构示意图，如图1所示，其中特征编码器用于对原始用户数据x进行特征编码，得到特征表示z。需要理解，因为特征编码器是基于差分隐私技术实现的，所以得到的特征表示z具有差分隐私的特性，由此任何使用特征表示z的机器学习模型(包括图1中的用户分类器)都会保持差分隐私特性，从而保证原始用户数据x不会被泄漏，从而实现对用户隐私安全的保护。进一步地，在得到特征表示z以后，一方面，将其输入用户分类器中，得到预测分类结果y，另一方面，将其输入用于复原用户数据中原始敏感数据s的第一解码器中，得到复原敏感数据s’。需要说明，为了削弱原始敏感数据s对预测分类结果y的影响，让第一解码器和特征编码器进行对抗，具体地，第一解码器的目标任务为恢复敏感数据s，而特征编码器的目标任务包括使得第一解码器难以恢复敏感数据s，如此实现特征表示z中最大程度上去除敏感数据s的影响，进而保障预测分类结果y的公平性。基于以上算法框架，对特征编码器、用户分类器和第一解码器进行训练后，可以利用其中训练后的特征编码器和用户分类器构建用户分类系统，如此得到的用户分类系统，可以同时实现保护用户数据的隐私安全，以及保障用户分类预测结果的公平性。

基于发明人设计的上述算法框架，本说明书实施例披露一种保护用户隐私的用户分类系统的构建方法，下面结合具体的实施例，描述所述构建方法的实施步骤。

图2示出本说明书实施例披露的保护用户隐私的用户分类系统的构建方法流程示意图，所述构建方法的执行主体可以为任何具有计算、处理能力的装置或设备或系统或平台等。如图2所示，所述方法可以包括以下步骤：

步骤S202，将原始用户数据输入基于差分隐私的特征编码器中，得到对应的特征表示，所述原始用户数据中包括对应于预设敏感项的原始敏感数据；步骤S204，将所述特征表示输入用户分类器中，得到用户分类预测结果；步骤S206，基于所述用户分类预测结果和所述原始用户数据对应的分类标签，确定第一损失；步骤S208，以最小化所述第一损失为目标，训练所述用户分类器；步骤S210，将所述特征表示输入第一解码器中，得到模拟所述原始敏感数据的复原敏感数据；步骤S212，基于所述复原敏感数据和所述原始敏感数据，确定第二损失；步骤S214，以最小化所述第一损失以及最大化所述第二损失为目标，训练所述特征编码器；步骤S216，以最小化所述第二损失为目标，训练所述第一解码器；步骤S218，将训练后的所述特征编码器和所述用户分类器，构建为所述用户分类系统。

需要说明的是，上述步骤中提及的第一损失和第一解码器中的“第一”，以及后续提到的“第一”、“第二”等类似用语，仅用于区分同类事物，不具有其他限定作用。

以上步骤具体如下：

首先，在步骤S202，将原始用户数据输入基于差分隐私的特征编码器中，得到对应的特征表示，所述原始用户数据中包括对应于预设敏感项的原始敏感数据。

需要说明，由用户产生的数据，都可以看作是用户的隐私数据，用户希望其隐私数据在使用过程中不被泄漏，也就是用户隐私的安全得到保障。据此，在使用上述原始用户数据的过程中，同样希望保障这部分数据的安全。

具体地，上述原始用户数据可以由工作人员根据机器学习的目标任务，通过多种渠道采集而得到。在一个实施例中，其中目标任务可以为识别欺诈用户、用户进行所属群组的划分、或评估用户的信用等级，等等。在一个实施例中，其中多种渠道可以包括，从系统后台或系统数据库中采集、利用网络爬虫从网站中爬取、发放调查问卷、在应用程序APP中埋点采集，等等。

在一个实施例中，上述原始用户数据对应的数据条数，取决于设定的一次训练所选取的样本数(如1或10等等)。在一个实施例中，原始用户数据中可以包括用户的基础属性特征和用户的业务特征。在一个具体的实施例中，其中基础属性特征可以包括用户的性别、年龄、职业、收入、政治面貌、民族、肤色、健康状况和教育程度等。在一个具体的实施例中，其中业务特征可以包括操作行为方面的特征，例如最近一次操作的类型、操作的页面和停留的时间等等。在另一个具体的实施例中，其中业务特征还可以包括金融资产方面的特征，例如余额宝余额、近期消费次数和消费金额等等。在又一个具体的实施例中，其中业务特征还可以包括信用记录方面的特征，例如借款次数、借款金额和还款金额等等。在还一个具体的实施例中，其中业务特征还可以包括社交方面的特征，例如好友数目、与好友的沟通频次、沟通时间段、沟通平台类别等等。

进一步地，上述原始用户数据中包括对应于预设敏感项的原始敏感数据。其中预设敏感项，是由工作人员结合上述机器学习的目标任务，对采集的大量原始用户数据进行分析而确定的。

在一个实施例中，假定目标任务是确定用户是否会买裙子，鉴于收集到的交易样本中，大部分用户的性别是女性，而女性群体中购买裙子的比例较高，这使得机器学习模型很可能会给予性别过高的权重，由此可以将性别设定为用户数据中的敏感项。在另一个实施例中，假定目标任务是确定用户皮肤是否发生癌变，鉴于收集到的皮肤数据样本中，大部分是浅色皮肤，这就很可能导致训练出的模型在应用于对深色皮肤进行癌变分类时，分类效果不佳，由此可以将肤色确定为敏感项。在还一个实施例中，假定目标任务是确定是否提供给用户免押金的权益，鉴于收集到的负样本(标签为不提供)中，用户大部分是来自南部地区的，这使得训练出的模型可能会给予地区过高的权重，而使得后续模型的使用过程中，南部地区的用户难以享受到免押金的权益，由此可以将地区设定为用户数据中的敏感项。如此，可以完成针对采集的原始用户数据中敏感项的预先设定，并且，预先设定的敏感项可以为一项或多项。

另一方面，可以将采集到的原始用户数据输入基于差分隐私的特征编码器中。在一个实施例中，特征编码器可以采用DNN(Deep Neural Networks，深度神经网络)、或CNN(Convolutional Neural Networks，卷积神经网络)、或RNN(Recurrent Neural Network,循环神经网络)等神经网络的网络结构。

差分隐私旨在通过对数据(例如，多条用户数据)添加干扰噪声的方式，保护所发布数据(例如，基于多条用户数据确定出的统计信息)中潜在的用户隐私信息，从而达到即便攻击者已经掌握了除某条信息(例如，某条用户数据)以外的其他信息(例如，多条用户数据中的其他用户数据)，该攻击者仍然无法推测出该某条信息。

对于将差分隐私引入特征编码器，在一种实施方式中，可以在原始用户数据的输入阶段，添加干扰噪声，从而实现差分隐私。在另一种实施方式中，可以在特征编码器对原始用户数据进行计算处理的阶段，对特征编码器中用于计算处理的模型参数添加干扰噪声，从而实现差分隐私。在又一种实施方式中，还可以在特征编码器的输出阶段，对初始输出添加干扰噪声后，得到上述特征表示，从而实现差分隐私。对于其中添加的干扰噪声，在一个实施例中，可以是拉普拉斯噪声(laplace noise)。另一个实施例中，还可以是高斯噪声(gaussian noise)。

根据一个具体的实施例，上述特征编码器可以直接采用已有的差分隐私算法PATE(Private Aggregation of Teacher Ensembles，教师系综的私有聚合)实现。

利用上述特征编码器，可以确定与原始用户数据对应的特征表示。具体地，其中特征表示的数学形式可以为向量或数组。

接着，在步骤S204，将所述特征表示输入用户分类器中，得到用户分类预测结果。在一个实施例中，用户分类器可以采用多分类模型。在另一个实施例中，用户分类器可以采用多个二分类模型。另一方面，在一个实施例中，用户分类模型所基于的算法可以为决策树分类法、贝叶斯分类算法、支持向量机或神经网络算法，等等。由此，将特征表示输入用户分类器中，可以得到用户分类预测结果。

然后，在步骤S206，基于所述用户分类预测结果和所述原始用户数据对应的分类标签，确定第一损失。具体地，其中分类标签与上述目标任务相对应，并且，一条原始用户数据和对应的分类标签，构成一个训练样本。

在一个实施例中，分类标签可以为指示用户风险等级的风险等级标签，如高风险、中等风险和低风险等。在另一个实施例中，分类标签可以为指示用户风险类别的风险类别标签，如普通用户或高风险用户(如涉嫌欺诈、盗号的用户账户)等。在又一个实施例中，分类标签可以为指示用户所属人群的人群类别标签，如冲动型消费人群和保守型消费人群等。在还一个实施例中，分类标签可以为指示用户信用等级的信用等级标签，如信用优、信用良、信用中和信用差等。

在一个实施例中，确定上述第一损失所采用的损失函数，可以为交叉熵损失函数、铰链损失函数、指数损失函数，等等。在一个例子中，具体可以采用公式(1)示出的交叉熵损失函数：

在公式(1)中，L_cls表示用户分类器的损失；N表示一批次训练样本中的样本数量，i表示N个样本中的第i个样本；M表示上述分类标签对应的标签类别总数，j表示M种分类标签中的第j种分类标签；y_ij表示指示变量(取值为0或1)，若第i个样本中的分类标签和第j种分类标签相同，则取1，否则取0；p_ij表示预测出的第i个样本属于第j种分类标签所指示类别的概率。

由此，将用户分类预测结果和分类标签输入预先设定的损失函数中，可以得到第一损失。接着，在步骤S208，以最小化所述第一损失为目标，训练所述用户分类器。具体地，可以确定第一损失对应的损失梯度，再利用确定出的损失梯度，往梯度下降的方向调整用户分类器中的模型参数，如此可以实现对用户分类器的训练。

另一方面，在以上得到与原始用户数据对应的特征表示以后，接着还在步骤S210，将所述特征表示输入第一解码器中，得到模拟所述原始敏感数据的复原敏感数据。在一个实施例中，第一解码器可以采用DNN网络、CNN网络或RNN网络实现。基于此，可以将特征表示输入第一解码器中，得到复原敏感数据。

然后在步骤S212，基于所述复原敏感数据和所述原始敏感数据，确定第二损失。在一个实施例中，可以确定两者之间的互信息，作为所述第二损失。在另一个实施例中，可以确定两者之间的KL散度，作为所述第二损失。在又一个实施例中，还可以确定两者之间的MSE(Mean Squared Loss，欧氏距离)，作为所述第二损失。

在一个例子中，假定上述预设敏感项的数量为1，原始敏感数据的取值为多种离散值，此时，可以采用公式(2)示出的互信息损失函数确定第二损失：

上式(2)中，L_de1表示第一解码器的损失；N表示一批次训练样本中的样本数量，i表示N个样本中的第i个样本；K表示原始敏感数据所对应离散值的种数，k表示第k种离散值；y_ik表示指示变量(取值为0或1)，若第i个样本中的原始敏感数据和第k种离散值相同，则取1，否则取0；p(s^′)_ik表示预测出第i个样本对应的复原敏感数据与第k种离散值相同的概率，p(s)_k表示该批次N个训练样本中，所包含原始敏感数据所对应离散值为第k种离散值的概率。

以上，可以确定出衡量用户分类预测模型的分类性能的第一损失，以及衡量第一解码器针对原始敏感数据进行复原的复原性能的第二损失。基于此，在步骤S214,以最小化所述第一损失以及最大化所述第二损失为目标，训练所述特征编码器；并且，在步骤S216，以最小化所述第二损失为目标，训练所述第一解码器。由此，特征编码器以优化用户分类预测模型的分类性能，以及降低第一解码器的复原性能为目标任务，而第一解码器以优化其复原性能为目标任务，这样就实现了特征编码器与第一解码器之间的对抗学习，从而使得从特征编码器输出的特征表示，在保证分类器具有良好分类效果的同时，难以复原出敏感数据，也就意味着，尽可能削弱或去除原始用户数据中的敏感数据，对学习到的特征表示的影响，进而削弱敏感数据对用户预测分类结果的影响，从而在保证分类结果准确度的同时，实现机器学习的公平性。

在一个实施例中，可以基于第一损失和第二损失，确定特征编码器的综合损失，具体地，综合损失与第一损失正相关，且与第二损失负相关。在一个例子中，可以采用公式(3)示出损失函数确定综合损失：

L_en＝L_cls-αL_de1 (3)

式(3)中，L_en表示特征编码器的综合损失，L_cls表示上述第一损失，L_de1表示上述第二损失，α表示超参，取正值，如0.8、1或1.2等。

进一步地，在确定出特征编码器的损失后，可以利用梯度下降法，调整特征编码器中的参数，以实现对特征编码器的训练。

需要说明，上述已介绍多种在特征编码器中引入差分隐私的实施方式，如对特征编码器的初始输入、模型参数或初始输出直接添加干扰噪声，此外，还可以通过在损失梯度中添加干扰噪声的方式，引入差分隐私，并且，这种方式可以更加有效的保护用户隐私安全。在一个实施例中，训练特征编码器可以包括：首先，确定综合损失对应的原始梯度；接着，对所述原始梯度添加用于实现所述差分隐私的噪声，得到添加后梯度；然后，利用所述添加后梯度，调整所述特征编码器的模型参数。在一个具体的实施例中，其中，对所述原始梯度添加用于实现所述差分隐私的噪声，得到添加后梯度，可以包括：先基于预设的裁剪阈值，对所述原始梯度进行梯度裁剪，得到裁剪后梯度，再基于该裁剪阈值和预定的噪声缩放系数(为超参)，确定用于实现差分隐私的高斯噪声；然后计算裁剪后梯度与所述高斯噪声的和值，作为所述添加后梯度。

根据一个具体的例子，先利用公式(4)确定综合损失对应的原始梯度：

上式(4)中，t表示当前为第t轮次的迭代训练，x_i表示一批次训练样本中的第i个样本g_t(x_i)表示第t轮中第i个样本的损失梯度，θ_t表示第t轮中特征编码器的起始模型参数，L_en()表示特征编码器的损失函数。

在利用式(5)对原始梯度进行梯度裁剪：

上式(5)中，

表示第t轮中第i个样本的裁剪后梯度，C表示裁剪阈值，‖g(x_i)‖₂表示对g_t(x_i)求取二阶范数。

然后利用公式(6)添加高斯噪声：

上式(6)中，N表示一批次训练样本的样本数量，

表示第t轮中N个样本对应的添加后梯度；

表示高斯噪声，并且其符合以均值0和方差σ²C²I作为分布参数的高斯分布；σ表示上述噪声缩放系数，为超参，可以按需设定；C为上述裁剪阈值；I表示指示函数，可以取0或1，比如，可以设定在多轮训练中的偶数轮次取1，而奇数轮次取0。

再接着，利用公式(7)计算调整后的模型参数：

上式(7)中，η_t表示第t轮的学习步长，或者说学习率，为超参，可以设定为0.5或0.3等；θ_t+1表示经过第t轮训练得到的调整后模型参数。

以上可以实现对特征编码器的训练。另一方面，以最小化上述第二损失为目标，训练所述第一解码器。在一个实施例中，可以确定第二损失对应的损失梯度，再利用确定出的损失梯度，往梯度下降的方向调整第一解码器中的模型参数，如此可以实现对第一解码器的训练。

由上，可以得到训练后的用户分类器、特征编码器和第一解码器。据此，可以将经过多轮迭代训练后，训练好的用户分类器和特征编码器，构建为用户分类系统，用于用户分类。此外需要说明，对于上述训练过程，可以使用端到端的训练方法，每次训练中对算法框架中的各个模型均进行调参；或者，也可以先固定其中某个模型(如特征编码器)的参数，训练其他模型(如分类器和第一解码器)，再固定其他模型的参数，训练该某个模型，如此循环，完成多轮迭代训练，具体不作限定。

以上主要基于图1中示出的算法框架，对本说明书实施例披露的用户分类系统的构建方法进行说明。另外，在一个实施例中，还可以在图1示出的算法框架的基础上，添加第二解码器，以监督特征编码器尽可能学习到有用的特征。具体地，图3示出本说明书实施例披露的另一种算法框架的结构示意图，其中示出的第二解码器，用于根据特征表示z复原原始用户数据x，特征编码器需要配合这一任务，使得复原出的复原用户数据x’与原始用户数据x尽可能的相近。基于此，在上述步骤S202之后，所述方法还可以包括：首先，将所述特征表示输入第二解码器中，得到模拟所述原始用户数据的复原用户数据；接着，基于所述复原用户数据和所述原始用户数据，确定第三损失；然后，以最小化所述第三损失为目标，训练所述第二解码器。相应地，上述步骤S214中可以包括：以最小化所述第一损失，最小化所述第三损失，以及最大化所述第二损失为目标，训练所述特征编码器。

在一个具体的实施例中，第二解码器可以采用DNN网络、CNN网络或RNN网络实现。在一个具体的实施例中，可以确定所述原始用户数据和复原用户数据之间的互信息，作为所述第三损失。在另一个具体的实施例中，可以确定两者之间的KL散度，作为所述第二损失。在又一个具体的实施例中，还可以确定两者之间的MSE，作为所述第二损失。

在一个具体的实施例中，可以基于第一损失、第二损失和第三损失，确定特征编码器的综合损失，具体地，综合损失与第一损失和第三损失正相关，且与第二损失负相关。在一个例子中，可以采用公式(8)示出损失函数确定综合损失：

L_en＝L_cls+α₂L_de2-α₁L_de1 (8)

式(8)中，L_en表示特征编码器的综合损失，L_cls表示上述第一损失，L_de1表示上述第二损失，L_de2表示上述第三损失；α₁和α₂均为超参，取正值，例如，α₁取0.4，α₂取0.6等。

进一步地，基于如此确定的综合损失，调整特征编码器中的参数，以实现对特征编码器的训练。如此，通过在算法框架中加入第二解码器，可以监督特征编码器尽可能学习到对于分类任务而言，有用的特征，从而提高分类结果的准确性。需要说明的，基于图3示出的算法框架，可以得到训练后的特征编码器、用户分类器、第一解码器和第二解码器，同样地，还是将其中训练好的特征编码器和用户分类器，构建为用户分类系统，例如，可以参见图4示出的根据一个实施例的用户分类系统的结构示意图。

与前述实施例中披露的构建方法相对应的，本说明书实施例还披露一种构建装置。具体地，图5示出本说明书实施例披露的保护用户隐私的用户分类系统的构建装置结构图，如图5所示，所述装置500包括：

特征编码单元501，配置为将原始用户数据输入基于差分隐私的特征编码器中，得到对应的特征表示，所述原始用户数据中包括对应于预设敏感项的原始敏感数据；分类预测单元503，配置为将所述特征表示输入用户分类器中，得到用户分类预测结果；第一损失确定单元505，配置为基于所述用户分类预测结果和所述原始用户数据对应的分类标签，确定第一损失；分类器训练单元507，配置为以最小化所述第一损失为目标，训练所述用户分类器；第一解码单元509，配置为将所述特征表示输入第一解码器中，得到模拟所述原始敏感数据的复原敏感数据；第二损失确定单元511，配置为基于所述复原敏感数据和所述原始敏感数据，确定第二损失；编码器训练单元513，配置为以最小化所述第一损失以及最大化所述第二损失为目标，训练所述特征编码器；第一解码器训练单元515，配置为以最小化所述第二损失为目标，训练所述第一解码器；分类系统构建单元517，配置为将训练后的所述特征编码器和所述用户分类器，构建为所述用户分类系统。

在一个实施例中，所述装置500还包括：第二解码单元519，配置为将所述特征表示输入第二解码器中，得到模拟所述原始用户数据的复原用户数据；第三损失确定单元521，配置为基于所述复原用户数据和所述原始用户数据，确定第三损失；第二解码器训练单元523，配置为以最小化所述第三损失为目标，训练所述第二解码器；其中编码器训练单元513，具体配置为：以最小化所述第一损失，最小化所述第三损失，以及最大化所述第二损失为目标，训练所述特征编码器。

在一个实施例中，第二损失确定单元511具体配置为：确定所述复原敏感数据和原始敏感数据之间的互信息，作为所述第二损失。

在一个实施例中，编码器训练单元513具体包括:综合损失确定模块5131，配置为确定综合损失对应的原始梯度，所述综合损失与所述第一损失正相关，且与所述第二损失负相关；干扰噪声添加模块5132，配置为对所述原始梯度添加用于实现所述差分隐私的噪声，得到添加后梯度；编码器调参模块5133，配置为利用所述添加后梯度，调整所述特征编码器的模型参数。

在一个实施例中，所述编码器训练单元513还包括：梯度裁剪模块5134，配置为基于预设的裁剪阈值，对所述原始梯度进行梯度裁剪，得到裁剪后梯度；其中，干扰噪声添加模块5132具体配置为：基于所述裁剪阈值和预定的噪声缩放系数，确定用于实现所述差分隐私的高斯噪声；计算所述裁剪后梯度与所述高斯噪声的和值，作为所述添加后梯度。

综上，在本说明是实施例披露的构建装置中，利用引入差分隐私的特征编码器，得到具有差分隐私特性的特征表示，使得以特征表示作为输入的用户分类器同样可以保持差分隐私特性，从而实现对用户数据的隐私安全的保护；同时，引入第一解码器与特征编码器进行对抗学习，使得特征表示中可以最大程度上去除用户数据中包含的敏感数据的影响，进而保障预测分类结果的公平性。由此，使用通过所述方法构建的用户分类系统，可以同时实现保护用户数据的隐私安全，以及保障用户分类预测结果的公平性。

以上主要对用于用户分类的算法框架进行介绍。实际上，上述算法框架还可以用于执行其他方面的任务，如用分打分，商品分类，等等。具体地，图6示出本说明书实施例披露的保护数据隐私安全的机器学习系统的构建方法流程示意图，所述构建方法的执行主体可以为任何具有计算、处理能力的装置或设备或系统或平台等。如图6所示，所述方法可以包括以下步骤：

步骤S602，将原始样本数据输入基于差分隐私的特征编码器中，得到对应的特征表示，所述原始样本数据中包括对应于预设敏感项的原始敏感数据；步骤S604，将所述特征表示输入用于执行目标任务的预测模型中，得到预测结果；步骤S606，基于所述预测结果和所述原始样本数据对应的样本标签，确定第一损失；步骤S608，以最小化所述第一损失为目标，训练所述预测模型；步骤S610，将所述特征表示输入第一解码器中，得到模拟所述原始敏感数据的复原敏感数据；步骤S612，基于所述复原敏感数据和所述原始敏感数据，确定第二损失；步骤S614，以最小化所述第一损失以及最大化所述第二损失为目标，训练所述特征编码器；步骤S616，以最小化所述第二损失为目标，训练所述第一解码器；步骤S618，将训练后的所述特征编码器和所述预测模型，构建为执行所述目标任务的所述机器学习系统。

针对以上步骤，在一个实施例中，其中目标任务可以为针对目标对象的分类或评分。在一个具体的实施例中，其中目标对象为用户，相应地，原始样本数据可以为原始用户数据，对应的样本标签可以为针对用户的分类标签。进一步地，上述预测模型可以为用户分类模型或用户打分模型，由此构建的上述机器学习系统可以为用户分类系统或用户打分系统。

在另一个具体的实施例中，其中目标对象可以为商品，相应地，在一个更具体地实施例中，原始样本数据可以为原始商品图片，对应的样本标签可以为在图片中框选的目标区域；在另一个更具体的实施例中，原始样本数据为原始商品数据，对应的样本标签可以为针对商品的分类标签。在一个例子中，其中原始商品数据可以包括商品产地、原料、成本、售价、销量等等。在一个例子中，其中分类标签可以为热门等级标签，如超级热门、一般人们、不热门。在另一个例子中，其中分类标签可以为目标人群标签，如学生、职场人士、养生人士，等等。在一个例子中，其中预设敏感项可以为商品的产地或价格。进一步地，上述预测模型可以为商品分类模型或商品打分模型，由此构建的上述机器学习系统可以为商品分类系统或商品打分系统。

在一个实施例中，在将原始样本数据输入基于差分隐私的特征编码器中，得到特征表示之后，所述方法还包括：将所述特征表示输入第二解码器中，得到模拟所述原始样本数据的复原样本数据；基于所述复原样本数据和所述原始样本数据，确定第三损失；以最小化所述第三损失为目标，训练所述第二解码器；其中，以最小化所述第一损失以及最大化所述第二损失为目标，训练所述特征编码器，包括：以最小化所述第一损失，最小化所述第三损失，以及最大化所述第二损失为目标，训练所述特征编码器。

在一个实施例中，其中，以最小化所述第一损失以及最大化所述第二损失为目标，训练所述特征编码器，包括：确定综合损失对应的原始梯度，所述综合损失与所述第一损失正相关，且与所述第二损失负相关；对所述原始梯度添加用于实现所述差分隐私的噪声，得到添加后梯度；利用所述添加后梯度，调整所述特征编码器的模型参数。

需要说明，对以上步骤的描述，还可以参见前述实施例中的相关描述。

综上，在本说明是实施例披露的构建方法中，利用引入差分隐私的特征编码器，得到具有差分隐私特性的特征表示，使得以特征表示作为输入的用户分类器同样可以保持差分隐私特性，从而实现对样本数据的隐私安全的保护；同时，引入第一解码器与特征编码器进行对抗学习，使得特征表示中可以最大程度上去除样本数据中包含的敏感数据的影响，进而保障预测分类结果的公平性。由此，使用通过所述方法构建的机器学习系统，可以同时实现保护样本数据的隐私安全，以及保障针对目标任务的预测结果的公平性。

与前述实施例中披露的构建方法相对应的，本说明书实施例还披露一种构建装置。具体地，图7示出本说明书实施例披露的保护数据隐私安全的机器学习系统的构建装置结构图，如图7所示，所述装置700包括：

特征编码单元701，配置为将原始样本数据输入基于差分隐私的特征编码器中，得到对应的特征表示，所述原始样本数据中包括对应于预设敏感项的原始敏感数据；预测单元703，配置为将所述特征表示输入用于执行目标任务的预测模型中，得到预测结果；第一损失确定单元705，配置为基于所述预测结果和所述原始样本数据对应的样本标签，确定第一损失；预测模型训练单元707，配置为以最小化所述第一损失为目标，训练所述样本分类器；第一解码单元709，配置为将所述特征表示输入第一解码器中，得到模拟所述原始敏感数据的复原敏感数据；第二损失确定单元711，配置为基于所述复原敏感数据和所述原始敏感数据，确定第二损失；编码器训练单元713，配置为以最小化所述第一损失以及最大化所述第二损失为目标，训练所述特征编码器；第一解码器训练单元715，配置为以最小化所述第二损失为目标，训练所述第一解码器；系统构建单元717，配置为将训练后的所述特征编码器和所述样本分类器，构建为所述机器学习系统。

在一个实施例中，所述装置700还包括：第二解码单元719，配置为将所述特征表示输入第二解码器中，得到模拟所述原始样本数据的复原样本数据；第三损失确定单元721，配置为基于所述复原样本数据和所述原始样本数据，确定第三损失；第二解码器训练单元723，配置为以最小化所述第三损失为目标，训练所述第二解码器；其中编码器训练单元713，具体配置为：以最小化所述第一损失，最小化所述第三损失，以及最大化所述第二损失为目标，训练所述特征编码器。

在一个实施例中，第二损失确定单元711具体配置为：确定所述复原敏感数据和原始敏感数据之间的互信息，作为所述第二损失。

在一个实施例中，编码器训练单元713具体包括:综合损失确定模块7131，配置为确定综合损失对应的原始梯度，所述综合损失与所述第一损失正相关，且与所述第二损失负相关；干扰噪声添加模块7132，配置为对所述原始梯度添加用于实现所述差分隐私的噪声，得到添加后梯度；编码器调参模块7133，配置为利用所述添加后梯度，调整所述特征编码器的模型参数。

在一个实施例中，所述编码器训练单元713还包括：梯度裁剪模块7134，配置为基于预设的裁剪阈值，对所述原始梯度进行梯度裁剪，得到裁剪后梯度；其中，干扰噪声添加模块7132具体配置为：基于所述裁剪阈值和预定的噪声缩放系数，确定用于实现所述差分隐私的高斯噪声；计算所述裁剪后梯度与所述高斯噪声的和值，作为所述添加后梯度。

综上，在本说明是实施例披露的构建装置中，利用引入差分隐私的特征编码器，得到具有差分隐私特性的特征表示，使得以特征表示作为输入的用户分类器同样可以保持差分隐私特性，从而实现对样本数据的隐私安全的保护；同时，引入第一解码器与特征编码器进行对抗学习，使得特征表示中可以最大程度上去除样本数据中包含的敏感数据的影响，进而保障预测分类结果的公平性。由此，使用通过所述方法构建的机器学习系统，可以同时实现保护样本数据的隐私安全，以及保障针对目标任务的预测结果的公平性。

如上，根据又一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2或图6所描述的方法。

根据又一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2或图6所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书披露的多个实施例的具体实施方式而已，并不用于限定本说明书披露的多个实施例的保护范围，凡在本说明书披露的多个实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书披露的多个实施例的保护范围之内。

Claims

1.一种保护用户隐私的用户分类系统的构建方法，包括：

将原始用户数据输入基于差分隐私的特征编码器中，得到对应的特征表示，所述原始用户数据中包括对应于预设敏感项的原始敏感数据，所述预设敏感项对机器学习预测结果的公平性有影响；

将所述特征表示输入用户分类器中，得到用户分类预测结果；

基于所述用户分类预测结果和所述原始用户数据对应的分类标签，确定第一损失；

以最小化所述第一损失为目标，训练所述用户分类器；

将所述特征表示输入第一解码器中，得到模拟所述原始敏感数据的复原敏感数据；

基于所述复原敏感数据和所述原始敏感数据，确定第二损失；

将所述特征表示输入第二解码器中，得到模拟所述原始用户数据的复原用户数据；

基于所述复原用户数据和所述原始用户数据，确定第三损失；

以最小化所述第一损失，最小化所述第三损失，以及最大化所述第二损失为目标，训练所述特征编码器；

以最小化所述第二损失为目标，训练所述第一解码器；

以最小化所述第三损失为目标，训练所述第二解码器；

将训练后的所述特征编码器和所述用户分类器，构建为所述用户分类系统。

2.根据权利要求1所述的方法，其中，基于所述复原敏感数据和所述原始敏感数据，确定第二损失，包括：

确定所述复原敏感数据和原始敏感数据之间的互信息，作为所述第二损失。

3.根据权利要求1所述的方法，其中，以最小化所述第一损失，最小化所述第三损失，以及最大化所述第二损失为目标，训练所述特征编码器，包括：

确定综合损失对应的原始梯度，所述综合损失与所述第一损失和第三损失正相关，且与所述第二损失负相关；

对所述原始梯度添加用于实现所述差分隐私的噪声，得到添加后梯度；

利用所述添加后梯度，调整所述特征编码器的模型参数。

4.根据权利要求3所述的方法，其中，在确定综合损失对应的原始梯度之后，所述方法还包括：

基于预设的裁剪阈值，对所述原始梯度进行梯度裁剪，得到裁剪后梯度；

其中，对所述原始梯度进行噪声添加处理，得到处理后梯度，包括：

基于所述裁剪阈值和预定的噪声缩放系数，确定用于实现所述差分隐私的高斯噪声；

计算所述裁剪后梯度与所述高斯噪声的和值，作为所述添加后梯度。

5.根据权利要求1所述的方法，其中，所述分类标签指示对应用户的风险等级，或用户所属的人群，或用户的信用等级。

6.一种保护用户隐私的用户分类系统的构建装置，包括：

特征编码单元，配置为将原始用户数据输入基于差分隐私的特征编码器中，得到对应的特征表示，所述原始用户数据中包括对应于预设敏感项的原始敏感数据，所述预设敏感项对机器学习预测结果的公平性有影响；

分类预测单元，配置为将所述特征表示输入用户分类器中，得到用户分类预测结果；

第一损失确定单元，配置为基于所述用户分类预测结果和所述原始用户数据对应的分类标签，确定第一损失；

分类器训练单元，配置为以最小化所述第一损失为目标，训练所述用户分类器；

第一解码单元，配置为将所述特征表示输入第一解码器中，得到模拟所述原始敏感数据的复原敏感数据；

第二损失确定单元，配置为基于所述复原敏感数据和所述原始敏感数据，确定第二损失；

第二解码单元，配置为将所述特征表示输入第二解码器中，得到模拟所述原始用户数据的复原用户数据；

第三损失确定单元，配置为基于所述复原用户数据和所述原始用户数据，确定第三损失；

编码器训练单元，配置为以最小化所述第一损失，最小化所述第三损失，以及最大化所述第二损失为目标，训练所述特征编码器；

第一解码器训练单元，配置为以最小化所述第二损失为目标，训练所述第一解码器；

第二解码器训练单元，配置为以最小化所述第三损失为目标，训练所述第二解码器；

分类系统构建单元，配置为将训练后的所述特征编码器和所述用户分类器，构建为所述用户分类系统。

7.根据权利要求6所述的装置，其中，第二损失确定单元具体配置为：

8.根据权利要求6所述的装置，其中，编码器训练单元具体包括：

综合损失确定模块，配置为确定综合损失对应的原始梯度，所述综合损失与所述第一损失和第三损失正相关，且与所述第二损失负相关；

干扰噪声添加模块，配置为对所述原始梯度添加用于实现所述差分隐私的噪声，得到添加后梯度；

编码器调参模块，配置为利用所述添加后梯度，调整所述特征编码器的模型参数。

9.根据权利要求8所述的装置，其中，所述编码器训练单元还包括：

梯度裁剪模块，配置为基于预设的裁剪阈值，对所述原始梯度进行梯度裁剪，得到裁剪后梯度；

其中，所述干扰噪声添加模块具体配置为：

10.根据权利要求6所述的装置，其中，所述分类标签指示对应用户的风险等级，或用户所属的人群，或用户的信用等级。

11.一种保护数据隐私安全的机器学习系统的构建方法，包括：

将原始样本数据输入基于差分隐私的特征编码器中，得到对应的特征表示，所述原始样本数据中包括对应于预设敏感项的原始敏感数据，所述预设敏感项对机器学习预测结果的公平性有影响；

将所述特征表示输入用于执行目标任务的预测模型中，得到预测结果；

基于所述预测结果和所述原始样本数据对应的样本标签，确定第一损失；

以最小化所述第一损失为目标，训练所述预测模型；

将所述特征表示输入第二解码器中，得到模拟所述原始样本数据的复原样本数据；

基于所述复原样本数据和所述原始样本数据，确定第三损失；

以最小化所述第二损失为目标，训练所述第一解码器；

以最小化所述第三损失为目标，训练所述第二解码器；

将训练后的所述特征编码器和所述预测模型，构建为执行所述目标任务的所述机器学习系统。

12.根据权利要求11所述的方法，其中，所述目标任务包括针对目标对象的分类或评分，所述目标对象包括用户或商品。

13.一种保护数据隐私安全的机器学习系统的构建装置，包括：

特征编码单元，配置为将原始样本数据输入基于差分隐私的特征编码器中，得到对应的特征表示，所述原始样本数据中包括对应于预设敏感项的原始敏感数据，所述预设敏感项对机器学习预测结果的公平性有影响；

预测单元，配置为将所述特征表示输入用于执行目标任务的预测模型中，得到预测结果；

第一损失确定单元，配置为基于所述预测结果和所述原始样本数据对应的样本标签，确定第一损失；

预测模型训练单元，配置为以最小化所述第一损失为目标，训练所述预测模型；

第二解码单元，配置为将所述特征表示输入第二解码器中，得到模拟所述原始样本数据的复原样本数据；

第三损失确定单元，配置为基于所述复原样本数据和所述原始样本数据，确定第三损失；

系统构建单元，配置为将训练后的所述特征编码器和所述预测模型，构建为执行所述目标任务的所述机器学习系统。

14.根据权利要求13所述的装置，其中，所述目标任务包括针对目标对象的分类或评分，所述目标对象包括用户或商品。

15.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-5、11-12中任一项的所述的方法。

16.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-5、11-12中任一项所述的方法。