CN111159773B

CN111159773B - 保护数据隐私的图片分类方法及装置

Info

Publication number: CN111159773B
Application number: CN202010251495.0A
Authority: CN
Inventors: 熊涛
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-11-03
Anticipated expiration: 2040-04-01
Also published as: TWI769753B; CN111159773A; TW202205118A; WO2021197332A1

Abstract

本说明书实施例提供一种保护数据隐私的图片分类方法。该方法的执行主体为数据持有方，其中存储多个隐私图片和对应的多个类别标签，该方法包括：首先，针对该多个隐私图片中任意的第一隐私图片，确定与该第一隐私图片对应的多个特征值，组成第一原始特征矩阵；接着，对该第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵；然后，将得到的对应于该多个隐私图片的多个变换特征矩阵，以及该多个类别标签发送至模型训练方，以使其训练出图片分类模型，用于对待分类的目标图片进行分类。如此，可以同时实现保护隐私图片的数据隐私和防御针对图片分类模型的对抗攻击。

Description

保护数据隐私的图片分类方法及装置

技术领域

本说明书一个或多个实施例涉及数据计算安全的技术领域，尤其涉及一种保护数据隐私的图片分类方法及装置、以及一种保护数据隐私的样本预测方法及装置。

背景技术

随着机器学习技术的兴起，该领域中出现的保护数据隐私的问题和防御对抗攻击以保护模型安全的问题，已成为研究热点。具体地，在互联网大数据时代，利用大数据建立机器学习模型，已成为各行各业的需求常态，而建模过程中存在隐私数据，如用户敏感数据，泄露的风险，因此，如何保护数据的隐私安全成为亟待解决的问题。

另外，现代机器学习模型，如深度神经网络模型，是非常容易受到对抗样本攻击的，这些对抗样本仅包含很轻微的扰动，但会导致机器学习模型以高置信度输出错误的预测结果。例如，在图像识别场景下，原来被图像处理模型识别为熊猫的图片，在加入一点细微的甚至人眼无法察觉的改动后，被误分类为长臂猿。因此，希望可以有效地防御对抗攻击。

然而，目前尚未发现有方案，可以同时兼顾上述两个问题。因此，迫切需要一种方案，可以同时实现保护数据的隐私安全和防御对抗攻击以保护模型安全。

发明内容

本说明书一个或多个实施例描述了一种保护数据隐私的图片分类方法及装置，可以同时实现保护隐私图片的数据隐私和防御针对图片分类模型的对抗攻击。

根据第一方面，提供一种保护数据隐私的图片分类方法，所述方法的执行主体为数据持有方，所述数据持有方中存储多个隐私图片和对应的多个类别标签，所述方法包括：针对所述多个隐私图片中任意的第一隐私图片，确定与所述第一隐私图片对应的多个特征值，组成第一原始特征矩阵；对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵；将得到的对应于所述多个隐私图片的多个变换特征矩阵，以及所述多个类别标签发送至模型训练方，以使其训练出图片分类模型，用于对待分类的目标图片进行分类。

在一个实施例中，所述预定矩阵区域和预定变换构成预定的矩阵变换方式，在将得到的对应于所述多个隐私图片的多个变换特征矩阵，以及所述多个类别标签发送至模型训练方之后，所述方法还包括：将所述矩阵变换方式发送至模型使用方，以使所述模型使用方根据所述矩阵变换方式，确定与所述目标图片对应的目标变换特征矩阵，进而将所述目标变换特征矩阵输入预先获取的所述图片分类模型中，得到针对所述目标图片的分类结果。

在一个具体的实施例中，将所述矩阵变换方式发送至模型使用方，包括：利用加密密钥对所述矩阵变换方式进行加密，得到加密数据；将所述加密数据发送至所述模型使用方，以使所述模型使用方利用解密密钥对所述加密数据进行解密而得到所述矩阵变换方式。

在一个实施例中，所述预定矩阵区域和预定变换构成预定的矩阵变换方式，所述多个变换特征矩阵和多个类别标签构成图片训练数据集，所述矩阵变换方式和所述图片训练数据集构成训练用数据包；其中，将得到的对应于所述多个隐私图片的多个变换特征矩阵，以及所述多个类别标签发送至模型训练方，以使其训练出图片分类模型，用于对待分类的目标图片进行分类，包括：将所述训练用数据包发送至模型训练方，以使其至少根据所述训练用数据包，以及从其他数据持有方接收的其他训练用数据包，训练出所述图片分类模型，用于对待分类的目标图片进行分类。

根据第二方面，提供一种保护数据隐私的图片分类方法，所述方法的执行主体为模型使用方，所述方法包括：获取待分类的目标图片；确定所述目标图片对应的多个特征值，组成原始特征矩阵；对所述原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到变换特征矩阵，所述预定矩阵区域和预定变换是预先从数据持有方获取而得到；将所述变换特征矩阵输入预先获取的图片分类模型中，得到针对所述目标图片的分类结果，所述图片分类模型由模型训练方根据所述数据持有方发送的图片训练数据集进行训练而得到。

根据第三方面，提供一种获取多个隐私图片和对应的多个类别标签；针对所述多个隐私图片中任意的第一隐私图片，确定与所述第一隐私图片对应的多个特征值，组成第一原始特征矩阵；对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵；利用得到的对应于所述多个隐私图片的多个变换特征矩阵，以及所述多个类别标签，训练图片分类模型，用于对目标图片进行分类。

根据第四方面，提供一种保护数据隐私的图片分类方法，所述方法的执行主体为模型训练方，所述方法包括：接收多个数据持有方各自根据上述第一方面中提供的方法发送的训练用数据包，得到多个训练用数据包。针对其中任意的第一训练用数据包中的第一图片训练数据集，利用其训练出对应的第一老师图片分类模型，得到对应于所述多个训练用数据包的多个老师图片分类模型；获取预定数量的公用图片，针对其中任意的第一公用图片，确定与其对应的多个公用特征值，组成第一公用原始矩阵。利用所述第一公用原始矩阵，确定针对所述第一公用图片的多个分类结果，具体包括：对所述第一公用原始矩阵中位于第一预定矩阵区域的部分公用特征值，进行第一预定变换，得到第一公用变换矩阵，所述第一预定矩阵区域和第一预定变换来自所述第一训练用数据包中的第一矩阵变换方式；将所述第一公用变换矩阵输入所述第一老师图片分类模型中，得到针对所述第一公用图片的第一分类结果。对所述多个分类结果进行统计，得到针对不同分类结果的原始票数分布。在所述原始票数分布中添加拉普拉斯噪声，得到对应的添加后票数分布。基于所述添加后票数分布，确定其中最高票数所对应的分类结果，作为所述第一公用图片的第一类别标签。利用所述预定数量的公用图片，以及对应确定出的预定数量的类别标签，训练学生图片分类模型，用于对待分类的目标图片进行分类。

根据第五方面，提供一种保护数据隐私的样本预测方法，所述方法的执行主体为数据持有方，所述数据持有方中存储针对业务对象的多个隐私样本和对应的多个样本标签，所述方法包括：针对所述多个隐私样本中任意的第一隐私样本，确定所述第一隐私样本对应的多个特征值，组成第一原始特征矩阵；对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵；将得到的对应于所述多个隐私样本的多个变换特征矩阵，以及所述多个样本标签发送至模型训练方，以使其训练出针对所述业务对象的预测模型，用于对待预测的目标样本进行预测。

根据第六方面，提供一种保护数据隐私的图片分类装置，所述装置集成于数据持有方，所述数据持有方中存储多个隐私图片和对应的多个类别标签，所述装置包括：矩阵确定单元，配置为针对所述多个隐私图片中任意的第一隐私图片，确定与所述第一隐私图片对应的多个特征值，组成第一原始特征矩阵；矩阵变换单元，配置为对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵；训练数据发送单元，配置为将得到的对应于所述多个隐私图片的多个变换特征矩阵，以及所述多个类别标签发送至模型训练方，以使其训练出图片分类模型，用于对待分类的目标图片进行分类。

在一个实施例中，所述预定矩阵区域和预定变换构成预定的矩阵变换方式，所述多个变换特征矩阵和多个类别标签构成图片训练数据集，所述矩阵变换方式和所述图片训练数据集构成训练用数据包；其中，所述训练数据发送单元具体配置为：将所述训练用数据包发送至模型训练方，以使其至少根据所述训练用数据包，以及从其他数据持有方接收的其他训练用数据包，训练出所述图片分类模型，用于对待分类的目标图片进行分类。

根据第七方面，提供一种保护数据隐私的图片分类装置，所述装置集成于模型使用方，所述装置包括：目标图片获取单元，配置为获取待分类的目标图片；矩阵确定单元，配置为确定所述目标图片对应的多个特征值，组成原始特征矩阵；矩阵变换单元，配置为对所述原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到变换特征矩阵，所述预定矩阵区域和预定变换是预先从数据持有方获取而得到；分类预测单元，配置为将所述变换特征矩阵输入预先获取的图片分类模型中，得到针对所述目标图片的分类结果，所述图片分类模型由模型训练方根据所述数据持有方发送的图片训练数据集进行训练而得到。

根据第八方面，提供一种保护数据隐私的图片分类装置，包括：隐私数据获取单元，配置为获取多个隐私图片和对应的多个类别标签；矩阵确定单元，配置为针对所述多个隐私图片中任意的第一隐私图片，确定与所述第一隐私图片对应的多个特征值，组成第一原始特征矩阵；矩阵变换单元，配置为对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵；模型训练单元，配置为利用得到的对应于所述多个隐私图片的多个变换特征矩阵，以及所述多个类别标签，训练图片分类模型，用于对目标图片进行分类。

根据第九方面，提供一种保护数据隐私的图片分类装置，所述装置集成于模型训练方，所述装置包括：隐私数据接收单元，配置为接收多个数据持有方各自根据上述第六方面中提供的装置发送的训练用数据包，得到多个训练用数据包。老师模型训练单元，配置为针对其中任意的第一训练用数据包中的第一图片训练数据集，利用其训练出对应的第一老师图片分类模型，得到对应于所述多个训练用数据包的多个老师图片分类模型。矩阵确定单元，配置为获取预定数量的公用图片，针对其中任意的第一公用图片，确定与其对应的多个公用特征值，组成第一公用原始矩阵。老师分类单元，配置为利用所述第一公用原始矩阵，确定针对所述第一公用图片的多个分类结果，具体包括：矩阵变换子单元，配置为对所述第一公用原始矩阵中位于第一预定矩阵区域的部分公用特征值，进行第一预定变换，得到第一公用变换矩阵，所述第一预定矩阵区域和第一预定变换来自所述第一训练用数据包中的第一矩阵变换方式；老师分类子单元，配置为将所述第一公用变换矩阵输入所述第一老师图片分类模型中，得到针对所述第一公用图片的第一分类结果。票数统计单元，配置为对所述多个分类结果进行统计，得到针对不同分类结果的原始票数分布。噪声添加单元，配置为在所述原始票数分布中添加拉普拉斯噪声，得到对应的添加后票数分布。标签确定单元，配置为基于所述添加后票数分布，确定其中最高票数所对应的分类结果，作为所述第一公用图片的第一类别标签。学生模型训练单元，配置为利用所述预定数量的公用图片，以及对应确定出的预定数量的类别标签，训练学生图片分类模型，用于对待分类的目标图片进行分类。

根据第十方面，提供一种保护数据隐私的样本预测装置，所述装置集成于数据持有方，所述数据持有方中存储针对业务对象的多个隐私样本和对应的多个样本标签，所述装置包括：矩阵确定单元，配置为针对所述多个隐私样本中任意的第一隐私样本，确定所述第一隐私样本对应的多个特征值，组成第一原始特征矩阵；矩阵变换单元，配置为对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵；训练数据发送单元，配置为将得到的对应于所述多个隐私样本的多个变换特征矩阵，以及所述多个样本标签发送至模型训练方，以使其训练出针对所述业务对象的预测模型，用于对待预测的目标样本进行预测。

根据第十一方面，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面至第五方面中任一方面的方法。

根据第十二方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面至第五方面中任一方面的方法。

采用本说明书实施例披露的上述保护数据隐私的图片分类方法及装置、或者样本预测方法及装置，可以同时实现保护数据隐私和防御对抗攻击。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出根据一个实施例的保护数据隐私的预测模型训练的实施框架图；

图2示出本说明书实施例披露的一种保护数据隐私的图片分类方法流程图；

图3示出本说明书实施例披露的另一种保护数据隐私的图片分类方法流程图；

图4示出本说明书实施例披露的还一种保护数据隐私的图片分类方法流程图；

图5示出本说明书实施例披露的又一种保护数据隐私的图片分类方法流程图；

图6示出本说明书实施例披露的保护数据隐私的样本预测方法流程图；

图7示出本说明书实施例披露的一种保护数据隐私的图片分类装置结构图；

图8示出本说明书实施例披露的另一种保护数据隐私的图片分类装置结构图；

图9示出本说明书实施例披露的还一种保护数据隐私的图片分类装置结构图；

图10示出本说明书实施例披露的又一种保护数据隐私的图片分类装置结构图；

图11示出本说明书实施例披露的保护数据隐私的样本预测装置结构图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

很多情况下，机器学习模型（以下或称预测模型）的构建，并非单方完成，而是由多方共同合作完成。比如，一方持有可用于模型训练的训练数据（以下将该一方称为数据持有方），另一方具有模型训练的能力（以下将该另一方称为模型训练方），此时，数据持有方和模型训练方希望共同构建机器学习模型。结合前述可知，在共同构建机器学习模型的过程中，希望同时实现保护训练数据的隐私安全和防御对机器学习模型的对抗攻击。

基于此，发明人提出一种模型训练框架，应用此框架可以训练针对任意业务对象（如图片或用户等）的预测模型，并且，应用此框架训练预测模型，可以同时兼顾数据隐私安全和模型安全防御两方面的需求。具体地，在一个实施例中，图1示出根据一个实施例的保护数据隐私的预测模型训练的实施框架图。如图1所示，数据持有方对其中存储的针对某业务对象（如图片）的原始训练数据进行特定变换（如，对各个训练样本中某几列的数据进行重排），然后将得到的变换训练数据发送给模型训练方，以使模型训练方根据该变换训练数据训练出相应的预测模型，用于对该某业务对象进行预测，例如，可以将训练好的预测模型发送给数据持有方，以供其使用。

如此，数据持有方通过对原始训练数据进行特定变换后，再发送给模型训练方，相较于数据持有方直接将原始训练数据交付给模型训练方，可以降低因模型训练方造成原始训练数据泄露的风险，并且，使得不法分子至多能窃取到变换训练数据，从而降低原始训练数据的隐私泄露风险；另一方面，对抗攻击中使用的对抗样本，通常依赖机器学习模型的输入和输出而构建，而对基于图1训练出的预测模型，不法分子不能获知对原始样本进行怎样的特定变换，才能得到该预测模型的真实输入，因而无法构造出对抗样本，也就不能实现对抗攻击，由此实现了对于对抗攻击的有效防御。

需要说明，基于图1示出的框架，可以训练针对任意场景下的预测模型，用于对该任意场景下的业务对象进行预测。下面先主要以图片分类场景为例，描述基于图1示出的框架，对隐私图片数据进行变换处理，利用变换处理后的数据训练图片分类模型，进而利用该图片分类模型对待分类的目标图片进行分类的方法流程。

具体地，图2示出本说明书实施例披露的一种保护数据隐私的图片分类方法流程图，所述方法的执行主体为数据持有方，其可以通过任何具有计算、处理能力的装置、设备、平台、设备集群而实现。

首先需要说明，其中数据持有方中存储多个隐私图片和对应的多个类别标签。需要理解，数据持有方中存储的任何未对外公开数据，对其而言均为隐私数据，相应地，其中存储的任何未公开图片，对其而言均属于需要保护的隐私图片。在一个实施例中，其中多个隐私图片可以为在刷脸业务中采集的多张人脸图片，各张人脸图片的类别标签，可以为标识该图片中用户身份的标识信息，如身份证号、手机号、或者刷脸业务系统为用户分配的用户ID（可以由数字、字母或符号等组成）。在另一个实施例中，其中多个隐私图片可以为在车辆定损业务中拍摄的多张车辆损伤图片，各张车辆损伤图片的类别标签，可以为对应的损伤类别，如刮擦、变形或碎裂，等等。在又一个实施例中，其中多个隐私图片可以由数据持有方从其他渠道购买而得到，例如，从摄影协会购买多张对野生动物拍摄的图片，相应的图片类别标签可以为图中动物的名称。

以上，对数据持有方中存储的多个隐私图片和多个类别标签进行示例性说明。进一步地，如图2所示，所述方法可以包括以下步骤：

步骤S210，针对所述多个隐私图片中任意的第一隐私图片，确定与所述第一隐私图片对应的多个特征值，组成第一原始特征矩阵；步骤S220，对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵；步骤S230,将得到的对应于所述多个隐私图片的多个变换特征矩阵，以及所述多个类别标签发送至模型训练方，以使其训练出图片分类模型，用于对待分类的目标图片进行分类。

以上步骤具体如下：

首先，在步骤S210，针对所述多个隐私图片中任意的第一隐私图片，确定与所述第一隐私图片对应的多个特征值，组成第一原始特征矩阵。

在一个实施例中，本步骤中可以包括：将所述第一隐私图片中多个像素所对应的多个像素值，确定为所述多个特征值，进而组成上述第一原始特征矩阵，由此可以得到多个隐私图片对应的多个原始特征矩阵。在一个具体的实施例中，考虑到可以使得确定出的各个原始特征矩阵具有相同的行列数，以便于后续处理，相应地，可以先将各个隐私图片处理成统一尺寸，再确定该统一尺寸下的隐私图片具有的多个像素值，进行得到对应的原始特征矩阵。在一个例子中，其中处理成统一尺寸采用的方法包括图片压缩、图片拉伸、背景色填充等。在一个例子中，其中统一尺寸可以根据实际需要设定，例如，设定为100dpix100dpi，其中dpi（Dots Per Inch）是指每英寸的像素，进一步地，对于黑白图片，其只有一个颜色通道，由此可以将各个像素的像素值分别确定为特征值，组成100行100列矩阵。

在另一个实施例中，本步骤中可以包括：首先，利用所述第一隐私图片中多个像素所对应的多个像素值，构造第一像素矩阵。进一步地，在一个具体的实施例中，可以对第一像素矩阵进行DCT（Discrete Cosine Transform，离散余弦变换)处理，并将处理后得到的矩阵确定为第一原始特征矩阵，通常，第一像素矩阵和第一原始特征矩阵具有相同的行列数。需要说明，DCT变换主要用于数据或图像的压缩，能够将空域的信号转换到频域上，具有良好的去相关性的性能，由此通过DCT变换，可以将第一隐私图片中空域的各个像素值对应转换为频域上的各个特征值，进而得到对应于多个像素值的多个特征值，组成上述第一原始特征矩阵。并且，DCT变换本身是无损的，但在图像编码等领域会给接下来的量化、编码等创造很好的条件。

此外，在实际的图像处理中，DCT变换的复杂度其实是比较高的，所以通常的做法是，将图像进行分块，然后在每一块中对图像进行DCT变换，从而提升变换的效率。基于此，在另一个具体的实施例中，在构造出上述第一像素矩阵后，可以接着该第一像素矩阵进行分块处理，得到对应的多个像素矩阵分块；再对所述多个像素矩阵分块分别进行DCT变换处理，得到对应的多个处理矩阵分块，组成所述第一原始特征矩阵。需要说明，其中构造第一像素矩阵可以参见前述相关描述。另外，在一个更具体的实施例中，上述分块处理对应的分块方式（包括所分成子块的大小和数量），可以由工作人员预先设定，比如设定将第一像素矩阵分成互相独立、无交叠的预定数量的子块。在一个例子中，假定第一像素矩阵为100行100列的矩阵，由此可以将其分成大小为4行4列的25个子块（或称子矩阵），或者将其分成大小为5行5列的20个子块。进一步地，对分块处理得到的多个像素矩阵分块，分别进行DCT变换，可以得到变换后的多个处理矩阵分块，进而组成第一原始特征矩阵。如此，通过对第一隐私图片进行DCT变换，可以得到上述第一原始特征矩阵，具体的DCT变换可以采用现有方式实现，在此不作赘述。

以上，可以确定与任意的第一隐私图片对应的第一原始特征矩阵，依次类推，可以确定出多个隐私图片对应的多个原始特征矩阵。

接着，在步骤S220，对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵。

在一个实施例中，上述预定矩阵区域对应若干（即一个或多个）列编号，相应地，本步骤中可以包括：从所述第一原始特征矩阵中删除与所述若干列编号对应的若干列特征值，得到所述第一变换特征矩阵。在一个具体的实施例中，上述若干列编号的确定包括：基于任意原始特征矩阵具有的总列数，随机确定或人工设定不大于所述总列数的若干数值，作为所述若干列编号。

需要理解，原始特征矩阵的行列数通常是预先设定的，因此，每个原始特征矩阵具有相同的行列数。在一个更具体的实施例中，其中若干列编号的编号个数，可以由工作人员预先设定，需要理解，考虑到数据持有方在希望通过预定变换可以防止泄露原始数据隐私的同时，还希望利用预定变换后得到的数据，训练出来的模型具有良好的预测性能，所以在预定变换的方式为删除数据的情况下，通常会将该编号个数对应的数值个数设置在一个合理的范围内。在一个例子中，可以设定一个百分比（如5%），然后将矩阵的列数乘以该百分比，得到上述若干列编号的编号个数。根据一个具体的例子，假定任意原始特征矩阵的列数为200，将其乘以预定百分比，如5%，得到需要删除的列数为10。进一步地，利用随机算法确定出小于200的10个不同数字，如2，165，7等，作为上述若干列编号，进而从第一原始特征矩阵中删除对应的若干列特征值，得到第一变换特征矩阵。

在另一个实施例中，上述预定矩阵区域对应若干行编号，相应地，本步骤中可以包括：从所述第一原始特征矩阵中删除与所述若干行编号对应的若干行特征值。在一个具体的实施例中，上述若干行编号的确定包括：基于任意原始特征矩阵具有的总行数，随机确定或人工设定不大于所述总行数的若干数值，作为所述若干行编号。此外，对于若干行编号的确定还可以参见前述对若干列编号进行确定的描述，不作赘述。

在又一个实施例中，上述预定矩阵区域对应多个列编号，上述位于预定矩阵区域的部分特征值包括对应该多个列编号的多列特征值。相应地，本步骤中可以包括：按照基于上述多个列编号设定的列间位置互换方式，对上述多列特征值进行位置互换，得到上述第一变换特征矩阵。

在一个具体的实施例中，上述若干列编号的确定包括：基于任意原始特征矩阵具有的总列数，随机确定不大于所述总列数的多个数值，作为所述多个列编号。在一个更具体的实施例中，其中多个列编号的编号个数，可以由工作人员预先设定，需要理解，因为此处预定变换的方式，是交换列数据之间的位置，因此，不会造成特征值的丢失，所以该编号个数可以设置得偏大，以在保证后续训练出的模型具有良好预测性能的同时，进一步降低预定变换后数据被窃取而带来的泄露原始数据隐私的风险。在一个例子中，可以设定一个百分比（如30%），然后将矩阵的列数乘以该百分比，得到上述若干列编号的编号个数，例如，假定任意原始特征矩阵的列数为100，将其乘以预定百分比，如30%，得到需要交换位置的列数为30，基于此，可以利用随机算法确定出小于100的30个不同数字，如1，8，26等，作为上述多个列编号。进一步地，上述列间位置互换方式可以是人工设定的，也可是随机生成的。在一个例子中，假定多个列编号中包括1、20、25、40等，则据此设定的列间位置互换方式可以包括:将第1列和第20列的特征值进行位置互换，将第25列和第40列的特征值进行位置互换。基于如此设定的列间位置互换方式，可以对第一原始特征矩阵中对应多个列编号的多列特征值进行位置互换，得到上述第一变换特征矩阵。

在还一个实施例中，上述预定矩阵区域对应若干分块编号，位于该预定矩阵区域中的部分特征值包括对应若干矩阵分块中的特征值。相应地，本步骤中可以包括：将该若干矩阵分块中的各个特征值（例如，1），对应更改为其自身的相反数（例如，-1），得到上述第一变换特征矩阵。

在一个具体的实施例中，上述第一原始矩阵由上述经过DCT变换得到的多个处理矩阵分块构成，上述若干矩阵分块为其中对应若干分块编号的若干处理矩阵分块。在一个更具体的实施例中，其中若干分块编号可以根据多个处理矩阵分块对应的分块总数而确定，包括随机确定或人工设定。由此，可以将若干处理矩阵分块中的各个特征值，对应更改为其自身的相反数，得到上述第一变换特征矩阵。

在另一个具体的实施例中，对于第一原始特征矩阵，可以按照预定的分块方式将其划分为多个矩阵分块，上述若干分块编号基于该多个矩阵分块对应的数量而确定，包括随机确定或人工设定。由此，可以将多个矩阵分块中对应若干分块编号的若干矩阵分块中特征值，修改为其自身的相反数，得到上述第一变换特征矩阵。

在再一个实施例中，上述预定矩阵区域对应对应多个矩阵元素位置（其中矩阵元素位置可以用行编号和列编号进行标识），基于此，本步骤中可以包括：将位于所述多个矩阵元素位置的特征值修改为统一数值（如0或1），或者，将位于所述多个矩阵元素位置的特征值对应修改为其自身的相反数，进而得到上述第一变换特征矩阵。

由上，可以实现对第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到对应的第一变换特征矩阵。在一个实施例中，其中预定矩阵区域可以对应若干列编号、若干行编号、多个用行列编号标识的元素位置、或若干矩阵分块编号，其中预定变换可以为删除、求取相反数、数据位置互换、使用预设数值填充，等等。基于上述预定矩阵区域和预定变换所构成的预定的矩阵变换方式，可以实现对任意的第一原始特征矩阵的矩阵变换，进而得到多个原始特征矩阵对应的多个变换特征矩阵。需要说明，其中各个原始特征矩阵采用的矩阵变换方式是相同的。

然后，在步骤S230，将得到的对应于所述多个隐私图片的多个变换特征矩阵，以及所述多个类别标签发送至模型训练方，以使其训练出图片分类模型，用于对待分类的目标图片进行分类。具体地，模型训练方可以为模型训练平台，其具有模型训练所需要的强大算力。在一个实施例中，模型训练方可以根据由所述多个变换特征矩阵和多个类别标签构成的图片训练数据集，采用监督学习的方式，直接训练出图片分类模型。

另一方面，在一个实施例中，上述图片分类模型可以基于神经网络实现，如CNN（ConvolutionalNeuralNetworks，卷积神经网络）或DNN（DeepNeuralNetworks，深度神经网络）等。

需要说明，对于模型训练方训练出的图片分类模型，可以发送给数据持有方自行使用，也可以由模型训练方自行使用（此时，模型训练方同时为模型使用方），还可以由模型训练方发送给协定的模型使用方进行使用。

具体地，在一个实施例中，在步骤S230之后，所述方法还可以包括：从所述模型训练方接收所述图片分类模型，并且，获取所述目标图片，并确定所述目标图片对应的目标变换特征矩阵；然后，将所述目标变换特征矩阵输入所述图片分类模型，得到针对所述目标图片的分类结果。需要说明，其中确定目标图片对应的目标变换特征矩阵，与上述确定第一原始图片对应的第一变换特征矩阵所采用的矩阵变换方式是一致的。

在一个实施例中，在步骤S230之后，所述方法还可以包括：将所述矩阵变换方式发送至模型使用方，以使所述模型使用方根据所述矩阵变换方式，确定与所述目标图片对应的目标变换特征矩阵，进而将所述目标变换特征矩阵输入预先获取的所述图片分类模型中，得到针对所述目标图片的分类结果。

在一个具体的实施例中，其中将所述矩阵变换方式发送至模型使用方，包括：首先，利用加密密钥对所述矩阵变换方式进行加密，得到加密数据；然后，将所述加密数据发送至所述模型使用方，以使所述模型使用方利用解密密钥对所述加密数据进行解密而得到所述矩阵变换方式。在一个更具体的实施例中，其中加密密钥和解密密钥，可以是对称密钥，也可以是非对称密钥，具体的密钥生成、传输或同步方式，可以采用现有方式实现，不作赘述。如此，通过对数据加密传输，可以有效防止数据持有方和模型使用方之间的通信被监听，而导致的矩阵变换方式被非法窃取。

综上，在本说明书实施例披露的保护数据隐私的图片分类方法中，数据持有方通过对隐私图片对应的原始特征矩阵进行预定的矩阵变换，得到变换特征矩阵，再将变换特征矩阵和对应的分类标签发送给模型训练方，相较于直接将隐私图片和分类标签交付给模型训练方，可以降低因模型训练方造成隐私图片泄露的风险，并且，使得不法分子至多能窃取到变换特征矩阵，从而降低隐私图片的泄露风险。另一方面，不法分子因不能获知具体的矩阵变换方式，所以无法确定正确的模型输入，也就无法构造对抗样本，或者，因不知道模型的真实输入是经过矩阵变换的，所以无法成功构造出对抗样本。具体地，无法通过暴力尝试的方式（如，对正常样本加入不同的干扰，输入模型观察分类结果）构造出对抗样本；无法通过黑盒攻击（攻击者通过观察模型的输入和输出，推断出图片分类模型的大体结构）构造相似模型，去生成可以迁移使用的对抗样本进行对抗攻击；无法通过白盒攻击（对应攻击者已经拿到图片分类模型的结构和参数的情况），利用梯度反向传播的方式构造对抗样本。进一步地，在发生白盒攻击的情况下，因模型参数会无可避免的留存部分训练数据的信息，即使攻击者根据模型参数检验出该部分训练数据，拿到的也是变换特征矩阵，而非可用于重构隐私图片的原始特征矩阵，因此可以在发生白盒攻击的情况下，降低隐私图片的泄露风险。由此，采用上述图片分类方法，可以同时实现保护隐私图片的数据隐私和防御对图片分类模型的对抗攻击。

根据另一方面的实施例，本说明书实施例还披露另一种图片分类方法。具体地，图3示出本说明书实施例披露的另一种保护数据隐私的图片分类方法流程图，所述方法的执行主体为模型使用方，其可以通过任何具有计算、处理能力的装置、设备、平台、设备集群而实现。如图3所示，所述方法包括以下步骤：

步骤S310，获取待分类的目标图片；步骤S320，确定所述目标图片对应的多个特征值，组成原始特征矩阵；步骤S330,对所述原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到变换特征矩阵，所述预定矩阵区域和预定变换是预先从数据持有方获取而得到；步骤S340，将所述变换特征矩阵输入预先获取的图片分类模型中，得到针对所述目标图片的分类结果，所述图片分类模型由模型训练方根据所述数据持有方发送的图片训练数据集进行训练而得到。

针对以上步骤，首先需要理解，模型训练方从数据持有方获取的预定矩阵区域和预定变换，与数据持有方对原始特征矩阵进行矩阵变换时，所使用的预定矩阵区域和预定变换，是一致的。

在一个实施例中，在步骤S330之前，所述方法还可以包括：从数据持有放接收预定的矩阵变换方式，其中包括上述预定矩阵区域和预定变换。在另一个实施例中，可以从数据持有方接收加密数据，其中加密数据由数据持有放利用加密密钥对矩阵变换方式进行解密而得到，进一步地，可以利用解密密钥对该加密数据进行解密，进而得到该矩阵变换方式。

在一个实施例中，在步骤S340之前，所述方法还可以包括：从模型训练方或数据持有方接收上述图片分类模型。

需要说明，对图3中步骤S310至步骤S340的描述，还可以参对前述实施例中的相关描述。

综上，在本说明书实施例披露的保护数据隐私的图片分类方法中，模型使用方可以利用从数据持有方接收的矩阵变换方式，以及利用模型训练方训练出的图片分类模型，实现对目标图片的分类。并且，攻击者因不能获知具体的矩阵变换方式，所以无法确定正确的模型输入，也就无法通过构造对抗样本，对模型训练方使用的图片分类模型进行对抗攻击。具体地，无法通过暴力尝试的方式构造出对抗样本；无法通过黑盒攻击构造相似模型，去生成可以迁移使用的对抗样本进行对抗攻击；无法通过白盒攻击，利用梯度反向传播的方式构造对抗样本。进一步地，在发生白盒攻击的情况下，因模型参数会无可避免的留存部分训练数据的信息，即使攻击者根据模型参数检验出该部分训练数据，拿到的也是变换特征矩阵，而非可用于重构隐私图片的原始特征矩阵，因此可以在发生白盒攻击的情况下，降低隐私图片的泄露风险。由此，采用上述图片分类方法，可以同时实现保护隐私图片的数据隐私和防御对图片分类模型的对抗攻击。

由前述内容可知，图片分类模型可以由数据持有方和模型训练方，两方共同合作完成训练。考虑到对于既存储有训练数据又具有模型训练能力的平台，其可以自主完成对图片分类模型的训练，本说明书实施例还披露一种图片分类方法。

具体地，图4示出本说明书实施例披露的还一种保护数据隐私的图片分类方法流程图，所述方法的执行主体可以为任何具有计算、处理能力的装置、设备、平台、设备集群。如图4所示，所述方法包括以下步骤：

步骤S410，获取多个隐私图片和对应的多个类别标签；步骤S420，针对所述多个隐私图片中任意的第一隐私图片，确定与所述第一隐私图片对应的多个特征值，组成第一原始特征矩阵；步骤S430，对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵；步骤S440，利用得到的对应于该多个隐私图片的多个变换特征矩阵，以及所述多个类别标签，训练图片分类模型，用于对目标图片进行分类。

对上述步骤S410至步骤S440的描述，可以参见前述实施例中的相关描述，在此不作赘述。

在本说明书实施例披露的保护数据隐私的图片分类方法中，通过对隐私图片对应的原始特征矩阵进行预定的矩阵变换，得到变换特征矩阵，再将根据变换特征矩阵和对应的类别标签训练图片分类模型，可以有效抵御对抗攻击。具体地，攻击者因不能获知具体的矩阵变换方式，所以无法确定正确的模型输入，也就无法通过构造对抗样本，对模型训练方使用的图片分类模型进行对抗攻击。更具体地，无法通过暴力尝试的方式构造出对抗样本；无法通过黑盒攻击构造相似模型，去生成可以迁移使用的对抗样本进行对抗攻击；无法通过白盒攻击，利用梯度反向传播的方式构造对抗样本。进一步地，在发生白盒攻击的情况下，因模型参数会无可避免的留存部分训练数据的信息，即使攻击者根据模型参数检验出该部分训练数据，拿到的也是变换特征矩阵，而非可用于重构隐私图片的原始特征矩阵，因此可以在发生白盒攻击的情况下，降低隐私图片的泄露风险。由此，采用上述图片分类方法，可以同时实现保护隐私图片的数据隐私和防御对图片分类模型的对抗攻击。

由前述内容可知，图片分类模型可以由数据持有方和模型训练方，两方共同合作完成训练，具体地，数据持有方对隐私图片对应的原始特征矩阵进行矩阵变换，得到变换特征矩阵，而模型训练方根据数据持有方发送的该变换特征矩阵和对应的类别标签，直接训练出图片分类模型。基于此，在一种实施方式中，上述图片分类方法还可以拓展至PATE（Private Aggregation of Teacher Ensembles，教师模型整体的私有聚合）的框架中。

具体地，图5示出本说明书实施例披露的又一种保护数据隐私的图片分类方法流程图，所述方法的执行主体为模型训练方，其可以通过任何具有计算、处理能力的装置、设备、平台、设备集群而实现。如图5所示，所述方法包括以下步骤：

步骤S510，接收多个数据持有方各自发送的训练用数据包，得到多个训练用数据包。步骤S520，针对其中任意的第一训练用数据包中的第一图片训练数据集，利用其训练出对应的第一老师图片分类模型，得到对应于所述多个训练用数据包的多个老师图片分类模型。步骤S530，获取预定数量的公用图片，针对其中任意的第一公用图片，确定与其对应的多个公用特征值，组成第一公用原始矩阵。步骤S540，利用所述第一公用原始矩阵，确定针对所述第一公用图片的多个分类结果，具体包括：首先，对所述第一公用原始矩阵中位于第一预定矩阵区域的部分公用特征值，进行第一预定变换，得到第一公用变换矩阵，所述第一预定矩阵区域和第一预定变换来自所述第一训练用数据包中的第一矩阵变换方式；接着，将所述第一公用变换矩阵输入所述第一老师图片分类模型中，得到针对所述第一公用图片的第一分类结果。步骤S550，对所述多个分类结果进行统计，得到针对不同分类结果的原始票数分布。步骤S560，在所述原始票数分布中添加拉普拉斯噪声，得到对应的添加后票数分布。步骤S570，基于所述添加后票数分布，确定其中最高票数所对应的分类结果，作为所述第一公用图片的第一类别标签。步骤S580，利用所述预定数量的公用图片，以及对应确定出的预定数量的类别标签，训练学生图片分类模型，用于对待分类的目标图片进行分类。

以上步骤具体如下：

首先，在步骤S510，接收多个数据持有方各自发送的训练用数据包，得到多个训练用数据包。需要说明，对训练用数据包的描述，可以参见前述实施例中的相关描述。此外，每个训练用数据包括中包括的矩阵变换方式，因为是由各个数据持有方自主设定的，所以通常是互不相同的。另外，每个数据持有方中各自存储的隐私图片集之间通常是没有交集的，互相独立的，因此，对应发送的每个训练用数据包中的多个变换特征矩阵，也是没有交集的。

具体地，对于其中任意的第一数据持有方，其可以将自身确定的第一训练用数据包发送至上述模型训练方，由此模型训练方可以至少根据第一训练用数据包，以及从其他数据持有方接收的其他训练用数据包，实现对老师图片分类模型和学生图片分类模型的训练。

在一个实施例中，第一数据持有方可以利用其持有的加密密钥对第一训练用数据包进行加密，再将得到的第一加密数据包发送给模型训练方，相应地，模型训练方可以根据对应的解密密钥对第一加密数据包进行解密，得到第一训练用数据包。在另一个实施例中，第一数据持有方可以利用加密密钥对其中的第一矩阵变换方式进行加密，进而将得到的第一加密数据和第一图片训练数据集构成第一训练用数据包，发送给模型训练方，相应地，模型训练方可以根据对应的解密密钥对第一训练用数据包中的第一加密数据进行解密，得到第一矩阵变换方式，以及直接获取第一图片训练数据集。如此，通过对数据加密传输，可以有效防止数据持有方和模型训练方之间的通信被监听，而导致的矩阵变换方式和/或图片训练数据集被非法窃取。

接着，在步骤S520，针对其中任意的第一训练用数据包中的第一图片训练数据集，利用其训练出对应的第一老师图片分类模型，得到对应于所述多个训练用数据包的多个老师图片分类模型。需要说明，多个老师图片分类模型可以基于不同的神经网络或算法实现。比如，其中一个可以基于CNN网络实现，另一个可以基于DNN网络实现。

然后，在步骤S530，获取预定数量的公用图片，针对其中任意的第一公用图片，确定与其对应的多个公用特征值，组成第一公用原始矩阵。

需要说明，其中公用图片可以包括从公共数据池中获取的非隐私图片，或者，还可以包括从网络中爬取的公用图片。此外对于预定数量的设定，主要是用于限定对老师图片分类模型的查询次数，具体可以由工作人员根据实现差分隐私效果的实际需求进行设定。

再接着，在步骤S540，利用所述第一公用原始矩阵，确定针对所述第一公用图片的多个分类结果，具体包括：首先，对所述第一公用原始矩阵中位于第一预定矩阵区域的部分公用特征值，进行第一预定变换，得到第一公用变换矩阵，所述第一预定矩阵区域和第一预定变换来自所述第一训练用数据包中的第一矩阵变换方式；接着，将所述第一公用变换矩阵输入所述第一老师图片分类模型中，得到针对所述第一公用图片的第一分类结果。对于此步骤的描述，可以参加前述实施例中的相关描述，不作赘述。

再然后，在步骤S550，对所述多个分类结果进行统计，得到针对不同分类结果的原始票数分布。并且，步骤S560，在所述原始票数分布中添加拉普拉斯噪声，得到对应的添加后票数分布。进一步地，步骤S570，基于所述添加后票数分布，确定其中最高票数所对应的分类结果，作为所述第一公用图片的第一类别标签。

对于其中拉普拉斯噪声的添加，需要说明的是，如果大部分老师图片分类模型都同意某一个分类结果，那么就意味着它不依赖于具体的分散数据集，所以隐私成本很小。但是，如果有两类预测结果有相近的票数，那么这种不一致，或许会泄露隐私信息。因此，在统计票数和取最高票之间，添加额外的一个步骤：引入拉普拉斯噪声，把票数的统计情况打乱，从而保护隐私。

在一个实施例中，步骤S570中可以包括：在所述最高票数大于预定阈值的情况下，将所述最高票数所对应的分类结果，确定为所述第一类别标签；或，在所述最高票数不大于预定阈值的情况下，舍弃所述第一公用图片。在一个具体的实施例中，其中预定阈值可以是随机的，如此可以提供更多的隐私保护。

再接着，在步骤S580，利用所述预定数量的公用图片，以及对应确定出的预定数量的类别标签，训练学生图片分类模型，用于对待分类的目标图片进行分类。在一个实施例中，其中图片分类模型可以基于CNN网络或DNN网络等。对于其中学生图片分类模型的训练，在一个实施例中，可以采用监督学习的方式。在另一个实施例中，可以采用半监督学习的方式，如PATE-G，其中G表示GAN（Generative Adversarial Networks），对于PATE-G的介绍，可以参见现有技术，在此不作赘述。

综上，采用本说明书实施例披露的上述图片分类方法，可以实现在PATE架构下的图片分类，并且，上述多个老师图片分类模型的集结（ensemble），可以使得抵御对抗攻击的效果更好。

以上，主要对图片分类场景下的图片分类方法进行介绍。如前所述，应用图1示出的框架可以训练针对任意业务对象的预测模型，相应地，本说明书实施例还披露一种针对业务对象的预测方法。

具体地，图6示出本说明书实施例披露的保护数据隐私的样本预测方法流程图，所述方法的执行主体为数据持有方，其可以通过任何具有计算、处理能力的装置、设备、平台、设备集群而实现。

首先需要说明，其中数据持有方中存储针对业务对象的多个隐私样本和对应的多个样本标签。在一个实施例中，其中业务对象可以为文本，相应地，可以将针对文本的隐私样本和样本标签分别称为隐私文本和文本分类标签。在一个具体的实施例中，隐私文本可以为日记平台中用户授权使用的日记文本，相应的文本分类标签可以为情感类别标签，如开心、失落、平静等。在另一个具体的实施例中，隐私文本可以为问卷调查平台中收集的用户意见文本，相应的文本分类标签可以为立场类别标签，如支持、反对、中立等。

在另一个实施例中，其中业务对象可以为音频，相应地，可以将针对音频的隐私样本和样本标签分别称为隐私音频和音频分类标签。在一个具体的实施例中，隐私音频可以为录音平台中用户授权使用的录音片段，相应的音频分类标签可以为情感类别标签，如开心、失落、平静等。在另一个具体的实施例中，隐私文本可以为客服平台中存储的用户咨询语音，相应的音频分类标签可以为用户问题类别标签，例如，与花呗相关的问题，或者与余额宝相关的问题等。

在又一个实施例中，其中业务对象可以为用户，相应地，可以将针对用户的隐私样本和样本标签分别称为用户隐私样本和用户分类标签。在一个具体的实施例中，用户隐私样本中可以包括用户的基础属性特征和业务特征。在一个更具体的实施例中，其中基础属性特征可以包括年龄、身份、居住地等。在一个更具体地实施例中，其中业务特征可以基于用户在业务平台进行历史操作的数据而确定，如登录频次、浏览次数、最常浏览页面、最常使用业务，等等。在一个具体的实施例中，其中用户分类标签可以为人群标签，如潜在客户或积极客户等。在一个具体的实施例中，其中用户分类标签可以包括：高风险用户（如欺诈用户）、低风险用户，等等。

在还一个实施例中，其中业务对象可以为基于业务平台发生的业务事件，相应地，可以将针对业务事件的隐私样本和样本标签分别称为业务事件样本和事件分类标签。在一个具体的实施例中，其中业务事件可以为交易事件，相应的交易事件样本中可以包括历史交易数据（例如，金额、时间区段、各个交易方的信息等），交易类别标签可以包括高风险交易、安全交易等。在另一个具体的实施例中，其中业务事件可以为社交事件，相应的社交事件样本中可以包括历史社交数据（例如，社交双方互相发送消息的频次、转账次数、转账金额等），社交类别标签可以包括正常社交、异常社交（如存在某方社交账号被盗用的可能性）等。在又一个具体的实施例中，其中业务事件可以为登录事件，相应的登录事件样本中可以包括历史登录数据（例如，发生登录设备的设备标识、地理位置、网络地址等），登录类别标签可以包括正常登录或异常登录等。

以上对数据持有方中存储的针对业务对象的多个隐私样本和多个样本标签进行介绍。进一步地，如图6所示，所述方法包括以下步骤：

步骤S610，针对所述多个隐私样本中任意的第一隐私样本，确定所述第一隐私样本对应的多个特征值，组成第一原始特征矩阵；步骤S620，对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵；步骤S630，将得到的对应于所述多个隐私样本的多个变换特征矩阵，以及所述多个样本标签发送至模型训练方，以使其训练出针对所述业务对象的预测模型，用于对待预测的目标样本进行预测。

针对以上步骤，具体地：

在一个实施例中，其中隐私样本为上述隐私文本，相应地，步骤S610中可以包括：先对隐私文本进行分词处理，得到多个分词，再对各个分词进行词嵌入处理，得到多个词向量（可以将词向量中的元素理解为特征值），组成上述第一原始特征矩阵。需要说明，其中分词处理和词嵌入处理都可以采用现有技术实现，不作赘述。进一步地，步骤S630中针对业务对象的预测模型可以为文本分类模型或文本打分模型。在一个具体的实施例中，该文本分类模型或文本打分模型，可以基于textCNN网络、DNN网络或LSTM（Long Short-TermMemory，长短期记忆网络）实现。

在一个实施例中，其中隐私样本为上述隐私音频，相应地，步骤S610中可以包括：先对音频进行时频转换处理，得到对应的频谱数据，将频谱数据中包括的多个数值作为多个特征值，组成上述第一原始特征矩阵。需要说明，其中时频转换处理可以采用现有技术实现，不作赘述。进一步地，步骤S630中针对业务对象的预测模型可以为音频分类模型。在一个具体的实施例中，该音频分类模型，可以基于CNN网络或DNN网络实现。

在一个实施例中，其中隐私样本为上述业务事件样本，相应地，步骤S610中可以包括：对业务事件样本中的各个特征（如用户年龄、性别等用户属性特征、或业务操作频次、操作时间区段等业务操作特征）进行独热（one-hot）编码，得到各个特征对应的编码向量（可以将编码向量中的元素理解为特征值），组成上述第一原始特征矩阵。进一步地，步骤S630中针对业务对象的预测模型可以为针对业务事件的分类模型或打分模型。在一个具体的实施例中，该分类模型或打分模型，可以基于CNN网络或DNN网络实现。

需要说明，对步骤S610-步骤S630的描述，还可以参见前述实施例中的相关描述。

综上，在本说明书实施例披露的保护数据隐私的样本预测方法中，数据持有方通过对隐私样本对应的原始特征矩阵进行预定的矩阵变换，得到变换特征矩阵，再将变换特征矩阵和对应的样本标签发送给模型训练方，相较于直接将隐私样本和分类标签交付给模型训练方，可以降低因模型训练方造成隐私样本泄露的风险，并且，使得不法分子至多能窃取到变换特征矩阵，从而降低隐私样本的泄露风险。另一方面，不法分子因不能获知具体的矩阵变换方式，所以无法确定正确的模型输入，也就无法构造对抗样本。具体地，无法通过暴力尝试的方式构造出对抗样本；无法通过黑盒攻击构造相似模型，去生成可以迁移使用的对抗样本进行对抗攻击；无法通过白盒攻击，利用梯度反向传播的方式构造对抗样本。进一步地，在发生白盒攻击的情况下，因模型参数会无可避免的留存部分训练数据的信息，即使攻击者根据模型参数检验出该部分训练数据，拿到的也是变换特征矩阵，而非可用于重构隐私样本的原始特征矩阵，因此可以在发生白盒攻击的情况下，降低隐私样本的泄露风险。由此，采用上述样本预测方法，可以同时实现保护隐私样本的数据隐私和防御对样本预测模型的对抗攻击。

上述实施例中披露图片分类方法、样本预测方法。相对应地，本说明书实施例还披露图片分类装置、样本预测装置。具体如下：

图7示出本说明书实施例披露的一种保护数据隐私的图片分类装置结构图，所述装置集成于数据持有方，所述数据持有方中存储多个隐私图片和对应的多个类别标签。如图7所示，所述装置700包括：

矩阵确定单元710，配置为针对所述多个隐私图片中任意的第一隐私图片，确定与所述第一隐私图片对应的多个特征值，组成第一原始特征矩阵。矩阵变换单元720，配置为对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵。训练数据发送单元730，配置为将得到的对应于所述多个隐私图片的多个变换特征矩阵，以及所述多个类别标签发送至模型训练方，以使其训练出图片分类模型，用于对待分类的目标图片进行分类。

在一个实施例中，矩阵确定单元710具体配置为：将所述第一隐私图片中多个像素所对应的多个像素值，确定为所述多个特征值。

在一个实施例中，所述预定矩阵区域对应若干列编号和/或若干行编号；其中，矩阵变换单元720具体配置为：从所述第一原始特征矩阵中删除与所述若干列编号对应的若干列特征值，和/或，删除与所述若干行编号对应的若干行特征值，得到所述第一变换特征矩阵。

在一个更具体的实施例中，所述预定矩阵区域基于区域确定单元而确定，该区域确定单元具体配置为：基于任意原始特征矩阵具有的总列数，随机确定出不大于所述总列数的若干数值，作为所述若干列编号；和/或，基于任意原始特征矩阵具有的总行数，随机确定出不大于所述总行数的若干数值，作为所述若干行编号。

在一个实施例中，所述预定矩阵区域对应多个列编号，所述部分特征值包括对应所述多个列编号的多列特征值；其中矩阵变换单元720具体配置为：按照基于所述多个列编号设定的列间位置互换方式，对所述多列特征值进行位置互换，得到所述第一变换特征矩阵。

在一个实施例中，其中矩阵确定单元710具体配置为：利用所述第一隐私图片中多个像素所对应的多个像素值，构造第一像素矩阵；对所述第一像素矩阵进行分块处理，得到对应的多个像素矩阵分块；对所述多个像素矩阵分块分别进行离散余弦变换DCT处理，得到对应的多个处理矩阵分块，组成所述第一原始特征矩阵。

在一个实施例中，所述预定矩阵区域对应若干分块编号，所述部分特征值包括与所述若干分块编号对应的若干处理矩阵分块中的各个特征值；其中矩阵变换单元720具体配置为：将所述若干处理矩阵分块中的各个特征值，对应更改为其自身的相反数，得到所述第一变换特征矩阵。

在一个实施例中，所述装置700还包括：模型接收单元，配置为从所述模型训练方接收所述图片分类模型；目标图片获取单元，配置为获取所述目标图片，并确定所述目标图片对应的目标变换特征矩阵；图片分类单元，配置为将所述目标变换特征矩阵输入所述图片分类模型，得到针对所述目标图片的分类结果。

在一个实施例中，所述预定矩阵区域和预定变换构成预定的矩阵变换方式，所述装置700还包括：变换方式发送单元740，配置为将所述矩阵变换方式发送至模型使用方，以使所述模型使用方根据所述矩阵变换方式，确定与所述目标图片对应的目标变换特征矩阵，进而将所述目标变换特征矩阵输入预先获取的所述图片分类模型中，得到针对所述目标图片的分类结果。

在一个具体的实施例中，其中变换方式发送单元740具体配置为：利用加密密钥对所述矩阵变换方式进行加密，得到加密数据；将所述加密数据发送至所述模型使用方，以使所述模型使用方利用解密密钥对所述加密数据进行解密而得到所述矩阵变换方式。

在一个实施例中，所述预定矩阵区域和预定变换构成预定的矩阵变换方式，所述多个变换特征矩阵和多个类别标签构成图片训练数据集，所述矩阵变换方式和所述图片训练数据集构成训练用数据包；其中训练数据发送单元730具体配置为：将所述训练用数据包发送至模型训练方，以使其至少根据所述训练用数据包，以及从其他数据持有方接收的其他训练用数据包，训练出所述图片分类模型，用于对待分类的目标图片进行分类。

图8示出本说明书实施例披露的另一种保护数据隐私的图片分类装置结构图，所述装置800集成于模型使用方。如图8所示，所述装置800包括：

目标图片获取单元810，配置为获取待分类的目标图片。矩阵确定单元820，配置为确定所述目标图片对应的多个特征值，组成原始特征矩阵。矩阵变换单元830，配置为对所述原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到变换特征矩阵，所述预定矩阵区域和预定变换是预先从数据持有方获取而得到。分类预测单元840，配置为将所述变换特征矩阵输入预先获取的图片分类模型中，得到针对所述目标图片的分类结果，所述图片分类模型由模型训练方根据所述数据持有方发送的图片训练数据集进行训练而得到。

图9示出本说明书实施例披露的还一种保护数据隐私的图片分类装置结构图。如图9所示，所述装置900包括：

隐私数据获取单元910，配置为获取多个隐私图片和对应的多个类别标签。矩阵确定单元920，配置为针对所述多个隐私图片中任意的第一隐私图片，确定与所述第一隐私图片对应的多个特征值，组成第一原始特征矩阵。矩阵变换单元930，配置为对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵。模型训练单元940，配置为利用得到的对应于所述多个隐私图片的多个变换特征矩阵，以及所述多个类别标签，训练图片分类模型，用于对目标图片进行分类。

图10示出本说明书实施例披露的又一种保护数据隐私的图片分类装置结构图，所述装置1000集成于模型训练方，所述装置1000包括：

隐私数据接收单元1010，配置为接收多个数据持有方各自发送的上述训练用数据包，得到多个训练用数据包。老师模型训练单元1020，配置为针对其中任意的第一训练用数据包中的第一图片训练数据集，利用其训练出对应的第一老师图片分类模型，得到对应于所述多个训练用数据包的多个老师图片分类模型。矩阵确定单元1030，配置为获取预定数量的公用图片，针对其中任意的第一公用图片，确定与其对应的多个公用特征值，组成第一公用原始矩阵。老师分类单元1040，配置为利用所述第一公用原始矩阵，确定针对所述第一公用图片的多个分类结果，具体包括：矩阵变换子单元1041，配置为对所述第一公用原始矩阵中位于第一预定矩阵区域的部分公用特征值，进行第一预定变换，得到第一公用变换矩阵，所述第一预定矩阵区域和第一预定变换来自所述第一训练用数据包中的第一矩阵变换方式；老师分类子单元1042，配置为将所述第一公用变换矩阵输入所述第一老师图片分类模型中，得到针对所述第一公用图片的第一分类结果。票数统计单元1050，配置为对所述多个分类结果进行统计，得到针对不同分类结果的原始票数分布。噪声添加单元1060，配置为在所述原始票数分布中添加拉普拉斯噪声，得到对应的添加后票数分布。标签确定单元1070，配置为基于所述添加后票数分布，确定其中最高票数所对应的分类结果，作为所述第一公用图片的第一类别标签。学生模型训练单元1080，配置为利用所述预定数量的公用图片，以及对应确定出的预定数量的类别标签，训练学生图片分类模型，用于对待分类的目标图片进行分类。

图11示出本说明书实施例披露的保护数据隐私的样本预测装置结构图，所述装置1100集成于数据持有方，所述数据持有方中存储针对业务对象的多个隐私样本和对应的多个样本标签，所述装置1100包括：

矩阵确定单元1110，配置为针对所述多个隐私样本中任意的第一隐私样本，确定所述第一隐私样本对应的多个特征值，组成第一原始特征矩阵；矩阵变换单元1120，配置为对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵；训练数据发送单元1130，配置为将得到的对应于所述多个隐私样本的多个变换特征矩阵，以及所述多个样本标签发送至模型训练方，以使其训练出针对所述业务对象的预测模型，用于对待预测的目标样本进行预测。

根据又一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2或图3或图4或图5或图6所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2或图3或图4或图5或图6所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种保护数据隐私的图片分类方法，所述方法的执行主体为模型训练方，所述方法包括：

接收多个数据持有方各自发送的训练用数据包，得到多个训练用数据包；其中任意的第一训练用数据包由第一数据持有方基于其存储的多个隐私图片和对应的多个类别标签，实施以下步骤而确定：

针对所述多个隐私图片中任意的第一隐私图片，确定与所述第一隐私图片对应的多个特征值，组成第一原始特征矩阵；

对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵；

其中，对应于所述多个隐私图片的多个变换特征矩阵以及所述多个类别标签构成第一图片训练数据集，所述预定矩阵区域和预定变换构成预定的第一矩阵变换方式，所述第一图片训练数据集和第一矩阵变换方式构成所述第一训练用数据包；

针对所述第一训练用数据包中的第一图片训练数据集，利用其训练出对应的第一老师图片分类模型，从而得到对应于所述多个训练用数据包的多个老师图片分类模型；

获取预定数量的公用图片，针对其中任意的第一公用图片，确定与其对应的多个公用特征值，组成第一公用原始矩阵；

利用所述第一公用原始矩阵，确定针对所述第一公用图片的多个分类结果，具体包括：

对所述第一公用原始矩阵中位于所述预定矩阵区域的部分公用特征值，进行所述预定变换，得到第一公用变换矩阵，所述预定矩阵区域和预定变换来自所述第一训练用数据包中的第一矩阵变换方式；

将所述第一公用变换矩阵输入所述第一老师图片分类模型中，得到针对所述第一公用图片的第一分类结果；

对所述多个分类结果进行统计，得到针对不同分类结果的原始票数分布；

在所述原始票数分布中添加拉普拉斯噪声，得到对应的添加后票数分布；

基于所述添加后票数分布，确定其中最高票数所对应的分类结果，作为所述第一公用图片的第一类别标签；

利用所述预定数量的公用图片，以及对应确定出的预定数量的类别标签，训练学生图片分类模型，用于对待分类的目标图片进行分类。

2.根据权利要求1所述的方法，其中，确定与所述第一隐私图片对应的多个特征值，包括：

将所述第一隐私图片中多个像素所对应的多个像素值，确定为所述多个特征值。

3.根据权利要求1或2所述的方法，其中，所述预定矩阵区域对应若干列编号和/或若干行编号；其中，对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵，包括：

从所述第一原始特征矩阵中删除与所述若干列编号对应的若干列特征值，和/或，删除与所述若干行编号对应的若干行特征值，得到所述第一变换特征矩阵。

4.根据权利要求3所述的方法，其中，所述预定矩阵区域基于以下步骤预先确定：

基于任意原始特征矩阵具有的总列数，随机确定出不大于所述总列数的若干数值，作为所述若干列编号；和/或，

基于任意原始特征矩阵具有的总行数，随机确定出不大于所述总行数的若干数值，作为所述若干行编号。

5.根据权利要求1或2所述的方法，其中，所述预定矩阵区域对应多个列编号，所述部分特征值包括对应所述多个列编号的多列特征值；

其中，对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵，包括：

按照基于所述多个列编号设定的列间位置互换方式，对所述多列特征值进行位置互换，得到所述第一变换特征矩阵。

6.根据权利要求1所述的方法，其中，确定与所述第一隐私图片对应的多个特征值，组成第一原始特征矩阵，包括：

利用所述第一隐私图片中多个像素所对应的多个像素值，构造第一像素矩阵；

对所述第一像素矩阵进行分块处理，得到对应的多个像素矩阵分块；

对所述多个像素矩阵分块分别进行离散余弦变换DCT处理，得到对应的多个处理矩阵分块，组成所述第一原始特征矩阵。

7.根据权利要求6所述的方法，其中，所述预定矩阵区域对应若干分块编号，所述部分特征值包括与所述若干分块编号对应的若干处理矩阵分块中的各个特征值；其中，对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵，包括：

将所述若干处理矩阵分块中的各个特征值，对应更改为其自身的相反数，得到所述第一变换特征矩阵。

8.根据权利要求1所述的方法，其中，在将得到的对应于所述多个隐私图片的多个变换特征矩阵，以及所述多个类别标签发送至模型训练方之后，所述方法还包括：

从所述模型训练方接收所述图片分类模型；

获取所述目标图片，并确定所述目标图片对应的目标变换特征矩阵；

将所述目标变换特征矩阵输入所述图片分类模型，得到针对所述目标图片的分类结果。

9.根据权利要求1所述的方法，其中，基于所述添加后票数分布，确定其中最高票数所对应的分类结果，作为所述第一公用图片的第一类别标签，包括：

在所述最高票数大于预定阈值的情况下，将所述最高票数所对应的分类结果，确定为所述第一类别标签；或，

在所述最高票数不大于预定阈值的情况下，舍弃所述第一公用图片。

10.一种保护数据隐私的样本预测方法，所述方法的执行主体为模型训练方，所述方法包括：

接收多个数据持有方各自发送的训练用数据包，得到多个训练用数据包；其中任意的第一训练用数据包由第一数据持有方基于其中存储的针对业务对象的多个隐私样本和对应的多个样本标签，实施以下步骤而确定：

针对所述多个隐私样本中任意的第一隐私样本，确定所述第一隐私样本对应的多个特征值，组成第一原始特征矩阵；

其中，对应于所述多个隐私样本的多个变换特征矩阵以及所述多个样本标签构成第一样本训练数据集，所述预定矩阵区域和预定变换构成预定的第一矩阵变换方式，所述第一样本训练数据集和第一矩阵变换方式构成所述第一训练用数据包；

针对所述第一训练用数据包中的第一样本训练数据集，利用其训练出对应的第一老师样本分类模型，从而得到对应于所述多个训练用数据包的多个老师样本分类模型；

获取预定数量的公用样本，针对其中任意的第一公用样本，确定与其对应的多个公用特征值，组成第一公用原始矩阵；

利用所述第一公用原始矩阵，确定针对所述第一公用样本的多个分类结果，具体包括：

将所述第一公用变换矩阵输入所述第一老师样本分类模型中，得到针对所述第一公用样本的第一分类结果；

基于所述添加后票数分布，确定其中最高票数所对应的分类结果，作为所述第一公用样本的第一类别标签；

利用所述预定数量的公用样本，以及对应确定出的预定数量的类别标签，训练学生样本分类模型，用于对待分类的目标样本进行分类。

11.根据权利要求10所述的方法，其中，所述业务对象为以下中的任一种：文本、音频、用户、交易事件、社交事件、登录事件。

12.一种保护数据隐私的图片分类装置，所述装置集成于模型训练方，所述装置包括：

隐私数据接收单元，配置为接收多个数据持有方各自发送的训练用数据包，得到多个训练用数据包；其中任意的第一训练用数据包由第一数据持有方基于其中存储的多个隐私图片和对应的多个类别标签，通过以下单元确定：

原始矩阵确定单元，配置为针对所述多个隐私图片中任意的第一隐私图片，确定与所述第一隐私图片对应的多个特征值，组成第一原始特征矩阵；

矩阵变换单元，配置为对所述第一原始特征矩阵中位于预定矩阵区域的部分特征值，进行预定变换，得到第一变换特征矩阵；

老师模型训练单元，配置为针对所述第一训练用数据包中的第一图片训练数据集，利用其训练出对应的第一老师图片分类模型，从而得到对应于所述多个训练用数据包的多个老师图片分类模型；

矩阵确定单元，配置为获取预定数量的公用图片，针对其中任意的第一公用图片，确定与其对应的多个公用特征值，组成第一公用原始矩阵；

老师分类单元，配置为利用所述第一公用原始矩阵，确定针对所述第一公用图片的多个分类结果，具体包括：

矩阵变换子单元，配置为对所述第一公用原始矩阵中位于第一预定矩阵区域的部分公用特征值，进行第一预定变换，得到第一公用变换矩阵，所述第一预定矩阵区域和第一预定变换来自所述第一训练用数据包中的第一矩阵变换方式；

老师分类子单元，配置为将所述第一公用变换矩阵输入所述第一老师图片分类模型中，得到针对所述第一公用图片的第一分类结果；

票数统计单元，配置为对所述多个分类结果进行统计，得到针对不同分类结果的原始票数分布；

噪声添加单元，配置为在所述原始票数分布中添加拉普拉斯噪声，得到对应的添加后票数分布；

标签确定单元，配置为基于所述添加后票数分布，确定其中最高票数所对应的分类结果，作为所述第一公用图片的第一类别标签；

学生模型训练单元，配置为利用所述预定数量的公用图片，以及对应确定出的预定数量的类别标签，训练学生图片分类模型，用于对待分类的目标图片进行分类。

13.一种保护数据隐私的样本预测装置，所述装置集成于模型训练方，所述装置包括：

隐私数据接收单元，配置为接收多个数据持有方各自发送的训练用数据包，得到多个训练用数据包；其中任意的第一训练用数据包由第一数据持有方基于其中存储的多个隐私样本和对应的多个类别标签，通过以下单元确定：

原始矩阵确定单元，配置为针对所述多个隐私样本中任意的第一隐私样本，确定与所述第一隐私样本对应的多个特征值，组成第一原始特征矩阵；

其中，对应于所述多个隐私样本的多个变换特征矩阵以及所述多个类别标签构成第一样本训练数据集，所述预定矩阵区域和预定变换构成预定的第一矩阵变换方式，所述第一样本训练数据集和第一矩阵变换方式构成所述第一训练用数据包；

老师模型训练单元，配置为针对所述第一训练用数据包中的第一样本训练数据集，利用其训练出对应的第一老师样本分类模型，从而得到对应于所述多个训练用数据包的多个老师样本分类模型；

矩阵确定单元，配置为获取预定数量的公用样本，针对其中任意的第一公用样本，确定与其对应的多个公用特征值，组成第一公用原始矩阵；

老师分类单元，配置为利用所述第一公用原始矩阵，确定针对所述第一公用样本的多个分类结果，具体包括：

老师分类子单元，配置为将所述第一公用变换矩阵输入所述第一老师样本分类模型中，得到针对所述第一公用样本的第一分类结果；

标签确定单元，配置为基于所述添加后票数分布，确定其中最高票数所对应的分类结果，作为所述第一公用样本的第一类别标签；

学生模型训练单元，配置为利用所述预定数量的公用样本，以及对应确定出的预定数量的类别标签，训练学生样本分类模型，用于对待分类的目标样本进行分类。

14.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-11中任一项的所述的方法。

15.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-11中任一项所述的方法。