CN112800467B

CN112800467B - 基于数据隐私保护的在线模型训练方法、装置以及设备

Info

Publication number: CN112800467B
Application number: CN202110187563.6A
Authority: CN
Inventors: 曹佳炯; 丁菁汀
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2022-08-26
Anticipated expiration: 2041-02-18
Also published as: CN112800467A

Abstract

本说明书实施例公开了一种基于数据隐私保护的在线模型训练方法、装置以及设备。方案包括：客户端在与云端交互后，确定基准模型。在对模型进行更新的过程中，获取用户数据，对用户数据进行重编码，得到图像形式数据。之后，对图像形式数据进行矩阵变换处理，得到脱敏数据，并将脱敏数据加密后，发送给云端，以及消除本地的用户数据。之后，客户端接收云端根据加密后的脱敏数据确定的模型梯度，并根据模型梯度更新本地的基准模型。

Description

基于数据隐私保护的在线模型训练方法、装置以及设备

技术领域

本说明书涉及计算机软件技术领域，尤其涉及基于数据隐私保护的在线模型训练方法、装置以及设备。

背景技术

随着技术的发展，机器学习、深度学习在各个领域得到了广泛应用。并且，由于客户端侧设备的计算能力的增长，机器学习模型、深度学习模型逐渐向客户端一侧迁移。

目前，将模型部署在客户端侧设备时，通过客户端存储的数据，直接在客户端对模型进行在线训练与更新。

基于此，需要能够更加有效保护数据隐私安全的方案。

发明内容

本说明书一个或多个实施例提供一种方法、装置、设备以及存储介质，用以解决如下技术问题：需要能够更加有效保护数据隐私安全的方案。

为解决上述技术问题，本说明书一个或多个实施例是这样实现的：

本说明书一个或多个实施例提供的一种基于数据隐私保护的在线模型训练方法，应用于客户端，所述方法包括：

通过与云端进行交互，确定基准模型；

获取用户数据，并对所述用户数据进行重编码，得到图像形式数据；

通过对所述图像形式数据进行矩阵变换处理，得到脱敏数据；

对所述脱敏数据加密后，发送给所述云端，并消除本地的所述用户数据；

接收所述云端根据所述加密后的脱敏数据确定的模型梯度；

根据所述模型梯度，更新本地的所述基准模型。

本说明书一个或多个实施例提供的一种基于数据隐私保护的在线模型训练方法，应用于云端，所述方法包括：

接收客户端加密后的脱敏数据，进行解密，得到所述脱敏数据；

对所述脱敏数据进行逆矩阵变换处理，得到图像形式数据；

对所述图像形式数据进行反编码，得到用户数据；

根据所述用户数据，计算确定模型梯度；

对所述模型梯度加密后，发送给所述客户端进行模型更新。

本说明书一个或多个实施例提供的一种基于数据隐私保护的在线模型训练装置，应用于客户端，所述装置包括：

基准模型确定模块，通过与云端进行交互，确定基准模型；

重编码模块，获取用户数据，并对所述用户数据进行重编码，得到图像形式数据；

变换处理模块，通过对所述图像形式数据进行矩阵变换处理，得到脱敏数据；

数据发送模块，对所述脱敏数据加密后，发送给所述云端，并消除本地的所述用户数据；

梯度接收模块，接收所述云端根据所述加密后的脱敏数据确定的模型梯度；

更新模块，根据所述模型梯度，更新本地的所述基准模型。

本说明书一个或多个实施例提供的一种基于数据隐私保护的在线模型训练装置，应用于云端，所述装置包括：

数据接收模块，接收客户端加密后的脱敏数据，进行解密，得到所述脱敏数据；

逆变换处理模块，对所述脱敏数据进行逆矩阵变换处理，得到图像形式数据；

反编码模块，对所述图像形式数据进行反编码，得到用户数据；

梯度确定模块，根据所述用户数据，计算确定模型梯度；

梯度发送模块，对所述模型梯度加密后，发送给所述客户端进行模型更新。

本说明书一个或多个实施例提供的一种基于数据隐私保护的在线模型训练设备，，应用于客户端，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

通过与云端进行交互，确定基准模型；

接收所述云端根据所述加密后的脱敏数据确定的模型梯度；

根据所述模型梯度，更新本地的所述基准模型。

本说明书一个或多个实施例提供的一种基于数据隐私保护的在线模型训练设备，应用于云端，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

对所述脱敏数据进行逆矩阵变换处理，得到图像形式数据；

对所述图像形式数据进行反编码，得到用户数据；

根据所述用户数据，计算确定模型梯度；

对所述模型梯度加密后，发送给所述客户端进行模型更新。

本说明书一个或多个实施例提供的一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

通过与云端进行交互，确定基准模型；

接收所述云端根据所述加密后的脱敏数据确定的模型梯度；

根据所述模型梯度，更新本地的所述基准模型。

对所述脱敏数据进行逆矩阵变换处理，得到图像形式数据；

对所述图像形式数据进行反编码，得到用户数据；

根据所述用户数据，计算确定模型梯度；

对所述模型梯度加密后，发送给所述客户端进行模型更新。

本说明书一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果：通过不在本地存储用户数据，将用户数据上传至云端，由云端进行训练，可防止存储在本地的用户数据中的隐私内容的泄露，保护用户数据的安全性。同时，基于用户数据的形式，对非图像数据进行重编码，以及矩阵变换处理，以实现对用户数据的脱敏处理，能以多重保障的方式，防止他人恶意窃取数据，进一步加强用户数据的安全性。并且，通过客户端与云端对基准模型的确认，可保证两端模型的一致性。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例提供的应用于客户端的一种基于数据隐私保护的在线模型训练方法的流程示意图；

图2为本说明书一个或多个实施例提供的应用于云端的一种基于数据隐私保护的在线模型训练方法的流程示意图

图3为本说明书一个或多个实施例提供的一种应用场景下，图1、图2中方法对应的一种详细的方法流程示意图

图4为本说明书一个或多个实施例提供的应用于客户端的一种基于数据隐私保护的在线模型训练装置的结构示意图；

图5为本说明书一个或多个实施例提供的应用于云端的一种基于数据隐私保护的在线模型训练装置的结构示意图；

图6为本说明书一个或多个实施例提供的应用于客户端的一种基于数据隐私保护的在线模型训练设备的结构示意图；

图7为本说明书一个或多个实施例提供的应用于云端的一种基于数据隐私保护的在线模型训练设备的结构示意图。

具体实施方式

本说明书实施例提供一种基于数据隐私保护的在线模型训练方法、装置、设备以及存储介质。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

图1为本说明书一个或多个实施例提供的应用于客户端的一种基于数据隐私保护的在线模型训练方法的流程示意图。该方法可以应用于不同的业务领域，比如，互联网金融业务领域、电商业务领域、公务业务领域等。该流程可以由相应领域的客户端的计算设备(比如，支付业务对应的智能移动终端等) 执行，流程中的某些输入参数或者中间结果允许人工干预调节，以帮助提高准确性。

图1中的流程可以包括以下步骤：

S102：通过与云端进行交互，确定基准模型。

客户端存储有模型，模型将获取到的用户数据作为输入，计算输出相应的结果。其中，模型可以是识别模型、分类模型、目标检测模型等深度学习模型，具体根据该方法所应用的业务场景确定。

云端存储有与客户端相对应的模型。客户端的模型与云端的模型的初始结构、模型参数均相同。在客户端模型更新的过程中，云端模型进行同步更新，但可能存在由于通信异常导致客户端与云端模型未同步更新、模型参数出现差异的情况。因此，通过确定基准模型，可确保客户端的模型与云端的模型保持一致，以便于后续再对客户端模型进行更新。

S104：获取用户数据，并对用户数据进行重编码，得到图像形式数据。

用户数据通常包含涉及隐私的内容，比如用户的姓名、证件信息、支付账号等。因此，客户端在获取用户数据后，需要对用户数据进行安全性处理，以防止用户隐私的泄露。

用户数据可能包括文本数据、图像数据、音频数据等。文本数据包括用户账户、用户身份等，图像数据包括人脸图像、指纹图像、虹膜图像等，音频数据包括用户声音等。

在本说明书一个或多个实施例中，针对用户数据的不同形式，可分别进行不同的处理。具体可将用户数据分为图像数据与非图像数据两种形式，非图像数据包括上述文本数据、音频数据等不是图像形式的数据。

客户端在对用户数据进行处理之前，可对获取的用户数据进行识别，判断用户数据是否为图像数据。若获取到的用户数据不是图像数据(即为非图像数据)，则客户端可对该非图像数据进行重编码，将非图像形式的数据编码为图像形式数据。

其中，图像形式数据表示由大量数据点组成的矩阵数据。客户端可通过任意一种能够将数据编码为图像形式数据的算法，对用户数据进行重编码处理，本说明书对此不做限定。

通过对非图像数据进行重编码，转换为图像形式的数据，使得用户数据可隐藏在图像中，不能被直接获取与知悉，这样能实现对文本数据等非图像数据的脱敏处理，隐藏非图像数据中的隐私内容，增强对用户数据的安全保护，防止用户数据中的隐私内容泄露。

例如，用户数据为总长为N的向量，通过重编码，可得到a*b的二维图像。其中，2N>a*b>N，超出N的部分可用-inf代替。

S106：通过对所述图像形式数据进行矩阵变换处理，得到脱敏数据。

客户端在得到图像形式数据后，可对图像形式数据进行矩阵变换处理，以进一步打乱图像形式数据中的矩阵数据排列的规律性，对用户数据进行进一步脱敏，得到最终的脱敏数据。脱敏数据可有效隐藏用户数据中的隐私内容，防止用户数据中的隐私内容的泄露，增强用户数据的安全性。

S108：对所述脱敏数据加密后，发送给所述云端，并消除本地的所述用户数据。

客户端在对用户数据进行处理后，确保已将用户数据处理为脱敏数据。之后，客户端可对脱敏数据进行加密，并将加密后的数据发送到云端，由云端进行后续处理。通过对脱敏数据进行加密，可保护脱敏数据在传输过程中的安全性，防止他人恶意窃取用户数据，增强对用户数据的安全保护。

并且，为了保护用户数据的安全性，客户端可将本地的用户数据消除，不将用户数据存储在客户端本地，以防止用户数据存储在本地时，有隐私泄露的风险。

其中，客户端可在将用户数据发送至云端后，对用户数据进行清除，或者，客户端也可在对用户数据开始处理后，确保获取到的用户数据后续可到达云端时，比如对用户数据进行重编码后，即对用户数据进行清除。具体清除用户数据的时间，可根据需要设置，本申请对此不做限定。

另外，客户端在与云端交互、进行用户数据传输的过程中，可能存在数据交互的时间间隔较长的情况，比如客户端每三天上传一次用户数据给云端。则客户端在获取到用户数据后，需对用户数据进行脱敏处理后，再等待将用户数据上传至云端，并将原始的用户数据从本地清除。这样使得客户端存储的用户数据均为脱敏处理后的脱敏数据，防止将未脱敏的用户数据存储在客户端时，泄露用户数据中的隐私内容。

S110：接收所述云端根据所述加密后的脱敏数据确定的模型梯度。

客户端将加密的脱敏数据发送至云端后，由云端根据脱敏数据，计算确定模型梯度，并将模型梯度下发给客户端。

S112：根据所述模型梯度，更新本地的所述基准模型。

在步骤102中，由于客户端已预先通过与云端交互，确定了基准模型。因此，客户端与云端的模型是一致的。客户端可直接根据云端下发的模型梯度，作为本地模型的梯度，更新本地的基准模型，实现模型的在线训练。

客户端对本地模型进行更新后，可根据更新时间，确定模型对应的时间戳，以通过时间戳对更新过程中不同版本的模型进行区分。

本方法通过不在本地存储用户数据，将用户数据上传至云端，由云端进行训练，可防止存储在本地的用户数据中的隐私内容的泄露，保护用户数据的安全性。同时，基于用户数据的形式，对非图像数据进行重编码，以及矩阵变换处理，以实现对用户数据的脱敏处理，能以多重保障的方式，防止他人恶意窃取数据，进一步加强用户数据的安全性。并且，通过客户端与云端对基准模型的确认，可保证两端模型的一致性。

基于图1的方法，本说明书还提供了该方法的一些具体实施方案和扩展方案，下面继续进行说明。

在本说明书一个或多个实施例中，客户端向云端发送本地模型的摘要信息与时间戳，与云端的模型的摘要信息与时间戳进行比较，确定两者是否一致，从而确定客户端的模型与云端的模型是否一致。若比较的结果为是，两端的模型一致，则客户端可确定本地模型为基准模型，继续执行后续对本地模型的更新过程。若比较的结果为否，两端的模型不一致，则需从客户端的模型与云端的模型中，确定出一个模型，作为基准模型，并根据基准模型，对另一个模型进行更新，以使客户端与云端的模型保持一致。

其中，摘要信息可通过MD5信息摘要算法等得到。

在本说明书一个或多个实施例中，矩阵变换处理的方法可以是小波变换处理，随机行列变换处理，或者其他能够起到类似作用的矩阵变换处理方法。

具体地，在通过小波变换处理对图像形式数据进行处理时，首先，确定小波变换处理对于图像形式数据的频域和时域的处理能力，包括时移参数、尺度参数等。之后，根据确定出的小波变换的处理能力，以及指定域的敏感目标，对图像形式数据的对应区域(即含有敏感目标的区域)进行小波变换处理，以得到脱敏数据。

通过小波变换处理，能够对敏感目标(即隐私内容)同时进行时域与频域上的处理，实现数据脱敏，保护用户数据的安全性，同时能够通过压缩提取图像形式数据的特征，便于后续进行模型的训练。

进一步地，在对图像形式数据进行小波变换处理时，可通过三重小波变换处理方法，对图像形式数据进行多次小波变化处理。之后，可根据对指定域进行三重小波变换处理后得到的非敏感数据，以及图像形式数据中未经小波变换处理的指定域之外的用户数据，得到脱敏数据。

通过进行三重小波变换处理的方法，可在保留图像特征的基础上，对图像形式数据进行进一步的压缩，以实现数据的脱敏。

在本说明书一个或多个实施例中，在判断用户数据是否为图像数据时，若判断的结果为是，用户数据已经是图像形式，则无需对用户数据进行重编码，转换为图像形式，而可直接对用户数据进行矩阵变换处理，以对图像数据进行脱敏处理，得到脱敏数据。这样可节省对用户数据进行重编码的时间，简化流程，直接对图像形式的用户数据进行脱敏处理，保护用户数据的安全性，防止隐私内容泄露。

在本说明书的一个或多个实施例中，若客户端与云端的模型不一致，则客户端接收到云端下发的模型的梯度时，可根据本地模型与云端模型之间的关系，对云端下发的模型的梯度进行转换，以得到适应本地模型的梯度。再通过该得到的模型的梯度，对本地模型进行更新。这样能够适应客户端与云端模型之间的差异性，加强本方法的兼容性。

在本说明书的一个或多个实施例中，客户端获取到的用户数据为文本等非图像数据时，客户端可根据非图像数据中的不同类型的信息，比如姓名、证件信息、账号等，分别提取若干用户数据中的相同类型的信息，进行组合。之后，在进行重编码时，客户端可将组合的各用户数据中相同类型的信息重编码为一个图像形式数据。即，各用户数据中的相同类型的信息均对应一个重编码得到的图像形式数据，不同类型的信息对应不同的图像形式数据。这样能够减弱一个用户数据中各信息的关联性，加强用户数据的保护。

进一步地，若不同用户数据中的信息的类型不同，导致对不同类型的信息进行组合后，部分类型对应的信息的数量过少，则客户端可确定相应类型的混淆信息，与用户数据中相应类型的信息一同进行重编码，得到图像形式数据。这样能够在一定程度上加强图像形式数据的复杂性，同时通过混淆信息，加强对用户数据的安全保护。

在本说明书的一个或多个实施例中，客户端在对图像形式数据进行脱敏处理时，可对用户数据进行分组，确定一个分组内包括预设数量的用户数据。之后，客户端在对图像形式数据进行小波变换处理得到指定域的非敏感数据后，可根据预设的规则，对分组内不同用户数据中的指定域的非敏感数据进行交换，使得分属于不同用户数据的指定域与指定域之外的数据进行组合，形成新的用户数据。这样能够进一步增强用户数据的安全性，防止用户数据泄露。

在本说明书的一个或多个实施例中，得到的脱敏数据本身以图像进行表示，也即，人来看脱敏数据会认为脱敏数据是图像。在矩阵变换处理中，根据实际情况(比如，根据实际业务类型，选择与业务类型无关的数据，或者根据预设字段匹配数据等)，提取一部分有实用价值且不容易威胁用户安全的数据，以图像的形式在脱敏数据中显性地表示，以些许的安全性，换来对脱敏数据的用途扩展，以及对脱敏数据对于用户而言的观感和易用性的提高，在一些场景下，这样的处理合理可以接受的。比如，对用户账户信息、身份证信息进行了脱敏，但是有选择地对用户的相对泛的信息进行显性表示，肉眼直接可看可理解，便于使用(比如，将脱敏信息作为用户的电子标签，用于平台检索统计检阅等，也可以用于用户自己自证等)，这些信息不会直接暴露用户，但是能够有效地反应用户在某方面是否靠谱，是否存在风险，从而脱敏数据能够直接应用到一些具体的业务场景，比如，支付平台、交友平台等。

基于同样的思路，除了用户自己的数据以外，可以将还原脱敏数据所需的密钥材料分解为多个部分，将各部分分别在一个用户对应的脱敏数据中显性表示(比如，做成分段形式、拼图形式等)，而对于这些用户的选择则是分散的，避免集中处理，以避免完整泄露，比如，分三天，每天对一部分用户的数据执行上面的操作，在这种情况下，除非这三天的这些用户的脱敏数据都被作恶者非法获得，才有可能还原破解。基于这样的方案，客户端与云端无需专门地协商密钥，而且能够便利地动态更新密钥材料。

图2为本说明书一个或多个实施例提供的应用于云端的一种基于数据隐私保护的在线模型训练方法的流程示意图。该流程可以由相应领域的云端的计算设备(比如，支付业务对应的服务器等)执行，流程中的某些输入参数或者中间结果允许人工干预调节，以帮助提高准确性。

图2中的流程可以包括以下步骤：

S202：接收客户端加密后的脱敏数据，进行解密，得到所述脱敏数据。

云端接收到来自客户端的加密后的脱敏数据，可根据对应的加密算法，对数据进行解密，以得到相应的脱敏数据。

其中，客户端与云端可预先约定采用的加密算法，比如，对称加密算法 AES算法、非对称加密算法RSA算法，等等。

S204：对所述脱敏数据进行逆矩阵变换处理，得到图像形式数据。

云端采用与客户端相对应的方法，对脱敏数据进行逆矩阵变换处理，以得到对应的图像形式数据。其中，云端可与客户端预先约定采用的矩阵变换处理方法，比如，客户端采用小波变换处理，则云端采用对应的逆小波变换处理，等。

S206：对所述图像形式数据进行反编码，得到用户数据。

在本说明书的一个或多个实施例中，云端需对逆矩阵变换处理得到的图像形式数据进行判断，确定该图像形式数据是否为原始的用户数据。

若判断结果为否，则用户数据为非图像数据，云端需要对得到的图像形式数据进行反编码，以得到原始的文字等非图像的用户数据。通过反编码，用户数据中的内容才能暴露出来，使云端能够确定用户数据中包含的信息。

若判断的结果为是，则用户数据为图像数据，该图像形式数据即为原始的用户数据。云端无需再对得到的图像形式数据进行反编码，而可直接对其进行后续处理。

S208：根据所述用户数据，计算确定模型梯度。

S210：对所述模型梯度加密后，发送给所述客户端进行模型更新。

云端根据获取到的用户数据，计算确定云端存储的模型的梯度。之后，云端将得到的梯度进行加密，并下发给客户端，由客户端根据该梯度对其存储的本地模型进行更新。

并且，云端也根据确定出的模型梯度，对云端存储的模型一同进行更新，以使云端的模型与客户端的模型能保持一致。云端在更新模型时，同样可根据更新时间，确定模型对应的时间戳，以通过时间戳对更新过程中不同版本的模型进行区分。

在本说明书一个或多个实施例中，云端可在计算得到云端模型的梯度时，即对云端模型进行更新，或者，云端可确认将模型梯度下发至客户端后，再对云端模型进行更新。具体更新时间可根据需要确定，本说明书对此不做限定。

基于图2的方法，本说明书还提供了该方法的一些具体实施方案和扩展方案，下面继续进行说明。

在本说明书一个或多个实施例中，客户端与云端在确定基准模型时，云端通过接收客户端的模型的摘要信息与时间戳，与云端的模型的摘要信息与时间戳进行比较，确定是否一致。

若比较的结果为否，云端的模型与客户端的模型不一致，则为了保持两端模型的一致性，云端可从客户端的模型与云端的模型中，确定对应的时间戳距离当前时间近的模型，作为基准模型。之后，可根据确定出的基准模型，对客户端的模型与云端的模型中的另一个模型进行更新，以使两端的模型保持一致。

其中，在云端与客户端进行通信的过程中，可能存在模型梯度下发失败、数据丢失等情况，使得客户端的模型没有及时进行更新。则时间戳距离当前时间近，表示其对应的模型为最近更新的模型，应将该模型作为基准模型。

进一步地，考虑到云端向客户端下发模型梯度、更新客户端的模型所耗费的时间，云端在对客户端模型的时间戳与云端模型的时间戳进行比较时，可根据预设误差值，确定两个模型的摘要信息一致、时间戳不一致、且时间戳之间的差距在该预设误差值以内的，认为客户端的模型与云端的模型实际上是一致的。其中，预设误差值的数值设置可根据客户端设备的计算能力，取较小的值。

结合前面的说明，本说明书一个或多个实施例提供了一种应用场景下，图 1、图2中方法对应的一种详细的方法流程示意图，该流程对应了前面一些可选的方案，该流程如图3所示。

客户端通过与云端进行交互，确定基准模型。

获取用户数据，判断用户数据是否为图像数据。

若判断的结果为否，则用户数据为非图像数据，对非图像数据进行重编码，得到图像形式数据，再对所述图像形式数据进行矩阵变换处理，得到脱敏数据。

若判断的结果为是，则用户数据为图像数据，直接对图像数据进行矩阵变换处理，得到脱敏数据。

对脱敏数据加密后，发送给云端，并消除本地的用户数据。

云端对接收到的加密的脱敏数据进行解密，以及反脱敏，得到用户数据。

根据用户数据确定模型梯度，并对模型梯度进行加密后，发送给客户端。

客户端对接收到的加密数据进行解密，并根据得到的模型梯度，更新本地的基准模型。

基于同样的思路，本说明书一个或多个实施例还提供了上述方法对应的装置和设备，如图4、图5、图6、图7所示。

图4为本说明书一个或多个实施例提供的应用于客户端的一种基于数据隐私保护的在线模型训练装置的结构示意图，其中，虚线框表示可选的结构，所述装置包括：

基准模型确定模块402，通过与云端进行交互，确定基准模型；

重编码模块404，获取用户数据，并对所述用户数据进行重编码，得到图像形式数据；

变换处理模块406，通过对所述图像形式数据进行矩阵变换处理，得到脱敏数据；

数据发送模块408，对所述脱敏数据加密后，发送给所述云端，并消除本地的所述用户数据；

梯度接收模块410，接收所述云端根据所述加密后的脱敏数据确定的模型梯度；

更新模块412，根据所述模型梯度，更新本地的所述基准模型。

可选地，所述装置还包括：第一判断模块4042，判断所述用户数据是否为图像数据，且所述判断的结果为否；第二判断模块414，若所述判断的结果为是，则对所述用户数据进行矩阵变换处理，得到脱敏数据。

可选地，所述用户数据包括包含用户账户或者用户身份的文本数据。

可选地，所述矩阵变换处理为小波变换处理，或者随机行列变换处理。

可选地，所述变换处理模块406，确定对于所述图像形式数据的频域和时域的处理能力；根据所述处理能力和指定域的敏感目标，对所述图像形式数据的对应区域进行小波变换处理，得到脱敏数据。

可选地，所述变换处理模块406，通过对所述图像形式数据进行三重小波变换处理，得到所述指定域的非敏感数据；根据所述非敏感数据和所述指定域之外的用户数据，得到脱敏数据。

可选地，所述基准模型确定模块402，向云端发送本地模型的摘要信息与时间戳，与所述云端的模型的摘要信息与时间戳进行比较，确定是否一致；若所述比较的结果为是，则确定所述本地模型为基准模型。

图5为本说明书一个或多个实施例提供的应用于云端的一种基于数据隐私保护的在线模型训练装置的结构示意图，其中，虚线框表示可选的结构，所述装置包括：

数据接收模块502，接收客户端加密后的脱敏数据，进行解密，得到所述脱敏数据；

逆变换处理模块504，对所述脱敏数据进行逆矩阵变换处理，得到图像形式数据；

反编码模块506，对所述图像形式数据进行反编码，得到用户数据；

梯度确定模块508，根据所述用户数据，计算确定模型梯度；

梯度发送模块510，对所述模型梯度加密后，发送给所述客户端进行模型更新。

可选地，所述装置还包括：比较模块512，接收所述客户端的模型的摘要信息与时间戳，与所述云端的模型的摘要信息与时间戳进行比较，确定是否一致；若所述比较的结果为否，则从所述客户端的模型与所述云端的模型中，确定时间戳距离当前时间近的模型，作为基准模型；根据所述基准模型，对所述客户端的模型与所述云端的模型中的另一个模型进行更新。

图6为本说明书一个或多个实施例提供的应用于客户端的一种基于数据隐私保护的在线模型训练设备的结构示意图，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

通过与云端进行交互，确定基准模型；

接收所述云端根据所述加密后的脱敏数据确定的模型梯度；

根据所述模型梯度，更新本地的所述基准模型。

图7为本说明书一个或多个实施例提供的应用于云端的一种基于数据隐私保护的在线模型训练设备的结构示意图，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

对所述脱敏数据进行逆矩阵变换处理，得到图像形式数据；

对所述图像形式数据进行反编码，得到用户数据；

根据所述用户数据，计算确定模型梯度；

对所述模型梯度加密后，发送给所述客户端进行模型更新。

处理器与存储器之间可以通过总线通信，设备还可以包括与其他设备通信的输入/输出接口。

基于同样的思路，本说明书一个或多个实施例还提供了对应于上述图1所示的方法的一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

通过与云端进行交互，确定基准模型；

接收所述云端根据所述加密后的脱敏数据确定的模型梯度；

根据所述模型梯度，更新本地的所述基准模型。

基于同样的思路，本说明书一个或多个实施例还提供了对应于上述图2所示的方法的一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

对所述脱敏数据进行逆矩阵变换处理，得到图像形式数据；

对所述图像形式数据进行反编码，得到用户数据；

根据所述用户数据，计算确定模型梯度；

对所述模型梯度加密后，发送给所述客户端进行模型更新。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray， FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、 Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL (Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、 RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL (Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的一个或多个实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种基于数据隐私保护的在线模型训练方法，应用于客户端，所述方法包括：

通过与云端进行交互，确定基准模型；

通过对所述图像形式数据进行矩阵变换处理，得到脱敏数据，还包括：将还原脱敏数据所需的密钥材料分解为多个部分，将各部分分别在一个用户对应的脱敏数据中显性表示，对于这些用户的选择则是分散的，避免集中处理，所述脱敏数据本身以图像进行表示；

接收所述云端根据所述加密后的脱敏数据确定的模型梯度；

根据所述模型梯度，更新本地的所述基准模型。

2.如权利要求1所述的方法，所述对所述用户数据进行重编码之前，所述方法还包括：

判断所述用户数据是否为图像数据，且所述判断的结果为否；

所述方法还包括：

若所述判断的结果为是，则对所述用户数据进行矩阵变换处理，得到脱敏数据。

3.如权利要求1或者2所述的方法，所述用户数据包括包含用户账户或者用户身份的文本数据。

4.如权利要求1所述的方法，所述矩阵变换处理为小波变换处理，或者随机行列变换处理。

5.如权利要求4所述的方法，所述通过对所述图像形式数据进行矩阵变换处理，得到脱敏数据，具体包括：

确定对于所述图像形式数据的频域和时域的处理能力；

根据所述处理能力和指定域的敏感目标，对所述图像形式数据的对应区域进行小波变换处理，得到脱敏数据。

6.如权利要求5所述的方法，所述通过对所述图像形式数据进行矩阵变换处理，得到脱敏数据，具体包括：

通过对所述图像形式数据进行三重小波变换处理，得到所述指定域的非敏感数据；

根据所述非敏感数据和所述指定域之外的用户数据，得到脱敏数据。

7.如权利要求1所述的方法，所述通过与云端进行交互，确定基准模型，具体包括：

向云端发送本地模型的摘要信息与时间戳，与所述云端的模型的摘要信息与时间戳进行比较，确定是否一致；

若所述比较的结果为是，则确定所述本地模型为基准模型。

8.一种基于数据隐私保护的在线模型训练方法，应用于云端，所述方法包括：

接收客户端加密后的脱敏数据，进行解密，得到所述脱敏数据，所述脱敏数据加密前在所述客户端上的处理包括：将还原脱敏数据所需的密钥材料分解为多个部分，将各部分分别在一个用户对应的脱敏数据中显性表示，对于这些用户的选择则是分散的，避免集中处理，所述脱敏数据本身以图像进行表示；

对所述脱敏数据进行逆矩阵变换处理，得到图像形式数据；

对所述图像形式数据进行反编码，得到用户数据；

根据所述用户数据，计算确定模型梯度；

对所述模型梯度加密后，发送给所述客户端进行模型更新。

9.如权利要求8所述的方法，所述方法还包括：

接收所述客户端的模型的摘要信息与时间戳，与所述云端的模型的摘要信息与时间戳进行比较，确定是否一致；

若所述比较的结果为否，则从所述客户端的模型与所述云端的模型中，确定时间戳距离当前时间近的模型，作为基准模型；

根据所述基准模型，对所述客户端的模型与所述云端的模型中的另一个模型进行更新。

10.一种基于数据隐私保护的在线模型训练装置，应用于客户端，所述装置包括：

基准模型确定模块，通过与云端进行交互，确定基准模型；

变换处理模块，通过对所述图像形式数据进行矩阵变换处理，得到脱敏数据，还包括：将还原脱敏数据所需的密钥材料分解为多个部分，将各部分分别在一个用户对应的脱敏数据中显性表示，对于这些用户的选择则是分散的，避免集中处理，所述脱敏数据本身以图像进行表示；

更新模块，根据所述模型梯度，更新本地的所述基准模型。

11.如权利要求10所述的装置，所述装置还包括：

第一判断模块，判断所述用户数据是否为图像数据，且所述判断的结果为否；

第二判断模块，若所述判断的结果为是，则对所述用户数据进行矩阵变换处理，得到脱敏数据。

12.如权利要求10或者11所述的装置，所述用户数据包括包含用户账户或者用户身份的文本数据。

13.如权利要求10所述的装置，所述矩阵变换处理为小波变换处理，或者随机行列变换处理。

14.如权利要求13所述的装置，所述变换处理模块，确定对于所述图像形式数据的频域和时域的处理能力；

15.如权利要求14所述的装置，所述变换处理模块，通过对所述图像形式数据进行三重小波变换处理，得到所述指定域的非敏感数据；

16.如权利要求10所述的装置，所述基准模型确定模块，向云端发送本地模型的摘要信息与时间戳，与所述云端的模型的摘要信息与时间戳进行比较，确定是否一致；

若所述比较的结果为是，则确定所述本地模型为基准模型。

17.一种基于数据隐私保护的在线模型训练装置，应用于云端，所述装置包括：

数据接收模块，接收客户端加密后的脱敏数据，进行解密，得到所述脱敏数据，所述脱敏数据加密前在所述客户端上的处理包括：将还原脱敏数据所需的密钥材料分解为多个部分，将各部分分别在一个用户对应的脱敏数据中显性表示，对于这些用户的选择则是分散的，避免集中处理，所述脱敏数据本身以图像进行表示；

梯度确定模块，根据所述用户数据，计算确定模型梯度；

18.如权利要求17所述的装置，所述装置还包括：

比较模块，接收所述客户端的模型的摘要信息与时间戳，与所述云端的模型的摘要信息与时间戳进行比较，确定是否一致；

19.一种基于数据隐私保护的在线模型训练设备，应用于客户端，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

通过与云端进行交互，确定基准模型；

接收所述云端根据所述加密后的脱敏数据确定的模型梯度；

根据所述模型梯度，更新本地的所述基准模型。

20.一种基于数据隐私保护的在线模型训练设备，应用于云端，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

对所述脱敏数据进行逆矩阵变换处理，得到图像形式数据；

对所述图像形式数据进行反编码，得到用户数据；

根据所述用户数据，计算确定模型梯度；

对所述模型梯度加密后，发送给所述客户端进行模型更新。