CN108520181B

CN108520181B - 数据模型训练方法和装置

Info

Publication number: CN108520181B
Application number: CN201810256461.3A
Authority: CN
Inventors: 石佩林; 王晓勇
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2022-04-22
Anticipated expiration: 2038-03-26
Also published as: CN108520181A

Abstract

本公开提供了一种数据模型训练方法，包括：获取训练集，所获取的该训练集中包括多条训练数据，对该训练集进行第一隐私保护处理，得到加密训练集。使用该加密训练集对数据模型进行训练，得到模型参数。对所得到的模型参数进行第二隐私保护处理，得到加密模型参数，基于该加密模型参数生成加密数据模型。其中，第一隐私保护处理使得加密训练集不同于训练集、且加密训练集与训练集的训练结果相同；第二隐私保护处理使得加密模型参数不同于模型参数，且基于加密模型参数生成的加密数据模型与基于模型参数生成的数据模型在输入相同时具有相同的输出结果。本公开还提供了一种数据模型训练装置、以及一种计算机设备。

Description

数据模型训练方法和装置

技术领域

本公开涉及一种数据模型训练方法和装置。

背景技术

近年来，人工智能强制崛起，人们领略到了人工智能技术的巨大潜力，人工智能技术中，数据是载体，智能是目标，而机器学习是从数据通往智能的技术途径。机器学习的本质是计算机利用已有的数据训练出某种数据模型，并利用此数据模型进行预测的过程。

在实现本公开构思的过程中，发明人发现现有技术基于机器学习或深度学习进行数据模型训练的过程中，训练数据以及训练结束后得到的模型参数往往是公开的，处于攻击者想获取便可获取的不安全状态，很容易被攻击者恶意利用。

发明内容

本公开的一个方面提供了一种数据模型训练方法，包括：获取训练集，所获取的该训练集中包括多条训练数据，对该训练集进行第一隐私保护处理，得到加密训练集。使用该加密训练集对数据模型进行训练，得到模型参数。对所得到的模型参数进行第二隐私保护处理，得到加密模型参数，基于该加密模型参数生成加密数据模型。

其中，第一隐私保护处理使得加密训练集不同于训练集、且加密训练集与训练集的训练结果相同；第二隐私保护处理使得加密模型参数不同于模型参数，且基于加密模型参数生成的加密数据模型与基于模型参数生成的数据模型在输入相同时具有相同的输出结果。

可选地，训练集中还包括一条或多条标记数据，则上述对训练集进行第一隐私保护处理是指对训练集中的训练数据进行第一隐私保护处理，上述使用加密训练集对数据模型进行训练是指使用训练集中经过第一隐私保护处理的训练数据对数据模型进行训练。进一步地，该方法还包括：训练结束后，判断所述训练集中的标记数据的值是否发生变化，是则确定所述加密数据模型无效。

可选地，训练集中的训练数据和标记数据按照均匀分布混合。

可选地，训练集中的训练数据附有标记位，上述对训练集进行第一隐私保护处理，得到加密训练集包括：对训练集中的训练数据进行第一隐私保护处理，得到多条附有标记位的加密训练数据，组成加密训练集。进一步地，该方法还包括：训练结束后，判断加密训练集中是否存在未附有标记位的数据，是则确定加密数据模型无效。

可选地，该方法还包括：获取验证集，在上述基于加密模型参数生成加密数据模型之后，将验证集中的各验证数据的输入项输入至加密数据模型，统计输出结果与相应验证数据的输出项的匹配率，当匹配率高于预设阈值时，确定加密数据模型有效，否则确定加密数据模型无效。其中，验证集中包括一条或多条验证数据，每条验证数据均包括适配于基于模型参数生成的数据模型的输入项和输出项。

可选地，上述对训练集进行第一隐私保护处理包括：根据该训练集，确定第一随机分布噪声函数，基于第一随机分布噪声函数对该训练集进行加噪处理。并且/或者，上述对模型参数进行第二隐私保护处理包括：根据该模型参数，确定第二随机分布噪声函数，基于第二随机分布噪声函数对模型参数进行加噪处理。

可选地，第一随机分布噪声函数包括拉普拉斯分布噪声函数、指数分布噪声函数、或高斯分布噪声函数中的任一项，并且/或者，第二随机分布噪声函数包括拉普拉斯分布噪声函数、指数分布噪声函数、或高斯分布噪声函数中的任一项。

本公开的另一个方面提供了一种数据模型训练装置，包括：输入模块、加密模块、训练模块和输出模块。

输入模块用于获取训练集，所获取的训练集中包括多条训练数据，加密模块用于对训练集进行第一隐私保护处理，得到加密训练集，训练模块用于使用加密训练集对数据模型进行训练，得到模型参数，加密模块还用于对模型参数进行第二隐私保护处理，得到加密模型参数，输出模块用于基于加密模型参数生成加密数据模型。

可选地，该装置还包括校验模块。训练集中还包括一条或多条标记数据。加密模块用于对训练集中的训练数据进行第一隐私保护处理，训练模块用于使用训练集中经过第一隐私保护处理的训练数据对数据模型进行训练，校验模块用于在训练结束后判断训练集中的标记数据的值是否发生变化，是则确定所述加密数据模型无效。

可选地，该装置还包括校验模块。训练集中的训练数据附有标记位。加密模块用于对训练集中的训练数据进行第一隐私保护处理，得到多条附有标记位的加密训练数据，组成加密训练集，校验模块用于在训练结束后判断加密训练集中是否存在未附有标记位的数据，是则确定加密数据模型无效。

可选地，该装置还包括校验模块。校验模块用于获取验证集，在输出模块基于加密模型参数生成加密数据模型之后，将验证集中的各验证数据的输入项输入至加密数据模型，统计输出结果与相应验证数据的输出项的匹配率，当匹配率高于预设阈值时，确定加密数据模型有效，否则确定加密数据模型无效。其中，验证集中包括一条或多条验证数据，每条验证数据均包括适配于基于模型参数生成的数据模型的输入项和输出项。

可选地，加密模块用于根据训练集确定第一随机分布噪声函数，基于第一随机分布噪声函数对该训练集进行加噪处理。并且/或者，加密模块用于根据模型参数确定第二随机分布噪声函数，基于第二随机分布噪声函数对模型参数进行加噪处理。

本公开的另一方面提供了一种计算机设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时实现如上所述的方法。

本公开的另一方面提供了一种非易失性存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本公开实施例的数据模型训练方法和装置的应用场景；

图2示意性示出了根据本公开实施例的数据模型训练方法的流程图；

图3示意性示出了根据本公开一个实施例的数据模型训练方法的流程图；

图4示意性示出了根据本公开另一实施例的数据模型训练方法的流程图；

图5示意性示出了根据本公开实施例的数据模型训练装置的框图；

图6示意性示出了根据本公开另一实施例的数据模型训练装置的框图；以及

图7示意性示出了根据本公开实施例的适于实现数据模型训练方法的计算机设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解，实质上任意表示两个或更多可选项目的转折连词和/或短语，无论是在说明书、权利要求书还是附图中，都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如，短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。

因此，本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中，计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

图1示意性示出了根据本公开实施例的数据模型训练方法和装置的应用场景。需要注意的是，图1所示仅为可以应用本公开实施例的场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，该应用场景可以包括终端设备101、102、103，网络104和服务器/服务器集群105。网络104用以在终端设备101、102、103和服务器/服务器集群105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器/服务器集群105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器/服务器集群105可以是提供各种服务的服务器或服务器集群，后台管理服务器或服务器集群可以对接收到的用户请求等数据进行分析等处理，并将处理结果反馈给终端设备。

需要说明的是，本公开实施例所提供的数据模型训练方法一般可以由服务器/服务器集群105执行。相应地，本公开实施例所提供的数据模型训练装置一般可以设置于服务器/服务器集群105中。本公开实施例所提供的数据模型训练方法也可以由不同于服务器/服务器集群105且能够与终端设备101、102、103、和/或、服务器/服务器集群105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的数据模型训练装置也可以设置于不同于服务器/服务器集群105且能够与终端设备101、102、103、和/或、服务器/服务器集群105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器/服务器集群的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器/服务器集群。

图2示意性示出了根据本公开实施例的数据模型训练方法的流程图。

如图2所示，该方法包括操作S201～S205。

在操作S201，获取训练集，训练集中包括多条训练数据。

数据模型训练是利用已知的数据寻找数据模型的最优解的过程，本操作所获取的训练集中的训练数据作为已知的数据，用于在后续对初始的数据模型进行训练，找到最优的模型参数。

在操作S202，对训练集进行第一隐私保护处理，得到加密训练集。

其中，第一隐私保护处理使得加密训练集不同于训练集、且加密训练集与训练集的训练结果相同。也就是说，第一隐私保护处理使得训练集中的每条训练数据的泄露风险降低，同时保证了训练集中的训练数据的可用性，不影响训练结果。

在操作S203，使用加密训练集对数据模型进行训练，得到模型参数。

本操作中，加密训练集是指训练集经过第一隐私保护处理后的结果，数据模型是指未经优化训练的初始的数据模型，该初始的数据模型的模型参数具有初始值。利用加密训练集对数据模型进行训练，即利用经过第一隐私保护处理后的训练集中的数据作为已知的数据，对于该初始的数据模型不断地进行迭代优化，该迭代优化过程中，初始的数据模型的模型参数不断被优化，直至训练结束，得到基于加密训练集的最优的模型参数，由于第一隐私保护处理不影响训练集的训练结果，即得到基于训练集的最优的模型参数。

在操作S204，对模型参数进行第二隐私保护处理，得到加密模型参数。

本操作中，第二隐私保护处理使得加密模型参数不同于模型参数，且基于加密模型参数生成的加密数据模型与基于模型参数生成的数据模型在输入相同时具有相同的输出结果。其中，模型参数是指操作S203在训练结束后得到的基于训练集的最优的模型参数，该模型参数中包括一个或多个参数数据。第二隐私保护处理使得该模型参数中每个参数数据的泄露风险降低，同时保证了该模型参数的可用性，不影响基于该模型参数生成的数据模型的预测性能。

在操作S205，基于加密模型参数生成加密数据模型。

本操作中，加密模型参数为操作S203得到的最优的模型参数经过第二隐私保护处理后的结果，由于第二隐私保护处理不影响基于模型参数所生成的数据模型的预测性能，基于加密模型参数生成的加密数据模型具有与基于模型参数生成的数据模型相同的预测性能，可以正常使用该加密数据模型。

可见，图2所示的方法在进行数据模型的训练过程中，一方面对训练集进行第一隐私保护处理，降低训练集中的训练数据的泄露风险并保证训练数据的可用性，另一方面对训练结束得到的最优的模型参数进行第二隐私保护处理，降低该模型参数中的参数的泄露风险并保证该模型参数的可用性。在不影响数据模型训练效果的前提下，实现了对于数据模型训练过程的输入和输出的双重保护，使得攻击者无法轻易获取到输入的训练集中的训练数据，也无法轻易获取到输出的模型参数中的参数数据，进而防止了攻击者对数据的恶意利用。该方案适用范围广，是可以适用于监督、半监督以及无监督学习中的数据模型训练过程。

例如，待训练的初始的数据模型为A0，对该函数A0进行数据模型训练的过程为：获取到相应的训练集D，该训练集中包括n条训练数据。对该训练集D进行第一隐私保护处理M1，相当于在训练集D中增加了扰动，得到加密训练集M1(D)，使得攻击者在面对加密训练集M1(D)时不能获取到训练集D中的真实的训练数据个体，同时，第一隐私保护处理M1还要通过相应的约束条件来控制M1(D)在训练集D中所增加的扰动的程度，以保证训练集D在训练过程的可用性。利用加密训练集M1(D)对数据模型A0进行训练，不断地进行迭代优化，直至达到最优态，此时训练结束，得到模型参数E，该模型参数E包括m条参数数据，每条参数数据代表一个参数及其对应的取值。对所得到的模型参数E进行第二隐私保护处理M2，相当于在模型参数E中增加了扰动，得到加密模型参数M2(E)，使得攻击者在面对加密模型参数M2(E)时不能获取到模型参数E中的真实的参数数据个体，同时，第二隐私保护处理M2还要通过相应的约束条件来控制M2(E)在模型参数E中所增加的扰动的程度，以保证模型参数E在生成数据模型过程的可用性。基于加密模型参数M2(E)生成加密数据模型A，该加密数据模型A表达了基于模型参数E和初始的数据模型A0所确定的映射关系，可以根据该映射关系进行相应的数据预测。

进一步地，在图2所示方法生成的加密数据模型的基础上，虽然训练集中的训练数据个体不会被轻易获取到，但是攻击者仍然可以对训练集整体进行干扰，如对训练集中的训练数据进行整体篡改，或者在训练集中增加脏数据等，使得后续的模型训练过程基于错误的训练数据而失败。为应对此情形，需要对训练得到的数据模型的有效性进行验证。下面以图3～图4为例进行说明：

图3示意性示出了根据本公开一个实施例的数据模型训练方法的流程图。如图3所示，该方法包括操作S301～S308。

在操作S301，获取训练集，训练集中包括多条训练数据。

本操作与图2所示的操作S201相同，不再赘述。

在操作S302，在训练集中加入一条或多条标记数据。

本操作使得训练集中除训练数据之外，还包括一条或多条标记数据，当攻击者对训练集整体进行干扰时，训练数据和标记数据一同受到干扰，后续即通过标记数据来验证训练数据是否受到干扰。

在操作S303，对训练集中的训练数据进行第一隐私保护处理。

本操作仅仅对训练集中的训练数据进行第一隐私保护处理，而对训练集中的标记数据不作任何处理，标记数据仅仅随训练数据一同在数据模型训练流程中流转。

在操作S304，使用训练集中经过第一隐私保护处理的训练数据对数据模型进行训练，得到模型参数。

本操作中，经过第一隐私保护处理的训练数据参与训练过程，标记数据不参与训练过程，仅仅随训练数据一同在数据模型训练流程中流转。

在操作S305，对模型参数进行第二隐私保护处理，得到加密模型参数。

本操作与图2所示的操作S204相同，不再赘述。

在操作S306，基于加密模型参数生成加密数据模型。

本操作与图2所示的操作S205相同，不再赘述。

在操作S307，判断标记数据的值是否发生变化。是则确定加密数据模型无效，重新执行操作301进行新一轮的数据模型训练。

否则确定加密数据模型有效，执行操作308，输出加密数据模型。

可见，由于标记数据未参与隐私保护处理过程也未参与训练过程，正常情况下标记数据是保持不变的，当标记数据的值发生变化时，说明训练集遭到了整体篡改，依据该训练集训练得到的数据模型是无效的，需要舍弃掉，以避免后续使用该无效数据模型而引发的不良后果。

优选地，考虑到攻击者对训练集整体进行干扰可能是概率性的模式，即训练集中的部分数据会遭到污染，因此可以在向训练集中加入标记数据时使得训练集中的训练数据和标记数据按照均匀分布混合，这样训练数据和标记数据受到污染的概率是相同的，利用标记数据来验证训练数据是否被篡改仍然是可靠有意义的。

图4示意性示出了根据本公开另一实施例的数据模型训练方法的流程图。如图4所示，该方法包括操作S401～S408。

在操作S401，获取训练集，训练集中包括多条训练数据。

本操作与图2所示的操作S201相同，不再赘述。

在操作S402，在训练集中的训练数据上添加标记位。

本操作使得训练集中的训练数据均附有标记位，当攻击者在训练集中加入脏数据时，脏数据与训练数据的区别在于有无标记位，后续即通过标记位来验证训练集是否受到干扰。

在操作S403，对训练集中的训练数据进行第一隐私保护处理，得到多条附有标记位的加密训练数据，组成加密训练集。

在操作S404，使用加密训练集对数据模型进行训练，得到模型参数。

本操作与图2所示的操作S203相同，不再赘述。

在操作S405，对模型参数进行第二隐私保护处理，得到加密模型参数。

本操作与图2所示的操作S204相同，不再赘述。

在操作S406，基于加密模型参数生成加密数据模型。

本操作与图2所示的操作S205相同，不再赘述。

在操作S407，判断加密训练集中是否存在未附有标记位的数据。是则确定加密数据模型无效，重新执行操作401进行新一轮的数据模型训练。

否则确定加密数据模型有效，执行操作408，输出加密数据模型。

可见，由于训练集中的训练数据附有标记位，正常情况下至训练结束后训练集至加密训练集中都应只存在附有标记位的数据，当存在未附有标记位的数据时，说明训练集在训练过程中被加入了脏数据，依据该训练集训练得到的数据模型是无效的，需要舍弃掉，以避免后续使用该无效数据模型而引发的不良后果。

此外，除了上述训练集可能遭到攻击的情形，整个数据模型训练过程中的任意节点也都可能遭到攻击，因此进一步地，在本公开的一个实施例中，图2所示的方法还可以增加利用已知的验证数据对生成的加密数据模型进行验证的过程。即上述方法还包括：获取验证集，验证集中包括一条或多条验证数据，每条验证数据包括输入项和输出项；在基于加密模型参数生成加密数据模型之后，将验证集中的各验证数据的输入项输入至加密数据模型，统计输出结果与相应输出项的匹配率；当匹配率高于预设阈值时，确定加密数据模型有效，否则确定加密数据模型无效。其中，所获取的验证集中的每条验证数据的输入项和输出项是适配于正常情形下训练结束得到的最优的模型参数所对应的数据模型的，也就是说，对于正常得到的加密数据模型，输入一条验证数据的输入项，该加密数据模型会输出该条验证数据的相应的输出项。依据本实施例，对于一些无法找到攻击源头的情形，可以在生成加密数据模型后利用已知的验证数据进行验证，以进一步保障加密数据模型的有效性。

实际情况中，训练集作为数据模型训练过程中的已知数据，需要允许训练者对训练集进行一些查询操作以支持模型训练过程，而混入训练者中的攻击者常常通过对训练集进行被允许的查询操作根据查询结果来获取训练集中的训练数据个体，为了应对此情形，本实施例通过对训练集进行加噪处理使得攻击者在对经加噪处理后的训练集进行查询操作时相应的查询结果也受到干扰，无法根据查询结果来找到训练集中的训练数据个体信息，进而实现对训练集中的训练数据的保护。在本公开的一个实施例中，图2所示方法的操作S202对训练集进行第一隐私保护处理包括：根据训练集确定第一随机分布噪声函数，基于第一随机分布噪声函数对训练集进行加噪处理。在本实施例中，可以根据训练集中训练数据的体量、类型、应用需求、被允许的查询操作等因素中的一项或多项来确定既能保证训练数据的隐私性又能保证训练数据的可用性的约束条件，根据约束条件找到相应的第一随机分布噪声函数，进而基于该第一随机分布噪声函数对训练集进行加噪处理以满足需求。

例如可以采用如下方式：获取到训练集D，训练集D中包括n条训练数据。对训练集D的各种映射函数被定义为查询(Query)，用F1＝{n1，f12，…}来表示一组被允许的查询操作。假设第一随机分布噪声函数M1，训练集D’为训练集D的邻近数据集，二者只相差一条训练数据，则基于第一随机分布噪声函数M1对训练集D进行加噪后得到加密训练集M1(D)，基于第一随机分布噪声函数M1对训练集D’进行加噪后得到加密训练集M1(D’)，T1为查询操作F1所有可能的输出构成的集合的任意子集，使得第一随机分布噪声函数M1满足：

Pr[F1(M1(D))∈T1]≤exp(ε1)×Pr[F1(M1(D′))∈T1]

上式中，Pr[F1(M1(D))∈T1]表示对加密训练集M1(D)进行查询操作F1时能够得到属于T1的子集的查询结果的概率，Pr[F1(M1(D′))∈T1]表示对加密训练集M1(D’)进行查询操作F1时能够得到属于T1的子集的查询结果的概率，ε1为接近于0常数，用来表示第一随机分布噪声函数M1所能达到的隐私保护水平，当ε1越接近0时，隐私保护水平越高，但训练集的可用性越低，当ε1越远离0时，隐私保护水平越低，但训练集的可用性越高，在实际应用中需要根据训练集的应用需求对ε1进行设定，以平衡训练集的隐私保护性和可用性。可以看出，对于训练集D和训练集D’，要找到一个第一随机分布噪声函数M1，使得经过该第一随机分布噪声函数M1的加噪处理，对训练集D和训练集D’分别进行查询操作F1时，在同一种查询操作下二者产生同一结果的概率的比值接近于1。上述根据训练集D寻找第一随机分布噪声函数M1的过程即根据训练集确定了第一随机分布噪声函数的过程，在确定第一随机分布噪声函数M1后，可以基于该第一随机分布噪声函数M1对训练集D进行加噪处理，得到加密训练集M1(D)，以进行后续的数据模型训练。

可见，本实施例利用第一随机分布噪声函数对训练集进行加噪处理，进而在攻击者关于训练集及其邻近数据集进行查询操作的查询结果中也加入了随机分布噪声，使得攻击者无法得到查询结果之间的差异，进而也不能根据该差异来推测获得训练集中的训练数据个体。需要说明的是，上例是在假设攻击者能够获得最大知识背景(即训练集的邻近数据集)的最坏情形下进行的说明，以描述极端情形下所能达到的隐私保护程度，并不是对本实施例加以限制，可以理解，与训练集差别越大的数据集，加噪处理对其进行查询操作的查询结果中所引入的随机性就越大。

同理地，混入训练者中的攻击者也常常通过对模型参数进行被允许各种查询操作来获取模型参数中的参数数据个体，为了应对此情形，本实施例通过对模型参数进行加噪处理使得攻击者在对经加噪处理后的模型参数进行查询操作时相应的查询结果也受到干扰，无法根据查询结果来找到模型参数中的参数数据个体信息，进而实现对模型参数中的参数数据的保护。在本公开的一个实施例中，图2所示方法的操作S204对模型参数进行第二隐私保护处理包括：根据模型参数确定第二随机分布噪声函数，基于第二随机分布噪声函数对模型参数进行加噪处理。在本实施例中，可以根据模型参数中参数数据的体量、类型、应用需求、被允许的查询操作等因素中的一项或多项来确定既能保证参数数据的隐私性又能保证参数数据的可用性的约束条件，根据约束条件找到相应的第二随机分布噪声函数，进而基于该第二随机分布噪声函数对模型参数进行加噪处理以满足需求。

例如可以采用如下方式：利用加密训练集对数据模型进行训练，得到模型参数E，模型参数E中包括m条参数数据。对模型参数E的各种映射函数被定义为查询(Query)，用F2＝{f21，f22，…}来表示一组被允许的查询操作。假设第二随机分布噪声函数M2，模型参数E’为模型参数E的邻近数据集，二者只相差一条参数数据，则基于第二随机分布噪声函数M2对模型参数E进行加噪后得到加密模型参数M2(E)，基于第二随机分布噪声函数M2对模型参数E’进行加噪后得到加密模型参数M2(E’)，T2为查询操作F2所有可能的输出构成的集合的任意子集，使得第二随机分布噪声函数M2满足：

Pr[F2(M2(E))∈T2]≤exp(ε2)×Pr[F2(M2(E′))∈T2]

上式中，Pr[F2(M2(E))∈T2]表示对加密模型参数M2(E)进行查询操作F2时能够得到属于T2的子集的查询结果的概率，Pr[F2(M2(E′))∈T2]表示对加密模型参数M2(E’)进行查询操作F2时能够得到属于T2的子集的查询结果的概率，ε2为接近于0常数，用来表示第二随机分布噪声函数M2所能达到的隐私保护水平，当ε2越接近0时，隐私保护水平越高，但模型参数的可用性越低，当ε2越远离0时，隐私保护水平越低，但模型参数的可用性越高，在实际应用中需要根据模型参数的应用需求对ε2进行设定，以平衡模型参数的隐私保护性和可用性。可以看出，对于模型参数E和模型参数E’，要找到一个第二随机分布噪声函数M2，使得经过该第二随机分布噪声函数M2的加噪处理，对模型参数E和模型参数E’分别进行查询操作F2时，在同一种查询操作下二者产生同一结果的概率的比值接近于1。上述根据模型参数E寻找第二随机分布噪声函数M2的过程即本例中的根据模型参数确定了第二随机分布噪声函数的过程，在确定第二随机分布噪声函数M2后，可以基于该第二随机分布噪声函数M2对模型参数E进行加噪处理，得到加密模型参数M2(E)，以在后续操作中基于该加密模型参数生成加密数据模型。

可见，本实施例利用第二随机分布噪声函数对模型参数进行加噪处理，进而在攻击者关于模型参数及其邻近数据集进行查询操作的查询结果中也加入了随机分布噪声，使得攻击者无法得到查询结果之间的差异，进而也不能根据该差异来推测获得模型参数中的参数数据个体。需要说明的是，上例是在假设攻击者能够获得最大知识背景(即模型参数的邻近数据集)的最坏情形下进行的说明，以描述极端情形下所能达到的隐私保护程度，并不是对本实施例加以限制，可以理解，与模型参数差别越大的数据集，加噪处理对其进行查询操作的查询结果中所引入的随机性就越大。

在本公开的具体实施例中，上述基于第一随机分布噪声函数对训练集进行加噪可以采用差分隐私技术中的加噪方式，和/或，上述基于第二随机分布噪声函数对模型参数进行加噪可以采用差分隐私技术中的加噪方式，差分隐私技术是基于数据失真的隐私保护技术，采用添加噪声的方式使敏感数据失真同时保持某些数据属性不变，要求保证处理后的数据仍然可以保持可用性。则具体地，差分隐私技术中所采用的第一随机分布噪声函数可以是拉普拉斯分布噪声函数、指数分布噪声函数、或高斯分布噪声函数等各种随机化分布的噪声函数中的一种，可以根据需要进行选择，通常情况下，当训练集中的训练数据是数值型时，优先选用拉普拉斯分布噪声函数进行加噪处理，当训练集中的训练数据是非数值型时，优先选用指数分布噪声函数进行加噪处理。并且/或者，差分隐私技术中所采用的第二随机分布噪声函数可以是拉普拉斯分布噪声函数、指数分布噪声函数、或高斯分布噪声函数等各种随机化分布的噪声函数中的一种，可以根据实际需要进行选择，通常情况下，当模型参数中的参数数据是数值型时，优先选用拉普拉斯分布噪声函数进行加噪处理，当模型参数中的参数数据是非数值型时，优先选用指数分布噪声函数进行加噪处理。

例如可以采用如下方式基于拉普拉斯分布噪声函数对训练集进行加噪处理：沿用上文中的字母含义，当上文中第一随机分布噪声函数M1为拉普拉斯分布噪声函数时，基于该拉普拉斯分布噪声函数M1对训练集D进行加噪处理得到M1(D)，对M1(D)进行F1查询操作得到F1(M1(D))，基于该拉普拉斯分布噪声函数M1对训练集D’进行加噪处理得到M1(D’)，对M1(D’)进行F1查询操作得到F1(M1(D’))，使得F1(M1(D))＝F1(D)+X，F1(M1(D′))＝F1(D’)+X′

其中，X为拉普拉斯分布噪声函数对训练集进行加噪这一操作对关于训练集的查询操作所带来的噪声干扰，X’为拉普拉斯分布噪声函数对训练集的邻近数据集进行加噪这一操作对关于训练集的邻近数据集的查询操作所带来的噪声干扰。要保证

Pr[F1(M1(D))∈T1]≤exp(ε1)×Pr[F1(M1(D′))∈T1]

则

Pr[(F1(D)+X)∈T1]≤exp(ε1)×Pr[(F1(D’)+X′)∈T1]

可以计算得到X和X’符合拉普拉斯分布Lap(Δf/ε1)，其中，

表示加噪处理前训练集D与其邻近数据集D’之间的最大查询差异。可见，基于拉普拉斯分布噪声函数对训练集进行加噪处理，导致攻击者对训练集进行查询的查询结果中引入了符合拉普拉斯分布的噪声Lap(Δf/ε1)，使得攻击者无法获取训练集中真实的训练数据。

图5示意性示出了根据本公开实施例的数据模型训练装置的框图。

如图5所示，数据模型训练装置500包括输入模块510、加密模块520、训练模块530、和输出模块540。该数据模型训练装置500可以执行上面参考图2～图4描述的方法，以实现更加安全可靠的数据模型训练过程。

具体地，输入模块510用于获取训练集，所获取的训练集中包括多条训练数据。

加密模块520用于对训练集进行第一隐私保护处理，得到加密训练集。

训练模块530用于使用加密训练集对数据模型进行训练，得到模型参数。

加密模块520还用于对模型参数进行第二隐私保护处理，得到加密模型参数。

输出模块540用于基于加密模型参数生成加密数据模型。

可见，图5所示的装置在进行数据模型的训练过程中，一方面对训练集进行第一隐私保护处理，降低训练集中的训练数据的泄露风险并保证训练数据的可用性，另一方面对训练结束得到的最优的模型参数进行第二隐私保护处理，降低该模型参数中的参数的泄露风险并保证该模型参数的可用性。在不影响数据模型训练效果的前提下，实现了对于数据模型训练过程的输入和输出的双重保护，使得攻击者无法轻易获取到输入的训练集中的训练数据，也无法轻易获取到输出的模型参数中的参数数据，进而防止了攻击者对数据的恶意利用。

在本公开的一个实施例中，加密模块520用于根据训练集确定第一随机分布噪声函数，基于第一随机分布噪声函数对该训练集进行加噪处理。并且/或者，加密模块520用于根据模型参数确定第二随机分布噪声函数，基于第二随机分布噪声函数对模型参数进行加噪处理。具体地，第一随机分布噪声函数可以包括：拉普拉斯分布噪声函数、指数分布噪声函数、或高斯分布噪声函数，并且/或者，第二随机分布噪声函数可以包括：拉普拉斯分布噪声函数、指数分布噪声函数、或高斯分布噪声函数。

图6示意性示出了根据本公开另一实施例的数据模型训练装置的框图。如图6所示，数据模型训练装置600包括输入模块610、加密模块620、训练模块630、输出模块640、和校验模块650。

其中，输入模块610、加密模块620、训练模块630、输出模块640与图5所示的输入模块510、加密模块520、训练模块530、输出模块540分别对应相同，在此不再重复说明。

校验模块650用于对加密数据模型的有效性进行校验。

在本公开的一个实施例中，训练集中还包括一条或多条标记数据。加密模块620用于对训练集中的训练数据进行第一隐私保护处理，训练模块630用于使用训练集中经过第一隐私保护处理的训练数据对数据模型进行训练，校验模块650用于在训练结束后判断训练集中的标记数据的值是否发生变化，是则确定所述加密数据模型无效。可选地，训练集中的训练数据和标记数据按照均匀分布混合。

在本公开的一个实施例中，训练集中的训练数据附有标记位。加密模块620用于对训练集中的训练数据进行第一隐私保护处理，得到多条附有标记位的加密训练数据，组成加密训练集。校验模块650用于在训练结束后判断加密训练集中是否存在未附有标记位的数据，是则确定加密数据模型无效。

在本公开的一个实施例中，校验模块650用于获取验证集，在输出模块基于加密模型参数生成加密数据模型之后，将验证集中的各验证数据的输入项输入至加密数据模型，统计输出结果与相应验证数据的输出项的匹配率，当匹配率高于预设阈值时，确定加密数据模型有效，否则确定加密数据模型无效。其中，验证集中包括一条或多条验证数据，每条验证数据均包括适配于基于模型参数生成的数据模型的输入项和输出项。

需要说明的是，数据模型训练装置500/600中的各模块能够实现图2～图4所示方法中的操作，具体实施例对应相同，上文中已有详细描述，在此不再赘述。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，输入模块510/610、加密模块520/620、训练模块530/630、输出模块540/640、以及校验模块650中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，输入模块510/610、加密模块520/620、训练模块530/630、输出模块540/640、以及校验模块650中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，输入模块510/610、加密模块520/620、训练模块530/630、输出模块540/640、以及校验模块650中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

根据本公开的另一方面，还提供了一种计算机设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时实现如上文中图2-图4所示的方法。该计算机设备可以是单个服务器，也可以是由多个服务器组成的服务器集群，当该计算机设备为服务器集群时，能够实现较高的计算速度和较高的容灾性，更加符合大数据时代的数据模型训练需求。

图7示意性示出了根据本公开实施例的适于实现数据模型训练方法的计算机设备的方框图。图7示出的计算机设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备700包括处理器710和计算机可读存储介质720。该计算机设备700可以执行根据本公开实施例的方法。

具体地，处理器710例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器710还可以包括用于缓存用途的板载存储器。处理器710可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质720，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

计算机可读存储介质720可以包括计算机程序721，该计算机程序721可以包括代码/计算机可执行指令，其在由处理器710执行时使得处理器710执行根据本公开实施例的方法或其任何变形。

计算机程序721可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序721中的代码可以包括一个或多个程序模块，例如包括模块721A、模块721B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器710执行时，使得处理器710可以执行根据本公开实施例的方法或其任何变形。

根据本公开的实施例，计算机设备700可以包括数据输入接口和数据输出接口(图中未示出)，处理器710可以与数据输入接口和数据输出接口进行交互，来执行根据本公开实施例的方法或其任何变形。

根据本发明的实施例，输入模块510/610、加密模块520/620、训练模块530/630、输出模块540/640、以及校验模块650中的至少一个可以实现为参考图7描述的计算机程序模块，其在被处理器710执行时，可以实现上面描述的相应操作。

本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现如上文中图2-图4所示的方法。

根据本公开的实施例，计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、射频信号等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种数据模型训练方法，包括：

获取训练集，所述训练集中包括多条训练数据；其中，所述训练集中还包括一条或多条标记数据；

对所述训练集进行第一隐私保护处理，得到加密训练集；包括：对所述训练集中的训练数据进行第一隐私保护处理；

使用所述加密训练集对数据模型进行训练，得到模型参数；包括：使用所述训练集中经过所述第一隐私保护处理的训练数据对数据模型进行训练；

对所述模型参数进行第二隐私保护处理，得到加密模型参数；

基于所述加密模型参数生成加密数据模型；

该方法还包括：训练结束后，判断所述训练集中的标记数据的值是否发生变化，是则确定所述加密数据模型无效；

其中，所述第一隐私保护处理使得所述加密训练集不同于所述训练集、且所述加密训练集与所述训练集的训练结果相同；

所述第二隐私保护处理使得所述加密模型参数不同于所述模型参数，且基于所述加密模型参数生成的加密数据模型与基于所述模型参数生成的数据模型在输入相同时具有相同的输出结果。

2.根据权利要求1所述的方法，其中：所述训练集中的训练数据和标记数据按照均匀分布混合。

3.根据权利要求1所述的方法，其中：所述训练集中的训练数据附有标记位；

所述对所述训练集进行第一隐私保护处理，得到加密训练集包括：对所述训练集中的训练数据进行第一隐私保护处理，得到多条附有标记位的加密训练数据，组成加密训练集；

该方法还包括：

训练结束后，判断所述加密训练集中是否存在未附有标记位的数据，是则确定所述加密数据模型无效。

4.根据权利要求1所述的方法，还包括：

获取验证集，所述验证集中包括一条或多条验证数据，每条验证数据包括适配于基于所述模型参数生成的数据模型的输入项和输出项；

在所述基于所述加密模型参数生成加密数据模型之后，

将所述验证集中的各验证数据的输入项输入至所述加密数据模型，统计输出结果与相应输出项的匹配率；

当所述匹配率高于预设阈值时，确定所述加密数据模型有效，否则确定所述加密数据模型无效。

5.根据权利要求1所述的方法，其中：

所述对所述训练集进行第一隐私保护处理包括：根据所述训练集，确定第一随机分布噪声函数；基于所述第一随机分布噪声函数对所述训练集进行加噪处理；并且/或者

所述对所述模型参数进行第二隐私保护处理包括：根据所述模型参数，确定第二随机分布噪声函数；基于所述第二随机分布噪声函数对所述模型参数进行加噪处理。

6.根据权利要求5所述的方法，其中：

所述第一随机分布噪声函数包括以下任一项：拉普拉斯分布噪声函数、指数分布噪声函数、或高斯分布噪声函数；并且/或者

所述第二随机分布噪声函数包括以下任一项：拉普拉斯分布噪声函数、指数分布噪声函数、或高斯分布噪声函数。

7.一种数据模型训练装置，包括：

输入模块，用于获取训练集，所述训练集中包括多条训练数据；其中，所述训练集中还包括一条或多条标记数据；

加密模块，用于对所述训练集进行第一隐私保护处理，得到加密训练集；包括：对所述训练集中的训练数据进行第一隐私保护处理；

训练模块，用于使用所述加密训练集对数据模型进行训练，得到模型参数；包括：使用所述训练集中经过所述第一隐私保护处理的训练数据对数据模型进行训练；

所述加密模块，还用于对所述模型参数进行第二隐私保护处理，得到加密模型参数；

输出模块，用于基于所述加密模型参数生成加密数据模型；

该装置还包括：

校验模块，用于在训练结束后判断所述训练集中的标记数据的值是否发生变化，是则确定所述加密数据模型无效；

8.一种计算机设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的数据模型训练方法。