CN115292677A

CN115292677A - 数据处理方法及装置

Info

Publication number: CN115292677A
Application number: CN202210917947.3A
Authority: CN
Inventors: 刘鹤洋
Original assignee: Ant Blockchain Technology Shanghai Co Ltd
Current assignee: Ant Blockchain Technology Shanghai Co Ltd
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-11-04

Abstract

本说明书实施例提供数据处理方法及装置，其中所述数据处理方法包括接收针对水印数据的数据生成请求，其中，所述数据生成请求中携带有水印生成参数以及水印类型；将所述水印生成参数以及所述水印类型发送至水印生成端，并接收所述水印生成端通过与所述水印类型对应的水印生成模块，以及所述水印生成参数生成的数据水印；基于所述数据水印以及待水印数据集生成水印数据集，其中，所述待水印数据集从原始数据集中确定；基于所述水印数据集和所述原始数据集对待训练模型进行训练，获得水印模型，从而降低该模型被窃取的风险，实现后续在该模型出现被窃取的问题时，能够基于该水印数据集对该模型的归属权进行验证，保证该模型拥有方的利益。

Description

数据处理方法及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种数据处理方法。

背景技术

随着人工智能技术的不断发展，各种类型的机器学习模型被开发出来，从而基于该机器学习模型实现各种类型的操作，例如，数据检测模型、图像识别模型等等。而一个性能较好的机器学习模型在建模过程中，需要大量的数据资产对该模型进行训练，因此，基于数据资产训练获取的机器学习模型，也应当被数据资产的拥有方视为珍贵的资产。

但是，目前的机器学习模型存在的被窃取的风险，而且针对被窃取的模型，该模型的拥有方很难证明该模型的归属权，因此，亟需提供一种能够对模型的归属权进行验证，且保证模型拥有方利益的方法。

发明内容

有鉴于此，本说明书施例提供了一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置，一种数据处理系统，一种模型验证方法，一种模型验证装置，一种计算设备，一种计算机可读存储介质，一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种数据处理方法，包括：

接收针对水印数据的数据生成请求，其中，所述数据生成请求中携带有水印生成参数以及水印类型；

将所述水印生成参数以及所述水印类型发送至水印生成端，并接收所述水印生成端通过与所述水印类型对应的水印生成模块，以及所述水印生成参数生成的数据水印；

基于所述数据水印以及待水印数据集生成水印数据集，其中，所述待水印数据集从原始数据集中确定；

基于所述水印数据集和所述原始数据集对待训练模型进行训练，获得水印模型，其中，所述水印数据集中包括的水印数据携带水印标签，所述原始数据集中包括的原始数据携带原始标签。

根据本说明书实施例的第二方面，提供了一种数据处理系统，所述系统包括客户端以及水印生成端，其中，

所述客户端，被配置为接收针对水印数据的数据生成请求，其中，所述数据生成请求中携带有水印生成参数以及水印类型，并将所述水印生成参数以及所述水印类型发送至所述水印生成端；

所述水印生成端，被配置为通过与所述水印类型对应的水印生成模块，以及所述水印生成参数生成的数据水印，并将所述数据水印发送至所述客户端；

所述客户端，还被配置为基于所述数据水印以及待水印数据集生成水印数据集，其中，所述待水印数据集从原始数据集中确定，基于所述水印数据集和所述原始数据集对待训练模型进行训练，获得水印模型，其中，所述水印数据集中包括的水印数据携带水印标签，所述原始数据集中包括的原始数据携带原始标签。

根据本说明书实施例的第三方面，提供了一种数据处理装置，包括：

请求接收模块，被配置为接收针对水印数据的数据生成请求，其中，所述数据生成请求中携带有水印生成参数以及水印类型；

数据水印生成模块，被配置为将所述水印生成参数以及所述水印类型发送至水印生成端，并接收所述水印生成端通过与所述水印类型对应的水印生成模块，以及所述水印生成参数生成的数据水印；

水印数据生成模块，被配置为基于所述数据水印以及待水印数据集生成水印数据集，其中，所述待水印数据集从原始数据集中确定；

模型训练模块，被配置为基于所述水印数据集和所述原始数据集对待训练模型进行训练，获得水印模型，其中，所述水印数据集中包括的水印数据携带水印标签，所述原始数据集中包括的原始数据携带原始标签。

根据本说明书实施例的第四方面，提供了一种模型验证方法，包括：

获取数据持有方持有的验证数据；

将所述验证数据输入至水印模型，获得所述水印模型输出的输出结果；

在所述输出结果与所述验证数据对应的验证结果一致的情况下，确定所述水印模型的所属者为所述数据持有方。

根据本说明书实施例的第五方面，提供了一种模型验证装置，包括：

获取模块，被配置为获取数据持有方持有的验证数据；

结果输出模块，被配置为将所述验证数据输入至水印模型，获得所述水印模型输出的输出结果；

验证模块，被配置为在所述输出结果与所述验证数据对应的验证结果一致的情况下，确定所述水印模型的所属者为所述数据持有方。

根据本说明书实施例的第六方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据处理方法或者模型验证方法的步骤。

根据本说明书实施例的第七方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据处理方法或者模型验证方法的步骤。

根据本说明书实施例的第八方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述数据处理方法或者模型验证方法的步骤。

本说明书一个实施例提供的数据处理方法，包括：接收针对水印数据的数据生成请求，其中，所述数据生成请求中携带有水印生成参数以及水印类型；将所述水印生成参数以及所述水印类型发送至水印生成端，并接收所述水印生成端通过与所述水印类型对应的水印生成模块，以及所述水印生成参数生成的数据水印；基于所述数据水印以及待水印数据集生成水印数据集，其中，所述待水印数据集从原始数据集中确定；基于所述水印数据集和所述原始数据集对待训练模型进行训练，获得水印模型，其中，所述水印数据集中包括的水印数据携带水印标签，所述原始数据集中包括的原始数据携带原始标签。

具体的，该方法通过水印生成端利用该水印生成模块生成数据水印，并基于原始数据集，以及通过该数据水印以及待水印数据集生成水印数据集，对待训练模型进行训练，从而获得携带有水印信息的模型，从而降低该模型被窃取的风险，并且实现后续在该模型出现被窃取的问题时，能够基于该水印数据集对该模型的归属权进行验证，从而保证该模型拥有方的利益。

附图说明

图1是本说明书一个实施例提供的模型训练的示意图；

图2是本说明书一个实施例提供的一种数据处理方法的应用场景图；

图3是本说明书一个实施例提供的一种数据处理方法的流程图；

图4是本说明书一个实施例提供的一种数据处理方法的处理过程流程图；

图5是本说明书一个实施例提供的一种模型验证方法的流程图；

图6是本说明书一个实施例提供的一种数据处理系统的结构示意图；

图7是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

模型水印：一种识别模型归属权的方式，通过改变训练数据或者模型的结构来建立一个模型的唯一识别模块帮助归属权识别，目前提供三种模式，有三种不同的嵌入式水印化方式，分别为噪声水印，签名水印和自定义水印。每个水印模块将会返还给参与方一个水印证书，噪声水印为随机生成一个固定的高斯分布的矩阵作为水印证书，签名水印由参与方DID通过MD5的哈希生成的向量，将向量作为水印证书发送给数据拥有方，最后自定义水印会要求数据方自行发送任意图片/数据/信息，然后进行向量化作为水印证书。

决策树：一种机器学习分类和回归算法，基于训练数据的特征进行分裂，并且以叶节点的结果作为预测结果的机器学习模型。也即是说，该决策树模型是一种基于数据特征分布来进行训练的模型，该决策树模型进行预测的时候，会以树结构进行查找。该树结构分为叶节点和非叶节点，其中，叶节点存储具体分类标签，非叶节点存储特征的判断条件。

MD5(MD5 Message-Digest Algorithm)：信息摘要算法，一种被广泛使用的密码散列函数。

水印生成端：是指能够生成水印证书以及水印标签的服务端。

随着人工智能技术的不断发展，各种类型的机器学习模型被开发出来，从而基于该机器学习模型实现各种类型的操作，例如，数据检测模型、图像识别模型等等。而一个好的机器学习模型的建模过程需要大量的数据资产，而数据拥有方所获取的机器学习模型也应当被视为珍贵的资产。

例如，参见图1，图1是本说明书一个实施例提供的模型训练的示意图；其中，该模型可以为决策树模型或者集成学习模型。参见图1，以模型为决策树模型为例，该决策树模型的训练过程为：确定对决策树模型进行训练的训练数据，该训练数据包括训练样本和样本标签；基于该训练数据对该决策树模型进行训练；之后，将训练后的决策树模型部署至真实的生成环境中，通过该决策树模型对生产数据进行预测，从而获得预测结果。例如，该决策树模型是一种能够对用户历史购物信息进行处理，从而确定符合用户偏好的商品的模型。该训练样本可以为用户的历史购物信息，该样本标签为符合用户偏好的商品；训练后的决策树部署至购物场景(即生成场景)后，能够将用户的历史购物信息(即生成数据)输入至该决策模型中，从而获得符合用户偏好的商品(即预测结果)。其中，该训练样本与生成数据不相同。

然而现在有很多针对这些资产的窃取方案，而且将模型窃取之后原模型建立者在证明模型归属权的方式上会有一定难度，从而导致该模型建立者的利益受到损失。

基于此，在本说明书中，提供了一种数据处理方法，本说明书一个或者多个实施例同时涉及一种数据处理装置，一种数据处理系统，一种模型验证方法，一种模型验证装置，一种计算设备，一种计算机可读存储介质，一种计算机程序，在下面的实施例中逐一进行详细说明。

图2示出了根据本说明书一个实施例提供的一种数据处理方法的应用场景图，其中，该模型可以为决策树模型或者集成学习模型。参见图2，以模型为决策树模型为例，该决策树模型的训练过程为：基于模型水印技术，对该训练数据进行水印化处理，从而获得水印数据，该水印数据中包含水印样本和水印标签；并基于该水印数据以及训练样本对决策树模型进行训练，从而获得水印化的决策树模型(即图2中的水印化模型)。之后，将训练后的水印化决策树模型部署至真实的生成环境中，通过该决策树模型对生产数据进行预测，从而获得预测结果，例如，训练后的决策树部署至购物场景(即生成场景)后，能够将用户的历史购物信息(即生成数据)输入至该决策模型中，从而获得符合用户偏好的商品(即预测结果)。

并且，在需要进行版权验证的过程中，会将该水印数据输入至该决策树模型中，利用该决策树模型输入对应的验证结果，在该验证结果与水印数据中包括的水印标签为一致的情况下，确定该决策树模型的版权归属与该水印数据的数据持有方。

基于上述内容可知，本说明书提供的数据处理方法是一种基于决策树的模型版权保护和证明方法，通过针对决策树的水印化处理，已达到保护机器学习模型的目的，从而完成基础决策树模型的产权保护。

图3示出了根据本说明书一个实施例提供的一种数据处理方法的流程图，具体包括以下步骤。

步骤302：接收针对水印数据的数据生成请求，其中，所述数据生成请求中携带有水印生成参数以及水印类型。

需要说明的是，本说明书提供的数据处理方法，能够应用于客户端，该客户端可以是用户终端，也可以是用户终端上部署的客户端程序。

其中，该水印数据可以理解为包含水印信息的数据，通过该水印数据能够将待训练模型训练为水印模型的数据；该水印信息可以理解为一种能够嵌入至原始数据中，从而实现数据溯源的信息；例如，该水印信息可以是矩阵、向量等信息。在实际应用中，该水印信息可以为水印证书。

该数据生成请求可以理解为客户端接收到的、指示其生成水印数据的请求。在实际应用中，数据生成请求可以为水印数据请求方发送的。其中，该水印数据请求可以是需要获取该水印数据的请求方，例如，该水印数据请求方可以是用户、原始数据持有方、其他客户端、服务器等等，本说明书对此不作具体限制。

该水印类型可以理解为所生成的数据水印的类型，需要说明的是，该数据水印可以通过不同的方式生成，例如，噪声水印，签名水印和自定义水印的方式。通过不同方式生成的数据水印，具有不同的水印类型。例如，通过噪声水印方式生成的数据水印的类型为噪声水印类型；通过签名水印方式生成的数据水印的类型为签名水印类型。

该水印生成参数可以理解为在生成数据水印过程中所需要的参数；例如，在通过噪声水印方式生成数据水印的过程中，需要提供一个随机数，以及表征噪声大小的噪声大小参数；后续噪声水印方式能够基于该随机数以及噪声大小参数，生成噪声水印。因此，该随机数以及噪声大小参数可以为水印生成参数。或者，该自定义水印会要求数据拥有方自行发送任意图片/数据/信息，然后对其进行向量化作为水印证书；因此，该任意图片/数据/信息可以为水印生成参数；对应的，基于自定义水印方式审查的数据水印的类型为自定义水印类型。

在本说明书提供的一实施例中，为了后续实现对模型的版权保护，本说明书提供的实施例中，会从训练数据中选择部分数据作为待水印数据，后续将该待水印数据处理为水印数据，具体的，所述接收针对水印数据的数据生成请求之前，还包括：

接收针对所述原始数据集的数据选取请求，其中，所述数据选取请求中携带有待水印数据的数据参数；

基于所述数据参数，从所述原始数据集中选取所述待水印数据，并基于所述待水印数据构建所述待水印数据集。

其中，该原始数据集可以理解为用于对该待训练模型进行训练的训练数据集，也即是，上述实施例中的数据资产。例如，该原始数据可以为用户历史购物数据、动物图片数据等能够对模型进行训练的数据。

该数据选取请求可以理解为指示客户端从该原始数据集选取待水印数据的请求；该待水印数据可以理解为需要被嵌入水印信息的原始训练数据。该数据参数可以理解为待水印数据的数量。

例如，客户端在接收到源数据方发送的、针对训练数据集的数据选取请求的情况下，响应于该数据选取请求，并根据该数据选取请求中携带的待水印训练数据的数量(比如100个)，从而样本数据集中随机选取100个训练数据，作为待水印训练数据。

进一步的，在本说明书提供的实施例中，为了保证水印数据的安全性，以及提高水印数据的性能，可以通过水印生成端对待水印数据进行选取，具体的，所述基于所述数据参数，从所述原始数据集中选取所述待水印数据，包括：

基于所述数据参数，从所述水印生成端获取所述待水印数据对应的数据标识；

将所述原始数据集中与所述数据标识对应的原始数据，确定为所述待水印数据。

其中，该数据标识可以理解为唯一标识一个训练数据的信息，例如，训练数据的名词、编号、序号、ID等等。在实际应用中，该数据标识可以为该原始数据的数据索引。

该水印生成端可以理解为能够生成数据水印的服务端。

具体的，该客户端基于数据参数，从该水印生成端获取与该待水印数据的数据参数所对应的数据标识，并基于该数据标识，从原始数据集中确定与该数据标识对应的原始数据，并将该原始数据作为待水印数据。

在本说明书提供的实施例中，该水印生成端确定该数据标识的方式具体为，所述基于所述数据参数，从所述水印生成端获取所述待水印数据对应的数据标识，包括：

基于所述数据数量以及所述原始数据集的数据集标识，生成数据索引确定请求，并将所述数据索引确定请求发送至所述水印生成端；

接收所述水印生成端返回的所述待水印数据对应的数据索引，其中，所述数据索引为所述水印生成端基于所述数据数量，从所述数据集标识对应的数据集索引中随机获取的索引。

其中，该数据集标识可以理解为唯一标识一个数据集的参数；该数据集索引可以理解为对该原始数据集中的原始数据进行查询的索引。

具体的，该客户端将基于数据数量以及原始数据集的数据集标识，生成数据索引确定请求，并将数据索引确定请求发送至水印生成端；而该水印生成端在接收到该数据索引确定请求的情况下，响应于该数据索引确定请求，从自身持有的数据集索引中确定与该数据集标识对应的数据集索引，并从该数据集索引中随机选择与该数据数量对应的数据索引，并将该数据索引发送至该客户端。

步骤304：将所述水印生成参数以及所述水印类型发送至水印生成端，并接收所述水印生成端通过与所述水印类型对应的水印生成模块，以及所述水印生成参数生成的数据水印。

其中，该水印生成模块可以理解为不同类型的水印化方式，例如噪声水印，签名水印和自定义水印等。

具体的，客户端将该水印生成参数以及该水印类型发送至水印生成端；该水印生成端在接收到该水印生成参数以及水印类型之后，能够从自身存在多种类型的水印生成模块中，确定与该水印类型对应的水印生成模块，之后，基于该水印生成参数，通过该水印模块生成对应的数据水印，比如，水印生成模块为签名水印方式的情况下，该水印生成参数可以为一个随机数，基于此，通过MD5对该随机数进行处理生成向量，将向量作为水印证书发送给客户端。或者，水印生成模块为自定义水印方式的情况下，该水印生成参数可以为一个任意图片，基于此，通过该任意图片进行向量化处理获得一个向量，将该向量作为水印证书发送给客户端。

在本说明书一实施例中，该数据水印中包含水印信息以及水印标签，因此，在通过水印生成端生成该数据水印的过程中，需要将水印生成参数、水印类型以及待水印数据对应的标签发送至水印生成端进行水印化处理，从而获得该数据水印，从而后续能够基于该数据水印保证该训练后模型的版权归属。具体的，将所述水印生成参数以及所述水印类型发送至水印生成端，并接收所述水印生成端通过与所述水印类型对应的水印生成模块，以及所述水印生成参数生成的数据水印，包括：

将所述待水印数据对应的原始标签，确定为待处理标签；

将所述水印生成参数、所述水印类型以及所述待处理标签生成水印处理请求，并将所述水印处理请求发送至所述水印生成端；

接收所述水印生成端通过与所述水印类型对应的水印生成模块，根据所述水印生成参数生成的数据水印，其中，所述数据水印中包含水印信息，以及通过所述水印生成模块对所述待处理标签进行水印化处理获得的水印标签。

其中，该通过水印生成模块对待处理标签进行水印化处理获得的水印标签可以理解为，通过水印化方式对样本标签进行修改，从而获得水印标签。其中，对样本标签的修改包括但不限于对样本标签(数值型)进行扩大处理或缩小处理，例如，将样本标签(0)扩大为100；对样本标签的内容进行修改，例如，将样本标签(猫)修改为“牛”等等。

具体的，客户端将待水印数据对应的原始标签，确定为待处理标签，并将该水印生成参数、该水印类型以及待处理标签生成水印处理请求，将水印处理请求发送至水印生成端；

该水印生成端响应于该水印处理请求，从该请求中获取该水印生成参数以及水印类型，之后从自身存在多种类型的水印生成模块中，确定与该水印类型对应的水印生成模块，基于该水印生成参数，通过该水印模块生成对应的水印信息。并且，通过水印生成模块对待处理标签进行水印化处理获得的水印标签，然后将该水印信息以及该水印标签作为数据水印发送给客户端。

步骤306：基于所述数据水印以及待水印数据集生成水印数据集，其中，所述待水印数据集从原始数据集中确定。

具体的，客户端将该数据水印与该待水印数据集中的待水印数据进行融合，从而获得水印数据，并基于该水印数据构建水印数据集。

在本说明书提供的一实施例中，将数据水印与待水印数据进行融合的过程具体为，所述基于所述数据水印以及待水印数据集生成水印数据集，包括：

确定所述数据水印中包含的水印信息，以及水印标签；

将所述水印信息与所述待水印数据集中的待水印数据进行融合，获得水印数据；

基于所述水印数据以及所述水印标签构建水印数据集。

其中，将水印信息与待水印数据集中的待水印数据进行融合，获得水印数据可以理解为，将该水印信息(例如，矩阵)与待水印数据(例如，矩阵)通过相加或相差的方式进行融合处理，并将两个矩阵融合后的矩阵作为水印数据。

具体的，该客户端在接收到该数据水印之后，能够获取该数据水印中包含的水印信息以及水印标签；将该水印标签与该待水印数据集中的待水印数据进行融合，从而获得水印数据，之后，将该水印标签作为该水印数据对应的标签。

在本说明书提供的实施例中，该客户端在将该水印信息与该待水印数据相融合的过程中，由于水印信息可以通过不同类型的水印化方式生成，因此，为了保证该水印信息与该待水印数据的顺利融合，需要预先为不同类型的水印化方式确定对应的融合策略，从而基于该融合策略，实现不同类型的水印信息能够顺利的与该待水印数据进行融合。具体的，所述将所述水印信息与所述待水印数据集中的待水印数据进行融合，获得水印数据，包括：

确定所述水印类型对应的数据融合策略，并基于所述数据融合策略，将所述水印信息与所述待水印数据集中的待水印数据进行融合，获得水印数据。

其中，该数据融合策略包括但不限于相加、相乘、替换(即使用水印信息替换待水印数据，获得水印数据)等等。

沿用上例，在水印类型为噪声水印类型的情况下，该数据融合策略可以为相加；基于此，在将水印信息与该待水印数据进行融合的过程中，可以将该水印数据(如，矩阵)与该待水印数据(如，矩阵)相加，从而获得水印数据。

需要说明的是，在水印信息与待水印数据相融合的过程中，可能会出现该水印数据(如，矩阵)的结构(比如长宽)，与该待水印数据的结构(比如长宽)不匹配的情况下，因此，在将水印信息与待水印数据进行融合的过程中，需要基于该待水印数据的结构信息，对该水印信息进行调整，获得与该待水印数据向匹配的水印信息，之后，再将该待水印数据和与其相匹配的水印信息进行融合，获得水印数据。

步骤308：基于所述水印数据集和所述原始数据集对待训练模型进行训练，获得水印模型。

其中，所述水印数据集中包括的水印数据携带水印标签，所述原始数据集中包括的原始数据携带原始标签。

需要说明的是，基于该水印数据集和原始数据集对待训练模型进行训练的方式，可以采用任意一种通过样本数据对模型进行训练的方式，本说明对此不作具体限制。

该水印模型可以理解为通过水印数据训练获得的模型。后续能基于该水印数据对该水印模型的版权归属进行验证。

在本说明书提供的数据处理方法中，考虑到虽然模型水印技术能够为模型拥有方提供相对的版权证明机制，但是，更多的水印机制应用于深层神经网络模型中，而针对其他金融领域中应用广泛的集成学习模型或决策树模型相对缺乏保护机制，因此这里提出了对集成学习模型或决策树模型的水印机制，从而进一步保护集成学习模型或决策树模型的归属权。具体的，所述基于所述水印数据集和所述原始数据集对待训练模型进行训练，获得水印模型，包括：

基于所述水印数据集和所述原始数据集对决策树模型进行训练，获得水印决策树模型。

需要说明的是，基于该水印数据集和原始数据集对决策树模型进行训练的方式，可以采用任意一种通过样本数据对决策树模型进行训练的方式，本说明对此不作具体限制。

此外，在本说明书提供的一实施例中，在训练获得水印模型之后，当需要对该水印模型的归属权进行验证的情况下，需要通过该水印数据以及对应的水印标签进行归属权验证，从而保证该水印模型不会出现被窃取的风险。具体的，将水印数据作为验证数据，将所述水印数据对应的水印标签作为验证结果；将所述验证数据输入至水印模型，获得所述水印模型输出的输出结果；在所述输出结果与所述验证数据对应的验证结果一致的情况下，确定所述水印模型的所属者为所述数据持有方。

需要说明的是，针对通过水印数据对该水印模型的归属权进行验证的内容，可以参见下述模型验证方法中的内容，在此不过多赘述。

本说明书提供的数据处理方法，通过水印生成端利用该水印生成模块生成数据水印，并基于原始数据集，以及通过该数据水印以及待水印数据集生成水印数据集，对待训练模型进行训练，从而获得携带有水印信息的模型，从而降低该模型被窃取的风险，并且实现后续在该模型出现被窃取的问题时，能够基于该水印数据集对该模型的归属权进行验证，从而保证该模型拥有方的利益。

下述结合附图4，以本说明书提供的数据处理方法在对决策树进行模型版权保护场景下的应用为例，对所述数据处理方法进行进一步说明。其中，图4示出了本说明书一个实施例提供的一种数据处理方法的处理过程流程图，需要说明的是，图4中的服务端为上述实例例中的水印生成端，该源数据方可以为数据持有方、数据拥有方或水印数据请求方。具体包括以下步骤。

步骤402：确定水印样本数量。

具体的，该源数据方向该客户端发送需要生成的水印样本的数量(10个)，该数量需要小于训练数据总量。

步骤404：发送水印样本数量。

具体的，该客户端将源数据方发送的水印样本数量(10个)，以及该源数据方提供的源数据(即训练样本)的标识，发送至服务端。

步骤406：随机生成对应的数量的样本索引。

具体的，服务端基于该标识，确定该源数据方所提供的训练样本索引，并从该训练样本索引中随机选择10个样本索引。

需要说明的是，该服务端中仅存储源数据方提供的训练样本索引，并不存在训练样本。并且，样本索引可重复。

步骤408：返回索引。

具体的，服务端将该10个样本索引返回至客户端。

步骤410：根据索引获取对应的数据。

具体的，客户端根据该10个样本索引，从本地存储的样本中确定该10个样本索引对应的样本，并将该样本作为待水印样本。

步骤412：发送水印化方式及水印模型参数。

具体的，客户端，接收源数据方发送至水印化方法以及水印模型参数，并将该水印化方法以及水印模型参数发送至服务端；同时，将待水印样本对应的样本标签发送至服务端。

其中，该水印化方式可以理解为上述实施例中的水印类型，该水印模型参数可以理解为上述实施例中的水印生成参数。

步骤414：生成水印。

具体的，服务端，从自身嵌入的多种水印化方式中，确定源数据方指定的水印化方式，并利用该水印化方式，根据该水印模型参数生成水印证书。并利用该水印化方式对样本标签进行处理，获得水印标签。

步骤416：返回水印。

具体的，该服务端，将该水印证书以及水印标签发送至客户端。

步骤418：结合水印数据的索引获取即将被水印化的源数据。

具体的，该客户端，基于该10个样本索引，从本地存储的训练样本中，获取即将被水印化的待水印样本。

步骤420：将水印化的源数据和水印融合生成水印数据。

具体的，将该待水印样本和水印证书进行融合，获得水印数据，并将该水印标签作为该水印数据的标签。

步骤422：返还水印数据文件。

具体的，客户端，将该水印数据以及对应的水印标签，返回给源数据方进行保存。后续，该源数据方可以利用该水印数据以及对应的水印标签，对决策树模型进行训练，获得水印化的决策树模型。

基于上述步骤可知，本说明书提供的数据处理方法，通过给出一个对应的水印化数据数量n，随机抽样出n条数据，并且不得重复抽样，并对于抽出来的每条数据向量，由用户自行选择水印化的方式生成水印证书，然后对数据进行水印化处理，最后将水印化处理完成的数据将会打包和原有数据一同对决策树模型进行训练，完成训练之后即可获得相应的水印化模型。

本说明书提供的数据处理方法，考虑到现阶段多数模型水印的适用范围依然为深层神经网络模型，对于决策树或者集成学习相关的模型而言并无具体保护效果，因此，针对决策树的水印化以保护机器学习模型，能够完成基础决策树模型的产权保护，保证该模型拥有方的利益，并且通过直接对决策树模型进行学习且不暴露任何隐私。

利用服务端生成水印数据和水印标签，并利用该水印数据和水印标签对决策树模型进行训练，从而降低该模型被窃取的风险，并且实现后续在该模型出现被窃取的问题时，能够基于该水印数据对该模型的归属权进行验证。

图5示出了根据本说明书一个实施例提供的一种模型验证方法的流程图，具体包括以下步骤。

步骤502：获取数据持有方持有的验证数据。

步骤504：将所述验证数据输入至水印模型，获得所述水印模型输出的输出结果。

步骤506：在所述输出结果与所述验证数据对应的验证结果一致的情况下，确定所述水印模型的所属者为所述数据持有方。

其中，该数据持有方可以理解为持有该验证数据的机构或人员；该验证数据可以理解为能够对该水印模型进行归属权验证的数据，也即是，对该水印模型的版权归属进行验证的数据；该验证数据可以理解为上述实施例中得水印数据。对应的，该验证数据对应的验证结果可以理解为水印数据对应的水印标签。需要说明的是，该验证数据与该验证结果可以是唯一对应关系。

具体的，在需要对水印模型的归属权进行验证的过程中，需要获取该数据持有方所持有的验证数据，并将该验证数据输入至需要进行归属权验证的水印模型中，利用该水印模型对该验证数据进行处理，并输出结果。之后，将该输出结果与该验证数据对应的验证结果进行一致性匹配，在确定该输出结果与验证数据对应的验证结果一致的情况下，确定水印模型的所属者为数据持有方。此外，在确定该输出结果与验证数据对应的验证结果不一致的情况下，确定水印模型的所属者并非数据持有方。

需要说明的是，该水印数据为上述数据处理方法中，通过水印数据以及对应的水印标签训练获得的模型。

例如，该水印模型为决策树模型，该验证数据为对决策树模型进行训练的水印数据，该验证结果为水印数据对应的水印标签。基于此，在基于水印数据和水印标签完成针对该决策树模型的训练之后，对该决策树模型进行训练的模型训练方，会持有并保存该水印数据以及对应的水印标签。

当模型训练方(即数据持有方)认为其训练的决策树模型被窃取的情况下，该模型训练方会将其保存的水印数据输入至该疑似被窃取的决策树模型中，获得该决策树模型输入的结构；之后，将该输出结果与该水印数据对应的水印标签进行一致性匹配，在确定输出结果与水印标签为一致的情况下，确定该决策树模型的归属权为该模型训练方，该决策树模型被窃取。当在确定输出结果与水印标签不一致的情况下，该决策树模型的归属权不是该模型训练方。

本说明书提供的模型验证方法，通过将数据持有方持有的验证数据输入至水印模型，并在水印模型输出的输出结果，与验证数据对应的验证结果一致的情况下，确定水印模型的所属者为数据持有方。从而实现了在该模型出现被窃取的问题时，能够基于该水印数据集对该模型的归属权进行验证，从而保证该模型拥有方的利益。

图6示出了根据本说明书一个实施例提供的一种数据处理系统的结构示意图，该系统包括客户端602以及水印生成端604，其中，

所述客户端602，被配置为接收针对水印数据的数据生成请求，其中，所述数据生成请求中携带有水印生成参数以及水印类型，并将所述水印生成参数以及所述水印类型发送至所述水印生成端604；

所述水印生成端604，被配置为通过与所述水印类型对应的水印生成模块，以及所述水印生成参数生成的数据水印，并将所述数据水印发送至所述客户端602；

所述客户端602，还被配置为基于所述数据水印以及待水印数据集生成水印数据集，其中，所述待水印数据集从原始数据集中确定，基于所述水印数据集和所述原始数据集对待训练模型进行训练，获得水印模型，其中，所述水印数据集中包括的水印数据携带水印标签，所述原始数据集中包括的原始数据携带原始标签。

需要说明的是，针对该数据处理系统的解释内容，可以参见上述数据处理方法、以及上述模型验证方法中的内容，本说明书对此过多赘述。该数据处理系统的技术方案与上述的数据处理方法以及模型训练方法的技术方案属于同一构思，数据处理系统的技术方案未详细描述的细节内容，均可以参见上述数据处理方法以及模型训练方法的技术方案的描述。

本说明书提供的数据处理系统，通过水印生成端利用该水印生成模块生成数据水印，并利用客户端基于原始数据集，以及通过该数据水印以及待水印数据集生成水印数据集，对待训练模型进行训练，从而获得携带有水印信息的模型，从而降低该模型被窃取的风险，并且实现后续在该模型出现被窃取的问题时，能够基于该水印数据集对该模型的归属权进行验证，从而保证该模型拥有方的利益。

与上述方法实施例相对应，本说明书还提供了数据处理装置实施例，该装置包括：

可选地，所述数据处理装置还包括待水印数据确定模块，被配置为：

可选地，所述待水印数据确定模块，还被配置为：

可选地，所述数据水印生成模块，还被配置为：

将所述待水印数据对应的原始标签，确定为待处理标签；

可选地，所述水印数据生成模块，还被配置为：

确定所述数据水印中包含的水印信息，以及水印标签；

基于所述水印数据以及所述水印标签构建水印数据集。

可选地，所述水印数据生成模块，还被配置为：

可选地，所述模型训练模块，还被配置为：

本说明书提供的数据处理装置，通过水印生成端利用该水印生成模块生成数据水印，并基于原始数据集，以及通过该数据水印以及待水印数据集生成水印数据集，对待训练模型进行训练，从而获得携带有水印信息的模型，从而降低该模型被窃取的风险，并且实现后续在该模型出现被窃取的问题时，能够基于该水印数据集对该模型的归属权进行验证，从而保证该模型拥有方的利益。

上述为本实施例的一种数据处理装置的示意性方案。需要说明的是，该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思，数据处理装置的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了模型验证装置实施例，该装置包括：

获取模块，被配置为获取数据持有方持有的验证数据；

本说明书提供的模型验证装置，通过将数据持有方持有的验证数据输入至水印模型，并在水印模型输出的输出结果，与验证数据对应的验证结果一致的情况下，确定水印模型的所属者为数据持有方。从而实现了在该模型出现被窃取的问题时，能够基于该水印数据集对该模型的归属权进行验证，从而保证该模型拥有方的利益。

上述为本实施例的一种模型验证装置的示意性方案。需要说明的是，该模型验证装置的技术方案与上述的模型验证方法的技术方案属于同一构思，模型验证装置的技术方案未详细描述的细节内容，均可以参见上述模型验证方法的技术方案的描述。

图7示出了根据本说明书一个实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接，数据库750用于保存数据。

计算设备700还包括接入设备740，接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。

其中，处理器720用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据处理方法或者模型验证方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的数据处理方法以及模型验证方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述数据处理方法以及模型验证方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述数据处理方法或者模型验证方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的数据处理方法以及模型验证方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述数据处理方法以及模型验证方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述数据处理方法或者模型验证方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的数据处理方法以及模型验证方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述数据处理方法以及模型验证方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种数据处理方法，包括：

2.根据权利要求1所述的数据处理方法，所述接收针对水印数据的数据生成请求之前，还包括：

3.根据权利要求2所述的数据处理方法，所述基于所述数据参数，从所述原始数据集中选取所述待水印数据，包括：

4.根据权利要求3所述的数据处理方法，所述基于所述数据参数，从所述水印生成端获取所述待水印数据对应的数据标识，包括：

基于数据数量以及所述原始数据集的数据集标识，生成数据索引确定请求，并将所述数据索引确定请求发送至所述水印生成端；

5.根据权利要求2所述的数据处理方法，将所述水印生成参数以及所述水印类型发送至水印生成端，并接收所述水印生成端通过与所述水印类型对应的水印生成模块，以及所述水印生成参数生成的数据水印，包括：

将所述待水印数据对应的原始标签，确定为待处理标签；

6.根据权利要求1所述的数据处理方法，所述基于所述数据水印以及待水印数据集生成水印数据集，包括：

确定所述数据水印中包含的水印信息，以及水印标签；

基于所述水印数据以及所述水印标签构建水印数据集。

7.根据权利要求6所述的数据处理方法，所述将所述水印信息与所述待水印数据集中的待水印数据进行融合，获得水印数据，包括：

8.根据权利要求1所述的数据处理方法，所述基于所述水印数据集和所述原始数据集对待训练模型进行训练，获得水印模型，包括：

9.一种模型验证方法，包括：

获取数据持有方持有的验证数据；

10.一种数据处理系统，所述系统包括客户端以及水印生成端，其中，

11.一种数据处理装置，包括：

12.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至8任意一项所述数据处理方法，或者权利要求9所述的模型验证方法的步骤。

13.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至8任意一项所述数据处理方法，或者权利要求9所述的模型验证方法的步骤。