CN117932457A

CN117932457A - 一种基于错误分类的模型指纹识别方法及系统

Info

Publication number: CN117932457A
Application number: CN202410331647.6A
Authority: CN
Inventors: 周浩; 陈先意
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2024-03-22
Filing date: 2024-03-22
Publication date: 2024-04-26
Anticipated expiration: 2044-03-22
Also published as: CN117932457B

Abstract

本发明提供一种基于错误分类的模型指纹识别方法及系统，涉及模型版权保护领域。该基于错误分类的模型指纹识别，首先，寻找目标模型和盗版模型(修改后的模型)都分类错误的模型的样本。然后，在不改变目标模型参数的前提条件下，使用GAN网络对这些错误样本的分类特征增强以生成指纹样本并使其分类正确，同时保证指纹样本自然且与原样本的差异较小。最后，用错误样本和指纹样本作为查询集，通过对比错误样本和指纹样本的预测标签来验证模型所有权。这种方法不仅极大增强了指纹样本的隐蔽性，还提高了对模型微调、剪枝和加噪等攻击的鲁棒性。

Description

一种基于错误分类的模型指纹识别方法及系统

技术领域

本发明涉及模型版权保护技术领域，具体为一种基于错误分类的模型指纹识别方法及系统。

背景技术

随着深度学习的快速发展，深度神经网络已经在许多人工智能领域取得了巨大的成功，如图像识别、视觉理解和自然语言处理等。像微软、谷歌和百度等企业已经在他们的商业产品中部署了DL模型，以提供更高质量和智能的服务。尽管深度神经网络优于传统的方法，但设计和训练一个高性能的深度模型并不是一个简单的任务，通常需要大规模带有标记的训练数据、大量的计算资源，以及专业知识来设计一个优异的框架和适合的学习策略，其开发成本并不是一般人可以承受的。然而高性能的深度模型充满了巨大的商业价值，恶意用户可能会使用代理攻击通过访问目标模型的API来窃取模型，或者盗取模型结构和参数并修改模型。因此，模型保护产品的知识产权需要保护以防止被盗版。

模型水印是一种常见的模型知识产权保护方法，通过修改模型参数等方法将水印信息嵌入到模型里。但现有的研究工作表明，基于水印的模型保护方法不可避免地对模型性能造成影响。然而在医疗和金融等关键领域，即使1%的精度损失也是无法容忍的，因此研究人员提出了模型指纹识别方法。模型指纹识别并不需要修改模型的训练过程或微调模型参数，而是通过寻找模型特有的特征来保护模型知识产权。模型指纹识别方法首先在目标模型的分类边界寻找一些样本，然后通过对抗样本等方法将这些样本生成为指纹样本。最后用指纹样本和其预测的标签作为目标模型的指纹，对于一个可疑的分类器，模型所有者通过远程访问API，输入指纹样本集以获得其标签。通过对比可疑分类器和目标分类器对指纹样本的预测标签，模型所有者验证可疑分类器是否是从目标分类器中盗版的。

虽然现有基于分类边界的模型指纹识别方法实现了对模型的知识产权保护，但是使用决策边界上的样本对模型攻击的鲁棒性较差，并不稳健。而且使用对抗样本的方式来生成的指纹样本不自然隐蔽性较低，容易被受到检测出来。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了一种基于错误分类的模型指纹识别方法及系统，解决了有基于分类边界的模型指纹识别方法实现了对模型的知识产权保护，但是使用决策边界上的样本对模型攻击的鲁棒性较差，并不稳健的问题。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，提供了一种基于错误分类的模型指纹识别方法，包括：

输入公共数据集D_m，使用公共数据集D_m频繁访问目标模型得到公共数据集D_m的预测标签，将带有标签的公共数据集D_m作为原训练集D_train，通过原训练集D_train训练盗版模型；

在原训练集D_train中筛选出目标模型和盗版模型均分类错误的样本Z；

找出训练集D_train每一类中与同类的其他样本累积距离最小的样本作为质心样本D_s；

在分类错误的样本Z中筛选出一批与质心样本距离最大的样本作为查询集中的错误样本Z_e，并记录错误样本Z_e的标签集；

把错误样本Z_e输入到预先构建的GAN网络中，引导错误样本Z_e正确分类，并生成自然的指纹样本Z_r；

在GAN网络生成的指纹样本Z_r中筛选出一批与质心样本距离最小的样本作为查询集中的指纹样本Z_w，并记录指纹样本的标签集；

将错误样本Z_e和指纹样本Z_w分别输入到预先构建的可疑模型中，得到错误样本的标签集和指纹样本的标签集。

优选的，所述找出训练集D_train每一类中与同类的其他样本累积距离最小的样本作为质心样本D_s，公式如下：

其中，N表示k类中的数据数，表示向量的长度。

优选的，所述把错误样本Z_e输入到预先构建的GAN网络中，引导错误样本Z_e正确分类，并生成自然的指纹样本Z_r，具体包括：

把错误样本Z_e输入到GAN网络中的生成器G得到指纹样本Z_r，将指纹样本Z_r输入目标模型，引导其分类正确；

利用分类损失和鉴别损失/>的加权组合/>训练该GAN网络，/>是平衡错误样本和指纹样本质量的超参数；

将指纹样本Z_r输入鉴别器中，通过计算鉴别损失L_d引导生成自然的指纹样本；

计算总损失，反向传播以最小化总损失函数L，迭代更新GAN网络的参数，得到自然的指纹样本。

优选的，所述分类损失公式如下：

其中为目标模型F对指纹样本/>的SoftMax函数，Y是引导指纹样本/>分类的标签，/>是Carlini-Wagner损失。

优选的，所述Carlini-Wagner损失，公式如下：

Z为，参数k鼓励GAN网络生成被分类为Y类的高置信度样本。

优选的，所述鉴别损失L_d，公式如下：

。

优选的，所述将错误样本Z_e和指纹样本Z_w分别输入到预先构建的可疑模型中，得到错误样本的标签集和指纹样本的标签集后，判断是否满足E_i’=E_i且W_i’=W_i，其中，E_i’表示错误样本的标签集，E_i表示保留的错误样本的标签集，W_i’表示指纹样本的标签集，W_i保留的指纹样本的标签集，计算匹配率S公式如下：

匹配率大于95%，可疑模型被视为被盗模型。

第二方面，提供了一种基于错误分类的模型指纹识别系统，包括：

预处理模块，用于输入公共数据集D_m，使用公共数据集D_m频繁访问目标模型得到公共数据集D_m的预测标签，将带有标签的公共数据集D_m作为原训练集D_train，通过原训练集D_train训练盗版模型；

第一筛选模块，用于在原训练集D_train中筛选出目标模型和盗版模型均分类错误的样本Z；

提取模块，用于找出训练集D_train每一类中与同类的其他样本累积距离最小的样本作为质心样本D_s；

记录模块，用于在分类错误的样本Z中筛选出一批与质心样本距离最大的样本作为查询集中的错误样本Z_e，并记录错误样本Z_e的标签集；

生成模块，用于把错误样本Z_e输入到预先构建的GAN网络中，引导错误样本Z_e正确分类，并生成自然的指纹样本Z_r；

第二筛选模块，用于在GAN网络生成的指纹样本Z_r中筛选出一批与质心样本距离最小的样本作为查询集中的指纹样本Z_w，并记录指纹样本的标签集；

处理与输出模块，用于将错误样本Z_e和指纹样本Z_w分别输入到预先构建的可疑模型中，得到错误样本的标签集和指纹样本的标签集。

第三方面，提供了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行第一方面的方法。

第四方面，提供了一种计算设备，包括：

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行第一方面的方法中的指令。

（三）有益效果

本发明一种基于错误分类的模型指纹识别方法，区别于其他基于分类边界的模型指纹识别方法，首先在目标模型和被盗模型的都分类错误的区域内寻找错误样本，并通过GAN网络增强错误样本的分类特征，以生成分类正确的指纹样本。本发明使用GAN网络生成指纹样本，极大增强了样本的隐蔽性。同时模拟了攻击者可以对模型的修改，并利用质心样本筛选出错误样本和指纹样本，对各种模型攻击的鲁棒性有了较大的提高。

附图说明

图1为本发明基于错误分类的模型指纹识别方法流程图；

图2为本发明实施例中训练盗版模型过程的示意图；

图3为本发明实施例中筛选错误样本过程的示意图；

图4为本发明实施例中构造质心样本的示意图；

图5为本发明实施例中GAN网络生成指纹样本的结构图；

图6为本发明实施例中验证模型所有权的流程图。

具体实施方式

下面将结合本发明的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本发明实施例提供了一种基于错误分类的模型指纹识别方法，包括：

具体的，结合附图2对训练盗版模型过程进行详细地说明，按照攻击者访问模型的权限不同，用两种方式来训练盗版模型。一种是通过访问目标模型以获取数据集的标签，通过用带有标签的数据集来训练一个与目标模型功能相似的代理模型以窃取模型。另一种是通过模型微调、剪枝、加噪等手段直接修改目标模型。其中目标模型的结构为WideResNet，代理模型的结构为PreacTresnet。

下面结合附图3对选择错误样本过程进行详细地说明，在盗版模型训练完成后，使用训练集D_train筛选出目标模型和盗版模型分类都出错的样本Z。选择CIFAR-10作为训练集D_train，该数据集由6万张彩色图像组成，包括5万张训练图像(一共10个类，每个类5千张图像)和1万张测试图像(一共10个类，每个类1千张图像)。

进一步的，由于攻击模型的手段复杂多样，还需进一步筛选出与质心样本距离最大的样本Z_e以增强指纹的鲁棒性。图4为构造质心样本的示意图，质心样本是训练集中最接近某一个类决策范围中心的样本。找出训练集D_train每一类中与同类的其他样本累积距离最小的样本作为质心样本D_s，公式如下：

其中，N表示k类中的数据数，表示向量的长度。

进一步的，下面结合附图5对GAN网络生成指纹样本的过程进行详细地说明。把错误样本Z_e输入到预先构建的GAN网络中，引导错误样本Z_e正确分类，并生成自然的指纹样本Z_r，具体包括：

把错误样本Z_e输入到GAN网络中的生成器G得到指纹样本Z_r，将输入指纹样本Z_r目标模型，引导其分类正确；

进一步的，分类损失公式如下：

进一步的，Carlini-Wagner损失，公式如下：

Z为，参数k鼓励GAN网络生成被分类为Y类的高置信度样本。

进一步的，鉴别损失L_d，公式如下：

。

进一步的，下面结合附图6，详细说明验证模型所有权的实现过程：将错误样本Z_e和指纹样本Z_w分别输入到预先构建的可疑模型中，得到错误样本的标签集和指纹样本的标签集后，判断是否满足E_i’=E_i且W_i’=W_i，其中，E_i’表示错误样本的标签集，E_i表示保留的错误样本的标签集，W_i’表示指纹样本的标签集，W_i保留的指纹样本的标签集，计算匹配率S公式如下：

匹配率大于95%，可疑模型被视为被盗模型。

本发明又一个实施例提供了一种基于错误分类的模型指纹识别系统，包括：

本申请的实施例可提供为方法或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于错误分类的模型指纹识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于错误分类的模型指纹识别方法，其特征在于：所述找出训练集D_train每一类中与同类的其他样本累积距离最小的样本作为质心样本D_s，公式如下：

其中，N表示k类中的数据数，表示向量的长度。

3.根据权利要求1所述的一种基于错误分类的模型指纹识别方法，其特征在于：所述把错误样本Z_e输入到预先构建的GAN网络中，引导错误样本Z_e正确分类，并生成自然的指纹样本Z_r，具体包括：

4.根据权利要求3所述的一种基于错误分类的模型指纹识别方法，其特征在于：所述分类损失公式如下：

其中为目标模型F对指纹样本/>的SoftMax函数，Y是引导指纹样本/>分类的标签，是Carlini-Wagner损失。

5.根据权利要求4所述的一种基于错误分类的模型指纹识别方法，其特征在于：所述Carlini-Wagner损失，公式如下：

Z为，参数k鼓励GAN网络生成被分类为Y类的高置信度样本。

6.根据权利要求5所述的一种基于错误分类的模型指纹识别方法，其特征在于：所述鉴别损失L_d，公式如下：

。

7.根据权利要求1所述的一种基于错误分类的模型指纹识别方法，其特征在于：所述将错误样本Z_e和指纹样本Z_w分别输入到预先构建的可疑模型中，得到错误样本的标签集和指纹样本的标签集后，判断是否满足E_i’=E_i且W_i’=W_i，其中，E_i’表示错误样本的标签集，E_i表示保留的错误样本的标签集，W_i’表示指纹样本的标签集，W_i保留的指纹样本的标签集，计算匹配率S公式如下：

匹配率大于95%，可疑模型被视为被盗模型。

8.一种基于错误分类的模型指纹识别系统，其特征在于，包括：

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1-7所述的方法中的任一方法。

10.一种计算设备，其特征在于，包括：

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-7所述的方法中的任一方法的指令。