CN111861849B

CN111861849B - 向人工智能模型植入水印信息的方法

Info

Publication number: CN111861849B
Application number: CN202010679155.8A
Authority: CN
Inventors: 易平; 谢宸琪; 江浩宇
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2023-04-07
Anticipated expiration: 2040-07-15
Also published as: CN111861849A

Abstract

一种向人工智能模型植入水印信息的方法，通过对数据集进行相应的预处理得到扩充数据集后，对预定义模型结构的参数随机初始化后在训练集上训练，然后对训练后的模型参数的副本进行重要性剪枝操作，剪去模型参数中的冗余部分；再对剪枝后的模型进行微调操作，对模型参数中的冗余部分进行再筛选；最后根据身份信息以及位置信息生成相应的水印模板，并基于水印模板对训练后的模型参数进行梯度剪枝操作，实现对模型的水印信息植入。

Description

向人工智能模型植入水印信息的方法

技术领域

本发明涉及的是一种人工智能领域的技术，具体是一种向人工智能模型植入水印信息的方法。

背景技术

人工智能在近年来越来越广泛地被应用在各个领域，而随着这一技术的应用场景的不断扩大和发展，其中的安全隐患也越来越引发人们的关注。模型在使用时常常涉及到分配给其他用户，而非法的复制、传播和衍生特定的深度学习模型，将很有可能造成版权侵权和对模型构建者的侵害。因而近年来人们在寻求找到合适的方法，将版权相关信息植入到模型当中，以实现保护知识产权的目的。

发明内容

本发明针对上述现有技术的问题，提出一种向人工智能模型植入水印信息的方法，在保证模型准确率的情况下将持有者的版权信息植入，并且水印信息可以进行读取。具有极高的可验证度。

本发明是通过以下技术方案实现的：

本发明涉及一种向人工智能模型植入水印信息的方法，通过对数据集进行相应的预处理得到扩充数据集后，对预定义模型结构的参数随机初始化后在训练集上训练，然后对训练后的模型参数的副本进行重要性剪枝操作，剪去模型参数中的冗余部分；再对剪枝后的模型进行微调操作，对模型参数中的冗余部分进行再筛选；最后根据身份信息以及位置信息生成相应的水印模板，并基于水印模板对训练后的模型参数进行冗余剪枝操作，实现对模型的水印信息植入。

所述的重要性剪枝，具体包括：

步骤1、定义与权重矩阵尺寸相同的连接模板，连接模板数值为全1；

步骤2、将连接模板与权重矩阵的基本积代替原有的权重矩阵，将梯度传递公式中的权重矩阵替换为连接模板与权重矩阵的基本积；

步骤3、在训练集上训练的过程中，对损失函数求关于连接模板的梯度，将其降序排列，将该梯度作为剪枝的参照依据；

步骤4、找到合适的阈值，使得连接模板的梯度中在阈值之下的部分占比满足所要求剪枝的比例，具体为：由于连接模板的梯度为一组数据，故经步骤3降序排列过后当要求剪枝比例是50％，则对应使得梯度在阈值之下的占比为50％即可，即该阈值为连接模板梯度里按大小排列的50％位置的数据；

步骤5、定义与权重矩阵尺寸相同的剪枝模板，剪枝模板中，相应连接模板梯度在阈值之下的位置数值为0，其他位置数值为1；

步骤6、将剪枝模板与权重矩阵的基本积代替原有的权重矩阵，实现剪枝目的。

所述的微调操作是指：经过剪枝后的模型在原本的训练集上进行非冻结参数的再训练。

所述的再训练采用的数据集是训原始模型时使用的数据集。

所述的再筛选是指：对微调处理后的模型参数中为0的部分记录作为位置信息，而该部分，即微调处理后，模型参数里仍然保持为0的参数总量记为冗余参数量。

所述的水印模板，具体通过以下方式生成：

步骤1、将身份信息进行哈希计算得到散列值序列；

步骤2、将散列值序列的十进制形式与冗余参数量进行模运算，计算得到初始植入位置FirstPos＝DecHash mod ParaNum；

步骤3、生成一个尺寸与模型参数一致的全1矩阵，作为初始水印模板；

步骤4、根据散列值序列的二进制形式的每位情况，对应剪枝模板从初始植入位置开始，当该位的散列值对应为0，则剪枝模板的对应位置修改为0，并继续下一位，当该位散列值对应为1，则直接跳过到下一位，遍历完整个散列值序列的二进制形式后，从而得到最终的水印模板。

所述的冗余剪枝操作是指：当剪枝模板矩阵中任一位置的元素值为0时，则对应的模型参数调整为0，并且将该参数对应的连接隔断，即用梯度与连接模板的乘积代替原本的梯度。

本发明涉及一种基于上述植入水印信息的验证方法，根据待提取的水印模板中参数为0的部分，查询嵌有水印的人工智能模型的相应位置的参数，并进行身份信息判断，即当小于匹配阈值时认为匹配；最后统计总位数和匹配的位数并基于匹配率得到验证结果。

所述的验证结果是指：当匹配率大于95％时，则认为该模型的版权属于该水印模板提供方。

所述的匹配阈值采用但不限于0.008。

本发明涉及一种实现上述方法的系统，包括：初始模型训练单元、获取冗余空间单元、水印模板生成单元、水印信息植入单元和水印信息提取单元，其中：初始模型训练单元与获取冗余空间单元、水印信息植入单元相连，向这两个单元提供训练好的模型；获取冗余空间单元与水印模板生成单元相连，向其提供冗余空间相关信息；水印模板生成单元与水印信息植入单元、水印信息提取单元相连，向其提供相应的水印模板；水印信息植入单元与水印信息提取单元相连，向其提供被标记的模型。

技术效果

本发明通过剪枝微调的方式找到模型参数中的非重要部分，将其作为水印植入的备选空间，通过这种方式将植入水印对模型本身准确率的影响降低。借助连接模板的方法，计算出损失函数关于连接模板的梯度，相当于参数的重要性程度，而剪枝微调后仍保持为0的部分，则说明这部分参数对模型的判断输出无明显影响。

附图说明

图1为本发明水印植入流程示意图；

图2为本发明水印提取流程示意图。

具体实施方式

如图1所示，本实施例选用MNIST、CIFAR10数据集，这两个数据集都可以直接通过pytorch中的torchvision包的datasets下载，大体格式为datasets.MNIST(root＝”./data”,transform＝transform,train＝True,download＝True)或datasets.CIFAR10(root＝”./data”,transform＝transform,train＝True,download＝True)。

本实施例具体包括以下步骤：

①下载MNIST或CIFAR10数据集。

所述的数据集MNIST是美国国家标准与技术研究院收集整理的大型手写数字数据库,包含60,000个示例的训练集以及10,000个示例的测试集，这里的每个示例的大小是28*28，单通道的灰度图像。

所述的数据集CIFAR10是由Hinton的学生Alex Krizhevsky和Ilya Sutskever整理的一个用于识别普适物体的小型数据集。一共包含10个类别的RGB彩色图片：飞机、汽车、鸟类、猫、鹿、狗、蛙类、马、船和卡车。每张图片的尺寸为32*32，是三通道的彩色RGB图像。

②对数据集进行数据预处理，包括但不限于：旋转、拉伸等方法进而得到扩充数据集，将该扩充数据集随机划分为80％和20％两份，80％部分作为训练集，20％部分作为测试集。

③预定义模型结构，本实施例中采用的是LeNet5和VGG11、VGG13、VGG16的模型结构，但模型结构并不限于这几种；

④将模型参数随机初始化后在训练集上训练，损失函数取的是交叉熵，并且使用随机梯度下降的方法进行参数更新：训练时初始学习率设定为0.1，学习率采取等间隔调整的方式，每10轮衰减至之前的0.3倍。

本方法设定训练轮次为40轮，batch大小为100。当训练过程收敛并且模型在测试集上准确率达到较高数值且维持相对稳定，将得到的模型保存。

⑤获取到保存的模型的一个副本：再构建一个与保存的模型一致结构的模型，将保存模型的相关参数载入。

⑥对步骤⑤得到的副本模型进行重要性剪枝操作，剪去模型参数中的冗余部分：剪枝的比例为50％，剪枝操作后的重训练过程的参数设置具体为：学习率采用等间隔调整的方式，初始为0.01，每5轮衰减至0.3倍。损失函数采用交叉熵，并且使用随机梯度下降(SGD)的方法进行参数更新。

所述的训练，优选轮数设置为20轮，batch大小100。

⑦对剪枝后的模型进行微调操作后对模型参数中的冗余部分进行再筛选：经过剪枝后的模型在原本的训练集上进行非冻结参数的再训练，再训练的损失函数采用交叉熵，并且使用随机梯度下降(SGD)的方法进行参数更新；微调的参数设置具体为：学习率采用等间隔调整的方式，初始为0.01，每5轮衰减至0.3倍。训练轮数设置为20轮，batch大小100。

⑧根据身份信息以及位置信息生成相应的水印模板并保存。

⑨根据生成的水印模板对步骤④得到的模型进行剪枝操作，即，当剪枝模板矩阵中某一位置的元素值为0时，则对应的模型参数调整为0，并且将该参数对应的连接隔断，即用梯度与连接模板的乘积代替原本的梯度，从而实现对模型的水印信息植入。

所述的剪枝操作后的重训练过程的参数设置具体为：损失函数采用交叉熵并且使用随机梯度下降(SGD)的方法进行参数更新；学习率采用等间隔调整的方式，初始为0.01，每5轮衰减至0.3倍。训练轮数设置为20轮，batch大小100。

如图2所示，为本实施例基于上述嵌入水印信息后的验证方法，包括以下步骤：

①获取到人工智能模型以及植入水印时保留的水印模板。

②对于水印模板中参数为0的部分，查询人工智能模型的相应位置的参数；

③当小于设定的阈值，则匹配，反之，则不匹配，统计总位数和匹配的位数。

所述的阈值为设定的一个较小值，本实施例中取的值为0.008。

④当匹配的位数占比大于95％时，则认为该模型的版权属于该水印模板提供方，反之，则不属于。

在上述实施环境中，对模型的准确率和水印信息提取的可靠性进行测试，并使用剪枝和微调对模型进行鲁棒性测试，表格行代表具体的情况，列代表相应的测试指标。本实施例的实验数据在MNIST和CIFAR10两个数据集上测试给出。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种向人工智能模型植入水印信息的方法，其特征在于，通过对数据集进行相应的预处理得到扩充数据集后，对预定义模型结构的参数随机初始化后在训练集上训练，然后对训练后的模型参数的副本进行重要性剪枝操作，剪去模型参数中的冗余部分；再对剪枝后的模型进行微调操作，对模型参数中的冗余部分进行再筛选；最后根据身份信息以及位置信息生成相应的水印模板，并基于水印模板对训练后的模型参数进行冗余剪枝操作，实现对模型的水印信息植入；

所述的微调操作是指：经过剪枝后的模型在原本的训练集上进行非冻结参数的再训练；

再筛选是指：对微调处理后的模型参数中为0的部分记录作为位置信息，而该部分，即微调处理后，模型参数里仍然保持为0的参数总量记为冗余参数量；

所述的水印模板，具体通过以下方式生成：

步骤1、将身份信息进行哈希计算得到散列值序列；

步骤2、将散列值序列的十进制形式与冗余参数量进行模运算，计算得到初始植入位置FirstPos = DecHash mod ParaNum；

步骤4、根据散列值序列的二进制形式的每位情况，对应剪枝模板从初始植入位置开始，当该位的散列值对应为0，则剪枝模板的对应位置修改为0，并继续下一位，当该位散列值对应为1，则直接跳过到下一位，遍历完整个散列值序列的二进制形式后，从而得到最终的水印模板；

2.根据权利要求1所述的方法，其特征是，所述的重要性剪枝，具体包括：

步骤4、找到能够使得连接模板的梯度中在阈值之下的部分占比满足所要求剪枝的比例的阈值；

3.根据权利要求1所述的方法，其特征是，所述的再训练采用的数据集是训原始模型时使用的数据集。

4.一种基于上述任一权利要求所述植入水印信息的验证方法，其特征在于，根据待提取的水印模板中参数为0的部分，查询嵌有水印的人工智能模型的相应位置的参数，并进行身份信息判断，即当小于匹配阈值时认为匹配；最后统计总位数和匹配的位数并基于匹配率得到验证结果。

5.一种实现上述任一权利要求所述方法的系统，其特征在于，包括：初始模型训练单元、获取冗余空间单元、水印模板生成单元、水印信息植入单元和水印信息提取单元，其中：初始模型训练单元与获取冗余空间单元、水印信息植入单元相连，向这两个单元提供训练好的模型；获取冗余空间单元与水印模板生成单元相连，向其提供冗余空间相关信息；水印模板生成单元与水印信息植入单元、水印信息提取单元相连，向其提供相应的水印模板；水印信息植入单元与水印信息提取单元相连，向其提供被标记的模型。