CN111861849B - 向人工智能模型植入水印信息的方法 - Google Patents

向人工智能模型植入水印信息的方法 Download PDF

Info

Publication number
CN111861849B
CN111861849B CN202010679155.8A CN202010679155A CN111861849B CN 111861849 B CN111861849 B CN 111861849B CN 202010679155 A CN202010679155 A CN 202010679155A CN 111861849 B CN111861849 B CN 111861849B
Authority
CN
China
Prior art keywords
template
model
watermark
pruning
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010679155.8A
Other languages
English (en)
Other versions
CN111861849A (zh
Inventor
易平
谢宸琪
江浩宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010679155.8A priority Critical patent/CN111861849B/zh
Publication of CN111861849A publication Critical patent/CN111861849A/zh
Application granted granted Critical
Publication of CN111861849B publication Critical patent/CN111861849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/16Program or content traceability, e.g. by watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Technology Law (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

一种向人工智能模型植入水印信息的方法,通过对数据集进行相应的预处理得到扩充数据集后,对预定义模型结构的参数随机初始化后在训练集上训练,然后对训练后的模型参数的副本进行重要性剪枝操作,剪去模型参数中的冗余部分;再对剪枝后的模型进行微调操作,对模型参数中的冗余部分进行再筛选;最后根据身份信息以及位置信息生成相应的水印模板,并基于水印模板对训练后的模型参数进行梯度剪枝操作,实现对模型的水印信息植入。

Description

向人工智能模型植入水印信息的方法
技术领域
本发明涉及的是一种人工智能领域的技术,具体是一种向人工智能模型植入水印信息的方法。
背景技术
人工智能在近年来越来越广泛地被应用在各个领域,而随着这一技术的应用场景的不断扩大和发展,其中的安全隐患也越来越引发人们的关注。模型在使用时常常涉及到分配给其他用户,而非法的复制、传播和衍生特定的深度学习模型,将很有可能造成版权侵权和对模型构建者的侵害。因而近年来人们在寻求找到合适的方法,将版权相关信息植入到模型当中,以实现保护知识产权的目的。
发明内容
本发明针对上述现有技术的问题,提出一种向人工智能模型植入水印信息的方法,在保证模型准确率的情况下将持有者的版权信息植入,并且水印信息可以进行读取。具有极高的可验证度。
本发明是通过以下技术方案实现的:
本发明涉及一种向人工智能模型植入水印信息的方法,通过对数据集进行相应的预处理得到扩充数据集后,对预定义模型结构的参数随机初始化后在训练集上训练,然后对训练后的模型参数的副本进行重要性剪枝操作,剪去模型参数中的冗余部分;再对剪枝后的模型进行微调操作,对模型参数中的冗余部分进行再筛选;最后根据身份信息以及位置信息生成相应的水印模板,并基于水印模板对训练后的模型参数进行冗余剪枝操作,实现对模型的水印信息植入。
所述的重要性剪枝,具体包括:
步骤1、定义与权重矩阵尺寸相同的连接模板,连接模板数值为全1;
步骤2、将连接模板与权重矩阵的基本积代替原有的权重矩阵,将梯度传递公式中的权重矩阵替换为连接模板与权重矩阵的基本积;
步骤3、在训练集上训练的过程中,对损失函数求关于连接模板的梯度,将其降序排列,将该梯度作为剪枝的参照依据;
步骤4、找到合适的阈值,使得连接模板的梯度中在阈值之下的部分占比满足所要求剪枝的比例,具体为:由于连接模板的梯度为一组数据,故经步骤3降序排列过后当要求剪枝比例是50%,则对应使得梯度在阈值之下的占比为50%即可,即该阈值为连接模板梯度里按大小排列的50%位置的数据;
步骤5、定义与权重矩阵尺寸相同的剪枝模板,剪枝模板中,相应连接模板梯度在阈值之下的位置数值为0,其他位置数值为1;
步骤6、将剪枝模板与权重矩阵的基本积代替原有的权重矩阵,实现剪枝目的。
所述的微调操作是指:经过剪枝后的模型在原本的训练集上进行非冻结参数的再训练。
所述的再训练采用的数据集是训原始模型时使用的数据集。
所述的再筛选是指:对微调处理后的模型参数中为0的部分记录作为位置信息,而该部分,即微调处理后,模型参数里仍然保持为0的参数总量记为冗余参数量。
所述的身份信息是指:能够证明版权所有者身份的信息,其包括但不限于:公司编码,单位名称等。
所述的水印模板,具体通过以下方式生成:
步骤1、将身份信息进行哈希计算得到散列值序列;
步骤2、将散列值序列的十进制形式与冗余参数量进行模运算,计算得到初始植入位置FirstPos=DecHash mod ParaNum;
步骤3、生成一个尺寸与模型参数一致的全1矩阵,作为初始水印模板;
步骤4、根据散列值序列的二进制形式的每位情况,对应剪枝模板从初始植入位置开始,当该位的散列值对应为0,则剪枝模板的对应位置修改为0,并继续下一位,当该位散列值对应为1,则直接跳过到下一位,遍历完整个散列值序列的二进制形式后,从而得到最终的水印模板。
所述的冗余剪枝操作是指:当剪枝模板矩阵中任一位置的元素值为0时,则对应的模型参数调整为0,并且将该参数对应的连接隔断,即用梯度与连接模板的乘积代替原本的梯度。
本发明涉及一种基于上述植入水印信息的验证方法,根据待提取的水印模板中参数为0的部分,查询嵌有水印的人工智能模型的相应位置的参数,并进行身份信息判断,即当小于匹配阈值时认为匹配;最后统计总位数和匹配的位数并基于匹配率得到验证结果。
所述的验证结果是指:当匹配率大于95%时,则认为该模型的版权属于该水印模板提供方。
所述的匹配阈值采用但不限于0.008。
本发明涉及一种实现上述方法的系统,包括:初始模型训练单元、获取冗余空间单元、水印模板生成单元、水印信息植入单元和水印信息提取单元,其中:初始模型训练单元与获取冗余空间单元、水印信息植入单元相连,向这两个单元提供训练好的模型;获取冗余空间单元与水印模板生成单元相连,向其提供冗余空间相关信息;水印模板生成单元与水印信息植入单元、水印信息提取单元相连,向其提供相应的水印模板;水印信息植入单元与水印信息提取单元相连,向其提供被标记的模型。
技术效果
本发明通过剪枝微调的方式找到模型参数中的非重要部分,将其作为水印植入的备选空间,通过这种方式将植入水印对模型本身准确率的影响降低。借助连接模板的方法,计算出损失函数关于连接模板的梯度,相当于参数的重要性程度,而剪枝微调后仍保持为0的部分,则说明这部分参数对模型的判断输出无明显影响。
附图说明
图1为本发明水印植入流程示意图;
图2为本发明水印提取流程示意图。
具体实施方式
如图1所示,本实施例选用MNIST、CIFAR10数据集,这两个数据集都可以直接通过pytorch中的torchvision包的datasets下载,大体格式为datasets.MNIST(root=”./data”,transform=transform,train=True,download=True)或datasets.CIFAR10(root=”./data”,transform=transform,train=True,download=True)。
本实施例具体包括以下步骤:
①下载MNIST或CIFAR10数据集。
所述的数据集MNIST是美国国家标准与技术研究院收集整理的大型手写数字数据库,包含60,000个示例的训练集以及10,000个示例的测试集,这里的每个示例的大小是28*28,单通道的灰度图像。
所述的数据集CIFAR10是由Hinton的学生Alex Krizhevsky和Ilya Sutskever整理的一个用于识别普适物体的小型数据集。一共包含10个类别的RGB彩色图片:飞机、汽车、鸟类、猫、鹿、狗、蛙类、马、船和卡车。每张图片的尺寸为32*32,是三通道的彩色RGB图像。
②对数据集进行数据预处理,包括但不限于:旋转、拉伸等方法进而得到扩充数据集,将该扩充数据集随机划分为80%和20%两份,80%部分作为训练集,20%部分作为测试集。
③预定义模型结构,本实施例中采用的是LeNet5和VGG11、VGG13、VGG16的模型结构,但模型结构并不限于这几种;
④将模型参数随机初始化后在训练集上训练,损失函数取的是交叉熵,并且使用随机梯度下降的方法进行参数更新:训练时初始学习率设定为0.1,学习率采取等间隔调整的方式,每10轮衰减至之前的0.3倍。
本方法设定训练轮次为40轮,batch大小为100。当训练过程收敛并且模型在测试集上准确率达到较高数值且维持相对稳定,将得到的模型保存。
⑤获取到保存的模型的一个副本:再构建一个与保存的模型一致结构的模型,将保存模型的相关参数载入。
⑥对步骤⑤得到的副本模型进行重要性剪枝操作,剪去模型参数中的冗余部分:剪枝的比例为50%,剪枝操作后的重训练过程的参数设置具体为:学习率采用等间隔调整的方式,初始为0.01,每5轮衰减至0.3倍。损失函数采用交叉熵,并且使用随机梯度下降(SGD)的方法进行参数更新。
所述的训练,优选轮数设置为20轮,batch大小100。
⑦对剪枝后的模型进行微调操作后对模型参数中的冗余部分进行再筛选:经过剪枝后的模型在原本的训练集上进行非冻结参数的再训练,再训练的损失函数采用交叉熵,并且使用随机梯度下降(SGD)的方法进行参数更新;微调的参数设置具体为:学习率采用等间隔调整的方式,初始为0.01,每5轮衰减至0.3倍。训练轮数设置为20轮,batch大小100。
⑧根据身份信息以及位置信息生成相应的水印模板并保存。
⑨根据生成的水印模板对步骤④得到的模型进行剪枝操作,即,当剪枝模板矩阵中某一位置的元素值为0时,则对应的模型参数调整为0,并且将该参数对应的连接隔断,即用梯度与连接模板的乘积代替原本的梯度,从而实现对模型的水印信息植入。
所述的剪枝操作后的重训练过程的参数设置具体为:损失函数采用交叉熵并且使用随机梯度下降(SGD)的方法进行参数更新;学习率采用等间隔调整的方式,初始为0.01,每5轮衰减至0.3倍。训练轮数设置为20轮,batch大小100。
如图2所示,为本实施例基于上述嵌入水印信息后的验证方法,包括以下步骤:
①获取到人工智能模型以及植入水印时保留的水印模板。
②对于水印模板中参数为0的部分,查询人工智能模型的相应位置的参数;
③当小于设定的阈值,则匹配,反之,则不匹配,统计总位数和匹配的位数。
所述的阈值为设定的一个较小值,本实施例中取的值为0.008。
④当匹配的位数占比大于95%时,则认为该模型的版权属于该水印模板提供方,反之,则不属于。
在上述实施环境中,对模型的准确率和水印信息提取的可靠性进行测试,并使用剪枝和微调对模型进行鲁棒性测试,表格行代表具体的情况,列代表相应的测试指标。本实施例的实验数据在MNIST和CIFAR10两个数据集上测试给出。
Figure BDA0002585216230000041
Figure BDA0002585216230000051
Figure BDA0002585216230000061
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (5)

1.一种向人工智能模型植入水印信息的方法,其特征在于,通过对数据集进行相应的预处理得到扩充数据集后,对预定义模型结构的参数随机初始化后在训练集上训练,然后对训练后的模型参数的副本进行重要性剪枝操作,剪去模型参数中的冗余部分;再对剪枝后的模型进行微调操作,对模型参数中的冗余部分进行再筛选;最后根据身份信息以及位置信息生成相应的水印模板,并基于水印模板对训练后的模型参数进行冗余剪枝操作,实现对模型的水印信息植入;
所述的微调操作是指:经过剪枝后的模型在原本的训练集上进行非冻结参数的再训练;
再筛选是指:对微调处理后的模型参数中为0的部分记录作为位置信息,而该部分,即微调处理后,模型参数里仍然保持为0的参数总量记为冗余参数量;
所述的水印模板,具体通过以下方式生成:
步骤1、将身份信息进行哈希计算得到散列值序列;
步骤2、将散列值序列的十进制形式与冗余参数量进行模运算,计算得到初始植入位置FirstPos = DecHash mod ParaNum;
步骤3、生成一个尺寸与模型参数一致的全1矩阵,作为初始水印模板;
步骤4、根据散列值序列的二进制形式的每位情况,对应剪枝模板从初始植入位置开始,当该位的散列值对应为0,则剪枝模板的对应位置修改为0,并继续下一位,当该位散列值对应为1,则直接跳过到下一位,遍历完整个散列值序列的二进制形式后,从而得到最终的水印模板;
所述的冗余剪枝操作是指:当剪枝模板矩阵中任一位置的元素值为0时,则对应的模型参数调整为0,并且将该参数对应的连接隔断,即用梯度与连接模板的乘积代替原本的梯度。
2.根据权利要求1所述的方法,其特征是,所述的重要性剪枝,具体包括:
步骤1、定义与权重矩阵尺寸相同的连接模板,连接模板数值为全1;
步骤2、将连接模板与权重矩阵的基本积代替原有的权重矩阵,将梯度传递公式中的权重矩阵替换为连接模板与权重矩阵的基本积;
步骤3、在训练集上训练的过程中,对损失函数求关于连接模板的梯度,将其降序排列,将该梯度作为剪枝的参照依据;
步骤4、找到能够使得连接模板的梯度中在阈值之下的部分占比满足所要求剪枝的比例的阈值;
步骤5、定义与权重矩阵尺寸相同的剪枝模板,剪枝模板中,相应连接模板梯度在阈值之下的位置数值为0,其他位置数值为1;
步骤6、将剪枝模板与权重矩阵的基本积代替原有的权重矩阵,实现剪枝目的。
3.根据权利要求1所述的方法,其特征是,所述的再训练采用的数据集是训原始模型时使用的数据集。
4.一种基于上述任一权利要求所述植入水印信息的验证方法,其特征在于,根据待提取的水印模板中参数为0的部分,查询嵌有水印的人工智能模型的相应位置的参数,并进行身份信息判断,即当小于匹配阈值时认为匹配;最后统计总位数和匹配的位数并基于匹配率得到验证结果。
5.一种实现上述任一权利要求所述方法的系统,其特征在于,包括:初始模型训练单元、获取冗余空间单元、水印模板生成单元、水印信息植入单元和水印信息提取单元,其中:初始模型训练单元与获取冗余空间单元、水印信息植入单元相连,向这两个单元提供训练好的模型;获取冗余空间单元与水印模板生成单元相连,向其提供冗余空间相关信息;水印模板生成单元与水印信息植入单元、水印信息提取单元相连,向其提供相应的水印模板;水印信息植入单元与水印信息提取单元相连,向其提供被标记的模型。
CN202010679155.8A 2020-07-15 2020-07-15 向人工智能模型植入水印信息的方法 Active CN111861849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010679155.8A CN111861849B (zh) 2020-07-15 2020-07-15 向人工智能模型植入水印信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010679155.8A CN111861849B (zh) 2020-07-15 2020-07-15 向人工智能模型植入水印信息的方法

Publications (2)

Publication Number Publication Date
CN111861849A CN111861849A (zh) 2020-10-30
CN111861849B true CN111861849B (zh) 2023-04-07

Family

ID=72983485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010679155.8A Active CN111861849B (zh) 2020-07-15 2020-07-15 向人工智能模型植入水印信息的方法

Country Status (1)

Country Link
CN (1) CN111861849B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113902121B (zh) * 2021-07-15 2023-07-21 陈九廷 一种电池劣化推测装置校验的方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598231A (zh) * 2018-12-03 2019-04-09 广州市百果园信息技术有限公司 一种视频水印的识别方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6908553B2 (ja) * 2018-04-11 2021-07-28 Kddi株式会社 情報処理装置、情報処理方法、及びプログラム
US11163860B2 (en) * 2018-06-04 2021-11-02 International Business Machines Corporation Protecting deep learning models using watermarking
CN111062903A (zh) * 2019-12-06 2020-04-24 携程计算机技术(上海)有限公司 图像水印的自动处理方法、系统、电子设备及存储介质
CN111311472B (zh) * 2020-01-15 2023-03-28 中国科学技术大学 一种图像处理模型与图像处理算法的产权保护方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598231A (zh) * 2018-12-03 2019-04-09 广州市百果园信息技术有限公司 一种视频水印的识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111861849A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
Qin et al. Coverless image steganography: a survey
Matthé et al. Comparison of photo‐matching algorithms commonly used for photographic capture–recapture studies
CN108537115B (zh) 图像识别方法、装置及电子设备
CN114708133B (zh) 一种通用的文本水印方法和装置
CN111861849B (zh) 向人工智能模型植入水印信息的方法
CN112990378B (zh) 基于人工智能的场景识别方法、装置及电子设备
CN107004110A (zh) 用于验证标记的真实性的方法和系统
CN107291863A (zh) 一种用于工控设备信息安全的快速核查方法及装置
CN114356919A (zh) 一种结构化数据库的水印嵌入方法、溯源方法及装置
CN112132733A (zh) 基于混沌的智能模型黑盒水印触发集自动标注算法
CN114065150B (zh) 一种图片版权保护方法
CN101923700B (zh) 一种双效数字水印方法
Pérez et al. Universal steganography detector based on an artificial immune system for JPEG images
CN116541228B (zh) 显示器的触控响应检测方法、装置以及计算机设备
Chui et al. Everyone matters: identification with facial wrinkles allows more accurate inference of elephant social dynamics
CN114676229B (zh) 一种技改大修工程档案管理系统及管理方法
CN113011543B (zh) 行程码生成方法、读取方法、验证方法及移动终端和学校报到管理系统
CN114564942B (zh) 一种用于监管领域的文本纠错方法、存储介质和装置
CN113159255B (zh) 基于qr码和安全底纹的数字水印防伪方法
CN114582518A (zh) 医疗数据集优化方法及设备
CN111027325B (zh) 一种模型生成方法、实体识别方法、装置及电子设备
CN114648679A (zh) 神经网络训练、目标检测的方法及装置、设备及存储介质
US10176397B2 (en) Method of reading degraded symbols
CN113127863A (zh) 恶意代码的检测方法、装置、计算机设备和存储介质
CN116468590A (zh) 神经网络水印植入方法、神经网络版权验证方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant