CN117355842A - 用于保护深度图像分类器的系统和方法 - Google Patents
用于保护深度图像分类器的系统和方法 Download PDFInfo
- Publication number
- CN117355842A CN117355842A CN202280028916.0A CN202280028916A CN117355842A CN 117355842 A CN117355842 A CN 117355842A CN 202280028916 A CN202280028916 A CN 202280028916A CN 117355842 A CN117355842 A CN 117355842A
- Authority
- CN
- China
- Prior art keywords
- image
- bits
- potentially
- embedded
- watermark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 145
- 238000013528 artificial neural network Methods 0.000 claims abstract description 88
- 230000002411 adverse Effects 0.000 claims abstract description 37
- 230000004044 response Effects 0.000 claims abstract description 28
- 230000003042 antagnostic effect Effects 0.000 claims description 40
- 230000015654 memory Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 abstract description 9
- 238000001514 detection method Methods 0.000 description 31
- 230000008569 process Effects 0.000 description 21
- 238000013139 quantization Methods 0.000 description 21
- 230000003044 adaptive effect Effects 0.000 description 17
- 230000003068 static effect Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000007123 defense Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 238000003908 quality control method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000036039 immunity Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 241001028048 Nicola Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 235000000332 black box Nutrition 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0021—Image watermarking
- G06T1/005—Robust watermarking, e.g. average attack or collusion attack resistant
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0021—Image watermarking
- G06T1/0092—Payload characteristic determination in a watermarking scheme, e.g. number of bits to be embedded
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2201/00—General purpose image data processing
- G06T2201/005—Image watermarking
- G06T2201/0052—Embedding of the watermark in the frequency domain
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2201/00—General purpose image data processing
- G06T2201/005—Image watermarking
- G06T2201/0065—Extraction of an embedded watermark; Reliable detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Editing Of Facsimile Originals (AREA)
- Image Processing (AREA)
Abstract
用于保护深度神经网络图像分类器免于接收扰动图像的系统、方法和计算机程序产品。将多个水印位嵌入到旨在用于深度神经网络图像分类器的原始数字图像中。通过潜在对抗性的环境来传输加水印图像。从潜在对抗性的环境中接收旨在用于深度神经网络图像分类器的潜在扰动的图像。通过对潜在扰动的图像是否包括与嵌入到原始数字图像中的多个水印位匹配的多个嵌入位进行确定,来对潜在扰动的图像是经不利修改的图像还是良性图像进行确定。响应于确定潜在扰动的图像是经不利修改的图像,来阻止将潜在扰动的图像提供至深度神经网络图像分类器。
Description
相关申请的交叉引用
本申请要求2021年4月15日提交的美国临时申请号63/175,105的权益,该临时申请的全部内容通过引用并入本文。
技术领域
本文档涉及用于管理提供至图像分类器的图像的系统和方法。具体地,该文档涉及阻止将扰动图像作为深度神经网络图像分类器的输入提供。
背景技术
近年来,深度神经网络(DNN)在许多图像相关任务诸如图像分类、面部识别和自动驾驶应用中展现了巨大的潜力和成功。不幸的是,也已知DNN容易受到对抗性示例的影响——对良性输入进行巧妙精心制作但难以察觉的修改,一旦馈送到DNN中,可能会导致DNN产生错误的输出。
给定原始的良性图像x,可以向x轻松地精心制作和添加小的微扰以生成经修改的图像x′。可以将扰动定义成:使得响应于x′的DNN的输出将与响应于x的DNN的输出不同。扰动图像x′是原始图像x的对抗性示例。对抗性示例的存在和简单构造给DNN带来了重大的安全风险,尤其是在例如诸如面部识别和自动驾驶等安全关键应用中。
为了保护DNN免受对抗性攻击,一种方法是构建将对抗性示例与自然图像区分开来的分类器。基本原理是,尽管人眼无法察觉对抗性微扰,但仍然可以设计一种算法来检测它们的存在。沿着这个思路,已经提出了几种基于检测的方法(例如,参见Meng、Dongyu和Hao Chen的“Magnet:a two-pronged defense against adversarial examples”,Proceedings of the 2017ACM SIGSAC conference on computer and communicationssecurity.2017;Metzen,Jan Hendrik等人的“On detecting adversarialperturbations”,arXiv preprint arXiv:1702.04267(2017);以及Samangouei、Pouya、Maya Kabkab和RamaChellappa的“Defense-gan:Protecting classifiers againstadversarial attacks using generative models”,arXiv preprint arXiv:1805.06605(2018))。一些基于检测的方法侧重于寻找对抗性示例的一般内在属性。其他基于检测的方法旨在训练分类网络以将对抗性示例与良性图像区分开。
在某种程度上,基于检测的防御可以有效地抵御特定的对抗性攻击。然而,基于检测的方法已被证明容易受到更先进的自适应攻击者的影响,这些攻击者完全了解要保护的DNN和所使用的检测策略。事实上,最近对10种基于检测的防御的研究发现,自适应攻击者可以被设计成能够击败它们所有(参见Carlini、Nicholas和DavidWagner的“Adversarialexamples are not easily detected:Bypassing ten detection methods”,Proceedingsof the 10th ACM Workshop on Artificial Intelligence and Security.2017)。对抗性微扰似乎不具有一般模式或内在属性,这导致开发适合保护免于所有形式的对抗性微扰的基于检测的防御面临挑战。因此,需要改进的方法来保护深度神经网络。
发明内容
以下发明内容旨在向读者介绍具体实施方式的各个方面,而不是限定或界定任何发明。
提供了用于保护深度神经网络的系统、方法和计算机程序产品。更具体地,在一些示例中,可以将多个水印位嵌入到最终旨在用于深度神经网络图像分类器的数字图像中。可以通过潜在对抗性的环境来传输加水印图像。可以从潜在对抗性的环境中接收旨在用于深度神经网络图像分类器的潜在扰动的图像。可以对潜在扰动的图像进行分析以对潜在扰动的图像是否包括与嵌入到原始数字图像中的多个水印位匹配的多个嵌入位进行确定。可以基于对嵌入位与预期水印位的比较,来将潜在扰动的图像识别为经不利修改的图像还是良性图像。可以响应于确定潜在扰动的图像是不利的,来阻止将潜在扰动的图像提供至深度神经网络图像分类器。另一方面,可以将良性图像提供作为深度神经网络图像分类器的输入。
根据一些方面,本公开提供了一种用于保护深度神经网络图像分类器免于接收扰动图像的方法,所述方法包括:采集旨在用于深度神经网络图像分类器的原始数字图像;通过将多个水印位嵌入到原始数字图像中来生成一加水印图像;通过潜在对抗性的环境来传输加水印图像;从所述潜在对抗性的环境中接收一潜在扰动的图像,其中,所述潜在扰动的图像旨在用于深度神经网络图像分类器;通过对潜在扰动的图像是否包括与嵌入到原始数字图像中的多个水印位匹配的多个嵌入位进行确定,来对潜在扰动的图像是经不利修改的图像还是良性图像进行确定,其中,当潜在扰动的图像包括与多个水印位匹配的多个嵌入位时,所述潜在扰动的图像被确定为良性图像;以及,当潜在扰动的图像不包括与多个水印位匹配的多个嵌入位时,所述潜在扰动的图像被确定为经不利修改的图像;以及响应于确定所述潜在扰动的图像是经不利修改的图像,来阻止将潜在扰动的图像提供至深度神经网络图像分类器。
该方法可以包括:响应于确定所述潜在扰动的图像是良性图像,将所述潜在扰动的图像提供至深度神经网络图像分类器。
对潜在扰动的图像是否包括与嵌入到原始数字图像中的多个水印位匹配的多个嵌入位进行确定可以包括:基于将嵌入位与水印位进行比较来确定一位错误率,其中,所述位错误率表示失真的嵌入位相对于对应水印位的百分比;以及当所述位错误率小于错误率阈值时,确定所述潜在扰动的图像包括与多个水印位匹配的多个嵌入位。
错误率阈值可以为至多1%。
对所述潜在扰动的图像是否包括与多个水印位匹配的多个嵌入位进行确定可以包括:使用与原始数字图像相关联的秘密密钥,来对所述潜在扰动的图像的多个嵌入系数进行识别;从多个嵌入系数中提取多个潜在加水印位;以及对多个潜在加水印位是否与多个水印位相对应进行确定。
提取多个潜在加水印位可以包括:对多个嵌入系数中的多个潜在加水印的系数进行识别;确定一估计参考位;对于每个潜在加水印的系数,通过以下方式从该潜在加水印的系数中提取潜在加水印位:基于该潜在加水印的系数的一个或更多个指定位来确定一估计嵌入值;以及使用估计嵌入值和估计参考位来对潜在加水印位进行确定。
可以通过以下方式对估计参考位进行确定:在多个嵌入系数中确定一参考系数;使用与原始数字图像相关联的参考开关值来确定一参考位位置;以及将估计参考位确定为参考系数的参考位位置处的位值。
将多个水印位嵌入到原始数字图像中可以包括:在原始数字图像中识别多个水印嵌入系数;以及对于每个水印嵌入系数,将一对应的嵌入值嵌入到该水印嵌入系数中。
将多个水印位嵌入到原始数字图像中可以包括:在原始数字图像中识别至少一个参考嵌入系数;以及对于每个参考嵌入系数,根据该参考嵌入系数对对应的参考位进行确定。
可以使用所述参考位和对应水印位来定义每个嵌入值。
可以使用与原始数字图像相关联的秘密密钥来对至少一个参考嵌入系数进行确定。
可以使用与原始数字图像相关联的秘密密钥来对多个水印嵌入系数进行确定。
将多个水印位嵌入到原始数字图像中可以包括:对原始数字图像中包含的多个数字图像块进行识别;以及将多个块特定水印位嵌入到每个数字图像块中。
根据一些方面,还提供了一种用于保护深度神经网络图像分类器免于接收扰动图像的系统,所述系统包括:图像采集装置;以及水印编码器,所述水印编码器耦接至图像采集装置;以及检测器,所述检测器耦接至深度神经网络图像分类器;其中,所述图像采集装置被配置成:采集旨在用于深度神经网络图像分类器的原始数字图像;所述水印编码器被配置成:通过将多个水印位嵌入到原始数字图像中来生成一加水印图像;以及通过潜在对抗性的环境来传输加水印图像;以及所述检测器被配置成:从潜在对抗性的环境中接收一潜在扰动的图像,其中,所述潜在扰动的图像旨在用于深度神经网络图像分类器;通过对所述潜在扰动的图像是否包括与嵌入到原始数字图像中的多个水印位匹配的多个嵌入位进行确定,来对所述潜在扰动的图像是经不利修改的图像还是良性图像进行确定,其中,当所述潜在扰动的图像包括与多个水印位匹配的多个嵌入位时,所述潜在扰动的图像被确定为良性图像;以及,当所述潜在扰动的图像不包括与多个水印位匹配的多个嵌入位时,所述潜在扰动的图像被确定为经不利修改的图像;以及响应于确定所述潜在扰动的图像是经不利修改的图像,来阻止将所述潜在扰动的图像提供至深度神经网络图像分类器。
检测器可以被配置成:响应于确定所述潜在扰动的图像是良性图像,将所述潜在扰动的图像提供至深度神经网络图像分类器。
检测器可以被配置成:通过以下方式对所述潜在扰动的图像是否包括与嵌入到原始数字图像中的多个水印位匹配的多个嵌入位进行确定:基于将嵌入位与水印位进行比较来确定一位错误率,其中,所述位错误率表示失真的嵌入位相对于对应水印位的百分比;以及当所述位错误率小于错误率阈值时,确定所述潜在扰动的图像包括与多个水印位匹配的多个嵌入位。
错误率阈值可以为至多1%。
检测器可以被配置成:通过以下方式对所述潜在扰动的图像是否包括与多个水印位匹配的多个嵌入位进行确定:使用与原始数字图像相关联的秘密密钥,来对所述潜在扰动的图像的多个嵌入系数进行识别;从多个嵌入系数中提取多个潜在加水印位;以及对多个潜在加水印位是否与多个水印位相对应进行确定。
检测器可以被配置成:通过以下方式提取所述多个潜在加水印位:对多个嵌入系数中的多个潜在加水印的系数进行识别;确定一估计参考位;对于每个潜在加水印的系数,通过以下方式从该潜在加水印的系数中提取潜在加水印位:基于该潜在加水印的系数的一个或更多个指定位来确定一估计嵌入值;以及使用估计嵌入值和估计参考位来对潜在加水印位进行确定。
检测器可以被配置成:通过以下方式对估计参考位进行确定:在多个嵌入系数中确定一参考系数;使用与原始数字图像相关联的参考开关值来确定一参考位位置;以及将估计参考位确定为参考系数的参考位位置处的位值。
水印编码器可以被配置成:通过以下方式将多个水印位嵌入到原始数字图像中:在原始数字图像中识别多个水印嵌入系数;以及对于每个水印嵌入系数,将一对应的嵌入值嵌入到该水印嵌入系数中。
水印编码器可以被配置成:通过以下方式将多个水印位嵌入到原始数字图像中:在原始数字图像中识别至少一个参考嵌入系数;以及对于每个参考嵌入系数,根据该参考嵌入系数对对应的参考位进行确定。
水印编码器可以被配置成:使用参考位和对应水印位来定义每个嵌入值。
水印编码器可以被配置成:使用与原始数字图像相关联的秘密密钥来对至少一个参考嵌入系数进行确定。
水印编码器可以被配置成:使用与原始数字图像相关联的秘密密钥来对多个水印嵌入系数进行确定。
水印编码器可以被配置成:通过以下方式将多个水印位嵌入到原始数字图像中:对原始数字图像中包含的多个数字图像块进行识别;以及将多个块特定水印位嵌入到每个数字图像块中。
根据一些方面,提供了一种非暂态计算机可读介质,所述非暂态计算机可读介质存储计算机可执行指令,所述计算机可执行指令在由计算机处理器执行时使所述计算机处理器执行用于保护深度神经网络图像分类器免于接收扰动图像的方法。该方法包括:采集旨在用于深度神经网络图像分类器的原始数字图像;通过将多个水印位嵌入到原始数字图像中来生成一加水印图像;通过潜在对抗性的环境来传输加水印图像;从潜在对抗性的环境中接收一潜在扰动的图像,其中,所述潜在扰动的图像旨在用于深度神经网络图像分类器;通过对所述潜在扰动的图像是否包括与嵌入到原始数字图像中的多个水印位匹配的多个嵌入位进行确定,来对所述潜在扰动的图像是经不利修改的图像还是良性图像进行确定,其中,当所述潜在扰动的图像包括与多个水印位匹配的多个嵌入位时,所述潜在扰动的图像被确定为良性图像;以及,当所述潜在扰动的图像不包括与多个水印位匹配的多个嵌入位时,所述潜在扰动的图像被确定为经不利修改的图像;以及响应于确定所述潜在扰动的图像是经不利修改的图像,来阻止将所述潜在扰动的图像提供至深度神经网络图像分类器。
非暂态计算机可读介质可以存储计算机可执行指令,所述计算机可执行指令在由计算机处理器执行时使所述计算机处理器执行用于保护深度神经网络图像分类器免于接收扰动图像的方法,其中,在本文中对该方法进行了描述。
根据一些方面,本公开提供了一种用于阻止扰动图像被提供至深度神经网络图像分类器的方法,该方法包括:从潜在对抗性的环境中接收一潜在扰动的图像,其中,所述潜在扰动的图像旨在用于深度神经网络图像分类器;识别一与所述潜在扰动的图像的原始数字图像相关联的秘密密钥;确定与秘密密钥相关联的多个预期水印位;通过对所述潜在扰动的图像是否包括与多个预期水印位匹配的多个嵌入位进行确定,来对所述潜在扰动的图像是经不利修改的图像还是良性图像进行确定,其中,当所述潜在扰动的图像包括与多个预期水印位匹配的多个嵌入位时,所述潜在扰动的图像被确定为良性图像;以及,当所述潜在扰动的图像不包括与多个预期水印位匹配的多个嵌入位时,所述潜在扰动的图像被确定为经不利修改的图像;以及响应于确定所述潜在扰动的图像是经不利修改的图像,来阻止将所述潜在扰动的图像提供至深度神经网络图像分类器。
该方法可以包括:响应于确定所述潜在扰动的图像是良性图像,将所述潜在扰动的图像提供至深度神经网络图像分类器。
对所述潜在扰动的图像是否包括与多个预期水印位匹配的多个嵌入位进行确定可以包括:基于将嵌入位与预期水印位进行比较来确定一位错误率,其中,所述位错误率表示失真的嵌入位相对于对应预期水印位的百分比;以及当所述位错误率小于错误率阈值时,确定所述潜在扰动的图像包括与多个预期水印位匹配的多个嵌入位。
错误率阈值可以为至多1%。
对所述潜在扰动的图像是否包括与多个预期水印位匹配的所述多个嵌入位进行确定可以包括:使用与原始数字图像相关联的秘密密钥,来对所述潜在扰动的图像的多个嵌入系数进行识别;从多个嵌入系数中提取多个潜在加水印位;以及对所述多个潜在加水印位是否与所述多个预期水印位相对应进行确定。
提取多个潜在加水印位可以包括:对多个嵌入系数中的多个潜在加水印的系数进行识别;确定一估计参考位;对于每个潜在加水印的系数,通过以下方式从该潜在加水印的系数中提取潜在加水印位:基于该潜在加水印的系数的一个或更多个指定位来确定一估计嵌入值;以及使用估计嵌入值和估计参考位来对潜在加水印位进行确定。
可以通过以下方式对估计参考位进行确定:在多个嵌入系数中确定一参考系数;使用与原始数字图像相关联的参考开关值来确定一参考位位置;以及将估计参考位确定为参考系数的参考位位置处的位值。
接收所述潜在扰动的图像可以包括接收多个潜在扰动的图像块;以及对所述潜在扰动的图像是否包括与多个预期水印位匹配的多个嵌入位进行确定可以包括:对于每个潜在扰动的图像块,对该潜在扰动的图像块是否包括与原始数字图像的对应原始图像块的多个块特定预期水印位匹配的多个块特定嵌入位进行确定。
根据一些方面,还提供了一种用于阻止扰动图像被提供至深度神经网络图像分类器的系统,所述系统包括:一个或更多个处理器,所述一个或更多个处理器耦接至深度神经网络图像分类器;以及非暂态存储器,所述非暂态存储器存储可由所述一个或更多个处理器执行的指令;其中,所述一个或更多个处理器被配置成通过所述指令执行下述操作:从潜在对抗性的环境中接收一潜在扰动的图像,其中,所述潜在扰动的图像旨在用于深度神经网络图像分类器;识别一与所述潜在扰动的图像的原始数字图像相关联的秘密密钥;确定与秘密密钥相关联的多个预期水印位;通过对所述潜在扰动的图像是否包括与多个预期水印位匹配的多个嵌入位进行确定,来对所述潜在扰动的图像是经不利修改的图像还是良性图像进行确定,其中,当所述潜在扰动的图像包括与多个预期水印位匹配的多个嵌入位时,所述潜在扰动的图像被确定为良性图像;以及,当所述潜在扰动的图像不包括与多个预期水印位匹配的多个嵌入位时,所述潜在扰动的图像被确定为经不利修改的图像;以及响应于确定所述潜在扰动的图像是经不利修改的图像,来阻止将所述潜在扰动的图像提供至深度神经网络图像分类器。
所述一个或更多个处理器可以被配置成:响应于确定所述潜在扰动的图像是良性图像,将所述潜在扰动的图像提供至深度神经网络图像分类器。
所述一个或更多个处理器可以被配置成:通过以下方式对所述潜在扰动的图像是否包括与多个水印位匹配的多个嵌入位进行确定:基于将嵌入位与预期水印位进行比较来确定一位错误率,其中,所述位错误率表示失真的嵌入位相对于对应预期水印位的百分比;以及当所述位错误率小于错误率阈值时,确定所述潜在扰动的图像包括与多个预期水印位匹配的多个嵌入位。
所述错误率阈值可以为至多1%。
所述一个或更多个处理器可以被配置成:通过以下方式对所述潜在扰动的图像是否包括与多个预期水印位匹配的多个嵌入位进行确定:使用与原始数字图像相关联的秘密密钥,来对所述潜在扰动的图像的多个嵌入系数进行识别;从多个嵌入系数中提取多个潜在加水印位;以及对多个潜在加水印位是否与多个预期水印位相对应进行确定。
所述一个或更多个处理器可以被配置成:通过以下方式提取多个潜在加水印位:对多个嵌入系数中的多个潜在加水印的系数进行识别;确定一估计参考位;对于每个潜在加水印的系数,通过以下方式从该潜在加水印的系数中提取潜在加水印位:基于该潜在加水印的系数的一个或更多个指定位来确定一估计嵌入值;以及使用估计嵌入值和估计参考位来对潜在加水印位进行确定。
所述一个或更多个处理器可以被配置成:通过以下方式对估计参考位进行确定:在多个嵌入系数中确定一参考系数;使用与原始数字图像相关联的参考开关值来确定一参考位位置;以及将估计参考位确定为参考系数的参考位位置处的位值。
所述一个或更多个处理器可以被配置成:接收所述潜在扰动的图像作为多个潜在扰动的图像块;以及通过以下方式对所述潜在扰动的图像是否包括与多个预期水印位匹配的多个嵌入位进行确定:对于每个潜在扰动的图像块,对该潜在扰动的图像块是否包括与原始数字图像的对应原始图像块的多个块特定预期水印位匹配的多个块特定嵌入位进行确定。
根据一些方面,提供了一种非暂态计算机可读介质,所述非暂态计算机可读介质存储计算机可执行指令,所述计算机可执行指令在由计算机处理器执行时使计算机处理器执行用于阻止将扰动图像提供至深度神经网络图像分类器的方法。所述方法包括:从潜在对抗性的环境中接收一潜在扰动的图像,其中,所述潜在扰动的图像旨在用于深度神经网络图像分类器;识别一与所述潜在扰动的图像的原始数字图像相关联的秘密密钥;确定与秘密密钥相关联的多个预期水印位;通过对所述潜在扰动的图像是否包括与多个预期水印位匹配的多个嵌入位进行确定,来对所述潜在扰动的图像是经不利修改的图像还是良性图像进行确定,其中,当所述潜在扰动的图像包括与多个预期水印位匹配的多个嵌入位时,所述潜在扰动的图像被确定为良性图像;以及,当所述潜在扰动的图像不包括与多个预期水印位匹配的多个嵌入位时,所述潜在扰动的图像被确定为经不利修改的图像;以及响应于确定所述潜在扰动的图像是经不利修改的图像,来阻止将所述潜在扰动的图像提供至深度神经网络图像分类器。
所述非暂态计算机可读介质可以存储计算机可执行指令,所述计算机可执行指令在由计算机处理器执行时使所述计算机处理器执行用于阻止将扰动图像提供至深度神经网络图像分类器的方法,其中在本文中对该方法进行了描述。
附图说明
此处所包括的附图用于说明本说明书的制品、方法和设备的各种示例,并且不旨在以任何方式限制所教导的范围。在附图中:
图1是示出用于保护深度神经网络图像分类器的图像分类系统的示例的框图;
图2A是示出用于保护深度神经网络图像分类器的方法的示例的流程图;
图2B是示出用于生成加水印图像的方法的示例的流程图。
图3A是示出用于对经不利修改的图像进行检测的方法的示例的流程图;
图3B是示出用于阻止将经不利修改的图像提供至深度神经网络图像分类器的方法的示例的流程图;
图4A是示出来自对遭受对抗性攻击的8x8 JPEG块的分析的每个DCT系数的对抗性微扰的标准偏差的绘图的图;
图4B是示出图4A所示的绘图的左上角中的DCT系数的微扰分布图的图;以及
图5是用于生成针对本文描述的方法的实现进行测试的对抗性示例的经修改的JPEG编码流水线的流程图。
具体实施方式
下面将描述各种设备或过程或组合物以提供所要求保护的主题的实施方式的示例。下面描述的实施方式都不限制任何权利要求,并且任何权利要求都可以覆盖与下面描述的那些不同的过程或设备或组合物。权利要求不限于具有下述任何一种设备或过程或组合物的所有特征的设备或过程或组合物,也不限于下述多个或所有设备或过程或组合物共有的特征。下面描述的设备或过程或组合物可能不是本专利申请的发布所授予的任何专有权的实施方式。下面描述的以及本专利申请的发布未授予其专有权的任何主题可能是另一保护文书例如继续专利申请的主题,并且申请人、发明人或所有者不打算放弃、通过在本文件中的公开内容来否认或向公众公开任何此类主题。
为了说明的简单和清楚起见,附图标记可以在附图中重复以指示对应或类似的元件。另外,阐述了许多具体细节以便提供对本文描述的主题的透彻理解。然而,本领域普通技术人员将理解,在没有这些具体细节的情况下也可以实践本文描述的主题。在其他情况下,没有详细描述众所周知的方法、程序和部件,以避免模糊本文描述的主题。该描述不应被视为限制本文描述的主题的范围。
取决于使用这些术语的上下文,本文所使用的术语“耦接(coupled)”或“耦接(coupling)”可以具有多种不同的含义。例如,术语“耦接(coupled)”或“耦接(coupling)”可以具有机械、电气或通信的含义。例如,如本文所使用的,术语“耦接(coupled)”或“耦接(coupling)”可以根据特定的上下文指示两个元件或装置可以彼此直接连接或通过一个或更多个中间元件或装置经由电元件、电信号或机械元件彼此连接。此外,术语“通信耦合”可以用于指示元件或装置可以电地、光学地或无线地向另一元件或装置发送数据以及从另一元件或装置接收数据。
如本文所使用的,措辞“和/或”旨在表示包含性或。即,“X和/或Y”旨在意指例如X或Y或两者。作为进一步的示例,“X、Y和/或Z”旨在意指X或Y或Z或其任何组合。
本文所用的诸如“基本上”、“约”和“大约”之类的程度术语意指修饰术语的合理偏差量,使得最终结果不会显著改变。这些程度术语还可以被解释为包括所修饰术语的偏差,如果该偏差不会否定其所修饰术语的含义。
本文中端点对数字范围的任何叙述包括包含在该范围内的所有数字和分数(例如1至5包括1、1.5、2、2.75、3、3.90、4和5)。还应当理解,所有数字及其分数均假定由术语“约”修饰,这意味着如果最终结果没有显著改变,则所参考的数字至多有一定量的变化。
本文描述的是用于保护深度神经网络图像分类器的系统、方法和计算机程序产品。该系统、方法和装置可以使用嵌入到图像中的水印位来对接收到的图像是否已被不利地修改进行检测。可以阻止经不利修改的图像被提供作为深度神经网络的输入。
本文描述的系统、方法和装置可以被实现为硬件或软件的组合。在一些情况下,本文描述的系统、方法和装置可以至少部分地通过使用在包括至少一个处理元件和数据存储元件(包括易失性和非易失性存储器和/或存储元件)的一个或更多个可编程装置上执行的一个或更多个计算机程序来实现。这些装置还可以具有至少一个输入装置(例如按钮键盘、鼠标、触摸屏等)和至少一个输出装置(例如显示屏、打印机、无线电台等),其取决于装置的性质。
用于实现本文描述的系统、方法和装置的至少一部分的一些元件可以经由以高级过程语言诸如面向对象编程编写的软件来实现。因此,例如,程序代码可以用任何合适的编程语言诸如Python或C来编写。替代地或附加地,经由软件实现的这些元件中的一些可以根据需要以汇编语言、机器语言或固件来编写。在任一情况下,该语言可以是编译语言或解释语言。
这些软件程序中的至少一些可以存储在存储介质(例如计算机可读介质,诸如但不限于ROM、磁盘、光盘)或可由通用或专用可编程装置读取的装置上。当由可编程装置读取时,软件程序代码将可编程装置配置成以新的、特定的且预定义的方式操作,以便执行本文描述的方法中的至少一个。
此外,与本文描述的系统和方法相关联的至少一些程序能够分布在计算机程序产品中,该计算机程序产品包括承载用于一个或更多个处理器的计算机可用指令的计算机可读介质。介质可以以各种形式提供,包括非暂态形式,诸如但不限于一个或更多个软盘、光盘、磁带、芯片以及磁性和电子存储器。替代地,介质本质上可以是暂时的,诸如但不限于有线传输、卫星传输、互联网传输(例如下载)、媒体、数字和模拟信号等。计算机可用指令还可以是各种格式,包括编译的和非编译的代码。
本公开涉及用于保护用于图像分类的基于深度学习的模型的系统、方法和计算机程序产品。尽管基于深度学习的模型在图像相关任务中取得了巨大的成功,但众所周知,它们很容易受到对抗性示例的影响,即输入具有难以察觉但巧妙精心制作的微扰,这些微扰会欺骗模型产生错误的输出。
人们已经开发了各种不同类型的对抗性攻击方法来产生对抗性示例,用于输入到基于深度学习的模型。对抗性攻击的两个主要类别是基于梯度的攻击和基于优化的攻击。
对于基于梯度的攻击,对抗性微扰通常是基于目标DNN相对于原始图像x的梯度构建的。基于梯度的攻击的示例包括快速梯度符号法(FGSM)(参见Goodfellow、Ian J.、Jonathon Shlens和Christian Szegedy的“Explaining and harnessing adversarialexamples”,arXiv preprint arXiv:1412.6572(2014))和投影梯度下降法(PGD)(参见Madry、Aleksander等人的“Towards deep learning models resistant to adversarialattacks”,arXiv preprint arXiv:1706.06083(2017))。PGD利用较小步长迭代运行FGSM,以更重的计算为代价产生更强的攻击。FGSM和PGD两者均已被证明在足够大的微扰预算下产生接近100%的成功率。
基于优化的方法侧重于优化目标函数,诸如使微扰最小化和使对抗性示例的置信度最大化。两个众所周知的示例是Carlini&Wagner(CW)攻击(参见Carlini、Nicholas和David Wagner的“Towards evaluating the robustness of neural networks”2017 ieeesymposium on security and privacy(sp).IEEE,2017)和DeepFool(参见Villalba-Diez、Javier等人的“Deep learning for industrial computer vision quality control inthe printing industry 4.0”,Sensors 19.18(2019):3987)。与基于梯度的攻击相比,这些攻击通常会给图像x带来更小的微扰。
对抗性攻击的表现可能取决于攻击者的知识水平。攻击者的知识水平通常分为三个不同的威胁类别之一:1.黑盒攻击者;2.静态白盒攻击者;以及3.自适应白盒攻击者。
黑盒攻击者被认为不了解要保护的DNN或防御策略。因此,攻击的选择仅限于几种方法,诸如转移攻击(参见Papernot、Nicolas等人的“Practical black-box attacksagainst machine learning”,Proceedings of the 2017 ACM on Asia conference oncomputer and communications security.2017)或基于查询的攻击(参见Alzantot、Moustafa等人的“Genattack:Practical black-box attacks with gradient-freeoptimization”,Proceedings of the Genetic and Evolutionary ComputationConference.2019)。
静态白盒攻击者被认为完全了解要保护的DNN(包括其架构和参数),但不了解防御策略。来自对图像x的静态白盒攻击者的对抗性示例通常是基于要保护的DNN、图像x、目标输出以及来自x的允许的最大微扰距离生成的。
自适应白盒攻击者被认为完全了解要保护的DNN(包括其架构和参数)和防御策略。来自自适应白盒攻击者的对抗性示例能够生成最强的对抗性示例来击败防御策略并导致DNN产生错误的输出。
本公开提供了一种基于水印的框架,其可以将对抗性示例与良性图像区分开。该框架可以用于保护深度图像分类器免受对抗性攻击。特别是,基于水印的框架可以用于识别在通过潜在对抗性的环境传输期间被经不利修改的图像。可以阻止经不利修改的图像被提供作为深度图像分类器的输入。
水印编码器可以用于将水印嵌入到原始图像中。可以使用秘密密钥对原始图像加水印。然后可以通过可能的对抗性的环境来传输加水印图像。加水印图像在穿过可能的对抗性的环境时可能会受到攻击者的攻击。仅当以高精度恢复嵌入的水印位时,加水印的且可能受到攻击的图像才能被检测器接受。
可以将检测器与深度图像分类器配对。检测器可以从可能的对抗性的环境中接收旨在用于深度图像分类器的图像。然后,检测器可以对接收到的图像进行评估,以对其在通过可能的对抗性的环境传输期间是否受到了不利的修改进行确定。对接收到的图像的评估可以包括对接收到的图像是否包括与嵌入到原始图像中的水印相对应的预期水印进行确定。
如果对接收到的图像的评估指示图像已被不利地修改(例如,接收到的图像不包括预期水印),则阻止将接收到的图像提供至深度图像分类器。如果对接收到的图像的评估指示图像没有被修改(例如,接收到的图像包括预期水印),则可以将接收到的图像提供至深度图像分类器。
本公开描述了与使用JPEG格式存储的数字图像一起使用的系统、方法和计算机程序产品的示例实现方式。尽管本文在JPEG格式的图像的背景下描述了示例,但是应当理解,这样的示例也可以应用于任何图像格式的图像。原始图像(任何格式)可以以逐块的方式转换成DCT域。在一些情况下,接收到的图像可以在转换到DCT域之前被转换到像素域。例如,以压缩格式接收到的原始图像(任何格式)可以在转换到DCT域之前解压缩到像素域。
JPEG是用于压缩图像的最常用的格式之一,因此被用于深度图像分类器的许多应用中。下面简单介绍JPEG压缩的关键步骤,以供参考。
JPEG压缩从色彩空间转换开始。给定图像首先从RGB颜色空间转换为YCbCr颜色空间。在YCbCr颜色空间中,Y表示亮度(像素亮度)通道,以及Cb和Cr表示色度(像素颜色)通道。
然后对转换后的图像执行逐块离散余弦变换(DCT)。对于每个通道(Y、Cb和Cr),图像被分为不重叠的8×8个块。对于每个块,使用离散余弦变换(DCT)将块的像素值分解为64个频率分量(DCT系数)。
DCT系数通常以Z字形顺序扫描。在接下来的讨论中,对于每个i∈{0,1,..63},d(i)将表示Z字形顺序中第i个频率处的DCT系数。在该背景中,i的索引值越低表示频率越低。
在逐块离散余弦变换之后,DCT系数被量化。每个DCT系数可以被量化为对应量化步长的整数倍,如下所示:
其中DQF(i)是第i个量化的DCT系数整数,表示舍入函数,该舍入函数返回最接近整数,QQF(i)是相对于某个JPEG质量因子的量化步长(QF范围从1到100),以及量化的DCT系数等于DQF(i)QQF(i)。
较小的QF对应于较高的量化步长,这会导致图像质量较差。除QQF(i)之外的替代量化步长也可以用于等式(1)的实现方式中。
在本文描述的系统、方法和计算机程序产品中,可以在通过潜在对抗性的环境传输之前对原始图像加水印。可以通过将水印位嵌入到原始图像中来对原始图像加水印。水印位可以在获取时嵌入。这可以确保加水印图像大体上对应于原始图像,除了水印位之外。
可以使用秘密密钥以安全且保密的方式嵌入水印位。该秘密密钥可以在编码器和用于保护深度图像分类器的对应检测器之间共享。可以使用用于安全地交换加密密钥的多种已知技术(例如,使用已知的密钥交换方法)来共享秘密密钥。
然后,加水印图像可以通过潜在对抗性的环境进行传输,在潜在对抗性的环境中加水印图像可能遭遇对抗性攻击。例如,加水印图像可以从图像采集装置传输到被配置成实现包括深度图像分类器的图像分类系统的处理器。加水印图像可以使用诸如有线或无线网络之类的通信接口来传输,该通信接口可以被可能的对抗性攻击所包括。
可以将深度图像分类器与接收来自潜在对抗性的环境的图像的检测器配对。检测器可以被配置成:在将图像提供至深度图像分类器之前接收或拦截图像。检测器可以被配置成:在允许接收到的图像被提供作为深度图像分类器的输入之前,对接收到的图像是否是良性图像进行确定。如果检测器确定接收到的图像被不利地修改,则接收到的图像可以被拒绝(即,阻止了被提供作为深度图像分类器的输入)作为对抗性示例。
检测器可以对接收到的图像进行评估以确定预期水印是否存在且未被修改。也就是说,检测器可以对接收到的图像中的预期水印位位置进行识别。可以使用与编码器交换的秘密密钥来识别预期水印位位置。然后,检测器可以将预期水印位位置处的潜在加水印的位与使用秘密密钥确定的预期水印位进行比较。如果接收到的图像中的潜在加水印的位与根据秘密密钥确定的预期水印位匹配,则检测器可以将接收到的图像识别为良性的。如果接收到的图像中的潜在加水印的位与根据秘密密钥确定的预期水印位不匹配,则检测器可以将接收到的图像识别为被不利地修改。
本文描述的系统、方法和计算机程序产品可以应用于保护任何与图像任务相关的DNN。示例应用包括但不限于制造业中的质量控制相机(例如,参见Ozdemir、Ridvan和Mehmet Koc的“A Quality Control Application on a Smart Factory Prototype UsingDeep Learning Methods”,2019 IEEE 14th International Conference on ComputerSciences and Information Technologies(CSIT),第1卷,IEEE,2019年;以及Villalba-Diez、Javier等人的“Deep learning for industrial computer vision qualitycontrol in the printing industry 4.0”,Sensors 19.18(2019):3987)、自动驾驶车辆、面部识别应用等。对于许多应用来说,原始的良性图像可以在受到攻击之前被加水印。例如,可以在采集时将水印位嵌入到原始图像中,例如通过将编码器集成到图像采集装置中。
现在参照图1,其中示出了说明示例图像分类系统100的框图。图像分类可以被配置成:使用深度神经网络图像分类器108对接收到的图像进行识别和分类。示例系统100可以被配置成:阻止扰动图像被提供作为深度神经网络图像分类器108的输入。这可以确保由图像分类器108执行的图像相关任务不受对抗性示例的影响。
在所示的示例中,系统100包括图像采集装置102、编码器104、检测器106和深度神经网络图像分类器108。编码器104可以被配置成通过潜在对抗性的环境110与检测器106通信。编码器104和检测器106可以协作以阻止对抗性示例被提供作为图像分类器108的输入。
图像采集装置102可以包括被配置成采集图像数据的各种不同的装置,诸如相机和视觉传感器。图像采集装置102可以包括被配置成采集用于各种不同应用的图像数据的装置,诸如在面部识别中使用的图像和视频相机、在制造过程中使用的质量控制相机、自动驾驶车辆中的相机和其他传感器等等。图像采集装置102可以被配置成采集原始图像,在本文中表示为x。
图像采集装置102可以包括被配置成执行对接收到的图像数据的初始信号处理的处理器。在这种情况下,图像采集装置102上的处理器可以被配置成对接收到的图像数据进行处理以便采集原始图像。
编码器104可以与图像采集装置102通信地耦接。编码器104一般是指能够从图像采集装置102接收原始图像并生成与原始图像相对应的加水印图像的任何处理单元。如下面进一步详细解释的,编码器104可以被配置成通过将多个水印位嵌入到原始图像中来生成一加水印图像。
编码器104可以使用诸如通用微处理器之类的处理器来实现。处理器控制编码器104的操作并且通常可以是任何合适的处理器,诸如微处理器、控制器、数字信号处理器、现场可编程门阵列、专用集成电路、微控制器或者可以根据系统100的期望配置、目的和要求提供足够的处理能力处理器的其他合适的计算机处理器。
编码器104可以包括处理器、供电器、存储器、可操作地耦接至处理器和图像采集装置102的信号采集单元、以及可操作地耦接至处理器的通信模块。存储器单元可以包括RAM、ROM、一个或更多个硬盘驱动器、一个或更多个闪存驱动器或诸如磁盘驱动器等一些其他合适的数据存储元件。
可选地,编码器104可以直接耦接至图像采集装置102。例如,图像采集装置102可以使用诸如通用串行总线(USB)或其他端口的有线连接来耦接至通信模块(并且从而耦接至编码器104)。
尽管单独示出,但是编码器104可以集成到图像采集装置102中或者与其组合。例如,图像采集装置102可以包括被配置成执行初始信号处理和/或编码器104的编码功能的处理器。这可以确保由图像采集装置获取的图像可以在任何潜在对抗性的攻击之前由编码器104进行编码。
编码器104可以例如使用有线或无线通信模块(例如,蓝牙、蓝牙低能量、WiFi、ANT+IEEE802.11等)通信耦合到一个或更多个检测器106。编码器104还可以通过例如诸如互联网之类的广域网通信地耦合到检测器106。
编码器104可以被配置成确保原始图像x不直接暴露于对抗性的环境。更确切地说,编码器104(本文中表示为φ)可以被配置成将x转换为xwm,其中xwm表示x的加水印版本。编码器可以被配置成通过使用秘密密钥将水印位嵌入到x中来将x转换为xwm=φ(x,S),其中S表示秘密密钥和嵌入的水印位。S可以被维持为对于在潜在对抗性的环境110中生成对抗性示例的攻击者来说不可获得的秘密。然而,S可以通过密钥交换过程与检测器106共享,以使检测器106能够确定接收到的图像是否对应于良性加水印的原始图像。
通信模块可以被配置成将加水印图像xwm传输到深度图像分类器108。该传输可以包括使加水印图像xwm通过对抗性的环境110。由于对抗性的环境110中的对抗性攻击或在被检测器106接收到之前的一些允许的合法操作(例如,重新压缩),加水印图像xwm在到达检测器106之前可能被修改。因此,检测器106可以接收可能被扰动的图像,其可以被表示为xwm、或g(xwm),其中/>表示对抗性攻击算法以及g表示允许的合法操作。
检测器106可以被配置成对从环境110接收到的潜在扰动的图像是对应于不利扰动图像(即,受到攻击的图像)还是良性图像(例如,加水印图像xwm或经合法修改的图像g(xwm))进行确定。在允许接收到的图像被提供作为图像分类器108的输入之前,检测器106可以对从环境110接收到的潜在扰动的图像(使用通过与编码器104的密钥交换确定的S)进行评估。检测器106可以被配置成:仅当接收到的潜在扰动的图像被确定为良性图像时,才将其提供作为深度图像分类器/>的输入。
检测器106可以使用诸如通用微处理器之类的处理器来实现。处理器控制检测器106的操作并且通常可以是任何合适的处理器,诸如微处理器、控制器、数字信号处理器、现场可编程门阵列、专用集成电路、微控制器或者可以根据系统100的期望配置、目的和要求提供足够的处理能力处理器的其他合适的计算机处理器。
检测器106可以包括处理器、供电器、存储器和可操作地耦合到处理器和图像分类器108的通信模块。存储器可以包括RAM、ROM、一个或更多个硬盘驱动器、一个或更多个闪存驱动器或诸如磁盘驱动器等一些其他合适的数据存储元件。
图像分类器108可以是使用深度神经网络模型来操作的图像分类系统该深度神经网络模被训练来执行特定图像分类应用。图像分类器可以使用任何合适的处理器来实现,诸如微处理器、控制器、数字信号处理器、现场可编程门阵列、专用集成电路、微控制器或者可以根据系统100的期望配置、目的和要求提供足够的处理能力处理器的其他合适的计算机处理器。
经训练的神经网络模型可以存储在图像分类器108的处理器可访问的非暂态存储器中。深度神经网络模型的特定参数和训练可以根据实现图像分类器108的特定应用而变化。
例如,图像分类器108可以被训练来执行JPEG图像的图像分类。JPEG标准是最常用的图像格式之一,因此也广泛用于计算机视觉数据集和流水线中,例如ImageNet数据集(参见例如Deng、Jia等人的“Imagenet:A large-scale hierarchical image database”,2009IEEE conference on computer vision and pattern recognition.Ieee,2009)。在涉及JPEG图像的本公开的实现方式中,在JPEG压缩期间执行的某些常见操作可以被认为是对原始图像的合法修改(即,不被认为是不利的修改)。
例如,高质量的JPEG压缩在实际应用中通常是可以接受的甚至是需要的。因此,使用QF≥50的JPEG重新压缩可以被视为合法操作g。因此,编码器104和检测器106可以被配置成使得经受使用QF≥50的JPEG重新压缩的加水印图像仍可以被识别为良性图像。更一般地,编码器104和检测器106可以被配置成确保良性图像容易与经不利修改的图像区分开,而不会对旨在作为深度图像分类器108的输入的原始图像产生负面影响。因此,编码器104和检测器106可以被限定为根据多个性能度量来操作。
加水印图像xwm的分类准确度可以被识别为性能度量。由编码器104执行的加水印可以被限定为不会显著降低深度图像分类器的分类准确度。编码器104可以被配置成确保嵌入到原始图像中的水印位不会显著降低深度图像分类器/>的性能。如下文进一步讨论的,可以通过比较原始图像数据集和加水印图像数据集的前1名和前5名准确度来对深度图像分类器/>的性能退化进行评估。
可以将加水印图像xwm的加水印失真识别为性能度量。编码器104可以被配置成确保嵌入到原始图像中的水印位不会使原始图像x显著失真。如下文进一步讨论的,可以使用原始图像x和加水印图像xwm之间的峰值信噪比(PSNR)来对加水印失真进行评估。
此外,编码器104和检测器106可以被配置成确保由检测器106接受的图像(即,被识别为良性的图像)对是无害的。因此,检测器106(以及整个加水印框架)的检测率可以被识别为性能度量。检测率可以被限定为被检测器接受为良性图像的经不利修改的图像的百分比。检测率可以提供检测器106(以及整个加水印框架)对对抗性攻击的敏感性的指示。
因此,检测器106(以及整个加水印框架)的有效假阴性率可以被识别为性能度量。有效假阴性率可以被限定为同时被检测器接受并成功导致产生和与xwm对应的输出不同的输出的经不利修改的图像/>的百分比。有效假阴性率反映了能够绕过检测器106的有害对抗性示例的水平。攻击者有时可以通过减少微扰预算(即,应用于受攻击图像的微扰水平)来绕过检测器106。然而,由此产生的对抗性示例的强度也会降低。因此,如果受攻击的图像/>和加水印图像xwm在被提供作为图像分类器/>的输入时生成相同的预测,则受攻击的图像/>可以被认为是无害的,并且不会被认为是有效假阴性情况。
编码器104和检测器106还可以被配置成确保良性图像不被检测器106拒绝。因此,检测器106(以及整个加水印框架)的有效假阳性率可以被识别为性能度量。如果加水印图像xwm没有被不利地修改,则检测器106应当被配置成以高概率接受加水印图像xwm作为良性图像。假阳性率可以被限定为被检测器以经不利修改的图像拒绝的xwm的百分比。如以下本文中进一步详细描述的,本文公开的加水印框架可以提供保证为0的假阳性率。
如上所述,编码器104和检测器106可以被配置成使得经受使用QF≥50的JPEG重新压缩的加水印图像仍可以被识别为良性图像。换句话说,检测器106可以被配置成使得经合法修改的图像g(xwm)不被拒绝从而产生假阳性情况。针对高质量JPEG重新压缩的鲁棒性可以使用JPEG重新压缩假阳性率(JRFPR)来评估,JRFPR被限定为被检测器106以经不利地修改的图像拒绝的重新压缩图像g(xwm)的百分比。
现在参照图2,其中示出了用于保护深度神经网络图像分类器的示例方法200。方法200可以与诸如系统100的图像分类系统一起使用。方法100是用于保护深度神经网络图像分类器的方法的示例,其中使用水印来识别在经过潜在对抗性的环境之后已被修改的图像。
在205处,可以采集旨在用于深度神经网络图像分类器的原始数字图像。可以使用诸如装置102之类的图像采集装置来采集原始数字图像。
在210处,可以从原始数字图像生成一加水印图像。可以通过将多个水印位嵌入到原始数字图像中来生成一加水印图像。
可以将加水印位嵌入到指定的加水印位置。可以为在205处接收到的图像随机地确定加水印位置。例如,可以使用与原始数字图像相关联的秘密密钥来对加水印位置进行确定。可以在嵌入水印位时(例如,由编码器104)为原始数字图像生成或选择秘密密钥。可以为在205处接收到的原始数字图像随机选择或生成秘密密钥。
可以将加水印位嵌入到每个指定的水印位置中。为了嵌入给定的加水印位,可以在每个指定的加水印位置处嵌入对应的嵌入值。实际上,嵌入值可以表示对应水印位的编码版本。可以使用多个水印位中的对应水印位和参考位来确定嵌入值。
也可以将参考位嵌入到加水印图像中。参考位可以嵌入到指定的参考位置处。还可以例如使用秘密密钥随机地确定原始数字图像的参考位置。
以下本文中参照图2B来对用于将多个水印位嵌入到以JPEG格式接收的原始数字图像中的示例过程250进行描述。
在215处,来自210的加水印图像可以通过潜在对抗性的环境被传输。加水印图像可以通过通信网络传输到深度图像分类器108,该通信网络可以包括潜在对抗性的环境110。
在220处,可以从潜在对抗性的环境110中接收一潜在扰动的图像。潜在扰动的图像可以被接收为旨在用于深度神经网络图像分类器108。例如,潜在扰动的图像可以由诸如检测器106之类的检测器接收。检测器106可以被配置成:在将传输到深度神经网络图像分类器108的所有图像提供作为深度神经网络图像分类器108的输入之前,接收(或拦截)那些图像。
在225处,检测器106可以对潜在扰动的图像是经不利修改的图像还是良性图像进行确定。检测器106可以通过对潜在扰动的图像是否包括预期水印进行确定,来对潜在扰动的图像是经不利修改的图像还是良性图像进行确定。
以下本文中参照图3A进一步对用于对潜在扰动的图像是否包括与嵌入到原始数字图像中的多个水印位匹配的多个潜在加水印的位进行确定的示例过程300进行详细描述。
预期水印可以被限定为包括多个预期水印位。每个预期水印位可以具有相关联的预期水印位置和预期水印值。对潜在扰动的图像是否包括预期水印进行确定可以涉及:将从潜在扰动的图像中的预期水印位置提取的潜在加水印的位与那些预期水印位置的预期水印值进行比较。
检测器106可以对接收到的图像进行评估以对潜在扰动的图像是否包括与多个预期水印位(即在210处嵌入到原始数字图像中的水印位)匹配的多个嵌入位(即潜在加水印的位)进行确定。
当潜在扰动的图像包括与多个预期水印位匹配的多个嵌入位时,可以将潜在扰动的图像识别为良性图像。否则,可以确定潜在扰动的图像是经不利修改的图像(即,因为潜在扰动的图像不包括与多个预期水印位匹配的多个嵌入位)。
可以在潜在扰动的图像中的预期加水印位置处识别多个嵌入位。可以使用与原始图像相关联的秘密密钥来对预期加水印位置进行确定。如上所述,检测器106可以通过与编码器104的密钥交换来对秘密密钥进行确定。然后,检测器106可以以与210处的水印位置大体相同的方式来对预期加水印位置进行确定。
确定潜在扰动的图像包括与多个预期水印位匹配的多个嵌入位可以允许预期水印位与嵌入位之间的最小水平的误差。
例如,可以基于将嵌入位与预期水印位进行比较来确定一位错误率。位错误率可以被限定为表示失真的嵌入位相对于对应预期水印位的百分比。当位错误率小于错误率阈值时,可以确定潜在扰动的图像包括与多个预期水印位匹配的多个嵌入位。例如,错误率阈值可以在0至2%的范围内。错误率阈值可以被设置为至多1%。替代地,错误率阈值可以被设置为至多0.05%。
错误阈值率可能因应用而异。例如,在实践中,可能预期更大水平的图像失真的应用中可以使用更高的错误率阈值。给定应用的特定错误率阈值可以基于该应用的要求凭经验确定。
响应于确定潜在扰动的图像是经不利修改的图像,方法200可以进行到230。在230处,可以阻止将潜在扰动的图像提供至深度神经网络图像分类器。这可以帮助阻止深度图像分类器对对抗性示例进行分析。
替代地,响应于确定潜在扰动的图像是良性图像,该方法然后可以进行到步骤235。在235处,可以将潜在扰动的图像提供至深度神经网络图像分类器。从深度图像分类器的角度来看,良性图像可以被认为是良性的,因此可以对其进行分析,而不必担心被不利地修改。
现在参照图2B,其中示出了用于生成加水印图像的示例方法250。方法250可以与诸如系统100的图像分类系统一起使用。
方法250是用于通过将水印位嵌入到原始图像的所选DCT系数中来生成加水印图像的示例过程。尽管使用JPEG格式的原始图像的示例来对方法250进行描述,但是应当理解,方法250也可以应用于其他图像格式的图像。这些原始图像可以以逐块的方式转换成DCT域。在一些情况下,接收到的图像可以在转换到DCT域之前被转换到像素域。例如,以压缩格式接收到的原始图像(任何格式)可以在转换到DCT域之前解压缩到像素域。
该过程可以依赖于DCT系数的不变特性,本文描述为引理1(参见Lin、Ching-Yung和Shih-FuChang的“A robust image authentication method distinguishing JPEGcompression from malicious manipulation”,IEEE Transactions on Circuits andSystems for Video Technology 11.2(2001):153-168[定理1]):
引理1(DCT不变性质)记d为DCT系数。如果d是q0的整数倍,则对于任何量化步长q<q0,用q量化d都是可逆的。也就是说,d可以根据其量化值完全重建。
在255处,可以接收数字图像块。数字图像块可以是基于由图像采集装置采集的原始图像确定的8x8 JPEG图像块。8x8 JPEG图像块可以对应于针对对应图像确定的YCbCr颜色空间的指定通道(例如,Y、Cb或Cr)。例如,数字图像块可以是来自亮度通道的8x8图像块。
尽管在8x8图像块的背景下描述了本公开,但是应当理解,在本公开的实现方式中可以使用其他大小的图像块。例如,数字图像块可以包括具有除8x8之外的块大小的布置。数字图像块甚至可以包括多个8x8子块,所述多个8x8子块组合成在255处接收的单个数字图像块(例如,四个8x8图像块的组合)。
可以在原始数字图像中识别多个数字图像块。可以对每个数字图像块重复方法200,以便将多个水印位嵌入到原始数字图像中。也就是说,可以将多个块特定水印位嵌入到每个数字图像块中。例如,为此,可以对来自原始数字图像的每个8×8JPEG块重复步骤255至285。
在260处,可以针对来自255的数字图像块识别多个嵌入系数。可以为数字图像块随机选择嵌入系数。这可以帮助阻止攻击者在引入微扰时轻松识别和避开嵌入位置。如下面将进一步详细讨论的,嵌入系数可以包括多个水印嵌入系数和至少一个参考嵌入系数。
可以使用与数字图像块相关联的秘密密钥来对嵌入系数进行确定。秘密密钥可以在用于嵌入水印位的编码器和用于确定图像是否已被修改的检测器之间交换。这可以允许检测器对从潜在不利环境中接收的图像中是否存在水印进行评估。
可以通过选择嵌入系数以提高对由对抗性攻击导致的扰动进行检测的可能性。对抗性攻击通常会对图像的不同频率分量引入不同量的微扰。相比高频带,低频带中更容易发现微扰,至少对于ImageNet数据集中包含的JPEG图像而言是如此(例如,参见Sharma、Yash、Gavin Weiguang Ding和Marcus Brubaker的“On the effectiveness of lowfrequency perturbations”,arXiv preprint arXiv:1903.00073(2019);以及Tsuzuku、Yusuke和Issei Sato的“On the structural sensitivity of deep convolutionalnetworks to the directions of fourier basis functions”,Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition.2019)。
将水印位嵌入到低频的DCT系数中可以提供关于一旦加水印图像受到攻击,低频的大微扰将破坏嵌入其中的水印位的增加的可能性。因此,多个嵌入系数可以被识别为数字图像块中的低频系数。
关于∈=8的FGSM,发明人对亮度通道中的100,000个JPEG块进行了逐系数微扰分析。在这些JPEG块的64个DCT系数中收集了添加的对抗性微扰的值。
图4A示出了来自所分析的100,000个JPEG块的每个DCT系数的微扰的标准推导。从图4A可以看出,由FGSM引入的微扰能量主要集中在低DCT频率上,特别是Z字形顺序的前16个DCT系数。
图4B示出了DC处的微扰分布(图4A所示的绘图的左上角中的DCT系数),其或多或少是零中心高斯分布。从图4B可以看出,每个DCT系数的微扰平均值大约为零。
如图4A和图4B所示,在所分析的JPEG图像块的前16个DCT系数中发现了更高频率的微扰。因此,Z字形顺序的8x8 JPEG图像块的前16个可能的系数可以被识别为可能的嵌入系数。然后可以从这些可能的嵌入系数中选择多个嵌入系数。
多个嵌入系数可以从16个可能的嵌入系数中随机选择。与数字图像块相关联的秘密密钥可以用于选择多个嵌入系数。
例如,可以从16个可能的嵌入位置中选择5个DCT系数作为多个水印嵌入系数。然后可以为每个图像块限定密钥长度为的秘密密钥。该密钥可以是与数字图像块相关联的秘密密钥。如上所述,可以针对给定图像的每个数字图像块确定秘密密钥。
嵌入系数和/或可能的嵌入系数的数量也可以根据具体实现方式而变化。例如,可以基于给定应用的要求凭经验选择嵌入系数和/或可能的嵌入系数的数量。
嵌入系数和/或可能的嵌入系数的数量也可以根据所使用的图像块的大小而变化。例如,在使用较大大小的图像块的情况下,可以选择较大数量的嵌入系数和可能的嵌入系数。
在265处,可以基于在260处确定的多个嵌入系数来确定参考位。来自260的多个嵌入系数可以包括参考嵌入系数。
例如,参考嵌入系数可以被选择为使用秘密密钥识别260的DCT系数之一。参考嵌入系数可以被识别为来自识别260的多个DCT系数的指定系数(例如,识别260的多个DCT系数中的第一DCT系数)。然后可以将该参考嵌入系数与特殊的参考开关位一起使用来嵌入参考位。例如可以根据秘密密钥来确定参考开关位。
参考系数可以被限定为其中嵌入有参考位的参考嵌入系数。可以通过对参考嵌入系数进行量化来生成量化的参考嵌入系数。然后可以通过将参考位嵌入到量化的参考嵌入系数中来生成参考系数。
参考位可以被识别为量化的参考嵌入系数的指定参考位。可以基于特殊参考开关位的值来识别指定的参考位。例如,指定参考位r可以被识别为量化系数整数的倒数第二位或第三位,具体取决于特殊参考开关位s是0还是1。
使d(j)表示所选的参考DCT系数。给定图像块的参考位r可以通过用量化步长Q50(j)量化所选择的参考DCT系数d(j)来确定。然后,根据特殊参考开关位s是0还是1,可以将参考位r选择为量化系数整数的指定位(例如倒数第二位或倒数第三位)。即,参考位r可以根据下式进行限定:
在270处,可以从在260处确定的嵌入系数中识别水印嵌入系数。可以使用在260处确定的嵌入系数中的剩余DCT(除了参考嵌入系数之外)来识别水印嵌入系数。
当在260处识别出5个嵌入系数时,剩余的4个选择的DCT系数可以用作水印嵌入系数(即,是否嵌入水印位的位置)。这可以为每个块提供4个加水印位,从而给出每个8×8JPEG块秘密长度S:
在275处,可以通过对来自270的多个水印嵌入系数进行量化来生成多个量化的水印嵌入系数。
例如,给定水印嵌入位置i处的DCT系数可以被识别为d(i)。可以使用来自量化表的量化步长Q50(i)来对该水印嵌入系数d(i)进行量化,该量化步长对应于根据下式的QF=50:
在280处,可以将多个水印位嵌入到图像块中。对于每个水印嵌入系数,可以通过将对应的嵌入值嵌入到该水印嵌入系数中来嵌入水印位。
嵌入值可以被嵌入到每个水印嵌入系数中的指定位中。例如,每个嵌入值可以被嵌入到对应的量化的水印嵌入系数的最低有效位(LSB)中(即,在水印嵌入系数在275处被量化之后)。
水印位可以作为嵌入值直接嵌入到水印嵌入系数中。然而,这可能允许攻击者通过在所有潜在的加水印位置处维持位值来避免检测。因此,嵌入值可以被限定为对应水印位的编码版本。
嵌入编码的嵌入值E而不是直接嵌入水印位w可以阻止攻击者通过对应系数的嵌入位置(例如的LSB)直接访问水印位。如果直接嵌入水印位,则即使不知道所选择的水印嵌入位置,攻击者也可以迭代所有可能的嵌入位置并保持对应水印位与加水印图像一致,从而绕过检测器106而不会显著偏离期望的对抗性示例。
可以使用参考位和对应水印位来为每个水印位限定编码的嵌入值。可以通过相对于参考位对对应水印位进行差分编码来生成嵌入值。
例如,可以通过相对于参考位差分编码w来生成要嵌入到嵌入位置i的水印位w的嵌入值E。例如,每个嵌入值可以被确定为参考位和对应水印位的逐位XOR。即,给定水印位w的嵌入值E可以根据下式确定
然后可以将嵌入值嵌入到每个水印嵌入系数中的指定位中。例如,水印位w可以通过根据下式将E嵌入到的D50(i)的LSB中来嵌入到位置i:
其中是嵌入的DCT系数整数。
在285处,可以通过使用与数字图像块相关联的量化表重新量化每个嵌入系数来生成加水印图像块。嵌入的DCT系数可以使用原始图像的量化表重新量化,以维持整个加水印图像的量化一致性。
根据下式使用原始量化步长重新量化嵌入系数:
其中Qori(i)表示对应原始图像的量化表中位置i处的量化步长。可以假设原始量化步长Qori(i)严格小于Q50(i),这在许多应用中都是这种情况。
在290处,可以输出加水印图像块。可以对原始数字图像的每个数字图像块(例如,亮度通道中的所有JPEG块)重复步骤255至290。一旦对于每个数字图像块完成方法250,所得到的图像将是加水印图像。然后可以通过潜在不利环境110将加水印图像传输到图像分类器108。
现在参照图3A,其中示出了用于对经修改的图像进行检测的示例方法300。方法300可以与诸如系统100之类的图像分类系统一起使用。方法300是用于使用可以用于保护深度神经网络图像分类器的水印来对经修改的图像进行检测的方法的示例。
方法300可以应用于旨在用于深度神经网络图像分类器的图像。该图像可以从潜在对抗性的环境中接收。因此,图像可能会潜在受到干扰(即,图像有可能被不利地修改)。方法300可以用于对图像在到达深度图像分类器之前是否已被不利地修改进行确定。
在310处,可以识别一与潜在扰动的图像的原始数字图像相关联的秘密密钥。例如,可以通过在实现方法300的检测器和用于将水印嵌入到原始数字图像中的编码器之间执行的密钥交换过程来对秘密密钥进行识别。
在320处,可以确定与来自310的秘密密钥相关联的多个预期水印位。每个预期水印位可以具有相关联的预期位位置和预期位值。
在330处,可以从潜在扰动的图像中提取多个嵌入位(潜在加水印的位)。可以从与在320处确定的预期水印位相关联的预期位位置提取嵌入位。
在340处,可以对多个嵌入位(即,潜在加水印的位)是否与多个预期水印位匹配进行确定。可以通过将从330提取的嵌入位的值与来自对应位位置的相应预期水印位的预期位值进行比较,来对潜在扰动的图像是否包括与多个预期水印位匹配的多个嵌入位进行确定。
当潜在扰动的图像包括与多个预期水印位匹配的多个嵌入位时,可以确定潜在扰动的图像是良性图像。当潜在扰动的图像不包括与多个预期水印位匹配的多个嵌入位时,可以确定潜在扰动的图像是经不利修改的图像。
可选地,可以将潜在扰动的图像作为多个图像块(例如,多个潜在扰动的图像块)进行分析。对潜在扰动的图像是否包括与多个预期水印位匹配的多个嵌入位进行确定可以包括:对于每个潜在扰动的图像块,将多个块特定嵌入位与原始数字图像的对应原始图像块的多个块特定预期水印位进行比较。
现在参照图3B,其中示出了用于阻止将经修改的图像提供至深度神经网络图像分类器的示例方法350。方法350可以与诸如系统100之类的图像分类系统一起使用。尽管使用JPEG格式的原始图像的示例来对方法350进行描述,但是应当理解,方法350还可以应用于其他图像格式的图像(类似于上文描述的方法250)。
在355处,可以接收数字图像块。数字图像块可以对应于从潜在对抗性的环境中接收一潜在扰动的图像。因此,数字图像块可以对应于加水印的块、加水印的且经不利修改的块、或者加水印的且经JPEG重新压缩的块。
数字图像块可以是来自多个潜在扰动的图像块中的与潜在扰动的图像相对应的潜在扰动的图像块。可以针对来自多个潜在扰动的图像块中的每个潜在扰动的图像块重复方法350的步骤355至370。
在360处,可以对数字图像块的多个嵌入系数进行量化。可以使用与在355处接收到的图像块相关联的秘密密钥来对数字图像块中的多个嵌入系数进行识别。
每个嵌入系数可以被识别为数字图像块中预期包括与嵌入到原始图像中的水印相对应的嵌入数据的系数。秘密密钥可以被确定为与对应于潜在扰动的图像的加水印图像中的对应数字图像块相关联的秘密密钥。可以以与在上文描述的260处识别的多个嵌入系数大体相同的方式使用秘密密钥来确定多个嵌入系数。然后可以以与上面方法250中描述的大体相同的方式对多个嵌入系数进行量化。
例如,可以根据秘密密钥确定5个选择的嵌入位置。然后可以用Q50对这些确定位置处的DCT系数进行量化,以便以类似于等式(3)的方式计算相应的如果接收到的块没有被不利地修改,也没有被重新压缩,则根据DCT不变属性,/>将等于/>
在365处,可以从在360处识别的多个嵌入系数中提取多个潜在加水印的位。
与方法250中描述的编码过程一样,在360处识别的多个嵌入系数可以包括多个潜在加水印的系数和至少一个潜在参考系数。可以通过对多个嵌入系数中的多个潜在加水印的系数进行识别来提取多个潜在水印位。然后可以从多个加水印系数中的每个潜在加水印系数中提取加水印位。
可以使用潜在加水印的系数的指定位置处的位值来对加水印位进行确定。例如,可以使用对应的量化水印嵌入系数的最低有效位(LSB)的位值来对加水印位进行确定。
如上所述,加水印位可以在嵌入之前被编码。因此,可以使用对应的解码过程来提取加水印位。
对于每个潜在加水印的系数,可以使用估计的参考位来提取多个潜在加水印的位。可以以与上文在265处描述的方式大体相同的方式来对估计的参考位进行确定。例如,可以根据等式(2)用代替d(j)根据参考位置确定参考位r的估计/>
可以在多个嵌入系数中识别参考系数。然后可以使用与原始数字图像相关联的参考开关值来确定一参考位位置。然后可以将估计的参考位确定为参考系数的参考位位置处的位值。
可以使用估计的参考位和该潜在加水印的系数的指定位的位值(估计嵌入值)来对给定的潜在加水印的系数的潜在加水印的位进行确定。例如,可以将给定的潜在加水印的系数的估计嵌入值确定为量化的潜在加水印的系数的最低有效位。对于每个加水印的嵌入位置,/>的LSB可以用作E的估计/>
可以使用估计的嵌入值和估计的参考位的逐位XOR来对潜在加水印的位进行确定。例如,与预期水印位w相对应的潜在加水印的位可以根据下式来计算:
在370处,可以将潜在加水印的位与预期加水印位进行比较。可以针对与检测器接收到的潜在扰动的图像相关联的每个图像块重复步骤355至370。检测器可以基于将每个图像块的加水印位与预期水印位进行比较,来对潜在扰动的图像是被不利地修改还是良性的进行确定。
检测器可以基于对所有图像块执行的比较来确定一位错误率。位错误率可以表示失真的潜在水印位相对于对应预期水印位的百分比。当位错误率小于错误率阈值时,检测器可以确定潜在扰动的图像是良性的。
对于所有水印嵌入位置,可以将提取的水印位与预期水印位进行比较。可以基于所述比较来确定一位错误率(BER)。位错误率可以被确定为与接收到的图像相关联的所有数字图像块的累积位错误率。BER可以表示明显失真的嵌入DCT系数的百分比。越大的BER指示加水印图像中添加的失真越多。
可以使用各种不同的错误率阈值。例如,0.01的BER阈值可以用于区分经不利修改的图像和良性图像。检测器106可以被配置成:仅当接收到的图像的BER≤0.01时,才接受该接收到的图像。
响应于确定数字图像是良性的,方法350可以进行到375。在375处,可以将数字图像块提供至深度图像分类器。
响应于确定数字图像被不利地修改,方法350可以进行到380。在380处,接收到的图像被拒绝(即,阻止作为输入被提供至深度图像分类器)。
实施例
测试了本文描述的方法的示例实现。特别是,常规对抗性方法被修改为在本文描述的框架内工作。然后,这些经修改的攻击者被用来攻击示例实现方式。然后使用各种框架性能度量对这些对抗性攻击的结果进行评估。
常规攻击者通常使用具有固定图像大小的有效RGB图像进行工作。即,常规对抗性攻击算法的输入图像通常采用整数值像素强度,并且其大小也等于分类DNN的输入大小。开发了可以攻击具有各种分辨率的JPEG图像的修改的对抗性方法的示例,然后进一步扩展以攻击本文描述的基于水印的检测方法。
常规攻击者被修改为直接采用JPEG图像作为其输入。然而,在将JPEG图像解码为其RGB像素强度的过程中,实值像素值被保留而没有任何舍入。这避免了因水印位舍入而可能造成的损坏。
攻击者也被修改为提供与要攻击的图像大小相同的对抗性示例。调整大小过程作为前层集成到分类模型中,该前层将图像大小调整为模型的输入大小。然后,攻击者通过集成模型的基于梯度的攻击或基于优化的攻击,直接将对抗性微扰添加到图像中。所得的经不利修改的图像为集成模型提供了对抗性示例,并且在调整大小后,还为原始模型提供了对抗性示例。
最后,使用与原始图像相同的量化表对经不利修改的图像进行JPEG压缩。这为本文开发的方法提供了来自经修改的常规攻击者的对抗性示例。
自适应攻击也是基于本文描述的基于加水印而开发的。经修改的常规攻击中的JPEG编码步骤可能会削弱其攻击强度。因此,第一个示例自适应攻击被修改以消除JPEG编码对攻击强度的负面影响。特别地,Shin等人提出的抗JPEG方法(参见Shin、Richard和DawnSong,“Jpeg-resistant adversarial images”,NIPS2017Workshop on MachineLearning and Computer Security,第1卷,2017年)应用于增强经修改的常规攻击,包括PGD、FGSM和CW-l2,从而生成第一组自适应攻击。
第二组自适应攻击被开发出来,以通过利用示例加水印和检测方法的完整知识来完全绕过检测器。特别地,经修改的常规攻击中的最后一个JPEG编码步骤被图5所示的流水线所取代。DCT不变属性保证了加水印图像和自适应受攻击图像均经过量化表Q50量化后,自适应受攻击图像中的DCT系数的量化DCT系数整数与其在加水印图像中的对应部分在每个可能的嵌入位置具有相同的最后三个位。如以下本文中所讨论的,虽然这种类型的自适应攻击可以完全绕过检测器,但它不一定会对要保护的DNN造成损害。
评估了示例实现方式对分类准确度和图像质量的影响及其对JPEG重新压缩的鲁棒性。鉴于DCT不变属性,可以保证假阳性率为0。
表1示出了从TensorFlow获得的预训练DNN在加水印之前和之后的前1名和前5名准确度(Abadi、Martin等人“Tensorflow:A system for large-scale machinelearning”,12th USENIX symposium on operating systems design andimplementation(OSDI 16).2016),即整个ImageNet ILSVRC 2012验证数据集上的ResNet50V2、MobileNetV2和InceptionV3。计算(使用Python)一个ImageNet数据集中的加水印图像大约需要一个单个4.5GHz CPU的计算机大约0.3秒的时间。
如下表1所示,加水印对分类准确度的影响并不显著,平均而言,前1名和前5名的准确度分别下降了0.63%和0.49%。原始图像和加水印图像之间的PSNR也发现为39.34±1.13dB。
表1–三个预训练DNN的加水印之前和之后的前1名和前5名准确度
DNN | 前1名wm | 前1名 | 前5名 | 前5名wm |
ResNet50V2 | 67.00% | 66.51% | 87.81% | 87.43% |
MobileNetV2 | 70.85% | 69.63% | 89.80% | 89.01% |
InceptionV3 | 76.85% | 76.66% | 93.30% | 93.00% |
为了评估加水印对JPEG重新压缩的鲁棒性,首先通过多轮JPEG重新压缩来压缩加水印图像,其中每个QF从[50,100)随机选择,然后发送到检测器。表2示出了每种情况下检测器相应的平均BER结果。
表2:不同轮JPEG重新压缩的平均BER。
轮次 | 1 | 2 | 3 | 5 |
平均位BER | 0.00067 | 0.0082 | 0.021 | 0.038 |
从表2清楚的是,示例实现方式对于一轮或两轮高质量JPEG重新压缩非常鲁棒。表2中的结果也为选择约0.01的BER阈值率提供了经验基础。
然后针对如上所述修改的一组攻击者测试示例实现方式的有效性。示例实现方式在ImageNet ILSVRC 2012验证数据集的子集上进行了测试,该子集是通过从整个验证数据集中随机选择1,000张图像而形成的。所有选择的图像在ResNet50V2加水印之前和之后均被正确分类(参见He、Kaiming等人的“Identity mappings in deep residual networks”,European conference on computer vision.Springer,Cham,2016)。否则,将选择新图像并对新图像进行测试,直到满足此条件为止。水印失真基本上难以察觉,并且明显小于测试的对抗性示例所施加的对抗性微扰。
对抗性图像是通过攻击ResNet50V2产生的。选择三种代表性的定向对抗性攻击方法FGSM、PGD和CW-12并对其修改,以在如上所述的基于水印的框架内工作。这些代表性的攻击者进一步扩展到攻击我们基于加水印的检测策略(即自适应白盒攻击)。这些对抗性示例是利用CleverHans包(Papernot、Nicolas等人的“Technical report on the cleverhansv2.1.0 adversarial examples library”,arXiv preprint arXiv:1610.00768(2016))中的参考实现方式来实现的,这些参考实现方式稍作修改以适应上述修改。定向攻击的目标是随机选择的。为这些攻击选择的参数包括:
·对于FGSM和PGD,对抗性微扰是根据L∞约束和控制每个像素的最大微扰的幅度的参数∈计算的。为了评估不同微扰水平下的示例实现方式,采用∈=2、4和8的定向FGSM攻击,以及∈=8的定向PGD攻击。
·对于CW-L2,对抗性微扰在L2约束下进行了优化。超参数κ指定目标DNN错误分类的对抗性图像的置信度,并且还控制微扰量。κ越小,微扰越小。由于小微扰很难被检测到,因此使用κ=0对定向CW-l2攻击进行测试。
表3示出了对示例实现方式进行静态白盒FGSM和PGD攻击所产生的性能度量。
表3-静态白盒FGSM和PGD攻击的检测率和有效假阴性率
度量 | FGSM | FGSM | FGSM | PGD |
∈=2 | ∈=4 | ∈=8 | ∈=8 | |
检测率 | 99.7% | 100.0% | 100.0% | 100.0% |
EFNR | 0.2% | 0.0% | 0.0% | 0.0% |
表4示出了自适应白盒FGSM和PGD攻击产生的性能度量。针对第一组经修改的攻击者确定第一组性能度量,而针对第二组经修改的攻击者确定第二组性能度量。
表4-自适应白盒FGSM和PGD攻击的检测率和有效假阴性率
度量 | FGSM | FGSM | FGSM | PGD |
∈=2 | ∈=4 | ∈=8 | ∈=8 | |
检测率 | 99.8% | 100.0% | 100.0% | 100.0% |
EFNR | 0.1% | 0.0% | 0.0% | 0.0% |
检测率 | 0.0% | 0.0% | 0.0% | 0.0% |
EFNR | 0.1% | 0.0% | 0.4% | 1.5% |
表3和表4分别示出了静态FGSM和PGD攻击情况下的以及自适应FGSM和PGD攻击情况下的检测率和有效假阴性率。从表3和表4可以看出,示例检测器实现方式可以有效地对由静态攻击和第一组经修改的FGSM和PGD攻击引入的对抗性微扰进行检测。尽管第二组经修改的FGSM和PGD攻击可以完全绕过检测器,但它们对于后续EFNR接近于零的分类DNN来说是无害的。Q50的量化过程以及强制每个可能嵌入位置处的最后三个位与加水印图像中对应位置的最后三个位相同,本质上消除了对抗性微扰的影响。
CW-l2攻击在微扰预算紧张的情况下提供了具有高置信度的强有力的对抗性示例。微小的扰动增加了检测这些微扰的难度。然而,由CW-l2生成的对抗性微扰对于JPEG压缩来说很脆弱。静态CW-l2攻击和根据第一组修改而修改的CW-l2攻击的结果如表5所示。相对较低的对静态CW-l2攻击的检测率表明加水印系数在量化后几乎没有失真。另一方面,将对抗性示例转换为JPEG格式也会显著降低静态攻击的有效性,从而导致有效假阴性率较低。凭借抗JPEG功能,第一修改的CW-l2攻击产生了的更高的有效假阴性率:25.3%。然而,这也增加了所需的失真并导致更高的检测率。
表5-静态白盒CW-l2攻击和自适应白盒CW-l2攻击的检测率和有效假阴性率
静态 | 类型1 | 类型2 | |
检测率 | 34.1% | 38.4% | 0% |
EFNR | 4.7% | 25.3% | 0.0% |
为了对抗CW-12攻击,可以降低检测器的错误率阈值。表6示出了第一类型经修改的CW-l2攻击在不同BER阈值下的检测率和有效假阴性率。
表6:第一类型经修改的CW-l2攻击在不同BER阈值下的检测率和有效假阴性率。
BER阈值 | 0.0025 | 0.005 | 0.0075 | 0.01 |
检测率 | 85.1% | 67.5% | 54.6% | 38.4% |
EFNR | 5.8% | 12.3% | 16.7% | 25.3% |
如表6所示,当BER阈值设置为0.0025时,检测率从38.4%显著增加到85.1%,而有效假阴性率从25.3%显著下降至5.8%。性能的提高是以加水印对多轮高质量JPEG重新压缩的鲁棒性为代价的。由于BER阈值为0.0025,示例实现方式对于仅一轮JPEG重新压缩非常稳健(如上表2所示)。
ImageNet验证数据集的子集的实验结果表明,本文描述的加水印和检测方法有效抵御各种高级攻击(静态和自适应),实现FGSM和PGD攻击(静态和自适应)接近零(有效)的假阴性率,保证零假阳性率。还可以看出,对于所有测试的深度图像分类器(ResNet50V2、MobileNetV2和InceptionV3),加水印对分类准确度的影响并不显著,平均前1名和前5名的准确度分别下降了0.63%和0.49%。
虽然以上描述提供了一个或更多个过程或设备或系统的示例,但是应当理解,其他过程或设备或系统可以在所附权利要求的范围内。
应当理解,本公开中描述的实施方式可以在多种计算装置中实现,包括但不限于服务器、适当编程的通用计算机、相机、传感器、音频/视频编码和回放装置、机顶盒电视盒、电视广播装备、移动装置和自动驾驶汽车。本公开中描述的实施方式可以通过包含用于配置一个或更多个处理器以执行本文中描述的功能的指令的硬件或软件来实现。软件指令可以存储在任何合适的非暂态计算机可读存储器上,包括CD、RAM、ROM、闪速存储器等。
应当理解,本公开中描述的实施方式以及实现所描述的方法/过程/框架的模块、例程、过程、线程或其他软件部件可以使用标准计算机编程技术和语言来实现。本申请不限于特定处理器、计算机语言、计算机编程约定、数据结构、其他这样的实现细节。本领域技术人员将认识到,所描述的方法/过程可以被实现为存储在易失性或非易失性存储器中的计算机可执行代码的一部分、作为专用集成芯片(ASIC)的一部分等。
对于本领域技术人员来说明显的是,可以对所描述的方法/过程/框架进行某些适应和修改,并且上面讨论的实施方式应当被认为是说明性的而不是限制性的。
如果之前针对任何现有技术或其他技术做出的任何修改、特征或其他断言(在本专利申请或任何相关专利申请或专利中,包括任何母申请、兄弟申请或子申请)可以被解释为对本申请的本公开所支持的任何主题的免责声明,则申请人特此撤销并撤回这样的免责声明。申请人还恭敬地提出,之前在任何相关专利申请或专利中考虑的任何现有技术,包括任何母申请、兄弟申请或子申请,可能需要重新审查。
Claims (46)
1.一种用于保护深度神经网络图像分类器免受于接收扰动图像的方法,所述方法包括:
采集旨在用于所述深度神经网络图像分类器的原始数字图像;
通过将多个水印位嵌入到所述原始数字图像中来生成一加水印图像;
通过潜在对抗性的环境来传输所述加水印图像;
从所述潜在对抗性的环境中接收一潜在扰动的图像,其中,所述潜在扰动的图像旨在用于所述深度神经网络图像分类器;
通过对所述潜在扰动的图像是否包括与嵌入到所述原始数字图像中的所述多个水印位匹配的多个嵌入位进行确定,来对所述潜在扰动的图像是经不利修改的图像还是良性图像进行确定,其中,当所述潜在扰动的图像包括与所述多个水印位匹配的所述多个嵌入位时,所述潜在扰动的图像被确定为所述良性图像;以及当所述潜在扰动的图像不包括与所述多个水印位匹配的所述多个嵌入位时,所述潜在扰动的图像被确定为所述经不利修改的图像;以及
响应于确定所述潜在扰动的图像是所述经不利修改的图像,来阻止将所述潜在扰动的图像提供至所述深度神经网络图像分类器。
2.根据权利要求1所述的方法,所述方法还包括:响应于确定所述潜在扰动的图像是所述良性图像,将所述潜在扰动的图像提供至所述深度神经网络图像分类器。
3.根据权利要求1和2中任一项所述的方法,其中,对所述潜在扰动的图像是否包括与嵌入到所述原始数字图像中的所述多个水印位匹配的所述多个嵌入位进行确定包括:
基于将所述嵌入位与所述水印位进行比较来对确定一位错误率,其中,所述位错误率表示失真的嵌入位相对于对应水印位的百分比;以及
当所述位错误率小于错误率阈值时,确定所述潜在扰动的图像包括与所述多个水印位匹配的所述多个嵌入位。
4.根据权利要求3所述的方法,其中,所述错误率阈值为至多1%。
5.根据权利要求1至4中任一项所述的方法,其中,对所述潜在扰动的图像是否包括与所述多个水印位匹配的所述多个嵌入位进行确定包括:
使用与所述原始数字图像相关联的秘密密钥,来对所述潜在扰动的图像的多个嵌入系数进行识别;
从所述多个嵌入系数中提取多个潜在加水印位;以及
对所述多个潜在加水印位是否与所述多个水印位相对应进行确定。
6.根据权利要求5所述的方法,其中,提取所述多个潜在加水印位包括:
对所述多个嵌入系数中的多个潜在加水印的系数进行识别;
确定一估计参考位;
对于每个潜在加水印的系数,通过以下方式从所述潜在加水印的系数中提取所述潜在加水印位:
基于所述潜在加水印的系数的一个或更多个指定位来确定一估计嵌入值;以及
使用所述估计嵌入值和所述估计参考位来对所述潜在加水印位进行确定。
7.根据权利要求6所述的方法,其中,通过以下方式对所述估计参考位进行确定:
在所述多个嵌入系数中确定一参考系数;
使用与所述原始数字图像相关联的参考开关值来确定一参考位位置;以及
将所述估计参考位确定为所述参考系数的所述参考位位置处的位值。
8.根据权利要求1至7中任一项所述的方法,其中,将所述多个水印位嵌入到所述原始数字图像中包括:
在所述原始数字图像中识别多个水印嵌入系数;以及
对于每个水印嵌入系数,将一对应的嵌入值嵌入到所述水印嵌入系数中。
9.根据权利要求8所述的方法,其中,将所述多个水印位嵌入到所述原始数字图像中包括:
在所述原始数字图像中识别至少一个参考嵌入系数;以及
对于每个参考嵌入系数,根据所述参考嵌入系数对对应的参考位进行确定。
10.根据权利要求9所述的方法,其中,使用所述参考位和对应水印位来定义每个嵌入值。
11.根据权利要求9至10中任一项所述的方法,其中,使用与所述原始数字图像相关联的秘密密钥来对所述至少一个参考嵌入系数进行确定。
12.根据权利要求8至11中任一项所述的方法,其中,使用与所述原始数字图像相关联的秘密密钥来对所述多个水印嵌入系数进行确定。
13.根据权利要求1至12中任一项所述的方法,其中,将所述多个水印位嵌入到所述原始数字图像中包括:
对所述原始数字图像中包含的多个数字图像块进行识别;以及
将多个块特定水印位嵌入到每个数字图像块中。
14.一种用于保护深度神经网络图像分类器免于接收扰动图像的系统,所述系统包括:
图像采集装置;以及
水印编码器,所述水印编码器耦接至所述图像采集装置;以及
检测器,所述检测器耦接至所述深度神经网络图像分类器;
其中,
所述图像采集装置被配置成:采集旨在用于所述深度神经网络图像分类器的原始数字图像;
所述水印编码器被配置成:
通过将多个水印位嵌入到所述原始数字图像中来生成一加水印图像;以及
通过潜在对抗性的环境来传输所述加水印图像;以及
所述检测器被配置成:
从所述潜在对抗性的环境中接收一潜在扰动的图像,其中,所述潜在扰动的图像旨在用于所述深度神经网络图像分类器;
通过对所述潜在扰动的图像是否包括与嵌入到所述原始数字图像中的所述多个水印位匹配的多个嵌入位进行确定,来对所述潜在扰动的图像是经不利修改的图像还是良性图像进行确定,其中,当所述潜在扰动的图像包括与所述多个水印位匹配的所述多个嵌入位时,所述潜在扰动的图像被确定为所述良性图像;以及
当所述潜在扰动的图像不包括与所述多个水印位匹配的所述多个嵌入位时,所述潜在扰动的图像被确定为所述经不利修改的图像;以及
响应于确定所述潜在扰动的图像是所述经不利修改的图像,来阻止将所述潜在扰动的图像提供至所述深度神经网络图像分类器。
15.根据权利要求14所述的系统,其中,所述检测器被配置成:响应于确定所述潜在扰动的图像是所述良性图像,将所述潜在扰动的图像提供至所述深度神经网络图像分类器。
16.根据权利要求14和15中任一项所述的系统,其中,所述检测器被配置成:通过以下方式对所述潜在扰动的图像是否包括与嵌入到所述原始数字图像中的所述多个水印位匹配的所述多个嵌入位进行确定:
基于将所述嵌入位与所述水印位进行比较来对确定一位错误率,其中,所述位错误率表示失真的嵌入位相对于对应水印位的百分比;以及
当所述位错误率小于错误率阈值时,确定所述潜在扰动的图像包括与所述多个水印位匹配的所述多个嵌入位。
17.根据权利要求16所述的系统,其中,所述错误率阈值为至多1%。
18.根据权利要求14至17中任一项所述的系统,其中,所述检测器被配置成:通过以下方式对所述潜在扰动的图像是否包括与所述多个水印位匹配的所述多个嵌入位进行确定:
使用与所述原始数字图像相关联的秘密密钥,来对所述潜在扰动的图像的多个嵌入系数进行识别;
从所述多个嵌入系数中提取多个潜在加水印位;以及
对所述多个潜在加水印位是否与所述多个水印位相对应进行确定。
19.根据权利要求18所述的系统,其中,所述检测器被配置成:通过以下方式提取所述多个潜在加水印位:
对所述多个嵌入系数中的多个潜在加水印的系数进行识别;
确定一估计参考位;
对于每个潜在加水印的系数,通过以下方式从所述潜在加水印的系数中提取所述潜在加水印位:
基于所述潜在加水印的系数的一个或更多个指定位来确定一估计嵌入值;以及
使用所述估计嵌入值和所述估计参考位来对所述潜在加水印位进行确定。
20.根据权利要求19所述的系统,其中,所述检测器被配置成:通过以下方式对所述估计参考位进行确定:
在所述多个嵌入系数中确定一参考系数;
使用与所述原始数字图像相关联的参考开关值来确定一参考位位置;以及
将所述估计参考位确定为所述参考系数的所述参考位位置处的位值。
21.根据权利要求14至20中任一项所述的系统,其中,所述水印编码器被配置成:通过以下方式将所述多个水印位嵌入到所述原始数字图像中:
在所述原始数字图像中识别多个水印嵌入系数;以及
对于每个水印嵌入系数,将一对应的嵌入值嵌入到所述水印嵌入系数中。
22.根据权利要求21所述的系统,其中,所述水印编码器被配置成:通过以下方式将所述多个水印位嵌入到所述原始数字图像中:
在所述原始数字图像中识别至少一个参考嵌入系数;以及
对于每个参考嵌入系数,根据所述参考嵌入系数对对应的参考位进行确定。
23.根据权利要求22所述的系统,其中,所述水印编码器被配置成:使用所述参考位和一对应水印位来定义每个嵌入值。
24.根据权利要求22和23中任一项所述的系统,其中,所述水印编码器被配置成:使用与所述原始数字图像相关联的秘密密钥来对所述至少一个参考嵌入系数进行确定。
25.根据权利要求21至24中任一项所述的系统,其中,所述水印编码器被配置成:使用与所述原始数字图像相关联的秘密密钥来对所述多个水印嵌入系数进行确定。
26.根据权利要求14至25中任一项所述的系统,其中,所述水印编码器被配置成:通过以下方式将所述多个水印位嵌入到所述原始数字图像中:
对所述原始数字图像中包含的多个数字图像块进行识别;以及
将多个块特定水印位嵌入到每个数字图像块中。
27.一种非暂态计算机可读介质,所述非暂态计算机可读介质存储计算机可执行指令,所述计算机可执行指令在由计算机处理器执行时使所述计算机处理器执行用于保护深度神经网络图像分类器免于接收扰动图像的方法,其中,所述方法包括:
采集旨在用于所述深度神经网络图像分类器的原始数字图像;
通过将多个水印位嵌入到所述原始数字图像中来生成一加水印图像;
通过潜在对抗性的环境来传输所述加水印图像;
从所述潜在对抗性的环境中接收一潜在扰动的图像,其中,所述潜在扰动的图像旨在用于所述深度神经网络图像分类器;
通过对所述潜在扰动的图像是否包括与嵌入到所述原始数字图像中的所述多个水印位匹配的多个嵌入位进行确定,来对所述潜在扰动的图像是经不利修改的图像还是良性图像进行确定,其中,当所述潜在扰动的图像包括与所述多个水印位匹配的所述多个嵌入位时,所述潜在扰动的图像被确定为所述良性图像;以及当所述潜在扰动的图像不包括与所述多个水印位匹配的所述多个嵌入位时,所述潜在扰动的图像被确定为所述经不利修改的图像;以及
响应于确定所述潜在扰动的图像是所述经不利修改的图像,来阻止将所述潜在扰动的图像提供至所述深度神经网络图像分类器。
28.根据权利要求27所述的非暂态计算机可读介质,其中,所述方法是根据权利要求2至13中任一项来限定的。
29.一种用于阻止扰动图像被提供至深度神经网络图像分类器的方法,所述方法包括:
从潜在对抗性的环境中接收一潜在扰动的图像,其中,所述潜在扰动的图像旨在用于所述深度神经网络图像分类器;
识别一与所述潜在扰动的图像的原始数字图像相关联的秘密密钥;
确定与所述秘密密钥相关联的多个预期水印位;
通过对所述潜在扰动的图像是否包括与所述多个预期水印位匹配的多个嵌入位进行确定,来对所述潜在扰动的图像是经不利修改的图像还是良性图像进行确定,其中,当所述潜在扰动的图像包括与所述多个预期水印位匹配的所述多个嵌入位时,所述潜在扰动的图像被确定为所述良性图像;以及当所述潜在扰动的图像不包括与所述多个预期水印位匹配的所述多个嵌入位时,所述潜在扰动的图像被确定为所述经不利修改的图像;以及
响应于确定所述潜在扰动的图像是所述经不利修改的图像,来阻止将所述潜在扰动的图像提供至所述深度神经网络图像分类器。
30.根据权利要求29所述的方法,所述方法还包括:响应于确定所述潜在扰动的图像是所述良性图像,将所述潜在扰动的图像提供至所述深度神经网络图像分类器。
31.根据权利要求29和30中任一项所述的方法,其中,对所述潜在扰动的图像是否包括与所述多个预期水印位匹配的所述多个嵌入位进行确定包括:
基于将所述嵌入位与所述预期水印位进行比较来确定一位错误率,其中,所述位错误率表示失真的嵌入位相对于对应预期水印位的百分比;以及
当所述位错误率小于错误率阈值时,确定所述潜在扰动的图像包括与所述多个预期水印位匹配的所述多个嵌入位。
32.根据权利要求31所述的方法,其中,所述错误率阈值为至多1%。
33.根据权利要求29至32中任一项所述的方法,其中,对所述潜在扰动的图像是否包括与所述多个预期水印位匹配的所述多个嵌入位进行确定包括:
使用与所述原始数字图像相关联的所述秘密密钥,来对所述潜在扰动的图像的多个嵌入系数进行识别;
从所述多个嵌入系数中提取多个潜在加水印位;以及
对所述多个潜在加水印位是否与所述多个预期水印位相对应进行确定。
34.根据权利要求33所述的方法,其中,提取所述多个潜在加水印位包括:
对所述多个嵌入系数中的多个潜在加水印的系数进行识别;
确定一估计参考位;
对于每个潜在加水印的系数,通过以下方式从所述潜在加水印的系数中提取所述潜在加水印位:
基于所述潜在加水印的系数的一个或更多个指定位来确定一估计嵌入值;以及
使用所述估计嵌入值和所述估计参考位来对所述潜在加水印位进行确定。
35.根据权利要求34所述的方法,其中,通过以下方式对所述估计参考位进行确定:
在所述多个嵌入系数中确定一参考系数;
使用与所述原始数字图像相关联的参考开关值来确定一参考位位置;以及
将所述估计参考位确定为所述参考系数的所述参考位位置处的位值。
36.根据权利要求29至35中任一项所述的方法,其中:
接收所述潜在扰动的图像包括接收多个潜在扰动的图像块;以及
对所述潜在扰动的图像是否包括与所述多个预期水印位匹配的多个嵌入位进行确定包括:对于每个潜在扰动的图像块,对所述潜在扰动的图像块是否包括与所述原始数字图像的对应原始图像块的多个块特定预期水印位匹配的多个块特定嵌入位进行确定。
37.一种用于阻止扰动图像被提供至深度神经网络图像分类器的系统,所述系统包括:
一个或更多个处理器,所述一个或更多个处理器耦接至所述深度神经网络图像分类器;以及
非暂态存储器,所述非暂态存储器存储能够由所述一个或更多个处理器执行的指令;
其中,所述一个或更多个处理器被配置成通过所述指令执行下述操作:
从潜在对抗性的环境中接收一潜在扰动的图像,其中,所述潜在扰动的图像旨在用于所述深度神经网络图像分类器;
识别一与所述潜在扰动的图像的原始数字图像相关联的秘密密钥;
确定与所述秘密密钥相关联的多个预期水印位;
通过对所述潜在扰动的图像是否包括与所述多个预期水印位匹配的多个嵌入位进行确定,来对所述潜在扰动的图像是经不利修改的图像还是良性图像进行确定,其中,当所述潜在扰动的图像包括与所述多个预期水印位匹配的所述多个嵌入位时,所述潜在扰动的图像被确定为所述良性图像;以及当所述潜在扰动的图像不包括与所述多个预期水印位匹配的所述多个嵌入位时,所述潜在扰动的图像被确定为所述经不利修改的图像;以及
响应于确定所述潜在扰动的图像是所述经不利修改的图像,来阻止将所述潜在扰动的图像提供至所述深度神经网络图像分类器。
38.根据权利要求37所述的系统,其中,所述一个或更多个处理器被配置成:响应于确定所述潜在扰动的图像是所述良性图像,将所述潜在扰动的图像提供至所述深度神经网络图像分类器。
39.根据权利要求37和38中任一项所述的系统,其中,所述一个或更多个处理器被配置成:通过以下方式对所述潜在扰动的图像是否包括与所述多个预期水印位匹配的所述多个嵌入位进行确定:
基于将所述嵌入位与所述预期水印位进行比较来确定一位错误率,其中,所述位错误率表示失真的嵌入位相对于对应预期水印位的百分比;以及
当所述位错误率小于错误率阈值时,确定所述潜在扰动的图像包括与所述多个预期水印位匹配的所述多个嵌入位。
40.根据权利要求39所述的系统,其中,所述错误率阈值为至多1%。
41.根据权利要求37至40中任一项所述的系统,其中,所述一个或更多个处理器被配置成:通过以下方式对所述潜在扰动的图像是否包括与所述多个预期水印位匹配的所述多个嵌入位进行确定:
使用与所述原始数字图像相关联的所述秘密密钥,来对所述潜在扰动的图像的多个嵌入系数进行识别;
从所述多个嵌入系数中提取多个潜在加水印位;以及
对所述多个潜在加水印位是否与所述多个预期水印位相对应进行确定。
42.根据权利要求41所述的系统,其中,所述一个或更多个处理器被配置成:通过以下方式提取所述多个潜在加水印位:
对所述多个嵌入系数中的多个潜在加水印的系数进行识别;
确定一估计参考位;
对于每个潜在加水印的系数,通过以下方式从所述潜在加水印的系数中提取所述潜在加水印位:
基于所述潜在加水印的系数的一个或更多个指定位来确定一估计嵌入值;以及
使用所述估计嵌入值和所述估计参考位来对所述潜在加水印位进行确定。
43.根据权利要求42所述的系统,其中,所述一个或更多个处理器被配置成:通过以下方式对所述估计参考位进行确定:
在所述多个嵌入系数中确定一参考系数;
使用与所述原始数字图像相关联的参考开关值来确定一参考位位置;以及
将所述估计参考位确定为所述参考系数的所述参考位位置处的位值。
44.根据权利要求37至43中任一项所述的系统,其中,所述一个或更多个处理器被配置成:
接收所述潜在扰动的图像作为多个潜在扰动的图像块;以及
通过以下方式对所述潜在扰动的图像是否包括与所述多个预期水印位匹配的多个嵌入位进行确定:对于每个潜在扰动的图像块,对所述潜在扰动的图像块是否包括与所述原始数字图像的对应原始图像块的多个块特定预期水印位匹配的多个块特定嵌入位进行确定。
45.一种非暂态计算机可读介质,所述非暂态计算机可读介质存储计算机可执行指令,所述计算机可执行指令在由计算机处理器执行时使所述计算机处理器执行用于阻止将扰动图像提供至深度神经网络图像分类器的方法,其中,所述方法包括:
从潜在对抗性的环境中接收一潜在扰动的图像,其中,所述潜在扰动的图像旨在用于所述深度神经网络图像分类器;
识别一与所述潜在扰动的图像的原始数字图像相关联的秘密密钥;
确定与所述秘密密钥相关联的多个预期水印位;
通过对所述潜在扰动的图像是否包括与所述多个预期水印位匹配的多个嵌入位进行确定,来对所述潜在扰动的图像是经不利修改的图像还是良性图像进行确定,其中,当所述潜在扰动的图像包括与所述多个预期水印位匹配的所述多个嵌入位时,所述潜在扰动的图像被确定为所述良性图像;以及当所述潜在扰动的图像不包括与所述多个预期水印位匹配的所述多个嵌入位时,所述潜在扰动的图像被确定为所述经不利修改的图像;以及
响应于确定所述潜在扰动的图像是所述经不利修改的图像,来阻止将所述潜在扰动的图像提供至所述深度神经网络图像分类器。
46.根据权利要求45所述的非暂态计算机可读介质,其中,所述方法是根据权利要求30至36中任一项来限定的。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163175105P | 2021-04-15 | 2021-04-15 | |
US63/175,105 | 2021-04-15 | ||
PCT/CA2022/050569 WO2022217354A1 (en) | 2021-04-15 | 2022-04-13 | System and method for protecting deep image classifiers |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117355842A true CN117355842A (zh) | 2024-01-05 |
Family
ID=83639594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280028916.0A Pending CN117355842A (zh) | 2021-04-15 | 2022-04-13 | 用于保护深度图像分类器的系统和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220343026A1 (zh) |
CN (1) | CN117355842A (zh) |
WO (1) | WO2022217354A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12026621B2 (en) * | 2020-11-30 | 2024-07-02 | Robert Bosch Gmbh | Method and system for low-query black-box universal attacks |
US12056220B2 (en) * | 2022-08-23 | 2024-08-06 | Ciena Corporation | Embedding concealed meta-data into deep neural networks (DNNs) |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6064764A (en) * | 1998-03-30 | 2000-05-16 | Seiko Epson Corporation | Fragile watermarks for detecting tampering in images |
JP3977216B2 (ja) * | 2001-09-27 | 2007-09-19 | キヤノン株式会社 | 情報処理装置及び方法及び情報処理プログラム及び記憶媒体 |
JP3982686B2 (ja) * | 2002-11-21 | 2007-09-26 | 株式会社リコー | 符号生成装置、符号生成プログラム、および記憶媒体 |
US7720305B2 (en) * | 2003-12-05 | 2010-05-18 | New Jersey Institute Of Technology | System and method for robust lossless data hiding and recovering from the integer wavelet representation |
US7313250B2 (en) * | 2004-03-31 | 2007-12-25 | The United States Of America As Represented By The Secretary Of The Navy | Method and system for frequency domain watermarking using a phase based filter signature |
JP4155956B2 (ja) * | 2004-09-16 | 2008-09-24 | 三洋電機株式会社 | 電子透かし埋め込み装置と方法ならびに電子透かし抽出装置と方法 |
US8077904B2 (en) * | 2006-06-30 | 2011-12-13 | Nokia Corporation | Apparatuses, computer program products, and methods for authenticating digital signals |
US10902302B2 (en) * | 2018-04-23 | 2021-01-26 | International Business Machines Corporation | Stacked neural network framework in the internet of things |
CN110162644B (zh) * | 2018-10-10 | 2022-12-20 | 腾讯科技(深圳)有限公司 | 一种图像集建立方法、装置和存储介质 |
WO2020080873A1 (en) * | 2018-10-19 | 2020-04-23 | Samsung Electronics Co., Ltd. | Method and apparatus for streaming data |
US20210319098A1 (en) * | 2018-12-31 | 2021-10-14 | Intel Corporation | Securing systems employing artificial intelligence |
US11087463B2 (en) * | 2019-06-21 | 2021-08-10 | StraxCorp Pty. Ltd. | Image analysis method and system for assessing bone fragility |
US11763932B2 (en) * | 2019-11-14 | 2023-09-19 | International Business Machines Corporation | Classifying images using deep neural network with integrated acquisition information |
JP2022044155A (ja) * | 2020-09-07 | 2022-03-17 | 株式会社Subaru | 画像処理装置 |
WO2022097921A1 (ko) * | 2020-11-09 | 2022-05-12 | 삼성전자 주식회사 | 영상 내 관심 오브젝트 영역을 위한 ai 부호화 장치 및 방법, 및 ai 복호화 장치 및 방법 |
CN112561770A (zh) * | 2020-12-08 | 2021-03-26 | 河海大学 | 一种基于脆弱水印的对抗样本防御方法 |
JP2022092917A (ja) * | 2020-12-11 | 2022-06-23 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN113228062B (zh) * | 2021-02-25 | 2024-07-12 | 东莞理工学院 | 基于特征多样性学习的深度集成模型训练方法 |
US11763135B2 (en) * | 2021-03-01 | 2023-09-19 | Robert Bosch Gmbh | Concept-based adversarial generation method with steerable and diverse semantics |
-
2022
- 2022-04-13 CN CN202280028916.0A patent/CN117355842A/zh active Pending
- 2022-04-13 WO PCT/CA2022/050569 patent/WO2022217354A1/en active Application Filing
- 2022-04-13 US US17/719,525 patent/US20220343026A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022217354A1 (en) | 2022-10-20 |
US20220343026A1 (en) | 2022-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Monga et al. | Perceptual image hashing via feature points: performance evaluation and tradeoffs | |
CN117355842A (zh) | 用于保护深度图像分类器的系统和方法 | |
Soualmi et al. | A new blind medical image watermarking based on weber descriptors and Arnold chaotic map | |
Lei et al. | Reversible watermarking scheme for medical image based on differential evolution | |
Laishram et al. | A survey on digital image steganography: current trends and challenges | |
Kim | Data hiding by an improved exploiting modification direction | |
Aberna et al. | Digital image and video watermarking: methodologies, attacks, applications, and future directions | |
Qi et al. | A novel image hiding approach based on correlation analysis for secure multimodal biometrics | |
KR101968921B1 (ko) | 강건한 낮은 복잡도 비디오 핑거프린팅을 위한 장치 및 방법 | |
Zheng et al. | Securing IoT monitoring device using PUF and physical layer authentication | |
Embaby et al. | Digital watermarking properties, classification and techniques | |
Ponni alias Sathya et al. | Non‐redundant frame identification and keyframe selection in DWT‐PCA domain for authentication of video | |
Mehrish et al. | Joint spatial and discrete cosine transform domain-based counter forensics for adaptive contrast enhancement | |
Zeng et al. | Blind watermarking algorithm combining NSCT, DWT, SVD, and HVS | |
Sun et al. | A watermarking-based framework for protecting deep image classifiers against adversarial attacks | |
CN110930287B (zh) | 一种图像隐写检测方法、装置及计算机设备、存储介质 | |
Low et al. | Fusion of LSB and DWT biometric watermarking for offline handwritten signature | |
Hong et al. | Certified adversarial robustness via anisotropic randomized smoothing | |
Desai et al. | Survey on universal image steganalysis | |
Chadha et al. | Image steganography using Karhunen-Loève transform and least bit substitution | |
Li | Robust image hash function based on polar harmonic transforms and feature selection | |
Rashid et al. | Biometric feature embedding using robust steganography technique | |
Chalamala et al. | Local binary patterns for digital image watermarking | |
Bouarroudj et al. | Fragile watermarking for medical image authentication based on DCT technique | |
Farrugia | Reversible De-Identification for lossless image compression using Reversible Watermarking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |