CN115273247A - 一种针对深度伪造的主动防御方法、系统 - Google Patents
一种针对深度伪造的主动防御方法、系统 Download PDFInfo
- Publication number
- CN115273247A CN115273247A CN202210845845.5A CN202210845845A CN115273247A CN 115273247 A CN115273247 A CN 115273247A CN 202210845845 A CN202210845845 A CN 202210845845A CN 115273247 A CN115273247 A CN 115273247A
- Authority
- CN
- China
- Prior art keywords
- watermark
- picture
- forgery
- defense
- deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007123 defense Effects 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000000694 effects Effects 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 30
- 238000001514 detection method Methods 0.000 claims description 14
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 238000005242 forging Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000037308 hair color Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/40—Spoof detection, e.g. liveness detection
- G06V40/45—Detection of the body part being alive
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/16—Program or content traceability, e.g. by watermarking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Editing Of Facsimile Originals (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种针对深度伪造的主动防御方法、系统,属于人工智能安全领域。本发明生成一种模型通用的主动防御水印,将该水印嵌入包含人脸信息的媒体后可使深度伪造模型的生成扭曲,并可通过该水印检测出该媒体内容是否经历过深度伪造,彻底防止深度伪造篡改。本发明对多种深度伪造模型具有防御能力,且无需深度伪造模型结构信息,即可达到防御效果。
Description
技术领域
本发明属于人工智能安全领域,涉及计算机视觉、深度伪造、主动防御等深度学习技术。
背景技术
随着深度学习技术的不断发展,对人脸图像和视频进行修改的技术:深度伪造(Deepfake) 在互联网上爆发式流行。一般地,深度伪造技术通过属性修改或面部替换修改人脸,可以修改发色、脸型等外形特征,也可将人脸替换到其他的视频和图像上,使人物做出不符其身份的行为,或传达虚假信息。如StarGAN(StarGAN:Unified GenerativeAdversarial Networks for Multi-Domain Image-to-Image Translation)可以由一张原始人脸图片生成不同面部特征和表情的人脸篡改图像;InterfaceGAN(Interpreting theLatent Space of GANs for Semantic Face Editing) 通过隐变量编辑,可以生成拍照角度可控的人脸图像。
许多短视频平台已经开始采取措施监管和禁止换脸视频。但目前平台针对深度伪造采取的措施主要是被动检测,也即训练检测器对已经制作发布的视频进行检测,判断是否为深度伪造内容。这种检测只能被动防御和事后取证,并不能阻止深度伪造内容的生成和传播,没有办法断绝虚假内容造成的恶劣影响;且面对日新月异的深度伪造模型,需要不断训练和更新检测器,成本代价十分高昂。
发明内容
为从断绝深度伪造带来的恶劣影响,本发明提出了一种针对深度伪造的主动防御方法、系统。
本发明提供的技术方案是:
一种针对深度伪造的主动防御方法,其特征在于,其步骤包括:
1)获得主动防御水印:准备多个深度伪造模型,已经训练好的深度伪造模型参数。具体包括:
1-1)将任意一张原始的训练图片和该图片加上防御水印(若为第一次训练,将水印初始化为随机噪音),输入到深度伪造模型中,得到原始图片和加上水印图片的篡改图片。
1-2)将损失在不同的深度伪造模型上回传,得到图片上的梯度序列。
1-3)综合各图片、各模型梯度序列,对其进行上下限约束后,得到一个防御水印。
1-4)每次训练时在上一次训练得到的防御水印的基础上更新水印,具体地,本次训练得到的水印需要乘上系数α(通常为0.01)和上一次的水印乘上系数1-α得到新的防御水印。
1-5)重复直至达到训练次数上限,得到可以使多个深度伪造模型的生成扭曲的主动防御水印。
2)训练水印嵌入和检测:具体包括:
2-1)准备一定数量的人脸图片;
2-2)训练一个训练编码器-解码器。其中,编码器将上一步得到的主动防御水印嵌入到输入图像中,通过损失函数确保嵌入信息的不可见。之后,解码器读取嵌入后的图片,并将编码的水印解码出来,通过损失函数确保解码信息的准确率。当训练完成后,生成相对应的编码器和解码器权重。
3)深度伪造检测:具体包括:
3-1)准备需要保护的人脸图片(或需要保护的视频按帧切分),以及需要防御的深度伪造模型;
3-2)使用上一步得到的编码器,将主动防御水印嵌入到人脸图片后,将人脸图片输入到深度伪造模型,得到伪造后的图片;
3-3)通过上一步得到的解码器,将编码的水印从伪造后的图片中解码出来,和最初的嵌入水印作比较,当二者间的bit差异大于等于设定的阈值(通常为0.4),则认为该图片经过了深度伪造。
一种针对深度伪造的主动防御系统,其特征在于,该系统包括:
1)深度伪造模型接口模块:包括用于向深度伪造模型输入图片、并获取生成结果的函数;
2)主动防御水印生成模块:用于生成从多个深度伪造模型保护人脸的防御水印;具体地,该模块首先完成深度伪造模型接入,并调用基础水印生成算法,结合水印融合技术生成模型通用的主动防御水印。
3)主动防御水印嵌入模块:该模块训练编码器—解码器,利用编码器将主动防御水印生成模块生成的通用水印嵌入人脸图片。
4)水印防御效果评估模块:用于评估水印使深度伪造模型输出的扭曲程度;
5)深度伪造检测模块:通过主动防御水印嵌入模块提供的解码器,检测嵌入了水印的图片,以判断是否有深度伪造模型对这些图片进行了修改。
本发明的有益效果:
本发明生成一种模型通用的主动防御水印,将该水印嵌入包含人脸信息的媒体后可使深度伪造模型的生成扭曲,并可通过该水印检测出该媒体内容是否经历过深度伪造,彻底防止深度伪造篡改。本发明对多种深度伪造模型具有防御能力,且无需深度伪造模型结构信息,即可达到防御效果。
附图说明
图1为本发明主动防御水印的生成的示意图;
图2为本发明主动防御水印的嵌入及深度伪造检测的示意图。
具体实施方式
本发明设计一种针对深度伪造的主动防御系统,该系统包括深度伪造模型接口、水印生成、水印嵌入、防御效果评估以及深度伪造检测五个模块。其中:
1)深度伪造模型接口模块:包括用于向深度伪造模型输入图片、并获取生成结果的函数;
2)主动防御水印生成模块:用于生成从多个深度伪造模型保护人脸的防御水印;具体地,该模块首先完成深度伪造模型接入,并调用基础水印生成算法,结合水印融合技术生成模型通用的主动防御水印。
3)主动防御水印嵌入模块:该模块训练编码器-解码器,利用编码器将主动防御水印生成模块生成的通用水印嵌入人脸图片。
4)水印防御效果评估模块:用于评估水印使深度伪造模型输出的扭曲程度;
5)深度伪造检测模块:通过主动防御水印嵌入模块提供的解码器,检测嵌入了水印的图片,以判断是否有深度伪造模型对这些图片进行了修改。
为进一步说明本发明,下面通过实例描述其具体实施方式,但不以任何方式限制该方法的适用范围。
以大规模的人脸属性数据集CelebA(CelebFaces Attributes Dataset: http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html)以及在该数据集上训练的深度伪造模型HiSD、 Stargan、AttGAN、Attentiongan作为攻击目标,采用PGD攻击算法作为攻击基础算法来说明如何生成主动防御水印,如何进行水印嵌入,以及如何进行深度伪造检测。
准备已经封装好的Deepfake模型;读入干净的CelebA数据集,将其缩放到256×256大小并进行标准化预处理,将CelebaA数据集划分为训练集、验证集和测试集。
第一步,获得主动防御水印,如图1所示:
1)将任意一批原始的训练图片和该图片加上防御水印(若为第一次训练,将水印初始化为随机噪音),输入到深度伪造模型中,得到原始图片和加上水印图片的篡改图片。
2)将损失在不同的深度伪造模型上回传,得到输入图片上的梯度序列。其中损失为原始图片和加水印图片得到的深度伪造模型输出的损失函数:
Lossgeneration=MSE(G(I),G(I+W))
其中,I为原始图片,W为水印,G为深度伪造模型。
3)融合各图片、各模型梯度序列,对其进行上下限约束后,得到一个防御水印。具体地,综合各图片梯度序列时,对一个批的图片(8张)在一个模型上求得梯度后,将梯度进行平均得到gavg,并使用PGD算法在梯度的正方向上迭代更新10次,得到对抗扰动P:
融合各模型梯度序列时,在本模型上得到的对抗扰动P需要乘上系数α(通常为0.01)和之前的水印乘上1-α得到新的防御水印。
W′←(1-α)W+αP
4)重复,直至训练完128张图片,得到可以使深度伪造模型的生成扭曲的主动防御水印。
第二步,训练水印嵌入和检测:
1)使用CelebA的训练集,训练一对基于卷积神经网络编码器-解码器。其中,编码器将上一步得到的主动防御水印嵌入到输入图像中,通过损失函数约束嵌入后的图片和原图片之间足够接近,也即最小化均方误差,确保嵌入信息不可见。
Lossencoding=MSE(E(I),E(I,W))
其中,E是编码器,W是上一步得到的主动防御水印。
2)之后,解码器读取嵌入后的图片,并将编码的水印解码出来,通过损失函数约束解码结果和原始水印之间的bit误差,也即最小化带logit的BCE误差函数。
Lossdecoding=BCEwithLogitsLoss9W,D(E(I,W)))
其中,D是解码器。
3)当训练完成后,生成相对应的编码器E和解码器权重。
第三步,深度伪造检测,如图2所示:
1)选择CelebA测试集进行输入;
2)使用上一步得到的编码器,将主动防御水印嵌入到人脸图片后,将人脸图片输入到各个深度伪造模型,得到伪造后的图片;
通过上一步得到的解码器,将编码的水印从伪造后的图片中解码出来,和最初的嵌入水印作比较,当二者间的bit差异大于等于设定的阈值(0.4),则认为该图片经过了深度伪造。在CelebA全测试集上,经过深度伪造模型的编码和未经伪造的最小编码改变率为41.0%,可以被检出。
在模型结构未知的深度伪造模型攻击测试中,本发明获得了100%的深度伪造防御率。
以上通过详细实施案例描述了本发明,本领域的研究人员和技术人员可以根据上述的步骤作出形式或内容方面的非实质性的改变而不偏离本发明实质保护的范围。因此,本发明不局限于以上实施例中所公开的内容,本发明的保护范围应以权利要求所述为准。
Claims (8)
1.一种针对深度伪造的主动防御方法,其特征在于,其步骤包括:
1)获得主动防御水印;
2)训练水印嵌入和检测:具体包括:
2-1)准备一定数量的人脸图片;
2-2)训练编码器-解码器,其中,编码器将上一步得到的主动防御水印嵌入到输入图像中,通过损失函数确保嵌入信息的不可见;解码器读取嵌入后的图片,并将编码的水印解码出来,通过损失函数确保解码信息的准确率;当训练完成后,生成相对应的编码器和解码器权重;
3)深度伪造检测:具体包括:
3-1)准备需要保护的人脸图片,以及需要防御的深度伪造模型;
3-2)使用上一步得到的编码器,将主动防御水印嵌入到人脸图片后,将人脸图片输入到深度伪造模型,得到伪造后的图片;
3-3)通过上一步得到的解码器,将编码的水印从伪造后的图片中解码出来,和最初的嵌入水印作比较,当二者间的bit差异大于等于设定的阈值,则认为该图片经过了深度伪造。
2.如权利要求1所述的针对深度伪造的主动防御方法,其特征在于,步骤1)具体包括:
1-1)将任意一张原始的训练图片和该图片加上防御水印,输入到深度伪造模型中,得到原始图片和加上水印图片的篡改图片;
1-2)将损失在不同的深度伪造模型上回传,得到图片上的梯度序列;
1-3)综合各图片、各模型梯度序列,对其进行上下限约束后,得到一个防御水印。
3.如权利要求2所述的针对深度伪造的主动防御方法,其特征在于,每次训练时在上一次训练得到的防御水印的基础上更新水印,具体地,本次训练得到的水印需要乘上系数α和上一次的水印乘上系数1-α得到新的防御水印。
4.如权利要求2所述的针对深度伪造的主动防御方法,其特征在于,所述损失为原始图片和加水印图片得到的深度伪造模型输出的损失函数:
Lossgeneration=MSE(G(I),G(I+W))
其中,I为原始图片,W为水印,G为深度伪造模型。
5.如权利要求1所述的针对深度伪造的主动防御方法,其特征在于,步骤2-2)中训练一对基于卷积神经网络编码器-解码器,其中,编码器将上一步得到的主动防御水印嵌入到输入图像中,通过损失函数约束嵌入后的图片和原图片之间足够接近,也即最小化均方误差,确保嵌入信息不可见。
6.如权利要求1所述的针对深度伪造的主动防御方法,其特征在于,步骤3-3)中设定的阈值为0.4。
7.一种针对深度伪造的主动防御系统,其特征在于,该系统包括:
1)深度伪造模型接口模块:包括用于向深度伪造模型输入图片、并获取生成结果的函数;
2)主动防御水印生成模块:用于生成从多个深度伪造模型保护人脸的防御水印;
3)主动防御水印嵌入模块:该模块训练编码器-解码器,利用编码器将主动防御水印生成模块生成的通用水印嵌入人脸图片;
4)水印防御效果评估模块:用于评估水印使深度伪造模型输出的扭曲程度;
5)深度伪造检测模块:通过主动防御水印嵌入模块提供的解码器,检测嵌入了水印的图片,以判断是否有深度伪造模型对这些图片进行了修改。
8.如权利要求7所述的针对深度伪造的主动防御系统,其特征在于,所述主动防御水印生成模块,该模块首先完成深度伪造模型接入,并调用基础水印生成算法,结合水印融合技术生成模型通用的主动防御水印。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210845845.5A CN115273247A (zh) | 2022-07-19 | 2022-07-19 | 一种针对深度伪造的主动防御方法、系统 |
PCT/CN2022/144343 WO2024016611A1 (zh) | 2022-07-19 | 2022-12-30 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210845845.5A CN115273247A (zh) | 2022-07-19 | 2022-07-19 | 一种针对深度伪造的主动防御方法、系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115273247A true CN115273247A (zh) | 2022-11-01 |
Family
ID=83767960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210845845.5A Pending CN115273247A (zh) | 2022-07-19 | 2022-07-19 | 一种针对深度伪造的主动防御方法、系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115273247A (zh) |
WO (1) | WO2024016611A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631085A (zh) * | 2022-12-19 | 2023-01-20 | 浙江君同智能科技有限责任公司 | 一种用于图像保护的主动防御方法及装置 |
WO2024016611A1 (zh) * | 2022-07-19 | 2024-01-25 | 北京大学 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11922532B2 (en) * | 2020-01-15 | 2024-03-05 | Digimarc Corporation | System for mitigating the problem of deepfake media content using watermarking |
CN111768327B (zh) * | 2020-06-30 | 2022-07-19 | 苏州科达科技股份有限公司 | 基于深度学习的水印添加、提取方法、设备及存储介质 |
CN114155132A (zh) * | 2021-12-06 | 2022-03-08 | 北京声智科技有限公司 | 图像处理的方法、装置、设备及计算机可读存储介质 |
CN115273247A (zh) * | 2022-07-19 | 2022-11-01 | 北京大学 | 一种针对深度伪造的主动防御方法、系统 |
-
2022
- 2022-07-19 CN CN202210845845.5A patent/CN115273247A/zh active Pending
- 2022-12-30 WO PCT/CN2022/144343 patent/WO2024016611A1/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024016611A1 (zh) * | 2022-07-19 | 2024-01-25 | 北京大学 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN115631085A (zh) * | 2022-12-19 | 2023-01-20 | 浙江君同智能科技有限责任公司 | 一种用于图像保护的主动防御方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2024016611A1 (zh) | 2024-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jia et al. | Mbrs: Enhancing robustness of dnn-based watermarking by mini-batch of real and simulated jpeg compression | |
CN115273247A (zh) | 一种针对深度伪造的主动防御方法、系统 | |
CN110276708B (zh) | 一种基于gan网络的图像数字水印生成及鉴别系统及方法 | |
Jia et al. | RIHOOP: Robust invisible hyperlinks in offline and online photographs | |
CN111491170B (zh) | 嵌入水印的方法及水印嵌入装置 | |
CN111753595A (zh) | 活体检测方法和装置、设备和存储介质 | |
CN111028308A (zh) | 一种图像中信息的隐写及读取方法 | |
CN113076557A (zh) | 一种基于对抗攻击的多媒体隐私保护方法、装置及设备 | |
CN115168210B (zh) | 一种联邦学习中在黑盒场景下基于对抗样本的鲁棒水印遗忘验证方法 | |
Wang et al. | HidingGAN: High capacity information hiding with generative adversarial network | |
Khoo et al. | Deepfake attribution: On the source identification of artificially generated images | |
Ying et al. | From image to imuge: Immunized image generation | |
Wang et al. | Data hiding with deep learning: a survey unifying digital watermarking and steganography | |
Li et al. | Robust image steganography framework based on generative adversarial network | |
CN108491913B (zh) | 一种含密美化qr码认证的方法 | |
Zhang et al. | A blind watermarking system based on deep learning model | |
CN101923700A (zh) | 一种双效数字水印方法 | |
CN114078071A (zh) | 图像溯源方法、装置及介质 | |
Conotter | Active and passive multimedia forensics | |
Lin et al. | Source-ID-Tracker: Source Face Identity Protection in Face Swapping | |
CN104158658B (zh) | 一种视频动态验证码生成方法 | |
Liu et al. | Subverting privacy-preserving gans: Hiding secrets in sanitized images | |
Chang et al. | Cyber Vaccine for Deepfake Immunity | |
Kuyoro et al. | GAN-Based Encoding Model for Reversible Image Steganography. | |
Zhong et al. | Deep Learning based Image Watermarking: A Brief Survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |