CN115273247A - 一种针对深度伪造的主动防御方法、系统 - Google Patents

一种针对深度伪造的主动防御方法、系统 Download PDF

Info

Publication number
CN115273247A
CN115273247A CN202210845845.5A CN202210845845A CN115273247A CN 115273247 A CN115273247 A CN 115273247A CN 202210845845 A CN202210845845 A CN 202210845845A CN 115273247 A CN115273247 A CN 115273247A
Authority
CN
China
Prior art keywords
watermark
picture
forgery
defense
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210845845.5A
Other languages
English (en)
Inventor
王勇涛
黄灏
叶晓雨
汤帜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202210845845.5A priority Critical patent/CN115273247A/zh
Publication of CN115273247A publication Critical patent/CN115273247A/zh
Priority to PCT/CN2022/144343 priority patent/WO2024016611A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • G06V40/45Detection of the body part being alive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/16Program or content traceability, e.g. by watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种针对深度伪造的主动防御方法、系统,属于人工智能安全领域。本发明生成一种模型通用的主动防御水印,将该水印嵌入包含人脸信息的媒体后可使深度伪造模型的生成扭曲,并可通过该水印检测出该媒体内容是否经历过深度伪造,彻底防止深度伪造篡改。本发明对多种深度伪造模型具有防御能力,且无需深度伪造模型结构信息,即可达到防御效果。

Description

一种针对深度伪造的主动防御方法、系统
技术领域
本发明属于人工智能安全领域,涉及计算机视觉、深度伪造、主动防御等深度学习技术。
背景技术
随着深度学习技术的不断发展,对人脸图像和视频进行修改的技术:深度伪造(Deepfake) 在互联网上爆发式流行。一般地,深度伪造技术通过属性修改或面部替换修改人脸,可以修改发色、脸型等外形特征,也可将人脸替换到其他的视频和图像上,使人物做出不符其身份的行为,或传达虚假信息。如StarGAN(StarGAN:Unified GenerativeAdversarial Networks for Multi-Domain Image-to-Image Translation)可以由一张原始人脸图片生成不同面部特征和表情的人脸篡改图像;InterfaceGAN(Interpreting theLatent Space of GANs for Semantic Face Editing) 通过隐变量编辑,可以生成拍照角度可控的人脸图像。
许多短视频平台已经开始采取措施监管和禁止换脸视频。但目前平台针对深度伪造采取的措施主要是被动检测,也即训练检测器对已经制作发布的视频进行检测,判断是否为深度伪造内容。这种检测只能被动防御和事后取证,并不能阻止深度伪造内容的生成和传播,没有办法断绝虚假内容造成的恶劣影响;且面对日新月异的深度伪造模型,需要不断训练和更新检测器,成本代价十分高昂。
发明内容
为从断绝深度伪造带来的恶劣影响,本发明提出了一种针对深度伪造的主动防御方法、系统。
本发明提供的技术方案是:
一种针对深度伪造的主动防御方法,其特征在于,其步骤包括:
1)获得主动防御水印:准备多个深度伪造模型,已经训练好的深度伪造模型参数。具体包括:
1-1)将任意一张原始的训练图片和该图片加上防御水印(若为第一次训练,将水印初始化为随机噪音),输入到深度伪造模型中,得到原始图片和加上水印图片的篡改图片。
1-2)将损失在不同的深度伪造模型上回传,得到图片上的梯度序列。
1-3)综合各图片、各模型梯度序列,对其进行上下限约束后,得到一个防御水印。
1-4)每次训练时在上一次训练得到的防御水印的基础上更新水印,具体地,本次训练得到的水印需要乘上系数α(通常为0.01)和上一次的水印乘上系数1-α得到新的防御水印。
1-5)重复直至达到训练次数上限,得到可以使多个深度伪造模型的生成扭曲的主动防御水印。
2)训练水印嵌入和检测:具体包括:
2-1)准备一定数量的人脸图片;
2-2)训练一个训练编码器-解码器。其中,编码器将上一步得到的主动防御水印嵌入到输入图像中,通过损失函数确保嵌入信息的不可见。之后,解码器读取嵌入后的图片,并将编码的水印解码出来,通过损失函数确保解码信息的准确率。当训练完成后,生成相对应的编码器和解码器权重。
3)深度伪造检测:具体包括:
3-1)准备需要保护的人脸图片(或需要保护的视频按帧切分),以及需要防御的深度伪造模型;
3-2)使用上一步得到的编码器,将主动防御水印嵌入到人脸图片后,将人脸图片输入到深度伪造模型,得到伪造后的图片;
3-3)通过上一步得到的解码器,将编码的水印从伪造后的图片中解码出来,和最初的嵌入水印作比较,当二者间的bit差异大于等于设定的阈值(通常为0.4),则认为该图片经过了深度伪造。
一种针对深度伪造的主动防御系统,其特征在于,该系统包括:
1)深度伪造模型接口模块:包括用于向深度伪造模型输入图片、并获取生成结果的函数;
2)主动防御水印生成模块:用于生成从多个深度伪造模型保护人脸的防御水印;具体地,该模块首先完成深度伪造模型接入,并调用基础水印生成算法,结合水印融合技术生成模型通用的主动防御水印。
3)主动防御水印嵌入模块:该模块训练编码器—解码器,利用编码器将主动防御水印生成模块生成的通用水印嵌入人脸图片。
4)水印防御效果评估模块:用于评估水印使深度伪造模型输出的扭曲程度;
5)深度伪造检测模块:通过主动防御水印嵌入模块提供的解码器,检测嵌入了水印的图片,以判断是否有深度伪造模型对这些图片进行了修改。
本发明的有益效果:
本发明生成一种模型通用的主动防御水印,将该水印嵌入包含人脸信息的媒体后可使深度伪造模型的生成扭曲,并可通过该水印检测出该媒体内容是否经历过深度伪造,彻底防止深度伪造篡改。本发明对多种深度伪造模型具有防御能力,且无需深度伪造模型结构信息,即可达到防御效果。
附图说明
图1为本发明主动防御水印的生成的示意图;
图2为本发明主动防御水印的嵌入及深度伪造检测的示意图。
具体实施方式
本发明设计一种针对深度伪造的主动防御系统,该系统包括深度伪造模型接口、水印生成、水印嵌入、防御效果评估以及深度伪造检测五个模块。其中:
1)深度伪造模型接口模块:包括用于向深度伪造模型输入图片、并获取生成结果的函数;
2)主动防御水印生成模块:用于生成从多个深度伪造模型保护人脸的防御水印;具体地,该模块首先完成深度伪造模型接入,并调用基础水印生成算法,结合水印融合技术生成模型通用的主动防御水印。
3)主动防御水印嵌入模块:该模块训练编码器-解码器,利用编码器将主动防御水印生成模块生成的通用水印嵌入人脸图片。
4)水印防御效果评估模块:用于评估水印使深度伪造模型输出的扭曲程度;
5)深度伪造检测模块:通过主动防御水印嵌入模块提供的解码器,检测嵌入了水印的图片,以判断是否有深度伪造模型对这些图片进行了修改。
为进一步说明本发明,下面通过实例描述其具体实施方式,但不以任何方式限制该方法的适用范围。
以大规模的人脸属性数据集CelebA(CelebFaces Attributes Dataset: http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html)以及在该数据集上训练的深度伪造模型HiSD、 Stargan、AttGAN、Attentiongan作为攻击目标,采用PGD攻击算法作为攻击基础算法来说明如何生成主动防御水印,如何进行水印嵌入,以及如何进行深度伪造检测。
准备已经封装好的Deepfake模型;读入干净的CelebA数据集,将其缩放到256×256大小并进行标准化预处理,将CelebaA数据集划分为训练集、验证集和测试集。
第一步,获得主动防御水印,如图1所示:
1)将任意一批原始的训练图片和该图片加上防御水印(若为第一次训练,将水印初始化为随机噪音),输入到深度伪造模型中,得到原始图片和加上水印图片的篡改图片。
2)将损失在不同的深度伪造模型上回传,得到输入图片上的梯度序列。其中损失为原始图片和加水印图片得到的深度伪造模型输出的损失函数:
Lossgeneration=MSE(G(I),G(I+W))
其中,I为原始图片,W为水印,G为深度伪造模型。
3)融合各图片、各模型梯度序列,对其进行上下限约束后,得到一个防御水印。具体地,综合各图片梯度序列时,对一个批的图片(8张)在一个模型上求得梯度后,将梯度进行平均得到gavg,并使用PGD算法在梯度的正方向上迭代更新10次,得到对抗扰动P:
Figure BDA0003752730300000041
Figure BDA0003752730300000042
Figure BDA0003752730300000043
融合各模型梯度序列时,在本模型上得到的对抗扰动P需要乘上系数α(通常为0.01)和之前的水印乘上1-α得到新的防御水印。
W′←(1-α)W+αP
4)重复,直至训练完128张图片,得到可以使深度伪造模型的生成扭曲的主动防御水印。
第二步,训练水印嵌入和检测:
1)使用CelebA的训练集,训练一对基于卷积神经网络编码器-解码器。其中,编码器将上一步得到的主动防御水印嵌入到输入图像中,通过损失函数约束嵌入后的图片和原图片之间足够接近,也即最小化均方误差,确保嵌入信息不可见。
Lossencoding=MSE(E(I),E(I,W))
其中,E是编码器,W是上一步得到的主动防御水印。
2)之后,解码器读取嵌入后的图片,并将编码的水印解码出来,通过损失函数约束解码结果和原始水印之间的bit误差,也即最小化带logit的BCE误差函数。
Lossdecoding=BCEwithLogitsLoss9W,D(E(I,W)))
其中,D是解码器。
3)当训练完成后,生成相对应的编码器E和解码器权重。
第三步,深度伪造检测,如图2所示:
1)选择CelebA测试集进行输入;
2)使用上一步得到的编码器,将主动防御水印嵌入到人脸图片后,将人脸图片输入到各个深度伪造模型,得到伪造后的图片;
通过上一步得到的解码器,将编码的水印从伪造后的图片中解码出来,和最初的嵌入水印作比较,当二者间的bit差异大于等于设定的阈值(0.4),则认为该图片经过了深度伪造。在CelebA全测试集上,经过深度伪造模型的编码和未经伪造的最小编码改变率为41.0%,可以被检出。
在模型结构未知的深度伪造模型攻击测试中,本发明获得了100%的深度伪造防御率。
以上通过详细实施案例描述了本发明,本领域的研究人员和技术人员可以根据上述的步骤作出形式或内容方面的非实质性的改变而不偏离本发明实质保护的范围。因此,本发明不局限于以上实施例中所公开的内容,本发明的保护范围应以权利要求所述为准。

Claims (8)

1.一种针对深度伪造的主动防御方法,其特征在于,其步骤包括:
1)获得主动防御水印;
2)训练水印嵌入和检测:具体包括:
2-1)准备一定数量的人脸图片;
2-2)训练编码器-解码器,其中,编码器将上一步得到的主动防御水印嵌入到输入图像中,通过损失函数确保嵌入信息的不可见;解码器读取嵌入后的图片,并将编码的水印解码出来,通过损失函数确保解码信息的准确率;当训练完成后,生成相对应的编码器和解码器权重;
3)深度伪造检测:具体包括:
3-1)准备需要保护的人脸图片,以及需要防御的深度伪造模型;
3-2)使用上一步得到的编码器,将主动防御水印嵌入到人脸图片后,将人脸图片输入到深度伪造模型,得到伪造后的图片;
3-3)通过上一步得到的解码器,将编码的水印从伪造后的图片中解码出来,和最初的嵌入水印作比较,当二者间的bit差异大于等于设定的阈值,则认为该图片经过了深度伪造。
2.如权利要求1所述的针对深度伪造的主动防御方法,其特征在于,步骤1)具体包括:
1-1)将任意一张原始的训练图片和该图片加上防御水印,输入到深度伪造模型中,得到原始图片和加上水印图片的篡改图片;
1-2)将损失在不同的深度伪造模型上回传,得到图片上的梯度序列;
1-3)综合各图片、各模型梯度序列,对其进行上下限约束后,得到一个防御水印。
3.如权利要求2所述的针对深度伪造的主动防御方法,其特征在于,每次训练时在上一次训练得到的防御水印的基础上更新水印,具体地,本次训练得到的水印需要乘上系数α和上一次的水印乘上系数1-α得到新的防御水印。
4.如权利要求2所述的针对深度伪造的主动防御方法,其特征在于,所述损失为原始图片和加水印图片得到的深度伪造模型输出的损失函数:
Lossgeneration=MSE(G(I),G(I+W))
其中,I为原始图片,W为水印,G为深度伪造模型。
5.如权利要求1所述的针对深度伪造的主动防御方法,其特征在于,步骤2-2)中训练一对基于卷积神经网络编码器-解码器,其中,编码器将上一步得到的主动防御水印嵌入到输入图像中,通过损失函数约束嵌入后的图片和原图片之间足够接近,也即最小化均方误差,确保嵌入信息不可见。
6.如权利要求1所述的针对深度伪造的主动防御方法,其特征在于,步骤3-3)中设定的阈值为0.4。
7.一种针对深度伪造的主动防御系统,其特征在于,该系统包括:
1)深度伪造模型接口模块:包括用于向深度伪造模型输入图片、并获取生成结果的函数;
2)主动防御水印生成模块:用于生成从多个深度伪造模型保护人脸的防御水印;
3)主动防御水印嵌入模块:该模块训练编码器-解码器,利用编码器将主动防御水印生成模块生成的通用水印嵌入人脸图片;
4)水印防御效果评估模块:用于评估水印使深度伪造模型输出的扭曲程度;
5)深度伪造检测模块:通过主动防御水印嵌入模块提供的解码器,检测嵌入了水印的图片,以判断是否有深度伪造模型对这些图片进行了修改。
8.如权利要求7所述的针对深度伪造的主动防御系统,其特征在于,所述主动防御水印生成模块,该模块首先完成深度伪造模型接入,并调用基础水印生成算法,结合水印融合技术生成模型通用的主动防御水印。
CN202210845845.5A 2022-07-19 2022-07-19 一种针对深度伪造的主动防御方法、系统 Pending CN115273247A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210845845.5A CN115273247A (zh) 2022-07-19 2022-07-19 一种针对深度伪造的主动防御方法、系统
PCT/CN2022/144343 WO2024016611A1 (zh) 2022-07-19 2022-12-30 图像处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210845845.5A CN115273247A (zh) 2022-07-19 2022-07-19 一种针对深度伪造的主动防御方法、系统

Publications (1)

Publication Number Publication Date
CN115273247A true CN115273247A (zh) 2022-11-01

Family

ID=83767960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210845845.5A Pending CN115273247A (zh) 2022-07-19 2022-07-19 一种针对深度伪造的主动防御方法、系统

Country Status (2)

Country Link
CN (1) CN115273247A (zh)
WO (1) WO2024016611A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631085A (zh) * 2022-12-19 2023-01-20 浙江君同智能科技有限责任公司 一种用于图像保护的主动防御方法及装置
WO2024016611A1 (zh) * 2022-07-19 2024-01-25 北京大学 图像处理方法、装置、电子设备及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11922532B2 (en) * 2020-01-15 2024-03-05 Digimarc Corporation System for mitigating the problem of deepfake media content using watermarking
CN111768327B (zh) * 2020-06-30 2022-07-19 苏州科达科技股份有限公司 基于深度学习的水印添加、提取方法、设备及存储介质
CN114155132A (zh) * 2021-12-06 2022-03-08 北京声智科技有限公司 图像处理的方法、装置、设备及计算机可读存储介质
CN115273247A (zh) * 2022-07-19 2022-11-01 北京大学 一种针对深度伪造的主动防御方法、系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024016611A1 (zh) * 2022-07-19 2024-01-25 北京大学 图像处理方法、装置、电子设备及计算机可读存储介质
CN115631085A (zh) * 2022-12-19 2023-01-20 浙江君同智能科技有限责任公司 一种用于图像保护的主动防御方法及装置

Also Published As

Publication number Publication date
WO2024016611A1 (zh) 2024-01-25

Similar Documents

Publication Publication Date Title
Jia et al. Mbrs: Enhancing robustness of dnn-based watermarking by mini-batch of real and simulated jpeg compression
CN115273247A (zh) 一种针对深度伪造的主动防御方法、系统
CN110276708B (zh) 一种基于gan网络的图像数字水印生成及鉴别系统及方法
Jia et al. RIHOOP: Robust invisible hyperlinks in offline and online photographs
CN111491170B (zh) 嵌入水印的方法及水印嵌入装置
CN111753595A (zh) 活体检测方法和装置、设备和存储介质
CN111028308A (zh) 一种图像中信息的隐写及读取方法
CN113076557A (zh) 一种基于对抗攻击的多媒体隐私保护方法、装置及设备
CN115168210B (zh) 一种联邦学习中在黑盒场景下基于对抗样本的鲁棒水印遗忘验证方法
Wang et al. HidingGAN: High capacity information hiding with generative adversarial network
Khoo et al. Deepfake attribution: On the source identification of artificially generated images
Ying et al. From image to imuge: Immunized image generation
Wang et al. Data hiding with deep learning: a survey unifying digital watermarking and steganography
Li et al. Robust image steganography framework based on generative adversarial network
CN108491913B (zh) 一种含密美化qr码认证的方法
Zhang et al. A blind watermarking system based on deep learning model
CN101923700A (zh) 一种双效数字水印方法
CN114078071A (zh) 图像溯源方法、装置及介质
Conotter Active and passive multimedia forensics
Lin et al. Source-ID-Tracker: Source Face Identity Protection in Face Swapping
CN104158658B (zh) 一种视频动态验证码生成方法
Liu et al. Subverting privacy-preserving gans: Hiding secrets in sanitized images
Chang et al. Cyber Vaccine for Deepfake Immunity
Kuyoro et al. GAN-Based Encoding Model for Reversible Image Steganography.
Zhong et al. Deep Learning based Image Watermarking: A Brief Survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination