CN113076557B

CN113076557B - 一种基于对抗攻击的多媒体隐私保护方法、装置及设备

Info

Publication number: CN113076557B
Application number: CN202110360515.2A
Authority: CN
Inventors: 王勇涛; 黄灏; 汤帜
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2022-05-20
Anticipated expiration: 2041-04-02
Also published as: CN113076557A

Abstract

本发明公布了一种基于对抗攻击的多媒体隐私保护方法、装置及设备，方法包括以下步骤：获得对多媒体样本进行侵犯的神经网络模型和原始训练数据；根据神经网络模型针对的任务类型设计出不同的损失函数，利用损失函数的值对任一原始训练数据加上首次随机扰动求梯度，得到第一次对抗扰动；循环将原始训练数据加上第一次对抗扰动后输入到所述神经网络模型中进行计算，得到输出训练数据，再次利用损失函数计算损失，将损失回传求梯度，得到本次对抗扰动；当得到对应的输出训练数据与输入原始训练数据差距变大时，保存对抗扰动结果；将对抗扰动结果作为保护水印叠加到软件端上传或硬件端生成的多媒体内容上，主动保护该多媒体内容不被恶意利用或篡改。

Description

一种基于对抗攻击的多媒体隐私保护方法、装置及设备

技术领域

本发明属于人工智能安全领域，涉及计算机视觉、对抗样本生成及深度学习技术。

背景技术

近年来各种多媒体平台不断涌现，互联网上多媒体内容的规模呈爆发式增长的状态。多媒体内容的隐私保护问题也逐渐被重视起来。目前，侵犯多媒体内容的方式主要有两种：

1、未经许可，私自检测或者识别多媒体内容。例如，某售楼部检测并识别顾客的车辆和顾客的人脸，未经许可采集顾客信息做商业使用。

2、未经许可，私自篡改多媒体内容。例如，某公司私自使用DeepFake技术在某段视频中对某公众人物与其他人物进行“换脸”，刻意损害公众人物的利益。

对于第一种方式，其主要使用了基于深度学习的检测技术和人脸识别技术。考虑到人脸识别需要基于人脸检测技术，因此我们主要考虑检测技术。近年来，随着深度神经网络技术的飞速发展，基于深度学习的检测技术和识别技术取得了重大的突破。基于深度学习的对抗物体检测技术因其网络结构的不同主要分为单阶段检测器(One-stageDetector)例如YOLO(You Only Look Once:Unified,Real-Time Object Detection)系列和两阶段检测器(Two-stage Detector)例如Faster R-CNN(Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks)。对抗物体检测技术可以快速检测出图片或视频中的物体，输出其类别和位置，该技术已广泛运用到自动驾驶、视频监控等领域。

对于第二种方式，其主要使用了基于深度学习的多媒体内容篡改技术。自从GAN(Generative Adversarial Network)被提出以来，深度学习模型可以很好的学习图片到图片的映射，很多图片篡改技术应运而生。Cycle GAN(Unpaired Image-to-ImageTranslation using Cycle-Consistent Adversarial Networks)可以对不同风格的图像进行风格迁移。基于此框架Star GAN(StarGAN:Unified Generative AdversarialNetworks for Multi-Domain Image-to-Image Translation)可以由一张原始人脸图片生成不同面部特征和表情的人脸篡改图像。GANimation(GANimation:Anatomically-awareFacial Animation from a Single Image)可以由一张原始人脸图片生成不同情绪的篡改图像，并且这些情绪的强烈程度可以被量化并在生成时被设定。基于深度学习技术对人体图像合成的技术称之为DeepFake，其在2017年时出现，因其生成的内容过于逼真，使用该技术生成的虚假色情视频、虚假新闻等篡改内容造成了很大的社会危害。政府和业界均对此技术的使用做出了限制，目前主要的限制手段是通过检测器检测出DeepFake视频，并不能主动对多媒体内容进行隐私保护。

发明内容

针对多媒体内容篡改技术带来的隐私问题和社会危害，一方面，本发明提出了一种基于对抗攻击的多媒体隐私保护方法，并提出了具体的实施方式和场景，包括以下步骤：

获得对多媒体样本进行侵犯的神经网络模型和原始训练数据；

根据所述神经网络模型针对的任务类型设计出不同的损失函数，利用损失函数的值对任一原始训练数据加上首次随机扰动求梯度，得到第一次对抗扰动；

循环将所述原始训练数据加上所述第一次对抗扰动后输入到所述神经网络模型中进行计算，得到输出训练数据，再次利用损失函数计算损失，将损失回传求梯度，得到本次对抗扰动；当得到对应的输出训练数据与输入原始训练数据差距变大时，保存对抗扰动结果；

在上述过程中，所述对抗扰动的绝对值不超过定值A，以确保其对人眼的不可见性。

将所述对抗扰动结果叠加到多媒体样本上作为保护水印。

所述获得对多媒体样本进行侵犯的神经网络模型和原始训练数据，包括：

获得对多媒体样本进行侵犯的目标检测器或DeepFake生成器；

针对上述目标检测器或DeepFake生成器，将干净多媒体样本作为原始训练数据。

若对多媒体样本进行侵犯的是目标检测器，所述循环将所述原始训练数据加上所述对抗扰动后输入到所述神经网络模型中进行计算，得到输出训练数据，再次利用损失函数计算损失，将损失回传求梯度，得到更新对抗扰动；当得到对应的输出训练数据与输入原始训练数据差距变大时，保存对抗扰动结果，包括：

A1将任意一张干净多媒体样本加上所述对抗扰动后输入到所有目标检测器中得到检测器的输出；

A2将所有检测器输出中物体框的置信度与0做均方误差，算出损失；

A3将损失分别在不同目标检测器上回传，得到在干净多媒体样本上的梯度序列，综合梯度序列得到该干净多媒体样本的扰动；

A4循环A1到A3，直到满足预先设定的终止条件，保存该对抗扰动结果。

若对多媒体样本进行侵犯的是DeepFake生成器，所述循环将所述原始训练数据加上所述对抗扰动后输入到所述神经网络模型中进行计算，得到输出训练数据，再次利用损失函数计算损失，将损失回传求梯度，得到更新对抗扰动；当得到对应的输出训练数据与输入原始训练数据差距变大时，保存对抗扰动结果，包括：

B1将任意一张干净人脸图片和该图片加上所述对抗扰动后的图片，输入到DeepFake生成器网络中，得到对抗样本生成的篡改图片和原始图片的篡改图片；

B2计算两张篡改图片的均方误差，算出损失；

B3将损失在不同的生成器上回传，得到在图片上的梯度序列，综合梯度序列得到该图片的扰动；

循环B1到B3，直到满足预先设定的终止条件，保存该对抗扰动结果。

所述循环将所述原始训练数据加上所述第一次对抗扰动后输入到所述神经网络模型中进行计算，得到输出训练数据，再次利用损失函数计算损失，将损失回传求梯度，得到本次对抗扰动，还包括：

第二次得到的对抗扰动为将第一次对抗扰动乘上系数a加上本次扰动乘上系数b得到。

对抗扰动的无穷范数不超过定值，该定值取值为4。

所述系数a范围是[0.8,1.0)，所述系数b范围是(0,0.2]。

优选地，所述系数a取值为0.99，所述b取值为0.01。

另一方面，本发明提供了一种基于对抗攻击的多媒体隐私保护装置，其特征在于，包括以下模块：

获取模块，用于获得对多媒体样本进行侵犯的神经网络模型和原始训练数据；

扰动生成模块，用于根据所述神经网络模型针对的任务类型设计出不同的损失函数，利用损失函数的值对任一原始训练数据加上首次随机扰动求梯度，得到第一次对抗扰动；

扰动保存模块，用于循环将所述原始训练数据加上所述第一次对抗扰动后输入到所述神经网络模型中进行计算，得到输出训练数据，再次利用损失函数计算损失，将损失回传求梯度，得到本次对抗扰动；当得到对应的输出训练数据与输入原始训练数据差距变大时，保存对抗扰动结果；

水印添加模块，用于将所述对抗扰动结果作为保护水印叠加到多媒体样本上。

第三方面，本发明提供了一种基于对抗攻击的多媒体隐私保护设备，其特征在于，包括多媒体内容生成装置及如上所述的多媒体隐私保护装置，所述多媒体隐私保护装置生成保护水印，并将所述保护水印叠加到所述多媒体生成装置生成的多媒体内容上。

本发明的有益效果：

通过本发明的方法，在得到对抗扰动(保护水印)之后，有软件端应用和硬件端应用两种方式将保护水印添加到需要保护的多媒体内容上。软件端可以在用户上传或保存多媒体内容时，将保护水印添加到多媒体内容上；硬件端可以在硬件设备形成多媒体内容时，将保护水印直接结合，形成带有保护水印的多媒体内容。本发明的技术方案可以主动对多媒体内容进行保护，保证用户自己上传的多媒体内容或成像设备产生的多媒体内容不被利用或篡改。

附图说明

图1是本发明保护多媒体内容的方法的流程。

图2是本发明生成通用目标检测中对抗样本的流程。

图3是本发明生产deepfake算法对抗样本的流程。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明使用了对抗攻击生成对抗样本来解决上述问题，主要涉及对抗样本领域。对抗样本于2013年被Intriguing properties of neural networks提出，其指的是将微小但刻意的扰动加在某样本上，其称之为对抗样本。这些样本输入神经网络之后，会诱导神经网络做出定向或者非定向的错误输出，其存在揭示了神经网络的脆弱性。随着研究的不断深入，对抗样本的生成方法可以分为白盒攻击和黑盒攻击。白盒攻击指的是攻击者可以获得网络结构和网络参数信息，并基于这些信息进行的攻击，例如FGSM(Explaining andHarnessing Adversarial Examples)，I-FGSM(Adversarial examples in the physicalworld)；黑盒攻击指的是攻击者不知道其所要攻击的网络结构和参数进行的攻击，例如DaST(DaST:Data-free Substitute Training for Adversarial Attacks)。虽然对抗样本的存在会给深度学习的广泛应用带来潜在威胁，但是对抗样本可以误导神经网络的性质却可以被用来保护多媒体内容不被检测、识别及篡改，保护其归属者的合法权益。

本发明力求使用对抗扰动生成保护水印以防止恶意读取多媒体内容或篡改多媒体内容，需要说明的是，本发明提出的是一种保护多媒体内容的方法，并不仅限于某个具体的任务。本发明最终会针对不同的任务生成该任务的保护水印，该水印肉眼几乎无法察觉。

本发明实施例提供一种生成保护水印的方法如下，流程在图1中亦给出：

一、获得可能对多媒体中隐私造成某种侵犯的神经网络模型、网络模型参数和一定量的原始训练数据。

在本步骤中可能侵犯多媒体的神经网络模型包括针对检测任务的检测器、能生成虚假图片的DeepFake生成器等。在本发明的方法中神经网络模型的参数，比如检测器，是在其他的数据上训练好后得到的模型的参数；比如deepfake生成器也会在某数据集上提前训练，训练好的deepfake生成器才有生成虚假图片的能力，并且会有模型参数得以保存。

二、根据神经网络模型针对的任务类型设计出不同的损失函数，设计与任务相关的损失函数得到对抗扰动(保护水印)，使神经网络模型的输出与原始干净样本(指不添加保护水印的样本)输入模型的输出差距变大，并循环输入训练数据中的样本不断重复该过程，训练对抗扰动(保护水印)。

在本步骤中与检测任务相关的损失函数是让物体的置信度最低；deepfake任务是让原图在deepfake生成器的输出和对抗样本在deepfake生成器上的输出相差最大。

需要说明的是，设计与任务相关的损失函数得到对抗扰动(保护水印)包括：

第一次对抗扰动是利用损失函数的值对任一原始训练数据加上首次随机扰动求梯度得到；将原始训练数据加上第一次对抗扰动后输入到神经网络模型中进行计算，得到输出训练数据，再次利用损失函数计算损失，将损失回传求梯度，得到本次对抗扰动；当得到对应的输出训练数据与输入原始训练数据差距变大时，保存对抗扰动结果。其中，首次随机扰动可以为随机噪音。

三、循环执行步骤二，当达到指定的训练次数(或其他终止条件)后，停止训练，保存扰动。

在上述过程中对抗扰动的绝对值不超过定值A，以确保其对人眼的不可见性。

四、使用该对抗扰动在软件端或者硬件端叠加任意同类型样本(例如：对于deepfake任务，任意同类型样本为任意含人脸的图片)即可让该侵犯隐私的形式失效(例如：对于deepfake任务，即为生成出人眼能够辨别的明显虚假的生成图片)，从而达到保护多媒体内容隐私的目的。

保护水印的具体利用方式如下所述：

该水印可以在软件端被使用，其具体的方式为在上传或存储多媒体文件时，添加保护水印到多媒体文件上，例如：上传照片到社交媒体时添加该保护水印。该水印也可在硬件端直接使用，其具体方式为在硬件生成多媒体内容时，同时将该保护水印添加到所形成的多媒体内容上，例如：监控设备成像时，直接添加该水印到所成视频中。

针对于检测任务与DeepFake生成模型，本发明给出了具体的结构来进一步解释该方法。

如图2所示，对于检测任务，干净样本输入不同的检测器(例如：YOLO v4,FasterR-CNN等)，将这些检测器预测出的物体置信度与0做均方误差损失，将损失回传到样本图片，得到梯度序列。接着，使用符号函数对这些梯度进行符号化，结合这些扰动产生对抗扰动(Universal Perturbation)，将对抗扰动加在干净样本上得到对抗样本，并将这些对抗样本重复上述操作，不断优化该对抗扰动，使之降低所有检测头预测出的物体置信度。为了保证该对抗扰动肉眼不可见，本发明限制对抗扰动的在RGB空间的绝对值大小(例如扰动的无穷范数不超过4)。经过若干轮迭代优化，对抗扰动会令所有的样本在所有的检测器上均不能有正确的输出，因此来对图片的内容进行保护，本发明称训练好的对抗扰动为该任务的保护水印。具体步骤如下：

1、准备多个检测器、已经训练好的检测器参数以及一定数量的原始训练图片；

2、将任意一张原始训练图片加上对抗扰动后(若为第一次攻击，对抗扰动为随机噪音)输入到所有检测器中得到检测器的输出。

3、将所有检测器输出中物体框的置信度与0做均方误差，算出损失。

4、将损失分别在不同检测器上回传，得到在图片上的梯度序列，综合梯度序列得到该图片的扰动，并对其做范围约束。得到本次攻击的扰动后，将之前的对抗扰动乘上系数a(通常为0.99)加上本次扰动乘上系数b(通常为0.01)得到新的对抗扰动。

5、重复2-4步，直到满足某种预先设定的终止条件或者达到攻击次数上限后，保存扰动，此扰动即为该任务的对抗扰动。

如图3所示，对于DeepFake任务，原始人脸图片输入到不同的DeepFake生成器中(对于视频，按帧取图)，不同的DeepFake生成器产生原图大小的篡改图片，对这些篡改图片，我们使用均方误差损失函数，输入原始图片的DeepFake图片和对抗样本的DeepFake图片，求出损失，最大化其与原始图片的差异。损失函数算出损失之后，在生成器上回传梯度，得到原始人脸图片上的梯度，接着，使用符号函数对这些梯度进行符号化，结合这些扰动产生对抗扰动，将对抗扰动加在原始人脸图片上得到对抗样本，并将这些对抗样本重复上述操作，使对抗扰动可以对生成器产生更大的作用，让其的输出与原图差异更大，从而可以非常明显的用肉眼看出其的篡改痕迹达到防止多媒体内容被恶意篡改的目的。具体步骤如下：

1、准备不同的DeepFake生成器网络、这些网络训练好的参数以及一定数量的原始训练图片；

2、将任意一张原始的训练图片和该图片加上对抗扰动(若为第一次攻击，对抗扰动为随机噪音)后的图片，输入到DeepFake生成器网络中，得到对抗样本生成的篡改图片和原始图片的篡改图片。

3、计算两张篡改图片的均方误差，算出损失。

4、将损失在不同的生成器上回传，得到在图片上的梯度序列，综合梯度序列得到该图片的扰动，并对其做范围约束。得到本次攻击的扰动后，将之前的对抗扰动乘上系数a(通常为0.99)加上本次扰动乘上系数b(通常为0.01)得到新的对抗扰动。

本发明实施例还提供了一种基于对抗攻击的多媒体隐私保护装置，包括以下模块：获取模块，用于获得对多媒体样本进行侵犯的神经网络模型和原始训练数据；扰动生成模块，用于根据所述神经网络模型针对的任务类型设计出不同的损失函数，利用损失函数的值对任一原始训练数据加上首次随机扰动求梯度，得到第一次对抗扰动；扰动保存模块，用于循环将所述原始训练数据加上所述第一次对抗扰动后输入到所述神经网络模型中进行计算，得到输出训练数据，再次利用损失函数计算损失，将损失回传求梯度，得到本次对抗扰动；当得到对应的输出训练数据与输入原始训练数据差距变大时，保存对抗扰动结果；水印添加模块，用于将所述对抗扰动结果作为保护水印叠加到多媒体样本上。

本发明实施例还提供一种基于对抗攻击的多媒体隐私保护设备，包括多媒体内容生成装置及如上所述的多媒体隐私保护装置，由多媒体隐私保护装置生成保护水印，并将保护水印叠加到多媒体生成装置生成的多媒体内容上。

本实施例中的多媒体隐私保护设备可以是相机或者摄像机等多媒体成像设备。

通过本发明的实施例，在得到保护水印之后，可以在软件层面将保护水印加入到对应的多媒体内容中，保护该多媒体内容不被恶意利用或篡改。需要指出的是，保护水印具有极强的泛化能力，不是仅仅针对于特定图片或者视频，对于特定任务(例如：deepfake)下的任意图片都可以进行保护。对于需求更强的场景，可以将保护水印嵌入硬件中，在成像的同时，将水印嵌入其中，从源头主动保护了多媒体内容内的隐私。

Claims

1.一种基于对抗攻击的多媒体隐私保护方法，其特征在于，包括以下步骤：

1)获得对多媒体样本进行侵犯的神经网络模型和原始训练数据；包括：

获得对多媒体样本进行侵犯的目标检测器或DeepFake生成器；

针对所述目标检测器或所述DeepFake生成器，将干净多媒体样本作为原始训练数据；

2)根据所述神经网络模型针对的任务类型设计出不同的损失函数，利用损失函数的值对任一原始训练数据加上首次随机扰动求梯度，得到第一次对抗扰动；

若对多媒体样本进行侵犯的是目标检测器，循环将所述原始训练数据加上所述对抗扰动后输入到所述神经网络模型中进行计算，得到输出训练数据，再次利用损失函数计算损失，将损失回传求梯度，得到更新对抗扰动；当得到对应的输出训练数据与输入原始训练数据差距变大时，保存对抗扰动结果，包括：

A4循环A1到A3，直到满足预先设定的终止条件，保存该对抗扰动结果；

若对多媒体样本进行侵犯的是DeepFake生成器，循环将所述原始训练数据加上所述第一次对抗扰动后输入到所述神经网络模型中进行计算，得到输出训练数据，再次利用损失函数计算损失，将损失回传求梯度，得到本次对抗扰动；当得到对应的输出训练数据与输入原始训练数据差距变大时，保存对抗扰动结果；包括：

B2计算两张篡改图片的均方误差，算出损失；

循环B1到B3，直到满足预先设定的终止条件，保存该对抗扰动结果；

3)将所述对抗扰动结果作为保护水印叠加到软件端上传或硬件端生成的多媒体内容上。

2.如权利要求1所述的方法，其特征在于，所述循环将所述原始训练数据加上所述第一次对抗扰动后输入到所述神经网络模型中进行计算，得到输出训练数据，再次利用损失函数计算损失，将损失回传求梯度，得到本次对抗扰动，还包括：第二次得到的对抗扰动为将第一次对抗扰动乘上系数a加上本次扰动乘上系数b得到。

3.如权利要求2所述的方法，其特征在于，对抗扰动的无穷范数不超过定值，该定值取值为4。

4.如权利要求2所述的方法，其特征在于，所述系数a范围是[0.8,1.0)，所述系数b范围是(0,0.2]。

5.如权利要求4所述的方法，其特征在于，所述系数a取值为0.99，所述b取值为0.01。

6.一种实现权利要求1所述的多媒体隐私保护方法的基于对抗攻击的多媒体隐私保护装置，其特征在于，包括以下模块：

7.一种基于对抗攻击的多媒体隐私保护设备，其特征在于，包括多媒体内容生成装置及如权利要求6所述的多媒体隐私保护装置，所述多媒体隐私保护装置生成保护水印，并将所述保护水印叠加到所述多媒体生成装置生成的多媒体内容上。