CN116308978B

CN116308978B - 视频处理方法、相关装置及存储介质

Info

Publication number: CN116308978B
Application number: CN202211574620.7A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2024-01-23
Anticipated expiration: 2042-12-08
Also published as: CN116308978A

Abstract

本申请实施例涉及计算机视觉领域，提供一种视频处理方法、相关装置及存储介质，该方法包括：基于预设视频和由水印处理模型生成的候选对抗水印集合获取候选对抗视频；获取第一损失，其中，所述第一损失基于所述候选对抗视频的第一识别结果与理想结果之间的相似度得到；若所述第一损失不符合预设阈值，则获取目标损失，并基于所述目标损失更新所述水印处理模型，其中，所述目标损失基于所述第一损失和第二损失得到，所述第二损失基于候选对抗水印和目标水印的形状相似度得到；基于更新的水印处理模型获取更新的候选对抗视频，直至第一损失符合所述预设阈值，并将第一损失符合所述预设阈值时的候选对抗视频作为目标对抗视频。

Description

视频处理方法、相关装置及存储介质

技术领域

本申请实施例涉及计算机视觉领域，更具体地涉及一种视频处理方法、相关装置及存储介质。

背景技术

对抗攻击研究如何针对深度学习模型生成对抗样本，对抗样本可以输入深度学习模型，基于深度学习模型对对抗样本的识别结果可以确定模型是否安全。这有助于及时发现深度学习模型的脆弱性，评估深度学习模型的鲁棒性。一些对抗攻击方法在数字世界中生成添加较小对抗扰动的对抗图像，无法被深度学习模型正确识别或将其识别为指定的标签。

但是，基于视频数据的对抗样本研究进展缓慢。一方面，是因为用于视频识别的深度学习模型往往利用视频帧之间的关系来识别视频内容，攻击难度大。另一方面，是因为用于视频识别的深度学习模型往往应用于安全等级较高的场景中，并伴有人工智能防火墙，现有技术中直接添加的对抗扰动与原始视频的图像内容没有融为一体，容易被防火墙拦截。

因此，如何针对用于视频识别的深度学习模型获取切实有效的视频对抗样本，以便挖掘模型中的缺陷和漏洞，并进行有针对性的修复和加固，成为亟待解决的问题。

发明内容

本申请实施例提供一种视频处理方法、相关装置及存储介质,可以针对用于视频识别的深度学习模型获取切实有效的视频对抗样本，以便挖掘模型中的缺陷和漏洞，从而进行有针对性的修复和加固。

第一方面，本申请实施例提供一种视频处理方法，该方法包括：

获取候选对抗视频，其中，所述候选对抗视频基于预设视频和候选对抗水印集合得到，所述候选对抗水印集合由水印处理模型生成；

获取第一损失，其中，所述第一损失基于所述候选对抗视频的第一识别结果与理想结果之间的相似度得到；

若所述第一损失不符合预设阈值，则获取目标损失，并基于所述目标损失更新所述水印处理模型，其中，所述目标损失基于所述第一损失和第二损失得到，所述第二损失基于候选对抗水印和目标水印的形状相似度得到；

基于更新的水印处理模型获取更新的候选对抗视频，直至第一损失符合所述预设阈值，并将第一损失符合所述预设阈值时的候选对抗视频作为目标对抗视频。

第二方面，本申请实施例提供一种视频处理装置，具有实现对应于上述第一方面提供的视频处理方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

在一个实施方式中，所述视频处理装置包括：

输入输出模块，被配置为获取预设视频；

处理模块，被配置为获取候选对抗视频，其中，所述候选对抗视频基于预设视频和候选对抗水印集合得到，所述候选对抗水印集合由水印处理模型生成；

所述处理模块，还被配置为获取第一损失，其中，所述第一损失基于所述候选对抗视频的第一识别结果与理想结果之间的相似度得到；以及

所述处理模块，还被配置为基于更新的水印处理模型获取更新的候选对抗视频，直至第一损失符合所述预设阈值，并将第一损失符合所述预设阈值时的候选对抗视频作为目标对抗视频。

第三方面，本申请实施例提供一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如第一方面所述的视频处理方法。

第四方面，本申请实施例提供一种计算设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现第一方面所述的视频处理方法。

相较于现有技术，本申请实施例中，通过水印处理模型生成应用于预设视频的候选对抗水印集合，然后将候选对抗水印集合与预设视频结合得到候选对抗视频，最后基于候选对抗视频的第一识别结果确定是否得到符合要求的目标对抗视频。在候选对抗视频不符合要求时，基于其第一识别结果得到的第一损失和基于候选对抗水印与目标水印的形状相似度得到的第二损失更新水印处理模型，从而更新所述候选对抗视频。由于本申请实施例中是基于至少由整个候选对抗视频的识别结果得到的目标损失，更新水印处理模型，即用于更新水印处理模型的目标损失是基于整个视频得到的，而不是基于独立的单帧图像(即得到分别优化各个不同帧的对抗扰动的多个独立损失)，则相当于获取了候选对抗视频的帧间关系；也即各个帧的候选对抗水印是同时优化得到的，而不是现有技术中的每一帧的候选对抗扰动均是独立优化得到的。因此，本申请实施例更新的水印处理模型生成的目标对抗水印，可以在视频前后帧连贯的产生对抗攻击作用，从而不会因为视频识别模型基于帧间关系得到识别结果，而无法产生理想的对抗攻击效果。另外，由于本申请实施例中优化生成的是对抗水印(水印在视频中普遍存在，不会与视频本身的图像内容产生较大冲突或差异)，而不是现有技术中的视频中本身不存在的对抗扰动；因此，本申请实施例中生成的目标对抗水印相当于得到了伪装，更加不易被模型的安全防护策略发现或拦截，能够更好的对模型产生对抗攻击作用，以便挖掘模型中的缺陷和漏洞，从而进行有针对性的修复和加固。

附图说明

通过参考附图阅读本申请实施例的详细描述，本申请实施例的目的、特征和优点将变得易于理解。其中：

图1为本申请实施例中的一种视频处理系统示意图；

图2为本申请实施例的视频处理方法的一种流程示意图；

图3为本申请实施例的视频处理方法的一种在视频帧添加候选对抗水印的示意图；

图4为本申请实施例的视频处理方法的一种在预设视频添加候选对抗水印集合的示意图；

图5为本申请实施例的视频处理方法的一种在预设视频添加候选对抗水印集合的示意图；

图6为本申请实施例的用于执行视频处理方法的一种视频处理框架的结构示意图；

图7为本申请实施例的视频处理装置的结构示意图；

图8为本申请实施例的计算设备的一种结构示意图；

图9为本申请实施例中手机的一种结构示意图；

图10为本申请实施例中服务器的一种结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象(例如第一损失和第二损失分别表示为不同的损失，其他类似)，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请实施例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合，通信连接可以是电性或其他类似的形式，本申请实施例中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。

本申请实施例提供一种视频处理方法、相关装置及存储介质，可应用于视频处理系统，该视频处理系统可包括视频处理装置和视频识别装置，视频处理装置和视频识别装置可以集成部署，也可分离式部署。该视频处理装置至少用于获取候选对抗水印和预设视频，基于候选对抗水印和预设视频获取候选对抗视频，基于候选对抗水印和候选对抗视频获取目标损失，基于目标损失更新水印处理模型，以得到目标对抗水印。该视频识别装置用于识别输入视频，得到第一识别结果。其中，视频处理装置可为更新候选对抗水印，生成目标对抗视频的应用程序，或为安装了更新候选对抗水印，生成目标对抗视频的应用程序的服务器；视频识别装置可为识别输入视频，得到第一识别结果的视频识别程序，所述视频识别程序例如是视频识别模型或人脸安全防火墙模型，所述视频识别装置还可为部署了视频识别模型的终端设备(例如人脸安全识别平台)。

本申请实施例提供的方案涉及人工智能(Artificial Intelligence，AI)、计算机视觉技术(Computer Vision，CV)、机器学习(Machine Learning，ML)等技术，具体通过如下实施例进行说明:

其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

CV是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括对抗扰动生成、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

现有技术中基于视频数据的对抗样本研究进展缓慢。一方面，是因为用于视频识别的深度学习模型往往利用视频帧之间的关系来识别视频内容，攻击难度大。另一方面，是因为用于视频识别的深度学习模型往往应用于安全等级较高的场景中，并伴有人工智能防火墙，现有技术中直接添加的对抗扰动与原始视频的图像内容没有融为一体，所述对抗扰动不属于视频中本身包括的内容元素，容易被防火墙拦截。一些常规的对抗视频生成技术通过在视频的不同帧添加不同扰动，然后分别优化，来达到对抗目的，但是常规的扰动容易被防火墙拦截。

相比于现有技术，本申请实施例中是基于至少由整个候选对抗视频的第一识别结果得到的损失更新水印处理模型，即用于更新水印处理模型的损失是基于整个视频得到的，而不是基于独立的单帧图像分别优化各个不同帧的对抗扰动，则相当于获取了候选对抗视频的帧间关系；也即各个帧的候选对抗水印是同时优化得到的，而不是现有技术中的每一帧的候选对抗扰动均是独立优化得到的。因此，本申请实施例更新的水印处理模型可以生成在视频前后帧连贯的产生对抗攻击作用的目标对抗水印，从而不会因为视频识别模型基于帧间关系得到识别结果，而无法产生理想的对抗攻击效果。另外，由于本申请实施例中优化生成的是对抗水印(水印在视频中普遍存在，不会与视频本身的图像内容产生较大冲突或差异)，而不是现有技术中的对抗扰动；因此，本申请实施例中生成的目标对抗水印相当于得到了伪装，更加不易被模型的安全防护策略发现或拦截，能够更好的对模型产生对抗攻击作用，以便挖掘模型中的缺陷和漏洞，从而进行有针对性的修复和加固。该视频处理系统可包括视频处理装置和视频识别装置。

一些实施方式中，视频处理装置和视频识别装置分离式部署，参照图1，本申请实施例提供的视频处理方法可基于图1所示的一种视频处理系统实现。该视频处理系统可以包括服务器01和终端设备02。

该服务器01可以是视频处理装置，其中可以部署视频处理程序。

该终端设备02可以是视频识别装置，其中可以部署有视频识别模型，例如基于机器学习的方法训练得到的内容审核模型。

服务器01可以接收预设视频和理想结果，然后基于预设视频和部署于其中的水印处理模型，迭代更新出致力于实现攻击目标的候选对抗视频，然后将其向该终端设备02发送。终端设备02可以采用视频识别模型对该候选对抗视频进行处理，得到第一识别结果，然后向服务器01反馈。服务器01可以基于所述第一识别结果和理想结果确定第一损失，从而基于所述第一损失确定该候选对抗视频是否能够实现攻击目标，若能够实现攻击目标，则将其对应的候选对抗视频确定为目标对抗视频。

需要说明的是，本申请实施例涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例涉及的终端设备，可以是指向用户提供语音和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语音和/或数据。例如，个人通信业务(英文全称：Personal Communication Service，英文简称：PCS)电话、无绳电话、会话发起协议(SIP)话机、无线本地环路(Wireless Local Loop，英文简称：WLL)站、个人数字助理(英文全称：Personal Digital Assistant，英文简称：PDA)等设备。

参照图2，图2为本申请实施例提供的一种视频处理方法的流程示意图。该方法可由视频处理装置执行，可应用于深度视频识别模型的安全性测试场景，基于预设视频和水印处理模型生成目标对抗视频，所述目标对抗视频可以输入深度视频识别模型，发掘模型的缺陷，衡量模型的安全性。所述视频处理方法包括：

步骤S110，获取候选对抗视频。

在本申请实施例中，所述候选对抗视频可以基于预设视频和候选对抗水印集合得到，例如可以将候选对抗水印集合中的候选对抗水印与所述预设视频的视频帧叠加，得到所述候选对抗视频。

可以理解的是，所述候选对抗水印的作用与现有技术中迭代生成对抗样本过程中的候选对抗扰动的作用相同，其是对抗样本中发挥对抗攻击作用的主要对象。本申请实施例的关键之一在于，以水印的形式在预设视频中添加对抗扰动，即对抗水印；相比于现有技术中在视频中添加的对抗扰动，由于视频中广泛存在水印(例如视频图像角落悬浮的台标或广告等)，因此，本申请实施例中在视频中添加对抗水印后，与原始视频的视觉表征相比变化不大，在视频中不像一般的对抗扰动那么突兀，相当于进行了伪装，使得一些视频识别模型的防御策略更加不容易发现，从而不会被拦截，能够有效输入视频识别模型，更好地发挥对抗攻击作用。

可以理解的是，对抗水印的形式并不局限于上述示例中设置于视频图像的局部的台标或广告。在一些可能的设计中，参照图3，所述对抗水印还可以占据对抗视频图像的更大范围，甚至是对抗视频图像的全局。另外，所述对抗水印的外在表现形式可以与预设视频中原始存在的目标水印一致，例如目标水印为台标，则所述对抗水印则的外在表现形式与所述台标相似(例如二者之间的形状相似度大于90％)。

在本申请实施例中，所述水印处理模型生成的候选对抗水印集合可以包括预设数量的候选对抗水印，不同的候选对抗水印可以添加到所述预设视频的不同目标帧中，以形成所述候选对抗视频。

在一个可能的设计中，所述预设数量可以与所述预设视频中目标帧的帧数一致，所述目标帧可以为所述视频的视频帧；例如，所述预设视频包括10帧，则所述预设数量可以为10，即所述候选对抗水印集合可以包括由所述水印处理模型生成的10个候选对抗水印，所述10个候选对抗水印可以分别添加至所述预设视频的10帧图像中，以形成所述候选对抗视频。可以理解的是，所述候选对抗水印和所述预设视频的视频帧一一对应，即每个候选对抗水印只添加到对应的一个视频帧中；例如，参照图4，所述预设视频包括视频帧F1、视频帧F2···视频帧F10，所述候选对抗水印集合包括候选对抗水印1、候选对抗水印2···候选对抗水印10，那么所述候选对抗水印1可以添加至视频帧F1，得到候选对抗视频帧Fadv1，其他候选对抗水印和视频帧的处理方式依次类推，此处不再赘述，经过上述候选对抗水印和预设视频的视频帧之间一一对应的添加处理，即可得到所述候选对抗视频。

考虑到，有一些视频识别模型在对视频进行识别时，可能重点关注视频中的关键帧，或者仅基于关键帧的图像内容进行视频识别，得到其输出的识别结果。由此，在一个可能的设计中，所述目标帧可以为关键帧，即可以仅在所述预设视频的关键帧添加候选对抗水印，以得到所述候选对抗视频。即在本设计中，所述预设数量与所述预设视频的关键帧的帧数一致，所述候选对抗水印与所述预设视频的关键帧一一对应。例如，参照图5，所述预设视频包括视频帧F1、视频帧F2···视频帧F10，其中，视频帧F1、视频帧F5和视频帧F10这三帧为关键帧，则所述候选对抗水印集合可以包括候选对抗水印1、候选对抗水印2和候选对抗水印3，那么所述候选对抗水印1可以添加至视频帧F1，得到候选对抗视频帧Fadv1，其他候选对抗水印和关键帧的处理方式依次类推，此处不再赘述，经过上述候选对抗水印和预设视频的关键帧之间一一对应的添加处理，即可得到所述候选对抗视频。

考虑到，在当前的视频识别领域，视频识别模型的用途并不相同，例如一些视频识别模型用于识别伪造视频，一些视频识别模型用于识别异常视频。因此，在针对不同用途的视频识别模型进行对抗攻击时，对抗攻击目的并不相同；例如，在针对伪造视频识别模型进行对抗攻击时，对抗攻击的目的在于使得模型无法识别出对抗视频(基于伪造视频和对抗水印合成得到)为伪造的，即所述对抗视频被识别为真实视频；在针对异常视频识别模型进行对抗攻击时，对抗攻击的目的在于使得模型无法识别出对抗视频(基于异常视频和对抗水印合成得到)为异常的，即所述对抗视频被识别为正常视频。需要说明的是，所述异常视频可以是暴力、虚假宣传、夸大或侮辱他人等具有不良影响的视频。

步骤S120，获取第一损失。

在本申请实施例中，所述第一损失基于所述候选对抗视频的第一识别结果与理想结果之间的相似度得到。具体来说，所述候选对抗视频的第一识别结果可以表示所述候选对抗视频的分类或其他归属情况；例如，在针对伪造视频进行对抗视频生成时，所述第一识别结果可以表示所述候选对抗视频为伪造视频或真实视频；在针对异常视频进行对抗视频生成时，所述第一识别结果可以表示所述候选对抗视频为异常视频或正常视频。更进一步地，在一个可能的设计中，所述第一识别结果不仅仅可以表示所述候选对抗视频的分类，还可以表示其在相应分类下的置信度，例如一个视频的第一识别结果可以是该视频为真实视频的置信度为90％，即所述视频有90％的概率为真实视频。

在明确所述第一识别结果的含义之后，下面继续介绍所述第一损失如何获取。在本申请实施例中，实施对抗攻击时，希望模型将对抗视频识别为特定的结果，例如将基于伪造视频构造的对抗视频识别为真实视频，即此时所述理想结果为该视频为真实视频(或者置信度大于预设值，例如90％)。由此，在本申请实施例中，可以基于候选对抗视频的第一识别结果与理想结果之间的相似度获取第一损失，以便基于所述第一损失确定候选对抗视频的第一识别结果是否与理想结果相似(例如相似度大于90％)或一致。

在一个可能的设计中，所述第一损失可以基于候选对抗视频的第一识别结果与理想结果之间的交叉熵损失得到，具体来说，可以通过如下公式计算：

其中，Loss1表示所述第一损失，c表示所述候选对抗视频的第一识别结果，y表示所述理想结果，N表示该损失函数的系数。

可以理解的是，在获取所述第一损失时，可以基于任意现有的损失函数获取，例如还可以是L1损失函或MSE损失函数，本领域的技术人员可以根据实际情况自行选择。

考虑到，本申请实施例中最终生成的目标对抗视频，往往用于输入目标模型，以使所述目标模型输出错误的识别结果。为了使得所述目标对抗视频的对抗攻击效果与实际实施对抗攻击时一致，可以考虑通过与所述目标模型类似的白盒模型获取迭代过程中用于更新候选能对抗水印的第一损失；由此，在一个可能的设计中，所述第一损失可以基于预设替代模型获取，例如将所述预设替代模型基于所述候选对抗视频得到的第一识别结果与理想结果的交叉熵损失作为所述第一损失；或者也可以将所述候选对抗视频的第一识别结果的置信度作为所述第一损失。需要说明的是，在视频识别模型中，模型往往基于所述候选对抗视频的视频帧的图像内容以及视频帧间关系得到识别结果；由此，视频识别模型的对抗攻击难度更大，在不同帧独立地施加对抗扰动，更加难以对视频整体的识别结果产生影响，而本申请实施例中基于整体视频得到的识别结果的损失优化对抗水印，相当于生成对抗水印时考虑了视频的帧间关系，能够对模型基于帧间关系产生的识别过程也产生影响，从而使得对抗攻击效果更加可靠。

在本设计中，在所述预设视频为伪造视频时，所述预设替代模型包括安全防火墙模型；在所述预设视频为异常视频时，所述预设替代模型包括内容审核模型。

步骤S130，若所述第一损失不符合预设阈值，则获取目标损失，并基于所述目标损失更新所述水印处理模型。

在本申请实施例中，将基于预设视频和水印处理模型进行不断地迭代更新，直到得到符合要求的对抗视频，在迭代更新过程中，每次更新得到中间产物称之为候选对抗视频。在每次更新得到新的候选对抗视频之后，需要确定其是否符合要求，即判断基于所述候选对抗视频的第一识别结果得到的第一损失是否符合预设阈值。

在本申请实施例中，所述第一损失基于所述候选对抗视频的第一识别结果得到，若所述第一损失不符合预设阈值，则表明所述候选对抗视频的第一识别结果不符合预设要求，即其与理想结果的差异过大，无法使得模型错误识别，不能作为目标对抗视频。例如，所述预设阈值可以为10％，即所述第一损失(第一识别结果与理想结果的差异)大于10％，则认为所述候选对抗视频不符合预设要求，无法作为目标对抗视频。

可以理解的是，本申请实施例中，将基于预设视频和水印处理模型不断进行候选对抗视频的迭代更新，直到得到符合预设要求(即第一损失符合预设阈值)的目标对抗视频。在一个可能的设计中，若当前迭代轮次的候选对抗视频的第一损失不符合预设阈值，则可以基于所述第一损失更新水印处理模型，以便得到更新的候选对抗水印集合，进入下一个迭代轮次。具体来说，可以基于所述第一损失的偏导和所述水印处理模型的每一参数的偏导的比值获取梯度，然后基于所述梯度和预设步长更新对应的模型参数。例如，所述水印处理模型包括参数θ，则可以基于以下公式计算梯度：

在获取到所述梯度之后，即可根据所述梯度确定所述参数θ的更新方向，例如正方向或负方向，然后基于所述更新方向和预设步长即可更新所述参数θ；例如若梯度的符号为+，则更新方向为正方向，则基于预设步长与所述参数θ的数值相加，得到更新后的参数θ。

考虑到，对水印处理模型的更新会影响到期生成的候选对抗水印，例如可能使得候选对抗水印的形状或大小产生变化；由此，如果仅基于第一损失更新候选对抗水印，则可能导致最终生成的目标对抗水印虽然能够实现对抗攻击效果，但是却与预设视频中的原始水印相差过大，即目标对抗水平中的目标对抗水印与真实水印相差过大，无法通过一些模型的安全防护策略。因此，在本申请实施例中，若第一损失不符合预设阈值，则获取能够同时影响生成的候选对抗水印的对抗攻击效果和外在表现的目标损失，以更新水印处理模型。

具体来说，在本申请实施例中，所述目标损失基于所述第一损失和第二损失得到，所述第二损失基于候选对抗水印和目标水印的形状相似度得到；例如，所述第二损失可以通过以下公式计算：

其中，W₁表示所述候选对抗水印，W_t表示所述目标水印，||·||₂表示L2范数，即候选对抗水印与目标水印之间的欧式距离，M表示该损失函数的系数。可以理解的是，候选对抗水印和目标水印的形状相似度还可以通过其他相似度或距离计算方式获取，例如余弦相似度，切比雪夫距离或明氏距离等等，本领域的技术人员可以根据实际需要进行选择，本申请实施例对此不做限定。

在得到所述目标损失之后，基于所述目标损失更新水印处理模型的方式可以与上述的梯度优化方式相同，此处不再赘述。在一些可能的设计中，还可以基于任意现有的梯度优化器优化更新所述水印处理模型的模型参数，例如可以是梯度下降法(GradientDescent)、动量法(Momentum)、共轭梯度法(Conjugate Gradient)和自然梯度法(NaturalGradient))，本领域的技术人员可以根据实际需要进行选择，本申请实施例对此不做限定。

步骤S140，基于更新的水印处理模型获取更新的候选对抗视频，基于更新后的候选对抗视频即可进入下一轮循环(即步骤S110中获取候选对抗视频的操作)，直至第一损失符合所述预设阈值，并将第一损失符合所述预设阈值时的候选对抗视频作为目标对抗视频。

在本申请实施例中，在每个迭代轮次，所述水印处理模型更新之后，均要生成一个新的候选对抗水印集合，即针对预设视频的每一个视频帧或关键帧的候选对抗水印均得到了更新。在一个可能的设计中，所述水印处理模型可以包括多组模型参数，每组模型参数用于针对所述预设视频的一个目标帧生成一个候选对抗水印。

在本申请实施例中，所述水印处理模型的模型参数可以是所述水印处理模型的隐向量或权重，具体可以根据所述水印处理模型的实际情况确定。

在本申请实施例中，提出了一种并行优化对抗水印的方法，可以同时优化不同时刻(不同视频帧)的扰动(水印)，抵消时序对对抗性能的影响。另外，本申请实施例中将对抗扰动伪装成视频中的水印，由于水印在视频数据中是一种十分常见的元素，所以在深度伪造视频攻防场景下不容易被发现；本本申请实施例利用视频中已有的水印元素来设置对抗扰动，无需另外选择视频帧的某区域进行扰动添加，得到的对抗视频不容易被防火墙模型拦截。

可以理解的是，虽然本申请实施例以第一损失的数值是否符合预设阈值作为更循环终止条件，但是并不限于此。在其他可能的设计中，还可以是更新迭代达到预设次数，例如100次。或者，在一些可能的设计中，也可以是所述第一损失收敛，不再变化，此时停止更新，并将当前时间步长生成的候选对抗视频作为目标对抗视频。

考虑到，在一些应用场景中，可能需要针对特定的视频生成对抗视频，而不是直接采用已经生成的所述目标对抗视频进行对抗攻击。而本申请实施例中，在得到目标对抗视频的过程中，相当于完成了用于生成目标对抗水印的水印生成模型的训练。由此，为了适用更加广泛的应用场景，在一个可能的设计中，得到所述目标对抗视频之后，即可认为所述水印处理模型也已经训练完成，这种情况下，所述方法还包括：

将所述第一损失符合所述预设阈值时的水印处理模型输出；

其中，所述水印处理模型用于生成适用于目标视频的目标对抗水印集合；所述目标对抗水印集合用于结合所述目标视频，得到目标对抗视频；所述目标对抗视频用于输入目标模型，以使所述目标模型基于所述目标视频输出的第二识别结果与所述理想结果之间的相似度符合预设数值(例如70％)。

在本申请实施例中，所述目标视频即为用于生成目标对抗视频的基础，即生成的目标对抗水印集合与所述目标视频结合，得到目标对抗视频；所述目标模型即为对抗攻击的攻击目标(模型)，生成的所述目标对抗视频可以使得所述目标模型输出错误的识别结果。

由于本申请实施例中相当于已经在先完成了水印处理模型的训练，由此，在需要基于所述目标视频生成攻击所述目标模型的目标对抗视频时，可以直接基于所述水印处理模型生成目标对抗水印集合，然后将所述目标对抗水印集合与所述目标视频的每一目标帧(视频帧或关键帧)结合，得到目标对抗视频。

可以理解的是，虽然本申请实施例中训练得到的水印处理模型是一个通用的对抗水印生成模型，可能可以在大多数视频上发挥出对抗攻击效果。但是可能会在一些视频上的对抗攻击效果不够理想。由此，为了使得生成的目标对抗视频的对抗攻击性能最优，在一个可能的设计中，在基于所述训练完成的水印处理模型得到候选对抗水印之后，可以继续训练一轮或几轮(即将目标视频作为所述预设视频，继续执行一轮或几轮步骤S110-S140)，直到得到的候选对抗视频的第一识别结果符合预设条件。

在一些实际的应用场景中，不法分子或恶意分子会伪造一些人脸视频，例如伪造人脸视频通过在线应用的身份验证，从而盗取用户的财产。由此为了验证视频人脸识别模型的安全性，在本申请实施例中，可以先生成人脸伪造视频，然后基于所述人脸伪造视频生成目标对抗视频，以对模型进行安全性测试。具体来说，在一个可能的设计中，所述预设视频为人脸伪造视频，所述人脸伪造视频由所述视频伪造模型基于输入视频或音频生成；例如，可以事先获取目标用户(被攻击的用户)的一段视频或音频(音频内容例如可以是“我同意xx，保证以下内容真实，均出自本身自愿”，此音频或视频可以基于事先收集的目标用户日常对话生成，而非目标用户出于真实意图完整输出)，然后基于所述音频内容的口型对应的伪造视频，并基于所述伪造视频采用本申请实施例的步骤构造目标对抗视频，以对一些应用或程序中验证本人的视频识别模型进行安全性测试。

具体来说，在得到所述目标对抗视频之后，所述方法还包括：

将所述目标对抗视频输入人脸安全防火墙模型，得到第三识别结果。

在本申请实施例中，所述人脸安全防火墙模型在对输入的视频进行识别之前，可以包括一些安全防护策略，例如直接拦截视频中包括非正常图像的对象，所述非正常图像例如是现有技术中直接叠加的扰动。由于本申请实施例中添加的是与真实视频中包括的水印类似的对抗水印，而不是对抗扰动，因此，可以通过拦截策略，进行有效的对抗攻击，即所述第三识别结果表示所述目标对抗视频(基于人脸伪造视频构造)为真实视频的置信度大于预设值(例如80％)。

参照图6，本申请实施例中还提出一种视频处理框架，所述视频处理框架用于生成带有伪装的目标对抗水印的目标对抗视频或者训练水印处理模型，本申请实施例中的视频处理方法可以基于图6所示的视频处理框架实现。

所述视频处理框架可以包括水印处理模型、视频识别模型，所述水印处理模型可以基于自身初始化的模型参数或隐向量生成候选对抗水印，所述水印处理模型生成候选对抗水印集合之后，可以将所述候选对抗水印集合与预设视频结合，得到候选对抗视频，在得到所述候选对抗视频之后，可以将其输入视频识别模型；所述视频识别模型接收所述候选对抗视频，然后对候选对抗视频进行识别，以确定第一识别结果；所述视频处理框架将基于第一识别结果和理想结果获取第一损失，并基于候选对抗水印与目标水印之间的形状相似度获取第二损失，然后基于两个损失得到目标损失，最后基于目标损失更新水印处理模型，直到基于水印处理模型生成的候选对抗水印符合预设要求，即基于所述候选对抗水印获取的候选对抗视频的第一识别结果符合预设阈值，则将所述候选对抗视频作为目标对抗视频，以对目标模型进行对抗攻击测试。

所述视频处理框架中的水印处理模型、视频识别模型均没有具体限制，本领域的技术人员可以根据实际场景进行选择。例如，在伪造视频的对抗攻击场景中，所述视频识别模型可以是安全防火墙模型；在异常视频的对抗攻击场景中，所述视频识别模型可以是内容审核模型。本申请实施例的关键之一在于，至少以生成的候选对抗视频的整体识别结果为指导，更新水印处理模型，从而使得基于水印处理模型生成的目标对抗水印，可以在视频识别模型获取视频帧间关系确定识别结果的情况下，依然能够稳定地发挥对抗攻击性能。

本申请实施例的视频处理方法，通过水印处理模型生成应用于预设视频的候选对抗水印集合，然后将候选对抗水印集合与预设视频结合得到候选对抗视频，最后基于候选对抗视频的第一识别结果确定是否得到符合要求的目标对抗视频。在候选对抗视频不符合要求时，基于其第一识别结果得到的损失和候选对抗水印与目标水印的相似度损失更新水印处理模型，从而更新所述候选对抗视频。由于本申请实施例中是基于至少由整个候选对抗视频的识别结果得到的损失更新水印处理模型，即用于更新水印处理模型的损失是基于整个视频得到的，而不是基于独立的单帧图像分别优化各个不同帧的对抗扰动，则相当于获取了候选对抗视频的帧间关系；也即各个帧的候选对抗水印是同时优化得到的，而不是现有技术中的每一帧的候选对抗扰动均是独立优化得到的。因此，本申请实施例更新的水印处理模型可以生成在视频前后帧连贯的产生对抗攻击作用的目标对抗水印，从而不会因为视频识别模型基于帧间关系得到识别结果，而无法产生理想的对抗攻击效果。另外，由于本申请实施例中优化生成的是对抗水印(水印在视频中普遍存在，不会与视频本身的图像内容产生较大冲突或差异)，而不是现有技术中的对抗扰动；因此，本申请实施例中生成的目标对抗水印相当于得到了伪装，更加不易被模型的安全防护策略发现或拦截，能够更好的对模型产生对抗攻击作用，以便挖掘模型中的缺陷和漏洞，从而进行有针对性的修复和加固。而且，本申请实施例中的目标对抗水印是基于水印处理模型生成的，因此，在得到目标对抗水印的同时，也代表水印处理模型已经训练完成，可以生成足以发挥对抗攻击效果的对抗水印；由此，可以将所述水印处理模型输出，迁移攻击其他视频识别场景下的视频或模型，即针对其他视频或视频识别模型生成对应的目标对抗水印，而不用再进行重复的训练。即本申请实施例中相当于训练得到了通用的对抗水印生成模型，极大节省了应用于不同视频识别领域的对抗视频生成模型的训练成本。

以上对本申请实施例中一种视频处理方法进行说明，以下对执行上述视频处理方法的视频处理装置(例如服务器)进行介绍。

参阅图7，如图7所示的一种视频处理装置的结构示意图，其可应用于服务器中，用于。在本申请实施例中的视频处理装置能够实现对应于上述图2中所对应的实施例中所执行的视频处理方法的步骤。视频处理装置实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述视频处理装置可包括输入输出模块601及处理模块602，所述装置还可以包括显示模块(图5中未标识出)，所述处理模块602、所述输入输出模块601的功能实现可参考图2所对应的实施例中所执行的操作，此处不作赘述。例如，所述处理模块602可用于控制所述输入输出模块601的收发、获取等操作，以及控制所述显示模块的播放视频等操作。

所述输入输出模块601，被配置为获取预设视频；

所述处理模块602，被配置为获取候选对抗视频，其中，所述候选对抗视频基于预设视频和候选对抗水印集合得到，所述候选对抗水印集合由水印处理模型生成；

在一些实施方式中，所述预设视频包括伪造视频，所述伪造视频基于视频生成模型得到，所述理想结果为真实视频的识别概率值；或者

所述预设视频包括异常视频，所述理想结果为正常视频的识别概率值。

在一些实施方式中，所述候选对抗水印集合包括预设数量的候选对抗水印；

所述预设数量与所述预设视频中目标帧的帧数一致，所述候选对抗水印与所述目标帧一一对应；

所述目标帧为所述预设视频的关键帧或视频帧。

在一些实施方式中，所述水印处理模型包括多组模型参数，每组模型参数用于针对所述预设视频的一个目标帧生成一个候选对抗水印；

所述处理模块602还被配置为：获取所述目标损失相对每组模型参数中的每一个模型参数的梯度；以及

基于各个梯度更新与各个模型参数的数值，以得到更新的水印处理模型；

其中，所述梯度与所述模型参数一一对应。

在一些实施方式中，所述候选对抗视频的第一识别结果基于预设替代模型获取，所述预设替代模型基于所述候选对抗视频的视频帧的图像内容以及视频帧间关系得到所述第一识别结果；

在所述预设视频为伪造视频时，所述预设替代模型包括安全防火墙模型；

在所述预设视频为异常视频时，所述预设替代模型包括内容审核模型。

在一些实施方式中，所述输入输出模块601，还被配置为将所述第一损失符合所述预设阈值时的水印处理模型输出；

其中，所述水印处理模型用于生成适用于目标视频的目标对抗水印集合；所述目标对抗水印集合用于结合所述目标视频，得到目标对抗视频；所述目标对抗视频用于输入目标模型，以使所述目标模型基于所述目标视频输出的第二识别结果与所述理想结果之间的相似度符合预设数值。

在一些实施方式中，所述预设视频为人脸伪造视频，所述人脸伪造视频由所述视频伪造模型基于输入视频或音频生成；

所述输入输出模块601，还被配置为在得到所述目标对抗视频之后，将所述目标对抗视频输入人脸安全防火墙模型，得到第三识别结果；

其中所述第三识别结果表示所述目标对抗视频为真实视频的置信度大于预设值。

本申请实施例的视频处理装置，输入输出模块获取预设视频，处理模块通过水印处理模型生成应用于所述预设视频的候选对抗水印集合，然后将候选对抗水印集合与所述预设视频结合得到候选对抗视频，最后基于候选对抗视频的第一识别结果确定是否得到符合要求的目标对抗视频。在候选对抗视频不符合要求时，处理模块基于其第一识别结果得到的损失和候选对抗水印与目标水印的相似度损失更新水印处理模型，从而更新所述候选对抗视频。由于本申请实施例中的处理模块是基于至少由整个候选对抗视频的识别结果得到的损失更新水印处理模型，即用于更新水印处理模型的损失是基于整个视频得到的，而不是基于独立的单帧图像分别优化各个不同帧的对抗扰动，则相当于获取了候选对抗视频的帧间关系；也即各个帧的候选对抗水印是同时优化得到的，而不是现有技术中的每一帧的候选对抗扰动均是独立优化得到的。因此，本申请实施例更新的水印处理模型可以生成在视频前后帧连贯的产生对抗攻击作用的目标对抗水印，从而不会因为视频识别模型基于帧间关系得到识别结果，而无法产生理想的对抗攻击效果。另外，由于本申请实施例中优化生成的是对抗水印(水印在视频中普遍存在，不会与视频本身的图像内容产生较大冲突或差异)，而不是现有技术中的对抗扰动；因此，本申请实施例中生成的目标对抗水印相当于得到了伪装，更加不易被模型的安全防护策略发现或拦截，能够更好的对模型产生对抗攻击作用，以便挖掘模型中的缺陷和漏洞，从而进行有针对性的修复和加固。而且，本申请实施例中的目标对抗水印是基于水印处理模型生成的，因此，在得到目标对抗水印的同时，也代表水印处理模型已经训练完成，可以生成足以发挥对抗攻击效果的对抗水印；由此，可以将所述水印处理模型输出，迁移攻击其他视频识别场景下的视频或模型，即针对其他视频或视频识别模型生成对应的目标对抗水印，而不用再进行重复的训练。即本申请实施例中相当于训练得到了通用的对抗水印生成模型，极大节省了应用于不同视频识别领域的对抗视频生成模型的训练成本。

在介绍了本申请实施例的方法和装置之后，接下来，对本申请实施例的计算机可读存储介质进行说明，计算机可读存储介质可为光盘，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，获取候选对抗视频，其中，所述候选对抗视频基于预设视频和由水印处理模型生成的候选对抗水印集合得到；获取第一损失，其中，所述第一损失基于所述候选对抗视频的第一识别结果与理想结果之间的相似度得到；若所述第一损失不符合预设阈值，则获取目标损失，并基于所述目标损失更新所述水印处理模型，其中，所述目标损失基于所述第一损失和第二损失得到，所述第二损失基于候选对抗水印和目标水印的形状相似度得到；基于更新的水印处理模型获取更新的候选对抗视频，直至第一损失符合所述预设阈值，并将第一损失符合所述预设阈值时的候选对抗视频作为目标对抗视频。各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

上面从模块化功能实体的角度对本申请实施例中的视频处理装置60进行了描述，下面从硬件处理的角度分别对本申请实施例中的执行视频处理方法的服务器、终端设备进行描述。

需要说明的是，在本申请视频处理装置实施例的图7所示的输入输出模块601对应的实体设备可以为输入/输出单元、收发器、射频电路、通信模块和输入/输出(I/O)接口等，处理模块602对应的实体设备可以为处理器。图7所示的视频处理装置60可以具有如图8所示的结构，当图7所示的视频处理装置60具有如图8所示的结构时，图8中的处理器和收发器能够实现前述对应该装置的装置实施例提供的处理模块602和输入输出模块601相同或相似的功能，图8中的存储器存储处理器执行上述视频处理方法时需要调用的计算机程序。

本申请实施例还提供了一种终端设备，如图9所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图9示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图9，手机包括：射频(Radio Frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General PacketRadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(LiquidCrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图9中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

Wi-Fi属于短距离无线传输技术，手机通过Wi-Fi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了Wi-Fi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；可选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，可选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该手机所包括的处理器1080还具有控制执行以上视频识别装置执行的基于输入的视频获取识别结果的方法流程；或者控制执行以上由视频处理装置执行的基于输入的视频生成目标对抗视频的方法流程。

本申请实施例还提供了一种服务器，请参阅图10，图10是本申请实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(英文全称：central processing units，英文简称：CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图中未示出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows Server，Mac OS X，Unix,Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器1100的结构。例如，例如上述实施例中由图10所示的视频处理装置60所执行的步骤可以基于该图10所示的服务器结构。例如，所述中央处理器1122通过调用存储器1132中的指令，执行以下操作：

通过输入输出接口1158获取预设视频；

还可以通过输入输出接口1158将所述目标对抗视频输出，以便实施对抗攻击测试，衡量模型的安全性或挖掘所述模型的缺陷。

以及，还可以通过输入输出接口1158将得到所述目标对抗视频时的水印处理模型输出，以便针对其他视频生成对应的对抗视频，实施迁移对抗攻测试，衡量模型的安全性或挖掘所述模型的缺陷。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种视频处理方法，所述方法包括：

2.如权利要求1所述的方法，其中，所述预设视频包括伪造视频，所述伪造视频基于视频生成模型得到，所述理想结果为真实视频的识别概率值；或者

3.如权利要求1或2所述的方法，其中，所述候选对抗水印集合包括预设数量的候选对抗水印；

所述预设数量与所述预设视频中目标帧的数量一致，所述候选对抗水印与所述目标帧一一对应；

所述目标帧为所述预设视频的关键帧或视频帧。

4.如权利要求3所述的方法，其中，所述水印处理模型包括多组模型参数，每组模型参数用于针对所述预设视频的一个目标帧生成一个候选对抗水印；

所述基于所述目标损失更新所述水印处理模型，包括：

获取所述目标损失相对每组模型参数中的每一个模型参数的梯度；

基于各个梯度更新各个模型参数的数值，以得到更新的水印处理模型；

其中，所述梯度与所述模型参数一一对应。

5.如权利要求1或2所述的方法，其中，所述候选对抗视频的第一识别结果基于预设替代模型获取，所述预设替代模型基于所述候选对抗视频的视频帧的图像内容以及视频帧间关系得到所述第一识别结果；

6.如权利要求1或2所述的方法，其中，得到所述目标对抗视频之后，所述方法还包括：

将所述第一损失符合所述预设阈值时的水印处理模型输出；

7.如权利要求1或2所述的方法，其中，所述预设视频为人脸伪造视频，所述人脸伪造视频由所述视频伪造模型基于输入视频或音频生成；

在得到所述目标对抗视频之后，所述方法还包括：

将所述目标对抗视频输入人脸安全防火墙模型，得到第三识别结果；

其中，所述第三识别结果表示所述目标对抗视频为真实视频的置信度大于预设值。

8.一种视频处理装置，包括：

输入输出模块，被配置为获取预设视频；

9.如权利要求8所述的装置，其特征在于，所述预设视频包括伪造视频，所述伪造视频基于视频生成模型得到，所述理想结果为真实视频的识别概率值；或者

10.如权利要求8或9所述的装置，其特征在于，所述候选对抗水印集合包括预设数量的候选对抗水印；

所述目标帧为所述预设视频的关键帧或视频帧。

11.如权利要求10所述的装置，其特征在于，所述水印处理模型包括多组模型参数，每组模型参数用于针对所述预设视频的一个目标帧生成一个候选对抗水印；

所述处理模块还被配置为：获取所述目标损失相对每组模型参数中的每一个模型参数的梯度；以及

其中，所述梯度与所述模型参数一一对应。

12.如权利要求8或9所述的装置，其特征在于，所述候选对抗视频的第一识别结果基于预设替代模型获取，所述预设替代模型基于所述候选对抗视频的视频帧的图像内容以及视频帧间关系得到所述第一识别结果；

13.如权利要求8或9所述的装置，其特征在于，所述输入输出模块，还被配置为将所述第一损失符合所述预设阈值时的水印处理模型输出；

14.如权利要求8或9所述的装置，其特征在于，所述预设视频为人脸伪造视频，所述人脸伪造视频由所述视频伪造模型基于输入视频或音频生成；

所述输入输出模块，还被配置为在得到所述目标对抗视频之后，将所述目标对抗视频输入人脸安全防火墙模型，得到第三识别结果；

15.一种计算设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。

16.一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7中任一项所述的方法。

17.一种芯片系统，其特征在于，包括：

通信接口，用于输入和/或输出信息；

处理器，用于执行计算机可执行程序，使得安装有所述芯片系统的设备执行如权利要求1-7中任一项所述的方法。