CN115909172A - 深度伪造视频检测分割识别系统、终端及存储介质 - Google Patents
深度伪造视频检测分割识别系统、终端及存储介质 Download PDFInfo
- Publication number
- CN115909172A CN115909172A CN202211639132.XA CN202211639132A CN115909172A CN 115909172 A CN115909172 A CN 115909172A CN 202211639132 A CN202211639132 A CN 202211639132A CN 115909172 A CN115909172 A CN 115909172A
- Authority
- CN
- China
- Prior art keywords
- module
- video
- feature
- region
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 230000011218 segmentation Effects 0.000 title description 4
- 238000012549 training Methods 0.000 claims abstract description 31
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 230000008030 elimination Effects 0.000 claims abstract description 15
- 238000003379 elimination reaction Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000007906 compression Methods 0.000 claims abstract description 6
- 230000006835 compression Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 5
- 239000002131 composite material Substances 0.000 abstract description 4
- 238000013527 convolutional neural network Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 10
- 108091006146 Channels Proteins 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 210000000697 sensory organ Anatomy 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000010146 3D printing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉领域,具体公开了一种深度伪造视频检测系统、终端及存储介质,包括数据预处理模块、特征提取模块、重要区域定位模块、局部随机消除模块、多尺度特征融合模块及分类器模块,重要区域定位模块能够根据CNN提取出的特征图,动态地从原始训练样本中提取并选择最具判别意义的区域,局部区域消除模块利用定位出的若干重要区域,对随机消除的策略做出指导和改进。多尺度特征融合模块将卷积神经网络提取出的特征分化为不同尺度,并组成新特征图的不同通道。本发明提出一种动态复合特征增强的深度伪造视频检测算法,提高了模型在遇到不同压缩率的数据集或者陌生数据集时的泛化能力。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种深度伪造视频检测分割识别系统、终端及存储介质。
背景技术
随着深度学习算法的发展和各种硬件计算能力的提高,以生成对抗网络为代表的一系列生成模型如雨后春笋般出现在人们面前。这项技术逐渐被应用到了生活中的很多领域,例如图像风格迁移、图像高分辨率重建、图片修复、3D打印。
然而,近些年来,这项技术出现了被滥用的趋势,深度伪造技术便是其中一项很有争议的应用。“深度伪造”一词翻译自英文单词“deepfake”,这个单词由“deep learning”和“fake”两个单词组合而成,意指由深度学习模型生成的虚假图像或者视频。一些提供换脸视频生成功能软件降低了使用这项技术的门槛,这意味着任何人都能够以极低的成本将一段视频中的人物换成其他指定对象。这些软件的出现引发了人们对这项技术的担心和科研界的关注。在此之后,深度伪造视频生成技术和深度伪造视频检测技术都在不断发展着,两项技术呈现出一种博弈的状态,前者旨在生成视频质量更佳且更加真实的视频,而后者旨在准确分辨出一段视频是由真实的物理设备录制而成的还是由算法生成的。
深度伪造视频检测的一大难点在于——一个在A数据集上训练得到的模型,在B数据集上的准确率明显下降。这主要是因为在由不同生成算法得到的视频中,伪影存在的区域和尺寸均有着较大差异。此外,即使使用与训练集相同的数据集进行测试,如果测试集中的视频经过一定程度的压缩,模型的性能同样会出现较大幅度的下降。这主要是因为视频在经过压缩时一部分信息发生了丢失,而这会直接导致伪造视频中的伪影区域的尺度发生变化,从而使得检测模型更难捕捉到这部分特征。此外,经过压缩的真实视频有可能会出现一些不清晰或者不连续的局部区域,这些在视频处理过程中产生的脏信息可能会使得检测模型误将真实视频鉴别为深度伪造视频。
发明内容
针对现有的深度伪造视频检测技术泛化性能较低的问题,本发明提出了一种深度伪造视频检测分割识别系统、终端及存储介质,通过学习多种尺度的特征,提升模型在跨压缩率或跨数据集测试时的准确率。
本发明采用的技术方案如下:
一种深度伪造视频检测系统,包括:
数据预处理模块,用于从视频中提取人脸区域,其输入为视频文件,输出为多张经过增强的包含人脸区域的图像,增强策略为加入高斯噪声与实际场景中不同视频质量压缩变化的模拟。
特征提取模块,用于从人脸的全局或局部区域中提取特征。输入为完整的人脸图像或者局部区域,输出为尺寸为14×14的特征图。
重要区域定位模块,用于在训练的过程中从样本中提取最具判别意义的区域,即定位出最重要的若干区域,包含非最大值抑制(NMS)筛选层。深度伪造视频中的伪影大多分布在人脸的五官周围,眼睛周围的伪影大小受到眼睛尺寸的限制,而鼻子、下巴作为人脸中比较立体的区域,容易产生较大尺寸的伪影。定位过程中选用不同大小的滑动窗口,根据实际场景中深度伪造视频中伪影的分布和尺度特性进行模拟。其输入为人脸图像经过特征提取模块提取出的14×14的特征图,输出为提取出的多个区域的顶点坐标和特征图,定位过程中选用不同大小的滑动窗口,对实际场景中深度伪造视频中伪影的分布和尺度特性进行模拟。
局部随机消除模块,用于在训练的过程中在“重要区域定位模块”的指导下,对训练样本的局部区域进行遮挡,本质为一种数据增强的手段。其输入为原始的训练样本和“重要区域定位模块”输出的多个区域的顶点坐标,输出为经过局部消除的新训练样本。
多尺度特征融合模块,用于融合不同尺度的特征,包含多个“池化-卷积-上采样”形式的子结构,将人脸图像中多种尺度的特征提取并融合至新特征图中,实际场景中伪造视频包含细小的伪影区域,多尺度特征融合模块通过利用各尺度的伪影区域的特征图,可防止这些特征消失在全局平均池化的过程中。输入为“重要区域定位模块”输出的特征图,输出为经过融合的新特征图。
分类器模块,用于给出样本的分类结果,由全局平均池化层、全连接层、激活函数组成。输入为“多尺度特征融合模块”输出的特征图,输出为最终的分类结果。
当深度伪造视频检测系统处于训练模式时,输入为经过增强的包含人脸区域的图像,输出为该图像的真伪两种类别经过归一化的概率、每个局部区域图像属于真伪两种类别的经过归一化的概率。
当深度伪造视频检测系统处于推理模式时,输入为原始的包含人脸区域的图像,输出为该图像属于真伪两种类别的经过归一化的概率。
进一步地,所述数据预处理模块的处理过程包括:从视频文件中等间隔地提取N帧,并使用经过训练的MTCNN提取每一帧中的人脸区域,最终保存的图像经过人脸对齐,其中N根据所需的数据量确定。
本发明属于一种基于帧内图像的深度伪造视频检测技术,因此在训练和推理时均需要从视频中提取若干独立的帧。为了减少视频中背景信息的干扰,本发明使用MTCNN提取每张帧中的人脸区域。考虑到实际情境中获取到的视频文件的分辨率和视频质量往往有所差异,在数据预处理模块中,随机对人脸区域进行低分辨率模拟和加噪,具体操作为:低分辨率模拟时将原始样本降采样然后放大至原始大小;加噪处理时加入均值为0的高斯噪声。
进一步地,所述特征提取模块使用修改后的ResNet-50作为特征提取网络,与原始ResNet-50网络结构相比,ResBlock_4层中卷积核的步长调整为1,该层最终输出的特征图的大小为14×14。
进一步地,所述重要区域定位模块的处理过程包括:设一幅图像经过ResNet-50提取出的特征图为F∈RC×H×W,其中C,H,W分别代表特征图的通道数、高度和宽度。如下方公式表示,通过对F的每个通道进行累加,可以得到其对应的激活图A,其中fi代表特征图F在第i个通道的分量,如下方公式表示:
对于激活图中一块指定区域r,该区域的激活程度可以用如下公式计算得到,该区域的左上角的坐标为(x0,y0),右下角的坐标为(x1,y1)。
所述重要区域定位模块,考虑到人脸中眼睛、鼻子、嘴巴占整体面部区域的大小,本发明使用最小3×3,最大7×10的多种尺度的滑动窗口。
进一步地,所述局部随机消除模块的处理过程包括:本发明从14×14的特征图中选择多个尺寸的窗口,其中较小的窗口(例如3×3)可以覆盖一个完整的五官,而较大的窗口(例如7×10)可以覆盖半张脸。本发明从得到的K个关键区域中随机选择一块,当选出的区域面积小于原图的1/3时,消除这块区域对应的像素值,而当选择出的区域大于原图的1/3时,只消除这块区域中随机一半区域的像素值。
进一步地,所述多尺度特征融合模块的处理过程包括:首先,利用多个池化层得到多个对应尺度的特征图。然后使用1×1的卷积核对池化后的特征图进行降维。接着,将每个尺度的小特征图上采样至与原特征图相同尺寸,并与原特征图拼接成新特征图的不同通道,实际场景中伪造视频包含细小的伪影区域,多尺度特征融合模块可防止其消失在全局平均池化的过程中。本发明使用两个窗口大小分别为3和6的池化层。
进一步地,所述特征提取模块、多尺度特征融合模块均使用SGD优化器来进行网络训练的优化。
本发明还提供了一种终端设备,所述终端设备包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现所述动态复合特征增强的深度伪造视频检测系统。
本发明还提供了一种计算机可读存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现所述动态复合特征增强的深度伪造视频检测系统。
与现有技术相比,本发明所具有的有益效果包括:
本发明提出重要区域定位模块能够根据CNN提取出的特征图,动态地从原始训练样本中提取并选择最具判别意义的区域。并特别针对这些区域,更新模型参数,从而学习到不同区域的伪影特征。在训练和推理时,均不需要手动提取人脸的关键区域,即不需要其他辅助模型对人脸区域进行分割。
本发明提出的局部区域消除模块利用定位出的若干重要区域,对随机消除的策略做出指导和改进,从而在提升模型的泛化性能的同时,减少噪声信息的引入,防止模型收敛速度受到影响。
本发明利用多尺度特征融合模块,将卷积神经网络提取出的特征分化为不同尺度,并组成新特征图的不同通道,从而防止部分细微的细节在池化的过程中被丢弃。使得模型能够学习到不同尺度的伪影特征,从而在遇到不同分辨率、压缩率的测试样本时,保证较高的准确率。
综合而言,针对深度伪造视频检测算法泛化性能不足的问题,本发明提出一种动态复合特征增强的深度伪造视频检测算法,通过引入多尺度特征融合模块、重要区域定位模块、局部随机消除模块,提高了模型在遇到不同压缩率的数据集或者陌生数据集时的泛化能力。
附图说明
图1是本发明在训练和测试阶段的数据流向示意图;
图2是本发明提出的方法在预处理阶段的操作示意图;
图3是本发明在特征提取阶段使用的修改后的ResNet-50的网络中每一层的参数和输出大小;
图4是本发明在训练阶段的流程图;
图5是本发明在测试阶段的流程图;
图6是本发明在训练阶段根据特征图选择局部重点区域的原理示意图;
图7是本发明在训练阶段根据选择出的局部重点区域,随机选取被遮挡的区域的原理示意图;
图8是本发明在训练阶段使用的多尺度特征融合模块的网络结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步详细地说明。
本发明的实施例及其实施过程如下:
请参阅图1-图8,一种深度伪造视频检测系统,包括数据预处理模块、特征提取模块、重要区域定位模块、局部随机消除模块、多尺度特征融合模块及分类器模块。
数据预处理模块用于从视频中提取人脸区域,如图2所示。本发明属于一种基于帧内图像的深度伪造视频检测技术,因此在训练和推理时均需要从视频中提取若干独立的帧。为了减少视频中背景信息的干扰,本发明使用MTCNN提取每张帧中的人脸区域。得到人脸区域后使用“随机水平翻转”和“随机角度旋转”两种数据增强技术。输入为视频文件,输出为多张经过增强的包含人脸区域的图像。其中,使用“随机水平翻转”增强操作的概率为50%,使用“随机角度旋转”的概率为50%,旋转的角度为[-10°,10°]中的随机值。
特征提取模块用于从人脸的全局或局部区域中提取特征。输入为完整的人脸图像或者人脸图像的局部区域,输出为尺寸为14×14的特征图。
重要区域定位模块用于在训练的过程中从样本中提取最具判别意义的区域,即定位出最重要的若干区域,包含非最大值抑制(NMS)筛选层。输入为人脸图像经过特征提取模块提取出的14×14的特征图,输出为提取出的多个区域的顶点坐标和特征图。
局部随机消除模块用于在训练的过程中在“重要区域定位模块”的指导下,对训练样本的局部区域进行遮挡。输入为原始的训练样本和“重要区域定位模块”输出的多个区域的顶点坐标,输出为经过局部消除的新训练样本。
多尺度特征融合模块用于融合不同尺度的特征,包含多个“池化-卷积-上采样”形式的子结构。输入为“重要区域定位模块”输出的特征图,输出为经过融合的新特征图。
分类器模块用于给出样本的分类结果,由一个全局平均池化层、一个全连接层、一个Sigmoid激活函数组成。输入为“多尺度特征融合模块”输出的特征图,输出为最终的分类结果。
当深度伪造视频检测系统处于训练模式时,输入为经过增强的包含人脸区域的图像,输出为该图像的真伪两种类别经过归一化的概率、每个局部区域图像属于真伪两种类别的经过归一化的概率。
当深度伪造视频检测系统处于推理模式时,输入为原始的包含人脸区域的图像,输出为该图像属于真伪两种类别的经过归一化的概率。
本实施例中,特征提取网络使用修改后的ResNet-50作为特征提取模块的主干网络,其结构如图3表示。相比原始的ResNet-50,本发明将ResBlock_4层中卷积核的步长调整为1,该层最终输出的特征图的大小为14×14。
进一步地,重要区域定位模块的处理过程包括:如图4所示,设一幅图像经过ResNet-50提取出的特征图为F∈RC×H×W,其中C,H,W分别代表特征图的通道数、高度和宽度。如下方公式表示,通过对F的每个通道进行累加,可以得到其对应的激活图A,其中fi代表特征图F在第i个通道的分量。
对于激活图中一块指定区域r,该区域的激活程度可以用如下公式计算得到,该区域的左上角的坐标为)x0,y0),右下角的坐标为(x1,y1)。
然后如图6所表示,使用Soft-NMS算法计算出最重要的K个区域。其中A代表激活图,t为Soft-NMS算法中使用的阈值,在本实施例中选定为0.3;K为选取的区域数量,和分别代表第i个区域左上角和右下角的坐标,其逻辑如下公式所表示。
本实施例中选取了多种局部区域的窗口大小,其中小窗口选择4×4,3×5,5×3这3种形状,中等窗口选择6×6,5×7,7×5这3种,大窗口选择8×8,7×10,10×7这3种。对于每一个训练样本,本实施例选择大、中、小三种窗口各两个,当显存受限时,可减小K的值,当显存资源较为丰富时,可适当增大K的值。
局部随机消除模块的处理过程包括:如图7所示,本发明从14×14的特征图中选择多个尺寸的窗口,本发明从得到的K个关键区域中随机选择一块,当选出的区域为上述小、中窗口时,消除这块区域对应的像素值,而当选择出的区域为上述大窗口时,只消除这块区域中随机一半区域的像素值。
多尺度特征融合模块的处理过程包括:如图8所示,首先,利用多个池化层得到多个对应尺度的特征图。然后使用1×1的卷积核对池化后的特征图进行降维。接着,将每个尺度的小特征图上采样至与原特征图相同尺寸,并与原特征图拼接成新特征图的不同通道。本实施例中使用两个窗口大小分别为3和6的池化层。
在本实施例中,使用添加α-balance因子的Focal loss作为全局区域和局部区域的分类的损失函数,增大复杂样本在整体损失中的权重。
Lglobal=loss(P(Xg),Y)
Loss=Lglobal+λLparts
λ在第一个epoch中设为0.5,在后续epoch中设为1。
在本实施例中,所述特征提取模块、多尺度特征融合模块提供SGD优化器具体系数选择如下:
特征提取模块的学习率初始化为1e-5,多尺度特征融合模块和分类器模块的学习率初始化为1e-3,所有参数的学习率每经过5个epoch调整为原来的0.2,共训练20个epoch。
在本实施例中,当处于测试模式,如图5所示,在前向传递的过程中不使用重要区域定位模块和局部随机消除模块,即不对样本施加训练模式时应用的动态数据增强技术。输入的人脸测试样本在经过特征提取模块和多尺度特征融合模块后,由分类器模块给出其所属类别。
本申请实施例还公开一种终端设备。
一种终端设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该设备的处理器用于提供计算和控制能力。该设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该设备的数据库用于存储业务请求、业务数据等数据。该设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。
本申请实施例还公开一种计算机可读存储介质。
一种存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各系统实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例系统中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各系统的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例仅用于说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解;其依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种深度伪造视频检测系统,其特征在于,包括:
数据预处理模块,用于从视频中提取人脸区域,其输入视频文件,输出多张经过增强的包含人脸区域的图像,增强策略为加入高斯噪声与实际场景中不同视频质量压缩变化的模拟;
特征提取模块,用于从人脸的全局或局部区域中提取特征,其输入为完整的人脸图像或者局部区域,输出深度神经网络提取出的特征图;
重要区域定位模块,用于在训练的过程中从样本中提取最具判别意义的区域,其输入为人脸图像经过特征提取模块提取出的特征图,输出为提取出的多个区域的顶点坐标和特征图,定位过程中选用不同大小的滑动窗口,根据实际场景中深度伪造视频中伪影的分布和尺度特性进行模拟;局部随机消除模块,用于在训练的过程中在重要区域定位模块的指导下,对训练样本的局部区域进行遮挡,其输入为原始的训练样本和重要区域定位模块输出的多个区域的顶点坐标,输出为经过局部消除的新训练样本;
多尺度特征融合模块,用于融合不同尺度的特征,包含多个“池化-卷积-上采样”形式的子结构,其输入为重要区域定位模块输出的特征图,输出为经过融合的新特征图;以及
分类器模块,用于给出样本的分类结果,由全局平均池化层、全连接层、激活函数组成,其输入为多尺度特征融合模块输出的特征图,输出为最终的分类结果。
2.根据权利要求1所述一种深度伪造视频检测系统,其特征在于,所述数据预处理模块的处理过程包括:从视频文件中等间隔地提取N帧,并使用经过训练的MTCNN提取每一帧中的人脸区域,最终保存的图像经过人脸对齐,其中N根据所需的数据量确定。
3.根据权利要求1所述一种深度伪造视频检测系统,其特征在于,所述特征提取模块使用修改后的ResNet-50作为特征提取网络,与原始ResNet-50网络结构相比,ResBlock_4层中卷积核的步长调整为1,该层最终输出的特征图的大小为14×14。
4.根据权利要求1所述一种深度伪造视频检测系统,其特征在于,所述重要区域定位模块的处理过程包括:图像经过ResNet-50提取出的特征图为F∈RC×H×W,其中C,H,W分别代表特征图的通道数、高度和宽度,激活图A由对F的每个通道进行累加得到,其中fi代表特征图F在第i个通道的分量,如下方公式表示:
对于激活图中一块指定区域r,该区域的激活程度可以用如下公式计算得到,该区域的左上角的坐标为(x0,y0),右下角的坐标为(x1,y1);
5.根据权利要求1所述一种深度伪造视频检测系统,其特征在于,所述局部随机消除模块的处理过程包括:从特征图中选择多个尺寸的窗口,从得到的K个关键区域中随机选择一块,消除这块区域对应的像素值。
6.根据权利要求1所述一种深度伪造视频检测系统,其特征在于,所述多尺度特征融合模块的处理过程包括:利用多个不同池化层得到多个对应尺度的包含细小的伪影区域的特征图,然后使用1×1的卷积核对池化后的特征图进行降维,接着,将每个尺度的小特征图上采样至与原特征图相同尺寸,并与原特征图拼接成新特征图的不同通道。
7.一种终端设备,其特征在于,所述终端设备包括:
至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-6中任一项所述深度伪造视频检测系统。
8.一种计算机可读存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6中任一项所述深度伪造视频检测系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211639132.XA CN115909172A (zh) | 2022-12-20 | 2022-12-20 | 深度伪造视频检测分割识别系统、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211639132.XA CN115909172A (zh) | 2022-12-20 | 2022-12-20 | 深度伪造视频检测分割识别系统、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115909172A true CN115909172A (zh) | 2023-04-04 |
Family
ID=86493297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211639132.XA Pending CN115909172A (zh) | 2022-12-20 | 2022-12-20 | 深度伪造视频检测分割识别系统、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115909172A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220174076A1 (en) * | 2020-11-30 | 2022-06-02 | Microsoft Technology Licensing, Llc | Methods and systems for recognizing video stream hijacking on edge devices |
CN116645299A (zh) * | 2023-07-26 | 2023-08-25 | 中国人民解放军国防科技大学 | 一种深度伪造视频数据增强方法、装置及计算机设备 |
-
2022
- 2022-12-20 CN CN202211639132.XA patent/CN115909172A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220174076A1 (en) * | 2020-11-30 | 2022-06-02 | Microsoft Technology Licensing, Llc | Methods and systems for recognizing video stream hijacking on edge devices |
CN116645299A (zh) * | 2023-07-26 | 2023-08-25 | 中国人民解放军国防科技大学 | 一种深度伪造视频数据增强方法、装置及计算机设备 |
CN116645299B (zh) * | 2023-07-26 | 2023-10-10 | 中国人民解放军国防科技大学 | 一种深度伪造视频数据增强方法、装置及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723860B (zh) | 一种目标检测方法及装置 | |
CN112949565B (zh) | 基于注意力机制的单样本部分遮挡人脸识别方法及系统 | |
CN112766160B (zh) | 基于多级属性编码器和注意力机制的人脸替换方法 | |
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN110490212A (zh) | 钼靶影像处理设备、方法和装置 | |
CN115909172A (zh) | 深度伪造视频检测分割识别系统、终端及存储介质 | |
CN113674191B (zh) | 一种基于条件对抗网络的弱光图像增强方法和装置 | |
CN113762138B (zh) | 伪造人脸图片的识别方法、装置、计算机设备及存储介质 | |
CN113343878A (zh) | 基于生成对抗网络的高保真人脸隐私保护方法和系统 | |
CN112001983B (zh) | 生成遮挡图像的方法、装置、计算机设备和存储介质 | |
CN114077891B (zh) | 风格转换模型的训练方法及虚拟建筑检测模型的训练方法 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
CN113112416A (zh) | 一种语义引导的人脸图像修复方法 | |
CN116645569A (zh) | 一种基于生成对抗网络的红外图像彩色化方法和系统 | |
CN113139915A (zh) | 人像修复模型的训练方法和装置、电子设备 | |
CN113673562A (zh) | 一种特征增强的方法、目标分割方法、装置和存储介质 | |
CN114782298A (zh) | 一种具有区域注意力的红外与可见光图像融合方法 | |
CN113344110A (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
CN111626379A (zh) | 肺炎x光图像检测方法 | |
CN111881803B (zh) | 一种基于改进YOLOv3的畜脸识别方法 | |
CN114399824B (zh) | 一种多角度侧面人脸矫正方法、装置、计算机设备和介质 | |
CN115797997A (zh) | 复杂场景下的遮挡及模糊人脸检测方法 | |
CN114973364A (zh) | 一种基于脸部区域注意力机制的深度图片鉴伪方法及系统 | |
CN114820381A (zh) | 一种基于结构信息嵌入和注意力机制的数字图像修复方法 | |
CN113901916A (zh) | 一种基于可视化光流特征的面部欺诈动作识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |