CN112927202A - 多时域多特征结合的Deepfake视频检测方法及系统 - Google Patents
多时域多特征结合的Deepfake视频检测方法及系统 Download PDFInfo
- Publication number
- CN112927202A CN112927202A CN202110207530.3A CN202110207530A CN112927202A CN 112927202 A CN112927202 A CN 112927202A CN 202110207530 A CN202110207530 A CN 202110207530A CN 112927202 A CN112927202 A CN 112927202A
- Authority
- CN
- China
- Prior art keywords
- feature
- video
- dct
- module
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 92
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000001514 detection method Methods 0.000 claims abstract description 27
- 230000009466 transformation Effects 0.000 claims abstract description 21
- 238000005070 sampling Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 26
- 238000011176 pooling Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000001788 irregular Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 8
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000007774 longterm Effects 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20052—Discrete cosine transform [DCT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多时域多特征结合的Deepfake视频检测方法及系统,该方法步骤包括:将划分后数据集的视频解码并采样,获取特征提取区域的RGB图像和YUV图像;将RGB图像输入Xception网络学习,提取颜色特征;YUV图像进行分块DCT变换,得到三维DCT系数并输入频域特征提取网络学习,提取DCT特征;构建短时域模块,获取相邻两帧的一阶差分图像和灰度差值,输入VGG16网络提取梯度特征;将颜色特征、DCT特征和梯度特征拼接得到单帧特征;分别计算待检测视频的连续多帧图像,获得多个单帧特征,输入构建的长时域模块训练,训练后对视频进行分类,判断是否为Deepfake视频。本发明利用多时域模块捕获视频的时域信息,结合多特征对Deepfake视频进行检测,具有较好的检测效果,并提高了泛化能力。
Description
技术领域
本发明涉及Deepfake视频篡改检测技术领域,具体涉及一种多时域多特征结合的Deepfake视频检测方法及系统。
背景技术
Deepfake视频篡改技术是由深度网络模型生成假脸,再由生成的假脸替换真实视频中人脸的一种篡改视频技术。现如今存在多款基于深度网络模型的视频换脸应用程序,如DeepFaceLab、Deep-Faceswap、Deep-Faceswap-GAN等。现有的Deepfake视频检测技术中一种方式是通过单帧RGB图像呈现的颜色特征输入深度神经网络,在库内测试准确率可达90%以上,但跨库性能严重降低,泛化性能差。另一种方式选取其他的篡改特征用于检测,比如眼睛眨眼特征,语音与口型一致性特征,光流场特征等,此类技术由于Deepfake视频篡改技术的进一步提升,已经逐步克服上述眨眼少,语音口型不一致等问题,目前的换脸效果已经达到很高的水平,而此类技术的检测效果不佳,难以满足检测准确率的需求。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种多时域多特征结合的Deepfake视频检测方法及系统,本发明所设计的网络能够准确提取DCT特征、颜色特征和梯度特征,同时利用长短时域模块,提高网络模型的库内检测率和泛化性能。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种多时域多特征结合的Deepfake视频检测方法,包括下述步骤:
划分数据集,并将各个数据集的视频解码为帧序列,并设定间隔进行采样,保存为帧序列S;
检测帧序列S中各帧的人脸区域,作为特征提取区域;
将特征提取区域的RGB图像输入Xception网络进行颜色卷积特征学习,得到颜色卷积特征FRGB;
对特征提取区域进行分块切分,并对YUV三通道图像进行分块DCT变换,得到三维DCT系数,将三维DCT系数输入频域特征提取网络进行预测,得到DCT卷积特征FDCT,所述频域特征提取网络包括多个Inverted Residuals模块、卷积层和平均池化层;
构建短时域模块STB,所述短时域模块STB用于获取相邻两帧的一阶差分图像和灰度差值,输入VGG16网络进行梯度特征学习,得到梯度特征Fgrad;
将同一帧人脸区域的颜色卷积特征FRGB、DCT卷积特征FDCT和梯度特征Fgrad进行特征融合获得单帧特征;
构建长时域模块,所述长时域模块包括多层LSTM层和全连接层;
分别计算待检测视频保存的连续多帧图像,获得多个单帧特征,输入长时域模块捕获远程时间上的特征上下文;
采用训练后的长时域模块LTB对待检测视频帧进行预测分类,判断视频是否为Deepfake视频。
作为优选的技术方案,所述将特征提取区域的RGB图像输入Xception网络进行颜色卷积特征学习,得到颜色卷积特征FRGB,具体步骤包括:
将特征提取区域调整为统一大小的RGB图像,并进行归一化处理,作为特征检测区域的颜色特征数据,选取Xception网络的最后一层平均池化层输出张量作为学习到的颜色卷积特征FRGB。
作为优选的技术方案,所述对特征提取区域进行分块切分,并对YUV三通道图像进行分块DCT变换,得到三维DCT系数,具体步骤包括:
读取特征提取区域的RGB三通道图像,获取特征提取区域的YUV三通道图像,得到IY,IU,IV的图像,对YUV三通道图像进行不规则大小m1×m2的分块切分,其中m1是指将图像横坐标切分为m1块,m2是指将图像纵坐标切分为m2块,对IY,IU,IV图像的m1×m2个分块分别做二维DCT变换,将YUV三通道的各个分块的DCT变换幅度频谱按照原来分块位置进行拼接得到三维DCT系数。
作为优选的技术方案,所述二维DCT变换具体计算公式为:
其中,(i,j)表示图像中像素点的二维坐标,f(i,j)表示该坐标下图像的像素值,N表示图像的宽,F(u,v)为提取的DCT系数。
作为优选的技术方案,所述二维DCT变换采用矩阵处理方式,具体计算公式为:
F=AfAT
其中,F表示DCT系数矩阵,f表示图像像素矩阵,(i,j)表示图像中像素点的二维坐标,N表示图像的宽。
作为优选的技术方案,所述频域特征提取网络采用5个Inverted Residuals模块依次相连,然后接1×1普通卷积、平均池化层、Sigmoid激活函数;
所述Inverted Residuals模块先是扩展层,激活函数为ReLU,接着是深度可分离卷积,卷积核大小为(3,3),激活函数为ReLU,最后接1×1卷积,且为线性变换,同时每个Inverted Residuals模块都由超参数决定每层的重复次数。
作为优选的技术方案,所述将三维DCT系数输入频域特征提取网络进行预测,得到DCT卷积特征FDCT,具体步骤包括:
设置训练参数、训练周期、优化器和初始学习率;
损失函数采用交叉熵函数,训练完成后,保存对于验证集损失最小的模型和权重,将频域特征提取网络的最后一层平均池化层预测的输出张量作为DCT特征FDCT。
作为优选的技术方案,所述短时域模块STB由相邻两帧的特征提取区域分别经过灰度化,采用Sobel算子进行x和y向的一阶差分计算,对x和y方向的一阶差分图像进行加权求和得到一阶梯度图像,将相邻两帧的一阶梯度图像结合灰度差值输入VGG16网络进行梯度特征的学习,设置训练参数,训练完成后保存对于验证集损失最小的模型和权重,将VGG16网络的倒数第二层全连接层预测的输出张量作为学习到的梯度特征Fgrad。
作为优选的技术方案,所述长时域模块包括三层LSTM层和2通道的全连接层,第一LSTM层和第二LSTM层返回完整的输出序列,第三LSTM层只返回一维输出序列,最后输入2通道的全连接层,采用Softmax激活函数,输出二分类结果,即判断是否为Deepfake视频。
本发明还提供一种多时域多特征结合的Deepfake视频检测系统,包括:视频解码采样模块、人脸区域提取模块、颜色特征提取网络模块、DCT变换模块、DCT特征提取网络模块、梯度特征提取网络模块、特征向量构建模块和长时域模块;
所述视频解码采样模块用于将各个数据集的视频解码为帧序列,并设定间隔进行采样,保存为帧序列S;
所述人脸区域提取模块用于检测帧序列S中各帧的人脸区域,作为特征提取区域;
所述颜色特征提取网络模块用于将特征提取区域的RGB图像输入Xception网络进行颜色卷积特征学习,得到颜色卷积特征FRGB;
所述DCT变换模块用于对特征提取区域进行分块切分,并对YUV三通道图像进行分块DCT变换,得到三维DCT系数;
所述DCT特征提取网络模块用于将三维DCT系数输入频域特征提取网络进行预测,得到DCT卷积特征FDCT,所述频域特征提取网络包括多个Inverted Residuals模块、卷积层和平均池化层;
所述梯度特征提取网络模块用于构建短时域模块STB,所述短时域模块STB用于获取相邻两帧的一阶差分图像和灰度差值,输入VGG16网络进行梯度特征学习,得到梯度特征Fgrad;
所述特征向量构建模块用于将同一帧人脸区域的颜色卷积特征FRGB、DCT卷积特征FDCT和梯度特征Fgrad进行特征融合获得单帧特征;
所述长时域模块包括多层LSTM层和全连接层;
分别计算待检测视频保存的连续多帧图像,获得多个单帧特征,输入长时域模块捕获远程时间上的特征上下文;
采用训练后的长时域模块LTB对待检测视频帧进行预测分类,判断视频是否为Deepfake视频。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明设计了多时域模块,即短时域模块STB用于捕获相邻帧时域信息,长时域模块LTB用以捕获远程时间上的特征上下文,通过多时域模块能够有效地利用篡改视频帧序列时域不一致的痕迹,提升检测性能。
(2)本发明采用了对YUV图像进行分块DCT变换后获取Deepfake频域篡改痕迹的技术方案,利用Deepfake假脸在DCT域存在周期性的现象,将DCT特征用于Deepfake视频检测,有效改善了检测性能。
(3)本发明采用了DCT特征、颜色特征结合梯度特征的技术方案,相比于直接使用RGB图像特征,不仅能提高库内检测准确率,同时还使跨库准确率有明显提升,提高了网络模型的泛化性能。
(4)本发明设计了一种频域特征提取网络,该网络能够有效地提取DCT频域特征,同时网络模型浅,参数少,运行速度快,有利于在实际场景中应用。
附图说明
图1为本发明多时域多特征结合的Deepfake视频检测方法的网络架构示意图
图2为本发明多时域多特征结合的Deepfake视频检测方法的训练阶段流程示意图;
图3为本发明真假脸帧DCT系数平均值示意图;
图4为本发明的频域特征提取网络各层次的结构示意图;
图5为本发明的短时域模块结构示意图;
图6为本发明的长时域模块网络结构各层次的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
本实施例采用Deepfake视频数据库TIMIT、FaceForensics++与DeepfakeDetection作为检测数据集。TIMIT数据库选取了16对肤色和光照差异近似的对象,使用开源的Deep-Faceswap-GAN方法实现人脸互换,对于每一对视频,分别使用不同的模型和融合技术合成低质量(LQ)和高质量(HQ)的两种视频。FaceForensics++数据库是基于自编码器模型的Deep-Faceswap方法实现的,并使用H.264编码器分别合成压缩率0(C0)、压缩率23(C23),压缩率40(C40)3种不同压缩程度的视频,其中真实视频1000个,换脸视频3000个。DeepfakeDetection数据库视频包含无压缩率(C0),压缩率23(C23),压缩率40(C40),其中包含真实视频363个,换脸视频3068个。本实施例使用TIMIT数据集,FaceForensics++的C0数据集和DeepfakeDetection的C23数据集,同时为了保证正负样本的比例均衡,在选取的数据集中保证真实视频帧和换脸视频帧的比例在1:1左右。实验训练集数量为81920帧,验证集数量为20480帧,测试集数量为10240帧;本实验在Linux系统上进行,主要是基于深度学习框架Keras来实现,显卡为GTX1080Ti,CUDA版本为9.0.176。
如图1、图2所示,本实施例提供一种多时域多特征结合的Deepfake视频检测方法,包括下述步骤:
S1:将待检测视频解码为帧序列并每隔5帧保存1帧;
在本实施例中,利用OpenCV开源软件库中的VideoCapture类将视频进行解码,把视频解码成帧序列F1,F2,F3,…,FN,其中,N为单个视频的帧数,将每个视频的帧序列每隔5帧保存1帧为独立文件夹,以防不同视频产生相互干扰;
S2:将保存的帧序列S进行人脸区域检测,作为特征提取区域;
在本实施例中,遍历读取所有视频文件夹中的帧序列路径,通过Dlib库人脸检测器get_frontal_face_detector对视频帧图像进行人脸的识别,提取人脸区域的方框的4个坐标值Xmin,Xmax,Ymin,Ymax,将视频的帧路径、4个坐标值、视频标签写入csv文件中;
网络训练预处理步骤为:读取csv文件,按照帧路径读取图像,根据人脸区域坐标点计算人脸区域中心点,以人脸区域中心点截取帧图像256×256区域,作为特征提取区域。
人脸区域中心点计算公式如下:
X0=Xmin+(Xmax-Xmin)/2
Y0=Ymin+(Ymax-Ymin)/2
S3:将特征提取区域的RGB(红、绿、蓝三通道)图像输入Xception网络进行颜色卷积特征学习,得到颜色卷积特征FRGB;
在本实施例中,具体步骤如下:
将特征提取区域调整大小为H×W×3的RGB图像,并进行归一化处理,作为特征检测区域的颜色特征数据,其中H为统一调整后的RGB图像的高,W为统一调整后的RGB图像的宽,在本实施例中,H的值优选256,W的值优选256。
选择Xception网络作为基准卷积神经网络,将统一调整后的RGB图像送入Xception网络中进行颜色卷积特征学习的模型训练。选取Xception网络的最后一层平均池化层输出张量作为学习到的颜色卷积特征FRGB。
设置模型训练参数,训练周期为30,优化器为Adam,初始学习率为0.001,使用Keras中的回调函数ReduceLROnPlateau优化学习率,损失函数设置为交叉熵,训练的批尺寸为64,训练优化网络的参数,训练完成后,保存对于验证集损失最小的模型和权重。导入保存的模型和参数,将Xception网络的最后一层平均池化层预测的2048维输出张量作为学习到的颜色特征FRGB。本实施例从RGB(红绿蓝)三通道的图像像素值中,通过网络去学习Deepfake视频篡改痕迹,比如脸部的伪影等;
S4:对特征提取区域进行分块切分,并对YUV三通道图像进行分块DCT变换,得到三维DCT系数;
具体步骤如下:
DCT变换的全称是离散余弦变换(Discrete Cosine Transform),能够将空域的信号转换为频域的信号,并且具有良好的去相关性的作用。将1000张Deepfake数据库真脸视频帧和假脸视频帧的人脸区域分别做DCT变换,将DCT变换结果取均值,并将均值经过log函数处理,最后打印成图片,结果如图3所示。Deepfake视频是由深度网络模型生成假脸,再由生成的假脸替换真实视频中人脸。在由深度模型生成假脸过程中,由于引入了转置卷积,即引入了上采样,故生成的假脸在DCT变换后会呈现周期性。并且由于视频每帧都替换假脸后,需要重新编码生成视频。这导致了视频帧细节信息丢失,影响频域的高频信息。从图3可看出,在高频区域,真假脸的DCT系数存在一定的区别,真脸图片高频信息对比假脸图片高频信息更加丰富。
读取特征提取区域的RGB(红、绿、蓝三通道)图像,获取特征提取区域的YUV三通道图像,得到IT,IU,IV的图像,“Y”表示明亮度,也就是灰阶值,“U”和“V”表示的则是色度,作用是描述影像色彩及饱和度,用于指定像素的颜色,在本实施中采用YUV颜色编码方法获取得到YUV三通道图像;
对YUV三通道图像进行不规则大小m1×m2的分块切分,其中m1是指将图像横坐标切分为m1块,m2是指将图像纵坐标切分为m2块,对IY,IU,IV图像的m1×m2个分块分别做二维DCT变换,即离散余弦变换,实现空域的信号转换到频域上,将YUV三通道的各个分块的DCT变换幅度频谱按照原来分块位置进行拼接得到三维DCT系数。在本实施例中,m1的值优选为3,m2的值优选为3。
二维DCT变换具体计算公式为:
其中(i,j)表示图像中像素点的二维坐标,f(i,j)表示该坐标下图像的像素值,N表示图像的宽(本实施例中图像的宽和长相等),F(u,v)为本实施例提取的DCT系数。
另外,由于DCT变换高度的对称性,可以使用更简单的矩阵处理方式:
F=AfAT
其中,F表示DCT系数矩阵,f表示图像像素矩阵,(i,j)表示图像中像素点的二维坐标,N表示图像的宽(本实施例中图像的宽和长相等);
RGB颜色域转换为亮度-色调-饱和度系统YUV的转换公式如下:
Y=0.3×R+0.59×G+0.11×B
U=(B-Y)×0.493
V=(R-Y)×0.877
其中R,G,B指的是图像每个像素点三个字节的颜色值,也就是该颜色分量的数值。
S5:构建频域特征提取网络,将DCT系数输入频域特征提取网络学习,得到DCT特征FDCT;
S51:构建频域特征提取网络;
在本实施例中,使用深度卷积神经网络MoileNetv2的Inverted Residual模块作为网络模型的基础模块。如图4所示,频域特征提取网络包括5个Inverted Residuals模块依次相连,然后接1×1普通卷积、平均池化层、Sigmoid激活函数。其中Inverted Residuals模块先是扩展层Expansion layers,即1×1卷积根据超参数扩展因子t做通道维数的提升,激活函数为ReLU,由于ReLU操作会使一些神经元失活,做通道维数的提升可以保留低维特征信息;接着是深度可分离卷积,卷积核大小为(3,3),激活函数为ReLU,相比普通卷积,深度可分离卷积参数数量小,运行成本低;最后接1×1卷积,且为线性变换,来捕获兴趣流形,防止非线性引起太多信息损失,并将结果映射到低维度,同时每个Inverted Residuals模块都由超参数n决定每层的重复次数。
S52:将DCT系数输入频域特征提取网络学习,得到DCT特征FDCT;
将三维DCT系数送入上述构建的频域特征提取网络,进行频域特征的学习的训练。设置模型训练参数,训练周期为20,优化器为Adam,初始学习率为0.001,使用Keras中的回调函数ReduceLROnPlateau优化学习率,损失函数设置为交叉熵,训练的批尺寸为32。训练优化网络的参数,训练完成后,保存对于验证集损失最小的模型和权重。导入保存的模型和参数,将频域特征提取网络的最后一层平均池化层预测的1280维输出张量作为学习到的DCT特征FDCT。
S6:构建短时域模块STB,利用STB提取特征提取区域的梯度图像,输入VGG16网络进行梯度特征Fgrad的学习;
如图5所示,短时域模块STB由相邻两帧的特征提取区域分别经过灰度化,采用Sobel算子进行x和y向的一阶差分计算,对x和y方向的一阶差分图像进行加权求和得到一阶梯度图像。将相邻两帧的一阶梯度图像结合灰度差值输入VGG16网络进行梯度特征的学习,选取VGG16作为该支路的基准网络。设置模型训练参数,训练周期为15,优化器为Adam,初始学习率为0.0001,使用Keras中的回调函数ReduceLROnPlateau优化学习率,损失函数设置为交叉熵,训练的批尺寸为32。训练优化网络的参数,训练完成后,保存对于验证集损失最小的模型和权重。导入保存的模型和参数,将VGG16网络的倒数第二层全连接层预测的512维输出张量作为学习到的梯度特征Fgrad。
其中x,y方向的Sobel算子如下:
S7:训练阶段,构建并训练长时域模块,生成分类模型;
S71:将颜色特征FRGB,DCT特征FDCT和梯度特征Fgrad进行特征融合获得单帧特征,分别计算训练集中每个视频选取的连续10帧图像,获得10个单帧特征;
将同一帧图像的特征提取区域的RGB三通道图像输入预训练的Xception进行预测,得到1×1×c0的颜色特征FRGB,将该特征提取区域的YUV三通道图像的三维DCT系数输入预训练的频域特征提取网络进行预测,得到1×1×c1的DCT特征FDCT。将该特征提取区域的梯度图像输入预训练的VGG16网络进行预测,得到1×1×c2的梯度特征Fgrad。将三个特征进行一维数组的级联融合,得到1×1×(c0+c1+c2)的单帧特征Fframe,该特征将作为后续长时域模块的单个序列输入,在本实施例中,c0取值为2048,c1取值为1280,c2取值为512。选取视频文件夹里面连续的10帧Fn,Fn+1,Fn+2,…,Fn+9,按上述计算单帧特征Fframe的方法,得到3840×10维的时域特征,作为长时域模块的输入。
S72:将长时域模块LTB进行模型训练,计算损失函数并反向传播更新网络权重系数,保存网络的模型和最佳权重。
如图6所示,长时域模块LTB由三层LSTM层接全连接层构成,使模型能学习更高层次的时间表示;第一,二个LSTM层返回完整的输出序列,包含时间步,表示学习到的时间表示;最后一个LSTM层只返回一维输出序列,最后输入2通道的全连接层,采用Softmax激活函数,输出二分类结果,即判断是否为Deepfake视频。本实施例设置模型训练参数为训练周期5,优化器为rmsprop,初始学习率为0.001,使用Keras中的回调函数ReduceLROnPlateau优化学习率,损失函数设置为交叉熵,训练的批尺寸为32。训练优化网络的参数,训练完成后,保存对于验证集损失最小的模型和权重。
S8:模型应用:加载模型训练步骤保存的模型结构和参数作为检测系统的后台模块;将测试集的每个视频都选取连续10帧的,提取10个单帧特征,输入检测系统,预测分类结果。
在本实施例中,加载利用DFD数据库的训练集训练后的Xception网络的模型和权重,频域特征提取网络的模型和权重,VGG16网络模型和权重以及长时域模块的模型和权重作为测试模型进行测试;本实施例Deepfake假脸检测算法的性能指标为半错误率(HalfTotal Error Rate,HTER)和受试者工作特征曲线(Receiver Operating CharacteristicCurve,ROC)下面积(Area Under Curve,AUC)。ROC曲线是根据一系列不同的阈值,以真阳性率为纵坐标,假阳性率为横坐标绘制的曲线。半错误率(HTER)计算公式如下:
其中FAR(False Acceptance Rate)为错误接受率,即算法把Deepfake假脸判别为真实视频人脸的比率;FRR(False Rejection Rate)为错误拒绝率,即算法把真实视频人脸判别为Deepfake假脸的比率。
为了证明本发明的可行性以及检验该方法的泛化性能,将本发明的方法与直接采用RGB图像输入Xception模型的方法进行对比,采用DFD数据库作为训练集,TIMIT,DFD(C23),FF++(C0)作为测试集。库内以及跨库结果如下表1所示:
表1DFD(C23)数据库训练模型测试结果表
由表1可知,上述实验结果证明,本发明比直接采用RGB图像输入Xception模型的方法的库内HTER降低了2%左右,AUC提高了3%左右。从跨库测试结果观察,本算法比直接采用RGB图像输入Xception模型的方法,在FF++(C0)的跨库检测中HTER降低了7%左右,TIMIT的跨库检测中HTER降低了11%,这说明本发明能有效提升Deepfake假脸检测的泛化性能。同时,在Deepfake假脸检测库内检测上能达到很高的AUC,达到0.99以上,HTER在降低至0.02;这说明本发明在保证库内高准确率的同时,还能保证跨库的准确率,能够有效地提高模型的泛化性能。
本实施例利用频域的DCT特征,结合颜色特征和梯度特征,对单帧图像的篡改痕迹进行学习鉴别;同时再通过篡改视频的时域篡改痕迹不连续,存在抖动的特点,设计了短时域模块获取相邻两帧的时域信息和长时域模块捕获远程时间上的特征上下文,对Deepfake视频进行鉴别,实验结果证明,DCT特征,颜色特征,梯度特征以及多时域模块都能提高Deepfake视频检测系统的性能。
实施例2
本实施例提供一种多时域多特征结合的Deepfake视频检测系统,包括:视频解码采样模块、人脸区域提取模块、颜色特征提取网络模块、DCT变换模块、DCT特征提取网络模块、梯度特征提取网络模块、特征向量构建模块和长时域模块;
在本实施例中,视频解码采样模块用于将各个数据集的视频解码为帧序列,并设定间隔进行采样,保存为帧序列S;
在本实施例中,人脸区域提取模块用于检测帧序列S中各帧的人脸区域,作为特征提取区域;
在本实施例中,颜色特征提取网络模块用于将特征提取区域的RGB图像输入Xception网络进行颜色卷积特征学习,得到颜色卷积特征FRGB;
在本实施例中,DCT变换模块用于对特征提取区域进行分块切分,并对YUV三通道图像进行分块DCT变换,得到三维DCT系数;
在本实施例中,DCT特征提取网络模块用于将三维DCT系数输入频域特征提取网络进行预测,得到DCT卷积特征FDCT,所述频域特征提取网络包括多个Inverted Residuals模块、卷积层和平均池化层;
在本实施例中,梯度特征提取网络模块用于构建短时域模块STB,所述短时域模块STB用于获取相邻两帧的一阶差分图像和灰度差值,输入VGG16网络进行梯度特征学习,得到梯度特征Fgrad;
在本实施例中,特征向量构建模块用于将同一帧人脸区域的颜色卷积特征FRGB、DCT卷积特征FDCT和梯度特征Fgrad进行特征融合获得单帧特征;
在本实施例中,长时域模块包括多层LSTM层和全连接层;
分别计算待检测视频保存的连续多帧图像,获得多个单帧特征,输入长时域模块捕获远程时间上的特征上下文;
采用训练后的长时域模块LTB对待检测视频帧进行预测分类,判断视频是否为Deepfake视频。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种多时域多特征结合的Deepfake视频检测方法,其特征在于,包括下述步骤:
划分数据集,并将各个数据集的视频解码为帧序列,并设定间隔进行采样,保存为帧序列S;
检测帧序列S中各帧的人脸区域,作为特征提取区域;
将特征提取区域的RGB图像输入Xception网络进行颜色卷积特征学习,得到颜色卷积特征FRGB;
对特征提取区域进行分块切分,并对YUV三通道图像进行分块DCT变换,得到三维DCT系数,将三维DCT系数输入频域特征提取网络进行预测,得到DCT卷积特征FDCT,所述频域特征提取网络包括多个Inverted Residuals模块、卷积层和平均池化层;
构建短时域模块STB,所述短时域模块STB用于获取相邻两帧的一阶差分图像和灰度差值,输入VGG16网络进行梯度特征学习,得到梯度特征Fgrad;
将同一帧人脸区域的颜色卷积特征FRGB、DCT卷积特征FDCT和梯度特征Fgrad进行特征融合获得单帧特征;
构建长时域模块,所述长时域模块包括多层LSTM层和全连接层;
分别计算待检测视频保存的连续多帧图像,获得多个单帧特征,输入长时域模块捕获远程时间上的特征上下文;
采用训练后的长时域模块LTB对待检测视频帧进行预测分类,判断视频是否为Deepfake视频。
2.根据权利要求1所述的多时域多特征结合的Deepfake视频检测方法,其特征在于,所述将特征提取区域的RGB图像输入Xception网络进行颜色卷积特征学习,得到颜色卷积特征FRGB,具体步骤包括:
将特征提取区域调整为统一大小的RGB图像,并进行归一化处理,作为特征检测区域的颜色特征数据,选取Xception网络的最后一层平均池化层输出张量作为学习到的颜色卷积特征FRGB。
3.根据权利要求1所述的多时域多特征结合的Deepfake视频检测方法,其特征在于,所述对特征提取区域进行分块切分,并对YUV三通道图像进行分块DCT变换,得到三维DCT系数,具体步骤包括:
读取特征提取区域的RGB三通道图像,获取特征提取区域的YUV三通道图像,得到IY,IU,IV的图像,对YUV三通道图像进行不规则大小m1×m2的分块切分,其中m1是指将图像横坐标切分为m1块,m2是指将图像纵坐标切分为m2块,对IY,IU,IV图像的m1×m2个分块分别做二维DCT变换,将YUV三通道的各个分块的DCT变换幅度频谱按照原来分块位置进行拼接得到三维DCT系数。
6.根据权利要求1所述的多时域多特征结合的Deepfake视频检测方法,其特征在于,所述频域特征提取网络采用5个Inverted Residuals模块依次相连,然后接1×1普通卷积、平均池化层、Sigmoid激活函数;
所述Inverted Residuals模块先是扩展层,激活函数为ReLU,接着是深度可分离卷积,卷积核大小为(3,3),激活函数为ReLU,最后接1×1卷积,且为线性变换,同时每个InvertedResiduals模块都由超参数决定每层的重复次数。
7.根据权利要求1所述的多时域多特征结合的Deepfake视频检测方法,其特征在于,所述将三维DCT系数输入频域特征提取网络进行预测,得到DCT卷积特征FDCT,具体步骤包括:
设置训练参数、训练周期、优化器和初始学习率;
损失函数采用交叉熵函数,训练完成后,保存对于验证集损失最小的模型和权重,将频域特征提取网络的最后一层平均池化层预测的输出张量作为DCT特征FDCT。
8.根据权利要求1所述的多时域多特征结合的Deepfake视频检测方法,其特征在于,所述短时域模块STB由相邻两帧的特征提取区域分别经过灰度化,采用Sobel算子进行x和y向的一阶差分计算,对x和y方向的一阶差分图像进行加权求和得到一阶梯度图像,将相邻两帧的一阶梯度图像结合灰度差值输入VGG16网络进行梯度特征的学习,设置训练参数,训练完成后保存对于验证集损失最小的模型和权重,将VGG16网络的倒数第二层全连接层预测的输出张量作为学习到的梯度特征Fgrad。
9.根据权利要求1所述的多时域多特征结合的Deepfake视频检测方法,其特征在于,所述长时域模块包括三层LSTM层和2通道的全连接层,第一LSTM层和第二LSTM层返回完整的输出序列,第三LSTM层只返回一维输出序列,最后输入2通道的全连接层,采用Softmax激活函数,输出二分类结果,即判断是否为Deepfake视频。
10.一种多时域多特征结合的Deepfake视频检测系统,其特征在于,包括:视频解码采样模块、人脸区域提取模块、颜色特征提取网络模块、DCT变换模块、DCT特征提取网络模块、梯度特征提取网络模块、特征向量构建模块和长时域模块;
所述视频解码采样模块用于将各个数据集的视频解码为帧序列,并设定间隔进行采样,保存为帧序列S;
所述人脸区域提取模块用于检测帧序列S中各帧的人脸区域,作为特征提取区域;
所述颜色特征提取网络模块用于将特征提取区域的RGB图像输入Xception网络进行颜色卷积特征学习,得到颜色卷积特征FRGB;
所述DCT变换模块用于对特征提取区域进行分块切分,并对YUV三通道图像进行分块DCT变换,得到三维DCT系数;
所述DCT特征提取网络模块用于将三维DCT系数输入频域特征提取网络进行预测,得到DCT卷积特征FDCT,所述频域特征提取网络包括多个Inverted Residuals模块、卷积层和平均池化层;
所述梯度特征提取网络模块用于构建短时域模块STB,所述短时域模块STB用于获取相邻两帧的一阶差分图像和灰度差值,输入VGG16网络进行梯度特征学习,得到梯度特征Fgrad;
所述特征向量构建模块用于将同一帧人脸区域的颜色卷积特征FRGB、DCT卷积特征FDCT和梯度特征Fgrad进行特征融合获得单帧特征;
所述长时域模块包括多层LSTM层和全连接层;
分别计算待检测视频保存的连续多帧图像,获得多个单帧特征,输入长时域模块捕获远程时间上的特征上下文;
采用训练后的长时域模块LTB对待检测视频帧进行预测分类,判断视频是否为Deepfake视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110207530.3A CN112927202B (zh) | 2021-02-25 | 2021-02-25 | 多时域多特征结合的Deepfake视频检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110207530.3A CN112927202B (zh) | 2021-02-25 | 2021-02-25 | 多时域多特征结合的Deepfake视频检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112927202A true CN112927202A (zh) | 2021-06-08 |
CN112927202B CN112927202B (zh) | 2022-06-03 |
Family
ID=76171614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110207530.3A Expired - Fee Related CN112927202B (zh) | 2021-02-25 | 2021-02-25 | 多时域多特征结合的Deepfake视频检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112927202B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283393A (zh) * | 2021-06-28 | 2021-08-20 | 南京信息工程大学 | 基于图像组与两流网络的Deepfake视频检测方法 |
CN113449791A (zh) * | 2021-06-28 | 2021-09-28 | 齐鲁工业大学 | 基于深度学习的肺炎图像分类方法及系统 |
CN113627233A (zh) * | 2021-06-17 | 2021-11-09 | 中国科学院自动化研究所 | 基于视觉语义信息的人脸伪造检测方法和装置 |
CN113705394A (zh) * | 2021-08-16 | 2021-11-26 | 电子科技大学 | 一种长短时域特征结合的行为识别方法 |
CN113837310A (zh) * | 2021-09-30 | 2021-12-24 | 四川新网银行股份有限公司 | 多尺度融合的证件翻拍识别方法、装置、电子设备和介质 |
CN114387641A (zh) * | 2021-12-21 | 2022-04-22 | 中山大学 | 基于多尺度卷积网络和ViT的虚假视频检测方法及系统 |
CN114419716A (zh) * | 2022-01-26 | 2022-04-29 | 北方工业大学 | 一种人脸图像面部关键点标定的校准方法 |
CN114693607A (zh) * | 2022-03-09 | 2022-07-01 | 华南理工大学 | 基于多域块特征标志点配准的篡改视频检测方法及系统 |
CN114821432A (zh) * | 2022-05-05 | 2022-07-29 | 杭州电子科技大学 | 基于离散余弦变换的视频目标分割对抗攻击方法 |
CN114827630A (zh) * | 2022-03-11 | 2022-07-29 | 华南理工大学 | 基于频域分布学习cu深度划分方法、系统、装置及介质 |
CN114972976A (zh) * | 2022-07-29 | 2022-08-30 | 之江实验室 | 基于频域自注意力机制的夜间目标检测、训练方法及装置 |
CN115273186A (zh) * | 2022-07-18 | 2022-11-01 | 中国人民警察大学 | 基于图像特征融合的深度伪造人脸视频检测方法及系统 |
CN115529457A (zh) * | 2022-09-05 | 2022-12-27 | 清华大学 | 基于深度学习的视频压缩方法和装置 |
CN115661725A (zh) * | 2022-12-26 | 2023-01-31 | 浙江鹏信信息科技股份有限公司 | Deepfake视频检测方法、系统及可读存储介质 |
CN116071268A (zh) * | 2023-03-01 | 2023-05-05 | 中国民用航空飞行学院 | 基于对比学习的图像去光照模型及其训练方法 |
CN118196579A (zh) * | 2024-03-21 | 2024-06-14 | 广东华锐信息科技有限公司 | 基于目标识别的多媒体内容管控优化方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110880172A (zh) * | 2019-11-12 | 2020-03-13 | 中山大学 | 基于循环卷积神经网络的视频人脸篡改检测方法及系统 |
CN111353399A (zh) * | 2020-02-24 | 2020-06-30 | 中国科学技术大学 | 篡改视频检测方法 |
CN111353395A (zh) * | 2020-02-19 | 2020-06-30 | 南京信息工程大学 | 一种基于长短期记忆网络的换脸视频检测方法 |
CN111444881A (zh) * | 2020-04-13 | 2020-07-24 | 中国人民解放军国防科技大学 | 伪造人脸视频检测方法和装置 |
CN111639589A (zh) * | 2020-05-28 | 2020-09-08 | 西北工业大学 | 基于对抗学习和类颜色空间的视频虚假人脸检测方法 |
US10810725B1 (en) * | 2018-12-07 | 2020-10-20 | Facebook, Inc. | Automated detection of tampered images |
CN111914633A (zh) * | 2020-06-22 | 2020-11-10 | 华南理工大学 | 基于人脸特征时域稳定性的换脸视频篡改检测方法及其应用 |
CN111967344A (zh) * | 2020-07-28 | 2020-11-20 | 南京信息工程大学 | 一种面向人脸伪造视频检测的精细化特征融合方法 |
CN112333452A (zh) * | 2020-10-19 | 2021-02-05 | 杭州电子科技大学 | 一种基于深度学习的视频对象移除篡改时空域定位方法 |
-
2021
- 2021-02-25 CN CN202110207530.3A patent/CN112927202B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10810725B1 (en) * | 2018-12-07 | 2020-10-20 | Facebook, Inc. | Automated detection of tampered images |
CN110880172A (zh) * | 2019-11-12 | 2020-03-13 | 中山大学 | 基于循环卷积神经网络的视频人脸篡改检测方法及系统 |
CN111353395A (zh) * | 2020-02-19 | 2020-06-30 | 南京信息工程大学 | 一种基于长短期记忆网络的换脸视频检测方法 |
CN111353399A (zh) * | 2020-02-24 | 2020-06-30 | 中国科学技术大学 | 篡改视频检测方法 |
CN111444881A (zh) * | 2020-04-13 | 2020-07-24 | 中国人民解放军国防科技大学 | 伪造人脸视频检测方法和装置 |
CN111639589A (zh) * | 2020-05-28 | 2020-09-08 | 西北工业大学 | 基于对抗学习和类颜色空间的视频虚假人脸检测方法 |
CN111914633A (zh) * | 2020-06-22 | 2020-11-10 | 华南理工大学 | 基于人脸特征时域稳定性的换脸视频篡改检测方法及其应用 |
CN111967344A (zh) * | 2020-07-28 | 2020-11-20 | 南京信息工程大学 | 一种面向人脸伪造视频检测的精细化特征融合方法 |
CN112333452A (zh) * | 2020-10-19 | 2021-02-05 | 杭州电子科技大学 | 一种基于深度学习的视频对象移除篡改时空域定位方法 |
Non-Patent Citations (3)
Title |
---|
MURRAY, ANTHONY FRANCIS: "Detecting Deepfakes Using Emotional Irregularities", 《DREXEL UNIVERSITY PROQUEST DISSERTATIONS PUBLISHING》, 31 December 2020 (2020-12-31) * |
李纪成等: "基于光照方向一致性的换脸视频检测", 《南京航空航天大学学报》, vol. 52, no. 5, 31 October 2020 (2020-10-31) * |
胡永健等: "基于图像分割网络的深度假脸视频篡改检测", 《电子与信息学报》, vol. 43, no. 1, 31 January 2021 (2021-01-31) * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627233A (zh) * | 2021-06-17 | 2021-11-09 | 中国科学院自动化研究所 | 基于视觉语义信息的人脸伪造检测方法和装置 |
CN113449791B (zh) * | 2021-06-28 | 2022-04-26 | 齐鲁工业大学 | 基于深度学习的肺炎图像分类方法及系统 |
CN113449791A (zh) * | 2021-06-28 | 2021-09-28 | 齐鲁工业大学 | 基于深度学习的肺炎图像分类方法及系统 |
CN113283393B (zh) * | 2021-06-28 | 2023-07-25 | 南京信息工程大学 | 基于图像组与两流网络的Deepfake视频检测方法 |
CN113283393A (zh) * | 2021-06-28 | 2021-08-20 | 南京信息工程大学 | 基于图像组与两流网络的Deepfake视频检测方法 |
CN113705394A (zh) * | 2021-08-16 | 2021-11-26 | 电子科技大学 | 一种长短时域特征结合的行为识别方法 |
CN113705394B (zh) * | 2021-08-16 | 2023-05-30 | 电子科技大学 | 一种长短时域特征结合的行为识别方法 |
CN113837310A (zh) * | 2021-09-30 | 2021-12-24 | 四川新网银行股份有限公司 | 多尺度融合的证件翻拍识别方法、装置、电子设备和介质 |
CN114387641A (zh) * | 2021-12-21 | 2022-04-22 | 中山大学 | 基于多尺度卷积网络和ViT的虚假视频检测方法及系统 |
CN114419716A (zh) * | 2022-01-26 | 2022-04-29 | 北方工业大学 | 一种人脸图像面部关键点标定的校准方法 |
CN114419716B (zh) * | 2022-01-26 | 2024-03-15 | 北方工业大学 | 一种人脸图像面部关键点标定的校准方法 |
CN114693607A (zh) * | 2022-03-09 | 2022-07-01 | 华南理工大学 | 基于多域块特征标志点配准的篡改视频检测方法及系统 |
CN114693607B (zh) * | 2022-03-09 | 2024-08-20 | 华南理工大学 | 基于多域块特征标志点配准的篡改视频检测方法及系统 |
CN114827630A (zh) * | 2022-03-11 | 2022-07-29 | 华南理工大学 | 基于频域分布学习cu深度划分方法、系统、装置及介质 |
CN114821432A (zh) * | 2022-05-05 | 2022-07-29 | 杭州电子科技大学 | 基于离散余弦变换的视频目标分割对抗攻击方法 |
CN115273186A (zh) * | 2022-07-18 | 2022-11-01 | 中国人民警察大学 | 基于图像特征融合的深度伪造人脸视频检测方法及系统 |
CN114972976B (zh) * | 2022-07-29 | 2022-12-20 | 之江实验室 | 基于频域自注意力机制的夜间目标检测、训练方法及装置 |
CN114972976A (zh) * | 2022-07-29 | 2022-08-30 | 之江实验室 | 基于频域自注意力机制的夜间目标检测、训练方法及装置 |
CN115529457A (zh) * | 2022-09-05 | 2022-12-27 | 清华大学 | 基于深度学习的视频压缩方法和装置 |
CN115529457B (zh) * | 2022-09-05 | 2024-05-14 | 清华大学 | 基于深度学习的视频压缩方法和装置 |
CN115661725A (zh) * | 2022-12-26 | 2023-01-31 | 浙江鹏信信息科技股份有限公司 | Deepfake视频检测方法、系统及可读存储介质 |
CN116071268A (zh) * | 2023-03-01 | 2023-05-05 | 中国民用航空飞行学院 | 基于对比学习的图像去光照模型及其训练方法 |
CN116071268B (zh) * | 2023-03-01 | 2023-06-23 | 中国民用航空飞行学院 | 基于对比学习的图像去光照模型及其训练方法 |
CN118196579A (zh) * | 2024-03-21 | 2024-06-14 | 广东华锐信息科技有限公司 | 基于目标识别的多媒体内容管控优化方法 |
CN118196579B (zh) * | 2024-03-21 | 2024-10-01 | 广东华锐信息科技有限公司 | 基于目标识别的多媒体内容管控优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112927202B (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112927202B (zh) | 多时域多特征结合的Deepfake视频检测方法及系统 | |
Bashir et al. | A comprehensive review of deep learning-based single image super-resolution | |
Wang et al. | Deep learning for image super-resolution: A survey | |
CN107977932B (zh) | 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法 | |
CN111460931B (zh) | 基于颜色通道差值图特征的人脸欺骗检测方法及系统 | |
WO2021073493A1 (zh) | 图像处理方法及装置、神经网络的训练方法、合并神经网络模型的图像处理方法、合并神经网络模型的构建方法、神经网络处理器及存储介质 | |
CN110751649B (zh) | 视频质量评估方法、装置、电子设备及存储介质 | |
CN112991278B (zh) | RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统 | |
KR20200140713A (ko) | 이미지 디테일 향상을 위한 신경 네트워크 모델 학습 방법 및 장치 | |
WO2023284401A1 (zh) | 图像美颜处理方法、装置、存储介质与电子设备 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
Hu et al. | A multi-stage underwater image aesthetic enhancement algorithm based on a generative adversarial network | |
CN111881920B (zh) | 一种大分辨率图像的网络适配方法及神经网络训练装置 | |
CN113553954A (zh) | 行为识别模型的训练方法及装置、设备、介质和程序产品 | |
Krishnan et al. | SwiftSRGAN-Rethinking super-resolution for efficient and real-time inference | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
Liu et al. | Arbitrary-scale super-resolution via deep learning: A comprehensive survey | |
CN111861877A (zh) | 视频超分变率的方法和装置 | |
CN115565107A (zh) | 一种基于双流架构的视频显著性预测方法 | |
CN114743148A (zh) | 多尺度特征融合篡改视频检测方法、系统、介质和设备 | |
Chen et al. | Application of generative adversarial network in image color correction | |
CN114005157A (zh) | 一种基于卷积神经网络的像素位移向量的微表情识别方法 | |
CN114463192A (zh) | 一种基于深度学习的红外视频畸变校正的方法 | |
CN114064970A (zh) | 一种基于数据增强的视频彩铃分类方法 | |
CN114299105A (zh) | 图像处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220603 |
|
CF01 | Termination of patent right due to non-payment of annual fee |