CN111967344B - 一种面向人脸伪造视频检测的精细化特征融合方法 - Google Patents

一种面向人脸伪造视频检测的精细化特征融合方法 Download PDF

Info

Publication number
CN111967344B
CN111967344B CN202010736565.1A CN202010736565A CN111967344B CN 111967344 B CN111967344 B CN 111967344B CN 202010736565 A CN202010736565 A CN 202010736565A CN 111967344 B CN111967344 B CN 111967344B
Authority
CN
China
Prior art keywords
face
feature
frame
image
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010736565.1A
Other languages
English (en)
Other versions
CN111967344A (zh
Inventor
夏志华
费建伟
顾飞
余佩鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202010736565.1A priority Critical patent/CN111967344B/zh
Publication of CN111967344A publication Critical patent/CN111967344A/zh
Application granted granted Critical
Publication of CN111967344B publication Critical patent/CN111967344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向人脸伪造视频检测的精细化特征融合方法,涉及模式识别领域,方法包括:对真假人脸视频进行帧分解,将视频格式文件转化为连续的图像帧序列;对连续图像帧序列进行人脸位置检测,调整检测结果使人脸框中包含背景;对每一帧图像剪裁人脸框,得到人脸图像训练集,训练EfficientNet B0模型;从人脸图像序列中随机选取连续的N帧,输入EfficientNet B0模型得到特征图组;将特征图组分解为独立的特征图,将相同通道的特征图按照原序列顺序重新堆叠得到新的特征图组并进行二次特征提取,得到特征向量,连接到单个神经元,以sigmoid为激活函数进行最终的视频片段真假分类。本发明既保留了空域信息,又充分提取时域信息,有效地提高伪造检测精度。

Description

一种面向人脸伪造视频检测的精细化特征融合方法
技术领域
本发明涉及模式识别技术领域,尤其涉及一种面向人脸伪造视频检测的精细化特征融合方法。
背景技术
近年来,随着网络通讯技术的飞速发展,信息传播的速度和范围得到了极大地提升,短时间内可以影响到上亿人,因此传播信息的真伪显得尤为重要。虚假的信息会扰乱社会治安,影响民众对社会的信任度。其中,伪造视频是一种新型的伪造信息的方式,特别是对于人脸的伪造。人脸作为身份认证的重要信息,具有先天的便利性和唯一性,民众的潜意识会更加相信以人脸作为身份标识的信息。尽管伪造视频上存在技术难关,早期的人脸伪造还可以通过肉眼看出端倪。但随着深度学习的快速发展,通过基于深度学习的伪造技术,伪造的视频细节处理的能力有了指数级的飞跃。这使得人脸伪造视频变得更加真实,并且越来越难以被肉眼区分。这些技术在实现人脸替换的同时,可以充分拟合人脸的面部表情及特征细节,不仅可以替换人脸,还可以控制其面部表情变化。不法分子通过这些技术,将视频传播到社会上可以获取大量的流量关注,同时赚取巨大的利润,给个人造成极大的名誉损失,影响社会和谐发展。不仅仅如此,利用该技术甚至可能危害国家安全。在这种技术面前,如何保护个人隐私,如何保证视频的真实性和法律效益,都将成为目前亟待解决的问题。
发明内容
发明目的:为了防止人脸伪造视频带来负面影响,本发明提出一种面向人脸伪造视频检测的精细化特征融合方法。利用该方法可以更加精确的捕捉到真假人脸特征在时域上的差异,提高人脸伪造视频检测的精度。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:
一种面向人脸伪造视频检测的精细化特征融合方法,包括如下步骤:
(1)获取包含真假人脸视频的数据集,对数据集中的真假人脸视频进行帧分解,将视频格式文件转化为连续的图像帧序列;
(2)对步骤(1)获得的连续图像帧序列进行人脸位置检测,调整检测结果使人脸框中包含一定面积的背景;对每一帧图像剪裁人脸框,得到连续的人脸图像序列数据集;
(3)将步骤(2)得到的人脸图像序列数据集作为人脸图像训练集,使用该训练集数据训练深度卷积网络EfficientNet B0模型;
(4)从步骤(2)得到的人脸图像序列中随机选取连续的N帧,依次输入深度卷积网络EfficientNet B0模型,将网络最后一个卷积层的输出作为输入帧的深度特征图,对于连续的N帧人脸图像,得到连续的N个深度特征图构成的特征图组;
(5)将步骤(4)中得到的特征图组分解为独立的特征图,将相同通道的特征图按照原序列顺序重新堆叠得到新的特征图组;
(6)将步骤(5)中得到的新的特征图组输入一个权值共享的卷积层进行二次特征提取,该卷积层输出一个特征向量,将该特征向量连接到单个神经元,以sigmoid为激活函数进行最终的视频片段真假分类。
进一步的,在步骤(2)中,使用MTCNN人脸检测器对连续图像帧序列进行人脸位置检测,并对检测结果进行调整,方法如下:
(2.1)使用MTCNN逐帧地对图像帧序列进行人脸检测,MTCNN得到3组返回值:
1)图像中包含人脸的概率;2)人脸矩形框位置信息,以(x,y,w,h)进行表示,其中x,y表示以图像左上角点为原点,检测到的人脸矩形的左上角横纵坐标,w,h分别表示矩形框的宽和高;3)检测到的人脸的5个关键点位置;
(2.2)对于步骤(2.1)中检测到的人脸,计算人脸框中心坐标点Pcenter,公式如下:
Figure BDA0002605196060000021
以Pcenter为中心,以人脸框中的长边作为参照,将人脸框扩展α倍,扩展公式如下:
Figure BDA0002605196060000022
其中,Rectnew表示扩展后的人脸矩形框位置信息;
(2.3)根据步骤(2.2)中扩展后的人脸矩形框信息,从连续的图像帧序列中裁剪出包含人脸的图像块,得到人脸图像序列,当MTCNN返回检测到人脸的概率低于设定的阈值时,不对该图像进行剪裁。
进一步的,在步骤(3)中,利用剪裁后的人脸图像训练集训练深度卷积网络EfficientNet B0模型,方法如下:
(3.1)利用EfficientNet B0模型在ImageNet数据集上训练好的权重进行模型初始化;
(3.2)将EfficientNet B0模型的最后一层神经元的分类层剔除,对最后一层卷积层的输出进行全局平均池化,得到特征向量,将其连接到单个以sigmoid作为激活函数的神经元分类层;
(3.3)以小批量随机梯度下降作为优化器,设置动量以及批次大小,二分类交叉熵作为损失函数;将剪裁后的人脸图像训练集重新随机排列,在步骤(3.2)的模型上训练。
进一步的,在步骤(4)中,连续的N帧人脸图像得到深度特征图组的方法如下:
(4.1)对于训练后的EfficientNet B0模型,将其最后一层单神经元分类层与全局平均池化层剔除,得到以人脸图像为输入,最后一层卷积层激活值为输出的特征提取模型,记作M(x;W),其中x表示输入图像,W表示模型的权值;
(4.2)对于N帧人脸图像序列V={I1,I2,...,IN},IN表示第N帧人脸图像,将其输入特征提取模型M(x;W)并得到最后一层卷积层的激活值,作为输入人脸图像序列的深度特征组,记作
Figure BDA0002605196060000031
其中H,W和C分别表示每个输入人脸图像对应深度特征图的高、宽与通道数,F表示特征图。
进一步的,所述步骤(5)将相同通道的特征图按照原序列顺序重新堆叠得到新的特征图组,方法如下:
(5.1)将特征图组拆分,得到N×C个尺寸为H×W的特征图,记作
Figure BDA0002605196060000032
其中,n表示该特征图f是从第n帧提取而来,c表示该特征图f的通道索引,n∈[1,N],c∈[1,C];
(5.2)将特征图f按照帧序号n的顺序进行重组,即对于具有相同的通道索引c的特征图f,根据对应原始帧序列的次序重新组合,得到新的特征图组
Figure BDA0002605196060000033
Fnew表示新的特征图。
进一步的,在步骤(6)中,利用权值共享的卷积层进行最终的视频片段真假分类的方法如下:
(6.1)对于包含C个
Figure BDA0002605196060000034
的新特征图组,利用权值共享卷积层,分别将Fnew作为输入,输出由C个标量特征构成的C维特征;
(6.2)对于步骤(6.1)输出的C维特征,直接将其连接到单个神经元,对该神经元使用sigmoid激活函数进行非线性处理,将输出规范到[0,1],输出越接近0,输入人脸图像序列的伪造概率则越大,反之越小。
有益效果:与现有技术相比,本发明的技术方案具有以下有益的技术效果:
本发明提出的面向人脸伪造视频检测的精细化特征融合方法能够从特征图级别提取输入人脸图像序列的动态特征。相比于现有的CNN-LSTM架构算法,不仅可以保留空域信息,对于时域信息的提取也更加充分。本发明方法可以有效地提高伪造检测精度,对于多种伪造算法都有效果。
附图说明
图1是EfficientNet B0的完整结构;
图2是EfficientNet B0中的MBConv模块的结构图;
图3是特征融合模块的结构图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
本发明所述的一种面向人脸伪造视频检测的精细化特征融合方法,包括如下步骤:
(1)获取包含真假人脸视频的数据集,对数据集中的真假人脸视频进行帧分解,将视频格式文件转化为连续的图像帧序列。
(2)使用MTCNN人脸检测器对步骤(1)获得的连续图像帧序列进行人脸位置检测,调整检测结果使人脸框中包含一定面积的背景;对每一帧图像剪裁人脸框,得到连续的人脸图像序列数据集;具体包括:
(2.1)使用MTCNN逐帧地对图像帧序列进行人脸检测,MTCNN得到3组返回值:1)图像中包含人脸的概率;2)人脸矩形框位置信息,以(x,y,w,h)进行表示,其中x,y表示以图像左上角点为原点,检测到的人脸矩形的左上角横纵坐标,w,h分别表示矩形框的宽和高;3)检测到的人脸的5个关键点位置;
(2.2)对于步骤(2.1)中检测到的人脸,计算人脸框中心坐标点Pcenter,公式如下:
Figure BDA0002605196060000041
以Pcenter为中心,以人脸框中的长边作为参照,将人脸框扩展α倍,扩展公式如下:
Figure BDA0002605196060000042
其中,Rectnew表示扩展后的人脸矩形框位置信息,该位置信息对应的四个元素同样分别表示新矩形框的左上角横纵坐标以及其宽和高;
(2.3)根据步骤(2.2)中扩展后的人脸矩形框信息,从连续的图像帧序列中裁剪出包含人脸的图像块,得到人脸图像序列,当MTCNN返回检测到人脸的概率低于设定的阈值时,不对该图像进行剪裁。本实施例中,将人脸概率阈值设定为0.85,即当MTCNN返回检测到人脸的概率低于0.85时,不对该图像进行剪裁。
(3)将步骤(2)得到的人脸图像序列数据集作为人脸图像训练集,使用该训练集数据训练深度卷积网络EfficientNet B0模型;方法如下:
(3.1)利用EfficientNet B0模型在ImageNet数据集上训练好的权重进行模型初始化;
(3.2)将EfficientNet B0模型的最后一层神经元的分类层剔除,对最后一层卷积层的输出进行全局平均池化,得到1480维的特征向量,将其连接到单个以sigmoid作为激活函数的神经元分类层;
(3.3)以小批量随机梯度下降作为优化器,设置动量为0.95,批次大小为32,二分类交叉熵作为损失函数;将剪裁后的人脸图像训练集重新随机排列,在步骤(3.2)的模型上训练10个epochs。
EfficientNet B0模型的架构如图1所示,主要包括MBConv模块,该模块包含5个1×1卷积与1个通道分离卷积,MBConv模块的结构如图2所示。
(4)从步骤(2)得到的人脸图像序列中随机选取连续的N帧,依次输入深度卷积网络EfficientNet B0模型,将网络最后一个卷积层的输出作为输入帧的深度特征图,对于连续的N帧人脸图像,得到连续的N个深度特征图构成的特征图组;方法如下:
(4.1)对于训练后的EfficientNet B0模型,将其最后一层单神经元分类层与全局平均池化层剔除,得到以人脸图像为输入,最后一层卷积层激活值为输出的特征提取模型,记作M(x;W),其中x表示输入图像,W表示模型的权值;
(4.2)对于N帧人脸图像序列V={I1,I2,...,IN},IN表示第N帧人脸图像,将其输入特征提取模型M(x;W)并得到最后一层卷积层的激活值,作为输入人脸图像序列的深度特征组,记作
Figure BDA0002605196060000051
其中H,W和C分别表示每个输入人脸图像对应深度特征图的高、宽与通道数,F表示特征图。本实施例中,H,W和C分别为7,7与1480。
(5)将步骤(4)中得到的特征图组分解为独立的特征图,将相同通道的特征图按照原序列顺序重新堆叠得到新的特征图组;方法如下:
(5.1)将特征图组拆分,得到N×C个尺寸为H×W的特征图,记作
Figure BDA0002605196060000052
其中,n表示该特征图f是从第n帧提取而来,c表示该特征图f的通道索引,n∈[1,N],c∈[1,C];
(5.2)将特征图f按照帧序号n的顺序进行重组,即对于具有相同的通道索引c的特征图f,根据对应原始帧序列的次序重新组合,得到新的特征图组
Figure BDA0002605196060000053
Fnew表示新的特征图。
(6)将步骤(5)中得到的新的特征图组输入一个权值共享的卷积层进行二次特征提取,权值共享的卷积层的结构如图3所示,包含3个3×3的卷积与激活函数,该卷积层输出一个特征向量,将该特征向量连接到单个神经元,以sigmoid为激活函数进行最终的视频片段真假分类;具体如下:
(6.1)对于包含C个
Figure BDA0002605196060000054
的新特征图组,利用权值共享卷积层,分别将Fnew作为输入,输出由C个标量特征构成的C维特征;
(6.2)对于步骤(6.1)输出的C维特征,直接将其连接到单个神经元,对该神经元使用sigmoid激活函数进行非线性处理,将输出规范到[0,1],输出越接近0,输入人脸图像序列的伪造概率则越大,反之越小。
本实施例在DeepFakes Detection Challenge Preview(DFDC-P)与Celeb-DF两个大型伪造人脸视频数据集上进行了训练与测试,表1中展示了两个数据集的基本信息。本实施例测试了不同序列长度N的变化对检测精度的影响,并与著名的时空特征提取模型CNN-LSTM进行了对比,DFDC-P上的相关结果即DFDC-P上不同帧数对于检测精度的影响展示在表2中,Celeb-DF的结果即Celeb-DF上不同帧数对于检测精度的影响展示在表3中。可以发现,在两个数据集上,随着序列长度的增加,精度也随之增加直到帧数达到15帧,并且无论N的大小,本发明所提出的方案的精度总是高于著名的CNN-LSTM模型,进一步证明了本方案在时域特征融合中的优越性。
表1
数据集 真实视频/伪造视频 总帧数(百万) 分辨率
DFDC-P 1131/4113 88.4/1783.3 180p-2160p
Celeb-DF 890/5639 358.8/2116.8 多尺度
表2
序列长度 3 6 9 12 15 18
本方案 84.76 83.14 82.75 85.28 84.81 83.19
CNN-LSTM 79.08 80.50 80.28 80.78 81.91 79.75
表3
序列长度 3 6 9 12 15 18
本方案 95.86 96.27 96.17 97.12 96.91 95.28
CNN-LSTM 95.22 95.06 95.13 96.53 96.38 95.28
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (5)

1.一种面向人脸伪造视频检测的精细化特征融合方法,其特征在于:该方法包括如下步骤:
(1)获取包含真假人脸视频的数据集,对数据集中的真假人脸视频进行帧分解,将视频格式文件转化为连续的图像帧序列;
(2)对步骤(1)获得的连续图像帧序列进行人脸位置检测,调整检测结果使人脸框中包含一定面积的背景;对每一帧图像剪裁人脸框,得到连续的人脸图像序列数据集;
(3)将步骤(2)得到的人脸图像序列数据集作为人脸图像训练集,使用该训练集数据训练深度卷积网络EfficientNet B0模型,方法如下:
(3.1)利用EfficientNet B0模型在ImageNet数据集上训练好的权重进行模型初始化;
(3.2)将EfficientNet B0模型的最后一层神经元的分类层剔除,对最后一层卷积层的输出进行全局平均池化,得到特征向量,将其连接到单个以sigmoid作为激活函数的神经元分类层;
(3.3)以小批量随机梯度下降作为优化器,设置动量以及批次大小,二分类交叉熵作为损失函数;将剪裁后的人脸图像训练集重新随机排列,在步骤(3.2)的模型上训练;
(4)从步骤(2)得到的人脸图像序列中随机选取连续的N帧,依次输入深度卷积网络EfficientNet B0模型,将网络最后一个卷积层的输出作为输入帧的深度特征图,对于连续的N帧人脸图像,得到连续的N个深度特征图构成的特征图组;
(5)将步骤(4)中得到的特征图组分解为独立的特征图,将相同通道的特征图按照原序列顺序重新堆叠得到新的特征图组;
(6)将步骤(5)中得到的新的特征图组输入一个权值共享的卷积层进行二次特征提取,该卷积层输出一个特征向量,将该特征向量连接到单个神经元,以sigmoid为激活函数进行最终的视频片段真假分类。
2.根据权利要求1所述的一种面向人脸伪造视频检测的精细化特征融合方法,其特征在于:在步骤(2)中,使用MTCNN人脸检测器对连续图像帧序列进行人脸位置检测,并对检测结果进行调整,方法如下:
(2.1)使用MTCNN逐帧地对图像帧序列进行人脸检测,MTCNN得到3组返回值:
1)图像中包含人脸的概率;2)人脸矩形框位置信息,以(x,y,w,h)进行表示,其中x,y表示以图像左上角点为原点,检测到的人脸矩形的左上角横纵坐标,w,h分别表示矩形框的宽和高;3)检测到的人脸的5个关键点位置;
(2.2)对于步骤(2.1)中检测到的人脸,计算人脸框中心坐标点Pcenter,公式如下:
Figure FDA0004221183170000011
以Pcenter为中心,以人脸框中的长边作为参照,将人脸框扩展α倍,扩展公式如下:
Figure FDA0004221183170000021
α*max(w,h),α*max(w,h))其中,Rectnew表示扩展后的人脸矩形框位置信息;
(2.3)根据步骤(2.2)中扩展后的人脸矩形框信息,从连续的图像帧序列中裁剪出包含人脸的图像块,得到人脸图像序列,当MTCNN返回检测到人脸的概率低于设定的阈值时,不对该图像进行剪裁。
3.根据权利要求1所述的一种面向人脸伪造视频检测的精细化特征融合方法,其特征在于:在步骤(4)中,连续的N帧人脸图像得到深度特征图组的方法如下:
(4.1)对于训练后的EfficientNet B0模型,将其最后一层单神经元分类层与全局平均池化层剔除,得到以人脸图像为输入,最后一层卷积层激活值为输出的特征提取模型,记作M(x;W),其中x表示输入图像,W表示模型的权值;
(4.2)对于N帧人脸图像序列V={I1,I2,...,IN},IN表示第N帧人脸图像,将其输入特征提取模型M(x;W)并得到最后一层卷积层的激活值,作为输入人脸图像序列的深度特征组,记作
Figure FDA0004221183170000022
其中H,W和C分别表示每个输入人脸图像对应深度特征图的高、宽与通道数,F表示特征图。
4.根据权利要求3所述的一种面向人脸伪造视频检测的精细化特征融合方法,其特征在于:所述步骤(5)将相同通道的特征图按照原序列顺序重新堆叠得到新的特征图组,方法如下:
(5.1)将特征图组拆分,得到N×C个尺寸为H×W的特征图,记作fn c,其中,n表示该特征图f是从第n帧提取而来,c表示该特征图f的通道索引,n∈[1,N],c∈[1,C];
(5.2)将特征图f按照帧序号n的顺序进行重组,即对于具有相同的通道索引c的特征图f,根据对应原始帧序列的次序重新组合,得到新的特征图组
Figure FDA0004221183170000023
Fnew表示新的特征图。
5.根据权利要求4所述的一种面向人脸伪造视频检测的精细化特征融合方法,其特征在于:在步骤(6)中,利用权值共享的卷积层进行最终的视频片段真假分类的方法如下:
(6.1)对于包含C个
Figure FDA0004221183170000024
的新特征图组,利用后续的权值共享卷积层,分别将Fnew作为输入,输出由C个标量特征构成的C维特征;
(6.2)对于步骤(6.1)输出的C维特征,直接将其连接到单个神经元,对该神经元使用sigmoid激活函数进行非线性处理,将输出规范到[0,1]。
CN202010736565.1A 2020-07-28 2020-07-28 一种面向人脸伪造视频检测的精细化特征融合方法 Active CN111967344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010736565.1A CN111967344B (zh) 2020-07-28 2020-07-28 一种面向人脸伪造视频检测的精细化特征融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010736565.1A CN111967344B (zh) 2020-07-28 2020-07-28 一种面向人脸伪造视频检测的精细化特征融合方法

Publications (2)

Publication Number Publication Date
CN111967344A CN111967344A (zh) 2020-11-20
CN111967344B true CN111967344B (zh) 2023-06-20

Family

ID=73363094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010736565.1A Active CN111967344B (zh) 2020-07-28 2020-07-28 一种面向人脸伪造视频检测的精细化特征融合方法

Country Status (1)

Country Link
CN (1) CN111967344B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488013B (zh) * 2020-12-04 2022-09-02 重庆邮电大学 基于时序不一致性的深度伪造视频检测方法及系统
CN114697741B (zh) * 2020-12-30 2023-06-30 腾讯科技(深圳)有限公司 多媒体信息的播放控制方法及相关设备
CN113496046B (zh) * 2021-01-18 2024-05-10 华翼(广东)电商科技有限公司 一种基于区块链的电商物流系统及方法
CN112766158B (zh) * 2021-01-20 2022-06-03 重庆邮电大学 基于多任务级联式人脸遮挡表情识别方法
CN112749686B (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 图像检测方法、装置、计算机设备及存储介质
CN112927202B (zh) * 2021-02-25 2022-06-03 华南理工大学 多时域多特征结合的Deepfake视频检测方法及系统
CN113076876B (zh) * 2021-04-02 2023-01-31 华南理工大学 一种基于三维结构监督和置信度加权的人脸欺骗检测方法和系统
CN113466852B (zh) * 2021-06-08 2023-11-24 江苏科技大学 应用于随机干扰场景下的毫米波雷达动态手势识别方法
CN113449657B (zh) * 2021-07-05 2022-08-30 中山大学 一种基于人脸关键点的深度伪造人脸视频检测方法、系统及介质
CN113269167B (zh) * 2021-07-19 2021-09-28 南京理工大学 一种基于图像分块打乱的人脸伪造检测方法
CN113570564B (zh) * 2021-07-21 2024-02-27 同济大学 一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法
CN113762138B (zh) * 2021-09-02 2024-04-23 恒安嘉新(北京)科技股份公司 伪造人脸图片的识别方法、装置、计算机设备及存储介质
CN113989586B (zh) * 2021-10-26 2024-07-26 山东省人工智能研究院 一种基于人脸几何运动特征的真假视频检测方法
CN114596608B (zh) * 2022-01-19 2023-03-28 中国科学院自动化研究所 一种基于多线索的双流视频人脸伪造检测方法及系统
CN115457367B (zh) * 2022-09-22 2023-09-26 淮阴工学院 一种基于Light-Net的轻量级目标检测方法及系统
CN115311525B (zh) * 2022-10-08 2023-03-14 阿里巴巴(中国)有限公司 深度伪造检测方法及对应装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956572A (zh) * 2016-05-15 2016-09-21 北京工业大学 一种基于卷积神经网络的活体人脸检测方法
CN106570474A (zh) * 2016-10-27 2017-04-19 南京邮电大学 一种基于3d卷积神经网络的微表情识别方法
CN109543526A (zh) * 2018-10-19 2019-03-29 谢飞 基于深度差异性特征的真假面瘫识别系统
CN110059662A (zh) * 2019-04-26 2019-07-26 山东大学 一种深度视频行为识别方法及系统
AU2019101186A4 (en) * 2019-10-02 2020-01-23 Guo, Zhongliang MR A Method of Video Recognition Network of Face Tampering Based on Deep Learning
CN111222447A (zh) * 2019-12-31 2020-06-02 上海悠络客电子科技股份有限公司 基于神经网络及多通道融合lbp特征的活体检测方法
CN111353395A (zh) * 2020-02-19 2020-06-30 南京信息工程大学 一种基于长短期记忆网络的换脸视频检测方法
CN111444881A (zh) * 2020-04-13 2020-07-24 中国人民解放军国防科技大学 伪造人脸视频检测方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956572A (zh) * 2016-05-15 2016-09-21 北京工业大学 一种基于卷积神经网络的活体人脸检测方法
CN106570474A (zh) * 2016-10-27 2017-04-19 南京邮电大学 一种基于3d卷积神经网络的微表情识别方法
CN109543526A (zh) * 2018-10-19 2019-03-29 谢飞 基于深度差异性特征的真假面瘫识别系统
CN110059662A (zh) * 2019-04-26 2019-07-26 山东大学 一种深度视频行为识别方法及系统
AU2019101186A4 (en) * 2019-10-02 2020-01-23 Guo, Zhongliang MR A Method of Video Recognition Network of Face Tampering Based on Deep Learning
CN111222447A (zh) * 2019-12-31 2020-06-02 上海悠络客电子科技股份有限公司 基于神经网络及多通道融合lbp特征的活体检测方法
CN111353395A (zh) * 2020-02-19 2020-06-30 南京信息工程大学 一种基于长短期记忆网络的换脸视频检测方法
CN111444881A (zh) * 2020-04-13 2020-07-24 中国人民解放军国防科技大学 伪造人脸视频检测方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DeepFake Detection by Analyzing Convolutional Traces;Luca Guarnera等;《CVPR 2020》;2841-2850 *
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks;Mingxing Tan等;《arXiv》;1-10 *
Exposing AI-generated videos with motion magnification;Jianwei Fei等;《Multimed Tools Application》;30789-30802 *
一种基于双流网络的Deepfakes检测技术;李旭嵘等;《信息安全学报》;第5卷(第2期);84-91 *
人脸活体检测与识别认证方法研究;肖亚敏;《中国优秀硕士学位论文全文数据库:信息科技辑》(第1期);I138-1849 *

Also Published As

Publication number Publication date
CN111967344A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN111967344B (zh) 一种面向人脸伪造视频检测的精细化特征融合方法
CN104504362A (zh) 基于卷积神经网络的人脸检测方法
CN114067444B (zh) 基于元伪标签和光照不变特征的人脸欺骗检测方法和系统
CN104933414A (zh) 一种基于wld-top的活体人脸检测方法
CN104951793B (zh) 一种基于stdf特征的人体行为识别方法
CN108960088A (zh) 特定环境的面部活体特征检测、识别方法
CN104143091B (zh) 基于改进mLBP的单样本人脸识别方法
CN112069891A (zh) 一种基于光照特征的深度伪造人脸鉴别方法
CN114387641A (zh) 基于多尺度卷积网络和ViT的虚假视频检测方法及系统
CN107392105A (zh) 一种基于反向协同显著区域特征的表情识别方法
Yousaf et al. A robust and efficient convolutional deep learning framework for age‐invariant face recognition
Ma et al. Feature extraction for visual speaker authentication against computer-generated video attacks
Narvaez et al. Painting authorship and forgery detection challenges with ai image generation algorithms: Rembrandt and 17th century dutch painters as a case study
CN114120401A (zh) 一种基于跨域特征对齐网络的人脸反欺诈方法
CN117935375A (zh) 一种手写电子签名防伪造方法
Gupta et al. Real‐Time Gender Recognition for Juvenile and Adult Faces
CN113205044B (zh) 一种基于表征对比预测学习的深度伪造视频检测方法
CN115797970A (zh) 基于YOLOv5模型的密集行人目标检测方法及系统
CN115565231A (zh) 一种隐私保护的人脸防伪方法、系统、终端及介质
Harris et al. An Improved Signature Forgery Detection using Modified CNN in Siamese Network
Omotosho et al. An enhanced multimodal biometric system based on convolutional neural network
Abdelghani et al. A Neuronal Planar Modeling for Handwriting Signature based on Automatic Segmentation
Pan et al. Face Recognition Algorithm Comparison based on Backpropagation Neural Network
Chugh et al. Kohonen Networks for Offline Signature Verification
Kanchan et al. Video forgery detection using machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant