CN111353399A - 篡改视频检测方法 - Google Patents
篡改视频检测方法 Download PDFInfo
- Publication number
- CN111353399A CN111353399A CN202010111043.2A CN202010111043A CN111353399A CN 111353399 A CN111353399 A CN 111353399A CN 202010111043 A CN202010111043 A CN 202010111043A CN 111353399 A CN111353399 A CN 111353399A
- Authority
- CN
- China
- Prior art keywords
- video
- network model
- features
- face
- face image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims description 30
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000009432 framing Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 8
- 230000015654 memory Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009429 distress Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种篡改视频检测方法,包括:对待检测视频进行分帧操作,并从分帧操作得到的连续视频帧中提取人脸区域,从而得到每一视频帧中的人脸图像;将提取到的人脸图像输入至预训练卷积神经网络模型,来提取反映人脸区域的空间不连续特性的特征;将卷积神经网络提取到的特征输入至能够捕捉时间特性的长短期记忆网络模型中,输出的人脸图像的时空特征通过softmax层来计算待检测视频是否被篡改,得到真实和篡改两个类别的概率。
Description
技术领域
本发明涉及网络空间安全技术领域,尤其涉及一种篡改视频检测方法。
背景技术
随着深度学习技术快速发展,越来越多的人可以利用基于机器学习的软件工具轻松篡改视频人脸,图像造假代价小,影响大,很容易造成不可预估的后果。这些逼真的虚假视频可能会制造恐慌和政治困境,虚假信息故意制造谎言然后在真相的掩护下传播,这势必将造成假新闻的泛滥和社会的恐慌,虚假视频的过度传播将会威胁群众对客观现实的信心。作为新兴的网络安全威胁载体,虚假视频因其独特的存在形式更容易让群众相信,因此一旦广泛传播则造成的后果更加严重。随着视频造假技术的不断发展,更加逼真的deepfake视频,对社会安定构成了极大的挑战。
虚假视频的泛滥以及各种不可预估的后果,也引导了许多鉴别这些虚假视频的技术方法的诞生和发展。根据人体的生理特性很难被模仿的特点,提出基于人物眼睛眨眼频率的检测进而发展到根据人物在说话时唇形的动作瑕疵明显,进一步提出的根据“软性生物识别”标签,即人们在说话时产生的头、手、眼睛和唇形等微妙变化是创造虚假视频时候暂时未考虑到的元素,以及加上对视频声音元素的分析,在一段时间内的确能准确检测出虚假视频,但是随着造假技术发展迅猛这些方法显然已经难以满足要求。传统的基于图像的检测模型例如VGG网络、facenet算法、以及结合图像质量检测和支持向量机的技术错误率极高,远远达不到实际应用的要求。
发明内容
本发明的目的是提供一种篡改视频检测方法,具有较高的检测准确度。
本发明的目的是通过以下技术方案实现的:
一种篡改视频检测方法,包括:
对待检测视频进行分帧操作,并从分帧操作得到的连续视频帧中提取人脸区域,从而得到每一视频帧中的人脸图像;
将提取到的人脸图像输入至预训练卷积神经网络模型,来提取反映人脸区域的空间不连续特性的特征;
将卷积神经网络提取到的特征输入至能够捕捉时间特性的长短期记忆网络模型中,输出的人脸图像的时空特征通过softmax层来计算待检测视频是否被篡改,得到真实和篡改两个类别的概率。
由上述本发明提供的技术方案可以看出,对视频的预处理非常简单,完全不需要人工设计和提取特征且该方法充分利用视频帧内空间特征以及视频帧间的时间特征,自动提取空间维度的视频人脸区域不一致特征以及时间维度的视频人脸区域不连续特征并进行分类,可以端到端的训练。此外,该方法不依赖特定的人类先验知识,具有更好的泛化性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种篡改视频检测方法的模型结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
为了针对日益成熟的deepfake视频篡改技术,提高视频自动化检测精度,减轻人工审核的负担,本发明实施例提供一种篡改视频检测方法,通过CNN与RNN提取视频帧内的空间特征与视频帧间的时间特征,利用时空特征能够更精确更有效的检测篡改视频。
如图1所示,为本发明实施例提供的一种篡改视频检测方法的模型结构示意图,主要包括如下三个部分:
1、视频预处理。
本发明实施例中,对待检测视频进行分帧操作,并从分帧操作得到的连续视频帧中提取人脸区域,从而得到每一视频帧中的人脸图像。
示例性的,分帧操作通过ffmpeg实现,ffmpeg为常规的计算机程序。
本发明实施例中,通过分帧操作截取连续的视频帧可以更快速更有效的判断视频是否有篡改痕迹;为了提高模型的准确性能,使用一种保守的方案,即包含人脸的指定倍数范围的区域,再进行人脸对齐,得到对应的人脸图像。
示例性的,指定倍数可以设为1.3倍,最终人脸图像的大小可以设为299×299,连续视频帧可以为N帧,N=10。
2、人脸特征提取。
本发明实施例中,将提取到的人脸图像输入至预训练卷积神经网络模型(CNN),来提取反映人脸区域的空间不连续特性的特征。
本发明实施例中,预训练卷积神经网络模型包括:在Imagenet分类任务上的预训练卷积神经网络模型Xception,所述Xception能够将通道关系映射和空间关系映射完全解耦,Xception使用了多个深度可分离卷积结构构成特征提取器,特征提取器内的深度可分离卷积结构(depthwise separable)使用残差连接,从而能够捕捉人脸区域的空间不连续特性的特征,Xception最后池化层输出的特征将输入至长短期记忆网络模型。
示例性的,Xception网络使用36个深度可分离卷积层来提取以构成基本的特征提取器,在Xception网络中除了第一个和最后一个模块外所有的模块均使用残差连接。简而言之,Xception网络是具有残差连接的深度可分离层的线性堆叠,它可以充分捕捉篡改后人脸图片不一致性的特征。在本示例中,使用ImageNet预训练模型输出每帧人脸区域的特征表示,去掉Xception网络顶部的全连接层,获取最后一个池化层之后的2048维特征向量。
3、篡改视频检测。
将卷积神经网络提取到的特征输入至能够捕捉时间特性的长短期记忆网络(LSTM) 模型中,输出的人脸图像的时空特征通过softmax层来计算待检测视频是否被篡改,得到真实和篡改两个类别的概率。
本发明实施例中,LSTM模型是一种RNN(循环神经网络),它与softmax层中设有dropdout全连接层,一并构成了视频检测单元;视频检测单元的损失函数采用交叉熵损失函数。由于LSTM模型是本发明中的一个内部单元,因此可以不需要任何辅助的损失函数来进行端到端地训练。
篡改视频检测主要原理为:对于篡改的人脸视频,每帧数据人脸篡改时视频帧之间是相互独立无关的,篡改后的视频在人脸区域缺乏时间上的一致性。因此,对于篡改后的虚假视频检测,使用能够捕捉时间特性的LSTM模型来进行二分类任务识别检测。在本示例中,将Xception提取的2048维人脸区域特征输入LSTM单元,使用连续N=10帧人脸进行篡改视频检测。在LSTM后添加一个512维的dropdout全连接层,最后使用softmax计算待检测视频是否经过篡改,最后输出至2维的全连接层使用softmax归一化可以得到真实和篡改两个类别的概率。
本发明实施例中,全连接层需要跟随网络一起训练,从而能够从时空特性来区分输入的特征,Softmax应用于分类任务是一种很常规的技术,它将多个神经元的输出通过softmax函数作用映射为0到1之间的值,并且这些值的累计和为1(满足概率性质)。比如两个神经元的输出值为0.9和0.5,通过softmax计算i、j表示第i、j个神经元的元素进而输出值为0.599和0.401。可以理解为检测为真实视频的概率为0.599,检测为篡改视频的概率为0.401。
得到真实和篡改两个类别的概率后可以通过常规方式来确定最终检测结果,例如,通过设定的阈值来判断,在某个示例中,真实和篡改两个类别的概率为(0.99, 0.01),也即为真实的概率是99%,被篡改的概率为1%,真实的概率大于设定的阈值 (例如90%),则此时可以认为相应视频是真实视频。
本发明上述检测过程中,通过Xception充分提取帧内人脸区域的空间不连续特性,通过LSTM捕捉到视频帧内人脸区域的时间不一致性,充分利用视频的时空特征进行篡改视频检测,显著提升的检测准确度。
本发明实施例上述方案,可以应用于社交媒体,如微博、抖音和快手等短视频平台的后端进行篡改视频检测。在用户进行上传视频时,可以将视频通过上述方案来进行检测得到视频是否经过篡改的概率。在实际应用中,上述方案可以应用在程序的底层视频上传检测过程中,方便后台人员设置阈值进行高效率自动化审核,随后提示视频上传者进行篡改视频的显著标识,以减轻人工成本,具有较强的实用性。
为了说明本发明实施例上述方案的效果,与现有的方案进行了测试实验。
在实验中,数据集使用FaceForensics++。该数据集收集于Youtube平台,包含1000个视频进行训练与检测,并且提供1000个deepfake模型用于生成和扩充新的数据。实验结果如表1所示,可见本发明上述方案具有最好的分类效果(即检测准确度)。
采用模型 | XceptionNet Full Image | MesoNet | 本发明图1所示模型 |
分类准确率 | 0.745 | 0.873 | 0.896 |
表1测试实验结果
表1中,XceptionNet Full Image模型仅仅使用Xception对视频帧的全部图像提取特征进行检测,分类准确率为74.5%。MesoNet模型利用少量层CNN提取图像的宏观特征与微观特征之间的中间特征进行检测,分类准确率为87.3%。而本发明图1所示模型的分类准确率可到89.6%,可见,本发明的分类优于其他现有模型。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (4)
1.一种篡改视频检测方法,其特征在于,包括:
对待检测视频进行分帧操作,并从分帧操作得到的连续视频帧中提取人脸区域,从而得到每一视频帧中的人脸图像;
将提取到的人脸图像输入至预训练卷积神经网络模型,来提取反映人脸区域的空间不连续特性的特征;
将卷积神经网络提取到的特征输入至能够捕捉时间特性的长短期记忆网络模型中,输出的人脸图像的时空特征通过softmax层来计算待检测视频是否被篡改,得到真实和篡改两个类别的概率。
2.根据权利要求1所述的一种篡改视频检测方法,其特征在于,所述分帧操作通过ffmpeg实现,所提取的人脸区域为包含人脸的指定倍数范围的区域,再进行人脸对齐,得到对应的人脸图像。
3.根据权利要求1所述的一种篡改视频检测方法,其特征在于,所述预训练卷积神经网络模型包括:在Imagenet分类任务上的预训练卷积神经网络模型Xception,所述Xception能够将通道关系映射和空间关系映射完全解耦,Xception使用了多个深度可分离卷积结构构成特征提取器,特征提取器内的深度可分离卷积结构使用残差连接,从而能够捕捉人脸区域的空间不连续特性的特征,Xception最后池化层输出的特征将输入至长短期记忆网络模型。
4.根据权利要求1所述的一种篡改视频检测方法,其特征在于,长短期记忆网络模型输出的时空特征经全连接层输入至softmax层;长短期记忆网络模型、全连接层和softmax层,一并构成了视频检测单元;视频检测单元的损失函数采用交叉熵损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010111043.2A CN111353399A (zh) | 2020-02-24 | 2020-02-24 | 篡改视频检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010111043.2A CN111353399A (zh) | 2020-02-24 | 2020-02-24 | 篡改视频检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111353399A true CN111353399A (zh) | 2020-06-30 |
Family
ID=71194036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010111043.2A Pending CN111353399A (zh) | 2020-02-24 | 2020-02-24 | 篡改视频检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353399A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860414A (zh) * | 2020-07-29 | 2020-10-30 | 中国科学院深圳先进技术研究院 | 一种基于多特征融合检测Deepfake视频方法 |
CN112733733A (zh) * | 2021-01-11 | 2021-04-30 | 中国科学技术大学 | 伪造视频检测方法、电子设备及存储介质 |
CN112734696A (zh) * | 2020-12-24 | 2021-04-30 | 华南理工大学 | 基于多域特征融合的换脸视频篡改检测方法及系统 |
CN112927202A (zh) * | 2021-02-25 | 2021-06-08 | 华南理工大学 | 多时域多特征结合的Deepfake视频检测方法及系统 |
CN114550268A (zh) * | 2022-03-01 | 2022-05-27 | 北京赛思信安技术股份有限公司 | 一种利用时空特征的深度伪造视频检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399826A (zh) * | 2019-07-22 | 2019-11-01 | 清华大学深圳研究生院 | 一种端到端人脸检测和识别方法 |
CN110826440A (zh) * | 2019-10-28 | 2020-02-21 | 华南理工大学 | 一种基于眼动特征的换脸视频篡改检测方法及系统 |
-
2020
- 2020-02-24 CN CN202010111043.2A patent/CN111353399A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399826A (zh) * | 2019-07-22 | 2019-11-01 | 清华大学深圳研究生院 | 一种端到端人脸检测和识别方法 |
CN110826440A (zh) * | 2019-10-28 | 2020-02-21 | 华南理工大学 | 一种基于眼动特征的换脸视频篡改检测方法及系统 |
Non-Patent Citations (1)
Title |
---|
DAVID GÜERA 等: "Deepfake Video Detection Using Recurrent Neural Networks", 《2018 15TH IEEE INTERNATIONAL CONFERENCE ON ADVANCED VIDEO AND SIGNAL BASED SURVEILLANCE (AVSS)》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860414A (zh) * | 2020-07-29 | 2020-10-30 | 中国科学院深圳先进技术研究院 | 一种基于多特征融合检测Deepfake视频方法 |
CN111860414B (zh) * | 2020-07-29 | 2023-10-24 | 中国科学院深圳先进技术研究院 | 一种基于多特征融合检测Deepfake视频方法 |
CN112734696A (zh) * | 2020-12-24 | 2021-04-30 | 华南理工大学 | 基于多域特征融合的换脸视频篡改检测方法及系统 |
CN112734696B (zh) * | 2020-12-24 | 2023-01-13 | 华南理工大学 | 基于多域特征融合的换脸视频篡改检测方法及系统 |
CN112733733A (zh) * | 2021-01-11 | 2021-04-30 | 中国科学技术大学 | 伪造视频检测方法、电子设备及存储介质 |
CN112927202A (zh) * | 2021-02-25 | 2021-06-08 | 华南理工大学 | 多时域多特征结合的Deepfake视频检测方法及系统 |
CN112927202B (zh) * | 2021-02-25 | 2022-06-03 | 华南理工大学 | 多时域多特征结合的Deepfake视频检测方法及系统 |
CN114550268A (zh) * | 2022-03-01 | 2022-05-27 | 北京赛思信安技术股份有限公司 | 一种利用时空特征的深度伪造视频检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Recognizing spontaneous micro-expression using a three-stream convolutional neural network | |
Wang et al. | Hierarchical attention network for action recognition in videos | |
CN111353399A (zh) | 篡改视频检测方法 | |
Yang et al. | Preventing deepfake attacks on speaker authentication by dynamic lip movement analysis | |
CN110889672B (zh) | 一种基于深度学习的学生打卡及上课状态的检测系统 | |
CN106778595B (zh) | 基于高斯混合模型的人群中异常行为的检测方法 | |
Avgerinakis et al. | Recognition of activities of daily living for smart home environments | |
CN103605972A (zh) | 一种基于分块深度神经网络的非限制环境人脸验证方法 | |
Barnich et al. | Frontal-view gait recognition by intra-and inter-frame rectangle size distribution | |
US11514715B2 (en) | Deepfake video detection system and method | |
CN113537027B (zh) | 基于面部划分的人脸深度伪造检测方法及系统 | |
Saddique et al. | Classification of authentic and tampered video using motion residual and parasitic layers | |
Jin et al. | Countering spoof: towards detecting deepfake with multidimensional biological signals | |
CN115223246A (zh) | 一种人员违规行为识别方法、装置、设备及存储介质 | |
CN117975577A (zh) | 一种基于面部动态集成的深度伪造检测方法及系统 | |
Ma et al. | Feature extraction for visual speaker authentication against computer-generated video attacks | |
RU2005100267A (ru) | Способ и система автоматической проверки присутствия живого лица человека в биометрических системах безопасности | |
CN109886251A (zh) | 一种基于姿势引导对抗学习的端到端的行人再识别方法 | |
Al-Obaidi et al. | Modeling temporal visual salience for human action recognition enabled visual anonymity preservation | |
Rajalaxmi et al. | Deepfake Detection using Inception-ResNet-V2 Network | |
Pei et al. | Convolutional neural networks for class attendance | |
CN110866458A (zh) | 基于三维卷积神经网络的多人动作检测与识别方法与装置 | |
CN116205723A (zh) | 基于人工智能的面签风险检测方法及相关设备 | |
Pushparaj et al. | Using 3D convolutional neural network in surveillance videos for recognizing human actions. | |
Chi et al. | Toward robust deep learning systems against deepfake for digital forensics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200630 |