CN117333952A - 一种视频人脸伪造识别方法、系统、设备及介质 - Google Patents
一种视频人脸伪造识别方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN117333952A CN117333952A CN202311366182.XA CN202311366182A CN117333952A CN 117333952 A CN117333952 A CN 117333952A CN 202311366182 A CN202311366182 A CN 202311366182A CN 117333952 A CN117333952 A CN 117333952A
- Authority
- CN
- China
- Prior art keywords
- face
- feature
- video
- module
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 132
- 238000001514 detection method Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims description 48
- 238000004364 calculation method Methods 0.000 claims description 33
- 238000009826 distribution Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012512 characterization method Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 238000005242 forging Methods 0.000 claims description 7
- 210000000887 face Anatomy 0.000 description 19
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 210000001508 eye Anatomy 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 229920001651 Cyanoacrylate Polymers 0.000 description 1
- 239000004830 Super Glue Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/40—Spoof detection, e.g. liveness detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明涉及人脸伪造识别技术领域,公开一种视频人脸伪造识别方法,包括:对人脸音视频流进行解码,通过视频人脸伪造识别模型,得到图像特征向量和语音特征向量;根据图像特征向量,通过视频人脸伪造识别模型进行人脸关键区域追踪;基于人脸关键区域,根据图像特征向量和语音特征向量,通过视频人脸伪造识别模型进行真假人脸特征识别和生物特征检测,得到人脸伪造识别结果。本发明结合图像序列数据和语音序列数据,通过视频人脸伪造识别模型进行轻量、高效的真假人脸特征识别和生物特征检测,同时完成人脸关键区域追踪和人脸伪造识别,能够得到准确的人脸伪造识别结果,及时阻止伪造人脸攻击,避免伪造人脸带来的损失。
Description
技术领域
本发明涉及人脸伪造识别技术领域,尤其涉及一种视频人脸伪造识别方法、系统、设备及介质。
背景技术
当前人脸生成技术随着生成对抗网络(Generative Adversarial Network,GAN)、扩散模型(Diffusion Model,DM)等生成模型的发展日益成熟稳定,对视频进行人脸属性编辑(对人脸的五官进行修改,例如改变眼睛颜色、改变脸型等)、人脸替换(将一个人的人脸换到另一个人上,除了人脸被替换其他地方保持不变)、人脸生成(生成一个现实世界不存在的人脸)等人脸伪造操作越来越接近真实,达到人眼无法判别的水平。传统的视频人脸伪造识别主要以人眼识别为主,图片人脸比对为辅,由于人眼识别的局限性和造假水平的提高,人眼难以判断视频人脸的真实性。近期伪造人脸攻击日益频繁,造成的损失越来越多。
现有的视频人脸伪造识别方法仅通过图片特征,例如人脸纹理、光流信息、高频信息等,进行人脸追踪,没有结合视频的时间信息考虑视频前后的人脸特征变化,也没有综合考虑真假人脸局部特征分布和视频人脸生物特征,无法精确识别视频人脸是否为伪造。
因此,亟需一种可以准确识别视频人脸是否伪造的视频人脸伪造识别方法。
发明内容
本发明提供一种视频人脸伪造识别方法、系统、设备及介质,用以解决现有技术难以准确识别视频人脸是否为伪造的缺陷。
本发明提供一种视频人脸伪造识别方法,包括:
对人脸音视频流进行解码,得到图像序列数据和语音序列数据;
根据图像序列数据和语音序列数据,通过视频人脸伪造识别模型的特征提取模块,得到图像特征向量和语音特征向量;
根据图像特征向量,通过视频人脸伪造识别模型的关键点匹配模块进行人脸关键区域追踪;
基于人脸关键区域,根据图像特征向量和语音特征向量,通过视频人脸伪造识别模型的判别模块进行真假人脸特征识别和生物特征检测,得到人脸伪造识别结果。
根据本发明提供的一种视频人脸伪造识别方法,所述视频人脸伪造识别模型的特征提取模块包括VEF子模块和变换子模块,所述根据图像序列数据和语音序列数据,通过视频人脸伪造识别模型的特征提取模块,得到图像特征向量和语音特征向量,包括:
通过特征提取模块的VEF子模块对图像序列数据进行时间编码,得到图像特征向量;
通过特征提取模块的变换子模块对语音序列数据进行离散傅里叶变换,得到语音特征向量。
根据本发明提供的一种视频人脸伪造识别方法,所述特征提取模块的VEF子模块通过时间编码公式对图像序列数据进行时间编码,其中,所述时间编码公式为:
时间编码公式中,t表示当前图像帧在人脸音视频的时间数值,以秒为单位,dframe表示输出嵌入空间维度,设置为图像序列数,i表示当前视频帧的唯一索引,i=1,2,…,N。
根据本发明提供的一种视频人脸伪造识别方法,所述视频人脸伪造识别模型的关键点匹配模块包括自注意力子模块、交叉注意力子模块、SVM分类器以及相似度计算子模块,所述根据图像特征向量,通过视频人脸伪造识别模型的关键点匹配模块进行人脸关键区域追踪,包括:
根据人脸关键区域中的图像特征向量,通过关键点匹配模块的自注意力子模块和交叉注意力子模块进行特征点串联编码,串联编码向量;
通过关键点匹配模块的SNM分类器判定进行串联编码向量的表征能力,将表征能力大于预设阈值的串联编码向量用于相似度计算;
基于串联编码向量,通过关键点匹配模块的相似度计算子模块,得到人脸关键区域中图像特征向量之间的相似度。
根据本发明提供的一种视频人脸伪造识别方法,所述关键点匹配模块的相似度计算子模块通过特征相似度计算式得到人脸关键区域中图像特征向量之间的相似度,其中,所述特征相似度计算式为:
特征相似度计算式中,ft表示当前时刻人脸关键区域中的图像特征向量,ft-1表示上一时刻人脸关键区域中的图像特征向量。
根据本发明提供的一种视频人脸伪造识别方法,所述视频人脸伪造识别模型的判别模块包括人脸特征分布判别器和生物特征判别器,所述基于人脸关键区域,根据图像特征向量和语音特征向量,通过视频人脸伪造识别模型的判别模块进行真假人脸特征识别和生物特征检测,得到人脸伪造识别结果,包括:
根据图像特征向量,通过判别模块的人脸特征分布判别器,得到真假人脸特征识别结果;
根据图像特征向量和语音特征向量,通过判别模块的生物特征判别器,得到生物特征检测结果;
结合真假人脸特征识别结果和生物特征检测结果,得到人脸伪造概率。
根据本发明提供的一种视频人脸伪造识别方法,所述结合真假人脸特征识别结果和生物特征检测结果,得到人脸伪造概率,具体为:根据结合真假人脸特征识别结果和生物特征检测结果,通过判定公式,得到人脸伪造概率,其中,所述判定公式为:
pro=0.5×softmax(Xt,F)+0.5×softmax(Ot,OF),
判定公式中,Xt表示图像特征向量,Ot表示语音特征向量,F表示判别模块基于图像特征样本数据学习到的真假人脸关键区域特征分布差异,OF表示判别模块基于生物特征样本数据学习到的真假人脸生物特征差异,F和OF作为先验条件,通过softmax函数得到当前时刻人脸伪造的后验概率。
本发明还提供一种视频人脸伪造识别系统,包括:
解码模块,用于:对人脸音视频流进行解码,得到图像序列数据和语音序列数据;
特征提取模块,用于:根据图像序列数据和语音序列数据,通过视频人脸伪造识别模型的特征提取模块,得到图像特征向量和语音特征向量;
关键区域追踪模块,用于:根据图像特征向量,通过视频人脸伪造识别模型的关键点匹配模块进行人脸关键区域追踪;
人脸伪造识别模块,用于:基于人脸关键区域,根据图像特征向量和语音特征向量,通过视频人脸伪造识别模型的判别模块进行真假人脸特征识别和生物特征检测,得到人脸伪造识别结果。
本发明还提供一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现上述任一种所述的视频人脸伪造识别方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一种所述的视频人脸伪造识别方法。
本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述任一种所述的视频人脸伪造识别方法。
本发明提供的一种视频人脸伪造识别方法、系统、设备及介质,在线对人脸音视频流进行解码,提升了图像序列数据和语音序列数据的实时性,结合图像序列数据和语音序列数据,通过视频人脸伪造识别模型进行轻量、高效的真假人脸特征识别和生物特征检测,同时完成人脸关键区域追踪和人脸伪造识别,能够得到准确的人脸伪造识别结果,及时阻止伪造人脸攻击,避免伪造人脸带来的损失。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做出简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种视频人脸伪造识别方法的流程示意图。
图2为视频人脸伪造识别模型(TIDF模型)的结构原理说明图。
图3为VEF子模块的结构原理说明图。
图4为关键点匹配模块(LGVF模块)的结构原理说明图。
图5示出人脸伪造示例。
图6为本发明提供的一种视频人脸伪造识别系统的结构示意图。
图7为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,它们不应该理解成对本发明的限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在本发明的描述中,需要理解的是,所用到的术语仅仅是用于描述的目的,而不能理解为指示或暗示相对重要性。
下面结合图1-图7描述本发明提供的视频人脸伪造识别方法、系统、设备及介质。
图1是本发明提供的视频人脸伪造识别方法的流程示意图。参照图1,本发明提供的一种视频人脸伪造识别方法,可以包括:
步骤110、对人脸音视频流进行解码,得到图像序列数据和语音序列数据;
步骤120、根据图像序列数据和语音序列数据,通过视频人脸伪造识别模型的特征提取模块,得到图像特征向量和语音特征向量;
步骤130、根据图像特征向量,通过视频人脸伪造识别模型的关键点匹配模块进行人脸关键区域追踪;
步骤140、基于人脸关键区域,根据图像特征向量和语音特征向量,通过视频人脸伪造识别模型的判别模块进行真假人脸特征识别和生物特征检测,得到人脸伪造识别结果。
需要说明的是,本发明提供的视频人脸伪造识别方法的执行主体可以是任何符合技术要求的终端侧设备,例如视频人脸伪造识别装置等。
需要说明的是,为了减少多路视频解码带来的延迟,可以采用基于DeepStream组件搭建的NVIDIA GPU硬件解码器对在线视频流进行实时解码,接近无延迟。使用MP4视频流编解码方法,将人脸音视频流解码成图像序列数据和语音序列数据,作为视频人脸伪造识别模型的输入。
需要说明的是,视频人脸伪造识别模型的结构图如图2所示,是一个端到端的视频人脸伪造检测框架,其包括特征提取模块和关键点匹配模块,特征提取模块包括VEF子模块和变换子模块,视频人脸伪造识别模型的关键点匹配模块包括自注意力子模块、交叉注意力子模块、SVM(Support Vector Machine支持向量机分类器,一种基于核函数的机器学习算法)分类器以及相似度计算子模块。
具体的,在线视频流经过解码器输出图像序列数据和音频序列数据,视频序列数据输入到特征提取模块得到关键特征向量,图像特征向量一方面用于关键点匹配,进行目标追踪,另一方面用于特征分布判别器计算真假人脸特征分布差异,语音序列数据经过离散傅里叶采样,得到语音特征向量,用于人脸生物特征检测。最终判别模块输出当前人脸伪造区域及置信度。以图像特征为例,模型训练阶段输入t时刻真假人脸视频帧,大小为[2,3,224,224]的图像,经过特征提取模块提取特征,输出[2,1,480,640]的特征向量,该特征向量输入到关键点匹配模块进行目标追踪,另一个方面用于计算真假人脸生物特征概率,通过最小化交叉熵损失函数完成模型参数更新。
在一种实施例中,步骤120可以包括:
步骤1201、通过特征提取模块的VEF子模块对图像序列数据进行时间编码,得到图像特征向量;
步骤1202、通过特征提取模块的变换子模块对语音序列数据进行离散傅里叶变换,得到语音特征向量。
需要说明的是,特征提取模块采用EfficientFormer V2(一种轻量级神经网络结构,精度和速度超越MobileNet系列)网络,其包括VEF(Video EfficientFormer)子模块和变换子模块,VEF子模块用于对图像序列数据进行时间编码,变换子模块用于对语音序列数据进行离散傅里叶变换,各模块分工明确,有效提高数据处理效率。具体的,图3示出VEF子模块的具体架构,在EfficientFormer V2网络的输入嵌入时间编码,时间编码表达当前视频帧在整通的唯一时间标识,时间编码可用于联系上下文信息。
在一种实施例中,步骤1201中,所述特征提取模块的VEF子模块通过时间编码公式对图像序列数据进行时间编码,其中,所述时间编码公式为:
时间编码公式中,t表示当前图像帧在人脸音视频的时间数值,以秒为单位,dframe表示输出嵌入空间维度,设置为图像序列数,i表示当前视频帧的唯一索引,i=1,2,…,N。
需要说明的是,EfficientFormer V2是CNN(卷积神经网,Convolutional NeuralNetworks)和Transformer(一种应用注意力机制的序列编解码器)结合的主干网络,优化了CNN-Transformer融合网络,对多头注意力进行了轻量化设计,整个特征提取网络在精度和速度上取得较好的权衡,并且该网络加入了位置编码信息,对人脸关键区域的局部特征有更好的表征。本发明在EfficientFormer V2网络的基础上加入时间编码,成功将网络从2维图像应用扩展到视频特征提取上。具体的,把当前时间和每个视频帧对应,使用正弦函数和余弦函数输出当前视频帧的时间编码值,时间编码值由式(1)计算,范围在0~1之间,将时间编码值加入到EfficientFormer V2的输入向量上,完成时间信息嵌入。即,特征提取模块(EfficientFormer V2)的输入为当前视频帧,是一个通道数为3的RGB图像向量,每个像素矩阵加上时间编码值表征时间维度信息。特征提取模块(VEF子模块)借助Transformer对时间序列特征的建模能力,避免了传统方法使用3D卷积对视频特征提取的效率低、实时性差的缺点,既能利用图像特征也能使用时间维度信息,极大减小数据计算量,提高特征提取精度。在A100GPU视频测试中,特征提取模块速度推理单张图片耗时15ms,达到660FPS,大于24FPS,完全满足实时性要求。
在一种实施例中,步骤1202可以包括:
根据人脸关键区域中的图像特征向量,通过关键点匹配模块的自注意力子模块和交叉注意力子模块进行特征点串联编码,串联编码向量;
通过关键点匹配模块的SNM分类器判定进行串联编码向量的表征能力,将表征能力大于预设阈值的串联编码向量用于相似度计算;
基于串联编码向量,通过关键点匹配模块的相似度计算子模块,得到人脸关键区域中图像特征向量之间的相似度。
具体的,所述关键点匹配模块的相似度计算子模块通过特征相似度计算式得到人脸关键区域中图像特征向量之间的相似度,其中,所述特征相似度计算式为:
特征相似度计算式中,ft表示当前时刻人脸关键区域中的图像特征向量,ft-1表示上一时刻人脸关键区域中的图像特征向量。
需要说明的是,参考图4,其示出关键点匹配模块的整体架构,一方面对输入进行改进,将输入由原来的整张图像改为人脸关键区域;另一方面将复杂的MLP分类器换成计算效率更高的SVM。具体的,本发明参考LightGlue关键点匹配模型设计,基于Self-Attention(自注意力机制,表征元素在本序列的重要性)和Cross-Attention(交叉注意力机制,表征元素在另一个序列的重要性)特征点串联编码,搭建关键点匹配模块用于人脸关键区域追踪,在LightGlue基础上将MLP(Multi Layer Perceptron多层感知机,一种全连接神经网络)分类器替换为SVM,并限定关键点为人脸关键区域,而不是整张人脸图像,优化的关键点匹配模块简称LGVF(LightGlue atVideo Face)。当前主流的关键点匹配算法如SuperGlue、LoFTR、LightGlue是针对整张图像进行匹配,计算两张图像所有关键点组合的相似度,当前最较的关键点匹配模型LightGlue在A100 GPU推理平均耗时54ms,即18FPS,无法达到实时性要求。而本发明的关键点匹配模块LGVF限定了关键点仅为人脸关键区域,包括人脸边界区域、眉毛、眼睛、嘴巴、耳朵,每个区域关键点大小为16×16像素,LGVF只需要计算5个人脸关键区域的相似度,并且在特征点编码时使用SVM判断是否继续进行Self-Attention和Cross-Attention串联编码,相比MLP分类器速度上更快。经过串联编码后,提取了深层更具表征性的特征,将对区域的特征向量使用式(2)进行相似度计算。支持向量机SVM分类器在模型训练中学习了提取的特征是否具有表征性,在每一个串联编码后SVM都会计算当前特征表征能力,如果分数低于设阈值,则继续进行串联编码提取特征,如果大于设定阈值则不再进行串联编码,直接用于相似度计算。在视频测试中,LGVF关键点匹配模块推理速度平均在24ms,41FPS,完全满足实时性要求。
在一种实施例中,步骤130可以包括:
步骤1301、根据图像特征向量,通过判别模块的人脸特征分布判别器,得到真假人脸特征识别结果;
步骤1302、根据图像特征向量和语音特征向量,通过判别模块的生物特征判别器,得到生物特征检测结果;
步骤1303、结合真假人脸特征识别结果和生物特征检测结果,得到人脸伪造概率。
在一种实施例中,步骤1303具体为:
根据结合真假人脸特征识别结果和生物特征检测结果,通过判定公式,得到人脸伪造概率,其中,所述判定公式为:
pro=0.5×softmax(Xt,F)+0.5×softmax(Ot,OF) (3)
判定公式中,Xt表示图像特征向量,Ot表示语音特征向量,F表示判别模块基于图像特征样本数据学习到的真假人脸关键区域特征分布差异,OF表示判别模块基于生物特征样本数据学习到的真假人脸生物特征差异,F和OF作为先验条件,通过softmax函数得到当前时刻人脸伪造的后验概率。
需要说明的是,特征分布判别器采用sfotmax函数,与特征提取模块构成一个二分类器,特征分布判别器学习了真实人脸关键区域的特征分布差异和人脸生物特征的特征分布变化规律,输入图像序列数据到二分类器,即可输出当前人脸关键区域伪造概率。参照图5,生成的人脸和真实的人脸的特征分布存在差异,例如,生成的人脸的深层特征分布和真实人脸不同,此外,真实人脸生物特征具有随机性和不确定性,伪造人脸生物特征通常存在一定规律,如伪造人脸不存在眨眼特征或者眨眼很有规律性。生物特征判别器也可以采用sfotmax函数,与特征提取模块构成另一个二分类器,生物特征判别器学习了眨眼特征和眼球转动特征,也学习了嘴型、耳朵运动和语音序列数据的对应关系,只需要输入图像序列数据到该二分类器,即可统计人脸生物特征,并且输出当前嘴型、耳朵运动与语音序列数据相符的概率。最后将特征分布判别器和生物特征判别器的结果通过式(3)进行加权处理,输出最终人脸伪造概率。
以下提供一个将本发明提供的视频人脸伪造识别方法在审核系统上的应用。
首先,收集人脸伪造视频及其对应的真实人脸视频做训练集,该训练集尽量包含目前各种类型的人脸伪造视频数据和真实人脸视频数据,整理成真假人脸视频对,对真假人脸视频标注出五个人脸关键区域,标注格式和人脸关键点标注一致。真假人脸生物特征存在于真假人脸视频对中,无需对人脸生物特征标注,因为真实人脸视频中存在眨眼、嘴型和声音一致等生物特征,模型从真实人脸视频中学习到的生物特征作为真实人脸生物特征,而伪造人脸视频的生物特征模型学习到的是假人脸特征,模型通过输入真假人脸视频对进行学习,即可区分真假人脸生物特征差异,无需生物特征标注。
然后,在数据集上训练模型,模型学习真假视频人脸关键区域的特征分布差异和生物特征。通过生成模型生成的人脸像素分布服从某一个特定的分布规律,这个分布规律逼近真实人脸像素分布,但是无法100%接近,总会存在差异。通过对验证集测试,本发明提供的视频人脸伪造识别方法能够满足准确率和实时性要求,且比传统的人脸伪造识别模型能具有鲁棒性。
本发明提供的视频人脸伪造识别方法,把真假人脸特征分布差异检测和人脸生物特征检测统一作为一个特征分布变化检测任务,构建一个端到端的视频人脸伪造识别模型TIDF,同时完成人脸关键区域追踪和人脸伪造识别任务;在轻量级EfficientFormer V2网络加入时间编码优化特征提取模型的VEF子模块,将2维图像特征提取扩展到视频特征提取上;将关键点匹配模块的关键点限定为人脸关键区域,并使用SVM分类器加速匹配,通过高效的关键点匹配模块LGVF进行视频人脸关键区域的全程实时追踪。
本发明可以用于应对在业务系统中出现的由人脸伪造带来的欺诈风险问题,辅助风险排查。本发明提供的一种视频人脸伪造识别方法,基于DeepStream组件搭建的GPU音视频解码服务器在解码阶段接近无延迟,解决由于解码延迟达不到实时性问题。根据VEF和LGVF构建的高效轻量级视频人脸伪造识别模型TIDF,是对视频人脸伪造进行的针对性设计,一个模型既能识别真假人脸关键区域特征分布的差异,也能识别到视频人脸的生物特征,融合了两种人脸伪造识别方法,并且使用关键点对人脸关键区域进行追踪,既能提高了追踪速度,也能增强人脸关键区域重识别的鲁棒性。
将本发明应用于业务系统时,首先进行在线音视频流硬解码,为了提升实时性,通过基于DeepStream组件搭建GPU音视频流解码服务器,服务器接受RTSP、RTMP等推流方式,分别输出音频序列数据和图像序列数据。客户通过手机或电脑端进行远程视频时,解码器负责将多个视频流进行解码,并将音频序列数据和图像序列数据发送至TIDF模型识别;然后,在进行轻量高效视频人脸伪造识别时,通过端到端的视频人脸伪造识别模型TIDF使用容器云服务化部署,使用NVIDAIA100 GPU提供算力支持,进行负载均衡和并发设置,满足多路视频同时调用,并将模型结果实时返回给业务人员进行风险排查。
本发明提供的一种视频人脸伪造识别方法、系统、设备及介质,在线对人脸音视频流进行解码,提升了图像序列数据和语音序列数据的实时性,结合图像序列数据和语音序列数据,通过视频人脸伪造识别模型进行轻量、高效的真假人脸特征识别和生物特征检测,同时完成人脸关键区域追踪和人脸伪造识别,能够得到准确的人脸伪造识别结果,及时阻止伪造人脸攻击,避免伪造人脸带来的损失。
下面对本发明提供的视频人脸伪造识别系统进行描述,下文描述的视频人脸伪造识别系统与上文描述的视频人脸伪造识别方法可相互对应参照。
参照图6,本发明提供的一种视频人脸伪造识别系统,可以包括:
解码模块,用于:对人脸音视频流进行解码,得到图像序列数据和语音序列数据;
特征提取模块,用于:根据图像序列数据和语音序列数据,通过视频人脸伪造识别模型的特征提取模块,得到图像特征向量和语音特征向量;
关键区域追踪模块,用于:根据图像特征向量,通过视频人脸伪造识别模型的关键点匹配模块进行人脸关键区域追踪;
人脸伪造识别模块,用于:基于人脸关键区域,根据图像特征向量和语音特征向量,通过视频人脸伪造识别模型的判别模块进行真假人脸特征识别和生物特征检测,得到人脸伪造识别结果。
根据本发明提供的一种视频人脸伪造识别系统,所述特征提取模块包括:
第一提取子模块,用于:通过特征提取模块的VEF子模块对图像序列数据进行时间编码,得到图像特征向量;
第二提取子模块,用于:通过特征提取模块的变换子模块对语音序列数据进行离散傅里叶变换,得到语音特征向量。
需要说明的是,所述特征提取模块的VEF子模块通过时间编码公式对图像序列数据进行时间编码,其中,所述时间编码公式为:
时间编码公式中,t表示当前图像帧在人脸音视频的时间数值,以秒为单位,dframe表示输出嵌入空间维度,设置为图像序列数,i表示当前视频帧的唯一索引,i=1,2,…,N。
根据本发明提供的一种视频人脸伪造识别系统,所述关键区域追踪模块可以包括:
串联编码子模块,用于:根据人脸关键区域中的图像特征向量,通过关键点匹配模块的自注意力子模块和交叉注意力子模块进行特征点串联编码,串联编码向量;
表征子模块,用于:通过关键点匹配模块的SNM分类器判定进行串联编码向量的表征能力,将表征能力大于预设阈值的串联编码向量用于相似度计算;
相似度计算子模块,用于:基于串联编码向量,通过关键点匹配模块的相似度计算子模块,得到人脸关键区域中图像特征向量之间的相似度。
需要说明的是,所述关键点匹配模块的相似度计算子模块通过特征相似度计算式得到人脸关键区域中图像特征向量之间的相似度,其中,所述特征相似度计算式为:
特征相似度计算式中,ft表示当前时刻人脸关键区域中的图像特征向量,ft-1表示上一时刻人脸关键区域中的图像特征向量。
根据本发明提供的一种视频人脸伪造识别系统,所述人脸伪造识别模块可以包括:
第一判别子模块,用于:根据图像特征向量,通过判别模块的人脸特征分布判别器,得到真假人脸特征识别结果;
第二判别子模块,用于:根据图像特征向量和语音特征向量,通过判别模块的生物特征判别器,得到生物特征检测结果;
检测子模块,用于:结合真假人脸特征识别结果和生物特征检测结果,得到人脸伪造概率。
需要说明的是,所述检测子模块具体用于:根据结合真假人脸特征识别结果和生物特征检测结果,通过判定公式,得到人脸伪造概率,其中,所述判定公式为:
pro=0.5×softmax(Xt,F)+0.5×softmax(Ot,OF),
判定公式中,Xt表示图像特征向量,Ot表示语音特征向量,F表示判别模块基于图像特征样本数据学习到的真假人脸关键区域特征分布差异,OF表示判别模块基于生物特征样本数据学习到的真假人脸生物特征差异,F和OF作为先验条件,通过softmax函数得到当前时刻人脸伪造的后验概率。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行视频人脸伪造识别方法,该方法包括:
对人脸音视频流进行解码,得到图像序列数据和语音序列数据;
根据图像序列数据和语音序列数据,通过视频人脸伪造识别模型的特征提取模块,得到图像特征向量和语音特征向量;
根据图像特征向量,通过视频人脸伪造识别模型的关键点匹配模块进行人脸关键区域追踪;
基于人脸关键区域,根据图像特征向量和语音特征向量,通过视频人脸伪造识别模型的判别模块进行真假人脸特征识别和生物特征检测,得到人脸伪造识别结果。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的视频人脸伪造识别方法,该方法包括:
对人脸音视频流进行解码,得到图像序列数据和语音序列数据;
根据图像序列数据和语音序列数据,通过视频人脸伪造识别模型的特征提取模块,得到图像特征向量和语音特征向量;
根据图像特征向量,通过视频人脸伪造识别模型的关键点匹配模块进行人脸关键区域追踪;
基于人脸关键区域,根据图像特征向量和语音特征向量,通过视频人脸伪造识别模型的判别模块进行真假人脸特征识别和生物特征检测,得到人脸伪造识别结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的视频人脸伪造识别方法,该方法包括:
对人脸音视频流进行解码,得到图像序列数据和语音序列数据;
根据图像序列数据和语音序列数据,通过视频人脸伪造识别模型的特征提取模块,得到图像特征向量和语音特征向量;
根据图像特征向量,通过视频人脸伪造识别模型的关键点匹配模块进行人脸关键区域追踪;
基于人脸关键区域,根据图像特征向量和语音特征向量,通过视频人脸伪造识别模型的判别模块进行真假人脸特征识别和生物特征检测,得到人脸伪造识别结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种视频人脸伪造识别方法,其特征在于,包括:
对人脸音视频流进行解码,得到图像序列数据和语音序列数据;
根据图像序列数据和语音序列数据,通过视频人脸伪造识别模型的特征提取模块,得到图像特征向量和语音特征向量;
根据图像特征向量,通过视频人脸伪造识别模型的关键点匹配模块进行人脸关键区域追踪;
基于人脸关键区域,根据图像特征向量和语音特征向量,通过视频人脸伪造识别模型的判别模块进行真假人脸特征识别和生物特征检测,得到人脸伪造识别结果。
2.根据权利要求1所述的视频人脸伪造识别方法,其特征在于:所述视频人脸伪造识别模型的特征提取模块包括VEF子模块和变换子模块,所述根据图像序列数据和语音序列数据,通过视频人脸伪造识别模型的特征提取模块,得到图像特征向量和语音特征向量,包括:
通过特征提取模块的VEF子模块对图像序列数据进行时间编码,得到图像特征向量;
通过特征提取模块的变换子模块对语音序列数据进行离散傅里叶变换,得到语音特征向量。
3.根据权利要求2所述的视频人脸伪造识别方法,其特征在于:所述特征提取模块的VEF子模块通过时间编码公式对图像序列数据进行时间编码,其中,所述时间编码公式为:
时间编码公式中,t表示当前图像帧在人脸音视频的时间数值,以秒为单位,dframe表示输出嵌入空间维度,设置为图像序列数,i表示当前视频帧的唯一索引,i=1,2,…,N。
4.根据权利要求2所述的视频人脸伪造识别方法,其特征在于:所述视频人脸伪造识别模型的关键点匹配模块包括自注意力子模块、交叉注意力子模块、SVM分类器以及相似度计算子模块,所述根据图像特征向量,通过视频人脸伪造识别模型的关键点匹配模块进行人脸关键区域追踪,包括:
根据人脸关键区域中的图像特征向量,通过关键点匹配模块的自注意力子模块和交叉注意力子模块进行特征点串联编码,串联编码向量;
通过关键点匹配模块的SNM分类器判定进行串联编码向量的表征能力,将表征能力大于预设阈值的串联编码向量用于相似度计算;
基于串联编码向量,通过关键点匹配模块的相似度计算子模块,得到人脸关键区域中图像特征向量之间的相似度。
5.根据权利要求4所述的视频人脸伪造识别方法,其特征在于:所述关键点匹配模块的相似度计算子模块通过特征相似度计算式得到人脸关键区域中图像特征向量之间的相似度,其中,所述特征相似度计算式为:
特征相似度计算式中,ft表示当前时刻人脸关键区域中的图像特征向量,ft-1表示上一时刻人脸关键区域中的图像特征向量。
6.根据权利要求4所述的视频人脸伪造识别方法,其特征在于:所述视频人脸伪造识别模型的判别模块包括人脸特征分布判别器和生物特征判别器,所述基于人脸关键区域,根据图像特征向量和语音特征向量,通过视频人脸伪造识别模型的判别模块进行真假人脸特征识别和生物特征检测,得到人脸伪造识别结果,包括:
根据图像特征向量,通过判别模块的人脸特征分布判别器,得到真假人脸特征识别结果;
根据图像特征向量和语音特征向量,通过判别模块的生物特征判别器,得到生物特征检测结果;
结合真假人脸特征识别结果和生物特征检测结果,得到人脸伪造概率。
7.根据权利要求6所述的视频人脸伪造识别方法,其特征在于:所述结合真假人脸特征识别结果和生物特征检测结果,得到人脸伪造概率,具体为:根据结合真假人脸特征识别结果和生物特征检测结果,通过判定公式,得到人脸伪造概率,其中,所述判定公式为:
pro=0.5×softmax(Xt,F)+0.5×softmax(Ot,OF),
判定公式中,Xt表示图像特征向量,Ot表示语音特征向量,F表示判别模块基于图像特征样本数据学习到的真假人脸关键区域特征分布差异,OF表示判别模块基于生物特征样本数据学习到的真假人脸生物特征差异,F和OF作为先验条件,通过softmax函数得到当前时刻人脸伪造的后验概率。
8.一种视频人脸伪造识别系统,其特征在于,包括:
解码模块,用于:对人脸音视频流进行解码,得到图像序列数据和语音序列数据;
特征提取模块,用于:根据图像序列数据和语音序列数据,通过视频人脸伪造识别模型的特征提取模块,得到图像特征向量和语音特征向量;
关键区域追踪模块,用于:根据图像特征向量,通过视频人脸伪造识别模型的关键点匹配模块进行人脸关键区域追踪;
人脸伪造识别模块,用于:基于人脸关键区域,根据图像特征向量和语音特征向量,通过视频人脸伪造识别模型的判别模块进行真假人脸特征识别和生物特征检测,得到人脸伪造识别结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的视频人脸伪造识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的视频人脸伪造识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311366182.XA CN117333952A (zh) | 2023-10-20 | 2023-10-20 | 一种视频人脸伪造识别方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311366182.XA CN117333952A (zh) | 2023-10-20 | 2023-10-20 | 一种视频人脸伪造识别方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117333952A true CN117333952A (zh) | 2024-01-02 |
Family
ID=89291609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311366182.XA Pending CN117333952A (zh) | 2023-10-20 | 2023-10-20 | 一种视频人脸伪造识别方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117333952A (zh) |
-
2023
- 2023-10-20 CN CN202311366182.XA patent/CN117333952A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520503B (zh) | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 | |
CN111444881A (zh) | 伪造人脸视频检测方法和装置 | |
CN109858392B (zh) | 一种用于化妆前后人脸图像自动识别方法 | |
Kadam et al. | Detection and localization of multiple image splicing using MobileNet V1 | |
CN110598019B (zh) | 重复图像识别方法及装置 | |
CN115565238B (zh) | 换脸模型的训练方法、装置、设备、存储介质和程序产品 | |
Baek et al. | Generative adversarial ensemble learning for face forensics | |
CN114092742A (zh) | 一种基于多角度的小样本图像分类装置和方法 | |
CN110610131B (zh) | 人脸运动单元的检测方法、装置、电子设备及存储介质 | |
CN114612987A (zh) | 一种表情识别方法及装置 | |
CN112613416A (zh) | 一种人脸表情识别方法和相关装置 | |
CN117011883A (zh) | 一种基于金字塔卷积和Transformer双分支的行人重识别方法 | |
CN111598051A (zh) | 一种脸部验证方法、装置、设备及可读存储介质 | |
CN114842524A (zh) | 一种基于不规则显著性像素簇的人脸鉴伪方法 | |
CN116630727B (zh) | 模型训练方法、深伪图像检测方法、装置、设备及介质 | |
CN113627233A (zh) | 基于视觉语义信息的人脸伪造检测方法和装置 | |
CN116311472A (zh) | 基于多层次图卷积网络的微表情识别方法及装置 | |
Teng et al. | Unimodal face classification with multimodal training | |
CN113537173B (zh) | 一种基于面部补丁映射的人脸图像真伪识别方法 | |
CN117333952A (zh) | 一种视频人脸伪造识别方法、系统、设备及介质 | |
CN112651319B (zh) | 一种视频检测方法、装置、电子设备及存储介质 | |
CN111738213B (zh) | 人物属性识别方法、装置、计算机设备及存储介质 | |
CN114862716A (zh) | 人脸图像的图像增强方法、装置、设备及存储介质 | |
CN114550224A (zh) | 基于深度学习的指纹图像识别比对方法、装置和电子设备 | |
CN113744158A (zh) | 图像生成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |