CN116883900A - 一种基于多维生物特征的视频真伪鉴别方法和系统 - Google Patents
一种基于多维生物特征的视频真伪鉴别方法和系统 Download PDFInfo
- Publication number
- CN116883900A CN116883900A CN202310854583.3A CN202310854583A CN116883900A CN 116883900 A CN116883900 A CN 116883900A CN 202310854583 A CN202310854583 A CN 202310854583A CN 116883900 A CN116883900 A CN 116883900A
- Authority
- CN
- China
- Prior art keywords
- audio
- video
- features
- extracting
- biological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000009471 action Effects 0.000 claims abstract description 45
- 238000007781 pre-processing Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 230000001815 facial effect Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 description 12
- 230000033001 locomotion Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 210000000088 lip Anatomy 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/60—Static or dynamic means for assisting the user to position a body part for biometric acquisition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Collating Specific Patterns (AREA)
Abstract
本申请公开了一种基于多维生物特征的视频真伪鉴别方法和系统,所述方法包括:从待鉴别视频中提取图像帧和音频帧,获取所需鉴别的图像数据和音频数据;基于所述图像数据进行关键人物的生物特征的提取,所述生物特征包括心理特征和动作特征;基于所述音频数据进行关键人物的音频特征的提取;将所述心理特征、所述动作特征和所述音频特征两两拼接并进行时序建模并分别输出结果,再将所有的输出结果输入至分类器中得到待鉴别视频的真伪鉴别结果。通过本申请方法,综合利用视频的多模态信息,从而提高了提高真伪鉴别的准确性。
Description
技术领域
本申请涉及视频真伪鉴定技术领域,特别是涉及一种视频真伪鉴别方法和系统。
背景技术
视频成为人们获取信息的主要来源之一,但是随着深度学习尤其是生成对抗网络的发展,计算机生成的图片和视频的质量已经达到可以以假乱真的水平,因此视频验证真伪的方式也受到了极大的挑战。现有的视频检测真伪的方式主要有以下两种方式:
一、基于传统的视频鉴别方法:通过内容分析或者数字取证技术。基于内容分析的鉴别方法包括对视频中的图像特征、运动特征、光照特征等进行提取和比对。例如,检测图像的噪声、伪造痕迹、图像失真等。但是内容分析方法在处理复杂的视频伪造情况时存在一些局限性,往往依赖于特定的特征提取和比对方法,对于新的伪造技术和高级处理方法可能不具备有效性。而且内容分析方法可能受到视频质量、压缩等因素的影响,导致鉴别性能不稳定。数字取证技术基于对视频的数字痕迹和元数据进行分析,以检测视频的真实性。例如检查视频的时间戳、文件格式、压缩参数等信息。但是,数字取证方法主要依赖于视频的元数据和数字痕迹,而这些信息可能被伪造或篡改,且有时视频内容的改变不一定会导致元数据或数字痕迹的变化。
二、利用深度学习技术来进行视频真伪鉴定,用卷积神经网络对视频帧进行特征提取和学习,然后通过分类器进行真伪判别,例如,中国专利CN 115187891A《一种基于频域信息与多任务学习的深度伪造视频鉴别方法》提出,采集视频的频域特征作为输入数据,使用多任务学习的深度神经网络提取输入数据的特征,同时通过通过优化训练引导目标算法完成多任务学习的深度神经网络模型的训练,得到深度伪造视频鉴别模型,完成深度伪造视频的鉴别。而基于深度神经网络模型的方法主要依赖于视频帧的视觉信息进行判断,而忽略了其他模态的信息,如音频、动作,导致在某些情况下无法准确鉴别视频的真伪。
发明内容
基于此,针对上述技术问题,提供一种基于多维生物特征的视频真伪鉴别方法和系统,以解决现有技术视频鉴别准确性低的问题。
第一方面,一种基于多维生物特征的视频真伪鉴别方法,所述方法包括:
从待鉴别视频中提取图像帧和音频帧,获取所需鉴别的图像数据和音频数据;
基于所述图像数据进行关键人物的生物特征的提取,所述生物特征包括心理特征和动作特征;
基于所述音频数据进行关键人物的音频特征的提取;
将所述心理特征、所述动作特征和所述音频特征两两拼接后进行时序建模,并分别输出结果,再将所有的输出结果输入至训练好的分类器中得到待鉴别视频的真伪鉴别结果。
上述方案中,可选地,所述基于所述图像数据进行关键人物的生物特征的提取包括:
对所述图像数据进行人脸特征的预处理,得到人脸特征和背景特征的拼接结果;
对所述图像数据和所述人脸特征和背景特征的拼接结果进行关键人物的生物特征建模,所述生物特征建模包括心理特征建模和动作特征建模;
将所述心理特征建模和所述动作特征建模得到的初步心理特征向量和初步动作特征向量分别与预先构建的生物信息库进行比对,提取关键人物的心理特征和动作特征。
上述方案中,进一步可选地,所述对所述图像数据进行人脸特征的预处理包括:
对所述图像数据进行人脸区域和背景区域的分割;
分别提取人脸区域和背景区域的特征;
将人脸区域的特征和背景区域的特征进行合并,得到人脸特征和背景特征的拼接结果。
上述方案中,进一步可选地,所述对所述图像数据进行人脸区域和背景区域的分割利用预先训练的人脸分割模型进行分割。
上述方案中,可选地,所述基于所述音频数据进行关键人物的音频特征的提取包括:
对所述音频数据进行预处理;
对预处理后的音频数据划分为短时窗口,并对划分后的每个窗口进行加窗操作;
将加窗操作后的每个窗口应用快速傅里叶变换,将时域信号转化为频域信号得到每个窗口的频谱信息;
将每个窗口的频谱信息输入至音频处理网络中,将输出结果与预先建立的音频对比库进行对比,得到关键人物的音频特征。
上述方案中,进一步可选地,所述对所述音频数据进行预处理包括去除静音、音频增益调整、降噪。
上述方案中,进一步可选地,所述对预处理后的音频数据划分为短时窗口,是使用长度为20-50毫秒的窗口进行划分。
第二方面,一种基于多维生物特征的视频真伪鉴别系统,所述系统包括:
数据获取模块,用于从待鉴别视频中提取图像帧和音频帧,获取所需鉴别的图像数据和音频数据;
生物特征提取模块,用于基于所述图像数据进行关键人物的生物特征的提取,所述生物特征包括心理特征和动作特征;
声音特征模块,用于基于所述音频数据进行关键人物的音频特征的提取;
视频的真伪分类模块,用于将所述心理特征、所述动作特征和所述音频特征两两拼接后进行时序建模,并分别输出结果,再将所有的输出结果输入至训练好的分类器中得到待鉴别视频的真伪鉴别结果。
第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述基于多维生物特征的视频真伪鉴别方法的步骤。
第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述基于多维生物特征的视频真伪鉴别方法的步骤。
本申请至少具有以下有益效果:
本申请综合利用视频的多模态信息,包括音频特征、心理特征、动作特征等,将这些信息特征两两进行拼接后进行时序建模,并将结果输入至输入至分类,利用分类器得到待鉴别视频的真伪鉴别结果。这些多模态信息具有互补性,通过综合考虑不同模态的信息,可以更全面地刻画视频的特征。相比于仅依赖视觉信息的方法,多模态信息综合可以提供更丰富的特征表达,从而提高真伪鉴别的准确性。
附图说明
图1为本申请一个实施例提供的一种基于多维生物特征的视频真伪鉴别方法的流程示意图;
图2为本申请一个实施例提供的基于多维生物特征的视频真伪鉴别模型的整体架构;
图3为本申请一个实施例中心理编码器和动作编码器的结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请利用视频的多模态信息来实现准确的视频真伪鉴定。视频在现代社会中扮演着重要的角色,但随着技术的不断发展,视频的真实性问题日益突出。因此,对于视频真伪鉴定的研究和解决方案具有重要意义。在过去的几年中,随着人工智能和深度学习技术的迅速发展,视频的篡改和伪造技术也变得越来越普遍和高度复杂。这些技术使得传统的视频真伪鉴定方法变得不再可靠。为了解决这一问题,我们提出了一种基于多维生物特征的视频真伪鉴定算法。
本申请所提出的方法结合了音频信息、人脸特征、动作特征和生物特征等多种模态数据,以建立一个全面而准确的视频真伪鉴定模型。通过深度学习技术的应用,我们能够提取视频中各个模态的关键特征,并对其进行综合分析和验证。本申请的解决方案不仅仅局限于单一模态的数据分析,而是充分利用了视频中不同模态之间的互补性和相关性。通过综合考虑音频、人脸、动作和生物等多个方面的信息,能够提高视频真伪鉴定的准确性和鲁棒性。此外,本申请的解决方案还包括了一套先进的算法和模型,能够自动学习和适应不同类型的视频数据。通过大规模数据集的训练和迭代优化,我们的系统能够不断提高鉴定的准确性,并具备一定的泛化能力。
在一个实施例中,如图1所示,提供了一种基于多维生物特征的视频真伪鉴别方法,包括以下步骤:
步骤S101,从待鉴别视频中提取图像帧和音频帧,获取所需鉴别的图像数据和音频数据;
具体来讲,本申请所述方法待鉴别视频是一组视频帧,这些帧是从目标视频中采用抽帧算法来采样得到的固定数量的N帧图像,将这些待鉴别视频提取为两种子数据,一种是从视频中提取的图像数据,以(i1,i2,i3…in)来表示。另一种是从视频中提取的音频数据,以(a1,a2,a3…an)表示。
步骤S102,基于所述图像数据进行关键人物的生物特征的提取,所述生物特征包括心理特征和动作特征;
步骤S103,基于所述音频数据进行关键人物的音频特征的提取;
步骤S104,将所述心理特征、所述动作特征和所述音频特征两两拼接并进行时序建模并分别输出结果,再将所有的输出结果输入至分类器中得到待鉴别视频的网络预测结果。
在步骤S104中,将心理特征、动作特诊、音频特征两两拼接再送入GRU中进行时序建模,再将其输出送给基于MLP的分类器,得到最终的网络预测结果,本申请这里使用的激活函数为Sigmoid,训练时采用的损失为二分类交叉熵损失函数,表达式如下所示:
式中,表示网络的预测结果,Y表示标签值,1代表真实视频,0代表伪造视频,得到模型的损失之后再经过反向传播和梯度下降来不断更新模型的参数,可以得到分类越来越准确的多模态视频真伪鉴别网络。
本实施例中,所述分类器的生成,具体包括以下步骤:
步骤S201:获取多组训练样本,所述多组训练样本可取已经知道内容被篡改的视频;
步骤S202:将多组训练样本中的视频按照步骤S101-步骤S103中进行心理特征、动作特征和音频特征的提取,将每一视频的心理特征、动作特征和音频特征两两进行拼接并进行时序建模并分别输出结果,将输出结果与视频的篡改程度输入至神经网络模型中进行训练,建立用于鉴别视频真伪的分类器。
上述基于多维生物特征的视频真伪鉴方法方法中,综合利用视频的多模态信息,包括音频特征、心理特征、动作特征等,将这些信息特征两两进行拼接后进行时序建模,并将结果输入至输入至分类,利用分类器得到待鉴别视频的真伪鉴别结果。这些多模态信息具有互补性,通过综合考虑不同模态的信息,可以更全面地刻画视频的特征。相比于仅依赖视觉信息的方法,多模态信息综合可以提供更丰富的特征表达,从而提高真伪鉴别的准确性。
在一个实施例中,所述基于所述图像数据进行关键人物的生物特征的提取包括:
对所述图像数据行进人脸特征的预处理,得到人脸特征和背景特征的拼接结果;
对所述图像数据和所述人脸特征和背景特征的拼接结果进行关键人物的生物特征建模,所述生物特征建模包括心理特征建模和动作特征建模;
将所述心理特征建模和所述动作特征建模得到的初步心理特征向量和初步动作特征向量分别与预先构建的生物信息库进行比对,提取关键人物的心理特征和动作特征。
在该实施例中,将人脸特征和背景特征的拼接结果(f1,f2,f3…fn)和图像数据(i1,i2,i3…in)一起送入生物特征对比模块。生物特征对比模块的核心设计包含两个步骤,第一步是对视频中关键人物的生物特征建模。第二步是利用预先构建的生物信息对比库(Biological Information Comparison Library,BCL)来对特征向量进行进一步比较。首先介绍生物特征建模子模块,它包含两部分,分别是心理编码器和动作编码器。我们在同时考虑模型建模速度、难度(输入视频分辨率不高时无法建模得到更有效的特征)、有效性上决定采用心理和动作这两个维度的信息来代表视频中关键人物的生物特征。这一过程可以由公式(1)和公式(2)来表达:
在公式(1)和公式(2),其中(p1,p2,p3…pn)和(a1,a2,a3…an)分别表示得到的心理特征和动作特征。BCL表示我们根据大量的真实视频所得到的生物信息对比库,它是预先采用特征提取网络对关键人物的心理特征和动作特征计算得到的对比库,代表矩阵乘法操作,PE和AE分别代表心理编码器和动作编码器,二者的详细结构如图3所示。
图2中的心理编码器和动作编码在宏观设计上保持了相似,它们对输入和输出的要求也是一样的,输入是两种信息,(i1,i2,i3…in)图像信息和(f1,f2,f3…fn)第一步得到的特征信息,输出是各自的心理和动作特征。心理特征建模的关键是图像中关键点的定位以及随着时间运动的轨迹。也就是图中所示的面部微运动(Facial Micro Movement)信息,根据人脸上K个关键点的运动信息来建模其心理特征,这些关键点散布在人的嘴唇、眼睛、眉毛、瞳孔等关键位置,通过对这些面部微运动的建模,可以帮助模型捕获关键人物的心理活动信息,例如心情高涨或是悲伤沮丧或是警惕隐瞒。得到面部微运动信息后与第一步得到的特征相加,再经过自注意力计算来得到模块的输出。自注意力的计算如公式(3)所示:
对于自注意力而言,公式中的Q,K,V均来自于同一个特征向量。图2中的动作编码器与心理编码器类似,二者的不同在于,动作编码的关键在于对人物骨骼关键点的定位与运动轨迹的建模,通过人体骨骼点的运动信息来对视频中关键人物的行为动作进行建模。
在一个实施例中,所述对所述图像数据进行人脸特征的预处理包括:
对所述图像数据进行人脸区域和背景区域的分割;
分别提取人脸区域和背景区域的特征;
将人脸区域的特征和背景区域的特征进行合并,得到人脸特征和背景特征的拼接结果。
在该实施例中,在得到这些图像数据之后,首先要送入人脸处理模块中进行特征提取。因为当人类在观看一个视频时,其中关键的一个要素是视频中都出现了谁。另外,当前危害较大的视频伪造者也通常是基于人脸这一关键信息来进行伪造篡改。将数据图像进行分割,随后我们得到了人脸(前景)区域和非人脸(背景)区域。我们分别使用两个特征提取网络来对前景和背景区域提取特征,这里使用的是ResNet50网络,这里的两个特征提取网络参数不共享,一个专注于提取人脸特征,而另一个专注于提取背景信息。这一过程可以由公式(4)来表达:
在公式4中,(i1,i2,i3…in)表示输入的图像数据,F代表人脸处理模块,最终得到的输出为人脸特征和背景特征的拼接结果(f1,f2,f3…fn)。f和b分别代表人脸区域建模网络和背景区域建模网络,fd表示人脸分割模型,表示对人脸分割模型的结果取反。
在一个实施例中,对所述图像数据进行人脸区域和背景区域的分割利用预先训练的人脸分割模型进行分割。
在该实施例中,通过一个人脸检测模块,这里所使用的是一个经过预训练的人脸分割网络模型,为了进一步提高多模态视频真伪鉴定网络的训练效率,这里使用的人脸分割网络模型的参数始终保持冻结,不会随着训练而发生改变。
在一个实施例中,所述基于所述音频数据进行关键人物的音频特征的提取包括:
对所述音频数据进行预处理;所述对所述音频数据进行预处理包括但不限于去除静音、音频增益调整、降噪;
对预处理后的音频数据划分为短时窗口,并对划分后的每个窗口进行加窗操作;所述对预处理后的音频数据划分为短时窗口使用长度为20-50毫秒的窗口进行划分。
将加窗操作后的每个窗口应用快速傅里叶变换,将时域信号转化为频域信号得到每个窗口的频谱信息;
将每个窗口的频谱信息输入至音频处理网络中,将输出结果与预先建立的音频对比库进行对比,得到关键人物的音频特征。
在该实施例中,对于音频处理分支,首先,要将原始音频信号进行预处理。这包括去除静音部分、进行音频增益调整、降噪等。这些步骤有助于提高频谱提取的准确性。将预处理后的音频信号划分成短时窗口,通常使用长度为20-50毫秒的窗口。可以使用汉明窗或其他窗函数对每个窗口进行加窗操作。对每个窗口应用快速傅里叶变换(Fast FourierTransform,FFT),将时域信号转换为频域信号。FFT将信号从时域表示转换为频域表示,得到每个窗口的频谱信息。对FFT得到的频域信号进行取模操作,得到复数的幅度谱。幅度谱表示不同频率成分的能量强度。频谱通常是高维数据,可以通过对频谱进行压缩来降低维度。常用的方法包括Mel滤波器组、倒谱系数等。随后将这些数据送入给音频处理网络,这里使用的是加载了预训练参数的DeepSpeech2网络,和图像处理分支不同,这里的DeepSpeech2网络的参数不冻结而是随着训练一起进行微调。这一过程可以由公式5来表示:
公式(5)中的(u1,u2,u3…un)表示得到的音频特征,(r1,r2,r3…rn)表示经过了预处理的频域信息,UE表示上文所述的DeepSpeech2网络。同BCL类似,ACL也是我们预先建立的音频对比库(Audio Comparison Library,ACL),同样是从大量真实的音频中得到的特征库。
在一个实施例中,基于多维生物特征的视频真伪鉴别算法的主程序为:
步骤1:输入待检测视频。
步骤2:将待检测视频抽取固定的N帧图像,并将视频中的音频信息单独抽取出来送往音频处理模块,N帧图像帧送往人脸特征预处理模块。
步骤3:音频处理模块首先对声音进行降噪、增益调整等预处理,随后进行加窗操作,使用傅里叶变化将其转换为频域信息。再使用DeepSpeech2模型来处理频谱数据,最后和音频对比库相乘,得到音频特征向量备用。
步骤4:N帧图像帧经过人脸特征预处理模块得到拼接的人脸区域特征和背景区域特征,将其送往生物特征对比模块,先经过心理建模子模块和动作识别子模块来进行生物特征建模,再将建模后的结果与生物特征对比库相乘得到生物特征向量备用。
步骤5:将上一步得到的生物特征向量和音频特征向量两两拼接融合,输入给门控循环单元进行时序建模,再将其结果向量输入给基于多层感知机的分类器,得到输入视频的真伪分类结果。
本申请提出的基于多维生物特征的视频真伪鉴别模型的整体架构如图2所示,该视频真伪鉴定模型的输入是一组视频帧,这些帧是从目标视频中采用抽帧算法来采样得到的固定数量的N帧图像。我们以(x1,x2,x3…xn)来表示输入数据,以来表示网络的输出结果,以来Y表示用训练的标签。随后将这些输入数据提取为两种子数据,一种是从视频中提取的图像数据以(r1,r2,r3…rn)来表示,另一种是从视频中提取的音频数据以(a1,a2,a3…an)来表示。如图2中所示,将视频数据送往图中上半部分的人脸特征预处理模块和生物特征对比模块,将音频数据送往图中下半部分的声音特征模块。最终得到三种不同模态的多维生物特征,在图2中以p表示的是心理特征,以a表示的是动作特征,以u表示的是声音特征,随后将他们两两一组拼接为融合特征,再经过门控循环单元(Gated Recurrent Unit,GRU)来进行时序维度上的建模。最终将三组融合特则会那个送入基于多层感知机(Multilayer Perceptron,MLP)的分类器,得到最终的网络预测结果/>预测结果越接近1则说明网络判断视频为真的把握越接近100%,预测结果越接近0则说明网络判断视频为假的把握越接近100%。
基于多维生物标签的视频真伪鉴别算法可以拥有更好的检测效果的逻辑论证如下:
1.多模态信息综合:基于多维生物标签的方法可以综合利用视频的多模态信息,包括音频信息、人脸特征、动作特征等。这些信息具有互补性,通过综合考虑不同模态的信息,可以更全面地刻画视频的特征。相比于仅依赖视觉信息的方法,多模态信息综合可以提供更丰富的特征表达,从而提高真伪鉴别的准确性。
2.生物特征的独特性:基于多维生物标签的方法利用生物特征进行鉴别,这些特征在个体之间具有独特性和稳定性。生物特征,如人脸特征、声纹等,往往不易伪造和篡改,具有较高的辨识度。因此,将生物特征引入视频真伪鉴别可以提供更可靠和不可伪造的判别依据,从而提高检测效果。
3.深度学习的自动学习能力:基于多维生物标签的方法采用深度学习模型进行特征提取和学习。深度学习模型具有强大的自动学习能力,能够从大规模数据中学习到视频真伪鉴别的相关特征和模式。通过适当的网络架构和训练策略,深度学习模型能够自动地提取和学习视频中的有用特征,无需手动设计和选择特征。这种自动学习能力可以提高模型的表示能力,从而提升检测效果。
4.多任务学习的优势:基于多维生物标签的方法可以采用多任务学习的框架,同时学习不同的任务,如音频分类、人脸识别等。这种多任务学习可以提供更丰富的监督信号和更充分的数据利用,相互促进特征的学习和表示能力的提升。通过联合学习不同任务,可以更好地捕捉视频真伪鉴别的相关特征,进一步提高检测效果。
综上所述,基于多维生物标签的视频真伪鉴别算法通过综合多模态信息、利用生物特征、借助深度学习的自动学习能力以及多任务学习的优势,能够提供更准确和可靠的视频真伪鉴别,从而拥有更好的检测效果。
在一个实施例中,提供一种基于多维生物特征的视频真伪鉴别系统,所述系统包括:
数据获取模块:用于从待鉴别视频中提取图像帧和音频帧,获取所需鉴别的图像数据和音频数据;
生物特征提取模块:用于基于所述图像数据进行关键人物的生物特征的提取,所述生物特征包括心理特征和动作特征;
声音特征模块:用于基于所述音频数据进行关键人物的音频特征的提取;
视频的真伪分类模块:用于将所述心理特征、所述动作特征和所述音频特征两两拼接并进行时序建模并分别输出结果,再将所有的输出结果输入至分类器中得到待鉴别视频的真伪分类结果。
关于一种基于多维生物特征的视频真伪鉴别系统的具体限定可以参见上文中对于一种基于多维生物特征的视频真伪鉴别方法的限定,在此不再赘述。上述一种基于多维生物特征的视频真伪鉴别系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述一种基于多维生物特征的视频真伪鉴别方法。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,涉及上述实施例方法中的全部或部分流程。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于多维生物特征的视频真伪鉴别方法,其特征在于,所述方法包括:
从待鉴别视频中提取图像帧和音频帧,获取所需鉴别的图像数据和音频数据;
基于所述图像数据进行关键人物的生物特征的提取,所述生物特征包括心理特征和动作特征;
基于所述音频数据进行关键人物的音频特征的提取;
将所述心理特征、所述动作特征和所述音频特征两两拼接后进行时序建模,并分别输出结果,再将所有的输出结果输入至训练好的分类器中得到待鉴别视频的真伪鉴别结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述图像数据进行关键人物的生物特征的提取包括:
对所述图像数据进行人脸特征的预处理,得到人脸特征和背景特征的拼接结果;
对所述图像数据和所述人脸特征和背景特征的拼接结果进行关键人物的生物特征建模,所述生物特征建模包括心理特征建模和动作特征建模;
将所述心理特征建模和所述动作特征建模得到的初步心理特征向量和初步动作特征向量分别与预先构建的生物信息库进行比对,提取关键人物的心理特征和动作特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述图像数据进行人脸特征的预处理包括:
对所述图像数据进行人脸区域和背景区域的分割;
分别提取人脸区域和背景区域的特征;
将人脸区域的特征和背景区域的特征进行合并,得到人脸特征和背景特征的拼接结果。
4.根据权利要求3所述的方法,其特征在于,所述对所述图像数据进行人脸区域和背景区域的分割利用预先训练的人脸分割模型进行分割。
5.根据权利要求1所述的方法,其特征在于,所述基于所述音频数据进行关键人物的音频特征的提取包括:
对所述音频数据进行预处理;
对预处理后的音频数据划分为短时窗口,并对划分后的每个窗口进行加窗操作;
将加窗操作后的每个窗口应用快速傅里叶变换,将时域信号转化为频域信号得到每个窗口的频谱信息;
将每个窗口的频谱信息输入至音频处理网络中,将输出结果与预先建立的音频对比库进行对比,得到关键人物的音频特征。
6.根据权利要求5所述的方法,其特征在于,所述对所述音频数据进行预处理包括去除静音、音频增益调整、降噪。
7.根据权利要求5所述的方法,其特征在于,所述对预处理后的音频数据划分为短时窗口,是使用长度为20-50毫秒的窗口进行划分。
8.一种基于多维生物特征的视频真伪鉴别系统,其特征在于,所述系统包括:
数据获取模块,用于从待鉴别视频中提取图像帧和音频帧,获取所需鉴别的图像数据和音频数据;
生物特征提取模块,用于基于所述图像数据进行关键人物的生物特征的提取,所述生物特征包括心理特征和动作特征;
声音特征模块,用于基于所述音频数据进行关键人物的音频特征的提取;
视频的真伪分类模块,用于将所述心理特征、所述动作特征和所述音频特征两两拼接后进行时序建模,并分别输出结果,再将所有的输出结果输入至训练好的分类器中得到待鉴别视频的真伪鉴别结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310854583.3A CN116883900A (zh) | 2023-07-12 | 2023-07-12 | 一种基于多维生物特征的视频真伪鉴别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310854583.3A CN116883900A (zh) | 2023-07-12 | 2023-07-12 | 一种基于多维生物特征的视频真伪鉴别方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116883900A true CN116883900A (zh) | 2023-10-13 |
Family
ID=88269307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310854583.3A Pending CN116883900A (zh) | 2023-07-12 | 2023-07-12 | 一种基于多维生物特征的视频真伪鉴别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116883900A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117789099A (zh) * | 2024-02-26 | 2024-03-29 | 北京搜狐新媒体信息技术有限公司 | 视频特征提取方法及装置、存储介质及电子设备 |
CN117789099B (zh) * | 2024-02-26 | 2024-05-28 | 北京搜狐新媒体信息技术有限公司 | 视频特征提取方法及装置、存储介质及电子设备 |
-
2023
- 2023-07-12 CN CN202310854583.3A patent/CN116883900A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117789099A (zh) * | 2024-02-26 | 2024-03-29 | 北京搜狐新媒体信息技术有限公司 | 视频特征提取方法及装置、存储介质及电子设备 |
CN117789099B (zh) * | 2024-02-26 | 2024-05-28 | 北京搜狐新媒体信息技术有限公司 | 视频特征提取方法及装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tzirakis et al. | End-to-end multimodal emotion recognition using deep neural networks | |
Yang et al. | Preventing deepfake attacks on speaker authentication by dynamic lip movement analysis | |
CN111523462B (zh) | 基于自注意增强cnn的视频序列表情识别系统及方法 | |
Seow et al. | A comprehensive overview of Deepfake: Generation, detection, datasets, and opportunities | |
KR20010039771A (ko) | 시청각적 발성자 인식 및 발성 검증 방법 및 장치 | |
Chetty | Biometric liveness checking using multimodal fuzzy fusion | |
Chetty et al. | Automated lip feature extraction for liveness verification in audio-video authentication | |
Kong et al. | Appearance matters, so does audio: Revealing the hidden face via cross-modality transfer | |
JP7412496B2 (ja) | 生体(liveness)検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法 | |
Mandalapu et al. | Audio-visual biometric recognition and presentation attack detection: A comprehensive survey | |
Bredin et al. | Audiovisual speech synchrony measure: application to biometrics | |
CN112507311A (zh) | 一种基于多模态特征融合的高安全性身份验证方法 | |
Kumar et al. | Artificial Emotional Intelligence: Conventional and deep learning approach | |
CN116230019A (zh) | 一种基于半监督语音情感识别框架的深度情感聚类方法 | |
Zhang et al. | Speaker-independent lipreading by disentangled representation learning | |
Sarin et al. | Cnn-based multimodal touchless biometric recognition system using gait and speech | |
Pan et al. | Integrating deep facial priors into landmarks for privacy preserving multimodal depression recognition | |
CN116612542A (zh) | 基于多模态生物特征一致性的音视频人物识别方法及系统 | |
Geng et al. | Audio-visual speaker recognition via multi-modal correlated neural networks | |
Xu et al. | Emotion recognition research based on integration of facial expression and voice | |
CN116883900A (zh) | 一种基于多维生物特征的视频真伪鉴别方法和系统 | |
Chetty et al. | Multimedia sensor fusion for retrieving identity in biometric access control systems | |
Diwan et al. | Visualizing the truth: a survey of multimedia forensic analysis | |
Shenai et al. | Fast biometric authentication system based on audio-visual fusion | |
Beritelli et al. | Performance evaluation of multimodal biometric systems based on mathematical models and probabilistic neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |