CN117197857A - 人脸伪造攻击检测、人脸识别方法、装置和设备 - Google Patents
人脸伪造攻击检测、人脸识别方法、装置和设备 Download PDFInfo
- Publication number
- CN117197857A CN117197857A CN202310507010.3A CN202310507010A CN117197857A CN 117197857 A CN117197857 A CN 117197857A CN 202310507010 A CN202310507010 A CN 202310507010A CN 117197857 A CN117197857 A CN 117197857A
- Authority
- CN
- China
- Prior art keywords
- video
- video frame
- face
- feature
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000004927 fusion Effects 0.000 claims abstract description 59
- 230000007246 mechanism Effects 0.000 claims abstract description 37
- 238000013145 classification model Methods 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000035772 mutation Effects 0.000 description 4
- 230000002349 favourable effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005242 forging Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Landscapes
- Image Processing (AREA)
Abstract
本说明书实施例公开了一种人脸伪造攻击检测、人脸识别方法、装置和设备,所述人脸伪造攻击检测方法可对包含人脸的待检测视频进行拆帧处理,生成视频帧序列;针对所述视频帧序列中的任一视频帧,将该视频帧输入第一特征嵌入模型,得到该视频帧的第一特征,并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征;基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征;将所述融合特征输入分类模型,得到所述待检测视频是否存在人脸伪造攻击的检测结果。
Description
技术领域
本文件涉及计算机技术领域,尤其涉及一种人脸伪造攻击检测、人脸识别方法、装置和设备。
背景技术
近年来,AI换脸成了一个热门的娱乐项目,市面上也出现了一些能够提供AI换脸服务的应用程序(Application,APP),降低了AI换脸的门槛。
然而,AI换脸技术在给人们提供娱乐便利的同时,也给基于人脸识别的网络安全系统带来了风险。例如,利用AI换脸技术伪造人脸攻击人脸识别系统,从而进行谋利。因此,亟需提出一种人脸伪造攻击检测技术,以准确地发现人脸伪造攻击。
发明内容
本说明书实施例提供了一种人脸伪造攻击检测、人脸识别方法、装置和设备,以准确地检测视频中是否存在人脸伪造攻击。
为解决上述技术问题,本说明书实施例是这样实现的:
第一方面,提出了一种人脸伪造攻击检测方法,包括:
对包含人脸的待检测视频进行拆帧处理,生成视频帧序列;
针对所述视频帧序列中的任一视频帧,将该视频帧输入第一特征嵌入模型,得到该视频帧的第一特征,并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征;
基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征;
将所述融合特征输入分类模型,得到所述待检测视频是否存在人脸伪造攻击的检测结果。
第二方面,提出了一种人脸识别方法,包括:
获取待识别用户的人脸视频;
基于如第一方面所述的人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造;
若包含,则确定针对所述待识别用户的人脸识别不通过。
第三方面,提出了一种人脸伪造攻击检测装置,包括:
预处理模块,对包含人脸的待检测视频进行拆帧处理,生成视频帧序列;
特征嵌入模块,针对所述视频帧序列中的任一视频帧,将该视频帧输入第一特征嵌入模型,得到该视频帧的第一特征,并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征;
特征融合模块,基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征;
分类模块,将所述融合特征输入分类模型,得到所述待检测视频是否存在人脸伪造攻击的检测结果。
第四方面,提出了一种人脸识别装置,包括:
视频获取模块,获取待识别用户的人脸视频;
人脸伪造检测模块,基于如第一方面所述的人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造;
确定模块,在所述人脸视频中包含人脸伪造的情况下,确定针对所述待识别用户的人脸识别不通过。
第五方面,提出了一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
对包含人脸的待检测视频进行拆帧处理,生成视频帧序列;
针对所述视频帧序列中的任一视频帧,将该视频帧输入第一特征嵌入模型,得到该视频帧的第一特征,并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征;
基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征;
将所述融合特征输入分类模型,得到所述待检测视频是否存在人脸伪造攻击的检测结果。
第六方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
对包含人脸的待检测视频进行拆帧处理,生成视频帧序列;
针对所述视频帧序列中的任一视频帧,将该视频帧输入第一特征嵌入模型,得到该视频帧的第一特征,并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征;
基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征;
将所述融合特征输入分类模型,得到所述待检测视频是否存在人脸伪造攻击的检测结果。
第七方面,提出了一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取待识别用户的人脸视频;
基于如第一方面所述的人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造;
若包含,则确定针对所述待识别用户的人脸识别不通过。
第八方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取待识别用户的人脸视频;
基于如第一方面所述的人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造;
若包含,则确定针对所述待识别用户的人脸识别不通过。
本说明书实施例提供的以上至少一个技术方案,在将待检测视频拆分生成视频帧序列后,先通过第一特征嵌入模型提取出视频帧序列中各视频帧的第一特征,然后将第一特征输入具有自我注意力机制的第二特征嵌入模型,提取得到能够体现视频帧中的纹理细节信息的第二特征,再对视频帧序列中各视频帧的第二特征进行融合,可得到更有利于区分真实人脸和人脸伪造的融合特征,从而实现准确检测待检测视频中是否存在人脸伪造攻击的检测结果,进而可以预防遭受人脸伪造攻击。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1是本说明书实施例提供的一种人脸伪造攻击检测方法的流程示意图。
图2是本说明书实施例提供的一种人脸伪造攻击检测方法的原理示意图之一。
图3是本说明书实施例提供的一种人脸伪造攻击检测方法的原理示意图之二。
图4是本说明书实施例提供的第二特征嵌入模型的输入特征示意图。
图5是本说明书实施例提供的一种人脸识别方法的流程示意图。
图6是本说明书一个实施例提供的一种电子设备的结构示意图。
图7是本说明书一实施例提供的一种人脸伪造攻击检测装置的结构示意图。
图8是本说明书一实施例提供的一种人脸识别装置的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文件保护的范围。
为了准确地检测视频中是否存在人脸伪造,从而预防人脸伪造攻击,本说明书实施例提出了一种人脸伪造攻击检测方法和装置,该方法和装置可以由电子设备执行,或者由安装在电子设备中的软件或硬件设备执行。这里的电子设备包括但不限于终端设备和服务器,所述终端设备包括但不限于:智能手机、个人电脑(personal computer,PC)、笔记本电脑、平板电脑、电子阅读器、网络电视、可穿戴设备等智能终端设备中的任一种,所述服务器包括但不限于:单台服务器、多台服务器、服务器集群以及云服务器中的任一种。
下面先对本说明书实施例提供的一种人脸伪造攻击检测方法进行介绍。
如图1所示,本说明书实施例提出的一种人脸伪造攻击检测方法,可包括:
步骤102、对包含人脸的待检测视频进行拆帧处理,生成视频帧序列。
例如,对于包含n+1帧的待检测视频,将其拆帧处理得到的视频帧序列可表示为:T0、T1、T2、……、Tn,其中,0至n表示视频帧在待检测视频中的时序。
步骤104、针对所述视频帧序列中的任一视频帧,将该视频帧输入第一特征嵌入模型,得到该视频帧的第一特征,并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征。
其中,第一特征嵌入模型和第二特征嵌入模型为图像特征提取模型。在本说明书实施例中,第一特征嵌入模型可以看作是基础网络(backbone),第二特征嵌入模型可以看作是特征增强网络。具体的,第一特征嵌入模型可以是残差网络(ResNet)、Inception和孪生网络中的任一网络。由于残差网络中包含残差结构,而残差结构可以有效地增强特征的表达能力,因此,第一特征嵌入模型可以是残差网络,具体可以是ResNet18。第二特征嵌入模型可以是具有自我注意力机制(self-attention)的特征嵌入模型,例如Transformer。
上述第一特征嵌入模型和上述第二特征嵌入模型是预先训练得到的。可选的,在训练上述第一特征嵌入模型和上述第二特征嵌入模型时,除了采用交叉熵等一般的损失函数,还可以采用三元组损失函数(Triplet loss)作为损失函数来判断模型是否达到收敛,因为Triplet loss引入对比学习的思想,所以可以更好地拉大两个类别之间的特征距离,即可以扩大真实人脸和人脸伪造两个类别的类间距离,从而更好的对第一特征嵌入模型和上述第二特征嵌入模型的学习过程进行约束。
本说明书实施例中的步骤104,旨在先利用第一特征嵌入模型(如ResNet18)提取出视频帧中的基础特征(第一特征),然后再通过具有自我注意力机制的第二特征嵌入模型(如Transformer)进一步优化视频帧的特征表达,提取得到能够体现视频帧中的纹理细节信息(人脸内细节和人脸轮廓细节)的第二特征,以便于更好地区分真实人脸和伪造人脸。
图2和图3分别示出了本说明书实施例提供的一种人脸伪造攻击检测方法的两个实现原理示意图。从图2和图3可以看出,将待检测视频进行拆帧处理得到视频帧序列以后,可以将视频帧序列中的视频帧逐一输入第一特征嵌入模型,得到各视频帧对应的第一特征;而对于各视频帧的第二特征的提取,至少存在如下两种方式:
第一种方式
如图2所示,直接将视频帧序列中各视频帧的第一特征分别对应输入第二特征嵌入模型,得到视频帧序列中各视频帧的第二特征。也即,所述将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征,包括:将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征。
进一步的,在上述第一种方式中,在所述将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征前,所述方法还可以包括:获取该视频帧的人工提取特征;相应的,所述将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征,可包括:将该视频帧的第一特征和人工提取特征融合后输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征。其中,一个视频帧对应的人工提取特征可以包括但不限于handcrafted feature,比如直方图、hog特征等。
第二种方式
如图3所示,在步骤104前,先将所述待检测视频输入视频描述生成模块,得到所述待检测视频中各视频帧的内容描述文本;将所述待检测视频中各视频帧的内容描述文本输入文本特征嵌入模型,得到所述待检测视频中各视频帧的文本特征;然后,将视频帧序列中各视频帧的第一特征和文本特征分别对应输入第二特征嵌入模型,得到视频帧序列中各视频帧的第二特征。也即,所述将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征,包括:将该视频帧的第一特征和该视频帧的文本特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征。
其中,视频描述生成模块可以是video caption,文本特征嵌入模型可以是生成型预训练变换器3(Generative Pre-trained Transformer 3,GPT3),当然,文本特征嵌入模型还可以是其他自然语言处理模型(Natural Language Processing,NLP)。
进一步的,在所述第二特征嵌入模型为Transformer的情况下,所述将该视频帧的第一特征和该视频帧的文本特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征,包括:该视频帧的第一特征输入所述第二特征嵌入模型,并将该视频帧的文本特征以query(查询)的方式输入所述第二特征嵌入模型,得到该视频帧的第二特征。需要说明的,关于Transformer的结构以及query的含义请参考相关技术,本说明书不再赘述。
图4示出了本说明书实施例提供的第二特征嵌入模型的输入特征示意图。参考图4可知,第二特征嵌入模型的输入包括视频帧的第一特征和文本特征的融合(Concat),例如,对于视频帧T0,其第一特征可以表示为I0,其文本特征可表示为T0_t,那么视频帧T0对应的第二特征嵌入模型的输入包括I0与T0_t的融合,具体可以表示为I0-T0_t,对于其他视频帧,以此类推,不再赘述。
可以看出,在上述第二种方式中,在确定视频帧的第二特征时,除了视频帧的图像特征(第一特征)外,还引入了视频帧的文本特征,实现了图文特征的融合,因此可以从视频内容理解的角度提升人脸伪造攻击的检测效果。
可选的,在上述第二种方式中,在所述该视频帧的第一特征输入所述第二特征嵌入模型,并将该视频帧的文本特征以query(查询)的方式输入所述第二特征嵌入模型,得到该视频帧的第二特征前,所述方法还可以包括:获取该视频帧的人工提取特征;相应的,所述该视频帧的第一特征输入所述第二特征嵌入模型,并将该视频帧的文本特征以query(查询)的方式输入所述第二特征嵌入模型,得到该视频帧的第二特征,可包括:将该视频帧的第一特征和人工提取特征融合后输入所述第二特征嵌入模型,并将该视频帧的文本特征以query(查询)的方式输入所述第二特征嵌入模型,得到该视频帧的第二特征。同样的,一个视频帧对应的人工提取特征可以包括但不限于handcrafted feature,比如直方图、hog特征等。
可以理解,无论是在上述第一种方式中,还是在上述第二种方式中,引入人工提取特征工后,可以进一步增强图像纹理差异性上的区别,从而可以进一步提升人脸伪造攻击的检测效果。
步骤106、基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征。
基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征的方式也有很多种,下面列举三种。
第一种方式
将所述视频帧序列中的视频帧的第二特征进行拼接(Concat),得到所述待检测视频的融合特征。可以理解,由于视频帧的第二特征能体现视频帧中的纹理细节信息(如人脸内细节和人脸轮廓细节),因此,对视频帧序列中的各视频帧第二特征进行拼接得到的融合特征,能够从人脸细节方面识别出真实人脸和伪造人脸。
第二种方式
由于在视频人脸伪造攻击检测任务中,人脸伪造中的缺陷区域除了体现在人脸内细节和轮廓细节的突变(第二特征本身)外,还可能体现在视频帧间某些敏感区域的突变,因此,若能提取到如上两种特征,则可以更准确地检测出人脸伪造攻击。
具体的,如图2或图3所示,将所述视频帧序列中的视频帧的第二特征进行拼接,得到所述待检测视频的基础空间特征;基于所述视频帧序列中相邻两个视频帧的第二特征,确定所述相邻两个视频帧之间的帧间差异特征(可以通过对相邻两个视频帧的第二特征求差得到),并将所述视频帧序列中相邻两个视频帧之间的帧间差异特征按序拼接,得到所述待检测视频的时序空间特征(时序纹理增强信息);将所述基础空间特征和所述时序空间特征进行融合(如Concat),得到所述待检测视频的融合特征。
不难看出,上述第二种方式,一方面通过第二特征嵌入模型的self-attention机制提取单帧图像中的纹理细节信息(基础空间特征),另一方面通过确定帧间差异获得待检测视频的时序纹理增强信息(时序空间特征),最后再对这两部分特征进行融合,得到更有利于区分真实人脸视频和人脸伪造视频的特征,因此可以更好地提升人脸伪造攻击的检测效果。
第三种方式
除了体现纹理细节信息的基础空间特征和体现时序纹理增强信息的时序空间特征外,还可以通过引入待检测视频的文本特征,进一步实现图文特征的融合,以从视频内容理解的角度进一步提升人脸伪造攻击的检测效果。
具体的,如图2或图3所示,可以先将所述视频帧序列中的视频帧的第二特征进行拼接(具体的,将所述视频帧序列中相邻两个视频帧的第二特征按序拼接),得到所述待检测视频的基础空间特征;然后基于所述视频帧序列中相邻两个视频帧的第二特征,确定所述相邻两个视频帧之间的帧间差异特征(可以通过对相邻两个视频帧的第二特征求差得到),并将所述视频帧序列中相邻两个视频帧之间的帧间差异特征按序拼接,得到所述待检测视频的时序空间特征;最后将所述基础空间特征和所述时序空间特征和所述待检测视频的文本特征(或所述待检测视频中各视频帧的文本特征,即整个待检测视频的文本特征)进行融合,得到所述待检测视频的融合特征。
同样的,如图3所示,所述待检测视频的文本特征可在下述步骤108前,通过如下方式获得:将所述待检测视频输入视频描述生成模块,得到所述待检测视频的内容描述文本;将所述内容描述文本输入文本特征嵌入模型,得到所述待检测视频的文本特征。可以理解,此处是将整个待检测视频的文本特征作为全局特征与所述基础空间特征以及所述时序空间特征进行融合。
需要说明的是,在本说明书实施例中,出现了两次图文特征的融合(如图3中的虚线箭头所指),第一次是将待检测视频中各视频帧的文本特征作为第二特征嵌入模型的输入,第二次是将待检测视频的文本特征作为全局特征与所述基础空间特征以及所述时序空间特征进行融合,在具体实现时,可以将这两次融合择一引入本说明书实施例提供的一种人脸伪造攻击检测方法中,也可以将这两次融合均引入本说明书实施例提供的一种人脸伪造攻击检测方法中。
步骤108、将所述融合特征输入分类模型,得到所述待检测视频是否存在人脸伪造攻击的检测结果。
其中,所述分类模型也是预先训练得到的,所述分类模型可以是任何分类模型,例如逻辑回归模型softmax。如图2或图3所示,所述分类模型的输出为所述待检测视频中的人脸为真实人脸或人脸伪造,即得到所述待检测视频是否存在人脸伪造攻击的检测结果。
本说明书实施例提供的一种人脸伪造攻击检测方法,在将待检测视频拆分生成视频帧序列后,先通过第一特征嵌入模型提取出视频帧序列中各视频帧的第一特征,然后将第一特征输入具有自我注意力机制的第二特征嵌入模型,提取得到能够体现视频帧中的纹理细节信息的第二特征,再对视频帧序列中各视频帧的第二特征进行融合,可得到更有利于区分真实人脸和人脸伪造的融合特征,从而实现准确检测待检测视频中是否存在人脸伪造攻击的检测结果,进而可以预防遭受人脸伪造攻击。
可选的,本说明书实施例提供的一种人脸伪造攻击检测方法,一方面通过第二特征嵌入模型的self-attention机制提取单帧图像中的纹理细节信息(基础空间特征),另一方面通过确定帧间差异获得待检测视频的时序纹理增强信息(时序空间特征),最后再对这两部分特征进行融合,得到更有利于区分真实人脸视频和人脸伪造视频的特征,因此可以更好地提升人脸伪造攻击的检测效果。
可选的,本说明书实施例提供的一种人脸伪造攻击检测方法,除了视频帧的图像特征(第一特征)外,还引入了视频帧的文本特征,实现了图文特征的融合,因此可以从视频内容理解的角度提升人脸伪造攻击的检测效果。
可选的,本说明书实施例提供的一种人脸伪造攻击检测方法,引入人工提取特征工后,可以进一步增强图像纹理差异性上的区别,从而可以进一步提升人脸伪造攻击的检测效果。
在上述一种人脸伪造攻击检测方法的基础上,本说明书实施例还提出了一种人脸识别方法,以防止基于人脸识别的认证系统遭受人脸伪造攻击,下面进行简要说明。
如图5所示,本说明实施例提出的一种人脸识别方法,可以包括:
步骤502、获取待识别用户的人脸视频。
步骤504、基于本说明书实施例提供的一种人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造;若为是执行步骤506。
也就是说,将所述人脸视频作为待检测视频进行检测,以确认所述人脸视频中是否包含人脸伪造。
步骤506、确定针对所述待识别用户的人脸识别不通过。
可选的,若步骤504的检测结果为所述人脸视频中不包含人脸伪造,则进行下一步的人脸比对环节,以做出身份认证是否通过的结论。
可以理解,若检测到用于人脸识别的人脸视频中包含人脸伪造,说明可能有非法用户在尝试通过人脸伪造欺骗人脸识别系统,企图通过人脸伪造视频欺骗人脸识别系统通过身份认证,从而实现非法目的。但是通过本说明书实施例提供的人脸识别方法,不仅可以准确地检测人脸伪造攻击,还可以在检测出人脸伪造攻击后,给出人脸识别不通过的识别结果,从而阻断进一步地身份认证,最终可以避免人脸伪造攻击得逞,保护了使用该人脸识别系统的业务系统的安全。
以上对本说明书提供的方法进行了说明,下面对本说明书提供的电子设备进行介绍。
图6是本说明书的一个实施例提供的电子设备的结构示意图。请参考图6,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成人脸伪造攻击检测装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
对包含人脸的待检测视频进行拆帧处理,生成视频帧序列;
针对所述视频帧序列中的任一视频帧,将该视频帧输入第一特征嵌入模型,得到该视频帧的第一特征,并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征;
基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征;
将所述融合特征输入分类模型,得到所述待检测视频是否存在人脸伪造攻击的检测结果。
或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成人脸识别装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取待识别用户的人脸视频;
基于本说明书实施例提供的一种人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造;
若包含,则确定针对所述待识别用户的人脸识别不通过。
上述如本说明书图1或图5所示实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1或图5所示的实施例提供的方法,本说明书不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1示实施例的方法,并具体用于执行以下操作:
对包含人脸的待检测视频进行拆帧处理,生成视频帧序列;
针对所述视频帧序列中的任一视频帧,将该视频帧输入第一特征嵌入模型,得到该视频帧的第一特征,并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征;
基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征;
将所述融合特征输入分类模型,得到所述待检测视频是否存在人脸伪造攻击的检测结果。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图5所示实施例的方法,并具体用于执行以下操作:
获取待识别用户的人脸视频;
基于本说明书实施例提供的一种人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造;
若包含,则确定针对所述待识别用户的人脸识别不通过。
下面对本说明书实施例提供的装置进行说明。
如图7所示,本说明书的一个实施例提供了一种人脸伪造攻击检测装置700,在一种软件实施方式中,装置700可包括:预处理模块701、特征嵌入模块702、特征融合模块703和分类模块704。
预处理模块701,对包含人脸的待检测视频进行拆帧处理,生成视频帧序列。
例如,对于包含n+1帧的待检测视频,将其拆帧处理得到的视频帧序列可表示为:T0、T1、T2、……、Tn,其中,0至n表示视频帧在待检测视频中的时序。
特征嵌入模块702,针对所述视频帧序列中的任一视频帧,将该视频帧输入第一特征嵌入模型,得到该视频帧的第一特征,并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征。
其中,第一特征嵌入模型和第二特征嵌入模型为图像特征提取模型。在本说明书实施例中,第一特征嵌入模型可以看作是基础网络(backbone),第二特征嵌入模型可以看作是特征增强网络。具体的,第一特征嵌入模型可以是残差网络(ResNet)、Inception和孪生网络中的任一网络。由于残差网络中包含残差结构,而残差结构可以有效地增强特征的表达能力,因此,第一特征嵌入模型可以是残差网络,具体可以是ResNet18。第二特征嵌入模型可以是具有自我注意力机制(self-attention)的特征嵌入模型,例如Transformer。
上述第一特征嵌入模型和上述第二特征嵌入模型是预先训练得到的。可选的,在训练上述第一特征嵌入模型和上述第二特征嵌入模型时,除了采用交叉熵等一般的损失函数,还可以采用三元组损失函数(Triplet loss)作为损失函数来判断模型是否达到收敛,因为Triplet loss引入对比学习的思想,所以可以更好地拉大两个类别之间的特征距离,即可以扩大真实人脸和伪造人脸两个类别的类间距离,从而更好的对第一特征嵌入模型和上述第二特征嵌入模型的学习过程进行约束。
本说明书实施例中的特征嵌入模块702,旨在先利用第一特征嵌入模型(如ResNet18)提取出视频帧中的基础特征(第一特征),然后再通过具有自我注意力机制的第二特征嵌入模型(如Transformer)进一步优化视频帧的特征表达,提取得到能够体现视频帧中的纹理细节信息(人脸内细节和人脸轮廓细节)的第二特征,以便于更好地区分真实人脸和人脸伪造。
具体的,特征嵌入模块702可以将视频帧序列中的视频帧逐一输入第一特征嵌入模型,得到各视频帧对应的第一特征;而对于各视频帧的第二特征的提取,至少存在如下两种方式:
第一种方式
特征嵌入模块702,可将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征。
进一步的,在上述第一种方式中,装置700还可以包括:人工特征获取模块,以在将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征前,获取该视频帧的人工提取特征;相应的,特征嵌入模块702,可将该视频帧的第一特征和人工提取特征融合后输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征。其中,一个视频帧对应的人工提取特征可以包括但不限于handcraftedfeature,比如直方图、hog特征等。
第二种方式
装置700还可以包括:文本生成模块和文本特征提取模块。
文本生成模块,将所述待检测视频输入视频描述生成模块,得到所述待检测视频中各视频帧的内容描述文本。
文本特征提取模块,将所述待检测视频中各视频帧的内容描述文本输入文本特征嵌入模型,得到所述待检测视频中各视频帧的文本特征。
相应的,特征嵌入模块702,可将视频帧序列中各视频帧的第一特征和文本特征分别对应输入第二特征嵌入模型,得到视频帧序列中各视频帧的第二特征。
其中,视频描述生成模块可以是video caption,文本特征嵌入模型可以是生成型预训练变换器3(Generative Pre-trained Transformer 3,GPT3),当然,文本特征嵌入模型还可以是其他自然语言处理模型(Natural Language Processing,NLP)。
进一步的,在所述第二特征嵌入模型为Transformer的情况下,特征嵌入模块702,可将该视频帧的第一特征输入所述第二特征嵌入模型,并将该视频帧的文本特征以query(查询)的方式输入所述第二特征嵌入模型,得到该视频帧的第二特征。需要说明的,关于Transformer的结构以及query的含义请参考相关技术,本说明书不再赘述。
可以看出,在上述第二种方式中,在确定视频帧的第二特征时,除了视频帧的图像特征(第一特征)外,还引入了视频帧的文本特征,实现了图文特征的融合,因此可以从视频内容理解的角度提升人脸伪造攻击的检测效果。
可选的,在上述第二种方式中,装置700还可以包括:人工特征获取模块,以获取该视频帧的人工提取特征;相应的,特征嵌入模块702,可将该视频帧的第一特征和人工提取特征融合后输入所述第二特征嵌入模型,并将该视频帧的文本特征以query(查询)的方式输入所述第二特征嵌入模型,得到该视频帧的第二特征。同样的,一个视频帧对应的人工提取特征可以包括但不限于handcrafted feature,比如直方图、hog特征等。
可以理解,无论是在上述第一种方式中,还是在上述第二种方式中,引入人工提取特征工后,可以进一步增强图像纹理差异性上的区别,从而可以进一步提升人脸伪造攻击的检测效果。
特征融合模块703,基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征。
具体的,特征融合模块703基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征的方式也有很多种,下面列举三种。
第一种方式
将所述视频帧序列中的视频帧的第二特征进行拼接(Concat),得到所述待检测视频的融合特征。可以理解,由于视频帧的第二特征能体现视频帧中的纹理细节信息(如人脸内细节和人脸轮廓细节),因此,对视频帧序列中的各视频帧第二特征进行拼接得到的融合特征,能够从人脸细节方面识别出真实人脸和伪造人脸。
第二种方式
由于在视频人脸伪造攻击检测任务中,人脸伪造中的缺陷区域除了体现在人脸内细节和轮廓细节的突变(第二特征本身)外,还可能体现在视频帧间某些敏感区域的突变,因此,若能提取到如上两种特征,则可以更准确地检测出人脸伪造攻击。
具体的,将所述视频帧序列中的视频帧的第二特征进行拼接,得到所述待检测视频的基础空间特征;基于所述视频帧序列中相邻两个视频帧的第二特征,确定所述相邻两个视频帧之间的帧间差异特征(可以通过对相邻两个视频帧的第二特征求差得到),并将所述视频帧序列中相邻两个视频帧之间的帧间差异特征按序拼接,得到所述待检测视频的时序空间特征(时序纹理增强信息);将所述基础空间特征和所述时序空间特征进行融合(如Concat),得到所述待检测视频的融合特征。
不难看出,上述第二种方式,一方面通过第二特征嵌入模型的self-attention机制提取单帧图像中的纹理细节信息(基础空间特征),另一方面通过确定帧间差异获得待检测视频的时序纹理增强信息(时序空间特征),最后再对这两部分特征进行融合,得到更有利于区分真实人脸视频和人脸伪造视频的特征,因此可以更好地提升人脸伪造攻击的检测效果。
第三种方式
除了体现纹理细节信息的基础空间特征和体现时序纹理增强信息的时序空间特征外,还可以通过引入待检测视频的文本特征,进一步实现图文特征的融合,以从视频内容理解的角度进一步提升人脸伪造攻击的检测效果。
具体的,可以先将所述视频帧序列中的视频帧的第二特征进行拼接(具体的,将所述视频帧序列中相邻两个视频帧的第二特征按序拼接),得到所述待检测视频的基础空间特征;然后基于所述视频帧序列中相邻两个视频帧的第二特征,确定所述相邻两个视频帧之间的帧间差异特征(可以通过对相邻两个视频帧的第二特征求差得到),并将所述视频帧序列中相邻两个视频帧之间的帧间差异特征按序拼接,得到所述待检测视频的时序空间特征;最后将所述基础空间特征和所述时序空间特征和所述待检测视频的文本特征(或所述待检测视频中各视频帧的文本特征,即整个待检测视频的文本特征)进行融合,得到所述待检测视频的融合特征。
同样的,装置700还可以包括:文本生成模块和文本特征提取模块。
文本生成模块,将所述待检测视频输入视频描述生成模块,得到所述待检测视频的内容描述文本。
文本特征提取模块,将所述内容描述文本输入文本特征嵌入模型,得到所述待检测视频的文本特征。
可以理解,此处是将整个待检测视频的文本特征作为全局特征与所述基础空间特征以及所述时序空间特征进行融合。
需要说明的是,在本说明书实施例中,出现了两次图文特征的融合(如图3中的虚线箭头所指),第一次是将待检测视频中各视频帧的文本特征作为第二特征嵌入模型的输入,第二次是将待检测视频的文本特征作为全局特征与所述基础空间特征以及所述时序空间特征进行融合,在具体实现时,可以将这两次融合择一引入本说明书实施例提供的一种人脸伪造攻击检测方法中,也可以将这两次融合均引入本说明书实施例提供的一种人脸伪造攻击检测方法中。
分类模块704,将所述融合特征输入分类模型,得到所述待检测视频是否存在人脸伪造攻击的检测结果。
其中,所述分类模型也是预先训练得到的,所述分类模型可以是任何分类模型,例如逻辑回归模型softmax。
需要说明的是,人脸伪造攻击检测装置700能够实现图1提供的一种人脸伪造攻击检测方法,并能取得相同的技术效果,详细内容可参考上文对方法实施例部分的描述,不再赘述。
如图8所示,本说明书的一个实施例提供了一种人脸识别装置800,在一种软件实施方式中,装置800可包括:视频获取模块801、人脸伪造检测模块802和确定模块803。
视频获取模块801,获取待识别用户的人脸视频。
人脸伪造检测模块802,基于本说明书实施例提供的一种人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造。
确定模块803,在所述人脸视频中包含人脸伪造的情况下,确定针对所述待识别用户的人脸识别不通过。
需要说明的是,人脸伪造攻击检测装置800能够实现图5提供的一种人脸识别方法,并能取得相同的技术效果,详细内容可参考上文对方法实施例部分的描述,不再赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”所区别的对象通常为一类,并不限定对象的个数,例如第一字符可以是一个,也可以是多个。
还需要说明的是,术语”包括”、”包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制时,由语句”包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (17)
1.一种人脸伪造攻击检测方法,包括:
对包含人脸的待检测视频进行拆帧处理,生成视频帧序列;
针对所述视频帧序列中的任一视频帧,将该视频帧输入第一特征嵌入模型,得到该视频帧的第一特征,并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征;
基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征;
将所述融合特征输入分类模型,得到所述待检测视频是否存在人脸伪造攻击的检测结果。
2.根据权利要求1所述的方法,在所述将所述融合特征输入分类模型,得到所述待检测视频是否存在人脸伪造攻击的检测结果前,所述方法还包括:
将所述待检测视频输入视频描述生成模块,得到所述待检测视频中各视频帧的内容描述文本;
将所述待检测视频中各视频帧的内容描述文本输入文本特征嵌入模型,得到所述待检测视频中各视频帧的文本特征;
其中,所述将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征,包括:
将该视频帧的第一特征和该视频帧的文本特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征。
3.根据权利要求2所述的方法,在所述第二特征嵌入模型为Transformer的情况下,所述将该视频帧的第一特征和该视频帧的文本特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征,包括:
将该视频帧的第一特征输入所述第二特征嵌入模型,并将该视频帧的文本特征以query的方式输入所述第二特征嵌入模型,得到该视频帧的第二特征。
4.根据权利要求2或3所述的方法,其中,所述基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征,包括:
将所述视频帧序列中的视频帧的第二特征进行拼接,得到所述待检测视频的基础空间特征;
基于所述视频帧序列中相邻两个视频帧的第二特征,确定所述相邻两个视频帧之间的帧间差异特征,并将所述视频帧序列中相邻两个视频帧之间的帧间差异特征按序拼接,得到所述待检测视频的时序空间特征;
将所述基础空间特征、所述时序空间特征和所述待检测视频中各视频帧的文本特征进行融合,得到所述待检测视频的融合特征。
5.根据权利要求1-3任一项所述的方法,其中,所述基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征,包括:
将所述视频帧序列中的视频帧的第二特征进行拼接,得到所述待检测视频的基础空间特征;
基于所述视频帧序列中相邻两个视频帧的第二特征,确定所述相邻两个视频帧之间的帧间差异特征,并将所述视频帧序列中相邻两个视频帧之间的帧间差异特征按序拼接,得到所述待检测视频的时序空间特征;
将所述基础空间特征和所述时序空间特征进行融合,得到所述待检测视频的融合特征。
6.根据权利要求1所述的方法,在所述将所述融合特征输入分类模型,得到所述待检测视频是否存在人脸伪造攻击的检测结果前,所述方法还包括:
将所述待检测视频输入视频描述生成模块,得到所述待检测视频的内容描述文本;
将所述内容描述文本输入文本特征嵌入模型,得到所述待检测视频的文本特征;
其中,所述基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征,包括:
将所述视频帧序列中的视频帧的第二特征进行拼接,得到所述待检测视频的基础空间特征;
基于所述视频帧序列中相邻两个视频帧的第二特征,确定所述相邻两个视频帧之间的帧间差异特征,并将所述视频帧序列中相邻两个视频帧之间的帧间差异特征按序拼接,得到所述待检测视频的时序空间特征;
将所述基础空间特征、所述时序空间特征和所述文本特征进行融合,得到所述待检测视频的融合特征。
7.根据权利要求1所述的方法,在所述将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征前,所述方法还包括:
获取该视频帧的人工提取特征;
其中,所述将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征,包括:
将该视频帧的第一特征和人工提取特征融合后输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征。
8.根据权利要求1-3、6-7任一项所述的方法,
训练所述第一特征嵌入模型和所述第二特征嵌入模型时所采用的损失函数包括:三元组损失函数。
9.根据权利要求1-3、6-7任一项所述的方法,所述第一特征嵌入模型包括下述一项:
残差网络;
Inception;
孪生网络。
10.根据权利要求1-2、6-7任一项所述的方法,
所述第二特征嵌入模型为Transformer。
11.一种人脸识别方法,包括:
获取待识别用户的人脸视频;
基于如权利要求1-10任一项所述的人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造;
若包含,则确定针对所述待识别用户的人脸识别不通过。
12.一种人脸伪造攻击检测装置,包括:
预处理模块,对包含人脸的待检测视频进行拆帧处理,生成视频帧序列;
特征嵌入模块,针对所述视频帧序列中的任一视频帧,将该视频帧输入第一特征嵌入模型,得到该视频帧的第一特征,并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征;
特征融合模块,基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征;
分类模块,将所述融合特征输入分类模型,得到所述待检测视频是否存在人脸伪造攻击的检测结果。
13.一种人脸识别装置,包括:
视频获取模块,获取待识别用户的人脸视频;
人脸伪造检测模块,基于如权利要求1-10任一项所述的人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造;
确定模块,在所述人脸视频中包含人脸伪造的情况下,确定针对所述待识别用户的人脸识别不通过。
14.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
对包含人脸的待检测视频进行拆帧处理,生成视频帧序列;
针对所述视频帧序列中的任一视频帧,将该视频帧输入第一特征嵌入模型,得到该视频帧的第一特征,并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征;
基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征;
将所述融合特征输入分类模型,得到所述待检测视频是否存在人脸伪造攻击的检测结果。
15.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
对包含人脸的待检测视频进行拆帧处理,生成视频帧序列;
针对所述视频帧序列中的任一视频帧,将该视频帧输入第一特征嵌入模型,得到该视频帧的第一特征,并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型,得到该视频帧的第二特征;
基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征;
将所述融合特征输入分类模型,得到所述待检测视频是否存在人脸伪造攻击的检测结果。
16.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取待识别用户的人脸视频;
基于如权利要求1-10任一项所述的人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造;
若包含,则确定针对所述待识别用户的人脸识别不通过。
17.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取待识别用户的人脸视频;
基于如权利要求1-10任一项所述的人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造;
若包含,则确定针对所述待识别用户的人脸识别不通过。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310507010.3A CN117197857A (zh) | 2023-05-04 | 2023-05-04 | 人脸伪造攻击检测、人脸识别方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310507010.3A CN117197857A (zh) | 2023-05-04 | 2023-05-04 | 人脸伪造攻击检测、人脸识别方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117197857A true CN117197857A (zh) | 2023-12-08 |
Family
ID=88994867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310507010.3A Pending CN117197857A (zh) | 2023-05-04 | 2023-05-04 | 人脸伪造攻击检测、人脸识别方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117197857A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690061A (zh) * | 2023-12-27 | 2024-03-12 | 中邮消费金融有限公司 | 深度伪造视频检测方法、装置、设备及存储介质 |
-
2023
- 2023-05-04 CN CN202310507010.3A patent/CN117197857A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690061A (zh) * | 2023-12-27 | 2024-03-12 | 中邮消费金融有限公司 | 深度伪造视频检测方法、装置、设备及存储介质 |
CN117690061B (zh) * | 2023-12-27 | 2024-05-17 | 中邮消费金融有限公司 | 深度伪造视频检测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709408B (zh) | 图像真伪检测方法和装置 | |
Hitaj et al. | Have you stolen my model? evasion attacks against deep neural network watermarking techniques | |
CN105426356B (zh) | 一种目标信息识别方法和装置 | |
CN109905385B (zh) | 一种webshell检测方法、装置及系统 | |
CN113642639B (zh) | 活体检测方法、装置、设备和存储介质 | |
CN117197857A (zh) | 人脸伪造攻击检测、人脸识别方法、装置和设备 | |
CN116823428A (zh) | 一种反欺诈检测方法、装置、设备及存储介质 | |
Altuncu et al. | Deepfake: definitions, performance metrics and standards, datasets and benchmarks, and a meta-review | |
CN110351094B (zh) | 字符验证方法、装置、计算机设备及存储介质 | |
CN110879832A (zh) | 目标文本检测方法、模型训练方法、装置及设备 | |
CN116012612A (zh) | 内容检测方法和系统 | |
CN113239852B (zh) | 一种基于隐私保护的隐私图像处理方法、装置及设备 | |
CN113111734B (zh) | 一种水印分类模型训练方法及装置 | |
CN112819486B (zh) | 用于身份证明的方法和系统 | |
Pasqualino et al. | A multi camera unsupervised domain adaptation pipeline for object detection in cultural sites through adversarial learning and self-training | |
CN108920700B (zh) | 一种虚假图片识别方法及装置 | |
CN112183270A (zh) | 身份验证的拍摄参数的优化方法、装置及电子设备 | |
KR102451552B1 (ko) | 딥 러닝 기반의 콘텐츠의 진위를 판단하기 위한 콘텐츠 분석 시스템 | |
CN116935479B (zh) | 一种人脸识别方法、装置及电子设备和存储介质 | |
CN114140670B (zh) | 基于外源特征进行模型所有权验证的方法和装置 | |
CN116168211A (zh) | 图像检测模型训练及图像检测方法、装置以及存储介质 | |
CN116383379A (zh) | 一种基于对抗学习和多层融合的情感判别方法及系统 | |
CN116110136A (zh) | 活体检测方法和系统 | |
Chawla et al. | Deep learning approach for face recognition with disguise variations | |
CN115984927A (zh) | 一种活体检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |