CN114663987A - 静默活体检测方法、装置、终端设备和存储介质 - Google Patents
静默活体检测方法、装置、终端设备和存储介质 Download PDFInfo
- Publication number
- CN114663987A CN114663987A CN202210345497.5A CN202210345497A CN114663987A CN 114663987 A CN114663987 A CN 114663987A CN 202210345497 A CN202210345497 A CN 202210345497A CN 114663987 A CN114663987 A CN 114663987A
- Authority
- CN
- China
- Prior art keywords
- image
- living body
- channel
- processing
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
一种静默活体检测方法,包括:获取待检测图像;利用预先训练的活体检测模型通过深度学习提取待检测图像中的图像特征数据,通过基于多维度的注意力机制以处理采用四元数表示的图像特征数据以输出活体预测概率和非活体预测概率;依据活体预测概率和非活体预测概率判断所述待检测图像是否通过检测。通过采用上述技术方案,避免卷积过程中对特征的丢失,提升模型的性能。
Description
【技术领域】
本发明涉及静默活体检测技术领域,尤其涉及一种静默活体检测方法、装置、终端设备和存储介质。
【背景技术】
现有的静默活体检测多数基于图像的纹理特征进行识别,例如使用LBP、HOG等,并采用SVM分类。随着深度学习的发展,计算机视觉领域中手工设计的特征逐渐被深度网络学习的特征所取代,手工设计特征虽简单有效,却无法更好地拟合具体任务,对效果的提升非常有限。深度网络学习具有得天独厚的非线性特征提取能力,使得网络可完成各种复杂的任务。如使用VGG、ResNet、DenseNet等作为特征提取器进行活体检测、使用一些辅助网络监督活体分类、使用一些专门设计的卷积核和卷积网络进行活体检测任务等。
但是深度网络学习的特征提取和辅助网络在构建上仍存在对特征局限性较多,无法获得更多细节信息;同时,对提取后特征直接采用SVM、FC或者softmax进行二分类的方法,一方面会丢失较多信息,另一方面添加FC层会引入较多参数,影响模型性能。
【发明内容】
针对现有技术存在的不足,本申请的目的在于提供静默活体检测方法、装置、终端设备和存储介质,避免卷积过程中对特征的丢失,提升模型的性能。
为实现上述目的,本发明提供了如下技术方案:
第一方面,提供一种静默活体检测方法,包括:
获取待检测图像;
利用预先训练的活体检测模型通过深度学习提取所述待检测图像中的图像特征数据,通过基于多维度的注意力机制以处理采用四元数表示的所述图像特征数据以输出活体预测概率和非活体预测概率;
依据所述活体预测概率和所述非活体预测概率判断所述待检测图像是否通过检测。
本发明进一步设置为:所述活体检测模型的训练方法包括:
通过人脸图像以获取图像样本;
对所述图像样本进行标记处理,并将标记的所述图像样本作为输入图像输入至所述活体检测模型进行训练。
本发明进一步设置为:所述并将标记的所述图像样本作为输入图像输入至所述活体检测模型进行训练之后,还包括:
对所述输入图像进行初步特征提取之后,经多个卷积操作的堆叠以提取出深度特征图。
本发明进一步设置为:所述经多个卷积操作的堆叠以提取出深度特征图,包括:
采用四元数表示所述深度特征图之后,基于三维矩阵对所述深度特征图进行1*1卷积运算以进行降维处理;
进行池化处理以输出实际预测结果;
通过四元数全连接层调整所述活体检测模型的权重分布,直至所述实际预测结果与目标预测结果的偏差在容许范围内时,训练完成,以获取训练完成的所述活体检测模型。
本发明进一步设置为:所述经多个卷积操作的堆叠以提取出深度特征图,其中首次卷积操作的具体步骤包括:
对图像进行升维处理并交叉采用不同的卷积核对图像进行深度卷积操作;
经深度卷积操作之后的结果以通道为单位输出并交于多维度的注意力机制进行处理,基于多维度的注意力机制中引入四元数对特征图进行表示;
经多维度的注意力机制处理后按通道为单位输出的结果,对每个通道的结果进行相加处理并执行降维处理。
本发明进一步设置为:所述经多个卷积操作的堆叠以提取出深度特征图,其中后续多次卷积操作的具体步骤包括:
对图像进行升维处理以四元数进行特征表示,并交叉采用不同的卷积核对图像进行深度卷积操作;
经深度卷积操作之后的结果以通道为单位输出并交于多维度的注意力机制进行处理,基于多维度的注意力机制中引入四元数对特征图进行表示;
经多维度的注意力机制处理后按通道为单位输出的结果,对每个通道的结果进行相加处理并执行降维处理。
本发明进一步设置为:所述对每个通道的结果进行相加处理并执行降维处理后,具体步骤包括:
对降维后的图像特征进行正则化以输出深度特征图。
本发明进一步设置为:每一卷积操作后均经批归一化和Swish激活函数处理。
本发明进一步设置为:所述经深度卷积操作之后的结果以通道为单位输出并交于多维度的注意力机制进行处理,具体步骤包括:
获取深度卷积操作按通道为单位输出的结果,分别提交至通道注意力计算分支、通道C和空间W维度交互捕获分支和通道C和空间H维度交互捕获分支之中处理并分别输出分支特征图;
获得各个所述分支特征图,采用四元数对各个所述分支特征图进行表示以进行融合,并与原始特征图相乘以得到融合特征图。
本发明进一步设置为:所述分别提交至通道注意力计算分支、通道C和空间W维度交互捕获分支和通道C和空间H维度交互捕获分支之中处理并分别输出分支特征图,具体步骤包括:
通道注意力计算分支:输入特征经过Z-Pool进行池化处理,采用7x7的四元数卷积层进行卷积操作,并使用Sigmoid激活函数生成空间注意力权重以输出第一分支特征图;
通道C和空间W维度交互捕获分支:输入特征经permute函数处理为H×C×W维度特征,并通过Z-Pool依次对H、C和W各维度进行池化处理,经permuter函数变为C×H×W维度特征以输出第二分支特征图;
通道C和空间H维度交互捕获分支:输入特征经permute函数处理为W×H×C维度特征,并通过Z-Pool依次对W、H和C各维度进行池化处理,经permuter函数变为C×H×W维度特征以输出第三分支特征图。
第二方面,提供一种静默活体检测装置,包括:
待检测图像获取模块,用于获取待检测图像;
活体预测概率输出模块,用于利用预先训练的活体检测模型通过深度学习提取所述待检测图像中的图像特征数据,通过基于多维度的注意力机制以处理采用四元数表示的所述图像特征数据以输出活体预测概率和非活体预测概率;
检测判断模块,用于依据所述活体预测概率和所述非活体预测概率判断所述待检测图像是否通过检测。
第三方面,提供一种终端设备,其包括存储器;一个或多个处理器,与所述存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行如权利要求1-10任意一项所述的静默活体检测方法。
第四方面,提供一种可读计算机介质,包括一个或多个应用程序中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序被配置为用于执行根据权利要求1-9任意一项所述的静默活体检测方法。
与现有技术相比,本发明具备如下优点:
1.本申请在提取图像特征时,采用了各个维度(通道C、空间长度W、空间宽度H)下的注意力机制,使得注意力更为多元,结合了空间注意力,以此提升模型的表达能力;同时,为了增强改进的EfficientNet网络的表达能力,引入了四元数,将三种注意力机制下得到的特征图使用四元数进行表示,最终获得融合特征图,该融合特征图相比于单一注意力机制下的特征图能够更好的捕获活体与非活体图像之间的特征差异,相比于三种注意力机制下特征图相加的方式,引入四元数进行表示的方式可以更好的保留不同维度之间的空间信息;
2.本申请为对四元数特征图进行卷积操作,将卷积块CNN替换成四元数卷积块QCNN,并且分类网络中的全连接层替换成四元数全连接层,从而提高了活体检测的准确率;
3.本申请将骨架网络的每一层网络结构中的SENet模块替换为空间和通道混合注意力模型而形成,在模型中获得各个分支特征图,采用四元数对各个分支特征图进行表示以直接进行融合,并将各个维度的特征图分别与原始特征图相乘以得到融合特征图,相比于Triplet Attention中直接求平均值的方法,本申请的融合方法可更大程度的保留特征信息,避免造成特征信息的丢失;同时,模型的输出与输入改为了加法操作,相比于SENet模块的乘法,起到了降低运算量的作用。
【附图说明】
图1为本实施例的方法流程图;
图2为本实施例的四元数卷积块QCNN的结构示意图;
图3为本实施例的空间和通道混合注意力模型的融合机制图;
图4为本实施例的空间和通道混合注意力模型的网络结构图。
【具体实施方式】
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PerSonal CommunicationS Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(PerSonal Digital ASSiStant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PoSitioning SyStem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请实施例提供的静默活体检测方法的应用场景,该应用场景包括本申请实施例提供的终端设备和服务器,其中服务器与终端设备之间设置有网络。网络用于在终端设备和服务器之间提供通信链路的介质。其中,终端设备通过网络与服务器交互,以接收或发送消息等,服务器可以是提供各种服务的服务器。其中服务器可以用来执行本申请实施例中提供的静默活体检测方法,服务器可以从终端设备中获取待检测图像,然后将待检测图像输入预先训练的活体检测模型从而定位出待检测图像中的文本区域和公式区域。另外,服务器还可以将定位的结果返回至终端设备等。此外,服务器可以存储有预先训练的活体检测模型;终端设备可以用来对待识别人体(例如某个人)进行拍照生成待检测图像。
可选的,终端设备可以是具有显示屏的各种电子设备,包括但不限于智能手机和计算机设备,其中计算机设备可以是台式计算机、便携式计算机、膝上型计算机、平板电脑等设备中的至少一种。终端设备可以泛指多个终端设备中的一个。此外,终端设备也可以用来执行本申请实施例中提供的一种静默活体检测方法。
应该理解,终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器可以是多个服务器组成的服务器集群等。
基于此,本申请实施例中提供了一种静默活体检测方法。请参阅图1和2所示,本发明公开的一种静默活体检测方法,以该方法应用于上述的服务器为例进行说明,包括以下步骤:
S1、获取待检测图像;
其中,待检测图像可以是图像采集设备(例如智能终端、摄像设备等)拍摄需要进行人脸识别等操作的人员产生的图片,通常是一些人脸图像;同时,对待检测图像的角度、颜色、大小、分辨率等参数仅要求符合图像识别的最低要求即可。
S2、利用预先训练的活体检测模型通过深度学习提取所述待检测图像中的图像特征数据,通过基于多维度的注意力机制以处理采用四元数表示的所述图像特征数据以输出活体预测概率和非活体预测概率;
其中,活体检测模型是采用四元数表示的输入图像对改进的EfficientNet网络进行训练获得,改进的EfficientNet网络包括改进的卷积运算模块,改进的卷积运算模块的卷积块CNN替换为四元数卷积块QCNN并将骨架网络的每一层网络结构中的SENet模块替换为空间和通道混合注意力模型而形成;
而四元数是一个数据结构,在机器人运动学中,通常使用一个四元数表示一个旋转变换矩阵,并由三个角度值和一个长度值来表示一个三维空间中的变换,三个角度值定义了旋转的轴,另一个长度值则定义了旋转的距离,现有的卷积块CNN仅支持缩放变换,四元数卷积块QCNN的操作还支持颜色空间的旋转,进而使得对颜色更加合理的表示;
S3、依据活体预测概率和非活体预测概率判断待检测图像是否通过检测。
具体地,根据待检测图像的活体预测概率和非活体预测概率可以确定该待检测图像是否属于活体,如果属于活体则通过检测;反之,不通过检测。可选地,根据活体预测概率和非活体预测概率两者共同判断待检测图像是否通过检测的步骤中,采用活体预测概率和非活体预测概率分别与预设阈值进行比较。其中,预设阈值可依据训练数据而定。
具体地,在S2中,关于活体检测模型的训练方法起始步骤中,对人脸图像进行预处理,具体步骤包括:
获取人脸图像,提交至人脸检测器进行检测和外扩以获取图像样本,图像样本的人脸区域大小为224*224mm;
获得图像样本,对图像样本进行标记处理,所谓标记处理是对图像样本进行活体和非活体进行预先标记,并将标记的图像样本作为输入图像输入至活体检测模型进行训练,具体地,输入图像是输入至改进的EfficientNet网络之中进行预训练。
具体地,在S2中,对输入图像的特征提取步骤具体包括:
Stage1:提取采用卷积核为3*3的卷积块CNN对输入图像进行初步特征提取,具体地,通道数选为32,stride选为2,对输入图像的尺寸进行缩小。
Stage2~8:经多个卷积操作的堆叠以提取出深度特征图。
Stage9:获得深度特征图,提交至卷积核为1*1的四元数卷积块QCNN进行降维处理;采用池化层进行池化处理以输出实际预测结果;通过四元数全连接层调整活体检测模型的权重分布,直至实际预测结果与目标预测结果的偏差在容许范围内时,训练完成,以获取训练完成的活体检测模型。
其中,活体检测模型中改进的EfficientNet网络的网络结构如表1:
表1
具体地,在Stage2~8中,四元数卷积块QCNN的特征提取步骤包括:
Stage2:使用1个k=3×3,stride=1;通道数为16;Layers=1,即表示输入特征在C-MBconv1中仅循环一次;Stage3~7根据上述改进的EfficientNet网络的结构数据依次重复上述过程,直至将特征输至Stage9当中。
在本实施例中,Stage2中首次卷积操作的具体步骤包括:
采用卷积核为为1*1的卷积层对图像进行升维处理,经过深度可分离卷积层交叉采用不同的卷积核对图像进行深度卷积操作;其中,深度可分离卷积层的卷积操作是为对图像进行逐通道卷积操作,即一个卷积核负责一个通道,以避免特征提取过程中导致的细节丢失问题;同时,深度可分离四元数卷积将执行一个空间卷积时,同时其通道保持独立,使得特征提取的更为高效可靠。
经深度卷积操作之后的结果以通道为单位输出并交于多维度的注意力机制进行处理,基于多维度的注意力机制中引入四元数对特征图进行表示;也就是说,Stage2在多维度的注意力机制之前的结构仍采用普通卷积层,尚未引入四元数对特征图进行表示,仅在经多维度的注意力机制中才引入四元数对各个分支特征图进行表示,以便于获得融合特征图,相比于Triplet Attention中求平均值的方法,引入四元数进行直接融合的方法可减少特征信息的丢失。
经多维度的注意力机制处理后按通道为单位输出的结果,并对每个通道的结果进行相加处理,提交至卷积核为1*1的四元数卷积层进行降维处理。对降维后的图像特征进行正则化以输出深度特征图,正则化处理采用Dropconnect函数,Dropconnect函数将节点中的每个与其相连的输入权值以1-p的概率清0,相比于Dropout具有更好防止训练过拟合的效果。
每一卷积操作后均经批归一化和Swish激活函数处理;其中,批归一化即是Batchnorm,通过批归一化步骤使每层输入的均值和方差在训练中是确定的,缓解了内部协变量偏移问题;同时,降低了梯度对参数的依赖,减小了梯度发散的几率,提高学习率。
在另一实施例中,Stage3~8中后续多次卷积操作的具体步骤包括:
采用卷积核为1*1的四元数卷积层对图像进行升维处理并以四元数进行特征表示,经过深度可分离卷积层交叉采用不同的卷积核对图像进行深度卷积操作;
经深度卷积操作之后的结果以通道为单位输出并交于多维度的注意力机制进行处理,基于多维度的注意力机制中引入四元数对特征图进行表示;
经多维度的注意力机制处理后按通道为单位输出的结果,并对每个通道的结果进行相加处理,提交至卷积核为1*1的四元数卷积层进行降维处理。对降维后的图像特征进行正则化以输出深度特征图,正则化处理采用Dropconnect函数;也就是说,在Stage3~8中每一四元数卷积块QCNN结构的卷积层均引入四元数进行表示,与承接的Stage2的特征维度保持一致,使得Stage3~8的四元数卷积块QCNN均支持对特征图的颜色空间旋转,提供了对颜色更加合理的表示。
在本实施例中,请参阅图3和4所示,经深度卷积操作之后的结果以通道为单位输出并交于多维度的注意力机制进行处理,其中多维度的注意力机制采用为空间和注意力混合模型,具体包括:
获取深度卷积操作按通道为单位输出的结果,分别提交至通道注意力计算分支、通道C和空间W维度交互捕获分支和通道C和空间H维度交互捕获分支之中处理并分别输出分支特征图;
请参阅图3所示,获得各个分支特征图,采用四元数对各个分支特征图进行表示以进行融合,并将各维度的特征图与原始特征图A相乘以得到融合特征图,融合特征图包括有CA、HA和WA,相比于Triplet Attention中直接求平均值的方法,本申请的融合方法可更大程度的保留特征信息,避免造成特征信息的丢失。
具体地,各个分支特征图是为RGB图像,对分支特征图的每一个像素点使用一个四元数表示。
具体地,请参阅图4所示,通道注意力计算分支:输入特征经过Z-Pool进行池化处理,采用7x 7的四元数卷积层进行卷积操作,并使用Sigmoid激活函数生成空间注意力权重以输出第一分支特征图;
通道C和空间W维度交互捕获分支:输入特征经permute函数处理为H×C×W维度特征,并通过Z-Pool依次对H、C和W各维度进行池化处理,经permuter函数变为C×H×W维度特征以输出第二分支特征图;
通道C和空间H维度交互捕获分支:输入特征经permute函数处理为W×H×C维度特征,并通过Z-Pool依次对W、H和C各维度进行池化处理,经permuter函数变为C×H×W维度特征以输出第三分支特征图。
其中,上述Z-Pool操作为对输入进行MaxPooling和AvgPooling,输出2×H×W特征,即通过Z-pool层将C维度的张量缩减到二维,并将该维上的平均汇集特征和最大汇集特征连接起来;Z-pool定义为:
Z-Pool(χ)=[MaxPool0d(χ),AvgPpool0d(χ)]
其中,0d是最大池化操作和平均池化操作发生的第0维。
本实施例还提供一种静默活体检测装置,包括:
待检测图像获取模块,用于获取待检测图像;
活体预测概率输出模块,用于将待检测图像输入至预先训练的活体检测模型以输出待检测图像的活体预测概率和非活体预测概率其中,活体检测模型是采用四元数表示的输入图像对改进的EfficientNet网络进行训练获得,改进的EfficientNet网络包括改进的卷积运算模块,改进的卷积运算模块的卷积块CNN替换为四元数卷积块QCNN并将骨架网络的每一层网络结构中的通道注意力模型替换为空间和通道混合注意力模型而形成;
检测判断模块,用于依据活体预测概率和非活体预测概率判断待检测图像是否通过检测。
本发明实施例提供一种终端设备,该终端设备可以是计算机设备。本申请中的终端设备可以包括一个或多个如下部件:处理器、存储器以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行上述应用于终端设备的方法实施例中所描述的方法。
处理器可以包括一个或者多个处理核。处理器利用各种接口和线路连接整个终端设备内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端设备的各种功能和处理数据。可选地,处理器可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogicArray,PL A)中的至少一种硬件形式来实现。处理器1002可集成中央处理器(CentralProcessing Unit,CPU)、埋点数据的上报验证器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器中,单独通过一块通信芯片进行实现。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器可用于存储指令、程序、代码、代码集或指令集。存储器可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备在使用中所创建的数据等。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述应用于终端设备的方法实施例中所描述的方法。其中,所述存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSS Memory,随即存储器)、EPROM(EraSableProgrammable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(ElectricallyEraSable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。可以是只读存储器,磁盘或光盘等。
综上,本申请提供的基于视频流神经网络的异常驾驶行为识别方法及相关装置具有如下有益效果:
本申请在提取图像特征时,采用了各个维度(通道C、空间长度W、空间宽度H)下的注意力机制,使得注意力更为多元,结合了空间注意力,以此提升模型的表达能力;同时,为了增强改进的EfficientNet网络的表达能力,引入了四元数,将三种注意力机制下得到的特征图使用四元数进行表示,最终获得融合特征图,该融合特征图相比于单一注意力机制下的特征图能够更好的捕获活体与非活体图像之间的特征差异,相比于三种注意力机制下特征图相加的方式,引入四元数进行表示的方式可以更好的保留不同维度之间的空间信息。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (13)
1.一种静默活体检测方法,其特征在于,包括:
获取待检测图像;
利用预先训练的活体检测模型通过深度学习提取所述待检测图像中的图像特征数据,通过基于多维度的注意力机制以处理采用四元数表示的所述图像特征数据以输出活体预测概率和非活体预测概率;
依据所述活体预测概率和所述非活体预测概率判断所述待检测图像是否通过检测。
2.根据权利要求1所述的静默活体检测方法,其特征在于,所述活体检测模型的训练方法包括:
通过人脸图像以获取图像样本;
对所述图像样本进行标记处理,并将标记的所述图像样本作为输入图像输入至所述活体检测模型进行训练。
3.根据权利要求2所述的静默活体检测方法,其特征在于,所述并将标记的所述图像样本作为输入图像输入至所述活体检测模型进行训练之后,还包括:
对所述输入图像进行初步特征提取之后,经多个卷积操作的堆叠以提取出深度特征图。
4.根据权利要求3所述的静默活体检测方法,其特征在于,所述经多个卷积操作的堆叠以提取出深度特征图,包括:
采用四元数表示所述深度特征图之后,基于三维矩阵对所述深度特征图进行1*1卷积运算以进行降维处理;
进行池化处理以输出实际预测结果;
通过四元数全连接层调整所述活体检测模型的权重分布,直至所述实际预测结果与目标预测结果的偏差在容许范围内时,训练完成,以获取训练完成的所述活体检测模型。
5.根据权利要求4所述的静默活体检测方法,其特征在于,所述经多个卷积操作的堆叠以提取出深度特征图,其中首次卷积操作的具体步骤包括:
对图像进行升维处理并交叉采用不同的卷积核对图像进行深度卷积操作;
经深度卷积操作之后的结果以通道为单位输出并交于多维度的注意力机制进行处理,基于多维度的注意力机制中引入四元数对特征图进行表示;
经多维度的注意力机制处理后按通道为单位输出的结果,对每个通道的结果进行相加处理并执行降维处理。
6.根据权利要求5所述的静默活体检测方法,其特征在于,所述经多个卷积操作的堆叠以提取出深度特征图,其中后续多次卷积操作的具体步骤包括:
对图像进行升维处理以四元数进行特征表示,并交叉采用不同的卷积核对图像进行深度卷积操作;
经深度卷积操作之后的结果以通道为单位输出并交于多维度的注意力机制进行处理,基于多维度的注意力机制中引入四元数对特征图进行表示;
经多维度的注意力机制处理后按通道为单位输出的结果,对每个通道的结果进行相加处理并执行降维处理。
7.根据权利要求6所述的静默活体检测方法,其特征在于,所述对每个通道的结果进行相加处理并执行降维处理后,具体步骤包括:
对降维后的图像特征进行正则化以输出深度特征图。
8.根据权利要求7所述的静默活体检测方法,其特征在于,每一卷积操作后均经批归一化和Swish激活函数处理。
9.根据权利要求8所述的静默活体检测方法,其特征在于,所述经深度卷积操作之后的结果以通道为单位输出并交于多维度的注意力机制进行处理,具体步骤包括:
获取深度卷积操作按通道为单位输出的结果,分别提交至通道注意力计算分支、通道C和空间W维度交互捕获分支和通道C和空间H维度交互捕获分支之中处理并分别输出分支特征图;
获得各个所述分支特征图,采用四元数对各个所述分支特征图进行表示以进行融合,并与原始特征图相乘以得到融合特征图。
10.根据权利要求9所述的静默活体检测方法,其特征在于,所述分别提交至通道注意力计算分支、通道C和空间W维度交互捕获分支和通道C和空间H维度交互捕获分支之中处理并分别输出分支特征图,具体步骤包括:
通道注意力计算分支:输入特征经过Z-Pool进行池化处理,采用7x 7的四元数卷积层进行卷积操作,并使用Sigmoid激活函数生成空间注意力权重以输出第一分支特征图;
通道C和空间W维度交互捕获分支:输入特征经permute函数处理为H×C×W维度特征,并通过Z-Pool依次对H、C和W各维度进行池化处理,经permuter函数变为C×H×W维度特征以输出第二分支特征图;
通道C和空间H维度交互捕获分支:输入特征经permute函数处理为W×H×C维度特征,并通过Z-Pool依次对W、H和C各维度进行池化处理,经permuter函数变为C×H×W维度特征以输出第三分支特征图。
11.一种静默活体检测装置,其特征在于,包括:
待检测图像获取模块,用于获取待检测图像;
活体预测概率输出模块,用于利用预先训练的活体检测模型通过深度学习提取所述待检测图像中的图像特征数据,通过基于多维度的注意力机制以处理采用四元数表示的所述图像特征数据以输出活体预测概率和非活体预测概率;
检测判断模块,用于依据所述活体预测概率和所述非活体预测概率判断所述待检测图像是否通过检测。
12.一种终端设备,其特征在于,其包括存储器;一个或多个处理器,与所述存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行如权利要求1-10任意一项所述的静默活体检测方法。
13.一种可读计算机介质,其特征在于,包括一个或多个应用程序中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序被配置为用于执行根据权利要求1-10任意一项所述的静默活体检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210345497.5A CN114663987A (zh) | 2022-03-31 | 2022-03-31 | 静默活体检测方法、装置、终端设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210345497.5A CN114663987A (zh) | 2022-03-31 | 2022-03-31 | 静默活体检测方法、装置、终端设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114663987A true CN114663987A (zh) | 2022-06-24 |
Family
ID=82033395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210345497.5A Pending CN114663987A (zh) | 2022-03-31 | 2022-03-31 | 静默活体检测方法、装置、终端设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114663987A (zh) |
-
2022
- 2022-03-31 CN CN202210345497.5A patent/CN114663987A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767979B (zh) | 神经网络的训练方法、图像处理方法、图像处理装置 | |
EP3678059B1 (en) | Image processing method, image processing apparatus, and a neural network training method | |
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
CN109685819B (zh) | 一种基于特征增强的三维医学图像分割方法 | |
WO2021022521A1 (zh) | 数据处理的方法、训练神经网络模型的方法及设备 | |
WO2019091181A1 (zh) | 图像处理方法、处理装置和处理设备 | |
CN111192292A (zh) | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 | |
CN112088393B (zh) | 图像处理方法、装置及设备 | |
CN113869282B (zh) | 人脸识别方法、超分模型训练方法及相关设备 | |
CN112950640A (zh) | 视频人像分割方法、装置、电子设备及存储介质 | |
US20220188595A1 (en) | Dynamic matrix convolution with channel fusion | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
US10452955B2 (en) | System and method for encoding data in an image/video recognition integrated circuit solution | |
CN111553838A (zh) | 模型参数的更新方法、装置、设备及存储介质 | |
KR20220070505A (ko) | 미세 구조 마스크를 사용한 다중 스케일 인자 이미지 슈퍼 해상도 | |
CN113066089A (zh) | 一种基于注意力引导机制的实时图像语义分割网络 | |
US10354644B1 (en) | System and method for encoding data in a voice recognition integrated circuit solution | |
CN114049491A (zh) | 指纹分割模型训练、指纹分割方法、装置、设备及介质 | |
CN117373064A (zh) | 基于自适应跨维度加权的人体姿态估计方法、计算机设备及存储介质 | |
CN117237547A (zh) | 图像重建方法、重建模型的处理方法和装置 | |
CN116912268A (zh) | 一种皮肤病变图像分割方法、装置、设备及存储介质 | |
CN114663987A (zh) | 静默活体检测方法、装置、终端设备和存储介质 | |
CN116777732A (zh) | 基于随机噪声的图像生成方法、装置、设备及存储介质 | |
WO2021189321A1 (zh) | 一种图像处理方法和装置 | |
CN112132253B (zh) | 3d动作识别方法、装置、计算机可读存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |