CN114898439B - 一种基于分段策略和多头卷积注意力的视频人脸识别方法 - Google Patents

一种基于分段策略和多头卷积注意力的视频人脸识别方法 Download PDF

Info

Publication number
CN114898439B
CN114898439B CN202210614368.1A CN202210614368A CN114898439B CN 114898439 B CN114898439 B CN 114898439B CN 202210614368 A CN202210614368 A CN 202210614368A CN 114898439 B CN114898439 B CN 114898439B
Authority
CN
China
Prior art keywords
video
face
frame
face recognition
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210614368.1A
Other languages
English (en)
Other versions
CN114898439A (zh
Inventor
林乐平
张和为
欧阳宁
莫建文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202210614368.1A priority Critical patent/CN114898439B/zh
Publication of CN114898439A publication Critical patent/CN114898439A/zh
Application granted granted Critical
Publication of CN114898439B publication Critical patent/CN114898439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于分段策略和多头卷积注意力的视频人脸识别方法,包括如下步骤:1)对视频人脸数据集进行预处理;2)对步骤1)中得到的视频帧图像集进行分段线性映射、位置嵌入操作;3)深度特征提取;4)识别;5)损失函数进行训练;6)完成人脸识别。本技术方案分段策略有效去除了跨度较大的视频帧面部姿态、大小等变化较大而对特征提取施加的冗余噪声,并结合提出的多头卷积注意力模块有效提取冗长视频序列的上下文信息,同时大幅降低了模型的复杂程度,分段损失函数的设计加速了网络的训练并提高模型抗干扰的能力,最终使得模型具有更好的识别性能。

Description

一种基于分段策略和多头卷积注意力的视频人脸识别方法
技术领域
本发明涉及图像处理技术领域,具体是一种基于分段策略和多头卷积注意力的视频人脸识别方法。
背景技术
在视频人脸识别领域有所突破,将大大提高视频监控、智能安防、移动支付等技术的效率。视频是具有时间顺序的图像集合,视频在进行人脸识别时有以下不利因素:模糊、遮挡、光线变化,甚至是镜头远近都有影响,这导致视频序列个别帧质量过于低下。目前较为主流的视频人脸识别方案有两种:第一类方案旨在从视频序列中挑选出质量较高、人脸特征较为明显的帧,并用于后续特征提取及识别,但被丢弃的视频帧也有着丰富的位置信息和结构信息;第二类方案则运用视频序列所有的帧进行特征提取,并应用相关手段进行特征融合,然而这类方法针对质量较高且视频序列较短的数据效果较好,当视频序列质量较差且冗长时,这类方案由于噪声的影响,识别效率将大幅降低。
当人脸视频较长时,前几帧与后几帧的面部姿态、面部大小等变化较大,往往生成不利于特征提取及融合的噪声。如何高效地提取人脸视频的特征表示并去除冗余噪声对识别任务尤为重要。现有模型通常在特征提取网络上进行相应改进,但很少会对如何输入数据这一过程进行优化,一次性输出过多视频帧往往会加重网络的负担并影响特征提取的质量。而针对过长的视频运用传统的注意力机制,也加大了模型的计算复杂度,降低视频人脸识别的效率。
所以,需要一个新的技术方案解决上述问题。
发明内容
本发明的目的是针对现有技术不足,而提供一种基于分段策略和多头卷积注意力的视频人脸识别方法。这种方法能高效地提取长视频数据的有用特征及信息、能够去冗余噪声,并提升视频人脸识别的准确率。
实现本发明目的的技术方案是:
一种基于分段策略和多头卷积注意力的视频人脸识别方法,包括如下步骤:
1)对视频人脸数据集进行预处理:采用人脸检测网络逐帧对人脸视频数据集中人脸视频序列进行检测,将人脸视频数据集中人脸视频序列中的图像裁剪成尺寸固定为224×224的人脸视频帧图像,得到输入视频帧图像集{Tn},n∈N*,N*为数据集中视频帧数量;
2)对步骤1)中得到的视频帧图像集进行分段线性映射、位置嵌入操作:将包含n帧的视频图像集{Tn}分为s段,每段视频帧包含N=n/s个图像、将视频帧序列化、将每帧图像Tn∈RH×W×C重塑,首先将每帧图像Tn分辨率设置为(h×w),h=w,接着对Tn进行降维,得到图像Tp,n∈R(h×w)·C,其中,n表示第n个视频帧,C为通道数,符号·表示矩阵点乘,采用可训练的线性映射将扁平化处理后的图像Tp,n进行映射及位置嵌入操作φ(·),得到每帧人脸图像的特征图集合Fn=φ(Tp,n)、记为Fn={F0,F1,F2,...,FN}∈R(h×w)·C×d,其中φ(·)表示线性映射和位置嵌入操作,d为模型使用的恒定隐藏向量的尺寸;
3)深度特征提取:采用分段视频人脸编码器,结合多头卷积注意力对步骤2)中具有位置信息的特征图集合Fn进行深度特征提取,将特征图集合Fn输入至分段视频人脸编码器E,人脸编码器E第一层为多头卷积注意力模块,该模块有两个阶段,分别为E1和E2,E1用卷积神经网络来生成每一帧视频帧的查询向量Qn、相关向量Kn、值向量Vn,即{Qn,Kn,Vn}=E1(Fn),然后第二阶段E2计算视频帧每个值向量VN的分数SN,SN由下式计算得出:
其中,QN、KN分别为第N帧的查询向量和相关向量,为多头卷积注意力头数,(·)T为矩阵的转置,然后将视频帧每个值向量VN的分数SN与值向量VN进行元素级相乘,即SN·VN,并将结果进行归一化后再求和,最终得到第i段视频帧的整体特征表示Si=E2(QN,KN,VN),Si由下式计算得出:
其中,SoftMax(·)为归一化运算,SN为第N帧的分数,本例中,多头卷积注意力模块输出的特征图再利用前馈网络强化该特征表示的表达能力,最后得到的分段视频人脸特征为{S1,S2,S3};
4)识别:采用人脸识别网络对步骤3)中得到的视频帧整体特征表示进行识别,即将Si输入至现有的人脸识别网络、记为R1,得到预测标签即/>其中,i表示第i段视频序列;
5)损失函数进行训练:利用步骤4)中得到的预测标签和分段损失训练网络为步骤3)中得到的每段视频序列的整体人脸视频特征图赋予权重,网络采用以下损失函数进行训练:
其中,yi表示数据标签,是步骤4)中人脸识别网络R1针对每段视频帧的预测标签,wi是一个可随着网络一同训练的分段权重,为了得到分段权重wi,将每段的独立损失定义为/>则分段权重wi由下式得到:
经过分段损失的约束,网络自适应地进行参数调整及优化,得到最优的视频人脸识别模型;
6)完成人脸识别:采用步骤5)中训练好的模型完成人脸识别任务,将经过分段的人脸视频帧输入到步骤5)得到的模型中,输出经过分段特征提取及整体融合的人脸视频特征图S=f(S1,S2,...,Ss),其中,f(·)表示利用分段权重进行的融合操作,s为分段数,再采用现有的人脸识别网络完成最终的视频人脸识别任务。
步骤2)中所述的线性映射及位置嵌入操作φ(·)公式为:
其中,位置嵌入向量d为模型使用的恒定隐藏向量的尺寸,N为视频帧的序号,(h×w)是每帧图像的分辨率,C为通道数,符号·表示矩阵点乘,Tclass为每个分段序列中各个视频帧的分类标志位。
步骤1)中采用的人脸检测网络为MTCNN网络。
步骤4)中所述的人脸识别网络R1为VGG-Face网络。
步骤6)中所述的人脸视频特征图S具体由下式融合:
式中,wi为第i段人脸视频帧的分段权重,Si为第i段人脸视频帧的特征表示。
步骤6)中对人脸视频特征图S进行识别的人脸识别网络为VGG-Face网络。
本技术方案采用分段策略对视频序列进行映射,并嵌入位置及特征信息,以避免序列跨度较长而引起的面部变化对特征提取的影响,而利用多头卷积注意力设计的分段视频人脸编码器能够有效地提取视频的上下文信息并进行特征融合,且大幅降低了视频人脸识别模型的计算复杂度,定义分段损失函数训练网络,以减小低质量帧对模型识别准确率的影响,加强了模型处理冗长视频序列的能力,这样得到的整体视频人脸特征表示能够较大的提高识别准确率。
这种方法采用将长序列人脸视频序列进行分段的策略,结合多头卷积注意力高效地提取长视频数据的有用特征及信息、能够去冗余噪声,从而学习更具鲁棒性的特征,并提升了视频人脸识别的准确率。
附图说明
图1为实施例的流程示意图;
图2为实施例中分段视频人脸编码器示意图;
图3为实施例中多头卷积注意力模块特征提取过程示意图。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步地说明,但不是对本发明的限定。
实施例:
参照图1,一种基于分段策略和多头卷积注意力的视频人脸识别方法,包括如下步骤:
1)对视频人脸数据集进行预处理:采用人脸检测网络逐帧对人脸视频数据集中人脸视频序列进行检测,将人脸视频数据集中人脸视频序列中的图像裁剪成尺寸固定为224×224的人脸视频帧图像,得到输入视频帧图像集{Tn},n∈N*,N*为数据集中视频帧数量,本例采用多任务卷积神经网络MTCNN(Multi-task convolutional neural network,简称MTCNN)逐帧对IJB-A和YTF数据集中人脸视频序列进行检测,在本例中,人脸视频数据集都是从监控探头或是非配合情况下拍摄得到的,在预处理数据集的阶段,首先采用多任务卷积神经网络来检测每张视频帧中的人脸区域,得到时间连续且尺寸固定的人脸视频帧图像集,每帧大小为224×224,将图像集的帧数更改,本例将帧数设置为36帧;
2)对步骤1)中得到的视频帧图像集进行分段线性映射、位置嵌入操作:将包含n帧的视频图像集{Tn}分为s段,每段视频帧包含N=n/s个图像、将视频帧序列化、将每帧图像Tn∈RH×W×C重塑,首先将每帧图像Tn分辨率设置为(h×w),h=w,接着对Tn进行降维,得到图像Tp,n∈R(h×w)·C,其中,n表示第n个视频帧,C为通道数,符号·表示矩阵点乘,采用可训练的线性映射将扁平化处理后的图像Tp,n进行映射及位置嵌入操作φ(·),得到每帧人脸图像的特征图集合Fn=φ(Tp,n)、记为Fn={F0,F1,F2,...,FN}∈R(h×w)·C×d,其中φ(·)表示线性映射和位置嵌入操作,d为模型使用的恒定隐藏向量的尺寸,本例中,输入为36帧视频片段,分为3段,每段视频帧包含12张图像,将视频帧序列化,将每帧图像Tn∈RH×W×C重塑,首先将Tn分辨率设置为(h×w),本例中,h=w=224;
3)深度特征提取:采用分段视频人脸编码器,结合多头卷积注意力对步骤2)中具有位置信息的特征图集合Fn进行深度特征提取,如图2所示,分段视频人脸编码器主要包括多头卷积注意力模块和前馈网络,即将特征图集合Fn输入至分段视频人脸编码器E,人脸编码器E第一层为多头卷积注意力模块,如图3所示,该模块有两个阶段,分别为E1和E2,E1用卷积神经网络来生成每一帧视频帧的查询向量Qn、相关向量Kn、值向量Vn,即{Qn,Kn,Vn}=E1(Fn),然后第二阶段E2计算视频帧每个值向量VN的分数SN,SN由下式计算得出:
其中,QN、KN分别为第N帧的查询向量和相关向量,为多头卷积注意力头数,(·)T为矩阵的转置,然后将视频帧每个值向量VN的分数SN与值向量VN进行元素级相乘,即SN·VN,并将结果进行归一化后再求和,最终得到第i段视频帧的整体特征表示Si=E2(QN,KN,VN),Si由下式计算得出:
其中,SoftMax(·)为归一化运算,SN为第N帧的分数,本例中,多头卷积注意力模块输出的特征图再利用前馈网络强化该特征表示的表达能力,最后得到的分段视频人脸特征为{S1,S2,S3};
4)识别:采用人脸识别网络对步骤3)中得到的视频帧整体特征表示进行识别,即将Si输入至现有的人脸识别网络、记为R1,得到预测标签即/>其中,i表示第i段视频序列;
5)损失函数进行网络训练:利用步骤4)中得到的预测标签和分段损失训练网络为步骤3)中得到的每段视频序列的整体人脸视频特征图赋予权重,网络采用以下损失函数进行训练:
其中,yi表示数据标签,是步骤4)中人脸识别网络R1针对每段视频帧的预测标签,wi是一个可随着网络一同训练的分段权重,为了得到分段权重wi,将每段的独立损失定义为/>则分段权重wi由下式得到:
经过分段损失的约束,网络自适应地进行参数调整及优化,得到最优的视频人脸识别模型,本例中,分段权重随着网络一同训练,进一步简化了模型并提高了算法性能,避免过于冗长的视频帧对特征提取的负面影响,加快了模型的训练,三个分段视频人脸编码器参数不共享;
6)完成人脸识别:采用步骤5)中训练好的模型完成人脸识别任务,将经过分段的人脸视频帧输入到步骤5)得到的模型中,输出经过分段特征提取及整体融合的人脸视频特征图S=f(S1,S2,...,Ss),其中,f(·)表示利用分段权重进行的融合操作,s为分段数,再采用现有的人脸识别网络完成最终的视频人脸识别任务。
步骤2)中所述的线性映射及位置嵌入操作φ(·)公式为:
其中,位置嵌入向量d为模型使用的恒定隐藏向量的尺寸,N为视频帧的序号,(h×w)是每帧图像的分辨率,C为通道数,符号·表示矩阵点乘,Tclass为每个分段序列中各个视频帧的分类标志位。
步骤1)中采用的人脸检测网络为MTCNN网络。
步骤4)中所述的人脸识别网络R1为VGG-Face网络。
步骤6)中所述的人脸视频特征图S具体由下式融合:
式中,wi为第i段人脸视频帧的分段权重,Si为第i段人脸视频帧的特征表示。
步骤6)中对人脸视频特征图S进行识别的人脸识别网络为VGG-Face网络。

Claims (3)

1.一种基于分段策略和多头卷积注意力的视频人脸识别方法,其特征在于,包括如下步骤:
1)对视频人脸数据集进行预处理:采用人脸检测网络逐帧对人脸视频数据集中人脸视频序列进行检测,将人脸视频数据集中人脸视频序列中的图像裁剪成尺寸固定为224×224的人脸视频帧图像,得到输入视频帧图像集{Tn},n∈N*,N*为数据集中视频帧数量;
2)对步骤1)中得到的视频帧图像集进行分段线性映射、位置嵌入操作:将包含n帧的视频图像集{Tn}分为s段,每段视频帧包含N=n/s个图像、将视频帧序列化、将每帧图像Tn∈RH ×W×C重塑,首先将每帧图像Tn分辨率设置为(h×w),h=w,接着对Tn进行降维,得到图像Tp,n∈R(h×w)·C,其中,n表示第n个视频帧,C为通道数,符号·表示矩阵点乘,采用可训练的线性映射将扁平化处理后的图像Tp,n进行映射及位置嵌入操作φ(·),得到每帧人脸图像的特征图集合Fn=φ(Tp,n)、记为Fn={F0,F1,F2,...,FN}∈R(h×w)·C×d,其中φ(·)表示线性映射和位置嵌入操作,d为模型使用的恒定隐藏向量的尺寸;
3)深度特征提取:采用分段视频人脸编码器,结合多头卷积注意力对步骤2)中具有位置信息的特征图集合Fn进行深度特征提取,即将特征图集合Fn输入至分段视频人脸编码器E,人脸编码器E第一层为多头卷积注意力模块,该模块有两个阶段,分别为E1和E2,E1用卷积神经网络来生成每一帧视频帧的查询向量Qn、相关向量Kn、值向量Vn,即{Qn,Kn,Vn}=E1(Fn),然后第二阶段E2计算视频帧每个值向量VN的分数SN,SN由下式计算得出:
其中,QN、KN分别为第N帧的查询向量和相关向量,为多头卷积注意力头数,(·)T为矩阵的转置,然后将视频帧每个值向量VN的分数SN与值向量VN进行元素级相乘,即SN·VN,并将结果进行归一化后再求和,最终得到第i段视频帧的整体特征表示Si=E2(QN,KN,VN),Si由下式计算得出:
其中,softMax(·)为归一化运算,SN为第N帧的分数;
4)识别:采用人脸识别网络对步骤3)中得到的视频帧整体特征表示进行识别,即将Si输入至现有的人脸识别网络、记为R1,得到预测标签即/>其中,i表示第i段视频序列;
5)损失函数进行训练:利用步骤4)中得到的预测标签和分段损失训练网络为步骤3)中得到的每段视频序列的整体人脸视频特征图赋予权重,网络采用以下损失函数进行训练:
其中,yi表示数据标签,是步骤4)中人脸识别网络R1针对每段视频帧的预测标签,wi是分段权重,将每段的独立损失定义为/>则分段权重wi由下式得到:
经过分段损失的约束,网络自适应地进行参数调整及优化,得到最优的视频人脸识别模型;
6)完成人脸识别:采用步骤5)中训练好的模型完成人脸识别任务,将经过分段的人脸视频帧输入到步骤5)得到的模型中,输出经过分段特征提取及整体融合的人脸视频特征图S=f(S1,S2,...,Ss),其中,f(·)表示利用分段权重进行的融合操作,s为分段数,再采用现有的人脸识别网络完成最终的视频人脸识别任务。
2.根据权利要求1所述的基于分段策略和多头卷积注意力的视频人脸识别方法,其特征在于,步骤2)中所述的线性映射及位置嵌入操作φ(·)公式为:
其中,位置嵌入向量d为模型使用的恒定隐藏向量的尺寸,N为视频帧的序号,(h×w)是每帧图像的分辨率,C为通道数,符号·表示矩阵点乘,Tclass为每个分段序列中各个视频帧的分类标志位。
3.根据权利要求1所述的基于分段策略和多头卷积注意力的视频人脸识别方法,其特征在于,步骤6)中所述的人脸视频特征图S具体由下式融合:
式中,wi为第i段人脸视频帧的分段权重,Si为第i段人脸视频帧的特征表示。
CN202210614368.1A 2022-06-01 2022-06-01 一种基于分段策略和多头卷积注意力的视频人脸识别方法 Active CN114898439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210614368.1A CN114898439B (zh) 2022-06-01 2022-06-01 一种基于分段策略和多头卷积注意力的视频人脸识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210614368.1A CN114898439B (zh) 2022-06-01 2022-06-01 一种基于分段策略和多头卷积注意力的视频人脸识别方法

Publications (2)

Publication Number Publication Date
CN114898439A CN114898439A (zh) 2022-08-12
CN114898439B true CN114898439B (zh) 2024-03-19

Family

ID=82725235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210614368.1A Active CN114898439B (zh) 2022-06-01 2022-06-01 一种基于分段策略和多头卷积注意力的视频人脸识别方法

Country Status (1)

Country Link
CN (1) CN114898439B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329760A (zh) * 2020-11-17 2021-02-05 内蒙古工业大学 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN113744178A (zh) * 2020-08-06 2021-12-03 西北师范大学 一种基于卷积注意力模型的皮肤病变分割方法
US11216652B1 (en) * 2021-03-01 2022-01-04 Institute Of Automation, Chinese Academy Of Sciences Expression recognition method under natural scene
CN114387553A (zh) * 2022-01-18 2022-04-22 桂林电子科技大学 一种基于帧结构感知聚合的视频人脸识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647794B (zh) * 2019-07-12 2023-01-03 五邑大学 基于注意力机制的多尺度sar图像识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744178A (zh) * 2020-08-06 2021-12-03 西北师范大学 一种基于卷积注意力模型的皮肤病变分割方法
CN112329760A (zh) * 2020-11-17 2021-02-05 内蒙古工业大学 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
US11216652B1 (en) * 2021-03-01 2022-01-04 Institute Of Automation, Chinese Academy Of Sciences Expression recognition method under natural scene
CN114387553A (zh) * 2022-01-18 2022-04-22 桂林电子科技大学 一种基于帧结构感知聚合的视频人脸识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于注意力机制的视频人脸表情识别;何晓云;许江淳;史鹏坤;陈文绪;;信息技术;20200220(第02期);全文 *
结合注意力与无监督深度学习的单目深度估计;岑仕杰;何元烈;陈小聪;;广东工业大学学报;20200714(第04期);全文 *

Also Published As

Publication number Publication date
CN114898439A (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
CN109543667B (zh) 一种基于注意力机制的文本识别方法
CN111611847B (zh) 基于尺度注意力空洞卷积网络的视频动作检测方法
CN110414462B (zh) 一种无监督的跨域行人重识别方法及系统
CN108228915B (zh) 一种基于深度学习的视频检索方法
CN111931684B (zh) 一种基于视频卫星数据鉴别特征的弱小目标检测方法
CN113052210B (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN113627266B (zh) 基于Transformer时空建模的视频行人重识别方法
CN112818951B (zh) 一种票证识别的方法
CN110991321B (zh) 一种基于标签更正与加权特征融合的视频行人再识别方法
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN114359088A (zh) 一种对视频特定目标人物进行打码处理的方法
CN115953582B (zh) 一种图像语义分割方法及系统
CN112507800A (zh) 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法
CN114387641A (zh) 基于多尺度卷积网络和ViT的虚假视频检测方法及系统
CN114550268A (zh) 一种利用时空特征的深度伪造视频检测方法
CN116258989A (zh) 基于文本与视觉的时空关联型多模态情感识别方法、系统
CN115393949A (zh) 一种连续手语识别方法及装置
CN114898439B (zh) 一种基于分段策略和多头卷积注意力的视频人脸识别方法
Alizadeh et al. Lip feature extraction and reduction for HMM-based visual speech recognition systems
CN117315293A (zh) 一种基于Transformer的时空上下文目标跟踪方法及系统
KR101298937B1 (ko) 표지판 인식장치, 표지판 인식방법, 및 이미지 인식방법
CN113887504B (zh) 强泛化性的遥感图像目标识别方法
CN114529894A (zh) 一种融合空洞卷积的快速场景文本检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant