CN115797827A - 一种基于双流网络架构的ViT的人体行为识别方法 - Google Patents

一种基于双流网络架构的ViT的人体行为识别方法 Download PDF

Info

Publication number
CN115797827A
CN115797827A CN202211446673.0A CN202211446673A CN115797827A CN 115797827 A CN115797827 A CN 115797827A CN 202211446673 A CN202211446673 A CN 202211446673A CN 115797827 A CN115797827 A CN 115797827A
Authority
CN
China
Prior art keywords
video
image
optical flow
function
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211446673.0A
Other languages
English (en)
Inventor
袁家斌
邰爱兵
查可可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202211446673.0A priority Critical patent/CN115797827A/zh
Publication of CN115797827A publication Critical patent/CN115797827A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种基于双流网络架构的ViT的人体行为识别方法,先对输入视频进行预处理,得到场景图像和稀疏采样后的图像,然后通过处理后的图像,计算出相对应图像的光流图像,然后分别建立空间特征提取网络和时序特征提取网络模型,分别将RGB图像与光流图像输入到网络模型中,训练得到人体行为分类结果,并将两个网络的结果进行加权和得到最终结果。通过上述方式,完成视频的人体行为识别,本发明能够充分利用动作的时序特征辅助图像识别行为动作的发生,通过ViT对时序特征处理的优势,将时序特征的融入,提高了行为识别的准确率。

Description

一种基于双流网络架构的ViT的人体行为识别方法
技术领域
本发明属于计算机视觉技术领域,特别设计一种基于双流网络架构下的ViT的人体行为识别方法。
背景技术
人类行为识别(har)是计算机视觉领域的一个重要课题,因为它在辅助生活、智能监控系统、人机交互、计算机游戏和情感计算等领域有着广泛的应用。根据目标应用的不同,动作识别技术可以用来识别全身的行为,也可以用来识别部分身体的手势识别和面部识别。
基于视频的行为识别技术研究在近一段时间由于VisionTranformer架构在视觉领域的引入应用,引起了一阵研究的热潮。这正是由于视频行为识别技术的应该用场景的重要性与广泛性,使得人们对其研究的热度一直居高不下。但是不同于目标识别领域,行为识别除了需要分析目标的空间依赖关系,还需要分析目标在过去时间内的历史变化信息。例如,在监测老年人和儿童时,全身行为识别是必不可少的,而在人机交互中,手势识别系统更为合适。由于背景杂乱、部分遮挡、尺度、视点、光线和外观的变化,从视频或图像序列中识别人体动作通常是一项具有挑战性的任务。此外,类内和类间差异很大,同样一个动作,不同人的表现可能有极大的差异,并且时间变化,人在执行动作时的速度变化很大,很难确定动作的起始点,从而在对视频提取特征表示动作时影响最大。
因此如何有效的从视频中获取人体的动作信息特征是提高行为识别算法的性能的重要技术基础。传统的行为识别技术都是先提取手工特征(HOG,HOF,DenseTrajectories等),然后使用分类器进行分类。但是手工特征的局限性比较大,效果并没有很理想。深度学习方式的行为识别动作特征提取是通过特征提取网络去提取深层次的动作特征,然后进行识别处理。并没有对动作的时序特征进行利用。
发明内容
本发明提供了一种基于双流网络架构的ViT的人体识别方法,以解决现有技术中对动作时序特征融入人体行为识别方法,提高识别准确率的问题。
为了实现上述目的,本发明采用以下技术方案:
一种基于双流网络架构的ViT的人体行为识别方法,包括以下步骤:
步骤1:对输入视频进行预处理,将视频流数据转变为图像RGB帧以及TVL1光流图像;
步骤2:分别建立图像RGB帧和TVL1光流图像的特征提取模型;
步骤3:通过对RGB帧和TVL1光流图像的特征进行Softmax分类,并将多帧之间的结果进行加权和得到结果;
步骤4:输入对应视频数据,经过前面预处理之后的获取视频对应的RGB帧与对应光流图像,并输入已训练好的双流ViT模型中,得到分类结果。
进一步的,所述步骤1的具体步骤为:
步骤11:将视频通过工具抽取成为帧图像;
步骤12:利用TSN提出的稀疏采样方法对输入视频进行采样,将视频的帧集合平均分成N段,从每个视频段中随机抽取1帧,同时利用opencv对图像进行TVL1光流计算,得到对应的x,y光流图,并同样进行分段抽帧;
步骤13:将得到的图像进行裁剪成224×224,并同时做数据加强处理。
进一步的,所述步骤2的具体步骤为:
步骤21:选择使用Resnet50+ViT-B/16的复合网络识别模型,在ImageNet21K上的进行了预训练;
步骤22:光流网络与RGB图像网络两个分开训练,RGB图像网络主要获取视频动作的空间的特征,光流网络主要获取视频动作的时序特征。同时由于光流图片是单通道的数据,RGB图像是三通道的数据,所以光流网络的部分的前置卷积会更改为双通道适应光流图像的输入。
进一步的,所述步骤3的具体步骤为:
步骤31:给定一个视频V,结合步骤1中对视频数据的处理,将其平均分成K段,K个视频段记做{S1,S2,S3,…,SK},每个视频的识别的结果R(T1,T2,T3,…,TK)表示为:
R(T1,T2,T3,…,TK)=F(H(H(T1,W),G(T2,W),…,G(TK,W)))
其中:(T1,T2,T3,…,TK)是一个片段序列,所述片段序列是从相应的SK视频段中随机抽样的每个帧TK;G(TK,W)是代表参数为W的识别模型对TK帧在所有类别中的识别结果;函数H是用来组合多个帧的输出结果,函数H选择了avg函数,求其在每个类别上的平均值,F函数是预测整个视频的结果的预测函数,本专利是用Softmax函数与分类交叉熵损失函数相结合训练模型,loss损失函数L(m,R)则表示为:
Figure BDA0003949790030000031
其中:C为动作的分类数量,i和j是其中的一个具体的类别,mi为每一个视频对应的分类标签i,Ri和Rj是每一个视频在相应类别上的识别结果;
步骤32:给定一个视频V,结合步骤1中对视频数据的处理,将其平均分成K段,K个视频段记做{S1,S2,S3,…,SK},每个视频的识别的结果R(Tx1,y1,Tx2,y2,Tx3,y3,…,TxK,yK)表示为:
R(Tx1,y1,Tx2,y2,Tx3,y3,…,TxK,yK)=F(H(G(Tx1,y1,W),G(Tx2,y2,W),…,G(TxK,yK,W)))
其中:(Tx1,y1,Tx2,y2,Tx3,y3,…,TxK,yK)是一个片段序列,所述片段序列是从相应的SK视频段中随机抽样的每个帧TK对应的向x,y方向上的光流图像;G(TxK,yK,W)是代表参数为W的识别模型对TK帧x,y方向上的光流在所有类别中的识别结果;函数H是用来组合多个帧的输出结果,函数H选择了avg函数,求其在每个类别上的平均值,F函数是预测整个视频的结果的预测函数,本专利是用Softmax函数与分类交叉熵损失函数相结合训练模型,loss损失函数L(m,R)则表示为:
Figure BDA0003949790030000032
其中:C为动作的分类数量,i和j是其中的一个具体的类别,mi为每一个视频对应的分类标签i,Ri和Rj是每一个视频在相应类别上的识别结果,
步骤33:将视频输入网络之后,分别获得到RGB网络与光流网络的各自的分类结果权值,最后将两个网络结果相结合的时候会将两个网络的结果进行加权结合,得到预测结果。
与现有技术相比,本发明具有以下有益效果:
本发明的基于双流网络架构的ViT的人体识别方法,先对输入视频进行预处理,得到场景图像和稀疏采样后的图像,然后通过处理后的图像,计算出相对应图像的光流图像,然后分别建立空间特征提取网络和时序特征提取网络模型,分别将RGB图像与光流图像输入到网络模型中,训练得到人体行为分类结果,并将两个网络的结果进行加权和得到最终结果。通过上述方式,完成视频的人体行为识别,本发明能够充分利用动作的时序特征辅助图像识别行为动作的发生,通过ViT对时序特征处理的优势,将时序特征的融入,提高了行为识别的准确率。
附图说明
图1为本发明的流程图;
图2为双流网络架构的ViT的人体行为识别网络模型图;
图3为双流网络架构的ViT网络结构图。
具体实施方式
下面结合实施例对本发明作更进一步的说明。
实施例1
如图1所示,一种基于双流网络架构的ViT的人体识别方法,包括以下步骤:
步骤1:对输入视频进行预处理,将视频流数据转变为图像RGB帧以及TVL1光流图像;
步骤2:分别建立图像RGB帧和TVL1光流图像的特征提取模型;
步骤3:通过对RGB帧和TVL1光流图像的特征进行Softmax分类,并将多帧之间的结果进行加权和得到结果;
步骤4:输入对应视频数据,经过前面预处理之后的获取视频对应的RGB帧与对应光流图像,并输入已训练好的双流ViT模型中,得到分类结果。
本实施例1中所述步骤1具体为:
将视频中所有图像划分为单张的图像帧,根据帧数进行平均分割成N个片段,从每个片段中随机抽取一帧,完成稀疏随机采样,在划分的图像帧上同时使用OpenCV去计算TVL1光流图像,同样使用随机抽样的方法,从每个段中随机抽取x,y方向的光流图像;
预处理后的图像均使用中心裁剪,将大小放缩为224×224。
本实施例1中所述步骤2具体为:
21、选择使用Resnet50+ViT-B/16的复合网络识别模型,在ImageNet21K上的进行了预训练
22、光流网络与RGB图像网络两个分开训练,RGB图像网络主要获取视频动作的空间的特征,光流网络主要获取视频动作的时序特征。
本实施例中所述步骤3具体为:
31、给定一个视频V,结合步骤一种对视频数据的处理,将其平均分成K段{S1,S2,S3,…,SK},每个视频的识别的结果可以表示为:
R(T1,T2,T3,…,TK)=F(H(G(T1,W),G(T2,W),…,G(TK,W)))
这里(T1,T2,T3,…,Tk)是一个片段序列,是从相应的Sk视频段中随机抽样的每个帧Tk。G(Tk,W)是代表参数为W的识别模型对H帧在所有类别中的识别结果。函数T是用来组合多个帧的输出结果,本专利选择了avg函数,求其在每个类别上的平均值,F函数是预测整个视频的结果的预测函数,本专利是用来Softmax函数与分类交叉熵损失函数相结合训练模型,loss损失函数则表现为:
Figure BDA0003949790030000051
其中C为动作的分类数量,yi为每一个视频对应的标签。
32、以上是图像RGB的过程,光流网络的识别的过程与之类似,最后将两个网络结果相结合的时候会将两个网络的结果进行加权结合,得到预测结果。
具体的讲:基于双流网络架构下的ViT的人体识别模型,采用的Resnet50与ViT-B/16的复合模型,本发明在模型中使用的Vision Transformer Hybrid的识别模型,不同于经典的Vision Transformer模型,是直接将图像映射成token进行输入提取特征后进行识别,在Hybrid模型中图像会先经过ResNet网络进行特征提取,并将提取后的特征进行展平,并经过Linear层映射成Transformer架构要求输入的Token大小的特征向量,即Hybrid模型中向Vision Transformer中输入的是Resnet网络提取的特征图。
网络中卷积使用的权重标准化卷积,并且将ResNet50中的Stage4中的3个Block块移入到了Stage3中。视频的多帧输入会使得输入的BatchSize变小,在BatchSize较小的情况BN层的归一化并不如Group Norm层起到的效果好,所以在Hrbrid模型中的Resnet网络使用了GN层去对单帧的多通道特征归一化处理,提高识别能力。同时为了模型的泛化能力,还在模型中加入了数据增加模块,通过是图像的上下翻转,左右翻转,提高模型的识别效果。
模型的训练过程与测试如图2所示,分别训练空间特征提取网络与时间特征提取网络,将每个视频所抽取的图像帧输入进入网络中,得到每一个帧的在所有行为分类中的分类结果,最后再将多帧结果进行的avg求平均,输入到Softmax选择器中,得到最后的分类结果。反向传播,随机梯度更新,最后得到收敛后的模型。
模型测试时,是同时将视频对应的图像帧与光流帧输入对应的空间特征提取网络与时间特征提取网络,将两个网络的结果在最后进行加权求和,将空间网络结果和时间网络结果进行1:1的相加之后再放入Softmax选择器中,最后得到预测结果。
本实施例1中所述步骤4具体为:
输入对应视频数据,经过前面预处理之后的获取视频对应的RGB帧与对应光流图像,并输入已训练好的双流ViT模型中,得到分类结果。
本发明是一种基于双流网络架构的ViT的人体行为识别方法,能够完成视频多任务的内容识别,充分利用动作的时序特征借助ViT模型对时序数据处理的优势辅助RGB空间特征完成行为识别任务,提高了行为识别准确率。
实施例2
一种基于双流网络架构的ViT的人体行为识别方法,其特征在于,包括以下步骤:
步骤1:对输入视频进行预处理,将视频流数据转变为图像RGB帧以及TVL1光流图像;
所述步骤1的具体步骤为:
步骤11:将视频通过工具抽取成为帧图像;
步骤12:利用TSN提出的稀疏采样方法对输入视频进行采样,将视频的帧集合平均分成N段,从每个视频段中随机抽取1帧,同时利用opencv对图像进行TVL1光流计算,得到对应的x,y光流图,并同样进行分段抽帧;
步骤13:将得到的图像进行裁剪成224×224,并同时做数据加强处理。
步骤2:分别建立图像RGB帧和TVL1光流图像的特征提取模型;
所述步骤2的具体步骤为:
步骤21:选择使用Resnet50+ViT-B/16的复合网络识别模型,在ImageNet21K上的进行了预训练;
步骤22:光流网络与RGB图像网络两个分开训练,RGB图像网络主要获取视频动作的空间的特征,光流网络主要获取视频动作的时序特征。同时由于光流图片是单通道的数据,RGB图像是三通道的数据,所以光流网络的部分的前置卷积会更改为双通道适应光流图像的输入。
步骤3:通过对RGB帧和TVL1光流图像的特征进行Softmax分类,并将多帧之间的结果进行加权和得到结果;
所述步骤3的具体步骤为:
步骤31:给定一个视频V,结合步骤1中对视频数据的处理,将其平均分成K段,K个视频段记做{S1,S2,S3,…,SK},每个视频的识别的结果R(T1,T2,T3,…,TK)表示为:
R(T1,T2,T3,…,TK)=F(H(G(T1,W),G(T2,W),…,G(TK,W)))
其中:(T1,T2,T3,…,TK)是一个片段序列,所述片段序列是从相应的SK视频段中随机抽样的每个帧TK;G(TK,W)是代表参数为W的识别模型对TK帧在所有类别中的识别结果;函数H是用来组合多个帧的输出结果,函数H选择了avg函数,求其在每个类别上的平均值,F函数是预测整个视频的结果的预测函数,本实施例2是用Softmax函数与分类交叉熵损失函数相结合训练模型,loss损失函数L(m,R)则表示为:
Figure BDA0003949790030000071
其中:C为动作的分类数量,i和j是其中的一个具体的类别,mi为每一个视频对应的分类标签i,Ri和Rj是每一个视频在相应类别上的识别结果;
步骤32:给定一个视频V,结合步骤1中对视频数据的处理,将其平均分成K段,K个视频段记做{S1,S2,S3,…,SK},每个视频的识别的结果R(Tx1,y1,Tx2,y2,Tx3,y3,…,TxK,yK)表示为:
R(Tx1,y1,Tx2,y2,Tx3,y3,…,TxK,yK)=F(H(G(Tx1,y1,W),G(Tx2,y2,W),…,G(TxK,yK,W)))
其中:(Tx1,y1,Tx2,y2,Tx3,y3,…,TxK,yK)是一个片段序列,所述片段序列是从相应的SK视频段中随机抽样的每个帧TK对应的向x,y方向上的光流图像;G(TxK,yK,W)是代表参数为W的识别模型对TK帧x,y方向上的光流在所有类别中的识别结果;函数H是用来组合多个帧的输出结果,函数H选择了avg函数,求其在每个类别上的平均值,F函数是预测整个视频的结果的预测函数,本实施例2是用Softmax函数与分类交叉熵损失函数相结合训练模型,loss损失函数L(m,R)则表示为:
Figure BDA0003949790030000081
其中:C为动作的分类数量,i和j是其中的一个具体的类别,mi为每一个视频对应的分类标签i,Ri和Rj是每一个视频在相应类别上的识别结果,
步骤33:将视频输入网络之后,分别获得到RGB网络与光流网络的各自的分类结果权值,最后将两个网络结果相结合的时候会将两个网络的结果进行加权结合,得到预测结果。
步骤4:输入对应视频数据,经过前面预处理之后的获取视频对应的RGB帧与对应光流图像,并输入已训练好的双流ViT模型中,得到分类结果。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于双流网络架构的ViT的人体行为识别方法,其特征在于,包括以下步骤:
步骤1:对输入视频进行预处理,将视频流数据转变为图像RGB帧以及TVL1光流图像;
步骤2:分别建立图像RGB帧和TVL1光流图像的特征提取模型;
步骤3:通过对RGB帧和TVL1光流图像的特征进行Softmax分类,并将多帧之间的结果进行加权和得到结果;
步骤4:输入对应视频数据,经过前面预处理之后的获取视频对应的RGB帧与对应光流图像,并输入已训练好的双流ViT模型中,得到分类结果。
2.根据权利要求1所述的基于双流网络架构的ViT的人体行为识别方法,其特征在于,所述步骤1的具体步骤为:
步骤11:将视频通过工具抽取成为帧图像;
步骤12:利用TSN提出的稀疏采样方法对输入视频进行采样,将视频的帧集合平均分成N段,从每个视频段中随机抽取1帧,同时利用opencv对图像进行TVL1光流计算,得到对应的x,y光流图,并同样进行分段抽帧;
步骤13:将得到的图像进行裁剪成224×224,并同时做数据加强处理。
3.根据权利要求1所述的基于双流网络架构的ViT的人体行为识别方法,其特征在于,所述步骤2的具体步骤为:
步骤21:选择使用Resnet50+ViT-B/16的复合网络识别模型,在ImageNet21K上的进行了预训练;
步骤22:光流网络与RGB图像网络两个分开训练,RGB图像网络主要获取视频动作的空间的特征,光流网络主要获取视频动作的时序特征。同时由于光流图片是单通道的数据,RGB图像是三通道的数据,所以光流网络的部分的前置卷积会更改为双通道适应光流图像的输入。
4.根据权利要求1所述的基于双流网络架构的ViT的人体行为识别方法,其特征在于,所述步骤3的具体步骤为:
步骤31:给定一个视频V,结合步骤1中对视频数据的处理,将其平均分成K段,K个视频段记做{S1,S2,S3,...,SK},每个视频的识别的结果R(T1,T2,T3,…,TK)表示为:
R(T1,T2,T3,…,TK)=F(H(G(T1,W),G(T2,W),…,G(TK,W)))
其中:(T1,T2,T3,...,TK)是一个片段序列,所述片段序列是从相应的SK视频段中随机抽样的每个帧TK;G(TK,W)是代表参数为W的识别模型对TK帧在所有类别中的识别结果;函数H是用来组合多个帧的输出结果,函数H选择了avg函数,求其在每个类别上的平均值,F函数是预测整个视频的结果的预测函数,用Softmax函数与分类交叉熵损失函数相结合训练模型,loss损失函数L(m,R)则表示为:
Figure FDA0003949790020000021
其中:C为动作的分类数量,i和j是其中的一个具体的类别,mi为每一个视频对应的分类标签i,Ri和Rj是每一个视频在相应类别上的识别结果;
步骤32:给定一个视频V,结合步骤1中对视频数据的处理,将其平均分成K段,K个视频段记做{S1,S2,S3,...,SK},每个视频的识别的结果R(Tx1,y1,Tx2,y2,Tx3,y3,…,TxK,yK)表示为:
R(Tx1,y1,Tx2,y2,Tx3,y3,…,TxK,yK)=F(H(G(Tx1,y1,W),G(Tx2,y2,W),…,G(TxK,yK,W)))
其中:(Tx1,y1,Tx2,y2,Tx3,y3,…,TxK,yK)是一个片段序列,所述片段序列是从相应的SK视频段中随机抽样的每个帧TK对应的向x,y方向上的光流图像;G(TxK,yK,W)是代表参数为W的识别模型对TK帧x,y方向上的光流在所有类别中的识别结果;函数H是用来组合多个帧的输出结果,函数H选择了avg函数,求其在每个类别上的平均值,F函数是预测整个视频的结果的预测函数,用Softmax函数与分类交叉熵损失函数相结合训练模型,loss损失函数L(m,R)则表示为:
Figure FDA0003949790020000022
其中:C为动作的分类数量,i和j是其中的一个具体的类别,mi为每一个视频对应的分类标签i,Ri和Rj是每一个视频在相应类别上的识别结果,
步骤33:将视频输入网络之后,分别获得到RGB网络与光流网络的各自的分类结果权值,最后将两个网络结果相结合的时候会将两个网络的结果进行加权结合,得到预测结果。
CN202211446673.0A 2022-11-18 2022-11-18 一种基于双流网络架构的ViT的人体行为识别方法 Pending CN115797827A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211446673.0A CN115797827A (zh) 2022-11-18 2022-11-18 一种基于双流网络架构的ViT的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211446673.0A CN115797827A (zh) 2022-11-18 2022-11-18 一种基于双流网络架构的ViT的人体行为识别方法

Publications (1)

Publication Number Publication Date
CN115797827A true CN115797827A (zh) 2023-03-14

Family

ID=85438847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211446673.0A Pending CN115797827A (zh) 2022-11-18 2022-11-18 一种基于双流网络架构的ViT的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN115797827A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116434343A (zh) * 2023-04-25 2023-07-14 天津大学 基于高低频双支路的视频动作识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116434343A (zh) * 2023-04-25 2023-07-14 天津大学 基于高低频双支路的视频动作识别方法
CN116434343B (zh) * 2023-04-25 2023-09-19 天津大学 基于高低频双支路的视频动作识别方法

Similar Documents

Publication Publication Date Title
CN110458844B (zh) 一种低光照场景的语义分割方法
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
CN107977932B (zh) 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
CN110555387B (zh) 骨架序列中基于局部关节点轨迹时空卷的行为识别方法
CN113221639A (zh) 一种基于多任务学习的代表性au区域提取的微表情识别方法
CN113749657B (zh) 一种基于多任务胶囊的脑电情绪识别方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN110826462A (zh) 一种非局部双流卷积神经网络模型的人体行为识别方法
CN111709289A (zh) 一种用于提高人体解析效果的多任务深度学习模型
CN115797827A (zh) 一种基于双流网络架构的ViT的人体行为识别方法
CN111666845A (zh) 基于关键帧采样的小样本深度学习多模态手语识别方法
CN114937298A (zh) 一种基于特征解耦的微表情识别方法
CN113705384A (zh) 一种考虑局部时空特性和全局时序线索的面部表情识别方法
CN110210399A (zh) 一种基于不确定性量化概率卷积神经网络的人脸识别方法
CN113936317A (zh) 一种基于先验知识的人脸表情识别方法
CN112052795A (zh) 一种基于多尺度时空特征聚合的视频行为识别方法
CN116311472A (zh) 基于多层次图卷积网络的微表情识别方法及装置
CN114882590B (zh) 一种基于事件相机的多粒度时空特征感知的唇读方法
CN114120076B (zh) 基于步态运动估计的跨视角视频步态识别方法
CN116312512A (zh) 面向多人场景的视听融合唤醒词识别方法及装置
CN113033283B (zh) 一种改进的视频分类系统
CN113450313B (zh) 一种基于区域对比学习的图像显著性可视化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination