CN117037288A - 基于Transformer双流融合网络的多模态人体动作识别方法及装置 - Google Patents
基于Transformer双流融合网络的多模态人体动作识别方法及装置 Download PDFInfo
- Publication number
- CN117037288A CN117037288A CN202311287226.XA CN202311287226A CN117037288A CN 117037288 A CN117037288 A CN 117037288A CN 202311287226 A CN202311287226 A CN 202311287226A CN 117037288 A CN117037288 A CN 117037288A
- Authority
- CN
- China
- Prior art keywords
- network
- fusion
- rgb
- flow
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 53
- 230000009471 action Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000003287 optical effect Effects 0.000 claims abstract description 37
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 8
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 16
- 230000003993 interaction Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000000875 corresponding effect Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012512 characterization method Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于Transformer双流融合网络的多模态人体动作识别方法及装置,该方法包括以下步骤:首先,提取人体动作视频数据的RGB帧和光流图像,等间隔采样一定长度的视频图像序列,并利用卷积神经网络为RGB帧和光流图像提取时空特征,作为双流网络模型的输入;然后,使用Transformer编码器捕捉单个分支网络的显著特性以及它们之间的交互特性;最后,将双路分支网络的输出进行融合,并将融合后的特征和单个分支网络的输出送入分类器实现对人体动作的有效识别。本发明通过Transformer编码器增强RGB帧和光流图像的特征表达与融合能力,能有效提高人体动作识别的性能,满足现实生活场景对于人体动作识别技术的应用需求。
Description
技术领域
本发明属于多模态视频动作理解技术领域,涉及一种基于Transformer双流融合网络的多模态人体动作识别方法及装置。
背景技术
随着社会经济与科技的不断发展,影像采集技术及设备的持续进步,近年来人体行为数据总量显著增长,采集场景愈发复杂多样,光照、视角、目标姿态、目标比例及背景等成像条件差异巨大,数据采集形式也从单一可见光模态演变为多种模态。人体行为识别技术具有极大应用价值,高效准确的行为识别方法能显著促进人机交互、智慧安防、无人驾驶以及无人系统等多个实际应用领域的发展。
基于双流网络的人体行为识别方法包含两个分支网络:时间流分支和空间流分支网络。其中,时间流分支网络将连续帧的光流图像作为输入,空间流分支网络将单张RGB图像作为输入,通过卷积神经网络分别提取光流图像和RGB图像的运动和静态特征,最终将两个网络的预测结果进行融合得到最终的行为分类结果,此方法虽然实现了对人体行为的有效识别,但是这种传统的双流网络缺少对两个支路交互信息的有效建模,只是单纯地做后融合,实质上光流和RGB图像之间的互补特性很难被有效地挖掘。
因此需要提出了一种多模态人体动作识别的方法,可以利用Transformer进行光流和RGB多模数据的协同学习以解决现有存在的技术问题。
发明内容
针对现有技术的不足,本发明提供了一种基于Transformer双流融合网络的多模态人体动作识别方法及装置,该方法通过提取人体动作视频数据的RGB帧和光流图像,等间隔采样一定长度的视频图像序列,并利用卷积神经网络为RGB帧和光流图像提取时空特征,作为双流网络模型的输入;然后,使用Transformer编码器捕捉单个分支网络的显著特性以及它们之间的交互特性;最后,将双路分支网络的输出进行融合,并将融合后的特征和单个分支网络的输出送入分类器实现对人体动作的有效识别。
本发明的是通过以下技术方案来实现的:
本发明的第一方面:一种基于Transformer双流融合网络的多模态人体动作识别方法,该方法包括以下步骤:
(1)提取人体动作视频数据的RGB帧和光流图像,等间隔采样若干个视频图像序列,并利用卷积神经网络为RGB帧和光流图像提取时空特征,作为双流网络模型的输入;
(2)使用Transformer编码器捕捉单个分支网络的特征以及单个分支网络之间的交互;(3)将双路分支网络的输出进行融合,并将融合后的特征和单个分支网络的输出送入分类器完成对人体动作的有效识别。
进一步地,所述步骤(3)具体为:
(3.1)首先使用大小的卷积减少通道数目,得到相应的特征图、/>,然后在空间维度进行展平操作,得到RGB图像的特征表示和光流图像的特征表示/>,并将其作为原始输入特征;其中d为通道数,H和W为特征图的高和宽;
(3.2)对RGB和flow的特征进行三元组矩阵变换,利用变换得到两种模态对应的查询特征、键特征以及值特征;再利用交叉注意力计算进行两种模态的特征融合,且数学表达式中的查询矩阵和键矩阵K分别来自两个模态;
(3.3)通过跳跃连接将得到的多头注意力的输出特征与原始输入特征进行连接,得到与/>特征;再将/>与/>特征通过前馈神经网络FFN后得到交叉模态特征和/>,然后将交叉模态特征/>和/>进行拼接得到融合后的多模态特征表示;
(3.4)将多模态特征、/>以及融合后的特征/>进行空间维度的平均池化操作,并送入分类器分别得到预测类别的概率得分/>;
(3.5)利用三元组损失函数优化多模态人体动作识别网络,使得通过RGB特征、Flow特征以及融合特征预测得到的动作类别的真实类别;
(3.6)测试时将输入视频进行特征提取、交叉模态特征融合得到融合后的特征,将在融合后的特征上预测相应的动作类别概率得分,将得分最大的类别作为该视频的动作识别结果。
进一步地,所述步骤(3.2)中利用变换得到两种模态对应的查询特征、键特征以及值特征,其变换的数学表达式如下:
;
其中,分别表示对/>特征进行线性变换得到的三元组特征表示即查询特征、键特征以及值特征,/>表示对RGB特征进行线性变换得到的三元组矩阵特征,即RGB特征的查询、键、值矩阵特征;/>,/>表示多头注意力的头数,/>表示矩阵的转置操作;为建模RGB和/>两个模态之间的交互特性,/>表示三元组矩阵的第h个注意力头的分量。
进一步地,所述步骤(3.2)中利用交叉注意力计算进行两种模态的特征融合,且计算的数学表达式中的查询矩阵Q和键矩阵K分别来自两个模态,其数学表达式如下:
;
;
其中,表示/>特征第i个注意力头的计算结果,/>表示rgb特征第i个注意力头的计算结果;
进而将单头注意力拓展成多头注意力MultiHead的形式,其表达式如下:
;
其中,表示多头注意力的个数,/>为线性变换的参数矩阵,MultiHead表示多头注意力,/>为特征拼接操作。
进一步地,所述步骤(3.3)中拼接得到融合后的多模态特征表示,其拼接表达式如下:
;
;
其中,表示层归一化Layer Normalization操作,再将/>与/>特征通过前馈神经网络FFN:
;
;
将上述交叉模态特征和/>进行拼接得到融合后的多模态特征表示:
。
进一步地,所述步骤(3.5)中利用三元组损失函数优化多模态人体动作识别网络,其优化损失函数表达式如下:
;
其中,为损失调节项,/>为类别的真值,C为动作类别数目。
进一步地,所述利用三元组损失函数优化多模态人体动作识别网络,即预训练时优化RGB空间分支网络、光流时间分支网络以及融合分支网络的交叉熵损失函数;测试时只使用融合分支网络进行类别预测。
本发明的第二个方面:
一种基于Transformer双流融合网络的多模态人体动作识别装置,该装置包括以下模块:
提取模块:提取人体动作视频数据的RGB帧和光流图像,等间隔采样若干个的视频图像序列,并利用卷积神经网络为RGB帧和光流图像提取时空特征,作为双流网络模型的输入;
获取特征模块:使用Transformer编码器捕捉单个分支网络的特征以及单个分支网络之间的交互;
融合识别模块:将双路分支网络的输出进行融合,并将融合后的特征和单个分支网络的输出送入分类器完成对人体动作的有效识别。
本发明的第三个方面:一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如一种基于Transformer双流融合网络的多模态人体动作识别方法。
本发明的第四个方面:一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如一种基于Transformer双流融合网络的多模态人体动作识别方法的步骤。
本发明的有益效果如下:
本发明通过人体动作利用Transformer网络中的交叉注意力机制对输入RGB和光流模态的有效融合,进而实现对人体动作的准确识别。可提升多模态人体动作特征的交互能力,进一步提升多模态人体动作识别的准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本发明的基于Transformer双流融合网络的多模态人体动作识别方法流程示意图;
图2为本发明的基于Transformer双流融合网络的多模态人体动作识别系统流程图;
图3为本发明的基于Transformer双流融合网络的多模态人体动作识别装置流程示意图;
图4为本发明的基于Transformer双流融合网络的多模态人体动作识别电子设备示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
本发明提供了一种基于Transformer双流融合网络的多模态人体动作识别方法,所述人体动作利用Transformer网络中的交叉注意力机制对输入RGB和光流模态的有效融合,进而实现对人体动作的准确识别。如图1和图2所示,该方法首先采用预训练的ResNet101网络提取视频RGB帧和光流图像的视觉特征,这部分的网络参数是固定的。基于得到的RGB和光流图像特征进行多模态交互信息融合,最终基于融合后的多模态特征进行人体动作识别。
下面将结合附图对本发明加以详细说明,图2是本发明提供的基于Transformer双流融合网络的多模态人体动作识别系统流程图,该系统对应本发明的Transformer双流融合网络的多模态人体动作识别方法,如图1所示,该方法的具体步骤为:
S1:提取人体动作视频数据的RGB帧和光流图像,等间隔采样若干个视频图像序列,并利用卷积神经网络为RGB帧和光流图像提取时空特征,作为双流网络模型的输入;使用Transformer编码器捕捉单个分支网络的特征以及单个分支网络之间的交互;
首先使用大小的卷积减少通道数目,得到相应的特征图/>、,然后在空间维度进行展平操作,得到RGB图像的特征表示/>和光流图像的特征表示/>,并将其作为原始输入特征;其中d为通道数,H和W为特征图的高和宽;
对于公开的人体动作视频数据集Toyota Smarthome,借助denseflow工具以固定帧率FPS=30帧/秒,对视频进行等间隔采样得到视频RGB图像帧和光流序列,将图像统一裁剪成大小,然后使用在ImageNet图像数据上预训练的ResNet101网络分别为RGB和/>光流序列提取池化层前的特征表示,记作/>、,其中2048代表通道数,/>为图像的宽和高;
S2:为减少计算量,首先使用大小的卷积将通道数降低到512维度。进一步,为RGB和光流特征序列添加空间位置编码信息(PE, Positional Encoding),表达式为:
;
其中,代表空间位置,/>代表维度,/>为512。
S3:将双路分支网络的输出进行融合,并将融合后的特征和单个分支网络的输出送入分类器完成对人体动作的有效识别;对RGB和flow的特征进行三元组矩阵变换,利用变换得到两种模态对应的查询特征、键特征以及值特征;再利用交叉注意力计算进行两种模态的特征融合,且数学表达式中的查询矩阵和键矩阵K分别来自两个模态;
即为挖掘单一模态内的显著化特征,使用自注意力机制,表达式如下:
;
;
其中,表示/>特征第i个注意力头的计算结果,/>表示rgb特征第i个注意力头的计算结果;/>为RGB模态特征的三元组线性变换,为/>模态的三元组线性变换。将上面单头自注意力拓展成多头注意力的形式,表达式如下:
;
其中,表示多头注意力的个数,/>为线性变换的参数向量,/>为特征拼接操作。
S4:使用交叉注意力机制挖掘不同模态特征之间的交互特性其表达式如下:
;
;
经过对比可知,交叉注意力机制通过计算不同模态三元组特征之间的相关性得到跨模态增强后的特征表示。同样地,将上面单头注意力拓展成多头注意力的形式。
S5:通过跳跃连接将得到的多头注意力的输出特征与原始输入特征进行连接,得到与/>特征;再将/>与/>特征通过前馈神经网络FFN后得到交叉模态特征和/>,然后将交叉模态特征/>和/>进行拼接得到融合后的多模态特征表示;通过跳跃连接将得到的交叉模态特征与原始特征进行连接的表达式如下:
;
;
LN表示层归一化Layer Normalization操作。进一步地,将上述输出通过前馈神经网络FFN,表达式如下:
;
;
将与/>进行求和得到最终融合后的多模态特征表示/>,表达式如下:
;
S6:将、/>以及融合后的多模态特征表示/>送入池化层得到空间尺寸为1的特征向量,进一步经过分类器得到相应类别的预测得分/>;分类器由全连接层FC(Fully Connected Layer)和Softmax激活函数组成,通过交叉熵损失函数对神经网络进行训练,并将分类的准确率作为性能评测的指标;即利用三元组损失函数优化多模态人体动作识别网络,使得通过RGB特征、Flow特征以及融合特征预测得到的动作类别的真实类别;测试时将输入视频进行特征提取、交叉模态特征融合得到融合后的特征,将在融合后的特征上预测相应的动作类别概率得分,将得分最大的类别作为该视频的动作识别结果。
所述步骤S3与步骤S4中,多头注意力的个数设置为4。
所述步骤S5中,前馈神经网络FFN隐层节点数设置为2048,激活函数采用ReLU。
在人体动作数据集Toyota Smarthome上利用训练集数据训练网络模型,并进一步在测试集上验证模型的有效性。训练集和测试集采用标准cross-subject的方式进行划分。该数据集共包含31个人体动作的类别,例如:Walk(走路)、Readbook(读书)、WatchTV(看电视)、Laydown(躺下)、Uselaptop(使用笔记本)、Cutbread(切面包)等。在该数据集上的识别结果如表1所示(单位:%)。
表1
如表1所示,通过对输入的RGB和光流两个模态进行跨模态的融合,得到融合准确率为52.88%,分别高出RGB支路的准确率8.69%以及Flow支路的准确率13.92%,体现出本发明的技术有效性。
如图3所示,本发明还提供了一种基于Transformer双流融合网络的多模态人体动作识别装置,该装置包括以下模块:
提取拼接模块:使用denseflow工具为公开的人体动作视频数据提取RGB图像帧和光流图像,等间隔抽取一定数量的图像序列;所述光流图像分为x和y两个方向,将两个方向的图像进行拼接得到一张光流图像作为后续光流分支网络的输入;
获取图像特征模块:采用在ImageNet上预训练的ResNet101卷积神经网络提取视频片段的视觉特征,得到RGB图像和光流图像的特征表示分别为和,其中C为通道数,H和W为特征图的高和宽;
捕获输出模块:利用Transformer编码器网络捕捉RGB图像和光流图像特征之间的互补性,将融合后的特征和单个分支的特征分别送入到分类器,输出概率得分最大的动作类别作为最终的多模态识别结果。
值得注意的是,本发明在训练时优化RGB空间分支网络、光流时间分支网络以及融合分支网络的交叉熵损失函数;测试时只使用融合分支网络进行类别预测。
处理器执行时实现如基于Transformer双流融合网络的多模态人体动作识别的方法的步骤。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的基于Transformer双流融合网络的多模态人体动作识别的方法。如图4所示,为本发明实施例提供的一种深度学习数据集存取系统所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存以及网络接口之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述的基于Transformer双流融合网络的多模态人体动作识别的方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(FlashCard)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (10)
1.一种基于Transformer双流融合网络的多模态人体动作识别方法,其特征在于,该方法包括以下步骤:
(1)提取人体动作视频数据的RGB帧和光流图像,等间隔采样若干个视频图像序列,并利用卷积神经网络为RGB帧和光流图像提取时空特征,作为双流网络模型的输入;
(2)使用Transformer编码器捕捉单个分支网络的特征以及单个分支网络之间的交互;(3)将双路分支网络的输出进行融合,并将融合后的特征和单个分支网络的输出送入分
类器完成对人体动作的有效识别。
2.根据权利要求1所述的一种基于Transformer双流融合网络的多模态人体动作识别方法,其特征在于,所述步骤(3)具体为:
(3.1)首先使用大小的卷积减少通道数目,得到相应的特征图/>、,然后在空间维度进行展平操作,得到RGB图像的特征表示/>和光流图像的特征表示/>,并将其作为原始输入特征;其中d为通道数,H和W为特征图的高和宽;
(3.2)对RGB和flow的特征进行三元组矩阵变换,利用变换得到两种模态对应的查询特征、键特征以及值特征;再利用交叉注意力计算进行两种模态的特征融合,且数学表达式中的查询矩阵和键矩阵K分别来自两个模态;
(3.3)通过跳跃连接将得到的多头注意力的输出特征与原始输入特征进行连接,得到与/>特征;再将/>与/>特征通过前馈神经网络FFN后得到交叉模态特征/>和/>,然后将交叉模态特征/>和/>进行拼接得到融合后的多模态特征表示/>;
(3.4)将多模态特征、/>以及融合后的特征/>进行空间维度的平均池化操作,并送入分类器分别得到预测类别的概率得分/>;
(3.5)利用三元组损失函数优化多模态人体动作识别网络,使得通过RGB特征、Flow特征以及融合特征预测得到的动作类别的真实类别;
(3.6)测试时将输入视频进行特征提取、交叉模态特征融合得到融合后的特征,将在融合后的特征上预测相应的动作类别概率得分,将得分最大的类别作为该视频的动作识别结果 。
3.根据权利要求2所述的一种基于Transformer双流融合网络的多模态人体动作识别方法,其特征在于,所述步骤(3.2)中利用变换得到两种模态对应的查询特征、键特征以及值特征,其变换的数学表达式如下:
;
其中,分别表示对/>特征进行线性变换得到的三元组特征表示即查询特征、键特征以及值特征,/>表示对RGB特征进行线性变换得到的三元组矩阵特征,即RGB特征的查询、键、值矩阵特征;/>,/>表示多头注意力的头数,/>表示矩阵的转置操作;为建模RGB和/>两个模态之间的交互特性,/>表示三元组矩阵的第h个注意力头的分量。
4.根据权利要求2所述的一种基于Transformer双流融合网络的多模态人体动作识别方法,其特征在于,所述步骤(3.2)中利用交叉注意力计算进行两种模态的特征融合,且计算的数学表达式中的查询矩阵Q和键矩阵K分别来自两个模态,其数学表达式如下:
;
;
其中,表示/>特征第i个注意力头的计算结果,/>表示rgb特征第i个注意力头的计算结果;
进而将单头注意力拓展成多头注意力MultiHead的形式,其表达式如下:
;
其中,表示多头注意力的个数,/>为线性变换的参数矩阵,MultiHead表示多头注意力,/>为特征拼接操作。
5.根据权利要求2所述的一种基于Transformer双流融合网络的多模态人体动作识别方法,其特征在于,所述步骤(3.3)中拼接得到融合后的多模态特征表示,其拼接表达式如下:
;
;
其中,表示层归一化Layer Normalization操作,再将/>与/>特征通过前馈神经网络FFN:
;
;
将上述交叉模态特征和/>进行拼接得到融合后的多模态特征表示:
。
6.根据权利要求2所述的一种基于Transformer双流融合网络的多模态人体动作识别方法,其特征在于,所述步骤(3.5)中利用三元组损失函数优化多模态人体动作识别网络,其优化损失函数表达式如下:
;
其中,为损失调节项,/>为类别的真值,C为动作类别数目。
7.根据权利要求1所述的一种基于Transformer双流融合网络的多模态人体动作识别方法,其特征在于,所述利用三元组损失函数优化多模态人体动作识别网络,即预训练时优化RGB空间分支网络、光流时间分支网络以及融合分支网络的交叉熵损失函数;测试时只使用融合分支网络进行类别预测。
8.一种基于Transformer双流融合网络的多模态人体动作识别装置,其特征在于,该装置包括以下模块:
提取模块:提取人体动作视频数据的RGB帧和光流图像,等间隔采样若干个的视频图像序列,并利用卷积神经网络为RGB帧和光流图像提取时空特征,作为双流网络模型的输入;
获取特征模块:使用Transformer编码器捕捉单个分支网络的特征以及单个分支网络之间的交互;
融合识别模块:将双路分支网络的输出进行融合,并将融合后的特征和单个分支网络的输出送入分类器完成对人体动作的有效识别。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311287226.XA CN117037288A (zh) | 2023-10-08 | 2023-10-08 | 基于Transformer双流融合网络的多模态人体动作识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311287226.XA CN117037288A (zh) | 2023-10-08 | 2023-10-08 | 基于Transformer双流融合网络的多模态人体动作识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117037288A true CN117037288A (zh) | 2023-11-10 |
Family
ID=88641449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311287226.XA Pending CN117037288A (zh) | 2023-10-08 | 2023-10-08 | 基于Transformer双流融合网络的多模态人体动作识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117037288A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118736682A (zh) * | 2024-09-03 | 2024-10-01 | 中南民族大学 | 基于双流信息融合的人体动作识别方法和识别系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860353A (zh) * | 2020-07-23 | 2020-10-30 | 北京以萨技术股份有限公司 | 基于双流神经网络的视频行为预测方法、装置及介质 |
CN115601674A (zh) * | 2022-09-28 | 2023-01-13 | 智洋创新科技股份有限公司(Cn) | 一种输电工程烟雾隐患识别方法、装置及存储介质 |
CN115631535A (zh) * | 2022-10-31 | 2023-01-20 | 杭州云象网络技术有限公司 | 基于光流引导及双流网络的动作识别方法、系统及装置 |
-
2023
- 2023-10-08 CN CN202311287226.XA patent/CN117037288A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860353A (zh) * | 2020-07-23 | 2020-10-30 | 北京以萨技术股份有限公司 | 基于双流神经网络的视频行为预测方法、装置及介质 |
CN115601674A (zh) * | 2022-09-28 | 2023-01-13 | 智洋创新科技股份有限公司(Cn) | 一种输电工程烟雾隐患识别方法、装置及存储介质 |
CN115631535A (zh) * | 2022-10-31 | 2023-01-20 | 杭州云象网络技术有限公司 | 基于光流引导及双流网络的动作识别方法、系统及装置 |
Non-Patent Citations (2)
Title |
---|
ZHEN LIU等: "Cross-scale cascade transformer for multimodal human action recognition", 《PATTERN RECOGNITION LETTERS》, vol. 168, pages 17 - 23, XP087291635, DOI: 10.1016/j.patrec.2023.02.024 * |
ZHEN LIU等: "Dual-stream cross-modality fusion transformer for RGB-D action recognition", 《KNOWLEDGE-BASED SYSTEMS》, vol. 255, pages 1 - 11 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118736682A (zh) * | 2024-09-03 | 2024-10-01 | 中南民族大学 | 基于双流信息融合的人体动作识别方法和识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175527B (zh) | 行人再识别方法及装置、计算机设备及可读介质 | |
CN115240121B (zh) | 一种用于增强行人局部特征的联合建模方法和装置 | |
CN110414432A (zh) | 对象识别模型的训练方法、对象识别方法及相应的装置 | |
CN108388882B (zh) | 基于全局-局部rgb-d多模态的手势识别方法 | |
CN113111842B (zh) | 一种动作识别方法、装置、设备及计算机可读存储介质 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN115311186B (zh) | 一种红外与可见光图像跨尺度注意力对抗融合方法及终端 | |
CN114283351A (zh) | 视频场景分割方法、装置、设备及计算机可读存储介质 | |
CN114694089B (zh) | 一种新型的多模态融合的行人重识别方法 | |
CN113569627B (zh) | 人体姿态预测模型训练方法、人体姿态预测方法及装置 | |
CN117037288A (zh) | 基于Transformer双流融合网络的多模态人体动作识别方法及装置 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
CN116092185A (zh) | 基于多视角特征交互融合的深度视频行为识别方法及系统 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN117576786A (zh) | 基于视觉语言模型的三维人体行为识别网络训练方法 | |
CN116597260A (zh) | 图像处理方法、电子设备、存储介质及计算机程序产品 | |
CN114898429A (zh) | 一种热红外-可见光跨模态人脸识别的方法 | |
Ma et al. | Cascade transformer decoder based occluded pedestrian detection with dynamic deformable convolution and Gaussian projection channel attention mechanism | |
CN112052795B (zh) | 一种基于多尺度时空特征聚合的视频行为识别方法 | |
CN117828534A (zh) | 基于隐式标签推理的情感意图语义关联方法、系统及设备 | |
CN117237761A (zh) | 对象重识别模型的训练方法、对象重识别方法和装置 | |
CN116975602A (zh) | 一种基于多模态信息双重融合的ar互动情感识别方法和系统 | |
Zhao et al. | Research on human behavior recognition in video based on 3DCCA | |
CN116524609A (zh) | 活体检测方法及系统 | |
CN116311504A (zh) | 一种小样本行为识别方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20231110 |
|
RJ01 | Rejection of invention patent application after publication |