CN116385548A - 一种基于融合注意力机制和vibe网络的姿态识别方法 - Google Patents
一种基于融合注意力机制和vibe网络的姿态识别方法 Download PDFInfo
- Publication number
- CN116385548A CN116385548A CN202310651844.1A CN202310651844A CN116385548A CN 116385548 A CN116385548 A CN 116385548A CN 202310651844 A CN202310651844 A CN 202310651844A CN 116385548 A CN116385548 A CN 116385548A
- Authority
- CN
- China
- Prior art keywords
- module
- attention mechanism
- information
- vibe
- gesture recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000004927 fusion Effects 0.000 title claims abstract description 16
- 238000011176 pooling Methods 0.000 claims abstract description 45
- 230000037237 body shape Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 abstract description 5
- 230000002457 bidirectional effect Effects 0.000 abstract description 4
- 239000010410 layer Substances 0.000 description 34
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种基于融合注意力机制和VIBE网络的姿态识别方法,属于卷积神经网络领域;包括输入图像的多尺度缩放模块、注意力机制模块、GRU识别匹配模块三部分;所述注意力机制模块融合了注意力机制模块并同时作用于空间维度和通道维度;所述多尺度缩放模块主要沿用了VIBE的卷积结构,但是对VIBE的网络结构进行了改进,将原始的单池化层改为一组池化层;所述GRU识别匹配模块将上个模块处理的结果输入到双向选通递归单元GRU组成的时间编码器,用来获得整个输入内容的连续时间信息,并对输入内容进行加权赋值。本发明可以提高姿态识别的效率,属于卷积神经网络领域。
Description
技术领域
本发明属于卷积神经网络技术领域,特别是涉及到一种基于融合注意力机制和VIBE网络的姿态识别方法。
背景技术
实时姿态识别和动画生成是计算机图形学中一个重要的研究方向,目前应用最为广泛的方法是深度学习,目前主流的姿态识别主要为两个方向:一个是基于深度学习的2D姿态识别,最为典型的代表案例就是基于Mask-RCNN的方案,在该方案中处理的关键节点都是针对二维的图像,虽然在识别精度上达到了很好地效果,但是丢失了输入图像的时间信息,无法对视频信息进行精准的预测;另一个是三维姿态识别的思想,以Facebook AI引入时间序列信息为例,基于已经提取的2D姿态,使用前馈神经网络直接估计出相应的3D姿态,但是该方案需要进行两段的训练,需要消耗很多的时间,降低了识别效率。
针对上述在姿态识别研究领域存在的一些缺陷,现有技术亟需一种新的方案来解决这些问题。
发明内容
本发明所要解决的技术问题是:提供一种基于融合注意力机制和VIBE网络的姿态识别方法,可以提高姿态识别的效率,属于卷积神经网络领域。
一种基于融合注意力机制和VIBE网络的姿态识别方法,采用的识别模型包括多尺度缩放模块、注意力机制模块以及GRU识别匹配模块,其特征是:包括以下步骤,且以下步骤顺次进行,
步骤一、将视频信息输入识别模型,进行逐帧的拆分,按照提取顺序输出帧序列信息,并存放至多尺度缩放模块中,通过卷积层提取特征图及候选区域,进入注意力机制模块;
步骤二、经所述步骤一处理的结果进入注意力机制模块后首先进入通道注意力模块,对输入信息的传输通道进行保留,对空间信息进行压缩;再进入空间注意力机制模块,保留空间维度,压缩通道维度后输出帧序列E;
步骤三、经所述步骤二处理后结果进入GRU识别匹配模块,对帧图像按照时间顺序加以权重,时序靠前的帧权重较大,以递减的方式进行排序,获得的特征参数作为SMPL身体模型的参数,采用SMPL模型预测身体形状参数,得到真实的姿态识别图像。
所述步骤一提取特征图及候选区域的方法为,采用候选区域网络RPN通过softmax归一化函数判断anchors集合属于前景foreground或背景background;采用 bounding box回归修正anchors集合获得精确的候选区域;将候选区域Region Proposal和特征图feature maps传入下一层网络ROI Pooling,获得固定尺寸的特征图;最后再通过Classification层,将ROI Pooling层生成的固定尺寸的特征图分别传入softmax分类和bounding box regression边框回归获得检测物体类别和检测框最终的精确位置,得到包含主要特征点且大小相同的特征图。
所述步骤二通道注意力模块首先将输入的信息通过一个修改过的并行池化层提取特征信息,并行池化层包括平均池化AvgPool和最大池化MaxPool;然后将池化后的信息通过一个Shared MLP多层感知机进行压缩然后再扩张,扩张后的结果与输入的大小保持一致,得到的信息再传入到下一层空间注意力机制模块;空间注意力机制模块将上一层通道注意力模块传递来的信息先通过一个堆叠池化层,堆叠池化层采用平均池化AvgPool和最大池化MaxPool,采用一个Concat函数名操作将两个池化层的信息堆叠在一起,此时的通道数为2,再通过卷积将通道数降为1,经过一个sigmoid激活函数名得到该单元的输出帧序列E。
所述步骤三SMPL身体模型中,θ为身体姿态和形状,θ由姿态θ∈R72和形状参数β∈R10组成;姿态参数包括全局身体旋转和轴角格式的23个关节的相对旋转;形状参数为主成分分析形状空间的前10个系数;通过给定参数,输出一个设定的三维网格;给定一个视频序列,VIBE计算ˇθ=[(ˇθ1,ˇθT),ˇβ],其中ˇθ是时间步长T的姿态参数,ˇβ是该序列的单个身体形状预测,获得每一帧预测身体形状参数;采用平均池来获得整个输入序列中的单个形状(β),获得生成器模型-假样本;将生成器模型与真实模型提供给运动鉴别器DM,通过DM鉴别器的鉴别得到真实的运动图像信息后,根据GRU单元提供的时序权重组合到一起,获得真实的姿态识别图像。
通过上述设计方案,本发明可以带来如下有益效果:一种基于融合注意力机制和VIBE网络的姿态识别方法,可以提高姿态识别的效率,属于卷积神经网络领域。
进一步的,本发明采用注意力机制模块,融合的注意力机制模块同时作用于空间维度和通道维度,在原网络的基础上可以增加图像输入的信息,提高识别的精度;同时在注意力机制模块对池化层进行了改进,由原本的单层池化层分别改为并行池化层(通道注意力机制部分)和堆叠池化层(空间注意力机制部分),通过对池化层的改进,进一步避免了由于输入信息量的增加带来的过拟合问题;
本发明采用多尺度缩放模块,沿用了VIBE的卷积结构,但是对VIBE的网络结构进行了改进,将原始的单池化层改为一组池化层,该改进在大量的输入图像特征时避免过拟合问题,确保网络的稳定性;节省了人为处理图像的缺陷,同时,对原始特征图进行处理后,能更大程度上减少冗余信息的传入,提前筛选出部分的无用信息点,可以提高网络模型的运算速度,从而提高效率;
本发明采用GRU识别匹配模块,将前述个模块处理的结果输入一个双向选通递归单元GRU组成的时间编码器,以此来获得整个输入内容的连续时间信息,然后对输入内容进行加权赋值后传入后面的识别匹配单元;可以在后续的时序重组过程中保障视频的时序信息不产生错乱。
附图说明
以下结合附图和具体实施方式对本发明作进一步的说明:
图1为本发明一种基于融合注意力机制和VIBE网络的姿态识别方法采用的结构框图。
图2为本发明一种基于融合注意力机制和VIBE网络的姿态识别方法通道注意力模块流程框图。
图3为本发明一种基于融合注意力机制和VIBE网络的姿态识别方法通道注意力模块流程框图中⑦的具体流程框图。
图4为本发明一种基于融合注意力机制和VIBE网络的姿态识别方法空间注意力模块流程框图。
图5为本发明一种基于融合注意力机制和VIBE网络的姿态识别方法多尺度缩放模块流程框图。
图6为本发明一种基于融合注意力机制和VIBE网络的姿态识别方法GRU识别匹配模块流程框图。
实施方式
一种基于融合注意力机制和VIBE网络的姿态识别方法,采用的模型包括多尺度缩放模块、注意力机制模块、GRU识别匹配模块;如图1所示,主要的过程为:输入的视频信息,先进行逐帧的拆解(具体的每隔几帧根据具体的情况而定),拆解完的每个帧信息进入一个GRU单元,也就是由双向选通递归单元(GRU)组成的时间编码器,该单元的主要作用就是能够记录整个输入视频的时间信息,由于视频被逐帧拆解,因此使用这个单元记录输入数据的三维时间信息;数据通过GRU单元记录后会进入后面的空间注意力机制模块,该部分会再一次的提取传递来的每一帧的信息,然后对这些信息进行卷积池化等操作,保证提取到尽可能多的特征信息;添加了注意力机制模块后,提取到的特征点数量明显增多,同时由于增加了并行池化和堆叠池化操作,避免了因为特征点多造成的过拟合问题。
具体的,在多尺度缩放模块中引入了一个新的卷积模型,其具体的工作流程如图5所示,在这里首先对输入的视频信息进行逐帧的拆分,这里我们采用每隔5帧提取一张图像,将提取的图像按照顺序输入到我们的多尺度缩放模块中,利用该模块的卷积层提取出特征图;提取的这些特征图经过一个候选区域网络Region Proposal Networks RPN,该网络的主要作用是通过softmax判断anchors属于前景foreground或者背景background,再利用 bounding box 回归修正anchors获得精确的候选区域;经过RPN网络处理后,将得到两个结果:一个是候选区域Region Proposal,另一个是特征图feature maps,将这两个结果传入下一层网络ROI Pooling,在该层通过上述传来的两个结果,生成固定尺寸的特征图。最后再通过Classification层,将ROI Pooling生成的固定尺寸的特征图分别传入softmax分类和bounding box regression获得检测物体类别和检测框最终的精确位置。通过上述的多尺度缩放模块,我们就可以得到包含主要特征点且大小相同的特征图,最开始提取的帧图像按此方式进行顺序处理,得到的处理后的结果进入下一层注意力机制模块。
通道注意力机制流程展示如图2和图3所示,主要的过程为:首先输入的图像特征的大小为W*H*C,通过①(MaxPool)和②(AvgPool)这两个池化层,将输入的特征图大小调整为W*1*1,经过③(MaxPool Out)和④(AvgPool Out)这两个输出,将数据运输到下面的卷积层中,利用此卷积层将输入的图像信息的通道数进行压缩,然后再经过⑤和⑥的激活函数和卷积操作,恢复为原先输入的大小;此时的输入信息大小为W*1*1,将此数据经过流程⑦,此过程先将得到的两个激活后的结果接上一个sigmoid得到channel_out,channel_out,再将结果与最初的输入信息进行相乘,得到输出结果为F,其被压缩通道后的大小就再次变为W*H*C;此时整个通道注意力模块就此完成,原始输入的图像的空间维度被压缩,而输入信息的通道维度没有任何的改变,同时因为通过的①和②这两个并行池化层,在增加了输入特征信息量的同时避免了过拟合的问题。
空间注意力机制的主要过程如图4所示,在所述的通道注意力模块中,输出的结果F传入到空间注意力机制模块,作为空间注意力机制模块的输入,输入的信息通过⑧(MaxPool)和⑨(AvgPool)这两个堆叠的池化层,池化层将输入信息的大小变为了W*H*C/2的两个张量,通过Concat操作堆叠到一起,经过⑩(sigmoid操作)得到一个空间注意力机制的输出,将此输出与此过程的输入F进行相乘,使得最终的输出结果的大小依旧为W*H*C;此时整个空间注意力模块就此完成,原始输入的图像的通道数就被压缩,而输入信息的空间维度没有任何的改变。这里使用了两个堆叠的池化层⑧和⑨,在增加输入信息的同时,再次避免了过拟合的问题。
GRU识别匹配模块是一个由双向门控循环单元(bidirectional Gated RecurrentUnits, GRU)组成的时序编码器,它输出包含过去和未来帧信息的潜在变量,如图6所示,为了更好的表达每一帧的时序信息,GRU单元输入的帧图像按照时间顺序加以权重表示,时序靠前的帧权重比较大,以递减的方式进行排序。然后,这些特征用于在每个时间实例回归SMPL身体模型的参数。SMPL用θ表示身体姿态和形状,θ分别由姿态和形状参数θ∈R72和β∈R10组成。姿态参数包括全局身体旋转和轴角格式的23个关节的相对旋转。形状参数是主成分分析形状空间的前10个系数;在这里,我们使用性别中性的形状模型,如在以前的工作[30,37]中给定的这些参数,SMPL模型是一个可微函数,M(θ,β) ∈ R6890×3,输出一个设定的三维网格。给定一个视频序列,VIBE计算ˇθ=[(ˇθ1,ˇθT),ˇβ],其中ˇθ是时间步长T的姿态参数,ˇβ是该序列的单个身体形状预测。具体来说,对于每一帧,我们预测身体形状参数。然后,我们应用平均池来获得整个输入序列中的单个形状(β),我们将上述过程得到的模型称为生成器模型-假样本。然后,将生成器模型与真实的模型提供给运动鉴别器DM,以便区分假的和真实的例子,通过DM鉴别器的鉴别,我们就能得到真实的运动图像信息,再根据GRU单元提供的时序权重组合到一起,得到真实的姿态识别图像。
综上所述,①本发明加入多尺度缩放模块通过对输入图像的处理,我们就可以得到包含主要特征点且大小相同的特征图,节省了人为处理图像的缺陷,同时,对原始特征图进行处理后,能更大程度上减少冗余信息的传入,提前筛选出部分的无用信息点,可以提高网络模型的运算速度,从而提高效率;②本发明加入的融合注意力机制模型通过融合了通道注意力模块和空间注意力模块,在提取输入信息的特征点能力上有明显的提升;同时在注意力机制模块对池化层进行了改进,由原本的单层池化层分别改为并行池化层(通道注意力机制部分)和堆叠池化层(空间注意力机制部分),通过对池化层的改进,进一步避免了由于输入信息量的增加带来的过拟合问题。③本发明为GRU单元输入的帧图像按照时间顺序加以权重表示,时序靠前的帧权重比较大,以递减的方式进行排序,通过该权重,可以在后续的时序重组过程中保障视频的时序信息不产生错乱。
Claims (4)
1.一种基于融合注意力机制和VIBE网络的姿态识别方法,采用的识别模型包括多尺度缩放模块、注意力机制模块以及GRU识别匹配模块,其特征是:包括以下步骤,且以下步骤顺次进行,
步骤一、将视频信息输入识别模型,进行逐帧的拆分,按照提取顺序输出帧序列信息,并存放至多尺度缩放模块中,通过卷积层提取特征图及候选区域,进入注意力机制模块;
步骤二、经所述步骤一处理的结果进入注意力机制模块后首先进入通道注意力模块,对输入信息的传输通道进行保留,对空间信息进行压缩;再进入空间注意力机制模块,保留空间维度,压缩通道维度后输出帧序列E;
步骤三、经所述步骤二处理后结果进入GRU识别匹配模块,对帧图像按照时间顺序加以权重,时序靠前的帧权重较大,以递减的方式进行排序,获得的特征参数作为SMPL身体模型的参数,采用SMPL模型预测身体形状参数,得到真实的姿态识别图像。
2.根据权利要求1所述的一种基于融合注意力机制和VIBE网络的姿态识别方法,其特征是:所述步骤一提取特征图及候选区域的方法为,采用候选区域网络RPN通过softmax归一化函数判断anchors集合属于前景foreground或背景background;采用 bounding box回归修正anchors集合获得精确的候选区域;将候选区域Region Proposal和特征图feature maps传入下一层网络ROI Pooling,获得固定尺寸的特征图;最后再通过Classification层,将ROI Pooling层生成的固定尺寸的特征图分别传入softmax分类和bounding box regression边框回归获得检测物体类别和检测框最终的精确位置,得到包含主要特征点且大小相同的特征图。
3.根据权利要求1所述的一种基于融合注意力机制和VIBE网络的姿态识别方法,其特征是:所述步骤二通道注意力模块首先将输入的信息通过一个修改过的并行池化层提取特征信息,并行池化层包括平均池化AvgPool和最大池化MaxPool;然后将池化后的信息通过一个Shared MLP多层感知机进行压缩然后再扩张,扩张后的结果与输入的大小保持一致,得到的信息再传入到下一层空间注意力机制模块;空间注意力机制模块将上一层通道注意力模块传递来的信息先通过一个堆叠池化层,堆叠池化层采用平均池化AvgPool和最大池化MaxPool,采用一个Concat函数名操作将两个池化层的信息堆叠在一起,此时的通道数为2,再通过卷积将通道数降为1,经过一个sigmoid激活函数名得到该单元的输出帧序列E。
4.根据权利要求1所述的一种基于融合注意力机制和VIBE网络的姿态识别方法,其特征是:所述步骤三SMPL身体模型中,θ为身体姿态和形状,θ由姿态θ∈R72和形状参数β∈R10组成;姿态参数包括全局身体旋转和轴角格式的23个关节的相对旋转;形状参数为主成分分析形状空间的前10个系数;通过给定参数,输出一个设定的三维网格;给定一个视频序列,VIBE计算ˇθ=[(ˇθ1,ˇθT),ˇβ],其中ˇθ是时间步长T的姿态参数,ˇβ是该序列的单个身体形状预测,获得每一帧预测身体形状参数;采用平均池来获得整个输入序列中的单个形状(β),获得生成器模型-假样本;将生成器模型与真实模型提供给运动鉴别器DM,通过DM鉴别器的鉴别得到真实的运动图像信息后,根据GRU单元提供的时序权重组合到一起,获得真实的姿态识别图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310651844.1A CN116385548A (zh) | 2023-06-05 | 2023-06-05 | 一种基于融合注意力机制和vibe网络的姿态识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310651844.1A CN116385548A (zh) | 2023-06-05 | 2023-06-05 | 一种基于融合注意力机制和vibe网络的姿态识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116385548A true CN116385548A (zh) | 2023-07-04 |
Family
ID=86961874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310651844.1A Pending CN116385548A (zh) | 2023-06-05 | 2023-06-05 | 一种基于融合注意力机制和vibe网络的姿态识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116385548A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830144A (zh) * | 2018-05-03 | 2018-11-16 | 华南农业大学 | 一种基于改进Faster-R-CNN的哺乳母猪姿态识别方法 |
CN111860103A (zh) * | 2020-05-11 | 2020-10-30 | 重庆大学 | 一种基于Tensorflow目标检测的动作识别方法 |
CN114913604A (zh) * | 2022-05-27 | 2022-08-16 | 杭州电子科技大学 | 一种基于两级池化s2e模块的姿态识别方法 |
CN115188049A (zh) * | 2022-07-12 | 2022-10-14 | 中国石油大学(华东) | 一种基于在线强化学习的小区人脸姿态检测系统及方法 |
CN115512393A (zh) * | 2022-10-19 | 2022-12-23 | 辽宁科技大学 | 一种基于改进HigherHRNet的人体姿态估计方法 |
-
2023
- 2023-06-05 CN CN202310651844.1A patent/CN116385548A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830144A (zh) * | 2018-05-03 | 2018-11-16 | 华南农业大学 | 一种基于改进Faster-R-CNN的哺乳母猪姿态识别方法 |
CN111860103A (zh) * | 2020-05-11 | 2020-10-30 | 重庆大学 | 一种基于Tensorflow目标检测的动作识别方法 |
CN114913604A (zh) * | 2022-05-27 | 2022-08-16 | 杭州电子科技大学 | 一种基于两级池化s2e模块的姿态识别方法 |
CN115188049A (zh) * | 2022-07-12 | 2022-10-14 | 中国石油大学(华东) | 一种基于在线强化学习的小区人脸姿态检测系统及方法 |
CN115512393A (zh) * | 2022-10-19 | 2022-12-23 | 辽宁科技大学 | 一种基于改进HigherHRNet的人体姿态估计方法 |
Non-Patent Citations (2)
Title |
---|
MUHAMMED KOCABAS等: "VIBE: Video Inference for Human Body Pose and Shape Estimation", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, pages 5252 - 5262 * |
SANGHYUN WOO等: "CBAM: Convolutional Block Attention Module", 《ECCV 2018》, pages 3 - 19 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446923B (zh) | 基于训练特征融合的深度监督卷积神经网络行为识别方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN111582059B (zh) | 一种基于变分自编码器的人脸表情识别方法 | |
CN111899172A (zh) | 一种面向遥感应用场景的车辆目标检测方法 | |
CN112906718B (zh) | 一种基于卷积神经网络的多目标检测方法 | |
CN112990310A (zh) | 服务于电力机器人的人工智能系统及方法 | |
CN113408455B (zh) | 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质 | |
CN114266977B (zh) | 基于超分辨可选择网络的多auv的水下目标识别方法 | |
CN112528961B (zh) | 一种基于Jetson Nano的视频分析方法 | |
CN111079658A (zh) | 基于视频的多目标连续行为分析方法、系统、装置 | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN113870160B (zh) | 一种基于变换器神经网络的点云数据处理方法 | |
CN112801027A (zh) | 基于事件相机的车辆目标检测方法 | |
CN115861619A (zh) | 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统 | |
CN109446897B (zh) | 基于图像上下文信息的场景识别方法及装置 | |
CN115620393A (zh) | 一种面向自动驾驶的细粒度行人行为识别方法及系统 | |
CN114882494B (zh) | 一种基于多模态注意力驱动的三维点云特征提取方法 | |
CN114241606A (zh) | 一种基于自适应集学习预测的人物交互检测方法 | |
CN111814726B (zh) | 一种探测机器人视觉目标检测方法 | |
CN114049541A (zh) | 基于结构化信息特征解耦与知识迁移的视觉场景识别方法 | |
CN111950476A (zh) | 基于深度学习的复杂环境下河道船舶自动识别方法 | |
Rajaji et al. | Detection of lane and speed breaker warning system for autonomous vehicles using machine learning algorithm | |
Dahirou et al. | Motion Detection and Object Detection: Yolo (You Only Look Once) | |
CN113205545B (zh) | 区域环境下的行为识别分析方法、系统 | |
CN116385548A (zh) | 一种基于融合注意力机制和vibe网络的姿态识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |