CN113221694A - 一种动作识别方法 - Google Patents
一种动作识别方法 Download PDFInfo
- Publication number
- CN113221694A CN113221694A CN202110473438.1A CN202110473438A CN113221694A CN 113221694 A CN113221694 A CN 113221694A CN 202110473438 A CN202110473438 A CN 202110473438A CN 113221694 A CN113221694 A CN 113221694A
- Authority
- CN
- China
- Prior art keywords
- motion
- feature
- video
- characteristic
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000033001 locomotion Effects 0.000 claims abstract description 322
- 239000013598 vector Substances 0.000 claims abstract description 131
- 230000003068 static effect Effects 0.000 claims abstract description 69
- 238000013139 quantization Methods 0.000 claims abstract description 29
- 230000014509 gene expression Effects 0.000 claims abstract description 27
- 239000003623 enhancer Substances 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 8
- 238000011002 quantification Methods 0.000 claims abstract description 5
- 238000010586 diagram Methods 0.000 claims description 50
- 238000004364 calculation method Methods 0.000 claims description 49
- 239000000126 substance Substances 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 19
- 210000002569 neuron Anatomy 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
- G06V10/507—Summing image-intensity values; Histogram projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种动作识别方法,将动作视频样本分段,计算每个视频片段的动态图像;将每个视频片段的动、静态图像输入特征提取器;提取动态图像的运动特征向量;构建特征中心组,得到直方图表达;将直方图表达输入直方图连接层,得到动作视频样本的完整直方图表示;然后输入多层感知器,构成运动特征量化网络;训练其至收敛;将动态、静态图像输入训练好的运动特征量化网络中的特征提取器、增强器和软量化器,得到直方图表达;将直方图表达输入显著运动特征提取器,得到显著运动特征图;将显著运动特征图输入卷积神经网络,构成动作分类器;训练其至收敛;计算测试动作视频样本每个片段的动态、静态图像,并输入训练好的动作分类器,实现动作识别。
Description
技术领域
本发明涉及一种动作识别方法,属于动作识别技术领域。
背景技术
动作识别是计算机视觉领域的重要课题,它在视频监控、行为分析、人机交互等领域有着广泛的应用。尽管由于廉价深度相机的发展,基于骨骼的动作识别受到越来越多的关注,但是这些方法受限于深度相机的精度,当存在遮挡情况或者动作较复杂时,预测的骨骼关节点的位置通常会出错。与深度相机相比,RGB设备发展得更为成熟,且更可靠,因此,很多学者研究基于RGB视频的动作识别。
大部分现有方法通过提取视频帧的图像层面的特征,进行动作识别,这些方法没有致力于提取视频中动作的运动特征,但是,对于视频分析而言,获取其中的动态信息十分重要,运动特征是区分不同动作的重要线索。
因此,针对上述动作识别算法的问题,提出一种动作识别方法。
发明内容
本发明是为解决现有技术中的问题而提出的,技术方案如下,
一种动作识别方法,包括以下步骤:
步骤一、将动作视频样本分段,计算每个视频片段的动态图像;
步骤二、将每个视频片段的动态图像、静态图像输入特征提取器,分别获取运动特征图和静态特征图;
步骤三、将获得的运动特征图和静态特征图输入运动特征增强器,提取动态图像的运动特征向量;
步骤四、构建特征中心组,对于每张动态图像,将该动态图像的运动特征向量输入至特征中心组中的特征中心,累加每个特征中心上的所有输出,得到该动态图像的直方图表达;
步骤五、将每个动作视频样本的所有动态图像的直方图表达输入直方图连接层,得到动作视频样本的完整直方图表示;
步骤六、将动作视频样本的完整直方图表示输入多层感知器,构成一个运动特征量化网络;
步骤七、将所有训练动作视频样本的动态图像、静态图像输入至运动特征量化网络,训练运动特征量化网络至收敛;
步骤八、将训练动作视频样本每个视频片段的动态图像、静态图像输入训练好的运动特征量化网络中的特征提取器、运动特征增强器和特征软量化器,得到直方图表达;
步骤九、将直方图表达输入显著运动特征提取器,得到显著运动特征图;
步骤十、将显著运动特征图输入卷积神经网络,构成动作分类器;
步骤十一、训练动作分类器至收敛;
步骤十二、计算测试动作视频样本每个视频片段的动态图像、静态图像,将动态图像、静态图像输入训练好的动作分类器,实现动作识别。
优选的,所述步骤一中,将动作视频样本分段的方法为:
每一个动作视频样本由该视频中的所有帧组成,对于任一动作视频样本A来说:
A={It|t∈[1,T]},
其中,t表示时间索引,T是动作视频样本A的总帧数;为动作视频样本A的第t帧图像的矩阵表示,R、C、3分别对应第t帧图像的矩阵表示的行数、列数和通道数,表示矩阵为实数矩阵;It中的每个元素表示第t帧图像的像素值;
对动作视频样本的每个视频片段计算动态图像,计算方式如下:
其中,表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和;Bi、Bj分别表示视频片段第i帧图像的得分、视频片段第j帧图像的得分,max{0,1-Bi+Bj}表示选取0和1-Bi+Bj中较大的那个值;
进一步的,所述步骤二中,特征提取器由一系列卷积层和池化层组成;将每个动作视频样本的每个视频片段的动态图像输入特征提取器,特征提取器输出的特征图为其中K1、K2、D分别表示输出特征图的高度、宽度和通道数,称FM为运动特征图;
对于每个动作视频样本的每个视频片段,提取每个视频片段的中间帧,作为每个动作视频样本的视频片段的静态图像;将每个动作视频样本的每个视频片段的静态图像分别输入特征提取器,特征提取器输出的特征图为称FS为静态特征图。
进一步的,所述步骤三中,将获得的运动特征图和静态特征图输入运动特征增强器,提取动态图像的运动特征向量,具体步骤如下:
计算运动特征图FM中每个通道的像素值之和,第d个通道的像素值之和μd的计算方式为:
计算静态特征图FS中每个通道的像素值之和,第d个通道的像素值之和sd的计算方式为:
分别计算运动特征图FM、静态特征图FS每个通道像素值之和的差值,第d个通道的像素之和的差值βd的计算公式为:
βd=|sd-μd|,
因为运动特征图和静态特征图是通过同一个特征提取器得到的输出,因此运动特征图和静态特征图第d个通道对应的卷积核相同;如果差值βd很小,表明运动特征图和静态特征图第d个通道对应的卷积核提取的多是静态特征;如果差值βd较大,说明运动特征图和静态特征图第d个通道对应的卷积核提取的多是运动特征;因此,差值βd越大,对应卷积核提取的特征所占的权重更大,从而使得运动特征得到增强;
第d个通道对应的卷积核提取的特征所占的权重rd的计算公式为:
增强运动特征图FM′一共有K1×K2个像素点,每个像素点的特征向量xy的维度为D,即增强运动特征图的通道数,y=1,2,...,K1×K2;最终动态图像中的运动特征向量可由特征向量集合X={xy|y=1,2,...,K1×K2}表示。
进一步的,所述步骤四中,特征中心组一共包含NK个特征中心,每个特征中心对应有一个尺度缩放系数,每个特征中心及其尺度缩放系数的初始值通过以下方法计算得到:
计算所有训练动作视频样本的视频片段的动态图像中的运动特征向量,将所有的运动特征向量进行聚类,聚类的簇的个数与特征中心的个数一样,即聚类的簇的个数为NK,每个簇有一个聚类中心,聚类得到的聚类中心的值作为特征中心的初始值;对于第k个簇来说,记该簇中的所有特征向量的集合为Ek,其中包含Nk个特征向量:
计算特征向量间的欧式距离dq,τ:
其中,[eq]d表示特征向量eq的第d维数据,q∈[1,Nk-1],τ∈[q+1,Nk];第k个特征中心的尺度缩放系数σk的初始值为:
对于动态图像的运动特征向量xy,计算其与第k个特征中心ck的距离,作为其在第k个特征中心ck的输出,距离计算公式为:
Wk(xy)=exp(-||xy-ck||2/σk);
对运动特征向量xy输入至第k个特征中心得到的输出进行归一化:
特征中心组以及对特征中心组的输出进行累加的累加层构成了特征软量化器;特征软量化器的输入为每个动作视频样本每个视频片段的动态图像的运动特征向量,输出为每个视频片段的动态图像的直方图表达。
进一步的,所述步骤五中,得到动作视频样本的完整直方图表示的具体方法为:
对于每个动作视频样本,它有多个视频片段,每个视频片段有一张动态图像,每张动态图像都有对应的直方图表达;将每张动态图像的直方图表达输入直方图连接层,将这些直方图表达连接起来,得到动作视频样本的完整直方图表示;对于任一动作视频样本A来说,它被分成Y个视频片段,它的完整直方图表示为H=(H1,H2,...,HY)。
进一步的,所述步骤六中,将动作视频样本的完整直方图表示输入多层感知器,构成一个运动特征量化网络,运动特征量化网络包括特征提取器、运动特征增强器、特征软量化器、直方图连接层和多层感知器;
多层感知器包括输入层、隐层和输出层;输入层与直方图连接层的输出相连接,输入层的输出Input与直方图连接层的输出H相同,即Input=H,输入层共m=NK×Y个神经元;隐层共有n个神经元,与输入层的所有输出单元全连接,多层感知器的输出层有z个神经元,每个神经元代表一个动作类别;输入层与隐层间的权重表示为隐层与输出层间的权重表示为
隐层神经元的输出Q的计算方式如下:
多层感知器的输出层输出O为:
运动特征量化网络的损失函数L1为:
其中,G是总样本数量,lg是第g个样本的标签值。
进一步的,所述步骤八中,将训练动作视频样本的每个视频片段的动态图像、静态图像输入训练好的运动特征量化网络中的特征提取器,用以得到运动特征图和静态特征图;将运动特征图和静态特征图输入训练好的运动特征量化网络中的运动特征增强器,用以得到训练动作视频样本对应视频片段的增强运动特征图FM′;增强运动特征图FM′包含了运动特征向量y=1,2,...,K1×K2;将运动特征向量输入训练好的运动特征量化网络中的特征软量化器,得到对应的直方图表达其中表示训练好的运动特征量化网络中的特征软量化器中的第k个特征中心的累加输出,k=1,2,...,NK。
进一步的,所述步骤九中,将直方图表达输入显著运动特征提取器,得到显著运动特征图的具体步骤如下:
对于这NM个特征中心,计算增强运动特征图中每个像素的特征向量与每个特征中心的距离,特征向量xy与第k个特征中心ck的距离计算公式为:
Wk(xy)=exp(-||xy-ck||2/σk)
以该距离作为每个像素的新像素值,每个特征中心都可以得到一张图像,称该图像为显著运动特征图像;显著运动特征图像的每个像素值为对应像素特征向量与该特征中心的距离;一共可以得到NM张显著运动特征图像,将得到的NM张显著运动特征图像按通道堆叠在一起,得到通道数为NM的显著运动特征图。
进一步的,所述步骤十中,动作分类器由训练好的运动特征量化网络中的特征提取器、运动特征增强器、特征软量化器,以及显著运动特征提取器、卷积神经网络构成;
动作分类器的损失函数L2为:
其中,lg是第g个样本的标签值。
进一步的,所述步骤十二中,实现动作识别的具体方法为:
使用长度为l1的窗口,以步长为l2将测试动作视频样本分段,计算每个视频片段的动态图像、静态图像,然后将动态图像、静态图像输入训练好的动作分类器,得到对当前测试动作视频样本预测的属于各个动作类别的概率值,将每个视频片段输出的概率值相加,概率值最大的动作类别为最终预测的当前测试动作视频样本的所属动作类别。
本发明提出的运动特征量化网络能够提取运动视频中单纯的运动特征,忽略了背景和物体等静态信息,仅利用运动特征进行动作识别,使得学得的运动特征对于动作识别而言更具有区分度。
附图说明
图1是本发明一种动作识别方法的工作流程图。
图2是本发明具体实施例的动态图像示意图。
图3是本发明特征提取器的示意图。
图4是图3中分组卷积模块1的示意图。
图5是图3中分组卷积模块2或分组卷积模块3的示意图。
图6是本发明具体实施例的静态图像示意图。
图7是本发明运动特征量化网络示意图。
图8是本发明具体实施例的显著运特征图像示意图。
图9是本发明动作分类器的示意图。
图10是本发明卷积神经网络的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种动作识别方法,包括如下流程:
1.动作视频样本集总样本数为2000,共10个动作类别,每个动作类别有200个动作视频样本。每个动作类别中随机选取四分之三的样本划入训练集,剩下的四分之一划入测试集,得到共1500个训练动作视频样本,500个测试动作视频样本。每一个动作视频样本由该视频中的所有帧组成。以第一个动作视频样本A为例:
A={It|t∈[1,40]},
其中,t表示时间索引,该动作视频样本共有40帧。为动作视频样本A的第t帧图像的矩阵表示,该帧图像的行数为240,列数为320,通道数为3。表示矩阵为实数矩阵。It中的每个元素表示第t帧图像的像素值。使用长度为10的窗口,以步长为6将动作样本A分成5个视频片段。第n1个视频片段可表示为:
其中,表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和。Bi、Bj分别表示视频片段第i帧图像的得分、视频片段第j帧图像的得分,max{0,1-Bi+Bj}表示选取0和1-Bi+Bj中较大的那个值。
使用RankSVM计算出向量u后,将向量u排列成与相同尺寸的图像形式,得到称u2为动作视频样本A的第2个视频片段A2的动态图像,如图2所示,为求得的动态图像示例。动作样本A共5个片段,可得到5张动态图像。
2.将动作视频样本的每张动态图像输入特征提取器,提取动态图像中的运动特征。特征提取器由一系列卷积层和池化层组成。特征提取器如图3所示,它由ResNext-50的前两个模块构成,分别为卷积模块1和卷积模块2。
卷积模块1包含一个卷积层,该卷积层有64个卷积核,每个卷积核的大小为7×7。卷积模块2包含一个最大池化层、三个分组卷积模块。最大池化层的池化核的大小为3×3。分组卷积模块1如图4所示。第一层为卷积层,第二层为分组卷积层,第三层为卷积层,第四层为残差相加层。第一层卷积层有128个卷积核,每个卷积核的大小为1×1。第二层分组卷积层有128个卷积核,每个卷积核的大小为3×3。该分组卷积层将输入的大小为W1×H1×128的特征图按通道分成32组大小为W1×H1×4的特征图,并将128个卷积核分成32组,每组有4个卷积核,将每组的特征图与每组的卷积核分别进行卷积,最后将每组卷积的结果按通道连接,得到分组卷积层的输出。第三层卷积层有256个卷积核,每个卷积核的大小为1×1。第四层残差相加层将第一层卷积层的输入传进残差卷积层,残差卷积层有256个卷积核,每个卷积核的大小为1×1,将该残差卷积层的输出与第三层卷积层的输出相加,作为第四层残差相加层的输出,也是第一个分组卷积模块的输出。分组卷积模块2、3与分组卷积模块1相似,如图5所示,唯一不同的是,第二、三个分组卷积模块的第四层残差相加层直接将第一层卷积层的输入与第三层卷积层的输出相加,没有残差卷积层。
3.对于动作视频样本的每个视频片段,提取该视频片段的中间帧,作为该动作视频样本的视频片段的静态图像,如图6所示为动作视频样本A的第2个片段A2的静态图像。将动作视频样本的每个视频片段的静态图像分别输入特征提取器,特征提取器输出的特征图为称FS为静态特征图。
4.将动作视频样本每个视频片段的运动特征图FM和静态特征图FS输入运动特征增强器,提取动态图像中的运动特征向量,具体步骤如下:
计算运动特征图FM中每个通道的像素值之和,第d个通道的像素值之和μd的计算方式为:
计算静态特征图FS中每个通道的像素值之和,第d个通道的像素值之和sd的计算方式为:
分别计算运动特征图FM、静态特征图FS每个通道像素值之和的差值,第d个通道的像素之和的差值βi的计算公式为:
βd=|sd-μd|,
因为运动特征图和静态特征图是通过同一个特征提取器得到的输出,因此运动特征图和静态特征图第d个通道对应的卷积核相同。如果差值βd很小,表明运动特征图和静态特征图第d个通道对应的卷积核更多的提取的是静态特征,比如背景特征。如果差值βd较大,说明运动特征图和静态特征图第d个通道对应的卷积核更多的提取的是运动特征。因此,差值βd越大,对应卷积核提取的特征所占的权重应该更大,从而使得运动特征得到增强。
第d个通道对应的卷积核提取的特征所占的权重rd的计算公式为:
增强运动特征图FM′一共有30×40=1200个像素点,每个像素点的特征向量xy的维度为256,即增强运动特征图的通道数,y=1,2,...,1200。最终动态图像中的运动特征向量可由特征向量集合X={xy|y=1,2,...,1200}表示。
5.构建特征中心组,该特征中心组一共包含64个特征中心。每个特征中心对应有一个尺度缩放系数。以第一个特征中心为例,它的初始值及其尺度缩放系数的初始值通过以下方法计算得到:
计算所有训练动作视频样本的视频片段的动态图像中的运动特征向量,将所有的运动特征向量进行聚类,聚类的簇的个数设置为64,每个簇有一个聚类中心,将第一个簇的聚类中心的值作为第一个特征中心的初始值。记第一个簇中的所有特征向量的集合为E1,其中包含500个向量:
E1={e1,e2,…,e500},
其中,[eq]d表示向量eq的第d维数据,q∈[1,499],τ∈[q+1,500]。第一个特征中心的尺度缩放系数σ1的初始值为:
按照上述方式可以得到64个特征中心的初始值和对应尺度缩放系数的初始值。
6.对于动态图像的运动特征向量xy,计算其与第k个特征中心ck的距离,作为其在第k个特征中心ck的输出,距离计算公式为:
Wk(xy)=exp(-||xy-ck||2/σk),
对运动特征向量xy输入至第k个特征中心得到的输出进行归一化:
7.将动作视频样本每张动态图像的所有运动特征向量分别输入至特征中心组的各个特征中心,累加特征中心组的每个特征中心上的所有输出。第k个特征中心的累加输出hkn1的计算方式如下:
特征中心组以及对特征中心组的输出进行累加的累加层构成了特征软量化器。特征软量化器的输入为每个动作样本每个视频片段的动态图像的运动特征向量,输出为每个视频片段的动态图像的直方图表达。
8.对于每个动作视频样本,它有多个视频片段,每个视频片段有一张动态图像,每张动态图像都有对应的直方图表达。将每张动态图像的直方图表达输入直方图连接层,将这些直方图表达连接起来,得到动作视频样本的完整直方图表示。对于动作视频样本A来说,它被分成5个视频片段,它的完整直方图表示为:
9.将动作视频样本的完整直方图表示输入多层感知器,构成运动特征量化网络,如图7所示。运动特征量化网络包括:特征提取器、运动特征增强器、特征软量化器、直方图连接层和多层感知器。
多层感知器包括输入层、隐层和输出层。输入层与直方图连接层的输出相连接,输入层的输出Input与直方图连接层的输出H相同,即Input=H,输入层共320个神经元。隐层共有128个神经元,与输入层的所有输出单元全连接,多层感知器的输出层有10个神经元,每个神经元代表一个动作类别;输入层与隐层间的权重表示为隐层与输出层间的权重表示为
隐层神经元的输出Q的计算方式如下:
多层感知器的输出层输出O为:
运动特征量化网络的损失函数L1为:
其中,lg是第g个样本的标签值。
10.将训练动作视频样本的每个视频片段的动态图像、静态图像输入训练好的运动特征量化网络中的特征提取器,分别得到运动特征图和静态特征图。将运动特征图和静态特征图输入训练好的运动特征量化网络中的运动特征增强器,得到训练动作视频样本对应视频片段的增强运动特征图。动作视频样本A的第二个视频片段A2的增强运动特征图为FM′,包含了运动特征向量y=1,2,...,1200。
对于这5个特征中心,计算增强运动特征图FM′中每个像素的特征向量与每个特征中心的距离。特征向量xy与特征中心c2的距离计算公式为:
W2(xy)=exp(-||xy-c2||2/σ2)
以该距离作为每个像素的新像素值,每个特征中心都可以得到一张图像,称该图像为显著运动特征图像。图像的每个像素值为对应像素特征向量与该特征中心的距离。图8为动作视频样本A的第2个视频片段A2的增强运动特征图中像素的特征向量与特征中心c2计算距离得到的显著运动特征图像。
一共5个特征中心,可以得到5张显著运动特征图像。将得到的5张显著运动特征图像按通道堆叠在一起,得到通道数为5的显著运动特征图。
12.将显著运动特征图输入卷积神经网络,构成动作分类器,如图9所示。动作分类器由训练好的运动特征量化网络中的特征提取器、运动特征增强器、特征软量化器,以及显著运动特征提取器、卷积神经网络构成。卷积神经网络使用ResNext-50剩下的模块,如图10所示,包含卷积模块3、4、5、一层全局池化层和一层全连接层。
卷积模块3包含四个分组卷积模块。分组卷积模块1第一层为卷积层,第二层为分组卷积层,第三层为卷积层,第四层为残差相加层。第一层卷积层有256个卷积核,每个卷积核的大小为1×1。第二层分组卷积层有256个卷积核,每个卷积核的大小为3×3。该分组卷积层将输入的大小为W2×H2×256的特征图按通道分成32组大小为W2×H2×8的特征图,并将256个卷积核分成32组,每组有8个卷积核,将每组的特征图与每组的卷积核分别进行卷积,最后将每组卷积的结果按通道连接,得到分组卷积层的输出。第三层卷积层有512个卷积核,每个卷积核的大小为1×1。第四层残差相加层将第一层卷积层的输入传进残差卷积层,残差卷积层有512个卷积核,每个卷积核的大小为1×1,将该残差卷积层的输出与第三层卷积层的输出相加,作为第四层残差相加层的输出,也是分组卷积模块1的输出。分组卷积模块2、3、4与分组卷积模块1相似,唯一不同的是,分组卷积模块2、3、4的第四层残差相加层直接将第一层卷积层的输入与第三层卷积层的输出相加,没有残差卷积层。
卷积模块4含六个分组卷积模块。分组卷积模块1第一层为卷积层,第二层为分组卷积层,第三层为卷积层,第四层为残差相加层。第一层卷积层有512个卷积核,每个卷积核的大小为1×1。第二层分组卷积层有512个卷积核,每个卷积核的大小为3×3。该分组卷积层将输入的大小为W3×H3×512的特征图按通道分成32组大小为W3×H3×16的特征图,并将512个卷积核分成32组,每组有16个卷积核,将每组的特征图与每组的卷积核分别进行卷积,最后将每组卷积的结果按通道连接,得到分组卷积层的输出。第三层卷积层有1024个卷积核,每个卷积核的大小为1×1。第四层残差相加层将第一层卷积层的输入传进残差卷积层,残差卷积层有1024个卷积核,每个卷积核的大小为1×1,将该残差卷积层的输出与第三层卷积层的输出相加,作为第四层残差相加层的输出,也是分组卷积模块1的输出。分组卷积模块2-6与分组卷积模块1相似,唯一不同的是,分组卷积模块2-6的第四层残差相加层直接将第一层卷积层的输入与第三层卷积层的输出相加,没有残差卷积层。
卷积模块5包含三个分组卷积模块。分组卷积模块1第一层为卷积层,第二层为分组卷积层,第三层为卷积层,第四层为残差相加层。第一层卷积层有1024个卷积核,每个卷积核的大小为1×1。第二层分组卷积层有1024个卷积核,每个卷积核的大小为3×3。该分组卷积层将输入的大小为W4×H4×1024的特征图按通道分成32组大小为W4×H4×32的特征图,并将1024个卷积核分成32组,每组有32个卷积核,将每组的特征图与每组的卷积核分别进行卷积,最后将每组卷积的结果按通道连接,得到分组卷积层的输出。第三层卷积层有2048个卷积核,每个卷积核的大小为1×1。第四层残差相加层将第一层卷积层的输入传进残差卷积层,残差卷积层有2048个卷积核,每个卷积核的大小为1×1,将该残差卷积层的输出与第三层卷积层的输出相加,作为第四层残差相加层的输出,也是第一个分组卷积模块的输出。第二、三个分组卷积模块与第一个分组卷积模块相似,唯一不同的是,第二、三个分组卷积模块的第四层残差相加层直接将第一层卷积层的输入与第三层卷积层的输出相加,没有残差卷积层。
全局平均池化层计算该层输入的特征图的每个通道的平均值,作为输出。全连接层的使用的激活函数为softmax。
动作分类器的损失函数L2为:
其中,lg是第g个视频样本的标签值。
动作分类器的输入为动作视频样本的每个视频片段的动态图像、静态图像,输出为当前动作视频样本属于各个动作类别的概率值。将每个视频片段输出的每个动作类别的概率值相加,概率值最大的动作类别为最终预测的当前动作视频样本所属动作类别。
13.训练动作分类器至收敛。使用长度为10的窗口,以步长为6将测试动作视频样本分段。计算每个视频片段的动态图像、静态图像,然后将动态图像、静态图像输入训练好的动作分类器,得到对当前测试动作视频样本预测的属于各个动作类别的概率值。将每个视频片段的输出概率值相加,概率值最大的动作类别为最终预测的当前测试动作视频样本所属动作类别。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种动作识别方法,其特征在于:包括以下步骤:
步骤一、将动作视频样本分段,计算每个视频片段的动态图像;
步骤二、将每个视频片段的动态图像、静态图像输入特征提取器,分别获取运动特征图和静态特征图;
步骤三、将获得的运动特征图和静态特征图输入运动特征增强器,提取动态图像的运动特征向量;
步骤四、构建特征中心组,对于每张动态图像,将该动态图像的运动特征向量输入至特征中心组中的特征中心,累加每个特征中心上的所有输出,得到该动态图像的直方图表达;
步骤五、将每个动作视频样本的所有动态图像的直方图表达输入直方图连接层,得到动作视频样本的完整直方图表示;
步骤六、将动作视频样本的完整直方图表示输入多层感知器,构成一个运动特征量化网络;
步骤七、将所有训练动作视频样本的动态图像、静态图像输入至运动特征量化网络,训练运动特征量化网络至收敛;
步骤八、将训练动作视频样本每个视频片段的动态图像、静态图像输入训练好的运动特征量化网络中的特征提取器、运动特征增强器和特征软量化器,得到直方图表达;
步骤九、将直方图表达输入显著运动特征提取器,得到显著运动特征图;
步骤十、将显著运动特征图输入卷积神经网络,构成动作分类器;
步骤十一、训练动作分类器至收敛;
步骤十二、计算测试动作视频样本每个视频片段的动态图像、静态图像,将动态图像、静态图像输入训练好的动作分类器,实现动作识别。
2.根据权利要求1所述的一种动作识别方法,其特征在于:所述步骤一中,将动作视频样本分段的方法为:
每一个动作视频样本由该视频中的所有帧组成,对于任一动作视频样本A来说:
A={It|t∈[1,T]},
其中,t表示时间索引,T是动作视频样本A的总帧数;为动作视频样本A的第t帧图像的矩阵表示,R、C、3分别对应第t帧图像的矩阵表示的行数、列数和通道数,表示矩阵为实数矩阵;It中的每个元素表示第t帧图像的像素值;
对动作视频样本的每个视频片段计算动态图像,计算方式如下:
其中,表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和;Bi、Bj分别表示视频片段第i帧图像的得分、视频片段第j帧图像的得分,max{0,1-Bi+Bj}表示选取0和1-Bi+Bj中较大的那个值;
4.根据权利要求3所述的一种动作识别方法,其特征在于:所述步骤三中,将获得的运动特征图和静态特征图输入运动特征增强器,提取动态图像的运动特征向量,具体步骤如下:
计算运动特征图FM中每个通道的像素值之和,第d个通道的像素值之和μd的计算方式为:
计算静态特征图FS中每个通道的像素值之和,第d个通道的像素值之和sd的计算方式为:
分别计算运动特征图FM、静态特征图FS每个通道像素值之和的差值,第d个通道的像素之和的差值βd的计算公式为:
βd=|sd-μd|,
因为运动特征图和静态特征图是通过同一个特征提取器得到的输出,因此运动特征图和静态特征图第d个通道对应的卷积核相同;如果差值βd很小,表明运动特征图和静态特征图第d个通道对应的卷积核提取的多是静态特征;如果差值βd较大,说明运动特征图和静态特征图第d个通道对应的卷积核提取的多是运动特征;因此,差值βd越大,对应卷积核提取的特征所占的权重更大,从而使得运动特征得到增强;
第d个通道对应的卷积核提取的特征所占的权重rd的计算公式为:
增强运动特征图FM′一共有K1×K2个像素点,每个像素点的特征向量xy的维度为D,即增强运动特征图的通道数,y=1,2,...,K1×K2;最终动态图像中的运动特征向量可由特征向量集合X={xy|y=1,2,...,K1×K2}表示。
5.根据权利要求4所述的一种动作识别方法,其特征在于:所述步骤四中,特征中心组一共包含NK个特征中心,每个特征中心对应有一个尺度缩放系数,每个特征中心及其尺度缩放系数的初始值通过以下方法计算得到:
计算所有训练动作视频样本的视频片段的动态图像中的运动特征向量,将所有的运动特征向量进行聚类,聚类的簇的个数与特征中心的个数一样,即聚类的簇的个数为NK,每个簇有一个聚类中心,聚类得到的聚类中心的值作为特征中心的初始值;对于第k个簇来说,记该簇中的所有特征向量的集合为Ek,其中包含Nk个特征向量:
计算特征向量间的欧式距离dq,τ:
其中,[eq]d表示特征向量eq的第d维数据,q∈[1,Nk-1],τ∈[q+1,Nk];第k个特征中心的尺度缩放系数σk的初始值为:
对于动态图像的运动特征向量xy,计算其与第k个特征中心ck的距离,作为其在第k个特征中心ck的输出,距离计算公式为:
Wk(xy)=exp(-||xy-ck||2/σk);
对运动特征向量xy输入至第k个特征中心得到的输出进行归一化:
特征中心组以及对特征中心组的输出进行累加的累加层构成了特征软量化器;特征软量化器的输入为每个动作视频样本每个视频片段的动态图像的运动特征向量,输出为每个视频片段的动态图像的直方图表达。
6.根据权利要求5所述的一种动作识别方法,其特征在于:所述步骤五中,得到动作视频样本的完整直方图表示的具体方法为:
对于每个动作视频样本,它有多个视频片段,每个视频片段有一张动态图像,每张动态图像都有对应的直方图表达;将每张动态图像的直方图表达输入直方图连接层,将这些直方图表达连接起来,得到动作视频样本的完整直方图表示;对于任一动作视频样本A来说,它被分成Y个视频片段,它的完整直方图表示为H=(H1,H2,...,HY)。
7.根据权利要求6所述的一种动作识别方法,其特征在于:所述步骤六中,运动特征量化网络包括特征提取器、运动特征增强器、特征软量化器、直方图连接层和多层感知器;
多层感知器包括输入层、隐层和输出层;输入层与直方图连接层的输出相连接,输入层的输出Input与直方图连接层的输出H相同,即Input=H,输入层共m=NK×Y个神经元;隐层共有n个神经元,与输入层的所有输出单元全连接,多层感知器的输出层有z个神经元,每个神经元代表一个动作类别;输入层与隐层间的权重表示为隐层与输出层间的权重表示为
隐层神经元的输出Q的计算方式如下:
多层感知器的输出层输出O为:
运动特征量化网络的损失函数L1为:
其中,G是总样本数量,lg是第g个样本的标签值。
9.根据权利要求8所述的一种动作识别方法,其特征在于:所述步骤九中,将直方图表达输入显著运动特征提取器,得到显著运动特征图的具体步骤如下:
对于这NM个特征中心,计算增强运动特征图中每个像素的特征向量与每个特征中心的距离,特征向量xy与第k个特征中心ck的距离计算公式为:
Wk(xy)=exp(-||xy-ck||2/σk)
以该距离作为每个像素的新像素值,每个特征中心都可以得到一张图像,称该图像为显著运动特征图像;显著运动特征图像的每个像素值为对应像素特征向量与该特征中心的距离;一共可以得到NM张显著运动特征图像,将得到的NM张显著运动特征图像按通道堆叠在一起,得到通道数为NM的显著运动特征图。
11.根据权利要求10所述的一种动作识别方法,其特征在于:所述步骤十二中,实现动作识别的具体方法为:
使用长度为l1的窗口,以步长为l2将测试动作视频样本分段,计算每个视频片段的动态图像、静态图像,然后将动态图像、静态图像输入训练好的动作分类器,得到对当前测试动作视频样本预测的属于各个动作类别的概率值,将每个视频片段输出的概率值相加,概率值最大的动作类别为最终预测的当前测试动作视频样本的所属动作类别。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110473438.1A CN113221694B (zh) | 2021-04-29 | 2021-04-29 | 一种动作识别方法 |
US18/011,602 US20240046700A1 (en) | 2021-04-29 | 2021-07-16 | Action recognition method |
PCT/CN2021/106694 WO2022227292A1 (zh) | 2021-04-29 | 2021-07-16 | 一种动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110473438.1A CN113221694B (zh) | 2021-04-29 | 2021-04-29 | 一种动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221694A true CN113221694A (zh) | 2021-08-06 |
CN113221694B CN113221694B (zh) | 2023-08-01 |
Family
ID=77090077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110473438.1A Active CN113221694B (zh) | 2021-04-29 | 2021-04-29 | 一种动作识别方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240046700A1 (zh) |
CN (1) | CN113221694B (zh) |
WO (1) | WO2022227292A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591797A (zh) * | 2021-08-23 | 2021-11-02 | 苏州大学 | 一种深度视频行为识别方法 |
CN113610046A (zh) * | 2021-08-23 | 2021-11-05 | 苏州大学 | 一种基于深度视频联动特征的行为识别方法 |
WO2023159898A1 (zh) * | 2022-02-25 | 2023-08-31 | 国网智能电网研究院有限公司 | 一种动作识别系统、方法、装置及模型训练方法、装置、计算机设备及计算机可读存储介质 |
CN117238037A (zh) * | 2023-11-13 | 2023-12-15 | 中国科学技术大学 | 动态动作识别方法、装置、设备和存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726760B (zh) * | 2024-02-07 | 2024-05-07 | 之江实验室 | 一种用于视频的三维人体重建模型的训练方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020028021A1 (en) * | 1999-03-11 | 2002-03-07 | Jonathan T. Foote | Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models |
CN106022229A (zh) * | 2016-05-11 | 2016-10-12 | 北京航空航天大学 | 基于视频运动信息特征提取与自适应增强算法的误差反向传播网络的异常行为识别方法 |
CN110119707A (zh) * | 2019-05-10 | 2019-08-13 | 苏州大学 | 一种人体动作识别方法 |
CN110163052A (zh) * | 2018-08-01 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 视频动作识别方法、装置和机器设备 |
CN111274908A (zh) * | 2020-01-16 | 2020-06-12 | 苏州大学 | 一种人体动作识别方法 |
CN111597864A (zh) * | 2019-02-21 | 2020-08-28 | 中南大学 | 基于累积光流加权特征的微表情识别方法 |
CN111881818A (zh) * | 2020-07-27 | 2020-11-03 | 复旦大学 | 医疗行为细粒度识别装置及计算机可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101713189B1 (ko) * | 2015-04-20 | 2017-03-08 | 전남대학교산학협력단 | 비디오 객체 행동 분류를 위한 hog/hof 기반 특징정보 추출 방법 및 추출기 |
CN108399435B (zh) * | 2018-03-21 | 2020-09-25 | 南京邮电大学 | 一种基于动静特征的视频分类方法 |
CN110942037A (zh) * | 2019-11-29 | 2020-03-31 | 河海大学 | 一种用于视频分析中的动作识别方法 |
CN111860353A (zh) * | 2020-07-23 | 2020-10-30 | 北京以萨技术股份有限公司 | 基于双流神经网络的视频行为预测方法、装置及介质 |
-
2021
- 2021-04-29 CN CN202110473438.1A patent/CN113221694B/zh active Active
- 2021-07-16 WO PCT/CN2021/106694 patent/WO2022227292A1/zh active Application Filing
- 2021-07-16 US US18/011,602 patent/US20240046700A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020028021A1 (en) * | 1999-03-11 | 2002-03-07 | Jonathan T. Foote | Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models |
CN106022229A (zh) * | 2016-05-11 | 2016-10-12 | 北京航空航天大学 | 基于视频运动信息特征提取与自适应增强算法的误差反向传播网络的异常行为识别方法 |
CN110163052A (zh) * | 2018-08-01 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 视频动作识别方法、装置和机器设备 |
CN111597864A (zh) * | 2019-02-21 | 2020-08-28 | 中南大学 | 基于累积光流加权特征的微表情识别方法 |
CN110119707A (zh) * | 2019-05-10 | 2019-08-13 | 苏州大学 | 一种人体动作识别方法 |
CN111274908A (zh) * | 2020-01-16 | 2020-06-12 | 苏州大学 | 一种人体动作识别方法 |
CN111881818A (zh) * | 2020-07-27 | 2020-11-03 | 复旦大学 | 医疗行为细粒度识别装置及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
XIN SUN ET AL.: "Action recognition based on kinematic representation of video data", 《2014 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》, pages 1 - 5 * |
欧芳: "基于特征融合的行为识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591797A (zh) * | 2021-08-23 | 2021-11-02 | 苏州大学 | 一种深度视频行为识别方法 |
CN113610046A (zh) * | 2021-08-23 | 2021-11-05 | 苏州大学 | 一种基于深度视频联动特征的行为识别方法 |
CN113591797B (zh) * | 2021-08-23 | 2023-07-28 | 苏州大学 | 一种深度视频行为识别方法 |
CN113610046B (zh) * | 2021-08-23 | 2023-09-26 | 苏州大学 | 一种基于深度视频联动特征的行为识别方法 |
WO2023159898A1 (zh) * | 2022-02-25 | 2023-08-31 | 国网智能电网研究院有限公司 | 一种动作识别系统、方法、装置及模型训练方法、装置、计算机设备及计算机可读存储介质 |
CN117238037A (zh) * | 2023-11-13 | 2023-12-15 | 中国科学技术大学 | 动态动作识别方法、装置、设备和存储介质 |
CN117238037B (zh) * | 2023-11-13 | 2024-03-29 | 中国科学技术大学 | 动态动作识别方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113221694B (zh) | 2023-08-01 |
US20240046700A1 (en) | 2024-02-08 |
WO2022227292A1 (zh) | 2022-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107341452B (zh) | 基于四元数时空卷积神经网络的人体行为识别方法 | |
WO2022036777A1 (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN113221694A (zh) | 一种动作识别方法 | |
CN111144329B (zh) | 一种基于多标签的轻量快速人群计数方法 | |
CN111814661B (zh) | 基于残差-循环神经网络的人体行为识别方法 | |
CN110399821B (zh) | 基于人脸表情识别的顾客满意度获取方法 | |
CN107451565B (zh) | 一种半监督小样本深度学习图像模式分类识别方法 | |
CN110119707B (zh) | 一种人体动作识别方法 | |
JP2017157138A (ja) | 画像認識装置、画像認識方法及びプログラム | |
CN111696101A (zh) | 一种基于SE-Inception的轻量级茄科病害识别方法 | |
CN111639719A (zh) | 基于时空运动和特征融合的足迹图像检索方法 | |
CN113610046B (zh) | 一种基于深度视频联动特征的行为识别方法 | |
CN112001278A (zh) | 一种基于结构化知识蒸馏的人群计数模型及其方法 | |
CN112818764A (zh) | 一种基于特征重建模型的低分辨率图像人脸表情识别方法 | |
CN112580662A (zh) | 一种基于图像特征识别鱼体方向的方法及系统 | |
CN111291631B (zh) | 视频分析方法及其相关的模型训练方法、设备、装置 | |
CN113505719B (zh) | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法 | |
CN114492634B (zh) | 一种细粒度装备图片分类识别方法及系统 | |
CN110717374A (zh) | 一种基于改进的多层感知机的高光谱遥感影像分类方法 | |
CN112528077B (zh) | 基于视频嵌入的视频人脸检索方法及系统 | |
CN113505856A (zh) | 一种高光谱影像无监督自适应分类方法 | |
CN112800979A (zh) | 一种基于表征流嵌入网络的动态表情识别方法及系统 | |
CN112200093B (zh) | 一种基于不确定性估计的行人再识别方法 | |
CN114648722A (zh) | 一种基于视频多路径时空特征网络的动作识别方法 | |
CN113221693B (zh) | 一种动作识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |