CN113221694A - 一种动作识别方法 - Google Patents

一种动作识别方法 Download PDF

Info

Publication number
CN113221694A
CN113221694A CN202110473438.1A CN202110473438A CN113221694A CN 113221694 A CN113221694 A CN 113221694A CN 202110473438 A CN202110473438 A CN 202110473438A CN 113221694 A CN113221694 A CN 113221694A
Authority
CN
China
Prior art keywords
motion
feature
video
characteristic
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110473438.1A
Other languages
English (en)
Other versions
CN113221694B (zh
Inventor
杨剑宇
黄瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202110473438.1A priority Critical patent/CN113221694B/zh
Priority to US18/011,602 priority patent/US20240046700A1/en
Priority to PCT/CN2021/106694 priority patent/WO2022227292A1/zh
Publication of CN113221694A publication Critical patent/CN113221694A/zh
Application granted granted Critical
Publication of CN113221694B publication Critical patent/CN113221694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种动作识别方法,将动作视频样本分段,计算每个视频片段的动态图像;将每个视频片段的动、静态图像输入特征提取器;提取动态图像的运动特征向量;构建特征中心组,得到直方图表达;将直方图表达输入直方图连接层,得到动作视频样本的完整直方图表示;然后输入多层感知器,构成运动特征量化网络;训练其至收敛;将动态、静态图像输入训练好的运动特征量化网络中的特征提取器、增强器和软量化器,得到直方图表达;将直方图表达输入显著运动特征提取器,得到显著运动特征图;将显著运动特征图输入卷积神经网络,构成动作分类器;训练其至收敛;计算测试动作视频样本每个片段的动态、静态图像,并输入训练好的动作分类器,实现动作识别。

Description

一种动作识别方法
技术领域
本发明涉及一种动作识别方法,属于动作识别技术领域。
背景技术
动作识别是计算机视觉领域的重要课题,它在视频监控、行为分析、人机交互等领域有着广泛的应用。尽管由于廉价深度相机的发展,基于骨骼的动作识别受到越来越多的关注,但是这些方法受限于深度相机的精度,当存在遮挡情况或者动作较复杂时,预测的骨骼关节点的位置通常会出错。与深度相机相比,RGB设备发展得更为成熟,且更可靠,因此,很多学者研究基于RGB视频的动作识别。
大部分现有方法通过提取视频帧的图像层面的特征,进行动作识别,这些方法没有致力于提取视频中动作的运动特征,但是,对于视频分析而言,获取其中的动态信息十分重要,运动特征是区分不同动作的重要线索。
因此,针对上述动作识别算法的问题,提出一种动作识别方法。
发明内容
本发明是为解决现有技术中的问题而提出的,技术方案如下,
一种动作识别方法,包括以下步骤:
步骤一、将动作视频样本分段,计算每个视频片段的动态图像;
步骤二、将每个视频片段的动态图像、静态图像输入特征提取器,分别获取运动特征图和静态特征图;
步骤三、将获得的运动特征图和静态特征图输入运动特征增强器,提取动态图像的运动特征向量;
步骤四、构建特征中心组,对于每张动态图像,将该动态图像的运动特征向量输入至特征中心组中的特征中心,累加每个特征中心上的所有输出,得到该动态图像的直方图表达;
步骤五、将每个动作视频样本的所有动态图像的直方图表达输入直方图连接层,得到动作视频样本的完整直方图表示;
步骤六、将动作视频样本的完整直方图表示输入多层感知器,构成一个运动特征量化网络;
步骤七、将所有训练动作视频样本的动态图像、静态图像输入至运动特征量化网络,训练运动特征量化网络至收敛;
步骤八、将训练动作视频样本每个视频片段的动态图像、静态图像输入训练好的运动特征量化网络中的特征提取器、运动特征增强器和特征软量化器,得到直方图表达;
步骤九、将直方图表达输入显著运动特征提取器,得到显著运动特征图;
步骤十、将显著运动特征图输入卷积神经网络,构成动作分类器;
步骤十一、训练动作分类器至收敛;
步骤十二、计算测试动作视频样本每个视频片段的动态图像、静态图像,将动态图像、静态图像输入训练好的动作分类器,实现动作识别。
优选的,所述步骤一中,将动作视频样本分段的方法为:
每一个动作视频样本由该视频中的所有帧组成,对于任一动作视频样本A来说:
A={It|t∈[1,T]},
其中,t表示时间索引,T是动作视频样本A的总帧数;
Figure BDA0003046244230000021
为动作视频样本A的第t帧图像的矩阵表示,R、C、3分别对应第t帧图像的矩阵表示的行数、列数和通道数,
Figure BDA0003046244230000022
表示矩阵为实数矩阵;It中的每个元素表示第t帧图像的像素值;
使用长度为l1的窗口,以步长为l2将动作视频样本A分成Y个片段;第n1个视频片段段
Figure BDA0003046244230000023
可表示为:
Figure BDA0003046244230000024
其中
Figure BDA0003046244230000025
表示视频片段
Figure BDA0003046244230000026
中的第t1帧图像,也是动作视频样本A中的第t1+(n1-1)×l2帧图像
Figure BDA0003046244230000027
对动作视频样本的每个视频片段计算动态图像,计算方式如下:
对于任一动作视频样本A的第n1个视频片段
Figure BDA0003046244230000028
首先对视频片段中的每一帧图像
Figure BDA0003046244230000029
进行向量化,即将
Figure BDA00030462442300000210
三个通道的所有行向量连接成新的行向量
Figure BDA00030462442300000211
对行向量
Figure BDA00030462442300000212
中的每个元素求算术平方根,得到新的向量
Figure BDA00030462442300000213
即:
Figure BDA00030462442300000214
其中,
Figure BDA00030462442300000215
表示对行向量
Figure BDA00030462442300000216
中的每个元素求算术平方根;记
Figure BDA00030462442300000217
为视频片段
Figure BDA00030462442300000218
的第t1帧图像的帧向量;
计算视频片段
Figure BDA0003046244230000031
第t1帧图像的特征向量
Figure BDA0003046244230000032
计算方式如下:
Figure BDA0003046244230000033
其中,
Figure BDA0003046244230000034
表示对视频片段
Figure BDA0003046244230000035
的第1帧图像到第t1帧图像的帧向量求和;
计算视频片段
Figure BDA0003046244230000036
第t1帧图像的得分
Figure BDA0003046244230000037
计算公式如下:
Figure BDA0003046244230000038
其中,u为维度为f的向量,f=R×C×3;uT表示对向量u转置;
Figure BDA0003046244230000039
表示计算对向量u转置后得到的向量与特征向量
Figure BDA00030462442300000310
的点积;
计算u的值,使视频片段中越排在后面的帧图像,得分越高,即t1越大,得分
Figure BDA00030462442300000311
越高;u的计算可以使用RankSVM计算,计算方法如下:
Figure BDA00030462442300000312
Figure BDA00030462442300000313
其中,
Figure BDA00030462442300000314
表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和;Bi、Bj分别表示视频片段
Figure BDA00030462442300000315
第i帧图像的得分、视频片段
Figure BDA00030462442300000316
第j帧图像的得分,max{0,1-Bi+Bj}表示选取0和1-Bi+Bj中较大的那个值;
使用RankSVM计算出向量u后,将向量u排列成与
Figure BDA00030462442300000317
相同尺寸的图像形式,得到
Figure BDA00030462442300000318
Figure BDA00030462442300000319
为动作视频样本A的第n1个视频片段
Figure BDA00030462442300000320
的动态图像;动作视频样本A共Y个视频片段,可得到Y张动态图像。
进一步的,所述步骤二中,特征提取器由一系列卷积层和池化层组成;将每个动作视频样本的每个视频片段的动态图像输入特征提取器,特征提取器输出的特征图为
Figure BDA00030462442300000321
其中K1、K2、D分别表示输出特征图的高度、宽度和通道数,称FM为运动特征图;
对于每个动作视频样本的每个视频片段,提取每个视频片段的中间帧,作为每个动作视频样本的视频片段的静态图像;将每个动作视频样本的每个视频片段的静态图像分别输入特征提取器,特征提取器输出的特征图为
Figure BDA0003046244230000041
称FS为静态特征图。
进一步的,所述步骤三中,将获得的运动特征图和静态特征图输入运动特征增强器,提取动态图像的运动特征向量,具体步骤如下:
计算运动特征图FM中每个通道的像素值之和,第d个通道的像素值之和μd的计算方式为:
Figure BDA0003046244230000042
其中,
Figure BDA0003046244230000043
表示运动特征图FM的第d个通道在位置(a,b)处的值;
计算静态特征图FS中每个通道的像素值之和,第d个通道的像素值之和sd的计算方式为:
Figure BDA0003046244230000044
其中,
Figure BDA0003046244230000045
表示静态特征图FS的第d个通道在位置(a,b)处的值;
分别计算运动特征图FM、静态特征图FS每个通道像素值之和的差值,第d个通道的像素之和的差值βd的计算公式为:
βd=|sdd|,
因为运动特征图和静态特征图是通过同一个特征提取器得到的输出,因此运动特征图和静态特征图第d个通道对应的卷积核相同;如果差值βd很小,表明运动特征图和静态特征图第d个通道对应的卷积核提取的多是静态特征;如果差值βd较大,说明运动特征图和静态特征图第d个通道对应的卷积核提取的多是运动特征;因此,差值βd越大,对应卷积核提取的特征所占的权重更大,从而使得运动特征得到增强;
第d个通道对应的卷积核提取的特征所占的权重rd的计算公式为:
Figure BDA0003046244230000046
其中,e为自然常数,其值约为2.718281828459045;
Figure BDA0003046244230000047
表示运动特征图和静态特征图第
Figure BDA0003046244230000057
个通道的像素之和的差值,
Figure BDA0003046244230000058
的取值范围为[1,D],且
Figure BDA0003046244230000059
为整数;
将运动特征图FM各个通道的值乘以该通道特征的权重,得到新的运动特征图
Figure BDA0003046244230000051
称该运动特征图为增强运动特征图FM′;增强运动特征图FM′第d个通道在位置(a,b)处的值
Figure BDA0003046244230000052
的计算公式为:
Figure BDA0003046244230000053
增强运动特征图FM′一共有K1×K2个像素点,每个像素点的特征向量xy的维度为D,即增强运动特征图的通道数,y=1,2,...,K1×K2;最终动态图像中的运动特征向量可由特征向量集合X={xy|y=1,2,...,K1×K2}表示。
进一步的,所述步骤四中,特征中心组一共包含NK个特征中心,每个特征中心对应有一个尺度缩放系数,每个特征中心及其尺度缩放系数的初始值通过以下方法计算得到:
计算所有训练动作视频样本的视频片段的动态图像中的运动特征向量,将所有的运动特征向量进行聚类,聚类的簇的个数与特征中心的个数一样,即聚类的簇的个数为NK,每个簇有一个聚类中心,聚类得到的聚类中心的值作为特征中心的初始值;对于第k个簇来说,记该簇中的所有特征向量的集合为Ek,其中包含Nk个特征向量:
Figure BDA0003046244230000054
计算特征向量间的欧式距离dq,τ
Figure BDA0003046244230000055
其中,[eq]d表示特征向量eq的第d维数据,q∈[1,Nk-1],τ∈[q+1,Nk];第k个特征中心的尺度缩放系数σk的初始值为:
Figure BDA0003046244230000056
对于动态图像的运动特征向量xy,计算其与第k个特征中心ck的距离,作为其在第k个特征中心ck的输出,距离计算公式为:
Wk(xy)=exp(-||xy-ck||2k);
对运动特征向量xy输入至第k个特征中心得到的输出进行归一化:
Figure BDA0003046244230000061
将每张动态图像的所有运动特征向量输入至特征中心组的各个特征中心,累加特征中心组的每个特征中心上的所有输出;第k个特征中心的累加输出
Figure BDA0003046244230000062
的计算方式如下:
Figure BDA0003046244230000063
所有的特征中心的累加值连接在一起,得到动作视频样本的第n1个视频片段的动态图像的直方图表达
Figure BDA0003046244230000064
Figure BDA0003046244230000065
特征中心组以及对特征中心组的输出进行累加的累加层构成了特征软量化器;特征软量化器的输入为每个动作视频样本每个视频片段的动态图像的运动特征向量,输出为每个视频片段的动态图像的直方图表达。
进一步的,所述步骤五中,得到动作视频样本的完整直方图表示的具体方法为:
对于每个动作视频样本,它有多个视频片段,每个视频片段有一张动态图像,每张动态图像都有对应的直方图表达;将每张动态图像的直方图表达输入直方图连接层,将这些直方图表达连接起来,得到动作视频样本的完整直方图表示;对于任一动作视频样本A来说,它被分成Y个视频片段,它的完整直方图表示为H=(H1,H2,...,HY)。
进一步的,所述步骤六中,将动作视频样本的完整直方图表示输入多层感知器,构成一个运动特征量化网络,运动特征量化网络包括特征提取器、运动特征增强器、特征软量化器、直方图连接层和多层感知器;
多层感知器包括输入层、隐层和输出层;输入层与直方图连接层的输出相连接,输入层的输出Input与直方图连接层的输出H相同,即Input=H,输入层共m=NK×Y个神经元;隐层共有n个神经元,与输入层的所有输出单元全连接,多层感知器的输出层有z个神经元,每个神经元代表一个动作类别;输入层与隐层间的权重表示为
Figure BDA0003046244230000066
隐层与输出层间的权重表示为
Figure BDA0003046244230000067
隐层神经元的输出Q的计算方式如下:
Figure BDA0003046244230000071
其中,φelu是elu激活函数,
Figure BDA0003046244230000072
是隐层的偏置向量;
多层感知器的输出层输出O为:
Figure BDA0003046244230000073
其中,φsoftmax为softmax激活函数,
Figure BDA0003046244230000074
是输出层的偏置向量;
运动特征量化网络的损失函数L1为:
Figure BDA0003046244230000075
其中,
Figure BDA0003046244230000076
是第g个样本的多层感知器的输出向量,
Figure BDA0003046244230000077
是第g个样本期望的输出向量,其中lg的第p维数据定义为:
Figure BDA0003046244230000078
其中,G是总样本数量,lg是第g个样本的标签值。
进一步的,所述步骤八中,将训练动作视频样本的每个视频片段的动态图像、静态图像输入训练好的运动特征量化网络中的特征提取器,用以得到运动特征图和静态特征图;将运动特征图和静态特征图输入训练好的运动特征量化网络中的运动特征增强器,用以得到训练动作视频样本对应视频片段的增强运动特征图FM′;增强运动特征图FM′包含了运动特征向量
Figure BDA0003046244230000079
y=1,2,...,K1×K2;将运动特征向量输入训练好的运动特征量化网络中的特征软量化器,得到对应的直方图表达
Figure BDA00030462442300000710
其中
Figure BDA00030462442300000711
表示训练好的运动特征量化网络中的特征软量化器中的第k个特征中心的累加输出,k=1,2,...,NK
进一步的,所述步骤九中,将直方图表达输入显著运动特征提取器,得到显著运动特征图的具体步骤如下:
Figure BDA00030462442300000712
中选取最大的NM个值,这NM个值,有NM个对应的特征中心;
对于这NM个特征中心,计算增强运动特征图中每个像素的特征向量与每个特征中心的距离,特征向量xy与第k个特征中心ck的距离计算公式为:
Wk(xy)=exp(-||xy-ck||2k)
以该距离作为每个像素的新像素值,每个特征中心都可以得到一张图像,称该图像为显著运动特征图像;显著运动特征图像的每个像素值为对应像素特征向量与该特征中心的距离;一共可以得到NM张显著运动特征图像,将得到的NM张显著运动特征图像按通道堆叠在一起,得到通道数为NM的显著运动特征图。
进一步的,所述步骤十中,动作分类器由训练好的运动特征量化网络中的特征提取器、运动特征增强器、特征软量化器,以及显著运动特征提取器、卷积神经网络构成;
动作分类器的损失函数L2为:
Figure BDA0003046244230000081
其中,
Figure BDA0003046244230000082
是第g个样本的输出向量,
Figure BDA0003046244230000083
是第g个样本期望的输出向量,其中lg的第p维数据定义为:
Figure BDA0003046244230000084
其中,lg是第g个样本的标签值。
进一步的,所述步骤十二中,实现动作识别的具体方法为:
使用长度为l1的窗口,以步长为l2将测试动作视频样本分段,计算每个视频片段的动态图像、静态图像,然后将动态图像、静态图像输入训练好的动作分类器,得到对当前测试动作视频样本预测的属于各个动作类别的概率值,将每个视频片段输出的概率值相加,概率值最大的动作类别为最终预测的当前测试动作视频样本的所属动作类别。
本发明提出的运动特征量化网络能够提取运动视频中单纯的运动特征,忽略了背景和物体等静态信息,仅利用运动特征进行动作识别,使得学得的运动特征对于动作识别而言更具有区分度。
附图说明
图1是本发明一种动作识别方法的工作流程图。
图2是本发明具体实施例的动态图像示意图。
图3是本发明特征提取器的示意图。
图4是图3中分组卷积模块1的示意图。
图5是图3中分组卷积模块2或分组卷积模块3的示意图。
图6是本发明具体实施例的静态图像示意图。
图7是本发明运动特征量化网络示意图。
图8是本发明具体实施例的显著运特征图像示意图。
图9是本发明动作分类器的示意图。
图10是本发明卷积神经网络的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种动作识别方法,包括如下流程:
1.动作视频样本集总样本数为2000,共10个动作类别,每个动作类别有200个动作视频样本。每个动作类别中随机选取四分之三的样本划入训练集,剩下的四分之一划入测试集,得到共1500个训练动作视频样本,500个测试动作视频样本。每一个动作视频样本由该视频中的所有帧组成。以第一个动作视频样本A为例:
A={It|t∈[1,40]},
其中,t表示时间索引,该动作视频样本共有40帧。
Figure BDA0003046244230000091
为动作视频样本A的第t帧图像的矩阵表示,该帧图像的行数为240,列数为320,通道数为3。
Figure BDA0003046244230000092
表示矩阵为实数矩阵。It中的每个元素表示第t帧图像的像素值。使用长度为10的窗口,以步长为6将动作样本A分成5个视频片段。第n1个视频片段
Figure BDA0003046244230000093
可表示为:
Figure BDA0003046244230000094
其中
Figure BDA0003046244230000095
表示视频片段
Figure BDA0003046244230000096
中的第t1帧图像,也是动作视频样本A中的第t1+6×(n1-1)帧图像
Figure BDA0003046244230000101
对动作视频样本A的5个视频片段A1、A2、A3、A4、A5分别计算动态图像,以视频片段
Figure BDA0003046244230000102
为例,首先对视频片段A2中的每一帧图像
Figure BDA0003046244230000103
进行向量化,即将
Figure BDA0003046244230000104
的每一个行向量连接成新的行向量
Figure BDA0003046244230000105
对行向量
Figure BDA0003046244230000106
中的每个元素求算术平方根,得到新的向量
Figure BDA0003046244230000107
即:
Figure BDA0003046244230000108
其中,
Figure BDA0003046244230000109
表示对行向量
Figure BDA00030462442300001010
中的每个元素求算术平方根。记
Figure BDA00030462442300001011
为视频片段A2的第t1帧图像的帧向量。
计算视频片段A2第t1帧图像的特征向量
Figure BDA00030462442300001012
计算方式如下:
Figure BDA00030462442300001013
其中,
Figure BDA00030462442300001014
表示对视频片段A2的第1帧图像到第t1帧图像的帧向量求和。
计算视频片段A2第t1帧图像的得分
Figure BDA00030462442300001015
计算公式如下:
Figure BDA00030462442300001016
其中,u为维度为230400的向量。uT表示对向量u转置。
Figure BDA00030462442300001017
表示计算对向量u转置后得到的向量与特征向量
Figure BDA00030462442300001018
的点积。
计算u的值,使视频片段中越排在后面的帧图像,得分越高,即t1越大,得分
Figure BDA00030462442300001019
越大。u的计算可以使用RankSVM计算,计算方法如下:
Figure BDA00030462442300001020
Figure BDA00030462442300001021
其中,
Figure BDA00030462442300001022
表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和。Bi、Bj分别表示视频片段
Figure BDA00030462442300001023
第i帧图像的得分、视频片段
Figure BDA00030462442300001024
第j帧图像的得分,max{0,1-Bi+Bj}表示选取0和1-Bi+Bj中较大的那个值。
使用RankSVM计算出向量u后,将向量u排列成与
Figure BDA0003046244230000111
相同尺寸的图像形式,得到
Figure BDA0003046244230000112
称u2为动作视频样本A的第2个视频片段A2的动态图像,如图2所示,为求得的动态图像示例。动作样本A共5个片段,可得到5张动态图像。
2.将动作视频样本的每张动态图像输入特征提取器,提取动态图像中的运动特征。特征提取器由一系列卷积层和池化层组成。特征提取器如图3所示,它由ResNext-50的前两个模块构成,分别为卷积模块1和卷积模块2。
卷积模块1包含一个卷积层,该卷积层有64个卷积核,每个卷积核的大小为7×7。卷积模块2包含一个最大池化层、三个分组卷积模块。最大池化层的池化核的大小为3×3。分组卷积模块1如图4所示。第一层为卷积层,第二层为分组卷积层,第三层为卷积层,第四层为残差相加层。第一层卷积层有128个卷积核,每个卷积核的大小为1×1。第二层分组卷积层有128个卷积核,每个卷积核的大小为3×3。该分组卷积层将输入的大小为W1×H1×128的特征图按通道分成32组大小为W1×H1×4的特征图,并将128个卷积核分成32组,每组有4个卷积核,将每组的特征图与每组的卷积核分别进行卷积,最后将每组卷积的结果按通道连接,得到分组卷积层的输出。第三层卷积层有256个卷积核,每个卷积核的大小为1×1。第四层残差相加层将第一层卷积层的输入传进残差卷积层,残差卷积层有256个卷积核,每个卷积核的大小为1×1,将该残差卷积层的输出与第三层卷积层的输出相加,作为第四层残差相加层的输出,也是第一个分组卷积模块的输出。分组卷积模块2、3与分组卷积模块1相似,如图5所示,唯一不同的是,第二、三个分组卷积模块的第四层残差相加层直接将第一层卷积层的输入与第三层卷积层的输出相加,没有残差卷积层。
特征提取器输出的特征图为
Figure BDA0003046244230000113
该特征图的高度、宽度、通道数分别为30、40、256,称该特征图FM为运动特征图。
3.对于动作视频样本的每个视频片段,提取该视频片段的中间帧,作为该动作视频样本的视频片段的静态图像,如图6所示为动作视频样本A的第2个片段A2的静态图像。将动作视频样本的每个视频片段的静态图像分别输入特征提取器,特征提取器输出的特征图为
Figure BDA0003046244230000114
称FS为静态特征图。
4.将动作视频样本每个视频片段的运动特征图FM和静态特征图FS输入运动特征增强器,提取动态图像中的运动特征向量,具体步骤如下:
计算运动特征图FM中每个通道的像素值之和,第d个通道的像素值之和μd的计算方式为:
Figure BDA0003046244230000121
其中,
Figure BDA0003046244230000122
表示运动特征图FM的第d个通道在位置(a,b)处的值。
计算静态特征图FS中每个通道的像素值之和,第d个通道的像素值之和sd的计算方式为:
Figure BDA0003046244230000123
其中,
Figure BDA0003046244230000124
表示静态特征图FS的第d个通道在位置(a,b)处的值。
分别计算运动特征图FM、静态特征图FS每个通道像素值之和的差值,第d个通道的像素之和的差值βi的计算公式为:
βd=|sdd|,
因为运动特征图和静态特征图是通过同一个特征提取器得到的输出,因此运动特征图和静态特征图第d个通道对应的卷积核相同。如果差值βd很小,表明运动特征图和静态特征图第d个通道对应的卷积核更多的提取的是静态特征,比如背景特征。如果差值βd较大,说明运动特征图和静态特征图第d个通道对应的卷积核更多的提取的是运动特征。因此,差值βd越大,对应卷积核提取的特征所占的权重应该更大,从而使得运动特征得到增强。
第d个通道对应的卷积核提取的特征所占的权重rd的计算公式为:
Figure BDA0003046244230000125
其中,e为自然常数,其值约为2.718281828459045。
Figure BDA0003046244230000126
表示运动特征图和静态特征图第
Figure BDA0003046244230000127
个通道的像素之和的差值,
Figure BDA0003046244230000128
的取值范围为[1,256],且
Figure BDA0003046244230000129
为整数。
将运动特征图FM各个通道的值乘以该通道特征的权重,得到新的运动特征图
Figure BDA0003046244230000131
称该特征图为增强运动特征图。增强运动特征图FM′第d个通道在位置(a,b)处的值
Figure BDA0003046244230000132
的计算公式为:
Figure BDA0003046244230000133
增强运动特征图FM′一共有30×40=1200个像素点,每个像素点的特征向量xy的维度为256,即增强运动特征图的通道数,y=1,2,...,1200。最终动态图像中的运动特征向量可由特征向量集合X={xy|y=1,2,...,1200}表示。
5.构建特征中心组,该特征中心组一共包含64个特征中心。每个特征中心对应有一个尺度缩放系数。以第一个特征中心为例,它的初始值及其尺度缩放系数的初始值通过以下方法计算得到:
计算所有训练动作视频样本的视频片段的动态图像中的运动特征向量,将所有的运动特征向量进行聚类,聚类的簇的个数设置为64,每个簇有一个聚类中心,将第一个簇的聚类中心的值作为第一个特征中心的初始值。记第一个簇中的所有特征向量的集合为E1,其中包含500个向量:
E1={e1,e2,…,e500},
计算向量间的欧式距离
Figure BDA0003046244230000134
Figure BDA0003046244230000135
其中,[eq]d表示向量eq的第d维数据,q∈[1,499],τ∈[q+1,500]。第一个特征中心的尺度缩放系数σ1的初始值为:
Figure BDA0003046244230000136
按照上述方式可以得到64个特征中心的初始值和对应尺度缩放系数的初始值。
6.对于动态图像的运动特征向量xy,计算其与第k个特征中心ck的距离,作为其在第k个特征中心ck的输出,距离计算公式为:
Wk(xy)=exp(-||xy-ck||2k),
对运动特征向量xy输入至第k个特征中心得到的输出进行归一化:
Figure BDA0003046244230000141
7.将动作视频样本每张动态图像的所有运动特征向量分别输入至特征中心组的各个特征中心,累加特征中心组的每个特征中心上的所有输出。第k个特征中心的累加输出hkn1的计算方式如下:
Figure BDA0003046244230000142
所有的特征中心的累加值连接在一起,得到动作视频样本的第n1个视频片段的动态图像的直方图表达
Figure BDA0003046244230000143
Figure BDA0003046244230000144
对于动作视频样本A的第2个视频片段A2的动态图像u2,计算得到的直方图表达为
Figure BDA0003046244230000145
特征中心组以及对特征中心组的输出进行累加的累加层构成了特征软量化器。特征软量化器的输入为每个动作样本每个视频片段的动态图像的运动特征向量,输出为每个视频片段的动态图像的直方图表达。
8.对于每个动作视频样本,它有多个视频片段,每个视频片段有一张动态图像,每张动态图像都有对应的直方图表达。将每张动态图像的直方图表达输入直方图连接层,将这些直方图表达连接起来,得到动作视频样本的完整直方图表示。对于动作视频样本A来说,它被分成5个视频片段,它的完整直方图表示为:
Figure BDA0003046244230000146
9.将动作视频样本的完整直方图表示输入多层感知器,构成运动特征量化网络,如图7所示。运动特征量化网络包括:特征提取器、运动特征增强器、特征软量化器、直方图连接层和多层感知器。
多层感知器包括输入层、隐层和输出层。输入层与直方图连接层的输出相连接,输入层的输出Input与直方图连接层的输出H相同,即Input=H,输入层共320个神经元。隐层共有128个神经元,与输入层的所有输出单元全连接,多层感知器的输出层有10个神经元,每个神经元代表一个动作类别;输入层与隐层间的权重表示为
Figure BDA0003046244230000151
隐层与输出层间的权重表示为
Figure BDA0003046244230000152
隐层神经元的输出Q的计算方式如下:
Figure BDA0003046244230000153
其中,φelu是elu激活函数,
Figure BDA0003046244230000154
是隐层的偏置向量;
多层感知器的输出层输出O为:
Figure BDA0003046244230000155
其中,φsoftmax为softmax激活函数,
Figure BDA0003046244230000156
是输出层的偏置向量。
运动特征量化网络的损失函数L1为:
Figure BDA0003046244230000157
其中,
Figure BDA0003046244230000158
是第g个样本的多层感知器的输出向量,
Figure BDA0003046244230000159
是第g个样本期望的输出向量,其中lg的第p维数据定义为:
Figure BDA00030462442300001510
其中,lg是第g个样本的标签值。
10.将训练动作视频样本的每个视频片段的动态图像、静态图像输入训练好的运动特征量化网络中的特征提取器,分别得到运动特征图和静态特征图。将运动特征图和静态特征图输入训练好的运动特征量化网络中的运动特征增强器,得到训练动作视频样本对应视频片段的增强运动特征图。动作视频样本A的第二个视频片段A2的增强运动特征图为FM′,包含了运动特征向量
Figure BDA00030462442300001511
y=1,2,...,1200。
将运动特征向量输入训练好的运动特征量化网络中的特征软量化器,得到对应的直方图表达
Figure BDA00030462442300001512
对于动作视频样本A的第2个片段A2,得到的直方图表达为
Figure BDA00030462442300001513
11.得到的直方图表达
Figure BDA0003046244230000161
输入显著运动特征提取器,获取显著运动特征图。以对于动作视频样本A的第2个视频片段A2为例,获取运动特征图像的具体步骤如下:
Figure BDA0003046244230000162
中选取最大的5个值,分别为
Figure BDA0003046244230000163
对应的特征中心为c2、c5、c8、c25、c60
对于这5个特征中心,计算增强运动特征图FM′中每个像素的特征向量与每个特征中心的距离。特征向量xy与特征中心c2的距离计算公式为:
W2(xy)=exp(-||xy-c2||22)
以该距离作为每个像素的新像素值,每个特征中心都可以得到一张图像,称该图像为显著运动特征图像。图像的每个像素值为对应像素特征向量与该特征中心的距离。图8为动作视频样本A的第2个视频片段A2的增强运动特征图中像素的特征向量与特征中心c2计算距离得到的显著运动特征图像。
一共5个特征中心,可以得到5张显著运动特征图像。将得到的5张显著运动特征图像按通道堆叠在一起,得到通道数为5的显著运动特征图。
12.将显著运动特征图输入卷积神经网络,构成动作分类器,如图9所示。动作分类器由训练好的运动特征量化网络中的特征提取器、运动特征增强器、特征软量化器,以及显著运动特征提取器、卷积神经网络构成。卷积神经网络使用ResNext-50剩下的模块,如图10所示,包含卷积模块3、4、5、一层全局池化层和一层全连接层。
卷积模块3包含四个分组卷积模块。分组卷积模块1第一层为卷积层,第二层为分组卷积层,第三层为卷积层,第四层为残差相加层。第一层卷积层有256个卷积核,每个卷积核的大小为1×1。第二层分组卷积层有256个卷积核,每个卷积核的大小为3×3。该分组卷积层将输入的大小为W2×H2×256的特征图按通道分成32组大小为W2×H2×8的特征图,并将256个卷积核分成32组,每组有8个卷积核,将每组的特征图与每组的卷积核分别进行卷积,最后将每组卷积的结果按通道连接,得到分组卷积层的输出。第三层卷积层有512个卷积核,每个卷积核的大小为1×1。第四层残差相加层将第一层卷积层的输入传进残差卷积层,残差卷积层有512个卷积核,每个卷积核的大小为1×1,将该残差卷积层的输出与第三层卷积层的输出相加,作为第四层残差相加层的输出,也是分组卷积模块1的输出。分组卷积模块2、3、4与分组卷积模块1相似,唯一不同的是,分组卷积模块2、3、4的第四层残差相加层直接将第一层卷积层的输入与第三层卷积层的输出相加,没有残差卷积层。
卷积模块4含六个分组卷积模块。分组卷积模块1第一层为卷积层,第二层为分组卷积层,第三层为卷积层,第四层为残差相加层。第一层卷积层有512个卷积核,每个卷积核的大小为1×1。第二层分组卷积层有512个卷积核,每个卷积核的大小为3×3。该分组卷积层将输入的大小为W3×H3×512的特征图按通道分成32组大小为W3×H3×16的特征图,并将512个卷积核分成32组,每组有16个卷积核,将每组的特征图与每组的卷积核分别进行卷积,最后将每组卷积的结果按通道连接,得到分组卷积层的输出。第三层卷积层有1024个卷积核,每个卷积核的大小为1×1。第四层残差相加层将第一层卷积层的输入传进残差卷积层,残差卷积层有1024个卷积核,每个卷积核的大小为1×1,将该残差卷积层的输出与第三层卷积层的输出相加,作为第四层残差相加层的输出,也是分组卷积模块1的输出。分组卷积模块2-6与分组卷积模块1相似,唯一不同的是,分组卷积模块2-6的第四层残差相加层直接将第一层卷积层的输入与第三层卷积层的输出相加,没有残差卷积层。
卷积模块5包含三个分组卷积模块。分组卷积模块1第一层为卷积层,第二层为分组卷积层,第三层为卷积层,第四层为残差相加层。第一层卷积层有1024个卷积核,每个卷积核的大小为1×1。第二层分组卷积层有1024个卷积核,每个卷积核的大小为3×3。该分组卷积层将输入的大小为W4×H4×1024的特征图按通道分成32组大小为W4×H4×32的特征图,并将1024个卷积核分成32组,每组有32个卷积核,将每组的特征图与每组的卷积核分别进行卷积,最后将每组卷积的结果按通道连接,得到分组卷积层的输出。第三层卷积层有2048个卷积核,每个卷积核的大小为1×1。第四层残差相加层将第一层卷积层的输入传进残差卷积层,残差卷积层有2048个卷积核,每个卷积核的大小为1×1,将该残差卷积层的输出与第三层卷积层的输出相加,作为第四层残差相加层的输出,也是第一个分组卷积模块的输出。第二、三个分组卷积模块与第一个分组卷积模块相似,唯一不同的是,第二、三个分组卷积模块的第四层残差相加层直接将第一层卷积层的输入与第三层卷积层的输出相加,没有残差卷积层。
全局平均池化层计算该层输入的特征图的每个通道的平均值,作为输出。全连接层的使用的激活函数为softmax。
动作分类器的损失函数L2为:
Figure BDA0003046244230000181
其中,
Figure BDA0003046244230000182
是第g个视频样本的全连接层的输出向量,
Figure BDA0003046244230000183
是第g个视频样本期望的输出向量,其中第p维数据定义为:
Figure BDA0003046244230000184
其中,lg是第g个视频样本的标签值。
动作分类器的输入为动作视频样本的每个视频片段的动态图像、静态图像,输出为当前动作视频样本属于各个动作类别的概率值。将每个视频片段输出的每个动作类别的概率值相加,概率值最大的动作类别为最终预测的当前动作视频样本所属动作类别。
13.训练动作分类器至收敛。使用长度为10的窗口,以步长为6将测试动作视频样本分段。计算每个视频片段的动态图像、静态图像,然后将动态图像、静态图像输入训练好的动作分类器,得到对当前测试动作视频样本预测的属于各个动作类别的概率值。将每个视频片段的输出概率值相加,概率值最大的动作类别为最终预测的当前测试动作视频样本所属动作类别。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种动作识别方法,其特征在于:包括以下步骤:
步骤一、将动作视频样本分段,计算每个视频片段的动态图像;
步骤二、将每个视频片段的动态图像、静态图像输入特征提取器,分别获取运动特征图和静态特征图;
步骤三、将获得的运动特征图和静态特征图输入运动特征增强器,提取动态图像的运动特征向量;
步骤四、构建特征中心组,对于每张动态图像,将该动态图像的运动特征向量输入至特征中心组中的特征中心,累加每个特征中心上的所有输出,得到该动态图像的直方图表达;
步骤五、将每个动作视频样本的所有动态图像的直方图表达输入直方图连接层,得到动作视频样本的完整直方图表示;
步骤六、将动作视频样本的完整直方图表示输入多层感知器,构成一个运动特征量化网络;
步骤七、将所有训练动作视频样本的动态图像、静态图像输入至运动特征量化网络,训练运动特征量化网络至收敛;
步骤八、将训练动作视频样本每个视频片段的动态图像、静态图像输入训练好的运动特征量化网络中的特征提取器、运动特征增强器和特征软量化器,得到直方图表达;
步骤九、将直方图表达输入显著运动特征提取器,得到显著运动特征图;
步骤十、将显著运动特征图输入卷积神经网络,构成动作分类器;
步骤十一、训练动作分类器至收敛;
步骤十二、计算测试动作视频样本每个视频片段的动态图像、静态图像,将动态图像、静态图像输入训练好的动作分类器,实现动作识别。
2.根据权利要求1所述的一种动作识别方法,其特征在于:所述步骤一中,将动作视频样本分段的方法为:
每一个动作视频样本由该视频中的所有帧组成,对于任一动作视频样本A来说:
A={It|t∈[1,T]},
其中,t表示时间索引,T是动作视频样本A的总帧数;
Figure FDA0003046244220000011
为动作视频样本A的第t帧图像的矩阵表示,R、C、3分别对应第t帧图像的矩阵表示的行数、列数和通道数,
Figure FDA0003046244220000012
表示矩阵为实数矩阵;It中的每个元素表示第t帧图像的像素值;
使用长度为l1的窗口,以步长为l2将动作视频样本A分成Y个片段;第n1个视频片段段
Figure FDA0003046244220000021
可表示为:
Figure FDA0003046244220000022
其中
Figure FDA0003046244220000023
表示视频片段
Figure FDA0003046244220000024
中的第t1帧图像,也是动作视频样本A中的第t1+(n1-1)×l2帧图像
Figure FDA0003046244220000025
对动作视频样本的每个视频片段计算动态图像,计算方式如下:
对于任一动作视频样本A的第n1个视频片段
Figure FDA0003046244220000026
首先对视频片段中的每一帧图像
Figure FDA0003046244220000027
进行向量化,即将
Figure FDA0003046244220000028
三个通道的所有行向量连接成新的行向量
Figure FDA0003046244220000029
对行向量
Figure FDA00030462442200000210
中的每个元素求算术平方根,得到新的向量
Figure FDA00030462442200000211
即:
Figure FDA00030462442200000212
其中,
Figure FDA00030462442200000213
表示对行向量
Figure FDA00030462442200000214
中的每个元素求算术平方根;记
Figure FDA00030462442200000215
为视频片段
Figure FDA00030462442200000216
的第t1帧图像的帧向量;
计算视频片段
Figure FDA00030462442200000217
第t1帧图像的特征向量
Figure FDA00030462442200000218
计算方式如下:
Figure FDA00030462442200000219
其中,
Figure FDA00030462442200000220
表示对视频片段
Figure FDA00030462442200000221
的第1帧图像到第t1帧图像的帧向量求和;
计算视频片段
Figure FDA00030462442200000222
第t1帧图像的得分
Figure FDA00030462442200000223
计算公式如下:
Figure FDA00030462442200000224
其中,u为维度为f的向量,f=R×C×3;uT表示对向量u转置;
Figure FDA00030462442200000225
表示计算对向量u转置后得到的向量与特征向量
Figure FDA00030462442200000226
的点积;
计算u的值,使视频片段中越排在后面的帧图像,得分越高,即t1越大,得分
Figure FDA00030462442200000227
越高;u的计算可以使用RankSVM计算,计算方法如下:
Figure FDA00030462442200000228
Figure FDA0003046244220000031
其中,
Figure FDA0003046244220000032
表示使E(u)的值最小的u,λ为常数,||u||2表示计算向量u中每个元素的平方之和;Bi、Bj分别表示视频片段
Figure FDA0003046244220000033
第i帧图像的得分、视频片段
Figure FDA0003046244220000034
第j帧图像的得分,max{0,1-Bi+Bj}表示选取0和1-Bi+Bj中较大的那个值;
使用RankSVM计算出向量u后,将向量u排列成与
Figure FDA0003046244220000035
相同尺寸的图像形式,得到
Figure FDA0003046244220000036
Figure FDA0003046244220000037
为动作视频样本A的第n1个视频片段
Figure FDA0003046244220000038
的动态图像;动作视频样本A共Y个视频片段,可得到Y张动态图像。
3.根据权利要求2所述的一种动作识别方法,其特征在于:所述步骤二中,特征提取器由一系列卷积层和池化层组成;将每个动作视频样本的每个视频片段的动态图像输入特征提取器,特征提取器输出的特征图为
Figure FDA0003046244220000039
其中K1、K2、D分别表示输出特征图的高度、宽度和通道数,称FM为运动特征图;
对于每个动作视频样本的每个视频片段,提取每个视频片段的中间帧,作为每个动作视频样本的视频片段的静态图像;将每个动作视频样本的每个视频片段的静态图像分别输入特征提取器,特征提取器输出的特征图为
Figure FDA00030462442200000310
称FS为静态特征图。
4.根据权利要求3所述的一种动作识别方法,其特征在于:所述步骤三中,将获得的运动特征图和静态特征图输入运动特征增强器,提取动态图像的运动特征向量,具体步骤如下:
计算运动特征图FM中每个通道的像素值之和,第d个通道的像素值之和μd的计算方式为:
Figure FDA00030462442200000311
其中,
Figure FDA00030462442200000312
表示运动特征图FM的第d个通道在位置(a,b)处的值;
计算静态特征图FS中每个通道的像素值之和,第d个通道的像素值之和sd的计算方式为:
Figure FDA00030462442200000313
其中,
Figure FDA0003046244220000041
表示静态特征图FS的第d个通道在位置(a,b)处的值;
分别计算运动特征图FM、静态特征图FS每个通道像素值之和的差值,第d个通道的像素之和的差值βd的计算公式为:
βd=|sdd|,
因为运动特征图和静态特征图是通过同一个特征提取器得到的输出,因此运动特征图和静态特征图第d个通道对应的卷积核相同;如果差值βd很小,表明运动特征图和静态特征图第d个通道对应的卷积核提取的多是静态特征;如果差值βd较大,说明运动特征图和静态特征图第d个通道对应的卷积核提取的多是运动特征;因此,差值βd越大,对应卷积核提取的特征所占的权重更大,从而使得运动特征得到增强;
第d个通道对应的卷积核提取的特征所占的权重rd的计算公式为:
Figure FDA0003046244220000042
其中,e为自然常数,其值约为2.718281828459045;
Figure FDA0003046244220000043
表示运动特征图和静态特征图第
Figure FDA0003046244220000044
个通道的像素之和的差值,
Figure FDA0003046244220000045
的取值范围为[1,D],且
Figure FDA0003046244220000046
为整数;
将运动特征图FM各个通道的值乘以该通道特征的权重,得到新的运动特征图
Figure FDA0003046244220000047
称该运动特征图为增强运动特征图FM′;增强运动特征图FM′第d个通道在位置(a,b)处的值
Figure FDA0003046244220000048
的计算公式为:
Figure FDA0003046244220000049
增强运动特征图FM′一共有K1×K2个像素点,每个像素点的特征向量xy的维度为D,即增强运动特征图的通道数,y=1,2,...,K1×K2;最终动态图像中的运动特征向量可由特征向量集合X={xy|y=1,2,...,K1×K2}表示。
5.根据权利要求4所述的一种动作识别方法,其特征在于:所述步骤四中,特征中心组一共包含NK个特征中心,每个特征中心对应有一个尺度缩放系数,每个特征中心及其尺度缩放系数的初始值通过以下方法计算得到:
计算所有训练动作视频样本的视频片段的动态图像中的运动特征向量,将所有的运动特征向量进行聚类,聚类的簇的个数与特征中心的个数一样,即聚类的簇的个数为NK,每个簇有一个聚类中心,聚类得到的聚类中心的值作为特征中心的初始值;对于第k个簇来说,记该簇中的所有特征向量的集合为Ek,其中包含Nk个特征向量:
Figure FDA0003046244220000051
计算特征向量间的欧式距离dq,τ
Figure FDA0003046244220000052
其中,[eq]d表示特征向量eq的第d维数据,q∈[1,Nk-1],τ∈[q+1,Nk];第k个特征中心的尺度缩放系数σk的初始值为:
Figure FDA0003046244220000053
对于动态图像的运动特征向量xy,计算其与第k个特征中心ck的距离,作为其在第k个特征中心ck的输出,距离计算公式为:
Wk(xy)=exp(-||xy-ck||2k);
对运动特征向量xy输入至第k个特征中心得到的输出进行归一化:
Figure FDA0003046244220000054
将每张动态图像的所有运动特征向量输入至特征中心组的各个特征中心,累加特征中心组的每个特征中心上的所有输出;第k个特征中心的累加输出
Figure FDA0003046244220000055
的计算方式如下:
Figure FDA0003046244220000056
所有的特征中心的累加值连接在一起,得到动作视频样本的第n1个视频片段的动态图像的直方图表达
Figure FDA0003046244220000057
Figure FDA0003046244220000058
特征中心组以及对特征中心组的输出进行累加的累加层构成了特征软量化器;特征软量化器的输入为每个动作视频样本每个视频片段的动态图像的运动特征向量,输出为每个视频片段的动态图像的直方图表达。
6.根据权利要求5所述的一种动作识别方法,其特征在于:所述步骤五中,得到动作视频样本的完整直方图表示的具体方法为:
对于每个动作视频样本,它有多个视频片段,每个视频片段有一张动态图像,每张动态图像都有对应的直方图表达;将每张动态图像的直方图表达输入直方图连接层,将这些直方图表达连接起来,得到动作视频样本的完整直方图表示;对于任一动作视频样本A来说,它被分成Y个视频片段,它的完整直方图表示为H=(H1,H2,...,HY)。
7.根据权利要求6所述的一种动作识别方法,其特征在于:所述步骤六中,运动特征量化网络包括特征提取器、运动特征增强器、特征软量化器、直方图连接层和多层感知器;
多层感知器包括输入层、隐层和输出层;输入层与直方图连接层的输出相连接,输入层的输出Input与直方图连接层的输出H相同,即Input=H,输入层共m=NK×Y个神经元;隐层共有n个神经元,与输入层的所有输出单元全连接,多层感知器的输出层有z个神经元,每个神经元代表一个动作类别;输入层与隐层间的权重表示为
Figure FDA0003046244220000061
隐层与输出层间的权重表示为
Figure FDA0003046244220000062
隐层神经元的输出Q的计算方式如下:
Figure FDA0003046244220000063
其中,φelu是elu激活函数,
Figure FDA0003046244220000064
是隐层的偏置向量;
多层感知器的输出层输出O为:
Figure FDA0003046244220000065
其中,φsoftmax为softmax激活函数,
Figure FDA0003046244220000066
是输出层的偏置向量;
运动特征量化网络的损失函数L1为:
Figure FDA0003046244220000067
其中,
Figure FDA0003046244220000071
是第g个样本的多层感知器的输出向量,
Figure FDA0003046244220000072
是第g个样本期望的输出向量,其中lg的第p维数据定义为:
Figure FDA0003046244220000073
其中,G是总样本数量,lg是第g个样本的标签值。
8.根据权利要求7所述的一种动作识别方法,其特征在于:所述步骤八中,将训练动作视频样本的每个视频片段的动态图像、静态图像输入训练好的运动特征量化网络中的特征提取器,用以得到运动特征图和静态特征图;将运动特征图和静态特征图输入训练好的运动特征量化网络中的运动特征增强器,用以得到训练动作视频样本对应视频片段的增强运动特征图FM′;增强运动特征图FM′包含了运动特征向量
Figure FDA0003046244220000074
y=1,2,...,K1×K2;将运动特征向量输入训练好的运动特征量化网络中的特征软量化器,得到对应的直方图表达
Figure FDA0003046244220000075
其中
Figure FDA0003046244220000076
表示训练好的运动特征量化网络中的特征软量化器中的第k个特征中心的累加输出,k=1,2,...,NK
9.根据权利要求8所述的一种动作识别方法,其特征在于:所述步骤九中,将直方图表达输入显著运动特征提取器,得到显著运动特征图的具体步骤如下:
Figure FDA0003046244220000077
中选取最大的NM个值,这NM个值,有NM个对应的特征中心;
对于这NM个特征中心,计算增强运动特征图中每个像素的特征向量与每个特征中心的距离,特征向量xy与第k个特征中心ck的距离计算公式为:
Wk(xy)=exp(-||xy-ck||2k)
以该距离作为每个像素的新像素值,每个特征中心都可以得到一张图像,称该图像为显著运动特征图像;显著运动特征图像的每个像素值为对应像素特征向量与该特征中心的距离;一共可以得到NM张显著运动特征图像,将得到的NM张显著运动特征图像按通道堆叠在一起,得到通道数为NM的显著运动特征图。
10.根据权利要求9所述的一种动作识别方法,其特征在于:所述步骤十中,动作分类器由训练好的运动特征量化网络中的特征提取器、运动特征增强器、特征软量化器,以及显著运动特征提取器、卷积神经网络构成;
动作分类器的损失函数L2为:
Figure FDA0003046244220000081
其中,
Figure FDA0003046244220000082
是第g个样本的输出向量,
Figure FDA0003046244220000083
是第g个样本期望的输出向量,其中lg的第p维数据定义为:
Figure FDA0003046244220000084
其中,lg是第g个样本的标签值。
11.根据权利要求10所述的一种动作识别方法,其特征在于:所述步骤十二中,实现动作识别的具体方法为:
使用长度为l1的窗口,以步长为l2将测试动作视频样本分段,计算每个视频片段的动态图像、静态图像,然后将动态图像、静态图像输入训练好的动作分类器,得到对当前测试动作视频样本预测的属于各个动作类别的概率值,将每个视频片段输出的概率值相加,概率值最大的动作类别为最终预测的当前测试动作视频样本的所属动作类别。
CN202110473438.1A 2021-04-29 2021-04-29 一种动作识别方法 Active CN113221694B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110473438.1A CN113221694B (zh) 2021-04-29 2021-04-29 一种动作识别方法
US18/011,602 US20240046700A1 (en) 2021-04-29 2021-07-16 Action recognition method
PCT/CN2021/106694 WO2022227292A1 (zh) 2021-04-29 2021-07-16 一种动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110473438.1A CN113221694B (zh) 2021-04-29 2021-04-29 一种动作识别方法

Publications (2)

Publication Number Publication Date
CN113221694A true CN113221694A (zh) 2021-08-06
CN113221694B CN113221694B (zh) 2023-08-01

Family

ID=77090077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110473438.1A Active CN113221694B (zh) 2021-04-29 2021-04-29 一种动作识别方法

Country Status (3)

Country Link
US (1) US20240046700A1 (zh)
CN (1) CN113221694B (zh)
WO (1) WO2022227292A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591797A (zh) * 2021-08-23 2021-11-02 苏州大学 一种深度视频行为识别方法
CN113610046A (zh) * 2021-08-23 2021-11-05 苏州大学 一种基于深度视频联动特征的行为识别方法
WO2023159898A1 (zh) * 2022-02-25 2023-08-31 国网智能电网研究院有限公司 一种动作识别系统、方法、装置及模型训练方法、装置、计算机设备及计算机可读存储介质
CN117238037A (zh) * 2023-11-13 2023-12-15 中国科学技术大学 动态动作识别方法、装置、设备和存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726760B (zh) * 2024-02-07 2024-05-07 之江实验室 一种用于视频的三维人体重建模型的训练方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020028021A1 (en) * 1999-03-11 2002-03-07 Jonathan T. Foote Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
CN106022229A (zh) * 2016-05-11 2016-10-12 北京航空航天大学 基于视频运动信息特征提取与自适应增强算法的误差反向传播网络的异常行为识别方法
CN110119707A (zh) * 2019-05-10 2019-08-13 苏州大学 一种人体动作识别方法
CN110163052A (zh) * 2018-08-01 2019-08-23 腾讯科技(深圳)有限公司 视频动作识别方法、装置和机器设备
CN111274908A (zh) * 2020-01-16 2020-06-12 苏州大学 一种人体动作识别方法
CN111597864A (zh) * 2019-02-21 2020-08-28 中南大学 基于累积光流加权特征的微表情识别方法
CN111881818A (zh) * 2020-07-27 2020-11-03 复旦大学 医疗行为细粒度识别装置及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101713189B1 (ko) * 2015-04-20 2017-03-08 전남대학교산학협력단 비디오 객체 행동 분류를 위한 hog/hof 기반 특징정보 추출 방법 및 추출기
CN108399435B (zh) * 2018-03-21 2020-09-25 南京邮电大学 一种基于动静特征的视频分类方法
CN110942037A (zh) * 2019-11-29 2020-03-31 河海大学 一种用于视频分析中的动作识别方法
CN111860353A (zh) * 2020-07-23 2020-10-30 北京以萨技术股份有限公司 基于双流神经网络的视频行为预测方法、装置及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020028021A1 (en) * 1999-03-11 2002-03-07 Jonathan T. Foote Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
CN106022229A (zh) * 2016-05-11 2016-10-12 北京航空航天大学 基于视频运动信息特征提取与自适应增强算法的误差反向传播网络的异常行为识别方法
CN110163052A (zh) * 2018-08-01 2019-08-23 腾讯科技(深圳)有限公司 视频动作识别方法、装置和机器设备
CN111597864A (zh) * 2019-02-21 2020-08-28 中南大学 基于累积光流加权特征的微表情识别方法
CN110119707A (zh) * 2019-05-10 2019-08-13 苏州大学 一种人体动作识别方法
CN111274908A (zh) * 2020-01-16 2020-06-12 苏州大学 一种人体动作识别方法
CN111881818A (zh) * 2020-07-27 2020-11-03 复旦大学 医疗行为细粒度识别装置及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIN SUN ET AL.: "Action recognition based on kinematic representation of video data", 《2014 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》, pages 1 - 5 *
欧芳: "基于特征融合的行为识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591797A (zh) * 2021-08-23 2021-11-02 苏州大学 一种深度视频行为识别方法
CN113610046A (zh) * 2021-08-23 2021-11-05 苏州大学 一种基于深度视频联动特征的行为识别方法
CN113591797B (zh) * 2021-08-23 2023-07-28 苏州大学 一种深度视频行为识别方法
CN113610046B (zh) * 2021-08-23 2023-09-26 苏州大学 一种基于深度视频联动特征的行为识别方法
WO2023159898A1 (zh) * 2022-02-25 2023-08-31 国网智能电网研究院有限公司 一种动作识别系统、方法、装置及模型训练方法、装置、计算机设备及计算机可读存储介质
CN117238037A (zh) * 2023-11-13 2023-12-15 中国科学技术大学 动态动作识别方法、装置、设备和存储介质
CN117238037B (zh) * 2023-11-13 2024-03-29 中国科学技术大学 动态动作识别方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN113221694B (zh) 2023-08-01
US20240046700A1 (en) 2024-02-08
WO2022227292A1 (zh) 2022-11-03

Similar Documents

Publication Publication Date Title
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
WO2022036777A1 (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN113221694A (zh) 一种动作识别方法
CN111144329B (zh) 一种基于多标签的轻量快速人群计数方法
CN111814661B (zh) 基于残差-循环神经网络的人体行为识别方法
CN110399821B (zh) 基于人脸表情识别的顾客满意度获取方法
CN107451565B (zh) 一种半监督小样本深度学习图像模式分类识别方法
CN110119707B (zh) 一种人体动作识别方法
JP2017157138A (ja) 画像認識装置、画像認識方法及びプログラム
CN111696101A (zh) 一种基于SE-Inception的轻量级茄科病害识别方法
CN111639719A (zh) 基于时空运动和特征融合的足迹图像检索方法
CN113610046B (zh) 一种基于深度视频联动特征的行为识别方法
CN112001278A (zh) 一种基于结构化知识蒸馏的人群计数模型及其方法
CN112818764A (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
CN112580662A (zh) 一种基于图像特征识别鱼体方向的方法及系统
CN111291631B (zh) 视频分析方法及其相关的模型训练方法、设备、装置
CN113505719B (zh) 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法
CN114492634B (zh) 一种细粒度装备图片分类识别方法及系统
CN110717374A (zh) 一种基于改进的多层感知机的高光谱遥感影像分类方法
CN112528077B (zh) 基于视频嵌入的视频人脸检索方法及系统
CN113505856A (zh) 一种高光谱影像无监督自适应分类方法
CN112800979A (zh) 一种基于表征流嵌入网络的动态表情识别方法及系统
CN112200093B (zh) 一种基于不确定性估计的行人再识别方法
CN114648722A (zh) 一种基于视频多路径时空特征网络的动作识别方法
CN113221693B (zh) 一种动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant