CN111046740B - 针对人类动作视频基于全张量化循环神经网络的分类方法 - Google Patents

针对人类动作视频基于全张量化循环神经网络的分类方法 Download PDF

Info

Publication number
CN111046740B
CN111046740B CN201911123696.6A CN201911123696A CN111046740B CN 111046740 B CN111046740 B CN 111046740B CN 201911123696 A CN201911123696 A CN 201911123696A CN 111046740 B CN111046740 B CN 111046740B
Authority
CN
China
Prior art keywords
tensor
order
steps
representing
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911123696.6A
Other languages
English (en)
Other versions
CN111046740A (zh
Inventor
江喆
程雨夏
吴卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201911123696.6A priority Critical patent/CN111046740B/zh
Publication of CN111046740A publication Critical patent/CN111046740A/zh
Application granted granted Critical
Publication of CN111046740B publication Critical patent/CN111046740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种针对人类动作视频基于全张量化循环神经网络的分类方法,本发明将全部视频文件先随机选取训练集和测试集,把每个视频文件按时间步读取成每一帧的形式保存成数组;往网络中输入当时时刻输入X t和上一时刻隐含层状态H t‑1,生成当前时刻的隐含层状态H t,将H t与权重张量V爱因斯坦乘,得到的输出张量O t,展开成向量形式,经过Softmax函数之后,得包含每个分类概率结果的向量yt;yt和当前时刻的标签值
Figure DDA0002276171230000011
进行损失计算,通过误差反向传播,修正权重张量;确定是否前部16帧输入,如果否则重新输入张量X t,反之则作为输出;本发明使得网络模型的可适用性大大提升,可处理更加高维的数据,模型的通用性更强,适用于任意阶的数据。

Description

针对人类动作视频基于全张量化循环神经网络的分类方法
技术领域
本发明涉及结合张量(Tensor)与RNN(Recurrent Neural Network)的深度学习领域,具体涉及一种针对人类动作视频基于全张量化表示循环神经网络结构的分类方法。
背景技术
人类的每个动作,不管是不是不经意的,都带有其目的。比如说当我们渴望被注意到时,我们会挥舞我们的双手。每个人的视觉系统会捕捉每个动作并理解,但是在现实世界,如果要一直监控人类的动作需要昂贵的人力资源。如果能让机器分辨出这些动作的目的就能解决这一问题。所以本文提出了一种利用全张量化循环神经网络的方法来学习并分类人类动作。
视频是一个天然的张量,一阶是时间戳,剩余的阶就是图像的长和宽以及RGB三个通道的值。固定时间戳那一阶,可以得到某一帧,也就是一张图片。所以视频分类任务也可以是看作是时序的图像分类任务。而循环神经网络刚好很适合处理时序数据,所以传统的时序图像分类问题都是直接用传统RNN或其变种完成的。前面提到了如果视频的每一帧都是一个RGB图像的话,那就是一个高阶的时序数据,当这样的高阶数据传入到传统的循环神经网络中时,权重矩阵是没法与之运算的。所以,这就需要我们提出一种适用于高阶时序数据的神经网络通用模型,并且网络结构中的运算也是适用于高阶的,损失函数也采用了更适合于高阶数据的Tensor Distance。
发明内容
本发明针对现有技术的不足,提出了一种针对动作视频分类基于全张量化循环神经网络的方法。
要解决的技术问题是由于视频是天然的高阶数据,普通的循环神经网络只能接受矩阵形式的输入,因此矩阵的操作并不再适用,而且数据的表示形式也发生了改变,这时需要一种更加通用的高阶模型。
为了解决这一问题,本发明通过以下技术方案予以实现:
一种针对人类动作视频基于全张量化循环神经网络的分类方法,包括如下步骤:
1)所有分类的全部视频文件先随机选取80%作为训练集,剩下20%作为测试集;
2)把每个视频文件按时间步读取成每一帧的形式保存成数组;
3)在每个时间步都往RNN中传入一个N阶输入张量X t,代表的是每帧RGB图片;
输入张量X t与(M+N)阶的权重张量U爱因斯坦乘;初始化一个M阶隐含层状态H t-1,与(M+M)阶的权重张量W爱因斯坦乘之后的结果,然后两者结果相加,经过一个激励函数tanh之后,生成当前时刻的隐含层状态H t,具体公式为H t=tanh(U*N X t+W*M H t-1);
4)步骤3)得到的当前时刻的M阶隐含层状态H t与(L+M)阶权重张量V爱因斯坦乘,其结果经过一个激励函数tanh,得到当前时刻的L阶输出张量O t,具体公式为O t=tanh(V*M H t);
5)把步骤4)得到的输出张量O t展开成向量形式,然后经过Softmax函数之后,得到一个当前时刻包含每个分类概率结果的向量yt;此向量中权重值最大的元素便是网络预测的最终分类结果,具体公式为yt=softmax(reshape(O t));
6)把步骤5)得到的分类结果向量yt和当前时刻的标签值
Figure BDA0002276171210000021
分别作为TensorDistance损失函数/>
Figure BDA0002276171210000022
的两个输入,计算其损失值;公式中glm代表是l和m之间的系数,G代表的是系数矩阵,I1×I2×…×IN代表的是N阶张量每个阶的大小,l、m代表的是选取的元素序号,xl、xm代表张量X展开成向量形式后的第l个元素即xl与第m个元素即xm,yl、ym同理;通过误差反向传播,修正网络中的权重张量WVU;其中
Figure BDA0002276171210000023
Figure BDA0002276171210000024
σ1代表的是正则化参数,||pl-pm||2代表是张量X展开成向量形式后的第l个元素即xl与第m个元素即xm之间的位置距离;所以损失函数L:/>
Figure BDA0002276171210000025
7)重复执行步骤3)到步骤6),待16帧全部输入之后,取最后时刻的输出作为此动作视频文件的最终分类结果。
作为优选,把每个视频文件按时间步读取成每一帧的形式保存成数组,具体为:按时间顺序随机取16帧,截取每一帧图片大小为112pixel*112pixel代表这个视频文件的内容;每张图片都是RGB图片,即3个通道,所以每个视频文件最后作为输入的数据大小是shape为3*16*112*112的4阶张量。
本发明相对于现有技术所具有的效果:
1)本发明使用了一种基于全张量化神经网络的方法,旨在提出高阶的通用模型。使得网络模型的可适用性大大提升,可处理更加高维的数据。
2)本发明使用了Einstein Product,也就是爱因斯坦乘。该乘法用于张量之间的收缩操作,类似于矩阵乘法的高阶形式。引入该乘法是为了在高阶张量之间做运算,使得模型的通用性更强,适用于任意阶的数据。
3)本发明使用了Tensor Distance,也就是张量距离这一损失函数。该函数用于计算张量之间各个元素之间的损失,类似于欧式距离的高阶形式。引入这一损失函数是为了让网络考虑张量各个阶下标之间的关系。能够让网络模型适用性更强,适合高阶形式的输出。
附图说明
图1是本发明提出的全张量化之后的RNN网络结构图;
图2是本发明的整体流程图。
具体实施方式
下面结合附图与具体实施方式对本发明做进一步的描述:
如图1所示的是本发明提出的基于全张量化之后的循环神经网络模型。左边是网络的结构和大体流程。网络中的所有权重、输入、输出都是张量,而且权重张量WVU是共享的。左边图沿着时间步展开就得到右边的图,其代表的就是循环神经网络的整个训练过程。由右图可看到,在初始时刻,会有一个初始化的权重W以及初始化的隐含层状态H,然后每一时刻都有一个输出O,但是在视频分类的任务中,我们只需要最后时刻的输出就够了,所以我们的模型其实是一种many-to-one的模式。输出的张量要经过向量化、Softmax等操作以后得到分类结果y,然后与标签
Figure BDA0002276171210000031
分别传入到损失函数Tensor Distance,也就是L中得到误差值。通过误差反向传播更新权重张量WVU,使得最后的输出分类更加精确。
如图2所示的一种针对人类动作视频基于全张量化RNN的分类方法:
1)所有分类的全部视频文件先随机选取80%作为训练集,剩下20%作为测试集。
2)把每个视频文件按时间步读取成每一帧的形式保存成数组,按时间顺序随机取16帧,截取每一帧图片大小为112pixel*112pixel代表这个视频文件的内容。每张图片都是RGB图片,即3个通道,所以每个视频文件最后作为输入的数据大小是shape为(3*16*112*112)的4阶张量。
3)在每个时间步都往RNN中传入一个(3*112*112)的3阶输入张量X,代表的是每帧RGB图片,一共选取了16帧,也就是16个时间步。3阶的输入张量X与6阶的权重张量U爱因斯坦乘最后得到一个3阶的张量。爱因斯坦乘也就是收缩积,举个例子,两个存在相同N阶的张量,张量A与张量B之间的爱因斯坦乘可以表示为:
Figure BDA0002276171210000041
其中
Figure BDA0002276171210000042
初始化一个4阶的隐含层状态H t-1,与7阶的权重张量W爱因斯坦乘之后同样得到一个3阶的张量,两个3
阶的张量相加,经过一个激励函数tanh之后,生成当前时刻的3阶隐含层状态H t,具体公式为H t=tanh(U*3 X t+W*4 H t-1)。
4)步骤3)得到的当前时刻的4阶隐含层状态H t与7阶权重张量V爱因斯坦乘,其结果经过一个激励函数tanh,得到当前时刻的3阶输出张量O t,具体公式为O t=tanh(V*4 H t)。
5)把步骤4)得到的输出张量O t展开成向量形式,然后经过Softmax函数之后,得到一个当前时刻包含每个分类概率结果的向量yt。此向量中权重值最大的元素便是网络预测的最终分类结果,具体公式为yt=softmax(reshape(O t))。
6)把步骤5)得到的分类结果向量yt和当前时刻的标签值
Figure BDA0002276171210000043
分别作为TensorDistance损失函数/>
Figure BDA0002276171210000044
的两个输入,计算其损失值。通过误差反向传播,修正网络中的权重张量WVU。其中/>
Figure BDA0002276171210000051
所以损失函数L也可以表示为:/>
Figure BDA0002276171210000052
7)重复执行步骤3)到步骤6),待16帧全部输入之后,取最后时刻的输出作为此动作视频文件的最终分类结果。

Claims (2)

1.针对人类动作视频基于全张量化循环神经网络的分类方法,其特征在于,该方法具体包括以下步骤:
1)所有分类的全部视频文件先随机选取80%作为训练集,剩下20%作为测试集;
2)把每个视频文件按时间步读取成每一帧的形式保存成数组;
3)在每个时间步都往RNN中传入一个N阶输入张量X t,代表的是每帧RGB图片;输入张量X t与(M+N)阶的权重张量U爱因斯坦乘;初始化一个M阶隐含层状态H t-1,与(M+M)阶的权重张量W爱因斯坦乘之后的结果,然后两者结果相加,经过一个激励函数tanh之后,生成当前时刻的隐含层状态H t,具体公式为H t=tanh(U*N X t+W*M H t-1);
4)步骤3)得到的当前时刻的M阶隐含层状态H t与(L+M)阶权重张量V爱因斯坦乘,其结果经过一个激励函数tanh,得到当前时刻的L阶输出张量O t,具体公式为O t=tanh(V*M H t);
5)把步骤4)得到的输出张量O t展开成向量形式,然后经过Softmax函数之后,得到一个当前时刻包含每个分类概率结果的向量yt;此向量中权重值最大的元素便是网络预测的最终分类结果,具体公式为yt=softmax(reshape(O t));
6)把步骤5)得到的分类结果向量yt和当前时刻的标签值
Figure FDA0002276171200000011
分别作为Tensor Distance损失函数/>
Figure FDA0002276171200000012
的两个输入,计算其损失值;公式中glm代表是l和m之间的系数,G代表的是系数矩阵,I1×I2×…×IN代表的是N阶张量每个阶的大小,l、m代表的是选取的元素序号,xl、xm代表张量X展开成向量形式后的第l个元素即xl与第m个元素即xm,yl、ym同理;通过误差反向传播,修正网络中的权重张量WVU;其中/>
Figure FDA0002276171200000013
Figure FDA0002276171200000014
σ1代表的是正则化参数,||pl-pm||2代表是张量X展开成向量形式后的第l个元素即xl与第m个元素即xm之间的位置距离;所以损失函数L:
Figure FDA0002276171200000021
7)重复执行步骤3)到步骤6),待16帧全部输入之后,取最后时刻的输出作为此动作视频文件的最终分类结果。
2.根据权利要求1所述的针对人类动作视频基于全张量化循环神经网络的分类方法,其特征在于:把每个视频文件按时间步读取成每一帧的形式保存成数组,具体为:按时间顺序随机取16帧,截取每一帧图片大小为112pixel*112pixel代表这个视频文件的内容;每张图片都是RGB图片,即3个通道,所以每个视频文件最后作为输入的数据大小是shape为3*16*112*112的4阶张量。
CN201911123696.6A 2019-11-17 2019-11-17 针对人类动作视频基于全张量化循环神经网络的分类方法 Active CN111046740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911123696.6A CN111046740B (zh) 2019-11-17 2019-11-17 针对人类动作视频基于全张量化循环神经网络的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911123696.6A CN111046740B (zh) 2019-11-17 2019-11-17 针对人类动作视频基于全张量化循环神经网络的分类方法

Publications (2)

Publication Number Publication Date
CN111046740A CN111046740A (zh) 2020-04-21
CN111046740B true CN111046740B (zh) 2023-05-19

Family

ID=70232070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911123696.6A Active CN111046740B (zh) 2019-11-17 2019-11-17 针对人类动作视频基于全张量化循环神经网络的分类方法

Country Status (1)

Country Link
CN (1) CN111046740B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709553B (zh) * 2020-05-18 2023-05-23 杭州电子科技大学 一种基于张量gru神经网络的地铁流量预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958044A (zh) * 2017-11-24 2018-04-24 清华大学 基于深度时空记忆网络的高维序列数据预测方法和系统
CN108764128A (zh) * 2018-05-25 2018-11-06 华中科技大学 一种基于稀疏时间分段网络的视频动作识别方法
CN110348381A (zh) * 2019-07-11 2019-10-18 电子科技大学 一种基于深度学习的视频行为识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10509952B2 (en) * 2016-08-30 2019-12-17 Irida Labs S.A. Fast, embedded, hybrid video face recognition system
US10832440B2 (en) * 2017-08-31 2020-11-10 Nec Corporation Temporal multi-scale clockwork memory networks for object detection in videos

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958044A (zh) * 2017-11-24 2018-04-24 清华大学 基于深度时空记忆网络的高维序列数据预测方法和系统
CN108764128A (zh) * 2018-05-25 2018-11-06 华中科技大学 一种基于稀疏时间分段网络的视频动作识别方法
CN110348381A (zh) * 2019-07-11 2019-10-18 电子科技大学 一种基于深度学习的视频行为识别方法

Also Published As

Publication number Publication date
CN111046740A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
US11182620B2 (en) Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network
US20230359865A1 (en) Modeling Dependencies with Global Self-Attention Neural Networks
EP3963516B1 (en) Teaching gan (generative adversarial networks) to generate per-pixel annotation
KR20230104738A (ko) 비디오 행동 인식을 위한 시간적 병목 어텐션 아키텍처
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
US11961298B2 (en) Memory-guided video object detection
US11978141B2 (en) Generating images using sequences of generative neural networks
CN109543112A (zh) 一种基于循环卷积神经网络的序列推荐方法及装置
CN112818764A (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
CN112766062B (zh) 一种基于双流深度神经网络的人体行为识别方法
CN114548428B (zh) 基于实例重构的联邦学习模型智能攻击检测方法及装置
CN110781401A (zh) 一种基于协同自回归流实现的Top-n项目推荐方法
CN107945210A (zh) 基于深度学习和环境自适应的目标跟踪算法
CN107729885B (zh) 一种基于多重残差学习的人脸增强方法
Chen et al. Bayesian adaptive matrix factorization with automatic model selection
Shrivastava et al. Multiple kernel-based dictionary learning for weakly supervised classification
Cao et al. Hyperspectral imagery classification based on compressed convolutional neural network
CN111046740B (zh) 针对人类动作视频基于全张量化循环神经网络的分类方法
CN111310516B (zh) 一种行为识别方法和装置
US10530387B1 (en) Estimating an optimal ordering for data compression
Kumawat et al. Action recognition from a single coded image
CN114116995A (zh) 基于增强图神经网络的会话推荐方法、系统及介质
CN115346091A (zh) 一种Mura缺陷图像数据集的生成方法和生成装置
Agrawal et al. Deep variational inference without pixel-wise reconstruction
Sathya et al. Adversarially Trained Variational Auto-Encoders With Maximum Mean Discrepancy based Regularization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant