CN111046740B

CN111046740B - 针对人类动作视频基于全张量化循环神经网络的分类方法

Info

Publication number: CN111046740B
Application number: CN201911123696.6A
Authority: CN
Inventors: 江喆; 程雨夏; 吴卿
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-11-17
Filing date: 2019-11-17
Publication date: 2023-05-19
Anticipated expiration: 2039-11-17
Also published as: CN111046740A

Abstract

本发明公开了一种针对人类动作视频基于全张量化循环神经网络的分类方法，本发明将全部视频文件先随机选取训练集和测试集，把每个视频文件按时间步读取成每一帧的形式保存成数组；往网络中输入当时时刻输入X ^t和上一时刻隐含层状态H ^t‑1，生成当前时刻的隐含层状态H ^t，将H ^t与权重张量V爱因斯坦乘，得到的输出张量O ^t，展开成向量形式，经过Softmax函数之后，得包含每个分类概率结果的向量y^t；y^t和当前时刻的标签值

进行损失计算，通过误差反向传播，修正权重张量；确定是否前部16帧输入，如果否则重新输入张量X ^t，反之则作为输出；本发明使得网络模型的可适用性大大提升，可处理更加高维的数据，模型的通用性更强，适用于任意阶的数据。

Description

针对人类动作视频基于全张量化循环神经网络的分类方法

技术领域

本发明涉及结合张量(Tensor)与RNN(Recurrent Neural Network)的深度学习领域，具体涉及一种针对人类动作视频基于全张量化表示循环神经网络结构的分类方法。

背景技术

人类的每个动作，不管是不是不经意的，都带有其目的。比如说当我们渴望被注意到时，我们会挥舞我们的双手。每个人的视觉系统会捕捉每个动作并理解，但是在现实世界，如果要一直监控人类的动作需要昂贵的人力资源。如果能让机器分辨出这些动作的目的就能解决这一问题。所以本文提出了一种利用全张量化循环神经网络的方法来学习并分类人类动作。

视频是一个天然的张量，一阶是时间戳，剩余的阶就是图像的长和宽以及RGB三个通道的值。固定时间戳那一阶，可以得到某一帧，也就是一张图片。所以视频分类任务也可以是看作是时序的图像分类任务。而循环神经网络刚好很适合处理时序数据，所以传统的时序图像分类问题都是直接用传统RNN或其变种完成的。前面提到了如果视频的每一帧都是一个RGB图像的话，那就是一个高阶的时序数据，当这样的高阶数据传入到传统的循环神经网络中时，权重矩阵是没法与之运算的。所以，这就需要我们提出一种适用于高阶时序数据的神经网络通用模型，并且网络结构中的运算也是适用于高阶的，损失函数也采用了更适合于高阶数据的Tensor Distance。

发明内容

本发明针对现有技术的不足，提出了一种针对动作视频分类基于全张量化循环神经网络的方法。

要解决的技术问题是由于视频是天然的高阶数据，普通的循环神经网络只能接受矩阵形式的输入，因此矩阵的操作并不再适用，而且数据的表示形式也发生了改变，这时需要一种更加通用的高阶模型。

为了解决这一问题，本发明通过以下技术方案予以实现：

一种针对人类动作视频基于全张量化循环神经网络的分类方法，包括如下步骤：

1)所有分类的全部视频文件先随机选取80％作为训练集，剩下20％作为测试集；

2)把每个视频文件按时间步读取成每一帧的形式保存成数组；

3)在每个时间步都往RNN中传入一个N阶输入张量X ^t，代表的是每帧RGB图片；

输入张量X ^t与(M+N)阶的权重张量U爱因斯坦乘；初始化一个M阶隐含层状态H ^t-1，与(M+M)阶的权重张量W爱因斯坦乘之后的结果，然后两者结果相加，经过一个激励函数tanh之后，生成当前时刻的隐含层状态H ^t，具体公式为H ^t＝tanh(U*_N X ^t+W*_M H ^t-1)；

4)步骤3)得到的当前时刻的M阶隐含层状态H ^t与(L+M)阶权重张量V爱因斯坦乘，其结果经过一个激励函数tanh，得到当前时刻的L阶输出张量O ^t，具体公式为O ^t＝tanh(V*_M H ^t)；

5)把步骤4)得到的输出张量O ^t展开成向量形式，然后经过Softmax函数之后，得到一个当前时刻包含每个分类概率结果的向量y^t；此向量中权重值最大的元素便是网络预测的最终分类结果，具体公式为y^t＝softmax(reshape(O ^t))；

6)把步骤5)得到的分类结果向量y^t和当前时刻的标签值

分别作为TensorDistance损失函数/>

的两个输入，计算其损失值；公式中g_lm代表是l和m之间的系数，G代表的是系数矩阵,I₁×I₂×…×I_N代表的是N阶张量每个阶的大小，l、m代表的是选取的元素序号，x_l、x_m代表张量X展开成向量形式后的第l个元素即x_l与第m个元素即x_m，y_l、y_m同理；通过误差反向传播，修正网络中的权重张量W，V，U；其中

σ₁代表的是正则化参数，||p_l-p_m||₂代表是张量X展开成向量形式后的第l个元素即x_l与第m个元素即x_m之间的位置距离；所以损失函数L：/>

7)重复执行步骤3)到步骤6)，待16帧全部输入之后，取最后时刻的输出作为此动作视频文件的最终分类结果。

作为优选，把每个视频文件按时间步读取成每一帧的形式保存成数组，具体为：按时间顺序随机取16帧，截取每一帧图片大小为112pixel*112pixel代表这个视频文件的内容；每张图片都是RGB图片，即3个通道，所以每个视频文件最后作为输入的数据大小是shape为3*16*112*112的4阶张量。

本发明相对于现有技术所具有的效果：

1)本发明使用了一种基于全张量化神经网络的方法，旨在提出高阶的通用模型。使得网络模型的可适用性大大提升，可处理更加高维的数据。

2)本发明使用了Einstein Product，也就是爱因斯坦乘。该乘法用于张量之间的收缩操作，类似于矩阵乘法的高阶形式。引入该乘法是为了在高阶张量之间做运算，使得模型的通用性更强，适用于任意阶的数据。

3)本发明使用了Tensor Distance，也就是张量距离这一损失函数。该函数用于计算张量之间各个元素之间的损失，类似于欧式距离的高阶形式。引入这一损失函数是为了让网络考虑张量各个阶下标之间的关系。能够让网络模型适用性更强，适合高阶形式的输出。

附图说明

图1是本发明提出的全张量化之后的RNN网络结构图；

图2是本发明的整体流程图。

具体实施方式

下面结合附图与具体实施方式对本发明做进一步的描述：

如图1所示的是本发明提出的基于全张量化之后的循环神经网络模型。左边是网络的结构和大体流程。网络中的所有权重、输入、输出都是张量，而且权重张量W，V，U是共享的。左边图沿着时间步展开就得到右边的图，其代表的就是循环神经网络的整个训练过程。由右图可看到，在初始时刻，会有一个初始化的权重W以及初始化的隐含层状态H，然后每一时刻都有一个输出O，但是在视频分类的任务中，我们只需要最后时刻的输出就够了，所以我们的模型其实是一种many-to-one的模式。输出的张量要经过向量化、Softmax等操作以后得到分类结果y，然后与标签

分别传入到损失函数Tensor Distance，也就是L中得到误差值。通过误差反向传播更新权重张量W，V，U，使得最后的输出分类更加精确。

如图2所示的一种针对人类动作视频基于全张量化RNN的分类方法：

1)所有分类的全部视频文件先随机选取80％作为训练集，剩下20％作为测试集。

2)把每个视频文件按时间步读取成每一帧的形式保存成数组，按时间顺序随机取16帧，截取每一帧图片大小为112pixel*112pixel代表这个视频文件的内容。每张图片都是RGB图片，即3个通道，所以每个视频文件最后作为输入的数据大小是shape为(3*16*112*112)的4阶张量。

3)在每个时间步都往RNN中传入一个(3*112*112)的3阶输入张量X，代表的是每帧RGB图片，一共选取了16帧，也就是16个时间步。3阶的输入张量X与6阶的权重张量U爱因斯坦乘最后得到一个3阶的张量。爱因斯坦乘也就是收缩积，举个例子，两个存在相同N阶的张量，张量A与张量B之间的爱因斯坦乘可以表示为：

其中

初始化一个4阶的隐含层状态H ^t-1，与7阶的权重张量W爱因斯坦乘之后同样得到一个3阶的张量，两个3

阶的张量相加，经过一个激励函数tanh之后，生成当前时刻的3阶隐含层状态H ^t，具体公式为H ^t＝tanh(U*₃ X ^t+W*₄ H ^t-1)。

4)步骤3)得到的当前时刻的4阶隐含层状态H ^t与7阶权重张量V爱因斯坦乘，其结果经过一个激励函数tanh，得到当前时刻的3阶输出张量O ^t，具体公式为O ^t＝tanh(V*₄ H ^t)。

5)把步骤4)得到的输出张量O ^t展开成向量形式，然后经过Softmax函数之后，得到一个当前时刻包含每个分类概率结果的向量y^t。此向量中权重值最大的元素便是网络预测的最终分类结果，具体公式为y^t＝softmax(reshape(O ^t))。

6)把步骤5)得到的分类结果向量y^t和当前时刻的标签值

分别作为TensorDistance损失函数/>

的两个输入，计算其损失值。通过误差反向传播，修正网络中的权重张量W，V，U。其中/>

所以损失函数L也可以表示为：/>

Claims

1.针对人类动作视频基于全张量化循环神经网络的分类方法，其特征在于，该方法具体包括以下步骤：

3)在每个时间步都往RNN中传入一个N阶输入张量X ^t，代表的是每帧RGB图片；输入张量X ^t与(M+N)阶的权重张量U爱因斯坦乘；初始化一个M阶隐含层状态H ^t-1，与(M+M)阶的权重张量W爱因斯坦乘之后的结果，然后两者结果相加，经过一个激励函数tanh之后，生成当前时刻的隐含层状态H ^t，具体公式为H ^t＝tanh(U*_N X ^t+W*_M H ^t-1)；

6)把步骤5)得到的分类结果向量y^t和当前时刻的标签值

分别作为Tensor Distance损失函数/>

的两个输入，计算其损失值；公式中g_lm代表是l和m之间的系数，G代表的是系数矩阵,I₁×I₂×…×I_N代表的是N阶张量每个阶的大小，l、m代表的是选取的元素序号，x_l、x_m代表张量X展开成向量形式后的第l个元素即x_l与第m个元素即x_m，y_l、y_m同理；通过误差反向传播，修正网络中的权重张量W，V，U；其中/>

σ₁代表的是正则化参数，||p_l-p_m||₂代表是张量X展开成向量形式后的第l个元素即x_l与第m个元素即x_m之间的位置距离；所以损失函数L：

2.根据权利要求1所述的针对人类动作视频基于全张量化循环神经网络的分类方法，其特征在于：把每个视频文件按时间步读取成每一帧的形式保存成数组，具体为：按时间顺序随机取16帧，截取每一帧图片大小为112pixel*112pixel代表这个视频文件的内容；每张图片都是RGB图片，即3个通道，所以每个视频文件最后作为输入的数据大小是shape为3*16*112*112的4阶张量。