CN107423725A

CN107423725A - 一种基于混合时间卷积和循环网络的视频动作分割方法

Info

Publication number: CN107423725A
Application number: CN201710686863.2A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2017-12-01

Abstract

本发明中提出的一种基于混合时间卷积和循环网络的视频动作分割方法，其主要内容包括：模型结构、模型迁移变异和模型参数设置，其过程为，首先设计由卷积层、激活函数和池化层组成的编码器、由上采样层和长短期记忆网络组成的解码器和Sofmax分类器，原始视频帧信号经过编码器的处理得到中间层结果，该结果再作为解码器的输入经过处理后输送到分类器就行视频动作的分割识别与分类。本发明可以处理不同压缩程度的视频信号，提供一个混合时间网络来解决视频动作分割，提高了动作内容识别精度与效率。

Description

一种基于混合时间卷积和循环网络的视频动作分割方法

技术领域

本发明涉及视频分割领域，尤其是涉及了一种基于混合时间卷积和循环网络的视频动作分割方法。

背景技术

视频动作分割与分析，是计算机视觉研究领域中一个重要课题，同时也是了解人类活动的重大进展之一，由此在近年来引起广泛关注。它是一个体现机器学习高阶理解能力的任务，目标在于学习并且确定在视频中进行的人类活动或者动作是哪一类型，具有何种属性。一种成熟并且易于实现的视频动作分割识别方法，将在监控、分析和交互控制三方面发挥潜在巨大应用价值。在监控方面，可在硬件自启动的条件下生成自动监控功能，学习并理解特定区域人群的大范围活动，如地铁、机场、公共广场、游泳池等，主要分析有无异常举动如公共区域恶意歹徒实施袭击前的动作或者不适人群在运动过程中的不正常举动比如溺水。而在分析方面，主要在医疗领域和体育运动领域具有较高研究价值，如分析病人的行为举止可帮助矫正正常的肢体活动、定位并理解运动员的动作如短跑、跳水等项目，可科学延长运动员体育生涯或提高其性能表现。最后在交互控制方面，在新兴工业界引起极大兴趣，如自动驾驶、智能家居、智能办公领域都有迅猛发展的势头。

动作分割至今仍然是一个具有挑战性的问题。由于任务中涉复杂的时空关系、远不止三维空间的信息量、长时间的动作含义难以理解等因素影响，难以针对性地使用网络对未明参数进行求解，同时视频动作的像素不限定、活动范围未定和局部感知区域分辨率未定等硬件条件也会对动作分析带来困难。

本发明提出了一种基于混合时间卷积和长短期记忆网络处理图像特征的新框架。设计由卷积层、激活函数和池化层组成的编码器、由上采样层和长短期记忆网络组成的解码器和Sofmax分类器，原始视频帧信号经过编码器的处理得到中间层结果，该结果再作为解码器的输入经过处理后输送到分类器就行视频动作的分割识别与分类。本发明可以处理不同压缩程度的视频信号，提供一个混合时间网络来解决视频动作分割，提高了动作内容识别精度与效率。

发明内容

针对解决在不同压缩程度视频中提取动作分析的问题，本发明的目的在于提供一种基于混合时间卷积和循环网络的视频动作分割方法，提出了一种基于混合时间卷积和长短期记忆网络处理图像特征的新框架。

为解决上述问题，本发明提供一种基于混合时间卷积和循环网络的视频动作分割方法，其主要内容包括：

(一)模型结构；

(二)模型迁移变异；

(三)模型参数设置。

其中，所述的模型结构，包括网络架构和动作分类。

所述的网络架构，由输入、编码器L_E、中间层L_mid、解码器L_D和分类器组成：其中，输入层接收原始视频帧数据流信号，经过由卷积层和池化层组成的模块处理后输出中间信号；循环网络接收中间信号作为该层输入，经过由上采样层和长短期记忆网络层组成的模块后输出待分类信号；待分类信号经过最后的Softmax分类器得到输出分类结果；具体地，令X_t表示在时间戳t时的输入向量，视频动作的分类标签分别为真实类(用1表示)和其他类(用0表示)，且对于没有预训练的视频帧则标以标签背景类；编码器和解码器都由K层组成，K为超参数，由数据库中视频数据的尺寸和出现频次决定，一般设置为2。

所述的编码器，由一个一维卷积网络、一个非线性激活函数E＝f(·)和一个最大值池化层组成：具体地，每一个编码层中卷积滤波器的个数用F_i表示，则滤波器集合为且其对应的偏差向量为由此，当上一层编码层中的池化层输出结果E^(i-1)后，当前层的激活值为：

其中，*表示一维卷积运算，同时，E⁽⁰⁾＝(X₁，...，X_T)是指输入视频帧级特征向量集合。

所述的解码器，由一个上采样层和两个长短期记忆网络层组成：具体地，1)输入到解码器的向量为最后一层激活值E⁽ⁱ⁾经过池化层得到的中间层L_mid结果；2)循环网络中使用隐藏状态的表征h＝(h₁，h₂，...，h_t)来将输入向量x＝(x₁，x，...，x_t)映射到输出序列y＝(y₁，y₂，...，y_t)；3)在长短期记忆网络中，该隐藏状态由以下公式更新：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)，

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)，

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)，

g_t＝tanh(W_xcx_t+W_hch_t-1+b_c)，

c_t＝f_tc_t-1+i_tg_t，

h_t＝o_t tanh(c_t) (2)

其中，σ(·)是sigmoid激活函数，tanh(·)是双曲线正切函数，i_t、f_t、o_t、和c_t分别是输入门、遗忘门、输出门和记忆单元激活向量。

所述的动作分类，在本网络中，利用已更新的隐藏状态Hⁱ作为每个解码层的输出：具体地，用H_i表示在单层长短期记忆网络中的隐藏状态数目，则每个时间戳上在输出端由于长短期记忆网络的前向与后向运算，该输出端维度为2H_i，因此到最后一层的解码层的输出时，得到一个2H_K维度的向量D_t；最后，利用跨时间段连接的Softmax分类器来计算在每个时间戳t上选取一个状态c作为该视频帧的动作分类的概率：

其中，是c类在时间t上的输出概率向量，D_t是解码器在时间t上的输出值，W_d是权重矩阵，b_d是偏置项。

所述的模型迁移变异，为适应不同特点的视频帧输入数据流，基于本网络作相应的改动，分别为一般模型和变异模型。

所述的一般模型，对每一层编码器使用混合时间卷积核，对每一层解码器使用双层长短期记忆网络；具体地，是使用不同的混合时间卷积核对局部动作变化编码，使用不同的长短期记忆网络对序列解码并从中学习不同层次的长期动作依赖集。

所述的变异模型，对不同的视频帧数据流，分别生成两种网络，具体为：1)高阶网络，仅对中间层L_mid使用长短期记忆网络，但同时对编码器和解码器使用混合时间卷积核，此网络用于对抽象级特征建模，尤其是视频信息高度压缩且标签信息并不明确时使用；2)低阶网络，仅对解码器的最后一层使用长短期记忆网络，但对编码器所有层和解码器除最后一层外所有层都是用混合时间卷积核，此网络用于低阶信息处理，尤其是信息较低程度被压缩时使用。

所述的模型参数设置，在编码器阶段，最大值池化层的宽度设置为2，其中每一层使用(32+32i)个卷积滤波器；在解码器阶段，上采样层操作为将原有数据重复两遍，每个长短期记忆网络层的隐藏状态数设置为2H_i；最后，使用正则化修正线性单元作为所有混合时间卷积层的激活函数，具体为：

其中，∈＝10^-5。

附图说明

图1是本发明一种基于混合时间卷积和循环网络的视频动作分割方法的系统流程图。

图2是本发明一种基于混合时间卷积和循环网络的视频动作分割方法的分析结果比较图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于混合时间卷积和循环网络的视频动作分割方法的系统流程图。主要包括数据输入；模型结构；模型迁移变异；模型参数设置。

其中，模型结构，包括网络架构和动作分类。

网络架构，由输入、编码器L_E、中间层L_mid、解码器L_D和分类器组成：其中，输入层接收原始视频帧数据流信号，经过由卷积层和池化层组成的模块处理后输出中间信号；循环网络接收中间信号作为该层输入，经过由上采样层和长短期记忆网络层组成的模块后输出待分类信号；待分类信号经过最后的Softmax分类器得到输出分类结果；具体地，令X_t表示在时间戳t时的输入向量，视频动作的分类标签分别为真实类(用1表示)和其他类(用0表示)，且对于没有预训练的视频帧则标以标签背景类；编码器和解码器都由K层组成，K为超参数，由数据库中视频数据的尺寸和出现频次决定，一般设置为2。

编码器，由一个一维卷积网络、一个非线性激活函数E＝f(·)和一个最大值池化层组成：具体地，每一个编码层中卷积滤波器的个数用F_i表示，则滤波器集合为且其对应的偏差向量为由此，当上一层编码层中的池化层输出结果E^(i-1)后，当前层的激活值为：

其中，*表示一维卷积运算，同时，E⁽⁰⁾＝(X₁,…,X_T)是指输入视频帧级特征向量集合。

解码器，由一个上采样层和两个长短期记忆网络层组成：具体地，1)输入到解码器的向量为最后一层激活值E⁽ⁱ⁾经过池化层得到的中间层L_mid结果；2)循环网络中使用隐藏状态的表征h＝(h₁,h₂,…,h_t)来将输入向量x＝(x₁,x,…,x_t)映射到输出序列y＝(y₁,y₂,…,y_t)；3)在长短期记忆网络中，该隐藏状态由以下公式更新：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)，

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)，

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)，

g_t＝tanh(W_xcx_t+W_hch_t-1+b_c)，

c_t＝f_tc_t-1+i_tg_t，

h_t＝o_t tanh(c_t) (2)

动作分类，在本网络中，利用已更新的隐藏状态Hⁱ作为每个解码层的输出：具体地，用H_i表示在单层长短期记忆网络中的隐藏状态数目，则每个时间戳上在输出端由于长短期记忆网络的前向与后向运算，该输出端维度为2H_i，因此到最后一层的解码层的输出时，得到一个2H_K维度的向量D_t；最后，利用跨时间段连接的Softmax分类器来计算在每个时间戳t上选取一个状态c作为该视频帧的动作分类的概率：

模型迁移变异，为适应不同特点的视频帧输入数据流，基于本网络作相应的改动，分别为一般模型和变异模型。

一般模型，对每一层编码器使用混合时间卷积核，对每一层解码器使用双层长短期记忆网络；具体地，是使用不同的混合时间卷积核对局部动作变化编码，使用不同的长短期记忆网络对序列解码并从中学习不同层次的长期动作依赖集。

变异模型，对不同的视频帧数据流，分别生成两种网络，具体为：1)高阶网络，仅对中间层L_mid使用长短期记忆网络，但同时对编码器和解码器使用混合时间卷积核，此网络用于对抽象级特征建模，尤其是视频信息高度压缩且标签信息并不明确时使用；2)低阶网络，仅对解码器的最后一层使用长短期记忆网络，但对编码器所有层和解码器除最后一层外所有层都是用混合时间卷积核，此网络用于低阶信息处理，尤其是信息较低程度被压缩时使用。

模型参数设置，在编码器阶段，最大值池化层的宽度设置为2，其中每一层使用(32+32i)个卷积滤波器；在解码器阶段，上采样层操作为将原有数据重复两遍，每个长短期记忆网络层的隐藏状态数设置为2H_i；最后，使用正则化修正线性单元作为所有混合时间卷积层的激活函数，具体为：

其中，∈＝10^-5。

图2是本发明一种基于混合时间卷积和循环网络的视频动作分割方法的分析结果比较图。如图所示，可以观察到在削黄瓜并且把黄瓜放进碗里的两个动作中，业界最好的方法时间卷积网络都判断错误，只有本文的方法判断准确，并且在整段视频动作分析的正确率中，本文方法也是比其他方法要提高10个百分点以上。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于混合时间卷积和循环网络的视频动作分割方法，其特征在于，主要包括模型结构(一)；模型迁移变异(二)；模型参数设置(三)。

2.基于权利要求书1所述的模型结构(一)，其特征在于，包括网络架构和动作分类。

3.基于权利要求书2所述的网络架构，其特征在于，由输入、编码器L_E、中间层L_mid、解码器L_D和分类器组成：其中，输入层接收原始视频帧数据流信号，经过由卷积层和池化层组成的模块处理后输出中间信号；循环网络接收中间信号作为该层输入，经过由上采样层和长短期记忆网络层组成的模块后输出待分类信号；待分类信号经过最后的Softmax分类器得到输出分类结果；具体地，令X_t表示在时间戳t时的输入向量，视频动作的分类标签分别为真实类(用1表示)和其他类(用0表示)，且对于没有预训练的视频帧则标以标签背景类；编码器和解码器都由K层组成，K为超参数，由数据库中视频数据的尺寸和出现频次决定，一般设置为2。

4.基于权利要求书3所述的编码器，其特征在于，由一个一维卷积网络、一个非线性激活函数E＝f(·)和一个最大值池化层组成：具体地，每一个编码层中卷积滤波器的个数用F_i表示，则滤波器集合为且其对应的偏差向量为由此，当上一层编码层中的池化层输出结果E^(i-1)后，当前层的激活值为：

5.基于权利要求书3所述的解码器，其特征在于，由一个上采样层和两个长短期记忆网络层组成：具体地，1)输入到解码器的向量为最后一层激活值E⁽ⁱ⁾经过池化层得到的中间层L_mid结果；2)循环网络中使用隐藏状态的表征h＝(h₁,h₂,…,h_t)来将输入向量x＝(x₁,x,…,x_t)映射到输出序列y＝(y₁,y₂,…,y_t)；3)在长短期记忆网络中，该隐藏状态由以下公式更新：

i_t＝σ(W_xix_t+W_hih_t-1+b_i),

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f),

o_t＝σ(W_xox_t+W_hoh_t-1+b_o),

g_t＝tanh(W_xcx_t+W_hch_t-1+b_c),

c_t＝f_tc_t-1+i_tg_t,

h_t＝o_ttanh(c_t) (2)

6.基于权利要求书2所述的动作分类，其特征在于，在本网络中，利用已更新的隐藏状态Hⁱ作为每个解码层的输出：具体地，用H_i表示在单层长短期记忆网络中的隐藏状态数目，则每个时间戳上在输出端由于长短期记忆网络的前向与后向运算，该输出端维度为2H_i，因此到最后一层的解码层的输出时，得到一个2H_K维度的向量D_t；最后，利用跨时间段连接的Softmax分类器来计算在每个时间戳t上选取一个状态c作为该视频帧的动作分类的概率：

7.基于权利要求书的1所述的模型迁移变异(一)，其特征在于，为适应不同特点的视频帧输入数据流，基于本网络作相应的改动，分别为一般模型和变异模型。

8.基于权利要求书7所述的一般模型，其特征在于，对每一层编码器使用混合时间卷积核，对每一层解码器使用双层长短期记忆网络；具体地，是使用不同的混合时间卷积核对局部动作变化编码，使用不同的长短期记忆网络对序列解码并从中学习不同层次的长期动作依赖集。

9.基于权利要求书7所述的变异模型，其特征在于，对不同的视频帧数据流，分别生成两种网络，具体为：1)高阶网络，仅对中间层L_mid使用长短期记忆网络，但同时对编码器和解码器使用混合时间卷积核，此网络用于对抽象级特征建模，尤其是视频信息高度压缩且标签信息并不明确时使用；2)低阶网络，仅对解码器的最后一层使用长短期记忆网络，但对编码器所有层和解码器除最后一层外所有层都是用混合时间卷积核，此网络用于低阶信息处理，尤其是信息较低程度被压缩时使用。

10.基于权利要求书1所述的模型参数设置(三)，其特征在于，在编码器阶段，最大值池化层的宽度设置为2，其中每一层使用(32+32i)个卷积滤波器；在解码器阶段，上采样层操作为将原有数据重复两遍，每个长短期记忆网络层的隐藏状态数设置为2H_i；最后，使用正则化修正线性单元作为所有混合时间卷积层的激活函数，具体为：

<mrow> <mi>N</mi> <mi>o</mi> <mi>r</mi> <mi>m</mi> <mo>.</mo> <mi>Re</mi> <mi>L</mi> <mi>U</mi> <mrow> <mo>(</mo> <mo>&CenterDot;</mo> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>Re</mi> <mi>L</mi> <mi>U</mi> <mrow> <mo>(</mo> <mo>&CenterDot;</mo> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>Re</mi> <mi>L</mi> <mi>U</mi> <mo>(</mo> <mo>&CenterDot;</mo> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <mo>&Element;</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中，∈＝10^-5。