CN109063568B

CN109063568B - 一种基于深度学习的花样滑冰视频自动打分的方法

Info

Publication number: CN109063568B
Application number: CN201810721097.3A
Authority: CN
Inventors: 付彦伟; 徐程明; 姜育刚; 薛向阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-07-04
Filing date: 2018-07-04
Publication date: 2020-12-22
Anticipated expiration: 2038-07-04
Also published as: CN109063568A

Abstract

本发明公开了一种基于深度学习的花样滑冰视频自动打分的方法。本发明根据花样滑冰运动的技术总分(TES)与节目内容分(PCS)的定义以及针对的不同方面，基于深度学习的思想提出了自注意力机制的局部信息提取模块以及多尺度卷积神经网络的全局信息提取模块，并且联合这两个模块提出了基于视频片段级特征的花样滑冰视频自动打分的方法。该方法具有精度高、鲁棒性好等优点，不仅适用于花样滑冰运动，也适用于依据技术动作和整体表现进行打分的其他运动。

Description

一种基于深度学习的花样滑冰视频自动打分的方法

技术领域

本发明属于计算机视频分析技术领域，具体涉及一种基于深度学习的花样滑冰视频自动打分的方法。

背景技术

视频已经成为人类生活中必不可少的一个组成部分。在包括安防、机器人、娱乐等众多领域，视频以其所能传递的丰富信息为人类提供便捷的服务，而视频的实用性使得录制、观看及传播越来越广泛。伴随着视频推广，对大量视频进行观看分析所需要消耗的人力与物力也成为了棘手的问题。针对这个问题，一个有效的解决方法就是利用机器代替人，自动提取视频中有用的信息进行分析。因此，视频理解已经成为计算机视觉中一个受到较多关注的主题，而视频打分则是视频理解中比较具体的一个方向。

针对花样滑冰运动视频的打分，一般在花样滑冰比赛中，裁判会根据选手的表现打出分数，最终分数有两个重要的组成部分，一个是技术总分(TES)，这个分数主要侧重每一项花样滑冰的技术动作要素，另一个分数是节目内容分(PCS)，这个分数与技术总分中没有涵盖的细节和节目的艺术表现方面有关。

近年来机器学习方法在视频分析领域应用愈加广泛，但是在视频打分特别是花样滑冰运动视频打分上的应用较少且效果差。公开的可供训练模型的相关数据集较少，且只包含了少量的视频。

文[1]提出了通过离散余弦变换(DCT)的方法获得人体姿势特征作为视频的高级特征，并且使用支持向量回归(SVR)的方法进行分数的预测。该方法计算姿势特征的过程较为复杂，计算速度慢且精确度低。

文[2]提出了通过预训练的三维卷积神经网络(C3D)提取视频特征序列，以对整个序列平均的形式获得视频级的特征，并且通过支持向量回归(SVR)进行分数的预测。该方法虽然使用了深度神经网络的结构，但是没有充分利用视频中的信息，得到的视频特征不足以对两种分数分别进行精确的预测，因此精确度低。

发明内容

为了克服现有技术的不足，本发明提出了一种基于深度学习的花样滑冰视频自动打分的方法。本发明通过收集正规赛事的花样滑冰视频以及职业裁判的打分作为标注，考虑每个视频中对两个不同分数做出贡献的具体部分，训练了一个深度神经网络模型，同时采用了多层的全连接神经网络模型取代支持向量回归模型，因此本发明方法在分数预测的精度上更胜一筹，并且在速度上比传统的特征计算过程更快。

本发明设计了基于自注意力机制的深度网络模型来学习获得视频中关键的技术动作，并且设计了多尺度的卷积神经网络同时学习获得视频中的全局和局部信息。几种不同程度的信息最后使用文[3]提出的长短时记忆网络(LSTM)与多个非线性变换层组合得到更完善的视频表征。在使用长短时记忆网络(LSTM)时，本发明方法采用了可跳跃式的模型，同时学习获取序列信息与对是否跳过当前时间输入进行决策。这样生成的表征既包含了预测技术总分(TES)需要的关键技术动作的信息，同时包含了预测节目内容分(PCS)需要的整体表现的信息。本发明的技术方案具体介绍如下。

一种基于深度学习的花样滑冰视频自动打分的方法，具体步骤如下：

步骤1：收集来自不同选手和不同高等级赛事的花样滑冰视频数据，然后对于每个视频，标注出裁判的专业打分；

步骤2：对收集到的视频进行预处理并提取低阶特征序列；

步骤3：构建基于自注意力模块和多尺度卷积模块的深度神经网络对视频的特征序列进行处理获得更高阶、更全面的视频表征；其中:基于自注意模块的深度神经网络使用2层全连接层和非线性层得到不同时间的注意力权重，并对特征序列得到更短的加权和序列，使用长短时记忆网络LSTM处理序列；基于多尺度卷积模块的深度神经网络使用卷积核大小为2和4的1维卷积提取序列中的局部信息，使用可跳跃的长短时记忆网络skip-LSTM处理两个序列，使用卷积核大小为8的1维卷积提取序列中的全局信息，使用长短时记忆网络LSTM处理序列；

步骤4：构建预测分数用的深度神经网络模型；

步骤5：构建损失函数；

步骤6：训练深度神经网络模型，训练完成之后，对于要打分的一个花样滑冰视频，通过抽帧、提取低阶特征序列、输入深度神经网络模型的方式得到预测的技术总分TES和节目内容分PCS。

本发明中，步骤2中，对视频以16帧组成一个片段，相邻片段重复8帧，使用预训练的C3D模型对每个片段提取特征。

本发明中，步骤3中，可跳跃的长短时记忆网络LSTM在传统LSTM[6]]基础上增加了涉及更新的门限函数u_t，具体更新公式如下：

i_t，f_t，o_t＝σ(W_xx_t+W_hh_t-1+b)

g_t＝tanh(W_xgx_t+W_hgh_t-1+b_g)

c_t＝f_t⊙c_t-1+u_t·i_t⊙g_t

h_t＝((1-u_t)·o_t+u_t·o_t-1)⊙tanh(c_t)

其中：W_x，W_h，W_xg，W_hg，W_p为可学习权重，b，b_g为可学习偏置，f_binary为舍入函数，tanh为双曲正切函数，σ为Sigmoid函数，min为二元最小值函数，⊙为逐项乘积，u_t，i_t，f_t，o_t分别为LSTM单元中控制状态更新、信息输入、信息丢弃、信息输出的门限，其形式为各项元素在[0，1]中的向量。

本发明中，步骤4中，神经网络模型包括自注意力模块和多尺度卷积模块输出的每个信息分支中各自的1层全连接层和非线性层，以及连接后的2层全连接层和非线性层。

本发明中，步骤5中，使用预测分数与实际分数的平均平方误差构建损失函数。

本发明中，步骤6中，训练深度神经网络模型时，利用反向传播的算法，优化深度神经网络模型中的参数。

和现有技术相比，本发明的有益效果在于：

1.使用自注意力机制进行视频分析，从视频中获取关键技术动作信息的同时，除此之外对多尺度卷积神经网络输出使用可跳跃的LSTM模型，减少了LSTM模型的输入序列长度，一定程度上使得训练更加快速、稳定。

2.使用多层非线性神经网络对不同信息进行整合，使得整个模型能够端到端地训练。

附图说明

图1是本发明提出的花样滑冰视频打分系统图。

图2是本发明提出的花样滑冰视频打分算法流程图。

图3是本发明设计的双模块深度神经网络的结构示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案进行详细阐述。

图1为本发明的花样滑冰视频打分方法采用的系统的图。该系统100包括媒体数据101，计算设备110和展示设备191。媒体数据101可以是视频内容，即连续的视频帧，如电视节目、电影等。媒体数据101可以通过传统的广播电视、有线电视、因特网(Internet) 传播。在某些实现中，媒体数据101还可以是包含花样滑冰识别的其他类图像数据。

计算设备110是处理媒体数据101的计算设备，主要包括计算机处理器120，内存130。处理器120是一个用于计算设备110的硬件处理器，如中央处理器CPU，图形计算处理器(Graphical Process Unit)。内存130是一个非易失的存储设备，用于储存计算机代码用于处理器120的计算过程，同时，内存130也会存储各类中间数据、及参数。内存130包括花样滑冰数据集135及其相关数据、可执行代码140。可执行代码140包括一至多个软件模块，用于执行计算机处理器120的计算。如图1所示，可执行代码140包括媒体数据解析模块141，M-LSTM模块143，S-LSTM模块144和特征融合模块147

媒体数据解析模块141，是处理媒体数据101的代码模块，可以对视频内容进行解码、抽帧、提取特征序列。在某些视线中，媒体数据解析模块141还可以对包含花样滑冰的图像数据提取特征。

M-LSTM模块143，用于从媒体数据解析模块141得到的数据中提取全局信息，即从花样滑冰视频数据中提取整体表现相关的信息，同时提取局部信息以补全S-LSTM模块144得到的信息。

S-LSTM模块144，用于从媒体数据解析模块141得到的数据中提取局部信息，即从花样滑冰视频数据中提取关键技术动作相关的信息。

特征融合模块147，是用于整合M-LSTM模块143和S-LSTM模块144得到的信息，并对分数进行预测。

展示设备191是适合播放媒体数据101和显示计算设备110 输出的预测分数的设备，可以是电脑、电视或者移动设备；展示设备191播放媒体数据101和显示计算设备110 输出的预测分数即为展示195。

实施例1

步骤1.对花样滑冰视频进行收集与标注。在收集视频时，应首先确保来自不同比赛的视频评分标准是一样的，为此，我们只收集近5年的相关视频；同时从正规的高级别花样滑冰赛事，例如国际滑冰联盟花样滑冰大奖赛日本站(NHK)，中国杯世界花样滑冰大奖赛(CoC)等一系列赛事中选取不同选手比赛视频。每个视频对应九名裁判的打分。最后得到的500个视频包含来自20个国家的149位不同的选手。在此基础上我们收集每个视频对应的技术总分(TES)与节目内容分(PCS)；

步骤2.对收集到的视频进行预处理并提取低阶特征序列。由于以整个视频作为深度神经网络的输入较为复杂，一般以图像序列的形式进行输入。因此，本发明对视频进行解码与抽帧，得到每个视频的一系列静态帧。首先本发明使用ffmpeg等工具对视频进行解码与抽帧，由于花样滑冰视频中的动作较快，使用每秒25帧作为帧率。对得到的帧采用预训练好的文[4]中的三维卷积神经网络模型(C3D)提取特征，以每16帧作为一个片段，相邻片段间有8帧的重叠。将每个片段作为C3D模型的输入，分别得到4096维的特征，最后组成一个特征序列，作为视频的低阶特征F＝(f₁,f₂,…,f_T)，其中元素f_t表示第t个片段得到的4096维的向量。

步骤3.构建双模块的深度神经网络对视频的特征序列进行处理获得更高阶、更全面的视频表征。第一个模块是基于自注意力机制的深度网络模型，我们设计了一个两层的感知机获得视频特征(片段)序列中不同时间的注意力权重A＝Softmax(W_s2tanh₂(W_s1F^T))，其中F^T为矩阵F的转置矩阵，Softmax为Softmax函数，W_s1,W_s2分别是维度为4096×d₁与 d₁×d₂的可学习参数矩阵，d₁,d₂为可调整超参数，其中d₂为意图从视频序列中抽出的关键片段个数。之后，对特征序列进行加权和，获得更短的序列M＝A·F，其中⊙表示逐项乘积。这个序列被作为一个长短时记忆网络(LSTM)的输入，以此获得有关所有关键技术动作的信息。我们使用LSTM模型最后时刻的输出作为这个模块的输出。另一个模块是多尺度卷积神经网络模型，我们设计了三个尺度的一维卷积神经网络，小尺度卷积被用来提取局部信息，补足前一模块可能存在的信息缺失，大尺度卷积被用来提取全局信息，帮助模型理解视频中的整体表现。不同尺度的网络输出分别输入三个LSTM模型进行序列处理。对两个小尺度卷积网络的输出，其中冗余信息较多，不符合我们对其功能的需求，因此我们设计了可跳跃的LSTM模型以替代传统的LSTM模型，用来舍弃冗余信息。传统的LSTM 更新公式如下：

i_t，f_t，o_t＝σ(W_xx_t+W_hh_t-1+b)

g_t＝tanh(W_xgx_t+W_hgh_t-1+b_g)

c_t＝f_t⊙c_t-1+i_t⊙g

h_t＝o_t⊙tanh(c_t)

其中W_x,W_h,W_xg,W_hg为可学习权重，b,b_g为可学习偏置，tanh为双曲正切函数，σ为Sigmoid 函数，⊙为逐项乘积，i_t,f_t,o_t分别为LSTM单元中控制信息输入、信息丢弃、信息输出的门限，其形式为各项元素在[0,1]中的向量。

可跳跃的LSTM模型在传统LSTM基础上增加了涉及更新的门限函数u_t，具体更新公式如下：

i_t，f_t，o_t＝σ(W_xx_t+W_hh_t-1+b)

g_t＝tanh(W_xgx_t+W_hgh_t-1+b_g)

c_t＝f_t⊙c_t-1+u_t·i_t⊙g_t

h_t＝((1-u_t)·o_t+u_t·o_t-1)⊙tanh(c_t)

其中W_x,W_h,W_xg,W_hg,W_p为可学习权重，b,b_g为可学习偏置，f_binary为舍入函数，tanh为双曲正切函数，σ为Sigmoid函数，min为二元最小值函数，⊙为逐项乘积，u_t,i_t,f_t,o_t分别为LSTM单元中控制状态更新、信息输入、信息丢弃、信息输出的门限，其形式为各项元素在[0,1]中的向量。门限函数u_t帮助模型丢滑冰过程中一些过渡性的片段输入，从而减少序列长度，加快训练。我们使用三个LSTM模型最后时刻的输出作为这个模块的输出。

步骤4.构建预测分数用的神经网络模型。对每个模块的输出，一共有4个分支，我们对每个分支先设计了一层的全连接网络配合ReLU激活函数进行非线性变换并减少特征维度，之后将4个分支的输出进行连接，并输入到另一个两层的全连接网络，得到最后的预测分数。

步骤5.构建损失函数。我们使用预测分数与实际分数的平均平方误差(MeanSquare Error)作为整个网络的目标函数。这个目标函数可以有效地表示模型的预测能力和实际结果的差距。

步骤6.训练神经网络模型。在训练用的视频数据以及标注准备完成后，使用这些数据进行模型的训练。我们采用Adam优化器对网络进行训练，初始学习率lr＝0.0005，系数betas＝(0.9,0.999)，权重衰减系数为0.00001。网络一共训练大约200轮直至收敛。

我们使用Fis-V数据集中的400个视频进行训练，另外100个视频进行测试，测试结果为预测TES分数与实际TES分数之间的平均平方误差为17.76，Spearman相关系数为0.64，测试结果为预测PCS分数与实际PCS分数之间的平均平方误差为7.87，Spearman 相关系数为0.78。

参考文献

[1]Pirsiavash H,Vondrick C,Torralba A.Assessing the quality ofactions[C]//European Conference on Computer Vision.Springer,Cham,2014:556-571.

[2]Parmar P,Morris B T.Learning to score olympic events[C]//ComputerVision and Pattern Recognition Workshops(CVPRW),2017IEEE Conference on.IEEE,2017:76-84.

[3]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neuralcomputation,1997,9(8): 1735-1780.

[4]Tran D,Bourdev L,Fergus R,et al.Learning spatiotemporal featureswith 3d convolutional networks[C]//Computer Vision(ICCV),2015IEEEInternational Conference on.IEEE, 2015:4489-4497.

[5]Kingma D P,Ba J.Adam:A method for stochastic optimization[J].arXivpreprint arXiv:1412.6980,2014.

[6]Víctor Campos,Brendan Jou,Xavier Giró-i Nieto,Jordi Torres,andShih-Fu

[7]Chang.Skip rnn:Learning to skip state updates in recurrent neuralnetworks.

[8]ICLR,2018.

Claims

1.一种基于深度学习的花样滑冰视频自动打分的方法，其特征在于，具体步骤如下：

步骤2：对收集到的视频进行预处理并提取低阶特征序列；

步骤3：构建基于自注意力模块和多尺度卷积模块的深度神经网络对视频的特征序列进行处理获得更高阶、更全面的视频表征；其中：基于自注意模块的深度神经网络使用2层全连接层和非线性层得到不同时间的注意力权重，并对特征序列得到更短的加权和序列，使用长短时记忆网络LSTM处理序列；基于多尺度卷积模块的深度神经网络使用卷积核大小为2和4的1维卷积提取序列中的局部信息，使用可跳跃的长短时记忆网络skip-LSTM处理两个序列，使用卷积核大小为8的1维卷积提取序列中的全局信息，使用长短时记忆网络LSTM处理序列；

步骤4：构建预测分数用的深度神经网络模型；

步骤5：构建损失函数；

步骤6：训练深度神经网络模型，训练完成之后，对于要打分的一个花样滑冰视频，通过抽帧、提取低阶特征序列、输入深度神经网络模型的方式得到预测的技术总分TES和节目内容分PCS；其中：

步骤3中，可跳跃的长短时记忆网络LSTM在传统LSTM基础上增加了涉及更新的门限函数u_t，具体更新公式如下：

i_t，f_t，o_t＝σ(W_xx_t+W_hh_t-1+b)

g_t＝tanh(W_xgx_t+W_hgh_t-1+b_g)

c_t＝f_t⊙c_t-1+u_t·i_t⊙g_t

h_t＝((1-u_t)·o_t+u_t·o_t-1)⊙tanh(c_t)

2.根据权利要求1所述的方法，其特征在于，步骤2中，对视频以16帧组成一个片段，相邻片段重复8帧，使用预训练的C3D模型对每个片段提取特征。

3.根据权利要求1所述的方法，其特征在于，步骤4中，神经网络模型包括自注意力模块和多尺度卷积模块输出的每个信息分支中各自的1层全连接层和非线性层，以及连接后的2层全连接层和非线性层。

4.根据权利要求1所述的方法，其特征在于，步骤5中，使用预测分数与实际分数的平均平方误差构建损失函数。

5.根据权利要求1所述的方法，其特征在于，步骤6中，训练深度神经网络模型时，利用反向传播的算法，优化深度神经网络模型中的参数。