CN108681712A

CN108681712A - 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法

Info

Publication number: CN108681712A
Application number: CN201810475535.2A
Authority: CN
Inventors: 毋立芳; 杨洲; 贺娇瑜; 简萌
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2018-10-19
Anticipated expiration: 2038-05-17
Also published as: CN108681712B

Abstract

一种基于融合领域知识和深度多阶特征的篮球比赛语义事件识别方法，实现对篮球比赛中语义事件的自动识别。随着计算机视觉理论与深度神经网络的不断发展，基于内容的视频语义事件分析技术不断完善。该方案首先基于篮球领域先验知识对篮球语义事件划分为事件准备阶段，事件发生阶段和事件后续阶段。然后提取视频序列的全局和群体运动模式，随后通过分层网络对多阶段网络提取的特征进行融合，最后通过长短期记忆网络实现时域信息整合，实现篮球语义事件的识别。此发明对大规模篮球视频数据的智能化存储与检索以及篮球视频专业自动化战术分析奠定了基础。

Description

一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法

技术领域

本发明属于计算机视觉的视频语义事件识别领域，涉及基于深度神经网络的时空域特征提取与融合，具体涉及基于篮球领域知识的视频阶段划分以及基于卷积神经网络CNN和长短期记忆网络LSTM的特征提取与融合，提出了一种基于领域知识的多阶段群体行为识别的深度学习方法。

背景技术

视频语义事件识别是视频分析与理解领域中的关键技术之一。随着深度神经网络的不断发展以及科学计算设备的更新换代，基于深度学习的视频内容分析的方法发展迅速，应用领域不断得以拓展。主要应用领域有：智能视频监控领域，例如基于智能化视频语义分析技术实现公共场所的实时监控，突发事件预警等；视频检索与存储领域，比如应用视频语义分析技术实现大规模视频数据的智能化存储，审查以及检索等；体育视频分析领域，基于对体育视频的语义分析，实现对于体育赛事的辅助训练以及战术分析等。

本发明中的视频语义事件分类方法主要针对篮球视频中的事件分类。篮球赛事属于一种有计划的高协同群体行为，视频中的事件由多级别语义信息组成，一个完整的事件可以表达为不同运动员个体行为的集合，同时也可以表达为运动员群体之间运动模式的变化规律。通过对视频帧之间的光流图进行提取，即可获得群体和全局的融合运动模式(global and collective motion pattern GCMP)，如图1所示。接着对光流域图像进行空间域特征提取，并将空间域特征在时间域上进行整合，得到运动模式的时空域特征表达进行事件分类。在一个完整的篮球语义事件中，可以划分为三个不同的阶段。即事件准备阶段、事件发生阶段和事件后续阶段。本发明通过不同事件阶段之间的特征分层提取与融合建模，从而对篮球比赛中关键运动模式进行表达，主要目的是实现篮球语义事件的识别。

在视频人体动作语义理解的方法中，卷积神经网络同样凭借其强大的时空域整合能力，成为了主流方法之一。其中比较有代表性的是双流(双通道)卷积神经网络结构，例如Simonyan等人在2014年的文章“Two-stream convolutional networks for actionrecognition in videos”中通过训练两个独立的，分别针对色彩空间(RGB视频帧)和运动空间(光流图)的卷积神经网络，对空间域和时间域的信息进行整合，建立了时空域联合建模的计算模型。复旦大学Wu等人在2015年的“Fusing Multi-Stream Deep Networks forVideo Classification”文章中提出在动作识别深度模型中加入了循环神经网络结构(长短期记忆网络LSTM)，并充分利用视频中的多模态信息(色彩空间，光流空间，声音谱空间)进行联合建模。2016年，清华大学Zhu等人在“A Key Volume Mining Deep Framework forAction Recognition”文章中提出了一种基于关键视频序列挖掘的深度框架，利用“无监督关键序列决策”的方法来从整体视频序列中采样得到高分辨能力的短序列。网络通过选择性优化选法，在前向传播时对关键序列进行判决，在反向传播过程中使用提取到的关键序列对模型参数进行更新。由于此方法深入挖掘了不同类别动作之间的类间差异，去除掉了类间相似的冗余信息，使模型能够充分的学习样本空间中的类间差异性，从而大大加快的模型的收敛速度与模型的识别效率。2017年，Wang等人在文章“Spatiotemporal PyramidNetwork for Video Action Recognition”文章中提出在双流卷积神经网络思想的基础上，提出了一种时空金字塔模型，在模型中引入了时空双线性插值运算，通过多层融合的结构使得空间域信息和时间域信息连接更加紧密，同时通过注意力机制对关键动作的空间位置赋予了更大的权值，提升了模型的运算效率以及鲁棒性。

本发明首先根据篮球比赛中的领域知识对事件进行阶段划分，随后结合深度学习模型提出了时空域联合建模CNN+LSTM框架，实现篮球视频中的语义事件识别。

发明内容

本发明的目的是提供一种基于篮球领域知识和深度学习分层模型的篮球视频语义事件识别方法。本发明的分层深度模型框架如图2所示。首先根据篮球比赛中的领域知识将一个完整的篮球语义事件划分为事件准备阶段、事件发生阶段和事件后续阶段。随后提取事件发生阶段视频序列的全局与群体运动模式，此部分特征通过光流图进行表达。将提取出的全局与群体运动模式通过卷积神经网络CNN提取空间域特征，随后应用长短期记忆网络LSTM整合空间域特征，实现基于事件发生阶段的五类事件分类(三分球，抢断，罚篮，扣篮，两分球+上篮)，具体框架如图3所示。针对一些事件发生阶段类间运动模式相似度较高的事件(上篮和两分球)，此部分事件在事件发生阶段不做判别，而是合并为一个事件(两分球+上篮)进行分类。随后，将此部分事件的事件准备阶段的全局与群体运动模式序列输入到CNN+LSTM网络中进行两类事件(上篮和两分球)判别，最后将两阶段的特征进行融合得到六类事件的预测结果。对于事件成功或失败属性的判别，通过事件后续阶段的视频序列RGB空间深度特征提取与分类，实现对事件成功失败属性的预测，具体框架如图4所示。

本发明的具体技术方案和步骤介绍如下：

1、基于领域知识的篮球语义事件阶段划分

在本发明中，为了充分对篮球语义事件进行特征提取与表达，根据篮球比赛中的领域知识，即一个完整的语义事件是由事件准备阶段、事件发生阶段和事件后续阶段所组成，每个阶段中呈现出了不同的空间特征以及运动模式。在事件准备阶段，球员会进行投篮准备动作，例如在上篮事件的准备动作阶段，球员会持球并向篮筐方向运动；在事件发生阶段，球员完成投篮动作，篮球出手并接触篮筐；在事件后续阶段，球员们的状态会根据篮球是否投进而有所差异，如果投篮成功，防守球员会去发球。如果投篮失败，双方运动员会继续冲抢篮板球。因此，基于以上篮球比赛的专业领域知识，将划分的事件阶段应用到不同的事件识别任务中，提出了多层深度网络模型，提升了模型对篮球语义事件识别的正确率。

2、全局与群体运动模式提取

篮球语义事件可以由两组运动员间的交互运动模式表达。与此同时，在篮球比赛转播视频中，镜头的运动模式在相同事件间具有较高的相似性。如图1所示，图中展示了来自于不同比赛的罚篮事件画面。不同比赛间的场地颜色以及球员队服的颜色具有较大的差异性。如果用分类器对RGB空间的视频序列直接进行分类具有较大的难度。然而，将RGB图像转换为光流图后，这些视觉层面的干扰就会大大降低了，这是由于光流图表达出的是相邻两帧图像的运动区域，而不是RGB图像本身的颜色属性。在本发明中使用光流图计算方法是Thomas等人在2004年“High Accuracy Optical Flow Estimation Based on a Theoryfor Warping”文章中提出的。

3、基于卷积神经网络和长短期记忆网络(CNN+LSTM)的两阶段篮球语义事件分类方法

本发明采用卷积神经网络和长短期记忆网络(CNN+LSTM)来实现多阶段篮球事件的预测，事件包括(三分球、两分球、上篮、罚篮、扣篮和抢断)。五类事件分类方法如图3所示，两类事件分类方法与五类事件分类方法相似，区别在于两类事件分类模型的输入数据是事件准备阶段的视频序列的光流图像，输出是上篮和两分球的预测结果；五类事件分类模型的输入数据是事件发生阶段的视频序列光流图像，输出是图3中所示的五类事件预测结果。在测试阶段，输入一个标签未知的篮球事件视频序列，首先会将事件发生阶段的视频序列光流图像作为输入，通过CNN+LSTM事件五分类网络提取特征并进行事件分类。如果预测结果是三分球、罚篮、扣篮或者抢断，输出结果将直接作为当前事件的标签。如果五分类网络的输出结果是上篮+两分球，此部分数据的事件准备阶段的视频序列光流图像将会被输入到两事件分类网络中进行进一步的事件判别，区分出两分球和上篮事件。最终，通过两阶段篮球语义事件分类方法，将会得到完整的六类事件预测结果。

本发明采用Krizhevsky等人2012年在“Imagenet classification with deepconvolutional neural networks”文章中提出的AlexNet作为基础网络模型，并在ImageNet大型数据集训练好的网络上使用篮球视频数据集进行微调。卷积神经网络具有强大的深层特征提取能力，可以挖掘出图像空间域中的关联信息。本发明中的LSTM网络是采用Hochreiter等人在1997年“Long short-term memory”文章中提出的方法。LSTM是循环神经网络的一种，与传统循环神经网络相比，LSTM网络能够处理序列信息的长期依赖关系，提取出最具有分辨能力的时间域特征。因此，LSTM网络可以在保证特征高效性的基础上，大幅降低网络的运算和存储负担，提升方法整体的实用性。我们将CNN与LSTM网络相结合，CNN首先提取出视频序列中每一帧图像的空间特征，随后，这些序列特征按时域顺序输入到LSTM网络单元中进行时域特征整合，最终得到视频序列时空域特征表达，并进行事件类型识别。

4、基于卷积神经网络(CNN)的事件成功/识别判别方法

在这一部分中，事件后续阶段的视频序列将会作为输入数据进行事件成功/失败属性预测，方法框架如图5所示。这部分的输入数据类型采用RGB空间的图像序列直接作为网络输入，而不是光流图像。虽然光流图相比空间域RGB图像包含了更多的运动模式信息，但是在事件后续阶段，空间域中的特征更加明显。例如篮框的空间域特征的变化会直接反应事件的成功与失败。因此，我们利用CNN提取得到的视频序列RGB空间域特征进行篮球事件成功/失败判别。对于事件后续阶段视频序列的每一帧图像都会通过CNN模型输出一个成功/失败预测结果，最后将当前序列中全部视频帧的预测结果进行投票得到最终序列成功/失败的判别结果。

与现有技术相比，本发明具有以下优势：

1.使用光流图对全局和群体运动模式进行表达并作为输入数据进行模型学习与事件分类，可以有效避免因比赛不同而带来的场地以及球员队服色彩差异性对模型学习造成的影响。

2.基于篮球领域知识设计多层深度网络模型，充分考虑篮球事件不同阶段间的内在联系，充分利用事件不同阶段的特征，提升模型的鲁棒性和泛化能力。

附图说明

图1为本发明中基于光流的全局与群体运动模式示例；

图2为本发明所设计的整体模型框架；

图3为CNN+LSTM五类事件分类网络框架；

图4为CNN成功/失败判别网络框架；

图5为基于篮球领域的事件阶段划分对模型性能的提升效果对比

图6为本发明和其他篮球语义事件分类方法性能对比图

图7为模型运算时间图

具体实施方式

本发明基于篮球专业领域并结合多阶段分层深度学习模型，实现了对篮球比赛语义事件的识别。

本发明的具体技术方案和步骤介绍如下：

1、数据集选取

本发明中模型训练采用的是斯坦福大学李飞飞教授团队公开的NCAA篮球数据集，数据集中的篮球视频是从YouTube采集得到。NCAA数据集共包含250场比赛，每场比赛平均1.5小时，标注了共11类事件(三分球成功/失败，两分球成功/失败，罚篮成功/失败，扣篮成功/失败，上篮成功/失败和抢断)。事件的起始点和终止点由AMK众包平台标注得到。

2、基于篮球领域知识的数据集扩展

在本发明中，为了充分对篮球语义事件进行特征提取与表达，根据篮球比赛中的领域知识，即一个完整的语义事件是由事件准备阶段、事件发生阶段和事件后续阶段所组成，每个阶段中呈现出了不同的空间特征以及运动模式。因此，在NCAA数据集的基础上，我们将视频段进行先前延长和向后延长，并将每一个语义事件序列划分为事件准备阶段、事件发生阶段和事件后续阶段三个阶段。扩展后的NCAA+数据集每个语义事件视频序列平均包含60帧，其中32帧为事件准备阶段，18帧为事件发生阶段，10帧为事件后续阶段。

3、全局与群体运动模式提取

本发明主要使用光流图对篮球视频语义事件中的全局与群体运动模式进行表达，采用的光流方法通过能量函数对两帧RGB图像进行光流估计。输入数据为事件准备阶段图片序列和事件发生阶段图片序列，序列中图片大小为490*360，输出的光流图大小为490*360，随后将光流图转化为三通道[0-255]图像。计算得到的光流图中，颜色种类和颜色深浅分别代表运动方向和运动强度。

4、基于卷积神经网络和长短期记忆网络(CNN+LSTM)的两阶段篮球语义事件分类方法

发明采用卷积神经网络和长短期记忆网络(CNN+LSTM)来实现多阶段篮球事件的预测，事件包括(三分球、两分球、上篮、罚篮、扣篮和抢断)。五类事件分类方法如图3所示，两类事件分类方法与五类事件分类方法相似，区别在于两类事件分类模型的输入数据是事件准备阶段的视频序列的光流图像，输出是上篮和两分球的预测结果；五类事件分类模型的输入数据是事件发生阶段的视频序列光流图像，输出是图3中所示的五类事件预测结果。

在测试阶段，输入一个标签未知的篮球事件视频序列，首先会将事件发生阶段的视频序列光流图像作为输入，通过预训练好的AlexNet进行特征提取。在网络数据层，图像会被裁剪为227*227，随后经过多个卷积层和池化层运算后，会得到大小为13*13的多个特征图，随后通过全连接层以得到1*4096的图像特征向量。给定一个包含T+1帧的视频段(F₁F₂…F_T+1),计算得到T帧的光流图像o₁,o₂…o_T,每个光流图提取的得到的特征向量记为x₁,x₂…x_T。LSTM网络的输入数据为CNN网络中计算得到4096维特征向量。对于每一个时刻t，对应的LSTM网络单元通过计算都会输出一个5类事件的概率预测结果(即LSTM网络输出层神经元个数设置为5)，概率值输出最大神经元对应的类别即为网络的预测结果。LSTM网络的每个隐藏单元都融合与输入数据和上一时刻的记忆单元响应值，并计算得到256维的隐层特征向量h_t(t∈[1,2,…,T])，x_t是CNN网络提取得到的t时刻视频帧的4096维特征向量，该向量会输入到t时刻对应的LSTM单元中。

假设N是类别数，则对于第t帧视频，LSTM网络分类层(n∈{1,2,…N})的响应值s_tn可以表达为公式(1)所示，其中w_in表示LSTM输出向量h_t的第i(i∈[1,256])个分量h_ti与之间的路径权重，b_n表示分类层第n个神经元的偏置值。

对于网络的预测结果，我们采用Softmax函数来对计算类别最大概率值。假设p_tn是LSTN网络在t时刻对应第n类事件的输出概率值，可以表示为公式(2)所示：

最后，计算当前视频序列每一张图片的预测结果的平均值，得到当前视频序列的事件预测类型向量G，如公式(3)所示：

如果5分类网络预测结果是三分球、罚篮、扣篮或者抢断，输出结果将直接作为当前事件的标签。如果5分类网络的输出结果是上篮+两分球，此部分数据的事件准备阶段的视频序列光流图像将会被输入到事件两分类网络中进行进一步的事件判别，区分出两分球和上篮事件，事件两分类网络中LSTM网络的分类层神经元个数设置为2。最终，通过两阶段篮球语义事件分类方法，将会得到完整的六类事件预测结果。

在两阶段篮球语义事件分类网络模型训练阶段，我们随机选取了4899个事件发生阶段的视频序列作为训练集，2279个视频序列作为测试集，并将上篮和两分球的标签进行合并进行。在两分类网络模型训练阶段，我们随机事件准备阶段上篮和两分球事件中的2000个视频序列作为训练集，1099个视频序列作为测试集。两个网络训练过程的初始学习率均设置为0.001。

5、基于卷积神经网络(CNN)的事件成功/识别判别方法

在这一部分中，事件后续阶段的视频序列将会作为输入数据进行事件成功/失败属性预测，方法框架如图5所示。这部分的输入数据类型采用RGB空间的图像序列直接作为网络输入，而不是光流图像。虽然光流图相比空间域RGB图像包含了更多的运动模式信息，但是在事件后续阶段，空间域中的特征更加明显。例如篮框的空间域特征的变化会直接反应事件的成功与失败。因此，我们利用ImageNet数据集上预训练得到的AlexNet提取视频序列RGB空间域特征进行篮球事件成功/失败判别。对于事件后续阶段视频序列的每一帧图像都会通过CNN模型输出一个成功/失败预测结果，最后将当前序列中全部视频帧的预测结果进行投票得到最终序列成功/失败的判别结果。网络模型选用AlexNet模型，并在ImageNet数据上进行预训练，网络分类层神经元个数设置为2，进行成功/失败两分类决策。

在模型训练阶段，我们随机选取了事件后续阶段中的7383个视频帧图像作为训练集，2279个视频帧图像作为测试集。模型的初始学习率设定为0.001。

6、方法性能评价

本发明采用模型对篮球事件的最终分类结果来对模型的性能进行评估。

首先，如图5所示，我们测试了篮球领域知识的引入，即篮球语义事件划分对于模型性能的提升效果。图5中展示了不同阶段事件引入对于模型分类性能带来的积极效果，实验结果表明，事件后续阶段视频序列的引入将模型的的分类性能提升了9.32％,将事件准备阶段和事件后续阶段全部引入使得模型得到了20.06％的大幅性能提升，因此证明了本发明中，领域知识的引入对于篮球语义事件识别带来的性能提升作用。

同时，我们将本发明中的方法与目前最佳的方法进行了对比。对比方法为斯坦福大学李飞飞教授团队提出的球员检测+双向LSTM框架。如图6所示，本发明的方法相较球员检测+双向LSTM在性能提升了7.62％。

在模型运算效率方面，我们对模型不同事件阶段的运算时间进行了统计，如图7所示。模型测试环境为Nividia TiTan GPU。

Claims

1.一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法,其特征在于，首先根据篮球比赛中的领域知识将一个完整的篮球语义事件划分为事件准备阶段、事件发生阶段和事件后续阶段；随后提取事件发生阶段视频序列的全局与群体运动模式，此部分特征通过光流图进行表达；将提取出的全局与群体运动模式通过卷积神经网络CNN提取空间域特征，随后应用长短期记忆网络LSTM整合空间域特征，实现基于事件发生阶段的五类事件分类即三分球，抢断，罚篮，扣篮，两分球+上篮；针对上篮和两分球，此部分事件在事件发生阶段不做判别，而是合并为一个事件进行分类；随后，将此部分事件的事件准备阶段的全局与群体运动模式序列输入到CNN+LSTM网络中进行上篮和两分球判别，最后将两阶段的特征进行融合得到六类事件的预测结果；对于事件成功或失败属性的判别，通过事件后续阶段的视频序列RGB空间特征提取与分类，实现对事件成功失败属性的预测。

2.根据权利要求1所述的识别方法，其特征在于，

采用卷积神经网络和长短期记忆网络即CNN+LSTM来实现多阶段篮球事件的预测，事件包括三分球、两分球、上篮、罚篮、扣篮和抢断，两类事件分类模型的输入数据是事件准备阶段的视频序列的光流图像，输出是上篮和两分球的预测结果；五类事件分类模型的输入数据是事件发生阶段的视频序列光流图像，输出是五类事件预测结果；

在测试阶段，输入一个标签未知的篮球事件视频序列，首先会将事件发生阶段的视频序列光流图像作为输入，通过CNN+LSTM事件五分类网络提取特征并进行事件分类；如果预测结果是三分球、罚篮、扣篮或者抢断，输出结果将直接作为当前事件的标签；如果五分类网络的输出结果是上篮+两分球，此部分数据的事件准备阶段的视频序列光流图像将会被输入到两事件分类网络中进行进一步的事件判别，区分出两分球和上篮事件；最终，通过两阶段篮球语义事件分类方法，将会得到完整的六类事件预测结果；

将CNN与LSTM网络相结合，CNN首先提取出视频序列中每一帧图像的空间特征，随后，这些序列特征按时域顺序输入到LSTM网络单元中进行时域特征整合，最终得到视频序列时空域特征表达，并进行事件类型识别。

3.根据权利要求1所述的识别方法，其特征在于，全局与群体运动模式提取中使用光流图对篮球视频语义事件中的全局与群体运动模式进行表达，采用的光流方法通过能量函数对两帧RGB图像进行光流估计；输入数据为事件准备阶段图片序列和事件发生阶段图片序列，序列中图片大小为490*360，输出的光流图大小为490*360，随后将光流图转化为三通道[0-255]图像；计算得到的光流图中，颜色种类和颜色深浅分别代表运动方向和运动强度。

4.根据权利要求1所述的识别方法，其特征在于，在测试阶段，输入一个标签未知的篮球事件视频序列，首先会将事件发生阶段的视频序列光流图像作为输入，通过预训练好的AlexNet进行特征提取；在网络数据层，图像会被裁剪为227*227，随后经过多个卷积层和池化层运算后，会得到大小为13*13的多个特征图，随后通过全连接层以得到1*4096的图像特征向量；给定一个包含T+1帧的视频段(F₁F₂…F_T+1),计算得到T帧的光流图像o₁,o₂…o_T,每个光流图提取的得到的特征向量记为x₁,x₂…x_T；LSTM网络的输入数据为CNN网络中计算得到4096维特征向量；对于每一个时刻t，对应的LSTM网络单元通过计算都会输出一个5类事件的概率预测结果，概率值输出最大神经元对应的类别即为网络的预测结果；LSTM网络的每个隐藏单元都融合与输入数据和上一时刻的记忆单元响应值，并计算得到256维的隐层特征向量h_t，其中t∈[1,2,…,T]，x_t是CNN网络提取得到的t时刻视频帧的4096维特征向量，该向量会输入到t时刻对应的LSTM单元中；

假设N是类别数，则对于第t帧视频，LSTM网络分类层(n∈{1,2,…N})的响应值s_tn表达为公式(1)所示，其中w_in表示LSTM输出向量h_t的第i(i∈[1,256])个分量h_ti与之间的路径权重，b_n表示分类层第n个神经元的偏置值；

对于网络的预测结果，采用Softmax函数来对计算类别最大概率值；假设p_tn是LSTN网络在t时刻对应第n类事件的输出概率值，可以表示为公式(2)所示：