CN110210383A

CN110210383A - 一种融合运动模式和关键视觉信息的篮球视频语义事件识别方法

Info

Publication number: CN110210383A
Application number: CN201910466869.8A
Authority: CN
Inventors: 毋立芳; 杨洲; 简萌; 王东; 王�琦; 李则昱
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-09-06
Anticipated expiration: 2039-05-31
Also published as: CN110210383B

Abstract

一种融合运动模式和关键视觉信息的篮球视频语义事件识别方法属于视频语义事件识别领域。为实现篮球视频中的语义事件自动识别，首先基于相机镜头变化的固有属性，将混叠运动分解为全局运动和局部运动。然后基于这两种模态的数据，应用双流3D卷积神经网络网络，实现篮球视频中的群体活动的识别。随后，应用卷积神经网络对篮框区域的表观特征变化进行表达，实现事件成功失败的判别。最后，融合这两部分的预测结果，实现篮球视频中的语义事件识别。此发明对篮球视频数据智能化管理、篮球技战术分析和自动转播等应用奠定了基础。

Description

一种融合运动模式和关键视觉信息的篮球视频语义事件识别方法

技术领域

本发明属于视频语义事件识别领域，涉及运动模式提取，时空域特征联合表达，具体涉及基于相机运动运动属性的全局和局部运动模式分离，基于3D卷积神经网络的时空域运动模式提取和基于卷积神经网络的的群体活动成功识别判别，提出了一种基于运动模式和关键视觉信息融合策略的的篮球视频语义事件识别方法。

背景技术

视频语义事件识别是视频分析与理解领域中的关键技术之一。随着互联网与新媒体时代的不断发展，网络视频数据量呈现爆炸式增长，对网络视频数据的科学化传输、存储与共享提出了更高的挑战。近几年来，深度学习算法和高性能计算设备的不断更新换代为解决这一需求提供了可能，基于深度学习的视频语义识别技术被广泛应用于不同是视频智能化分析与管理领域，例如公共场所安防与异常事件预警、网络视频审查与监管和体育视频自动转播与技战术分析等。

随着深度神经网络的不断发展以及科学计算设备的更新换代，基于深度学习的视频内容分析的方法发展迅速，应用领域不断得以拓展。主要应用领域有：智能视频监控领域，例如基于智能化视频语义分析技术实现公共场所的实时监控，突发事件预警等；视频检索与存储领域，比如应用视频语义分析技术实现大规模视频数据的智能化存储，审查以及检索等；体育视频分析领域，基于对体育视频的语义分析，实现对于体育赛事的辅助训练以及战术分析等。

本发明中的视频语义事件识别方法主要针对篮球视频中的语义事件识别任务。在篮球视频中，一个完整的语义事件由群体活动(3分球，上篮，罚篮等)与活动得分情况(球进或没进)组成。对于群体活动识别，运动模式是一个有效的判别特征，球员的运动模式以及镜头的变化规律在不同群体活动中呈现出不同的特点。光流场用来对运动信息进行表达，然而提取出的两帧之间的光流场是全局运动(Global Motion)和局部运动(LocalMotion)的混叠运动(Mixed Motion)。因此，为充分利用不同模态的运动模式(Motion Pattern)，对全局和局部运动进行分离是很有必要的，得到独立的全局和局部运动,如图1所示。随后，基于分离出的全局和局部运动，本发明应用3D卷积神经网络，提取其时空域联合运动模式表达，实现篮球视频中的群体活动识别。对于活动成功失败结果判别，篮球是否进框是一个有效的判别依据，如图2所示，因此对篮框这一关键视觉信息进行特征建模进行关键视觉信息表达，可以有效实现活动成功失败的预测。最后，融合群体活动识别结果和成功失败预测结果，得到完整的篮球语义事件识别结果。

在视频语义事件识别方法中。基于卷积神经网络和循环神经网络的方法是目前的主流算法框架。Ramanathan等人在2016年的文章“Detecting events and key actors inmulti-person videos”中基于长短期记忆网络的注意力模型对场景中的关键个体进行判别，并基于此进行进一步的视频语义事件识别。Wang等人在2017年发表文章“RecurrentModeling of Interaction Context for Collective Activity Recognition”，提出了一种基于循环神经网络的多级别上下文信息交互模型，实现个体间，群组间以及场景级别的信息融合。Bagautdinov等人在2017年“Social scene understanding:End-to-end multi-person action localization and collective activity recognition”论文中提出了一种多任务联合分析网络，通过一次网络前馈计算得到场景中的个体位置、个体动作类型以及群体事件类别。2018年，Ibrahim等人在文章“Hierarchical Relational Networks forGroup Activity Recognition and Retrieval”中提出了一种基于关系网络的动态场景多人活动识别和检索模型，通过图模型结构对个体之间的交互关系进行建模，提取多级别交互关系特征，对场景中的多人活动特征表达进行编码与识别。

发明内容

本发明的目的是提供一种融合运动模式和关键视觉信息的篮球视频语义事件识别方法。本发明的网络框架如图3所示。在群体活动识别部分，首先基于镜头运动的固有属性，将全局运动和局部运动从混叠运动模式中分离出来。由于不同模态运动模式对不同的群体活动表达程度不同，因此在此部分，分别基于两种运动类型的数据采用3D卷积神经网络进行特征提取与运动模式表达，最后采用Late Fusion策略对两种运动模式特征进行融合，得到运动模式特征表达，实现群体活动识别。在成功失败判别部分，首先基于SSD目标检测算法对篮框进行检测，随后应用卷积神经网络提取篮框区域的表观特征，并基于此关键视觉信息实现成功失败的预测。

本发明的具体技术方案和步骤介绍如下：

1、全局与局部运动分离

在本发明中，为了充分对篮球视频动态场景中的运动形式进行提取与表达，挖掘运动模式与语义事件间的相关性，将全局运动和局部运动从混叠运动中分离出来。帧间的运动信息由光流场进行表达，在本发明中使用的光流估计方法是Mayer等人在2017年“FlowNet 2.0:Evolution of Optical Flow Estimation with Deep Networks”文章中提出的。全局运动包含以下几个固有属性：1、全局运动场可以由一个二维矩阵表达，两个维度分别代表X方向运动矢量和Y方向运动矢量；2、在X分量光流场中，每一列数据的幅值相同；同理在Y分量光流场中，每一行数据的幅值相同；3、在X分量光流场中，每一行数据的幅值呈线性变化；同理在Y分量光流场中，每一列数据的幅值呈线性变化。基于这几点全局运动的性质，采用线性插值算法，可以从混叠运动中恢复出全局运动。进一步，通过从混叠运动模式中减去计算得到的全局运动模式得到局部运动模式。

2、基于运动模式的群体活动识别方法

在篮球视频中，群体活动与运动模式之间有较强的关联性。在篮球比赛中，拍摄镜头会通过平移或缩放变化来实时聚焦到球场上的热点区域，保证观众最佳的观赛体验。与此同时，篮球比赛是一个战术性较强的高协同性运动，因此球员的站位分布具有较强的规律性。以三分球这一群体行为为例，全局运动模式通常可以概括为，首先通过镜头的平移聚焦在投篮运动员上，在投篮动作完成后，镜头随篮球进行平移和缩放，逐步聚焦到篮筐区域。局部运动模式可以概括为，球员起初站位较为分散，随后向篮框区域进行集中进行篮板球争夺。本发明采用双流3D卷积神经网络架构对全局和局部运动模式进行表达，实现群体活动的识别。本发明采用Tran等人在2015年在“Learning Spatiotemporal Features with3D Convolutional Networks”中提出的3D卷积神经网络作为基础网络模型。分别基于全局和局部运动模式训练两个独立的模型，两个模型在最后的Softmax概率层进行特征融合。模型的输入为全局和局部运动场序列数据，输出为群体活动的概率预测结果。

3、基于关键视觉信息的成功失败预测方法

本发明基于关键视觉信息来对群体活动得分与否即成功/失败进行预测。关键视觉信息提取步骤为，首先基于Liu等人2015年在“SSD:Single Shot MultiBox Detector”文章中提出的SSD检测方法，对场景中的篮框进行检测。随后，基于采用Krizhevsky等人2012年在“Imagenet classification with deep convolutional neural networks”文章中提出的AlexNet卷积神经网络模型进行篮框表征特征提取。网络的输入为篮框区域裁剪得到的图片，输出为成功/失败的预测结果。序列的成功失败判别结果由序列中全部视频帧图片分类结果投票得到。由于球进框的状态只持续很短的一段时间，因此，对于一个输入视频段，只要其中有一帧预测结果为成功，这个视频段则预测为成功。

附图说明

图1为全局与局部运动分离结果示意图；

图2为成功失败中篮框区域特征示意图；

图3为基于运动模式和关键视觉区域的语义事件识别整体框架；

图4为基于运动模式的群体活动识别性能对比图；

图5为本发明和其他篮球语义事件分类方法性能对比图

具体实施方式

本发明基于一种融合运动模式和关键视觉信息的方法，实现了对篮球比赛语义事件的识别。

本发明的具体技术方案和步骤介绍如下：

1、数据集选取

本发明中的数据采用的是斯坦福大学李飞飞教授团队公开的NCAA篮球数据集。数据集共包含250场NCAA篮球比赛视频，其中212场比赛作为训练集，12场作为验证集以及33场作为测试集。数据集中划分了11类篮球语义事件(三分球成功/失败，两分球成功/失败，罚篮成功/失败，扣篮成功/失败，上篮成功/失败和抢断)。

2、全局与局部运动分离

本发明主要使用光流对篮球视频帧间运动进行表达，通过端到端深度网络。输入数据为连续篮球视频帧，图片大小为490*360和720*1280两种规格，输出的光流图大小与输入数据尺寸相同。在输出的光流场数据基础上进行彩色编码，即将光流场幅度值转化为三通道[0-255]RGB图像。在彩色编码规则中，颜色种类和颜色深浅分别代表运动方向和运动幅度。在全局运动估计部分，本专利方法是一种非参数方法，输入为混叠运动场，输出为全局运动场。在局部运动场估计阶段，本发明方法引入了两个阈值参数θ₁和θ₂进行噪声抑制。局部运动估计过程可以如公式(1)所示，其中和分别表示局部运动场中点(i,j)对应的x方向和y方向运动幅值；其中和分别表示混叠运动场中点(i,j)对应的x方向和y方向运动幅值；其中和分别表示全局运动场中点(i,j)对应的x方向和y方向运动幅值。表示混叠运动场点(i,j)对应的x,y方向合成运动幅值。θ₁和θ₂分别设置为1.0和1.5。

3、基于运动模式的群体活动识别方法

本发明采用双流3D卷积神经网络(3D CNN)来实现运动模式的表达以及群体活动识别。两个流的3D CNN模型具有相同结构，分别在全局运动和局部运动数据上进行训练得到。在网络训练过程中，训练集数据为212场比赛视频，验证集数据为12场篮球比赛视频，训练批次大小设置为16，采用Adam学习率更新策略，初始学习率设置为0.001。

在测试阶段，模型的输入为连续16帧图像，每一帧图像会被调整为112*112大小，因此两个流的输入数据维度均为16*112*112。两个模型分别会在softmax层输出一个1*6的概率分布向量，随后对两个流中的softmax层向量进行取均值操作，概率向量中的最大值对应类别作为6类事件预测结果。

3、基于关键视觉信息的成功失败预测方法

首先，本发明采用SSD目标检测器对篮框进行检测。SSD模型训练阶段训练数据为2000张标注篮框区域的图片，采用Adam学习率更新策略，初始学习率设置为0.001。在测试阶段，模型输入为一张待检测的图像，首先被调整为500*500大小，模型输出为检测得到的篮框区域坐标值，以及篮框的分类置信度。随后，基于篮框目标检测器结果，得到1000张成功状态的篮框图像和失败状态的篮筐图像。基于此数据训练了一个2分类的AlexNet卷积神经网络模型，网络输入为224*224大小的裁剪得到的篮框区域图像，输出为一个1*2的向量，进行成功/失败两分类判别。训练批次大小设置为64，采用Adam学习率更新策略，初始学习率设置为0.001。

4、方法性能评价

本发明采用各部分方法在群体活动识别，成功失败判别以及语义事件识别任务上的测试结果来对整体框架进行评估。如图4所示，首先测试了不同运动模式对于群体活动识别的性能影响，通过融合两种模态的运动模式数据，即对全局运动模式和局部运动模式进行联合建模，群体活动识别准确率相较单模态数据的输入提升了6.5％和4％，因此证明了本发明中融合全局和局部运动模式对篮球活动识别的有效性。

随后，我们将群体活动识别结果和基于关键视觉信息的成功识别结果相融合，得到篮球视频中的语义事件识别结果。我们将本发明中的方法与目前的最佳方法即李飞飞教授团队提出的注意力机制与双向LSTM网络融合方法进行了对比，如图5所示，性能提升较为明显，提升了17.6％。

Claims

1.一种融合运动模式和关键视觉信息的篮球视频语义事件识别方法，其特征在于：

在群体活动识别部分，将全局运动和局部运动从混叠运动模式中分离出来；分别基于两种运动类型的数据采用3D卷积神经网络进行特征提取与运动模式表达，最后采用LateFusion策略对两种运动模式特征进行融合，得到运动模式特征表达，实现群体活动识别；在成功失败判别部分，首先基于SSD目标检测算法对篮框进行检测，随后应用卷积神经网络提取篮框区域的表观特征，并实现成功失败的预测。

2.根据权利要求1所述的方法，其特征在于，具体步骤如下：

1)、全局与局部运动分离

将全局运动和局部运动从混叠运动中分离出来；帧间的运动信息由光流场进行表达，采用线性插值算法，从混叠运动中恢复出全局运动；通过从混叠运动模式中减去计算得到的全局运动模式得到局部运动模式；

2)、基于运动模式的群体活动识别方法

采用双流3D卷积神经网络架构对全局和局部运动模式进行表达，分别基于全局和局部运动模式训练两个独立的模型，两个模型在最后的Softmax概率层进行特征融合；模型的输入为全局和局部运动场序列数据，输出为群体活动的概率预测结果；

3)、基于关键视觉信息的成功失败预测方法

关键视觉信息提取步骤为，首先基于SSD检测方法，对场景中的篮框进行检测；随后，基于采用AlexNet卷积神经网络模型进行篮框表征特征提取；网络的输入为篮框区域裁剪得到的图片，输出为成功/失败的预测结果；序列的成功失败判别结果由序列中全部视频帧图片分类结果投票得到；对于一个输入视频段，只要其中有一帧预测结果为成功，这个视频段则预测为成功。

3.根据权利要求1所述的方法，其特征在于，具体步骤如下：

使用光流对篮球视频帧间运动进行表达，通过端到端深度网络；输入数据为连续篮球视频帧，图片大小为490*360和720*1280两种规格，输出的光流图大小与输入数据尺寸相同；在输出的光流场数据基础上进行彩色编码，即将光流场幅度值转化为三通道[0-255]RGB图像；在彩色编码规则中，颜色种类和颜色深浅分别代表运动方向和运动幅度；

在全局运动估计部分，输入为混叠运动场，输出为全局运动场；在局部运动场估计阶段，引入了两个阈值参数θ₁和θ₂进行噪声抑制；局部运动估计过程如公式(1)所示，其中和分别表示局部运动场中点(i,j)对应的x方向和y方向运动幅值；其中和分别表示混叠运动场中点(i,j)对应的x方向和y方向运动幅值；其中和分别表示全局运动场中点(i,j)对应的x方向和y方向运动幅值；表示混叠运动场点(i,j)对应的x,y方向合成运动幅值；θ₁和θ₂分别设置为1.0和1.5；