CN110348364A

CN110348364A - 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法

Info

Publication number: CN110348364A
Application number: CN201910604999.3A
Authority: CN
Inventors: 毋立芳; 李则昱; 杨洲; 简萌
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-10-18
Anticipated expiration: 2039-07-05
Also published as: CN110348364B

Abstract

一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法属于篮球视频中的语义事件自动识别领域。该方案首先利用光流估计方法，从连续视频帧中获得运动场属性。然后提取运动特征直方图(MCH)作为运动场表征的描述符。随后，提出了一种基于聚类的运动场标签生成方法。将聚类后生成的标签代替原本定义的组活动标签作为运动场的监督信号来训练CNN模型，可以更有效地表示运动场的特征。最后，将CNN模型的输出特征输入到LSTM结构中进行语义事件识别。此发明对篮球视频数据智能化管理、篮球技战术分析和自动转播等应用奠定了基础。

Description

一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法

技术领域

本发明属于视频语义事件识别领域，涉及运动模式提取，时间域特征建模，度量距离关系实现无监督数据标注，具体涉及基于层次聚类算法实现类别基准特征计算，基于CNN网络实现运动场图像特征提取和基于LSTM网络实现群体行为识别，提出了一种用于篮球视频群体活动识别的聚类时空域网络模型。

背景技术

计算机视觉作为当今人工智能热门的研究领域之一，通过对摄像机和电脑模拟人类视觉对目标进行识别、跟踪、测量等，并通过识别和分析做进一步的图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。视频语义识别是该中重要的研究方向，在现实生活中有着十分广泛的应用领域与研究价值，如视频监控、体育赛事转播等。近年来，伴随电子信息技术的飞速发展，计算机在计算能力和存储能力等方面取得了突飞猛进的进步，同时深度学习算法和高性能网络框架的提出，使得视频语义事件识别的广泛发展成为可能。

本发明中的视频语义事件识别方法主要针对篮球视频中的语义事件识别任务。在篮球视频中，一个完整的语义事件由群体活动(3分球，上篮，罚篮等)与活动得分情况(球进或没进)组成。对于群体活动识别，运动模式是一个有效的判别特征，球员的运动模式以及镜头的变化规律在不同群体活动中呈现出不同的特点。然而不同的群体活动之间，如图2所示，也存在相似的运动特征。因此用相同的监督信号标注每组中的全部视频帧是不合理的，这样忽视了不同群体活动之间的相关性。本发明提出了一种基于聚类的运动场标签生成方法。对每个类别中的特征取平均值作为这个类别的基准特征，基准特征可以很好的代表这个类别。将聚类后生成的标签代替原本定义的组活动标签作为运动场的监督信号来训练CNN模型，可以更有效地表示运动场的特征。最后，将CNN模型的输出特征输入到LSTM结构中进行语义事件识别，得到完整的篮球语义事件识别结果。

基于卷积神经网络的方法是目前视频语义事件识别的主流算法框架。Lan 等人在2012年发表的文章“Discriminative latent models for recognizing contextualgroup activities.”中提出利用一个潜在的变量框架联合提取了群体- 人交互模式和人-人交互模式，探索场景中的进行多层次交互。Amer等人在 2014发表的文章“Hierarchicalrandom field for collective activity recognition in videos.”中提出了一种用于高阶节奏依赖关系建模的分层随机场结构。随着近年来深度学习算法的发展，基于深度神经网络的结构化模型成为群体识别的主流解决方案。Wang等人在2018发表的文章“Recurrent modeling of interaction context for collective activityrecognition.”中提出了一种通过LSTM结构实现多级特征提取的方案，捕获了用于群体活动识别的层次交互信息。Ramanathan 等人在2016发表文章“Detecting events and keyactors in multi-person videos.”中提出了一种基于注意的循环框架，重点研究篮球场景中语义事件定位和识别。Qi等人在2018年发表的文章“stagnet:An attentive semanticrnn for group activity recognition.”中提出了一个专注的RNN框架，将时空注意力和语义图融合在一起，用于关键个体和框架推理。

发明内容

本发明的目的是提供一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法。本发明的网络框架如图1所示。首先利用PWC-Net深度学习模型实现帧间光流场估计，在光流场的基础上提取运动特征直方图, 随后基于运动特征直方图采用层次聚类算法实现类别基准特征计算。通过计算运动特征直方图与基准特征集合的距离关系，实现无监督数据标注。基于无监督聚类生成的监督信号，训练CNN网络实现运动场图像特征提取，随后将多个时间节点CNN的输出特征序列输入到LSTM网络，实现时间域特征建模与群体行为识别。

本发明的具体技术方案和步骤介绍如下：

1、运动场特征表达

运动场是运动信息表示和结构化数据建模的理想数据形式。本发明用光流来表示运动场。本发明中使用Sun,Deqing等人在2018年“PWC-Net:CNNs for optical flow usingpyramid,warping,and cost volume.”文章中提出的方法估计帧间光流。PWC-Net是一种用于光流估计的端到端卷积神经网络，在估计精度和计算成本上有着显著优越性。PWC-Net估计的光流场包含两个通道，分别表示水平方向(x方向)和垂直方向(y方向)对应的像素位移。本发明设计运动特征直方图特征来描述运动数据，根据像素点的运动幅度和运动方向(x,y方向夹角)将每个点量化，用9个类别表达量化空间。对运动场中所有量化点进行类别统计，提出统计特征运动特征直方图。运动特征直方图表达了不同类别的分布。为更好地表达图片信息，对图片进行分块，分别按顺序统计每块图片区域的运动特征直方图并连接起来作为整幅图片的运动特征直方图。

2、基于无监督聚类的标签生成

基于提取的运动特征直方图进行层次聚类，取训练集中的5场比赛视频做层次聚类，对每个类别中的特征取平均值作为这个类别的基准特征，基准特征可以很好的代表这个类别。对于任意一张输入图片，计算其运动特征直方图，然后和每个类别的基准特征比较，计算运动特征直方图和各类基准特征的余弦距离，余弦距离数值最小所对应的基准特征类即为图片所属类，基准特征类标签即为图片标签，以此实现图片自动标注标签。

3、基于LSTM的群体活动识别方法

本发明采用ConvLSTM结构进行时空数据建模和群体活动识别。利用 VGG-11结构，在每一个卷积层之后都使用batch normalization层来表示运动场的特征。通过基于无监督聚类的标签生成方法，确定每个输入运动场的监督信号。通过深度神经网络结构，提取运动场的语义级特征表示，进一步进行时间建模。提取VGG-11网络中第二个全连接层的特征向量作为运动场的表示。然后利用长短时记忆网络LSTM对视频片段中连续时间节点的运动场特征进行整合，进一步进行群体活动推理。与标准的RNN结构不同的是， LSTM结构依赖于独特的记忆单元和门操作来判断每个时刻节点特征的重要程度，这些特征保留了区分的特征，而忽略了冗余和无关的信息。

附图说明

图1为基于无监督聚类与时空域深度网络相结合的语义事件识别整体框架；

图2为运动场中像素点的量化规则示意图；

图3为聚类结果的可视化结果示意图；

具体实施方式

本发明提出了一种无监督聚类与时空域深度网络相结合的方法，实现篮球视频语义事件识别。

本发明的具体技术方案和步骤介绍如下：

1、数据集选取

本发明中的数据采用的是斯坦福大学李飞飞教授团队公开的NCAA篮球数据集。数据集共包含250场NCAA篮球比赛视频，其中212场比赛作为训练集， 12场作为验证集以及33场作为测试集。NCAA数据集中定义了6种类型的群体活动，包括3分球、2分球、罚球、上篮、扣篮和抢断。每一项活动的起点和终止都是通过众源平台手工标注的，视频段的长度平均为32帧左右。

2、运动场特征表达

本发明主要使用光流对篮球视频帧间运动进行表达，通过端到端深度网络。输入数据为连续篮球视频帧，图片大小为490*360和720*1280两种规格，输出的光流图大小与输入数据尺寸相同。在输出的光流场数据基础上进行彩色编码，即将光流场幅度值转化为三通道[0-255]RGB图像。本发明设计运动特征直方图特征来描述运动数据，根据像素点的运动幅度和运动方向(x,y方向夹角)将每个点量化，用9个类别表达量化空间。对运动场中所有量化点进行类别统计，提出统计特征运动特征直方图。运动特征直方图表达了不同类别的分布。为更好地表达图片信息，对图片进行分块，分别按顺序统计每块图片区域的运动特征直方图并连接起来作为整幅图片的运动特征直方图。

3、基于无监督聚类的标签生成

基于提取的运动特征直方图进行层次聚类，取训练集中的5场比赛共95 个视频段做层次聚类，对每个类别中的特征取平均值作为这个类别的基准特征，基准特征可以很好的代表这个类别。对于任意一张输入图片，计算其运动特征直方图，然后和每个类别的基准特征比较，计算运动特征直方图和各类基准特征的余弦距离，余弦距离数值最小所对应的基准特征类即为图片所属类，基准特征类标签即为图片标签，以此实现图片自动标注标签。

4、基于卷积神经网络和长短期记忆网络的篮球视频群体活动识别方法

本发明采用卷积神经网络(CNN)与长短期记忆网络(LSTM)相结合的模型架构进行时空域数据建模和篮球视频中的群体活动识别。在卷积神经网络部分，本发明采用VGG-11结构进行图像特征表达。首先，通过步骤3中基于无监督聚类的标签生成方法，确定每个输入运动场的监督信号，并基于此标签信息进行模型训练。在网络训练过程中，训练集数据为150场比赛的共计30000张运动场图片数据，测试集数据为33场篮球比赛中共计8296张运动场图片，训练批次大小设置为64，采用Adam学习率更新策略，初始学习率设置为0.001，输入运动场图像尺寸为2*224*224。模型训练完成后，运动场图像输入到VGG-11深度神经网络，提取运动场的语义级特征表示，本发明中采用VGG-11网络中第二个全连接层的特征向量作为运动场的特征表达，向量维度为1*4096。

本发明中采用长短时记忆网络LSTM对视频片段中连续时间节点的运动场特征进行整合，进一步进行群体活动推理。与标准的RNN结构不同的是，LSTM结构依赖于独特的记忆单元和门操作来判断每个时刻节点特征的重要程度，这些特征保留了区分的特征，而忽略了冗余和无关的信息。网络输入为VGG-11网络提取出的运动场特征表达向量，在网络训练过程中，训练集数据为212场比赛中共计9641个视频段，测试集数据为33场篮球比赛中共计2152个视频段，训练批次大小设置为32，采用Adam学习率更新策略，初始学习率设置为0.001。在测试阶段，模型的输入为连续16帧运动场场图像对应的特征向量，输入数据维度为16*4096。LSTM隐层神经元数量设置为 2048，分类层神经元数量设置为6。通过分类层神经元相应情况，实现篮球群体事件类别判别。

4、方法性能评价

本发明对基于卷积神经网络和长短期记忆网络的群体行为识别任务上的测试结果对整体方法进行评估。如表1所示，我们将本发明的方法与Wu等人提出的全局加局部运动方法(GCMP)进行了对比，整体性能提升了8.6％。

表1

Claims

1.一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法，其特征在于，包括以下步骤：

1）运动场特征表达

运动场是运动信息表示和结构化数据建模的理想数据形式；用光流来表示运动场；PWC-Net估计的光流场包含两个通道，分别表示水平方向(x方向)和垂直方向(y方向)对应的像素位移；设计运动特征直方图特征来描述运动数据，根据像素点的运动幅度和运动方向(x,y方向夹角)将每个点量化，用9个类别表达量化空间；对运动场中所有量化点进行类别统计，提出统计特征运动特征直方图；运动特征直方图表达了不同类别的分布；

对图片进行分块，分别按顺序统计每块图片区域的运动特征直方图并连接起来作为整幅图片的运动特征直方图；

2）基于无监督聚类的标签生成

基于提取的运动特征直方图进行层次聚类，取训练集中的几场比赛视频做层次聚类，对每个类别中的特征取平均值作为这个类别的基准特征，基准特征可以很好的代表这个类别；对于任意一张输入图片，计算其运动特征直方图，然后和每个类别的基准特征比较，计算运动特征直方图和各类基准特征的余弦距离，余弦距离数值最小所对应的基准特征类即为图片所属类，基准特征类标签即为图片标签，以此实现图片自动标注标签；

3）基于LSTM的群体活动识别方法

采用ConvLSTM结构进行时空数据建模和群体活动识别；利用VGG-11结构，在每一个卷积层之后都使用batch normalization层来表示运动场的特征；通过基于无监督聚类的标签生成方法，确定每个输入运动场的监督信号；通过深度神经网络结构，提取运动场的语义级特征表示，进一步进行时间建模；提取VGG-11网络中第二个全连接层的特征向量作为运动场的表示；然后利用长短时记忆网络LSTM对视频片段中连续时间节点的运动场特征进行整合，进一步进行群体活动推理。

2.根据权利要求1所述的方法，其特征在于运动场特征表达具体为：

通过端到端深度网络；输入数据为连续篮球视频帧，图片大小为490*360和720*1280两种规格，输出的光流图大小与输入数据尺寸相同；在输出的光流场数据基础上进行彩色编码，即将光流场幅度值转化为三通道[0-255]RGB图像；设计运动特征直方图特征来描述运动数据，根据像素点的运动幅度和运动方向(x,y方向夹角)将每个点量化，用9个类别表达量化空间；对运动场中所有量化点进行类别统计，提出统计特征运动特征直方图；运动特征直方图表达了不同类别的分布。

3.根据权利要求1所述的方法，其特征在于：

基于提取的运动特征直方图进行层次聚类，取训练集中的5场比赛共95个视频段做层次聚类，对每个类别中的特征取平均值作为这个类别的基准特征，对于任意一张输入图片，计算其运动特征直方图，然后和每个类别的基准特征比较，计算运动特征直方图和各类基准特征的余弦距离，余弦距离数值最小所对应的基准特征类即为图片所属类，基准特征类标签即为图片标签，以此实现图片自动标注标签。

4.根据权利要求1所述的方法，其特征在于：

采用卷积神经网络CNN与长短期记忆网络LSTM相结合的模型架构进行时空域数据建模和篮球视频中的群体活动识别；在卷积神经网络部分，采用VGG-11结构进行图像特征表达；首先，通过步骤3中基于无监督聚类的标签生成方法，确定每个输入运动场的监督信号，并基于此标签信息进行模型训练；在网络训练过程中，训练集数据为150场比赛的共计30000张运动场图片数据，测试集数据为33场篮球比赛中共计8296张运动场图片，训练批次大小设置为64，采用Adam学习率更新策略，初始学习率设置为0.001，输入运动场图像尺寸为2*224*224；模型训练完成后，运动场图像输入到VGG-11深度神经网络，提取运动场的语义级特征表示，采用VGG-11网络中第二个全连接层的特征向量作为运动场的特征表达，向量维度为1*4096；

采用长短时记忆网络LSTM对视频片段中连续时间节点的运动场特征进行整合，进一步进行群体活动推理；网络输入为VGG-11网络提取出的运动场特征表达向量，在网络训练过程中，训练集数据为212场比赛中共计9641 个视频段，测试集数据为33场篮球比赛中共计2152个视频段，训练批次大小设置为32，采用Adam学习率更新策略，初始学习率设置为0.001；在测试阶段，模型的输入为连续16帧运动场场图像对应的特征向量，输入数据维度为16*4096；LSTM隐层神经元数量设置为2048，分类层神经元数量设置为6。