CN112308013B

CN112308013B - 一种基于深度学习的足球球员追踪方法

Info

Publication number: CN112308013B
Application number: CN202011280591.4A
Authority: CN
Inventors: 于永斌; 艾梦巍; 唐倩; 张定发; 王昊; 李镖; 卢玉锐; 钟袁静扬; 程曼; 周晨; 陆瑞军
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2023-03-31
Anticipated expiration: 2040-11-16
Also published as: CN112308013A

Abstract

本发明公开了一种基于深度学习的足球球员追踪方法，涉及人工智能技术领域。该方法在使用原有的孪生区域选择网络的基础上，进行了改进，使用ResNet‑50网络替换原有的A lexNet网络作为特征提取网络，并修改了锚点的大小和宽高比对该孪生区域选择网络重新训练，在一定程度上提高了对球员的追踪精度和速度。除此之外，该方法还引入了Python实现的前端界面、路径判断和视频帧截取模块两个部分，提高了使用体验。

Description

一种基于深度学习的足球球员追踪方法

技术领域

本发明属于人工智能技术领域，涉及了一种基于深度学习的足球球员追踪方法。

背景技术

足球作为全世界最受关注的体育运动之一，拥有数量众多的赛事，普及程度广泛。足球球员追踪技术有着十分重要的应用前景。在一些重要球赛的实况转播中，我们可以通过球员追踪系统追踪指定球员，并在他们的图像上添加或替换一些广告，从而获得重要的商业价值。除此之外，通过分析追踪结果能够得到球员的速度、运动轨迹、位置等信息，从而用于进攻防守策略的制定以及争议判罚的判定。

追踪算法可分为生成类方法和判别类方法两大类：生成类方法根据模板帧(视频第一帧)中的目标区域进行建模，并在检测帧(当前帧)中寻找和建模最相似的区域作为预测位置；判别类方法则是通过训练分类器，根据所提取的模板帧目标特征预测目标概率。近几年，两种方法中判别类方法的应用更加广泛，并出现了两个分支：一个是使用相关滤波器，将进行预处理后的图像的和事先设计的滤波器进行乘法运算，进而得到一种响应图，该响应图上的峰值位置即目标所在位置，MOSSE算法最先将相关滤波器应用于追踪算法，在之后出现的CCOT、SRDCF等方法不仅提高辨识的正确率而且也提高了跟踪算法的运行速度。另外一种是基于深度学习的追踪算法，由于追踪任务只能通过视频中标记了目标的第一帧图像作为训练数据，很难用如此少量的数据去训练一个深度神经网络模型，因此最开始使用深度学习的追踪算法表示并不好。近年来随着迁移学习方法的应用，通过端到端地用一些标记好的离线数据去预训练神经网络模型，并在追踪时结合第一帧中的目标信息对模型进行微调。近几年来基于深度学习的追踪算法大放异彩，从SiamFC到ATOM算法，一系列基于深度学习的追踪算法在VOT竞赛中在准确率和速度上都取得了很好的结果。

发明内容

本发明提出了一种基于深度学习的足球球员追踪方法，本发明提出使用目标追踪领域的孪生区域选择网络算法对球员进行追踪，并改进了该算法的锚点、特征提取网络以更好地使其用于球员追踪，除此之外还进行了前端两个模块前端界面、路径判断和视频帧获取模块的编写，使球员追踪方法有更好的用户体验。

本发明提出的一种基于深度学习的足球球员追踪方法，主要包括以下步骤：

1)点击选择路径按钮，在文件对话框中选择待追踪视频/文件夹，并开始追踪。

2)判断所选路径文件类型，若为视频或文件夹则返回每一帧图片，其他情况弹出选择错误弹窗。

3)在视频或文件夹的第一帧选择待追踪球员目标。

4)将视频或文件夹的第一帧和当前帧传入孪生区域选择网络，得到若干候选框。

5)对得到的若干候选框首先去除靠近边界的候选框，并将候选框得分通过余弦窗和尺度惩罚，最后经过非极大值抑制算法选出最优的候选框，此候选框位置为当前帧目标位置。

下面的步骤表示对上述使用步骤的详细解释。

本发明前端主要设计并编写了两个模块：前端界面、路径判断和视频帧获取模块。前端界面主要用于让用户选取待追踪的球赛视频并开始追踪任务，使用了Python自带的tkinter库进行前端界面的编写。tkinter库在定义组件的时候通过command属性来绑定相应事件函数，使用简洁。前端主要使用了三种组件，点击选择路径按钮后，会调用文件对话框进行路径选择，并通过改变StringVar类型的变量动态改变前端的路径展示，同时将路径传入路径判断和视频帧获取模块。第二个部分是路径判断和视频帧获取模块，该模块主要用来判断所选路径的文件类型，如果路径代表视频文件，以avi、mp4或MOV结尾，则截取视频帧并返回。如果路径是文件夹，则排序文件夹中的图片并返回，其他情况均视为选择错误，会弹出选择错误弹窗。

步骤1)在界面设计上，使用了Python自带的tkinter库进行前端的编写。tkinter库在事件绑定方面直接在定义组件的时候通过command属性来直接绑定相应事件函数，使用简洁。前端主要使用了Label、Entry、Botton三种组件，点击选择路径Botton后，会调用文件对话框进行路径选择，并通过改变StringVar类型的变量动态改变前端的路径显示，并将路径传入追踪算法。

步骤2)第二个部分是路径判断和视频帧获取模块，该模块主要用来判断所选路径的文件类型，如果路径代表视频文件，以avi、mp4或MOV结尾，则截取视频帧并返回。如果路径是文件夹，则排序文件夹中的图片并返回，其他情况均视为选择错误，会弹出选择错误弹窗。

步骤3)该步骤主要通过调用opencv中的selectROI()方法实现。后续会根据选取目标位置进行裁剪，得到模板帧。

步骤4)孪生区域选择网络主要分为两个部分。第一个部分是使用了孪生网络结构的特征提取网络部分，分为模板分支和检测分支。模板分支和检测分支都以端到端的方式使用ImageNet数据集离线训练，当前待检测帧和模板帧在进入网络后都会通过一个有相同权重的特征提取网络部分进行特征的提取。使用两个分支的相关特征图进行特征提取。跟踪任务中没有预先定义分类，因此要将模板分支所提取的目标的形状、外貌信息编码到区域选择网络中以便区分目标和背景。网络的第二部分也就是区域选择网络又包括两个分支，分别是分类分支和回归分支两个部分，分类分支用来判断图片中物体的前景和背景概率，而回归分支则对预测目标的位置进行准确度位置回归。步骤3)中的模板帧经过模板分支进行特征提取得到特征图，而当前待检测帧则通过检测分支进行特征提取得到特征图，模板帧特征图经过卷积操作提升通道数(下锚)，然后作为卷积核与待检测帧特征图进行卷积，在此过程中根据各个锚点框对待检测帧进行多尺度搜索，生成一系列候选框。

步骤5)该步骤主要是对步骤4)中区域选择网络产生的候选框进行选取。由于视频中相邻两帧的目标变化很小，而且每一帧图像在输入跟踪器之前都会以上一帧目标位置为中心进行裁剪，因此当前检测帧的目标大概率存在图像中心。因此本着去除位于边界候选框保留位于中心候选框的思想将靠近边界的候选框去除，并将候选框得分通过余弦窗和尺度惩罚，最后使用非极大值抑制算法进行最后的选取。

锚点的概念最早被在SSD(Single-Shot Mulibox Detector)中被提出，其本质就是一系列(设为k个)不同形状、大小但是以同一点为中心的矩形框，这些矩形框可以用来匹配不同形状和大小的目标。以一定的步长让中心点遍布整个待预测的特征图，让网络去考虑每个中心点上k个不同大小和宽高比的锚点，这样就能够实现对整个特征图的多尺度搜索。在程序中锚点框的大小和形状主要由两个变量决定，一个是尺寸另一个是宽高比，尺寸用来描述锚点框的大小，而宽高比则描述锚点框的形状，尺寸和相应的宽高比数值相乘之后得到锚点框具体的宽和高的值。区域选择网络最早在FasterR-CNN算法中被提出，在FasterR-CNN中，特征图上的每个中心点有9个(k＝9)不同尺寸和宽高比的锚点框。FasterR-CNN应用于图片分类，不同图片中目标的大小、尺寸差异较大，而在目标追踪任务中，相邻两帧之间的时间间隔非常短，目标的变化(包括位置、大小、形状等)都不会很大，因此只是用了同一尺寸7种(k＝7)不同宽高比的锚点。在球员追踪系统中，追踪的对象是人，成年人双臂伸开时的臂展和身高的比大概是1，在球场上的足球运动员大部分时间都不会完全展开双臂，因此他们呈现在视频中的图像一般都是长和宽相差较多的矩形，而非正方形，因此适当修改了锚点框的宽高比，让比例尽量大于或小于1来适应这种特征，最终我确定的锚点框的宽高比为[0.33,0.4,0.5,1,2,2.5,3]。在改变锚点的个数和宽高比后使用YoutubeBB数据集对该区域选择网络重新进行了训练。

特征提取网络是孪生网络结构追踪算法的一个重要部分，特征提取网络选择的越好，图片特征的提取也就越有效，因此将对算法的改进重点放到了对特征提取网络的选择上。Alexnet和Resnet都是用于目标分类的深度神经网络模型，改变部分网络结构之后能够用于图片特征的提取。原有的孪生网络使用了去掉conv2和conv4的AlexNet作为特征提取网络，改进后的孪生网络使用了在ImgetNet上训练的ResNet50网络替换原有的AlexNet。

本发明的有益效果在于：

1)通过改变锚点的个数和宽高比并重新进行训练，该算法在球员追踪方面具有更高的速度和准确性，更适用于作为球员追踪系统的追踪算法。

2)使用ResNet-50作为特征提取网络，追踪算法的的追踪精度有所提高。

3)前端两个模块的加入优化了用户体验，使球员追踪系统更加易用。

附图说明

图1为本发明基于深度学习的足球球员追踪方法流程图。

图2为本发明的前端界面截图。

图3为本发明路径判断和视频帧获取模块流程图。

图4为本发明所使用的孪生区域选择网络结构图。

图5为追踪结果截图。

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。

如图1为本发明基于深度学习的足球球员追踪系统追踪流程图。首先是在前端选择视频路径并开始追踪。前端界面如图2所示。前端使用Python自带的tkinter库编写，使用Label组件展示前端名称以及路径提示，调用Entry来显示用户选择的路径。在路径选择功能中，使用的是button组件触发打开文件对话框进行文件选择，button组件绑定事件selectPath()，该事件主要是调用askopenfilename()，该组件能够弹出一个用文件对话框，在提示用户进行选择的同时获取视频文件路径。通过使用StringVar类型的变量path，在selectPath()函数中将视频路径值通过set()方法赋给StringVar类型的变量，再通过get()方法获取该值并传入追踪函数，在Entry组件中使用textvariable属性，直接将StringVar类型的变量值传给Entry，进而实现Entry显示内容随路径选择的不同而改变的功能。

接下来就是路径判断与视频帧截取模块，该模块的详细流程图如图3所示。球员追踪系统前端在获取了要追踪的文件路径后会对该路径进行判断。通过使用Python的字符串函数endswith()判断所选路径的文件类型，如果是avi、mp4或MOV则调用VideoCapture()，读取视频并建立对象cap。使用read()函数返回是否读到图像以及所截取到的图片，while循环保证将视频从视频第一帧读到最后一帧，然后退出循环。使用os.path.isdir判断改路径是否代表一个目录，如果是则调用glob方法获取该目录中的所有图片，并根据图片名称(例如把’abcd/1234.jpg’；变成’1234’，根据1234进行排序)对图片进行排序，这里使用了Python中的匿名函数lambda和split()方法，最后按顺序读出图片，这种情况用于追踪一组连续图片中的目标。当目录值为其他情况是，会弹出弹窗，提示文件选择错误，这里使用了tkinter库中的messagebox.showinfo()，然后返回到主界面。

接下来是追踪目标的选择，该功能主要通过调用opencv中的selectROI()方法实现。后续会根据选取目标位置进行裁剪，得到模板帧。

在选择追踪目标后，视频模板帧和当前待检测帧会被送入孪生区域选择网络。该网络的网络结构图如图4所示。模板帧和当前待检测帧分别经孪生网络架构的特征提取网络，上下两个分支共享权重。图4中的CNN代表特征提取网络又称为backbone，主要将图片信息编码到高维供后续追踪任务使用。本发明使用ResNet-50网络作为backbone。模板帧经过卷积操作得到6×6×256的特征图，当前待检测帧则经过卷积得到22×22×256的特征图，即模板帧经过模板分支后得到6×6×256的特征图，当前待检测帧则经过检测分支后得到22×22×256的特征图，两个特征图输入区域选择网络。

孪生区域选择网络中的区域选择网络分为上下两个分支。上面的为分类分支，判断前景和背景概率，下面的为回归分支，根据锚点框位置精确回归候选框坐标。模板帧特征图在进入区域选择网络后首先经过卷积提升通道数(该过程又称为“下锚”)，在分类分支变成4×4×(2k×256),其中k为锚点个数，在回归分支变为4×4×(4k×256)。当前待检测帧也进行卷积操作但不改变通道数，在两个分支均变为20×20×256。之后在分类分支和回归分支分别将模板帧特征图和当前检测帧特征图进行卷积操作。分类分支得到17×17×2k的特征图，包含2k个通道向量，代表原始图像上相应位置每个锚点框是目标的概率和是背景的概率。同样的，回归分支得到17×17×4k的特征图，包含4k个通道向量分别是dx、dy、dw、dh，用来衡量锚点框和预测的目标之间的位置差值。dx、dy代表中心位置坐标的差值，而dw、dh则代表以x、y为中心的矩形的长和宽的差值。模板帧特征图和当前检测帧特征图进行卷积的过程中，相当于使用不同的锚点框分别对图像进行遍历查找，分类分支得到的17×17×2k的特征图相当于得到k个17×17×2的特征图，每个锚点都对应一个17×17×2的特征图，而两个17×17的特征图则分别对应当前锚点遍历后图像中对应位置的前景概率(存在目标的概率)和背景概率(不是目标的概率)。回归分支得到17×17×4k的特征图，则分别表示k个锚点框遍历后，图片对应位置目标相对于锚点位置的差值(回归修正后的目标位置和原有锚点位置的差)，从而得到候选框。该网络会输出一系列候选框，供后续步骤进行筛选。

进一步地，在候选框选取步骤。在经过区域选择网络后，算法会通过一定的策略对产生的候选框(由锚点框所回归得到的一系列目标可能的存在位置)进行选取，由于视频中相邻两帧之间所经过的时间很短，按照一秒30帧计算，在0.033s的时间里，物体在图像上的位置变化会非常小，除此之外，在将当前帧输入到网络前，会根据上一帧的预测位置进行处理，去除无关部分，所以当前待检测位置中，目标的位置一定是出现在图片的中心区域的。基于这个原因，算法会将区域选择网络的分类分支中输出的17*17*2k的响应图进行一个去除边界的操作，得到15*15*2k的响应图。同样基于第一步的原因，由于视频中相邻两帧之间所经过的时间很短，在经过裁剪后的当前帧图片中目标一定会位于图片中心的区域，因此在非中心位置存在的概率很小，算法将去除边界后的响应图经过余弦窗口，进行一种空间惩罚，这样距离越远的地方就会被乘以一个更小的权值，并经过尺寸penalty处理，最后根据非极大值抑制算法，对经过处理后的候选框进行选取，选出可能性最大的那个作为预测目标位置，进而完成了对区域选择网络所产生的候选框的选取工作。

最后根据所选候选框在响应图中的坐标计算当前帧原图中的目标坐标，调用opencv中的rectangle()方法标出目标位置。

图5为追踪结果的截图，灰色方框代表所追踪球员位置。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合；本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换，均属于本发明的保护范围。

Claims

1.一种基于深度学习的足球球员追踪方法，其特征在于，该方法包括以下步骤：

S1）点击选择路径按钮，在文件对话框中选择待追踪路径文件，并开始追踪；

S2）判断所选待追踪路径文件类型，若为视频或文件夹则返回每一帧图片，其他情况弹

出选择错误弹窗；

S3）在视频或文件夹的第一帧选择待追踪球员目标；

S4）将视频或文件夹的第一帧和当前待检测帧传入孪生区域选择网络，得到若干候选框；

S5）对得到的若干候选框首先去除靠近边界的候选框，并将候选框得分通过余弦窗和尺

度惩罚，最后经过非极大值抑制算法选出最优的候选框，此候选框位置为当前待检测帧目标位置；

其中，步骤S1）由前端界面实现，所述前端界面用于让用户选取待追踪的球赛视频并开始追踪任务，在前端界面设计上，使用了Python自带的tkinter库进行前端的编写，tkinter库在事件绑定方面直接在定义组件的时候通过command属性来直接绑定相应事件函数；前端使用了Label、Entry、Botton三种组件，点击选择路径Botton后，会调用文件对话框进行路径选择，并通过改变StringVar类型的变量动态改变前端的路径显示，并将路径传入追踪算法；

步骤S2）由路径判断和视频帧获取模块实现，所述路径判断和视频帧获取模块用来判断所选路径的文件类型，如果路径代表视频文件，以avi、mp4或MOV结尾，则截取视频帧并返回；如果路径是文件夹，则排序文件夹中的图片并返回；其他情况均视为选择错误，会弹出选择错误弹窗；

步骤S3）通过调用opencv中的selectROI()方法实现，后续会根据选取目标位置进行裁剪，得到模板帧；

步骤S4）所述孪生区域选择网络分为两个部分：第一个部分是使用了孪生网络结构的特征提取网络部分，分为模板分支和检测分支，模板分支和检测分支都以端到端的方式使用ImageNet数据集离线训练，当前待检测帧和模板帧在进入网络后都会通过一个有相同权重的特征提取网络部分进行特征的提取，使用两个分支的相关特征图进行特征提取，跟踪任务中没有预先定义分类，因此要将模板分支所提取的目标的形状、外貌信息编码到区域选择网络中以便区分目标和背景；特征提取网络是孪生网络结构追踪算法的一个重要部分，采用改进后的孪生区域选择网络，所述改进后的孪生区域选择网络使用了在ImgetNet上训练的ResNet50网络替换原有的AlexNet；

孪生区域选择网络的第二个部分也就是区域选择网络，所述区域选择网络又包括两个分支，分别是分类分支和回归分支两个部分，分类分支用来判断图片中物体的前景和背景概率，而回归分支则对预测目标的位置进行准确度位置回归；步骤S3）中的模板帧经过模板分支进行特征提取得到模板帧特征图，而当前待检测帧则通过检测分支进行特征提取得到当前待检测帧特征图，模板帧特征图经过卷积操作提升通道数，即下锚，然后作为卷积核与当前待检测帧特征图进行卷积，在此过程中根据各个锚点框对待检测帧进行多尺度搜索，生成一系列候选框；采用同一尺寸7种不同宽高比的锚点，此时k=7，并最终确定锚点框的宽高比为[0.33,0.4,0.5,1,2,2.5,3]；在改变锚点的个数和宽高比后使用YoutubeBB数据集对该区域选择网络重新进行了训练；

步骤S5）对步骤S4）中所述区域选择网络产生的候选框进行选取，将靠近边界的候选框去除，并将候选框得分通过余弦窗和尺度惩罚，最后使用非极大值抑制算法进行最后的选取；

其中，所述步骤S4）中模板帧经过模板分支后得到6×6×256的特征图，当前待检测帧则经过检测分支后得到22×22×256的特征图，两个特征图输入所述区域选择网络；所述区域选择网络的结构具体为：所述区域选择网络分为上下两个分支：上面的为分类分支，判断前景和背景概率，下面的为回归分支，根据锚点框位置精确回归候选框坐标，模板帧的特征图在进入区域选择网络后首先经过卷积提升通道数，该过程又称为“下锚”，在分类分支变成4×4×(2k×256),其中k为锚点个数，在回归分支变为4×4×(4k×256)；当前待检测帧也进行卷积操作但不改变通道数，在两个分支均变为20×20×256；之后在分类分支和回归分支分别将模板帧特征图和当前待检测帧特征图进行卷积操作，分类分支得到17×17×2k的特征图，包含2k个通道向量，代表原始图像上相应位置每个锚点框是目标的概率和是背景的概率，同样地，回归分支得到17×17×4k的特征图，包含4k个通道向量分别是dx、dy、dw、dh，用来衡量锚点框和预测的目标之间的位置差值，dx、dy代表中心位置坐标的差值，而dw、dh则代表以x、y为中心的矩形的长和宽的差值；模板帧特征图和当前待检测帧特征图进行卷积的过程中，相当于使用不同的锚点框分别对图像进行遍历查找，分类分支得到的17×17×2k的特征图相当于得到k个17×17×2的特征图，每个锚点都对应一个17×17×2的特征图，而两个17×17的特征图则分别对应当前锚点遍历后图像中对应位置的前景概率，即存在目标的概率和背景概率，即不是目标的概率；回归分支得到17×17×4k的特征图，则分别表示k个锚点框遍历后，图片对应位置目标相对于锚点位置的差值，即回归修正后的目标位置和原有锚点位置的差值，从而得到候选框；所述区域选择网络会输出一系列候选框，供后续步骤进行筛选；

所述步骤S5）具体包括：在经过区域选择网络后，通过一定的策略对产生的候选框进行选取，所述候选框为由锚点框回归得到的一系列目标可能的存在位置，将区域选择网络的分类分支中输出的17*17*2k的响应图进行一个去除边界的操作，得到15*15*2k的响应图；将去除边界后的响应图经过余弦窗口，进行一种空间惩罚，并经过尺寸penalty处理，最后根据非极大值抑制算法，对经过处理后的候选框进行选取，选出可能性最大的那个作为预测目标位置，进而完成了对区域选择网络所产生的候选框的选取工作；最后根据所选候选框在响应图中的坐标计算当前待检测帧原图中的目标坐标，调用opencv中的rectangle()方法标出目标位置。

2.根据权利要求1所述的基于深度学习的足球球员追踪方法，其特征在于，所述步骤S1）具体包括：前端使用Python自带的tkinter库编写，使用Label组件展示前端名称以及路径提示，调用Entry来显示用户选择的路径，在路径选择功能中，使用的是button组件触发打开文件对话框进行文件选择，button组件绑定事件selectPath()，该事件调用askopenfilename()，该组件能够弹出一个用文件对话框，在提示用户进行选择的同时获取视频文件路径，通过使用StringVar类型的变量path，在selectPath()函数中将视频路径值通过set()方法赋给StringVar类型的变量，再通过get()方法获取该值并传入追踪函数，在Entry组件中使用textvariable属性，直接将StringVar类型的变量值传给Entry，进而实现Entry显示内容随路径选择的不同而改变的功能。

3.根据权利要求2所述的基于深度学习的足球球员追踪方法，其特征在于，所述步骤S2）具体包括：通过使用Python的字符串函数endswith()判断所选路径的文件类型，如果是avi、mp4或MOV则调用VideoCapture()，读取视频并建立对象cap，使用read（）函数返回是否读到图像以及所截取到的图片，while循环保证将视频从视频第一帧读到最后一帧，然后退出循环；使用os.path.isdir判断该路径是否代表一个目录，如果是则调用glob方法获取该目录中的所有图片，并根据图片名称对图片进行排序，这里使用了Python中的匿名函数lambda和split()方法，最后按顺序读出图片，这种情况用于追踪一组连续图片中的目标；当目录值为其他情况是，会弹出弹窗，提示文件选择错误，这里使用了tkinter库中的messagebox.showinfo()，然后返回到主界面。