CN112347852B

CN112347852B - 体育运动视频的目标追踪与语义分割方法及装置、插件

Info

Publication number: CN112347852B
Application number: CN202011075951.7A
Authority: CN
Inventors: 宋利; 彭珅晖; 解蓉
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2022-07-29
Anticipated expiration: 2040-10-10
Also published as: CN112347852A

Abstract

本发明公开了一种体育运动视频的目标追踪与语义分割方法及装置、插件，该方法包括：根据输入的视频帧和目标初始化位置信息提取特征图，获得特征图信息；根据特征图信息对目标进行定位，获得目标位置信息；对特征图信息及目标位置信息进行特征的融合，并且对非目标区域的背景信息进行过滤；根据融合特征及特征图信息进行解码操作，并最终形成目标的语义掩膜。该装置包括：骨干网络编码器、预测网络单元、特征融合网络单元以及解码器。该插件包括：视频信息组件、视频预览组件、视频播放组件、新建目标组件、追踪调整组件以及特效组件。通过本发明，能够在存在目标形变、旋转、遮挡等问题的体育视频中提升追踪精度。

Description

体育运动视频的目标追踪与语义分割方法及装置、插件

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种体育运动视频的目标追踪与语义分割方法及装置、插件。

背景技术

近年来，移动互联网特别是5G产业的快速发展催生出广泛的文娱数字化应用场景。其中目标追踪算法被广泛应用于视频特效编辑，人机交互，视频监控，电视转播，自动驾驶与科学分析等领域。

目标追踪算法是计算机视觉领域里的一项基本课题。早期的跟踪算法往往根据人工指定的目标特征进行搜索，又或者计算光流来判断目标的位移。基于此思路的追踪算法往往时间复杂度较高且鲁棒性较差，因此应用范围较窄。在此之后，基于互相关运算的目标追踪算法和频域运算方案的提出显著提升了算法的速度与精度。随着深度学习技术的发展，基于深度学习技术的追踪算法的提出又将算法的精度与速度提升到了新的高度。如今，诸如智能手机，智能电视，智能摄像头等边缘计算设备的普及，基于深度学习技术的追踪算法有着广阔的应用场景。

基于深度学习技术的追踪算法通常需要在视频的初始帧，以矩形框的形式指定所需追踪的目标，深度网络根据目标的图像信息提取出目标的模型，并在随后的视频中利用该模型以矩形框的形式对目标的位置进行推理预测，最后根据预测结果对模型进行适当的更新。如何优化目标模型的构建和如何改善模型的更新算法是当前研究的热点。

语义分割也是随着深度学习技术的发展而再次进入大众的视野。近年来，语义分割技术被广泛运用于自动驾驶，网络直播，短视频等产业。深度神经网络利用其出色的泛化与抽象能力在语义分割任务上表现出色。实例分割算法实在语义分割的基础上将类别中的个体进一步识别从而实现单独实例个体级别的语义掩膜预测。

与一般的目标追踪和语义分割所面向的数据不同，体育运动视频存在以下特征：视频的摄像机位往往是通过斜向下的角度俯览整个运动场，与动员的身长在100像素左右，如此低的分辨率容易造成追踪和语义分割的失败；其次，场上的运动员们往往身着两种制服，追踪目标的周围会存在大量外观相似的实例，这十分考验追踪算法的区分能力；再次，由于运动员在场上比赛，奔跑，所以会存在剧烈的肢体运动，形变，旋转，遮挡，摄像机镜头也会出现模糊，晃动等情况，现有的算法在这些场景下性能会显著退化。

值得提及的是现有算法往往将目标追踪和视频语义分割作为两个独立的模块，这便限制了其使用范围，也影响了整个流程的速度。

发明内容

本发明针对上述现有技术中存在的问题，提出一种体育运动视频的目标追踪与语义分割方法及装置、插件，能够在存在目标形变、旋转、遮挡等问题的体育视频中提升追踪精度。

为解决上述技术问题，本发明是通过如下技术方案实现的：

本发明提供一种体育运动视频的目标追踪与语义分割方法，其包括：

S11：根据输入的视频帧和目标初始化位置信息提取特征图，获得特征图信息；

S12：根据所述S11获得的特征图信息对目标进行定位，获得目标位置信息；

S13：对所述S11获得的特征图信息以及所述S12获得的目标位置信息进行特征的融合，并且对非目标区域的背景信息进行过滤；

S14：根据所述S13的融合特征以及所述S11的特征图信息进行解码操作，并最终形成目标的语义掩膜。

较佳地，所述S11中的特征图信息包括：搜索区域特征图、目标模板特征图以及目标内容特征图。

较佳地，所述S12进一步包括以下流程：

S121：采用可形变互相关卷积操作对目标进行定位。

较佳地，所述S12进一步包括以下流程：

S122：采用基于场景信息变换的位置预测对目标进行定位；

所述S121与S122不分先后顺序，也可同时进行。

较佳地，所述S121或S122之后还包括：

S123：采用非锚点目标位置预测策略对目标进行定位。

本发明还提供一种体育运动视频的目标追踪与语义分割装置，其包括：骨干网络编码器、预测网络单元、特征融合网络单元以及解码器；其中，

所述骨干网络编码器用于根据输入的视频帧和目标初始化位置信息提取特征图，获得特征图信息；

所述预测网络单元用于根据所述骨干网络编码器获得的特征图信息对目标进行定位，获得目标位置信息；

所述特征融合网络单元用于对所述骨干网络编辑器获得的特征图信息以及所述预测网络单元获得的目标位置信息进行特征的融合，并且对非目标区域的背景信息进行过滤；

所述解码器用于根据所述特征融合网络单元的融合特征以及所述骨干网络编码器的特征图信息进行解码操作，并最终形成目标的语义掩膜。

较佳地，所述骨干网络编码器中的特征图信息包括：搜索区域特征图、目标模板特征图以及目标内容特征图。

较佳地，所述预测网络单元进一步用于采用可形变互相关卷积操作对目标进行定位。

较佳地，所述预测网络单元进一步用于采用基于场景信息变换的位置预测对目标进行定位。

较佳地，所述预测网络单元进一步用于采用非锚点目标位置预测策略对目标进行定位。

本发明还提供一种体育运动视频的插件，其包括：视频信息组件、视频预览组件、视频播放组件、新建目标组件、追踪调整组件以及特效组件；其中，

所述视频信息组件用于显示待处理视频的名称、存储路径、当前帧、视频总帧数、视频帧率、当前处理完成的目标个数以及GUI输出文本信息中的一种或多种；

所述视频预览组件用于显示当前帧的图像，并通过矩形框的形式将已经追踪完成的目标框选出来，当进入特效编辑模式时还用于实时预览添加的特效；

所述视频播放组件用于控制视频的播放，通过拖拽进度条实现快速跳转，还用于实现播放、暂停、前一帧、后一帧操作；

所述新建目标组件用于添加需要追踪的目标，在新建目标时手动框选目标以调用如上述所述的体育运动视频的目标追踪与语义分割方法来自动追踪目标并对追踪结果和语义掩膜进行存储；

所述追踪调整组件用于选定需要调整的目标对追踪总结果进行手动修正并重新生成掩膜；

所述特效组件用于对选定的目标以及特效文件对运动员进行特效的添加。

相较于现有技术，本发明具有以下优点：

(1)本发明提供的体育运动视频的目标追踪与语义分割方法及装置、插件，通过特征图信息提取以及解码操作，将目标追踪与语义分割融合起来，在一次前向传播的过程中即可实现对目标的定位以及语义掩膜的生成；

(2)本发明提供的体育运动视频的目标追踪与语义分割方法及装置、插件，通过插件可以实现手动选择需要追踪的目标，自动追踪，并且支持多种特效的独立使用亦或是自由组合，支持手动纠正追踪结果，添加特效的效果可以实时预览，并保存；

(3)本发明提供的体育运动视频的目标追踪与语义分割方法及装置、插件，通过搜索区域特征图、目标模板特征图以及目标内容特征图三种特征图分别经过三个独立的卷积网络，能够降低特征图的维度减少后续过程的计算量；同时利用目标内容特征图可以使网络聚焦于目标本身的特征，最大程度地排除周围相同实例和背景的干扰；

(4)本发明提供的体育运动视频的目标追踪与语义分割方法及装置、插件，通过可形变互相关卷积操作对目标进行定位，通过人为破坏卷积核的空间结构实现逐像素的特征对比，使得网络能够更好地捕捉目标的形变信息，同时通过卷积网络对特征图进行微调使得特征图更加适应目标的位置预测；

(5)本发明提供的体育运动视频的目标追踪与语义分割方法及装置、插件，通过基于场景信息变换的位置预测对目标进行定位，能够预测前后搜索区域图片的变换参数，并通过此变换参数对目标位置预测图进行相同的变换；

(6)本发明提供的体育运动视频的目标追踪与语义分割方法及装置、插件，通过非锚点目标位置预测策略对目标进行定位，特征图中的每个像素都独立且直接预测目标的边界信息，从而使得目标的位置预测变得快速而灵活，在减小运算量的同时能够更好地拟合运动员的不规则姿态变化。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

下面结合附图对本发明的实施方式作进一步说明：

图1为本发明一实施例的体育运动视频的目标追踪与语义分割方法的流程图；

图2为本发明一较佳实施例的体育运动视频的目标追踪与语义分割方法的流程图；

图3为本发明一实施例的可形变互相关卷积的示意图；

图4为本发明一实施例的基于场景信息变换的位置预测示意图；

图5为本发明一实施例的分割结果与现有方法结果的对比图；

图6为本发明一实施例的插件布局示意图；

图7为本发明一实施例的特效添加结果示意图。

标号说明：1-视频信息组件，2-视频预览组件，3-视频播放组件，4-新建目标组件，5-追踪调整组件，6-特效组件。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示为本发明一实施例的体育运动视频的目标追踪与语义分割方法的流程图。

请参考图1，本实施例的体育运动视频的目标追踪与语义分割方法包括：

S12：根据S11获得的特征图信息对目标进行定位，获得目标位置信息；

S13：对S11获得的特征图信息以及S12获得的目标位置信息进行特征的融合，并且对非目标区域的背景信息进行过滤；

S14：根据S13的融合特征以及S11的特征图信息进行解码操作，并最终形成目标的语义掩膜。

较佳实施例中，S11中利用骨干网络编辑器来提取特征图信息。进一步地，S11中的特征图信息包括：搜索区域特征图、目标模板特征图以及目标内容特征图，流程图如图2所示。

与现有算法仅仅使用骨干网络提取一次目标特征不同，本实施例会将骨干网络编码器使用三次来获取不同的特征图。在初始化时，根据选定目标的位置区域，对输入的视频帧进行裁切和补全获得目标模板图片。为了提高算法的描述能力，目标模板图片往往大于选定位置区域，并包含一定程度的背景信息。随后目标模板图片会输入骨干网络编码器中，并得到目标模板特征图。

在随后的输入帧中，根据上一帧的目标位置预测信息，选区目标周围适当的区域获得搜索区域图片。为了移除目标移动带来的影响，本实施例将搜索区域图片的尺度设定为了目标模板图片的三倍。随后搜索区域图片会输入骨干网络编码器中，并得到搜索区域特征图。同时，前一帧的目标位置信息预测结果，本实施例会在前一帧的图像中截取相应区域获得目标内容图片。本实施例的目标内容图片略小于目标的尺度，仅仅包含目标本身的信息而不包含背景信息系。随后目标内容图片会输入骨干网络编码器中，并得到目标内容特征图。

较佳实施例中，S12具体地为：利用预测网络对目标的位置信息进行预测。位置信息进行预测分为前景背景判断和目标边界预测两个部分，本实例中两个部分的神经网络模块结构相同，只是权重与输出结果的维度数不同。一实施例中从S11获得的三种特征图会分别经过三个独立的卷积网络。此操作目的是降低特征图的维度减少后续过程的计算量。同时通过卷积网络对特征图进行微调使得特征图更加适应目标的位置预测。

较佳实施例中，S12进一步包括以下流程：

S121：采用可形变互相关卷积操作对目标进行定位，通过人为地破坏目标内容特征图的空间一致性，使得网络能够更好地捕捉目标的形变信息；

S122：采用基于场景信息变换的位置预测对目标进行定位，场景信息变换预测网络通过对前后目标所处的场景进行学习，并预测出对应的变换参数，通过此变换参数对已知的历史目标位置图进行变换，得到目标位置预测图；

S121～122不分先后顺序，也可同时进行；

进一步地，S121或S122之后还包括：

S123：采用非锚点目标位置预测策略对目标进行定位，利用搜索区域特征图中的每一个像素点都独立且直接预测目标的边界信息，从而使得目标的位置预测变得快速而灵活。

如图3所示为本发明一实施例的可形变互相关卷积的示意图，经过处理的搜索区域特征图S21会作为卷积操作的输入张量，而目标模板特征图S22和目标内容特征图S23则会作为卷积核进行两次卷积运算。具体地，在一个分支中特征图S21会被沿着特征维度拆分为特征图蔟S24。类似地，目标模板特征图S22(作为卷积核)也会沿着特征维度拆分为卷积核蔟S25。特征图蔟S24与卷积核蔟S25进行卷积操作后得到特征图蔟S26，沿着特征维度拼接后得到特征图S27。另一分支中，目标内容特征图S23(作为卷积核)会沿着两个空间维度(长和宽)进行切分，重新排列后得到卷积核蔟S28。特征图S21与卷积核S28卷积后得到特征图蔟S29。最后将两个分支得到的特征图S27和S29进行拼接便得到了特征图S210。

如图4所示为本发明一实施例的基于场景信息变换的位置预测示意图，场景信息变换预测网络S33会将历史的搜索区域子图S31和当前帧的搜索区域子图作为输入，通过神经网络来预测S31到S32的最大似然变换方式，并将变换参数输出。S34是基于S31和历史目标位置生成的历史目标位置图，可近似为2D高斯分布。目标位置预测变换算法S35通过利用S33输出的变换参数，将S34变换为目标位置预测图S36，S36可以在预测网络中辅助预测S32中目标的位置。

现有的，基于锚点的方案会根据先验知识对目标的位置与边界信息设定锚点，随后利用特征图S210预测目标位置与锚点之间的偏移量。此方案利于网络学习，收敛速度快，但由于预设了目标的位置与形状不能很好地拟合不规则的目标形状变化。与现有算法不同，本实施例采用了非锚点的预测策略。特征图S210中的每一个像素点都会直接预测目标的位置信息，在减少运算量的同时能够更好地拟合运动员的不规则姿态变化。

较佳实施例中，S13具体地为：利用特征融合网络对S11获得的特征图信息以及S12获得的目标位置信息进行特征的融合，并且对非目标区域的背景信息进行过滤。

较佳实施例中，S14具体地为：利用解码器对S13的融合特征以及S11的特征图信息进行解码操作，并最终形成目标的语义掩膜。本实施例的解码器由不同尺度的卷积神经网络构成，在不同尺度的传递过程中会引入编码部分层级的输出结果用以还原空间信息并且改善梯度的反向传播。

一具体实例中，代码实现由Pytorch完成。训练时，在私有的足球追踪数据集的基础上额外使用了COCO，YoutubeVIS和GOT-10k数据集。由于COCO和YoutubeVIS数据集还额外包含了目标的语义掩膜，本实施例利用其来训练模型内的解码器模块。使用追踪模块与语义分割模块交替训练的方式，并且对特征提取骨干网络的最后两层进行微调。

下面对上述实施例的目标追踪与语义分割方法的性能进行评估。

首先是追踪部分，与OTB基准测试十分类似，越高的最终准确率意味着预测的位置与目标实际的位置越接近，越高的曲线下面积意味着预测框与真值框的重合率越高。我们选择了几种目前处于先进水平的追踪器算法作为比较和参考的对象。其中包括SiamRPN，SiamRPN++，SiamMask，ATOM，UpdateNet和DAT算法。其中SiamRPN和SiamRPN++算法在足球数据集上进行了微调训练。

表1本发明实施例与现有方法的追踪性能对比

方法	曲线下面积	追踪精度	处理帧率
				本发明方法实例1	0.726	0.921	36.2
本发明方法实例2	0.731	0.932	40.8
				SiamRPN算法(微调后)	0.700	0.891	77.7
SiamRPN++算法(微调后)	0.690	0.930	30.2
				UpdateNet算法	0.656	0.824	42.0
SiamMask算法	0.650	0.794	36.6
				DAT算法	0.634	0.924	0.317
ATOM算法	0.606	0.783	28.6

表1展示了在足球数据集上的测试结果。本发明实施例在曲线下面积和追踪精度两项指标中均排名第一。作为对比的算法由于不能很好地拟合目标的形变，因此两项指标不及本发明。

然后是语义分割部分，选择了SiamMask算法和Deeplab算法作为比较的对象。与本发明类似，SiamMask也能够在一次正向传播处理的过程中实现对目标位置的预测和目标实例掩膜的输出。Deeplab则被广泛用于各种场景下的语义分割任务。

如图5所示，Deeplab算法可以更精确的预测出运动员的边缘轮廓，但是它不能区分出目标周围相似的物体，即Deeplab算法可以实现语义分割但是无法进行实例分割。本发明的算法与SiamMask的实例分割效果大体相当。如倒数第二列所示，本发明的算法能更好地将目标与周围相似的物体区分开来。

得益于编码器-解码器架构，可形变互相关卷积，特征融合，非锚点目标位置预测等创新点，本发明的方法实例在目标追踪和语义分割两个任务的测试上均优于现有算法。

较佳实施例中，可以使用不同的骨干网络实现对不同任务的侧重。例如使用InceptionV3来提升曲线下面积，利用ResNet50提升追踪精度亦或是利用MobileNetV3来提升处理帧率。

较佳实施例中，预测网络会生成额外的评分图来辅助预测目标的位置。同时特征融合网络也会利用评分图来辅助干扰信息的过滤。

较佳实施例中，可以选用不同的损失函数与训练策略来提升实例的性能。例如采用GIOU损失，Focal损失，二元交叉熵损失和小梯度预热训练策略等。

一实施例中，还提供一种体育运动视频的目标追踪与语义分割装置，其包括：骨干网络编码器、预测网络单元、特征融合网络单元以及解码器；其中，

骨干网络编码器用于根据输入的视频帧和目标初始化位置信息提取特征图，获得特征图信息；

预测网络单元用于根据骨干网络编码器获得的特征图信息对目标进行定位，获得目标位置信息；

特征融合网络单元用于对骨干网络编辑器获得的特征图信息以及预测网络单元获得的目标位置信息进行特征的融合，并且对非目标区域的背景信息进行过滤；

解码器用于根据特征融合网络单元的融合特征以及骨干网络编码器的特征图信息进行解码操作，并最终形成目标的语义掩膜。

较佳实施例中，骨干网络编码器中的特征图信息包括：搜索区域特征图、目标模板特征图以及目标内容特征图。

较佳实施例中，预测网络单元进一步用于：

采用可形变互相关卷积操作对目标进行定位；

采用基于场景信息变换的位置预测对目标进行定位；

采用非锚点目标位置预测策略对目标进行定位。

如图6所示为本发明一实施例的插件布局示意图。

请参考图6，本实施例的插件包括：视频信息组件1、视频预览组件2、视频播放组件3、新建目标组件4、追踪调整组件5以及特效组件6；其中，

视频信息组件1用于显示待处理视频的名称、存储路径、当前帧、视频总帧数、视频帧率、当前处理完成的目标个数以及GUI输出文本信息中的一种或多种；

视频预览组件2用于显示当前帧的图像，并通过矩形框的形式将已经追踪完成的目标框选出来，当进入特效编辑模式时还用于实时预览添加的特效；

视频播放组件3用于控制视频的播放，通过拖拽进度条实现快速跳转，还用于实现播放、暂停、前一帧、后一帧操作；

新建目标组件4用于添加需要追踪的目标，在新建目标时手动框选目标以调用如上述实施例所述的体育运动视频的目标追踪与语义分割方法来自动追踪目标并对追踪结果和语义掩膜进行存储；

追踪调整组件5用于选定需要调整的目标对追踪总结果进行手动修正并重新生成掩膜；

特效组件6用于对选定的目标以及特效文件对运动员进行特效的添加，特效添加结果可以实时预览，也可以保存特效视频。

较佳实施例中，通过在新建目标组件4中输入新建目标的ID，起始帧与，终止帧的等信息，便可以跳转到初始帧，随后进行手动款选目标并实现自动追踪与语义分割。

较佳实施例中，通过在追踪调整组件5中输入需要调整的目标ID，系统便会进入编辑模式，用户可以逐帧修改目标的追踪结果并重新生成目标的语义掩膜。

较佳实施例中，通过在特效组件6中输入需要添加特效的目标ID，系统便会进入特效模式，通过用户自定义载入不同的特效文件，并选定不同的特效模式，可以实现不同的特效添加效果，各种特效模式之间可以自由组合。具体地，如图7所示。

较佳实施例中，各个组件的布局和大小会随着真个GUI界面的大小变化而变化，用户可以自行调整各个组件的布局位置和大小。

此处公开的仅为本发明的优选实施例，本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，并不是对本发明的限定。任何本领域技术人员在说明书范围内所做的修改和变化，均应落在本发明所保护的范围内。

Claims

1.一种体育运动视频的目标追踪与语义分割方法，其特征在于，包括：

S11：根据输入的视频帧和目标初始化位置信息提取特征图，获得特征图信息；所述特征图信息包括：搜索区域特征图、目标模板特征图以及目标内容特征图；

S14：根据所述S13的融合特征以及所述S11的特征图信息进行解码操作，并最终形成目标的语义掩膜；

所述S12进一步包括以下流程：

S121：采用可形变互相关卷积操作对目标进行定位；

所述可形变互相关卷积，其中，所述搜索区域特征图作为卷积操作的输入张量，所述目标模板特征图和所述目标内容特征图则作为卷积核进行两次卷积运算：

在一个分支中，所述搜索区域特征图被沿着特征维度拆分为第一特征图蔟；所述目标模板特征图也沿着特征维度拆分为第一卷积核蔟，所述第一特征图蔟与所述第一卷积核蔟进行卷积操作后得到第二特征图蔟，沿着特征维度拼接后得到第一拼接特征图；

另一分支中，所述目标内容特征图沿着长和宽两个空间维度进行切分，重新排列后得到第二卷积核蔟；所述搜索区域特征图与第二卷积核蔟卷积后得到第三特征图蔟；

最后将两个分支得到的第一拼接特征图和第三特征图蔟进行拼接，得到第二拼接特征图。

2.根据权利要求1所述的体育运动视频的目标追踪与语义分割方法，其特征在于，所述S12进一步包括以下流程：

S122：采用基于场景信息变换的位置预测对目标进行定位，包括：

将历史的搜索区域子图和当前帧的搜索区域子图作为场景信息变换预测网络的输入，通过神经网络来预测历史的搜索区域子图到当前帧的搜索区域子图的最大似然变换方式，并将变换参数输出；

基于历史的搜索区域子图和历史目标位置生成历史目标位置图；

利用输出的所述变换参数，采用目标位置预测变换算法对历史目标位置图进行变换，得到目标位置预测图，目标位置预测图在预测网络中辅助预测当前帧的搜索区域子图中目标的位置；

所述S121与S122不分先后顺序，或者同时进行。

3.根据权利要求2所述的体育运动视频的目标追踪与语义分割方法，其特征在于，所述S121或S122之后还包括：

S123：采用非锚点目标位置预测策略对目标进行定位；

其中，第二拼接特征图中的每一个像素点都直接预测目标的位置信息，在减少运算量的同时能够更好地拟合目标的不规则姿态变化。

4.一种体育运动视频的目标追踪与语义分割装置，其特征在于，包括：骨干网络编码器、预测网络单元、特征融合网络单元以及解码器；其中，

所述骨干网络编码器用于根据输入的视频帧和目标初始化位置信息提取特征图，获得特征图信息；所述特征图信息包括：搜索区域特征图、目标模板特征图以及目标内容特征图；

所述解码器用于根据所述特征融合网络单元的融合特征以及所述骨干网络编码器的特征图信息进行解码操作，并最终形成目标的语义掩膜；

所述预测网络单元进一步用于采用可形变互相关卷积操作对目标进行定位；其中，所述搜索区域特征图作为卷积操作的输入张量，所述目标模板特征图和所述目标内容特征图则作为卷积核进行两次卷积运算：

5.根据权利要求4所述的体育运动视频的目标追踪与语义分割装置，其特征在于，所述预测网络单元进一步用于采用基于场景信息变换的位置预测对目标进行定位，包括：

利用输出的所述变换参数，采用目标位置预测变换算法对历史目标位置图进行变换，得到目标位置预测图，目标位置预测图在预测网络中辅助预测当前帧的搜索区域子图中目标的位置。

6.根据权利要求4所述的体育运动视频的目标追踪与语义分割装置，其特征在于，所述预测网络单元进一步用于采用非锚点目标位置预测策略对目标进行定位；其中，第二拼接特征图中的每一个像素点都直接预测目标的位置信息，在减少运算量的同时能够更好地拟合目标的不规则姿态变化。

7.一种体育运动视频的插件装置，其特征在于，包括：视频信息组件、视频预览组件、视频播放组件、新建目标组件、追踪调整组件以及特效组件；其中，

所述新建目标组件用于添加需要追踪的目标，在新建目标时手动框选目标以调用如权利要求1至3任一项所述的体育运动视频的目标追踪与语义分割方法来自动追踪目标并对追踪结果和语义掩膜进行存储；