CN115953428A

CN115953428A - 一种基于时序编解码网络的羽毛球检测与跟踪方法

Info

Publication number: CN115953428A
Application number: CN202211612918.2A
Authority: CN
Inventors: 欧巧凤; 钟亮; 熊邦书; 方霆; 刘畅; 张利平; 徐迪; 聂夏青
Original assignee: Jiangxi Fangde Technology Co ltd; Nanchang Hangkong University; Jiangxi Equipment Industrial Group Great Insurancent Co Ltd
Current assignee: Jiangxi Fangde Technology Co ltd; Nanchang Hangkong University; Jiangxi Equipment Industrial Group Great Insurancent Co Ltd
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-04-11

Abstract

本发明提供一种基于时序编解码网络的羽毛球实时检测与跟踪方法，涉及智能图像处理和机器视觉领域，该方法结合通道注意力机制与时序网络结构，设计一种基于编解码网络架构的羽毛球检测与跟踪模型，通过通道注意力机制对输入特征的重新校准、时序网络结构对图像序列帧间信息的充分利用。能够在复杂背景下对图像序列中存在运动模糊的羽毛球进行实时准确检测与稳定跟踪，有效提高了羽毛球的检测准确率与跟踪稳定性。同时，这是编解码网络首次运用于羽毛球检测与跟踪任务。此外，为了提高羽毛球检测的定位精度，网络使用了二值热力图轮廓检测的方法，避免了端到端网络输出定位坐标精度不足的缺点,进一步提高了羽毛球检测的精确度。

Description

一种基于时序编解码网络的羽毛球检测与跟踪方法

技术领域

本发明涉及智能图像处理和机器视觉领域，尤其涉及一种基于时序编解码网络的羽毛球检测与跟踪方法。

背景技术

目前，羽毛球已经风靡全球，成为世界上最受欢迎的运动之一。与此同时，羽毛球比赛的战术分析，结果的辅助判定越来越得到重视。其中，羽毛球的检测与跟踪是核心工作之一，羽毛球的检测信息可以为许多任务提供帮助，如发球、击球、落地识别等。现今也有许多比较完善的检测与跟踪系统，例如鹰眼系统，该系统使用多个高端摄像头获得羽毛球运动的检测信息，获得的检测信息既可以对裁判员起到辅助判定作用，也可以帮助运动员进行专业分析与训练。但该系统属于专有系统，部署成本很高。因此，在低帧率摄像头上实现对羽毛球检测与跟踪的算法就具有实际应用价值。

羽毛球检测与跟踪算法大致可以分为传统的视觉处理算法和以卷积神经网络为核心的深度学习算法。传统的羽毛球检测与跟踪方法主要是光流法——光流法利用羽毛球比赛图像序列中像素在时间域上的变化以及相邻帧之间的相关性，根据上一帧与当前帧之间的对应关系，计算得到相邻帧之间物体的运动信息，再利用羽毛球的特性加以检测，例如形状，颜色。但羽毛球比赛视频图像中有许多运动物体特性与羽毛球相似，例如运动员的球拍、鞋、袜子、衣服等，这些物体都有可能被误检为羽毛球。此外，在低帧率摄像头下羽毛球的运动模糊会非常严重，这都可能对羽毛球的检测与跟踪产生严重干扰。在深度学习领域，常用的方法是通过检测每一帧中的目标位置信息从而实现目标跟踪。但是，因为这种方法是通过逐帧检测获得位置信息来实现跟踪，视频前后帧之间的相关性并未被充分使用，所以跟踪时容易丢失目标。因此，研究一种可以在存在严重运动模糊以及复杂背景情况下对羽毛球进行实时精确检测与稳定跟踪的算法具有现实意义。

发明内容

本发明提供一种基于时序编解码网络的羽毛球检测与跟踪方法，以解决上述背景技术中提出的问题，具体技术方案如下：

一种基于时序编解码网络的羽毛球检测与跟踪方法，其特征在于，包括以下步骤：

步骤(1)对图像数据进行预处理；获取连续的V_RGB(n-k+1)…V_RGB(n-1)、V_RGB(n)共k帧RGB图片，然后调整图片大小并进行归一化处理；最后在通道维度上叠加成通道数为3k、高为h、宽为w的归一化特征图；

步骤(2)制作模型训练所需的数据集；首先采集羽毛球比赛视频图像，将视频图像按比例分成训练集与验证集，并视频图像分解得到图片序列数据；然后对羽毛球球帽形态中心进行点标注；同时生成二值单通道jpg热力图标签并存储在文档中；

步骤(3)构建时序编解码网络模型；所述网络模型使用模块化方法搭建；首先构建基础卷积模块与通道注意力模块，并进一步构建特征提取模块；所述网络模型依次由输入层、编码层、解码层，输出层构成；其中输入层使用时序网络结构，编码层包含4层特征提取模块与3层下采样运算，解码层包含3层特征提取模块与3层上采样运算，输出层包含1层卷积运算与1层Sigmoid激活函数；

步骤(4)训练时序编解码网络模型；设置网络模型的数据输入路径与超参数信息；数据加载设置为顺序采样，使用步骤(1)方法进行数据预处理；使用二值交叉熵损失函数计算输出热力图损失；采用Adam优化器进行迭代优化，并使用Kaiming正态分布初始化卷积层参数；学习率参数采用线性下降策略，每经过1个训练周期后下降一次，第n轮的学习率lr(n)为：

lr(n)＝a+(b-a)÷epochs×epoch

其中a为初始学习率，b为小于1e-8的微小常量，epochs为训练总次数，epoch为当前训练次数；验证时对网络模型预测输出与真实标签热力图进行轮廓检测，获取羽毛球相对坐标，训练期间保存验证集准确率最高的一组模型权重；

步骤(5)羽毛球实时检测与跟踪；使用步骤(3)和步骤(4)得到的时序编解码网络模型检测羽毛球比赛实时图像，获得羽毛球像素坐标。

作为优选的的，所述步骤(3)中基础卷积模块由二维卷积运算、ReLU激活函数、组归一化顺序构成；其中二维卷积的卷积核尺寸为3×3；

所述通道注意力模块由1层基于特征图宽和高的自适应平均池化操作，2层全连接层以及ReLU和Sigmoid激活函数构成；特征图输入后，先通过自适应平均池化操作，使空间特征降维到1×1；接着依次经过全连接层、ReLU激活函数、全连接层、Sigmoid激活函数；最后通过矩阵乘法逐通道加权到模块输入特征图的每一个通道上，完成通道注意力对输入特征图的重新校准；

所述特征提取模块是特征图输入后经过一个基础卷积模块得到输出y1，y1经过1个通道注意力模块和N个基础卷积模块得到y2，最后将y1和y2逐像素相加实现特征提取的功能；

所述输入层采用时序网络结构，在得到时序上连续的k帧已裁剪和归一化的预处理特征图后，与网络模型时序输出F_hot(n-3k+1)至F_hot(n-k)在通道上叠加，构成通道数为5k、高为h、宽为w的归一化特征图；若时序输出存在为空的情况，则用零矩阵填充；

所述编码层由4层特征提取模块和3层二维最大池化下采样运算组成；3层二维最大池化下采样运算的卷积核尺寸设置为2×2，设置4层特征提取模块的输入通道数与输出通道数依次为(5k，32)、(32，64)、(64，128)、(128，256)，并且将3层二维最大池化下采样间隔应用于特征提取模块之间；其中第1/4和第2/4层特征提取模块含有的基础卷积模块数为2，第3/4和第4/4层特征提取模块含有的基础卷积模块数为3；由于经过了三层下采样，输出特征图高和宽压缩为输入特征图的1/8，因此实现了压缩编码功能；输入的特征图经过编码层，得到编码输出；

所述解码层由3层特征提取模块、3层通道叠加运算以及3层上采样运算组成；设置上采样运算的空间大小乘数为2，采样方式为最近邻，3层特征提取模块1/3、2/3、3/3的输入通道数与输出通道数依次为(384，128)、(192，64)、(96，32)；第1/3层特征提取模块含有基础卷积模块数为3，其余为2；编码输出首先经过上采样运算，然后和编码层中的第3/4层特征提取模块的输出在通道上叠加输入特征提取模块1/3得到输出特征图1；接着将特征图1经过上采样运算，然后和编码层中的第2/4层特征提取模块的输出在通道上叠加输入特征提取模块2/3得到输出特征图2；再将特征图2经过上采样运算，然后和编码层中的第1/4层特征提取模块的输出在通道上叠加输入特征提取模块3/3，最后得到解码输出；

所述输出层首先将解码输出经过一个输入通道数为32、输出通道数为k的二维卷积运算；然后经过一个Sigmoid激活函数，最终输出得到通道数为k、高为h、宽为w的归一化热力图。

作为优选的，所述步骤(5)中羽毛球检测与跟踪具体步骤如下：

步骤(5.1)获得羽毛球比赛实时图像；在羽毛球场地一侧部署摄像头，获取视频帧，并经过步骤(1)所示的预处理，得到通道数为5k、高为h、宽为w的归一化特征图；

步骤(5.2)载入时序编解码网络模型并推理；载入步骤(4)中保存的网络模型与训练权重，模型推理，得到k张单通道、高为h、宽为w的归一化热力图；

步骤(5.3)对热力图进行二值化和目标轮廓检测，得到羽毛球在像素坐标系下的相对坐标；首先，以阈值t分别对k张归一化热力图进行二值化处理；然后，对二值化热力图进行非零区域的外接矩形检测，计算每个轮廓的垂直边界最小矩形；最后，以最大面积外接矩形的中心点坐标，作为羽毛球的像素坐标，若二值化热力图像素全部等于0，则说明未检测到羽毛球；

步骤(5.4)输出检测结果；将步骤(5.3)中实时得到的羽毛球下采样坐标映射为原k帧图像中羽毛球坐标；并通过白色实心圆将坐标信息标注在原图像序列帧中，同时标注该帧的前m帧羽毛球坐标信息以达到视觉跟踪效果。

本发明的有益效果在于：

(1)本发明通过使用时序编解码网络模型，实现了在存在严重运动模糊以及复杂背景情况下对羽毛球进行实时精确检测与稳定跟踪的算法，该算法有效降低了羽毛球检测与跟踪任务对摄像头帧率的严苛性能要求。

(2)本发明通过引入时序网络结构与通道注意力机制；时序网络结构可以将网络模型输出的热力图与网络模型输入的羽毛球比赛图像在时序上进行通道叠加，使得网络可以有效利用视频前后帧之间的关联信息，从而避免了因为逐帧检测而造成的目标丢失情况；通道注意力机制可以让网络模型学习与使用全局信息，有选择地强调有信息的特征，并抑制不太有用的特征，有效提高了羽毛球检测的准确率与跟踪的稳定性。

(3)模型输出引入图形轮廓检测的方法，避免了端到端网络因为直接输出检测结果而精度不高的缺点。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中羽毛球检测与跟踪方法的工作流程图。

图2是本发明实施例中羽毛球检测与跟踪方法的时序编解码网络模型示意图。

图3是本发明实施例中时序编解码网络的基础卷积模块示意图。

图4是本发明实施例中时序编解码网络的通道注意力模块示意图。

图5是本发明实施例中时序编解码网络的特征提取模块示意图。

图6是本发明实施例中时序编解码网络各层模块输出特征图大小示意图。

图7是本发明实施例中羽毛球检测与跟踪方法的可视化输出示例。

图8是本发明实施例中增加时序网络结构与通道注意力机制的实际效果。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例的限制。

除非另作定义，此处使用的技术术语或者科学术语应当为本申请所述领域内具有一般技能的人士所理解的通常意义。本专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也相应地改变。

实施例：

本实施例的一种基于时序编解码网络的羽毛球检测与跟踪方法，其主要工作流程如图1所示，包括以下步骤：

步骤(1)对图像数据进行预处理；获取连续的V_RGB(n-2)、V_RGB(n-1)、V_RGB(n)共3帧RGB图片，其中n表示视频帧的序号；然后将图片剪裁到高为288像素、宽为512像素大小，并将每一个像素值除以255来实现归一化；最后在通道维度叠加成通道数为9、高为288、宽为512的归一化特征图；

步骤(2)制作图像数据集；从网络与线下采集不同背景羽毛球比赛视频图像，将视频图像按照8：2比例分成训练集与验证集，并将采集到的羽毛球比赛视频图像分解得到jpg图片序列数据；然后，使用LabelMe标注工具对图片中羽毛球球帽形态中心进行点标注；接着，根据LabelMe标注的json文件得到对应图片羽毛球相对坐标，再根据羽毛球相对坐标生成高为288像素、宽为512像素、像素值为0和255的二值单通道jpg热力图，其中，以羽毛球坐标为中心的半径为8像素的圆形区域像素值为255，其余位置像素值为0；最后，将不同的羽毛球比赛视频图像得到的图片和对应的二值热力图标签路径顺序存储在训练与验证数据路径集合的txt文档中；

步骤(3)构建时序编解码网络模型；时序编解码网络模型如图2所示，网络模型使用模块化方法搭建；首先构建基础卷积模块与通道注意力模块，并进一步构建特征提取模块；网络模型依次由输入层、编码层、解码层，输出层构成；其中输入层使用时序网络结构，编码层包含4层特征提取模块与3层下采样运算，解码层包含3层特征提取模块与3层上采样运算，输出层包含1层卷积运算与1层Sigmoid激活函数；

基础卷积模块如图3所示，基础卷积模块由二维卷积运算、ReLU激活函数、组归一化构成；其中二维卷积的卷积核尺寸为3×3，步距为1，边界填充为1；若组归一化的输入通道数为3的倍数，则分组数为输入通道数的1/3，若组归一化的输入通道数为4的倍数，则分组数为输入通道数的1/4；

通道注意力模块如图4所示，通道注意力模块由1层基于特征图宽和高的自适应平均池化，2层全连接层以及ReLU和Sigmoid激活函数构成；特征图输入后，先通过自适应平均池化操作，使空间特征降维到1×1；接着依次使用全连接层、ReLU激活函数、全连接层、Sigmoid激活函数；最后通过矩阵乘法逐通道加权到模块输入特征图的每一个通道上，完成通道注意力对模块输入特征图的重新校准；

特征提取模块如图5所示，首先，特征图输入后经过1个基础卷积模块得到输出y1，y1经过一个通道注意力模块和N个基础卷积模块得到y2，最后将y1和y2逐像素相加；

构建输入层；输入层使用时序网络结构；在得到时序上连续的3帧已裁剪和归一化的预处理特征图后，与网络模型时序输出F_hot(n-8)至F_hot(n-3)在通道上叠加，构成通道数为15、高为288、宽为512的归一化特征图；若时序输出存在为空的情况，则用零矩阵填充；

编码层由4层特征提取模块和3层二维最大池化下采样运算组成；3层二维最大池化下采样运算的卷积核尺寸设置为2×2，步距为2；设置4层特征提取模块的输入通道数与输出通道数依次为(15，32)、(32，64)、(64，128)、(128，256)，并且将3层二维最大池化下采样间隔应用于特征提取模块之间；其中第1/4和第2/4层特征提取模块含有的基础卷积模块数为2，第3/4和第4/4层特征提取模块含有的基础卷积模块数为3；由于经过了三层下采样，输出特征图高和宽压缩为输入特征图的1/8，因此实现了压缩编码功能；输入的特征图经过编码层，得到编码输出；

解码层由3层特征提取模块、3层通道叠加运算以及3层上采样运算组成；设置上采样运算的空间大小乘数为2，采样方式为最近邻，3层特征提取模块1/3、2/3、3/3的输入通道数与输出通道数依次为(384，128)、(192，64)、(96，32)；第1/3层特征提取模块含有基础卷积模块数为3，其余为2；编码输出首先经过上采样运算，然后和编码层中的第3/4层特征提取模块的输出在通道上叠加输入特征提取模块1/3得到输出特征图1；接着将特征图1经过上采样运算，然后和编码层中的第2/4层特征提取模块的输出在通道上叠加输入特征提取模块2/3得到输出特征图2；再将特征图2经过上采样运算，然后和编码层中的第1/4层特征提取模块的输出在通道上叠加输入特征提取模块3/3，最后得到解码输出；

输出层首先将解码输出经过一个输入通道数为32，输出通道数为3、步距为1、边界填充为1的二维卷积；然后经过一个Sigmoid激活函数，最终输出得到通道数为3、高为288、宽为512的归一化热力图。网络各个模块输出特征图大小如图6所示；

步骤(4)训练网络模型。设置网络模型的数据输入路径与超参数信息；设置训练轮数为25，初始学习率为1e-3，允许相对误差为1.5％，即5个像素；数据加载设置为顺序采样，使用步骤(1)方法进行数据预处理；使用二值交叉熵损失函数计算输出热力图损失；采用Adam优化器进行迭代优化，并使用kaiming正态分布初始化卷积层参数；学习率参数采用线性下降策略，每经过1个训练周期后下降一次，第n轮的学习率lr(n)为：

lr(n)＝a+(b-a)÷epochs×epoch

其中a为初始学习率，b为小于1e-8的微小常量，epochs为训练总次数，epoch为当前训练次数；验证时对网络模型预测输出与真实标签热力图进行轮廓检测，获取羽毛球相对坐标，统计验证集准确、精密度、召回率，训练期间保存验证集准确率最高的一组模型权重；

步骤(5)羽毛球实时检测与跟踪；使用步骤(3)和步骤(4)得到的时序编解码网络模型检测羽毛球比赛实时图像，获得羽毛球像素坐标；具体步骤如下：

步骤(5.1)获得羽毛球比赛实时图像；羽毛球比赛场地外围的适当位置部署摄像头，使得摄像头视野范围能够覆盖整个羽毛球球场；本实施例中采用分辨率为3840×2160，刷新率为25FPS的摄像头；获取视频帧，并经过步骤(1)所示的预处理得到归一化特征图，得到通道数为15、高为288、宽为512的归一化特征图；

步骤(5.2)载入时序编解码网络模型并推理；载入步骤(4)中保存的网络模型训练权重，模型推理，得到F_hot(n-2)、F_hot(n-1)、F_hot(n)共3张单通道、高为288、宽为512的归一化热力图，其中n表示视频帧的序号；

步骤(5.3)对热力图进行二值化和目标轮廓检测，得到羽毛球在像素坐标系下的相对坐标；首先，以阈值0.5分别对3张归一化热力图进行二值化处理；然后，对二值化热力图进行非零区域的外接矩形检测，计算每个轮廓的垂直边界最小矩形；然后，以最大面积外接矩形的中心点坐标，作为羽毛球的像素坐标，若二值化热力图像素全部等于0，则说明未检测到羽毛球。

步骤(5.4)输出检测结果；将步骤(5.3)中实时得到的羽毛球下采样坐标映射为原3帧图像中羽毛球坐标；并通过白色实心圆将坐标信息标注在原图像序列帧中，同时标注该帧的前7帧羽毛球坐标信息以达到视觉跟踪效果，结果如图7所示；最后，将结果按照视频帧速输出到显示终端，呈现视频实时跟踪效果。

在中央处理器型号为“Intel Core i512600kf”，显卡型号为“NVIDIA GeForceRTX 3060”的硬件环境下，对基于时序编解码网络的羽毛球检测与跟踪方法的检测精度、检测时间进行测试，对跟踪稳定性进行实际验证，结果如下：

1、检测准确率测试。在步骤(4)的网络训练中，取羽毛球坐标预测值与真实值误差允许值1.5％，即5个像素；训练与测试采用谷歌羽毛球公共数据集，该数据集含有130个不同背景的羽毛球比赛视频，共计含有66000帧训练图片与12000帧验证图片；训练次数设置为25，初始学习率设置为1e-3,得到下表羽毛球检测的准确率、精密度、召回率的测试结果。

表1检测精度测试结果

2、检测时间测试。从摄像头获取羽毛球比赛视频图像数据后开始计时到终端可视化输出为止统计连续检测300帧图像所需时间，然后得到检测一帧图像所需用时。具体做法是，输入一个含有羽毛球的视频和一个不含有羽毛球的视频，分别对其进行检测并可视化输出。实验的测试结果如下表所示。本实施例中选用了25FPS的摄像头，而算法处理速度最低可达71FPS，因此完全可以实现羽毛球的实时检测与跟踪。

表2检测时间测试结果

3、跟踪稳定性验证。通过对比是否含有时序网络结构的已训练模型对同一预备视频进行羽毛球检测。如图8所示，当图中矩形框内存在多个羽毛球目标的时候，添加时序网络结构可以有效利用前后帧之间的信息、避免因为逐帧检测而丢失跟踪目标的情况，有效增加对目标羽毛球的跟踪稳定性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于时序编解码网络的羽毛球检测与跟踪方法，其特征在于，该方法包括以下步骤：

步骤(1)对图像数据进行预处理；获取连续的k帧图片，然后调整图片大小并进行归一化处理；最后在通道维度上叠加成通道数为3k、高为h、宽为w的归一化特征图；

lr(n)＝a+(b-a)÷epochs×epoch

2.根据权利要求1所述的方法，其特征在于，所述步骤(3)中基础卷积模块由二维卷积运算、ReLU激活函数、组归一化顺序构成；其中二维卷积的卷积核尺寸为3×3；

3.根据权利要求1所述的方法，其特征在于，所述步骤(5)中羽毛球检测与跟踪具体步骤如下：