CN115953466A - 一种基于yolov5s的篮球目标定位方法 - Google Patents

一种基于yolov5s的篮球目标定位方法 Download PDF

Info

Publication number
CN115953466A
CN115953466A CN202211532454.4A CN202211532454A CN115953466A CN 115953466 A CN115953466 A CN 115953466A CN 202211532454 A CN202211532454 A CN 202211532454A CN 115953466 A CN115953466 A CN 115953466A
Authority
CN
China
Prior art keywords
basketball
feature
yolov5s
output
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211532454.4A
Other languages
English (en)
Inventor
储开斌
史志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou University
Original Assignee
Changzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou University filed Critical Changzhou University
Priority to CN202211532454.4A priority Critical patent/CN115953466A/zh
Publication of CN115953466A publication Critical patent/CN115953466A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

一种基于yolov5s的篮球目标定位方法,属于计算机视觉与嵌入式系统领域。可以由部署于计算机或NVIDIA Jetson TX2(以下简称为TX2)平台的yolov5s模型对摄像系统实时采集的篮球赛事图像进行预测,并将检测结果,即预测框位置与置信度等信息通过串口通讯发送至由STM32单片机控制的两轴摄像云台,STM32端对收到的检测结果进行数据解析,然后通过GPIO口输出pwm信号驱动搭载高清摄像机的两轴摄像云台的pitch轴与yaw轴电机进行转动,不断调整摄像机的摄像视角以实现对篮球赛事图像的持续采集并在后续帧对篮球目标进行实时检测与跟踪。

Description

一种基于yolov5s的篮球目标定位方法
技术领域
本发明涉及计算机视觉与嵌入式系统领域,特别涉及一种专门用于篮球赛事中的跟踪摄像方法,可以由部署于计算机或NVIDIA Jetson TX2(以下简称为TX2)平台的yolov5s模型对摄像系统实时采集的篮球赛事图像进行预测,并将检测结果,即预测框位置与置信度等信息通过串口通讯发送至由STM32单片机控制的两轴摄像云台,STM32端对收到的检测结果进行数据解析,然后通过GPIO口输出pwm信号驱动搭载高清摄像机的两轴摄像云台的pitch轴与yaw轴电机进行转动,不断调整摄像机的摄像视角以实现对篮球赛事图像的持续采集并在后续帧对篮球目标进行实时检测与跟踪。
背景技术
目标检测与目标跟踪一直是计算机视觉领域的一个重要研究方向,被广泛应用于自动驾驶、视频监控、人机交互、国防安全等重要领域,体育赛事也不例外。NBA、CBA等大型篮球职业联赛中的摄像机位有十几处之多,包括场边的个人摄影机、篮筐上方的与裁判台的固定摄像机、悬挂在球馆上空的轨道摄像机等,比赛直播过程中视角的切换使用的是一种可以同时接入多台摄像机的模拟切换台设备,后台有导播负责通过查看监视器来切换摄像机位,音频的拾取不受画面转换的影响,因此能够为我们展现灵活多变的观赛视角与舒适的观赛体验。一些热度很高的民间篮球赛事受场地、资金等条件限制,通常只有单一的摄像机位。本文将轻量化目标检测模型yolov5s应用于篮球体育赛事的摄像中,可以减少甚至代替拍摄人员的对摄像机的手动控制,并节省一定数量的摄像机位,能够在一定程度上节省赛事摄像过程中投入的人力与物力。
发明内容
本发明旨在提供一种基于yolov5s的篮球目标定位方法,将轻量化目标检测模型yolov5s应用于篮球体育赛事的摄像中,对比赛用球进行精准的定位与跟踪。
本发明采用的技术方案如下:
一种基于yolov5s的篮球目标定位方法,具体包括以下步骤:
S1,采集不同场景下的篮球比赛图片作为原始数据集,并将数据集划分为训练集、验证集与测试集。
S2,将S1所述数据集输入yolov5s网络进行模型训练,经过参数调整优化得到最佳权重数据。yolov5s网络结构包括Input端、Backbone端、Neck端以及Prediction端。具体过程如下:
S2-1,Input端对输入yolov5s网络的数据集进行预处理,整个过程包括Mosaic数据增强、自适应锚框计算与自适应图片缩放,将预处理后的图片输出至Backbone端;
S2-2,Backbone端采用多个CBS和CSP1_X模块对Input端输出的数据集进行卷积操作,得到三种不同尺度的特征图,特征图经过CA注意力机制进一步增强空间信息,然后输入空间金字塔池化层SimSPPF,将不同尺度的特征图转化为固定大小输出至Neck端;
S2-3,Neck端对Backbone端输出的特征图使用FPN+PAN结构进行信息增强,然后利用CSP2_X结构提取并融合强化后的特征图,最后将特征图输出至Prediction端;
S2-4,Prediction端利用Neck端输出的特征图对训练集图片进行预测,生成目标的位置、类别与置信度。
S3,将S2所述训练得到的最佳权重数据加载至部署于计算机或TX2平台的yolov5s网络中,输入两轴摄像云台采集的实时图像,输出篮球目标的位置与置信度信息。
进一步的,S1的具体步骤如下:
S1-1,采集不同场景下的比赛图片作为原始数据集。
S1-2,通过labelImg软件对原始数据集进行标注,标注类别为0:basketball。
S1-3,将标注完成的数据集按比例划分为训练集、验证集与测试集。
进一步地,S2-1中图片预处理的具体步骤如下:
S2-1-1,Input端对输入yolov5s网络的篮球训练集进行Mosaic数据增强,即随机选取4张篮球训练集图片,对其进行随机裁剪、排布与缩放,最后拼接至一张图像;
S2-1-2,yolov5s网络根据数据集的锚框尺寸,设定初始锚框的长、宽数值,然后通过模型训练与真实锚框进行比较,不断迭代更新网络参数得到最佳的锚框尺寸;
S2-1-3,将输入图片均压缩到同样比例的尺寸,空白部分用黑色像素点填充。
进一步地,S2-2中Backbone端采用多个CBS和CSP1_X模块对Input端输出的数据集进行多次叠加卷积操作,得到尺寸为80×80×128、40×40×256、20×20×512三种不同尺度的特征图。其中,尺寸为80×80×128的特征图包含的低级特征信息占70~80%,适用于小目标的检测;尺寸为40×40×256的特征图包含的低级特征与高级特征信息比例约为1:1,适用于中等目标的检测;尺寸为20×20×512的特征图包含的高级特征信息占70~80%,适用于大目标的检测。在Backbone骨干网络的末端,将尺寸为20×20×512的特征图输入CA注意力机制,进一步增强特征的空间信息,最后通过空间金字塔池化层SimSPPF将不同尺度的特征图转化为固定大小输出至Neck端。
进一步地,S2-2中CA注意力机制的具体工作流程如下:
S2-2-1,给定特征图输入X,利用尺寸为(H,1)的池化卷积核沿水平方向对X的每个通道进行编码,其公式如下:
Figure BDA0003974929830000031
其中
Figure BDA0003974929830000032
代表高度为h的第c通道的输出;W代表X的宽度;
S2-2-2,利用尺寸为(1,W)的池化卷积核沿垂直方向对X的每个通道进行编码,其公式如下:
Figure BDA0003974929830000033
其中
Figure BDA0003974929830000034
代表宽度为w的第c通道的输出;H代表X的高度;
S2-2-3,将以上输出zh与zw进行拼接操作,然后利用尺寸为1×1的卷积核对其进行卷积操作,其公式如下:
f=δ(F1([zh,zw]))
其中δ代表非线性激活函数;F1代表对[zh,zw]进行卷积操作的卷积函数;f代表已编码空间信息的特征图;
S2-2-4,分别沿水平与垂直方向将以上输出f分解为fh与fw,然后利用两个不同的尺寸均为1×1的卷积核分别对其进行卷积操作,其公式如下:
gh=σ(Fh(fh))
gw=σ(Fw(fw))
其中σ代表sigmoid激活函数;fh代表水平方向的空间特征图;fw代表垂直方向的空间特征图;Fh代表对fh进行卷积操作的卷积函数;Fw代表对fw进行卷积操作的卷积函数;gh代表水平方向的特征映射输出;gw代表垂直方向的特征映射输出;
S2-2-5,最后,将给定特征输入X与以上输出gh与gw作相乘运算得到最终的注意力机制输出Y,其公式如下:
Figure BDA0003974929830000035
其中xc(i,j)代表X在坐标(i,j)处的c通道的值;
Figure BDA0003974929830000036
代表gh在第i行的c通道的值;
Figure BDA0003974929830000037
代表gw在第j列的c通道的值;yc(i,j)代表注意力机制输出Y在坐标(i,j)处的c通道的值。
进一步地,S2-3中Neck端对Backbone端输出的特征图使用FPN+PAN结构进行信息增强。FPN结构是自顶向下进行上采样的特征金字塔,能够将高层的强语义特征传递下来,与低层特征做融合得到进行预测的特征图;PAN结构是自底向上进行下采样的特征金字塔,能够将底层的强定位特征传递上去,与高层特征做融合得到进行预测的特征图。FPN结构和PAN结构优势互补,从不同的主干层对不同的检测层进行参数聚合,从而使输出的特征图具有强语义特征与强定位特征。
本发明具有如下技术效果:
一方面,本申请对yolov5s网络结构进行改进,在Backbone骨干网络的末端融入CA注意力机制,能够捕捉特征的空间分布信息,获得优秀的全局感受野。CA注意力机制配合FPA+PAN双向特征金字塔结构不仅能够提取语义信息丰富的特征图,同时可以避免由于全局池化操作导致的位置信息丢失。在增加少量计算开销的前提下融合了更多的特征,增强了在多个尺度上的语义表达与定位能力,提高了模型的检测精度,有效适用于背景复杂的篮球赛事中对篮球小目标的检测识别,一定程度上能够避免由于篮球目标在整个赛场拍摄图像中的比例较小而造成的误检和无法识别等问题。
另一方面,可供选择的,部署yolov5s模型的计算机平台通过串口通讯将篮球目标的位置与置信度信息发送至stm32端,stm32端串口对收到的数据包进行解析并控制gpio口输出pwm信号驱动搭载高清摄像机的两轴云台电机进行转动,不断调整摄像机的摄像视角以实现对篮球赛事图像的持续采集并在后续帧对篮球目标进行实时检测与定位,该方案可以减少甚至代替拍摄人员的对摄像机的手动控制,并节省一定数量的摄像机位,在一定程度上节省篮球赛事摄像过程中投入的人力与物力。
附图说明
以下结合附图和具体实施方式对本发明作进一步的详细说明:
图1为本发明基于yolov5s的篮球赛事跟踪摄像方法的流程示意图;
图2为本发明改进的yolov5s网络结构示意图;
图3为本发明CA注意力机制结构示意图;
图4为本发明采集的原始数据集示意图;
图5为本发明Mosaic数据增强后的数据集示意图;
图6为本发明yolov5s模型训练结果示意图;
图7为本发明yolov5s模型检测结果示意图。
具体实施方式
为了使本申请实施例的目的、技术方案和优势更加清晰,下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。
如图1至图7之一所示,本发明公开了基于yolov5s的篮球目标定位方法,其包括以下步骤:
S1,通过摄像机拍摄校园篮球比赛、截取篮球职业联赛录像等方式获取原始数据集,并将数据集划分为训练集、验证集与测试集。
S2,将S1所述数据集输入yolov5s网络进行模型训练,经过参数调整优化得到最佳权重数据。yolov5s网络结构包括Input端、Backbone端、Neck端以及Prediction端。Input输入端对输入网络的图片进行预处理,包括Mosaic数据增强、自适应锚框计算、自适应图片缩放操作;Backbone骨干网络通过Focus结构与CSP1_X结构得到不同尺度的特征图,特征图经过CA注意力结构进一步增强空间信息,然后输入空间金字塔池化层SimSPPF,将不同尺度的特征图转化为固定大小;Neck颈部网络通过FPN+PAN结构与CSP2_X结构对特征图进行融合处理;Prediction预测端采用SIOU_LOSS作为损失函数,实现篮球目标的位置信息预测。
S3,将S2所述训练得到的最佳权重数据加载至部署于计算机或TX2平台的yolov5s网络中,输入两轴摄像云台采集的实时图像,输出篮球目标的位置与置信度信息。
进一步的,S1的具体步骤如下:
S1-1,通过摄像机拍摄校园篮球比赛、截取篮球职业联赛录像等方式获取多种不同场景下的比赛图片4000张作为原始数据集。
S1-2,通过labelImg软件对原始数据集进行标注,标注类别为0:basketball。
S1-3,将标注完成的数据集按比例6:1:1划分为训练集、验证集与测试集。
进一步的,S2的具体步骤如下:
S2-1,Input端对输入yolov5s网络的数据集进行预处理,整个过程包括Mosaic数据增强、自适应锚框计算与自适应图片缩放,将预处理后的图片输出至Backbone端;
S2-2,Backbone端采用多个CBS和CSP1_X模块对Input端输出的数据集进行卷积操作,得到三种不同尺度的特征图,特征图经过CA注意力机制进一步增强空间信息,然后输入空间金字塔池化层SimSPPF,将不同尺度的特征图转化为固定大小输出至Neck端;
S2-3,Neck端对Backbone端输出的特征图使用FPN+PAN结构进行信息增强,然后利用CSP2_X结构提取并融合强化后的特征图,最后将特征图输出至Prediction端;
S2-4,Prediction端利用Neck端输出的特征图对训练集图片进行预测,生成目标的位置、类别与置信度;
进一步地,S2-1中图片预处理的具体步骤如下:
S2-1-1,Input端对输入yolov5s网络的篮球训练集进行Mosaic数据增强,即随机选取4张篮球训练集图片,对其进行随机裁剪、排布与缩放,最后拼接至一张图像;
S2-1-2,yolov5s网络根据数据集的锚框尺寸,设定初始锚框的长、宽数值,然后通过模型训练与真实锚框进行比较,不断迭代更新网络参数得到最佳的锚框尺寸;
S2-1-3,将输入图片均压缩到同样比例的尺寸,即640×640,空白部分用黑色像素点填充。
进一步地,S2-2中Backbone端采用多个CBS和CSP1_X模块对Input端输出的数据集进行多次叠加卷积操作,得到尺寸为80×80×128、40×40×256、20×20×512三种不同尺度的特征图。其中,尺寸为80×80×128的特征图包含的低级特征信息占70~80%,适用于小目标的检测;尺寸为40×40×256的特征图包含的低级特征与高级特征信息比例约为1:1,适用于中等目标的检测;尺寸为20×20×512的特征图包含的高级特征信息占70~80%,适用于大目标的检测。在Backbone骨干网络的末端,将尺寸为20×20×512的特征图输入CA注意力机制,进一步增强特征的空间信息,最后通过空间金字塔池化层SimSPPF将不同尺度的特征图转化为固定大小输出至Neck端。
进一步地,S2-2中CA注意力机制的具体工作流程如下:
S2-2-1,给定特征图输入X,利用尺寸为(H,1)的池化卷积核沿水平方向对X的每个通道进行编码,其公式如下:
Figure BDA0003974929830000061
其中
Figure BDA0003974929830000062
代表高度为h的第c通道的输出;W代表X的宽度;
S2-2-2,利用尺寸为(1,W)的池化卷积核沿垂直方向对X的每个通道进行编码,其公式如下:
Figure BDA0003974929830000063
其中
Figure BDA0003974929830000064
代表宽度为w的第c通道的输出;H代表X的高度;
S2-2-3,将以上输出zh与zw进行拼接操作,然后利用尺寸为1×1的卷积核对其进行卷积操作,其公式如下:
f=δ(F1([zh,zw]))
其中δ代表非线性激活函数;F1代表对[zh,zw]进行卷积操作的卷积函数;f代表已编码空间信息的特征图;
S2-2-4,分别沿水平与垂直方向将以上输出f分解为fh与fw,然后利用两个不同的尺寸均为1×1的卷积核分别对其进行卷积操作,其公式如下:
gh=σ(Fh(fh))
gw=σ(Fw(fw))
其中σ代表sigmoid激活函数;fh代表水平方向的空间特征图;fw代表垂直方向的空间特征图;Fh代表对fh进行卷积操作的卷积函数;Fw代表对fw进行卷积操作的卷积函数;gh代表水平方向的特征映射输出;gw代表垂直方向的特征映射输出;
S2-2-5,最后,将给定特征输入X与以上输出gh与gw作相乘运算得到最终的注意力机制输出Y,其公式如下:
Figure BDA0003974929830000071
其中xc(i,j)代表X在坐标(i,j)处的c通道的值;
Figure BDA0003974929830000072
代表gh在第i行的c通道的值;
Figure BDA0003974929830000073
代表gw在第j列的c通道的值;yc(i,j)代表注意力机制输出Y在坐标(i,j)处的c通道的值。
进一步地,S2-3中Neck端对Backbone端输出的特征图使用FPN+PAN结构进行信息增强。FPN结构是自顶向下进行上采样的特征金字塔,能够将高层的强语义特征传递下来,与低层特征做融合得到进行预测的特征图;PAN结构是自底向上进行下采样的特征金字塔,能够将底层的强定位特征传递上去,与高层特征做融合得到进行预测的特征图。FPN结构和PAN结构优势互补,从不同的主干层对不同的检测层进行参数聚合,从而使输出的特征图具有强语义特征与强定位特征。
实验结果:本申请实施例是在笔记本电脑端完成,运行环境为:CPU为11th GenIntel(R)Core(TM)i5-11400H@2.70GHz,GPU为NVIDIAGeForce RTX3050 Laptop GPU,内存为4G,操作系统为Windows10.0,实验框架为Pytorch1.12.0+cuda11.6+cudnn8.0,使用OpenCV4.6.0.66进行图像显示。
实验参数设置如下:参数训练采用SGD优化算法,输入图像大小为640×640像素,Batch_size大小设置为16;epoch设置为300;动量因子为0.937;权重衰减系数为0.0005。采用余弦退火策略动态调整学习率,初始学习率为0.01,采用SIOU Loss作为网络损失函数。
评估指标:为准确评估篮球检测模型的性能,使用准确率P、召回率R、平均精度均值mAP_0.5与map_0.5:0.95,以及帧率FPS作为评估指标。
如图6所示,迭代150次后,损失值基本稳定在0.003上下。最终,篮球检测模型的准确率为0.926,召回率为0.874,平均精度均值为0.939,在分辨率为1920×1080的采集视频上的检测帧率为83.3。经过实验验证,基于yolov5s的篮球检测模型具有较高的检测精度与检测效率,能够满足在篮球赛事场景下对篮球目标进行精准高效地检测与定位的要求。
本发明是基于深度学习的目标检测网络yolov5s的篮球目标定位方法,将目标检测技术应用到体育赛事的跟踪摄像中,轻量化的yolov5s模型可以在篮球赛事复杂的背景环境下实现对篮球目标的精准高效定位,从而使两维摄像云台对赛场赛况进行持续精准拍摄。该方案既可以减少甚至代替拍摄人员对摄像机的手动控制,又可以节省一定数量的摄像机位,能够在一定程度上节省赛事摄像过程中投入的人力与物力。同时可以为其他体育赛事场景的拍摄和比赛数据分析提供一定的参考价值。
以上所述实施例的各种技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请描述较为具体和详细的实施例,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种基于yolov5s的篮球目标定位方法,其特征在于,具体包括以下步骤:
S1,采集不同场景下的篮球比赛图片作为原始数据集,并将数据集划分为训练集、验证集与测试集;
S2,将S1数据集输入yolov5s网络进行模型训练,经过参数调整优化得到最佳权重数据;yolov5s网络结构包括Input端、Backbone端、Neck端以及Prediction端;具体过程如下:
S2-1,Input端对输入yolov5s网络的数据集进行预处理,整个过程包括Mosaic数据增强、自适应锚框计算与自适应图片缩放,将预处理后的图片输出至Backbone端;
S2-2,Backbone端采用多个CBS和CSP1_X模块对Input端输出的数据集进行卷积操作,得到三种不同尺度的特征图,特征图经过CA注意力机制进一步增强空间信息,然后输入空间金字塔池化层SimSPPF,将不同尺度的特征图转化为固定大小输出至Neck端;
S2-3,Neck端对Backbone端输出的特征图使用FPN+PAN结构进行信息增强,然后利用CSP2_X结构提取并融合强化后的特征图,最后将特征图输出至Prediction端;
S2-4,Prediction端利用Neck端输出的特征图对训练集图片进行预测,生成目标的位置、类别与置信度;
S3,将S2训练得到的最佳权重数据加载至部署于计算机或TX2平台的yolov5s网络中,输入两轴摄像云台采集的实时图像,输出篮球目标的位置与置信度信息。
2.根据权利要求1所述的一种基于yolov5s的篮球目标定位方法,其特征在于:
S1的具体步骤如下:
S1-1,采集不同场景下的比赛图片作为原始数据集;
S1-2,通过labelImg软件对原始数据集进行标注,标注类别为0:basketball;
S1-3,将标注完成的数据集按比例划分为训练集、验证集与测试集。
3.根据权利要求1所述的一种基于yolov5s的篮球目标定位方法,其特征在于:
S2-1中图片预处理的具体步骤如下:
S2-1-1,Input端对输入yolov5s网络的篮球训练集进行Mosaic数据增强,即随机选取4张篮球训练集图片,对其进行随机裁剪、排布与缩放,最后拼接至一张图像;
S2-1-2,yolov5s网络根据数据集的锚框尺寸,设定初始锚框的长、宽数值,然后通过模型训练与真实锚框进行比较,不断迭代更新网络参数得到最佳的锚框尺寸;
S2-1-3,将输入图片均压缩到同样比例的尺寸,空白部分用黑色像素点填充。
4.根据权利要求1所述的一种基于yolov5s的篮球目标定位方法,其特征在于:
S2-2中Backbone端采用多个CBS和CSP1_X模块对Input端输出的数据集进行多次叠加卷积操作,得到尺寸为80×80×128、40×40×256、20×20×512三种不同尺度的特征图;其中,尺寸为80×80×128的特征图包含的低级特征信息占70~80%,适用于小目标的检测;尺寸为40×40×256的特征图包含的低级特征与高级特征信息比例约为1:1,适用于中等目标的检测;尺寸为20×20×512的特征图包含的高级特征信息占70~80%,适用于大目标的检测。
5.根据权利要求1所述的一种基于yolov5s的篮球目标定位方法,其特征在于:
S2-2中CA注意力机制的具体工作流程如下:
S2-2-1,给定特征图输入X,利用尺寸为(H,1)的池化卷积核沿水平方向对X的每个通道进行编码,其公式如下:
Figure FDA0003974929820000021
其中
Figure FDA0003974929820000022
代表高度为h的第c通道的输出;W代表X的宽度;
S2-2-2,利用尺寸为(1,W)的池化卷积核沿垂直方向对X的每个通道进行编码,其公式如下:
Figure FDA0003974929820000023
其中
Figure FDA0003974929820000024
代表宽度为w的第c通道的输出;H代表X的高度;
S2-2-3,将以上输出zh与zw进行拼接操作,然后利用尺寸为1×1的卷积核对其进行卷积操作,其公式如下:
f=δ(F1([zh,zw]))
其中δ代表非线性激活函数;F1代表对[zh,zw]进行卷积操作的卷积函数;f代表已编码空间信息的特征图;
S2-2-4,分别沿水平与垂直方向将以上输出f分解为fh与fw,然后利用两个不同的尺寸均为1×1的卷积核分别对其进行卷积操作,其公式如下:
gh=σ(Fh(fh))
gw=σ(Fw(fw))
其中σ代表sigmoid激活函数;fh代表水平方向的空间特征图;fw代表垂直方向的空间特征图;Fh代表对fh进行卷积操作的卷积函数;Fw代表对fw进行卷积操作的卷积函数;gh代表水平方向的特征映射输出;gw代表垂直方向的特征映射输出;
S2-2-5,将给定特征输入X与以上输出gh与gw作相乘运算得到最终的注意力机制输出Y,其公式如下:
Figure FDA0003974929820000031
其中xc(i,j)代表X在坐标(i,j)处的c通道的值;
Figure FDA0003974929820000032
代表gh在第i行的c通道的值;
Figure FDA0003974929820000033
代表gw在第j列的c通道的值;yc(i,j)代表注意力机制输出Y在坐标(i,j)处的c通道的值。
6.根据权利要求3所述的一种基于yolov5s的篮球目标定位方法,其特征在于:
S2-3中Neck端对Backbone端输出的特征图使用FPN+PAN结构进行信息增强;FPN结构是自顶向下进行上采样的特征金字塔,能够将高层的强语义特征传递下来,与低层特征做融合得到进行预测的特征图;PAN结构是自底向上进行下采样的特征金字塔,能够将底层的强定位特征传递上去,与高层特征做融合得到进行预测的特征图。
CN202211532454.4A 2022-12-01 2022-12-01 一种基于yolov5s的篮球目标定位方法 Pending CN115953466A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211532454.4A CN115953466A (zh) 2022-12-01 2022-12-01 一种基于yolov5s的篮球目标定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211532454.4A CN115953466A (zh) 2022-12-01 2022-12-01 一种基于yolov5s的篮球目标定位方法

Publications (1)

Publication Number Publication Date
CN115953466A true CN115953466A (zh) 2023-04-11

Family

ID=87285124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211532454.4A Pending CN115953466A (zh) 2022-12-01 2022-12-01 一种基于yolov5s的篮球目标定位方法

Country Status (1)

Country Link
CN (1) CN115953466A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612168A (zh) * 2023-04-20 2023-08-18 北京百度网讯科技有限公司 图像处理方法、装置、电子设备、图像处理系统及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612168A (zh) * 2023-04-20 2023-08-18 北京百度网讯科技有限公司 图像处理方法、装置、电子设备、图像处理系统及介质

Similar Documents

Publication Publication Date Title
US10630899B2 (en) Imaging system for immersive surveillance
CN101720027B (zh) 可变焦阵列摄像机协同获取不同分辨率多目标视频方法
CN103716594B (zh) 基于运动目标检测的全景拼接联动方法及装置
US20190238800A1 (en) Imaging systems and methods for immersive surveillance
US9468850B2 (en) System and method for optical player tracking in sports venues
WO2020029921A1 (zh) 一种监控方法与装置
US9367746B2 (en) Image processing apparatus for specifying an image relating to a predetermined moment from among a plurality of images
CN113838098B (zh) 一种针对远距离高速运动目标的智能跟踪拍摄系统
SG191198A1 (en) Imaging system for immersive surveillance
CN106993188B (zh) 一种基于多人脸视频显著性的hevc压缩编码方法
CN109712177A (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
CN115953466A (zh) 一种基于yolov5s的篮球目标定位方法
CN112584036A (zh) 云台控制方法、装置、计算机设备及存储介质
CN110910489B (zh) 一种基于单目视觉的智能球场运动信息采集系统与方法
CN114630024B (zh) 一种基于阵列相机系统的仿视网膜非均匀成像方法
CN116828305A (zh) 一种基于YOLOv5算法的云台自动追踪目标物方法
CN110430400A (zh) 一种双目可运动摄像机的地平面区域检测方法
CN109547689A (zh) 自动拍摄控制方法、装置及计算机可读存储介质
CN115376313A (zh) 一种基于监控摄像头组的图像融合与畸变矫正的实现方法
CN113780109B (zh) 基于四元数时空卷积神经网络的斑马线检测方法及系统
US12073611B2 (en) Apparatus and methods for object detection using machine learning processes
CA2901913C (en) System and method for optical player tracking in sports venues
CN117459680A (zh) 一种基于多摄像头的全景分析系统及方法
CN118154428A (zh) 可见光图像与红外偏振图像的多模态光电成像系统及方法
CN109688306A (zh) 自动拍摄控制方法、装置、系统、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination