CN116310991A

CN116310991A - 一种基于强化学习的篮板落点预测方法及系统

Info

Publication number: CN116310991A
Application number: CN202310298954.4A
Authority: CN
Inventors: 王海滨; 纪文峰; 李凯
Original assignee: Qingdao Genjian Intelligent Technology Co ltd
Current assignee: Qingdao Genjian Intelligent Technology Co ltd
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-06-23

Abstract

本发明提出了一种基于强化学习的篮板落点预测方法及系统，涉及强化学习技术领域,采用惯性传感器和机器视觉两种方案获取定点投篮时篮球初始位置的动态信息，利用初始位置的动态信息与篮板的三维位置关系构建数据对，建立强化学习模型，利用这些数据进行训练迭代至收敛，其中奖励函数的设置是基于预测落点坐标和实际落点坐标的距离差值,并采用强化学习模型进行篮板落点预测；无需拟合出篮球的整条运动轨迹，仅利用篮球初始点的动态信息和落点位置，通过奖励函数自动学习并优化预测能力，在提高数据利用率的同时减小计算开销。

Description

一种基于强化学习的篮板落点预测方法及系统

技术领域

本发明属于强化学习技术领域，尤其涉及一种基于强化学习的篮板落点预测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

篮板落点预测是一项重要且具有实用性的强化学习任务，是一种针对视觉场景的定点投篮落点预测方法，发展前景非常广阔。

现有的篮板预测方法主要是通过计算机视觉分析视频序列，进行轨迹跟踪来采集数据，再构建运动轨迹方程或使用深度神经网络进行学习和预测，但普遍存在部分数据因遮挡不可用于拟合运动轨迹和整体计算开销过大的问题，因此，需要一种无需拟合整条运动轨迹、高效的篮板落点预测方法。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于强化学习的篮板落点预测方法及系统，采用惯性传感器和机器视觉两种方案获取定点投篮时篮球初始位置的动态信息，利用初始位置的动态信息与篮板的三维位置关系构建数据对，建立强化学习模型，利用这些数据进行训练迭代至收敛，其中奖励函数的设置是基于预测落点坐标和实际落点坐标的距离差值,并采用强化学习模型进行篮板落点预测；无需拟合出篮球的整条运动轨迹，仅利用篮球初始点的动态信息和落点位置，通过奖励函数自动学习并优化预测能力，在提高数据利用率的同时减小计算开销。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了一种基于强化学习的篮板落点预测方法；

一种基于强化学习的篮板落点预测方法，包括：

分别通过惯性传感器方案和机器视觉方案获取定点投篮过程数据，合并后得到篮球动态信息，包括初始点篮球坐标、速度、加速度和落点位置坐标；

利用篮球动态信息与篮板的三维位置关系，对篮球动态信息进行筛选和坐标转换，得到用于模型训练的样本数据集；

基于样本数据集，对建立的落点预测强化学习模型进行训练；

利用训练好的落点预测强化学习模型进行投篮的篮板落点进行预测，得到投篮预测结果。

进一步的，所述惯性传感器方案，是采用惯性传感设备获取当前状态篮球速度、加速度和方向；

所述机器视觉方案，是通过目标检测算法得到不同时刻的篮球三维坐标，计算篮球速度、加速度与方向。

进一步的，定点投篮过程中，通过惯性传感器方案和机器视觉方案得到两组篮球速度、加速度与方向序列；

截取定点投篮的起始时间和终止时间之间的数据，并对数据进行去噪处理；

使用位姿描述方法表示篮球运动过程中的空间姿态，完成篮球坐标系和篮球场坐标系的转换，得到篮球动态信息。

进一步的，所述篮球动态信息与篮板的三维位置关系，是将篮球动态信息与篮板范围进行对比，若预测的落点坐标超出篮板范围，则判定为无效球。

进一步的，将篮球动态信息变换至强化学习环境的坐标系中，初始点篮球坐标变换为(x_nr,y_nr,z_nr)，实际落点位置坐标变换为(x_nt,y_nt,z_nt)，预测落点位置坐标记为(x_np,y_np,z_np)，将预测落点位置坐标与实际落点位置坐标之间的距离作为奖励函数指标。

进一步的，所述落点预测强化学习模型，基于深度强化学习网络，以初始点篮球坐标、速度、加速度的三维向量为输入，输出预测落点位置的三维坐标。

进一步的，将样本数据集划分为训练集和验证集，在所述奖励函数的指导下，对落点预测强化学习模型进行训练和验证。

本发明第二方面提供了一种基于强化学习的篮板落点预测系统。

一种基于强化学习的篮板落点预测系统，包括数据获取模块、样本构建模块、模型构建模块和落点预测模块：

数据获取模块，被配置为：分别通过惯性传感器方案和机器视觉方案获取定点投篮过程数据，合并后得到篮球动态信息，包括初始点篮球坐标、速度、加速度和落点位置坐标；

样本构建模块，被配置为：利用篮球动态信息与篮板的三维位置关系，对篮球动态信息进行筛选和坐标转换，得到用于模型训练的样本数据集；

模型构建模块，被配置为：基于样本数据集，对建立的落点预测强化学习模型进行训练；

落点预测模块，被配置为：利用训练好的落点预测强化学习模型进行投篮的篮板落点进行预测，得到投篮预测结果。

本发明第三方面提供了计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的一种基于强化学习的篮板落点预测方法中的步骤。

本发明第四方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的一种基于强化学习的篮板落点预测方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

本发明采用惯性传感器和机器视觉两种方案获取定点投篮时篮球初始位置的动态信息,仅保留篮球初始点的动态信息和落点位置坐标的数据对，无需拟合整条运动轨迹，避免使用惯性传感器方案时累计误差过大，或使用视觉方案时因其他物品遮挡或光线过暗而影响识别效果导致数据不可用的问题，提高了数据利用率；并结合强化学习，能够通过奖励函数自动优化预测能力，同时计算开销较小，且具有较为准确的落点预测结果。

本发明利用初始位置的动态信息与篮板的三维位置关系构建数据对，建立强化学习模型，利用这些数据进行训练迭代至收敛，其中奖励函数的设置是基于预测落点坐标和实际落点坐标的距离差值,并采用强化学习模型进行篮板落点预测；本发明无需拟合出篮球的整条运动轨迹，仅利用篮球初始点的动态信息和落点位置，通过奖励函数自动学习并优化预测能力，提出的强化学习模型不需要额外监督，能够在训练阶段自主学习并通过奖励函数指导进行优化，在提高数据利用率的同时减小计算开销，从而在部署阶段能够提供最准确的预测。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图。

图2为第一个实施例中模型的结构图。

图3为第二个实施例的系统结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明；除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式；如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例公开了一种基于强化学习的篮板落点预测方法；

如图1所示，一种基于强化学习的篮板落点预测方法，包括：

步骤S1：分别通过惯性传感器方案和机器视觉方案获取定点投篮过程数据，合并后得到篮球动态信息，包括初始点篮球坐标、速度、加速度和落点位置坐标，具体步骤为：

步骤S101：惯性传感器方案获取数据

首先进行惯性传感器方案的准备工作，需要在篮球内部固定惯性传感器组件，要求组件保持与篮球相对静止的位置关系；惯性传感器组件包含惯性传感器模块、计算模块和通信模块，其中，惯性传感器模块包含加速度计、陀螺仪和磁力计，用于实时测量加速度、角速度以及磁场强度数据，作为惯性传感器数据；计算模块用于处理惯性传感器的原始数据，计算出当前状态下篮球的速度、加速度和方向；通信模块用于与终端计算机进行交互，周期性发送惯性传感器所获得的数据；为保证传感器的精度，需要在使用前对其进行校准。

准备工作完成后，进行惯性传感器方案的数据采集及初始化，具体为：

(1)利用惯性传感器采集定点投篮过程中的篮球运动全程动态信息；

(2)基于篮球运动全程动态信息，通过滑动窗口法分析出定点投篮的起始时间t₀和终止时间t_s，只截取该时间段内的数据进行后续计算，并对数据进行平滑滤波算法的去噪处理；

实际上，惯性传感器可以获取到篮球运动全程的动态信息，并且当前状态的信息(尤其是坐标)需要与前一个状态的信息进行对比计算，是一个连续的过程，因此仅通过初始点的信息是无法得到落点信息的；通过滑动窗口法可以分析出定点投篮的起始时间点；由于目标是落点预测，因此只有这个时间段(即投篮过程)内的动态信息对于落点预测是有效的。

仅保留该时间段内的数据，有两个作用：

1)确定篮球沾板的时间点，该点对应的空间坐标即为落点坐标；

2)该时间段之外的数据对于落点预测是无效信息，在预处理阶段过滤掉，可以减小后续的计算开销。

总的来说，强化学习预测算法需要的输入仅有初始时间点的动态信息和落点坐标，即两个时间点的信息，但落点坐标需要投篮整个事件段的动态信息计算才能得到；因此在该阶段分析过程中截取时间段，而预测阶段输入模型时仅保留两个时间点的信息。

(3)使用位姿描述方法表示篮球运动过程中的空间姿态，采用单位四元数法完成篮球坐标系和篮球场坐标系的转换，并利用扩展卡尔曼滤波方法实现角速度、加速度以及磁场强度三种数据的数据融合，对单位四元数进行修正，使数据估计值最接近于真实值，最终得到惯性传感器方案下的篮球动态信息,包括初始点篮球坐标(x_n0,y_n0,z_n0)、速度(v_nx,v_ny,v_ns)、加速度(a_nx,a_ny,a_ns)和落点位置坐标(x_ns,y_ns,z_ns)。

位姿描述方法，是将刚体在三维空间的位姿变化分解为位置变化和姿态变化这两个方面进行描述，分别通过求解刚体的平移和旋转运动来实现。

惯性传感器采集到的运动数据是基于篮球坐标系的，需要将其转换到篮球场坐标系中；坐标系转换的方法主要有：欧拉角、旋转矩阵、单位四元数、方向余弦等，其中单位四元数法优势较为突出，得到广泛使用，因此选取该方法。

篮球坐标系，是惯性传感器的载体坐标系，原点与载体重心重合，传感器输出的惯性数据都是基于载体坐标系下的，载体坐标系用于描述和处理传感器直接测得的物理量；篮球场坐标系，是导航坐标系，也就是地理坐标系、现实世界的坐标系，描述载体参考于现实环境的实际运动状态；简单来说，传感器数据的输出都是基于载体坐标系，但需要映射转换到现实坐标系才能描述载体相对于现实空间的运动参数

扩展卡尔曼滤波方法的作用是：简单来说，如果可以获得精确的角速度值，结合上一时刻姿态四元数可以计算出当前的准确的姿态四元数；然而在实际中陀螺仪采集到的角速度存在误差，误差经过累计后会出现角速度漂移；为了矫正误差，可以利用加速度和磁场强度计算卡尔曼增益，进而修正预测得到的四元数，提高姿态描述的精度。

步骤S102：机器视觉方案获取数据

首先进行机器视觉方案的准备工作，为了提高数据精度，采用双目立体视觉方案，设置两个固定位置的摄像机，运用标定板拍摄图像对，分别对两个摄像机进行单独标定，由此确定出两个摄像机之间的位置关系，从而确定出双目视觉方案使用的世界坐标系；为方便重建篮球三维运动姿态，需要将世界坐标系的范围扩展到整个篮球场地。

准备工作完成后，进行机器视觉方案下的数据采集及初始化；首先，对双目摄像机拍摄的图像序列进行去噪处理，并采用背景差分法对其中的篮球进行运动检测和目标识别；然后通过在不同位置拍摄得到的图像对中找到篮球对应的特征点，根据视差原理，计算得到篮球处于球场坐标系中的三维坐标。根据不同时刻的篮球轨迹点的三维坐标计算出动态信息，最终得到机器视觉方案下的篮球动态信息，包括初始点篮球坐标(x_n0,y_n0,z_n0)、速度(v_nx,v_ny,v_ns)、加速度(a_nx,a_ny,a_ns)和落点位置坐标(x_ns,y_ns,z_ns)。

步骤S103：合并数据

将惯性传感器方案下的篮球动态信息和机器视觉方案下的篮球动态信息进行合并，放入一个数据集中，数据集中的项为由初始点篮球坐标、速度、加速度和落点位置坐标组成的四维向量。

步骤S2：利用篮球动态信息与篮板的三维位置关系，对篮球动态信息进行筛选和坐标转换，得到用于模型训练的样本数据集；

考虑到实际操作中存在无效球，即未沾板球或出界球，落点可能超出篮球场坐标系范围，因此预测时需要进行预测环境扩展，将整个篮球场的1.5倍作为智能体的落点预测范围，将预测结果与篮板范围进行对比，若预测的落点坐标超出篮板范围，则判定为无效球。

将所获得的篮球动态信息变换至强化学习环境的坐标系中，即初始点篮球坐标变换为(x_nr,y_nr,z_nr)，实际落点位置坐标变换为(x_nt,y_nt,z_nt)，经强化学习预测的落点位置坐标记为(x_np,y_np,z_np)，即投篮点篮球动态信息与篮板落点位置的对应数据，将其作为模型训练的样本数据集，并将样本数据集划分为训练集R和验证集T。

强化学习环境的坐标系是扩展1.5倍的篮球场坐标系，篮球场坐标系是指现实世界的坐标系，其原点和范围是基于篮球场的。

步骤S3：基于样本数据集，对建立的落点预测强化学习模型进行训练，具体为：

步骤S301：建立落点预测强化学习模型

基于价值的DQN(deep Q-network)算法，采用深度强化学习网络，搭建落点预测强化学习模型，如图2所示，落点预测强化学习模型包括两个神经网络，分别是估计网络和目标网络，估计网络用于预测估计Q值，拥有最新的神经网络参数；目标网络用于预测目标Q值，不会及时更新参数。估计网络和目标网络具有完全相同的结构，在训练时其参数可以不同且会由算法自动更新；落点预测强化学习模型的输入向量为状态空间，输出为动作空间，状态空间设置为初始位置坐标信息、加速度与速度的三维向量组成的状态矩阵S＝(x_nr,y_nr,z_nr,v_nx,v_ny,v_nsa_nx,a_ny,a_ns)，动作空间设置为预测落点位置的三维坐标A＝(x_np,y_np,z_np)。

将预测落点位置坐标(x_np,y_np,z_np)与实际落点位置坐标(x_nt,y_nt,z_nt)的距离作为奖励函数指标，构建的奖励函数表示为：

Rew＝-k[(x_np-x_nt)²+(y_bp-y_nt)²+(z_np-z_nt)²]

其中，k是比例因子，取一个较小的值，如0.001，限制预测过程中奖励函数值的范围，获得更好的训练效果，预测落点与实际落点越接近，获得的奖励越大。

两个网络的结构具体设置如下：将观测到的状态空间S作为输入向量，通过一个具有125个神经元的第一全连接层输出至下一层的激活层，通过Sigmoid函数激活后，传递给具有1个神经元的第二全连接层，第二全连接层的输出即为Q值，选择拥有最大Q值的动作作为下一步的动作。

Q值是“状态-动作函数”的值，是DQN网络的输出，是指某一状态s下采取某一动作a能够获得收益的期望值Q(s,a)。

步骤S302：模型训练

利用训练集数据R，在奖励函数的指导下，对于落点预测强化学习模型进行训练；为了能够使强化学习智能体的学习更加完善，每一Episode随机从训练集R中选择n＝20个数据分为一组进行训练，共进行100000次训练，直至落点预测算法收敛或达到训练次数，保存模型权重，用于验证测试和部署使用。

每一Episode，是指每一轮的训练，这里是将“连续预测20条数据”看作一轮，预测效果跟整个预测过程中的每一条结果相关，避免因个别数据影响整体效果。

对训练好的落点预测强化学习模型进行验证测试，将验证集数据T输入到落点预测强化学习模型中，预测出篮板落点位置坐标，若预测的落点坐标超出篮板范围，则判定为无效球；若预测的落点坐标与实际落点位置坐标的距离不超出设定阈值，则模型训练完成，否则重新组织数据进行训练，直到满足训练停止条件。

步骤S4：利用训练好的落点预测强化学习模型进行投篮的篮板落点进行预测，得到投篮预测结果。

本实施例采用两种方案获取定点投篮时篮球初始位置的动态信息，包括当前状态的速度、加速度和方向，并采用强化学习模型进行篮板落点预测。采集篮球初始位置的动态信息的两种方案分别是惯性传感器方案和机器视觉方案，其中惯性传感器方案是通过固定在篮球内部的惯性传感器元件实时获取篮球初始位置的动态信息；而机器视觉方案是通过双目相机下的篮球检测算法进行定位，得到不同时刻的篮球三维坐标，用来计算篮球初始位置的动态信息；通过采集大量实测数据，利用初始位置的动态信息与篮板的三维位置关系构建数据对，建立强化学习模型，利用这些数据进行训练迭代至收敛，其中奖励函数的设置是基于预测落点坐标和实际落点坐标的距离差值；该模型无需拟合出篮球的整条运动轨迹，仅利用篮球初始点的动态信息和落点位置，通过奖励函数自动学习并优化预测能力，在提高数据利用率的同时减小计算开销；最后在实际部署或者使用阶段，通过本实施例的方法进行定点投篮时篮板落点的准确预测。

实施例二

本实施例公开了一种基于强化学习的篮板落点预测系统；

如图3所示，一种基于强化学习的篮板落点预测系统，包括数据获取模块、样本构建模块、模型构建模块和落点预测模块：

实施例三

本实施例的目的是提供计算机可读存储介质。

计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例一所述的一种基于强化学习的篮板落点预测方法中的步骤。

实施例四

本实施例的目的是提供电子设备。

电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例一所述的一种基于强化学习的篮板落点预测方法中的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的篮板落点预测方法，其特征在于，包括：

2.如权利要求1所述的一种基于强化学习的篮板落点预测方法，其特征在于，所述惯性传感器方案，是采用惯性传感设备获取当前状态篮球速度、加速度和方向；

3.如权利要求2所述的一种基于强化学习的篮板落点预测方法，其特征在于，定点投篮过程中，通过惯性传感器方案和机器视觉方案得到两组篮球速度、加速度与方向序列；

4.如权利要求1所述的一种基于强化学习的篮板落点预测方法，其特征在于，所述篮球动态信息与篮板的三维位置关系，是将篮球动态信息与篮板范围进行对比，若预测的落点坐标超出篮板范围，则判定为无效球。

5.如权利要求1所述的一种基于强化学习的篮板落点预测方法，其特征在于，将篮球动态信息变换至强化学习环境的坐标系中，初始点篮球坐标变换为(x_nr,y_nr,z_nr)，实际落点位置坐标变换为(x_nt,y_nt,z_nt)，预测落点位置坐标记为(x_np,y_np,z_np)，将预测落点位置坐标与实际落点位置坐标之间的距离作为奖励函数指标。

6.如权利要求1所述的一种基于强化学习的篮板落点预测方法，其特征在于，所述落点预测强化学习模型，基于深度强化学习网络，以初始点篮球坐标、速度、加速度的三维向量为输入，输出预测落点位置的三维坐标。

7.如权利要求5所述的一种基于强化学习的篮板落点预测方法，其特征在于，将样本数据集划分为训练集和验证集，在所述奖励函数的指导下，对落点预测强化学习模型进行训练和验证。

8.一种基于强化学习的篮板落点预测系统，其特征在于，包括数据获取模块、样本构建模块、模型构建模块和落点预测模块：

9.计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于强化学习的篮板落点预测方法中的步骤。

10.电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于强化学习的篮板落点预测方法中的步骤。