CN113837063A

CN113837063A - 一种基于强化学习的冰壶运动现场分析和辅助决策方法

Info

Publication number: CN113837063A
Application number: CN202111107286.XA
Authority: CN
Inventors: 李宗民; 肖倩; 刘玉杰; 李冠林; 李亚传; 周彩云
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2021-12-24
Anticipated expiration: 2041-10-15

Abstract

本发明公开了一种基于强化学习的冰壶运动现场分析和辅助决策方法，属于深度学习领域的人工智能和计算机视觉方向，建立了冰壶比赛情景和态势的数字化模型，设立了冰壶运动现场分析和辅助决策系统，主要解决实际运动场景下的冰壶运动现场分析和辅助决策的问题。算法主要包括：冰壶比赛态势感知设计、冰壶场地数字化提取方法和冰壶比赛决策分析：在冰壶比赛态势感知模块感知冰壶实际运动位置与速度，并获取静止状态，冰壶场地数字化提取模块，通过实际场地与拍摄数据之间的位置映射，获取关键时刻的冰壶的精确位置及其类别，冰壶比赛决策分析模块根据其类别和位置信息，通过强化学习算法，进行模拟计算，给出下一步的建议击打位置，辅助进行冰壶战术决策。这种基于强化学习的冰壶运动现场分析和辅助决策方法方法，在实际冰壶比赛训练时测试效果优异，使用价值高，可扩展性强。

Description

一种基于强化学习的冰壶运动现场分析和辅助决策方法

技术领域

本发明属于深度学习领域，是图像处理领域中的一项重要应用，尤其是涉及一种基于强化学习的冰壶运动现场分析和辅助决策方法。

技术背景

随着冰雪运动的发展，冰壶运动越来越受到重视。作为一项技巧和谋略相结合的奥运比赛项目，借助计算机的力量来规划冰壶比赛策略显得尤为重要。

目前主流的冰壶辅助决策方法在精度和速度方面已经有了不错的效果，然而这些方法都是在数字化冰壶比赛场景下进行模拟与规划，应用的实际冰壶比赛上还有一定的差距，这与实际比赛智能化策略推荐的需求之间有巨大的矛盾。因此，亟需一种能够针对实际冰壶运动现场分析和辅助决策的方法。

冰壶运动现场分析和辅助决策的目的是在正式冰壶比赛运动场景下，通过算法感知冰壶实际运动位置与速度，并根据冰壶状态获取关键比赛状态，并在其获取的冰壶位置的基础上，模拟计算出下一个壶的建议击打位置，辅助进行冰壶战术决策。

我们提出的目标检测和强化学习的冰壶运动现场分析和辅助决策方法在实际冰壶比赛中能够根据比赛态势，给出相应击打策略和击打后态势模拟，有效地促进了冰壶比赛训练的效果，推动我国冰雪运动的进一步发展。

发明内容

本发明提出了一种基于强化学习的冰壶运动现场分析和辅助决策方法。该方法以深度卷积神经网络为基础，结合了目标检测、强化学习等技术，较为准确的进行冰壶运动现场分析和辅助决策，该方法可以在不同冰壶比赛场景下有效的进行工作。

其技术解决方案是：

基于强化学习的冰壶运动现场分析和辅助决策方法，所述方法包括：

步骤1)，将冰壶比赛视频处理成图片，形成比赛状态图片，比赛状态图片的集合构成训练样本；

步骤2)，设计基于异物入侵检测的冰壶比赛态势感知模块，其中包含冰壶进入前置线检测与冰壶出界检测；

步骤3)，设立基于yolo-v4的冰壶位置检测网络；

步骤4)，在预先准备的冰壶数据集中，将网络进行训练，得到训练完的目标检测模型，用该模型获取冰壶的像素位置；

步骤5)，冰壶场地数字化提取，获取关键时刻的冰壶在比赛场地对应的精确位置及其类别；

步骤6)，冰壶比赛决策分析，基于强化学习进行模拟计算，获取当前比赛状态的最佳击打建议和击打后态势，辅助进行冰壶战术决策。

所述步骤1)中冰壶比赛训练数据采集的是国家轮椅冰壶队日常训练比赛过程，借助labelme进行标注，从而获得冰壶数据集。

所述步骤2)中先通过GMM背景建模进行粗过滤，再借助异物入侵检测的方法，来获取冰壶进入视野的时间和消失于视野的时间，借助位于两条前置线中间的两个摄像头，以及斜俯视摄像头，借助目标跟踪的方法，测量冰壶的阶段性平均速度，在无遮挡情况下，斜俯视摄像头可辅助捕捉冰壶运动状态，计算实时速度变化。

所述步骤3)中对Yolo-v4进行修改，以适应冰壶类别判断以及冰壶中心点的定位。

所述步骤4)中将训练数据经过Mosaic数据增强后再进行训练，弥补数据量不足的问题，训练方式是经典的深度学习训练方法。

所述步骤5)中实际速度与像素速度关系为：像素速度＝像素距离÷时间v＝d/t*P，其中v为实际冰壶运动速度，d为冰壶运动的像素距离，t为冰壶运动时间，P为数据图片与实际冰壶比赛场地之间的映射矩阵。

所述步骤6)中通过在连续动作空间中搜索的核回归方法，在没有任何手工特征的情况下，进行自我强化学习，强化学习网络的主要模块为策略价值网络，给出下一步的和决策位置。

所述整个方法经过大规模的数据训练以后，经测试能够给出符合冰壶比赛要求的高水平位置策略。

本发明在实际比赛环境中结合目标检测和强化学习，解决了在实际比赛场景下冰壶辅助决策的技术性缺失，且成本低易移植，使用价值高，可扩展性强。

附图说明

附图1是本发明数据获取的相机位置设计图

附图2是本发明所构建的基于强化学习的冰壶运动现场分析和辅助决策方法模型和技术路线示意图

附图3冰壶运动现场分析和辅助决策系统功能界面

附图4冰壶辅助决策建议测试结果

具体实施方式

一种基于强化学习的冰壶运动现场分析和辅助决策方法，包括以下步骤：

1)在基于强化学习的冰壶运动现场分析和辅助决策方法的具体实例中，将所有冰壶比赛时采集的图片，用labelme进行标注处理，标注出图片中冰壶的位置和类别，制作成训练集。2)获取冰壶最终静止时的关键时间点，从而获取关键比赛态势，即需要进行辅助决策的状态。首先通过位操作获取可疑越界帧，再通过darknet19网络进行分类判断是否越界，截取当前比赛状态

3)将标注后的数据集借助Mosaic数据增强后输入网络，通过CSPDarknet53作为主干提取网络，之后借助空间金字塔池化SPP扩大感受野，接着在PANet结构处进行上采样加强特征融合。损失函数采用CIOU损失：

4)目标检测完成后，求出冰壶实际比赛场馆和图片之间的映射，并将冰壶位置绘制在数字化场地图的对应位置。

5)通过在连续动作空间中搜索的核回归方法，在没有任何手工特征的情况下，进行自我强化学习，给出下一步的和决策位置，核回归定义为：

此处的核函数是高斯概率密度

强化学习网络的主要模块为策略价值网络，训练过程中，网络通过一系列的随机移动而产生的回报，其中策略网络通过KR-DL-UCT算法执行蒙特卡洛树，然后将搜索到的策略投影回策略子网的函数空间，最终博弈的结果也被投影回价值子网络的函数空间。该部分功能实现:给出下一步的冰壶建议击打位置、建议出手速度、建议出手方向和击打后的分数。

6)基于强化学习的冰壶运动现场分析和辅助决策方法的具体实例中，训练完成以后，将冰壶比赛视频按帧输入网络，检索的数据集所有图片特征通过该网络提取出来，在测试过程中，将手绘图特征提取出来，与所有图片特征图做欧氏距离，找到距离最小的那张图片，就是要检索的图片。

上本发明建立了冰壶比赛情景和态势的数字化模型，设立了冰壶运动现场分析和辅助决策系统。分为三个主要模块进行实现：冰壶比赛态势感知模块、冰壶场地数字化提取模块和冰壶比赛决策分析模块，在冰壶比赛态势感知模块感知冰壶实际运动位置与速度，并获取静止状态，冰壶场地数字化提取模块，通过实际场地与拍摄数据之间的位置映射，获取关键时刻的冰壶的精确位置及其类别，冰壶比赛决策分析模块根据其类别和位置信息，通过强化学习算法，进行模拟计算，给出下一步的建议击打位置，辅助进行冰壶战术决策。

上本发明在实际冰壶比赛中采集数据进行冰壶运动现场分析和辅助决策，能真正满足当前冰壶比赛对科技的需求，借助强化学习对比赛进行策略分析，保持领先的技术水平，并具有长足的发展能力，以适应典型冰上项目多源数据智能分析系统的发展。且项目训练完成后，平台易于维护、管理，适合于实际场景中应用。

上述方式中未述及的技术内容，采取或借鉴已有技术即可实现。需要说明的是，在本说明书的教导下，本领域技术人员还可以作出这样或那样的容易变化方式，诸如等同方式，或明显变形方式。上述的变化方式均应在本发明的保护范围之内。

Claims

1.一种基强化学习的冰壶运动现场分析和辅助决策方法，所述方法包括：

步骤3)，设立基于yolo-v4的冰壶位置检测网络；

步骤6)，冰壶比赛决策分析，基于强化学习进行模拟计算，获取当前比赛状态的最佳击打建议和击打后态势，辅助进行冰壶战术决策

2.根据权利要求1所述的基于强化学习的冰壶运动现场分析和辅助决策方法，其特征在于：步骤1)中对于在实际冰壶比赛训练过程中采集数据，制作成为标准数据集。

3.根据权利要求1所述的基于强化学习的冰壶运动现场分析和辅助决策方法，其特征在于：步骤2)中借助GMM背景建模进行粗过滤后再进行异物入侵检测，因此能快速判断冰壶出界与过线。

4.根据权利要求1所述的基于强化学习的冰壶运动现场分析和辅助决策方法，其特征在于：步骤4)中经过Mosaic数据增强后再进行训练，弥补数据量不足的问题。

5.据权利要求1所述的基于强化学习的冰壶运动现场分析和辅助决策方法，其特征在于：步骤5)中根据实际场地与像素尺寸之间的映射矩阵来获取冰壶实际运动速度。

6.据权利要求1所述的基于强化学习的冰壶运动现场分析和辅助决策方法，其特征在于：步骤6)中通过在连续动作空间中搜索的核回归方法，在没有任何手工特征的情况下，进行自我强化学习。

7.据权利要求1所述的基于强化学习的冰壶运动现场分析和辅助决策方法，其特征在于：步骤6)中强化学习网络的主要模块为策略价值网络。

8.据权利要求1所述的基于强化学习的冰壶运动现场分析和辅助决策方法，其特征在于：训练方式是经典的深度学习训练方法。

9.据权利要求1所述的基于强化学习的冰壶运动现场分析和辅助决策方法，其特征在于：整个网络在训练完成后可以直接在实际比赛场景下冰壶辅助决策。