CN115120949A

CN115120949A - 乒乓球机器人灵活击球策略的实现方法、系统及存储介质

Info

Publication number: CN115120949A
Application number: CN202210640409.4A
Authority: CN
Inventors: 胡晓屹; 毛越; 张邦森
Original assignee: Ping Pong Momentum Robot Kunshan Co ltd
Current assignee: Ping Pong Momentum Robot Kunshan Co ltd
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-09-30
Anticipated expiration: 2042-06-08
Also published as: CN115120949B

Abstract

本发明公开了一种乒乓球机器人灵活击球策略的实现方法，方法包括：在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器；自监督学习方法的任务包括异常轨迹的修正与轨迹预测；将特征提取器迁移至现实环境中进行迁移式学习以对特征提取器进行再训练；迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹；将特征提取器应用于强化学习中，得到击球策略；强化学习中，针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏；击球策略直接输出乒乓球机器人的关节位置。本发明结合了自监督学习、强化学习以及迁移学习，可大幅降低机器人与现实环境交互次数，提升机器人击球策略灵活性。

Description

乒乓球机器人灵活击球策略的实现方法、系统及存储介质

技术领域

本发明涉及体育机器人技术领域，特别是涉及一种乒乓球机器人灵活击球策略的实现方法、系统及存储介质。

背景技术

乒乓球机器人是一种可以和人类进行多回合乒乓球对打的机器人，其可用于对专业运动员进行训练以及与业余爱好者进行互动对战，在国内乒乓球运动广泛普及的情况下，乒乓球机器人越来越受到欢迎。乒乓球机器人用于专业运动员的实战训练中时，需要有足够的对战能力，才能满足专业运动员的训练需求，这就对乒乓球机器人的击球策略提出了较高的要求。

现有技术中，实现乒乓球机器人击球策略主要通过以下方法实现：

(1)建立乒乓球空气动力学模型与碰撞模型，预测乒乓球轨迹；建立球拍反弹模型与机器人运动学模型确定合理的击球策略(中科院自动化研究所)；

(2)采用物理学模型方法来进行轨迹预测，并依据物理学模型手动设置击球点；改进DDPG强化学习算法与MLP神经网络确定乒乓球机器人的球拍位姿与拍速；机器人运动学模型完成击球策略(图宾根大学6自由度KUKA机器人)；

(3)以并联机器人作为击球策略的执行机构，手动设置击球目标点与过网时的高度；通过LSTM神经网络进行乒乓球轨迹特征提取，MLP神经网络确定机器人末端的拍速和姿态；机器人运动学模型完成击球策略(新松机器人)。

上述现有技术存在如下技术问题：

(1)基于物理学分析的乒乓球轨迹预测时，面对复杂多变的现实环境时，预测结果具有较大的波动性与一定的滞后性，此外由于现有的国际标准中，未对乒乓球拍的弹性进行规定，因此依靠球拍反弹模型制定击球策会出现一定的偏差，导致乒乓球机器人无法适应不同的球拍；采用物理学模型进行轨迹预测，需获取较为精确的乒乓球转速以排除马格努斯力影响，但由于乒乓球商标的面积过小，因此难以实时测量转速，限制了基于物理学模型轨迹预测的精度；通过预测轨迹与人为给定条件计算出乒乓球击球位置限制了乒乓球机器人自主学习挑选合适击球点的能力，影响了乒乓球机器人的击球表现；

(2)并联机器人尽管有着快速响应的优点，但由于机器人工作空间过小，因此并联机器人仅可应用于特制的乒乓球桌中；此外，现有的乒乓球机器人均没有冗余自由度，因此采用机器人运动学模型来进行机器人运动控制均存在唯一最优解(最小位移原则)，灵活度较低。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种自监督学习、强化学习以及迁移学习相结合、可大幅降低机器人与现实环境交互次数，提升机器人击球策略灵活性的乒乓球机器人灵活击球策略的实现方法、系统及存储介质。

技术方案：为实现上述目的，本发明的乒乓球机器人灵活击球策略的实现方法，所述方法包括：

在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器；所述自监督学习方法的任务有两个，第一任务为乒乓球轨迹的异常值填空与补充，第二任务为乒乓球轨迹的预测；

将所述特征提取器迁移至现实环境中进行迁移式学习以对所述特征提取器进行再训练；所述迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹；

将所述特征提取器应用于强化学习中，得到击球策略；所述强化学习中，针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏；所述击球策略直接输出乒乓球机器人的关节位置。

进一步地，所述在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器包括：

基于乒乓球仿真环境进行自监督学习样本采集，所述自监督学习样本包括乒乓球随机噪声坐标、乒乓球仿真轨迹真实坐标、以及乒乓球仿真轨迹未来坐标；

将所述自监督学习样本输入自监督学习网络进行模型训练，得到特征提取器；所述自监督学习网络中，完成所述第一任务的网络结构主体为双向LSTM，完成所述第二任务的网络结构主体也为双向LSTM。

进一步地，所述真实乒乓球轨迹的获得方法为：

对现实环境中的乒乓球轨迹进行采样；

对所述乒乓球轨迹进行物理学分析，得到所述真实乒乓球轨迹。

进一步地，所述针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏包括：

使第一轨迹阶段与第二轨迹阶段的奖赏和球与机器人球拍的距离成反比；使第三轨迹阶段的奖赏和球与目标点的距离成反比；其中，所述第一轨迹阶段与第二轨迹阶段分别为对手发球轨迹阶段与机器人接球轨迹，所述第三轨迹阶段与第四轨迹阶段分别为机器人反击轨迹与对手接球轨迹。

进一步地，每个所述轨迹阶段的奖赏具体为：

其中，reward为奖赏；d_racket为球与球拍之间的距离；d_target为球与目标点的距离；τ_s＝0、1、2、3分别代表第一、二、三、四轨迹阶段。

进一步地，所述乒乓球机器人具有7个自由度，其包含一个包含6个旋转关节的机械臂以及一个直线模组，所述直线模组能够驱动所述机械臂做平移运动。

乒乓球机器人灵活击球策略的实现系统，其包括：

自监督学习模块，其用于在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器；所述自监督学习方法的任务有两个，第一任务为乒乓球轨迹的异常值填空与补充，第二任务为乒乓球轨迹的预测；

迁移学习模块，其用于将所述特征提取器迁移至现实环境中进行迁移式学习以对所述特征提取器进行再训练；所述迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹；

强化学习模块，其用于将所述特征提取器应用于强化学习中，得到击球策略；所述强化学习中，针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏；所述击球策略直接输出乒乓球机器人的关节位置。

存储介质，其内存储有可执行程序，所述可执行程序被控制器执行以实现上述的乒乓球机器人灵活击球策略的实现方法。

有益效果：(1)本发明提出了一种将自监督学习、迁移学习、强化学习相结合的击球策略，可以大幅度降低真实机器人与现实环境的交互次数，并可以使机器人的整体表现大幅度上升；(2)本发明提出了用于现实环境迁移学习的数据收集方法，解决了迁移学习时缺乏真实乒乓球轨迹作为样本标签的问题；(3)本发明提出了强化学习策略直接输出机器人关节位置，这可以让机器人运动学最优解的优化目标更加偏向于击球得分而不是功率最低、关节位移最小等其他目标。

附图说明

图1为乒乓球机器人灵活击球策略的实现方法的流程示意图；

图2为自监督学习的整体网络构架图；

图3为基于现实数据的迁移式学习的方案示意图；

图4为乒乓球机器人、球台以及一个完整乒乓球轨迹的四个轨迹阶段的示意图；

图5为强化学习击球策略的网络示意图；

图6为乒乓球机器人灵活击球策略的实现系统的构成示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

此外，在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

如图1所示，本发明之乒乓球机器人灵活击球策略的实现方法包括如下步骤S101-S103(步骤编号不限制步骤的执行顺序)：

步骤S101，在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器；所述自监督学习方法的任务有两个，第一任务为乒乓球轨迹的异常值填空与补充，第二任务为乒乓球轨迹的预测；当中提及的LSTM网络，不仅单指LSTM网络，还包括LSTM网络的变种，如:GRU,QRNN,SRU,SRU++等。

本步骤中，在仿真环境下进行预训练模型，可显著的提升模型的收敛速度，改善模型性能。

回到图1，步骤S102，将所述特征提取器迁移至现实环境中进行迁移式学习以对所述特征提取器进行再训练；所述迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹；

本步骤中，现实采样的乒乓球轨迹往往存在噪声、异常值、轨迹大段缺失等异常问题，因此现实采样的乒乓球轨迹不能直接用到训练中。传统的基于物理学模型的轨迹处理方法可以滤除轨迹中存在的部分噪声，但面对轨迹的缺失等问题需要依靠后半段正常的轨迹来进行轨迹修正，仍具有一定的延迟与强烈的波动性，因此直接采用基于物理学模型预测的轨迹进行特征提取将导致模型出现稳定性下降等问题。基于此，步骤S101中特征提取器的自监督学习任务设定为轨迹修正与预测，不仅是为了完成预训练，另一目的便是改善现实轨迹的噪声等问题。使用该方法，可以显著提高轨迹预测与特征提取的实时性与稳定性。

回到图1，步骤S103，将所述特征提取器应用于强化学习中，得到击球策略；所述强化学习中，针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏；所述击球策略直接输出乒乓球机器人的关节位置。

本步骤中，将特征提取器应用于强化学习中，可显著加快强化学习的收敛速度，提升击球能力。本步骤为保证机器人本身动作的灵活性，击球策略将不再通过输出末端执行器的位姿，再通过机器人运动学分析来得到机器人每个关节对应的位置，而是让强化学习策略直接输出机器人关节位置。这种做法可以使机器人运动时的最优目标更加倾向于赢得乒乓球比赛(即击球得分)，而不是功率最低、关节位移最小等其他目标。本步骤具体方法如图5所示。

仿真环境下的乒乓球轨迹易于采集，而现实环境中采集的样本数据不仅远远低于仿真环境的样本量，且往往含有更多的噪声与大段异常轨迹。因为机器人与环境交互时试错成本过高，通过步骤S101-S103，先在仿真环境中进行模型预训练，再将预训练得到的特征提取器迁移到现实环境中进行再训练，可尽可能减少模型与环境的交互次数以降低成本。

相比而言，现实中由于硬件约束与成本问题，采集的数据资料样本量将远小于仿真环境，若直接采用采集的轨迹进行训练，由于缺乏真实轨迹样本，训练将无法进行，虽然可直接在现实环境中采用fine-tuning的方法对特征提取器进行再训练，但可能因为数据样本的不足导致fine-tuning效果不如预期。

优选地，上述步骤S101中所述在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器具体包括如下步骤S201-S202：

步骤S201，基于乒乓球仿真环境进行自监督学习样本采集，所述自监督学习样本包括乒乓球随机噪声坐标、乒乓球仿真轨迹真实坐标、以及乒乓球仿真轨迹未来坐标；

步骤S202，将所述自监督学习样本输入自监督学习网络进行模型训练，得到特征提取器；特征提取器的自监督学习受Bert模型与GPT模型共同启发：因此特征提取器的预训练需同时完成两个任务，具体为乒乓球轨迹的异常值填空与修正(类似于预训练Bert时的语句填空任务)与乒乓球轨迹的预测(类似于预训练GPT时的语句token预测任务)；对于第一个预训练任务而言，完成该任务所需的网络结构主体为双向LSTM(用于模仿Bert模型的Transformer Encoder结构)，对于第二个预训练任务而言，完成该任务所需的网络结构主体仍为双向LSTM(用于模仿GPT模型的Transformer Decoder结构)。

上述步骤S201-S202中，由于自监督学习样本包括乒乓球仿真轨迹未来坐标，使得后续得到的乒乓球击球策略对乒乓球轨迹的未来趋势具有一定的预测能力。上述自监督学习基于用于自然语言处理的Bert与GPT模型改进而成，其中，通过使用LSTM网络构架替换原有的构架，适应了乒乓球轨迹的强时序相关性的特点。本发明之自监督学习网络框架具体如图2所示。

具体的，上述步骤S102中所述真实乒乓球轨迹的获得方法包括如下步骤S301-S302：

步骤S301，对现实环境中的乒乓球轨迹进行采样；

步骤S302，对所述乒乓球轨迹进行物理学分析，得到所述真实乒乓球轨迹，所述真实乒乓球轨迹包括乒乓球修正坐标与乒乓球物理学预测坐标。

基于上述步骤S301-S302具体进行迁移学习样本采集的方法如图3中最右侧所示。该方法解决了迁移学习时缺乏真实乒乓球轨迹作为样本标签的问题。

上述步骤S103中所述针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏包括：使第一轨迹阶段与第二轨迹阶段的奖赏和球与机器人球拍的距离成反比；使第三轨迹阶段的奖赏和球与目标点的距离成反比；其中。

如图4反应了一个完整乒乓球轨迹的四个轨迹阶段的示意图，所述第一轨迹阶段与第二轨迹阶段分别为对手发球轨迹阶段与机器人接球轨迹，所述第三轨迹阶段与第四轨迹阶段分别为机器人反击轨迹与对手接球轨迹。

具体地，每个所述轨迹阶段的奖赏具体为：

其中，reward为奖赏；d_racket为球与球拍之间的距离；d_target为球与目标点的距离；τ_s＝0、1、2、3分别代表第一、二、三、四轨迹阶段。基于上述第一轨迹阶段与第二轨迹阶段的奖赏算式，可得到的最大奖赏固定不变，且可以保证第一轨迹阶段与第二轨迹阶段之间得到的奖赏无显著差异，第四轨迹阶段的奖赏设置成固定值可确保反弹后的乒乓球轨迹不会对得到的最终奖赏产生任何影响，符合乒乓球比赛规则。

现有的乒乓球机器人的自由度大多小于等于6，尽管已满足乒乓球机器人基本的击球需求，但这种做法对同一位姿的解的个数终究有限，击球方式不够灵巧，虽然这可以降低机器人运动学分析的计算量，并将击球策略与机器人运动控制进行解耦。但这也导致了机器人面对类似的乒乓球轨迹时，无法采用更加灵活多变的击球手段，难以应对极端情形。相比而言，本发明中，将乒乓球机器人的控制也完全交给击球决策来进行，如图4所示，击球策略所控制的乒乓球机器人具有7个自由度，其包含一个包含6个旋转关节的机械臂01以及一个直线模组02，所述直线模组02能够驱动所述机械臂01在乒乓球台的左右方向上做平移运动，乒乓球拍安装在机械臂01的执行末端。上述直线模组02用于扩展机械臂01的工作空间，而机械臂01具有的6个旋转关节可增加乒乓球机器人击球方式的灵活性。

本发明还提供了一种乒乓球机器人灵活击球策略的实现系统400，实现系统400可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述实现系统400。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述实现系统400在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能，如图6所示，实现系统400包括：

自监督学习模块401，其用于在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器；所述自监督学习方法的任务有两个，第一任务为乒乓球轨迹的异常值填空与补充，第二任务为乒乓球轨迹的预测；当中提及的LSTM网络，不仅单指LSTM网络，还包括LSTM网络的变种，如:GRU,QRNN,SRU,SRU++等。

迁移学习模块402，其用于将所述特征提取器迁移至现实环境中进行迁移式学习以对所述特征提取器进行再训练；所述迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹；

强化学习模块403，其用于将所述特征提取器应用于强化学习中，得到击球策略；所述强化学习中，针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏；所述击球策略直接输出乒乓球机器人的关节位置。

其他基于实现系统400实现上述乒乓球机器人灵活击球策略的实现方法的内容在之前实施例中已经详细介绍，可参考之前实施例中的对应内容，此处不再赘述。

本实施例还提供一种存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的存储介质内存储有可执行程序，所述可执行程序被控制器执行以实现上述的乒乓球机器人灵活击球策略的实现方法。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.乒乓球机器人灵活击球策略的实现方法，其特征在于，所述方法包括：

2.根据权利要求1所述的乒乓球机器人灵活击球策略的实现方法，其特征在于，所述在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器包括：

3.根据权利要求1所述的乒乓球机器人灵活击球策略的实现方法，其特征在于，所述真实乒乓球轨迹的获得方法为：

对现实环境中的乒乓球轨迹进行采样；

4.根据权利要求1所述的乒乓球机器人灵活击球策略的实现方法，其特征在于，所述针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏包括：

5.根据权利要求4所述的乒乓球机器人灵活击球策略的实现方法，其特征在于，每个所述轨迹阶段的奖赏具体为：

6.根据权利要求1所述的乒乓球机器人灵活击球策略的实现方法，其特征在于，所述乒乓球机器人具有7个自由度，其包含一个包含6个旋转关节的机械臂以及一个直线模组，所述直线模组能够驱动所述机械臂做平移运动。

7.乒乓球机器人灵活击球策略的实现系统，其特征在于，其包括：

8.存储介质，其特征在于，其内存储有可执行程序，所述可执行程序被控制器执行以实现权利要求1-6任一项所述的乒乓球机器人灵活击球策略的实现方法。