CN115120949A - 乒乓球机器人灵活击球策略的实现方法、系统及存储介质 - Google Patents
乒乓球机器人灵活击球策略的实现方法、系统及存储介质 Download PDFInfo
- Publication number
- CN115120949A CN115120949A CN202210640409.4A CN202210640409A CN115120949A CN 115120949 A CN115120949 A CN 115120949A CN 202210640409 A CN202210640409 A CN 202210640409A CN 115120949 A CN115120949 A CN 115120949A
- Authority
- CN
- China
- Prior art keywords
- table tennis
- track
- robot
- learning
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000002787 reinforcement Effects 0.000 claims abstract description 26
- 238000004088 simulation Methods 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000013526 transfer learning Methods 0.000 claims abstract description 12
- 230000002159 abnormal effect Effects 0.000 claims abstract description 11
- 230000005012 migration Effects 0.000 claims abstract description 10
- 238000013508 migration Methods 0.000 claims abstract description 10
- 238000012544 monitoring process Methods 0.000 claims description 6
- 239000013589 supplement Substances 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 230000001617 migratory effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims 1
- 238000012937 correction Methods 0.000 abstract description 4
- 230000003993 interaction Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 241000288673 Chiroptera Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 235000008331 Pinus X rigitaeda Nutrition 0.000 description 1
- 235000011613 Pinus brutia Nutrition 0.000 description 1
- 241000018646 Pinus brutia Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63B—APPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
- A63B69/00—Training appliances or apparatus for special sports
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63B—APPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
- A63B67/00—Sporting games or accessories therefor, not provided for in groups A63B1/00 - A63B65/00
- A63B67/04—Table games physically beneficial for the human body, modelled on outdoor sports, e.g. table tennis
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63B—APPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
- A63B71/00—Games or sports accessories not covered in groups A63B1/00 - A63B69/00
- A63B71/06—Indicating or scoring devices for games or players, or for other sports activities
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63B—APPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
- A63B71/00—Games or sports accessories not covered in groups A63B1/00 - A63B69/00
- A63B71/06—Indicating or scoring devices for games or players, or for other sports activities
- A63B71/0619—Displays, user interfaces and indicating devices, specially adapted for sport equipment, e.g. display mounted on treadmills
- A63B2071/065—Visualisation of specific exercise parameters
Landscapes
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physical Education & Sports Medicine (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种乒乓球机器人灵活击球策略的实现方法,方法包括:在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器;自监督学习方法的任务包括异常轨迹的修正与轨迹预测;将特征提取器迁移至现实环境中进行迁移式学习以对特征提取器进行再训练;迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹;将特征提取器应用于强化学习中,得到击球策略;强化学习中,针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏;击球策略直接输出乒乓球机器人的关节位置。本发明结合了自监督学习、强化学习以及迁移学习,可大幅降低机器人与现实环境交互次数,提升机器人击球策略灵活性。
Description
技术领域
本发明涉及体育机器人技术领域,特别是涉及一种乒乓球机器人灵活击球策略的实现方法、系统及存储介质。
背景技术
乒乓球机器人是一种可以和人类进行多回合乒乓球对打的机器人,其可用于对专业运动员进行训练以及与业余爱好者进行互动对战,在国内乒乓球运动广泛普及的情况下,乒乓球机器人越来越受到欢迎。乒乓球机器人用于专业运动员的实战训练中时,需要有足够的对战能力,才能满足专业运动员的训练需求,这就对乒乓球机器人的击球策略提出了较高的要求。
现有技术中,实现乒乓球机器人击球策略主要通过以下方法实现:
(1)建立乒乓球空气动力学模型与碰撞模型,预测乒乓球轨迹;建立球拍反弹模型与机器人运动学模型确定合理的击球策略(中科院自动化研究所);
(2)采用物理学模型方法来进行轨迹预测,并依据物理学模型手动设置击球点;改进DDPG强化学习算法与MLP神经网络确定乒乓球机器人的球拍位姿与拍速;机器人运动学模型完成击球策略(图宾根大学6自由度KUKA机器人);
(3)以并联机器人作为击球策略的执行机构,手动设置击球目标点与过网时的高度;通过LSTM神经网络进行乒乓球轨迹特征提取,MLP神经网络确定机器人末端的拍速和姿态;机器人运动学模型完成击球策略(新松机器人)。
上述现有技术存在如下技术问题:
(1)基于物理学分析的乒乓球轨迹预测时,面对复杂多变的现实环境时,预测结果具有较大的波动性与一定的滞后性,此外由于现有的国际标准中,未对乒乓球拍的弹性进行规定,因此依靠球拍反弹模型制定击球策会出现一定的偏差,导致乒乓球机器人无法适应不同的球拍;采用物理学模型进行轨迹预测,需获取较为精确的乒乓球转速以排除马格努斯力影响,但由于乒乓球商标的面积过小,因此难以实时测量转速,限制了基于物理学模型轨迹预测的精度;通过预测轨迹与人为给定条件计算出乒乓球击球位置限制了乒乓球机器人自主学习挑选合适击球点的能力,影响了乒乓球机器人的击球表现;
(2)并联机器人尽管有着快速响应的优点,但由于机器人工作空间过小,因此并联机器人仅可应用于特制的乒乓球桌中;此外,现有的乒乓球机器人均没有冗余自由度,因此采用机器人运动学模型来进行机器人运动控制均存在唯一最优解(最小位移原则),灵活度较低。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种自监督学习、强化学习以及迁移学习相结合、可大幅降低机器人与现实环境交互次数,提升机器人击球策略灵活性的乒乓球机器人灵活击球策略的实现方法、系统及存储介质。
技术方案:为实现上述目的,本发明的乒乓球机器人灵活击球策略的实现方法,所述方法包括:
在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器;所述自监督学习方法的任务有两个,第一任务为乒乓球轨迹的异常值填空与补充,第二任务为乒乓球轨迹的预测;
将所述特征提取器迁移至现实环境中进行迁移式学习以对所述特征提取器进行再训练;所述迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹;
将所述特征提取器应用于强化学习中,得到击球策略;所述强化学习中,针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏;所述击球策略直接输出乒乓球机器人的关节位置。
进一步地,所述在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器包括:
基于乒乓球仿真环境进行自监督学习样本采集,所述自监督学习样本包括乒乓球随机噪声坐标、乒乓球仿真轨迹真实坐标、以及乒乓球仿真轨迹未来坐标;
将所述自监督学习样本输入自监督学习网络进行模型训练,得到特征提取器;所述自监督学习网络中,完成所述第一任务的网络结构主体为双向LSTM,完成所述第二任务的网络结构主体也为双向LSTM。
进一步地,所述真实乒乓球轨迹的获得方法为:
对现实环境中的乒乓球轨迹进行采样;
对所述乒乓球轨迹进行物理学分析,得到所述真实乒乓球轨迹。
进一步地,所述针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏包括:
使第一轨迹阶段与第二轨迹阶段的奖赏和球与机器人球拍的距离成反比;使第三轨迹阶段的奖赏和球与目标点的距离成反比;其中,所述第一轨迹阶段与第二轨迹阶段分别为对手发球轨迹阶段与机器人接球轨迹,所述第三轨迹阶段与第四轨迹阶段分别为机器人反击轨迹与对手接球轨迹。
进一步地,每个所述轨迹阶段的奖赏具体为:
其中,reward为奖赏;dracket为球与球拍之间的距离;dtarget为球与目标点的距离;τs=0、1、2、3分别代表第一、二、三、四轨迹阶段。
进一步地,所述乒乓球机器人具有7个自由度,其包含一个包含6个旋转关节的机械臂以及一个直线模组,所述直线模组能够驱动所述机械臂做平移运动。
乒乓球机器人灵活击球策略的实现系统,其包括:
自监督学习模块,其用于在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器;所述自监督学习方法的任务有两个,第一任务为乒乓球轨迹的异常值填空与补充,第二任务为乒乓球轨迹的预测;
迁移学习模块,其用于将所述特征提取器迁移至现实环境中进行迁移式学习以对所述特征提取器进行再训练;所述迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹;
强化学习模块,其用于将所述特征提取器应用于强化学习中,得到击球策略;所述强化学习中,针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏;所述击球策略直接输出乒乓球机器人的关节位置。
存储介质,其内存储有可执行程序,所述可执行程序被控制器执行以实现上述的乒乓球机器人灵活击球策略的实现方法。
有益效果:(1)本发明提出了一种将自监督学习、迁移学习、强化学习相结合的击球策略,可以大幅度降低真实机器人与现实环境的交互次数,并可以使机器人的整体表现大幅度上升;(2)本发明提出了用于现实环境迁移学习的数据收集方法,解决了迁移学习时缺乏真实乒乓球轨迹作为样本标签的问题;(3)本发明提出了强化学习策略直接输出机器人关节位置,这可以让机器人运动学最优解的优化目标更加偏向于击球得分而不是功率最低、关节位移最小等其他目标。
附图说明
图1为乒乓球机器人灵活击球策略的实现方法的流程示意图;
图2为自监督学习的整体网络构架图;
图3为基于现实数据的迁移式学习的方案示意图;
图4为乒乓球机器人、球台以及一个完整乒乓球轨迹的四个轨迹阶段的示意图;
图5为强化学习击球策略的网络示意图;
图6为乒乓球机器人灵活击球策略的实现系统的构成示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
此外,在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
如图1所示,本发明之乒乓球机器人灵活击球策略的实现方法包括如下步骤S101-S103(步骤编号不限制步骤的执行顺序):
步骤S101,在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器;所述自监督学习方法的任务有两个,第一任务为乒乓球轨迹的异常值填空与补充,第二任务为乒乓球轨迹的预测;当中提及的LSTM网络,不仅单指LSTM网络,还包括LSTM网络的变种,如:GRU,QRNN,SRU,SRU++等。
本步骤中,在仿真环境下进行预训练模型,可显著的提升模型的收敛速度,改善模型性能。
回到图1,步骤S102,将所述特征提取器迁移至现实环境中进行迁移式学习以对所述特征提取器进行再训练;所述迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹;
本步骤中,现实采样的乒乓球轨迹往往存在噪声、异常值、轨迹大段缺失等异常问题,因此现实采样的乒乓球轨迹不能直接用到训练中。传统的基于物理学模型的轨迹处理方法可以滤除轨迹中存在的部分噪声,但面对轨迹的缺失等问题需要依靠后半段正常的轨迹来进行轨迹修正,仍具有一定的延迟与强烈的波动性,因此直接采用基于物理学模型预测的轨迹进行特征提取将导致模型出现稳定性下降等问题。基于此,步骤S101中特征提取器的自监督学习任务设定为轨迹修正与预测,不仅是为了完成预训练,另一目的便是改善现实轨迹的噪声等问题。使用该方法,可以显著提高轨迹预测与特征提取的实时性与稳定性。
回到图1,步骤S103,将所述特征提取器应用于强化学习中,得到击球策略;所述强化学习中,针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏;所述击球策略直接输出乒乓球机器人的关节位置。
本步骤中,将特征提取器应用于强化学习中,可显著加快强化学习的收敛速度,提升击球能力。本步骤为保证机器人本身动作的灵活性,击球策略将不再通过输出末端执行器的位姿,再通过机器人运动学分析来得到机器人每个关节对应的位置,而是让强化学习策略直接输出机器人关节位置。这种做法可以使机器人运动时的最优目标更加倾向于赢得乒乓球比赛(即击球得分),而不是功率最低、关节位移最小等其他目标。本步骤具体方法如图5所示。
仿真环境下的乒乓球轨迹易于采集,而现实环境中采集的样本数据不仅远远低于仿真环境的样本量,且往往含有更多的噪声与大段异常轨迹。因为机器人与环境交互时试错成本过高,通过步骤S101-S103,先在仿真环境中进行模型预训练,再将预训练得到的特征提取器迁移到现实环境中进行再训练,可尽可能减少模型与环境的交互次数以降低成本。
相比而言,现实中由于硬件约束与成本问题,采集的数据资料样本量将远小于仿真环境,若直接采用采集的轨迹进行训练,由于缺乏真实轨迹样本,训练将无法进行,虽然可直接在现实环境中采用fine-tuning的方法对特征提取器进行再训练,但可能因为数据样本的不足导致fine-tuning效果不如预期。
优选地,上述步骤S101中所述在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器具体包括如下步骤S201-S202:
步骤S201,基于乒乓球仿真环境进行自监督学习样本采集,所述自监督学习样本包括乒乓球随机噪声坐标、乒乓球仿真轨迹真实坐标、以及乒乓球仿真轨迹未来坐标;
步骤S202,将所述自监督学习样本输入自监督学习网络进行模型训练,得到特征提取器;特征提取器的自监督学习受Bert模型与GPT模型共同启发:因此特征提取器的预训练需同时完成两个任务,具体为乒乓球轨迹的异常值填空与修正(类似于预训练Bert时的语句填空任务)与乒乓球轨迹的预测(类似于预训练GPT时的语句token预测任务);对于第一个预训练任务而言,完成该任务所需的网络结构主体为双向LSTM(用于模仿Bert模型的Transformer Encoder结构),对于第二个预训练任务而言,完成该任务所需的网络结构主体仍为双向LSTM(用于模仿GPT模型的Transformer Decoder结构)。
上述步骤S201-S202中,由于自监督学习样本包括乒乓球仿真轨迹未来坐标,使得后续得到的乒乓球击球策略对乒乓球轨迹的未来趋势具有一定的预测能力。上述自监督学习基于用于自然语言处理的Bert与GPT模型改进而成,其中,通过使用LSTM网络构架替换原有的构架,适应了乒乓球轨迹的强时序相关性的特点。本发明之自监督学习网络框架具体如图2所示。
具体的,上述步骤S102中所述真实乒乓球轨迹的获得方法包括如下步骤S301-S302:
步骤S301,对现实环境中的乒乓球轨迹进行采样;
步骤S302,对所述乒乓球轨迹进行物理学分析,得到所述真实乒乓球轨迹,所述真实乒乓球轨迹包括乒乓球修正坐标与乒乓球物理学预测坐标。
基于上述步骤S301-S302具体进行迁移学习样本采集的方法如图3中最右侧所示。该方法解决了迁移学习时缺乏真实乒乓球轨迹作为样本标签的问题。
上述步骤S103中所述针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏包括:使第一轨迹阶段与第二轨迹阶段的奖赏和球与机器人球拍的距离成反比;使第三轨迹阶段的奖赏和球与目标点的距离成反比;其中。
如图4反应了一个完整乒乓球轨迹的四个轨迹阶段的示意图,所述第一轨迹阶段与第二轨迹阶段分别为对手发球轨迹阶段与机器人接球轨迹,所述第三轨迹阶段与第四轨迹阶段分别为机器人反击轨迹与对手接球轨迹。
具体地,每个所述轨迹阶段的奖赏具体为:
其中,reward为奖赏;dracket为球与球拍之间的距离;dtarget为球与目标点的距离;τs=0、1、2、3分别代表第一、二、三、四轨迹阶段。基于上述第一轨迹阶段与第二轨迹阶段的奖赏算式,可得到的最大奖赏固定不变,且可以保证第一轨迹阶段与第二轨迹阶段之间得到的奖赏无显著差异,第四轨迹阶段的奖赏设置成固定值可确保反弹后的乒乓球轨迹不会对得到的最终奖赏产生任何影响,符合乒乓球比赛规则。
现有的乒乓球机器人的自由度大多小于等于6,尽管已满足乒乓球机器人基本的击球需求,但这种做法对同一位姿的解的个数终究有限,击球方式不够灵巧,虽然这可以降低机器人运动学分析的计算量,并将击球策略与机器人运动控制进行解耦。但这也导致了机器人面对类似的乒乓球轨迹时,无法采用更加灵活多变的击球手段,难以应对极端情形。相比而言,本发明中,将乒乓球机器人的控制也完全交给击球决策来进行,如图4所示,击球策略所控制的乒乓球机器人具有7个自由度,其包含一个包含6个旋转关节的机械臂01以及一个直线模组02,所述直线模组02能够驱动所述机械臂01在乒乓球台的左右方向上做平移运动,乒乓球拍安装在机械臂01的执行末端。上述直线模组02用于扩展机械臂01的工作空间,而机械臂01具有的6个旋转关节可增加乒乓球机器人击球方式的灵活性。
本发明还提供了一种乒乓球机器人灵活击球策略的实现系统400,实现系统400可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述实现系统400。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述实现系统400在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能,如图6所示,实现系统400包括:
自监督学习模块401,其用于在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器;所述自监督学习方法的任务有两个,第一任务为乒乓球轨迹的异常值填空与补充,第二任务为乒乓球轨迹的预测;当中提及的LSTM网络,不仅单指LSTM网络,还包括LSTM网络的变种,如:GRU,QRNN,SRU,SRU++等。
迁移学习模块402,其用于将所述特征提取器迁移至现实环境中进行迁移式学习以对所述特征提取器进行再训练;所述迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹;
强化学习模块403,其用于将所述特征提取器应用于强化学习中,得到击球策略;所述强化学习中,针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏;所述击球策略直接输出乒乓球机器人的关节位置。
其他基于实现系统400实现上述乒乓球机器人灵活击球策略的实现方法的内容在之前实施例中已经详细介绍,可参考之前实施例中的对应内容,此处不再赘述。
本实施例还提供一种存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的存储介质内存储有可执行程序,所述可执行程序被控制器执行以实现上述的乒乓球机器人灵活击球策略的实现方法。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.乒乓球机器人灵活击球策略的实现方法,其特征在于,所述方法包括:
在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器;所述自监督学习方法的任务有两个,第一任务为乒乓球轨迹的异常值填空与补充,第二任务为乒乓球轨迹的预测;
将所述特征提取器迁移至现实环境中进行迁移式学习以对所述特征提取器进行再训练;所述迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹;
将所述特征提取器应用于强化学习中,得到击球策略;所述强化学习中,针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏;所述击球策略直接输出乒乓球机器人的关节位置。
2.根据权利要求1所述的乒乓球机器人灵活击球策略的实现方法,其特征在于,所述在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器包括:
基于乒乓球仿真环境进行自监督学习样本采集,所述自监督学习样本包括乒乓球随机噪声坐标、乒乓球仿真轨迹真实坐标、以及乒乓球仿真轨迹未来坐标;
将所述自监督学习样本输入自监督学习网络进行模型训练,得到特征提取器;所述自监督学习网络中,完成所述第一任务的网络结构主体为双向LSTM,完成所述第二任务的网络结构主体也为双向LSTM。
3.根据权利要求1所述的乒乓球机器人灵活击球策略的实现方法,其特征在于,所述真实乒乓球轨迹的获得方法为:
对现实环境中的乒乓球轨迹进行采样;
对所述乒乓球轨迹进行物理学分析,得到所述真实乒乓球轨迹。
4.根据权利要求1所述的乒乓球机器人灵活击球策略的实现方法,其特征在于,所述针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏包括:
使第一轨迹阶段与第二轨迹阶段的奖赏和球与机器人球拍的距离成反比;使第三轨迹阶段的奖赏和球与目标点的距离成反比;其中,所述第一轨迹阶段与第二轨迹阶段分别为对手发球轨迹阶段与机器人接球轨迹,所述第三轨迹阶段与第四轨迹阶段分别为机器人反击轨迹与对手接球轨迹。
6.根据权利要求1所述的乒乓球机器人灵活击球策略的实现方法,其特征在于,所述乒乓球机器人具有7个自由度,其包含一个包含6个旋转关节的机械臂以及一个直线模组,所述直线模组能够驱动所述机械臂做平移运动。
7.乒乓球机器人灵活击球策略的实现系统,其特征在于,其包括:
自监督学习模块,其用于在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器;所述自监督学习方法的任务有两个,第一任务为乒乓球轨迹的异常值填空与补充,第二任务为乒乓球轨迹的预测;
迁移学习模块,其用于将所述特征提取器迁移至现实环境中进行迁移式学习以对所述特征提取器进行再训练;所述迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹;
强化学习模块,其用于将所述特征提取器应用于强化学习中,得到击球策略;所述强化学习中,针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏;所述击球策略直接输出乒乓球机器人的关节位置。
8.存储介质,其特征在于,其内存储有可执行程序,所述可执行程序被控制器执行以实现权利要求1-6任一项所述的乒乓球机器人灵活击球策略的实现方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210640409.4A CN115120949B (zh) | 2022-06-08 | 2022-06-08 | 乒乓球机器人灵活击球策略的实现方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210640409.4A CN115120949B (zh) | 2022-06-08 | 2022-06-08 | 乒乓球机器人灵活击球策略的实现方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115120949A true CN115120949A (zh) | 2022-09-30 |
CN115120949B CN115120949B (zh) | 2024-03-26 |
Family
ID=83378012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210640409.4A Active CN115120949B (zh) | 2022-06-08 | 2022-06-08 | 乒乓球机器人灵活击球策略的实现方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115120949B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103223236A (zh) * | 2013-04-24 | 2013-07-31 | 长安大学 | 一种乒乓球训练机智能评价系统 |
CN106780620A (zh) * | 2016-11-28 | 2017-05-31 | 长安大学 | 一种乒乓球运动轨迹识别定位与跟踪系统及方法 |
CN110458281A (zh) * | 2019-08-02 | 2019-11-15 | 中科新松有限公司 | 乒乓球机器人的深度强化学习旋转速度预测方法及系统 |
US20190385061A1 (en) * | 2018-06-19 | 2019-12-19 | International Business Machines Corporation | Closed loop model-based action learning with model-free inverse reinforcement learning |
CN110796019A (zh) * | 2019-10-04 | 2020-02-14 | 上海淡竹体育科技有限公司 | 一种识别和跟踪运动中的球形物体的方法及装置 |
CN112702481A (zh) * | 2020-11-30 | 2021-04-23 | 杭州电子科技大学 | 一种基于深度学习的乒乓球轨迹跟踪装置及方法 |
CN113018827A (zh) * | 2021-03-03 | 2021-06-25 | 盐城工学院 | 精准收集及分析的乒乓球轨迹的辅助训练系统、方法、终端 |
CN113378074A (zh) * | 2021-06-10 | 2021-09-10 | 电子科技大学 | 一种基于自监督学习的社交网络用户轨迹分析方法 |
US20210283484A1 (en) * | 2020-03-13 | 2021-09-16 | Omron Corporation | Stroke Decision Device, Stroke Decision Method, Recording Medium Storing Stroke Decision Program, and Ball-Returning Robot |
CN113650010A (zh) * | 2021-08-04 | 2021-11-16 | 乒乓动量机器人(昆山)有限公司 | 一种乒乓球机器人的运动控制方法、系统及存储介质 |
KR20220065234A (ko) * | 2020-11-13 | 2022-05-20 | 주식회사 플라잎 | 6d 포즈 추정 장치 및 방법 |
-
2022
- 2022-06-08 CN CN202210640409.4A patent/CN115120949B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103223236A (zh) * | 2013-04-24 | 2013-07-31 | 长安大学 | 一种乒乓球训练机智能评价系统 |
CN106780620A (zh) * | 2016-11-28 | 2017-05-31 | 长安大学 | 一种乒乓球运动轨迹识别定位与跟踪系统及方法 |
US20190385061A1 (en) * | 2018-06-19 | 2019-12-19 | International Business Machines Corporation | Closed loop model-based action learning with model-free inverse reinforcement learning |
CN110458281A (zh) * | 2019-08-02 | 2019-11-15 | 中科新松有限公司 | 乒乓球机器人的深度强化学习旋转速度预测方法及系统 |
CN110796019A (zh) * | 2019-10-04 | 2020-02-14 | 上海淡竹体育科技有限公司 | 一种识别和跟踪运动中的球形物体的方法及装置 |
US20210283484A1 (en) * | 2020-03-13 | 2021-09-16 | Omron Corporation | Stroke Decision Device, Stroke Decision Method, Recording Medium Storing Stroke Decision Program, and Ball-Returning Robot |
KR20220065234A (ko) * | 2020-11-13 | 2022-05-20 | 주식회사 플라잎 | 6d 포즈 추정 장치 및 방법 |
CN112702481A (zh) * | 2020-11-30 | 2021-04-23 | 杭州电子科技大学 | 一种基于深度学习的乒乓球轨迹跟踪装置及方法 |
CN113018827A (zh) * | 2021-03-03 | 2021-06-25 | 盐城工学院 | 精准收集及分析的乒乓球轨迹的辅助训练系统、方法、终端 |
CN113378074A (zh) * | 2021-06-10 | 2021-09-10 | 电子科技大学 | 一种基于自监督学习的社交网络用户轨迹分析方法 |
CN113650010A (zh) * | 2021-08-04 | 2021-11-16 | 乒乓动量机器人(昆山)有限公司 | 一种乒乓球机器人的运动控制方法、系统及存储介质 |
Non-Patent Citations (2)
Title |
---|
常晴;刘睿;: "不同力度下乒乓球反弹轨迹智能识别方法", 赤峰学院学报(自然科学版), no. 04 * |
黎子聪;曾繁忠;吴自辉;聂勇伟;冼楚华;李桂清;: "虚拟乒乓球手的强化学习训练方法", 计算机辅助设计与图形学学报, no. 06 * |
Also Published As
Publication number | Publication date |
---|---|
CN115120949B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Büchler et al. | Learning to play table tennis from scratch using muscular robots | |
CN111260762B (zh) | 一种动画实现方法、装置、电子设备和存储介质 | |
Kober et al. | Reinforcement learning to adjust parametrized motor primitives to new situations | |
CN110458281B (zh) | 乒乓球机器人的深度强化学习旋转速度预测方法及系统 | |
US11417136B2 (en) | Capturing and quantifying body postures | |
Mahjourian et al. | Hierarchical policy design for sample-efficient learning of robot table tennis through self-play | |
CN115990891B (zh) | 一种基于视觉示教和虚实迁移的机器人强化学习装配的方法 | |
Schwab et al. | Learning skills for small size league robocup | |
Xu et al. | Adoption of machine learning algorithm-based intelligent basketball training robot in athlete injury prevention | |
Gao et al. | Optimal stroke learning with policy gradient approach for robotic table tennis | |
Wang et al. | Learning anticipation policies for robot table tennis | |
Ji et al. | Model-based trajectory prediction and hitting velocity control for a new table tennis robot | |
He et al. | Mathematical modeling and simulation of table tennis trajectory based on digital video image processing | |
KR20120054070A (ko) | 사이버-물리 게임 | |
CN115120949A (zh) | 乒乓球机器人灵活击球策略的实现方法、系统及存储介质 | |
Ding et al. | Learning high speed precision table tennis on a physical robot | |
WO2021178755A1 (en) | Use of projectile data to create a virtual reality simulation of a live-action sequence | |
Bai et al. | Wrighteagle and UT Austin villa: RoboCup 2011 simulation league champions | |
Ding et al. | Goalseye: Learning high speed precision table tennis on a physical robot | |
CN113650010B (zh) | 一种乒乓球机器人的运动控制方法、系统及存储介质 | |
Li et al. | Kicking motion planning of Nao robots based on CMA-ES | |
CN114905510A (zh) | 基于自适应近端优化的机器人动作方法 | |
CN110711368A (zh) | 一种乒乓球机器人的击球方法及装置 | |
Hu et al. | Apply acceleration sampling to learn kick motion for nao humanoid robot | |
US20220096899A1 (en) | Machine learning augmented loop drive training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |