CN114863562A

CN114863562A - 多足机器人的运动学习方法、装置、电子设备及存储介质

Info

Publication number: CN114863562A
Application number: CN202210499382.1A
Authority: CN
Inventors: 张晟东; 邓涛; 焦家辉; 张立华; 王济宇; 李志建; 蔡维嘉; 古家威
Original assignee: Ji Hua Laboratory
Current assignee: Ji Hua Laboratory
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-08-05

Abstract

本发明涉及机器人运动控制技术领域，具体公开了一种多足机器人的运动学习方法、装置、电子设备及存储介质，其中，方法包括以下步骤：获取关于足式生物运动的不同视频信息；根据视频信息提取运动关键信息生成骨架序列图片，并根据视频信息提取场景序列图片；根据骨架序列图片提取骨架特征信息以生成骨架分析函数，并根据场景序列图片提取场景特征信息以生成动作决策函数；根据骨架分析函数及动作决策函数的相关性建立损失函数；更新损失函数至收敛以获取足部决策模型；该方法建立的损失函数能反映骨架分析函数及动作决策函数的相似程度，使得基于损失函数收敛生成的足部决策模型能针对场景决策出最接近于真实动作的动作。

Description

多足机器人的运动学习方法、装置、电子设备及存储介质

技术领域

本申请涉及机器人运动控制技术领域，具体而言，涉及一种多足机器人的运动学习方法、装置、电子设备及存储介质。

背景技术

伴随着科技的发展与人们对美好生活的持续追求，对移动机器人的需求日益旺盛，但在复杂不平坦的地形条件下，传统平台的移动机器人的机动性和灵活性受到很大的限制。多足机器人受恶劣不规则地形条件的影响较小，能适应更多复杂危险的场景。

现有的多足机器人原型都是用仿生的方法进行设计制造，通过仿腿式生物的关节结构和运动步态等进行设计。

多足机器人的动作一般为通过部署作为深度学习模型的足部决策模型进行决策，现有的足部决策模型的训练过程为基于事先标定的数据集进行端到端的深度学习训练，训练出来的仅为能针对空间特征进行动作决策，导致决策动作不够准确真实。

针对上述问题，目前尚未有有效的技术解决方案。

发明内容

本申请的目的在于提供一种多足机器人的运动学习方法、装置、电子设备及存储介质，使足部决策模型能针对场景空间及时间特征决策出最接近于真实动作的动作。

第一方面，本申请提供了一种多足机器人的运动学习方法，用于生成多足机器人的足部决策模型，所述方法包括以下步骤：

获取关于足式生物运动的不同视频信息；

根据所述视频信息提取运动关键信息生成骨架序列图片，并根据所述视频信息提取场景序列图片；

根据所述骨架序列图片提取骨架特征信息以生成骨架分析函数，并根据所述场景序列图片提取场景特征信息以生成动作决策函数；

根据所述骨架分析函数及所述动作决策函数的相关性建立损失函数；

更新所述损失函数至收敛以获取所述足部决策模型。

本申请的多足机器人的运动学习方法，根据视频信息分别生成基于运动关键信息获取的骨架序列图片和用于表征足部动作与场景关系的场景序列图片，基于两种序列图片独立进行特征提取生成骨架分析函数和动作决策函数，两者分别能反映足部动作与时间及空间的关联性，基于骨架分析函数和动作决策函数相关性建立的损失函数能反映骨架分析函数及动作决策函数的相似程度，使得基于损失函数收敛生成的足部决策模型能针对场景决策出最接近于真实动作的动作，使得多足机器人控制更稳定、精确。

所述的多足机器人的运动学习方法，其中，所述根据所述骨架序列图片提取骨架特征信息以生成骨架分析函数的步骤包括：

对所述骨架序列图片进行3D卷积初步提取所述骨架特征信息；

根据自注意力机制和动作时间特征对所述骨架特征信息进行多级特征提取并进行降采样后获取所述骨架分析函数。

所述的多足机器人的运动学习方法，其中，所述根据自注意力机制和动作时间特征对所述骨架特征信息进行多级特征提取并进行降采样后获取所述骨架分析函数的步骤包括：

通过第一自注意机制层、第一时间深度卷积层、第二自注意机制层、第二时间深度卷积层及第三自注意机制层对所述骨架特征信息依次进行特征提取后，利用第一全模块连接层进行降采样以获取所述骨架分析函数。

在该示例的多足机器人的运动学习方法中，上述三层自注意机制层均为对数据序列的内部相关性的提取，主要是对多通道输入的特征数据进行加权表出，从而获取到时间序列下不同时刻通道在后续计算中所占的比重，以实现内部相关性提取，即对对上一级特征提取结果（卷积结果）进行多个通道的加权融合，实现内部相关性提取，以实现骨架特征信息的空间特征提取，结合时间深度卷积层进行实践深度特征提取，能使得骨架分析函数具有准确的空间特征和时间深度特征。

所述的多足机器人的运动学习方法，其中，所述根据所述场景序列图片提取场景特征信息以生成动作决策函数的步骤包括：

对所述场景序列图片进行3D卷积提取所述场景特征信息；

根据自注意力机制对所述场景特征信息进行多级特征提取并进行降采样后获取所述动作决策函数。

所述的多足机器人的运动学习方法，其中，所述根据自注意力机制对所述场景特征信息进行多级特征提取并进行降采样后获取所述动作决策函数的步骤包括：

通过第四自注意机制层、第三3D-CNN卷积层、第五自注意机制层、2D-CNN卷积层及第六自注意机制层对所述场景特征信息依次进行特征提取后，利用第二全模块连接层进行降采样以获取所述动作决策函数。

该示例的多足机器人的运动学习方法经过三层自注意力机制层、第三3D-CNN卷积层及2D-CNN卷积层进行特征提取，能使得动作决策函数在有效降低特征计算量的前提下进行场景特征及内部相关性提取，使得决策动作关联于场景特征，即具有空间特征特性。

所述的多足机器人的运动学习方法，其中，所述根据所述骨架分析函数及所述动作决策函数的相关性建立损失函数的步骤包括：

根据所述骨架分析函数及所述动作决策函数的范数差建立损失函数，以表征所述多足机器人基于场景生成的动作决策与关节动作的相关性。

该示例的多足机器人的运动学习方法的范数差能表征骨架分析函数及动作决策函数的相似程度，动作决策函数包含了场景及对应的多足动物的决策动作，使该范数差变少能使骨架动作逐步趋向该决策动作。

所述的多足机器人的运动学习方法，其中，所述更新所述损失函数至收敛以获取所述足部决策模型的步骤包括：

采用权值衰减的自适应梯度下降法分别更新所述骨架分析函数的全部特征参数和所述动作决策函数的全部特征参数，以使所述损失函数收敛生成所述足部决策模型。

第二方面，本申请还提供了一种多足机器人的运动学习装置，用于生成多足机器人的足部决策模型，所述装置包括：

获取模块，用于获取关于足式生物运动的不同视频信息；

序列提取模块，用于根据所述视频信息提取运动关键信息生成骨架序列图片，并根据所述视频信息提取场景序列图片；

特征提取模块，用于根据所述骨架序列图片提取骨架特征信息以生成骨架分析函数，并根据所述场景序列图片提取场景特征信息以生成动作决策函数；

建模模块，用于根据所述骨架分析函数及所述动作决策函数的相关性建立损失函数；

更新模块，用于更新所述损失函数至收敛以获取所述足部决策模型。

本申请的多足机器人的运动学习装置，利用序列提取模块根据视频信息分别生成基于运动关键信息获取的骨架序列图片和用于表征足部动作与场景关系的场景序列图片，再利用特征提取模块基于两种序列图片独立进行特征提取生成骨架分析函数和动作决策函数，两者分别能反映足部动作与时间及空间的关联性，基于骨架分析函数和动作决策函数相关性建立的损失函数能反映骨架分析函数及动作决策函数的相似程度，使得基于损失函数收敛生成的足部决策模型能针对场景决策出最接近于真实动作的动作，使得多足机器人控制更稳定、精确。

第三方面，本申请还提供了一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第四方面，本申请还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

由上可知，本申请提供了一种多足机器人的运动学习方法、装置、电子设备及存储介质，其中，方法根据视频信息分别生成基于运动关键信息获取的骨架序列图片和用于表征足部动作与场景关系的场景序列图片，基于两种序列图片独立进行特征提取生成骨架分析函数和动作决策函数，基于骨架分析函数和动作决策函数相关性建立的损失函数能反映骨架分析函数及动作决策函数的相似程度，使得基于损失函数收敛生成的足部决策模型能针对场景决策出最接近于真实动作的动作。

附图说明

图1为本申请实施例提供的多足机器人的运动学习方法的流程图。

图2为损失函数的生成过程的示意图。

图3为时间深度卷积层的结构示意图。

图4为本申请实施例提供的多足机器人的运动学习装置的结构示意图。

图5为本申请实施例提供的电子设备的结构示意图。

附图标记：201、获取模块；202、序列提取模块；203、特征提取模块；204、建模模块；205、更新模块；301、处理器；302、存储器；303、通信总线。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

第一方面，请参照图1-图3，图1-图3是本申请一些实施例中的一种多足机器人的运动学习方法，用于生成多足机器人的足部决策模型，方法包括以下步骤：

S1、获取关于足式生物运动的不同视频信息；

具体地，该视频信息为包含对应足式生物正常运动过程的普通视频数据，本申请实施例的多足机器人的运动学习方法基于这类普通视频数据进行训练学习，能极大地增加机器人可以学习的行为数据量，使得最终训练获取的足部决策模型适用于不同场景使用。

更具体地，足式生物为多足生物，即为具有两足以上进行运动的生物，可以是昆虫类生物、爬行类动物、哺乳类动物等。

更具体地，该视频信息获取途径不受限，可以是取自互联网或用户拍摄的视频信息，具有数据海量的特点，能确保本申请实施例的方法具有足够多的行为数据量进行动作学习，有效提高多足机器人运动学习的灵活性。

更具体地，不同视频信息包括对应多足生物在相同场景中的异类运动视频数据、对应多足生物在相同场景中的同类运动视频数据、对应多足生物在不同场景中的异类运动视频数据、对应多足生物在不同场景中的同类运动视频数据；多足生物的足部运动是具有多样性的，如人类的奔跑、行走、跳跃等行为，为确保最终训练的足部决策模型能根据场景作出合适的动作决策以学习模仿对应足部运动行为，训练用的视频信息应当涉及对应多足生物在各类场景中的各类足部运动行为，以提高足部决策模型的学习灵活性、决策准确度。

S2、根据视频信息提取运动关键信息生成骨架序列图片，并根据视频信息提取场景序列图片；

具体地，运动关键信息为视频信息中多足生物的关于足部运动行为的重点肢体的位姿信息，如包括多足生物的足部关节（髋、膝、踝）和躯干的位姿信息。

更具体地，运动关键信息为基于距离变换的算法、基于形态学的算法、细化算法、基于链码的算法或基于Voronoi图算法从视频信息中提取生成，上述算法能成熟地从视频信息中准确提取表征多足生物运动行为特征的运动关键信息。

更具体地，视频信息为按照时间序列排序的连续的图像帧，多足生物的运动行为表现为记录在不同图像帧中的运动关键信息，根据视频信息各个图像帧提取的运动关键信息能生成按照时间序列排序的连续的骨架序列图片，骨架序列图片为一系列利用骨架形式表现运动关键信息的图片数据。

更具体地，骨架序列图片为一种通过骨架结构表现足部运动行为特征的图片数据，可以是基于预设的骨架模型及运动关键信息生成的图片数据，还可以是基于运动关键信息拟合成骨架生成的图片数据，以提供清晰的动作结构数据供足部决策模型学习模仿。

更具体地，场景序列图片为一种结合场景和多足生物运动行为的图片数据，在本申请实施例中，优选为从视频信息中提取的图像帧。

S3、根据骨架序列图片提取骨架特征信息以生成骨架分析函数，并根据场景序列图片提取场景特征信息以生成动作决策函数；

具体地，该步骤主要是通过对步骤S2获取的骨架序列图片和场景序列图片分别进行特征提取，生成用于表征足部骨架动作的骨架分析函数，以及用于表征场景与决策动作关联性的动作决策函数。

更具体地，骨架特征信息为用于表征骨架序列图片中骨架形态特点的特征数据，场景特征信息为用于表征场景序列图片中场景特点及多足生物动作特点的特征数据。

更具体地，骨架分析函数和动作决策函数为量纲统一的特征函数，能作为后续内部相关性分析的数据基础。

更具体地，骨架分析函数反映了骨架动作的变化情况，能精确反映动作与时间的变化关系，动作决策函数反映了足部动作特点与场景特点的关联性，能精确反映动作与空间的关联关系。

S4、根据骨架分析函数及动作决策函数的相关性建立损失函数；

具体地，骨架分析函数为骨架序列图片根据多个未确定的特征参数转换生成的特征函数，动作决策函数为场景序列图片根据多个未确定的特征参数转换生成的特征函数，足部决策模型的训练过程为获取这些最优特征参数的过程。

更具体地，损失函数根据骨架分析函数及动作决策函数的相关性建立，使得损失函数反映了骨架分析函数及动作决策函数的相似程度，即反映了动作决策函数作出的动作决策与骨架分析函数对应的动作行为的相似程度，两种函数分别基于骨架序列图片和场景序列图片提取生成，使得本申请实施例的方法能快速进行动作决策特征和骨架特征的比对，其中，动作决策函数反映了基于场景产生的动作决策，骨架分析函数反映了基于骨架表征的真实动作，基于两种函数的相关性建立的损失函数则反映了对应场景中的动作决策与真实动作是否一致，利用该损失函数进行训练优化足部决策模型能使足部决策模型针对场景作出的动作决策逐步趋向于真实动作。

S5、更新损失函数至收敛以获取足部决策模型。

具体地，由前述内容可知，更新损失函数为获取骨架分析函数及动作决策函数对应最优特征参数的过程，即获取能使骨架分析函数及动作决策函数相关性达到最高的最优特征参数，从而使得足部决策模型针对场景作出的动作决策最接近于真实动作。

更具体地，获取该足部决策模型后，需将该足部决策模型部署在对应的多足机器人的控制端上以使对应的多足机器人能根据场景生成合适的动作决策而进行移动。

更具体地，足部决策模型的部署过程为根据该多足机器人对应的运动学、动力学算法、坐标变换及环境配置信息等将足部决策模型调节移植在多足机器人的控制端上。

本申请实施例的多足机器人的运动学习方法，根据视频信息分别生成基于运动关键信息获取的骨架序列图片和用于表征足部动作与场景关系的场景序列图片，基于两种序列图片独立进行特征提取生成骨架分析函数和动作决策函数，两者分别能反映足部动作与时间及空间的关联性，基于骨架分析函数和动作决策函数相关性建立的损失函数能反映骨架分析函数及动作决策函数的相似程度，使得基于损失函数收敛生成的足部决策模型能针对场景决策出最接近于真实动作的动作，使得多足机器人控制更稳定、精确。

本申请实施例的多足机器人的运动学习方法适用于双足机器人和四足机器人，步骤S1采用对应的足式生物运动的视频信息便能针对双足机器人和四足机器人进行运动学习；其中，针对双足机器人，步骤S1主要采用关于人类运动的视频信息，如采用人类行走、奔跑及跳跃等行动的视频信息；针对四足机器人，步骤S1主要采用常见的四足动物运动的视频信息，如猫科或犬科动物的踱步、小跑和奔跑等步态行动的视频信息。

由于本申请实施例多足机器人的运动学习方法最终获取的足部决策模型需要部署在对应的多足机器人上使用，因此，在一些优选的实施方式中，步骤S1中的视频信息中的足式生物与多足机器人具有相似的关节结构，即在执行步骤S1之前或执行步骤S1的过程中，需要对视频信息进行筛选，使得余下的视频信息中的足式生物具有与该多足机器人具有相似的关节结构，其中，相似的关节结构指具有相似的关节关系及具有相似的关节肢体长度比例，从而使得最终获取的足部决策模型与对应的多足机器人高度契合，能顺利部署在多足机器人中以对该多足机器人进行动作决策，并有效减少模型训练过程中的数据量。

在一些别的实施方式中，对于足数与多足机器人相同的多足动物的视频信息，在关节结构差异性较大的情况下，可在将足部决策模型部署到多足机器人的过程中，增加关节转换参数以匹配关节结构而实现多足机器人的部署控制。

在一些别的实施方式中，视频信息还包括足式生物的足类肢体受损时的运动的视频信息。

具体地，结合上述足类肢体受损时的运动的视频信息进行足部决策模型的训练，使得多足机器人能模仿学习肢体受损时的行动模式，使得机器人在局部足类肢体失去控制（如机械关节失灵或卡死）时，根据场景特点作出对应足类肢体受损的动作决策，使得本申请实施例的方法具有更广的学习范围，使得部署该方法生成的足部决策模型的多足机器人能适应不同场景、状态作出合适的动作决策，极大地提高了多足机器人的适应性、灵活性。

在一些优选的实施方式中，根据骨架序列图片提取骨架特征信息以生成骨架分析函数的步骤包括：

S31、对骨架序列图片进行3D卷积初步提取骨架特征信息；

具体地，如图2所示，将骨架序列图片按顺序输入第一3D-CNN层（3D-CNN1）进行3D卷积以提取骨架特征信息；由于骨架序列图片为按照视频信息的图像帧顺序提取的运动关键信息生成的，因此骨架序列图片为按照时间序列输入至第一3D-CNN层中，使得提取的骨架特征信息具备时间深度特征，即使得骨架特征信息对应的动作与时间序列产生关联。

S32、根据自注意力机制和动作时间特征对骨架特征信息进行多级特征提取并进行降采样后获取骨架分析函数。

具体地，步骤S31为对骨架序列图片进行初步特征提取，对于作为深度学习模型的足部决策模型而言，还需要对骨架特征信息进行多级特征提取以对这些骨架特征信息进行数据序列的内部相关性的提取，并进行降采样和归一化处理以生成骨架分析函数。

更具体地，对骨架特征信息进行数据序列的内部相关性的提取的过程为根据自注意力机制和动作时间特征对骨架特征信息进行多级特征提取，其中，根据自注意力机制（Self-Attention）进行特征提取能对上一级特征提取结果进行动作空间特征及序列内部相关性，根据动作时间特征进行特征提取能对上一级特征提取结果进行序列时间轴上的特征提取，从而使得步骤S32获取的骨架分析函数具备动作空间特征和时间深度特征，即表征了能反应空间和时间关系的真实动作，便于步骤S4建立的损失函数进行关于时间和空间的动作特征对比。

在一些优选的实施方式中，根据自注意力机制和动作时间特征对骨架特征信息进行多级特征提取并进行降采样后获取骨架分析函数的步骤包括：

S321、通过第一自注意机制层、第一时间深度卷积层、第二自注意机制层、第二时间深度卷积层及第三自注意机制层对骨架特征信息依次进行特征提取后，利用第一全模块连接层进行降采样以获取骨架分析函数。

具体地，如图2所示，骨架序列图片至第一输出端的变化过程构成了骨架算法网络，用于根据骨架序列图片生成并输出骨架分析函数；骨架特征信息依次经过第一自注意机制层（Self-attention1）进行第一次数据序列的内部相关性的特征提取、第一时间深度卷积层（Temporal Module1）进行第一次序列时间轴上的特征提取、第二自注意机制层（Self-attention2）进行第二次数据序列的内部相关性的特征提取、第二时间深度卷积层（Temporal Module2）进行第二次序列时间轴上的特征提取、第三自注意机制层（Self-attention3）进行第三次数据序列的内部相关性的特征提取、第一全模块连接层（FullConnected1）进行降采样后，利用激活函数（softmax）对降采样结果进行归一化处理实现量纲统一以生成骨架分析函数。

更具体地，步骤S321经过三层自注意力机制层和两层时间深度卷积层进行特征提取，能使得骨架分析函数表征的骨架动作密切关联于空间特征和时间深度特征，尽可能地贴近于真实动作，故可将该骨架分析函数视为标准真实动作。

更具体地，上述三层自注意机制层均为对数据序列的内部相关性的提取，主要是对多通道输入的特征数据进行加权表出，从而获取到时间序列下不同时刻通道在后续计算中所占的比重，以实现内部相关性提取，即对对上一级特征提取结果（卷积结果）进行多个通道的加权融合，实现内部相关性提取，以实现骨架特征信息的空间特征提取，结合时间深度卷积层进行实践深度特征提取，能使得骨架分析函数具有准确的空间特征和时间深度特征。

更具体地，两个时间深度卷积层的结构均如图3所示，用于将自注意机制层多个通道（C1、C2、C3）输出的数据按照时间深度进行卷积整合（concat）并平均池化（averagepooling）从而实现对进行了空间特征提取的结果进行时间特征的提取。

更具体地，为便于清楚理解本申请实施例的方法，将上述骨架算法网络输出的骨架分析函数定义为O ₁(f ₁(x,θ))，其中O ₁标识最后一层的激活函数，f ₁表示从第一3D-CNN层到第一全模块连接层的网络等价函数，θ表示该骨架算法网络的全部特征参数，可以采用如下增广矩阵表示：

（1）

其中，θ _ij表示3D-CNN层到第一全模块连接层中某一网络层的某一参数，有i=1, 2,……，m；j=1,2,……，n；x为对应骨架序列图片。

在一些优选的实施方式中，根据场景序列图片提取场景特征信息以生成动作决策函数的步骤包括：

S33、对场景序列图片进行3D卷积提取场景特征信息；

具体地，如图2所示，将场景序列图片按顺序输入第二3D-CNN层（3D-CNN2）进行3D卷积以提取场景特征信息；由于场景序列图片包含场景和多足生物动作，因此场景序列图片输入至第二3D-CNN层后提取的场景特征信息能表征场景与动作的关系。

S34、根据自注意力机制对场景特征信息进行多级特征提取并进行降采样后获取动作决策函数。

具体地，步骤S34为对场景序列图片进行初步特征提取，对于作为深度学习模型的足部决策模型而言，还需要对场景特征信息进行多级特征提取以对这些场景特征信息进行数据序列的内部相关性的提取，并进行降采样和归一化处理以生成动作决策函数。

更具体地，场景特征信息相比骨架特征信息在时间尺度变化相对不明显，主要是场景本身不会因时间变化而发生较大改变，因此对于场景特征信息而言，需要分析提取其空间特征以表征场景特点和多足生物动作特点之间的关系，使得最终获取的足部决策模型能根据场景特征进行对应的动作决策；因此，对场景特征信息进行数据序列的内部相关性的提取的过程为根据自注意力机制对场景特征信息进行多级特征提取，从而使得步骤S34获取的动作决策函数能体现出场景特点与多组生物动作特点的关系，即表征场景与动作之间的决策关系，便于步骤S4建立的损失函数基于该动作决策函数确定该场景最合适的动作决策，并能根据该动作决策函数与骨架分析函数之间的相关性获取最合适的骨架动作，以使决策的动作逐步趋向于真实动作。

在一些优选的实施方式中，步骤S31和步骤S33优选为同时启用执行，并在步骤S32和步骤S34均分别生成骨架分析函数和动作决策函数再执行步骤S4。

在一些优选的实施方式中，根据自注意力机制对场景特征信息进行多级特征提取并进行降采样后获取动作决策函数的步骤包括：

S341、通过第四自注意机制层、第三3D-CNN卷积层、第五自注意机制层、2D-CNN卷积层及第六自注意机制层对场景特征信息依次进行特征提取后，利用第二全模块连接层进行降采样以获取动作决策函数。

具体地，如图2所示，场景序列图片至第二输出端的的变化过程构成了场景算法网络，用于根据场景序列图片生成并输出动作决策函数；场景特征信息依次经过第四自注意机制层（Self-attention4）进行第一次数据序列的内部相关性的特征提取、第三3D-CNN卷积层（3D-CNN3）进行第二次3D卷积特征提取、第五自注意机制层（Self-attention5）进行第二次数据序列的内部相关性的特征提取、2D-CNN卷积层（2D-CNN）进行2D卷积特征提取、第六自注意机制层（Self-attention6）进行第三次数据序列的内部相关性的特征提取、第二全模块连接层（Full Connected2）进行降采样后，利用激活函数（softmax）对降采样结果进行归一化处理实现量纲统一以生成动作决策函数。

更具体地，步骤S321经过三层自注意力机制层、第三3D-CNN卷积层及2D-CNN卷积层进行特征提取，能使得动作决策函数在有效降低特征计算量的前提下进行场景特征及内部相关性提取，使得决策动作关联于场景特征，即具有空间特征特性。

更具体地，上述三层自注意机制层也是对多通道输入的特征数据进行加权表出，从而获取到时间序列下不同时刻通道在后续计算中所占的比重，以实现内部相关性提取。

更具体地，为便于清楚理解本申请实施例的方法，将上述场景算法网络输出的动作决策函数定义为O ₂(f ₂(y,φ))，其中O ₂标识最后一层的激活函数，f ₂表示从第二3D-CNN层到第二全模块连接层的网络等价函数，φ表示该场景算法网络的全部特征参数，也可以采用增广矩阵表示，φ _ij表示第二3D-CNN层到第二全模块连接层中某一网络层的某一参数，有i=1,2,……，m；j=1,2,……，n；y为对应场景序列图片。

在一些优选的实施方式中，根据骨架分析函数及动作决策函数的相关性建立损失函数的步骤包括：

S41、根据骨架分析函数及动作决策函数的范数差建立损失函数，以表征多足机器人基于场景生成的动作决策与关节动作的相关性。

具体地，如图2所示，根据骨架分析函数及动作决策函数的损失函数用于对比损失。

更具体地，骨架分析函数及动作决策函数的范数差表示为|O ₁(f ₁(x,θ))-O ₂(f ₂(y, φ))|，该范数差能表征骨架分析函数及动作决策函数的相似程度，动作决策函数包含了场景及对应的多足动物的决策动作，使该范数差变少能使骨架动作逐步趋向该决策动作。

更具体地，在本申请实施例中，损失函数优选为：

（2）

其中,||·||₂表示为范数绝对值。

具体地，通过训练学习获取对应骨架分析函数及动作决策函数的特征参数θ和φ，使得损失函数

收敛至最小时，表示骨架动作最接近真实动作；因此，本申请实施例的方法的学习过程为基于θ和φ更新

，该更新过程可采用各类深度学习模型的学习手段更新损失函数。

在一些优选的实施方式中，更新损失函数至收敛以获取足部决策模型的步骤包括：

S51、采用权值衰减的自适应梯度下降法分别更新骨架分析函数的全部特征参数和动作决策函数的全部特征参数，以使损失函数收敛生成足部决策模型。

具体地，本申请实施例的方法优选为采用自适应梯度下降法更新损失函数

以使

快速收敛从而生成足部决策模型。

更具体地，该自适应梯度下降法更新过程如下：

针对特征参数θ和φ分别设定对应的梯度块

和

，分别满足：

（3）

（4）

t为更新时间，梯度块

和

分别具有迭代项

和

，

为θ的梯度算子，

为φ的梯度算子，满足：

（5）

（6）

其中α、β为组合参数，一般均设定为0.99，根据公式（2）-（6）可得：

（7）

（8）

其中，θ _t和φ _t分别为θ和φ关于更新时间的特征参数，ω ₁ 、ω ₂为权重衰减参数，一般设定为0.999，ε为无限小补偿值，η ₁ 、η ₂为学习率，一般设定为0.05。

根据上述迭代项进行梯度下降更新损失函数，在θ _t和φ _t收敛后，记录对应的特征参数便能生成需要获取的足部决策模型。

第二方面，请参照图4，图4是本申请一些实施例中提供的一种多足机器人的运动学习装置，用于生成多足机器人的足部决策模型，装置包括：

获取模块201，用于获取关于足式生物运动的不同视频信息；

序列提取模块202，用于根据视频信息提取运动关键信息生成骨架序列图片，并根据视频信息提取场景序列图片；

特征提取模块203，用于根据骨架序列图片提取骨架特征信息以生成骨架分析函数，并根据场景序列图片提取场景特征信息以生成动作决策函数；

建模模块204，用于根据骨架分析函数及动作决策函数的相关性建立损失函数；

更新模块205，用于更新损失函数至收敛以获取足部决策模型。

本申请实施例的多足机器人的运动学习装置，利用序列提取模块202根据视频信息分别生成基于运动关键信息获取的骨架序列图片和用于表征足部动作与场景关系的场景序列图片，再利用特征提取模块203基于两种序列图片独立进行特征提取生成骨架分析函数和动作决策函数，两者分别能反映足部动作与时间及空间的关联性，基于骨架分析函数和动作决策函数相关性建立的损失函数能反映骨架分析函数及动作决策函数的相似程度，使得基于损失函数收敛生成的足部决策模型能针对场景决策出最接近于真实动作的动作，使得多足机器人控制更稳定、精确。

在一些优选的实施方式中，本申请实施例的多足机器人的运动学习装置用于执行上述第一方面提供的多足机器人的运动学习方法。

第三方面，请参照图5，图5为本申请实施例提供的一种电子设备的结构示意图，本申请提供一种电子设备，包括：处理器301和存储器302，处理器301和存储器302通过通信总线303和/或其他形式的连接机构（未标出）互连并相互通讯，存储器302存储有处理器301可执行的计算机程序，当计算设备运行时，处理器301执行该计算机程序，以执行时执行上述实施例的任一可选的实现方式中的方法。

第四方面，本申请实施例提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，执行上述实施例的任一可选的实现方式中的方法。其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random Access Memory, 简称SRAM），电可擦除可编程只读存储器（ElectricallyErasable Programmable Read-Only Memory, 简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory, 简称PROM），只读存储器（Read-Only Memory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

综上，本申请实施例提供了一种多足机器人的运动学习方法、装置、电子设备及存储介质，其中，方法根据视频信息分别生成基于运动关键信息获取的骨架序列图片和用于表征足部动作与场景关系的场景序列图片，基于两种序列图片独立进行特征提取生成骨架分析函数和动作决策函数，基于骨架分析函数和动作决策函数相关性建立的损失函数能反映骨架分析函数及动作决策函数的相似程度，使得基于损失函数收敛生成的足部决策模型能针对场景决策出最接近于真实动作的动作。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种多足机器人的运动学习方法，用于生成多足机器人的足部决策模型，其特征在于，所述方法包括以下步骤：

获取关于足式生物运动的不同视频信息；

更新所述损失函数至收敛以获取所述足部决策模型。

2.根据权利要求1所述的多足机器人的运动学习方法，其特征在于，所述根据所述骨架序列图片提取骨架特征信息以生成骨架分析函数的步骤包括：

3.根据权利要求2所述的多足机器人的运动学习方法，其特征在于，所述根据自注意力机制和动作时间特征对所述骨架特征信息进行多级特征提取并进行降采样后获取所述骨架分析函数的步骤包括：

4.根据权利要求1所述的多足机器人的运动学习方法，其特征在于，所述根据所述场景序列图片提取场景特征信息以生成动作决策函数的步骤包括：

对所述场景序列图片进行3D卷积提取所述场景特征信息；

5.根据权利要求4所述的多足机器人的运动学习方法，其特征在于，所述根据自注意力机制对所述场景特征信息进行多级特征提取并进行降采样后获取所述动作决策函数的步骤包括：

6.根据权利要求1所述的多足机器人的运动学习方法，其特征在于，所述根据所述骨架分析函数及所述动作决策函数的相关性建立损失函数的步骤包括：

7.根据权利要求1所述的多足机器人的运动学习方法，其特征在于，所述更新所述损失函数至收敛以获取所述足部决策模型的步骤包括：

8.一种多足机器人的运动学习装置，用于生成多足机器人的足部决策模型，其特征在于，所述装置包括：

获取模块，用于获取关于足式生物运动的不同视频信息；

9.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-7任一项所述方法中的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-7任一项所述方法中的步骤。