CN114758195A

CN114758195A - 一种可持续学习的人体运动预测方法

Info

Publication number: CN114758195A
Application number: CN202210505137.7A
Authority: CN
Inventors: 兰旭光; 许杰; 王仕鸿; 陈星宇; 张家豪
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-07-15

Abstract

本发明公开了一种可持续学习的人体运动预测方法，以传感器捕捉的人体关节点运动轨迹为输入，使用循环神经网络给出未来数秒的运动预测及其认知不确定性与随即不确定性，保存捕捉的运动轨迹使模型完成持续学习的训练。利用贝叶斯神经网络对观察到的人类运动的各种不确定性进行建模，以实现安全地在线地收集互动数据。记忆管理模块在一个有限的内存空间中维护了一个固定大小的知识样本库，样本采集模块在知识样本库和数据流中进行数据采样，参数更新模块基于知识蒸馏算法使得算法具有持续学习的能力。本发明使机器人具有在线的独立自主的持续学习能力，在与人交互中持续提升人体运动预测能力，以提高智能机器人作业和与人交互的安全性与可靠性。

Description

一种可持续学习的人体运动预测方法

技术领域

本发明涉及一种人机交互中的人体运动预测算法，特别涉及一种可持续学习的人体运动预测方法。

背景技术

随着深度学习的快速发展，一些基于深度学习的方法在人体运动预测上取得了显著的性能。详细来说，一些方法利用了循环神经网络及其变体(如Seq2Seq)的优势，而还有一些方法采用生成模型来生成未来运动。然而，由于缺乏提供其预测的不确定性的能力，上述方法可能会在真实的人机交互场景中造成问题。对于概率人类运动预测任务，一些传统方法利用高斯过程、隐马尔可夫模型和动态森林模型的方法。然而，将它们应用于大规模的数据集是非常困难的。最近，一些基于深度学习的概率方法通过利用变异自动编码器和对抗生成网络来学习多种运动模式。这些已有方法都假设所有可能的人类运动模式都是已知的。这种假设可能会在人机交互场景中导致灾难性的后果，因为它忽略了人类行为的多样性。例如，当机器人观察到不熟悉的运动模式时，它可能会做出危险的行为。此外，预先收集的训练数据通常是非交互式的，没有考虑到人类的实时反应，机器人无法对交互动作做出合理反映。因此，这些方法不能满足在线人机交互场景的要求。

总结：(1)已有方法无法建模不确定性：无法识别出不熟悉的的人类运动模式，导致机器人做出可能危险的交互动作；(2)已有方法无法持续/终身学习：它们只能利用已有的预先收集数据集进行训练，一方面已有方法无法利用与人类的交互数据提升模型精度；另一方面预先收集的数据都是非交互式的，这和在线交互中收集的数据存在显著差异，导致已有方法性能不足。

发明内容

为了克服上述现有技术不足，本发明提供一种可持续学习的人体运动预测方法。

本发明的技术方案是这样实现的：

一种可持续学习的人体运动预测方法，包含内存管理器(缓存管理阶段)、策略采样器(策略采样阶段)、参数更新器(参数更新阶段)。

首先保存交互收集到的人体运动数据流，每隔一段时间，采用10分钟，以25fps计，预计最多有15k个时间步的数据。再以(1)中所述的50+25为窗口滑动即可得到大量的样本数据)将这期间收集到的数据发给策略采样器。策略权重采样器分别计算当前神经网络模型对一个内部维护的数据库和新收集数据的响应。其利用响应的认知不确定性

(反映了模型对该样本的熟悉程度)确定样本的采样权重。认知不确定性也可理解为模型对同一输入给出不同预测的样本方差。采样权重具体是通过对认知不确定性进行最大最小归一化后得到的。

接下来，本发明按照给定的采样权重采样样本来进行常规的神经网络参数更新，具体的网络构成在下一段详细描述。参数更新阶段采用了常用的梯度下降法(本发明使用AdamW优化算法进行优化)，为了使神经网络能够保持已有知识而不遗忘，本发明采用了知识蒸馏技术。具体来说知识蒸馏损失函数通过最小化计算当前神经网络和更新前的神经网络输出的分布距离(KL散度度量)。本发明的目标函数由两部分组成：回归损失和知识蒸馏损失。上述损失的具体计算公式如下：

最后，在参数更新阶段再从打包的数据随机选择一部分数据去随机替换内部维护的数据库中的数据，替换样本数量＝缓存大小×本次采集样本数÷总采集样本数。这样做的目的是保持内部维护数据库的分布与人体运动数据分布的一致性。以上三步便完成了一次持续学习的过程，面对无限时间长度的人体运动交互数据流，只需要循环上面的三个步骤即可。

下面阐述概率人体运动预测神经网络模型的构成。本发明的概率人体运动预测模型基于序列到序列的循环神经网络框架。编码器单元首先对输入部分进行时序差分操作，然后把原始数据、一阶差分和二阶差分组合起来(concat)作为循环神经网络GRU的输入，GRU的状态输出再经过一个Dropout操作后接入下一循环单元。解码器单元类似于编码器单元，区别在于GRU的状态输出会经过另一个Dropout操作后再通过一个全连接层使其输出预测的人体每个关键点的速度，最后将其叠加上输入的当前时间步的位置得到预测的下个时间步的人体关键点位置。编码器的时间步数与输入数据长度有关，本发明使用的是2s*25fps共计50个时间步，解码器的时间步数与期望预测的时间长度有关，本发明使用的是1s*25fps共计25个时间步。值得说明的是，这里使用的Dropout操作区别于常规的Dropout，其被称作蒙特卡洛Dropout，本发明利用了贝叶斯神经网络技术将其改造为权重服从某一分布的神经网络。工程上来说，贝叶斯神经网络技术在原有网络中的每个加入的“Dropout”层在测试阶段保持，这在数学上来说使得网络参数服从了伯努利分布。同时，对于循环神经网络来说，这一“Dropout”层的丢弃方式应在每个时间步保持相同，工程上的实现通常是在不同时间步使用了相同的遮罩/掩码来进行丢弃(Dropout)操作。

本发明提出了一种可持续学习的概率人类运动预测方法。(1)本发明具有不确定性感知能力，可以帮助机器人更加安全地做出决定，同时，这使得深度神经网络模型使用随机初始化参数安全地部署到在线场景中。本发明相比之前的方法使得人机交互更加安全。(2)本发明具有持续的学习能力。这使得模型几乎不会忘记已有的知识，甚至能在以前的任务中表现得更好，这对于之前的人体运动预测方法来说是很难做到的。目前深度学习方法面临的一大问题就是数据收集标注的成本，本发明能够自动的收集样本并学习，可以实现零数据成本。此外，与训练成本随着数据量的增加而增加的联合训练相比，本发明以固定的训练成本处理无限长的人类运动数据流。总结如下：(1)本发明提出了一种持续学习的方法来进行概率性的人类运动预测。所提出的方法不仅对观察到的运动序列进行了相应的不确定性预测，而且还具有不断适应新的人类运动模式的能力。(2)本发明通过在已有数据集Human3.6m和真实环境中在持续学习设置下进行了实验，结果表明我们的方法比其他基线方法表现得更好：更高的预测精度和更小的知识遗忘，真实环境中本发明能够从零开始学习人类运动学模型，这种交互方式有效而又安全。

附图说明

图1是本发明的不确定性可感知的概率人体运动预测神经网络；

图2是本发明的持续学习算法架构；

图3是本发明与相关方法完成持续学习之后的预测误差与遗忘情况对比，其中均值项是1秒内的平均预测误差，BWT是衡量持续学习设置下的遗忘情况，数值越大表示遗忘越大；

图4是本发明与相关方法在持续学习过程中的预测误差、负对数似然的变化对比，括号中的数字表示本发明的附加缓存用量。

具体实施方式

下面是具体实施方式即对本发明进行详细说明。

本发明是一种可持续学习的人体运动预测方法，由两部分组成：人体运动预测模型和持续学习算法。

图1是本发明人体运动预测模型，由一个贝叶斯序列-序列神经网络构成。设在过去一段时间内，机器人以固定时间间隔捕捉人体姿态。设在该段时间内，机器人一共捕捉了T_p次人体姿态，则捕获到的T_p个人体姿态总体表示过去一段时间内的人体运动序列，记为x-T_p：₀。假设某次采集到人体过去运动序列为x_i，-T_p：0,则模型输入这段过去的人体运动序列，预测未来人体运动序列，记为x₁：T_f(即T_f个未来人体运动姿态)。

贝叶斯序列-序列神经网络主要由一个编码器和一个解码器，辅以Dropout层组成。编码器和解码器均以门控循环单元(GRU)为核心。当观测序列x_i，-T_p：0输入贝叶斯序列-序列神经网络后，编码器接收上一个状态的隐变量(左侧箭头)和x_i，-T_p：0中一个姿态x_i，t，并输出下一个状态的隐变量。重复T_p次后，编码器完成了对输入运动序列的编码，输出输入序列的隐变量以供解码器解码。解码器首先接受来自编码器的隐变量(中间箭头)和观测到的最后一个人体姿态x₀，输出下一个状态的隐变量(图中右侧箭头)和预测下一帧人体运动姿态的分布

下一次迭代时，解码器输入上一次迭代得到的隐变量和预测的人体运动姿态的分布

(图中右侧箭头)，得到新的预测的人体运动姿态的分布

重复进行T_f次解码后，就得到了预测的人体运动序列的分布

由于贝叶斯神经网络每次进行预测时独立的从参数的分布中采样得到权重，因此重复J次采样，就到了模型J次预测的方差，即认知不确定性(Epistemic Uncertainty)，记为

此外，编码器和解码器对输入的人体姿态序列进行差分(DIFF)，以得到人体姿态的位置、速度和加速度。解码器的GRU的输出部分首先经过线性(Linear)层变换之后，与输入的人体姿态的位置速度和加速度进行残差连接之后得到预测的人体姿态的分布。

图2是本发明的持续学习算法框架，用于使得先前说明的贝叶斯序列-序列神经网络具有持续学习的能力。算法维持一个缓存

(左上方块)。设机器人从流式的数据(下方线块)中获取到一段人体运动序列数据X^s。在策略采样阶段(Sampling Weight)，X^s和缓存

中所有观测到的人体运动数据首先经过权重分配算法(SaWe)，得到采样权重(左下方块)。其中SaWe算法是通过计算模型对样本的认知不确定性后的归一化数据作为该样本的采样权重。而后在更新贝叶斯序列-序列神经网络参数时，将按照权重对数据进行加权采样，得到训练样本(右侧)。

在贝叶斯序列-序列神经网络参数更新阶段(Update Parameter)，算法首先保存更新前的网络模型参数，记为θ′。更新后的网络参数记为θ。则在更新阶段，模型利用θ′和θ计算得到蒸馏损失

利用θ计算得到预测损失

蒸馏损失衡量了模型在学习X^s时遗忘的先前学习得到的知识，而预测损失衡量了模型在学习X^s时的掌握程度。结合蒸馏损失和预测损失得到最终的损失函数。通过优化最终的损失函数，使得模型在学习X^s时尽量减轻对先前学习得到的知识的遗忘。

在完成对X^s的学习之后，为了避免接下来的学习导致模型遗忘了本次学习学习到的知识，算法需要进行第三个阶段，即缓存管理阶段(Buffer Management)。在缓存管理阶段，算法随机的从X^s。抽取一定数量数据，而后随机替换原有缓存

中的样本。

在经过上述三个阶段之后，持续学习算法完成了一次运行。贝叶斯序列-序列神经网络不仅能够对先前学习过的人体运动模式进行预测，还能够对新学习的人体运动模式进行预测。

图3是本发明与相关方法完成持续学习之后的预测误差与遗忘情况对比，其中均值项是1秒内的平均预测误差，BWT是衡量持续学习设置下的遗忘情况，数值越大表示遗忘越大。图3旨在说明相比较其他相关持续学习方法，本发明的方法在人体运动预测任务中具有最高的预测精度，同时具有最小的遗忘指标。如图3所示，其报告了本发明与相关方法在1000ms内的预测误差及其平均值，然后是学习15个任务后的遗忘情况指标BWT。"拒绝率"是被不确定性检测器拒绝的预测的百分比。与其他方法(iCaRL、A-GEM和GPM)相比，本发明没有不确定性检测器的方法报告了最小的预测误差(0.061)。更重要的是，本发明的方法在所有持续学习算法中实现了最小的BWT指标(-0.006)。负的BWT表明后续任务的学习有助于以前的任务。在不确定性检测器拒绝了5％(表中为7.02％)的预测后，本发明使用不确定性检测器后报告了更好的预测准确性。所有的持续学习算法和联合训练之间都存在差距，正是由于在实际应用中无法同时获取到所有数据才无法进行联合学习，因此联合训练被认为是持续学习设置的上限。然而，本发明的方法具有最小的性能差距(0.057对比0.061)。总之，相比较其他相关持续学习方法，本发明的方法在人体运动预测任务中具有最高的预测精度，同时具有最小的遗忘指标。

图4是本发明与相关方法在持续学习过程中的预测误差、负对数似然的变化对比，括号中的数字表示本发明的缓存大小。本发明的展现出了对缓存大小的鲁棒性。图4说明了本发明的在整个持续学习过程中相较其他方法都具有最低的预测误差，最高的不确定性预测精度。

Claims

1.一种可持续学习的人体运动预测方法，其特征在于，包含缓存管理阶段、策略采样阶段和参数更新阶段；根据模型认知不确定性计算样本，包含缓存中的数据与在线收集的采样权重；模型使用知识蒸馏技术进行持续学习的参数更新；更新缓存以维护人体运动模式的数据分布；保存人机交互中的人体运动数据。

2.根据权利要求1所述的一种可持续学习的人体运动预测方法，其特征在于，缓存管理阶段包括：

保存交互收集到的人体运动数据流，每隔一段时间，采用10分钟，以25fps计，预计最多有15K个时间步的数据，以时间步75为窗口滑动，其中输入时间步为50，对应的真实未来时间步为25，即可得到数个样本数据；将这期间收集到的数据发给策略采样器。

3.根据权利要求2所述的一种可持续学习的人体运动预测方法，其特征在于，策略权重采样器分别计算当前神经网络模型对一个内部维护的数据库和新收集数据的响应，其利用响应的认知不确定性

反映了模型对该样本的熟悉程度确定样本的采样权重，认知不确定性也可理解为模型对同一输入给出不同预测的样本方差，采样权重具体是通过对认知不确定性进行最大最小归一化后得到的。

4.根据权利要求1所述的一种可持续学习的人体运动预测方法，其特征在于，策略采样阶段，按照采样权重采样样本来进行常规的神经网络参数更新，参数更新阶段采用了常用的梯度下降法，使用AdamW优化算法进行优化，采用知识蒸馏技术。

5.根据权利要求4所述的一种可持续学习的人体运动预测方法，其特征在于，具体来说知识蒸馏损失函数通过最小化计算当前神经网络和更新前的神经网络输出的分布距离，KL散度度量，目标函数由两部分组成：回归损失和知识蒸馏损失。

6.根据权利要求5所述的一种可持续学习的人体运动预测方法，其特征在于，回归损失和知识蒸馏损失的具体计算公式如下：

对于回归损失，其中

和

为模型预测的人体关键点高斯分布的期望和方差，x_i，t是样本对应的真实未来的人体关键点位置，

和

为更新前模型预测的人体关键点高斯分布的期望和方差，T_f是设定的预测时间长度，当样本属于缓存

时，

为1，否则为0，λ是一个超参数，用于调节两部分损失函数的权重。

7.根据权利要求1所述的一种可持续学习的人体运动预测方法，其特征在于，在参数更新阶段再从打包的数据随机选择一部分数据去随机替换内部维护的数据库中的数据，替换样本数量＝缓存大小×本次采集样本数÷总采集样本数，以上三步便完成了一次持续学习的过程，面对无限时间长度的人体运动交互数据流，只需要循环上面的三个步骤即可。

8.根据权利要求4所述的一种可持续学习的人体运动预测方法，其特征在于，概率人体运动预测模型基于序列到序列的循环神经网络框架，编码器单元首先对输入部分进行时序差分操作，然后把原始数据、一阶差分和二阶差分组合起来(concat)作为循环神经网络GRU的输入，GRU的状态输出再经过一个Dropout操作后接入下一循环单元，解码器单元类似于编码器单元，区别在于GRU的状态输出会经过另一个Dropout操作后再通过一个全连接层使其输出预测的人体每个关键点的速度，最后将其叠加上输入的当前时间步的位置得到预测的下个时间步的人体关键点位置，编码器的时间步数与输入数据长度有关，2s*25fps共计50个时间步，解码器的时间步数与期望预测的时间长度有关，使用的是1s*25fps共计25个时间步。