CN109345614B

CN109345614B - 基于深度强化学习的ar增强现实大屏互动的动画仿真方法

Info

Publication number: CN109345614B
Application number: CN201811098584.5A
Authority: CN
Inventors: 范一诺; 翟临博; 范应元
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2023-04-07
Anticipated expiration: 2038-09-20
Also published as: CN109345614A

Abstract

本发明公开了一种基于深度强化学习的AR增强现实大屏互动的动画仿真方法,采集专业人士的动作数据，并将数据进行分割，作为参考动作集；先构建两个caffe卷积神经网络框架，将动画角色的状态、动作、目标作为第一个网络输入，将活动范围较广的下肢的状态、动作、目标和第一个网络的动作作为第二个网格的输入，用于与第一个网络互相辅助，加快学习速率；通过PD控制器驱动动画角色，直接嵌入AR增强现实系统中，或与AR增强现实系统中原有的动画角色进行结合；本发明构建虚拟动画角色，通过反馈给角色的奖励和惩罚信息，使其知道自身行为是否正确，通过长时间的学习，最终角色将具有自主决策的能力。

Description

基于深度强化学习的AR增强现实大屏互动的动画仿真方法

技术领域

本发明涉及一种动画仿真方法，尤其涉及一种AR增强现实大屏互动的动画仿真方法。

背景技术

AR大屏互动作为一种宣传利器，在展会、发布会、商场等人流量较大的场所有着不可替代的优势。在技术层面，AR大屏互动在图像识别、人脸识别、态识别、手势识别各项技术上都有涉猎。在互动方式上，延伸出来的AR互动游戏、AR互动拍照等等这一系列的互动形式都有不错的表现。

目前，计算机动画人物的动作制作方法主要为人工绘制关键帧和将动作捕捉数据用于动画角色中。人工绘制关键帧的方法需要逐帧设计，十分耗时耗力，制作困难，且角色的动作存在简单或不真实的缺点。

基于物理的对自然动作的模拟数十年来已经成为广泛研究的主题，对动作质量的关注通常受电影、视觉效果和游戏应用的推动。这些年来，关于基于物理的人物动画的大量工作开发出控制器，可生成适用于大量任务和人物的鲁棒性自然动作。这些方法通常利用人类洞察纳入特定任务的控制结构，从而为智能体可执行的运动提供强大的归纳偏置。但是由于这些设计决策，控制器通常特定于某种智能体或任务，且多数为单动作训练，多动作连贯训练尚未应用于实践。

发明内容

本发明所要解决的技术问题是提供一种进行精确动作模仿的基于深度强化学习的AR增强现实大屏互动的动画仿真方法。

为解决上述技术问题，本发明的技术方案是：基于深度强化学习的AR增强现实大屏互动的动画仿真方法,包括下述步骤：

步骤一，通过动作捕捉系统采集专业人士的动作数据，将不同设备采集的数据统一转成bvh格式，通过代码将数据进行分割、提取有用的数值并按照动作定义的关节顺序进行组合排序，作为参考动作集；

步骤二，利用深度强化学习算法，每个策略由两个神经网络互相作用来表示，先构建两个caffe卷积神经网络框架：第一个网络的第一层为512个单元组成的完全连接层，且为双线性相位变换，第二层为两组、六个256个单元的线性输出层，上面的一个是评论者子网络，用来预测每个演员的值函数；下面的是演员子网络，用来为给定的状态选择出要执行的动作；步骤一的参考动作集用于critic-actor策略进行决策的训练，得到输出的动作a_i，来驱动动画角色模仿专业人士的动作姿势；第二个网络由两层256个单元组成的完全连接层组成，通过角色区域的选定，来加快当下肢需要进行大幅度移动时的学习效率；

步骤三，通过策略中的自适应样式和初始定义动作集使动画可以根据特殊的情景来生成有别于参考动作的动作，来更好地适应新的环境；

步骤四，测试时，通过PD控制器驱动动画角色，直接嵌入AR增强现实系统中，或与AR增强现实系统中原有的动画角色进行结合，以达到控制动画角色动作的目的；

步骤五，AR增强现实系统中的动画角色模仿出真人的标准动作，使角色更加生动逼真；同时可以使角色自主决策左右两个方向的移动，准确地进行动作模拟。

作为一种优选的技术方案，在步骤一中，所述将数据进行分割的标准为：将连续的动作分成许多5秒的单独动作片段，再对每个动作片段平均分成10份，即每份0.5秒，提取中间数据，作为一个动作的元组数据，所述参考动作集里面存储了许多专业人士的动作姿势，供动画角色学习模仿；参考动作将作为目标和奖励函数中的一个分量。

作为一种优选的技术方案，在步骤二中，所述双线性相位变换是为了保持LLC与参考运动同步，构造Φ=（Φ0，Φ1，Φ2，Φ3，Φ4）T，Φi∈（0,1）；其中，Φ0∈（0,0.2），则Φ0=1，否则为0。

作为一种优选的技术方案，在步骤二中，所述“critic-actor策略”为：在每一集的开始处，初始状态s从参考运动集或初始定义动作集均匀采样，每个事件被模拟直到固定的时间范围或直到触发终止条件；一旦已经收集了一批数据，则从数据集中采样小批量并用于更新策略和值函数；使用TD计算的目标值、状态、回报函数更新值函数，从多组值函数中以α的概率选出四组critic-actor对中回报函数最大的那一组，以1-α的概率随机选择剩余三组中的随机一组，α通过不断训练进行调整。

作为一种优选的技术方案，在步骤三中，所述“自适应样式”是动画角色根据实际场景自动调整生成的，主要解决稀有情况下的决策，而“初始定义动作集”是根据采集的选手常用简单动作数据而提前设定的；通过初始定义动作集可以使动画角色拥有更好的学习基础，自适应样式可以使动画角色拥有更好的随机应变能力和鲁棒性，学习到许多稀有场景下的应对动作。

作为一种优选的技术方案，在步骤四中，所述PD控制器将根据AR增强现实中的动画角色的复杂程度定义三个分别为24、32和40的关节力矩来控制动画的运动。

由于采用了上述技术方案，基于深度强化学习的AR增强现实大屏互动的动画仿真方法,包括下述步骤：步骤一，通过动作捕捉系统采集专业人士的动作数据，将不同设备采集的数据统一转成bvh格式，并将数据进行分割，作为参考动作集；步骤二，利用深度强化学习算法，每个策略由两个神经网络互相作用来表示，先构建两个caffe卷积神经网络框架：第一个网络的第一层为512个单元组成的完全连接层，且为双线性相位变换，第二层为两组、六个256个单元的线性输出层，上面的一个是评论者子网络，用来预测每个演员的值函数；下面的是演员子网络，用来为给定的状态选择出要执行的动作；步骤一的参考动作集用于critic-actor策略进行决策的训练，得到输出的动作a_i，来驱动动画角色模仿专业人士的动作姿势；第二个网络由两层256个单元组成的完全连接层组成，通过角色区域的选定，来加快当下肢需要进行大幅度移动时的学习效率；步骤三，通过策略中的自适应样式和初始定义动作集使动画可以根据特殊的情景来生成有别于参考动作的动作，来更好地适应新的环境；步骤四，测试时，通过PD控制器驱动动画角色，直接嵌入AR增强现实系统中，或与AR增强现实系统中原有的动画角色进行结合，以达到控制动画角色动作的目的；步骤五，AR增强现实系统中的动画角色模仿出真人的标准动作，使角色更加生动逼真；本发明构建虚拟动画角色，通过反馈给角色的奖励和惩罚信息，使其知道自身行为是否正确，通过长时间的学习，最终角色将具有自主决策的能力，以模拟乒乓球为例，面对不同的来球执行不同的、与动作捕捉系统捕捉到的人的动作几乎一致的动作和姿势来完美的接球。

附图说明

以下附图仅旨在于对本发明做示意性说明和解释，并不限定本发明的范围。其中：

图1是本发明实施例的原理图；

图2是本发明实施例模拟乒乓球的角色分布示意图。

具体实施方式

下面结合附图和实施例，进一步阐述本发明。在下面的详细描述中，只通过说明的方式描述了本发明的某些示范性实施例。毋庸置疑，本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，而不是用于限制权利要求的保护范围。

基于深度强化学习的AR增强现实大屏互动的动画仿真方法,如图1所示，包括下述步骤：

所述将数据进行分割的标准为：将连续的动作分成许多5秒的单独动作片段，再对每个动作片段平均分成10份，即每份0.5秒，提取中间数据，作为一个动作的元组数据，所述参考动作集里面存储了许多专业人士的动作姿势，供动画角色学习模仿；参考动作将作为目标和奖励函数中的一个分量。

所述双线性相位变换是为了保持LLC与参考运动同步，构造Φ=（Φ0，Φ1，Φ2，Φ3，Φ4）T，Φi∈（0,1）；其中，Φ0∈（0,0.2），则Φ0=1，否则为0。

所述“critic-actor策略”为：在每一集的开始处，初始状态s从参考运动集或初始定义动作集均匀采样，每个事件被模拟直到固定的时间范围或直到触发终止条件；一旦已经收集了一批数据，则从数据集中采样小批量并用于更新策略和值函数；使用TD计算的目标值、状态、回报函数更新值函数，从多组值函数中以α的概率选出四组critic-actor对中回报函数最大的那一组，以1-α的概率随机选择剩余三组中的随机一组，α通过不断训练进行调整。

所述“自适应样式”是动画角色根据实际场景自动调整生成的，主要解决稀有情况下的决策，而“初始定义动作集”是根据采集的选手常用简单动作数据而提前设定的；通过初始定义动作集可以使动画角色拥有更好的学习基础，自适应样式可以使动画角色拥有更好的随机应变能力和鲁棒性，学习到许多稀有场景下的应对动作。

所述PD控制器将根据AR增强现实中的动画角色的复杂程度定义三个分别为24、32和40的关节力矩来控制动画的运动。所述PD控制器采用本领域中已经非常成熟的现有技术，这里不再赘述。

本发明的目的是提供一种基于深度强化学习的AR增强现实大屏互动的动画仿真方法。下面以模拟打乒乓球为例进行说明。

一种基于深度强化学习的AR增强现实乒乓球大屏互动的动画仿真方法，如图1和图2所示，具体包括如下步骤：

步骤一，通过动作捕捉系统采集专业人士的动作数据，将不同设备采集的数据统一转成bvh格式，通过代码将数据进行分割、提取有用的数值并按照动作定义的关节顺序进行组合排序，作为参考动作集；将连续的动作分成许多5秒的单独的动作片段，再对每个动作片段平均分成10份，即每份0.5秒，提取中间数据，作为一个动作的元组数据，存储为txt格式。“参考动作集”里面存储了许多乒乓球选手打球时的动作姿势，供动画角色参考模仿。

步骤二，利用深度强化学习算法，即基于全增量式自然梯度的critic-actor算法，先构建两个caffe卷积神经网络框架：第一个网络的第一层为512个单元组成的完全连接层，第二层为两组、六个256个单元的线性输出层，上面的一个是评论者子网络，用来预测每个演员的值函数，子网络共有4个输出；下面的4个是演员子网络，用来为给定的状态选择出要执行的动作，每个子网络对应一个输出。Relu激活用于所有隐藏单元，第一个网络将动画角色状态s、上一动作a_i-1、参考动作即目标g作为输入，步骤一的参考动作集作为目标和回报函数的一部分，用于critic-actor策略进行决策的训练，得到输出的动作a_i，来驱动动画角色模仿专业人士的动作姿势；第二个网络较第一个简单许多，所以选用简单的由两层由256个神经单元组成的完全连接层的网络，用来单独处理动画角色的移动位置，将状态s’：动画角色的位置、来球的起点和方向，动作a’_i-1：动画上一步移动的方向，目标g’：网络一输出的动作a_i中的位置，作为输入，通过网络的不断正向反向更新，结合第一个网络，训练出策略，输出来球的位置及动画角色的移动位置。

将动画角色状态、回报、目标数据进行双线性相位变化，即构造Φ=（Φ0，Φ1，Φ2，Φ3，Φ4）T，Φi∈（0,1）例如，如果Φ0∈（0,0.2），则Φ0=1，否则为0后，再进行异常值去除和部分元组剔除，即剔除出现频率少且对结果几乎没有影响的元组来减少数据量。处理完后作为卷积神经网络的输入，其中状态由来球的位置、方向、速度、旋度，角色的位置、各关节点的速度、角度组成；动作由当前方位（只在水平方向分为4类，如图2所示）、各关节点角度、速度组成；参考动作作为目标引导着角色学习，也作为回报函数奖励的一部分。回报函数r==wc*rc+ww*rw+wt*rt+c，rc是实际动作和参考动作即目标的差值，rw是关节的角速度的差值，rt是实际帧速度和0.5秒的参考动作帧的差值。其中wc=-0,75， ww=-0.15，wt=-0.1，c=1。在每一集的开始处，初始状态s从参考运动集或初始定义动作集均匀采样，每个事件被模拟直到固定的时间范围或直到触发终止条件。一旦已经收集了一批数据，则从数据集中采样小批量并用于更新策略和值函数。使用TD计算的目标值、状态、回报函数更新值函数，从多组值函数中以α的概率选出四组critic-actor对中回报函数最大的那一组，以1-α的概率随机选择剩余三组中的随机一组，α通过不断训练进行调整。步骤一的参考动作集用于critic-actor策略进行动作的学习模仿，得到与参考动作更相似的动作，来驱动动画角色模仿乒乓球专业人士的动作姿势，并对来球做出快速明智的分析和动画角色的动作决策。

步骤三，通过策略中的自适应样式，可以使动画可以根据特殊的情景，通过对奖励功能进行简单修改来进行风格化来生成有别于参考动作的动作，使动画角色拥有更好的随机应变能力，学习到许多稀有场景下的应对动作。而初始定义动作集是根据采集的乒乓球选手常用简单动作数据而提前设定的。通过初始定义动作集可以使动画角色拥有更好的学习基础，更容易的学会参考动作，同时降低了学习量和数据存储空间，提高了学习效率和速度。

步骤四，测试时，通过PD控制器驱动动画角色，直接嵌入AR增强现实系统中，或与AR增强现实系统中原有的动画角色进行结合，以达到控制动画角色动作的目的。该方法将根据AR增强现实中的动画角色的复杂程度定义三个分别为24、32和40的关节力矩来控制动画的运动。同时，该方法的有十分强健的鲁棒性，可以通过24、32、40的关节力矩进行简单的学习差值，以适应于其他类似的模型。

通过以上步骤，AR增强现实系统中的动画角色便可模仿出真人的标准动作，使角色更加生动逼真，起到良好的陪练和专业指导作用。

该方法利用深度强化学习算法，基于改进的双网络协同训练的神经网络的全增量式自然梯度的critic-actor算法，通过采集乒乓球专业人士的打球动作姿势和训练卷积神经网络，来使AR增强现实屏幕中的动画角色的击球动作和身体姿势变的更加真实、还原乒乓球专业人士的动作，以使体验者在体验的同时潜移默化或有针对性的学习、模仿更规范、标准的动作、姿势。体验者还可以通过实战、观察学习到许多乒乓球等球类运动的知识技巧，比如用什么姿势接发旋球、削球等等。

深度强化学习结合了深度神经网络和强化学习的优势，可以用于解决智能体在复杂高维状态空间中的感知决策问题，在游戏、机器人、推荐系统等领域，深度强化学习已经取得了突破性进展。本发明构建虚拟动画角色，通过反馈给角色的奖励和惩罚信息，使其知道自身行为是否正确，通过长时间的学习，最终角色将具有自主决策的能力，以模拟乒乓球为例，面对不同的来球执行不同的、与动作捕捉系统捕捉到的人的动作几乎一致的动作和姿势来完美的接球。

该AR增强现实系统可配有打分系统，通过对姿势、速度等打分来反映打的球的质量。该系统可设有难易级别，使不同水平段的用户都能得到良好的用户体验。该系统可在娱乐的同时还起到了标准陪练、专业指导的作用。

本发明是一种基于深度强化学习的AR增强现实大屏互动的动画仿真方法，以乒乓球大屏互动为例进行说明，具有以下几个优点：

（1）本发明提供的方法可以使动画角色具有自主决策能力，通过大量的数据、学习，实现根据不同的来球情况选择执行不同的动作姿势，并且动画角色的动作姿势可以与专业乒乓球人士的动作相媲美，十分逼真。

（2）本发明提供的方法可以使动画角色连贯地执行、切换不同的动作，由于打球的动作具有极大的相似度，所以多个技能之间的整合效果十分好。

（3）本发明的卷积神经网络的鲁棒性强，可以良好的迁移到其他类似的模型上。

（4）本发明用于AR增强现实中，可以在娱乐的同时起到了标准陪练、专业动作指导的作用；设有难易级别，使不同水平段的用户都能得到良好的用户体验；体验者还可以通过实战、观察学习到许多乒乓球等球类运动的知识技巧，比如用什么姿势接发旋球、削球等等，有良好的教育推广意义。

以上显示和描述了本发明的基本原理、主要特征及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于深度强化学习的AR增强现实大屏互动的动画仿真方法,其特征在于，包括下述步骤：

2.如权利要求1所述的基于深度强化学习的AR增强现实大屏互动的动画仿真方法，其特征在于，在步骤一中，所述将数据进行分割的标准为：将连续的动作分成许多5秒的单独动作片段，再对每个动作片段平均分成10份，即每份0.5秒，提取中间数据，作为一个动作的元组数据，所述参考动作集里面存储了许多专业人士的动作姿势，供动画角色学习模仿；参考动作将作为目标和奖励函数中的一个分量。

3.如权利要求1所述的基于深度强化学习的AR增强现实大屏互动的动画仿真方法，其特征在于，在步骤二中，所述双线性相位变换是为了保持LLC与参考运动同步，构造Φ=（Φ0，Φ1，Φ2，Φ3，Φ4）T，Φi∈（0,1）；其中，Φ0∈（0,0.2），则Φ0=1，否则为0。

4.如权利要求1所述的基于深度强化学习的AR增强现实大屏互动的动画仿真方法，其特征在于，在步骤二中，所述“critic-actor策略”为：在每一集的开始处，初始状态s从参考运动集或初始定义动作集均匀采样，每个事件被模拟直到固定的时间范围或直到触发终止条件；一旦已经收集了一批数据，则从数据集中采样小批量并用于更新策略和值函数；使用TD计算的目标值、状态、回报函数更新值函数，从多组值函数中以α的概率选出四组critic-actor对中回报函数最大的那一组，以1-α的概率随机选择剩余三组中的随机一组，α通过不断训练进行调整。

5.如权利要求1所述的基于深度强化学习的AR增强现实大屏互动的动画仿真方法，其特征在于，在步骤三中，所述“自适应样式”是动画角色根据实际场景自动调整生成的，主要解决稀有情况下的决策，而“初始定义动作集”是根据采集的选手常用简单动作数据而提前设定的；通过初始定义动作集可以使动画角色拥有更好的学习基础，自适应样式可以使动画角色拥有更好的随机应变能力和鲁棒性，学习到许多稀有场景下的应对动作。

6.如权利要求1所述的基于深度强化学习的AR增强现实大屏互动的动画仿真方法，其特征在于，在步骤四中，所述PD控制器将根据AR增强现实中的动画角色的复杂程度定义三个分别为24、32和40的关节力矩来控制动画的运动。