CN109345614B - 基于深度强化学习的ar增强现实大屏互动的动画仿真方法 - Google Patents

基于深度强化学习的ar增强现实大屏互动的动画仿真方法 Download PDF

Info

Publication number
CN109345614B
CN109345614B CN201811098584.5A CN201811098584A CN109345614B CN 109345614 B CN109345614 B CN 109345614B CN 201811098584 A CN201811098584 A CN 201811098584A CN 109345614 B CN109345614 B CN 109345614B
Authority
CN
China
Prior art keywords
animation
action
role
augmented reality
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811098584.5A
Other languages
English (en)
Other versions
CN109345614A (zh
Inventor
范一诺
翟临博
范应元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201811098584.5A priority Critical patent/CN109345614B/zh
Publication of CN109345614A publication Critical patent/CN109345614A/zh
Application granted granted Critical
Publication of CN109345614B publication Critical patent/CN109345614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于深度强化学习的AR增强现实大屏互动的动画仿真方法,采集专业人士的动作数据,并将数据进行分割,作为参考动作集;先构建两个caffe卷积神经网络框架,将动画角色的状态、动作、目标作为第一个网络输入,将活动范围较广的下肢的状态、动作、目标和第一个网络的动作作为第二个网格的输入,用于与第一个网络互相辅助,加快学习速率;通过PD控制器驱动动画角色,直接嵌入AR增强现实系统中,或与AR增强现实系统中原有的动画角色进行结合;本发明构建虚拟动画角色,通过反馈给角色的奖励和惩罚信息,使其知道自身行为是否正确,通过长时间的学习,最终角色将具有自主决策的能力。

Description

基于深度强化学习的AR增强现实大屏互动的动画仿真方法
技术领域
本发明涉及一种动画仿真方法,尤其涉及一种AR增强现实大屏互动的动画仿真方法。
背景技术
AR大屏互动作为一种宣传利器,在展会、发布会、商场等人流量较大的场所有着不可替代的优势。在技术层面,AR大屏互动在图像识别、人脸识别、态识别、手势识别各项技术上都有涉猎。在互动方式上,延伸出来的AR互动游戏、AR互动拍照等等这一系列的互动形式都有不错的表现。
目前,计算机动画人物的动作制作方法主要为人工绘制关键帧和将动作捕捉数据用于动画角色中。人工绘制关键帧的方法需要逐帧设计,十分耗时耗力,制作困难,且角色的动作存在简单或不真实的缺点。
基于物理的对自然动作的模拟数十年来已经成为广泛研究的主题,对动作质量的关注通常受电影、视觉效果和游戏应用的推动。这些年来,关于基于物理的人物动画的大量工作开发出控制器,可生成适用于大量任务和人物的鲁棒性自然动作。这些方法通常利用人类洞察纳入特定任务的控制结构,从而为智能体可执行的运动提供强大的归纳偏置。但是由于这些设计决策,控制器通常特定于某种智能体或任务,且多数为单动作训练,多动作连贯训练尚未应用于实践。
发明内容
本发明所要解决的技术问题是提供一种进行精确动作模仿的基于深度强化学习的AR增强现实大屏互动的动画仿真方法。
为解决上述技术问题,本发明的技术方案是:基于深度强化学习的AR增强现实大屏互动的动画仿真方法,包括下述步骤:
步骤一,通过动作捕捉系统采集专业人士的动作数据,将不同设备采集的数据统一转成bvh格式,通过代码将数据进行分割、提取有用的数值并按照动作定义的关节顺序进行组合排序,作为参考动作集;
步骤二,利用深度强化学习算法,每个策略由两个神经网络互相作用来表示,先构建两个caffe卷积神经网络框架:第一个网络的第一层为512个单元组成的完全连接层,且为双线性相位变换,第二层为两组、六个256个单元的线性输出层,上面的一个是评论者子网络,用来预测每个演员的值函数;下面的是演员子网络,用来为给定的状态选择出要执行的动作;步骤一的参考动作集用于critic-actor策略进行决策的训练,得到输出的动作ai,来驱动动画角色模仿专业人士的动作姿势;第二个网络由两层256个单元组成的完全连接层组成,通过角色区域的选定,来加快当下肢需要进行大幅度移动时的学习效率;
步骤三,通过策略中的自适应样式和初始定义动作集使动画可以根据特殊的情景来生成有别于参考动作的动作,来更好地适应新的环境;
步骤四,测试时,通过PD控制器驱动动画角色,直接嵌入AR增强现实系统中,或与AR增强现实系统中原有的动画角色进行结合,以达到控制动画角色动作的目的;
步骤五,AR增强现实系统中的动画角色模仿出真人的标准动作,使角色更加生动逼真;同时可以使角色自主决策左右两个方向的移动,准确地进行动作模拟。
作为一种优选的技术方案,在步骤一中,所述将数据进行分割的标准为:将连续的动作分成许多5秒的单独动作片段,再对每个动作片段平均分成10份,即每份0.5秒,提取中间数据,作为一个动作的元组数据,所述参考动作集里面存储了许多专业人士的动作姿势,供动画角色学习模仿;参考动作将作为目标和奖励函数中的一个分量。
作为一种优选的技术方案,在步骤二中,所述双线性相位变换是为了保持LLC与参考运动同步,构造Φ=(Φ0,Φ1,Φ2,Φ3,Φ4)T,Φi∈(0,1);其中,Φ0∈(0,0.2),则Φ0=1,否则为0。
作为一种优选的技术方案,在步骤二中,所述“critic-actor策略”为:在每一集的开始处,初始状态s从参考运动集或初始定义动作集均匀采样,每个事件被模拟直到固定的时间范围或直到触发终止条件;一旦已经收集了一批数据,则从数据集中采样小批量并用于更新策略和值函数;使用TD计算的目标值、状态、回报函数更新值函数,从多组值函数中以α的概率选出四组critic-actor对中回报函数最大的那一组,以1-α的概率随机选择剩余三组中的随机一组,α通过不断训练进行调整。
作为一种优选的技术方案,在步骤三中,所述“自适应样式”是动画角色根据实际场景自动调整生成的,主要解决稀有情况下的决策,而“初始定义动作集”是根据采集的选手常用简单动作数据而提前设定的;通过初始定义动作集可以使动画角色拥有更好的学习基础,自适应样式可以使动画角色拥有更好的随机应变能力和鲁棒性,学习到许多稀有场景下的应对动作。
作为一种优选的技术方案,在步骤四中,所述PD控制器将根据AR增强现实中的动画角色的复杂程度定义三个分别为24、32和40的关节力矩来控制动画的运动。
由于采用了上述技术方案,基于深度强化学习的AR增强现实大屏互动的动画仿真方法,包括下述步骤:步骤一,通过动作捕捉系统采集专业人士的动作数据,将不同设备采集的数据统一转成bvh格式,并将数据进行分割,作为参考动作集;步骤二,利用深度强化学习算法,每个策略由两个神经网络互相作用来表示,先构建两个caffe卷积神经网络框架:第一个网络的第一层为512个单元组成的完全连接层,且为双线性相位变换,第二层为两组、六个256个单元的线性输出层,上面的一个是评论者子网络,用来预测每个演员的值函数;下面的是演员子网络,用来为给定的状态选择出要执行的动作;步骤一的参考动作集用于critic-actor策略进行决策的训练,得到输出的动作ai,来驱动动画角色模仿专业人士的动作姿势;第二个网络由两层256个单元组成的完全连接层组成,通过角色区域的选定,来加快当下肢需要进行大幅度移动时的学习效率;步骤三,通过策略中的自适应样式和初始定义动作集使动画可以根据特殊的情景来生成有别于参考动作的动作,来更好地适应新的环境;步骤四,测试时,通过PD控制器驱动动画角色,直接嵌入AR增强现实系统中,或与AR增强现实系统中原有的动画角色进行结合,以达到控制动画角色动作的目的;步骤五,AR增强现实系统中的动画角色模仿出真人的标准动作,使角色更加生动逼真;本发明构建虚拟动画角色,通过反馈给角色的奖励和惩罚信息,使其知道自身行为是否正确,通过长时间的学习,最终角色将具有自主决策的能力,以模拟乒乓球为例,面对不同的来球执行不同的、与动作捕捉系统捕捉到的人的动作几乎一致的动作和姿势来完美的接球。
附图说明
以下附图仅旨在于对本发明做示意性说明和解释,并不限定本发明的范围。其中:
图1是本发明实施例的原理图;
图2是本发明实施例模拟乒乓球的角色分布示意图。
具体实施方式
下面结合附图和实施例,进一步阐述本发明。在下面的详细描述中,只通过说明的方式描述了本发明的某些示范性实施例。毋庸置疑,本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。
基于深度强化学习的AR增强现实大屏互动的动画仿真方法,如图1所示,包括下述步骤:
步骤一,通过动作捕捉系统采集专业人士的动作数据,将不同设备采集的数据统一转成bvh格式,通过代码将数据进行分割、提取有用的数值并按照动作定义的关节顺序进行组合排序,作为参考动作集;
所述将数据进行分割的标准为:将连续的动作分成许多5秒的单独动作片段,再对每个动作片段平均分成10份,即每份0.5秒,提取中间数据,作为一个动作的元组数据,所述参考动作集里面存储了许多专业人士的动作姿势,供动画角色学习模仿;参考动作将作为目标和奖励函数中的一个分量。
步骤二,利用深度强化学习算法,每个策略由两个神经网络互相作用来表示,先构建两个caffe卷积神经网络框架:第一个网络的第一层为512个单元组成的完全连接层,且为双线性相位变换,第二层为两组、六个256个单元的线性输出层,上面的一个是评论者子网络,用来预测每个演员的值函数;下面的是演员子网络,用来为给定的状态选择出要执行的动作;步骤一的参考动作集用于critic-actor策略进行决策的训练,得到输出的动作ai,来驱动动画角色模仿专业人士的动作姿势;第二个网络由两层256个单元组成的完全连接层组成,通过角色区域的选定,来加快当下肢需要进行大幅度移动时的学习效率;
所述双线性相位变换是为了保持LLC与参考运动同步,构造Φ=(Φ0,Φ1,Φ2,Φ3,Φ4)T,Φi∈(0,1);其中,Φ0∈(0,0.2),则Φ0=1,否则为0。
所述“critic-actor策略”为:在每一集的开始处,初始状态s从参考运动集或初始定义动作集均匀采样,每个事件被模拟直到固定的时间范围或直到触发终止条件;一旦已经收集了一批数据,则从数据集中采样小批量并用于更新策略和值函数;使用TD计算的目标值、状态、回报函数更新值函数,从多组值函数中以α的概率选出四组critic-actor对中回报函数最大的那一组,以1-α的概率随机选择剩余三组中的随机一组,α通过不断训练进行调整。
步骤三,通过策略中的自适应样式和初始定义动作集使动画可以根据特殊的情景来生成有别于参考动作的动作,来更好地适应新的环境;
所述“自适应样式”是动画角色根据实际场景自动调整生成的,主要解决稀有情况下的决策,而“初始定义动作集”是根据采集的选手常用简单动作数据而提前设定的;通过初始定义动作集可以使动画角色拥有更好的学习基础,自适应样式可以使动画角色拥有更好的随机应变能力和鲁棒性,学习到许多稀有场景下的应对动作。
步骤四,测试时,通过PD控制器驱动动画角色,直接嵌入AR增强现实系统中,或与AR增强现实系统中原有的动画角色进行结合,以达到控制动画角色动作的目的;
所述PD控制器将根据AR增强现实中的动画角色的复杂程度定义三个分别为24、32和40的关节力矩来控制动画的运动。所述PD控制器采用本领域中已经非常成熟的现有技术,这里不再赘述。
步骤五,AR增强现实系统中的动画角色模仿出真人的标准动作,使角色更加生动逼真;同时可以使角色自主决策左右两个方向的移动,准确地进行动作模拟。
本发明的目的是提供一种基于深度强化学习的AR增强现实大屏互动的动画仿真方法。下面以模拟打乒乓球为例进行说明。
一种基于深度强化学习的AR增强现实乒乓球大屏互动的动画仿真方法,如图1和图2所示,具体包括如下步骤:
步骤一,通过动作捕捉系统采集专业人士的动作数据,将不同设备采集的数据统一转成bvh格式,通过代码将数据进行分割、提取有用的数值并按照动作定义的关节顺序进行组合排序,作为参考动作集;将连续的动作分成许多5秒的单独的动作片段,再对每个动作片段平均分成10份,即每份0.5秒,提取中间数据,作为一个动作的元组数据,存储为txt格式。“参考动作集”里面存储了许多乒乓球选手打球时的动作姿势,供动画角色参考模仿。
步骤二,利用深度强化学习算法,即基于全增量式自然梯度的critic-actor算法,先构建两个caffe卷积神经网络框架:第一个网络的第一层为512个单元组成的完全连接层,第二层为两组、六个256个单元的线性输出层,上面的一个是评论者子网络,用来预测每个演员的值函数,子网络共有4个输出;下面的4个是演员子网络,用来为给定的状态选择出要执行的动作,每个子网络对应一个输出。Relu激活用于所有隐藏单元,第一个网络将动画角色状态s、上一动作ai-1、参考动作即目标g作为输入,步骤一的参考动作集作为目标和回报函数的一部分,用于critic-actor策略进行决策的训练,得到输出的动作ai,来驱动动画角色模仿专业人士的动作姿势;第二个网络较第一个简单许多,所以选用简单的由两层由256个神经单元组成的完全连接层的网络,用来单独处理动画角色的移动位置,将状态s’:动画角色的位置、来球的起点和方向,动作a’i-1:动画上一步移动的方向,目标g’:网络一输出的动作ai中的位置,作为输入,通过网络的不断正向反向更新,结合第一个网络,训练出策略,输出来球的位置及动画角色的移动位置。
将动画角色状态、回报、目标数据进行双线性相位变化,即构造Φ=(Φ0,Φ1,Φ2,Φ3,Φ4)T,Φi∈(0,1)例如,如果Φ0∈(0,0.2),则Φ0=1,否则为0后,再进行异常值去除和部分元组剔除,即剔除出现频率少且对结果几乎没有影响的元组来减少数据量。处理完后作为卷积神经网络的输入,其中状态由来球的位置、方向、速度、旋度,角色的位置、各关节点的速度、角度组成;动作由当前方位(只在水平方向分为4类,如图2所示)、各关节点角度、速度组成;参考动作作为目标引导着角色学习,也作为回报函数奖励的一部分。回报函数r==wc*rc+ww*rw+wt*rt+c,rc是实际动作和参考动作即目标的差值,rw是关节的角速度的差值,rt是实际帧速度和0.5秒的参考动作帧的差值。其中wc=-0,75, ww=-0.15,wt=-0.1,c=1。在每一集的开始处,初始状态s从参考运动集或初始定义动作集均匀采样,每个事件被模拟直到固定的时间范围或直到触发终止条件。一旦已经收集了一批数据,则从数据集中采样小批量并用于更新策略和值函数。使用TD计算的目标值、状态、回报函数更新值函数,从多组值函数中以α的概率选出四组critic-actor对中回报函数最大的那一组,以1-α的概率随机选择剩余三组中的随机一组,α通过不断训练进行调整。步骤一的参考动作集用于critic-actor策略进行动作的学习模仿,得到与参考动作更相似的动作,来驱动动画角色模仿乒乓球专业人士的动作姿势,并对来球做出快速明智的分析和动画角色的动作决策。
步骤三,通过策略中的自适应样式,可以使动画可以根据特殊的情景,通过对奖励功能进行简单修改来进行风格化来生成有别于参考动作的动作,使动画角色拥有更好的随机应变能力,学习到许多稀有场景下的应对动作。而初始定义动作集是根据采集的乒乓球选手常用简单动作数据而提前设定的。通过初始定义动作集可以使动画角色拥有更好的学习基础,更容易的学会参考动作,同时降低了学习量和数据存储空间,提高了学习效率和速度。
步骤四,测试时,通过PD控制器驱动动画角色,直接嵌入AR增强现实系统中,或与AR增强现实系统中原有的动画角色进行结合,以达到控制动画角色动作的目的。该方法将根据AR增强现实中的动画角色的复杂程度定义三个分别为24、32和40的关节力矩来控制动画的运动。同时,该方法的有十分强健的鲁棒性,可以通过24、32、40的关节力矩进行简单的学习差值,以适应于其他类似的模型。
通过以上步骤,AR增强现实系统中的动画角色便可模仿出真人的标准动作,使角色更加生动逼真,起到良好的陪练和专业指导作用。
该方法利用深度强化学习算法,基于改进的双网络协同训练的神经网络的全增量式自然梯度的critic-actor算法,通过采集乒乓球专业人士的打球动作姿势和训练卷积神经网络,来使AR增强现实屏幕中的动画角色的击球动作和身体姿势变的更加真实、还原乒乓球专业人士的动作,以使体验者在体验的同时潜移默化或有针对性的学习、模仿更规范、标准的动作、姿势。体验者还可以通过实战、观察学习到许多乒乓球等球类运动的知识技巧,比如用什么姿势接发旋球、削球等等。
深度强化学习结合了深度神经网络和强化学习的优势,可以用于解决智能体在复杂高维状态空间中的感知决策问题,在游戏、机器人、推荐系统等领域,深度强化学习已经取得了突破性进展。本发明构建虚拟动画角色,通过反馈给角色的奖励和惩罚信息,使其知道自身行为是否正确,通过长时间的学习,最终角色将具有自主决策的能力,以模拟乒乓球为例,面对不同的来球执行不同的、与动作捕捉系统捕捉到的人的动作几乎一致的动作和姿势来完美的接球。
该AR增强现实系统可配有打分系统,通过对姿势、速度等打分来反映打的球的质量。该系统可设有难易级别,使不同水平段的用户都能得到良好的用户体验。该系统可在娱乐的同时还起到了标准陪练、专业指导的作用。
本发明是一种基于深度强化学习的AR增强现实大屏互动的动画仿真方法,以乒乓球大屏互动为例进行说明,具有以下几个优点:
(1)本发明提供的方法可以使动画角色具有自主决策能力,通过大量的数据、学习,实现根据不同的来球情况选择执行不同的动作姿势,并且动画角色的动作姿势可以与专业乒乓球人士的动作相媲美,十分逼真。
(2)本发明提供的方法可以使动画角色连贯地执行、切换不同的动作,由于打球的动作具有极大的相似度,所以多个技能之间的整合效果十分好。
(3)本发明的卷积神经网络的鲁棒性强,可以良好的迁移到其他类似的模型上。
(4)本发明用于AR增强现实中,可以在娱乐的同时起到了标准陪练、专业动作指导的作用;设有难易级别,使不同水平段的用户都能得到良好的用户体验;体验者还可以通过实战、观察学习到许多乒乓球等球类运动的知识技巧,比如用什么姿势接发旋球、削球等等,有良好的教育推广意义。
以上显示和描述了本发明的基本原理、主要特征及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.基于深度强化学习的AR增强现实大屏互动的动画仿真方法,其特征在于,包括下述步骤:
步骤一,通过动作捕捉系统采集专业人士的动作数据,将不同设备采集的数据统一转成bvh格式,通过代码将数据进行分割、提取有用的数值并按照动作定义的关节顺序进行组合排序,作为参考动作集;
步骤二,利用深度强化学习算法,每个策略由两个神经网络互相作用来表示,先构建两个caffe卷积神经网络框架:第一个网络的第一层为512个单元组成的完全连接层,且为双线性相位变换,第二层为两组、六个256个单元的线性输出层,上面的一个是评论者子网络,用来预测每个演员的值函数;下面的是演员子网络,用来为给定的状态选择出要执行的动作;步骤一的参考动作集用于critic-actor策略进行决策的训练,得到输出的动作ai,来驱动动画角色模仿专业人士的动作姿势;第二个网络由两层256个单元组成的完全连接层组成,通过角色区域的选定,来加快当下肢需要进行大幅度移动时的学习效率;
步骤三,通过策略中的自适应样式和初始定义动作集使动画可以根据特殊的情景来生成有别于参考动作的动作,来更好地适应新的环境;
步骤四,测试时,通过PD控制器驱动动画角色,直接嵌入AR增强现实系统中,或与AR增强现实系统中原有的动画角色进行结合,以达到控制动画角色动作的目的;
步骤五,AR增强现实系统中的动画角色模仿出真人的标准动作,使角色更加生动逼真;同时可以使角色自主决策左右两个方向的移动,准确地进行动作模拟。
2.如权利要求1所述的基于深度强化学习的AR增强现实大屏互动的动画仿真方法,其特征在于,在步骤一中,所述将数据进行分割的标准为:将连续的动作分成许多5秒的单独动作片段,再对每个动作片段平均分成10份,即每份0.5秒,提取中间数据,作为一个动作的元组数据,所述参考动作集里面存储了许多专业人士的动作姿势,供动画角色学习模仿;参考动作将作为目标和奖励函数中的一个分量。
3.如权利要求1所述的基于深度强化学习的AR增强现实大屏互动的动画仿真方法,其特征在于,在步骤二中,所述双线性相位变换是为了保持LLC与参考运动同步,构造Φ=(Φ0,Φ1,Φ2,Φ3,Φ4)T,Φi∈(0,1);其中,Φ0∈(0,0.2),则Φ0=1,否则为0。
4.如权利要求1所述的基于深度强化学习的AR增强现实大屏互动的动画仿真方法,其特征在于,在步骤二中,所述“critic-actor策略”为:在每一集的开始处,初始状态s从参考运动集或初始定义动作集均匀采样,每个事件被模拟直到固定的时间范围或直到触发终止条件;一旦已经收集了一批数据,则从数据集中采样小批量并用于更新策略和值函数;使用TD计算的目标值、状态、回报函数更新值函数,从多组值函数中以α的概率选出四组critic-actor对中回报函数最大的那一组,以1-α的概率随机选择剩余三组中的随机一组,α通过不断训练进行调整。
5.如权利要求1所述的基于深度强化学习的AR增强现实大屏互动的动画仿真方法,其特征在于,在步骤三中,所述“自适应样式”是动画角色根据实际场景自动调整生成的,主要解决稀有情况下的决策,而“初始定义动作集”是根据采集的选手常用简单动作数据而提前设定的;通过初始定义动作集可以使动画角色拥有更好的学习基础,自适应样式可以使动画角色拥有更好的随机应变能力和鲁棒性,学习到许多稀有场景下的应对动作。
6.如权利要求1所述的基于深度强化学习的AR增强现实大屏互动的动画仿真方法,其特征在于,在步骤四中,所述PD控制器将根据AR增强现实中的动画角色的复杂程度定义三个分别为24、32和40的关节力矩来控制动画的运动。
CN201811098584.5A 2018-09-20 2018-09-20 基于深度强化学习的ar增强现实大屏互动的动画仿真方法 Active CN109345614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811098584.5A CN109345614B (zh) 2018-09-20 2018-09-20 基于深度强化学习的ar增强现实大屏互动的动画仿真方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811098584.5A CN109345614B (zh) 2018-09-20 2018-09-20 基于深度强化学习的ar增强现实大屏互动的动画仿真方法

Publications (2)

Publication Number Publication Date
CN109345614A CN109345614A (zh) 2019-02-15
CN109345614B true CN109345614B (zh) 2023-04-07

Family

ID=65306142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811098584.5A Active CN109345614B (zh) 2018-09-20 2018-09-20 基于深度强化学习的ar增强现实大屏互动的动画仿真方法

Country Status (1)

Country Link
CN (1) CN109345614B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110420445B (zh) * 2019-07-23 2020-10-16 东南大学 一种基于增强现实的壁球训练方法及装置
CN110390108B (zh) * 2019-07-29 2023-11-21 中国工商银行股份有限公司 基于深度强化学习的任务型交互方法和系统
CN110496377B (zh) * 2019-08-19 2020-07-28 华南理工大学 一种基于强化学习的虚拟乒乓球手击球训练方法
CN110516389B (zh) * 2019-08-29 2021-04-13 腾讯科技(深圳)有限公司 行为控制策略的学习方法、装置、设备及存储介质
CN111028317B (zh) * 2019-11-14 2021-01-01 腾讯科技(深圳)有限公司 虚拟对象的动画生成方法、装置、设备及存储介质
CN111223170B (zh) * 2020-01-07 2022-06-10 腾讯科技(深圳)有限公司 动画生成方法、装置、电子设备和存储介质
CN111260762B (zh) * 2020-01-19 2023-03-28 腾讯科技(深圳)有限公司 一种动画实现方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007048143A (ja) * 2005-08-11 2007-02-22 Tokyo Institute Of Technology 3次元物体モデルの動作生成方法
EP2546806A2 (en) * 2011-07-11 2013-01-16 Deutsche Telekom AG Image based rendering for AR - enabling user generation of 3D content
GB201709199D0 (en) * 2017-06-09 2017-07-26 Delamont Dean Lindsay IR mixed reality and augmented reality gaming system
CN107615310A (zh) * 2016-03-28 2018-01-19 索尼公司 信息处理设备
CN108460829A (zh) * 2018-04-16 2018-08-28 广州智能装备研究院有限公司 一种用于ar系统的三维图像注册方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8612107B2 (en) * 2008-06-10 2013-12-17 The Regents Of The University Of Michigan Method, control apparatus and powertrain system controller for real-time, self-learning control based on individual operating style
US10120437B2 (en) * 2016-01-29 2018-11-06 Rovi Guides, Inc. Methods and systems for associating input schemes with physical world objects
US10929743B2 (en) * 2016-09-27 2021-02-23 Disney Enterprises, Inc. Learning to schedule control fragments for physics-based character simulation and robots using deep Q-learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007048143A (ja) * 2005-08-11 2007-02-22 Tokyo Institute Of Technology 3次元物体モデルの動作生成方法
EP2546806A2 (en) * 2011-07-11 2013-01-16 Deutsche Telekom AG Image based rendering for AR - enabling user generation of 3D content
CN107615310A (zh) * 2016-03-28 2018-01-19 索尼公司 信息处理设备
GB201709199D0 (en) * 2017-06-09 2017-07-26 Delamont Dean Lindsay IR mixed reality and augmented reality gaming system
CN108460829A (zh) * 2018-04-16 2018-08-28 广州智能装备研究院有限公司 一种用于ar系统的三维图像注册方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种基于动作学习的2D形状动画制作方法;李慧等;《系统仿真学报》;20130908(第09期);全文 *
基于参考模型的输出反馈强化学习控制;郝钏钏等;《浙江大学学报(工学版)》;20130315(第03期);全文 *
深度强化学习进展:从AlphaGo到AlphaGo Zero;唐振韬等;《控制理论与应用》;20171215(第12期);全文 *

Also Published As

Publication number Publication date
CN109345614A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN109345614B (zh) 基于深度强化学习的ar增强现实大屏互动的动画仿真方法
CN111260762B (zh) 一种动画实现方法、装置、电子设备和存储介质
CN102362293B (zh) 链接动画
CN112330778A (zh) 基于深度强化学习的ar增强现实大屏互动的动画仿真方法
CN102473320B (zh) 通过学习到的来自用户的输入使视觉表示生动化的方法
CN111223170B (zh) 动画生成方法、装置、电子设备和存储介质
US10885691B1 (en) Multiple character motion capture
CN102207771A (zh) 推断参与运动捕捉系统的用户意图
US11816772B2 (en) System for customizing in-game character animations by players
CN115278082B (zh) 视频拍摄方法、视频拍摄装置及电子设备
Navarro-Newball et al. Gesture based human motion and game principles to aid understanding of science and cultural practices
CN113633983A (zh) 虚拟角色表情控制的方法、装置、电子设备及介质
CN111773669B (zh) 一种在虚拟环境中生成虚拟对象方法及装置
CN109407826A (zh) 球类运动模拟方法、装置、存储介质及电子设备
CN106910233B (zh) 一种虚拟昆虫动画角色的运动仿真方法
CN114581835A (zh) 一种实现动作识别的智能视频教学方法及系统
JP6876072B2 (ja) ビデオゲーム処理プログラム、ビデオゲーム処理装置、ビデオゲーム処理方法及び学習用プログラム
CN109584376B (zh) 基于vr技术的构图教学方法、装置、设备以及存储介质
Pearson Architectures of deviation: exploring the spatial protocols of contemporary videogames
US20240221270A1 (en) Computer-implemented method for controlling a virtual avatar
Yohannes et al. Virtual reality in puppet game using depth sensor of gesture recognition and tracking
CN118021271B (zh) 一种基于虚拟现实的健身监测装置及健身监测方法
WO2024060833A1 (zh) 一种图像处理方法
Lan Simulation of Animation Character High Precision Design Model Based on 3D Image
Shang Modeling Collaborative Virtual Human Agents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant