CN115543096B - 基于神经网络的动捕数据处理方法、装置及系统 - Google Patents

基于神经网络的动捕数据处理方法、装置及系统 Download PDF

Info

Publication number
CN115543096B
CN115543096B CN202211534290.9A CN202211534290A CN115543096B CN 115543096 B CN115543096 B CN 115543096B CN 202211534290 A CN202211534290 A CN 202211534290A CN 115543096 B CN115543096 B CN 115543096B
Authority
CN
China
Prior art keywords
capture data
learning
learning rate
long
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211534290.9A
Other languages
English (en)
Other versions
CN115543096A (zh
Inventor
纪智辉
王新国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shiyou Beijing Technology Co ltd
Original Assignee
4u Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4u Beijing Technology Co ltd filed Critical 4u Beijing Technology Co ltd
Priority to CN202211534290.9A priority Critical patent/CN115543096B/zh
Publication of CN115543096A publication Critical patent/CN115543096A/zh
Application granted granted Critical
Publication of CN115543096B publication Critical patent/CN115543096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/10Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration
    • G01C21/12Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning
    • G01C21/16Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning by integrating acceleration or speed, i.e. inertial navigation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于神经网络的动捕数据处理方法、装置及系统。其中,该方法包括:利用动捕装置上的惯性传感器获取动捕数据;利用卷积神经网络从所述动捕数据中提取数据特征,并对所述数据特征进行降维处理,得到降维后的特征矩阵;利用长短期记忆网络对降维后的所述特征矩阵进行序列预测,以对所述动捕数据进行误差补偿。本申请解决了由于惯性传感器采集动捕数据存在误差造成的基于动捕数据渲染的三维模型动作不逼真的技术问题。

Description

基于神经网络的动捕数据处理方法、装置及系统
技术领域
本申请涉及数据处理领域,具体而言,涉及一种基于神经网络的动捕数据处理方法、装置及系统。
背景技术
动作捕捉(Motion Capture),简称动捕,又称运动捕捉,是记录并处理人或其他物体动作的技术。基于动捕数据,可制作逼真的动画,因此,动作捕捉技术可用于电影、体育甚至医疗保健等领域。
动捕数据通常通过动捕服上的惯性传感器采集。在过去二十年里,惯性传感器技术取得了快速发展,惯性传感器变得更加轻便、可穿戴,但是惯性传感器的偏置和噪声会导致严重的误差,造成采集的动捕数据的精度不高,进而导致后续基于动捕数据渲染的三维模型不逼真。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于神经网络的动捕数据处理方法、装置及系统,以至少解决由于惯性传感器采集动捕数据存在误差造成的基于动捕数据渲染的三维模型动作不逼真的技术问题。
根据本申请实施例的一个方面,提供了一种基于神经网络的动捕数据处理方法,包括:利用动捕装置上的惯性传感器获取动捕数据;利用卷积神经网络从所述动捕数据中提取数据特征,并对所述数据特征进行降维处理,得到降维后的特征矩阵;利用长短期记忆网络对降维后的所述特征矩阵进行序列预测,以对所述动捕数据进行误差补偿。
根据本申请实施例的另一方面,还提供了一种基于神经网络的动捕数据处理装置,包括:获取模块,被配置为利用所述动捕装置上的惯性传感器获取动捕数据;卷积处理模块,被配置为利用卷积神经网络从所述动捕数据中提取数据特征,并对所述数据特征进行降维处理,得到降维后的特征矩阵;补偿模块,被配置为利用所述长短期记忆网络对降维后的所述特征矩阵进行序列预测,以对所述动捕数据进行误差补偿。
在本申请实施例中,利用卷积神经网络从动捕数据中提取数据特征,并对所述数据特征进行降维处理,得到降维后的特征矩阵;并利用长短期记忆网络对降维后的所述特征矩阵进行序列预测,以对所述动捕数据进行误差补偿,从而解决了由于惯性传感器采集动捕数据存在误差造成的基于动捕数据渲染的三维模型动作不逼真的技术问题,进而具有动捕数据精确、三维模型动作逼真的技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种动捕数据处理方法的流程图;
图2是根据本申请实施例的一种动捕数据处理系统的结构示意图;
图3是根据本申请实施例的一种动捕数据处理系统的连线结构示意图;
图4是根据本申请实施例的一种基于神经网络的动捕数据处理方法的流程图;
图5是根据本申请实施例的一种基于神经网络的动捕数据处理装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
 需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本申请实施例,提供了一种基于神经网络的动捕数据处理方法,如图1所示,该方法包括:
步骤S102,利用动捕装置上的惯性传感器获取动捕数据。
动捕装置例如动捕头盔、动捕服、动捕手套等采集人或其他物体的动捕数据,并经由无线路由器等,将动捕数据传送给动捕数据处理装置。
步骤S104,利用卷积神经网络从动捕数据中提取数据特征,并对数据特征进行降维处理,得到降维后的特征矩阵。
动捕装置上的惯性传感器采集动捕数据,并作为多类特征数据输入到卷积神经网络中的多个通道,对多个通道内的多类特征数据进行滑动窗口处理,之后进行二维卷积,在空间上对多类特征数据进行卷积,以从多类特征数据中提取数据特征,之后,对所提取的数据特征进行降维处理。
步骤S106,利用长短期记忆网络对降维后的特征矩阵进行序列预测,以对动捕数据进行误差补偿。
首先,计算长短期记忆网络中每个神经元的正向传播参数和反向传播参数。
接着,基于正向传播参数和反向传播参数计算长短期记忆网络中输出层的误差项。例如,针对正向传播方向,基于正向传播参数,以当前时刻为起始点,计算正向传播方向上输出层中相邻两个神经元之间的误差项;针对反向传播方向,基于反向传播参数,以当前时刻为起始点,计算反向传播方向上输出层中相邻两个神经元之间的误差项。
之后,基于所计算出的误差项,对降维后的特征矩阵进行序列预测,以对动捕数据进行误差补偿。例如,对长短期记忆网络的时间序列进行反向传播和归一化处理;利用反向传播和归一化处理后的时间序列,对长短期记忆网络中的学习率和权值进行学习;基于权值、学习率和误差项,对降维后的特征矩阵进行序列预测。本实施例中,通过对长短期记忆网络中的学习率和权值不断更新,提高了误差补偿的精度。
在一个示例中,利用反向传播和归一化处理后的时间序列,对长短期记忆网络中的学习率和权值进行学习,可以包括:基于反向传播和归一化处理后的时间序列,获取当前时刻和上一时刻;基于上一时刻与第一动量指标对应的学习率,来学习当前时刻与第一动量指标对应的学习率,其中,第一动量指标是上一时刻和当前时刻的当前梯度的指数移动平均值;基于上一时刻与第二动量指标对应的学习率,来学习当前时刻与第二动量指标对应的学习率,其中,第二动量指标是上一时刻和当前时刻的平方梯度的指数移动平均值;基于与第一动量指标对应的学习率和与第二动量指标对应的学习率,来学习长短期记忆网络中的权值。
本实施例中,利用上一时刻和当前时刻的当前梯度的指数移动平均值以及上一时刻和当前时刻的平方梯度的指数移动平均值,来更新学习率,从而使得所确定的学习率更加准确,进而提高了误差补偿的精度。
在一个示例中,基于与第一动量指标对应的学习率和与第二动量指标对应的学习率,来学习长短期记忆网络中的权值,可以包括:基于与第一动量指标对应的学习率和第一指数衰减率,来对当前梯度的指数移动平均值进行缩放;基于与第二动量指标对应的学习率和第二指数衰减率,来对平方梯度的指数移动平均值进行缩放;基与缩放后的当前梯度的指数移动平均值、平方梯度的指数移动平均值、以及上一时刻长短期记忆网络的权值,来学习当前时刻长短期记忆网络中的权值。
本实施例中,基于更新后的学习率和衰减指数指标来确定权值,从而使得所确定的权重更适合长短期记忆网络,进而提高了误差补偿的精度。
在一个示例中,在对动捕数据进行误差补偿之后,对误差补偿后的动捕数据进行快调处理,并基于快调处理后的动捕数据进行渲染,生成三维模型。其中,快调处理可以包括:从动捕数据中获取动捕装置的对象和事件;动态调整对象的位置并旋转缩放对象;以及,触发预先已制作的与对象或事件相关的动画及特效。
本实施例中,利用误差补偿后的动捕数据进行渲染生成三维模型,使得所生成的三维模型更加逼真,从而提高了用户体验。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例2
根据本申请实施例,提供了一种动捕数据处理系统,如图2和3所示,该系统包括:动捕装置22、动捕数据处理装置24、快调服务器26、渲染服务器28,其中,动捕装置22包括动捕头盔222、动捕服224和动捕手套226。当然,在其他一些示例中,动捕装置22也可以包括动捕头盔222、动捕服224和动捕手套226中的一个或多个。
动捕数据处理系统中各设备之间的安装接线图如图3所示,动捕头盔222通过USB数据线与动捕数据处理装置24连接,动捕服224和动捕手套226通过WIFI等无线网络与无线路由器21连接。在其他一些示例中,还可以是动捕头盔222、动捕服224和动捕手套226均通过WIFI等无线网络与无线路由器21连接。
无线路由器21将动捕服224和动捕手套226捕捉到的动捕数据发送给动捕数据处理装置24,动捕头盔222通过USB数据线将捕捉到的动捕数据发送给动捕数据处理装置24。动捕数据处理装置24将处理后的动捕数据再经无线路由器21发送到快调服务器26,快调服务器26对动捕数据进行快调处理,之后通过无线路由器21再发送给渲染服务器28进行实时渲染。
动捕数据处理系统中各设备之间的通信主要有网络通信和数字串行通信,相关的连接线材有六类网线、无线网络、USB数据线、增强型USB数据线、SDI线、串口线等。
动捕头盔222设置有摄像头,其拍摄速度高达60帧/秒,能够捕捉快速的唇部动作、眨眼动作,以及面部的抽动和抖动。此外,本实施例中的动捕头盔222是开放式的结构,这样,空气能够在其中流通,从而使得佩带动捕头盔222的人员能够在进行表演时更加舒适。动捕头盔222需要连接专用的数据线,如果数据线长度不够,还可以通过连接增强型USB延长线延长。
动捕服224由惯性传感器、控制盒、莱卡面料等组成。本实施例中的动捕服224共有17个传感器,能够同时追踪23个不同的身体环节的动作,追踪部位包括双脚、小腿、膝盖、腹部、双手、手肘以及肩膀等。本实施例中的动捕服224通过这样的结构,能够满足运动捕捉和动画设计的严格需求,具有使用简单、穿戴舒适、数据质量高的有益效果。
在其他的实施例中,动捕服224上还可以通过放置可追踪标记来捕捉穿戴动捕服224的人或其他物体的运动轨迹。例如,可以放置反光标记,通过红外相机等追踪装置来跟踪这些标记。
动捕手套226由惯性传感器、弹性面料、手部动作捕捉系统等组成。本实施例中,动捕手套226上设置有12颗高性能的九轴惯性传感器,姿态更新频率为120Hz,采集点数量为12个节点,静态精度为0.02度,动态精度为0.2度,解算频率为约1000Hz,数据延迟为30ms。手部动作捕捉系统实时采集动捕手套226上的惯性传感器感测到的动捕数据,经分析计算后再经由无线路由器21发送给动捕数据处理装置24。
本实施例中的动捕装置22的数量并没有限制,可以为一个也可以为多个,主要视角色的数量而定。
动捕数据处理装置24将在下文详细描述,因此,此处不再赘述。
快调服务器26用于从动捕数据处理装置24处理后的动捕数据中获取动捕装置22中的对象、事件等,并在程序打包后动态调整位置、旋转缩放,还用于触发引擎里已制作好的动画、特效等。
渲染服务器28用于基于快调服务器26处理后的动捕数据实时渲染三维模型。渲染服务器28以大约每秒20到120帧的速率实时计算和显示三维模型。在实时渲染中,以可接受的最低渲染速度(通常为每秒24帧)实现尽可能高的照片级真实感。渲染服务器28除了渲染三维模型之外,还可以模拟镜头光晕、景深或运动模糊等视觉效果。
动捕数据处理系统中的动捕数据处理装置24、快调服务器26和渲染服务器28安装时,应当注意机器风道的选择,选择有利于机器散热的空间;还要注意安装方式,安装方式分为机架式和堆砌式,优选使用机架式;此外,还要避免环境电磁干扰;适宜的工作环境温度为15℃~30℃;适宜的相对空气湿度为30%~70%;最后,还需要提供良好的接地系统,避免数据出错。
实施例3
根据本申请实施例,还提供了一种基于神经网络的动捕数据处理方法。在本实施例中,利用CNN卷积神经网络和LSTM长短时记忆神经网络来处理动捕数据,补偿动捕装置例如动捕服中的惯性传感器所产生的误差,从而能够提高动捕数据的准确性,进而使得显示的三维模型更加逼真。
图4是根据本申请实施例的基于CNN卷积神经网络和LSTM长短时记忆神经网络的动捕数据处理方法,如图4所示,该方法包括以下步骤:
步骤S402,构建并训练动捕数据的误差补偿模型。
本实施例中,采用CNN卷积神经网络与LSTM长短时记忆神经网络组合的方式来构建动捕数据的误差补偿模型。例如,在前端添加CNN神经网络层、然后在其输出上添加LSTM神经网络层。利用CNN神经网络的卷积层和池化层从动捕数据中提取数据特征,并得到特征矩阵,之后,将特征矩阵输入到LSTM神经网络中,利用LSTM神经网络来进行序列预测,以补偿动捕数据的误差。
下面将详细描述误差补偿模型的构建及训练过程。
1)搭建CNN卷积神经网络。
CNN卷积神经网络的输入层用于接收例如动捕服或动捕手套的惯性传感器采集的动捕数据。惯性传感器采集的动捕数据需要经过去均值、归一化等预处理,再输入到输入层。预处理可以减少训练时长、加快网络的收敛速度。
 CNN卷积神经网络的卷积层是构建卷积神经网络的核心。本实施例中,卷积核的个数为64个,每个卷积核的大小为4×4,池化层为2×2。卷积层在空间上对动捕头盔的惯性传感器感测到的动捕数据分别进行卷积,最终得到表示数据特征的特征矩阵。卷积层的主要作用是从惯性传感器采集的动捕数据中提取特征,利用神经网络进行更深入的分析,从而得到抽象程度更高的数据特征。
池化层位于连续的卷积层之间,通过池化层可以进一步减少参数的节点和压缩数据,降低过拟合的程度,但是不会改变原有的特征。池化层的下采样降维处理是在空间范围内进行维度约减,从而使误差补偿模型可以抽取更加广范围的特征,同时减小下一层的输入大小,进而减少计算量和参数个数。
除此之外,池化层还能够保持平移不变性、旋转不变性和尺度不变性,并且在一定程度上防止过拟合,从而更方便优化。池化层对卷积后的数据特征进行最大池化,并进一步将卷积层输出的数据特征的维度进行变换,之后将最大池化后的数据输入到LSTM神经网络。
2)搭建LSTM神经网络。
LSTM神经网络是循环神经网络RNN的一种延伸,RNN网络可以有效的处理时间序列上的问题。RNN网络考虑先前的输出并将其存储在存储器中一段时间,之后,基于短期记忆来处理当前输入。然而,RNN无法长时间存储信息,也无法更好地控制哪一部分需要继续,哪一部分需要被遗忘。而LSTM神经网络则弥补了这些问题。
人的行为动作通常都是不能跃变的,而是连续的。例如,如果人当前的动作是行走,那么,前一动作和后一动作是行走的概率非常大。因此在基于动捕数据渲染三维模型时,单纯的依靠惯性传感器来感测动捕数据会导致生成的三维模型的动作具有一定的不连贯性。本实施例中,采用LSTM神经网络,不仅考虑到前后时序的动作,并且还长期储存记忆,从而很好地弥补了惯性传感器采集的动捕数据的误差。此外,LSTM神经网络还提供了大量参数如学习率、输入和输出偏差,将更新每个权重的复杂度降低到了最低。
LSTM神经网络的单元结构包含输入门、遗忘门和输出门,其中,起关键性作用的是遗忘门。输入门的作用是控制新的信息流的加入,输出门用来控制输出的值,并确定下一个隐藏状态,遗忘门的作用是决定要丢弃或者要保留哪些信息。
本实施例中,LSTM神经网络的存储器体系结构由具有不断学习并更新权重的自连接的线性单元组成。这允许保留流入该自循环单元的值(正向传递)或梯度(反向传递),并随后在所需的时间进行步长检索。在本实施例中,使用单位乘数,将上一个时间步长的输出或误差与下一个时间步长的输出设置为相同。这种自我循环单元,即存储单元,能够存储过去几十个时间步长的信息。例如,对于动捕数据,LSTM存储单元可以存储前一动作中包含的信息,并将该信息应用于当前动作中。
在本实施例中,对于LSTM神经网络中的存储单元,具有连续的梯度流,从而消除了梯度消失问题,并能够从数百个时间步长的序列中学习。相对于特定权重集的损失,相应地调整权重,并循环此过程,直到获得损失最小的最优权重集。当计算的梯度与学习率相乘时,学习率本身是0.1-0.001之间的一个值,其结果是一个较小的值。因此,权重的变化非常小,产生的结果与以前几乎相同,从而消除了梯度消失问题。类似地,如果梯度的值由于权重的值而非常大,则权重会更新到超出最佳值的值。这样,解决了相关技术中,梯度随着每一层而越来越小,直到小到无法影响最深层的问题。
在上一时间序列中的动捕数据和下一时间序列中的动捕数据之间不连贯即存在误差时,希望丢弃存储单元中的信息,并用更新后的相关信息来替换这些存储单元中的信息。本实施例中,利用,LSTM神经网络的遗忘门删除了存储单元中的信息。例如,遗忘门通过将存储单元的值乘以0和1之间的数字来删除或保留相关内容。这样,不会将存在误差的信息发布到LSTM神经网络中,从而避免了可能的混淆。
此外,在本实施例中,LSTM神经网络采用双向输入的方式,即一个在常规训练数据上,另一个在反向训练数据上。这样,可以通过允许未来数据为时间序列中的过去数据提供上下文来改善LSTM神经网络性能。当然,在其他的实施例中,也可以采用单向训练数据的方式。
3)训练CNN卷积神经网络和LSTM神经网络。
在训练CNN卷积神经网络和LSTM神经网络过程中,主要目标是在向CNN卷积神经网络和LSTM神经网络中输入训练数据之后最小化在CNN卷积神经网络和LSTM神经网络中观察到的损失。
首先,将训练数据拆分为可由CNN神经网络处理的子序列。例如,可以将单变量时间序列数据拆分为输入/输出样本,将四个步长作为一个输入,一个步长作为输出。然后,每个样本可以被分成两个子样本,每个样本有两个时间步长。CNN可以对两个时间步长的每个子序列进行提取特征的处理,并将子序列的时间序列提供给LSTM神经网络作为输入进行处理。
接着,计算LSTM神经网络中每个神经元的参数。计算LSTM神经网络中每个神经元的正向传播参数和和反向传播参数,并计算LSTM神经网络中输出层的误差项。针对正向传播方向,基于正向传播参数,以当前时刻为起始点,计算正向传播方向上输出层中相邻两个神经元之间的误差项;针对反向传播方向,基于反向传播参数,以当前时刻为起始点,计算反向传播方向上输出层中相邻两个神经元之间的误差项之后,基于所计算出的误差项计算网络超参数的更新权重。
4)优化误差补偿模型。
在训练完误差补偿模型之后,还需要对误差补偿模型进行优化。
相关技术中,随机梯度下降保持一个单一的学习率,用于所有的权重更新,并且在训练过程中学习率不会改变。每一个网络权重都保持一个学习率,并随着学习的展开而单独地进行调整。
本实施例中,从随机梯度的第一次或第二次的预算来计算不同参数的自适应学习率。也就是说,本实施例中,学习率是一个自适应变化的参数,而不是恒定不变的。例如,根据最近的权重梯度的平均值来调整学习率。具体地说,本实施例计算了当前梯度的指数移动平均值、平方梯度的指数移动平均值、以及指数衰减率,并基于这些数据来自适应调整学习率。
本实施例中,指数移动平均值的初始值接近1,这使得估计的偏差为0。这种偏差是通过第一次计算偏差估计然后再计算比可用偏差校正估计来克服的。这样,使得误差补偿模型在线性和非平稳问题上表现较好。
具体地,本实施例通过引入梯度的两个动量指标,利用以往梯度的平均搜索轨迹来优化误差补偿模型。其中,第一个动量指标是过去和当前梯度的指数移动平均值,表示由过去和当前梯度确定的最有希望的搜索方向,其以学习率α1调整其向搜索方向移动的强度,学习率α1用于缩放第一个动量指标。第二个动量指标是平方梯度的指数移动平均值,其以学习率α2调整其向搜索方向移动的强度,学习率α2用于缩放第二个动量指标。第一次估计的指数衰减率ϐ1用于控制当前梯度的指数移动平均值的衰减率,第二次估计的指数衰次减率ϐ2用于控制平方梯度的指数移动平均值。
其中,优化算法的参数权重的更新公式如下:
其中,t表示当前时刻,α1t和α2t表示时刻t的第一学习率和第二学习率,ε是常数,mt是由梯度的一阶矩阵求解的当前梯度的指数移动平均值,vt是平方梯度的指数移动平均值,其中,α1t和α2t可以由下式得到:
其中,gt为一阶导数。
本实施例中,为了减少CNN卷积神经网络和LSTM神经网络的误差,避免陷入局部最优解,对时间序列进行反向传播和归一化处理,然后对LSTM神经网络的各层权值和学习率进行学习,以得到训练后的误差补偿模型,从而可以基于准确的误差补偿模型对惯性传感器的误差进行补偿。并且,通过优化误差补偿模型,将误差收敛于0.005,从而提高了动捕数据的准确度,使得基于动捕数据渲染出的三维模型更加逼真。
实施例4
根据本申请实施例,还提供了一种基于神经网络的动捕数据处理装置,如图5所示,该装置包括:获取模块52、卷积处理模块54和补偿模块56。
获取模块52被配置为利用所述动捕装置上的惯性传感器获取动捕数据。
卷积处理模块54被配置为利用卷积神经网络从所述动捕数据中提取数据特征,并对所述数据特征进行降维处理,得到降维后的特征矩阵。
补偿模块56被配置为利用所述长短期记忆网络对降维后的所述特征矩阵进行序列预测,以对所述动捕数据进行误差补偿。
可选地,本实施例中的具体示例可以参考上述实施例1和3中所描述的示例,本实施例在此不再赘述。
实施例5
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以上实施例1和实施例3中的方法的程序代码。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (7)

1.一种基于神经网络的动捕数据处理方法,其特征在于,包括:
利用动捕装置上的惯性传感器获取动捕数据;
利用卷积神经网络从所述动捕数据中提取数据特征,并对所述数据特征进行降维处理,得到降维后的特征矩阵;
利用长短期记忆网络对降维后的所述特征矩阵进行序列预测,以对所述动捕数据进行误差补偿;
其中,利用长短期记忆网络对降维后的所述特征矩阵进行序列预测,以对所述动捕数据进行误差补偿,包括:计算所述长短期记忆网络中每个神经元的正向传播参数和反向传播参数;基于所述正向传播参数和所述反向传播参数计算所述长短期记忆网络中输出层的误差项;基于所述误差项,对降维后的所述特征矩阵进行序列预测,以对所述动捕数据进行误差补偿;
其中,基于所述误差项,对降维后的所述特征矩阵进行序列预测,包括:对所述长短期记忆网络的时间序列进行反向传播和归一化处理;利用反向传播和归一化处理后的所述时间序列,对所述长短期记忆网络中的学习率和权值进行学习;基于所述权值、所述学习率和所述误差项,对降维后的所述特征矩阵进行序列预测;
其中,利用反向传播和归一化处理后的所述时间序列,对所述长短期记忆网络中的学习率和权值进行学习,包括:基于反向传播和归一化处理后的所述时间序列,获取当前时刻和上一时刻;基于所述上一时刻与第一动量指标对应的学习率,来学习所述当前时刻与所述第一动量指标对应的学习率,其中,所述第一动量指标是所述上一时刻和所述当前时刻的当前梯度的指数移动平均值;基于所述上一时刻与第二动量指标对应的学习率,来学习所述当前时刻与所述第二动量指标对应的学习率,其中,所述第二动量指标是所述上一时刻和所述当前时刻的平方梯度的指数移动平均值;基于所述与第一动量指标对应的学习率和所述与第二动量指标对应的学习率,来学习所述长短期记忆网络中的权值;
其中,所述权值通过以下公式求得:
其中,t表示当前时刻,wt表示当前时刻的权值,wt-1表示上一时刻的权值,α1t和α2t表示当前时刻t的第一学习率和第二学习率,ε是常数,mt是由梯度的一阶矩阵求解的当前梯度的指数移动平均值,vt是平方梯度的指数移动平均值,第一次估计的指数衰次减率用于控制当前梯度的指数移动平均值的衰减率,第二次估计的指数衰次减率用于控制平方梯度的指数移动平均值。
2.根据权利要求1所述的方法,其特征在于,在对所述动捕数据进行误差补偿之后,所述方法还包括:
对误差补偿后的所述动捕数据进行快调处理,其中,所述快调处理包括:从所述动捕数据中获取所述动捕装置的对象和事件;动态调整所述对象的位置并旋转缩放所述对象;以及,触发预先已制作的与所述对象或所述事件相关的动画及特效;
基于快调处理后的所述动捕数据进行渲染,生成三维模型。
3.根据权利要求1所述的方法,其特征在于,基于所述正向传播参数和所述反向传播参数计算所述长短期记忆网络中输出层的误差项,包括:
针对正向传播方向,基于所述正向传播参数,以当前时刻为起始点,计算所述正向传播方向上所述输出层中相邻两个神经元之间的误差项;
针对反向传播方向,基于所述反向传播参数,以当前时刻为起始点,计算所述反向传播方向上所述输出层中相邻两个神经元之间的误差项。
4.根据权利要求1所述的方法,其特征在于,基于所述与第一动量指标对应的学习率和所述与第二动量指标对应的学习率,来学习所述长短期记忆网络中的权值,包括:
基于所述与第一动量指标对应的学习率和第一指数衰减率,来对所述当前梯度的指数移动平均值进行缩放;
基于所述与第二动量指标对应的学习率和第二指数衰减率,来对所述平方梯度的指数移动平均值进行缩放;
基与缩放后的所述当前梯度的指数移动平均值、所述平方梯度的指数移动平均值、以及上一时刻所述长短期记忆网络的权值,来学习当前时刻所述长短期记忆网络中的权值。
5.一种基于神经网络的动捕数据处理装置,其特征在于,包括:
获取模块,被配置为利用动捕装置上的惯性传感器获取动捕数据;
卷积处理模块,被配置为利用卷积神经网络从所述动捕数据中提取数据特征,并对所述数据特征进行降维处理,得到降维后的特征矩阵;
补偿模块,被配置为利用长短期记忆网络对降维后的所述特征矩阵进行序列预测,以对所述动捕数据进行误差补偿;
其中,所述补偿模块还被配置为:计算所述长短期记忆网络中每个神经元的正向传播参数和反向传播参数;基于所述正向传播参数和所述反向传播参数计算所述长短期记忆网络中输出层的误差项;基于所述误差项,对降维后的所述特征矩阵进行序列预测,以对所述动捕数据进行误差补偿;
其中,所述补偿模块还被配置为:对所述长短期记忆网络的时间序列进行反向传播和归一化处理;利用反向传播和归一化处理后的所述时间序列,对所述长短期记忆网络中的学习率和权值进行学习;基于所述权值、所述学习率和所述误差项,对降维后的所述特征矩阵进行序列预测;
其中,所述补偿模块还被配置为:基于反向传播和归一化处理后的所述时间序列,获取当前时刻和上一时刻;基于所述上一时刻与第一动量指标对应的学习率,来学习所述当前时刻与所述第一动量指标对应的学习率,其中,所述第一动量指标是所述上一时刻和所述当前时刻的当前梯度的指数移动平均值;基于所述上一时刻与第二动量指标对应的学习率,来学习所述当前时刻与所述第二动量指标对应的学习率,其中,所述第二动量指标是所述上一时刻和所述当前时刻的平方梯度的指数移动平均值;基于所述与第一动量指标对应的学习率和所述与第二动量指标对应的学习率,来学习所述长短期记忆网络中的权值;
其中,所述权值通过以下公式求得:
其中,t表示当前时刻,Wt表示当前时刻的权值,wt-1表示当前时刻的上一时刻的权值,α1t和α2t表示当前时刻t的第一学习率和第二学习率,ε是常数,mt是由梯度的一阶矩阵求解的当前梯度的指数移动平均值,vt是平方梯度的指数移动平均值,,第一次估计的指数衰次减率用于控制当前梯度的指数移动平均值的衰减率,第二次估计的指数衰次减率用于控制平方梯度的指数移动平均值。
6.一种基于神经网络的动捕数据处理系统,其特征在于,包括:
动捕装置,被配置为采集所述动捕数据;
如权利要求5所述的动捕数据处理装置,被配置为对所述动捕数据进行误差补偿处理。
7.一种计算机可读存储介质,其上存储有程序,其特征在于,在所述程序运行时,使得计算机执行如权利要求1至4中任一项所述的方法。
CN202211534290.9A 2022-12-02 2022-12-02 基于神经网络的动捕数据处理方法、装置及系统 Active CN115543096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211534290.9A CN115543096B (zh) 2022-12-02 2022-12-02 基于神经网络的动捕数据处理方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211534290.9A CN115543096B (zh) 2022-12-02 2022-12-02 基于神经网络的动捕数据处理方法、装置及系统

Publications (2)

Publication Number Publication Date
CN115543096A CN115543096A (zh) 2022-12-30
CN115543096B true CN115543096B (zh) 2023-04-07

Family

ID=84722499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211534290.9A Active CN115543096B (zh) 2022-12-02 2022-12-02 基于神经网络的动捕数据处理方法、装置及系统

Country Status (1)

Country Link
CN (1) CN115543096B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115995235B (zh) * 2023-03-23 2023-05-30 世优(北京)科技有限公司 基于语音信号分离的远程数字人交互方法、装置及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110712201B (zh) * 2019-09-20 2022-09-16 同济大学 基于感知器模型的机器人多关节自适应补偿方法和稳定器
CN111590581B (zh) * 2020-05-26 2021-10-22 珠海格力智能装备有限公司 机器人的定位补偿方法及装置
US11951384B2 (en) * 2020-11-02 2024-04-09 Take-Two Interactive Software, Inc. System and method for virtual character animation using motion capture
CN113640633B (zh) * 2021-08-12 2024-04-09 贵州大学 一种气体绝缘组合电器设备故障定位方法

Also Published As

Publication number Publication date
CN115543096A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN112614213B (zh) 人脸表情确定方法、表情参数确定模型、介质及设备
Wang et al. Hidden‐Markov‐models‐based dynamic hand gesture recognition
CN109685037B (zh) 一种实时动作识别方法、装置及电子设备
CN111091045A (zh) 一种基于时空注意力机制的手语识别方法
CN110765967A (zh) 一种基于人工智能的动作识别方法和相关装置
Pei et al. MARS: Mixed virtual and real wearable sensors for human activity recognition with multidomain deep learning model
CN115543096B (zh) 基于神经网络的动捕数据处理方法、装置及系统
CN110751039B (zh) 多视图3d人体姿态估计方法及相关装置
CN112037310A (zh) 基于神经网络的游戏人物动作识别生成方法
CN110059587A (zh) 基于时空注意力的人体行为识别方法
Li et al. Learning to update for object tracking with recurrent meta-learner
CN111881776B (zh) 动态表情获取方法、装置、存储介质和电子设备
US20220207831A1 (en) Simulated control for 3- dimensional human poses in virtual reality environments
CN112509144B (zh) 人脸图像处理方法、装置、电子设备及存储介质
CN110633004A (zh) 基于人体姿态估计的交互方法、装置和系统
CN112149602A (zh) 动作计数方法、装置、电子设备及存储介质
CN114581502A (zh) 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质
Palconit et al. Three-dimensional stereo vision tracking of multiple free-swimming fish for low frame rate video
CN110807380B (zh) 一种人体关键点检测方法及装置
Ansar et al. Robust hand gesture tracking and recognition for healthcare via Recurent neural network
Wang et al. Automatic badminton action recognition using cnn with adaptive feature extraction on sensor data
CN115223201A (zh) 基于单目序列图像的三维人体关节点估算方法、系统及装置
CN110659641B (zh) 一种文字识别的方法、装置及电子设备
CN115546491B (zh) 一种跌倒报警方法、系统、电子设备及存储介质
CN114663982B (zh) 一种基于多特征融合的人手轨迹预测与意图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Building 60, 1st Floor, No.7 Jiuxianqiao North Road, Chaoyang District, Beijing 021

Patentee after: Shiyou (Beijing) Technology Co.,Ltd.

Country or region after: China

Address before: 4017, 4th Floor, Building 2, No.17 Ritan North Road, Chaoyang District, Beijing

Patentee before: 4U (BEIJING) TECHNOLOGY CO.,LTD.

Country or region before: China