CN111080671A - 一种基于深度神经网络的运动预测方法和智能终端 - Google Patents

一种基于深度神经网络的运动预测方法和智能终端 Download PDF

Info

Publication number
CN111080671A
CN111080671A CN201911378607.2A CN201911378607A CN111080671A CN 111080671 A CN111080671 A CN 111080671A CN 201911378607 A CN201911378607 A CN 201911378607A CN 111080671 A CN111080671 A CN 111080671A
Authority
CN
China
Prior art keywords
motion
neural network
deep neural
point cloud
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911378607.2A
Other languages
English (en)
Inventor
胡瑞珍
黄惠
闫子豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201911378607.2A priority Critical patent/CN111080671A/zh
Publication of CN111080671A publication Critical patent/CN111080671A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computer systems based on biological models
    • G06N3/02Computer systems based on biological models using neural network models
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于深度神经网络的运动预测方法和智能终端,所述方法包括:使用数据集训练深度神经网络;将三维点云输入至所述深度神经网络;所述深度神经网络输出所述三维点云的第一部分和第二部分,将所述第一部分作为运动子单元,所述第二部分作为运动单元的参考部分;根据所述三维点云的输出完成网络预测,输出运动信息,所述运动信息包括运动性分割、运动轴和运动类型。本发明实现了在非结构化并且可能是部分扫描的各种铰链式物体在静止状态下同时运动和部件的预测结果,能够十分准确地预测物体部件的运动。

Description

一种基于深度神经网络的运动预测方法和智能终端
技术领域
本发明涉及深度学习技术领域,尤其涉及一种基于深度神经网络的运动预测方法、智能终端及存储介质。
背景技术
近年来,计算机图形学以及相关领域例如计算机视觉和机器人领域已经聚焦于推断三维物体和它们部件的可能运动,因为这个问题对于理解物体直观功能性(affordances)以及功能性等问题密切相关。该问题比较难解决的是当仅仅给定一个三维物体的几个静止状态,机器是否以及如何能够学习来预测部件运动或者部件可运动性。
已有方法提出根据物体运动来获得并且重建,表示并且理解物体运动,甚至根据静止物体预测部件运动,这些工作背后的动机是更全面地理解物体的运动有助于图形学应用,例如,动画,物体位姿修正和重建,以及机器人应用,如3D场景中人机交互的建模。
在机器人领域,大量工作聚焦于功能可见性预测的问题,它们的目标是识别出物体中能进行特定交互的区域,例如,抓或者推。最近应用到深度神经网络来标记功能可见性标签的图像,或者物理模拟来得到与功能可见性密切相关的人类效用。功能可见性分析的更通用的方法是基于人体位姿假设的想法,预测拟合给定场景上下文的最佳人体位姿以辅助理解场景。基于人与物体的交互,人体位姿假设也能用于预测物体的功能类别。与功能可见性和人体位姿分析密切相关的是活动识别,其中一个例子是在输入场景中检测活动区域,这些区域支持具体类别的人类活动,例如吃饭或者看电视。尽管功能可见性检测识别能进行特定运动类型的区域,例如转动或者滑动;预测的运动仅仅用标签来描述,并且局限于和人的交互。因此,他们不能表示一个物体的一般运动。功能可见性分析的更通用的方法的焦点是以高层次来理解与特定物体交互的动作或者是在给定场景下的动作,然而这些方法不能检测或者建模与这些动作相关的具体运动或者部件运动。
在计算机视觉中,已提出基于当前物体的描述,推测未来物体的状态的方法,这些方法隐式预测图像中的物体正进行的运动以及未来的运动。通用的解决方法是利用在视频数据上训练生成对抗网络(GANs)来生成输入图像的后续帧。另一方面,将视频分解成内容和运动组件,之后根据选定的内容和运动,将分解得到的内容和运动组件创造视频的后续帧。
计算机图形学的工作也有针对三维物体进行运动推断的问题。通过从部件的几何部署预测机械部件和整个组件的可能运动来说明机械组件的运动。例如从概念草图创建图表动画。对于更一般的形状,引入了互动地形(interaction landscapes),它是物体以某种方式被使用的动作表示,例如,杯子被人用来喝水。然后,这种表示可以用于将运动分类为不同类型的交互并且还用于预测物体在其运动的几秒内支持的交互。例如使用一个称为运动树的结构,得到了场景中的物体的相对运动。结构树是根据在不同的几何配置中找到物体的不同实例推断得到的。当给定一个部件分割好的三维物体,基于从每个物体的少量静止运动状态的物体数据集学习得到的模型来预测物体部件可能进行的运动以及运动参数。这个模型有效地将物体的几何关联到它的可能运动。从两个未分割的功能性相似的实例或者运动一样但在不同的运动状态的物体来预测物体的部件进行的可能运动。虽然能够推断场景中物体的运动,但是它受限于要得到场景中出现的多个物体实例这个假设。数据驱动方法缺点是需要物体被很好地分割。有的不足是设计的网络的输入需要一对运动状态一样而旋转角度大小不同的物体作为输入。当需要在三维场景中直接获得功能性预测,例如,在机器人导航中,希望要么预分割的物体,要么旋转的物体对,这都是不现实的。
因此,现有技术还有待于改进和发展。
发明内容
本发明针对现有技术的上述缺陷,本发明提供一种基于深度神经网络的运动预测方法、智能终端及存储介质。
本发明解决技术问题所采用的技术方案如下:
一种基于深度神经网络的运动预测方法,其中,所述基于深度神经网络的运动预测方法包括:
使用数据集训练深度神经网络;
将三维点云输入至所述深度神经网络;
所述深度神经网络输出所述三维点云的第一部分和第二部分,将所述第一部分作为运动子单元,所述第二部分作为运动单元的参考部分;
根据所述三维点云的输出完成网络预测,输出运动信息,所述运动信息包括运动性分割、运动轴和运动类型。
所述的基于深度神经网络的运动预测方法,其中,在训练所述深度神经网络时,所使用的损失函数为:
其中,Dt表示位移图,S表示分割,M表示拟合运动参数,Lrec是重建误差,Ldisp是位移误差,Lseg是分割误差,Lmob是运动参数的回归误差;
重建误差表示形状的扭曲程度,位移误差表示运动部分的精确度,分割误差和回归误差则刻画了运动信息的正确程度,包括对运动与不动的划分、运动轴的位置、方向和运动类型。
所述的基于深度神经网络的运动预测方法,其中,Lrec刻画了预测的运动后点云与真实的运动后点云之间的几何误差;
将点云P0分成参照部分和运动部分,在经历过运动后后,参照部分保持静止,运动部分为刚性运动,其中,Pt-1和Pt表示两个邻接的点云帧,因此Lrec分为两部分:
是参照部分的误差,是运动部分的误差;
是每个点误差距离的平方和:
其中,pgt是点p真实的位置;
的构成为:
其中,Lshape是用来惩罚不与目标形状匹配的点,Ldensity是预测点云与目标点云局部点密度,指所述深度神经网络生成的第t帧的点云中的运动部分,指正确的第t帧的点云中的运动部分,gt是ground truth的缩写,表示正确的意思。
所述的基于深度神经网络的运动预测方法,其中,通过误差损失函数预测运动信息与目标运动信息之间的差别;所述运动类型包括旋转运动和平移运动。
所述的基于深度神经网络的运动预测方法,其中,对于旋转运动,损失函数如下:
其中,dot表示点乘,表示第t帧点云p的位移图,dgt是正确的运动轴的方向;刻画了预测的位移是否垂直于真实的运动轴,具体的计算公式为:
则是各个点旋转角的偏差,所有点旋转角度一致,具体计算公式为:
其中,σ为常数,proj(p)表示p点与将点p投影到正确运动轴上的投影点的距离,proj(p)=(p-π(p))/||p-π(p)||2
要求每个点旋转前和旋转后距离真实转轴的距离相同,约束其运动的圆周性,具体计算公式为:
所述的基于深度神经网络的运动预测方法,其中,对于平移运动,损失函数如下:
刻画了预测的位移是否平行于真实的运动轴,具体计算公式为:
则要求每个点移动的距离相同,方差为0,具体计算公式为:
所述的基于深度神经网络的运动预测方法,其中,运动信息损失函数为:
其中,d、x和t分别为运动轴方向、运动轴位置和运动类型,dgt是正确的运动轴方向,xgt是正确的运动轴位置,tgt是正确的运动类型,H是交叉熵。
所述的基于深度神经网络的运动预测方法,其中,所述三维点云的点数为1024个。
一种智能终端,其中,所述智能终端包括如上所述的基于深度神经网络的运动预测系统,还包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于深度神经网络的运动预测程序,所述基于深度神经网络的运动预测程序被所述处理器执行时实现如上所述的基于深度神经网络的运动预测方法的步骤。
一种存储介质,其中,所述存储介质存储有基于深度神经网络的运动预测程序,所述基于深度神经网络的运动预测程序被处理器执行时实现如上所述基于深度神经网络的运动预测方法的步骤。
本发明使用数据集训练深度神经网络;将三维点云输入至所述深度神经网络;所述深度神经网络输出所述三维点云的第一部分和第二部分,将所述第一部分作为运动子单元,所述第二部分作为运动单元的参考部分;根据所述三维点云的输出完成网络预测,输出运动信息,所述运动信息包括运动性分割、运动轴和运动类型。本发明实现了在非结构化并且可能是部分扫描的各种铰链式物体在静止状态下同时运动和部件的预测结果,能够十分准确地预测物体部件的运动。
附图说明
图1是本发明基于深度神经网络的运动预测方法的较佳实施例的流程图;
图2是本发明基于深度神经网络的运动预测方法的较佳实施例中深度神经网络从一个训练集学习深度预测模型,该训练集涵盖了不同物体的各种运动的示意图;
图3是本发明基于深度神经网络的运动预测方法的较佳实施例中长短期记忆网络的结构示意图;
图4是本发明基于深度神经网络的运动预测方法的较佳实施例中运动类型为旋转运动的示意图;
图5是本发明基于深度神经网络的运动预测方法的较佳实施例中运动类型为平移运动的示意图;
图6是本发明基于深度神经网络的运动预测方法的较佳实施例中在完整和部分扫描的多种形状的不同运动进行运动和部件预测结果集的示意图;
图7是本发明基于深度神经网络的运动预测方法的较佳实施例中预测课桌的并行运动的示意图;
图8是本发明基于深度神经网络的运动预测方法的较佳实施例中基准预测网络“BaseNet”架构的示意图;
图9是本发明基于深度神经网络的运动预测方法的较佳实施例中MAPP-NET与BaseNet之间的可视化对比的示意图;
图10是本发明基于深度神经网络的运动预测方法的较佳实施例中与没有重建损失项Lrec或者位移损失项Ldisp得到的预测的可视化对比的示意图;
图11是本发明基于深度神经网络的运动预测方法的较佳实施例中运动参数和分割不是通过网络预测得到的结果的可视化对比的示意图;
图12为本发明智能终端的较佳实施例的运行环境示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明较佳实施例所述的基于深度神经网络的运动预测方法,如图1所示,一种基于深度神经网络的运动预测方法,其中,所述基于深度神经网络的运动预测方法包括以下步骤:
步骤S10、使用数据集训练深度神经网络;
步骤S20、将三维点云输入至所述深度神经网络;
步骤S30、所述深度神经网络输出所述三维点云的第一部分和第二部分,将所述第一部分作为运动子单元,所述第二部分作为运动单元的参考部分;
步骤S40、根据所述三维点云的输出完成网络预测,输出运动信息,所述运动信息包括运动性分割、运动轴和运动类型。
本发明引入了一个基于学习的方法,它同时预测单一未分割的点云,可能是一个三维物体的部分扫描形状的旋转部件以及它们的运动。本发明的深度神经网络,将输入的三维物体视为一个运动单元,并且输出点云的两个部分,将其中一个部分作为运动子单元而另一个部分作为运动单元的参考部分,迭代地应用本发明提出的网络得到的部分能够预测更精细的部件运动,从而得到层次性运动同时基于运动的物体分割的预测,如图2所示。MAPP-NET(深度神经网络)从一个训练集学习深度预测模型,该训练集涵盖了不同物体的各种运动。尽管从单一的配置中进行运动性预测与分割的问题本质上是不适定的,本发明的基于学习的方法能够汇聚丰富的线索,例如从训练数据中得到部件几何以及它们的上下文场景,从而推测没有见过的三维物体。
点云的运动性预测的核心要点能被视为是预测点对以及随着时间变化的位移场,它允许网络处理非结构化的低层次的输入并且利用运动的瞬时性特点,具体来说,本发明的MAPP-NET通过循环神经网络来实现,它的输入是点云,然后预测在后续帧中每个点的位移情况,而接下来的每一帧的输入点云是参考点。网络的架构由编码器-解码器对组成同时交叉着长短时记忆网络(LSTM,Long Short-Term Memory),它同时预测输入点云的位移场;本发明还在网络中加入了额外的层来推断基于运动性的分割以及预测得到的位移场的运动参数。因此,给定一个点云,MAPP-NET既推断点的几何变换的运动类型和运动参数(如旋转轴),又根据预测的运动状态预测他们的可旋转的部分的分割。
本发明的目的是分割出给定三维物体中可运动的部分,判断物体运动类型,并生成物体下几帧的运动序列。其中物体是用单个,未经分割的点云来表示的。本发明采用深度神经网络在数据集上预训练来达到上述目标。因此本发明的主要技术问题为如何设计网络结构和损失函数以完成上述任务。
本发明输入是点数为1024的三维点云,假设该点云只有一个运动单元,即点云的点要么是参照不动的,要么同属一个运动。输出为一个点云序列,序列中的每个点云都有1024个点并与输入点云中的点一一对应。同时网络还预测输出了运动性分割S,运动轴(d,x)、和运动类型t。运动轴信息包含轴的方向d和轴上一点x的位置,把它们统称为运动信息M=(t,d,x)。
网络的核心是用一个循环神经网络去预测点云中点的位移,该位移即为运动的表示。采用循环神经网络是因为这种网络在处理序列数据时有不错的效果。更具体的,本发明采用的是长短期记忆网络,并运用了PointNet++中的网络结构集合抽象层SA与特征传递层FP。图3具体说明了网络的结构,输入的点云P0在经过一个集合抽象层之后便进入循环神经网络,它包含了若干子网络,子网络由一个特征传递层和全连接层构成,每个子网络输出某一帧的运动预测,即位移D。之后与输入点云相加便得到了运动后若干帧的点云P。有了这些点云和位移,在经过一些层就能分析出分割、运动信息。将若干帧位移信息一起传入一个全连接层后便能得到该点云的分割。运动信息也可以通过类似的方法分别得到,不过传入的信息是运动后的若干帧点云信息而不是位移,并且由于要整体考虑,需要在全连接层前加入一个集合抽象层。之所以用点云而不用位移是因为在实验中发现前者能有更高的精度,具体结构可见图3
网络训练和损失函数
为了训练上述多重输出网络,本发明设计了如下的损失函数:
其中,Dt表示位移图,S表示分割,M表示拟合运动参数,Lrec是重建误差,Ldisp是位移误差,Lseg是分割误差,Lmob是运动参数的回归误差;
重建误差表示形状的扭曲程度,位移误差表示运动部分的精确度,分割误差和回归误差则刻画了运动信息的正确程度,包括对运动与不动的划分、运动轴的位置、方向和运动类型。
重建损失函数,Lrec刻画了预测的运动后点云与真实的运动后点云之间的几何误差;
将点云P0分成参照部分和运动部分,在经历过运动后后,参照部分保持静止,运动部分为刚性运动,其中,Pt-1和Pt表示两个邻接的点云帧,因此Lrec分为两部分:
是参照部分的误差,是运动部分的误差;
是每个点误差距离的平方和:
其中,pgt是点p真实的位置;
的构成为:
其中,Lshape是用来惩罚不与目标形状匹配的点,Ldensity是预测点云与目标点云局部点密度,指所述深度神经网络生成的第t帧的点云中的运动部分,指正确的第t帧的点云中的运动部分,gt是ground truth的缩写,表示正确的意思。
通过误差损失函数预测运动信息与目标运动信息之间的差别;所述运动类型包括旋转运动和平移运动。
对于位移损失函数(误差损失函数),此位移损失函数可以衡量预测运动信息与目标运动信息之间的差别,如前所述,这也是针对点云中运动部分而言的。由于有不同的运动类型,因而也对应有不同形式。本发明只考虑了旋转与平移两种类型的运动。
对于旋转运动,见图4,损失函数如下:
刻画了预测的位移是否垂直于真实的运动轴,具体的计算公式为:
其中,dot表示点乘,表示第t帧点云p的位移图,dgt是正确的运动轴的方向;则是各个点旋转角的偏差,所有点旋转角度一致,具体计算公式为:
其中,σ为常数,proj(p)表示p点与将点p投影到正确运动轴上的投影点的距离,proj(p)=(p-π(p))/||p-π(p)||2
要求每个点旋转前和旋转后距离真实转轴的距离相同,约束其运动的圆周性,具体计算公式为:
对于平移运动,见图5,损失函数如下:
刻画了预测的位移是否平行于真实的运动轴,具体计算公式为:
则要求每个点移动的距离相同,方差为0,具体计算公式为:
分割损失函数Lseg(S)是预测分割与真实分割的多项逻辑斯特回归交叉熵(softmax cross entropy)。
运动信息损失函数为:
其中,d、x和t分别为运动轴方向、运动轴位置和运动类型,dgt是正确的运动轴方向,xgt是正确的运动轴位置,tgt是正确的运动类型,H是交叉熵。
本发明通过引入一种新的循环神经网络结构和若干新颖的损失函数来完成对物体未来运动的预测,这包括未来几个时刻的点云状态,运动部分的分割,运动类型和运动参数。
进一步地,本发明展示了使用MAPP-NET得到的运动性预测,并且评估该方法的不同组件。本发明使用如下公式(1)定义的损失函数和Adam随机优化子训练网络。在本发明的实验中,使用了运动单元数据集。本发明采样了单元的可见表面来创建点云,称为“完整扫描”。本发明按照90/10的划分比例,将数据集划分为训练/测试单元。本发明还从测试集得到部分扫描的集合,用于额外的评估。
图6展示了对于完整和部分扫描,在测试单元上进行运动预测的例子。对于每个例子,展示了每个输入(input)点云的前5帧的预测帧(frame),绘制了预测的变换轴,参考部件和运动部件。可以观察到MAPP-NET对于不同的运动类型的不同物体,如何预测正确的部件运动并且生成对应的运动序列。例如,本发明的方法准确地预测不同轴方向和位置的形状的旋转运动,包括水平和垂直的轴方向,例如第一行(左)展示的翻盖式手机以及第二行(左)展示了转动的闪存驱动设备(U盘)。本发明的方法还准确地预测轴位置,如第四行(左)展示的行李箱和第二行(右)展示的堆垛机的例子。
还可以看到,对于平移运动,例如第五行(右)抽屉的运动,MAPP-NET能够通过平移预测其打开的正确方向,尽管数据只显示抽屉的前表面,而没有内部结构;因为包裹该物体的参考部件太大了。发现第三行(左)的抽屉的把手一个相似的结果,但是预测了不同的运动类型。更进一步,我们能够从第五行(左)和最后一行(右)展示的例子中发现,针对那些已经接近结束帧的输入点云,本发明方法在找到运动的停止状态后,已学会停止生成新的帧,这表明该方法能够推测运动的范围。
此外,MAPP-NET还能预测相同物体的多个部件的运动。给定多于一个运动部件的物体,本发明方法能够要么迭代地预测多个运动,如图2所示;要么同时预测不同组件的运动,特别是不同运动类型的组件。这是可行的,因为本发明训练单个网络来预测所有的不同运动类型,例如平移和旋转。如图7的同时运动的例子,本发明展示了预测的分割的全部5帧连续的帧。生成的帧(红色)的运动部件当它们与输入帧更接近时,用更浅的颜色表示。
针对测试集通过MAPP-NET预测的运动性,本发明进行定量评估,通过度量运动参数和分割的误差,因为本发明有基准可以使用。具体来说,对于每个测试单元,本发明使用两种度量来计算预测的变换轴M=(d,x)与基准轴Mgt=(dgt,xgt)相比较的误差。第一个度量方式阐述了预测的轴方向的误差:
Eangle=arccos(|dot(d/||d||2,dgt/||dgt||2)|);
简单地表示了预测与基准轴之间偏差的角度,范围在[0,π/2]。第二个度量方式计算了轴位置的误差:
Edist=min(||x-π(x)||2,1);
π(x)将点x投影到由Mgt=(dgt,xgt)决定的基准运动轴。因为所有的形状被正则化到一个单位体中,本发明截断最大距离到1。注意平移没有定义好的轴的位置。因此对于平移,仅仅计算轴方向。当分类错误时,变换类型误差Eseg设为1;反之为0。分割误差Eseg仅仅度量被指定为错误标签的点的百分比。
然后,计算两个数据集的每个误差的均值:完整和部分扫描。本发明方法的误差可以在表1中看到:可以观察到所有的误差都相对很低,表明预测的运动的准确性很高;此外,本发明方法针对于完整和部分扫描都达到相当的结果,表明本发明方法的鲁棒性。
表1:本发明方法和BaseNet的运动预测误差
与BaseNet的对比,为了展示利用MAPP-NET的优势,能够在预测所有的运动相关的参数之前生成位移图,本发明与基准进行了比较,将它称为“BaseNet”。BaseNet将点云P0作为输入,使用标准的网络架构直接估计分割S和运动参数M。网络由编码器/解码器对和全连接层组成,如图8所示。BaseNet的损失函数为:
L(S,M)=Lseg(S)+Lmotion(M);
使用了公式(1)定义的两个损失函数项。
表1展示了MAPP-NET和BaseNet在完整和部分扫描之间的比较,可以发现BaseNet的分割误差Eseg和运动类型误差Etype与本发明方法相当,但是它的轴方向误差Eangle和轴位置误差Edist比本发明的至少高了5%。结果差异的主要原因可能是分割和分类任务相比运动预测更简单。网络架构像PointNet++已经表明了在那两个任务上能取得好的结果,然而对于运动预测,单独的输入帧可能会导致推测的歧义。
在本发明的深度学习框架中,本发明使用循环神经网络来生成多个描述运动的帧的序列,它更多地限制了推断。结果,运动参数地预测更加准确。
图9展示了本发明方法与BaseNet在一些例子上的可视化对比。因为BaseNet没有生成运动帧,展示它在输入点云上分割和预测的轴,然而对于本发明方法,一起展示了预测的分割和轴的5帧连续的帧。生成的帧的运动部件当它们更接近输入帧时用更浅的颜色表示。对于完整和部分扫描的平移和旋转,BaseNet更容易预测错误的运动类型,从而造成复杂形状的预测错误,例如,对于在课桌下的键盘抽屉,错误预测了滑动运动的方向。
为了进一步验证本发明的损失函数,在完整的扫描上进行三个消融研究实验。
Lrec和Ldtsp的重要性。为了显示Lrec和Ldtsp的重要性,这两项是预测的位移图Dt或者点云Pt与基准比较的损失函数项,将本发明方法的结果与没有添加这两项中的任意一项得到的结果进行比较。表2的第二和第三行展示了这个实验得到的误差值,对比第六行使用本发明的完整的损失函数。对比本发明损失函数完整的版本,去除Lres和Ldisp两者之一增大了误差,并且更重要的是,如图10所示,中间预测的序列对比那些使用完整的损失函数得到的结果,它的质量更差。
表2:对比完整的MAPP-NET和去除某个损失函数项的方法的消融实验,注意损失函数的所有项的重要性得到最低的误差(末行)
没有重建损失项Lrec,尽管多亏了位移损失项Ldisp,运动部件的运动看起来合理,点(特别是那些在参考部件的点)更容易移动到不可预料的位置。
另一方面,当去掉位移损失项Ldisp,运动部件的点的运动变得不一致,这导致了运动部件的扭曲。相比之下,本发明的完整的方法能够对于运动部件预测一个准确且平滑的运动并且还能保持参考部件不发生改变。
Lmob和Lseg的重要性。在第二个消融实验,验证运动损失项Lmob和和分割损失项Lseg的用法,通过将本发明的完整网络与根据预测的位移图推测运动参数M和分割S而不是通过网络的额外层来预测它们的方法作比较。具体来说,本发明的网络从位移图Dt生成一个点云运动序列Pt,它能直接用于拟合运动参数M;然而对于分割S,本发明能过滤一些点,这依赖于它们是否比位移图Pt的合适阈值θ移动得更多,从而将点分为运动和静止(参考)点。
在实验中,使用阈值θ=0.01来决定分割。为了拟合每对邻接帧的运动轴,计算最佳刚性变换矩阵,该矩阵具有将一帧变换到下一帧的最小的均值方差,并且提取:平移的轴方向、旋转的轴方向和位置。对于评估,计算了平移的轴方向误差Eangle,旋转的轴方向误差Eangle和轴位置误差Edict。最终,计算所有的测试序列的所有邻接帧的均值误差。表2第四和第五行展示了这个实验的误差值。
这种运动拟合方法对于噪声很敏感,导致很大误差;然而利用本发明的完整网络得到的预测更稳定并且提供更好的结果。运动参数拟合结果与本发明的结果的对比如图11所示,可以看到,没有运动损失项Lmob和分割损失项Lseg,一些离群点会造成轴拟合的大误差。然而对于没有运动损失项Lmob的例子,尽管分割看起来是正确的,不同点的位移的噪声也能造成轴拟合的大误差。例如,第二行展示的轮子,除了物体的更低部分的点有运动外,大多数点没有运动,导致了拟合出来的轴的位置偏离了轮子的中心。
基于Pt定义Lrcc和Lmob的重要性。此外,因为本发明的网络提供了位移图Dt和点云Pt作为中间输出,除了位移损失Ldisp,所有的损失项都能基于Dt和Pt两者任一定义。因此,进行第三个消融实验来表现基于Pt的重建项Lrec和运动损失项Lmob的定义。正如本发明方法做的那样,这个定义比在Dt上定义更好。表3展示了这个实验证明的这个点。这个结果的主要原因是位移图Dt是在两个邻接的点云帧Tt-1和Pt之间定义的。因此,定义在Dt上的误差会影响Pt的生成,也会影响Dt|1。如果仅仅在每个Dt上独立地度量重建损失项Lrec,之后在学习过程中不能准确地将累计的误差加入考虑。相反,Pt是通过应用所有的先前的位移图到输入点云P0而得到的。因此,通过在每个Pt上定义重建损失项Lrec,损失项在生成的序列的误差中提供了更全局的限制。运动损失项Lmob的定义也是采用相似的参数应用。
表3:使用Dt而不是Pt定义重建损失项Lrec和运动损失项Lmah的比较。最后一行对应于本发明将两个损失项都定义在Pt上的方法,得到最低的误差
正如实验所强调的,本发明的方法呈现了预测具有单个运动部件的物体的运动的高准确性。因此,对于在更多情形下预测物体的运动,本发明的方法算是一个不错的基础模块。例如,图2和图7显示了本发明的方法对于检测一个物体中多个运动部件的潜能,包括以并行方式发生的运动或者按照层次性顺序的运动。然而,对于这项更复杂任务,还需要进一步的实验来定量地评估本发明方法,可能需要构造具有多个可运动部件的物体的数据集和它们已知的运动参数以及分割。另外,本发明当前的数据集假定了形状是有意义的朝向并且数据集相对小,由276个运动单元组成。另一个更直接的改进方法可应用到更复杂场景的方向是强化本发明的数据集,通过应用随机变换到运动单元,以便本发明的网络能够以位姿不变的方式运作,或者利用部分扫描来训练网络从而改善它的抗干扰能力。
未来工作的另一个方向是利用本发明的方法预测的运动性来合成输入形状的运动。作为这个更大的运动合成问题的一部分,一个有趣的子问题是学习如何补全物体的几何形状,当运动发生时物体的几何可能会丢失,例如,从橱柜中拉出的抽屉应显示其内部,如果对形状进行扫描或未对其内部进行建模,则会丢失内部。一个可能的方法是从预测的运动和存在的部件几何学习如何合成丢失的几何。这种方法至少需要以预分割的物体的形式建立一个训练集,并对其所有内部细节进行建模。
本发明介绍了由重建损失函数和位移损失函数组成的损失函数,它保证了在保持物体形状的同时也准确地预测运动。重建损失衡量了在运动过程中,维持物体形状的程度,而位移损失衡量了位移场刻画运动的程度。表明:对比其他可选择的方法,这个损失函数能带来最准确的预测。循环神经网络(RNN)架构的使用允许本发明不仅预测运动的后续帧,也使本发明能够决定当运动停止时,除了推断运动参数还能推断预测的运动的范围,如:门能开多大角度。
本发明展示了MAPP-NET能够十分准确地预测物体部件的运动,这些物体是具有不同运动类型(包括旋转和平移变换)的多种物体,既可以是3D物体的完整点云也可以是部分扫描的结果。此外,还验证本发明方法的合理性并且与基准方法进行了比较。最终,本发明展示了初步的结果,即本发明提出的网络有能按层次性方式来分割具有多个运动部分组成的物体的潜能,同时预测多个部件的运动。
技术效果:
(1)本发明将功能可见性分析问题归为对于输入的几何进行分割并且标记每个分割的运动类型和参数;因此,本发明提出的深度神经网络从预分割和已知运动的三维形状学习,之后执行分割和预测。
(2)本发明的深度神经网络MAPP-NET从一个三维点云形状预测部件的运动,然而并不需要该形状的分割;本发明通过训练一个深度学习模型来同时分割输入形状和预测它的部件的运动从而实现的。
(3)本发明的网络是在基准分割和运动参数标识好了的运动单元数据集上训练的;一旦训练完毕,它能够用来预测单个未分割的表示物体的一个静止状态的点云的运动。
(4)本发明介绍了由重建损失函数和位移损失函数组成的损失函数,它保证了在保持物体形状的同时也准确地预测运动;重建损失衡量了在运动过程中,维持物体形状的程度,而位移损失衡量了位移场刻画运动的程度;表明:对比其他可选择的方法,这个损失函数能带来最准确的预测。
(5)循环神经网络(RNN)架构的使用允许本发明不仅预测运动的后续帧,也使本发明能够决定当运动停止时,除了推断运动参数还能推断预测的运动的范围,如:门能开多大。
(6)本发明展示了MAPP-NET能够十分准确地预测物体部件的运动,这些物体是具有不同运动类型(包括旋转和平移变换)的多种物体,既可以是3D物体的完整点云也可以是部分扫描的结果。
(7)本发明展示了初步的结果,本发明提出的网络有能按层次性方式来分割具有多个运动部分组成的物体的潜能,同时预测多个部件的运动。
进一步地,如图12所示,基于上述基于深度神经网络的运动预测方法,本发明还相应提供了一种智能终端,所述智能终端包括处理器10、存储器20及显示器30。图7仅示出了智能终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述智能终端的内部存储单元,例如智能终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备,例如所述智能终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所述智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据,例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有基于深度神经网络的运动预测程序40,该基于深度神经网络的运动预测程序40可被处理器10所执行,从而实现本申请中基于深度神经网络的运动预测方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述基于深度神经网络的运动预测方法等。
所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过系统总线相互通信。
在一实施例中,当处理器10执行所述存储器20中基于深度神经网络的运动预测程序40时实现以下步骤:
使用数据集训练深度神经网络;
将三维点云输入至所述深度神经网络;
所述深度神经网络输出所述三维点云的第一部分和第二部分,将所述第一部分作为运动子单元,所述第二部分作为运动单元的参考部分;
根据所述三维点云的输出完成网络预测,输出运动信息,所述运动信息包括运动性分割、运动轴和运动类型。
本发明还提供一种存储介质,其中,所述存储介质存储有基于深度神经网络的运动预测程序,所述基于深度神经网络的运动预测程序被处理器执行时实现所述基于深度神经网络的运动预测方法的步骤;具体如上所述。
综上所述,本发明提供了一种基于深度神经网络的运动预测方法和智能终端,所述方法包括:使用数据集训练深度神经网络;将三维点云输入至所述深度神经网络;所述深度神经网络输出所述三维点云的第一部分和第二部分,将所述第一部分作为运动子单元,所述第二部分作为运动单元的参考部分;根据所述三维点云的输出完成网络预测,输出运动信息,所述运动信息包括运动性分割、运动轴和运动类型。本发明实现了在非结构化并且可能是部分扫描的各种铰链式物体在静止状态下同时运动和部件的预测结果,能够十分准确地预测物体部件的运动。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于深度神经网络的运动预测方法,其特征在于,所述基于深度神经网络的运动预测方法包括:
使用数据集训练深度神经网络;
将三维点云输入至所述深度神经网络;
所述深度神经网络输出所述三维点云的第一部分和第二部分,将所述第一部分作为运动子单元,所述第二部分作为运动单元的参考部分;
根据所述三维点云的输出完成网络预测,输出运动信息,所述运动信息包括运动性分割、运动轴和运动类型。
2.根据权利要求1所述的基于深度神经网络的运动预测方法,其特征在于,在训练所述深度神经网络时,所使用的损失函数为:
其中,Dt表示位移图,S表示分割,M表示拟合运动参数,Lrec是重建误差,Ldisp是位移误差,Lseg是分割误差,Lmob是运动参数的回归误差;
重建误差表示形状的扭曲程度,位移误差表示运动部分的精确度,分割误差和回归误差则刻画了运动信息的正确程度,包括对运动与不动的划分、运动轴的位置、方向和运动类型。
3.根据权利要求2所述的基于深度神经网络的运动预测方法,其特征在于,Lrec刻画了预测的运动后点云与真实的运动后点云之间的几何误差;
将点云P0分成参照部分和运动部分,在经历过运动后后,参照部分保持静止,运动部分为刚性运动,其中,Pt-1和Pt表示两个邻接的点云帧,因此Lrec分为两部分:
是参照部分的误差,是运动部分的误差;
是每个点误差距离的平方和:
其中,是点p真实的位置;
的构成为:
其中,Lshape是用来惩罚不与目标形状匹配的点,Ldensity是预测点云与目标点云局部点密度,指所述深度神经网络生成的第t帧的点云中的运动部分,指正确的第t帧的点云中的运动部分,gt是ground truth的缩写,表示正确的意思。
4.根据权利要求3所述的基于深度神经网络的运动预测方法,其特征在于,通过误差损失函数预测运动信息与目标运动信息之间的差别;所述运动类型包括旋转运动和平移运动。
5.根据权利要求4所述的基于深度神经网络的运动预测方法,其特征在于,对于旋转运动,损失函数如下:
刻画了预测的位移是否垂直于真实的运动轴,具体的计算公式为:
其中,dot表示点乘,表示第t帧点云p的位移图,dgt是正确的运动轴的方向;则是各个点旋转角的偏差,所有点旋转角度一致,具体计算公式为:
其中,σ为常数,proj(p)表示p点与将点p投影到正确运动轴上的投影点的距离,
要求每个点旋转前和旋转后距离真实转轴的距离相同,约束其运动的圆周性,具体计算公式为:
6.根据权利要求5所述的基于深度神经网络的运动预测方法,其特征在于,对于平移运动,损失函数如下:
刻画了预测的位移是否平行于真实的运动轴,具体计算公式为:
则要求每个点移动的距离相同,方差为O,具体计算公式为:
7.根据权利要求6所述的基于深度神经网络的运动预测方法,其特征在于,运动信息损失函数为:
其中,d、x和t分别为运动轴方向、运动轴位置和运动类型,dgt是正确的运动轴方向,xgt是正确的运动轴位置,tgt是正确的运动类型,H是交叉熵。
8.根据权利要求1所述的基于深度神经网络的运动预测方法,其特征在于,所述三维点云的点数为1024个。
9.一种智能终端,其特征在于,所述智能终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于深度神经网络的运动预测程序,所述基于深度神经网络的运动预测程序被所述处理器执行时实现如权利要求1-8任一项所述的基于深度神经网络的运动预测方法的步骤。
10.一种存储介质,其特征在于,所述存储介质存储有基于深度神经网络的运动预测程序,所述基于深度神经网络的运动预测程序被处理器执行时实现如权利要求1-8任一项所述基于深度神经网络的运动预测方法的步骤。
CN201911378607.2A 2019-12-27 2019-12-27 一种基于深度神经网络的运动预测方法和智能终端 Pending CN111080671A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911378607.2A CN111080671A (zh) 2019-12-27 2019-12-27 一种基于深度神经网络的运动预测方法和智能终端

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911378607.2A CN111080671A (zh) 2019-12-27 2019-12-27 一种基于深度神经网络的运动预测方法和智能终端
PCT/CN2020/080091 WO2021128611A1 (zh) 2019-12-27 2020-03-19 一种基于深度神经网络的运动预测方法和智能终端

Publications (1)

Publication Number Publication Date
CN111080671A true CN111080671A (zh) 2020-04-28

Family

ID=70318616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911378607.2A Pending CN111080671A (zh) 2019-12-27 2019-12-27 一种基于深度神经网络的运动预测方法和智能终端

Country Status (2)

Country Link
CN (1) CN111080671A (zh)
WO (1) WO2021128611A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914946A (zh) * 2020-08-19 2020-11-10 中国科学院自动化研究所 针对离群点移除方法的对抗样本生成方法、系统和装置
CN112268564A (zh) * 2020-12-25 2021-01-26 中国人民解放军国防科技大学 一种无人机降落空间位置和姿态端到端估计方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019099684A1 (en) * 2017-11-15 2019-05-23 Google Llc Unsupervised learning of image depth and ego-motion prediction neural networks
GB201804195D0 (en) * 2018-03-15 2018-05-02 Blue Vision Labs Uk Ltd Visual vehicle tracking through noise and occlusions using crowd-sourced maps
CN110293552B (zh) * 2018-03-21 2020-12-08 北京猎户星空科技有限公司 机械臂控制方法、装置、控制设备及存储介质
CN109480838B (zh) * 2018-10-18 2020-09-18 北京理工大学 一种基于表层肌电信号的人体连续复杂运动意图预测方法
CN109948475B (zh) * 2019-03-06 2021-03-16 武汉大学 一种基于骨架特征和深度学习的人体动作识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914946A (zh) * 2020-08-19 2020-11-10 中国科学院自动化研究所 针对离群点移除方法的对抗样本生成方法、系统和装置
CN111914946B (zh) * 2020-08-19 2021-07-06 中国科学院自动化研究所 针对离群点移除方法的对抗样本生成方法、系统和装置
CN112268564A (zh) * 2020-12-25 2021-01-26 中国人民解放军国防科技大学 一种无人机降落空间位置和姿态端到端估计方法

Also Published As

Publication number Publication date
WO2021128611A1 (zh) 2021-07-01

Similar Documents

Publication Publication Date Title
US9361723B2 (en) Method for real-time face animation based on single video camera
Kristan et al. The seventh visual object tracking vot2019 challenge results
Niemeyer et al. Occupancy flow: 4d reconstruction by learning particle dynamics
CN111080671A (zh) 一种基于深度神经网络的运动预测方法和智能终端
Han et al. On-line density-based appearance modeling for object tracking
Yamane et al. Human motion database with a binary tree and node transition graphs
Yuan et al. Visual object tracking with adaptive structural convolutional network
Akkaladevi et al. Tracking multiple rigid symmetric and non-symmetric objects in real-time using depth data
US20110208685A1 (en) Motion Capture Using Intelligent Part Identification
CN110637323A (zh) 通过使用基于部分的关键帧和先验模型进行鲁棒网格跟踪和融合
Aristidou et al. Self‐similarity analysis for motion capture cleaning
CN109460267A (zh) 移动机器人离线地图保存与实时重定位方法
WO2020208359A1 (en) Using Iterative 3D Model Fitting for Domain Adaption of a Hand Pose Estimation Neural Network
Sweeney et al. A supervised approach to predicting noise in depth images
Thomas et al. Deep illumination: Approximating dynamic global illumination with generative adversarial network
Kirsanov et al. Discoman: Dataset of indoor scenes for odometry, mapping and navigation
Bescos et al. Empty cities: A dynamic-object-invariant space for visual SLAM
US20070171228A1 (en) Methods and Apparatus for Accelerated Animation Using Point Multiplication and Soft Caching
Harley et al. Tracking emerges by looking around static scenes, with neural 3d mapping
CN111340867A (zh) 图像帧的深度估计方法、装置、电子设备及存储介质
Liu et al. What synthesis is missing: Depth adaptation integrated with weak supervision for indoor scene parsing
Chen et al. Recurrent semantic preserving generation for action prediction
Bešić et al. Dynamic object removal and spatio-temporal RGB-D inpainting via geometry-aware adversarial learning
Zhao et al. Painting many pasts: Synthesizing time lapse videos of paintings
Talu et al. An implementation of a novel vision‐based robotic tracking system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination