CN113628348A - 一种确定三维场景中视点路径的方法及设备 - Google Patents

一种确定三维场景中视点路径的方法及设备 Download PDF

Info

Publication number
CN113628348A
CN113628348A CN202110879984.5A CN202110879984A CN113628348A CN 113628348 A CN113628348 A CN 113628348A CN 202110879984 A CN202110879984 A CN 202110879984A CN 113628348 A CN113628348 A CN 113628348A
Authority
CN
China
Prior art keywords
view
viewpoint
dimensional model
determining
voxel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110879984.5A
Other languages
English (en)
Other versions
CN113628348B (zh
Inventor
刘帅
吴连朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Juhaokan Technology Co Ltd
Original Assignee
Juhaokan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Juhaokan Technology Co Ltd filed Critical Juhaokan Technology Co Ltd
Priority to CN202110879984.5A priority Critical patent/CN113628348B/zh
Publication of CN113628348A publication Critical patent/CN113628348A/zh
Application granted granted Critical
Publication of CN113628348B publication Critical patent/CN113628348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请涉及三维重建技术领域,提供一种确定三维场景中视点路径的方法及设备,具体的,根据相机在至少一个视角下采集的目标对象的2D图像,绘制所述目标对象的三维模型,实现在稀疏数据源的情况下重建目标对象的三维模型;针对每个视点位置获取的三维模型的一张视图,根据所述三维模型的各个体素在所述视图中的属性值,确定所述视图的可视化信息熵;根据所述多张视图各自的可视信息熵,确定一张目标视图,并将所述目标视图对应的视点位置作为目标视点位置;根据所述目标视点位置,确定观看所述三维模型的视点路径,从而保证用户以最佳的视点路径观看三维模型时,可以获取到目标对象更加丰富的三维信息,提高感知能力。

Description

一种确定三维场景中视点路径的方法及设备
技术领域
本申请涉及三维重建技术领域,尤其涉及一种确定三维场景中视点路径的方法及设备。
背景技术
三维重建是由计算机模拟生成现实世界中的三维物体。随着计算机视觉及深度学习的发展,目前三维重建主要有两种技术方案:一是基于光学扫描仪(例如结构光扫描仪和激光扫描仪等)测量的物体距离进行三维重建;二是基于彩色相机采集的多张物体的二维图像进行三维重建。前者重建质量较高,需要较为昂贵的扫描仪设备,一般用于重建精度要求较高的场景(例如博物馆中文物的数字化场景),后者通过单视点或多视点的二维图像恢复出物体的三维结构。基于图像进行三维重建在机器人导航、视觉感知、物体识别、环境理解、三维建模等领域有着重要意义,被广泛应用于工业制造、智能控制和医疗健康等行业。
在三维场景中,特别是较为复杂的场景、机器人运动、或模型复杂度较高的应用、基于图像的渲染应用中,好的视点位置(即观看三维模型的角度,或虚拟相机的摆放位置)能够启发用户感知及获取丰富的模型信息,提升用户三维体验,具有重要的研究意义。
发明内容
本申请实施例提供了一种确定三维场景中视点路径的方法及设备,用以确定观看三维重建模型的最佳视点位置及视点路径。
第一方面,本申请实施例提供一种确定视点路径的方法,应用于三维场景,包括:
根据相机在至少一个视角下采集的目标对象的2D图像,绘制所述目标对象的三维模型,每个视角对应一张2D图像;
分别获取所述三维模型在多个视点位置下的视图;
针对获取的多张视图中的任意一张视图,根据所述三维模型的各个体素在所述视图中的属性值,确定所述视图的可视化信息熵;
根据所述多张视图各自的可视信息熵,确定一张目标视图,并将所述目标视图对应的视点位置作为目标视点位置;
根据所述目标视点位置,确定观看所述三维模型的视点路径。
第二方面,本申请实施例提供一种重建设备,包括存储器、处理器;
所述存储器与所述处理器连接,被配置为存储计算机程序指令;
所述处理器被配置为根据所述计算机程序指令,执行以下操作:
根据相机在至少一个视角下采集的目标对象的2D图像,绘制所述目标对象的三维模型,每个视角对应一张2D图像;
分别获取所述三维模型在多个视点位置下的视图;
针对获取的多张视图中的任意一张视图,根据所述三维模型的各个体素在所述视图中的属性值,确定所述视图的可视化信息熵;
根据所述多张视图各自的可视信息熵,确定一张目标视图,并将所述目标视图对应的视点位置作为目标视点位置;
根据所述目标视点位置,确定观看所述三维模型的视点路径。
第三方面,本申请提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行本申请实施例提供的确定视点路径的方法。
本申请的上述实施例中,根据相机在至少一个视角下采集的目标对象的2D图像,绘制目标对象的三维模型,实现在稀疏数据源的情况下重建目标对象的三维模型,针对三维模型在不同视点位置下的视图,根据三维模型的各个体素在视图中的属性值,确定视图的可视化信息熵,并基于各个视图的可视化信息熵,确定最佳观看三维模型的目标视点位置,进一步地,基于目标视点位置,确定最佳观看三维模型的视点路径,从而保证用户以最佳的视点路径观看三维模型时,可以获取到目标对象更加丰富的三维信息,提高感知能力。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示例性示出了本申请的实施例提供的三维模型的骨架结构;
图2示例性示出了本申请实施例提供的确定视点路径的方法流程图;
图3示出了本申请实施例提供的光线投射法原理示意图;
图4示出了本申请实施例提供的视点位置选取示意图;
图5示例性示出了本身实施例提供的确定视图的可视化信息熵的方法流程图;
图6示例性示出了本申请实施例提供的确定视点路径的具体方法流程图;
图7示例性示出了本申请实施例提供的备选视点路径的确定方法流程图;
图8示例性示出了本申请实施例提供的重建设备的功能结构图;
图9示例性示出了本申请实施例提供的重建设备的硬件结构图。
具体实施方式
为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换,例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请中使用的术语“模块”,是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
为清楚描述本申请的实施例,下面对本申请实施例中的名词给出解释说明。
体数据:描述目标对象的各个组成部分在三维空间中的数据。
体素:组成体数据的最小单元,一个体素表示体数据中三维空间某部分的值。体素描述的是三维空间中的相对位置。
体绘制技术:依据三维体数据,将目标对象的所有体细节同时展现在二维图片上的技术,包括光线投射法(Ray Casting),最大强度投影算法(Maximum IntensityProjection),抛雪球法(Splatting),剪切曲变法(Shear-Warp)。近年来,为了提高体绘制效率,可以减少不必要的体素渲染数量来进行体绘制,包括空区间跳跃(Empty SpaceSkipping,ESS)法,早期光线终止(Early Ray Termination)法,八叉树和BSP空间分割(Octree and BSP Space Subdivision)法,自适应多分辨率(Multiple and AdaptiveResolution),预积分体绘制(Pre-integrated Volume Rendering)法等。
目前,三维重建领域中,可采用深度学习算法基于采集的二维图像进行三维重建,其中,从2D图像中恢复出缺失维度的传统方法大多采用基于多视图立体视觉或物体运动状态恢复物体形状。多视图立体视觉基于多个视角采集的图像来构建3D到2D的投影关系,从而建立有效的数学模型,这种方法通常需要进行相机标定和多视角拍摄大量图像,并基于特征匹配和三角关系(相机坐标系、图像坐标系和世界坐标系之间的关系)在三维坐标系中进行重建。同样,基于物体运动状态恢复物体几何形状的三维重建也需要大量的图像和相机标定,这会限制了多种环境下的应用。
在日常生活中,人眼可以结合大量的先验知识一眼就能推断出物体的三维形状,甚至是该物体在其他视角下的模样。在人眼的启发下,本申请实施例利用深度学习和先验知识构建第二代3D重建方法,实现基于单张或多张RGB图像直接重建出物体的三维模型,无需复杂的相机标定和数学计算过程。进一步地,结合可视化信息熵对生成的三维模型进行最佳视点的重定义,确定观看三维模型的最佳视点位置及观看三维模型的最佳视点路径,并推荐给用户,使得用户以最佳视点路径观看三维模型时,可以获取到丰富的场景信息,提升用户体验。
三维重建可归结为通过n张2D图像(n≥1)绘制出单个或多个物体的三维模型,模型学习的过程就是将图像映射为物体的形状函数,并尽可能地缩小预测形状与真实形状间的差异,这一差异在深度学习中可以以损失函数的形式表现出来。具体的,将相机采集的单张或多张2D图像(也可以为视频流)和先验信息输入到深度学习网络,由深度学习网络预测模型的形状,其中,先验信息作为模型重建的辅助信息,可以为物体轮廓、语义标签、分割掩膜等信息。
模型作为深度学习网络的输出,合适的表示方式对于算法的选择和重建质量至关重要。三维空间中的物体模型通常有多种表示方法,包括体素、表面网格以及其他中间媒介。
体素(voxel)表示是基于深度学习的三维重建中最早使用的方式,使得诸多参数化物体可以通过规则的空间体素网格来表示,从而将二维领域使用的架构拓展到三维领域,利用规则的三维卷积实现三维重建。基于体素的表示方法主要分为四种主要的类型,分别是基于二值占据的栅格的表示、基于概率占据的栅格的表示、基于符号距离函数(SignDistance Function,SDF)的表示以及基于截断符号距离函数(Truncated SignedDistance Function,TSDF)的表示。
下面结合附图详细描述本申请的实施例。
图1示例性示出了本申请实施例提供的应用场景示意图;如图1所示,相机100可以进行移动,在不同视角下采集目标对象的2D图像,并将采集的图像通过有线或无线的方式传输给重建设备200,由重建设备200基于接收的单张或多张2D图像重建三维模型,并确定观看三维模型的最佳视点路径。
需要说明的是,本申请实施例提供的重建设备200仅是一种示例,包括但不限于具有交互功能的笔记本电脑、台式机、平板、智能手机、VR/AR眼镜等显示终端。
基于图1所示的应用场景,图2示例性示出了本申请实施例提供的视点路径的推荐方法流程图,该流程由重建设备执行,主要包括以下几步:
S201:根据相机在至少一个视角下采集的目标对象的2D图像,绘制目标对象的三维模型,每个视角对应一张2D图像。
在S201中,重建设备采用神经辐射场(Neural Radiance Fields,NeRF)从至少一个视角下采集的2D图像中学习到3D场景,使用经典的光线投射法进行模型的体绘制重建。
NeRF用一个完全连接的非卷积深网学习络来表示3D场景,NeRF是将一个连续的场景表示为一个输入为5D向量的函数,包括一个空间点(体素)的3D坐标X=(x,y,z)以及视角方向
Figure BDA0003191811100000063
其输出是该体素的密度σ和RGB颜色c,NeRF可表示为:
FΨ:(X,d)→(c,σ) 公式1
其中,密度σ可理解为一条射线在经过X处的一个无穷小的粒子时被终止的概率,这个概率是可微的,也就是说,密度σ类似于该空间点的不透明度。
光线投射法作为经典的体绘制方法之一,其绘制高效、灵活、质量高。光线投射法主要是一个三维数据场的重新采样和图像合成过程,如图3所示,穿过三维数据场的每条光线上包含多个3D采样点,每条光线对应图像上的一个像素点。
NeRF得到的是一个3D空间点的颜色信息和密度信息,使用经典的光线投射法将输出的颜色和密度信息投影到模型图像中,所得到的模型图像上的一个像素实际上对应了一条从相机出发的射线(光线)上的所有连续空间点,通过这条射线上的所有3D空间点的颜色和密度信息得到这条射线在模型图像上对应的像素点的像素值。
由于一条光线上的空间点是连续的,因此体绘制是自然可微的,所以一条光线对应像素点的像素值可以用积分的方式表示为:
Figure BDA0003191811100000061
其中,光线r可表示为r=o+td,o表示光线原点,d表示相机光线的视角方向,t表示起点和终点分别为tn和tf的预定义光线段落,T(t)表示从tn到tf这一光线段落上的累积透明度,σ(t)表示从tn到tf这一光线段落上的累积密度,c(t)表示从tn到tf这一光线段落上的累积颜色。在实践中,公式2可通过沿每条光线上多个离散3D采样点数值的乘积近似代替。
将通过3D采样点计算得到的相机光线r对应的渲染像素点的像素值C(r),与真实像素值
Figure BDA0003191811100000064
进行比较,得到体绘制的函数损失值
Figure BDA0003191811100000065
Figure BDA0003191811100000062
其中,R(P)是具有目标姿态的所有相机光线的集合。
基于函数损失值
Figure BDA0003191811100000071
调整NeRF学习网络的参数值,得到训练好的NeRF。采用训练好的NeRF,基于采集的2D图像绘制目标对象的三维模型。
当相机在一个视角(记为第一视角)下采集了一张2D图像时,将该图像输入训练好的NeRF,得到第一视角下相机的各条光线的密度值和颜色值,根据第一视角下相机的各条光线的密度值和颜色值,绘制目标对象的三维模型,其中,每条光线上包含多个3D采样点。
下面以确定第一视角下相机的一条光线的密度值和颜色值为例,具体过程包括:
预先建立第一视角下采集的2D图像对应的世界坐标系,并设置穿过该世界坐标系的多条相机光线。针对各条光线中的任意一条光线(记为第一光线),根据世界坐标系与图像坐标系的投影关系以及相机的内外参数,确定第一光线上的各个3D采样点(用P表示)分别在第一视角下的2D图像中对应的像素点,并从视角下的2D图像中提取各个像素点的特征向量W=E(I),I表示第一视角下的2D图像。
在一些实施例中,像素点特征向量的提取可通过多层卷积神经网络自动提取,一般的,浅层的卷积神经网络感知区域较小,可以学习到图像的一些局部特征(如纹理特征),深层的卷积神经网络感知区域较大,可以学习到更加抽象的特征(如物体大小,位置和方向信息等)。
提取到各个像素点的特征向量后,对提取的各个像素点的特征向量进行插值,得到第一视角下的2D图像的特征向量W(π(P)),将2D图像的特征向量W(π(P))、视角的方向d以及各个3D采样点的三维坐标γ(P)输入到训练好的NeRF,得到光线的密度值σ和颜色值c,公式如下:
f(γ(P),d;W(π(P)))=(σ,c) 公式4
其中,γ()表示3D采样点P上的位置编码。
当相机在多个视角下分别采集了一张2D图像时,由于各个视角下相机的相对位姿Z=[R,T]是已知的,因此,可以固定一个视角下的2D图像对应的世界坐标系,将其他视角下相机的各条光线上的3D采样点的三维坐标和视角方向,转换为相应2D图像i对应的世界坐标系下,转换公式如下:
P(i)=Z(i)P,d(i)=R(i)d 公式5
进一步地,根据多张2D图像各自的特征向量、多张2D图像各自对应的视角的方向以及多张2D图像各自的对应的每条光线上的各个3D采样点的三维坐标,绘制目标对象的三维模型,与单2D图像的绘制过程一致,在此不再重复。
需要说明的,当基于一个视角下采集的一张2D图像绘制目标对象的三维模型时,相机的内参数可以是预先标定得到的,也可以是根据经验值设置的,相机的外参数可以是预先标定得到的。当基于多个视角下采集的多张2D图像绘制目标对象的三维模型时,相机的内参数可以是预先标定得到的,也可以是根据经验值设置的,相机的外参数可以是预先标定得到的,也可以是根据多张2D图像计算得到的。
S202:分别获取三维模型在多个视点位置下的视图。
在S202中,不同视点位置下看到的目标对象的内容是不同的,例如,当视点位置位于目标对象的正前方时,看到的是目标对象的正面,当视点位置位于目标对象的正后方时,看到的是目标对象的背面。因此,绘制完目标对象的三维模型后,为获取到丰富的目标对象的信息,可分别从多个视点位置获取三维模型的视图。
三维模型位于一个立体的空间,用户可以用在360°的任一角度观看三维模型,因此,本申请实施例对视图的获取不做限制性要求。例如,参照图4,针对半径为r的球形空间,围绕该球形空间,均匀的设置多个视点位置,分别获取相应视点位置对应的三维模型的视图。
本申请的实施例中,根据不同视点位置下获取的目标对象的视图,确定观看目标对象的最佳视点位置,一般的,最佳视点位置对应的显示效果最佳的视图,最佳的视图可理解为三维场景在某一视点位置下的投影面积最大,投影面积反映了视图中目标对象的信息量多少,因此,最佳视图可从以下两方面定义:(1)重要像素的可见度高;(2)投影中包含丰富的目标对象信息,能够作为用户交互的起点(例如,最佳视图更够在一定程度上引起用户的关注,或者,相比于其他视图,最佳视图能够给用户带来相似性差距较大的感知)。
基于最佳视图的定义,可通过可视化信息熵来确定最佳的视点位置,进而确定观看三维场景的最佳视点路径,具体过程参见S203-S205。
S203:针对获取的多张视图中的任意一张视图,根据三维模型的各个体素在视图中的属性值,确定视图的可视化信息熵。
在S203中,体素作为目标对象的最小数据单元,可基于体素的可见程度确定可视化信息熵。具体参见图5:
S2031:将各个体素的属性值分别映射为相应视图中的视觉特征。
在S2031中,通过传输函数将各个体素的属性值分别映射为相应视图中视觉特征,视觉特征包括颜色值、不透明度、光照系数、体纹理中的至少一项,映射公式为:
f1:j→{c,a,...},j∈Rn 公式6
其中,j表示第j个体素,Rn表示体素的实数集,f1表示传输函数,c表示体素的颜色值,a表示体素在相应视图中的不透明度。
通常的,用户在观看目标对象时,人眼有着重关注的部分,这些部分可以通过传输函数f1被赋予较高的不透明度a。
S2032:根据各个体素各自的视觉特征、各个体素各自的可见度概率以及三维模型在所述视图中的边缘结构信息,分别确定各个体素各自的显著度。
在S2032中,定义了一个反映体素可视化程度的重要因子Wj,称之为体素的显著度,公式如下:
Wj=aj*lj*Rj 公式7
lj=-log2fj 公式8
其中,fj表示第j个体素在相应视图中的可见度概率,是根据目标对象的体数据中各个体素的可见度值构建的直方图,fj=第j个体素的可见度值对应的体素个数/三维模型的总体素个数,aj表示第j个体素在相应视图中的不透明度取值,Rj表示三维模型在相应视图中的边缘结构信息,不同视图中目标对象的边缘结构信息不同。
在一些实施例中,为了在一定程度上减少计算量和内存要求,可以忽略掉不透明度为0或者不透明度与0的差值小于预设阈值的体素。
S2033:根据各个体素各自的显著度和各个体素在相应视图中的可见度,分别确定各个体素的可视化概率。
在S2033中,使用体素在相应视图中的可见度表示目标对象的透明性。针对获取的多张视图中的任意一张视图V,第j个体素在视图V中的可见度可记为vj(V),vj(V)=1-aj则第j个体素的可视化概率qj为:
Figure BDA0003191811100000101
Figure BDA0003191811100000102
其中,J表示三维模型的总体素个数,qj表示第j个体素的可视化概率,τ为中间变量,1/τ使得所有体素的可视化概率{q0,q1,q2,...,qJ-1}的和为1。
S2034:根据各个体素的可视化概率,确定相应视图的可视化信息熵。
在S2034中,视图V的可视化信息熵的计算公式为:
Figure BDA0003191811100000103
基于S2031-S2034,可以计算获取的每张视图的可视化信息熵,可视化信息熵越大,相应视图包含的信息量越丰富,特别是视图中目标对象的边缘结构的信息越完整,体素的不透明度越高,该视图的信息量越丰富。
S204:根据多张视图各自的可视信息熵,确定一张目标视图,并将目标视图对应的视点位置作为目标视点位置。
在S204中,从获取的多张视图中,选取最大的可视化信息熵对应的视图作为目标视图,即最佳视图,并将目标视图对应的视点位置确定为目标视点位置,即观看目标对象的最佳视点位置。
S205:根据目标视点位置,确定观看三维模型的视点路径。
在S205中,观看三维模型的最佳视点路径为多个目标视点位置形成的路径,具体的过程参见图6:
S2051:将目标视点位置作为初始视点位置,根据多个视点位置分别到初始视点位置的距离,选取N个候选视点位置,N为大于1的整数。
在S2051中,假设视点位置的个数为K,K大于N。将K个视点位置中,最大可视化信息熵对应的目标视点位置(例如为位置2)作为初始视点位置(记为第一初始视点位置),并从K个视点位置中,选取距离第一初始视点位置最近的N个候选视点位置(例如为位置1、位置5、位置8),且选取的N个候选视点位置对应的视图的可视化信息熵达到预设信息熵阈值。
需要说明的是,本申请实施例对距离的计算方式不做限制性要求,包括但不限于欧氏距离、曼哈顿距离、汉明距离等。
S2052:从N个候选视点位置中,选取最大可视化信息熵对应的候选视点位置再次作为初始视点位置,重新选取N个候选视点位置,直至满足第一预设结束条件。
在S2052中,从N个候选视点位置中,选取最大可视化信息熵对应的候选视点位置(假设为位置5),并将选取的候选视点位置(位置5)再次作为初始视点位置(记为第二初始视点位置),并从K个视点位置中,选取距离第二初始视点位置(位置5)最近的N个候选视点位置(例如分别为位置6、位置11),且选取的N个候选视点位置对应的视图的可视化信息熵达到预设信息熵阈值。
重复S2051-S2052,直至满足第一预设结束条件。可选的,第一预设结束条件包括:从各个初始视点位置下可以看到目标对象的全貌,或者,初始视点位置个数到达预设阈值,再或者,遍历了K个视点位置。
S2053:对多次确定的初始视点位置进行拟合,得到观看三维模型的视点路径。
在S2053中,对多次确定的初始视点位置(例如位置2、位置5、位置11等)进行拟合,包括但不限于最小二乘法拟合、多项式拟合等,得到三维模型的最佳观看路径,使得当用户沿着确定的视点路径观看三维模型时,可以获得更加丰富的场景信息,激发用户感知,进而提高用户体验。
在一些实施例中,为了保证路径视点路径的连续性,可基于多个初始视点位置进行插值,包括三不限于双线性插值、拉格朗日插值、多项式插值等。
本申请的上述实施例中,采用卷积神经网络对图像进行学习,得到目标对象的先验知识(纹理、大小等),将学习得到的先验知识和目标对象三维体数据场中的3D采样点的三维坐标、图像对应的视角方向,输入到NERF网络,得到用于渲染目标对象的三维模型的颜色值和密度值,基于得到的颜色值和密度值绘制三维模型,从而实现在单张或多张稀疏数据源的情况下重建膻味模型;得到三维模型后,根据三维模型的各个体素在不同视点位置的视图中的可见程度,确定各个视图的可视化信息熵,从而得到观看三维模型的最佳视点位置,并基于最佳视点为位置,得到观看三维模型的最佳视点路径,使得用户沿着确定的视点路径观看三维模型时,可以获得更加丰富的场景信息,提高用户体验。
在一些特殊的场景中,例如观看路径中存在障碍物或观看人数较多的场景中,需要更换视点路径,因此,可基于目标视点位置确定一条备选视点路径,在最佳的视点路径受阻时,可以选取备选视点路径观看三维模型。备选视点路径的确定过程参见图7:
S2061:将剩余的N-1个候选视点位置作为备选视点位置,从N-1个备选视点位置中,选取最大可视化信息熵对应的备选视点位置作为初始备选视点位置。
在S2061中,假设距离目标视点位置最近的N个候选视点位置(分别记为位置1、位置2、...位置N)中,位置2对应的视图的可视化信息熵最大,将位置2作为初始视点位置后,将剩余的位置1、位置3至位置N作为备选视点位置,从N-1个备选视点位置中,在此选取最大的可视化信息熵对应的位置4作为初始备选视点位置。
S2062:根据多个视点位置分别到初始备选视点位置的距离,选取M个候选备选视点位置,M为大于1的整数。
在S2602中,分别确定K个视点位置至初始备选视点位置(位置4)的距离,选取距离最小的M个候选备选视点位置,假设分别为位置3、位置5、位置7。
S2063:从M个候选备选视点位置中,选取最大可视化信息熵对应的候选备选视点位置再次作为初始备选视点位置,重新选取M个候选备选视点位置,直至满足第二预设结束条件。
在S2063中,比较位置3、位置5、位置7对应视图的可视化信息熵,将最大可视化信息熵对应的候选备选视点位置(位置5)在此作为初始备选视点位置,重新选取M个候选备选视点位置,直至满足第二预设结束条件。
可选的,第二预设结束条件包括:初始视点位置与初始备选视点位置重合(例如均为位置5),或者,初始备选视点位置个数到达预设阈值,再或者,遍历了K个视点位置。
S2064:对多次确定的初始备选视点位置进行拟合,得到观看三维模型的备选视点路径。
在S2064中,对多次确定的初始备选视点位置(例如位置4、位置5、位置11等)进行拟合,得到备选视点路径,使得最佳视点路径不可用时,用户沿着备选视点路径观看三维模型。
基于相同的技术构思,本申请实施例提供了一种重建设备,该设备可实现前述实施例中视点路径的确定方法,并能达到同样的技术效果,在此不再重复。
参见图8,该设备包括绘制模块801、获取模块802、处理模块803、视点位置确定模块804、视点路径确定模块805;
绘制模块801,用于根据相机在至少一个视角下采集的目标对象的2D图像,绘制目标对象的三维模型,每个视角对应一张2D图像;
获取模块802,用于分别获取三维模型在多个视点位置下的视图;
处理模块803,用于针对获取的多张视图中的任意一张视图,根据三维模型的各个体素在视图中的属性值,确定视图的可视化信息熵;
视点位置确定模块804,用于根据多张视图各自的可视信息熵,确定一张目标视图,并将目标视图对应的视点位置作为目标视点位置;
视点路径确定模块805,用于根据目标视点位置,确定观看三维模型的视点路径。
可选的,处理模块803,具体用于:
将各个体素的属性值分别映射为视图中的视觉特征;
根据各个体素各自的视觉特征、各个体素各自的可见度概率以及三维模型在视图中的边缘结构信息,分别确定各个体素各自的显著度;
根据各个体素各自的显著度和各个体素在视图中的可见度,分别确定各个体素的可视化概率;
根据各个体素的可视化概率,确定视图的可视化信息熵。
可选的,视觉特征包括各个体素在视图中的不透明度取值,显著度的确定公式为:
Wj=aj*lj*Rj
lj=-log2fj
其中,fj=第j个体素的可见度值对应的体素个数/三维模型的总体素个数,fj表示第j个体素在视图中的可见度概率,aj表示第j个体素在视图中的不透明度取值,Rj表示三维模型在视图中的边缘结构信息。
可选的,可视化信息熵的确定公式为:
Figure BDA0003191811100000131
Figure BDA0003191811100000132
Figure BDA0003191811100000141
其中,V表示当前视图,J表示三维模型的总体素个数,qj表示第j个体素的可视化概率,vj(V)=1-aj,aj表示第j个体素在视图中的不透明度取值,vj(V)表示第j个体素在当前视图中的可见度,Wj表示第j个体素的显著度,H(V)表示当前视图的可视化信息熵,τ为中间变量。
可选的,视点路径确定模块805,具体用于:
将目标视点位置作为初始视点位置,根据多个视点位置分别到初始视点位置的距离,选取N个候选视点位置,N个候选视点位置对应的视图的可视化信息熵达到预设信息熵阈值,N为大于1的整数;
从N个候选视点位置中,选取最大可视化信息熵对应的候选视点位置再次作为初始视点位置,重新选取N个候选视点位置,直至满足第一预设结束条件;
对多次确定的初始视点位置进行拟合,得到观看三维模型的视点路径。
可选的,该重建设备还包括备选视点路径确定模块806,用于:
将剩余的N-1个候选视点位置作为备选视点位置,从N-1个备选视点位置中,选取最大可视化信息熵对应的备选视点位置作为初始备选视点位置;
根据多个视点位置分别到初始备选视点位置的距离,选取M个候选备选视点位置,M为大于1的整数;
从M个候选备选视点位置中,选取最大可视化信息熵对应的候选备选视点位置再次作为初始备选视点位置,重新选取M个候选备选视点位置,直至满足第二预设结束条件;
对多次确定的初始备选视点位置进行拟合,得到观看三维模型的备选视点路径。
可选的,绘制模块801,具体用于:
针对至少一个视角中的任意一个视角,确定视角下相机的各条光线各自的密度值和颜色值;
根据各个视角下相机的各条光线各自的密度值和颜色值,绘制目标对象的三维模型。
可选的,每条光线上包含多个3D采样点,绘制模块801,具体用于:
针对各条光线中的任意一条光线,根据世界坐标系与图像坐标系的投影关系以及相机的内外参数,确定光线上的各个3D采样点分别在视角下的2D图像中对应的像素点,并从视角下的2D图像中提取各个像素点的特征向量;
对提取的各个像素点的特征向量进行插值,得到视角下的2D图像的特征向量;
根据2D图像的特征向量、视角的方向以及各个3D采样点的三维坐标,得到光线的密度值和颜色值。
可选的,目标视图为多张视图中可视化信息熵最大的视图。
基于相同的技术构思,本申请实施例提供了一种重建设备,该设备可实现前述实施例中视点路径的确定方法,并能达到同样的技术效果,在此不再重复。
参见图9,该设备包括存储器901、处理器902,存储器901和处理器902通过总线连接(在图9中用双向箭头表示),存储器901被配置为存储计算机程序指令,处理器902被配置为根据存储器901存储的计算机程序指令执行本申请实施例中视点路径的确定方法。
需要说明的是,本申请实施例上述涉及的处理器可以是中央处理器(centralprocessing unit,CPU),通用处理器,数字信号处理器(digital signal processor,DSP),专用集成电路(application-specific integrated circuit,ASIC),现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。其中,所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
需要说明的是,图9仅示出了实现本申请实施例提供的确定视点路径的方法所需的必要硬件,对于重建设备的其他硬件结构,并未示出,但包含其他常规硬件。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行上述实施例中的方法。
本申请实施例还提供一种计算机程序产品,用于存储计算机程序,该计算机程序用于执行前述实施例的方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims (10)

1.一种确定视点路径的方法,其特征在于,应用于三维场景,包括:
根据相机在至少一个视角下采集的目标对象的2D图像,绘制所述目标对象的三维模型,每个视角对应一张2D图像;
分别获取所述三维模型在多个视点位置下的视图;
针对获取的多张视图中的任意一张视图,根据所述三维模型的各个体素在所述视图中的属性值,确定所述视图的可视化信息熵;
根据所述多张视图各自的可视信息熵,确定一张目标视图,并将所述目标视图对应的视点位置作为目标视点位置;
根据所述目标视点位置,确定观看所述三维模型的视点路径。
2.如权利要求1所述的方法,其特征在于,所述根据所述三维模型的各个体素在所述视图中的属性值,确定所述视图的可视化信息熵,包括:
将各个体素的属性值分别映射为所述视图中的视觉特征;
根据各个体素各自的视觉特征、各个体素各自的可见度概率以及所述三维模型在所述视图中的边缘结构信息,分别确定各个体素各自的显著度;
根据各个体素各自的显著度和各个体素在所述视图中的可见度,分别确定各个体素的可视化概率;
根据各个体素的可视化概率,确定所述视图的可视化信息熵。
3.如权利要求2所述的方法,其特征在于,所述视觉特征包括各个体素在所述视图中的不透明度取值,显著度的确定公式为:
Wj=aj*lj*Rj
lj=-log2fj
其中,fj=第j个体素的可见度值对应的体素个数/三维模型的总体素个数,fj表示第j个体素在所述视图中的可见度概率所述aj表示第j个体素在所述视图中的不透明度取值,Rj表示所述三维模型在所述视图中的边缘结构信息。
4.如权利要求2所述的方法,其特征在于,所述可视化信息熵的确定公式为:
Figure FDA0003191811090000021
Figure FDA0003191811090000022
Figure FDA0003191811090000023
其中,V表示当前视图,J表示所述三维模型的总体素个数,qj表示第j个体素的可视化概率,vj(V)=1-aj,aj表示第j个体素在所述视图中的不透明度取值,vj(V)表示第j个体素在当前视图中的可见度,Wj表示第j个体素的显著度,H(V)表示当前视图的可视化信息熵,τ为中间变量。
5.如权利要求1所述的方法,其特征在于,所述根据所述目标视点位置,确定观看所述三维模型的视点路径,包括:
将所述目标视点位置作为初始视点位置,根据所述多个视点位置分别到所述初始视点位置的距离,选取N个候选视点位置,所述N个候选视点位置对应的视图的可视化信息熵达到预设信息熵阈值,N为大于1的整数;
从所述N个候选视点位置中,选取最大可视化信息熵对应的候选视点位置再次作为初始视点位置,重新选取N个候选视点位置,直至满足第一预设结束条件;
对多次确定的初始视点位置进行拟合,得到观看所述三维模型的视点路径。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
将剩余的N-1个候选视点位置作为备选视点位置,从N-1个备选视点位置中,选取最大可视化信息熵对应的备选视点位置作为初始备选视点位置;
根据所述多个视点位置分别到所述初始备选视点位置的距离,选取M个候选备选视点位置,M为大于1的整数;
从所述M个候选备选视点位置中,选取最大可视化信息熵对应的候选备选视点位置再次作为初始备选视点位置重新选取M个候选备选视点位置,直至满足第二预设结束条件;对多次确定的初始备选视点位置进行拟合,得到观看所述三维模型的备选视点路径。
7.如权利要求1-6中任一项所述的方法,其特征在于,所述根据相机在至少一个视角下采集的目标对象的2D图像,绘制所述目标对象的三维模型,包括:
针对所述至少一个视角中的任意一个视角,确定所述视角下所述相机的各条光线各自的密度值和颜色值;
根据各个视角下所述相机的各条光线各自的密度值和颜色值,绘制所述目标对象的三维模型。
8.如权利要求7所述的方法,其特征在于,每条光线上包含多个3D采样点,所述确定所述视角下所述相机的各条光线各自的密度值和颜色值,包括:
针对各条光线中的任意一条光线,根据世界坐标系与图像坐标系的投影关系以及相机的内外参数,确定所述光线上的各个3D采样点分别在所述视角下的2D图像中对应的像素点,并从所述视角下的2D图像中提取各个像素点的特征向量;
对提取的各个像素点的特征向量进行插值,得到所述视角下的2D图像的特征向量;
根据所述2D图像的特征向量、所述视角的方向以及所述各个3D采样点的三维坐标,得到所述光线的密度值和颜色值。
9.如权利要求1-6中任一项所述的方法,其特征在于,所述目标视图为所述多张视图中可视化信息熵最大的视图。
10.一种重建设备,其特征在于,包括存储器、处理器;
所述存储器与所述处理器连接,被配置为存储计算机程序指令;
所述处理器被配置为根据所述计算机程序指令,执行以下操作:
根据相机在至少一个视角下采集的目标对象的2D图像,绘制所述目标对象的三维模型,每个视角对应一张2D图像;
分别获取所述三维模型在多个视点位置下的视图;
针对获取的多张视图中的任意一张视图,根据所述三维模型的各个体素在所述视图中的属性值,确定所述视图的可视化信息熵;
根据所述多张视图各自的可视信息熵,确定一张目标视图,并将所述目标视图对应的视点位置作为目标视点位置;
根据所述目标视点位置,确定观看所述三维模型的视点路径。
CN202110879984.5A 2021-08-02 2021-08-02 一种确定三维场景中视点路径的方法及设备 Active CN113628348B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110879984.5A CN113628348B (zh) 2021-08-02 2021-08-02 一种确定三维场景中视点路径的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110879984.5A CN113628348B (zh) 2021-08-02 2021-08-02 一种确定三维场景中视点路径的方法及设备

Publications (2)

Publication Number Publication Date
CN113628348A true CN113628348A (zh) 2021-11-09
CN113628348B CN113628348B (zh) 2024-03-15

Family

ID=78382150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110879984.5A Active CN113628348B (zh) 2021-08-02 2021-08-02 一种确定三维场景中视点路径的方法及设备

Country Status (1)

Country Link
CN (1) CN113628348B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114119838A (zh) * 2022-01-24 2022-03-01 阿里巴巴(中国)有限公司 体素模型与图像生成方法、设备及存储介质
CN114549731A (zh) * 2022-04-22 2022-05-27 清华大学 视角图像的生成方法、装置、电子设备及存储介质
CN114663603A (zh) * 2022-05-24 2022-06-24 成都索贝数码科技股份有限公司 一种基于神经辐射场的静态对象三维网格模型生成方法
CN114820901A (zh) * 2022-04-08 2022-07-29 浙江大学 一种基于神经网络的大场景自由视点插值方法
CN114972632A (zh) * 2022-04-21 2022-08-30 阿里巴巴达摩院(杭州)科技有限公司 基于神经辐射场的图像处理方法及装置
CN115018979A (zh) * 2022-05-26 2022-09-06 上海商汤临港智能科技有限公司 图像重建方法、装置、电子设备、存储介质和程序产品
CN115222792A (zh) * 2022-08-29 2022-10-21 中铁云网信息科技有限公司 一种铁路桥梁数字孪生建模方法
CN115330940A (zh) * 2022-08-09 2022-11-11 北京百度网讯科技有限公司 一种三维重建方法、装置、设备和介质
WO2023138477A1 (zh) * 2022-01-24 2023-07-27 阿里巴巴(中国)有限公司 三维模型重建与图像生成方法、设备以及存储介质
JP7360757B1 (ja) * 2023-05-26 2023-10-13 bestat株式会社 学習装置、サーバ装置、及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1350681A (zh) * 1999-03-18 2002-05-22 纽约州立大学研究基金会 实行三维虚拟检查、导引行进和可视化的系统和方法
CN104361624A (zh) * 2014-11-20 2015-02-18 南京大学 一种计算机三维模型中全局光照的渲染方法
CN108537872A (zh) * 2018-03-07 2018-09-14 青岛海信电器股份有限公司 一种图像渲染方法、移动设备和云端设备
CN110998671A (zh) * 2019-11-22 2020-04-10 驭势科技(南京)有限公司 三维重建方法、装置、系统和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1350681A (zh) * 1999-03-18 2002-05-22 纽约州立大学研究基金会 实行三维虚拟检查、导引行进和可视化的系统和方法
CN104361624A (zh) * 2014-11-20 2015-02-18 南京大学 一种计算机三维模型中全局光照的渲染方法
CN108537872A (zh) * 2018-03-07 2018-09-14 青岛海信电器股份有限公司 一种图像渲染方法、移动设备和云端设备
CN110998671A (zh) * 2019-11-22 2020-04-10 驭势科技(南京)有限公司 三维重建方法、装置、系统和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIANG W: "Panoramic 3D reconstruction by fusing color intensity and laser range data", 《IEEJ TRANSACTIONS ON ELECTRONICS, INFORMATION AND SYSTEMS》, pages 568 - 576 *
MILDENHALL B: "Nerf: Representing scenes as neural radiance fields for view synthesis", 《EUROPEAN CONFERENCE ON COMPUTER VISION》, pages 405 - 421 *
PERE-PAU VAZQUEZZ: "Viewpoint Selection using Viewpoint Entropy", 《VMV 2001STUTTGART》, pages 273 - 280 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023138477A1 (zh) * 2022-01-24 2023-07-27 阿里巴巴(中国)有限公司 三维模型重建与图像生成方法、设备以及存储介质
CN114119838B (zh) * 2022-01-24 2022-07-22 阿里巴巴(中国)有限公司 体素模型与图像生成方法、设备及存储介质
CN114119838A (zh) * 2022-01-24 2022-03-01 阿里巴巴(中国)有限公司 体素模型与图像生成方法、设备及存储介质
CN114820901A (zh) * 2022-04-08 2022-07-29 浙江大学 一种基于神经网络的大场景自由视点插值方法
CN114820901B (zh) * 2022-04-08 2024-05-31 浙江大学 一种基于神经网络的大场景自由视点插值方法
CN114972632A (zh) * 2022-04-21 2022-08-30 阿里巴巴达摩院(杭州)科技有限公司 基于神经辐射场的图像处理方法及装置
CN114549731A (zh) * 2022-04-22 2022-05-27 清华大学 视角图像的生成方法、装置、电子设备及存储介质
CN114549731B (zh) * 2022-04-22 2022-09-16 清华大学 视角图像的生成方法、装置、电子设备及存储介质
CN114663603A (zh) * 2022-05-24 2022-06-24 成都索贝数码科技股份有限公司 一种基于神经辐射场的静态对象三维网格模型生成方法
CN115018979A (zh) * 2022-05-26 2022-09-06 上海商汤临港智能科技有限公司 图像重建方法、装置、电子设备、存储介质和程序产品
CN115330940A (zh) * 2022-08-09 2022-11-11 北京百度网讯科技有限公司 一种三维重建方法、装置、设备和介质
CN115222792B (zh) * 2022-08-29 2023-10-10 中铁云网信息科技有限公司 一种铁路桥梁数字孪生建模方法
CN115222792A (zh) * 2022-08-29 2022-10-21 中铁云网信息科技有限公司 一种铁路桥梁数字孪生建模方法
JP7360757B1 (ja) * 2023-05-26 2023-10-13 bestat株式会社 学習装置、サーバ装置、及びプログラム

Also Published As

Publication number Publication date
CN113628348B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN113628348B (zh) 一种确定三维场景中视点路径的方法及设备
CN110378838B (zh) 变视角图像生成方法,装置,存储介质及电子设备
KR101560508B1 (ko) 3차원 이미지 모델 조정을 위한 방법 및 장치
Jin et al. 3d reconstruction using deep learning: a survey
CN110381268B (zh) 生成视频的方法,装置,存储介质及电子设备
CN113421328B (zh) 一种三维人体虚拟化重建方法及装置
CN111739167B (zh) 3d人头重建方法、装置、设备和介质
US20200057778A1 (en) Depth image pose search with a bootstrapped-created database
CN114450719A (zh) 人体模型重建方法、重建系统及存储介质
CN113628327A (zh) 一种头部三维重建方法及设备
CN115951784B (zh) 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法
Liu et al. High-quality textured 3D shape reconstruction with cascaded fully convolutional networks
CN117557714A (zh) 三维重建方法、电子设备及可读存储介质
CN113313828A (zh) 基于单图片本征图像分解的三维重建方法与系统
Kang et al. Competitive learning of facial fitting and synthesis using uv energy
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
CN117994480A (zh) 一种轻量化手部重建与驱动的方法
Li et al. Deep learning based monocular depth prediction: Datasets, methods and applications
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN115272608A (zh) 一种人手重建方法及设备
CN114863061A (zh) 一种远程监护医学图像处理的三维重建方法及系统
Maxim et al. A survey on the current state of the art on deep learning 3D reconstruction
Li et al. Three-dimensional motion estimation via matrix completion
CN113673567A (zh) 基于多角度子区域自适应的全景图情感识别方法及系统
CN114049678B (zh) 一种基于深度学习的面部动作捕捉方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant