CN116449962B - 内部场景ar可视化方法、装置以及设备 - Google Patents
内部场景ar可视化方法、装置以及设备 Download PDFInfo
- Publication number
- CN116449962B CN116449962B CN202310701458.9A CN202310701458A CN116449962B CN 116449962 B CN116449962 B CN 116449962B CN 202310701458 A CN202310701458 A CN 202310701458A CN 116449962 B CN116449962 B CN 116449962B
- Authority
- CN
- China
- Prior art keywords
- pose
- target object
- internal scene
- internal
- scene image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007794 visualization technique Methods 0.000 title abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000009877 rendering Methods 0.000 claims abstract description 13
- 230000005855 radiation Effects 0.000 claims description 63
- 210000005036 nerve Anatomy 0.000 claims description 50
- 238000012549 training Methods 0.000 claims description 40
- 239000000523 sample Substances 0.000 claims description 21
- 230000001537 neural effect Effects 0.000 claims description 13
- 230000000007 visual effect Effects 0.000 claims description 9
- 238000012800 visualization Methods 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000003287 optical effect Effects 0.000 description 18
- 238000004590 computer program Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 239000011521 glass Substances 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04815—Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Geometry (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本公开的实施例提供了一种内部场景AR可视化方法、装置以及设备,应用于人工智能技术领域。该方法包括:获取目标对象的外部场景中AR设备对应的第一位姿,第一位姿为AR设备的第一摄像头的位姿,或者AR设备用户的眼睛的位姿;根据第一位姿对目标对象的预先训练的内部场景隐式三维模型进行渲染,得到第一位姿对应的目标对象内部场景图像;将目标对象内部场景图像显示在AR设备的屏幕。以此方式,可以在目标对象的外部场景中AR显示目标对象的内部场景,为用户提供透视视角,提高用户的观察感受。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及一种内部场景AR可视化方法、装置以及设备。
背景技术
目前,可以为目标对象建立三维模型,对目标对象表面进行重建渲染得到二维图像,但不能重建得到目标对象的内部场景,无法在目标对象的外部场景中进行目标对象的内部场景的实时渲染,进而无法在目标对象的外部场景中实现增强现实(AugmentedReality,AR)显示目标对象的内部场景的透视效果。因此,如何在目标对象的外部场景中AR显示目标对象的内部场景就成为了目前亟待解决的技术问题。
发明内容
本公开的实施例提供了一种内部场景AR可视化方法、装置以及设备。
第一方面,本公开的实施例提供了一种内部场景AR可视化方法,该方法包括:
获取目标对象的外部场景中AR设备对应的第一位姿,第一位姿为AR设备的第一摄像头的位姿,或者AR设备用户的眼睛的位姿;
根据第一位姿对目标对象的预先训练的内部场景隐式三维模型进行渲染,得到第一位姿对应的目标对象内部场景图像;
将目标对象内部场景图像显示在AR设备的屏幕。
在第一方面的一些可实现方式中,内部场景隐式三维模型是通过以下步骤训练的:
实时获取目标对象的内部场景中的第二摄像头的第二位姿和第二摄像头在第二位姿下拍摄的目标对象内部场景图像;
根据第二位姿及其对应的内部场景图像对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象的内部场景隐式三维模型。
在第一方面的一些可实现方式中,该方法还包括:
每间隔预设时长便根据累积获取的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象最新的内部场景隐式三维模型。
在第一方面的一些可实现方式中,该方法还包括:
根据模型训练期间所用的第二位姿,确定内部场景隐式三维模型的适用区域;
若根据第二摄像头的位姿确定第二摄像头的可视区域处于适用区域之外,则根据累积获取的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象最新的内部场景隐式三维模型。
在第一方面的一些可实现方式中,该方法还包括:
对当前时刻获取的内部场景图像与上一时刻获取的内部场景图像,进行比对;
若比对失败,则根据累积获取的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象最新的内部场景隐式三维模型。
在第一方面的一些可实现方式中,根据累积获取的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象最新的内部场景隐式三维模型,包括:
对累积获取的第二位姿及其对应的内部场景图像中重复的第二位姿及其对应的内部场景图像进行去重;
根据去重后的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象最新的内部场景隐式三维模型。
在第一方面的一些可实现方式中,AR设备为AR眼镜,第一位姿为AR设备用户的眼睛的位姿;
将目标对象内部场景图像显示在AR设备的屏幕,包括:
针对AR设备用户的任一眼睛,将眼睛的位姿对应的目标对象内部场景图像显示在眼睛对应的镜片。
在第一方面的一些可实现方式中,第一位姿为AR设备的第一摄像头的位姿;
将目标对象内部场景图像显示在AR设备的屏幕,包括:
将目标对象内部场景图像与AR设备的第一摄像头在第一位姿下拍摄的目标对象外部场景图像融合显示在AR设备的屏幕。
第二方面,本公开的实施例提供了一种内部场景AR可视化装置,该装置包括:
获取模块,用于获取目标对象的外部场景中AR设备对应的第一位姿,第一位姿为AR设备的第一摄像头的位姿,或者AR设备佩戴用户的眼睛的位姿;
渲染模块,用于根据第一位姿对目标对象的预先训练的内部场景隐式三维模型进行渲染,得到第一位姿对应的目标对象内部场景图像;
显示模块,用于将目标对象内部场景图像显示在AR设备的屏幕。
第三方面,本公开的实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如以上所述的方法。
第四方面,本公开的实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如以上所述的方法。
在本公开的实施例中,可以在目标对象的外部场景中AR显示目标对象的内部场景,为用户提供透视视角,提高用户的观察感受。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案,不构成对本公开的限定在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了本公开的实施例提供的一种内部场景AR可视化方法的流程图;
图2示出了一种运行环境的示意图;
图3示出了本公开的实施例提供的又一种内部场景AR可视化方法的流程图;
图4示出了本公开的实施例提供的一种内部场景AR可视化装置的结构图;
图5示出了一种能够实施本公开的实施例的示例性电子设备的结构图。
具体实施方式
为使本公开的实施例的目的、技术方案和优点更加清楚,下面将结合本公开的实施例中的附图,对本公开的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
针对背景技术中出现的问题,本公开的实施例提供了一种内部场景AR可视化方法、装置以及设备。具体地,获取目标对象的外部场景中AR设备对应的第一位姿,第一位姿为AR设备的第一摄像头的位姿,或者AR设备用户的眼睛的位姿;根据第一位姿对目标对象的预先训练的内部场景隐式三维模型进行渲染,得到第一位姿对应的目标对象内部场景图像;将目标对象内部场景图像显示在AR设备的屏幕。
如此一来,可以在目标对象的外部场景中AR显示目标对象的内部场景,为用户提供透视视角,提高用户的观察感受。
下面结合附图,通过具体的实施例对本公开的实施例提供的内部场景AR可视化方法、装置以及设备进行详细地说明。
图1示出了本公开的实施例提供的一种内部场景AR可视化方法的流程图,如图1所示,内部场景AR可视化方法100可以包括以下步骤:
S110,获取目标对象的外部场景中AR设备对应的第一位姿。
其中,AR设备可以是AR眼镜、AR头盔、智能手机、平板电脑等;第一位姿可以为AR设备的第一摄像头的位姿,或者AR设备用户的眼睛的位姿,位姿可以包括位置与角度。
S120,根据第一位姿对目标对象的预先训练的内部场景隐式三维模型进行渲染,得到第一位姿对应的目标对象内部场景图像。
也就是说,将第一位姿输入预先训练的内部场景隐式三维模型,由内部场景隐式三维模型进行计算,以便快速得到第一位姿对应的目标对象内部场景图像,也即由内部场景隐式三维模型所呈现的第一位姿所表征的观察视角下的目标对象内部场景画面。
需要注意的是,内部场景隐式三维模型可以通过以下步骤训练:
实时获取目标对象的内部场景中的第二摄像头的第二位姿和第二摄像头在第二位姿下拍摄的目标对象内部场景图像,其中,第二位姿包括:第二摄像头的位置与角度;
根据第二位姿及其对应的内部场景图像对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象的内部场景隐式三维模型。
需要注意的是,神经辐射场模型是一个多层感知机模型,能够实现空间点的坐标和观测方向,到该空间点的颜色和体密度的映射,其可以表示如下:
f:(x, y, z, θ, φ)→(R, G, B, σ) (1)
其中,神经辐射场模型的输入为5维向量 (x, y, z, θ, φ),前3维(x, y, z)为空间点的坐标,后2维(θ, φ)为空间点对应的观测角度,θ表示观测俯仰角度,φ表示观测水平角度;神经辐射场模型的输出为4维向量(R, G, B, σ),前三维(R, G, B)表示该空间点在当前观测角度的颜色,σ表示该空间点的体密度。
为了便于理解,这里对神经辐射场模型的训练可以具体如下:
根据第二摄像头的第二位姿,随机采样第二摄像头在不同第二位姿下发出的多条射线。
根据第二位姿及其对应的目标对象内部场景图像,确定第二位姿下发出的各射线上的空间点的坐标和对应的观测角度,以此构建空间点对应的模型训练向量。
基于模型训练向量与对应的目标对象内部场景图像,训练神经辐射场模型,得到目标对象的内部场景隐式三维模型。
例如,将模型训练向量输入到神经辐射场模型,以得到空间点的颜色和体密度,根据一条射线上的所有空间点的颜色和体密度,估计该射线在对应的目标对象内部场景图像上的像素颜色,所用公式可以如下所示:
(2)
其中,N表示射线上空间点的数量,表示射线累积量,i,j表示射线上第i,第j个空间点,/>表示该射线上第i个空间点的颜色,/>表示该射线上第i个空间点的体密度,/>,/>表示空间点的采样间隔。
利用预设的损失函数,根据像素颜色的估计结果和目标对象内部场景图像所表征的像素颜色的真值,计算当前神经辐射场模型的输出损失。其中,损失函数可以如下所示:
(3)
其中,为第i幅目标对象内部场景图像中像素对应的射线r从当前神经辐射场模型f(·)中计算得到的空间点的RGB颜色和体密度σ后,该射线在该图像上的像素颜色的估计结果,/>为该图像上的对应像素的像素颜色的真值,也即摄像头采集的此像素的像素颜色的真值,R为采样射线集。
使用后向传播算法计算当前神经辐射场模型每个模型参数的梯度,然后使用梯度下降法更新调整神经辐射场模型的模型参数,以减小神经辐射场模型的输出损失。若模型参数的调整次数达到预设次数阈值,或者神经辐射场模型的输出损失小于预设的损失阈值时,结束模型训练,并将此时的神经辐射场模型作为目标对象的内部场景隐式三维模型。
以此方式,可以基于第二位姿及其对应的内部场景图像对神经辐射场模型进行快速训练,进而得到性能较优的内部场景隐式三维模型。
可以理解的是,由于目标对象的内部场景并非固定不变,而是不断变化的。因此,可以采用以下方式对内部场景隐式三维模型进行更新:
每间隔预设时长(例如10s、20s、30s)便可以根据累积获取的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象最新的内部场景隐式三维模型。
或者,根据模型训练期间所用的第二位姿,确定内部场景隐式三维模型的适用区域,若根据第二摄像头的位姿确定第二摄像头的可视区域处于适用区域之外,则根据累积获取的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象最新的内部场景隐式三维模型。
又或者,对当前时刻获取的内部场景图像与上一时刻获取的内部场景图像,进行比对,也即判断两者是否相似,若比对失败,也即两者差异巨大,则根据累积获取的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象最新的内部场景隐式三维模型。
以此方式,可以有效保证内部场景隐式三维模型与内部场景相匹配,从而进一步提高内部场景隐式三维模型的使用效果。
示例性地,为了提高模型更新效率,可以对累积获取的第二位姿及其对应的内部场景图像中重复的第二位姿及其对应的内部场景图像进行去重,根据去重后的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象最新的内部场景隐式三维模型。
S130,将目标对象内部场景图像显示在AR设备的屏幕。
可选地,若AR设备为AR眼镜,第一位姿为AR设备用户的眼睛的位姿,针对AR设备用户的任一眼睛,可以将眼睛的位姿对应的目标对象内部场景图像显示在眼睛对应的镜片,从而能够利用双目不同的视角,提高用户观察时的立体感受。
此外,若第一位姿为AR设备的第一摄像头的位姿,则可以将目标对象内部场景图像与AR设备的第一摄像头在第一位姿下拍摄的目标对象外部场景图像融合显示在AR设备的屏幕。
也就是说,图像显示时,在目标对象外部场景图像中的指定位置和指定角度,叠加显示目标对象内部场景图像。其中,该指定位置和指定角度与内部场景真实的位置和角度相对应,相当于用户在外部场景中透过第一摄像头拍摄的图像观察到内部场景。
在本公开的实施例中,可以在目标对象的外部场景中AR显示目标对象的内部场景,为用户提供透视视角,提高用户的观察感受。
值得注意的是,这里显示的内部场景与用户直接观察到的内部场景一致,不同的是,前者为基于内部场景隐式三维模型重建的与内部场景相对应的虚拟场景,用户可以通过移动AR设备到不同的位姿(也即视角),来查看在不同视角下的虚拟场景。
下面结合图2、图3对本公开的实施例提供的内部场景AR可视化方法进行详细说明,具体如下:
图2示出了一种运行环境的示意图,如图2所示,运行环境200可以包括:第二摄像头、定位跟踪系统、数据转发设备、服务器、AR设备。
其中,第二摄像头部署于目标对象的内部场景;定位跟踪系统包括:定位仪、定位跟踪器、刚性支架;AR设备部署于目标对象的外部场景;数据转发设备、服务器、AR设备之间的通信连接方式可以是有线连接或无线连接。其中,该无线连接可以是WiFi连接、5G移动网络连接等。
图3示出了本公开的实施例提供的又一种内部场景AR可视化方法的流程图,该内部场景AR可视化方法可以应用于图2所示的运行环境200,包括以下步骤:
S310,数据转发设备向服务器转发第二摄像头实时拍摄的目标对象内部场景图像,以及定位跟踪系统实时采集的第二摄像头的第二位姿。
S320,服务器根据第二位姿及其对应的内部场景图像对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象的内部场景隐式三维模型。
S330,服务器向AR设备发送内部场景隐式三维模型。
S340,数据转发设备向AR设备转发定位跟踪系统实时采集的AR设备的第一摄像头的位姿,也即第一位姿。
S350,AR设备根据第一位姿对内部场景隐式三维模型进行渲染,得到第一位姿对应的目标对象内部场景图像。
S360,AR设备将目标对象内部场景图像与第一摄像头在第一位姿下拍摄的目标对象外部场景图像融合显示。
下面结合一个具体的应用场景(内窥镜导航),对本公开的实施例提供的内部场景AR可视化方法进行详细说明,具体如下:
通过内窥镜拍摄关节内部场景图像,通过光学定位跟踪系统采集内窥镜位姿,基于获取的数据训练得到关节的内部场景隐式三维模型,通过AR设备在关节外部场景实时查看不同角度关节内部情况,便于手术操作。AR设备可以实时刷新其显示内容,以便于用户预览AR设备的摄像头当前采集的图像。当用户将AR设备的摄像头对准关节部位时,显示的图像包含该关节内部场景的该角度图像。
光学定位跟踪系统包括:光学定位仪、光学跟踪器、刚性支架。光学跟踪器用于反射光学定位仪发出的红外光线;刚性支架用于安装光学跟踪器;光学定位仪用于接收光学跟踪器反射的红外光线,并对光学跟踪器进行三维空间定位。光学跟踪器安装在刚性支架上,刚性支架以固定方式装配在内窥镜和AR设备上。
在用户启动内窥镜录像之后,可以握持内窥镜,将内窥镜探头对准用户想要重建的关节内部场景,并带动探头移动,使探头能够采集到包含关节内部场景不同视角的图像。同时,内窥镜显示器中的显示画面会跟随用户的移动,实时显示探头采集的不同视角下的关节内部场景的画面。
内窥镜获取针对关节内部场景的多张连续图像。关节内部场景是指真实环境中的关节内部物理空间。该多张图像为从不同视角拍摄关节内部场景时,获得的多张连续的图像序列。
内窥镜获取的图像数据,按照固定帧率通过数据转发设备传输至服务器。光学定位仪实时追踪内窥镜支架上的光学跟踪器,能够获得内窥镜支架的位姿Te1,位姿数据通过数据转发设备实时传输至服务器。将图像数据与位姿数据时间对齐。
利用内窥镜探头和内窥镜支架固有的坐标变换关系Te2,可以获得手术场景坐标系下的内窥镜探头位姿Te=Te1·Te2。内窥镜探头位姿是指拍摄关节内部场景时,探头在真实环境中的位置和角度,该位姿反映了探头拍照或录制到视频中的某一帧图像时,探头的位置和朝向。一张图像对应一个探头位姿。
以该探头获取的图像和探头位姿作为训练数据,输入神经辐射场模型,能够使得训练得到的内部场景隐式三维模型也是和关节内部场景的位置、方位和尺度对齐的模型。这样,可以使得后续AR设备通过摄像头实时采集的图像显示该关节内部场景时,该模型素材叠加在图像中的位置和角度,与其在内部场景隐式三维模型中相对应的位置和角度一致。
新内部场景隐式三维模型训练完成后,服务器向AR设备发送该模型。
光学定位仪实时追踪AR设备支架上的光学跟踪器位姿,能够获得AR设备支架的位姿Ta1,利用AR设备的摄像头和AR设备支架固有的坐标变换关系Ta2,可以获得手术场景坐标系下的AR设备的摄像头位姿Ta=Ta1·Ta2,并传输至AR设备。
AR设备根据其摄像头位姿对读取的内部场景隐式三维模型进行渲染,得到对应的关节内部场景图像,进而将其与对应的关节外部场景图像融合显示。
如此一来,可以通过拍摄针对关节部位的照片或视频来重建出关节内部场景,并根据用户输入的视角,显示该外部视角下的关节内部场景所呈现的画面,让用户体验透视的效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本公开所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。
图4示出了本公开的实施例提供的一种内部场景AR可视化装置的结构图,如图4所示,内部场景AR可视化装置400可以包括:
获取模块410,用于获取目标对象的外部场景中AR设备对应的第一位姿,第一位姿为AR设备的第一摄像头的位姿,或者AR设备佩戴用户的眼睛的位姿。
渲染模块420,用于根据第一位姿对目标对象的预先训练的内部场景隐式三维模型进行渲染,得到第一位姿对应的目标对象内部场景图像。
显示模块430,用于将目标对象内部场景图像显示在AR设备的屏幕。
在一些实施例中,内部场景隐式三维模型是通过以下步骤训练的:
实时获取目标对象的内部场景中的第二摄像头的第二位姿和第二摄像头在第二位姿下拍摄的目标对象内部场景图像;
根据第二位姿及其对应的内部场景图像对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象的内部场景隐式三维模型。
在一些实施例中,训练步骤还包括:
每间隔预设时长便根据累积获取的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象最新的内部场景隐式三维模型。
在一些实施例中,训练步骤还包括:
根据模型训练期间所用的第二位姿,确定内部场景隐式三维模型的适用区域;
若根据第二摄像头的位姿确定第二摄像头的可视区域处于适用区域之外,则根据累积获取的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象最新的内部场景隐式三维模型。
在一些实施例中,训练步骤还包括:
对当前时刻获取的内部场景图像与上一时刻获取的内部场景图像,进行比对;
若比对失败,则根据累积获取的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象最新的内部场景隐式三维模型。
在一些实施例中,训练步骤还包括:
对累积获取的第二位姿及其对应的内部场景图像中重复的第二位姿及其对应的内部场景图像进行去重;
根据去重后的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为目标对象最新的内部场景隐式三维模型。
在一些实施例中,AR设备为AR眼镜,第一位姿为AR设备用户的眼睛的位姿。
显示模块430具体用于:
针对AR设备用户的任一眼睛,将眼睛的位姿对应的目标对象内部场景图像显示在眼睛对应的镜片。
在一些实施例中,第一位姿为AR设备的第一摄像头的位姿。
显示模块430具体用于:
将目标对象内部场景图像与AR设备的第一摄像头在第一位姿下拍摄的目标对象外部场景图像融合显示在AR设备的屏幕。
可以理解的是,图4所示的内部场景AR可视化装置400中的各个模块/单元具有实现图1所示的内部场景AR可视化方法100中的各个步骤的功能,并能达到其相应的技术效果,为了简洁,在此不再赘述。
图5示出了一种能够实施本公开的实施例的示例性电子设备的结构图。电子设备500旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备500还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,电子设备500可以包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM503中,还可存储电子设备500操作所需的各种程序和数据。计算单元501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
电子设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如方法100。例如,在一些实施例中,方法100可被实现为计算机程序产品,包括计算机程序,其被有形地包含于计算机可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序加载到RAM503并由计算单元501执行时,可以执行上文描述的方法100的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法100。
本文中以上描述的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,计算机可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。计算机可读介质可以是计算机可读信号介质或计算机可读储存介质。计算机可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。计算机可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要注意的是,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行方法100,并达到本公开的实施例执行其方法达到的相应技术效果,为简洁描述,在此不再赘述。
另外,本公开还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现方法100。
为了提供与用户的交互,可以在计算机上实施以上描述的实施例,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将以上描述的实施例实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (7)
1.一种内部场景AR可视化方法,其特征在于,所述方法包括:
实时获取目标对象的内部场景中的内窥镜探头的第二位姿和所述内窥镜探头在所述第二位姿下拍摄的目标对象内部场景图像;
根据所述第二位姿及其对应的内部场景图像对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为所述目标对象的内部场景隐式三维模型;
获取目标对象的外部场景中AR设备的第一摄像头的第一位姿;
根据所述第一位姿对所述内部场景隐式三维模型进行渲染,得到所述第一位姿对应的目标对象内部场景图像;
将所述目标对象内部场景图像与所述AR设备的第一摄像头在第一位姿下拍摄的目标对象外部场景图像融合显示在所述AR设备的屏幕;
所述AR设备的第一摄像头的第一位姿、所述内窥镜探头的第二位姿皆属于手术场景坐标系下。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
每间隔预设时长便根据累积获取的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为所述目标对象最新的内部场景隐式三维模型。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据模型训练期间所用的第二位姿,确定所述内部场景隐式三维模型的适用区域;
若根据所述内窥镜探头的位姿确定所述内窥镜探头的可视区域处于适用区域之外,则根据累积获取的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为所述目标对象最新的内部场景隐式三维模型。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对当前时刻获取的内部场景图像与上一时刻获取的内部场景图像,进行比对;
若比对失败,则根据累积获取的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为所述目标对象最新的内部场景隐式三维模型。
5.根据权利要求2-4中任一项所述的方法,其特征在于,所述根据累积获取的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为所述目标对象最新的内部场景隐式三维模型,包括:
对累积获取的第二位姿及其对应的内部场景图像中重复的第二位姿及其对应的内部场景图像进行去重;
根据去重后的第二位姿及其对应的内部场景图像,对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为所述目标对象最新的内部场景隐式三维模型。
6.一种内部场景AR可视化装置,其特征在于,所述装置包括:
获取模块,用于实时获取目标对象的内部场景中的内窥镜探头的第二位姿和所述内窥镜探头在所述第二位姿下拍摄的目标对象内部场景图像;
训练模块,用于根据所述第二位姿及其对应的内部场景图像对预设的神经辐射场模型进行训练,将训练完成的神经辐射场模型作为所述目标对象的内部场景隐式三维模型;
所述获取模块,还用于获取目标对象的外部场景中AR设备的第一摄像头的第一位姿;
渲染模块,用于根据所述第一位姿对所述内部场景隐式三维模型进行渲染,得到所述第一位姿对应的目标对象内部场景图像;
显示模块,用于将所述目标对象内部场景图像与所述AR设备的第一摄像头在第一位姿下拍摄的目标对象外部场景图像融合显示在所述AR设备的屏幕;
所述AR设备的第一摄像头的第一位姿、所述内窥镜探头的第二位姿皆属于手术场景坐标系下。
7. 一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310701458.9A CN116449962B (zh) | 2023-06-14 | 2023-06-14 | 内部场景ar可视化方法、装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310701458.9A CN116449962B (zh) | 2023-06-14 | 2023-06-14 | 内部场景ar可视化方法、装置以及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116449962A CN116449962A (zh) | 2023-07-18 |
CN116449962B true CN116449962B (zh) | 2023-09-29 |
Family
ID=87125981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310701458.9A Active CN116449962B (zh) | 2023-06-14 | 2023-06-14 | 内部场景ar可视化方法、装置以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116449962B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109035414A (zh) * | 2018-06-20 | 2018-12-18 | 深圳大学 | 增强现实手术图像的生成方法、装置、设备及存储介质 |
CN111210498A (zh) * | 2018-11-02 | 2020-05-29 | 辉达公司 | 降低多边形网格的细节水平以减少被渲染几何的复杂度 |
CN112862901A (zh) * | 2021-02-20 | 2021-05-28 | 清华大学 | 基于多视视频与时空神经辐射场的实验动物视场模拟方法 |
CN113706504A (zh) * | 2021-08-27 | 2021-11-26 | 上海米哈游璃月科技有限公司 | 一种残影处理方法、装置、存储介质及电子设备 |
CN113971719A (zh) * | 2021-10-26 | 2022-01-25 | 上海脉衍人工智能科技有限公司 | 一种神经辐射场采样与重建的系统、方法及设备 |
WO2022021309A1 (zh) * | 2020-07-31 | 2022-02-03 | 深圳市大疆创新科技有限公司 | 建立模型的方法、装置、电子设备及计算机可读存储介质 |
CN114329668A (zh) * | 2021-12-31 | 2022-04-12 | 西安交通大学 | 一种基于cad模型的rar网格优化方法及系统 |
CN115035178A (zh) * | 2022-05-25 | 2022-09-09 | 武汉工程大学 | 一种增强现实显示系统、方法及存储介质 |
CN115082639A (zh) * | 2022-06-15 | 2022-09-20 | 北京百度网讯科技有限公司 | 图像生成方法、装置、电子设备和存储介质 |
CN115439606A (zh) * | 2022-08-31 | 2022-12-06 | 华为技术有限公司 | 三维重建方法、图形界面、系统及相关装置 |
WO2023085854A1 (en) * | 2021-11-12 | 2023-05-19 | Samsung Electronics Co., Ltd. | Method for building scene representation with feed-forward correction for real-time view synthesis |
-
2023
- 2023-06-14 CN CN202310701458.9A patent/CN116449962B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109035414A (zh) * | 2018-06-20 | 2018-12-18 | 深圳大学 | 增强现实手术图像的生成方法、装置、设备及存储介质 |
CN111210498A (zh) * | 2018-11-02 | 2020-05-29 | 辉达公司 | 降低多边形网格的细节水平以减少被渲染几何的复杂度 |
WO2022021309A1 (zh) * | 2020-07-31 | 2022-02-03 | 深圳市大疆创新科技有限公司 | 建立模型的方法、装置、电子设备及计算机可读存储介质 |
CN112862901A (zh) * | 2021-02-20 | 2021-05-28 | 清华大学 | 基于多视视频与时空神经辐射场的实验动物视场模拟方法 |
CN113706504A (zh) * | 2021-08-27 | 2021-11-26 | 上海米哈游璃月科技有限公司 | 一种残影处理方法、装置、存储介质及电子设备 |
CN113971719A (zh) * | 2021-10-26 | 2022-01-25 | 上海脉衍人工智能科技有限公司 | 一种神经辐射场采样与重建的系统、方法及设备 |
WO2023085854A1 (en) * | 2021-11-12 | 2023-05-19 | Samsung Electronics Co., Ltd. | Method for building scene representation with feed-forward correction for real-time view synthesis |
CN114329668A (zh) * | 2021-12-31 | 2022-04-12 | 西安交通大学 | 一种基于cad模型的rar网格优化方法及系统 |
CN115035178A (zh) * | 2022-05-25 | 2022-09-09 | 武汉工程大学 | 一种增强现实显示系统、方法及存储介质 |
CN115082639A (zh) * | 2022-06-15 | 2022-09-20 | 北京百度网讯科技有限公司 | 图像生成方法、装置、电子设备和存储介质 |
CN115439606A (zh) * | 2022-08-31 | 2022-12-06 | 华为技术有限公司 | 三维重建方法、图形界面、系统及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116449962A (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108335353B (zh) | 动态场景的三维重建方法、装置和系统、服务器、介质 | |
US20210350630A1 (en) | Optimizing head mounted displays for augmented reality | |
US11270460B2 (en) | Method and apparatus for determining pose of image capturing device, and storage medium | |
US10719939B2 (en) | Real-time mobile device capture and generation of AR/VR content | |
Reinbacher et al. | Real-time panoramic tracking for event cameras | |
JP2023175052A (ja) | 3次元空間内の姿勢推定 | |
JP2021515939A (ja) | 単眼深度推定方法およびその装置、機器ならびに記憶媒体 | |
US20170330375A1 (en) | Data Processing Method and Apparatus | |
JP2016522485A (ja) | 再構成からの隠消現実感効果および媒介現実感効果 | |
KR20180051607A (ko) | 픽셀 속도들을 사용하는 전자 디스플레이 안정화 | |
US20170180721A1 (en) | System and method for performing electronic display stabilization via retained lightfield rendering | |
CN110310373B (zh) | 一种增强现实设备的图像处理方法和增强现实设备 | |
CN113315878A (zh) | 单程对象扫描 | |
CN107862733B (zh) | 基于视线更新算法的大规模场景实时三维重建方法和系统 | |
US11044398B2 (en) | Panoramic light field capture, processing, and display | |
JP2023511670A (ja) | 多視点カメラシステムからのデータを用いるなどで深度センサからの深度データを増強する方法及びシステム | |
US20210174570A1 (en) | Systems and methods for providing a mixed-reality pass-through experience | |
KR20230078777A (ko) | 3차원 재구성 방법, 장치와 시스템, 매체 및 컴퓨터 기기 | |
EP3998582A1 (en) | Three-dimensional model generation method and three-dimensional model generation device | |
CN107065164B (zh) | 图像展示方法及装置 | |
WO2021185036A1 (zh) | 点云数据的生成及实时显示方法、装置、设备及介质 | |
CN116449962B (zh) | 内部场景ar可视化方法、装置以及设备 | |
CN111915739A (zh) | 一种实时三维全景信息互动影息系统 | |
CN115409949A (zh) | 模型训练方法、视角图像生成方法、装置、设备及介质 | |
CN111260544B (zh) | 数据处理方法及装置、电子设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |