CN116228620A - 定位方法、装置、系统及计算机可读存储介质 - Google Patents

定位方法、装置、系统及计算机可读存储介质 Download PDF

Info

Publication number
CN116228620A
CN116228620A CN202111449638.XA CN202111449638A CN116228620A CN 116228620 A CN116228620 A CN 116228620A CN 202111449638 A CN202111449638 A CN 202111449638A CN 116228620 A CN116228620 A CN 116228620A
Authority
CN
China
Prior art keywords
image
neural network
virtual image
features
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111449638.XA
Other languages
English (en)
Inventor
李楠宇
陈日清
余坤璋
刘润南
徐宏
苏晨晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Kunbo Biotechnology Co Ltd
Original Assignee
Hangzhou Kunbo Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Kunbo Biotechnology Co Ltd filed Critical Hangzhou Kunbo Biotechnology Co Ltd
Priority to CN202111449638.XA priority Critical patent/CN116228620A/zh
Publication of CN116228620A publication Critical patent/CN116228620A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30101Blood vessel; Artery; Vein; Vascular
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Biophysics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Processing (AREA)
  • Exposure Of Semiconductors, Excluding Electron Or Ion Beam Exposure (AREA)

Abstract

一种定位方法、装置及计算机可读存储介质,其中该方法包括:获取虚拟图像和拍摄图像;分别提取该虚拟图像和该拍摄图像的特征,并利用预设的互相观察模块对提取的特征进行空间变换;根据空间变换的结果,确定该拍摄图像对应在该虚拟图像中的位置。本申请中的方法、装置和计算机可读存储介质可确保定位的稳定性和准确性。

Description

定位方法、装置、系统及计算机可读存储介质
技术领域
本申请实施例涉及通信技术领域,尤其涉及一种定位方法、装置、系统及计算机可读存储介质。
背景技术
当前在图像定位时,经常会应用到图像识别技术。现有的图像识别技术,主要是提取两个图像中的关键点特征,然后直接将提取的特征进行比较,并根据比较结果确定二者之间的对应关系。当任一图像中存在遮挡、扭曲、形变等情况时,难以通过直接比较从两个图像中提取到的特征来确定两个图像之间的对应关系,往往识别率较低,容易出现误判,从而影响定位的稳定性和准确性。
发明内容
本申请实施例提供一种定位方法、装置及计算机可读存储介质,通过利用预设的相互观察模块对图像进行多角度的空间变换,可提高定位的稳定性和准确性。
本申请实施例一方面提供了一种定位方法,包括:
获取虚拟图像和拍摄图像;
分别提取所述虚拟图像和所述拍摄图像的特征,并利用预设的互相观察模块对提取的特征进行空间变换;
根据空间变换的结果,确定所述拍摄图像对应在所述虚拟图像中的位置。
本申请实施例一方面还提供了一种定位装置,包括:
获取模块,用于获取虚拟图像和拍摄图像;
提取模块,用于分别提取所述虚拟图像和所述拍摄图像的特征,并利用预设的互相观察模块对提取的特征进行空间变换;
定位模块,用于根据空间变换的结果,确定所述拍摄图像对应在所述虚拟图像中的位置。
本申请实施例一方面还提供了一种电子装置,包括:
存储器和处理器;
所述存储器存储有可执行计算机程序;
与所述存储器耦合的所述处理器,调用所述存储器中存储的所述可执行计算机程序,执行如上述定位方法中的各步骤。
本申请实施例一方面还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器运行时,实现如上述实施例提供的定位方法。
从上述本申请各实施例可知,本申请通过利用预设的互相观察模块对虚拟图像和拍摄图像的特征进行空间变换,并根据空间变换后的特征确定该拍摄图像对应在该虚拟图像中的位置,可实现从不同角度对虚拟图像和拍摄图像的特征进行比较,从而可以准确得到拍摄图像对应在虚拟图像中的位置,可确保定位的稳定性和准确性,同时无需额外获取不同角度的虚拟图像和相应的拍摄图像,提升了定位效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的一种定位方法的实现流程示意图;
图2为本申请另一实施例提供的一种定位方法的实现流程示意图;
图3为本申请一实施例提供的一种定位方法中最具有判别性的部位的示意图;
图4为本申请实施例提供的定位方法中的神经网络结构示意图;
图5为本申请实施例提供的定位方法的一应用例的流程示意图;
图6为本申请一实施例提供的一种定位装置的结构示意图;
图7为本申请一实施例提供的电子装置的硬件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
当前在图像定位时,经常会应用到图像识别技术。而在现有的图像识别技术中,通常会提取两个图像中的关键点特征,然后直接将提取到的特征进行比较,并根据比较结果确定二者之间的对应关系。而当任一图像中存在遮挡、扭曲、形变等情况时,难以通过直接比较从两个图像中提取到的特征来确定两个图像之间的关联关系,存在识别率较低以及容易出现误判等问题,从而影响定位的稳定性和准确性。
随着医疗技术的发展,图像识别技术还被应用到手术机器人中。医生可以在手术过程中,借助手术机器人的导航系统,通过操作手术机器人的手柄,运用机械臂完成手术,从而提高手术的精准度和治疗效果。例如,在术前的支气管镜的检查中,医生通过人工观察CT(Computed Tomography,电子计算机断层扫描)重建的虚拟支气管树图像来确定相应的手术路径。而在术中导航时,需要医生不断地观察和比较由手术机器人上的支气管镜采集到的拍摄图像的特征数据和虚拟支气管树图像的特征数据,从而确定拍摄图像在虚拟支气管树的确切位置。在这一过程中,由于手术路径规划和定位都依赖于医生的主观判断,需要医生人工完成,如果医生缺乏经验或者出现精力分散的情况,那么很容易出现误判,影响手术的精准度和治疗效果。
因此,本申请中通过利用可模拟多视角观察的相互观察模块,可确保定位的稳定性和准确性。下面结合实施例进行详细说明。
参见图1,本申请一实施例提供的定位方法的实现流程图。该方法可以应用于计算机装置,如:台式计算机、服务器等非可在移动中进行数据处理的计算机装置,或者,智能手机、平板电脑、手提电脑、机器人等可在移动中进行数据处理的计算机装置。如图1所示,该方法包括:
步骤S101、获取虚拟图像和拍摄图像;
于本实施例中,虚拟图像可以是通过CT影像重构的支气管、肠道、血管等器官的图像,目前重构方法有很多,本申请不做具体限定。当然,该虚拟图像还可以是采用重构方法得到的非器官的图像等,例如采用虚拟现实(VR)的重构方法得到的铁路隧道等的虚拟图像,本申请并不对此进行限制。拍摄图像可以是由摄像装置实时拍摄到的对应于前述虚拟图像的实际图像,例如,该拍摄图像可以是由配置在内窥镜前端的微型摄像设备实时拍摄得到的图像。
步骤S102、分别提取该虚拟图像和该拍摄图像的特征,并利用预设的互相观察模块对提取的特征进行空间变换;
步骤S103、根据空间变换的结果,确定该拍摄图像对应在该虚拟图像中的位置。
具体的,该虚拟图像和该拍摄图像的特征可以但不限于包括图像的纹理特征和形状特征。通过利用预设的互相观察模块对该虚拟图像和该拍摄图像的特征进行空间变换,以从多个不同角度对该虚拟图像和该拍摄图像进行观察,并根据空间变换后的该虚拟图像和该拍摄图像的特征,确定该拍摄图像对应在该虚拟图像中的位置。
本实施例提供的定位方法,通过利用预设的互相观察模块对虚拟图像和拍摄图像的特征进行空间变换,并根据空间变换后的特征确定该拍摄图像对应在该虚拟图像中的位置,可实现从不同角度对虚拟图像和拍摄图像的特征进行比较,从而可以准确得到拍摄图像对应在虚拟图像中的位置,可确保定位的稳定性和准确性,同时无需额外获取不同角度的虚拟图像和相应的拍摄图像,提升了定位效率。
参见图2,本申请另一实施例提供的定位方法的实现流程图。该方法可以应用于计算机装置,如:台式计算机、服务器等非可在移动中进行数据处理的计算机装置,或者,智能手机、平板电脑、手提电脑、机器人等可在移动中进行数据处理的计算机装置。如图2所示,该方法包括:
步骤S201、构建孪生神经网络,该孪生神经网络包括结构相同且共享权重的第一卷积神经网络和第二卷积神经网络。
步骤S202、按照从孪生神经网络的浅层至深层的顺序,在第一卷积神经网络和第二卷积神经网络之间加入多个互相观察模块。
步骤S203、利用第一卷积神经网络提取虚拟图像的特征,并利用第二卷积神经网络提取拍摄图像的特征。
孪生神经网络(Siamese neural network),又名双生神经网络,是根据两个人工神经网络建立的耦合构架。孪生神经网络以两个样本为输入,输出其嵌入高维度空间的表征,以比较两个样本的相似程度。
于本实施例中,孪生神经网络是由结构相同或相似且共享权重的第一卷积神经网络和第二卷积神经网络拼接而成。其中,第一卷积神经网络用于提取虚拟图像的特征,第二卷积神经网络用于提取拍摄图像的特征。
虚拟图像可以是通过CT影像重构的支气管、肠道、血管等虚拟器官的图像,目前重构方法有很多,本申请不做具体限定。拍摄图像例如可以是由配置在内窥镜前端的微型摄像装置实时拍摄到的图像。
互相观察模块用于根据第一卷积神经网络和第二卷积神经网络提取的特征,对虚拟图像和拍摄图像进行空间变换,以从多个不同的视角从浅至深地观察该虚拟图像和该拍摄图像。
进一步的,第一卷积神经网络和第二卷积神经网络提取的特征包括纹理特征和形状特征,步骤S203中利用第一卷积神经网络提取虚拟图像的特征,并利用第二卷积神经网络提取拍摄图像的特征,具体包括:
利用第一卷积神经网络的浅层提取虚拟图像的纹理特征,利用第一卷积神经网络的深层提取虚拟图像的形状特征;以及,利用第二卷积神经网络的浅层提取拍摄图像的纹理特征,利用第二卷积神经网络的深层提取拍摄图像的形状特征。
可以理解的,本实施例中的浅层指的是卷积神经网络的多层网络结构中的浅层网络层,本实施例中的深层指的是卷积神经网络的多层网络结构中的深层网络层。浅层网络层的感知区域较小,可以学习到输入数据的局部区域特征。深层网络层的感知区域较大,可以学习到输入数据更加抽象的特征。
步骤S204、利用预设的互相观察模块对提取的特征进行空间变换。
步骤S205、根据空间变换的结果,确定拍摄图像对应在虚拟图像中的位置。
具体的,互相观察模块包括空间变换网络。利用预设的互相观察模块对提取的特征进行空间变换,具体包括:
将提取的虚拟图像的纹理特征和形状特征输入空间变换网络,得到第一空间变换矩阵;利用第一空间变换矩阵,从多个不同的视角对虚拟图像进行空间变换,得到空间变换后的虚拟图像的纹理特征和形状特征;将提取的拍摄图像的纹理特征和形状特征输入该空间变换网络,得到第二空间变换矩阵;以及利用第二空间变换矩阵,从多个不同的视角对拍摄图像进行空间变换,得到空间变换后的拍摄图像的纹理特征和形状特征。通过利用空间变换网络,可以得到更加准确的第一空间变换矩阵和第二空间变换矩阵,便于对虚拟图像和拍摄图像进行空间变换,同时保证了空间变换后的虚拟图像和拍摄图像的特征的准确性。
进一步的,互相观察模块还包括第一注意力网络和第二注意力网络。根据空间变换的结果,确定拍摄图像对应在虚拟图像中的位置,具体包括:
将空间变换后的虚拟图像的纹理特征和形状特征以及空间变换后的拍摄图像的纹理特征和形状特征,输入第一注意力网络,得到第一注意力向量,并通过第一卷积神经网络将第一注意力向量与空间变换后的虚拟图像的纹理特征和形状特征做第一元素乘积;将空间变换后的虚拟图像的纹理特征和形状特征以及空间变换后的拍摄图像的纹理特征和形状特征,输入第二注意力网络,得到第二注意力向量,并通过第二卷积神经网络将第二注意力向量与空间变换后的拍摄图像的纹理特征和形状特征做第二元素乘积;以及,根据第一元素乘积和第二元素乘积的结果,确定拍摄图像对应在虚拟图像中的位置。
可以理解的,第一注意力网络针对虚拟图像,其内部参数与虚拟图像对应。第二注意力网络针对拍摄图像,其内部参数与拍摄图像对应。因此,尽管输入相同,但第一注意力网络与第二注意力网络输出的注意力向量并不一定相同。
进一步的,孪生神经网络还包括双线性汇合模块,上述根据第一元素乘积和第二元素乘积的结果,确定拍摄图像对应在虚拟图像中的位置,具体包括:利用双线性汇合模块,对第一卷积神经网络和第二卷积神经网络的输出进行双线性汇合,得到拍摄图像对应在虚拟图像中的位置坐标。
为便于理解,以下将结合图4所示的孪生神经网络对上述方法进行说明。以支气管为例,虚拟图像为虚拟支气管树图像,拍摄图像为内窥镜图像。
首先,使用深度学习进行建模,从而得到本实施例中可实现虚拟支气管树和内窥镜相互观察的孪生神经网络400。如图4所示,孪生神经网络400包括结构相同且共享权重的第一卷积神经网络401和第二卷积神经网络402。其中,第一卷积神经网络401用于提取虚拟支气管树的图像的特征,第二卷积神经网络402用于提取内窥镜图像的特征。第一卷积神经网络401和第二卷积神经网络402优选为ResNet18网络。ResNet18网络是带有权重的18层神经网络,其包括17个卷积层(conv)和1个全连接层(fc)。采用ResNet18网络作为第一卷积神经网络和第二卷积神经网络的好处是,可以在满足实现图1至图5所示定位方法中图像特征提取的需求的同时,减少运算成本,提升提取效率。于本申请其他实施例中,可选的,也可以选择ResNet34或者ResNet101等层数更多的神经网络作为第一卷积神经网络和第二卷积神经网络。
结合图5,在步骤S501中,将虚拟支气管树的图像的数据输入第一卷积神经网络401,以通过第一卷积神经网络401对虚拟支气管树的图像的数据进行处理。结合神经网络的特点:浅层的网络特征语义信息较弱,细节信息较强,深层的网络特征语义信息较强,细节信息较弱。其中,浅层也可以称为低层,深层也可以称为高层,本申请并不对此进行限制。第一卷积神经网络401如同滤波器一样,先在浅层提取虚拟支气管树的纹理特征,之后随着层数加深,当感受野达到覆盖全图时,在深层提取虚拟支气管树的形状特征。同时,将内窥镜图像的数据输入第二卷积神经网络402,以通过第二卷积神经网络402对内窥镜图像的数据进行处理。第二卷积神经网络402如同滤波器一样,先在浅层提取内窥镜图像的纹理特征,之后随着层数加深,当感受野达到覆盖全图时,在深层提取拍摄图像的形状特征。
可以理解的,在实际定位中,内窥镜图像需要定位到虚拟支气管树的某一个位置上,才能看出是否相像。通过第一卷积神经网络和第二卷积神经网络提取的特征虽然可以用于判断虚拟支气管树和内窥镜图像是否相像,但是这些特征本身无法直接得出诸如虚拟支气管树和内窥镜图像相像或不相像的最终判断结果,还需要对这些特征进行空间变换、元素乘积、双线性汇合等后续处理,才能得到最为准确的最终判断结果。因此,本申请创造性地在孪生神经网络中加入互相观察模块403和双线性汇合模块404,通过利用互相观察模块403和双线性汇合模块404可以定位出虚拟支气管树的哪个位置与内窥镜图像最相似,并得到对应的位置向量。
具体的,如图4所示,按照从浅至深的顺序,在第一卷积神经网络401和第二卷积神经网络402之间加入多个互相观察模块403。可以在每一层网络之间加入互相观察模块403,也可以在部分层的网络之间加入互相观察模块403。图4中的箭头代表输入,每一层卷积神经网络以及各互相观察模块403由浅到深都有输入。卷积神经网络中的某一层的输出被输入对应的互相观察模块,互相观察模块的输出又被反馈给该层网络,该层网络的输出根据互相观察模块的输出被更新,然后更新后的数据被传递给下一层网络。每个互相观察模块403均包括至少一个空间变换网络(Spatial Transformer Networks)和至少一个注意力网络(Attention Model),优选为一个空间变换网络和一个注意力网络。其中,空间变换网络用于实现不同视角的观察,注意力网络用于使得网络聚焦于具有判别性的部位。
以虚拟图像为虚拟支气管树的图像,拍摄图像为内窥镜图像为例,一方面,通过利用第一卷积神经网络401和互相观察模块403结合内窥镜图像,在不同的视角观察虚拟支气管树,之后聚焦于虚拟支气管树内和内窥镜图像最相似的部分;另一方面,通过利用第二卷积神经网络402和互相观察模块403结合虚拟支气管树的图像,对内窥镜图像做不同的空间变换,之后聚焦于或关注到内窥镜图像中最具有判别性的部位。其中,最具有判别性的部位,即,内窥镜图像中与虚拟支气管树中相同或最相似的部位,如图3中圆圈所示的部位。可以理解的,通过卷积神经网络的浅层确定出的最具有判别性的部位可以是多个,随着网络的深入,最具有判别性的部位的数量逐渐减少,并最终聚焦(或激活或关注)于一个最相似的部位,从而得到内窥镜图像在虚拟支气管树中的确切位置。
通过在步骤S502中由浅到深的多视角相互观察以及步骤S503中的注意力聚焦,随后孪生神经网络在步骤S504通过双线性汇合模块,对第一卷积神经网络输出的经过元素乘积的虚拟支气管树的特征和第二卷积神经网络输出的经过元素乘积的内窥镜图像的特征做线性汇合,这相当综合两者做最终决策,并最终输出定位结果,即,内窥镜图像在虚拟支气管树的确切位置向量,该位置向量例如可以是6D自由度坐标。其中,结合图4,假设在卷积神经网络的最后一层也设置有对应的互相观察模块,则第一卷积神经网络输出的虚拟支气管树的特征是,例如可以是通过将其最后一层网络输出的原始特征与该互相观察模块反馈的第一注意力向量进行元素乘积,得到的更新后虚拟支气管树的特征。第二卷积神经网络输出的内窥镜图像的特征是,通过将其最后一层网络输出的原始特征与该互相观察模块反馈的第二注意力向量进行元素乘积,得到的更新后的内窥镜图像的特征。双线性汇合模块可以使用已知的神经网络的双线性汇合(bilinear pooling)算法进行决策,本申请不做具体限定。在实际应用中,双线性汇合模块也可以综合不同模态的特征数据,做最终导航的决策,例如:输入CT重建数据的特征和内窥镜数据的特征,并输出能实现内窥镜的导航数据。
可以理解的,空间变换网络和注意力网络都是神经网络,通过机器自动的方法来自动识别,具体实现方式是一种隐性建模,输入的是图像数据,输出的是定位结果,即输出的是拍摄图像对应在虚拟图像中的位置坐标,通过利用上述具有互相观察模块的孪生神经网络,计算机装置可以全程自动识别出拍摄图像在虚拟支气管树的确切位置。
可以理解的,虚拟支气管树的图像数据是点云数据,也就是3维数据,用3维坐标表示。内窥镜图像是2维图像,只能用2维坐标表示。6D自由度指X、Y、Z三位坐标和三个姿态角(即俯仰角、横滚角和航向角),也就是最终定位出的1维数据,是一个向量。
具体的,关于上述多视角相互观察,结合图4,对于虚拟支气管树来说,即将第一卷积神经网络401和第二卷积神经网络402输出的内窥镜图像和虚拟支气管树的特征输入空间转换网络,空间转换网络的输出为空间变换矩阵。然后,通过空间变换矩阵对虚拟支气管树的纹理和形状特征做多视角观察,得到新的空间变换后的虚拟支气管树特征作为虚拟支气管树的当前特征并将其输入注意力网络。
同样地,对于内窥镜图像,将第一卷积神经网络401和第二卷积神经网络402输出的内窥镜图像和虚拟支气管树的特征输入空间转换网络,空间转换网络的输出为空间变换矩阵,通过空间变换矩阵对做内窥镜图像做空间变换,找到合适的角度观察,得到新的空间变换后的内窥镜特征作为内窥镜的当前特征并将其输入注意力网络。
可以理解的,上述多视角观察不仅可以对二维的图像数据进行观察,也可以对三维的图像数据进行观察。
具体的,关于上述注意力聚焦,结合图4,对于虚拟支气管树,输入第一注意力网络的为内窥镜图像和虚拟支气管树的空间变换后的当前特征,输出为第一注意力向量,通过将虚拟支气管树的当前特征和该第一注意力向量做元素乘积,从而使得虚拟支气管树的特征聚焦于最具有判别性的部分。
同样地,对于内窥镜图像,输入第二注意力网络的为内窥镜图像和虚拟支气管树的空间变换后的当前特征,输出为第二注意力向量,通过将内窥镜图像的当前特征和该第二注意力向量做元素乘积,从而使得内窥镜图像的特征聚焦于最具有判别性的部分。
进一步的,在确定出拍摄图像对应在虚拟图像中的位置之后,该方法还包括,根据确定出的该拍摄图像对应在该虚拟图像中的位置以及预设的导航路径,进行内窥镜导航,进而提高了内窥镜导航的准确性。例如:将确定出的位置与目标位置进行比较,并根据比较结果输出提示信息,以提示放置的位置是否准确;或者,根据确定出的位置与待放置的目标位置,计算待放置物体的最佳移动轨迹,并输出计算出的移动轨迹,等等。
本实施例提供的定位方法,通过利用预设的互相观察模块对虚拟图像和拍摄图像的特征进行空间变换,并根据空间变换后的特征确定该拍摄图像对应在该虚拟图像中的位置,可实现从不同角度对虚拟图像和拍摄图像的特征进行比较,从而可以准确得到拍摄图像对应在虚拟图像中的位置,可确保定位的稳定性和准确性,同时无需额外获取不同角度的虚拟图像和相应的拍摄图像,提升了定位效率。
参见图6,本申请一实施例提供的一种定位装置的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分。该装置可以是具有数据处理功能的计算机装置,或者,可以作为虚拟模块配置在具有数据处理功能的计算机装置中。如图6所示,该装置包括:
获取模块601,用于获取虚拟图像和拍摄图像;
提取模块602,用于分别提取该虚拟图像和该拍摄图像的特征,并利用预设的互相观察模块对提取的特征进行空间变换;
定位模块603,用于根据空间变换的结果,确定该拍摄图像对应在该虚拟图像中的位置。
进一步地,该装置还包括:
构建模块,用于构建孪生神经网络,该孪生神经网络包括结构相同且共享权重的第一卷积神经网络和第二卷积神经网络;以及,按照从该孪生神经网络的浅层至深层的顺序,在该第一卷积神经网络和该第二卷积神经网络之间加入多个该互相观察模块。
进一步地,提取模块602,具体用于利用该第一卷积神经网络提取该虚拟图像的特征,并利用该第二卷积神经网络提取该拍摄图像的特征。
进一步地,提取模块602,还具体用于利用该第一卷积神经网络的浅层提取该虚拟图像的纹理特征,利用该第一卷积神经网络的深层提取该虚拟图像的形状特征;以及利用该第二卷积神经网络的浅层提取该拍摄图像的纹理特征,利用该第二卷积神经网络的深层提取该拍摄图像的形状特征。
进一步的,该互相观察模块包括空间变换网络;
提取模块602,还具体用于将提取的该虚拟图像的纹理特征和形状特征输入该空间变换网络,得到第一空间变换矩阵;利用该第一空间变换矩阵,从多个不同的视角对该虚拟图像进行空间变换,得到空间变换后的该虚拟图像的纹理特征和形状特征;将提取的该拍摄图像的纹理特征和形状特征输入该空间变换网络,得到第二空间变换矩阵;以及利用该第二空间变换矩阵,从多个不同的视角对该拍摄图像进行空间变换,得到空间变换后的该拍摄图像的纹理特征和形状特征。
进一步的,该互相观察模块还包括第一注意力网络和第二注意力网络;
定位模块603,具体用于将该空间变换后的该虚拟图像的纹理特征和形状特征以及该空间变换后的该拍摄图像的纹理特征和形状特征,输入该第一注意力网络,得到第一注意力向量,并通过该第一卷积神经网络将该第一注意力向量与该空间变换后的该虚拟图像的纹理特征和形状特征做第一元素乘积;
将该空间变换后的该虚拟图像的纹理特征和形状特征以及该空间变换后的该拍摄图像的纹理特征和形状特征,输入该第二注意力网络,得到第二注意力向量,并通过该第二卷积神经网络将该第二注意力向量与该空间变换后的该拍摄图像的纹理特征和形状特征做第二元素乘积;
根据该第一元素乘积和该第二元素乘积的结果,确定该拍摄图像对应在该虚拟图像中的位置。
进一步的,该孪生神经网络还包括双线性汇合模块;
定位模块603,还具体用于利用该双线性汇合模块,对该第一卷积神经网络和该第二卷积神经网络的输出进行双线性汇合,得到该拍摄图像对应在该虚拟图像中的位置坐标。
上述各模块实现各自功能的具体过程可参考上述各实施例中的相关内容,此处不再赘述。
本实施例提供的定位装置,通过利用预设的互相观察模块对虚拟图像和拍摄图像的特征进行空间变换,并根据空间变换后的特征确定该拍摄图像对应在该虚拟图像中的位置,可实现从不同角度对虚拟图像和拍摄图像的特征进行比较,从而可以准确得到拍摄图像对应在虚拟图像中的位置,可确保定位的稳定性和准确性,同时无需额外获取不同角度的虚拟图像和相应的拍摄图像,提升了定位效率。
参见图7,本申请一实施例提供的电子装置的硬件结构示意图。如图7所示,该电子装置包括:存储器701和处理器702。
其中,存储器701存储有可执行计算机程序703。与存储器701耦合的处理器702,调用存储器中存储的可执行计算机程序703,执行上述实施例提供的定位方法。
示例性的,该计算机程序703可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在存储器701中,并由处理器702执行,以完成本发明。所述一个或多个模块/单元可以包括上述实施例中的基于孪生神经网络的定位装置中的各个模块,如:获取模块601、提取模块602和定位模块603。用于实现上述定位方法。
进一步地,该装置还包括:
至少一个输入设备以及至少一个输出设备。
上述处理器702、存储器701、输入设备和输出设备可通过总线连接。
其中,该输入设备具体可为摄像头、触控面板、物理按键或者鼠标等等。该输出设备具体可为显示屏。
进一步的,该装置还可包括比图示更多的部件,或者组合某些部件,或者不同的部件,例如网络接入设备、传感器等。
处理器702可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器701可以是例如硬盘驱动存储器,非易失性存储器(例如闪存或用于形成固态驱动器的其它电子可编程限制删除的存储器等),易失性存储器(例如静态或动态随机存取存储器等)等,本申请实施例不作限制。具体的,存储器701可以是该电子装置的内部存储单元,例如:该电子装置的硬盘或内存。存储器701也可以是该电子装置的外部存储设备,例如该电子装置上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器701还可以既包括该电子装置的内部存储单元也包括外部存储设备。存储器701用于存储计算机程序以及终端所需的其他程序和数据。存储器701还可以用于暂时地存储已经输出或者将要输出的数据。
进一步的,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的电子装置中,该计算机可读存储介质可以是前述图7所示实施例中的存储器701。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述各实施例中描述的定位方法。进一步的,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述,意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任意一个或者多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
以上为对本申请所提供的定位方法、装置及计算机可读存储介质的描述,对于本领域的技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种定位方法,其特征在于,所述方法包括:
获取虚拟图像和拍摄图像;
分别提取所述虚拟图像和所述拍摄图像的特征,并利用预设的互相观察模块对提取的特征进行空间变换;
根据空间变换的结果,确定所述拍摄图像对应在所述虚拟图像中的位置。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
构建孪生神经网络,所述孪生神经网络包括结构相同且共享权重的第一卷积神经网络和第二卷积神经网络;
按照从所述孪生神经网络的浅层至深层的顺序,在所述第一卷积神经网络和所述第二卷积神经网络之间加入多个所述互相观察模块;
所述分别提取所述虚拟图像和所述拍摄图像的特征包括:
利用所述第一卷积神经网络提取所述虚拟图像的特征,并利用所述第二卷积神经网络提取所述拍摄图像的特征。
3.如权利要求2所述的方法,其特征在于,所述利用所述第一卷积神经网络提取所述虚拟图像的特征,并利用所述第二卷积神经网络提取所述拍摄图像的特征包括:
利用所述第一卷积神经网络的浅层提取所述虚拟图像的纹理特征,利用所述第一卷积神经网络的深层提取所述虚拟图像的形状特征;
利用所述第二卷积神经网络的浅层提取所述拍摄图像的纹理特征,利用所述第二卷积神经网络的深层提取所述拍摄图像的形状特征。
4.如权利要求3所述的方法,其特征在于,所述互相观察模块包括空间变换网络,所述利用预设的互相观察模块对提取的特征进行空间变换包括:
将提取的所述虚拟图像的纹理特征和形状特征输入所述空间变换网络,得到第一空间变换矩阵;
利用所述第一空间变换矩阵,从多个不同的视角对所述虚拟图像进行空间变换,得到空间变换后的所述虚拟图像的纹理特征和形状特征;
将提取的所述拍摄图像的纹理特征和形状特征输入所述空间变换网络,得到第二空间变换矩阵;
利用所述第二空间变换矩阵,从多个不同的视角对所述拍摄图像进行空间变换,得到空间变换后的所述拍摄图像的纹理特征和形状特征。
5.如权利要求4所述的方法,其特征在于,所述互相观察模块还包括第一注意力网络和第二注意力网络,所述根据空间变换的结果,确定所述拍摄图像对应在所述虚拟图像中的位置包括:
将所述空间变换后的所述虚拟图像的纹理特征和形状特征以及所述空间变换后的所述拍摄图像的纹理特征和形状特征,输入所述第一注意力网络,得到第一注意力向量,并通过所述第一卷积神经网络将所述第一注意力向量与所述空间变换后的所述虚拟图像的纹理特征和形状特征做第一元素乘积;
将所述空间变换后的所述虚拟图像的纹理特征和形状特征以及所述空间变换后的所述拍摄图像的纹理特征和形状特征,输入所述第二注意力网络,得到第二注意力向量,并通过所述第二卷积神经网络将所述第二注意力向量与所述空间变换后的所述拍摄图像的纹理特征和形状特征做第二元素乘积;
根据所述第一元素乘积和所述第二元素乘积的结果,确定所述拍摄图像对应在所述虚拟图像中的位置。
6.如权利要求5所述的方法,其特征在于,所述孪生神经网络还包括双线性汇合模块,所述根据所述第一元素乘积和所述第二元素乘积的结果,确定所述拍摄图像对应在所述虚拟图像中的位置包括:
利用所述双线性汇合模块,对所述第一卷积神经网络和所述第二卷积神经网络的输出进行双线性汇合,得到所述拍摄图像对应在所述虚拟图像中的位置坐标。
7.如权利要求1至6中的任一项所述的方法,其特征在于,所述虚拟图像包括虚拟器官的图像,所述拍摄图像包括由内窥镜采集到的内窥镜图像。
8.如权利要求2至6中的任一项所述的方法,其特征在于,所述第一卷积神经网络和所述第二卷积神经网络为ResNet18网络。
9.一种定位装置,其特征在于,包括:
获取模块,用于获取虚拟图像和拍摄图像;
提取模块,用于分别提取所述虚拟图像和所述拍摄图像的特征,并利用预设的互相观察模块对提取的特征进行空间变换;
定位模块,用于根据空间变换的结果,确定所述拍摄图像对应在所述虚拟图像中的位置。
10.一种电子装置,其特征在于,包括:
存储器和处理器;
所述存储器存储有可执行计算机程序;
与所述存储器耦合的所述处理器,调用所述存储器中存储的所述可执行计算机程序,执行如权利要求1至8中的任一项所述的定位方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至8中的任一项所述的定位方法。
CN202111449638.XA 2021-11-30 2021-11-30 定位方法、装置、系统及计算机可读存储介质 Pending CN116228620A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111449638.XA CN116228620A (zh) 2021-11-30 2021-11-30 定位方法、装置、系统及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111449638.XA CN116228620A (zh) 2021-11-30 2021-11-30 定位方法、装置、系统及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN116228620A true CN116228620A (zh) 2023-06-06

Family

ID=86585902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111449638.XA Pending CN116228620A (zh) 2021-11-30 2021-11-30 定位方法、装置、系统及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116228620A (zh)

Similar Documents

Publication Publication Date Title
Chen et al. SLAM-based dense surface reconstruction in monocular minimally invasive surgery and its application to augmented reality
Mahmoud et al. ORBSLAM-based endoscope tracking and 3D reconstruction
Zhao et al. Tracking-by-detection of surgical instruments in minimally invasive surgery via the convolutional neural network deep learning-based method
Lin et al. Video‐based 3D reconstruction, laparoscope localization and deformation recovery for abdominal minimally invasive surgery: a survey
Tanzi et al. Real-time deep learning semantic segmentation during intra-operative surgery for 3D augmented reality assistance
Pfeiffer et al. Non-rigid volume to surface registration using a data-driven biomechanical model
Zhou et al. Real-time dense reconstruction of tissue surface from stereo optical video
EP3998579B1 (en) Medical image processing method, apparatus and device, medium and endoscope
US20130296682A1 (en) Integrating pre-surgical and surgical images
CN109492547B (zh) 一种结节识别方法、装置和存储介质
JP2017174039A (ja) 画像分類装置、方法およびプログラム
US10083278B2 (en) Method and system for displaying a timing signal for surgical instrument insertion in surgical procedures
Chen et al. Real‐time geometry‐aware augmented reality in minimally invasive surgery
Wen et al. Augmented reality guidance with multimodality imaging data and depth-perceived interaction for robot-assisted surgery
CN112734776A (zh) 一种微创手术器械定位方法和系统
Sengan et al. Cost-effective and efficient 3D human model creation and re-identification application for human digital twins
CN110634554A (zh) 脊椎影像注册方法
Afifi et al. Real-time expanded field-of-view for minimally invasive surgery using multi-camera visual simultaneous localization and mapping
Reichard et al. Intraoperative on-the-fly organ-mosaicking for laparoscopic surgery
Wu et al. 3D texture reconstruction of abdominal cavity based on monocular vision SLAM for minimally invasive surgery
CN116228620A (zh) 定位方法、装置、系统及计算机可读存储介质
CN115527003A (zh) 术前术中肝脏点云数据配准系统、方法、终端以及存储介质
Karner et al. Single-shot deep volumetric regression for mobile medical augmented reality
US11501442B2 (en) Comparison of a region of interest along a time series of images
Zampokas et al. Real‐time stereo reconstruction of intraoperative scene and registration to preoperative 3D models for augmenting surgeons' view during RAMIS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination