CN113409386A

CN113409386A - 用于基于图像的定位的方法、系统和介质

Info

Publication number: CN113409386A
Application number: CN202110189017.6A
Authority: CN
Inventors: 宋经纬; M·帕特尔; A·吉尔根松; 金哲暄
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-02-28
Filing date: 2021-02-19
Publication date: 2021-09-17
Also published as: JP2021140747A; US20210272317A1; US11227406B2

Abstract

本申请提供了用于基于图像的定位的方法、系统和介质。一种计算机实现的方法，包括以下步骤：将被划分为区域的环境的训练图像应用于神经网络，并且执行分类以基于区域中的最接近区域标记测试图像；根据与最接近区域匹配的取回的训练图像和测试图像的姿态信息提取特征；通过对最接近区域的地图点进行三角化来对所提取的特征进行光束法平差以生成重投影误差，并且最小化重投影误差以确定测试图像的最佳姿态；并且对于最佳姿态，提供指示处于最佳姿态的测试图像在环境内的位置或位置概率的输出。

Description

用于基于图像的定位的方法、系统和介质

技术领域

示例实现方式的各方面涉及与环境中基于图像的定位相关联的方法、系统和用户体验，并且更具体地，涉及融合深度学习和几何约束以用于基于图像的定位的方案。

背景技术

相关技术的内窥镜系统可以提供最小的侵入方式来检查体内结构。更具体地说，相关技术的微创手术(MIS)方案可以为医学从业者提供检查体内结构的工具，并且可以用于准确的治疗干预。

例如，可以将诸如内窥镜或支气管镜之类的观察设备(scope)放置在患者的诸如肠或肺之类的环境中以检查其结构。观察设备上的诸如传感器或摄像头之类的装置可以感应信息，并将信息提供给用户，该信息诸如环境的图像、视频等。诸如外科医师之类的医疗专业人员可以分析视频。基于分析，外科医师可以提供建议或执行动作。

利用相关领域的机器人和传感器技术，已经开发了各种相关领域的胃肠(GI)道观察设备解决方案。对于这样的相关技术的GI道方案，准确的定位和跟踪可以使医疗从业者定位和跟踪诸如息肉、癌变组织、病变等的各种病理学发现的进展。此类相关技术的内窥镜系统可以满足对准确的治疗干预的需求，并且因此必须能够在给定的胃肠(GI)道和/或支气管道中准确地定位和跟踪。

跟踪GI道的相关技术方案可以包括图像相似性比较，诸如使用相关技术的图像描述符来比较图像相似性，其也称为图像分类。此外，相关技术可以使用基于几何的姿态回归，诸如相关技术的几何技术，例如SLAM或从阴影恢复形状以进行图像到模型配准，也称为几何优化。相关技术还可以使用基于深度学习的图像来进行姿态回归。

相关技术的深度学习方案具有对于诸如结肠镜检查或支气管镜检查之类的应用进行跟踪独有的各种问题和缺点，诸如小的带注释的训练数据集以及缺乏可识别的纹理，这不同于在相关技术中已经使用了深度学习的其它室内或室外环境。例如，没有角点来定义纹理，而身体组织的特质是其具有血流、平滑的曲线和管道结构，而没有角点。因此，存在体积表面类似角，以及固体和液体的混合物。

例如，但不作为限制，相关技术的深度学习和回归方案遭受具有如上面说明的数据集不足以及缺乏角和纹理的问题；在这些方面，外科手术情形与在其它环境(例如自动驾驶等)中使用的相关技术方案不同并且可区别。例如，由于肺中的GI道的特有的生理特性，因此存在许多没有角的管状结构。

另外，因为深度学习和回归的相关技术方案试图找到观察设备的位置，所以会发生附加的问题和/或缺点。例如，但不作为限制，由于缺少足够质量和数量的数据集以用于训练，存在与完全位于环境之外的异常值(outlier)相关联的另一问题。这些异常值的后果在医学领域是相当显著的，其中确定观察设备完全在诸如肺或GI道之类的环境之外会使医疗专业人员难以依靠信息并做出适当的分析和处理。

在GI道中定位的相关方案使用单眼图像，利用相关技术的计算机视觉技术(例如，SIFT和SURF)。然而，这样的相关技术方案会具有各种问题和缺点，诸如变形、强度和不同的障碍物。例如，相关技术的系统可能会缺乏深度感知，或者在相关技术的RGB/单眼图像所提供的有限视野内定位不佳。例如，由于患者的身体的环境中软组织的靠近，因此观察设备具有小的视野。

由于未提供3D深度信息，并且唯一可用的数据是RGB视频，因此相关技术的基于深度/立体的观察设备定位系统不能直接适用于单眼内窥镜。

此外，为了使基于深度学习的定位和跟踪一般化而需要使用的大量数据未得到满足。此类数据很难获得，由于隐私问题在医学领域中尤其是这样。此外，相关技术的基于几何的方法不适用于GI道观察设备跟踪，因为特征的数量少并且配准会丢失。通过继续强力地将观察设备插入患者体内来增加数据集的数量也是不切实际或不健康的。

因此，从业者会发现难以确定观察设备在人体的环境中的位置，诸如在GI道中的内窥镜位置。这个问题在诸如肺之类的某些组织中变得更加严重，这是由于肺的分支生理特性。

发明内容

根据示例实现方式的方面，提供了一种计算机实现的方法，该方法包括以下步骤：将被划分为区域的环境的训练图像应用于神经网络，并且执行分类以基于区域中的最接近区域标记测试图像；根据与最接近区域匹配的取回的训练图像和测试图像的姿态信息提取特征；通过对最接近区域的地图点进行三角化来对所提取的特征执行光束法平差(bundleadjustment)以生成重投影误差，并且最小化重投影误差以确定测试图像的最佳姿态；并且对于最佳姿态，提供指示处于最佳姿态的测试图像在环境内的位置或位置概率的输出。

示例实现方式可以还包括具有存储器的非暂时性计算机可读介质和处理器，该处理器能够执行用于在目标组织中进行基于图像的定位的指令，其融合了深度学习和几何约束以进行用于基于图像的定位。

附图说明

本专利或申请文件包含至少一个彩色附图。专利局将根据要求以及必要费用的支付而提供带有彩色附图的本专利或专利申请公开的副本。

图1例示了根据示例实现方式的用于训练和测试的框架的各个方面。

图2例示了根据示例实现方式的由仿真器生成的示例表示和数据。

图3例示了根据示例实现方式的训练处理。

图4例示了根据示例实现方式的训练方案。

图5例示了根据示例实现方式的预测方案。

图6例示了根据示例实现方式的光束法平差。

图7例示了根据示例实现方式的结果。

图8例示了根据示例实现方式的结果。

图9例示了用于一些示例实现方式的示例处理。

图10例示了具有适合于在一些示例实现方式中使用的示例计算机装置的示例计算环境。

图11示出了适用于一些示例实现方式的示例环境。

具体实施方式

以下详细描述提供了本申请的附图和示例实现方式的进一步细节。为了清楚起见，省略了附图之间的冗余元件的附图标记和描述。整个说明书中使用的术语仅作为示例提供，并不旨在进行限制。

示例实现方式的各方面旨在将深度学习方法与几何约束相结合，以用于各种领域，包括但不限于微创手术(MIS)方案(例如，内窥镜方案)。

与开放手术相反，MIS缩小了外科手术视野。因此，与开放手术方案相比，外科医师会接收到更少的信息。因此，MIS方案要求在没有直接3D视觉的情况下使用细长工具在狭窄的空间中执行操作过程。此外，训练数据集会很小且有限。

示例实现方式旨在通过约束组织内的定位来利用组织(例如，胃肠道、肺等)提供用于MIS技术的基于图像的定位。

更具体地，示例实施方式基于相似性将测试图像分类到训练图像之一。最接近的训练图像及其相邻图像以及其姿态信息被用于使用特征配准和光束法平差来生成测试图像的最佳姿态(例如，位置和朝向)。通过定位观察设备的位置和方向，外科医师可以知道观察设备在身体中的位置。虽然本示例实现方式涉及观察设备，但是示例实现方式不限于此，并且在不脱离本发明范围的情况下可以用其它MIS结构、装置、系统和/或方法替代它。例如，但不作为限制，可以用探头代替观察设备。

例如，但不作为限制，示例实现方式涉及将深度学习与传统的基于几何的技术融合的混合系统。使用这种融合方案，可以使用更小的数据集来训练系统。因此，示例实现方式可以可选地提供在训练数据和纹理的样本较少的情况下，使用单眼RGB图像进行定位的解决方案。

此外，示例实现方式使用具有深度学习技术的几何方法，其可以提供所估计姿态的鲁棒性。更具体地，在重投影误差最小化处理期间，可以直接拒绝具有大的重投影误差的姿态。

可以获得训练图像并对其进行标记，从而向每个区域分配至少一个图像。经标记的图像用于训练神经网络。在训练了神经网络时，可以提供测试图像并将其分类到区域中。此外，获得训练数据集树和来自训练数据集的图像。获得并调整关键特征，以恢复兴趣点，并且使任何投影误差最小化。

上述示例实现方式涉及将深度学习与基于几何的定位和跟踪相融合的混合系统。更具体地，根据示例实现方式的深度学习组件提供了高级别的区域分类，其可以由基于几何的细化所使用以优化给定测试图像的姿态。

在示例实现方式中，应用几何来执行细化可以辅助约束深度学习模型的预测，并且可以可选地更好地进行姿态估计。此外，通过本文所描述的融合深度学习和几何技术，可以使用小的训练数据集来获得准确的结果，并且可以避免相关技术的问题，例如异常值等。

本示例实现方式提供了提供地面真值(ground truth)的仿真数据集。在训练方面，将图像输入到神经网络，并提供作为与环境的区域相关联的图像标记作为输出。更具体地说，将环境分割为区域。该分割可以自动执行，例如将区域划分为相等的长度，或者可以通过医学领域的专家知识来执行，诸如基于外科医师关于区域的适当分割的输入。因此，将每个图像针对区域进行标记，并且将图像分类到区域。

在训练阶段之后，输入测试图像并将其分类到区域中。将测试图像馈入神经网络，并与训练数据集进行比较，以根据训练图像和测试图像提取角部，从而建立地图点的全局位置。换句话说，与训练数据集进行比较，并且获得且确定关键特征，并将其识别为角点。

对于训练图像，将3D点投影到2D图像，并执行使投影的3D点与2D图像之间的距离最小的操作。因此，按照使重投影误差最小的方式恢复了角点。

图1至图5例示了示例实现方式的各个方面。图1例示了示例实现方式的整体视图，包括训练和推导。

示例实现方式可以分为两个主要块：PoseNet107(例如，预测)和姿态细化109。在107的预测阶段，示例实现方式利用PoseNet，它是一种深度学习框架(例如GoogLeNet)。系统由规定数量(例如，23)的卷积层和一个或更多个全连接层(例如，1)组成。在107，模型学习区域级别分类，而不是学习实际姿态。在推导期间，PoseNet可以分类出与给定测试图像具有匹配度的最接近区域。

在109的细化阶段中，由PoseNet在步骤107分类的区域以及根据训练图像所取回的图像和姿态信息被应用以确定最接近的匹配。对于姿态优化，将相邻姿态的流采用到最接近匹配的训练图像。图像及其对应的姿态信息的流用于姿态的估计。

更具体地，根据一个示例实现方式，Unity3D可以用于从体模(phantom)生成图像-姿态对。使用来自101的这些训练集对PoseNet模型101进行训练。例如，但不限于此，姿态回归可以替换为区域分类。因此，将相邻姿态中的图像分类为区域，并且在105处执行标记。

关于训练数据，在101处，将训练图像提供给深度学习神经网络103。如图2所示，在200处，大肠201可被划分为由线标识的多个区域，这些线处理大肠201的图像。例如，但不作为限制，第一图像203可以表示区域中的第一区域，而第二图像205可以表示区域中的第二区域。

图3例示在300应用于训练阶段的前述示例实现方式。如上所述，训练图像301被提供给深度学习神经网络303，以生成与图像的位置的区域分类相关联的图像标记305。这进一步被表示为313处的图像。多个图像307被对应地用于309处的训练并且在311处被标记。

在PoseNet 107中，将测试图像111提供给深度学习神经网络113，并生成标记115。这在图4中也表示为401。更具体地，对于测试图像，利用深度神经网络预测训练集中的最相似区域。

在109处的姿态细化中，训练数据库117从PoseNet 107接收输入。这还在图5中表示为501。例如，但不作为限制，训练数据库可以提供图像ID，其与姿态和标记相关联。姿态指示图像状况，并且标记指示与姿态相关联的分类。

该信息被馈送到特征提取器，该特征提取器在119、121和123接收分别与姿态n-k133、n 129和n+k 125相关联的输出图像。例如，但不作为限制，将区域以及相邻区域包括在内，从而避免在光束法平差和重投影误差最小化之前的潜在的误分类风险。

因此，在135、131和127，分别从图像123、121和119中的每个图像提取特征。更具体地，采用了特征提取器来从图像的流中进行提取(例如，SURF)。这些所提取的特征将进一步用于光束法平差，并且来自每个图像的特征基于它们的属性来进行配准。

更具体地，并且如图6所示，特征提取器涉及使用输出图像601(其为图像119、121和123)。对于多个相邻姿态n-k 603、n 605和n+k 607，对输出图像601执行前述特征提取操作，多个相邻姿态可以指示各个区域。如在609和611处所示，可以基于预测的区域来执行地图点的三角化。

在139，在光束法平差中，使用从图像123、121和119提取的特征(例如，135、131和127)以及针对这些图像的姿态信息133、129和125来执行本地光束法平差，以映射姿态。由于所涉及图像的姿态是地面真值，因此映射多个角特征点是多图像三角化处理。

在141处，并且还在图5中以503表示，可以在算式(1)中定义的重投影误差可以被重新优化。

P(位置)和R(朝向)是观察设备的姿态，并且v_i是经三角化的地图点。∏()将3D点重投影到2D图像空间中，并且O_i是经配准的2D观测结果。在137处，测试图像111的关键特征也可以被馈送到141的重投影误差最小化中。

如果经优化的平均重投影水平低于或等于阈值，则在143找到最佳全局姿态。否则，初始姿态被假定为不正确，并且是由PoseNet的故障引起的。由于能够完全测量PoseNet的输出，因此示例实现方式提供了鲁棒的方式来识别输出的有效性。

另外，重投影误差被最小化。更具体地，在关键特征与测试图像之间建立了配准，其进一步用于通过最小化经配准的关键特征点的重投影误差来优化测试图像的姿态。

前述示例实现方式可以在各种应用中实现。例如，观察设备可以在医疗环境中使用，以提供与和特征有关的临时变化相关联的信息。在一个示例应用中，可以跟踪息肉随时间的生长，并且通过能够确定观察设备的确切位置以及正确识别息肉及其大小的能力，医疗专业人员可以更精确地跟踪息肉。结果，医学专业人员可以能够提供更准确的风险分析，以及以更准确的方式提供相关的建议和行动方针。

此外，观察设备还可以包括在人体环境中执行动作的装置或工具。例如，观察设备可以包括能够在环境中修改目标的工具。在一个示例实施方式中，工具可以是切割工具，诸如激光或热或刀，或本领域技术人员所理解的其它切割结构。切割工具可以执行动作，例如如果息肉大于特定大小，则实时地切割息肉。

依赖于医学方案，通常，或者仅当医学专业人员确定息肉太大或对患者有害时才切割息肉；根据较保守的方案，可以跟踪目标在环境中的生长。另外，可以根据示例实现方式使用观察设备以在由装置或工具采取动作之后较准确地执行后续筛查。

虽然本文示出了息肉的示例，但是本示例实现方式不限于此，并且在不脱离本发明范围的情况下可以用其它环境或目标替代它。例如，但不作为限制，环境可以是肺的支气管而不是GI道。类似地，目标可以是病变或肿瘤而不是息肉。

另外，示例实际实现方式可以将结果馈送到预测工具中。根据这样的示例方案，基于人口统计信息、组织的生长速率和历史数据，可以执行分析以生成预测风险评估。预测风险评估可以由医学专业人员进行审查，并且医学专业人员可以验证或确认预测工具的结果。可以将医学专家的确认或验证反馈到预测工具中以提高其准确性。另选地，在有或者没有医学专业人员的验证或确认的情况下，可以将预测风险评估输入到决策支持系统中。

在这种情况下，决策支持系统可以实时地或者在移除观察设备之后向医疗专业人员提供推荐。在推荐被实时地提供给医疗专业人员的选项中，由于观察设备还可以携带切割工具，因此可以基于决策支持系统的推荐来执行实时操作。

另外，虽然前述示例实现方式可以将环境定义为人体内的没有明确定义的角点的环境，例如肺或肠，但是示例实现方式不限于此，而是具有类似特征的其它环境也可以在本发明的范围内。

例如，但不作为限制，由于难以精确地确定检查工具位于哪个管道区段中，诸如废水管道或供水管道的管道系统可能难以检查是否损坏、磨损和切断，或进行更换。通过采用本示例实现方式，可以随着时间而更准确地检查废水管道和供水管道，并且可以以更少的准确性问题来进行管道维护、更换等。类似方案可以在工业安全中采用，例如在工厂环境中、在水下、地下环境(例如洞穴)或满足与本示例实现方式相关联的条件的其它类似环境中。

图7在700处例示了与示例实现方式相关联的结果。在701，示出了仅包括深度学习的相关技术方案。更具体地，示出了采用回归的方案，并且可以看出，在地面真值之外的异常值的在大小和数量二者上都是显著的。如以上所说明的，这是由于摄像头的视野较小的相关技术问题以及相关联的误分类风险。

在703处，示出了仅使用分类来采用测试图像信息的方案。然而，根据这种方案，数据受限于来自视频的严格可用的数据。

在705，示出了根据示例实现方式的方案，其包括分类以及光束法平差。尽管存在少量误差，但是这些误差主要是由于图像纹理引起的。

图8例示了示例实现方式的验证，示出了误差随时间的差异。X轴例示随时间变化的关键帧，Y轴例示误差。在801，表示了位置误差，在803，表示了角度误差。蓝线表示使用示例实现方式的技术的误差，红线代表仅使用分类技术计算出的误差，并且其与如以上描述并且在图7示出的703相对应。

更具体地，基于男性的消化系统的现成模型生成仿真数据集。将虚拟结肠镜放置在结肠内部，并对观测结果进行仿真。Unity3D(https://unity.com/)用于利用严格的针孔相机模型仿真并生成连续的2D RGB图像。仿真的体内消化器的帧率和尺寸(例如，如图2所示)为每秒30帧和640*480。同时，记录了结肠镜的总体姿态。

如所例示的，并且如上所述，红色图针对仅具有分类的结果(例如相关技术)，并且蓝色图针对进行了根据示例实施方式的姿态细化的结果。可以看出，一般而言，就位置差异和角度差异两者而言，已经执行了姿态细化的结果具有更好的精度。

更具体地，并且如上所说明的，图8在801处例示了相对于关键帧ID的位置差异误差的比较800，在803处例示了对关键帧ID的角度差异误差的比较。表1示出了在相关技术(即，ContextualNet)和本文描述的示例实现方式之间的误差比较。

表1

示例实现方式可以与其它传感器或方案集成。例如，但不作为限制，在观察设备上可以集成其它传感器，例如惯性测量单元、温度传感器、酸度传感器或与感测与环境相关联的参数相关联的其它传感器。

类似地，可以采用给定类型的传感器的多个传感器；相关技术方案可能不采用这样的多个传感器；相关技术关注于提供精确位置，而与本文描述的使用标记、特征提取、光束法平差和重投影误差最小化的方案相反。

因为本示例实现方式不需要较高程度的传感器或摄像头精度或附加的训练数据集，所以现有的装置可以与示例实现方式一起使用以实现更准确的结果。因此，可以减少升级硬件来获得更准确的摄像头或传感器的需要。

此外，提高的准确性还可以允许互换不同类型的摄像头和观察设备，并且允许不同的医疗机构更容易地交换结果和数据，并使更多和不同的医疗专业人员参与进来，而不会牺牲准确性，并且具有适当地分析并提出建议并采取行动的能力。

图9例示了根据示例实现方式的示例处理900。如本文中所说明的，可在一个或更多个装置上执行实例处理900。

在901处，神经网络接收输入并标记训练图像。例如，但不作为限制，如以上所说明的，可以从仿真中生成训练图像。另选地，可以提供与一个或更多个患者相关联的历史数据。在模型中使用训练数据，并且将姿态回归替换为区域分类。例如，但不作为限制，可以将相邻姿态下的图像分类为区域。

在903处，执行特征提取。更具体地，将图像提供给训练数据库117。基于关键特征，提供关于图像的特征是否可以被分类为处于特定姿态的分类确定。

在905处，执行光束法平差。更具体地说，如上所述，使用预测的区域来对地图点进行三角化。

在907处，执行操作以通过调整姿态来最小化测试图像上的地图点的重投影误差。基于该操作的结果，确定最佳姿态。

在909处，提供输出。例如，但不作为限制，输出可以是图像或者与图像相关联的观察设备的区域或区域内的位置的指示。因此，可以辅助医学专业人员确定图像在诸如GI道、肺或其它组织之类的目标组织中的位置。

图10例示了具有适合于在一些示例实现方式中使用的示例计算机装置1005的示例计算环境1000。计算环境1000中的计算装置1005可以包括一个或更多个处理单元、核心、或处理器1010，存储器1015(例如，RAM、ROM等)，内部存储1020(例如，磁存储、光存储、固态存储、和/或有机存储)和/或I/O接口1025，它们中的任一个都可以联接在通信机构或总线1030上以传递信息，或嵌入到计算装置1005中。

根据本示例实施方式，与神经活动相关联的处理可以在作为中央处理单元(CPU)的处理器1010上发生。另选地，在不脱离本发明构思的情况下可以用其它处理器代替它。例如，但不作为限制，图形处理单元(GPU)和/或神经处理单元(NPU)可以代替CPU或与CPU结合使用以执行用于前述示例实现的处理。

计算装置1005可以在通信上联接到输入/接口1035和输出装置/接口1040。输入/接口1035和输出装置/接口1040之一或两者可以是有线或无线接口并且可以是可拆卸的。输入/接口1035可包括可用于提供输入的任何装置、组件、传感器或者物理或虚拟接口(例如，按钮、触摸屏界面、键盘、定点/光标控件、麦克风、摄像头、盲文、运动传感器、光学阅读器等)。

输出装置/接口1040可以包括显示器、电视机、监视器、打印机、扬声器、盲文等。在一些示例实现方式中，输入/接口1035(例如，用户接口)和输出装置/接口1040可以被嵌入在或物理联接至计算装置1005。在其它示例实现方式中，其它计算装置可以用作或提供计算装置1005的输入/接口1035和输出装置/接口1040的功能。

计算装置1005的示例可以包括但不限于高度移动的装置(例如，智能电话、车辆和其它机器中的装置，人和动物携带的装置等)，移动装置(例如，平板、笔记本、膝上型计算机、个人计算机、便携式电视机、收音机等)以及非移动性设计的装置(例如，台式计算机、服务器装置、其它计算机、信息亭、电视机和/或无线电等，其中嵌入了一个或更多个处理器)。

计算装置1005可以在通信上联接(例如，经由I/O接口1025)到外部存储1045和网络1050，用于与任何数量的联网组件、装置和系统通信，包括相同的一个或更多个计算装置或其它配置。计算装置1005或任何连接的计算装置可以用作服务器、客户端、瘦服务器、通用机器、专用机器或其它名称，提供服务器、客户端、瘦服务器、通用机器、专用机器或其它名称的服务或被称为服务器、客户端、瘦服务器、通用机器、专用机器或另一名称。例如，但不作为限制，网络1050可以包括区块链网络和/或云。

I/O接口1025可以包括但不限于使用任何通信或I/O协议或标准(例如，以太网、802.11x、通用系统总线、WiMAX、调制解调器、蜂窝网络协议等)，用于传送信息到计算环境1000中的至少所有连接的组件、装置和网络或者来自计算环境1000中的至少所有连接的组件、装置和网络的信息。网络1050可以是任何网络或网络的组合(例如，互联网、局域网、广域网、电话网络、蜂窝网络、卫星网络等)。

计算装置1005可以使用计算机可用或计算机可读介质(包括暂时性介质和非暂时性介质)来使用和/或通信。暂时性介质包括传输介质(例如，金属电缆、光纤)，信号，载波等。非暂时性介质包括磁性介质(例如，盘和带)，光学介质(例如，CD ROM、数字视频磁盘、蓝光盘)，固态介质(例如，RAM、ROM、闪存、固态存储)以及其它非易失性存储设备或存储器。

计算装置1005可用于在某些示例计算环境中实现技术、方法、应用、处理或计算机可执行指令。可以从暂时性介质中取回计算机可执行指令，并将其存储在非暂时性介质中并从中取回。可执行指令可以源自任何一种编程、脚本和机器语言(例如，C、C++、C#、Java、Visual Basic、Python、Perl、JavaScript等)中的一种或更多种。

处理器1010可以在原生或虚拟环境中的任何操作系统(OS)(未示出)下执行。可以部署一个或更多个应用，包括逻辑单元1055、应用编程接口(API)单元1060、输入单元1065、输出单元1070、训练单元1075、特征提取单元1080、光束法平差单元1085和单元间通信机制1095，以使不同的单元彼此通信，与操作系统以及与其它应用(未示出)通信。

例如，训练单元1075、特征提取单元1080和光束法平差单元1085可以实现上述关于上述结构的一个或更多个处理。所描述的单元和元件可以在设计、功能、配置或实现上变化，并且不限于所提供的描述。

在一些示例实现方式中，当信息或执行指令被API单元1060接收时，它可以被传递到一个或更多个其它单元(例如，逻辑单元1055、输入单元1065、训练单元1075、特征提取单元1080、以及光束法平差单元1085)。

例如，如上所述，训练单元1075可以从仿真数据、历史数据或一个或更多个传感器接收信息并处理该信息。训练单元1075的输出被提供给特征提取单元1080，特征提取单元1080基于如上所述和例如在图1-5中所示的神经网络的应用来执行必要的操作。另外，光束法平差单元1085可以基于训练单元1075和特征提取单元1080的输出来执行操作并且最小化重投影误差以提供输出信号。

在某些情况下，在上述一些示例实现方式中，逻辑单元1055可被配置为控制单元之间的信息流，并指导由API单元1060、输入单元1065、训练单元1075、特征提取单元1080和光束法平差单元1085提供的服务。例如，一个或更多个处理或实现方式的流程可以由逻辑单元1055单独或与API单元1060结合来进行控制。

图11示出了适合于某些示例实现方式的示例环境。环境1100包括装置1105-1145，并且每个装置经由例如网络1150(例如，通过有线和/或无线连接)在通信上连接到至少一个其它装置。一些装置可以在通信上连接到一个或更多个存储装置1130和1145。

一个或更多个装置1105-1145的示例可以分别是图10中描述的计算装置1005。装置1105-1145可以包括但不限于具有如上所述的监视器和相关联的网络摄像头的计算机1105(例如，膝上型计算机装置)、移动装置1110(例如，智能电话或平板)、电视机1115、与车辆1120相关的装置、服务器计算机1125、计算装置1135-1140、存储装置1130和1145。

在一些实现方式中，装置1105-1120可以被认为是与用户相关联的用户装置，用户可以远程地获得用作上述示例实现方式的输入的感测输入。在本示例实现方式中，这些用户装置1105-1120中的一个或更多个可以与能够感测如上所说明的本示例实现方式所需要的信息的一个或更多个传感器相关联，一个或更多个传感器诸如是临时或永久地嵌入在用户体内、远离患者护理设施的摄像头。

虽然提供了前述示例实现方式以指示本发明的范围，但是它们并不旨在进行限制，并且在不背离本发明范围的情况下可以替代或添加其它方法或实现方式。例如，但不作为限制，可以采用除本文公开的技术以外的其它图像技术。

根据一个示例实现方式，诸如SuperPoint之类的算法可以用于训练图像点检测和确定。此外，示例实现方式可以采用另选的图像分类算法，和/或使用其它神经网络结构(例如，Siamese网络)。附加的方案将专家知识结合到区域类动作中，通过使用诸如形成、照明和发光之类的技术来应用增强两个图像，和/或使用单个图像到深度方法。

示例实现方式可以具有各种优点和益处，尽管这不是要求的。例如，但不作为限制，示例实现方式可在小的数据集上工作。此外，示例实现方式提供了对诸如结肠或肺之类的目标组织内部的位置的约束。因此，外科医师可以能够通过使用视频来更准确地定位任何人的观察设备的位置。此外，示例实施方式提供了比相关技术方法高得多的准确性。

尽管已经示出和描述了一些示例实现方式，但是提供这些示例实现方式是为了将本文所述的主题传达给熟悉该领域的人。应该理解的是，本文描述的主题可以以各种形式实现而不限于所描述的示例实现方式。可以在没有那些具体定义或描述的主题的情况下，或者在没有描述的其它或不同要素或主题的情况下实践本文描述的主题。熟悉本领域的技术人员将理解，可以在不脱离如所附权利要求及其等同物所定义的本文所述主题的前提下，对这些示例实现方式进行改变。

本公开的某些非限制性实施方式的各方面解决了以上讨论的特征和/或以上未描述的其它特征。然而，非限制性实施方式的各方面不需要解决上述特征，并且本公开的非限制性实施方式的各方面可以不解决上述特征。

Claims

1.一种计算机实现的方法，所述方法包括以下步骤：

将被划分为区域的环境的训练图像应用于神经网络，并且执行分类以基于所述区域中的最接近区域标记测试图像；

根据与所述最接近区域匹配的取回的训练图像和所述测试图像的姿态信息来提取特征；

通过对所述最接近区域的地图点进行三角化来对所提取的特征执行光束法平差以生成重投影误差，并且最小化所述重投影误差以确定所述测试图像的最佳姿态；以及

对于所述最佳姿态，提供指示处于所述最佳姿态的所述测试图像在所述环境内的位置或位置概率的输出。

2.根据权利要求1所述的计算机实现的方法，其中，应用所述训练图像包括：接收与所述环境的区域中的姿态相关联的训练图像作为历史或仿真数据，并且将所接收的训练图像提供到神经网络。

3.根据权利要求2所述的计算机实现的方法，其中，所述神经网络是深度学习神经网络，所述深度学习神经网络学习与所述姿态相关联的区域，并且确定针对所述测试图像的所述最接近区域。

4.根据权利要求1所述的计算机实现的方法，其中，所述光束法平差包括：将与所测量的姿态相关联的3D点和经三角化的地图点重投影到2D图像空间中以生成结果，并且将所述结果与配准的2D观察结果进行比较以确定所述重投影误差。

5.根据权利要求4所述的计算机实现的方法，其中，针对低于或等于阈值的重投影误差，所述测试图像的姿态被确认为所述最佳姿态。

6.根据权利要求4所述的计算机实现的方法，其中，针对高于阈值的重投影误差，所述测试图像的姿态被确定为不正确，并且所述测试图像的姿态的计算被确定为正确。

7.根据权利要求1所述的计算机实现的方法，其中，最小化所述重投影误差包括调整所述测试图像的姿态以最小化所述重投影误差。

8.一种非暂时性计算机可读介质，所述非暂时性计算机可读介质具有存储指令的存储设备，所述指令由处理器执行，所述指令包括：

9.根据权利要求8所述的非暂时性计算机可读介质，其中，应用所述训练图像包括：接收与所述环境的区域中的姿态相关联的训练图像作为历史或仿真数据，并且将所接收的训练图像提供到神经网络。

10.根据权利要求9所述的非暂时性计算机可读介质，其中，所述神经网络是深度学习神经网络，所述深度学习神经网络学习与所述姿态相关联的区域，并且确定针对所述测试图像的最接近区域。

11.根据权利要求8所述的非暂时性计算机可读介质，其中，所述光束法平差包括：将与所测量的姿态相关联的3D点和经三角化的地图点重投影到2D图像空间中以生成结果，并且将所述结果与配准的2D观察结果进行比较以确定所述重投影误差。

12.根据权利要求11所述的非暂时性计算机可读介质，其中，针对低于或等于阈值的重投影误差，所述测试图像的姿态被确认为所述最佳姿态。

13.根据权利要求11所述的非暂时性计算机可读介质，其中，针对高于阈值的重投影误差，所述测试图像的姿态被确定为不正确并且所述测试图像的姿态的计算被确定为正确。

14.根据权利要求8所述的非暂时性计算机可读介质，其中，最小化所述重投影误差包括调整所述测试图像的姿态以最小化所述重投影误差。

15.一种用于在环境中定位和跟踪观察设备以识别目标的计算机实现的系统，所述计算机实现的系统被配置为：

将被划分为区域的与所述观察设备相关联的所述环境的训练图像应用于神经网络，并且执行分类以基于与所述观察设备相关联的所述环境的所述区域中的最接近区域标记由所述观察设备生成的测试图像；

对于所述最佳姿态，提供指示处于所述最佳姿态的由所述观察设备生成的所述测试图像在所述环境内的位置或位置概率的输出。

16.根据权利要求15所述的计算机实现的系统，其中，所述环境包括胃肠道，或一个或更多个肺的支气管道。

17.根据权利要求15所述的计算机实现的系统，其中，所述观察设备被配置为提供包括息肉、病变和癌变组织中的至少一个的一个或更多个目标的位置。

18.根据权利要求15所述的计算机实现的系统，其中，所述观察设备包括被配置为接收与所述环境相关联的所述测试图像的一个或更多个传感器，并且所述测试图像是视觉图像。

19.根据权利要求15所述的计算机实现的系统，其中，所述观察设备是内窥镜或支气管镜。

20.根据权利要求15所述的计算机实现的系统，其中，所述环境是管道系统，地下环境或工业设施。