CN113272822A

CN113272822A - 用于有效的组织分割的卷积神经网络

Info

Publication number: CN113272822A
Application number: CN201980087481.5A
Authority: CN
Inventors: B·D·霍夫曼; G·A·理查蒙德; S·森
Original assignee: Intuitive Surgical Operations Inc
Current assignee: Intuitive Surgical Operations Inc
Priority date: 2018-11-14
Filing date: 2019-11-14
Publication date: 2021-08-17
Also published as: WO2020102584A3; WO2020102584A2; WO2020102584A4; EP3881230A2; US20210406596A1

Abstract

提供了一种用于图像的像素级分割的成像系统，其包括：摄像机，该摄像机捕获解剖对象的图像并且以二维(2D)像素排列来表示图像；一个或多个处理器和非暂时性计算机可读介质，该非暂时性计算机可读介质具有包括CNN指令和多个权重集的信息，该CNN指令使一个或多个处理器以实施CNN，该CNN被配置为将解剖对象分类与2D像素排列中的像素相关联，该多个权重集基于不同的摄像机图像训练数据对CNN进行不同配置；以及显示屏，该显示屏被配置为显示分类的二维(2D)像素排列和解剖对象分类。

Description

用于有效的组织分割的卷积神经网络

优先权要求

本申请要求于2018年11月14日提交的美国临时专利申请第62/767,351号的优先权，其通过引用整体并入本文。

背景技术

在微创外科手术或诊断程序期间，可以通过摄像机查看手术场景。执行程序需要准确识别解剖组织类型。卷积神经网络(CNN)已被用于执行图像像素数据的每像素分割。由于同种组织类型的外观变化以及由于不同组织类型的外观的相似性，分类可能更具挑战性。

附图说明

图1是表示示例卷积神经网络(CNN)的说明性框图。

图2是表示配置为执行像素级图像分割的示例区域建议CNN(R-CNN)内的图像处理信息流的说明性功能框图。

图3是表示面朝上设置在手术室台上的患者P的说明性绘图。

图4A-图4D是示出显示以四个不同示例姿势观看的第一解剖对象和第二解剖对象的未分类图像的设备显示屏的说明性绘图。

图4E-图4H是示出显示以图4A-图4D中所示的相同的四个不同示例姿势观看的第一解剖对象和第二解剖对象的分类图像的设备显示屏的说明性绘图。

图5A-图5D是表示四个不同患者姿势位置的说明性绘图，在四个不同患者姿势位置中摄像机可以在微创外科手术或诊断程序期间观察解剖对象。

图6是表示手术室台的说明性绘图，在该手术室台上可以设置患者，虚线指示不同的可能的台倾斜位置。

图7A-图7D是表示单独的CNN(CNN₁-CNN₄)的说明性框图，这些CNN经训练以基于针对解剖对象姿势相对于摄像机的相应不同范围的图像像素数据对图像进行分类。

图8是表示对提供给CNN的输入图像的对象图像进行分割的说明性功能框图，CNN经训练以基于针对图7A-图7D的解剖对象姿势之一的图像像素数据对图像进行分类。

图9是表示根据一些实施例的第一像素分割系统的说明性框图。

图10是表示根据一些实施例的第二像素分割系统的说明性框图。

图11是表示根据一些实施例的第三像素分割系统的说明性框图。

图12是表示根据一些实施例的第四像素分割系统的说明性框图。

图13是表示根据一些实施例的第五像素分割系统的说明性绘图。

图14是根据一些实施例的计算机系统的说明性框图。

具体实施方式

A.卷积神经网络

图1是表示示例区域建议卷积神经网络(R-CNN)100的说明性框图。计算机系统可以被配置有存储在计算机可读存储介质中的可执行指令以实施CNN 100。CNN已被用于图像分类，这通常涉及获取输入图像并输出类别(例如，汽车、飞机、船、自行车等)或最能描述输入图像中示出的对象的类别的概率。CNN 100接收二维像素值阵列(PX)102作为输入并提供一组分类分数作为输出。CNN 100包括多个处理层。具体地，CNN 100包括与非线性激活函数(A)层(例如RELU层)106相结合的卷积(C)层104、池化(P)层108和全连接(FC)网络层110和分类器层(CL)103(诸如softmax分类器)。每层都与阵列值相关联，称为权重。在CNN 100的训练期间，以多种训练数据输入图像的形式提供训练数据作为CNN 100的输入，以通过调整在CNN层内的权重来训练CNN 100，以准确地对对象图像进行分类。

更具体地说，CNN 100通过寻找诸如边缘和曲线等低级图像特征来执行图像分类，然后通过一系列卷积层构建更复杂的图像特征组合。CNN 100在一个序列中包括多个卷积层，用于根据输入图像构建复杂的图像特征映射(feature map)。每个卷积层104识别某些图像特征；不同的卷积层可以识别不同的图像特征。每个卷积层应用与该层要识别的图像特征相对应的过滤器。过滤器可以被配置有通常称为权重的二维数字阵列，该二维数字阵列应用于输入到卷积层的输入值的二维阵列，以产生从该层输出的输出值阵列。卷积层后通常是非线性(或激活)层106，通常是整流线性单元(ReLU)，但也可以使用其他函数(例如，tanh、sigmoid)。在每个卷积层104处，包括权重阵列的过滤器围绕输入值阵列滑动或卷积到卷积层，以将过滤器权重与输入值阵列的多个连续位置中的每个位置处的输入值对准。在每个位置处，过滤器的单个权重与在该位置处的权重对准的单个输入值相乘，并将产生的乘积相加以产生与该位置对应的输出值。在激活层106内的位置处提供输出值，该位置对应于用于产生它的输入值阵列的位置。

从序列的在前积层104接收输出值的激活层106可以充当序列的在后卷积层104的输入层。例如，提供给CNN 100的初始卷积层104的输入图像102通常包括表示由摄像机捕获的视觉图像的二维像素值阵列。二维阵列的每个像素值可以包括RGB颜色信息。因此，为二维阵列的每个像素提供单独的RGB颜色信息。卷积层104的序列执行卷积序列，每个卷积层可以识别图像的不同低级图像特征，诸如边缘和曲线。连续的卷积层104和激活层106导致图像特征的组合，这些图像特征一起表示更高级的图像特征，诸如半圆(曲线和直边的组合)或正方形(几个直边的组合)。通常，在CNN 100内更深的卷积层104具有更大的感受域，这意味着它们可以考虑来自原始输入体积的更大面积的信息。换句话说，更深的卷积层可能对更大的像素空间区域更敏感。

激活层106可以散布在卷积层104之间以提供非线性并保持尺寸以控制过拟合。更具体地，可以在每个卷积层之后包括非线性激活函数层以添加非线性。例如，非线性激活函数层可以包括tanh、sigmoid或ReLU函数。可以在一些ReLU激活函数层106之后包括池化层108以执行池化函数，该池化函数可以包括对ReLU层中的多个值进行下采样。池化层108背后的原因是，一旦知道特定图像特征存在于输入图像中，其确切位置就没有其与其他图像特征的相对位置重要。最大池化(Maxpooling)是众所周知的池化技术的一个示例，它可以通过随着过滤器在ReLU值阵列中滑动而在每个池化过滤器(例如2x2过滤器)中选择最大的ReLU值来下采样。池化层108可以显著地减少输入激活层106的空间维度，这可以减少卷积所需的权重数量，从而降低计算成本。池化层108还可以控制过拟合，当模型对训练示例进行如此调整以致不能很好地泛化验证集和测试集时，就会发生过拟合。

一个或多个全连接网络(FCN)层110可以被包括在CNN 100的末端附近以执行分类。一个或多个FC层110可以从在它们之前的卷积层104、激活层106或池化层108接收输入值阵列并输出N维向量，其中N是CNN 100必须从中选择的类别的数量。N维向量中的每个数字都可以表示某个类别的概率。基本上，一个或多个FC层110为每个类别确定由接收到的输入值阵列表示的高级图像特征与该类别相关的概率。请参见A.Garcia-Garcia等人，于2017年4月22日在arXiv：1704.06857[cs.CV]上的A Review on Deep Learning TechniquesApplied to Semantic Segmentation。

B.利用R-CNN进行对象识别

图2是表示配置为执行对象检测的示例区域建议CNN(R-CNN)200内的图像处理信息流的说明性功能框图。计算机系统可以被配置有存储在计算机可读存储介质中的可执行指令以实施CNN 200。为了简化绘图，省略了不同散布层的细节，这些层可以包括卷积层、激活层、池化层和全连接网络(FCN)层，诸如上述那些。CNN 200接收二维像素值阵列202作为输入并提供图像特征映射210作为输出。区域建议网络(RPN)212定义感兴趣区域(ROI)建议(在虚线内指示)213，例如，基于图像特征映射210，感兴趣区域(ROI)建议可以包括对应于像素图像202内的第一、第二和第三感兴趣区域231、232、233的相应的第一、第二和第三边界框221、222、223。图像特征映射210和边界框信息221、222、223可以被提供给池化层214。第一对象分类器241产生对应于与第一边界框221相关联的特征信息的第一分类分数C_O1。第二对象分类器242产生对应于与第二边界框222相关联的图像特征信息的第二分类分数C_O2。第三对象分类器243产生对应于与第三边界框223相关联的图像特征信息的第三分类分数C_O3。因此，在输入图像内的多个不同对象图像231、232、233可以被分别分类为C_O1、C_O2、C_O3，并且对应于分类对象的输入图像202的像素可以是根据基于为分类对象划分边界的区域的分类进行空间分割。应当理解，根据本文的实施例，感兴趣区域包括单独的像素而不是包含多个像素的边界框。

因此，响应于接收到输入图像202，R-CNN200建议图像202的可以显示单独对象的单独感兴趣区域221、222、223。在一些实施例中，每个建议区域内的图像特征信息被单独提供给对象分类器241、242、243以单独确定其分类或一组可能的分类。在一些实施例中，相应的对象分类器241、242、243为每个单独的相应边界框区域221、222、223提取单独的图像特征向量信息，并将图像特征向量信息提供给分类器，诸如为每个类别训练的一组支持向量机(SVM)用于输出分类。因此，在单独建议的区域内的单独对象可以被单独分类。参见：S.Ren等人，于2016年1月6日，在arXiv：l506.01497v3[csCV]中的Faster R-CNN：TowardsReal-Time Object Detection with Region Proposal Networks；V.Badrinarayanan等人，于2016年10月10日，在ArXiv：1511oo561 v3[cs.CV]中的SegNet:A DeepConvolutional Encoder-Decoder Architecture for Image Segmentation；K.He等人，于2017年4月5日在arXiv:1.703.06870v2[csCV]中的Mask R-CNN。

C.将解剖图谱(atlas)与患者的解剖体对准以确定解剖体内部解剖对象的位置

图3是表示面朝上设置在手术室台304上的患者302的说明性绘图，该患者302与表示内部器官的解剖图谱306对准。解剖图谱306被表示为与患者的解剖体对准以提供组织类型的指示，例如，患者的身体302内部的诸如肺(L)、心脏(H)、胃(S)、肾(K)和肠(I)的指示。应当理解，解剖图谱306可以包括存储在计算机可读存储设备中的人体解剖体的相关部分的广义三维模型，该模型可以与患者的解剖体虚拟对准以提供期望在摄像机308的视场(诸如来自不同观察视角的摄像机视场)内的组织类型的指示。

D.患者位置和摄像机位置

如本文所用，术语“姿势”指代对象在六个自由度变换(3个平移和3个旋转)中的位置。解剖对象(诸如解剖组织)的姿势可以指代对象在六自由度变换中的位置。摄像机的姿势可以指摄像机在六自由度变换中的位置。

作为外科手术或诊断程序的受试者的解剖对象可能难以与摄像机图像中显示的其他解剖对象区分开来。在外科手术设置中区分组织类型有时可能很困难。在某些情况下，某些解剖对象和某些组织类型可能具有相似的外观。在外科手术或诊断程序期间，不同的组织类型通常可能被一层脂肪掩盖。此外，组织类型的外观可能会随着外科手术或诊断程序进展而改变(由于血液、烧灼、操纵等)。在微创程序期间，患者相对于摄像机的位置的知悉可以用于通过限制可能存在于摄像机图像中的可能组织类型的选择来改进组织类型的识别。

在微创外科手术或诊断程序(也称为微创外科手术程序(MIS程序)或腹腔镜程序)期间在内窥镜摄像机的视场内可见的解剖对象例如可以包括多种不同组织类型中的一种或多种类型，诸如血管、脂肪组织、神经纤维或器官组织(诸如肺、肾和肝)。摄像机和患者解剖体之间的相对姿势可能是区分不同解剖对象的相似图像的能力的一个因素，因为解剖对象(例如器官组织)的摄像机图像可能会根据摄像机姿势相对于解剖对象姿势而显著地变化。

图4A-图4D是示出显示在四个不同的示例姿势中查看的第一解剖对象404和第二解剖对象406的未分类图像的设备显示屏1402的说明性绘图。显示屏1402可以是计算机显示屏和其他显示设备以显示解剖场景的摄像机图像，例如在微创外科手术或诊断程序期间由内窥镜摄像机捕获的诸如来自患者解剖体内的摄像机图像。例如，第一解剖对象404和第二解剖对象406可以分别是脾和肝。图4A是示出处于第一姿势的第一解剖对象404和第二解剖对象406的说明性绘图，其可以涉及面朝上定位在手术台上的患者。图4B是示出处于第二姿势的第一解剖对象404和第二解剖对象406的说明性绘图，其可以涉及面朝下定位在手术台上的患者。图4C是示出处于第三姿势的第一解剖对象404和第二解剖对象406的说明性绘图，其可以涉及以他或她的右侧位于手术台上的患者。图4D是示出处于第四姿势的第一解剖对象404和第二解剖对象406的说明性绘图，其可以涉及以他或她的左侧位于手术室台上的患者。从图4A-图4D的示意图中可以理解，两个解剖对象404、406可能看起来相似，并且在没有更多信息的情况下基于解剖对象404、406在其原始外观中的视觉检查可能难以区分。例如，在医疗程序期间，由于血液、烧灼引起的冒烟、脂肪或组织变形，区分两个解剖对象的挑战可能会增加。

图4E-图4H是示出设备显示屏1402的说明性绘图，其显示以图4A-图4D中所示的相同的四个不同示例姿势观看的第一解剖对象404和第二解剖对象406的分类图像。图4E-图4H的显示器中第一对象404和第二对象406的阴影指示它们的不同分类。例如，显示第一对象(脾)404的显示屏1402的部分内的显示屏像素可以被着色为蓝色，而显示第二对象(肝脏)406的显示屏1402的部分内的像素可以被着色为黄色。如果没有这种阴影，仅使用肉眼，组织类型之间的界限可能难以辨别。因此，阴影可以帮助医务人员区分不同的组织类型。为了准确地对显示屏1402内的图像进行分类，必须对用于照亮图像的像素进行单独分类。如下文更全面的解释，CNN可以用于根据解剖对象类型对单个像素进行分类。像素分类又可以显示在显示屏1402上，作为显示在显示屏1402上的已分类解剖对象的图像的阴影或着色。因此，如下所述，像素级分类可以(例如，作为阴影或着色)显示在显示屏1402上。

图5A-图5D是表示在MIS程序期间四种不同示例患者姿势的说明性绘图。图5A-图5D图示了不同的可能摄像机姿势和不同的对应摄像机视场。图5A是示出处于第一患者位置的患者502的说明性绘图，其对应于上面示图中的面朝上位置。图5B是示出处于第二患者位置的患者502的说明性绘图，其对应于上面示图中的面朝下位置。图5C是示出处于第三患者位置的患者502的说明性绘图，其对应于上面示图中的右侧位置。图5D是示出处于第四患者位置的患者502的说明性绘图，其对应于上面示图中的左侧位置。图5A-图5D示出了相对于处于不同患者姿势的患者502的不同替代示例摄像机姿势中的摄像机504和摄像机参考系506。

手术室台602的位置可以是确定解剖对象姿势的一个因素。图6是表示手术室台的说明性绘图，患者可以排列在手术室台上，虚线602指示不同的可能的台倾斜位置。虽然没有显示，但台的高度也可以被调整。

E.摄像机变换

可以通过假设摄像机位于(0,0,0)来确定摄像机姿势，+Y向上，向下看-Z轴。摄像机的焦距和图像中心定义了它的投影变换。解剖对象的模型+视图变换可以被编码为摄像机参考系中的平移加四元数(quaternion)。如本文所用，术语“摄像机参考系”指代与摄像机相关联的坐标系。例如，在一些实施例中，摄像机参考系在两只眼睛之间居中，+X向左，+Y向上，+Z在摄像机外。请参见A.Kendall等人，PoseNet:A convolutional network forReal-Time 6-DOF Camera Relocalization，IEEE国际计算机视觉大会(ICCV)，2015年，第2938-2946页。

根据一些实施例，解剖对象相对于摄像机参考系的姿势可以基于(手术室)台相对于摄像机参考系的姿势、患者相对于台参考系的姿势以及解剖对象相对于患者参考系的姿势的组合来确定。

更具体地，台相对于摄像机参考系的姿势可以被定义为4x4齐次变换

患者相对于台参考系的姿势可以定义为4x4齐次变换

解剖对象相对于患者参考系的姿势可以定义为4x4齐次变换

解剖对象相对于摄像机参考系的姿势可以定义为复合摄像机变换链

更具体地，例如，台面相对于摄像机参考系的变换可以经由台基座上的基准标志加上台倾斜度、特伦德伦伯卧位的知识推导出，或从通过机器人操纵器所感测的器械套管位置的知识推断(请参见，Methods and devices for table pose tracking usingfiducial markers，WO2015142802A1，以及System and method for integrated surgicaltable，WO2016069648 A1)。

更具体地，例如，患者相对于台的变换可以例如通过CNN，使用外部视图(例如，安装在手术室中的外科手术推车上的RGB和/或深度摄像机等)来估计，或由操作员在程序开始时指定。

更具体地，例如，可以基于来自与患者身体对准的解剖图谱的数据(解剖对象位置相对于共用参考系的模型)、用于缩放解剖图谱的患者尺寸的估计(例如，由上面的CNN生成)，以及由重力、充气等引起的变形的估计(如果重要的话)来估计解剖对象(诸如内部组织结构)相对于患者参考系的变换。

F.训练不同的CNN以针对解剖对象相对于摄像机参考系的不同姿势分割解剖对象

图7A-图7D是表示单独的CNN(CNN₁-CNN₄)的说明性框图，这些CNN经训练以基于解剖对象姿势相对于摄像机参考系的不同范围的图像像素数据对解剖对象图像进行分类。参考下面讨论的图14，计算机系统1400可以被配置有存储在存储介质1404、1406、1416中的可执行指令1424以实施CNN(CNN₁-CNN₄)。例如，向下看骨盆的摄像机(未示出)是与摄像机向上看胸部的解剖对象姿势不同的解剖对象姿势。可以使用针对不同患者自然变化的解剖对象图像来训练CNN。此外，例如，可以使用MIS程序中不同点的解剖对象图像、使用进行手术操纵的解剖对象的图像、以及使用存在烧灼冒烟和/或血液的解剖对象的图像来训练CNN。例如，还可以使用通过调整颜色(例如，色调、饱和度)和/或通过图像旋转和/或裁剪而增强的图像来训练CNN。

每个CNN₁-CNN₄接收像素数据的二维(2D)排列的像素信息，该像素数据包括由摄像机捕获的图像的每个像素，其中可能包括RGB、深度/距离和/或额外的颜色通道，诸如红外线(IR)波长。每个CNN₁-CNN₄输出一组分类分数C₁-C_N。每个CNN₁-CNN₄包括卷积和激活层602A-602D，以生成图像特征映射和感兴趣区域建议。每个CNN₁-CNN₄都包括RPN 603A-603D来定义ROI建议。每个CNN₁-CNN₄还包括一个或多个分类层604A-604D，其可以包括一个或多个FCN，以产生用于对感兴趣区域建议内的图像进行分类的图像分类分数。响应于输入图像由CNN₁-CNN₄产生的图像特征映射和分类是基于相应的特征权重集[W_F1]-[W_F4]确定的，这些特征权重集可以被存储在存储介质中，并且相应的分类权重集[WC1]-[WC4]可以被存储在存储介质中。

每个CNN₁-CNN₄都经训练以分割一种或多种组织类型。更具体地，CNN₁-CNN₄中的每一个不同的一个可以经训练以针对不同的视点分割一种或多种组织类型的摄像机图像。每个不同的视点对应于一种或多种特定组织类型相对于摄像机参考系的不同姿势。一些组织类型可能会出现在相对于摄像机参考系的多个姿势的摄像机图像内。此外，每个相应的CNN₁-CNN₄可以经训练以在各种不同的条件下(诸如在手术操纵、发生冒烟和/或血液泄漏期间)使用训练数据图像识别一个或多个相应的组织类型。例如，在MIS程序期间的运行时，解剖对象相对于摄像机参考系的姿势可以用于确定预期在摄像机视场内的一组组织类型，并选择一个或多个CNN₁-CNN₄执行分类以识别摄像机视场内的(一个或多个)组织类型。更具体地，例如，解剖模型可以被转换成至少粗略地匹配患者的姿势和尺寸。然后可以查询模型以用于在摄像机视场内的预期组织类型的列表(即，利用虚拟摄像机、利用在内窥镜正查看患者时的相同的视点查看模型-这可以提供可用作选择CNN的基础的一组预期组织类型)。

不同姿势的训练数据可以用于训练不同的CNN₁-CNN₄，以区分不同的组织类型(诸如下图表中的组织类型)。

CNN/组织分类图表

CNN#	被分类的组织类型
		CNN1	肺、心脏、肝
CNN2	脾、肾、胆囊
		CNN3	胃、肺、肝
CNN4	胃、网膜、脂肪、小肠/大肠

第一训练数据集用于训练第一CNN₁。第一训练数据集包括显示了第一组组织类型(诸如肺、心脏和肝脏组织)的多个不同的训练图像，例如，在一个或多个解剖结构相对于摄像机参考系的第一姿势范围(即解剖体和摄像机之间的相对姿势，诸如如图5A 所示的面朝上的患者)处并且在各种不同的条件(例如，手术操纵、冒烟、血液)下由摄像机所捕获的第一组组织类型的多个不同的训练图像。基于第一训练数据集确定配置卷积和激活层602A和RPN 603A并且包括配置CNN₁的分类层604A的分类权重[W_C1]的特征权重[W_F1]。第二训练数据集用于训练第二CNN₂。第二训练数据集包括第二组组织类型(诸如脾、肾和胆囊)的多个不同训练图像，例如，在一个或多个解剖结构相对于摄像机参考系的第二姿势范围(诸如如图5B所示的面朝下的患者)处并且处于各种不同的条件下由摄像机所捕获的第二组组织类型的多个不同训练图像。基于第二训练数据集确定配置卷积和激活层602B和RPN 603B并包括配置CNN₂的分类层604B的分类权重[W_C2]的特征权重[W_F2]。第三训练数据集用于训练第三CNN₃。第三训练数据集包括第三组组织类型(诸如胃、肺和肺)的多个不同训练图像，例如，在一个或多个解剖结构相对于摄像机参考系的第三姿势范围(诸如如图5C所示的右侧躺着的患者)处并且在各种不同的条件下由摄像机所捕获的第三组组织类型的多个不同训练图像。基于第三训练数据集确定配置卷积和激活层602C和RPN 603C并且包括配置CNN₃的分类层604C的分类权重[W_C3]的特征权重[WF3]。第四训练数据集用于训练第四CNN₄。第四训练数据集包括在一个或多个解剖结构相对于摄像机参考系的第四姿势范围(例如如图5D所示的左侧躺着的患者)处并且处于各种不同的条件下由摄像机捕获的第四组组织类型(诸如胃、网膜、脂肪和小/大肠)的多个不同训练图像。基于第四训练数据集确定配置卷积和激活层602D和RPN 603D并且包括配置CNN₄的分类层604D的分类权重[W_C4]的特征权重[W_F4]。

图8是表示使用第一CNN₁来分割对象图像的说明性功能框图。像素RGB颜色信息701可以作为输入提供给第一CNN₁。此外，或替代地，诸如红外(IR)波长的颜色通道信息可以作为输入提供给第一CNN₁。深度/距离信息也可以作为输入提供给第一CNN₁。例如，假设像素图像数据701包括与表示心脏组织的第二对象图像数据704相邻的表示肺组织的第一对象图像数据702。第一CNN₁的卷积和激活层602A产生特征映射720；第一CNN₁的RPN部段产生对应于第一对象图像数据702的第一感兴趣区域建议722和对应于第二对象图像数据704的第二感兴趣区域建议724。第一CNN₁的分类部段604A对第一区域建议722的内容进行分类以产生对应于第一对象图像数据702的第一分类分数742。第一CNN₁的分类部段604A对第二感兴趣区域建议724的内容进行分类以产生对应于第二对象图像数据704的第二分类分数744。

可以使用由第一CNN₁确定的分类信息，例如作为添加到显示像素图像数据701、分类信息(诸如与第一对象图像数据702相邻的标记‘肺’)的用户界面(UI)显示器中，并且作为在第二对象图像数据704附近添加标记“心”的基础。替代性地，例如，所确定的分类信息可以用作将肺的分割的术前图像(未示出)与第一对象图像数据702对准并将心脏的分割的术前图像(未示出)与第二对象图像数据704对准的基础。在术前图像数据与对象图像数据702和/或704对准的这种情况下，分类结果可以用作改进时间程序分割的基础，尽管没有直接显示或报告给用户。

G.基于姿势的预过滤以选择经训练以分割特定组织类型的CNN

图9是表示根据一些实施例的第一像素分割系统902的说明性框图。摄像机504被配置为捕获摄像机图像，该摄像机图像包括表示躺在手术台602上的患者502的解剖体对象的摄像机像素数据904的二维阵列，用于存储在存储介质906中。例如，像素数据904可以包括诸如视频数据的运动图片数据。第一像素分割系统902包括多个CNN，即CNN₁-CNN₄。如上所述，参考图7A-图7D和图8，CNN₁-CNN₄中的不同CNN可以通过训练被配置为对在患者解剖体相对于摄像机参考系506的不同姿势下预期出现在摄像机视场内的组织类型进行分类。计算机系统(诸如以下参考图14描述的计算机系统1400)可以被配置有可执行指令(诸如指令1424)，用于实施预过滤CNN选择块908以选择CNN₁-CNN₄中的一个或多个以对摄像机像素数据的二维排列进行分类。

预过滤器CNN选择块908接收台姿势信息、患者姿势信息、解剖图谱信息和摄像机姿势信息。预过滤器CNN选择块908基于上述摄像机变换来确定患者解剖体502相对于摄像机的姿势。患者解剖体相对于摄像机504的姿势用于确定哪些组织类型预期在摄像机视场内，因此，预期由捕获的像素数据904表示的组织类型。预过滤器CNN选择块908选择最适合于预期组织类型的像素分割的CNN₁-CNN₄中的一个或多个。

选择的一个或多个CNN₁-CNN₄经训练以基于组织类型来分割像素数据。更具体地，选择的一个或多个CNN₁-CNN₄经训练以根据组织类型对像素数据内表示的单个像素进行分类。如参考图4A-图4G所解释的，根据组织类型的像素分类可以用于以不同颜色显示出现在用户界面显示屏1402上的不同组织类型。替代性地，例如，像素分类可以用于将出现在显示屏1402上的不同组织类型标记为例如表示不同的组织类型。例如，第一CNN₁可以通过训练被配置为将像素数据分割为对应于肺、心脏和肝脏组织的像素数据；第二CNN₂可以通过训练被配置为将像素数据分割为对应于脾脏、肾脏和胆囊组织的像素数据。第三CNN₃可以通过训练被配置为将像素数据分割成对应于胃、肺、肝组织的像素数据；第四CNN₄可以通过训练被配置为将像素数据分割成对应于胃、网膜、脂肪、小肠/大肠组织的像素数据。

H.由经训练以分割组织类型的CNN进行的像素分类的基于姿势的后置过滤以识别无效分类

图10是表示根据一些实施例的第二像素分割系统1002的说明性框图。摄像机504被配置为捕获摄像机图像，该摄像机图像包括表示躺在手术台602上的患者502的解剖体对象的摄像机像素数据1004的二维阵列，用于存储在存储介质1006中。例如，像素数据1004可以包括诸如视频数据的运动图片数据。第二像素分割系统1002包括CNN 1003，该CNN 1003包括卷积和激活层、RPN和FCN层(未示出)，如上所述，该CNN 1003可以经训练以分割比单个CNN(例如第一像素分割系统的CNN₁-CNN₄)更广泛的不同组织类型。计算机系统1400可以被配置有存储在存储介质1404、1406、1416中的可执行指令1424，用于实施CNN 1003和后置过滤分类校正逻辑块1008以基于患者解剖体相对于摄像机的姿势来识别无效分类。CNN 1003向后置过滤分类校正块1008提供建议的像素分类数据1005，后置过滤分类校正块1008基于患者502的解剖体内的解剖对象相对于摄像机参考系506的姿势来过滤建议的像素分类数据1005以在建议的像素分类数据1005中识别像素分类错误。

更具体地，在一些实施例中，CNN 1003通过训练被配置为针对由摄像机504捕获的像素值的2D排列的每个像素输出建议的分类。建议的像素分类值可以包括像素的多个可能的不同分类(例如，肝脏、脾脏、心脏、肺、网膜、神经、脂肪、血管等)中的每一个的概率值，并且后置过滤器1008可以基于姿势信息为一个或多个像素修改一个或多个像素的像素分类概率值。例如，当摄像机位于向下看骨盆时看到肺部的概率是低的。因此，例如，当姿势信息指示摄像机正向下看骨盆时，后置过滤器可以降低指示摄像机视场中的对象是肺的高概率的CNN输出分类概率值。对于每个像素，由后置过滤器1008进行后置过滤之后得到的经错误校正的最高分类概率值被选择作为最终像素分类。在一些实施例中，可以基于阈值过滤掉低的分类值。例如，不满足阈值的分类值可以被忽略或被视为未知。

根据一些实施例，后置过滤分类校正逻辑块1008接收台姿势信息、患者姿势信息、解剖图谱信息和摄像机姿势信息。后置过滤分类校正块1008基于上述摄像机变换来确定患者502的一个或多个解剖体对象相对于摄像机504的姿势。患者解剖体对象相对于摄像机的姿势确定了预期在摄像机视场内的组织类型，和因此由接收到的像素数据1004的2D排列的不同像素表示的不同组织类型。后置过滤分类校正块1008过滤像素分类以基于如上所述的患者解剖体相对于摄像机的姿势识别和纠正错误的像素分类。

在经训练以分割组织类型的CNN中的基于姿势的全连接层

图11是表示根据一些实施例的第三像素分割系统1102的说明性框图。摄像机504被配置为捕获摄像机图像，该摄像机图像包括表示躺在手术台602上的患者502的解剖体对象的摄像机像素数据1104的二维阵列，用于存储在存储介质1106中。例如，像素数据1104可以包括诸如视频数据的运动图片数据。第三像素分割系统1102包括CNN 1103，其包括卷积和激活层1105、RPN 1107和基于相对于摄像机参考系506的解剖对象姿势训练的全连接层(FCN)1109。计算机系统1400可以被配置有存储在存储介质1404、1406、1416中的可执行指令1424，用于实施CNN 1103。CNN 1103通过训练被配置为遍及相对于摄像机参考系504的各种解剖对象姿势对组织进行分类。因此，CNN 1103可以经训练以区分比单独CNN(例如第一像素分割系统902的CNN₁-CNN₄)更广泛的不同组织类型。FCN层1109接收指示患者502内的解剖体对象与摄像机参考系506之间的相对姿势的信息作为输入(编码为四元数+平移)，并且还接收摄像机校准参数(例如，一个或多个焦距、图像中心)作为输入。FCN层1109向由卷积层和激活层1105产生的特征映射赋予指示解剖对象姿势相对于摄像机姿势的特征信息。CNN 1103接收摄像机像素数据1104的2D排列、指示患者502内的解剖体对象与摄像机参考系506之间的相对姿势的信息(编码为四元数+平移)以及摄像机校准参数(例如，焦距、图像中心)作为输入，并产生像素级分类数据的二维排列。应当理解，本质上，CNN 1103的训练将解剖图谱构建到CNN 1103中，其中CNN 1103的训练包括包含摄像机模型的全连接层1109。换言之，第三像素分割系统1102学习整体解剖体和其中的解剖对象的三维模型。因此，可能不需要解剖图谱信息作为输入。

J.术前模型经对准以向经训练来分割组织类型的CNN提供提示，利用模型对准来驱动像素级分割

图12是表示根据一些实施例的第四像素分割系统1202的说明性框图。摄像机504被配置成捕获摄像机图像，该摄像机图像包括表示躺在手术台602上的患者502的解剖体对象的摄像机像素数据1203的二维排列，用于存储在存储介质1205中。例如，像素数据1203可以包括诸如视频数据的运动图片数据。计算机系统1400可以被配置有存储在存储介质1404、1406、1416中的可执行指令1424，用于实施第四像素分割系统1202，第四像素分割系统1202包括粗对准逻辑块1204、精细对准逻辑块1206、3D到2D渲染器块1208和CNN 1210。在一些实施例中，CNN 1210包括如上所述的经训练以分割组织类型的卷积和激活层、RPN和FCN层(未示出)。在一些实施例中，CNN 1210基于从相对于一个或多个摄像机参考系的多个不同解剖对象姿势捕获的摄像机图像并且基于解剖对象的三维(3D)术前模型的二维(2D)渲染来训练，以例如根据解剖对象类型对在MIS或腹腔镜程序期间由摄像机捕获的像素值的2D排列的像素进行分类。因此，CNN 1210通过训练被配置为根据对象类型对像素值的2D排列内的单独像素进行分类，并且至少部分地基于由组织结构的二维术前模型提供的提示作为像素级分割分类的基础。在一些实施例中，在训练CNN 1210期间，术前模型的标记的2D渲染和包括患者解剖体的像素值的2D排列的相应标记的内窥镜图像被提供作为训练输入。因而CNN 1210经训练以使用2D术前模型渲染作为提示来预测表示患者解剖体的图像的像素的捕获2D排列内的像素的分类。

在操作中，可以获得存储在存储介质1214中的术前模型1212，其包括三维(3D)图像扫描数据模型，该三维(3D)图像扫描数据模型包括患者解剖体的相关部分的三维图像表示，患者解剖体的相关部分的三维图像表示包括单独解剖组织对象的扫描数据模型。例如，图像扫描系统(未示出)可以在诊断或外科程序之前产生术前模型1212。可以使用诸如计算机断层扫描(CT)、磁共振成像(MRI)或超声波技术的扫描系统生成术前三维(3D)图像扫描数据，这些数据指示解剖组织结构内分立的三维体积位置处的物理组织选区(constituency)。替代性地，根据一些实施例，术前模型1212可以包括广义解剖图谱(未示出)。要扫描的患者502内的物理解剖组织结构(未示出)可以包括一个或多个解剖对象，诸如肾组织、肝组织、血管、骨骼和神经纤维。术前图像扫描数据模型1212内的三维位置对应于患者502的物理解剖组织结构内的三维位置。最小的3D位置单元可以被称为体素。3D术前图像扫描数据模型1212可以包括对应于物理组织结构内的单独三维位置的单独体素。摄像机图像中的像素可以对应于3D术前模型内的体素的2D切片。单独体素值(灰度值或颜色值)可以表示物理组织结构内相应位置处的物理组织的密度，因此可以用作关于对表示在像素的2D排列中的患者解剖结构的捕获的摄像机图像中表示的不同组织类型进行分割的提示的基础。不同类型的组织诸如骨骼和血管例如具有不同的密度，并且因此图像扫描数据内3D位置处的体素值可以指示物理组织结构内相应3D位置处的组织类型。术前图像扫描数据可以被转换为患者解剖体的术前3D模型1212并存储为网格(例如，用于计算机图形的一组三角形等)。参见W.Lorenesn等人，于1987年7月在Computer Graphics的第21卷，第4期的Marching Cubes:A High Resolution 3D Surface Construction Algorithm。例如，不同的组织类型可以由不同的灰度或不同的颜色表示。此外，可以标记不同的组织类型以例如指示组织类型；灰度或颜色本身可以作为标记。

在操作中，粗对准逻辑块1204接收指示解剖对象相对于摄像机参考系的姿势的信息作为输入，该信息可以包括台姿势信息、患者姿势信息、摄像机姿势信息。粗对准逻辑块1204还接收术前模型1212，其可以包括解剖图谱。粗对准逻辑块1204基于解剖对象相对于摄像机参考系的姿势将术前模型1212与摄像机参考系对准。例如，可以基于上述摄像机变换来确定解剖对象相对于摄像机参考系的姿势。更具体地，粗对准逻辑块1204确定3D模型1212的视图或取向，其与由捕获的像素值的2D排列所表示的解剖视图基本匹配，并且将匹配视图或取向指定为对准的术前模型1212。粗对准块1204产生术前模型相对于摄像机参考系506的3D粗对准视图1216，3D粗对准视图1216可以保存在存储设备1218中。

精细对准逻辑块1206接收3D粗对准术前模型视图1216和像素深度数据1220作为输入。在一些实施例中，摄像机504被实施为立体摄像机并且像素深度数据1220包括立体像素深度数据。可以使用基于立体图像的公知技术来为捕获的2D像素数据1203的单独像素确定深度信息，其又可以用于将捕获的2D像素数据1203内的单独像素与来自3D术前模型1212不同深度的切片的单独体素(或顶点)紧密地对准。更具体地，根据一些实施例，精细对准块1206接收由摄像机504捕获的像素数据1203的立体2D排列并且基于两个立体图像中的对应像素之间的距离来确定像素深度信息1220。精细对准块1206可以被配置为基于摄像机像素深度数据1220使用迭代最近点(ICP)过程来精细对准3D术前模型1212的表面几何形状与在捕获的2D像素数据1203内成像的几何特征。值得注意的是，相比于组织变形变化来说，使用ICP的精细对准通常更适合刚性姿势变化。例如，由于重力或充气导致内部解剖对象的偏移，可能需要精细对准。精细对准块1206产生精细对准的3D术前模型视图1222，其保存在存储器设备1224中。

3D到2D渲染逻辑块1208接收精细对准的3D术前模型视图1222作为输入并且产生渲染的2D术前模型1226作为输出，该渲染的2D术前模型1226包括对应于所捕获的2D像素数据1203的像素并且与所捕获的2D像素数据1203的像素对准的像素。2D术前模型被保存在存储器设备1228中。

CNN 1210接收捕获的2D像素数据1203和渲染的2D术前模型1226作为输入。由于粗对准和精细对准阶段，渲染的2D术前模型1226的像素与捕获的2D像素数据1203的像素基本对准。为3D术前模型1212的像素提供的标记可以传递到渲染的2D术前模型1226的像素，以生成渲染的2D术前模型1226的每个像素标记。CNN 1210经训练以在每个像素的基础上分割在捕获的2D像素数据1203内的组织类型，并且还使用来自渲染的2D术前模型1226的像素数据用于执行每个像素分割的提示。CNN 1210提供像素级分类1211作为输出，其指示可以用于标记在显示屏1402内的单独像素的解剖对象图像的像素级分割。

可以理解，在立体视觉系统中，L眼和R眼(左眼和右眼)观察者的透视图略有不同，因此我们可以选择对准并渲染经对准的术前模型以匹配任一视图，然后通过CNN运行它。替代性地，我们可以选择根据L和R视图的像素深度对准3D术前模型，并为L和R视图渲染经对准的术前模型，并依次通过CNN运行两者。或者，替代性地，我们可以选择基于L和R视图的像素深度对准3D术前模型，并为L和R视图渲染经对准的术前模型，并通过例如并排、上下或线路交错地包装L和R同时通过CNN运行它们。

K.术前模型经对准以向经训练以分割组织类型的CNN提供提示，利用像素级分割驱动模型对准

图13是表示根据一些实施例的第五像素分割系统1302的说明性绘图。摄像机504被配置为捕获摄像机图像，该摄像机图像包括表示躺在手术台602上的患者502的解剖体对象的摄像机像素数据1303的二维阵列，用于存储在存储介质1305中。例如，像素数据1303可以包括诸如视频数据的运动图片数据。计算机系统1400可以被配置有存储在存储介质1404、1406、1416中的可执行指令1424，可以被配置为实施第五像素分割系统1302，第五像素分割系统1302包括对准逻辑块1304、3D到2D渲染器1308、对准错误校正反馈块1342和CNN1310。在一些实施例中，CNN 1310包括如上所述的经训练以分割组织类型的卷积和激活层、RPN和FCN层(未示出)。训练数据可以包括由内窥镜摄像机捕获的表示在患者解剖体内的解剖对象的像素数据的标记的2D排列，以及解剖对象的3D术前模型的对应标记的2D渲染。因而CNN 1310经训练以在对在外科手术或诊断程序期间捕获的、表示解剖结构的2D排列像素数据进行每像素分类时使用参考术前图像作为提示。CNN 1310还被配置成至少部分地基于由组织结构的对应渲染2D术前模型所提供的提示来作为分割分类的基础。

在操作中，可以获得存储在存储介质1314中的术前模型1312，术前模型1312包括三维(3D)图像扫描数据模型，三维(3D)图像扫描数据模型包括患者解剖体的相关部分的三维图像表示，患者解剖结构的相关部分的三维图像表示包括单独的解剖组织对象的扫描数据模型。如上所述，术前模型可以包括三维(3D)图像扫描数据模型，三维(3D)图像扫描数据模型包括患者解剖体的相关部分的3D图像表示，患者解剖结构的相关部分包括解剖组织对象。替代性地，术前模型可以包括广义解剖图谱。

在操作中，粗对准逻辑块1304接收指示解剖对象相对于摄像机参考系的姿势的信息作为输入，该信息可以包括台姿势信息、患者姿势信息、摄像机姿势信息。粗对准逻辑块1304还接收术前模型1312，其可以包括解剖图谱。在一些实施例中，对准块1304的操作类似于图12的粗对准块1204。特别地，粗对准逻辑块1304基于解剖对象相对于摄像机参考系的姿势将术前模型1312与摄像机参考系对准。例如，可以基于上述摄像机变换来确定解剖对象相对于摄像机参考系的姿势。更具体地，粗对准逻辑块1304确定3D模型1312的视图或取向，其与由捕获的像素值的2D排列所表示的解剖结构视图基本匹配，并且将匹配视图或取向指定为对准的术前模型1312。粗对准块1304产生术前模型的术前模型1316相对于摄像机参考系506的3D粗对准视图，3D粗对准视图可以保存在存储设备1318中。

术前模型1316的3D粗对准视图作为输入提供给3D到2D渲染逻辑块1308。与摄像机参考系对准的渲染的2D术前模型像素数据1326是基于3D模型1316的对准表面几何形状产生的，并且被保存在存储设备1328中作为3D到2D渲染块1308的输出。

CNN 1310接收摄像机像素数据1303的捕获的2D排列和渲染的2D术前模型1326作为输入。由于对准阶段包括对准错误校正反馈块1342，渲染的2D术前模型像素数据1326与摄像机像素数据1303的捕获的2D排列基本对准。针对3D术前模型1312提供的每体素标记可以用于针对渲染的2D术前模型1326生成对应的每像素标记。CNN 1310被配置为基于训练以执行在可表示一个或多个解剖对象的摄像机像素数据1303的捕获的2D排列中表示的组织类型的像素级分割，并且还被配置为使用对应的渲染的2D术前模型1326用于像素级分割的提示。CNN 1310提供像素级分类1311作为输出，像素级分类1311可以用于标记显示屏1402内的单独像素。

对准错误校正反馈逻辑块1342接收渲染的2D术前模型1326和像素级输出分类1311作为输入。对准错误校正反馈逻辑块1342产生像素对准错误信息1344作为输出，在一些实施例中，该像素对准错误信息1344可以包括如从前面描述的摄像机变换链预期的摄像机参考系506中的标称解剖对象位置(c')与由摄像机504观察到的实际解剖对象位置(c)之间的姿势校正变换

该姿势校正变换信息可以通过最小化与渲染的2D术前模型的像素的对应标记不匹配/失配(mismatch)的像素级分类来确定。例如，来自渲染的2D术前模型的某个区域的阈值数量像素标记与CNN产生的像素分类之间的不匹配/失配可能表示未对准。可以选择足够大的阈值水平，使得系统噪声或仅涉及少数像素的微小像素未对准不会触发对准错误的检测。像素对准错误信息1344可以向对准逻辑块1304提供与实际解剖对象姿势未对准的3D术前模型1302的位置的指示。

在一些实施例中，对准逻辑块1304接收由对准错误校正反馈块所提供的姿势校正变换信息并将其与先前描述的变换链连结为：

以生成更新的对准变换。

L.计算机系统实施例

图14是计算机系统1400的说明性框图。计算机系统1400或其变体可以被配置为根据可执行指令1424充当系统来实施所公开的CNN和成像系统。在一些实施例中，计算机系统1400作为独立设备运行或者可以连接(例如，联网)到其他计算机。例如，在网络部署中，计算机系统可以在服务器-客户端网络环境中以服务器或客户端计算机的能力操作，或者作为对等(或分布式)网络环境中的对等计算机操作。例如，在联网部署中，计算机可以在服务器-客户端网络环境中以服务器或客户端计算机的能力操作，或者作为对等(或分布式)网络环境中的对等计算机操作。

示例计算机系统1400包括一个或多个硬件处理器1402(例如，中央处理单元(CPU)、图形处理单元(GPU)或两者)、主存储器1404和静态存储器1406，它们经由总线1408彼此通信。计算机系统1400还可以包括视频显示单元1410(例如，等离子显示器、液晶显示器(UCD)或阴极射线管(CRT))。例如，显示单元1410可以用于实施图4A-图4G的显示器1402。计算机系统1400还包括字母数字输入设备1412(例如键盘)、用户界面(UI)导航设备1414(例如鼠标、触摸屏或诸如此类)、SSD或磁盘驱动单元1416、信号生成设备1418(例如，扬声器)和网络接口设备1420。

可以充当存储存储器设备的DRAM、SSD或磁盘驱动单元1404包括计算机可读存储设备1404、1406，在这些计算机可读存储设备1404、1406上存储了体现本文所述的任何一种或多种方法或功能或由其使用的一组或多组指令和数据结构(例如，软件1424)。软件1424还可以在其由计算机系统1400执行期间完全或至少部分地驻留在计算机可读存储设备(诸如主存储器1404和/或处理器1402)内，主存储器1404、1406和/或处理器1402也构成非暂时性计算机可读介质。如上所述，一个或多个CNN可以被存储在DRAM、SSD或磁盘驱动器单元1416中或外部服务器中。软件1424还可以经由网络接口设备1420利用多种众所周知的传输协议(例如，HTTP)中的任何一种在网络1420上发送或接收。存储存储器设备1416可以被配置为存储特征权重和分类权重以及可由一个或多个处理器执行的指令，例如，当指令被执行时导致一个或多个处理器实施CNN。

示例

示例1包括一种用于外科手术或诊断医疗程序的成像系统，其包括：摄像机，该摄像机捕获解剖对象的图像并且以二维(2D)像素排列表示该图像；一个或多个处理器和可操作地耦合到其上的非暂时性计算机可读介质，该非暂时性计算机可读介质包括以下信息：可由一个或多个处理器执行的CNN指令，当执行该指令时，导致一个或多个处理器实施CNN，该CNN根据可选的权重集被配置成将解剖对象分类与2D像素排列的像素相关联；以及多个权重集，其用于基于不同的摄像机图像训练数据，不同地配置由一个或多个处理器实施的CNN；以及显示屏，该显示屏被配置为显示分类的二维(2D)像素排列和相关联的解剖对象分类。

示例2包括示例1的主题，还包括：CNN选择逻辑，该CNN选择逻辑基于解剖对象相对于摄像机的参考系的姿势从多个权重集中选择一个权重集以配置由一个或多个处理器实施的CNN。

示例3包括示例1的主题，其中每个权重集对应于训练数据集，该训练数据集包括针对一个或多个解剖对象相对于一个或多个摄像机参考系的姿势范围捕获的摄像机图像；并且其中每个训练数据集包括针对不同于其他的训练数据集的一个或多个解剖对象相对于一个或多个摄像机参考系的不同姿势范围捕获的摄像机图像。

示例4包括示例1的主题，其中由一个或多个处理器实施的CNN包括一个或多个卷积和激活层、区域建议网络层和一个或多个分类层。

示例5包括示例4的主题，其中不同的权重集中的每一个包括用于配置CNN实施的卷积和激活层的不同的特征权重集以及用于配置CNN实施的一个或多个分类层的不同的分类权重集。

示例6包括示例1的主题，显示屏显示具有相关联解剖对象分类的分类的二维(2D)像素排列。

示例7包括用于外科手术或诊断医疗程序的成像系统，其包括：摄像机，该摄像机捕获解剖对象的图像并且以2D像素排列表示该图像；一个或多个处理器和可操作地耦合到其上的非暂时性计算机可读介质，该非暂时性计算机可读介质包括可由一个或多个处理器执行的指令，包括：CNN指令，当执行该CNN指令时，导致一个或多个处理器实施CNN，该CNN被配置为将解剖对象分类与2D像素排列的像素相关联；CNN分类选择逻辑，其基于解剖对象相对于摄像机的参考系的姿势，来调整由CNN针对2D像素排列产生的一个或多个分类值；以及显示屏，其被配置为显示分类的二维(2D)像素排列和相关联的解剖对象分类。

示例8包括示例7的主题，其中由一个或多个处理器实施的CNN包括一个或多个卷积和激活层、区域建议网络层和一个或多个分类层。

示例9包括示例7的主题，其中CNN分类选择逻辑基于台相对于摄像机参考系的姿势、患者相对于台参考的姿势、解剖对象相对于患者参考系的姿势的组合来调整一个或多个分类。

示例10包括示例7的主题，其中CNN分类选择逻辑基于复合摄像机变换链

来调整一个或多个分类；其中

表示台相对于摄像机参考系的姿势的变换；其中

表示患者相对于台参考系的变换；并且其中

表示解剖对象相对于患者参考系的姿势的变换。

示例11包括用于外科手术或诊断医疗程序的成像系统，其包括：摄像机，该摄像机捕获解剖对象的图像并且以2D像素排列来表示该图像；以及一个或多个处理器和与其可操作地耦合的非暂时性计算机可读介质，该非暂时性计算机可读介质包括以下信息：可由一个或多个处理器执行的CNN指令，当执行该CNN指令时，导致一个或多个处理器实施CNN，其中该CNN被配置为将解剖对象分类与2D像素排列的像素相关联；其中由一个或多个处理器实施的CNN包括一个或多个卷积和激活层以及全连接层，一个或多个卷积和激活层用于基于一个或多个2D像素排列产生一个或多个图像特征映射，全连接层用于基于一个或多个特征映射、患者解剖体之间的相对姿势和摄像机校准信息将解剖对象分类与一个或多个2D像素排列的像素相关联；以及显示屏，该显示屏被配置为显示分类的二维(2D)像素排列和相关联的解剖对象分类。

示例12包括示例11的主题，其中由一个或多个处理器实施的CNN包括区域建议网络层，该区域建议网络层基于特征映射产生感兴趣区域。

示例13包括示例11的主题，其中由一个或多个处理器实施的CNN包括：区域建议网络层，以识别一个或多个特征映射内的一个或多个感兴趣区域；其中全连接层基于一个或多个感兴趣区域内的特征映射和患者解剖体与摄像机之间的相对姿势以及摄像机校准信息将解剖对象分类与一个或多个2D像素排列的像素相关联。

示例14包括一种用于外科手术或诊断医疗程序的成像系统，其包括：摄像机，该摄像机捕获解剖对象的图像并且以2D像素排列来表示图像；一个或多个处理器和与其可操作地耦合的非瞬态计算机可读介质，非暂时性计算机可读介质包括可由一个或多个处理器执行的指令，包括：粗对准指令，在执行该粗对准指令时，导致一个或多个处理器实施粗对准块，该粗对准块被配置为基于解剖对象相对于摄像机参考系的姿势，对准三维(3D)术前模型的体素与一个或多个二维(2D)像素排列的像素；精细对准指令，在执行该精细对准指令时，导致一个或多个处理器实施精细对准块，该精细对准块被配置为基于与一个或多个像素排列中的像素相关联的深度信息和在3D术前模型内的相应的体素深度，将3D术前模型的体素与一个或多个2D像素排列中的像素对准；渲染指令，当执行该渲染指令时，导致一个或多个处理器渲染对准的3D术前模型以产生渲染的2D像素排列；CNN指令，当执行该CNN指令时，导致一个或多个处理器实施CNN，该CNN被配置为至少部分地基于由渲染的2D像素排列提供的提示将解剖对象分类与2D像素排列的像素相关联；以及显示屏，该显示屏被配置为显示分类的二维(2D)像素排列和相关联的解剖对象分类。

示例15包括示例14的主题，其中粗对准块被配置为基于台相对于摄像机参考系的姿势、患者相对于台参考系的姿势、解剖对象相对于患者参考系的姿势的组合，对准三维(3D)术前模型的体素与一个或多个二维(2D)像素排列的像素。

示例16包括示例14的主题，其中粗对准块被配置为基于复合摄像机变换链

对准三维(3D)术前模型的体素与一个或多个二维(2D)像素排列的像素；其中

表示台相对于摄像机参考系的姿势的变换；其中

表示患者相对于台参考系的变换；以及

表示解剖对象相对于患者参考系的姿势的变换。

示例17包括示例14的主题，其中精细对准块被配置为基于迭代最近点过程，对准3D术前模型的体素与一个或多个2D像素排列中的像素。

示例18包括示例14的主题，其中摄像机被配置为捕获2D立体像素排列；并且其中精细对准块被配置为基于与两个2D立体像素排列中的对应像素之间的距离相关联的像素深度信息，对准3D术前模型的体素与一个或多个2D像素排列中的像素。

示例19包括示例14的主题，其中由一个或多个处理器实施的CNN包括一个或多个卷积和激活层、区域建议网络层和一个或多个分类层。

示例20包括示例14的主题，其中3D术前模型的多个体素被标记以指示解剖对象类型；其中渲染的2D像素排列中的多个像素被标记以指示解剖对象类型；其中由一个或多个处理器实施的CNN被配置为使用标记作为分类提示。

示例21包括示例14的主题，其中3D术前模型的多个体素被标记以指示解剖对象类型；其中渲染块被配置为将3D术前模型的体素标记传递给渲染的2D像素排列中的对应像素；并且其中由一个或多个处理器实施的CNN被配置为使用标记作为分类提示。

示例22包括一种用于外科手术或诊断医疗程序的成像系统，其包括：摄像机，该摄像机捕获解剖对象的图像并且以一个或多个2D像素排列来表示该图像；一个或多个处理器和与其可操作地耦合的非暂时性计算机可读介质，该非暂时性计算机可读介质包括可由一个或多个处理器执行的指令，包括：粗对准指令，当执行该粗对准指令时，导致一个或多个处理器实施粗对准块，该粗对准块被配置为基于解剖对象相对于摄像机参考系的标称姿势并且基于像素对准错误校正信息，将三维(3D)术前模型的体素与一个或多个二维(2D)像素排列中的像素对准；渲染指令，当执行该渲染指令时，导致一个或多个处理器渲染对准的3D术前模型以产生渲染的2D像素排列；可由一个或多个处理器执行的CNN指令，当执行该CNN指令时，导致一个或多个处理器实施CNN，该CNN被配置为至少部分地基于由渲染的2D像素排列提供的提示将解剖对象分类与2D像素排列中的像素相关联；其中3D术前模型的多个体素被标记以指示解剖对象类型；其中渲染的2D像素排列中的多个像素被标记以指示解剖对象类型；其中由一个或多个处理器实施的CNN被配置为使用标记作为分类提示；可由一个或多个处理器执行的指令还包括：对准校正指令，当执行该对准校正指令时，导致一个或多个处理器实施对准错误校正块，该对准错误校正块被配置为识别与渲染的2D像素排列中的像素相关联的标记和与对应的分类像素相关联的分类之间的失配，并基于识别的失配产生像素对准错误校正信息；以及显示屏，该显示屏被配置为显示分类的二维(2D)像素排列和相关联的解剖对象分类。

示例23包括示例22的主题，其中粗对准块被配置为基于台相对于摄像机参考系的姿势、患者相对于台参考系的姿势、解剖对象相对于患者参考系的姿势的组合，对准三维(3D)术前模型的体素与二维(2D)像素排列中的一个或多个像素。

示例24包括示例22的主题，其中由一个或多个处理器实施的CNN包括一个或多个卷积和激活层、区域建议网络层和一个或多个分类层。

示例25包括示例22的主题，其中对准校正块被配置为识别与渲染的2D像素排列中的像素相关联的标记和与由CNN像素分类的对应像素相关联的分类之间的失配的阈值水平。

示例26包括示例22的主题，其中对准校正块被配置为产生像素对准错误校正信息，该像素对准错误校正信息指示解剖对象相对于由渲染的2D像素排列所指示的摄像机参考系的标称姿势与基于由分类的2D像素排列指示的由摄像机捕获的解剖对象姿势之间的差异。

呈现以上描述以使本领域技术人员能够创建和使用用于解剖组织图像的像素级分割的成像系统。对实施例的各种修改对于本领域技术人员来说将是显而易见的，并且本文定义的一般原理可以应用于其他实施例和应用而不脱离发明的范围。在前面的描述中，为了解释的目的阐述了许多细节。然而，本领域普通技术人员将意识到，可以在不使用这些具体细节的情况下实践本公开中的实施例。在其他情况下，众所周知的过程以框图形式显示，以免不必要的细节混淆本发明的描述。相同的附图标记可用于表示不同附图中相同或相似项目的不同视图。因此，根据本发明的实施例的前述描述和附图仅仅是对本发明原理的说明。因此，应当理解，本领域技术人员可以对实施例进行各种修改而不脱离本发明范围，本发明范围由所附权利要求书限定。

权利要求书(按照条约第19条的修改)

1.一种用于外科手术或诊断医疗程序的成像系统，包括：

摄像机，所述摄像机捕获解剖对象的图像并且以二维像素排列即2D像素排列来表示所述图像；

一个或多个处理器和与其可操作地耦合的有形计算机可读介质，所述有形计算机可读介质包括以下信息：

可由所述一个或多个处理器执行的CNN指令，当执行所述CNN指令时，导致所述一个或多个处理器实施CNN，所述CNN根据可选的权重集配置成将解剖对象分类与所述2D像素排列中的像素相关联；以及多个权重集，所述多个权重集基于不同的摄像机图像训练数据来不同地配置由所述一个或多个处理器实施的所述CNN；以及

显示屏，所述显示屏被配置为显示分类的二维像素排列和相关联的解剖对象分类。

2.根据权利要求1所述的成像系统，

其中每个权重集对应于训练数据集，所述训练数据集包括针对一个或多个解剖对象相对于一个或多个摄像机参考系的姿势范围捕获的摄像机图像；并且

其中每个训练数据集包括针对不同于其他训练数据集的所述一个或多个解剖对象相对于一个或多个摄像机参考系的不同姿势范围捕获的摄像机图像。

3.根据权利要求1所述的成像系统，

其中由所述一个或多个处理器实施的所述CNN包括一个或多个卷积和激活层、区域建议网络层和一个或多个分类层。

4.根据权利要求3所述的成像系统，

其中不同的权重集中的每一个包括用于配置所述CNN实施的所述卷积和激活层的不同特征权重集以及用于配置所述CNN实施的所述一个或多个分类层的不同分类权重集。

5.根据权利要求1所述的成像系统，还包括：

显示屏，所述显示屏显示所述分类的二维像素排列以及相关联的解剖对象分类。

6.一种用于外科手术或诊断医疗程序的成像系统，其包括：

摄像机，所述摄像机捕获解剖对象的图像并且以2D像素排列来表示所述图像；

一个或多个处理器和与其可操作地耦合的有形计算机可读介质，所述有形计算机可读介质包括可由所述一个或多个处理器执行的指令，所述指令包括：

CNN指令，在执行所述CNN指令时，导致所述一个或多个处理器实施CNN，所述CNN被配置为将解剖对象分类与所述2D像素排列中的像素相关联；

CNN分类选择逻辑，所述CNN分类选择逻辑基于所述解剖对象相对于所述摄像机的参考系的姿势，调整由所述CNN针对所述2D像素排列产生的一个或多个分类值；以及

显示屏，所述显示屏被配置为显示分类的所述二维像素排列即2D像素排列和相关联的解剖对象分类。

7.根据权利要求6所述的成像系统，

8.根据权利要求6所述的成像系统，

其中所述CNN分类选择逻辑基于台相对于摄像机参考系的姿势、患者相对于所述台参考系的姿势、解剖对象相对于所述患者参考系的姿势的组合来调整所述一个或多个分类。

9.根据权利要求6所述的成像系统，

其中所述CNN分类选择逻辑基于复合摄像机变换链

来调整所述一个或多个分类；

其中

表示台相对于摄像机参考系的姿势的变换；

其中

表示患者相对于台参考系的变换；以及

其中

表示解剖对象相对于患者参考系的姿势的变换。

10.一种用于外科手术或诊断医疗程序的成像系统，其包括：

摄像机，所述摄像机捕获解剖对象的图像并且以2D像素排列来表示所述图像；以及

可由所述一个或多个处理器执行的CNN指令，当执行所述CNN指令时，导致所述一个或多个处理器实施CNN，所述CNN被配置为将解剖对象分类与所述2D像素排列中的像素相关联；

其中由所述一个或多个处理器实施的所述CNN包括，

一个或多个卷积和激活层，所述一个或多个卷积和激活层基于一个或多个2D像素排列产生一个或多个图像特征映射，以及

全连接层，所述全连接层基于所述一个或多个特征映射、患者解剖体之间的相对姿势和摄像机校准信息，将解剖对象分类与所述一个或多个2D像素排列中的像素相关联；以及

显示屏，所述显示屏被配置为显示分类的二维像素排列即2D像素排列和相关联的解剖对象分类。

11.根据权利要求10所述的成像系统，

其中由所述一个或多个处理器实施的所述CNN包括，

区域建议网络层，所述区域建议网络层基于所述特征映射产生感兴趣的区域。

12.根据权利要求10所述的成像系统，

其中由所述一个或多个处理器实施的所述CNN包括，

区域建议网络层，所述区域建议网络层识别在所述一个或多个特征映射内的一个或多个感兴趣区域；

其中所述全连接层基于在所述一个或多个感兴趣区域内的所述特征映射和患者解剖体与摄像机之间的相对姿势以及摄像机校准信息将解剖对象分类与所述一个或多个2D像素排列中的像素相关联。

13.一种用于外科手术或诊断医疗程序的成像系统，其包括：

粗对准指令，当执行所述粗对准指令时，导致所述一个或多个处理器实施粗对准块，所述粗对准块被配置为基于解剖对象相对于摄像机参考系的姿势，将三维术前模型即3D术前模型的体素与一个或多个所述二维像素排列即2D像素排列中的像素对准；

精细对准指令，当执行所述精细对准指令时，导致所述一个或多个处理器实施精细对准块，所述精细对准块被配置为基于与所述一个或多个像素排列中的像素相关联的深度信息和在所述3D术前模型内的对应的体素深度，将所述3D术前模型的体素与一个或多个所述2D像素排列中的像素对准；

渲染指令，当执行所述渲染指令时，致使所述一个或多个处理器渲染对准的3D术前模型以产生渲染的2D像素排列；

CNN指令，当执行所述CNN指令时，致使所述一个或多个处理器实施CNN，所述CNN被配置为至少部分地基于由所述渲染的2D像素排列所提供的提示将解剖对象分类与所述2D像素排列中的像素相关联；以及

14.根据权利要求13所述的成像系统，

其中所述粗对准块被配置为基于台相对于摄像机参考系的姿势、患者相对于所述台参考系的姿势、解剖对象相对于所述患者参考系的姿势的组合，对准三维术前模型即3D术前模型的体素与一个或多个所述二维像素排列即2D像素排列中的像素。

15.根据权利要求13所述的成像系统，

其中所述粗对准块被配置为基于复合摄像机变换链

对准三维术前模型即3D术前模型的体素与一个或多个所述二维像素排列即2D像素排列中的像素；

其中

表示台相对于摄像机参考系的姿势的变换；

其中

表示患者相对于台参考系的变换；以及

其中

表示解剖对象相对于患者参考系的姿势的变换。

16.根据权利要求13所述的成像系统，

其中所述精细对准块被配置为基于迭代最近点过程，对准所述3D术前模型的体素与一个或多个所述2D像素排列中的像素。

17.根据权利要求13所述的成像系统，

其中所述摄像机被配置为捕获2D立体像素排列；并且

其中所述精细对准块被配置为基于与两个2D立体像素排列中的对应像素之间的距离相关联的像素深度信息，对准所述3D术前模型的体素与一个或多个所述2D像素排列中的像素。

18.根据权利要求13所述的成像系统，

19.根据权利要求13所述的成像系统，

其中所述3D术前模型的多个体素被标记以指示解剖对象类型；

其中所述渲染的2D像素排列中的多个像素被标记以指示解剖对象类型；

其中由所述一个或多个处理器实施的所述CNN被配置为使用标记作为分类提示。

20.根据权利要求13所述的成像系统，

其中所述渲染块被配置为将所述3D术前模型的体素的标记传递给所述渲染的2D像素排列中的对应像素；以及

其中由所述一个或多个处理器实施的所述CNN被配置为使用所述标记作为分类提示。

21.一种用于外科手术或诊断医疗程序的成像系统，其包括：

摄像机，所述摄像机捕获解剖对象的图像并且以一个或多个2D像素排列来表示所述图像；

一个或多个处理器和与其可操作地耦合的有形计算机可读介质，所述有形计算机可读介质包括可由所述一个或多个处理器执行的指令，包括：

粗对准指令，当执行所述粗对准指令时，致使所述一个或多个处理器实施粗对准块，所述粗对准块被配置为基于解剖对象相对于摄像机参考系的标称姿势并且基于所述像素对准错误校正信息，将三维术前模型即3D术前模型的体素与一个或多个所述二维像素排列即2D像素排列中的像素对准；

渲染指令，当执行所述渲染指令时，导致所述一个或多个处理器渲染对准的3D术前模型以产生渲染的2D像素排列；

可由所述一个或多个处理器执行的CNN指令，当执行所述CNN指令时，导致所述一个或多个处理器实施CNN，所述CNN被配置为至少部分地基于由所述渲染的2D像素排列所提供的提示将解剖对象分类与所述2D像素排列中的像素相关联；

其中由所述一个或多个处理器实施的所述CNN被配置为使用标记作为分类提示；可由所述一个或多个处理器执行的所述指令还包括：

对准校正指令，当执行所述对准校正指令时，导致所述一个或多个处理器实施对准错误校正块，所述对准错误校正块被配置为识别与所述渲染的2D像素排列中的像素相关联的标记和与对应的分类像素相关联的分类之间的失配，并且基于识别的失配产生所述像素对准错误校正信息；以及

显示屏，所述显示屏被配置为显示分类的二维像素排列即分类的2D像素排列和相关联的解剖对象分类。

22.根据权利要求21所述的成像系统，

其中所述粗对准块被配置为基于台相对于摄像机参考系的姿势、患者相对于台参考系的姿势、解剖对象相对于患者参考系的姿势的组合，对准三维术前模型即3D术前模型的体素与一个或多个所述二维像素排列即2D像素排列中的像素。

23.根据权利要求21所述的成像系统，

24.根据权利要求21所述的成像系统，

其中所述对准校正块被配置为识别与所述渲染的2D像素排列中的像素相关联的标记和与由所述CNN像素分类的对应像素相关联的分类之间的失配的阈值水平。

25.根据权利要求21所述的成像系统，

其中所述对准校正块被配置为产生所述像素对准错误校正信息，所述像素对准错误校正信息指示由所述渲染的2D像素排列所指示的所述解剖对象相对于所述摄像机参考系的所述标称姿势与基于由所述分类的2D像素排列所指示的由所述摄像机捕获的所述解剖对象姿势之间的差异。

Claims

1.一种用于外科手术或诊断医疗程序的成像系统，包括：

2.根据权利要求1所述的成像系统，还包括：

CNN选择逻辑，所述CNN选择逻辑基于所述解剖对象相对于所述摄像机的参考系的姿势从所述多个权重集中选择一个权重集以配置由所述一个或多个处理器实施的所述CNN。

3.根据权利要求1所述的成像系统，

4.根据权利要求1所述的成像系统，

5.根据权利要求4所述的成像系统，

6.根据权利要求1所述的成像系统，还包括：

7.一种用于外科手术或诊断医疗程序的成像系统，其包括：

8.根据权利要求7所述的成像系统，

9.根据权利要求7所述的成像系统，

10.根据权利要求7所述的成像系统，

其中所述CNN分类选择逻辑基于复合摄像机变换链

来调整所述一个或多个分类；

其中

表示台相对于摄像机参考系的姿势的变换；

其中

表示患者相对于台参考系的变换；以及

其中

表示解剖对象相对于患者参考系的姿势的变换。

11.一种用于外科手术或诊断医疗程序的成像系统，其包括：

其中由所述一个或多个处理器实施的所述CNN包括，

12.根据权利要求11所述的成像系统，

其中由所述一个或多个处理器实施的所述CNN包括，

13.根据权利要求11所述的成像系统，

其中由所述一个或多个处理器实施的所述CNN包括，

14.一种用于外科手术或诊断医疗程序的成像系统，其包括：

15.根据权利要求14所述的成像系统，

16.根据权利要求14所述的成像系统，

其中所述粗对准块被配置为基于复合摄像机变换链

其中

表示台相对于摄像机参考系的姿势的变换；

其中

表示患者相对于台参考系的变换；以及

其中

表示解剖对象相对于患者参考系的姿势的变换。

17.根据权利要求14所述的成像系统，

18.根据权利要求14所述的成像系统，

其中所述摄像机被配置为捕获2D立体像素排列；并且

19.根据权利要求14所述的成像系统，

20.根据权利要求14所述的成像系统，

21.根据权利要求14所述的成像系统，

22.一种用于外科手术或诊断医疗程序的成像系统，其包括：

23.根据权利要求22所述的成像系统，

24.根据权利要求22所述的成像系统，

25.根据权利要求22所述的成像系统，

26.根据权利要求22所述的成像系统，