CN114514553A

CN114514553A - 用于使用立体视觉和颜色变化放大来实现机器学习以进行微创机器人手术的系统和方法

Info

Publication number: CN114514553A
Application number: CN202080063854.8A
Authority: CN
Inventors: 德怀特·梅格兰; 迈尔·罗森贝格; 乔舒亚·里德
Original assignee: Covidien LP
Current assignee: Covidien LP
Priority date: 2019-10-04
Filing date: 2020-10-01
Publication date: 2022-05-17
Also published as: US20220304555A1; WO2021067591A2; WO2021067591A3; EP4037537A2

Abstract

本发明提出了一种在内窥镜图像中的对象增强的计算机实施的方法。所述计算机实施的方法包含由成像装置捕获外科手术部位内的对象的图像。所述图像包含多个像素。所述多个像素中的每一个包含颜色信息。所述计算机实施的方法还包含：访问所述图像；访问与关于所述图像中的每个所述像素的深度信息有关的数据；将所述深度信息输入到机器学习算法；基于神经网络的输出强调所述图像的特征；基于所强调的特征生成增强图像；以及在显示器上显示所述增强图像。

Description

用于使用立体视觉和颜色变化放大来实现机器学习以进行微创机器人手术的系统和方法

技术领域

本公开涉及用于图像中的外科手术工具识别的装置、系统和方法，更具体地，涉及在外科手术程序期间增强对象的可辨别特征的各方面。

背景技术

通过切口或天然的人体孔口引入内窥镜，以观察人体的内部特征。常规内窥镜用于内窥镜或腹腔镜外科手术程序期间的可视化。在这样的外科手术程序期间，器械的视野可能会被组织或其它器械阻挡。

在微创手术期间，尤其是在机器人手术中，了解内窥镜视频馈送中出现的确切外科手术工具可有助于促进增强外科手术体验的特征。虽然附连/嵌入在工具中的东西之间的电气或无线通信是实现此目的的可能手段，但当该基础设施不可用或不可能时，需要另一种识别手段。因此，有兴趣改进成像技术。

发明内容

本公开涉及用于图像中的外科手术工具识别的装置、系统和方法。根据本公开的各方面，提出了一种用于内窥镜图像中的对象增强的系统。所述系统包含光源、成像装置和成像装置控制单元。所述光源被配置为在外科手术部位内提供光。所述成像装置控制单元包含处理器和存储指令的存储器。所述指令在由所述处理器执行时使所述系统由所述成像装置捕获所述外科手术部位内的对象的图像。所述图像包含多个像素。所述多个像素中的每一个包含颜色信息。所述指令在由所述处理器执行时另外使所述系统进行以下操作：访问所述图像；访问与关于所述图像中的每个所述像素的深度信息有关的数据；将所述深度信息输入到神经网络；基于所述机器学习算法的输出强调所述图像的特征；基于所强调的特征生成增强图像；以及在显示器上显示所述增强图像。

在本公开的一个方面，强调所述特征可以包含增强所述图像的3D方面、强调所述对象的边界、改变所述对象的所述多个像素的所述颜色信息和/或提取所述对象的3D特征。

在本公开的另一方面，所述指令在被执行时可以另外使所述系统对所述增强图像执行实时图像识别以检测对象并对所述对象进行分类。

在本公开的一个方面，所述图像可以包含立体图像。所述立体图像可以包含左图像和右图像。所述指令在被执行时可以另外使所述系统基于确定所述左图像与所述右图像之间的水平视差失配来计算深度信息。所述深度信息可以包含像素深度。

在本公开的又一方面，所述指令在被执行时可以另外使所述系统基于结构光投影来计算深度信息。所述深度信息可以包含像素深度。

在本公开的另一方面，所述机器学习算法可以包含卷积神经网络、前馈神经网络、径向偏置神经网络、多层感知器、循环神经网络和/或模块化神经网络。

在本公开的一个方面，可以基于在训练图像中标记对象来训练所述机器学习算法。所述训练还可以包含增强所述训练图像以包含添加噪声、改变颜色、隐藏所述训练图像的部分、缩放所述训练图像、旋转所述训练图像和/或拉伸所述训练图像。

在本公开的另一方面，所述训练可以包含监督学习、非监督学习和/或强化学习。

在本公开的又一方面，所述指令在被执行时可以另外使所述系统进行以下操作：基于学习的视频放大、基于相位的视频放大和/或欧拉视频放大来处理所述增强图像的时间序列。

在本公开的另一方面，所述指令在被执行时可以另外使所述系统基于所述机器学习算法的输出执行所述对象的跟踪。

根据本公开的各方面，提出了一种在内窥镜图像中的对象增强的计算机实施的方法。所述方法包含由成像装置捕获外科手术部位内的对象的图像。所述图像包含多个像素。所述多个像素中的每一个包含颜色信息。所述方法还包含：访问所述图像；访问与关于所述图像中的每个所述像素的深度信息有关的数据；将所述深度信息输入到机器学习算法；基于所述机器学习算法的输出强调所述图像的特征；基于所强调的特征生成增强图像；以及在显示器上显示所述增强图像。

在本公开的又一方面，所述计算机实施的方法还可以包含对所述增强图像执行实时图像识别以检测对象并对所述对象进行分类。

在本公开的又一方面，所述图像可以包含立体图像。所述立体图像可以包含左图像和右图像。所述计算机实施的方法还可以包含基于确定所述左图像与所述右图像之间的水平视差失配来计算深度信息。所述深度信息可以包含像素深度。

在本公开的另一方面，所述计算机实施的方法还可以包含基于结构光投影来计算深度信息。所述深度信息可以包含像素深度。

在本公开的又一方面，所述机器学习算法可以包含卷积神经网络、前馈神经网络、径向偏置神经网络、多层感知器、循环神经网络和/或模块化神经网络。

在本公开的又一方面，可以基于在训练图像中标记对象来训练所述机器学习算法。所述训练还可以包含增强所述训练图像以包含添加噪声、改变颜色、隐藏所述训练图像的部分、缩放所述训练图像、旋转所述训练图像和/或拉伸所述训练图像。

在本公开的另一方面，所述计算机实施的方法还可以包含基于学习的视频放大、基于相位的视频放大和/或欧拉视频放大来处理所述增强图像的时间序列。

在本公开的一个方面，所述计算机实施的方法还可以包含基于所述机器学习算法的输出执行所述对象的跟踪。

根据本公开的各方面，提出了一种存储程序的非暂时性存储介质，所述程序使计算机执行内窥镜图像中的对象增强的计算机实施的方法。所述计算机实施的方法包含由成像装置捕获外科手术部位内的对象的图像。所述图像包含多个像素，所述多个像素中的每一个包含颜色信息。所述方法还包含：访问所述图像；访问与关于所述图像中的每个所述像素的深度信息有关的数据；将所述深度信息输入到机器学习算法；基于所述机器学习算法的输出强调所述图像的特征；基于所强调的特征生成增强图像；以及在显示器上显示所述增强图像。

根据本公开的各方面，提出了一种用于内窥镜图像中的对象检测的系统。所述系统包含光源，其被配置为在外科手术部位内提供光；成像装置，其被配置为获取立体图像；和成像装置控制单元，其被配置为控制所述成像装置。所述控制单元包含处理器和存储指令的存储器。所述指令在由所述处理器执行时使所述系统进行以下操作：由所述成像装置捕获外科手术部位内的对象的立体图像。所述立体图像包含第一图像和第二图像。所述指令在由所述处理器执行时另外使所述系统进行以下操作：访问所述立体图像；对所述第一图像执行实时图像识别以检测所述对象，对所述对象进行分类，并产生第一图像分类概率值；对所述第二图像执行实时图像识别以检测所述对象，对所述对象进行分类，并产生第一图像分类概率值；以及比较所述第一图像分类概率值与所述第二图像分类概率值以产生分类准确度值。在所述分类概率值高于预定阈值的情况下，所述指令在由所述处理器执行时另外使所述系统进行以下操作：在所检测的对象周围生成第一限界框；基于所述分类生成所述第一图像的第一增强视图；基于所述分类生成所述第二图像的第二增强视图；以及在显示器上显示所述第一和第二增强图像。所述第一增强视图包含所述限界框和指示所述分类的标签。所述第二增强视图包含所述限界框和指示所述分类的标签。

在本公开的一个方面，在所述分类准确度值低于所述预定阈值的情况下，所述指令在被执行时可以另外使所述系统在所述显示器上显示所述分类准确度值不在预期范围内的指示。

在本公开的另一方面，所述实时图像识别可以包含：检测所述第一图像中的所述对象；检测所述第二图像中的所述对象；生成所述第一图像中的所述对象的第一轮廓；生成所述第二图像中的所述对象的第二轮廓；比较所述第一轮廓与所述第二轮廓；以及基于所述比较检测所述第一轮廓与所述第二轮廓之间的不一致。

在本公开的一个方面，所述实时图像识别可以包含：基于卷积神经网络检测所述对象。在各种中所述检测可以包含为所述对象生成分割掩码；检测所述对象；以及基于所述检测对所述对象进行分类。

在本公开的又一方面，可以基于在训练图像中标记对象来训练所述卷积神经网络，并且其中所述训练还包含增强所述训练图像以包含添加噪声、改变颜色、隐藏所述训练图像的部分、缩放所述训练图像、旋转所述训练图像和/或拉伸所述训练图像。

在本公开的另一方面，所述实时图像识别可以包含基于基于区域的神经网络检测所述对象。所述检测可以包含将所述第一图像和第二图像划分为区域；基于所述对象的特征预测每个区域的限界框；预测每个区域的对象检测概率；基于所预测的对象检测概率对所述限界框进行加权；检测所述对象；以及基于所述检测对所述对象进行分类。

在本公开的一个方面，可以基于在训练图像中标记对象来训练所述基于区域的神经网络，并且其中所述训练还包含增强所述训练图像以包含添加噪声、改变颜色、隐藏所述训练图像的部分、缩放所述训练图像、旋转所述训练图像、改变背景和/或拉伸所述训练图像。

在本公开的另一方面，所述指令在被执行时可以另外使所述系统进行以下操作：基于所述基于区域的神经网络的输出执行所述对象的跟踪。

在本公开的又一方面，所述第一和第二增强视图各自还可以包含所述分类准确度值的指示。

根据本公开的各方面，提出了一种在内窥镜图像中的对象检测的计算机实施的方法。所述计算机实施的方法包含由成像装置访问外科手术部位内的对象的立体图像。所述立体图像包含第一图像和第二图像。所述方法还包含对所述第一图像执行实时图像识别以检测所述对象并对所述对象进行分类；对所述第二图像执行实时图像识别以检测所述对象，对所述对象进行分类，并产生分类概率值；以及基于所述实时图像识别比较所述第一图像的所述分类概率值与所述第二图像的所述分类概率值以产生分类准确度值。在所述分类准确度值高于预定阈值的情况下，所述方法还包含在所检测的对象周围生成第一限界框；基于所述分类生成所述第一图像的第一增强视图；基于所述分类所述限界框生成所述第二图像的第二增强视图；以及在显示器上显示所述第一和第二增强图像。所述第一增强视图包含所述限界框和指示所述分类的标签。所述第二增强视图包含所述限界框和指示所述分类的标签。

在本公开的另一方面，在所述分类准确度值低于所述预定阈值的情况下，所述方法还可以包含在所述显示器上显示所述分类准确度值不在预期范围内的指示。

在本公开的又一方面，所述实时图像识别可以包含：检测所述第一图像中的所述对象；检测所述第二图像中的所述对象；生成所述第一图像中的所述对象的第一轮廓；生成所述第二图像中的所述对象的第二轮廓；比较所述第一轮廓与所述第二轮廓；以及基于所述比较检测所述第一轮廓与所述第二轮廓之间的不一致。

在本公开的又一方面，所述实时图像识别可以包含基于卷积神经网络检测所述对象。所述检测可以包含为所述对象生成分割掩码；检测所述对象；以及基于所述检测对所述对象进行分类。

在本公开的另一方面，可以基于在训练图像中标记对象来训练所述卷积神经网络。所述训练还可以包含增强所述训练图像以包含添加噪声、改变颜色、隐藏所述训练图像的部分、缩放所述训练图像、旋转所述训练图像和/或拉伸所述训练图像。

在本公开的又一方面中，所述实时图像识别可以包含基于基于区域的神经网络检测所述对象。所述检测可以包含将所述图像下潜为区域；基于所述对象的特征预测每个区域的限界框；预测每个区域的对象检测概率；基于所预测的对象检测概率对所述限界框进行加权；检测所述对象；以及基于所述检测对所述对象进行分类。

在本公开的又一方面中，可以基于在训练图像中标记对象来训练所述基于区域的神经网络所述训练还可以包含增强所述训练图像以包含添加噪声、改变颜色、隐藏所述训练图像的部分、缩放所述训练图像、旋转所述训练图像、改变背景和/或拉伸所述训练图像。

在本公开的另一方面，该方法还可以包含基于所述基于区域的神经网络的输出执行所述对象的跟踪。

在本公开的一个方面，所述第一和第二增强视图各自还可以包含所述分类概率值的指示。

根据本公开的各方面，提出了一种存储程序的非暂时性存储介质，所述程序使计算机执行内窥镜图像中的对象增强的计算机实施的方法。所述计算机实施的方法包含由成像装置访问外科手术部位内的对象的立体图像。所述立体图像包含第一图像和第二图像。所述计算机实施的方法还包含对所述第一图像执行实时图像识别以检测所述对象并对所述对象进行分类；对所述第二图像执行实时图像识别以检测所述对象，对所述对象进行分类，并产生分类概率值；以及基于所述实时图像识别比较所述第一图像的所述分类概率值与所述第二图像的所述分类概率值以产生分类准确度值。在所述分类准确度值高于预定阈值的情况下，所述方法还包含在所检测的对象周围生成第一限界框；基于所述分类生成所述第一图像的第一增强视图；基于所述分类所述限界框生成所述第二图像的第二增强视图；以及在显示器上显示所述第一和第二增强图像。所述第一增强视图包含所述限界框和指示所述分类的标签。所述第二增强视图包含所述限界框和指示所述分类的标签。

下文参考附图更详细地描述了本公开的各种实施例的另外的细节和方面。

附图说明

专利或申请文件含有至少一个彩色附图。专利局将根据请求和必要费用支付，提供带彩色附图的本专利或专利申请公开的副本。

本文参考附图描述本公开的实施例，其中：

图1是根据本公开的示例性可视化或内窥镜系统的图；

图2是图1的可视化或内窥镜系统的示意性配置；

图3是示出图1系统的光学系统的另一示意性配置的图；

图4是根据本公开的实施例的可视化或内窥镜系统的示意性配置；

图5是根据本公开的示例性实施例的用于内窥镜图像中的对象增强的方法的流程图；

图6A是根据本公开的示例性输入图像；

图6B是根据本公开放大了受试者的脉搏信号的示例性输出图像；

图6C是来自图6B的输出图像的示例性垂直扫描线；

图6D是来自图6A的输入图像的示例性垂直扫描线；

图7是根据本公开的示例性实施例的用于内窥镜图像中的对象检测的方法的流程图；

图8是根据本公开的示例性输入图像；

图9是根据本公开的示例性输出图像；

图10是根据本公开的第一和第二增强图像；

图11是根据本公开的用于实时图像检测的示例性过程的示意图；和

图12是根据本公开的用于实时图像检测的区域提议网络的示意图。

下文参考附图更详细地描述了本公开的示例性实施例的另外的细节和方面。在不脱离本公开范围的情况下，可组合本公开的以上方面和实施例中的任一个。

具体实施方式

参考附图详细地描述了当前所公开的装置、系统和治疗方法的实施例，其中在若干视图中的每一个中，相同附图标记指代相同或对应的元素。如本文所用，术语“远端”是指距使用者较远的结构的那部分，而术语“近端”是指距使用者较近的结构的那部分。术语“临床医生”是指医生、护士或其它护理提供者并且可包含支持人员。

本公开可适用于捕获外科手术部位的图像的情况。提供内窥镜系统作为实例，但将理解，这样的描述是示例性的，并且不限制本公开的范围和对其它系统和程序的适用性。

基于卷积神经网络的机器学习可以与微创内窥镜外科手术视频结合使用，以实现手术有用的目的，例如辨别潜在的具有挑战性的情况，这需要对网络进行临床视频训练。在这些视频中看到的解剖结构既复杂又微妙，并且外科手术工具与所述解剖结构的交互同样具有挑战性，难以产生交互的细节。增强/强调观察到的动作的方法将有助于机器学习以更少的训练产生更好的洞察力。

首先参考图1-3，根据本公开，内窥镜系统1包含内窥镜10、光源20、视频系统30和显示装置40。继续参考图1，经由光纤引导件22将例如LED光源/氙光源之类的光源20连接到内窥镜10，所述光纤引导件可操作地联接到光源20，且可操作地联接到设置在内窥镜10的手柄18上或邻近于所述手柄设置的内联接器16。光纤引导件22包含例如光纤电缆，所述光纤电缆延伸穿过内窥镜10的细长主体12并终止于内窥镜10的远端14处。因此，光从光源20透射通过光纤引导件22，并且离开内窥镜10的远端14朝向患者身体的靶向内部特征(如组织或器官)发射。由于这样的配置中的光传输路径相对较长，例如，光纤引导件22的长度可为约1.0m到约1.5m，所以从光源20所发射的光通量的仅约15％(或更少)从内窥镜10的远端14输出。

参考图2和图3，视频系统30可操作地连接到图像传感器32，所述图像传感器经由数据电缆34安装到内窥镜10的手柄18上或设置在所述手柄内。物镜36设置在内窥镜10的细长主体12的远端14处，并且一系列间隔开的中继透镜38，例如棒状透镜，沿着细长主体12的长度安放在物镜36与图像传感器32之间。由物镜36所捕获的图像经由中继透镜38通过内窥镜10的细长主体12转递到图像传感器32，然后传送给视频系统30进行处理并且经由电缆39输出到显示装置40。图像传感器32定位在内窥镜10的手柄18内或安装到所述手柄上，所述手柄可距内窥镜10的远端14高达约30cm。

参考图4-7，流程图包含按有序顺序描述的各种框。然而，本领域技术人员将理解，可在不脱离本公开的范围的情况下以不同的次序执行、重复和/或省略流程图的一个或多个框。对流程图的以下描述涉及由一个或多个视频系统30执行的各种动作或任务，但本领域技术人员将理解，所述视频系统30是示例性的。在各种实施例中，所公开的操作可以由另一部件、装置或系统来执行。在各种实施例中，视频系统30或其它部件/装置经由在处理器上执行的一个或多个软件应用来执行动作或任务。在各种实施例中，至少一些操作可以由固件、可编程逻辑装置和/或硬件电路系统来实施。本公开的范围内还预期其它实现方式。

参考图4，示出了系统的示意性配置，所述系统可为图1的内窥镜系统，或可为不同类型的系统(例如，可视化系统等)。根据本公开，所述系统包含成像装置410、光源420、视频系统430和显示装置440。光源420被配置为经由光纤引导件422通过成像装置410向外科手术部位提供光。成像装置410的远端414包含用于捕获外科手术部位处的图像的物镜436。物镜436将图像转递到图像传感器432。然后将图像传送给视频系统430进行处理。视频系统430包含用于控制内窥镜和处理图像的成像装置控制器450。成像装置控制器450包含连接到计算机可读存储介质或存储器454的处理器452，所述存储介质或存储器可为例如RAM的易失性类型的存储器，或者例如闪存介质、磁盘介质的非易失性类型的存储器，或者其它类型的存储器。在各种实施例中，处理器452可为另一类型的处理器，例如但不限于数字信号处理器、微处理器、ASIC，图形处理单元(GPU)、现场可编程门阵列(FPGA)或中央处理单元(CPU)。

在各种实施例中，存储器454可为随机存取存储器、只读存储器、磁盘存储器、固态存储器、光盘存储器和/或另外类型的存储器。在各种实施例中，存储器454可以与成像装置控制器450分离，并且可以通过电路板的通信总线和/或通过例如串行ATA电缆或其它类型的电缆的通信电缆与处理器452通信。存储器454包含可由处理器452执行以操作成像装置控制器450的计算机可读指令。在各种实施例中，成像装置控制器450可包含网络接口540以与其它计算机或服务器通信。

现在参考图5，示出了用于内窥镜图像中的对象增强的操作。在各种实施例中，可以通过本文以上所描述的内窥镜系统1来执行图5的操作。在各种实施例中，可以由另一类型的系统和/或在另一类型的程序期间执行图5的操作。以下描述将参考内窥镜系统，但将理解，这样的描述是示例性的，并且不限制本公开的范围和对其它系统和程序的适用性。

最初，在步骤502，经由物镜36捕获外科手术部位的图像，并且将其转递到内窥镜系统1的图像传感器32。如本文所使用的术语“图像”可包含静态图像或动态图像(例如，视频)。所述图像包含多个像素，其中所述多个像素中的每一个包含颜色信息。在各种实施例中，所捕获的图像被传送到视频系统30进行处理。例如，在内窥镜手术程序期间，外科医生可用电外科手术器械切割组织。当图像被捕获时，它可以包含诸如组织和仪器之类的对象。例如，图像可以包含外科手术部位的若干帧。在步骤504，视频系统30访问图像以进行进一步处理。

在步骤506，视频系统30访问与关于图像中的每个像素的深度信息有关的数据。例如，系统可以访问与图像中的对象(例如器官或外科手术器械)的像素相关的深度数据。在各种实施例中，所述图像包含立体图像。在各种实施例中，所述立体图像包含左图像和右图像。在各种实施例中，视频系统30可以基于确定所述左图像与所述右图像之间的水平视差失配来计算深度信息。在各种实施例中，所述深度信息可以包含像素深度。在各种实施例中，视频系统30可以基于结构光投影来计算深度信息。

在步骤508，视频系统30将所述深度信息输入到神经网络。在各种实施例中，所述神经网络包含卷积神经网络(CNN)。CNN通常被认为是对图像进行操作，但它们也可以被配置为处理附加的数据输入。CNN中的C代表卷积，它是将矩阵处理操作应用于图像的局部部分，这些操作的结果(可能涉及数十种不同的并行和串行计算)是用于训练神经网络的许多特征的集合。在各种实施例中，附加的信息可以包含在生成这些特征的操作中。在各种实施例中，提供产生特征的独特信息，所述特征给予神经网络信息，所述信息可用于最终提供聚合方式来区分输入到它们的不同数据。在各种实施例中，所述神经网络可以包含前馈神经网络、径向偏置神经网络、多层感知器、循环神经网络和/或模块化神经网络。

在各种实施例中，现在与像素相关联的深度信息可以输入到图像处理路径以馈送到神经网络。此时，神经网络可以从提取和/或强调3D特征的各种数学运算开始。经考虑深度的提取不需要是实时的以训练神经网络。在各种实施例中，输入到神经网络的图像的第二增强源是放大像素颜色随时间的变化。这是一种可以使颜色发生细微变化或被放大的技术，例如，能够根据循环心输出量的函数从人脸颜色的变化中辨别出一个人的脉搏。在各种实施例中，由于各种类型的工具-组织相互作用(例如抓握、切割和接合)而导致的组织颜色变化可以被放大。它是血液循环变化的函数，这将是周期性的，也是工具对组织的影响的结果。这些增强的时间序列视频可以替代训练和术中监测过程中的正常视频。经考虑颜色变化增强不需要是实时的来训练网络。

在各种实施例中，基于在训练图像中标记对象来训练神经网络，并且其中所述训练还包含增强所述训练图像以包含添加噪声、改变颜色、隐藏所述训练图像的部分、缩放所述训练图像、旋转所述训练图像和/或拉伸所述训练图像。在各种实施例中，所述训练包含监督学习、非监督学习和/或强化学习。经考虑可以通过不涉及修改现有图像的其它方式生成训练图像。

在步骤510，视频系统30基于神经网络的输出强调图像的特征。在各种实施例中，强调特征包含增强图像的3D方面、强调对象的边界、改变所述对象的多个像素的颜色信息和/或提取所述对象的3D特征。在各种实施例中，视频系统30对增强图像执行实时图像识别以检测对象并对所述对象进行分类。在各种实施例中，视频系统30基于学习的视频放大、基于相位的视频放大和/或欧拉视频放大来处理所述增强图像的时间序列。例如，视频系统30可以改变外科手术器械的颜色以强调所述手术器械的边界。在各种实施例中，可以将增强图像作为输入馈送到图7的神经网络中用于附加的对象检测。

在步骤512，视频系统30基于强调的特征生成增强图像。例如，视频系统可以生成增强图像

在步骤514，视频系统30在显示装置40上显示增强图像。在各种实施例中，视频系统30基于神经网络的输出执行对象的跟踪。

参考图6A-6D，示出了根据本公开的示例性图像。图6A示出了根据本公开的示例性输入图像的四帧。图6B示出了根据本公开放大了受试者的脉搏信号的输出图像的四帧。图6C和6D分别示出了来自图6B的输入图像和图6A的输出图像的示例性垂直扫描线。来自输入和输出图像的垂直扫描线随时间绘制，显示该方法如何放大周期性颜色变化。在图6D中，信号几乎不可察觉。然而，在图6C中，颜色变化很明显。

现在参考图7，示出了用于内窥镜图像中的对象检测的操作。在各种实施例中，可以由本文以上所描述的内窥镜系统1来执行图7的操作。在各种实施例中，可以由另一类型的系统和/或在另一类型的程序期间执行图7的操作。以下描述将参考内窥镜系统，但将理解，这样的描述是示例性的，并且不限制本公开的范围和对其它系统和程序的适用性。

最初，在步骤702，经由物镜36捕获外科手术部位的立体图像，并且将其转递到内窥镜系统1的图像传感器32。如本文所使用的术语“图像”可包含静态图像或动态图像(例如，视频)。所述立体图像包含第一图像和第二图像(例如，左图像和右图像)。所述立体图像包含多个像素，其中所述多个像素中的每一个包含颜色信息。在各种实施例中，所捕获的立体图像被传送到视频系统30进行处理。例如，在内窥镜手术程序期间，外科医生可用电外科手术器械切割组织。当图像被捕获时，它可以包含诸如组织和仪器之类的对象。

参考图8，示出了外科手术部位的立体输入图像800。立体输入图像800包含第一图像802(例如，左图像)和第二图像804(例如，右图像)。第一图像802包含组织806和对象808。第二图像804包含组织806和对象808。例如，对象可以包含外科手术器械。

继续参考图7，在步骤704，视频系统30对第一图像执行实时图像识别以检测对象，对所述对象进行分类并产生第一图像分类概率值。例如，视频系统30可以在第一图像中检测诸如缝合器的外科手术器械。例如，所检测的对象可以包含但不限于组织、镊子、常规抓握器、双极抓握器、单极剪切器、抽吸器、针驱动器和缝合器。在各种实施例中，为了执行实时图像识别，视频系统30可检测第一张图像中的对象并检测第二张图像中的对象。接下来，视频系统30可在第一图像中生成对象的第一轮廓并在第二图像中生成对象的第二轮廓。接下来，视频系统30可比较第一轮廓与第二轮廓，并基于比较所述第一轮廓与所述第二轮廓来检测所述第一轮廓与所述第二轮廓之间的不一致。

在各种实施例中，为了执行实时图像识别，视频系统30可基于卷积神经网络检测对象。卷积神经网络通常包含卷积层、激活函数层、池化(通常是最大池化)层，以在不丢失大量特征的情况下降低维度。所述检测可以包含最初为所述对象生成分割掩码；检测所述对象；然后基于所述检测对所述对象进行分类。

在各种实施例中，为了执行实时图像识别，视频系统30可以基于基于区域的神经网络检测对象。视频系统30可以通过最初将第一图像和第二图像分割成区域来检测对象。接下来，视频系统30可以基于对象的特征来预测每个区域的限界框。接下来，视频系统30可以预测每个区域的对象检测概率，并根据预测的对象检测概率对限界框进行加权。接下来，视频系统30可以基于限界框和权重检测对象，并基于检测对对象进行分类。在各种实施例中，可以基于在训练图像中标记对象来训练基于区域的或卷积神经网络。在各种实施例中，训练还可以包含增强训练图像以包含添加噪声、改变颜色、隐藏训练图像的部分、缩放训练图像、旋转训练图像和/或拉伸训练图像。

接下来，在步骤706，视频系统30对第二图像执行实时图像识别，以检测对象，对对象进行分类，并产生第二图像分类概率值。例如，视频系统30可以在第二图像中检测诸如缝合器之类的外科手术器械。

参考图9，示出了外科手术部位的立体输出图像900。立体输出图像900包含第一图像902(例如，左图像)和第二图像904(例如，右图像)。第一图像包含组织806和所检测的对象908。第二图像904包含组织806和所检测的对象908。例如，视频系统30可以将第一图像902中的对象908分类为双极抓握器。例如，视频系统30可以将第二图像904中的对象908分类为双极抓握器。

继续参考图7，在步骤708，视频系统30比较第一图像分类概率值与第二图像分类概率值以产生分类准确度值。例如，第一图像分类概率值可以是大约90％，第二图像分类概率值可以是大约87％，那么例如，视频系统30会产生约88.5％的分类准确率值。

接下来在步骤710，视频系统30确定分类准确度值是否高于预定阈值。例如，阈值可以约为80％。如果分类准确度值约为90％，那么它将高于80％的预定阈值。如果视频系统30在步骤710确定分类准确度值是否高于预定阈值，那么在步骤712，视频系统30在所检测的对象周围生成第一限界框。

接下来在步骤714，视频系统30基于分类生成第一图像的第一增强视图。所述第一增强视图包含所述限界框和指示所述分类的标签。例如，标签可以是“缝合器”。

接下来在步骤716，视频系统30基于限界框的分类生成第二图像的第二增强视图。增强视图包含限界框和指示分类的标签。在各种实施例中，第一和第二增强视图各自包含分类概率值的指示。

接下来在步骤718，视频系统30在显示装置40上显示第一和第二增强图像。在各种实施例中，视频系统30基于基于区域的神经网络的输出执行对象的跟踪。

参考图10，示出了第一增强图像1002和第二增强图像1004。第一增强图像1002包含限界框1006和标签1008。标签1008可以包含对象的分类和分类概率值。例如，对象的分类可以是“其它工具”，分类概率值可以是约93％。经考虑可以检测和分类多个对象。

参考图11，示出了用于实时图像检测的示例性过程。最初，将神经网络应用于完整图像。在各种实施例中，神经网络然后将图像划分为区域1102(例如，S x S网格)。接下来，神经网络为这些区域中的每一个预测限界框1104和概率1106。然后限界框1104由预测概率1106加权以输出最终检测1108。

参考图12，显示了用于实时图像检测的区域提议网络。最初，图像1202被输入到神经网络1204中。在各种实施例中，卷积特征图1206由神经网络1204的最后一个卷积层生成。在各种实施例中，区域提议网络1208在卷积特征图1206上滑动并且为对象所在的感兴趣区域生成提议1212。通常，区域提议网络1208具有分类器和回归器。分类器确定具有目标对象的提议的概率。回归使提议的坐标回归。最后，输出带有限界框1216和概率的增强图像1214。

本文所公开的实施例是本公开的实例，并且可以各种形式体现。举例来说，尽管本文中的某些实施例被描述为单独的实施例，但本文中的每个实施例可与本文中的一个或多个其它的实施例组合。因此，本文中公开的具体的结构性和功能性细节不应当被解释为限制性的，而是应当解释为权利要求书的基础并且解释为用于教导本领域技术人员在实际上任何适当详细描述的结构中采用本公开的代表性基础。在图式的整个描述中，相同的附图标记可指代类似或相同的元件。

术语“人工智能”、“数据模型”或“机器学习”可包含但不限于神经网络、卷积神经网络(CNN)、循环神经网络(RNN)、生成性对抗网络(GAN)、贝叶斯回归、朴素贝叶斯、最近邻法、最小二乘法、均值法和支持向量回归法，以及其它数据科学和人工科学技术。

短语“在一个实施例中”、“在实施例中”、“在一些实施例中”或“在其它实施例中”可各自指代根据本公开的相同或不同实施例中的一者或多者。“A或B”形式的短语表示“(A)、(B)或(A和B)”。“A、B或C中的至少一个”形式的短语表示“(A)；(B)；(C)；(A和B)；(A和C)；(B和C)；或(A、B和C)”。术语“临床医生”可指代临床医生或执行医疗程序的任何医疗专业人员，例如医生、医师助手、护士、技术人员、医疗助手等。

本文中所描述的系统还可利用一个或多个控制器来接收各种信息并转换所接收的信息以产生输出。控制器可包含任何类型的计算装置、计算电路，或能够执行存储在存储器中的一系列指令的任何类型的处理器或处理电路。控制器可包含多个处理器和/或多核中央处理单元(CPU)并且可包含任何类型的处理器，如微处理器、数字信号处理器、微控制器、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)等。控制器还可包含存储器以存储当由一个或多个处理器执行时使一个或多个处理器执行一个或多个方法和/或算法的数据和/或指令。

本文描述的方法、程序、算法或代码中的任一个可转换为编程语言或计算机程序或以编程语言或计算机程序表达。如本文所用，术语“编程语言”和“计算机程序”，各自包含用于为计算机指定指令的任何语言，并且包含(但不限于)以下语言和其衍生物：汇编程序、Basic、Batch文件、BCPL、C、C+、C++、Delphi、Fortran、Java、JavaScript、机器代码、操作系统命令语言、Pascal、Perl、PL1、Python、脚本处理语言、可视化Basic、元语言自身指定编程和所有第一、第二、第三、第四、第五或更高代计算机语言。还包含数据库和其它数据模式，和任何其它元语言。不对被解译、编译或使用编译和解译两种方法的语言进行区分。在程序的编译版本和源版本之间没有区别。因此，对程序的引用是对任何和所有这些状态的引用，其中编程语言可存在于多个状态(如源、编译、对象或链接)中。对程序的引用可涵盖实际指令和/或那些指令的目的。

本文描述的方法、程序、算法或代码中的任一种可以含有在一个或多个机器可读媒体或存储器上。术语“存储器”可包含以例如处理器、计算机或数字处理装置的机器可读的形式提供(例如，存储和/或传输)信息的机构。例如，存储器可包含只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光学存储介质、快闪存储器装置，或任何其它易失性或非易失性存储器存储装置。其上含有的代码或指令可由载波信号、红外信号、数字信号和其它类似信号表示。

应当理解，前面的描述仅仅是对本公开的说明。本领域的技术人员可在不脱离本公开的情况下设计出各种替代方案和修改。因此，本公开旨在包含所有这些替代方案、修改和变化。呈现参考附图所描述的实施方式仅为了示出本公开内容的某些实例。与上文和/或所附权利要求中所描述的元件、步骤、方法和技术没有实质性不同的其它元件、步骤、方法和技术也旨在处于本公开的范围内。

Claims

1.一种用于内窥镜图像中的对象增强的系统，其包括：

光源，其被配置为在外科手术部位内提供光；

成像装置，其被配置为获取图像；

成像装置控制单元，其被配置为控制所述成像装置，所述成像装置控制单元包含：

处理器；和

存储指令的存储器，所述指令在由所述处理器执行时使所述系统进行以下操作：

由所述成像装置捕获所述外科手术部位内的对象的图像，所述图像包含多个像素，其中所述多个像素中的每一个包含颜色信息；

访问所述图像；

访问与关于所述图像中的每个所述像素的深度信息有关的数据；

将所述深度信息输入到机器学习算法；

基于所述机器学习算法的输出强调所述图像的特征；

基于所强调的特征生成增强图像；以及

在显示器上显示所述增强图像。

2.根据权利要求1所述的系统，其中强调所述特征包含以下至少一项：增强所述图像的3D方面、强调所述对象的边界、改变所述对象的所述多个像素的所述颜色信息和/或提取所述对象的3D特征。

3.根据权利要求1所述的系统，其中所述指令在被执行时另外使所述系统对所述增强图像执行实时图像识别以检测对象并对所述对象进行分类。

4.根据权利要求1所述的系统，其中所述图像包含立体图像，并且其中所述立体图像包含左图像和右图像，

其中所述指令在被执行时另外使所述系统基于确定所述左图像与所述右图像之间的水平视差失配来计算深度信息，并且

其中所述深度信息包含像素深度。

5.根据权利要求1所述的系统，其中所述指令在被执行时另外使所述系统基于结构光投影来计算深度信息，

其中所述深度信息包含像素深度。

6.根据权利要求1所述的系统，其中所述机器学习算法包含卷积神经网络、前馈神经网络、径向偏置神经网络、多层感知器、递归神经网络或模块化神经网络中的至少一种。

7.根据权利要求1所述的系统，其中基于在训练图像中标记对象来训练所述机器学习算法，并且其中所述训练还包含增强所述训练图像以包含添加噪声、改变颜色、隐藏所述训练图像的部分、缩放所述训练图像、旋转所述训练图像或拉伸所述训练图像中的至少一种。

8.根据权利要求7所述的系统，其中所述训练包含监督学习、非监督学习或强化学习中的至少一种。

9.根据权利要求1所述的系统，其中所述指令在被执行时另外使所述系统进行以下操作：

基于学习的视频放大、基于相位的视频放大和/或欧拉视频放大中的至少一种来处理所述增强图像的时间序列。

10.根据权利要求9所述的系统，其中所述指令在被执行时另外使所述系统进行以下操作：

基于所述机器学习算法的输出执行所述对象的跟踪。

11.一种在内窥镜图像中的对象增强的计算机实施的方法，其包括：

由成像装置捕获外科手术部位内的对象的图像，所述图像包含多个像素，其中所述多个像素中的每一个包含颜色信息；

访问所述图像；

将所述深度信息输入到机器学习算法；

基于所述机器学习算法的输出强调所述图像的特征；

基于所强调的特征生成增强图像；以及

在显示器上显示所述增强图像。

12.根据权利要求11所述的计算机实施的方法，其中强调所述特征包含以下至少一项：增强所述图像的3D方面、强调所述对象的边界、改变所述对象的所述多个像素的所述颜色信息或提取所述对象的3D特征。

13.根据权利要求11所述的计算机实施的方法，其中所述计算机实施的方法还包含对所述增强图像执行实时图像识别以检测对象并对所述对象进行分类。

14.根据权利要求11所述的计算机实施的方法，其中所述图像包含立体图像，并且其中所述立体图像包含左图像和右图像，

其中所述计算机实施的方法还包括基于确定所述左图像与所述右图像之间的水平视差失配来计算深度信息，并且

其中所述深度信息包含像素深度。

15.根据权利要求11所述的计算机实施的方法，其中所述计算机实施的方法还包括基于结构光投影来计算深度信息，

其中所述深度信息包含像素深度。

16.根据权利要求11所述的计算机实施的方法，其中所述机器学习算法包含卷积神经网络、前馈神经网络、径向偏置神经网络、多层感知器、递归神经网络或模块化神经网络中的至少一种。

17.根据权利要求11所述的计算机实施的方法，其中基于在训练图像中标记对象来训练所述机器学习算法，并且其中所述训练还包含增强所述训练图像以包含添加噪声、改变颜色、隐藏所述训练图像的部分、缩放所述训练图像、旋转所述训练图像或拉伸所述训练图像中的至少一种。

18.根据权利要求11所述的计算机实施的方法，其中所述计算机实施的方法还包括基于学习的视频放大、基于相位的视频放大或欧拉视频放大中的至少一种来处理所述增强图像的时间序列。

19.根据权利要求18所述的计算机实施的方法，其中所述计算机实施的方法还包括基于所述机器学习算法的输出执行所述对象的跟踪。

20.一种存储程序的非暂时性存储介质，所述程序使计算机执行内窥镜图像中的对象增强的计算机实施的方法，所述计算机实施的方法包括：

访问所述图像；

将所述深度信息输入到机器学习算法；

基于所述机器学习算法的输出强调所述图像的特征；

基于所强调的特征生成增强图像；以及

在显示器上显示所述增强图像。

21.一种用于内窥镜图像中的对象检测的系统，其包括：

光源，其被配置为在外科手术部位内提供光；

成像装置，其被配置为获取立体图像；

成像装置控制单元，其被配置为控制所述成像装置，所述控制单元包含：

处理器；和

由所述成像装置捕获所述外科手术部位内的对象的立体图像，所述立体图像包含第一图像和第二图像；

访问所述立体图像；

对所述第一图像执行实时图像识别以检测所述对象，对所述对象进行分类，并产生第一图像分类概率值；

对所述第二图像执行实时图像识别以检测所述对象，对所述对象进行分类，并产生第二图像分类概率值；以及

比较所述第一图像分类概率值与所述第二图像分类概率值以产生分类准确度值；

在所述分类准确度值高于预定阈值的情况下：

在所检测的对象周围生成第一限界框；

基于所述分类生成所述第一图像的第一增强视图，所述第一增强视图包含所述限界框和指示所述分类的标签；

基于所述分类生成所述第二图像的第二增强视图，所述第二增强视图包含所述限界框和指示所述分类的标签；以及

在显示器上显示所述第一和第二增强图像。

22.根据权利要求21所述的系统，其中在所述分类准确度值低于所述预定阈值的情况下，所述指令在被执行时另外使所述系统在所述显示器上显示所述分类准确度值不在预期范围内的指示。

23.根据权利要求21所述的系统，其中所述实时图像识别包含：

检测所述第一图像中的所述对象；

检测所述第二图像中的所述对象；

在所述第一图像中生成所述对象的第一轮廓；

在所述第二图像中生成所述对象的第二轮廓；

比较所述第一轮廓与所述第二轮廓；以及

基于所述比较检测所述第一轮廓与所述第二轮廓之间的不一致。

24.根据权利要求21所述的系统，其中所述实时图像识别包含：

基于卷积神经网络检测所述对象，包含：

为所述对象生成分割掩码；

检测所述对象；以及

基于所述检测对所述对象进行分类。

25.根据权利要求24所述的系统，其中基于在训练图像中标记对象来训练所述卷积神经网络，并且其中所述训练还包含增强所述训练图像以包含添加噪声、改变颜色、隐藏所述训练图像的部分、缩放所述训练图像、旋转所述训练图像或拉伸所述训练图像中的至少一种。

26.根据权利要求21所述的系统，其中所述实时图像识别包含：

基于基于区域的神经网络检测所述对象，包含：

将所述第一图像和第二图像划分为区域；

基于所述对象的特征预测每个区域的限界框；

预测每个区域的对象检测概率；

基于所预测的对象检测概率对所述限界框进行加权；

检测所述对象；以及

基于所述检测对所述对象进行分类。

27.根据权利要求26所述的系统，其中基于在训练图像中标记对象来训练所述基于区域的神经网络，并且其中所述训练还包含增强所述训练图像以包含添加噪声、改变颜色、隐藏所述训练图像的部分、缩放所述训练图像、旋转所述训练图像、改变背景或拉伸所述训练图像中的至少一种。

28.根据权利要求27所述的系统，其中所述指令在被执行时另外使所述系统进行以下操作：

基于所述基于区域的神经网络的输出执行所述对象的跟踪。

29.根据权利要求28所述的系统，其中所述第一增强视图和第二增强视图各自还包含所述分类概率值的指示。

30.一种在内窥镜图像中的对象检测的计算机实施的方法，其包括：

由成像装置访问外科手术部位内的对象的立体图像，所述立体图像包含第一图像和第二图像；

对所述第一图像执行实时图像识别以检测所述对象并对所述对象进行分类；

对所述第二图像执行实时图像识别以检测所述对象，对所述对象进行分类，并产生分类概率值；以及

基于所述实时图像识别比较所述第一图像的所述分类概率值与所述第二图像的所述分类概率值以产生分类准确度值；

在所述分类准确度值高于预定阈值的情况下：

在所检测的对象周围生成第一限界框；

基于所述分类所述限界框生成所述第二图像的第二增强视图，所述第二增强视图包含所述限界框和指示所述分类的标签；以及

在显示器上显示所述第一和第二增强图像。

31.根据权利要求30所述的计算机实施的方法，其中在所述分类准确度值低于所述预定阈值的情况下，所述方法还包含在所述显示器上显示所述分类准确度值不在预期范围内的指示。

32.根据权利要求30所述的计算机实施的方法，其中所述实时图像识别包含：

检测所述第一图像中的所述对象；

检测所述第二图像中的所述对象；

在所述第一图像中生成所述对象的第一轮廓；

在所述第二图像中生成所述对象的第二轮廓；

比较所述第一轮廓与所述第二轮廓；以及

33.根据权利要求30所述的计算机实施的方法，其中所述实时图像识别包含：

基于卷积神经网络检测所述对象，包含：

为所述对象生成分割掩码；

检测所述对象；以及

基于所述检测对所述对象进行分类。

34.根据权利要求33所述的计算机实施的方法，其中基于在训练图像中标记对象来训练所述卷积神经网络，并且其中所述训练还包含增强所述训练图像以包含添加噪声、改变颜色、隐藏所述训练图像的部分、缩放所述训练图像、旋转所述训练图像或拉伸所述训练图像中的至少一种。

35.根据权利要求30所述的计算机实施的方法，其中所述实时图像识别包含：

基于基于区域的神经网络检测所述对象，包含：

将所述图像下潜为区域；

基于所述对象的特征预测每个区域的限界框；

预测每个区域的对象检测概率；

基于所预测的对象检测概率对所述限界框进行加权；

检测所述对象；以及

基于所述检测对所述对象进行分类。

36.根据权利要求35所述的计算机实施的方法，其中基于在训练图像中标记对象来训练所述基于区域的神经网络，并且其中所述训练还包含增强所述训练图像以包含添加噪声、改变颜色、隐藏所述训练图像的部分、缩放所述训练图像、旋转所述训练图像、改变背景或拉伸所述训练图像中的至少一种。

37.根据权利要求36所述的计算机实施的方法，其还包含：

基于所述基于区域的神经网络的输出执行所述对象的跟踪。

38.根据权利要求37所述的计算机实施的方法，其中所述第一增强视图和第二增强视图各自还包含所述分类概率值的指示。

39.一种存储程序的非暂时性存储介质，所述程序使计算机执行内窥镜图像中的对象增强的计算机实施的方法，所述计算机实施的方法包括：

在所述分类概率值高于预定阈值的情况下：

在所检测的对象周围生成第一限界框；

在显示器上显示所述第一和第二增强图像。