CN112907539A

CN112907539A - 基于深度学习的气管插管定位方法、装置和存储介质

Info

Publication number: CN112907539A
Application number: CN202110196669.2A
Authority: CN
Inventors: 姜虹; 夏明�; 常敏; 张荣福; 李峰; 徐天意
Original assignee: Ninth Peoples Hospital Shanghai Jiaotong University School of Medicine; University of Shanghai for Science and Technology
Current assignee: Ninth Peoples Hospital Shanghai Jiaotong University School of Medicine; University of Shanghai for Science and Technology
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2021-06-04
Anticipated expiration: 2041-02-22
Also published as: CN112907539B; EP4070714A1; JP2022128414A; JP7347738B2; US20220265360A1

Abstract

本发明涉及一种基于深度学习的气管插管定位方法、装置和存储介质，其中，方法包括：构建基于空洞卷积和特征图融合的YOLOv3网络，通过训练好的YOLOv3网络提取图像的特征信息，得到第一目标信息；根据传感器检测到的二氧化碳浓度差异利用矢量化定位的方式确定第二目标信息；将所述第一目标信息与所述第二目标信息进行融合得到最终目标位置。本发明能够对对气管口和食管口进行快速实时检测。

Description

基于深度学习的气管插管定位方法、装置和存储介质

技术领域

本发明涉及计算机辅助医疗技术领域，特别是涉及一种基于深度学习的多模态气管插管定位方法及装置。

背景技术

气管内插管是麻醉医生对全身麻醉状态下的患者进行气道管理的重要手段，在保持气道通畅、通气供氧、呼吸支持、维持氧合等方面起到了重要的作用。麻醉医生在气道插管的过程中会面临很多的挑战，如面罩通气困难、插管困难等。根据有关文献报道，在接受全身麻醉的患者中，面罩通气困难的发生率约为0.9％～12.8％，插管困难的发生率约为0.5％～10％，同时出现面罩通气困难和插管困难的发生率约为0.01％～0.07％。困难或者失败的气道插管往往会造成十分严重的后果，包括永久性脑损伤甚至死亡。为此，临床上常采用纤支镜引导下的清醒插管方式来辅助麻醉医生进行患者气道插管以最大程度的保证患者安全。

近年来，人工智能技术得到了迅猛发展，在医学领域和麻醉领域也得到了初步探索，在气管插管方面，更加智能化、自动化的插管设备得到了初步研发。2012年，加拿大Hemmerling等人发明了远程操控的气管插管设备——开普勒气管插管系统(KIS)，是第一个用于气管插管的机器人系统，该操作系统首次验证并实现了远程控制气管插管操作的可能。瑞士苏黎世大学Biro等人研发了基于喉部影像识别技术的自动化内窥镜下气管插管装置(REALITI)，具有实时图像识别，远端自动定位功能，操作者手动控制内窥镜尖端的弯曲运动，当图像识别检测声门开口，用户可以保持住一个专用按钮来激活自动模式，自动模式下内窥镜尖端向声门开口的几何中心点移动，直至入气管。

尽管气道插管技术取得了诸多的研究进展，但大都还是基于单一的内窥镜图像成像方式。在插管的过程中，内窥镜图像的视角相对较小，图像对比度、目标距离、目标大小等都会发生变化，不利于医生快速锁定目标。另外，痰液及气道分泌物也会遮挡气管口、食道口等目标，造成干扰。因此亟需一种能够快速锁定目标的方法。

发明内容

本发明所要解决的技术问题是提供一种基于深度学习的多模态气管插管定位方法及装置，能够对对气管口和食管口进行快速实时检测。

本发明解决其技术问题所采用的技术方案是：提供一种基于深度学习的气管插管定位方法，包括以下步骤：

(1)构建基于空洞卷积和特征图融合的YOLOv3网络，通过训练好的YOLOv3网络提取图像的特征信息，得到第一目标信息；

(2)根据传感器检测到的二氧化碳浓度差异利用矢量化定位的方式确定第二目标信息；

(3)将所述第一目标信息与所述第二目标信息进行融合得到最终目标位置。

所述步骤(1)中的YOLOv3网络采用残差模块对所述所述内窥镜图像的不同尺度的目标特征信息进行提取；所述残差模块包括三个并行的残差块，且每个残差块的首部和尾部增加1x1的卷积核；所述三个并行的残差块扩张率不同，所述三个并行的残差块中空洞卷积的权重是共享的。

所述步骤(1)中的YOLOv3网络的输出层通过特征金字塔网络生成两个不同尺度的特征图。

所述通过特征金字塔网络生成特征图是指，将本层卷积层输出的特征图进行上采样，并与网络中上一层卷积层的输出进行张量拼接，得到特征图。

所述步骤(1)中的YOLOv3网络的损失函数包括检测框中心坐标误差损失、检测框高度和宽度误差损失、置信度误差损失和分类误差损失。

所述步骤(2)中的传感器共有四个，通过对每个传感器进行位置标定，建立直角坐标系，并根据所述坐标系确定第二目标信息，具体为：

其中，OC1、OC2、OC3、OC4分别为四个传感器测得的二氧化碳浓度向量，θ为OC1和OC3与所述直角坐标系中x轴的夹角或OC2和OC4与所述直角坐标系中y轴的夹角，δ为归一化因子。

所述步骤(3)具体为：将所述第一目标信息的边界框的中心坐标与所述第二目标信息的中心位置映射到图像坐标系中得到的坐标位置进行加权融合，得到最终目标位置。

本发明解决其技术问题所采用的技术方案是：提供一种基于深度学习的气管插管定位装置，包括：第一目标信息获取模块，用于构建基于空洞卷积和特征图融合的YOLOv3网络，通过训练好的YOLOv3网络提取图像的特征信息，得到第一目标信息；第二目标信息获取模块，根据传感器检测到的二氧化碳浓度差异利用矢量化定位的方式确定第二目标信息；最终目标位置获取模块，用于将所述第一目标信息与所述第二目标信息进行融合得到最终目标位置。

本发明解决其技术问题所采用的技术方案是：提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述气管插管定位方法的步骤。

本发明解决其技术问题所采用的技术方案是：一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现上述的气管插管定位方法。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明将内窥镜的图像信息和二氧化碳浓度信息进行融合，提高了气管口和食管口的检测效果。本发明改进了传统YOLOv3的Darknet53主干网络，构建权重共享的并行多分支空洞卷积残差模块，提高骨干网络提取图像特征的能力；其次，在保留YOLOv3原来的输出层的基础上，利用特征图像金字塔生成另外两种不同尺度的特征图，并对特征图进行上采样和张量拼接，提升对小尺寸目标的检测效果。同时，采用四路二氧化碳浓度差异利用矢量化定位算法确定目标的中心位置。最终，将其得到的目标信息与图像得到的目标信息进行融合，确定出气管位置。实验证明，本发明与其他方法相比，提高了气管口和食管口的检测精度，并且多模态气管插管辅助样机装置在模拟人上进行气管插管辅助引导是可行的，具有比较满意的操作时间和成功率。

附图说明

图1是本发明实施方式气管插管定位方法的计算机设备的硬件结构图；

图2是本发明第一实施方式的流程图；

图3是本发明第一实施方式中的基于空洞卷积和特征融合的YOLOv3网络示意图；

图4是本发明第一实施方式中的残差模块示意图；

图5是本发明第二实施方式的结构示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式可以在移动设备、计算机设备、或者类似的运算设备(如ECU)、系统中执行。以允许在计算机设备为例，图1是气管插管定位的计算机设备的硬件结构图。如图1所示，该计算机设备可以包括一个或多个(图中仅示出一个)处理器101(处理器101可以包括但不限于中央处理器CPU、图像处理器GPU、数字信号处理器DSP、微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于与用户交互的输入输出接口102、用于存储数据的存储器103、以及用于通信功能的传输装置104。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机设备还可以包括比图1中所示更多或更少的组件，或者具有与图1所示不同的配置。

输入输出接口102可以连接一个或多个显示器、触控屏等，用于显示从计算机设备传送的数据，还可以连接键盘、触控笔、触控板和/或鼠标等，用于输入诸如，选择、创建、编辑等的用户指令。

存储器103可用于存储应用软件的软件程序以及模块，例如与本发明实施方式中的气管插管定位方法对应的程序指令/模块，处理器101通过运行存储在存储器103内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的气管插管定位方法。存储器103可包括高速随机存储器，还可包括非易失性存储器，如一个或多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器103可进一步包括相对于处理器101远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置104用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机设备的通信供应商提供的互联网。在上述运行环境下，本发明提供了气管插管定位方法。

图2示出了本发明第一实施方式的气管插管定位方法的流程图，具体包括以下步骤：

步骤201，构建基于空洞卷积和特征图融合的YOLOv3网络，通过所述YOLOv3网络提取所述内窥镜图像的特征信息，得到第一目标信息；

具体地说，在气道插管的过程中，目标尺度变化较大，深层网络中小尺度的目标语义信息会丢失。然而，传统的YOLOv3骨干网络中卷积核的大小是固定的，其提取图像特征信息的能力有限。为此，本实施方式提出了基于空洞卷积和特征融合的YOLOv3网络，如图3所示。

首先，改进了YOLOv3骨干网络Darknet53，设计权重共享并行多分支空洞卷积残差模块(Multiple Branch Dilated Convolution Block,MD-Block)，以提取图像更丰富的特征，如图4所示。该模块使用不同扩张率的空洞卷积核对不同尺度的目标特征信息进行提取，同时借助上采样和张量拼接技术增加特征图的数量，提升检测小目标的精度。将原来的残差块用三个并行的残差块代替，并在每个残差块的首部和尾部增加1x1的卷积核来确保通道数不变。同时，采用三个不同扩张率的3x3的空洞卷积代替原来的3x3的普通卷积，并且这三个并行的残差块中空洞卷积的权重是共享的。在本实施方式中，将骨干网络Darnet53中的残差块全部替换为所设计的权重共享的并行多分支空洞卷积残差模块。

其次，为进一步检测更浅层的特征，在保持YOLOv3原来输出层的基础上，通过特征金字塔网络生成另外两个不同尺度的特征图。具体过程如下：对输出的52x52尺寸的特征图进行上采样，并与骨干网络中的浅层104x104的卷积层输出进行张量拼接，输出104x104尺寸的特征图。类似的，对输出的104x104大小的特征图进行上采样，与骨干网络中208x208大小的卷积层输出进行张量拼接，输出208x208尺寸的特征图。表1列出了权重共享并行多分支空洞卷积残差模块的参数配置。

表1权重共享并行多分支空洞卷积残差模块的参数配置

本实施方式对YOLOv3网络预测的边界框的中心坐标、宽度和高度采用均方误差损失。同时，在分类时将Softmax分类函数用多个logstic回归代替，利用二值交叉熵函数来计算边界框分类损失及置信度损失。假定得到的特征图的大小为SxS，每个网格产生B个锚框，每个预选框经过网络最终得到SxSxB个边界框，最终的损失函数L_total包含检测框中心坐标误差损失L_mid、检测框高度和宽度误差损失L_margin、置信度误差损失L_conf和分类误差损失L_class。定义某一个预选框和真实框的交并比大于其它的预选框，则采用这个预选框来检测当前的目标。

L_total＝L_mid+L_margin+L_conf+L_class

以上各式中，

分别表示网络输出的边界框的中心坐标、宽度和高度；

分别表示真实框的中心坐标、宽度和高度；λ_coord,λ_noobj为各项的超参数；

表示第i个网络的第j个预选框是否负责检测当前的目标，取值为1或者0。

表示第i个网络的第j个预选框不负责检测该目标；

表示第i个网络的第j个预选框中真实存在目标的置信度；

表示第i个网络的第j个预选框中经过检测存在目标的置信度；O表示所有待检测种类的集合；c表示当前检测的类别；

表示第i个网络的第j个预选框真实存在类别为对象的概率；

表示通过检测第i个网络的第j个预选框存在类别为对象的概率。

在对改进的网络进行训练的过程中，本实施方式对训练参数进行了相应的配置，具体为：batch的大小设置为4，subdivisions设置为8，将采集到的80张图像平均分配到8组分别进行训练，权值衰减设置为0.0005，动量设置为0.9。在训练的后期，设置学习衰减策略为step，学习率变动因子设置为0.1，使用随机梯度下降法(Stochastic GradientDescent,SGD)对网络的参数进行更新。

步骤202，根据传感器检测到的二氧化碳浓度差异利用矢量化定位的方式确定第二目标信息。

具体地说，本实施方式依据测量得到的四路二氧化碳浓度差异利用矢量化定位算法确定目标的中心位置。具体方法如下：根据四路二氧化碳传感器的安装位置，通过对每个二氧化碳传感器进行位置标定，建立直角坐标系。假设传感器1、传感器2、传感器3和传感器4测得的二氧化碳浓度向量分别为OC1、OC2、OC3、OC4，θ为OC1和OC3与所述直角坐标系中x轴的夹角或OC2和OC4与所述直角坐标系中y轴的夹角，则根据所建立的坐标系按照如下式子可以计算出目标中心点的坐标位置(x0,y0)：

其中，δ为归一化因子。

步骤203，将所述第一目标信息与所述第二目标信息进行融合得到最终目标位置。也就是说，建立图像坐标系和二氧化碳矢量化定位坐标系(即直角坐标系)的转化关系，将通过多路二氧化碳浓度差异矢量化定位方法计算出的目标中心位置(即第二目标信息)映射到图像坐标系中，记为(b_cx,b_cy)。进一步将其与基于空洞卷积和特征融合改进的YOLOv3网络模型计算得到的边界框的中心坐标(即第一目标信息)进行加权融合，最终得到准确的目标中心坐标。具体为：

通过基于改进的YOLOv3网络先为每个边界框预测四个偏移量t_x,t_y,t_w,t_h，分别表示预测的目标对象的中心坐标、目标预选框的宽度和高度。此外，网络也会输出衡量预选框中存在目标对象的概率值和目标对象所属的类别。假设目标对象所在的栅格从图像的左上角作偏移，偏移的长度和宽度分别为c_x,c_y，预测框的宽度和高度分别为p_w,p_h。利用如下计算公式，得到网络在图像坐标下预测的目标边界框的中心坐标信息：

b_ix＝σ(t_x)+c_x

b_iy＝σ(t_y)+c_y

其中，σ()表示sigmoid函数。

进一步将网络预测的目标边界框的中心坐标(即第一目标信息)与通过多路二氧化碳浓度差异矢量化定位算法计算出的目标中心位置(即第二目标信息)映射到图像坐标系后得到的坐标(b_cx,b_cy)进行加权融合，得到最终的目标框的中心坐标为：

b_x＝αb_ix+βb_cx

b_y＝αb_iy+βb_cy

其中，b_x,b_y,b_w,b_h分别表示最终计算出的目标边界框的中心坐标、宽度和高度，α,β分别表示权重因子。

图5示出了本发明第二实施方式的气管插管定位装置的结构示意图，该装置用于执行图2所示的方法流程，且该装置包括第一目标信息获取模块501、第二目标信息获取模块502和最终目标位置获取模块503。

其中，第一目标信息获取模块501，用于构建基于空洞卷积和特征图融合的YOLOv3网络，通过训练好的YOLOv3网络提取所述内窥镜图像的特征信息，得到第一目标信息；其中，构建的YOLOv3网络采用残差模块对所述所述内窥镜图像的不同尺度的目标特征信息进行提取；所述残差模块包括三个并行的残差块，且每个残差块的首部和尾部增加1x1的卷积核；所述三个并行的残差块扩张率不同，所述三个并行的残差块中空洞卷积的权重是共享的。该YOLOv3网络的输出层通过特征金字塔网络生成两个不同尺度的特征图。所述通过特征金字塔网络生成特征图是指，将本层卷积层输出的特征图进行上采样，并与网络中上一层卷积层的输出进行张量拼接，得到特征图。该YOLOv3网络的损失函数包括检测框中心坐标误差损失、检测框高度和宽度误差损失、置信度误差损失和分类误差损失。第二目标信息获取模块502，根据传感器检测到的二氧化碳浓度差异利用矢量化定位的方式确定第二目标信息；最终目标位置获取模块503，用于将所述第一目标信息与所述第二目标信息进行融合得到最终目标位置。

选择2020年10月在上海交通大学医学院附属第九人民医院麻醉科规培的1～2年级住院医生16名作为实验对象，这16名住院医生均有经鼻/口气管插管经验，但均无本发明实施方式的使用经验。16名住院医师均在困难气道模拟人上完成了40次操作练习，所有操作记录都被完整记录。所有住院医师的640次操作中，平均操作时间为30.39±29.39s，最长时间为310s，成功的次数595次，成功率为93％。

不难发现，本发明将内窥镜的图像信息和二氧化碳浓度信息进行融合，提高了气管口和食管口的检测效果。本发明改进了传统YOLOv3的Darknet53主干网络，构建权重共享的并行多分支空洞卷积残差模块，提高骨干网络提取图像特征的能力；其次，在保留YOLOv3原来的输出层的基础上，利用特征图像金字塔生成另外两种不同尺度的特征图，并对特征图进行上采样和张量拼接，提升对小尺寸目标的检测效果。同时，采用四路二氧化碳浓度差异利用矢量化定位算法确定目标的中心位置。最终，将其得到的目标信息与图像得到的目标信息进行融合，确定出气管位置。实验证明，本发明与其他方法相比，提高了气管口和食管口的检测精度，并且多模态气管插管辅助样机装置在模拟人上进行气管插管辅助引导是可行的，具有比较满意的操作时间和成功率。

Claims

1.一种基于深度学习的气管插管定位方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的气管插管定位方法，其特征在于，所述步骤(1)中的YOLOv3网络采用残差模块对所述所述内窥镜图像的不同尺度的目标特征信息进行提取；所述残差模块包括三个并行的残差块，且每个残差块的首部和尾部增加1x1的卷积核；所述三个并行的残差块扩张率不同，所述三个并行的残差块中空洞卷积的权重是共享的。

3.根据权利要求1所述的基于深度学习的气管插管定位方法，其特征在于，所述步骤(1)中的YOLOv3网络的输出层通过特征金字塔网络生成两个不同尺度的特征图。

4.根据权利要求3所述的基于深度学习的气管插管定位方法，其特征在于，所述通过特征金字塔网络生成特征图是指，将本层卷积层输出的特征图进行上采样，并与网络中上一层卷积层的输出进行张量拼接，得到特征图。

5.根据权利要求1所述的基于深度学习的气管插管定位方法，其特征在于，所述步骤(1)中的YOLOv3网络的损失函数包括检测框中心坐标误差损失、检测框高度和宽度误差损失、置信度误差损失和分类误差损失。

6.根据权利要求1所述的基于深度学习的气管插管定位方法，其特征在于，所述步骤(2)中的传感器共有四个，通过对每个传感器进行位置标定，建立直角坐标系，并根据所述坐标系确定第二目标信息，具体为：

7.根据权利要求1所述的基于深度学习的气管插管定位方法，其特征在于，所述步骤(3)具体为：将所述第一目标信息的边界框的中心坐标与所述第二目标信息的中心位置映射到图像坐标系中得到的坐标位置进行加权融合，得到最终目标位置。

8.一种基于深度学习的气管插管定位装置，其特征在于，包括：第一目标信息获取模块，用于构建基于空洞卷积和特征图融合的YOLOv3网络，通过训练好的YOLOv3网络提取图像的特征信息，得到第一目标信息；第二目标信息获取模块，根据传感器检测到的二氧化碳浓度差异利用矢量化定位的方式确定第二目标信息；最终目标位置获取模块，用于将所述第一目标信息与所述第二目标信息进行融合得到最终目标位置。

9.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述气管插管定位方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1-7中任一项所述的气管插管定位方法。