CN113888541B

CN113888541B - 一种腹腔镜手术阶段的图像识别方法、装置及存储介质

Info

Publication number: CN113888541B
Application number: CN202111482885.XA
Authority: CN
Inventors: 陈豪; 李国新; 余江; 陈浩彬; 苟龙飞; 陈翊; 闫滕
Original assignee: Southern Hospital Southern Medical University
Current assignee: Southern Hospital Southern Medical University
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-03-25
Anticipated expiration: 2041-12-07
Also published as: CN113888541A

Abstract

本发明公开了一种腹腔镜手术阶段的图像识别方法、装置及存储介质，方法包括：首先获取实时手术视频流，在所述实时手术视频流中截取关键帧图像；接着将每张所述关键帧图像划分为多个图像块；然后对所述多个图像块进行时空位置编码得到时间维度向量和空间维度向量；最后将所述时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果。本发明实现了对腹腔镜手术阶段的精准识别，并且可以应对复杂多阶段的腹腔镜手术阶段的图像识别，效率高且准确率高，可广泛应用于智慧医疗技术领域。

Description

一种腹腔镜手术阶段的图像识别方法、装置及存储介质

技术领域

本发明的实施方式涉及智慧医疗技术领域，更具体地，本发明的实施方式涉及腹腔镜手术阶段的图像识别方法、装置及存储介质。

背景技术

在计算机辅助手术领域，外科手术工作流程识别是一个重要的课题，自动化的手术工作流程识别可以解释当前正在进行的具体活动，并且有利于手术程序标准化。随着深度学习在医学领域的应用，近年来已提出利用卷积神经网络来提取手术视频中更多的视觉信息来识别手术阶段。鉴于手术视频实际上是序列数据，为了应对这些挑战，许多研究致力于先从视频帧中提取具有区别性的视觉特征后，对帧之间的时间依赖性进行建模以提高识别精度。然而基于卷积神经网络的自动手术阶段方法，受限于卷积操作本身固有的平移不变性和只能感受局部信息，在视频理解领域不能达到系统所需求的准确区分手术阶段的要求。且现有手术阶段识别方法针对的是简单的手术阶段较少的腹腔镜胆囊切除术，对于复杂地、多阶段腹腔镜手术，其识别效率和准确性都大大降低。

发明内容

鉴于现有技术存在上述问题，本公开的目的之一在于提供一种效率高且准确性高的，腹腔镜手术阶段的图像识别方法、装置及存储介质。

在本发明实施方式的第一方面中，提供了一种腹腔镜手术阶段的图像识别方法，包括：

获取实时手术视频流，在所述实时手术视频流中截取关键帧图像；

将每张所述关键帧图像划分为多个图像块；

对所述多个图像块进行时空位置编码得到时间维度向量和空间维度向量；

将所述时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果。

在本发明的一个实施例中，所述对所述多个图像块进行时空位置编码得到时间维度向量和空间维度向量，包括：

将所述多个图像块利用时间注意力机制进行编码得到时间维度向量；

将所述多个图像块利用空间注意力机制进行编码得到空间维度向量。

在本发明的另一个实施例中，所述将所述时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果，包括：

将所述时间维度向量和空间维度向量输入基于transformer模型的手术阶段识别模型;

经过基于transformer模型的手术阶段识别模型计算得到手术阶段识别结果。

进一步的，所述经过基于transformer模型的手术阶段识别模型计算得到手术阶段识别结果，包括：

根据所述时间维度向量计算得到当前图像块和相邻时间上图像块的关联信息；

根据所述空间维度向量计算得到当前图像块和相邻空间上图像块的关联信息；

将所述当前图像块和相邻空间上图像块的关联信息与当前图像块和相邻时间上图像块的关联信息进行拼接得到transformer模型的最终注意力层的输出结果；

将最终注意力层的输出结果输入线性层得到手术阶段识别结果。

进一步的，所述根据所述时间维度向量计算得到当前图像块和相邻时间上图像块的关联信息，包括：

根据所述时间维度向量计算transformer模型中注意力机制的q,k,v，用于表征不同时刻同一位置的图像前后帧之间的关系，其中q为query向量，k为key向量，v为value向量;

其中，

表示l-1层网络在位置p和时间t帧的输出，即第l层的输入，LN表示线性层，a表示当前是多头注意力的头数，

表示q,k,v对应的可学习的矩阵；

根据q、k计算计算时间注意力权重值：

根据所述时间注意力权重值得到当前图像块和相邻时间上图像块的关联信息：

其中，

为注意力机制中计算出来的图像块p在时间维度t上的权重值；

为时间注意力权重值，p = 1,2…14表示空间位置，t= 1,2, … 8表示帧的索引。

在本发明的再一个实施例中，所述将每张所述关键帧图像划分为多个图像块，包括：

将每张所述关键帧图像进行预处理，所述预处理包括随机裁剪、随机水平翻转、转换为张量和归一化处理中的一种或多种；

将每张预处理后关键帧图像划分为14个16x16的图像块。

在本发明的再一个实施例中，所述手术阶段，包括：

准备阶段、建立气腹阶段、探查腹腔阶段、打穿刺孔阶段、探查肿瘤病灶阶段打开小网膜悬吊肝脏阶段、左下区域淋巴结清扫阶段、右下区域淋巴结清扫阶段、右上区域淋巴结清扫阶段、胰腺上缘区域淋巴结清扫阶段、弯小弯区域淋巴结清扫阶段、断胃取出标本阶段、体外消化道重建阶段、重建气腹阶段、腔镜下重建阶段、腹腔冲洗阶段、检查术野阶段或泡镜子体外清洗镜子阶段。

在本发明实施方式的第二方面中，提供了一种腹腔镜手术阶段的图像识别装置，包括：

获取模块，用于获取实时手术视频流，在所述实时手术视频流中截取关键帧图像；

划分模块，用于将每张所述关键帧图像划分为多个图像块；

编码模块，用于对所述多个图像块进行时空位置编码得到时间维度向量和空间维度向量；

识别模块，用于将所述时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果。

在本发明实施方式的第三方面中，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面中任一项所述方法。

在本发明实施方式的第四方面中，提供了一种计算设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述第一方面中任一项所述方法。

根据本发明实施方式的腹腔镜手术阶段的图像识别方法、装置、介质和计算设备，通过获取实时手术视频流，在实时手术视频流中截取关键帧图像，将每张关键帧图像划分为多个图像块，对多个图像块进行时空位置编码得到时间维度向量和空间维度向量，将时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果，能同时兼顾空间上单帧图片不同位置像素区域的特征关系和时间上同一位置不同时间点不同帧之间的关系，同时捕获到图像块之间的局部依赖关系和全局依赖性，从而实现对腹腔镜手术阶段的精准识别，并且可以应对复杂多阶段的腹腔镜手术阶段的图像识别。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的腹腔镜手术阶段的图像识别方法的流程示意图；

图2为本发明一实施例提供的transformer模型的流程示意图；

图3为本发明一实施例提供的腹腔镜手术阶段的图像识别装置的结构示意图；

图4示意性地示出了本发明实施例的一种介质的结构示意图；

图5示意性地示出了本发明实施例的一种计算设备的结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件（包括固件、驻留软件、微代码等），或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种腹腔镜手术阶段的图像识别方法、装置、介质和计算设备。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

下面详细描述本发明的方法的具体内容：

下面参考图1来描述根据本发明示例性实施方式的用于超声标注数据集扩充的方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

下面结合具体实施案例对本发明进一步说明。

本发明实施例提供了一种腹腔镜手术阶段的图像识别方法，所述方法包括：

步骤S101，获取实时手术视频流，在实时手术视频流中截取关键帧图像；

步骤S102，将每张关键帧图像划分为多个图像块；

步骤S103，对多个图像块进行时空位置编码得到时间维度向量和空间维度向量；

步骤S104，将时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果。

传统基于卷积神经网络的自动手术阶段方法，受限于卷积操作本身固有的平移不变性和只能感受局部信息，在视频理解领域不能达到系统所需求的准确区分手术阶段的要求。且现有手术阶段识别方法针对的是简单的手术阶段较少的腹腔镜胆囊切除术，对于复杂地、多阶段腹腔镜手术，其识别效率和准确性都大大降低。

根据本实施方式的方法可以同时兼顾空间上单帧图片不同位置像素区域的特征关系和时间上同一位置不同时间点不同帧之间的关系，同时捕获到图像块之间的局部依赖关系和全局依赖性，从而实现对腹腔镜手术阶段的精准识别，并且可以应对复杂多阶段的腹腔镜手术阶段的图像识别。

下面结合附图说明如何进行腹腔镜手术阶段的图像识别：

首先，执行步骤S101，获取实时手术视频流，在实时手术视频流中截取关键帧图像；

一些实施例中，在实时手术视频流中截取关键帧图像，具体包括：

在实时手术视频流中每间隔3帧截取一帧图像，连续截取8帧的图像作为关键帧图像。

接下来，执行步骤S102，将每张关键帧图像划分为多个图像块；

具体包括：

将每张关键帧图像划分为14个16x16的图像块。

一些实施例中，将每张关键帧图像划分为多个图像块前，还包括：

将每张关键帧图像进行预处理，预处理包括但不限于随机裁剪、随机水平翻转、转换为张量和归一化处理中的一种或多种。

由于对关键帧图像进行图像块划分，可以更加方便同时捕获到邻近的图像块之间的局部依赖关系，以及远距离图像块的全局依赖性，因此，可以使腹腔镜手术阶段的图像识别更加精确。

接下来，执行步骤S103，对多个图像块进行时空位置编码得到时间维度向量和空间维度向量；

在本发明的一个实施例中，对多个图像块进行时空位置编码得到时间维度向量和空间维度向量，包括：

将多个图像块利用时间注意力机制进行编码得到时间维度向量；

将多个图像块利用空间注意力机制进行编码得到空间维度向量。

一些实施例中，时间注意力机制对应编码公式为

其中，i表示图像块,t表示图像块对应数据。

一些实施例中，空间注意力机制对应编码公式为

；

其中，(posx,posy)表示图像块上坐标，i表示图像块，j表示图像块对应数据。

因为基于transformer结构的模型对图像块的位置不敏感，如果不加入位置信息，每个像素块的位置随便改变，只要像素块的内部像素值不变，对于模型都会有相同的输出，不利于后续计算，因此，为图像块进行位置编码，其中设置参数10000为方便位置编码计算，本申请对编码公式不做限定，本领域技术人员可根据时间需要选取。

在本发明的另一个实施例中，将时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果，包括：

步骤S1031：将时间维度向量和空间维度向量输入基于transformer模型的手术阶段识别模型;

将Transformer模型应用于视频理解，可以使个图像块的语义与视频中的其它图像块进行比较，来获取每个图像块的语义，从而可以同时捕获到邻近的图像块之间的局部依赖关系，以及远距离图像块的全局依赖性。

步骤S1032：经过基于transformer模型的手术阶段识别模型计算得到手术阶段识别结果。

如图2所示，经过基于transformer模型的手术阶段识别模型计算得到手术阶段识别结果，包括：

步骤S10321：根据时间维度向量计算得到当前图像块和相邻时间上图像块的关联信息；

具体地，根据时间维度向量计算得到当前图像块和相邻时间上图像块的关联信息，包括：

根据时间维度向量计算transformer模型中注意力机制的q,k,v，用于表征不同时刻同一位置的图像前后帧之间的关系，其中q为query向量，k为key向量，v为value向量;

其中，

表示q,k,v对应的可学习的矩阵；

根据q、k计算时间注意力权重值：

为softmax函数，用于将模型的输出结果转化为类别概率，具体是将输入数据映射为0-1之间的实数，并将输出结果归一化后，保证输出结果的和为1。

根据时间注意力权重值得到当前图像块和相邻时间上图像块的关联信息：

其中，

步骤S10322：根据空间维度向量计算得到当前图像块和相邻空间上图像块的关联信息；

具体地，根据空间维度向量计算得到当前图像块和相邻空间上图像块的关联信息，包括：

根据空间维度向量计算transformer模型中注意力机制的q,k,v，其中q为query向量，k为key向量，v为value向量;

其中，

表示q,k,v对应的可学习的矩阵；

根据q,k,v计算空间注意力权重值：

根据空间注意力权重值得到当前图像块和相邻空间上图像块的关联信息：

其中，

在时间注意力机制中，每个图像块仅和其余帧在对应位置提取出的图像块进行注意力机制操作；在空间注意力机制中，这个图像块仅和同一帧的提取出的图像块进行注意力操作。

步骤S10323：将当前图像块和相邻空间上图像块的关联信息与当前图像块和相邻时间上图像块的关联信息进行拼接得到transformer模型的最终注意力层的输出结果；

将单个关联信息S拼接在一起，得到最终注意力层的输出z:

其中，

代表在transformer模型中卷积核对应的权重。需要说明的是，本实施例将关联信息S进行拼接的时候，需要使用关联信息S对应的卷积核权重

进行卷积计算。

步骤S10324：将最终注意力层的输出结果输入线性层得到手术阶段识别结果y：

一些实施例中l=12。

本实施例中，基于transformer模型的手术阶段识别模型能提取空间上单帧图片不同位置像素区域的特征关系和时间上同一位置不同时间点不同帧之间的关系，从而更准确的提取视频中长时间段的动作信息，可以应付复杂多阶段的手术过程，精确区分手术阶段。

接下来，执行步骤S104，将时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果；

一些实施例中，手术阶段包括但不限于：

传统的基于卷积模型CNN以及基于长短期记忆网络LSTM的腹腔镜手术阶段的图像识别主要应用于简单的腹腔镜胆囊切除术，其手术阶段较少，易区分，而本申请可以应对腹腔镜胃癌根治切除手术，腹腔镜胃癌根治切除手术的阶段多，传统模型由于计算复杂度大幅提升得到的识别精度降低，而本申请由于在时间与空间上分离计算，降低计算复杂度，从而实现精精准识别。

在实验中，用CNN+LSTM模型和当前模型进行了对比，在相同的训练集和测试集情况下，对于手术阶段识别，CNN+LSTM达到91.3%的精度，而基于时空分离的transformer模型的精度到达94.8%。其性能明显优于CNN+LSTM。

下面进一步详细描述本发明的装置的实现原理：

在介绍了本发明示例性实施方式的方法之后，接下来，参考图3对本发明示例性实施方式的腹腔镜手术阶段的图像识别装置进行说明，所述装置包括：

获取模块301，用于获取实时手术视频流，在所述实时手术视频流中截取关键帧图像；

划分模块302，用于将每张所述关键帧图像划分为多个图像块；

编码模块303，用于对多个图像块进行时空位置编码得到时间维度向量和空间维度向量；

识别模块304，用于将时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果。

在本实施方式的一个实施例中，获取模块301被配置为：在实时手术视频流中每间隔预设帧数截取一帧图像，连续截取预设帧总数的图像作为关键帧图像。

在本实施方式的一个实施例中，所述划分模块302被配置为：

将每张关键帧图像划分为14个16x16的图像块。

一些实施例中，还包括：

预处理模块305，预处理模块305被配置为将每张关键帧图像进行预处理，预处理包括但不限于随机裁剪、随机水平翻转、转换为张量和归一化处理中的一种或多种。

在本实施方式的一个实施例中，所述编码模块303包括：

时间注意力编码单元，用于将多个图像块利用时间注意力机制进行编码得到时间维度向量；

空间注意力编码单元，用于将多个图像块利用空间注意力机制进行编码得到空间维度向量。

一些实施例中，时间注意力机制对应编码公式为

其中，i表示图像块,t表示图像块对应数据。

一些实施例中，空间注意力机制对应编码公式为：

；

其中，(posx,posy)表示图像块上坐标，i表示图像块,j表示图像块对应数据。

在本实施方式的一个实施例中，识别模块304包括：

时间注意力模块，用于根据时间维度向量计算得到当前图像块和相邻时间上图像块的关联信息；

根据时间维度向量计算transformer模型中注意力机制的q,k,v，其中q为query向量，k为key向量，v为value向量;

；

其中，

表示q,k,v对应的可学习的矩阵；

根据q,k,v计算时间注意力权重值：

。

时间注意力模块，用于根据空间维度向量计算得到当前图像块和相邻空间上图像块的关联信息；

其中，

表示q,k,v对应的可学习的矩阵；

根据q,k,v计算空间注意力权重值：

。

关联模块，用于将当前图像块和相邻空间上图像块的关联信息与当前图像块和相邻时间上图像块的关联信息进行拼接得到transformer模型的最终注意力层的输出结果；

将单个关联信息S拼接在一起，得到最终注意力层的输出z:

其中，

进行卷积计算。

输出模块，用于将最终注意力层的输出结果输入线性层得到手术阶段识别结果y：

一些实施例中l=12。

下面进一步对本发明的存储介质进行详细描述：

在介绍了本发明示例性实施方式的装置之后，接下来，参考图4对本发明示例性实施方式的计算机可读存储介质进行说明，请参考图4，其示出的计算机可读存储介质为光盘40，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如获取原始检测数据；根据原始检测数据筛选出差异代谢物数据；将差异代谢物数据分别输入至少三个腹腔镜手术阶段的图像识别模型得到各个模型输出结果；根据各个模型输出结果确定最终预测结果，各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

下面进一步对本发明的计算设备进行详细描述：

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图5对本发明示例性实施方式的计算设备。

图5示出了适于用来实现本发明实施方式的示例性计算设备50的框图，该计算设备50可以是计算机系统或服务器。图5显示的计算设备50仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算设备50的组件可以包括但不限于：一个或者多个处理器或者处理单元501，系统存储器502，连接不同系统组件(包括系统存储器502和处理单元501)的总线503。

计算设备50典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备50访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器502可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)5021和/或高速缓存存储器5022。计算设备50可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM5023可以用于读写不可移动的、非易失性磁介质(图5中未显示，通常称为“硬盘驱动器”)。尽管未在图5中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线503相连。系统存储器502中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块5024的程序/实用工具5025，可以存储在例如系统存储器502中，且这样的程序模块5024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块5024通常执行本发明所描述的实施例中的功能和/或方法。

计算设备50也可以与一个或多个外部设备504(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且，计算设备50还可以通过网络适配器506与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图5所示，网络适配器506通过总线503与计算设备50的其它模块(如处理单元501等)通信。应当明白，尽管图5中未示出，可以结合计算设备50使用其它硬件和/或软件模块。

处理单元501通过运行存储在系统存储器502中的程序，从而执行各种功能应用以及数据处理，例如，获取实时手术视频流，在实时手术视频流中截取关键帧图像；将每张关键帧图像划分为多个图像块；对多个图像块进行时空位置编码得到时间维度向量和空间维度向量；将时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果；各步骤的具体实现方式在此不再重复说明。

应当注意，尽管在上文详细描述中提及了数据集扩充装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。