CN113888541B - 一种腹腔镜手术阶段的图像识别方法、装置及存储介质 - Google Patents

一种腹腔镜手术阶段的图像识别方法、装置及存储介质 Download PDF

Info

Publication number
CN113888541B
CN113888541B CN202111482885.XA CN202111482885A CN113888541B CN 113888541 B CN113888541 B CN 113888541B CN 202111482885 A CN202111482885 A CN 202111482885A CN 113888541 B CN113888541 B CN 113888541B
Authority
CN
China
Prior art keywords
time
vector
image block
dimension vector
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111482885.XA
Other languages
English (en)
Other versions
CN113888541A (zh
Inventor
陈豪
李国新
余江
陈浩彬
苟龙飞
陈翊
闫滕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Hospital Southern Medical University
Original Assignee
Southern Hospital Southern Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern Hospital Southern Medical University filed Critical Southern Hospital Southern Medical University
Priority to CN202111482885.XA priority Critical patent/CN113888541B/zh
Publication of CN113888541A publication Critical patent/CN113888541A/zh
Application granted granted Critical
Publication of CN113888541B publication Critical patent/CN113888541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30092Stomach; Gastric

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种腹腔镜手术阶段的图像识别方法、装置及存储介质,方法包括:首先获取实时手术视频流,在所述实时手术视频流中截取关键帧图像;接着将每张所述关键帧图像划分为多个图像块;然后对所述多个图像块进行时空位置编码得到时间维度向量和空间维度向量;最后将所述时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果。本发明实现了对腹腔镜手术阶段的精准识别,并且可以应对复杂多阶段的腹腔镜手术阶段的图像识别,效率高且准确率高,可广泛应用于智慧医疗技术领域。

Description

一种腹腔镜手术阶段的图像识别方法、装置及存储介质
技术领域
本发明的实施方式涉及智慧医疗技术领域,更具体地,本发明的实施方式涉及腹腔镜手术阶段的图像识别方法、装置及存储介质。
背景技术
在计算机辅助手术领域,外科手术工作流程识别是一个重要的课题,自动化的手术工作流程识别可以解释当前正在进行的具体活动,并且有利于手术程序标准化。随着深度学习在医学领域的应用,近年来已提出利用卷积神经网络来提取手术视频中更多的视觉信息来识别手术阶段。鉴于手术视频实际上是序列数据,为了应对这些挑战,许多研究致力于先从视频帧中提取具有区别性的视觉特征后,对帧之间的时间依赖性进行建模以提高识别精度。然而基于卷积神经网络的自动手术阶段方法,受限于卷积操作本身固有的平移不变性和只能感受局部信息,在视频理解领域不能达到系统所需求的准确区分手术阶段的要求。且现有手术阶段识别方法针对的是简单的手术阶段较少的腹腔镜胆囊切除术,对于复杂地、多阶段腹腔镜手术,其识别效率和准确性都大大降低。
发明内容
鉴于现有技术存在上述问题,本公开的目的之一在于提供一种效率高且准确性高的,腹腔镜手术阶段的图像识别方法、装置及存储介质。
在本发明实施方式的第一方面中,提供了一种腹腔镜手术阶段的图像识别方法,包括:
获取实时手术视频流,在所述实时手术视频流中截取关键帧图像;
将每张所述关键帧图像划分为多个图像块;
对所述多个图像块进行时空位置编码得到时间维度向量和空间维度向量;
将所述时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果。
在本发明的一个实施例中,所述对所述多个图像块进行时空位置编码得到时间维度向量和空间维度向量,包括:
将所述多个图像块利用时间注意力机制进行编码得到时间维度向量;
将所述多个图像块利用空间注意力机制进行编码得到空间维度向量。
在本发明的另一个实施例中,所述将所述时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果,包括:
将所述时间维度向量和空间维度向量输入基于transformer模型的手术阶段识别模型;
经过基于transformer模型的手术阶段识别模型计算得到手术阶段识别结果。
进一步的,所述经过基于transformer模型的手术阶段识别模型计算得到手术阶段识别结果,包括:
根据所述时间维度向量计算得到当前图像块和相邻时间上图像块的关联信息;
根据所述空间维度向量计算得到当前图像块和相邻空间上图像块的关联信息;
将所述当前图像块和相邻空间上图像块的关联信息与当前图像块和相邻时间上图像块的关联信息进行拼接得到transformer模型的最终注意力层的输出结果;
将最终注意力层的输出结果输入线性层得到手术阶段识别结果。
进一步的,所述根据所述时间维度向量计算得到当前图像块和相邻时间上图像块的关联信息,包括:
根据所述时间维度向量计算transformer模型中注意力机制的q,k,v,用于表征不同时刻同一位置的图像前后帧之间的关系,其中q为query向量,k为key向量,v为value向量;
Figure 525959DEST_PATH_IMAGE001
其中,
Figure 713227DEST_PATH_IMAGE002
表示l-1层网络在位置p和时间t帧的输出,即第l层的输入,LN表示线 性层,a表示当前是多头注意力的头数,
Figure 322063DEST_PATH_IMAGE003
表示q,k,v对应的可学习的矩阵;
根据q、k计算计算时间注意力权重值:
Figure 495555DEST_PATH_IMAGE004
根据所述时间注意力权重值得到当前图像块和相邻时间上图像块的关联信息:
Figure 240657DEST_PATH_IMAGE005
其中,
Figure 208613DEST_PATH_IMAGE006
为注意力机制中计算出来的图像块p在时间维度t上的权重值;
Figure 304745DEST_PATH_IMAGE007
为时间注意力权重值,p = 1,2…14表示空间位置,t= 1,2, … 8表示帧的索引。
在本发明的再一个实施例中,所述将每张所述关键帧图像划分为多个图像块,包括:
将每张所述关键帧图像进行预处理,所述预处理包括随机裁剪、随机水平翻转、转换为张量和归一化处理中的一种或多种;
将每张预处理后关键帧图像划分为14个16x16的图像块。
在本发明的再一个实施例中,所述手术阶段,包括:
准备阶段、建立气腹阶段、探查腹腔阶段、打穿刺孔阶段、探查肿瘤病灶阶段打开小网膜悬吊肝脏阶段、左下区域淋巴结清扫阶段、右下区域淋巴结清扫阶段、右上区域淋巴结清扫阶段、胰腺上缘区域淋巴结清扫阶段、弯小弯区域淋巴结清扫阶段、断胃取出标本阶段、体外消化道重建阶段、重建气腹阶段、腔镜下重建阶段、腹腔冲洗阶段、检查术野阶段或泡镜子体外清洗镜子阶段。
在本发明实施方式的第二方面中,提供了一种腹腔镜手术阶段的图像识别装置,包括:
获取模块,用于获取实时手术视频流,在所述实时手术视频流中截取关键帧图像;
划分模块,用于将每张所述关键帧图像划分为多个图像块;
编码模块,用于对所述多个图像块进行时空位置编码得到时间维度向量和空间维度向量;
识别模块,用于将所述时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果。
在本发明实施方式的第三方面中,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面中任一项所述方法。
在本发明实施方式的第四方面中,提供了一种计算设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述第一方面中任一项所述方法。
根据本发明实施方式的腹腔镜手术阶段的图像识别方法、装置、介质和计算设备,通过获取实时手术视频流,在实时手术视频流中截取关键帧图像,将每张关键帧图像划分为多个图像块,对多个图像块进行时空位置编码得到时间维度向量和空间维度向量,将时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果,能同时兼顾空间上单帧图片不同位置像素区域的特征关系和时间上同一位置不同时间点不同帧之间的关系,同时捕获到图像块之间的局部依赖关系和全局依赖性,从而实现对腹腔镜手术阶段的精准识别,并且可以应对复杂多阶段的腹腔镜手术阶段的图像识别。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的腹腔镜手术阶段的图像识别方法的流程示意图;
图2为本发明一实施例提供的transformer模型的流程示意图;
图3为本发明一实施例提供的腹腔镜手术阶段的图像识别装置的结构示意图;
图4示意性地示出了本发明实施例的一种介质的结构示意图;
图5示意性地示出了本发明实施例的一种计算设备的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种腹腔镜手术阶段的图像识别方法、装置、介质和计算设备。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
下面详细描述本发明的方法的具体内容:
下面参考图1来描述根据本发明示例性实施方式的用于超声标注数据集扩充的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
下面结合具体实施案例对本发明进一步说明。
本发明实施例提供了一种腹腔镜手术阶段的图像识别方法,所述方法包括:
步骤S101,获取实时手术视频流,在实时手术视频流中截取关键帧图像;
步骤S102,将每张关键帧图像划分为多个图像块;
步骤S103,对多个图像块进行时空位置编码得到时间维度向量和空间维度向量;
步骤S104,将时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果。
传统基于卷积神经网络的自动手术阶段方法,受限于卷积操作本身固有的平移不变性和只能感受局部信息,在视频理解领域不能达到系统所需求的准确区分手术阶段的要求。且现有手术阶段识别方法针对的是简单的手术阶段较少的腹腔镜胆囊切除术,对于复杂地、多阶段腹腔镜手术,其识别效率和准确性都大大降低。
根据本实施方式的方法可以同时兼顾空间上单帧图片不同位置像素区域的特征关系和时间上同一位置不同时间点不同帧之间的关系,同时捕获到图像块之间的局部依赖关系和全局依赖性,从而实现对腹腔镜手术阶段的精准识别,并且可以应对复杂多阶段的腹腔镜手术阶段的图像识别。
下面结合附图说明如何进行腹腔镜手术阶段的图像识别:
首先,执行步骤S101,获取实时手术视频流,在实时手术视频流中截取关键帧图像;
一些实施例中,在实时手术视频流中截取关键帧图像,具体包括:
在实时手术视频流中每间隔3帧截取一帧图像,连续截取8帧的图像作为关键帧图像。
接下来,执行步骤S102,将每张关键帧图像划分为多个图像块;
具体包括:
将每张关键帧图像划分为14个16x16的图像块。
一些实施例中,将每张关键帧图像划分为多个图像块前,还包括:
将每张关键帧图像进行预处理,预处理包括但不限于随机裁剪、随机水平翻转、转换为张量和归一化处理中的一种或多种。
由于对关键帧图像进行图像块划分,可以更加方便同时捕获到邻近的图像块之间的局部依赖关系,以及远距离图像块的全局依赖性,因此,可以使腹腔镜手术阶段的图像识别更加精确。
接下来,执行步骤S103,对多个图像块进行时空位置编码得到时间维度向量和空间维度向量;
在本发明的一个实施例中,对多个图像块进行时空位置编码得到时间维度向量和空间维度向量,包括:
将多个图像块利用时间注意力机制进行编码得到时间维度向量;
将多个图像块利用空间注意力机制进行编码得到空间维度向量。
一些实施例中,时间注意力机制对应编码公式为
Figure 203300DEST_PATH_IMAGE008
其中,i表示图像块,t表示图像块对应数据。
一些实施例中,空间注意力机制对应编码公式为
Figure 68488DEST_PATH_IMAGE009
其中,(posx,posy)表示图像块上坐标,i表示图像块,j表示图像块对应数据。
因为基于transformer结构的模型对图像块的位置不敏感,如果不加入位置信息,每个像素块的位置随便改变,只要像素块的内部像素值不变,对于模型都会有相同的输出,不利于后续计算,因此,为图像块进行位置编码,其中设置参数10000为方便位置编码计算,本申请对编码公式不做限定,本领域技术人员可根据时间需要选取。
在本发明的另一个实施例中,将时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果,包括:
步骤S1031:将时间维度向量和空间维度向量输入基于transformer模型的手术阶段识别模型;
将Transformer模型应用于视频理解,可以使个图像块的语义与视频中的其它图像块进行比较,来获取每个图像块的语义,从而可以同时捕获到邻近的图像块之间的局部依赖关系,以及远距离图像块的全局依赖性。
步骤S1032:经过基于transformer模型的手术阶段识别模型计算得到手术阶段识别结果。
如图2所示,经过基于transformer模型的手术阶段识别模型计算得到手术阶段识别结果,包括:
步骤S10321:根据时间维度向量计算得到当前图像块和相邻时间上图像块的关联信息;
具体地,根据时间维度向量计算得到当前图像块和相邻时间上图像块的关联信息,包括:
根据时间维度向量计算transformer模型中注意力机制的q,k,v,用于表征不同时刻同一位置的图像前后帧之间的关系,其中q为query向量,k为key向量,v为value向量;
Figure 145028DEST_PATH_IMAGE010
其中,
Figure 728456DEST_PATH_IMAGE011
表示l-1层网络在位置p和时间t帧的输出,即第l层的输入,LN表示线 性层,a表示当前是多头注意力的头数,
Figure 978172DEST_PATH_IMAGE012
表示q,k,v对应的可学习的矩阵;
根据q、k计算时间注意力权重值:
Figure 150396DEST_PATH_IMAGE013
Figure 460155DEST_PATH_IMAGE014
为softmax函数,用于将模型的输出结果转化为类别概率,具体是将输 入数据映射为0-1之间的实数,并将输出结果归一化后,保证输出结果的和为1。
根据时间注意力权重值得到当前图像块和相邻时间上图像块的关联信息:
Figure 530879DEST_PATH_IMAGE015
其中,
Figure 725231DEST_PATH_IMAGE006
为注意力机制中计算出来的图像块p在时间维度t上的权重值;
Figure 565011DEST_PATH_IMAGE016
为时间注意力权重值,p = 1,2…14表示空间位置,t= 1,2, … 8表示帧的索引。
步骤S10322:根据空间维度向量计算得到当前图像块和相邻空间上图像块的关联信息;
具体地,根据空间维度向量计算得到当前图像块和相邻空间上图像块的关联信息,包括:
根据空间维度向量计算transformer模型中注意力机制的q,k,v,其中q为query向量,k为key向量,v为value向量;
Figure 45671DEST_PATH_IMAGE017
其中,
Figure 345238DEST_PATH_IMAGE018
表示l-1层网络在位置p和时间t帧的输出,即第l层的输入,LN表示线性 层,a表示当前是多头注意力的头数,
Figure 202335DEST_PATH_IMAGE019
表示q,k,v对应的可学习的矩阵;
根据q,k,v计算空间注意力权重值:
Figure 896622DEST_PATH_IMAGE020
Figure 485866DEST_PATH_IMAGE014
为softmax函数,用于将模型的输出结果转化为类别概率,具体是将输 入数据映射为0-1之间的实数,并将输出结果归一化后,保证输出结果的和为1。
根据空间注意力权重值得到当前图像块和相邻空间上图像块的关联信息:
Figure 531183DEST_PATH_IMAGE021
其中,
Figure 926392DEST_PATH_IMAGE006
为注意力机制中计算出来的图像块p在时间维度t上的权重值;
Figure 865398DEST_PATH_IMAGE007
为时间注意力权重值,p = 1,2…14表示空间位置,t= 1,2, … 8表示帧的索引。
在时间注意力机制中,每个图像块仅和其余帧在对应位置提取出的图像块进行注意力机制操作;在空间注意力机制中,这个图像块仅和同一帧的提取出的图像块进行注意力操作。
步骤S10323:将当前图像块和相邻空间上图像块的关联信息与当前图像块和相邻时间上图像块的关联信息进行拼接得到transformer模型的最终注意力层的输出结果;
将单个关联信息S拼接在一起,得到最终注意力层的输出z:
Figure 953440DEST_PATH_IMAGE022
其中,
Figure 220473DEST_PATH_IMAGE023
代表在transformer模型中卷积核对应的权重。需要说明的是,本实施例 将关联信息S进行拼接的时候,需要使用关联信息S对应的卷积核权重
Figure 153794DEST_PATH_IMAGE023
进行卷积计算。
步骤S10324:将最终注意力层的输出结果输入线性层得到手术阶段识别结果y:
Figure 557093DEST_PATH_IMAGE024
一些实施例中l=12。
本实施例中,基于transformer模型的手术阶段识别模型能提取空间上单帧图片不同位置像素区域的特征关系和时间上同一位置不同时间点不同帧之间的关系,从而更准确的提取视频中长时间段的动作信息,可以应付复杂多阶段的手术过程,精确区分手术阶段。
接下来,执行步骤S104,将时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果;
一些实施例中,手术阶段包括但不限于:
准备阶段、建立气腹阶段、探查腹腔阶段、打穿刺孔阶段、探查肿瘤病灶阶段打开小网膜悬吊肝脏阶段、左下区域淋巴结清扫阶段、右下区域淋巴结清扫阶段、右上区域淋巴结清扫阶段、胰腺上缘区域淋巴结清扫阶段、弯小弯区域淋巴结清扫阶段、断胃取出标本阶段、体外消化道重建阶段、重建气腹阶段、腔镜下重建阶段、腹腔冲洗阶段、检查术野阶段或泡镜子体外清洗镜子阶段。
传统的基于卷积模型CNN以及基于长短期记忆网络LSTM的腹腔镜手术阶段的图像识别主要应用于简单的腹腔镜胆囊切除术,其手术阶段较少,易区分,而本申请可以应对腹腔镜胃癌根治切除手术,腹腔镜胃癌根治切除手术的阶段多,传统模型由于计算复杂度大幅提升得到的识别精度降低,而本申请由于在时间与空间上分离计算,降低计算复杂度,从而实现精精准识别。
在实验中,用CNN+LSTM模型和当前模型进行了对比,在相同的训练集和测试集情况下,对于手术阶段识别,CNN+LSTM达到91.3%的精度,而基于时空分离的transformer模型的精度到达94.8%。其性能明显优于CNN+LSTM。
下面进一步详细描述本发明的装置的实现原理:
在介绍了本发明示例性实施方式的方法之后,接下来,参考图3对本发明示例性实施方式的腹腔镜手术阶段的图像识别装置进行说明,所述装置包括:
获取模块301,用于获取实时手术视频流,在所述实时手术视频流中截取关键帧图像;
划分模块302,用于将每张所述关键帧图像划分为多个图像块;
编码模块303,用于对多个图像块进行时空位置编码得到时间维度向量和空间维度向量;
识别模块304,用于将时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果。
在本实施方式的一个实施例中,获取模块301被配置为:在实时手术视频流中每间隔预设帧数截取一帧图像,连续截取预设帧总数的图像作为关键帧图像。
在本实施方式的一个实施例中,所述划分模块302被配置为:
将每张关键帧图像划分为14个16x16的图像块。
一些实施例中,还包括:
预处理模块305,预处理模块305被配置为将每张关键帧图像进行预处理,预处理包括但不限于随机裁剪、随机水平翻转、转换为张量和归一化处理中的一种或多种。
在本实施方式的一个实施例中,所述编码模块303包括:
时间注意力编码单元,用于将多个图像块利用时间注意力机制进行编码得到时间维度向量;
空间注意力编码单元,用于将多个图像块利用空间注意力机制进行编码得到空间维度向量。
一些实施例中,时间注意力机制对应编码公式为
Figure 2987DEST_PATH_IMAGE025
其中,i表示图像块,t表示图像块对应数据。
一些实施例中,空间注意力机制对应编码公式为:
Figure 757316DEST_PATH_IMAGE026
其中,(posx,posy)表示图像块上坐标,i表示图像块,j表示图像块对应数据。
在本实施方式的一个实施例中,识别模块304包括:
时间注意力模块,用于根据时间维度向量计算得到当前图像块和相邻时间上图像块的关联信息;
具体地,根据时间维度向量计算得到当前图像块和相邻时间上图像块的关联信息,包括:
根据时间维度向量计算transformer模型中注意力机制的q,k,v,其中q为query向量,k为key向量,v为value向量;
Figure 494328DEST_PATH_IMAGE027
其中,
Figure 955397DEST_PATH_IMAGE028
表示l-1层网络在位置p和时间t帧的输出,即第l层的输入,LN表示线性 层,a表示当前是多头注意力的头数,
Figure 385241DEST_PATH_IMAGE029
表示q,k,v对应的可学习的矩阵;
根据q,k,v计算时间注意力权重值:
Figure 361287DEST_PATH_IMAGE030
Figure 88941DEST_PATH_IMAGE031
为softmax函数,用于将模型的输出结果转化为类别概率,具体是将输 入数据映射为0-1之间的实数,并将输出结果归一化后,保证输出结果的和为1。
根据时间注意力权重值得到当前图像块和相邻时间上图像块的关联信息:
Figure 732412DEST_PATH_IMAGE032
时间注意力模块,用于根据空间维度向量计算得到当前图像块和相邻空间上图像块的关联信息;
具体地,根据空间维度向量计算得到当前图像块和相邻空间上图像块的关联信息,包括:
根据空间维度向量计算transformer模型中注意力机制的q,k,v,其中q为query向量,k为key向量,v为value向量;
Figure 67578DEST_PATH_IMAGE033
其中,
Figure 937445DEST_PATH_IMAGE034
表示l-1层网络在位置p和时间t帧的输出,即第l层的输入,LN表示线性 层,a表示当前是多头注意力的头数,
Figure 16259DEST_PATH_IMAGE035
表示q,k,v对应的可学习的矩阵;
根据q,k,v计算空间注意力权重值:
Figure 497925DEST_PATH_IMAGE036
Figure 3993DEST_PATH_IMAGE014
为softmax函数,用于将模型的输出结果转化为类别概率,具体是将输 入数据映射为0-1之间的实数,并将输出结果归一化后,保证输出结果的和为1。
根据空间注意力权重值得到当前图像块和相邻空间上图像块的关联信息:
Figure 220211DEST_PATH_IMAGE037
在时间注意力机制中,每个图像块仅和其余帧在对应位置提取出的图像块进行注意力机制操作;在空间注意力机制中,这个图像块仅和同一帧的提取出的图像块进行注意力操作。
关联模块,用于将当前图像块和相邻空间上图像块的关联信息与当前图像块和相邻时间上图像块的关联信息进行拼接得到transformer模型的最终注意力层的输出结果;
将单个关联信息S拼接在一起,得到最终注意力层的输出z:
Figure 40399DEST_PATH_IMAGE038
其中,
Figure 392883DEST_PATH_IMAGE023
代表在transformer模型中卷积核对应的权重。需要说明的是,本实施例 将关联信息S进行拼接的时候,需要使用关联信息S对应的卷积核权重
Figure 335431DEST_PATH_IMAGE023
进行卷积计算。
输出模块,用于将最终注意力层的输出结果输入线性层得到手术阶段识别结果y:
Figure 773366DEST_PATH_IMAGE039
一些实施例中l=12。
本实施例中,基于transformer模型的手术阶段识别模型能提取空间上单帧图片不同位置像素区域的特征关系和时间上同一位置不同时间点不同帧之间的关系,从而更准确的提取视频中长时间段的动作信息,可以应付复杂多阶段的手术过程,精确区分手术阶段。
下面进一步对本发明的存储介质进行详细描述:
在介绍了本发明示例性实施方式的装置之后,接下来,参考图4对本发明示例性实施方式的计算机可读存储介质进行说明,请参考图4,其示出的计算机可读存储介质为光盘40,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如获取原始检测数据;根据原始检测数据筛选出差异代谢物数据;将差异代谢物数据分别输入至少三个腹腔镜手术阶段的图像识别模型得到各个模型输出结果;根据各个模型输出结果确定最终预测结果,各步骤的具体实现方式在此不再重复说明。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
下面进一步对本发明的计算设备进行详细描述:
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图5对本发明示例性实施方式的计算设备。
图5示出了适于用来实现本发明实施方式的示例性计算设备50的框图,该计算设备50可以是计算机系统或服务器。图5显示的计算设备50仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算设备50的组件可以包括但不限于:一个或者多个处理器或者处理单元501,系统存储器502,连接不同系统组件(包括系统存储器502和处理单元501)的总线503。
计算设备50典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备50访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器502可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)5021和/或高速缓存存储器5022。计算设备50可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,ROM5023可以用于读写不可移动的、非易失性磁介质(图5中未显示,通常称为“硬盘驱动器”)。尽管未在图5中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线503相连。系统存储器502中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块5024的程序/实用工具5025,可以存储在例如系统存储器502中,且这样的程序模块5024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块5024通常执行本发明所描述的实施例中的功能和/或方法。
计算设备50也可以与一个或多个外部设备504(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且,计算设备50还可以通过网络适配器506与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器506通过总线503与计算设备50的其它模块(如处理单元501等)通信。应当明白,尽管图5中未示出,可以结合计算设备50使用其它硬件和/或软件模块。
处理单元501通过运行存储在系统存储器502中的程序,从而执行各种功能应用以及数据处理,例如,获取实时手术视频流,在实时手术视频流中截取关键帧图像;将每张关键帧图像划分为多个图像块;对多个图像块进行时空位置编码得到时间维度向量和空间维度向量;将时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果;各步骤的具体实现方式在此不再重复说明。
应当注意,尽管在上文详细描述中提及了数据集扩充装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (7)

1.一种腹腔镜手术阶段的图像识别方法,其特征在于,包括:
获取实时手术视频流,在所述实时手术视频流中截取关键帧图像;
将每张所述关键帧图像划分为多个图像块;
对所述多个图像块进行时空位置编码得到时间维度向量和空间维度向量;
将所述时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果;
其中,所述将所述时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果,包括:
将所述时间维度向量和空间维度向量输入基于transformer模型的手术阶段识别模型;
经过基于transformer模型的手术阶段识别模型计算得到手术阶段识别结果;
其中,所述经过基于transformer模型的手术阶段识别模型计算得到手术阶段识别结果,包括:
根据所述时间维度向量计算得到当前图像块和相邻时间上图像块的关联信息;
根据所述空间维度向量计算得到当前图像块和相邻空间上图像块的关联信息;
将所述当前图像块和相邻空间上图像块的关联信息与当前图像块和相邻时间上图像块的关联信息进行拼接得到transformer模型的最终注意力层的输出结果;
将最终注意力层的输出结果输入线性层得到手术阶段识别结果;
其中,所述根据所述时间维度向量计算得到当前图像块和相邻时间上图像块的关联信息,包括:
根据所述时间维度向量计算transformer模型中注意力机制的query向量、key向量和value向量,所述query向量、key向量和value向量用于表征不同时刻同一位置的图像前后帧之间的关系,所述query向量、key向量和value向量的表达式为:
Figure DEST_PATH_IMAGE002
其中,q为query向量,k为key向量,v为value向量;
Figure DEST_PATH_IMAGE004
表示l-1层网络在位置p和时间t帧的输出,即第l层的输入,LN表示线性层,a表示当前是多头注意力的头数,
Figure DEST_PATH_IMAGE006
表示q,k,v对应的可学习的矩阵;
根据q、k计算时间注意力权重值:
Figure DEST_PATH_IMAGE008
根据所述时间注意力权重值得到当前图像块和相邻时间上图像块的关联信息:
Figure DEST_PATH_IMAGE010
其中,
Figure DEST_PATH_IMAGE012
为注意力机制中计算出来的图像块p在时间维度t上的权重值;
Figure DEST_PATH_IMAGE014
为时间注意力权重值;p = 1,2…14表示空间位置;t= 1,2, … 8表示帧的索引;
Figure DEST_PATH_IMAGE016
为softmax函数,用于将模型的输出结果转化为类别概率,具体是将输入数据映射为0-1之间的实数,并将输出结果归一化后,保证输出结果的和为1。
2.根据权利要求1所述的腹腔镜手术阶段的图像识别方法,其特征在于,所述对所述多个图像块进行时空位置编码得到时间维度向量和空间维度向量,包括:
将所述多个图像块利用时间注意力机制进行编码得到时间维度向量;
将所述多个图像块利用空间注意力机制进行编码得到空间维度向量。
3.根据权利要求1所述的腹腔镜手术阶段的图像识别方法,其特征在于,所述将每张所述关键帧图像划分为多个图像块,包括:
将每张所述关键帧图像进行预处理,所述预处理包括随机裁剪、随机水平翻转、转换为张量和归一化处理中的一种或多种;
将每张预处理后的关键帧图像划分为14个16x16的图像块。
4.根据权利要求1所述的腹腔镜手术阶段的图像识别方法,其特征在于,所述手术阶段,包括:
准备阶段、建立气腹阶段、探查腹腔阶段、打穿刺孔阶段、探查肿瘤病灶阶段打开小网膜悬吊肝脏阶段、左下区域淋巴结清扫阶段、右下区域淋巴结清扫阶段、右上区域淋巴结清扫阶段、胰腺上缘区域淋巴结清扫阶段、弯小弯区域淋巴结清扫阶段、断胃取出标本阶段、体外消化道重建阶段、重建气腹阶段、腔镜下重建阶段、腹腔冲洗阶段、检查术野阶段或泡镜子体外清洗镜子阶段。
5.一种腹腔镜手术阶段的图像识别装置,其特征在于,包括:
获取模块,用于获取实时手术视频流,在所述实时手术视频流中截取关键帧图像;
划分模块,用于将每张所述关键帧图像划分为多个图像块;
编码模块,用于对所述多个图像块进行时空位置编码得到时间维度向量和空间维度向量;
识别模块,用于将所述时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果;
其中,所述将所述时间维度向量和空间维度向量输入手术阶段识别模型得到手术阶段识别结果,包括:
将所述时间维度向量和空间维度向量输入基于transformer模型的手术阶段识别模型;
经过基于transformer模型的手术阶段识别模型计算得到手术阶段识别结果;
其中,所述经过基于transformer模型的手术阶段识别模型计算得到手术阶段识别结果,包括:
根据所述时间维度向量计算得到当前图像块和相邻时间上图像块的关联信息;
根据所述空间维度向量计算得到当前图像块和相邻空间上图像块的关联信息;
将所述当前图像块和相邻空间上图像块的关联信息与当前图像块和相邻时间上图像块的关联信息进行拼接得到transformer模型的最终注意力层的输出结果;
将最终注意力层的输出结果输入线性层得到手术阶段识别结果;
其中,所述根据所述时间维度向量计算得到当前图像块和相邻时间上图像块的关联信息,包括:
根据所述时间维度向量计算transformer模型中注意力机制的query向量、key向量和value向量,所述query向量、key向量和value向量用于表征不同时刻同一位置的图像前后帧之间的关系,所述query向量、key向量和value向量的表达式为:
Figure 293815DEST_PATH_IMAGE002
其中,q为query向量,k为key向量,v为value向量;
Figure 631124DEST_PATH_IMAGE004
表示l-1层网络在位置p和时间t帧的输出,即第l层的输入,LN表示线性层,a表示当前是多头注意力的头数,
Figure 429316DEST_PATH_IMAGE006
表示q,k,v对应的可学习的矩阵;
根据q、k计算时间注意力权重值:
Figure 893795DEST_PATH_IMAGE008
根据所述时间注意力权重值得到当前图像块和相邻时间上图像块的关联信息:
Figure 93833DEST_PATH_IMAGE010
其中,
Figure 618355DEST_PATH_IMAGE012
为注意力机制中计算出来的图像块p在时间维度t上的权重值;
Figure 654575DEST_PATH_IMAGE014
为时间注意力权重值;p = 1,2…14表示空间位置;t= 1,2, … 8表示帧的索引;
Figure 657166DEST_PATH_IMAGE016
为softmax函数,用于将模型的输出结果转化为类别概率,具体是将输入数据映射为0-1之间的实数,并将输出结果归一化后,保证输出结果的和为1。
6.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-4中任一项所述方法。
7.一种计算设备,所述计算设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-4中任一项所述方法。
CN202111482885.XA 2021-12-07 2021-12-07 一种腹腔镜手术阶段的图像识别方法、装置及存储介质 Active CN113888541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111482885.XA CN113888541B (zh) 2021-12-07 2021-12-07 一种腹腔镜手术阶段的图像识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111482885.XA CN113888541B (zh) 2021-12-07 2021-12-07 一种腹腔镜手术阶段的图像识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113888541A CN113888541A (zh) 2022-01-04
CN113888541B true CN113888541B (zh) 2022-03-25

Family

ID=79015765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111482885.XA Active CN113888541B (zh) 2021-12-07 2021-12-07 一种腹腔镜手术阶段的图像识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113888541B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115187596B (zh) * 2022-09-09 2023-02-10 中国医学科学院北京协和医院 用于腹腔镜结直肠癌手术的神经智能辅助识别系统
CN116681788B (zh) * 2023-06-02 2024-04-02 萱闱(北京)生物科技有限公司 图像电子染色方法、装置、介质和计算设备
CN116894842B (zh) * 2023-09-08 2023-12-22 南方医科大学南方医院 肿瘤腹腔种植转移病灶图像处理方法及相关装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020172414A1 (en) * 2019-02-21 2020-08-27 Theator inc. Systems and methods for analysis of surgical videos
CN113673280A (zh) * 2020-05-14 2021-11-19 索尼公司 图像处理装置、图像处理方法和计算机可读存储介质
CN111783520A (zh) * 2020-05-18 2020-10-16 北京理工大学 基于双流网络的腹腔镜手术阶段自动识别方法及装置
US11468239B2 (en) * 2020-05-22 2022-10-11 Capital One Services, Llc Joint intent and entity recognition using transformer models
CN113408508B (zh) * 2021-08-20 2021-11-30 中国科学院自动化研究所 基于Transformer的非接触式心率测量方法
CN113673489B (zh) * 2021-10-21 2022-04-08 之江实验室 一种基于级联Transformer的视频群体行为识别方法

Also Published As

Publication number Publication date
CN113888541A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN113888541B (zh) 一种腹腔镜手术阶段的图像识别方法、装置及存储介质
Wang et al. Inferring salient objects from human fixations
CN114066902A (zh) 一种基于卷积和transformer融合的医学图像分割方法、系统、装置
Huang et al. End-to-end continuous emotion recognition from video using 3D ConvLSTM networks
WO2021233017A1 (zh) 图像处理方法、装置、设备及计算机可读存储介质
WO2022057309A1 (zh) 肺部特征识别方法、装置、计算机设备及存储介质
Dong Optimal Visual Representation Engineering and Learning for Computer Vision
WO2020244151A1 (zh) 图像处理方法、装置、终端及存储介质
CN112068555A (zh) 一种基于语义slam方法的语音控制型移动机器人
US11967125B2 (en) Image processing method and system
CN108108769B (zh) 一种数据的分类方法、装置及存储介质
CN111382647A (zh) 一种图片处理方法、装置、设备及存储介质
CN115880317A (zh) 一种基于多分支特征融合精炼的医学图像分割方法
Cai et al. IOS-Net: An inside-to-outside supervision network for scale robust text detection in the wild
US11410016B2 (en) Selective performance of deterministic computations for neural networks
Wang et al. Multistage model for robust face alignment using deep neural networks
Tang et al. A Siamese network-based tracking framework for hyperspectral video
CN117649515A (zh) 一种基于数字孪生的半监督3d目标检测方法、系统和设备
CN116778164A (zh) 一种基于多尺度结构改进DeeplabV3+网络的语义分割方法
CN111815748A (zh) 一种动画处理方法、装置、存储介质及电子设备
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN113707280B (zh) 标注数据集扩充方法、装置、介质和计算设备
CN116205723A (zh) 基于人工智能的面签风险检测方法及相关设备
CN111459050B (zh) 一种基于双网互联的智慧仿真型护理教学系统及教学方法
CN115049546A (zh) 样本数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant