CN116030397A - 一种基于时序信息交互的腔镜手术视频分割方法 - Google Patents
一种基于时序信息交互的腔镜手术视频分割方法 Download PDFInfo
- Publication number
- CN116030397A CN116030397A CN202310304494.1A CN202310304494A CN116030397A CN 116030397 A CN116030397 A CN 116030397A CN 202310304494 A CN202310304494 A CN 202310304494A CN 116030397 A CN116030397 A CN 116030397A
- Authority
- CN
- China
- Prior art keywords
- feature map
- representing
- frame
- segmentation
- auxiliary frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 89
- 230000003993 interaction Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000002674 endoscopic surgery Methods 0.000 title claims abstract description 31
- 238000000605 extraction Methods 0.000 claims description 31
- 230000004927 fusion Effects 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000002708 enhancing effect Effects 0.000 claims description 7
- 210000003484 anatomy Anatomy 0.000 claims description 5
- 238000002357 laparoscopic surgery Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000002432 robotic surgery Methods 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 238000001356 surgical procedure Methods 0.000 description 5
- 210000003734 kidney Anatomy 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000237519 Bivalvia Species 0.000 description 1
- 235000016816 Pisum sativum subsp sativum Nutrition 0.000 description 1
- 208000035965 Postoperative Complications Diseases 0.000 description 1
- 206010052428 Wound Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 235000020639 clam Nutrition 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 244000088681 endo Species 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 230000015541 sensory perception of touch Effects 0.000 description 1
- 210000000813 small intestine Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 210000000626 ureter Anatomy 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Image Processing (AREA)
Abstract
本发明公开了一种基于时序信息交互的腔镜手术视频分割方法,该方法通过视频帧特征交互的方式,可以通过辅助帧的特征对分割帧进行特征修复或者抑制不正确的特征表达,可以有效提高腔镜手术视频全场景分割的精度。该方法得到的分割结果可以进一步用于手术导航和手术技能评估,并且可以作为参考进行手术路径的规划,作为腔镜机器人手术的辅助技术,实现智能化的机器人手术。
Description
技术领域
本发明涉及手术场景分割技术领域,具体涉及一种基于时序信息交互的腔镜手术视频分割方法。
背景技术
近年来,计算机干预(Computer assisted interventions, CAI)成为了改变外科手术格局的关键技术。理想的腔镜手术机器人系统能从视觉、听觉和触觉上为医生进行手术操作提供多模态感知信息,有效提高医生手术操作精准度、手术临床感以及手术步骤安全性,减少手术伤口及术后并发症。
腔镜手术视频分割对输入的腔镜视频图像中每个像素进行归类,划分为两块及以上具有相应语义类别的像素区域,获取图像中血管、输尿管、解剖结构、手术器械等目标的像素级精度的位置信息,可以用作手术导航,手术技能评估和手术自动化等多个临床任务。
现有的最先进的技术使用DeepLabV3+等自然场景下的深度学习网络对手术场景进行语义分割。但是,此类方法存在三个弱点:1)无法区分局部相似性高的目标。由于腹腔镜成像视野较小,分割目标在网络中的呈现通常是不完整的,而分割目标如肾脏区域和小肠在局部特征上差异小,颜色和纹理等视觉特征相似,现有目标难以对此类目标进行精准识别。2)网络实时性差。快速准确的视频分割对于手术现场场景至关重要,通常要求网络模型的推理速度高于24帧每秒(Frames Per Second, FPS);但是针对复杂视频场景下的语义分割,现有的方法多使用卷积的堆叠增加可训练参数,以此来学习更丰富的语义信息,计算复杂度较高,难以满足手术视频分割的实时性要求。3)难以识别持续变化的特征。在手术过程中,手术区域和手术器械等分割目标会实时形变和移位,其特征会随形变和移位产生较大变化,原始方法难以对目标柔性边缘的变化做出响应,进而影响分割精度。
发明内容
基于此,有必要针对现有的问题,提供一种基于时序信息交互的腔镜手术视频分割方法。
本发明提供了一种基于时序信息交互的腔镜手术视频分割方法,该方法包括:
S1:获取腔镜手术视频的影像数据;构建多帧特征交互网络模型;所述多帧特征交互网络模型包括分割帧特征提取网络、辅助帧特征提取网络、多帧特征交互模块、并行特征增强模块;
S2:基于所述影像数据提取出分割帧和辅助帧;将所述分割帧输入至所述分割帧特征提取网络,生成分割帧特征图;将所述辅助帧输入至所述辅助帧特征提取网络,生成辅助帧特征图;
S3:将所述分割帧特征图和所述辅助帧特征图输入至所述多帧特征交互模块,得到辅助帧特征图相对于分割帧特征图的亲和性权重;
S4:将所述辅助帧特征图与所述亲和性权重相乘,相乘结果与所述分割帧特征图进行融合,得到融合特征图;
S5:将所述融合特征图输入至所述并行特征增强模块,得到增强后的融合特征图;将所述增强后的融合特征图与所述分割帧特征图进行融合,得到最终特征图;
S6:将所述最终特征图通过线性上采样后,再进行特征映射,得到手术场景的分割结果。
优选的,S1中,腔镜手术视频从腔镜手术机器人系统中获取,对视频进行实时采样得到所述影像数据;
所述分割帧特征提取网络采用HRNetV2网络;
所述辅助帧特征提取网络采用MobileNetV2网络。
优选的,S2中,所述分割帧和所述辅助帧为相邻帧;
分割帧特征图的计算公式为:
;
辅助帧特征图的计算公式为:
;
其中,
F Q 表示分割帧特征图;
Enc Q ()表示分割帧特征提取网络;
X Q 表示分割帧;
F M 表示辅助帧特征图;
Enc M ()表示辅助帧特征提取网络;
X M 表示辅助帧。
优选的,S3中,所述多帧特征交互模块基于输入的所述分割帧特征图和所述辅助帧特征图,通过空间卷积操作聚合辅助帧特征图的空间信息,并压缩其通道直至通道数与所述分割帧特征图相同;将压缩后的辅助帧特征图与所述分割帧特征图进行逐元素相加,得到相加特征图;所述相加特征图通过Relu激活函数增加非线性,并通过第一通道卷积操作对增加非线性的所述相加特征图进行通道维的特征映射,得到泛化亲和性权重;将所述泛化亲和性权重通过Sigmoid激活函数进行特征激活得到所述亲和性权重;
亲和性权重的计算公式为:
;
其中,
Aff表示辅助帧特征图相对于分割帧特征图的亲和性权重;
γ s 表示Sigmoid激活函数;
W d2表示第一通道卷积操作;
γ R 表示Relu激活函数;
F Q 表示分割帧特征图;表示矩阵加法;
W d1表示空间卷积操作;
F M 表示辅助帧特征图。
优选的,S4中,融合特征图的计算公式为:
;
其中,
F f 表示融合特征图;
W d3表示第二通道卷积操作,其用于将拼接结果的通道数降至与所述分割帧特征图相同;
Con(,)表示沿通道维度的拼接操作;
F Q 表示分割帧特征图;
Aff表示辅助帧特征图相对于分割帧特征图的亲和性权重;表示矩阵乘法;
F M 表示辅助帧特征图。
优选的,S5中,所述并行特征增强模块包括通道注意力块和位置注意力块;所述通道注意力块与所述位置注意力块并行;所述通道注意力块用于对特征图的语义信息进行增强;所述位置注意力块用于对特征图的空间信息进行增强。
优选的,S5中,增强后的融合特征图的计算公式为:
;
其中,
F e 表示增强后的融合特征图;
F f 表示融合特征图;表示矩阵加法;
CAB()表示通道注意力块;
PAB()表示位置注意力块;
最终特征图的计算公式为:
;
其中,
F表示最终特征图;
W d4表示第三通道卷积操作,其用于进行通道维度的特征映射;
Con(,)表示沿通道维度的矩阵拼接操作;
F Q 表示分割帧特征图。
优选的,手术场景的分割结果的计算公式为:
;
其中,
Output表示分割结果;
Cls()表示分割头,其用于通过特征映射将上采样后的最终特征图进行分类;
Up ×4表示线性上采样操作;
F表示最终特征图。
优选的,分割帧特征图的尺寸以及辅助帧特征图的尺寸均为影像数据的1/4。
优选的,所述分割结果包括解剖结构和手术器械。
有益效果:本发明提供的这种方法通过视频帧特征交互的方式,可以通过辅助帧的特征对分割帧进行特征修复或者抑制不正确的特征表达,可以有效提高腔镜手术视频全场景分割的精度。该方法得到的分割结果可以进一步用于手术导航和手术技能评估,并且可以作为参考进行手术路径的规划,作为腔镜机器人手术的辅助技术,实现智能化的机器人手术。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请一示例性实施例提供的方法的流程图。
图2为根据本申请一示例性实施例提供的多帧特征交互网络模型的结构示意图。
图3为本实施例提供的分割结果部分对比效果图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。
另外,术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例提供一种基于时序信息交互的腔镜手术视频分割方法,下面结合附图进行说明。
请参考图1、图2,其示出了本申请的一些实施方式所提供的一种基于时序信息交互的腔镜手术视频分割方法的流程图,如图所示,方法可以包括以下步骤:
S1:获取腔镜手术视频的影像数据;构建多帧特征交互网络模型(MFINet, Multi-Frames Interaction network);所述多帧特征交互网络模型包括分割帧特征提取网络(EncoderQ)、辅助帧特征提取网络(EncoderM)、多帧特征交互模块(MFIB, Multi-FramesInteraction Module)、并行特征增强模块(PFEM, Parallel Feature EnhancementModule);
具体的,腔镜手术视频从腔镜手术机器人系统中获取,对视频进行实时采样得到所述影像数据。
所述分割帧特征提取网络采用HRNetV2网络;
所述辅助帧特征提取网络采用MobileNetV2网络;
所述多帧特征交互模块的结构由输入的辅助帧的数量决定;
所述并行特征增强模块包括通道注意力块(Channel Attention Block)和位置注意力块(Position Attention Block);所述通道注意力块与所述位置注意力块并行;所述通道注意力块用于对特征图的语义信息进行增强;所述位置注意力块用于对特征图的空间信息进行增强。
在本实施例中,腔镜手术视频可由达芬奇X或Xi系统获取,也可根据实际情况从其它系统中获取。由于手术视频场景分割对网络实时性有较高要求,故辅助帧特征提取网络采用轻量化特征提取网络MobileNetV2,可以有效降低模型的参数量,提高分割的实时性。由于分割结果的特征较为复杂,故分割帧特征提取网络采用HRNetV2网络,其保持高分辨特征表示的特殊结构可以联合学习到多尺度的特征。
S2:基于所述影像数据提取出分割帧和辅助帧;将所述分割帧输入至所述分割帧特征提取网络,生成分割帧特征图;将所述辅助帧输入至所述辅助帧特征提取网络,生成辅助帧特征图;
具体的,分割帧和辅助帧来源于腔镜手术视频的实时采集,所述分割帧和所述辅助帧为相邻帧;
分割帧特征图的计算公式为:
;
辅助帧特征图的计算公式为:
;
其中,
F Q 表示分割帧特征图;
Enc Q ()表示分割帧特征提取网络;
X Q 表示分割帧;
F M 表示辅助帧特征图;
Enc M ()表示辅助帧特征提取网络;
X M 表示辅助帧。
在本实施例中,所述分割帧和所述辅助帧均为一帧;根据实际情况需要,辅助帧可以是多帧,由每帧辅助帧的特征逐一与分割帧的特征交互。分割帧和辅助帧在输入至所述分割帧特征提取网络以及所述辅助帧特征提取网络前均被裁剪至768*768;分割帧特征图的尺寸以及辅助帧特征图的尺寸均为影像数据的1/4;并且,分割帧特征图和辅助帧特征图均包括多个。
由于分割帧和辅助帧使用不同的特征提取网络,故可以提取到多元的手术场景特征,且辅助帧的特征可以作为分割帧特征的补充,减少不同目标间相互遮挡所造成的影响。
S3:将所述分割帧特征图和所述辅助帧特征图输入至所述多帧特征交互模块,得到辅助帧特征图相对于分割帧特征图的亲和性权重;
具体的,所述多帧特征交互模块基于输入的所述分割帧特征图和所述辅助帧特征图,通过空间卷积操作聚合辅助帧特征图的空间信息,并压缩其通道直至通道数与所述分割帧特征图相同;将压缩后的辅助帧特征图与所述分割帧特征图进行逐元素相加,得到相加特征图;该过程对两特征图共有的部分进行增强,对非共有的部分进行抑制。所述相加特征图通过Relu激活函数增加非线性,并通过第一通道卷积操作对增加非线性的所述相加特征图进行特征映射,得到泛化亲和性权重;将所述泛化亲和性权重通过Sigmoid激活函数进行特征激活得到所述亲和性权重;
亲和性权重的计算公式为:
;
其中,
Aff表示辅助帧特征图相对于分割帧特征图的亲和性权重;
γ s 表示Sigmoid激活函数;
W d2表示第一通道卷积操作;
γ R 表示Relu激活函数;
F Q 表示分割帧特征图;表示矩阵加法;
W d1表示空间卷积操作;
F M 表示辅助帧特征图;表示增加非线性的所述相加特征图。通过连续使用两种不同的激活函数扩大特征图中像素值的极差,增强特征差异性。
在本实施例中,,对其进行特征映射时,其宽、高不变,将其通道数由
C维降至1维,故泛化亲和性权重表示为:。
所述亲和性权重代表了辅助帧特征图与分割帧特征图之间的相似性,且保留了两个特征图的关键信息;故将亲和性权重与辅助帧特征图相乘,可以增强辅助帧特征图中两个特征图共有区域的特征表示;将相乘结果再与分割帧特征图融合,可以在补充分割帧特征表示的同时弥补分割帧特征图缺少的信息,且由于亲和性权重存在,不会带来噪声干扰。
在本实施例中,使用加法而不是进行减法计算特征图之间的相似性,这是由于跟减法相比,加法更加的保守,在增强共有区域特征表示的同时减少对细节的损害。
S4:将所述辅助帧特征图与所述亲和性权重相乘,相乘结果与所述分割帧特征图进行融合,得到融合特征图;
具体的,融合特征图的计算公式为:
;
其中,
F f 表示融合特征图;
W d3表示第二通道卷积操作,其用于将拼接结果的通道数降至与所述分割帧特征图相同;
Con(,)表示沿通道维度的拼接操作;
F Q 表示分割帧特征图;
Aff表示辅助帧特征图相对于分割帧特征图的亲和性权重;表示矩阵乘法;
F M 表示辅助帧特征图。
在本实施例中,采用
Con(,)拼接操作而不是采用矩阵加法进行特征融合,这样可以充分利用特征的多样性。
S5:将所述融合特征图输入至所述并行特征增强模块,得到增强后的融合特征图;将所述增强后的融合特征图与所述分割帧特征图进行融合,得到最终特征图;
具体的,增强后的融合特征图的计算公式为:
;
其中,
F e 表示增强后的融合特征图;
F f 表示融合特征图;表示矩阵加法;
CAB()表示通道注意力块;
PAB()表示位置注意力块;
最终特征图的计算公式为:
;
其中,
F表示最终特征图;
W d4表示第三通道卷积操作,其用于进行通道维度的特征映射;
Con(,)表示沿通道维度的拼接操作;
F Q 表示分割帧特征图。
进一步的,
W d2、
W d3、
W d4分别为进行不同通道维度特征映射的通道卷积操作,三者改变的通道数不一致。
在本实施例中,最终特征图通过增强后的融合特征图与分割帧特征进行融合得到,是为了增强特征表示稳定性。
S6:将所述最终特征图通过线性上采样后,再进行特征映射,得到手术场景的分割结果。
具体的,手术场景的分割结果的计算公式为:
;
其中,
Output表示分割结果;
Cls()表示分割头,其用于通过特征映射将上采样后的最终特征图进行分类;
Up ×4表示四倍最近邻线性上采样操作;
F表示最终特征图。
在本实施例中,所述分割结果包括解剖结构和手术器械。
本实施例提供的这种方法,通过构建多帧特征交互网络模型对腔镜手术视频的影像数据进行多目标实时分割;利用两种不同的特征提取网络对输入的辅助帧和分割帧进行特征编码,输出辅助帧特征图和分割帧特征图;进而利用多帧特征交互模块计算亲和性权重,将辅助帧特征图与亲和性权重相乘后再与分割帧特征图进行融合,利用连续帧之间具有的时空上下文信息关联弥补分割帧的特征表示;之后,利用并行特征增强模块从语义信息和空间信息两个维度增强融合特征图的特征表示,这样可以关注到全局和局部等不同尺度的特征信息;在将增强后的融合特征图与分割帧特征图进行融合,最后经过线性上采样操作以及特征映射,得到与输入图像尺寸相同的分割结果。
为了量化模型的分割性能,使用常用的评估指标交并比(IoU,Intersection ofUnion)评估模型性能;其用于评估真值(ground truth)与预测之间的相似性,值越大表示分割性能越好;指标计算公式如下:
;
其中,IoU表示交并比,
G表示真值结果,
P表示预测结果;
由于该方法是对手术场景中的多目标进行分割,因此使用mIoU来评估分割效果,mIoU是每个分割目标的平均IoU值,计算公式如下:
;
其中,
n表示分割目标的总数,
l表示第
l种分割目标,
u l 表示第
l种分割目标的IoU值。
在本实施例中,采用Endovis2018数据集进行测试,该数据集有19个序列组成,官方分为15个用于训练,4个用于测试。每个训练序列包含149帧,共2235帧;每个测试序列包含249/250帧,共997张,其分辨率为1280×1024。
Endovis2018数据集需要分割的目标共10类,分别是:器械轴 (InstrumentShaft, IS),器械爪 (Instrument Clasper, IC),器械腕 (Instrument Wrist, IW),肾实质 (Kidney Parenchyma, KP),被覆盖的肾实质 (Covered Kidney, CK),线 (Thread,T),针 (Needle, N),超声探头 (US Probe, UP),肠 (Intestine, I),钳夹 (Clamps, C)。
在相同的条件下进行其它分割网络的分割试验,得到四次对比实验的表格;
表1为不同分割网络在四个测试序列上的mIoU值;
;
由表1可知,本实施例提供的多帧特征交互网络模型在整体的指标上排在第一位,在第一个测试序列也排在第一位。表1中,UNet为生物医学图像分割的卷积网络;UperNet为基于上下文信息的语义分割网络;DeepLabV3+为带有空洞卷积和空间金字塔池化模块的语义分割网络;PSPNet为空间金字塔池化语义分割网络;STDCNet为带有短距离密集连接的轻量化语义分割网络;OCRNet为基于像素区域相似度的语义分割网络;OTH为在2018年机器人全场景分割挑战赛中表现最好的网络。
表2为不同分割网络分割不同类别所得的分割结果;
;
由表2可知,本实施例提供的多帧特征交互网络模型在整体的指标上排在第一位,在许多类别上也有非常突出的表现。
如图3所示,图3为分割结果部分对比效果图,图中,(a)为Endovis2018数据集中测试序列1的第86张测试图片,(a1)为(a)的官方分割结果,(a2)为本实施例提供的多帧特征交互网络模型对(a)的分割结果;(b)为Endovis2018数据集中测试序列1的第229张测试图片,(b1)为(b)的官方分割结果,(b2)为本实施例提供的多帧特征交互网络模型对(b)的分割结果;(c)为Endovis2018数据集中测试序列3的第118张测试图片,(c1)为(c)的官方分割结果,(c2)为本实施例提供的多帧特征交互网络模型对(c)的分割结果。如图所示,本实施例提供的多帧特征交互网络模型的分割结果较为理想,在有效的分割出复杂的解剖结构和器械的同时,可以较好的识别出针、线等小目标。对于多个目标交界形成的边界,网络也可以实现高精度的分割。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,其均应涵盖在本申请的权利要求和说明书的范围当中。
Claims (10)
1.一种基于时序信息交互的腔镜手术视频分割方法,其特征在于,包括:
S1:获取腔镜手术视频的影像数据;构建多帧特征交互网络模型;所述多帧特征交互网络模型包括分割帧特征提取网络、辅助帧特征提取网络、多帧特征交互模块、并行特征增强模块;
S2:基于所述影像数据提取出分割帧和辅助帧;将所述分割帧输入至所述分割帧特征提取网络,生成分割帧特征图;将所述辅助帧输入至所述辅助帧特征提取网络,生成辅助帧特征图;
S3:将所述分割帧特征图和所述辅助帧特征图输入至所述多帧特征交互模块,得到辅助帧特征图相对于分割帧特征图的亲和性权重;
S4:将所述辅助帧特征图与所述亲和性权重相乘,相乘结果与所述分割帧特征图进行融合,得到融合特征图;
S5:将所述融合特征图输入至所述并行特征增强模块,得到增强后的融合特征图;将所述增强后的融合特征图与所述分割帧特征图进行融合,得到最终特征图;
S6:将所述最终特征图通过线性上采样后,再进行特征映射,得到手术场景的分割结果。
2.根据权利要求1所述的基于时序信息交互的腔镜手术视频分割方法,其特征在于,S1中,腔镜手术视频从腔镜手术机器人系统中获取,对视频进行实时采样得到所述影像数据;
所述分割帧特征提取网络采用HRNetV2网络;
所述辅助帧特征提取网络采用MobileNetV2网络。
3.根据权利要求2所述的基于时序信息交互的腔镜手术视频分割方法,其特征在于,S2中,所述分割帧和所述辅助帧为相邻帧;
分割帧特征图的计算公式为:
;
辅助帧特征图的计算公式为:
;
其中,F Q 表示分割帧特征图;Enc Q ()表示分割帧特征提取网络;X Q 表示分割帧;F M 表示辅助帧特征图;Enc M ()表示辅助帧特征提取网络;X M 表示辅助帧。
4.根据权利要求3所述的基于时序信息交互的腔镜手术视频分割方法,其特征在于,S3中,所述多帧特征交互模块基于输入的所述分割帧特征图和所述辅助帧特征图,通过空间卷积操作聚合辅助帧特征图的空间信息,并压缩其通道直至通道数与所述分割帧特征图相同;将压缩后的辅助帧特征图与所述分割帧特征图进行逐元素相加,得到相加特征图;所述相加特征图通过Relu激活函数增加非线性,并通过第一通道卷积操作对增加非线性的所述相加特征图进行通道维的特征映射,得到泛化亲和性权重;将所述泛化亲和性权重通过Sigmoid激活函数进行特征激活得到所述亲和性权重;
亲和性权重的计算公式为:
;
其中,Aff表示辅助帧特征图相对于分割帧特征图的亲和性权重;γ s 表示Sigmoid激活函数;W d2表示第一通道卷积操作;γ R 表示Relu激活函数;F Q 表示分割帧特征图;表示矩阵加法;W d1表示空间卷积操作;F M 表示辅助帧特征图。
5.根据权利要求4所述的基于时序信息交互的腔镜手术视频分割方法,其特征在于,S4中,融合特征图的计算公式为:
;
其中,F f 表示融合特征图;W d3表示第二通道卷积操作,其用于将拼接结果的通道数降至与所述分割帧特征图相同;Con(,)表示沿通道维度的拼接操作;F Q 表示分割帧特征图;Aff表示辅助帧特征图相对于分割帧特征图的亲和性权重;表示矩阵乘法;F M 表示辅助帧特征图。
6.根据权利要求5所述的基于时序信息交互的腔镜手术视频分割方法,其特征在于,S5中,所述并行特征增强模块包括通道注意力块和位置注意力块;所述通道注意力块与所述位置注意力块并行;所述通道注意力块用于对特征图的语义信息进行增强;所述位置注意力块用于对特征图的空间信息进行增强。
7.根据权利要求5所述的基于时序信息交互的腔镜手术视频分割方法,其特征在于,S5中,增强后的融合特征图的计算公式为:
;
其中,F e 表示增强后的融合特征图;F f 表示融合特征图;表示矩阵加法;CAB()表示通道注意力块;PAB()表示位置注意力块;
最终特征图的计算公式为:
;
其中,F表示最终特征图;W d4表示第三通道卷积操作,其用于进行通道维度的特征映射;Con(,)表示沿通道维度的矩阵拼接操作;F Q 表示分割帧特征图。
8.根据权利要求7所述的基于时序信息交互的腔镜手术视频分割方法,其特征在于,S6中,手术场景的分割结果的计算公式为:
;
其中,Output表示分割结果;Cls()表示分割头,其用于通过特征映射将上采样后的最终特征图进行分类;Up ×4表示线性上采样操作;F表示最终特征图。
9.根据权利要求1所述的基于时序信息交互的腔镜手术视频分割方法,其特征在于,分割帧特征图的尺寸以及辅助帧特征图的尺寸均为影像数据的1/4。
10.根据权利要求1所述的基于时序信息交互的腔镜手术视频分割方法,其特征在于,所述分割结果包括解剖结构和手术器械。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310304494.1A CN116030397B (zh) | 2023-03-27 | 2023-03-27 | 一种基于时序信息交互的腔镜手术视频分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310304494.1A CN116030397B (zh) | 2023-03-27 | 2023-03-27 | 一种基于时序信息交互的腔镜手术视频分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116030397A true CN116030397A (zh) | 2023-04-28 |
CN116030397B CN116030397B (zh) | 2023-08-01 |
Family
ID=86091312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310304494.1A Active CN116030397B (zh) | 2023-03-27 | 2023-03-27 | 一种基于时序信息交互的腔镜手术视频分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116030397B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902809A (zh) * | 2019-03-01 | 2019-06-18 | 成都康乔电子有限责任公司 | 一种利用生成对抗网络辅助语义分割模型 |
US20200219268A1 (en) * | 2018-03-06 | 2020-07-09 | Beijing Sensetime Technology Development Co., Ltd. | Target tracking methods and apparatuses, electronic devices, and storage media |
CN112085760A (zh) * | 2020-09-04 | 2020-12-15 | 厦门大学 | 一种腹腔镜手术视频的前景分割方法 |
US20230068238A1 (en) * | 2021-10-29 | 2023-03-02 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for processing image, electronic device and storage medium |
CN115761224A (zh) * | 2022-10-28 | 2023-03-07 | 华中科技大学 | 基于亲和力特征融合的卷积神经网络血管分割系统 |
-
2023
- 2023-03-27 CN CN202310304494.1A patent/CN116030397B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200219268A1 (en) * | 2018-03-06 | 2020-07-09 | Beijing Sensetime Technology Development Co., Ltd. | Target tracking methods and apparatuses, electronic devices, and storage media |
CN109902809A (zh) * | 2019-03-01 | 2019-06-18 | 成都康乔电子有限责任公司 | 一种利用生成对抗网络辅助语义分割模型 |
CN112085760A (zh) * | 2020-09-04 | 2020-12-15 | 厦门大学 | 一种腹腔镜手术视频的前景分割方法 |
US20230068238A1 (en) * | 2021-10-29 | 2023-03-02 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for processing image, electronic device and storage medium |
CN115761224A (zh) * | 2022-10-28 | 2023-03-07 | 华中科技大学 | 基于亲和力特征融合的卷积神经网络血管分割系统 |
Non-Patent Citations (2)
Title |
---|
PRASHANT W. PATIL等: "《Multi-frame Recurrent Adversarial Network for Moving Object Segmentation》", 《 2021 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION》 * |
魏宗琪 等: "《视频中稳定的跨场景前景分割》", 《计算机技术与发展》, vol. 32, no. 12 * |
Also Published As
Publication number | Publication date |
---|---|
CN116030397B (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Margffoy-Tuay et al. | Dynamic multimodal instance segmentation guided by natural language queries | |
Sun et al. | Colorectal polyp segmentation by U-Net with dilation convolution | |
CN111126272B (zh) | 姿态获取方法、关键点坐标定位模型的训练方法和装置 | |
KR100415266B1 (ko) | 물체영역정보 기술방법과 물체영역정보 생성장치 및 기록매체 | |
CN109191476A (zh) | 基于U-net网络结构的生物医学图像自动分割新方法 | |
CN110619638A (zh) | 一种基于卷积块注意模块的多模态融合显著性检测方法 | |
CN114187296B (zh) | 胶囊内窥镜图像病灶分割方法、服务器及系统 | |
CN112183506A (zh) | 一种人体姿态生成方法及其系统 | |
CN110648331A (zh) | 用于医学图像分割的检测方法、医学图像分割方法及装置 | |
CN111369564A (zh) | 一种图像处理的方法、模型训练的方法及装置 | |
CN107945176B (zh) | 一种彩色ivoct成像方法 | |
CN117893858A (zh) | 一种融合多层级多尺度与边界信息的图像篡改定位方法 | |
CN116030397B (zh) | 一种基于时序信息交互的腔镜手术视频分割方法 | |
KR102207736B1 (ko) | 심층 신경망 구조를 이용한 프레임 보간 방법 및 장치 | |
CN112884702A (zh) | 一种基于内窥镜图像的息肉识别系统和方法 | |
CN117151162A (zh) | 基于自监督与专家门控的跨解剖区域器官增量分割方法 | |
CN117218404A (zh) | 一种基于度量学习的无监督目标检测模型训练方法 | |
CN117078618A (zh) | 一种视盘视杯分割方法及装置、电子设备、介质 | |
CN116912467A (zh) | 图像拼接方法、装置、设备及存储介质 | |
CN115424319A (zh) | 一种基于深度学习的斜视识别系统 | |
CN114283178A (zh) | 图像配准方法、装置、计算机设备及存储介质 | |
CN111598904A (zh) | 图像分割方法、装置、设备及存储介质 | |
CN110570417A (zh) | 肺结节分类方法、装置及图像处理设备 | |
CN117372437B (zh) | 用于面神经麻痹智能化检测与量化方法及其系统 | |
CN116524546B (zh) | 一种基于异构图像协同增强的低分辨率人体姿态估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |