CN114372962A - 基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统 - Google Patents

基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统 Download PDF

Info

Publication number
CN114372962A
CN114372962A CN202111609392.8A CN202111609392A CN114372962A CN 114372962 A CN114372962 A CN 114372962A CN 202111609392 A CN202111609392 A CN 202111609392A CN 114372962 A CN114372962 A CN 114372962A
Authority
CN
China
Prior art keywords
convolution
granularity
layer
expansion
dilation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111609392.8A
Other languages
English (en)
Other versions
CN114372962B (zh
Inventor
吴秋遐
韦喆艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202111609392.8A priority Critical patent/CN114372962B/zh
Publication of CN114372962A publication Critical patent/CN114372962A/zh
Application granted granted Critical
Publication of CN114372962B publication Critical patent/CN114372962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统,包括:1)构建腹腔镜手术数据集;2)利用双粒度时间卷积网络的双粒度时间卷积模块对图片序列进行初步特征提取,输出对每一帧图像的初始预测结果;3)使用双粒度时间卷积网络的单粒度时间卷积模块对双粒度时间卷积模块输出的初始预测结果进行校正;4)将预测结果映射到(0,1)区间内,得到最终手术阶段识别结果。本发明使用双粒度时间卷积网络实现腹腔镜手术阶段识别,具有更高的精度以及在不同背景下有更好的泛化能力,对于不同类型的手术阶段均能进行准确检测,利用手术视频的视觉和时序信息,能够解决在深度学习领域中能识别出手术阶段类别但难以准确区分阶段过渡帧的问题。

Description

基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统
技术领域
本发明涉及腹腔镜微创外科手术图像处理与神经网络的技术领域,尤其是指一种基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统。
背景技术
腹腔镜微创手术是一种常见的微创外科手术,它不仅能为患者提供实质性的医疗效益,而且由于手术过程中需要配备摄像头,因此它还为医生提供了记录手术视频的机会。通过手术视频对对手术流程进行复盘和分析,可以改善外科医生的技术质量,提高患者的安全性。然而人工检索手术视频是一项非常繁琐且耗时的事情,随着计算机辅助技术的日益成熟,自动化手术阶段识别方法能够更好地帮助医生监视和优化手术过程,提高医生的手眼协调并为潜在的偏差和异常生成预警提示。
然而,在复杂的手术场景下对手术阶段进行准确而快速的识别仍然是一项艰巨的任务。首先,由于安装在手术器械上的摄像头会随着医生的手部动作不停运动,拍摄出来的手术视频会不可避免地存在快速的场景切换片段和一些模糊帧。其次,手术工具的快速移动不可避免会造成画面模糊。第三,灼烧和切割组织产生的烟雾和血污会导致画面被不同程度地遮挡,加大了手术阶段的识别难度。
早期的计算机自动辅助手术阶段识别方法依靠手工制作的视觉特征来进行识别,例如颜色、纹理和形状等,但这些方法的通病是成本高且耗费人工,提取出来的特征通用性不强。随后深度学习的方法涌现,效率高于传统的手工特征制作方法,且准确率也很有竞争力。但仅依靠视觉特征对于高精度的手术阶段识别任务仍有局限性。因为手术视频天然地存在着时序特征,所以手术视频的时间上下文信息是实现准确预测手术阶段的关键。多阶段时间卷积已被证明有利于并行处理视频帧,能够成功应用于视频动作分割任务中。但普通的多阶段时间卷积只有一个随着层数增加而增大的膨胀因子。在网络深层,大的膨胀因子能够使卷积核作用在大的时间跨度上,有利于快速捕获全局信息,但也限制了其提取局部信息的能力。基于普通多阶段时间卷积的限制,本发明提出一种双粒度的时间卷积网络,能够同时利用两种大小的膨胀因子从中提取完整的全局信息和局部信息,大大提升了手术阶段的识别效果和过渡帧的识别准确率。
综合以上论述,发明一种具备实时性和高精度的腹腔镜手术阶段识别方法具有较高的实用价值。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供一种基于双粒度时间卷积的腹腔镜手术阶段识别方法,使用双粒度时间卷积网络实现腹腔镜手术阶段识别,具有更高的精度以及在不同背景下有更好的泛化能力,对于不同类型的手术阶段均能进行准确检测。利用手术视频的视觉和时序信息,能够解决在深度学习领域中能识别出手术阶段类别但难以准确区分阶段过渡帧的问题。
本发明的第二目的在于提供一种基于双粒度时间卷积的腹腔镜手术阶段识别系统。
本发明的第一目的通过下述技术方案实现:基于双粒度时间卷积的腹腔镜手术阶段识别方法,包括以下步骤:
1)收集腹腔镜手术视频,对每个视频进行下采样,每个视频的每个阶段保留若干张图像,制成腹腔镜手术数据集,按“地址/视频序号/帧序号”的格式命名排列,形成视频序列;
2)将腹腔镜手术数据集中的视频序列输入双粒度时间卷积网络的第一个部分即双粒度时间卷积模块,对长距离时间上下文信息进行建模,生成初始预测结果,并用交叉熵损失函数计算初始预测结果与实际数据之间的差距程度;
3)将双粒度时间卷积模块生成的初始预测结果输入双粒度时间卷积网络的第二个部分即单粒度时间卷积模块,对双粒度时间卷积模块输出的初始预测结果进行校正,得到进一步精确的预测结果,并用交叉熵损失函数计算该预测结果与实际数据之间的差距程度;
4)使用SoftMax函数将步骤3)得到的预测结果映射到(0,1)区间内,得到最终的手术阶段识别结果。
进一步,在步骤1)中,首先,通过摄像机采集腹腔镜手术过程的图像,每一台完整的手术过程存为一个视频,然后对每一个视频的图像进行切片处理,制成图片数据集,并对图片进行图像增强操作,包括中心翻转、随机剪裁和洗乱顺序,最后,将其中的异常数据剔除,包括存在全图模糊、大规模幻影、光照极端以及拍摄不全的数据,构建腹腔镜手术数据集,并拆分为训练集、验证集和测试集。
进一步,在步骤2)中,所述双粒度时间卷积模块的具体情况如下:
第一部分为一个1×1卷积,用于调整输入特征图的尺寸和通道数;
第二部分为一个双粒度残差膨胀层,用字母d标识,共Ld层,每层由一个随层数增加而增大的膨胀卷积、一个随层数增加而减小的膨胀卷积、一个非线性激活层ReLU和一个1×1卷积组成;用ld∈[0,Ld]表示当前层数,其中,随ld增大而增大的膨胀卷积,其膨胀因子呈
Figure BDA00034347361200000317
形式增大;而另一个随ld增大而减小的膨胀卷积,它的膨胀因子以
Figure BDA00034347361200000318
形式减小;
随层数增加而增大的膨胀卷积实质为递增的膨胀卷积,其过程如下公式(1):
Figure BDA0003434736120000031
式中,
Figure BDA0003434736120000032
是第ld层膨胀因子为
Figure BDA0003434736120000033
的膨胀卷积的输出,下标d1用于标识膨胀因子为
Figure BDA0003434736120000034
的膨胀卷积,
Figure BDA0003434736120000035
是上一层的输出,
Figure BDA0003434736120000036
是膨胀因子为
Figure BDA0003434736120000037
的膨胀卷积核的权重,R3×K×K表示尺寸为3×3的卷积核,3表示卷积核的尺寸为3×3,K表示3×3卷积核的数量,
Figure BDA0003434736120000038
是递增的膨胀卷积的偏差向量;
随层数增加而减小的膨胀卷积实质为递减的膨胀卷积,其过程如下公式(2):
Figure BDA0003434736120000039
式中,
Figure BDA00034347361200000310
是第一层扩张因子为
Figure BDA00034347361200000311
的膨胀卷积的输出,下标d2用于标识膨胀因子为
Figure BDA00034347361200000312
的膨胀卷积,
Figure BDA00034347361200000313
是上一层的输出,
Figure BDA00034347361200000314
是膨胀因子为
Figure BDA00034347361200000315
的膨胀卷积核的权重,
Figure BDA00034347361200000316
是递减的膨胀卷积的偏差向量;
原始特征图分别经过递增的膨胀卷积和递减的膨胀卷积后,会得到两种粒度的特征图,将这两种粒度的特征图逐通道相加,并经过非线性激活层ReLU激活,其过程如下公式(3):
Figure BDA0003434736120000041
式中,cat(·)表示串联操作,目的是将
Figure BDA0003434736120000042
Figure BDA0003434736120000043
输出的特征图逐通道相加,
Figure BDA0003434736120000044
Figure BDA0003434736120000045
Figure BDA0003434736120000046
输出的特征图相加后进行非线性激活的结果,即为双粒度的特征图;
得到双粒度的特征图
Figure BDA0003434736120000047
后,需要将其输入一个1×1卷积调整尺寸,使其长宽与没有输入递增的膨胀卷积和递减的膨胀卷积的原始特征图相等,并将1×1卷积调整后的特征图与原始特征图相加,得到双粒度残差膨胀层的输出,其过程如下公式(4)和(5):
Figure BDA0003434736120000048
Figure BDA0003434736120000049
式中,
Figure BDA00034347361200000410
是对
Figure BDA00034347361200000411
进行1×1卷积运算的结果,
Figure BDA00034347361200000412
是双粒度残差膨胀层包含的1×1卷积的权重,
Figure BDA00034347361200000413
是双粒度残差膨胀层包含的1×1卷积的偏差向量,
Figure BDA00034347361200000414
是双粒度残差膨胀层在第ld层的最终输出结果;
第三部分为一个1×1卷积,
Figure BDA00034347361200000415
在结束Ld层的迭代后,还需要经过一个1×1卷积来调节输出特征图的尺寸和通道数。
进一步,在步骤3)中,所述单粒度时间卷积模块的具体情况如下:
第一部分为一个1×1卷积,用于调节从双粒度时间卷积模块输出的特征图尺寸和通道数;
第二部分为一个单粒度残差膨胀层,用字母n标识,共Ln层,用l∈[0,Ln]表示当前层数,该部分每层由一个膨胀因子随l增加而呈2l形式增大的膨胀卷积实质为单粒度膨胀卷积、一个非线性激活层ReLU和一个1×1卷积组成,单粒度残差膨胀层的特征提取过程如公式(6)所示:
Figure BDA00034347361200000416
Figure BDA00034347361200000417
Dn,l=Dn,l-1+Qn,l
式中,Dn,l-1是单粒度残差膨胀层中第l-1层的输出,Wn,l是单粒度膨胀卷积的权重,*代表卷积操作,bn,l是单粒度膨胀卷积的偏差向量,
Figure BDA0003434736120000051
表示经由第l层的单粒度膨胀卷积和非线性激活层ReLU的操作过后得到的特征图,Qn,l是对
Figure BDA0003434736120000052
进行1×1卷积运算的结果,Wl是单粒度残差膨胀层中所包含的1×1卷积的权重,bl是单粒度残差膨胀层中所包含的1×1卷积的偏差向量,Dn,l是单粒度残差膨胀层在第l层的最终输出结果;
第三部分为一个1×1卷积,Dn,l在结束L层的迭代后,还需要经过一个1×1卷积来调节输出特征图的尺寸和通道数。
进一步,在步骤2)和步骤3)中,所述交叉熵损失函数的表达如下:
Figure BDA0003434736120000053
式中,Lphase是交叉熵损失函数的值,T代表当前视频的总帧数,t∈[0,T]表示当前视频的当前帧数,yt是当前帧t的真实阶段标签,
Figure BDA0003434736120000054
是当前帧t的预测值,ω是手术阶段类别的权重,用于减轻阶段类别之间的样本量不平衡。
本发明的第二目的通过下述技术方案实现:基于双粒度时间卷积的腹腔镜手术阶段识别系统,包括:
数据采集模块,用于收集腹腔镜手术视频,对每个视频进行下采样,每个视频的每个阶段保留若干张图像,制成腹腔镜手术数据集,按“地址/视频序号/帧序号”的格式命名排列,形成视频序列;
数据处理模块,用于将腹腔镜手术数据集中的视频序列输入双粒度时间卷积网络的第一个部分即双粒度时间卷积模块,对长距离时间上下文信息进行建模,生成初始预测结果,并用交叉熵损失函数计算初始预测结果与实际数据之间的差距程度;将双粒度时间卷积模块生成的初始预测结果输入双粒度时间卷积网络的第二个部分即单粒度时间卷积模块,对双粒度时间卷积模块输出的初始预测结果进行校正,得到进一步精确的预测结果,并用交叉熵损失函数计算该预测结果与实际数据之间的差距程度;
映射模块,使用SoftMax函数将数据处理模块得到的预测结果映射到(0,1)区间内,得到最终的手术阶段识别结果。
进一步,在数据采集模块中,通过摄像机采集腹腔镜手术过程的图像,每一台完整的手术过程存为一个视频,然后对每一个视频的图像进行切片处理,制成图片数据集,并对图片进行图像增强操作,包括中心翻转、随机剪裁和洗乱顺序,最后,将其中的异常数据剔除,包括存在全图模糊、大规模幻影、光照极端以及拍摄不全的数据,构建腹腔镜手术数据集,并拆分为训练集、验证集和测试集。
进一步,在数据处理模块中,所述双粒度时间卷积模块的具体情况如下:
第一部分为一个1×1卷积,用于调整输入特征图的尺寸和通道数;
第二部分为一个双粒度残差膨胀层,用字母d标识,共Ld层,每层由一个随层数增加而增大的膨胀卷积、一个随层数增加而减小的膨胀卷积、一个非线性激活层ReLU和一个1×1卷积组成;用ld∈[0,Ld]表示当前层数,其中,随ld增大而增大的膨胀卷积,其膨胀因子呈
Figure BDA0003434736120000061
形式增大;而另一个随ld增大而减小的膨胀卷积,它的膨胀因子以
Figure BDA0003434736120000062
形式减小;
随层数增加而增大的膨胀卷积实质为递增的膨胀卷积,其过程如下公式(1):
Figure BDA0003434736120000063
式中,
Figure BDA0003434736120000064
是第ld层膨胀因子为
Figure BDA0003434736120000065
的膨胀卷积的输出,下标d1用于标识膨胀因子为
Figure BDA0003434736120000066
的膨胀卷积,
Figure BDA0003434736120000067
是上一层的输出,
Figure BDA0003434736120000068
是膨胀因子为
Figure BDA0003434736120000069
的膨胀卷积核的权重,R3×K×K表示尺寸为3×3的卷积核,3表示卷积核的尺寸为3×3,K表示3×3卷积核的数量,
Figure BDA00034347361200000610
是递增的膨胀卷积的偏差向量;
随层数增加而减小的膨胀卷积实质为递减的膨胀卷积,其过程如下公式(2):
Figure BDA00034347361200000611
式中,
Figure BDA00034347361200000612
是第一层扩张因子为
Figure BDA00034347361200000613
的膨胀卷积的输出,下标d2用于标识膨胀因子为
Figure BDA0003434736120000071
的膨胀卷积,
Figure BDA0003434736120000072
是上一层的输出,
Figure BDA0003434736120000073
是膨胀因子为
Figure BDA0003434736120000074
的膨胀卷积核的权重,
Figure BDA0003434736120000075
是递减的膨胀卷积的偏差向量;
原始特征图分别经过递增的膨胀卷积和递减的膨胀卷积后,会得到两种粒度的特征图,将这两种粒度的特征图逐通道相加,并经过非线性激活层ReLU激活,其过程如下公式(3):
Figure BDA0003434736120000076
式中,cat(·)表示串联操作,目的是将
Figure BDA0003434736120000077
Figure BDA0003434736120000078
输出的特征图逐通道相加,
Figure BDA0003434736120000079
Figure BDA00034347361200000710
Figure BDA00034347361200000711
输出的特征图相加后进行非线性激活的结果,即为双粒度的特征图;
得到双粒度的特征图
Figure BDA00034347361200000712
后,需要将其输入一个1×1卷积调整尺寸,使其长宽与没有输入递增的膨胀卷积和递减的膨胀卷积的原始特征图相等,并将1×1卷积调整后的特征图与原始特征图相加,得到双粒度残差膨胀层的输出,其过程如下公式(4)和(5):
Figure BDA00034347361200000713
Figure BDA00034347361200000714
式中,
Figure BDA00034347361200000715
是对
Figure BDA00034347361200000716
进行1×1卷积运算的结果,
Figure BDA00034347361200000717
是双粒度残差膨胀层包含的1×1卷积的权重,
Figure BDA00034347361200000718
是双粒度残差膨胀层包含的1×1卷积的偏差向量,
Figure BDA00034347361200000719
是双粒度残差膨胀层在第ld层的最终输出结果;
第三部分为一个1×1卷积,
Figure BDA00034347361200000720
在结束Ld层的迭代后,还需要经过一个1×1卷积来调节输出特征图的尺寸和通道数。
进一步,在数据处理模块中,所述单粒度时间卷积模块的具体情况如下:
第一部分为一个1×1卷积,用于调节从双粒度时间卷积模块输出的特征图尺寸和通道数;
第二部分为一个单粒度残差膨胀层,用字母n标识,共Ln层,用l∈[0,Ln]表示当前层数,该部分每层由一个膨胀因子随l增加而呈2l形式增大的膨胀卷积实质为单粒度膨胀卷积、一个非线性激活层ReLU和一个1×1卷积组成,单粒度残差膨胀层的特征提取过程如公式(6)所示:
Figure BDA0003434736120000081
Figure BDA0003434736120000082
Dn,l=Dn,l-1+Qn,l
式中,Dn,l-1是单粒度残差膨胀层中第l-1层的输出,Wn,l是单粒度膨胀卷积的权重,*代表卷积操作,bn,l是单粒度膨胀卷积的偏差向量,
Figure BDA0003434736120000083
表示经由第l层的单粒度膨胀卷积和非线性激活层ReLU的操作过后得到的特征图,Qn,l是对
Figure BDA0003434736120000084
进行1×1卷积运算的结果,Wl是单粒度残差膨胀层中所包含的1×1卷积的权重,bl是单粒度残差膨胀层中所包含的1×1卷积的偏差向量,Dn,l是单粒度残差膨胀层在第l层的最终输出结果;
第三部分为一个1×1卷积,Dn,l在结束L层的迭代后,还需要经过一个1×1卷积来调节输出特征图的尺寸和通道数。
进一步,在数据处理模块中,使用的交叉熵损失函数的表达如下:
Figure BDA0003434736120000085
式中,Lphase是交叉熵损失函数的值,T代表当前视频的总帧数,t∈[0,T]表示当前视频的当前帧数,yt是当前帧t的真实阶段标签,
Figure BDA0003434736120000086
是当前帧t的预测值,ω是手术阶段类别的权重,用于减轻阶段类别之间的样本量不平衡。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明通过双粒度时间卷积模块完成有效的长距离时间上下文建模,通过同时提取时序特征的全局信息和局部信息,得到表达能力优秀的特征,随后为进一步提升手术阶段的识别精度,使用单粒度时间卷积模块来对双粒度时间卷积模块捕获的特征进行微调,校正少量分类错误的图像帧,实现手术阶段识别效果的进一步提升。总之,本发明使用双粒度时间卷积网络实现腹腔镜手术阶段识别,具有更高的精度以及在不同背景下有更好的泛化能力,对于不同类型的手术阶段均能进行准确检测,利用手术视频的视觉和时序信息,能够解决在深度学习领域中能识别出手术阶段类别但难以准确区分阶段过渡帧的问题。
2、本发明在腹腔镜外科手术视频的图像处理领域中具有广泛的应用空间,无需手工制作特征,高效准确,泛化性强,对于不同类型的微创外科手术视频都能有良好的识别效果。
附图说明
图1为本发明方法的逻辑流程示意图。
图2为双粒度时间卷积网络的整体框架图。
图3为双粒度时间卷积模块的整体框架图。
图4为单粒度时间卷积模块的整体框架图。
图5为本发明系统的架构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
如图1至图4所示,本实施例公开的一种基于双粒度时间卷积的腹腔镜手术阶段识别方法,其具体情况如下:
1)首先,通过安装于手术器械尖端的微型摄像机对腹腔镜微创手术过程进行全程录制,每一场完整的手术过程存为一个视频。然后使用ffpmeg对每一个视频进行切片,每隔5帧存下一张图片,按帧号顺序排列。然后将异常的图片剔除,包括存在全图模糊、大规模幻影、光照极端以及拍摄不全等问题的图片,制成腹腔镜手术阶段的数据集,并按40:8:32的比例拆分为训练集、验证集和测试集。最后使用OpenCV对腹腔镜手术图片进行中心翻转、随机剪裁、洗乱顺序等图像增强操作。
2)将处理好的数据集按每批次一个视频序列,送入双粒度时间卷积网络的第一个部分--双粒度时间卷积模块进行初步预测,生成初始预测结果,并用交叉熵损失函数计算初始预测结果与实际数据之间的差距程度;其中,双粒度时间卷积模块的具体情况如下:
输入图像被展平为1×1×C,C是一个批次输入的图片数量,其取值由每个视频具体的图片数量决定。
第一部分为一个1×1卷积层,该层的卷积核大小为(1,1),步长为1,填充为零,卷积核数量为C。这一层用来调整输入特征图的尺寸和通道数。
第二部分为一个双粒度残差膨胀层,该部分用字母d标识,共Ld层,每层有两个分支,一个分支由一个膨胀因子随层数增加而增大的膨胀卷积组成,负责通过生成大的感受野快速捕获全局信息;另一个分支由膨胀因子随层数增加而减小的膨胀卷积组成,负责通过生成较小的感受野捕获局部信息;其中,递增的膨胀卷积的膨胀因子呈
Figure BDA00034347361200001010
形式增大;递减的膨胀卷积的膨胀因子以
Figure BDA0003434736120000109
形式减小。经过两个分支后,得到全局和局部这两种粒度的一维特征图,将它们按通道数相加,整合成一个复合特征,将局部信息补充到全局信息中,增强特征的表达能力。然后将整合后的特征送入一个非线性激活层ReLU中,将每一个像素值归一化为正数,便于最后能以正数形式计算预测值。经由ReLU激活过后的特征再次通过一个1×1卷积进行通道数调整,以便和进入双粒度残差膨胀层之前的原始特征的通道数保持一致。最后将经过ReLU层和1×1卷积的特征与原始特征逐通道相加,得到双粒度残差膨胀层的输出。
双粒度残差膨胀层的特征提取过程用公式表示如下:
随层数增加而增大的膨胀卷积实质为递增的膨胀卷积的卷积过程如下公式:
Figure BDA0003434736120000101
式中,
Figure BDA0003434736120000102
是第ld层膨胀因子为
Figure BDA0003434736120000103
的膨胀卷积的输出,下标d1用于标识膨胀因子为
Figure BDA0003434736120000104
的膨胀卷积,
Figure BDA0003434736120000105
是上一层的输出,
Figure BDA0003434736120000106
是膨胀因子为
Figure BDA0003434736120000107
的膨胀卷积核的权重,R3×K×K表示尺寸为3×3的卷积核,数字3表示卷积核的尺寸为3×3,K表示3×3卷积核的数量,
Figure BDA0003434736120000108
是递增的膨胀卷积的偏差向量。
随层数增加而减小的膨胀卷积实质为递减的膨胀卷积的卷积过程如下公式:
Figure BDA0003434736120000111
式中,
Figure BDA0003434736120000112
是第一层扩张因子为
Figure BDA0003434736120000113
的膨胀卷积的输出,下标d2用于标识膨胀因子为
Figure BDA0003434736120000114
的膨胀卷积,
Figure BDA0003434736120000115
是上一层的输出,
Figure BDA0003434736120000116
是膨胀因子为
Figure BDA0003434736120000117
的膨胀卷积核的权重,R3×K×K表示尺寸为3×3的卷积核,3表示卷积核的尺寸为3×3,K表示3×3卷积核的数量,
Figure BDA0003434736120000119
是递减的膨胀卷积的偏差向量。
原始特征图分别经过递增的膨胀卷积和递减的膨胀卷积后,会得到两种粒度的特征图,将这两种特征图逐通道相加,并经过非线性函数ReLU激活,其过程如下公式:
Figure BDA00034347361200001110
式中,cat(·)表示串联操作,目的是将
Figure BDA00034347361200001111
Figure BDA00034347361200001112
输出的特征图逐通道相加,
Figure BDA00034347361200001113
Figure BDA00034347361200001114
Figure BDA00034347361200001115
输出的特征图相加后进行非线性激活的结果。
得到双粒度的特征图
Figure BDA00034347361200001116
后,需要将其输入一个1×1卷积调整尺寸,使其长宽与没有输入递增膨胀卷积和递减膨胀卷积的原始特征图相等,并将1×1卷积调整后的特征图与原始特征图相加,得到双粒度膨胀卷积层的输出,其过程如下公式:
Figure BDA00034347361200001117
Figure BDA00034347361200001118
式中,
Figure BDA00034347361200001119
是对
Figure BDA00034347361200001120
进行1×1卷积运算的结果,
Figure BDA00034347361200001121
是双粒度残差膨胀层包含的1×1卷积的权重,
Figure BDA00034347361200001122
是双粒度残差膨胀层包含的1×1卷积的偏差向量,
Figure BDA00034347361200001123
是双粒度残差膨胀层在第ld层的最终输出结果。
第三部分为一个1×1卷积。
Figure BDA00034347361200001124
在结束Ld层的迭代后,还需要经过一个1×1卷积来调节输出特征图的尺寸和通道数。
3)双粒度时间卷积模块的输出被送进双粒度时间卷积网络的第二个部分--单粒度时间卷积模块,对特征进行进一步的细化提取,得到进一步精确的预测结果,并用交叉熵损失函数计算该预测结果与实际数据之间的差距程度;其中,单粒度时间卷积模块的具体情况如下:
第一部分为一个1×1卷积层,该层的卷积核大小为(1,1),步长为1,填充为零,卷积核数量为C。这一层用来调整输入特征的通道数。
第二部分为一个单粒度残差膨胀层,此部分用字母n标识,共Ln层,用l∈[0,Ln]表示本模块的当前层数,每层由一个膨胀因子随l增加而呈2l形式增大的膨胀卷积、一个非线性激活层ReLU和一个1×1卷积组成。单粒度残差膨胀层的特征提取过程如下所示:
Figure BDA0003434736120000121
Figure BDA0003434736120000122
Dn,l=Dn,l-1+Qn,l
其中,Dn,l-1是单粒度残差膨胀层中第l-1层的输出,Wn,l是单粒度膨胀卷积的权重,*代表卷积操作,bn,l是单粒度膨胀卷积的偏差向量,
Figure BDA0003434736120000123
表示经由第l层的单粒度膨胀卷积和非线性激活层ReLU的操作过后得到的特征图,Qn,l是对
Figure BDA0003434736120000124
进行1×1卷积运算的结果,Wl是单粒度残差膨胀层中所包含的1×1卷积的权重,bl是单粒度残差膨胀层中所包含的1×1卷积的偏差向量,Dn,l是单粒度残差膨胀层在第l层的最终输出结果。
第三部分为一个1×1卷积。Dn,l在结束L层的迭代后,还需要经过一个1×1卷积来调节输出特征图的尺寸和通道数。
进一步,在步骤2)和步骤3)中,交叉熵损失函数的表达如下:
Figure BDA0003434736120000125
式中,Lphase是交叉熵损失函数的值,T代表当前视频的总帧数,t∈[0,T]表示当前视频的当前帧数,yt是当前帧t的真实阶段标签,
Figure BDA0003434736120000126
是当前帧t的预测值,ω是手术阶段类别的权重,用于减轻阶段类别之间的样本量不平衡。
4)使用SoftMax函数将步骤3)得到的预测结果映射到(0,1)区间内,得到最终的手术阶段识别结果。
实施例2
参见图5所示,本实施例公开了一种基于双粒度时间卷积的腹腔镜手术阶段识别系统,包括以下功能模块:
数据采集模块,用于收集腹腔镜手术视频,对每个视频进行下采样,每个视频的每个阶段保留若干张图像,制成腹腔镜手术数据集,按“地址/视频序号/帧序号”的格式命名排列,形成视频序列;
数据处理模块,用于将腹腔镜手术数据集中的视频序列输入双粒度时间卷积网络的第一个部分即双粒度时间卷积模块,对长距离时间上下文信息进行建模,生成初始预测结果,并用交叉熵损失函数计算初始预测结果与实际数据之间的差距程度;将双粒度时间卷积模块生成的初始预测结果输入双粒度时间卷积网络的第二个部分即单粒度时间卷积模块,对双粒度时间卷积模块输出的初始预测结果进行校正,得到进一步精确的预测结果,并用交叉熵损失函数计算该预测结果与实际数据之间的差距程度;
映射模块,使用SoftMax函数将数据处理模块得到的预测结果映射到(0,1)区间内,得到最终的手术阶段识别结果。
进一步,在数据采集模块中,通过摄像机采集腹腔镜手术过程的图像,每一台完整的手术过程存为一个视频,然后对每一个视频的图像进行切片处理,制成图片数据集,并对图片进行图像增强操作,包括中心翻转、随机剪裁和洗乱顺序,最后,将其中的异常数据剔除,包括存在全图模糊、大规模幻影、光照极端以及拍摄不全的数据,构建腹腔镜手术数据集,并拆分为训练集、验证集和测试集。
进一步,在数据处理模块中,所述双粒度时间卷积模块的具体情况如下:
第一部分为一个1×1卷积,用于调整输入特征图的尺寸和通道数;
第二部分为一个双粒度残差膨胀层,用字母d标识,共Ld层,每层由一个随层数增加而增大的膨胀卷积、一个随层数增加而减小的膨胀卷积、一个非线性激活层ReLU和一个1×1卷积组成;用ld∈[0,Ld]表示当前层数,其中,随ld增大而增大的膨胀卷积,其膨胀因子呈
Figure BDA0003434736120000141
形式增大;而另一个随ld增大而减小的膨胀卷积,它的膨胀因子以
Figure BDA0003434736120000142
形式减小;
随层数增加而增大的膨胀卷积实质为递增的膨胀卷积,其过程如下公式(1):
Figure BDA0003434736120000143
式中,
Figure BDA0003434736120000144
是第ld层膨胀因子为
Figure BDA0003434736120000145
的膨胀卷积的输出,下标d1用于标识膨胀因子为
Figure BDA0003434736120000146
的膨胀卷积,
Figure BDA0003434736120000147
是上一层的输出,
Figure BDA0003434736120000148
是膨胀因子为
Figure BDA0003434736120000149
的膨胀卷积核的权重,R3×K×K表示尺寸为3×3的卷积核,3表示卷积核的尺寸为3×3,K表示3×3卷积核的数量,
Figure BDA00034347361200001410
是递增的膨胀卷积的偏差向量;
随层数增加而减小的膨胀卷积实质为递减的膨胀卷积,其过程如下公式(2):
Figure BDA00034347361200001411
式中,
Figure BDA00034347361200001412
是第一层扩张因子为
Figure BDA00034347361200001413
的膨胀卷积的输出,下标d2用于标识膨胀因子为
Figure BDA00034347361200001414
的膨胀卷积,
Figure BDA00034347361200001415
是上一层的输出,
Figure BDA00034347361200001416
是膨胀因子为
Figure BDA00034347361200001417
的膨胀卷积核的权重,
Figure BDA00034347361200001418
是递减的膨胀卷积的偏差向量;
原始特征图分别经过递增的膨胀卷积和递减的膨胀卷积后,会得到两种粒度的特征图,将这两种粒度的特征图逐通道相加,并经过非线性激活层ReLU激活,其过程如下公式(3):
Figure BDA00034347361200001419
式中,cat(·)表示串联操作,目的是将
Figure BDA00034347361200001420
Figure BDA00034347361200001421
输出的特征图逐通道相加,
Figure BDA00034347361200001422
Figure BDA00034347361200001423
Figure BDA00034347361200001424
输出的特征图相加后进行非线性激活的结果,即为双粒度的特征图;
得到双粒度的特征图
Figure BDA00034347361200001425
后,需要将其输入一个1×1卷积调整尺寸,使其长宽与没有输入递增的膨胀卷积和递减的膨胀卷积的原始特征图相等,并将1×1卷积调整后的特征图与原始特征图相加,得到双粒度残差膨胀层的输出,其过程如下公式(4)和(5):
Figure BDA00034347361200001426
Figure BDA00034347361200001427
式中,
Figure BDA0003434736120000151
是对
Figure BDA0003434736120000152
进行1×1卷积运算的结果,
Figure BDA0003434736120000153
是双粒度残差膨胀层包含的1×1卷积的权重,
Figure BDA0003434736120000154
是双粒度残差膨胀层包含的1×1卷积的偏差向量,
Figure BDA0003434736120000155
是双粒度残差膨胀层在第ld层的最终输出结果;
第三部分为一个1×1卷积,
Figure BDA0003434736120000156
在结束Ld层的迭代后,还需要经过一个1×1卷积来调节输出特征图的尺寸和通道数。
进一步,在数据处理模块中,所述单粒度时间卷积模块的具体情况如下:
第一部分为一个1×1卷积,用于调节从双粒度时间卷积模块输出的特征图尺寸和通道数;
第二部分为一个单粒度残差膨胀层,用字母n标识,共Ln层,用l∈[0,Ln]表示当前层数,该部分每层由一个膨胀因子随l增加而呈2l形式增大的膨胀卷积实质为单粒度膨胀卷积、一个非线性激活层ReLU和一个1×1卷积组成,单粒度残差膨胀层的特征提取过程如公式(6)所示:
Figure BDA0003434736120000157
Figure BDA0003434736120000158
Dn,l=Dn,l-1+Qn,l
式中,Dn,l-1是单粒度残差膨胀层中第l-1层的输出,Wn,l是单粒度膨胀卷积的权重,*代表卷积操作,bn,l是单粒度膨胀卷积的偏差向量,
Figure BDA0003434736120000159
表示经由第l层的单粒度膨胀卷积和非线性激活层ReLU的操作过后得到的特征图,Qn,l是对
Figure BDA00034347361200001510
进行1×1卷积运算的结果,Wl是单粒度残差膨胀层中所包含的1×1卷积的权重,bl是单粒度残差膨胀层中所包含的1×1卷积的偏差向量,Dn,l是单粒度残差膨胀层在第l层的最终输出结果;
第三部分为一个1×1卷积,Dn,l在结束L层的迭代后,还需要经过一个1×1卷积来调节输出特征图的尺寸和通道数。
进一步,在数据处理模块中,使用的交叉熵损失函数的表达如下:
Figure BDA0003434736120000161
式中,Lphase是交叉熵损失函数的值,T代表当前视频的总帧数,t∈[0,T]表示当前视频的当前帧数,yt是当前帧t的真实阶段标签,
Figure BDA0003434736120000162
是当前帧t的预测值,ω是手术阶段类别的权重,用于减轻阶段类别之间的样本量不平衡。
综上所述,在采用以上方案后,本发明为腹腔镜手术阶段的识别提供了新的方法与系统,将双粒度时间卷积网络作为阶段分类的有效工具,能够有效解决计算机难以自动且准确识别阶段类别的问题,有效推动计算机辅助手术阶段识别技术的发展,具有实际推广价值,值得推广。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于双粒度时间卷积的腹腔镜手术阶段识别方法,其特征在于,包括以下步骤:
1)收集腹腔镜手术视频,对每个视频进行下采样,每个视频的每个阶段保留若干张图像,制成腹腔镜手术数据集,按“地址/视频序号/帧序号”的格式命名排列,形成视频序列;
2)将腹腔镜手术数据集中的视频序列输入双粒度时间卷积网络的第一个部分即双粒度时间卷积模块,对长距离时间上下文信息进行建模,生成初始预测结果,并用交叉熵损失函数计算初始预测结果与实际数据之间的差距程度;
3)将双粒度时间卷积模块生成的初始预测结果输入双粒度时间卷积网络的第二个部分即单粒度时间卷积模块,对双粒度时间卷积模块输出的初始预测结果进行校正,得到进一步精确的预测结果,并用交叉熵损失函数计算该预测结果与实际数据之间的差距程度;
4)使用SoftMax函数将步骤3)得到的预测结果映射到(0,1)区间内,得到最终的手术阶段识别结果。
2.根据权利要求1所述的基于双粒度时间卷积的腹腔镜手术阶段识别方法,其特征在于,在步骤1)中,首先,通过摄像机采集腹腔镜手术过程的图像,每一台完整的手术过程存为一个视频,然后对每一个视频的图像进行切片处理,制成图片数据集,并对图片进行图像增强操作,包括中心翻转、随机剪裁和洗乱顺序,最后,将其中的异常数据剔除,包括存在全图模糊、大规模幻影、光照极端以及拍摄不全的数据,构建腹腔镜手术数据集,并拆分为训练集、验证集和测试集。
3.根据权利要求1所述的基于双粒度时间卷积的腹腔镜手术阶段识别方法,其特征在于,在步骤2)中,所述双粒度时间卷积模块的具体情况如下:
第一部分为一个1×1卷积,用于调整输入特征图的尺寸和通道数;
第二部分为一个双粒度残差膨胀层,用字母d标识,共Ld层,每层由一个随层数增加而增大的膨胀卷积、一个随层数增加而减小的膨胀卷积、一个非线性激活层ReLU和一个1×1卷积组成;用ld∈[0,Ld]表示当前层数,其中,随ld增大而增大的膨胀卷积,其膨胀因子呈
Figure FDA0003434736110000011
形式增大;而另一个随ld增大而减小的膨胀卷积,它的膨胀因子以
Figure FDA0003434736110000012
形式减小;
随层数增加而增大的膨胀卷积实质为递增的膨胀卷积,其过程如下公式(1):
Figure FDA0003434736110000021
式中,
Figure FDA0003434736110000022
是第ld层膨胀因子为
Figure FDA0003434736110000023
的膨胀卷积的输出,下标d1用于标识膨胀因子为
Figure FDA0003434736110000024
的膨胀卷积,
Figure FDA0003434736110000025
是上一层的输出,
Figure FDA0003434736110000026
是膨胀因子为
Figure FDA0003434736110000027
的膨胀卷积核的权重,R3 ×K×K表示尺寸为3×3的卷积核,3表示卷积核的尺寸为3×3,K表示3×3卷积核的数量,
Figure FDA0003434736110000028
是递增的膨胀卷积的偏差向量;
随层数增加而减小的膨胀卷积实质为递减的膨胀卷积,其过程如下公式(2):
Figure FDA0003434736110000029
式中,
Figure FDA00034347361100000210
是第一层扩张因子为
Figure FDA00034347361100000211
的膨胀卷积的输出,下标d2用于标识膨胀因子为
Figure FDA00034347361100000212
的膨胀卷积,
Figure FDA00034347361100000213
是上一层的输出,
Figure FDA00034347361100000214
是膨胀因子为
Figure FDA00034347361100000215
的膨胀卷积核的权重,
Figure FDA00034347361100000216
是递减的膨胀卷积的偏差向量;
原始特征图分别经过递增的膨胀卷积和递减的膨胀卷积后,会得到两种粒度的特征图,将这两种粒度的特征图逐通道相加,并经过非线性激活层ReLU激活,其过程如下公式(3):
Figure FDA00034347361100000217
式中,cat(·)表示串联操作,目的是将
Figure FDA00034347361100000218
Figure FDA00034347361100000219
输出的特征图逐通道相加,
Figure FDA00034347361100000220
Figure FDA00034347361100000221
Figure FDA00034347361100000222
输出的特征图相加后进行非线性激活的结果,即为双粒度的特征图;
得到双粒度的特征图
Figure FDA00034347361100000223
后,需要将其输入一个1×1卷积调整尺寸,使其长宽与没有输入递增的膨胀卷积和递减的膨胀卷积的原始特征图相等,并将1×1卷积调整后的特征图与原始特征图相加,得到双粒度残差膨胀层的输出,其过程如下公式(4)和(5):
Figure FDA00034347361100000224
Figure FDA00034347361100000225
式中,
Figure FDA00034347361100000226
是对
Figure FDA00034347361100000227
进行1×1卷积运算的结果,
Figure FDA00034347361100000228
是双粒度残差膨胀层包含的1×1卷积的权重,
Figure FDA00034347361100000229
是双粒度残差膨胀层包含的1×1卷积的偏差向量,
Figure FDA00034347361100000230
是双粒度残差膨胀层在第ld层的最终输出结果;
第三部分为一个1×1卷积,
Figure FDA0003434736110000031
在结束Ld层的迭代后,还需要经过一个1×1卷积来调节输出特征图的尺寸和通道数。
4.根据权利要求1所述的基于双粒度时间卷积的腹腔镜手术阶段识别方法,其特征在于,在步骤3)中,所述单粒度时间卷积模块的具体情况如下:
第一部分为一个1×1卷积,用于调节从双粒度时间卷积模块输出的特征图尺寸和通道数;
第二部分为一个单粒度残差膨胀层,用字母n标识,共Ln层,用l∈[0,Ln]表示当前层数,该部分每层由一个膨胀因子随l增加而呈2l形式增大的膨胀卷积实质为单粒度膨胀卷积、一个非线性激活层ReLU和一个1×1卷积组成,单粒度残差膨胀层的特征提取过程如公式(6)所示:
Figure FDA0003434736110000032
式中,Dn,l-1是单粒度残差膨胀层中第l-1层的输出,Wn,l是单粒度膨胀卷积的权重,*代表卷积操作,bn,l是单粒度膨胀卷积的偏差向量,
Figure FDA0003434736110000033
表示经由第l层的单粒度膨胀卷积和非线性激活层ReLU的操作过后得到的特征图,Qn,l是对
Figure FDA0003434736110000034
进行1×1卷积运算的结果,Wl是单粒度残差膨胀层中所包含的1×1卷积的权重,bl是单粒度残差膨胀层中所包含的1×1卷积的偏差向量,Dn,l是单粒度残差膨胀层在第l层的最终输出结果;
第三部分为一个1×1卷积,Dn,l在结束L层的迭代后,还需要经过一个1×1卷积来调节输出特征图的尺寸和通道数。
5.根据权利要求1所述的基于双粒度时间卷积的腹腔镜手术阶段识别方法,其特征在于,在步骤2)和步骤3)中,所述交叉熵损失函数的表达如下:
Figure FDA0003434736110000041
式中,Lphase是交叉熵损失函数的值,T代表当前视频的总帧数,t∈[0,T]表示当前视频的当前帧数,yt是当前帧t的真实阶段标签,
Figure FDA0003434736110000042
是当前帧t的预测值,ω是手术阶段类别的权重,用于减轻阶段类别之间的样本量不平衡。
6.基于双粒度时间卷积的腹腔镜手术阶段识别系统,其特征在于,包括:
数据采集模块,用于收集腹腔镜手术视频,对每个视频进行下采样,每个视频的每个阶段保留若干张图像,制成腹腔镜手术数据集,按“地址/视频序号/帧序号”的格式命名排列,形成视频序列;
数据处理模块,用于将腹腔镜手术数据集中的视频序列输入双粒度时间卷积网络的第一个部分即双粒度时间卷积模块,对长距离时间上下文信息进行建模,生成初始预测结果,并用交叉熵损失函数计算初始预测结果与实际数据之间的差距程度;将双粒度时间卷积模块生成的初始预测结果输入双粒度时间卷积网络的第二个部分即单粒度时间卷积模块,对双粒度时间卷积模块输出的初始预测结果进行校正,得到进一步精确的预测结果,并用交叉熵损失函数计算该预测结果与实际数据之间的差距程度;
映射模块,使用SoftMax函数将数据处理模块得到的预测结果映射到(0,1)区间内,得到最终的手术阶段识别结果。
7.根据权利要求1所述的基于双粒度时间卷积的腹腔镜手术阶段识别系统,其特征在于,在数据采集模块中,通过摄像机采集腹腔镜手术过程的图像,每一台完整的手术过程存为一个视频,然后对每一个视频的图像进行切片处理,制成图片数据集,并对图片进行图像增强操作,包括中心翻转、随机剪裁和洗乱顺序,最后,将其中的异常数据剔除,包括存在全图模糊、大规模幻影、光照极端以及拍摄不全的数据,构建腹腔镜手术数据集,并拆分为训练集、验证集和测试集。
8.根据权利要求1所述的基于双粒度时间卷积的腹腔镜手术阶段识别系统,其特征在于,在数据处理模块中,所述双粒度时间卷积模块的具体情况如下:
第一部分为一个1×1卷积,用于调整输入特征图的尺寸和通道数;
第二部分为一个双粒度残差膨胀层,用字母d标识,共Ld层,每层由一个随层数增加而增大的膨胀卷积、一个随层数增加而减小的膨胀卷积、一个非线性激活层ReLU和一个1×1卷积组成;用ld∈[0,Ld]表示当前层数,其中,随ld增大而增大的膨胀卷积,其膨胀因子呈
Figure FDA0003434736110000051
形式增大;而另一个随ld增大而减小的膨胀卷积,它的膨胀因子以
Figure FDA0003434736110000052
形式减小;
随层数增加而增大的膨胀卷积实质为递增的膨胀卷积,其过程如下公式(1):
Figure FDA0003434736110000053
式中,
Figure FDA0003434736110000054
是第ld层膨胀因子为
Figure FDA0003434736110000055
的膨胀卷积的输出,下标d1用于标识膨胀因子为
Figure FDA0003434736110000056
的膨胀卷积,
Figure FDA0003434736110000057
是上一层的输出,
Figure FDA0003434736110000058
是膨胀因子为
Figure FDA0003434736110000059
的膨胀卷积核的权重,R3 ×K×K表示尺寸为3×3的卷积核,3表示卷积核的尺寸为3×3,K表示3×3卷积核的数量,
Figure FDA00034347361100000510
是递增的膨胀卷积的偏差向量;
随层数增加而减小的膨胀卷积实质为递减的膨胀卷积,其过程如下公式(2):
Figure FDA00034347361100000511
式中,
Figure FDA00034347361100000512
是第一层扩张因子为
Figure FDA00034347361100000513
的膨胀卷积的输出,下标d2用于标识膨胀因子为
Figure FDA00034347361100000514
的膨胀卷积,
Figure FDA00034347361100000515
是上一层的输出,
Figure FDA00034347361100000516
是膨胀因子为
Figure FDA00034347361100000517
的膨胀卷积核的权重,
Figure FDA00034347361100000518
是递减的膨胀卷积的偏差向量;
原始特征图分别经过递增的膨胀卷积和递减的膨胀卷积后,会得到两种粒度的特征图,将这两种粒度的特征图逐通道相加,并经过非线性激活层ReLU激活,其过程如下公式(3):
Figure FDA00034347361100000519
式中,cat(·)表示串联操作,目的是将
Figure FDA00034347361100000520
Figure FDA00034347361100000521
输出的特征图逐通道相加,
Figure FDA00034347361100000522
Figure FDA00034347361100000523
Figure FDA00034347361100000524
输出的特征图相加后进行非线性激活的结果,即为双粒度的特征图;
得到双粒度的特征图
Figure FDA00034347361100000525
后,需要将其输入一个1×1卷积调整尺寸,使其长宽与没有输入递增的膨胀卷积和递减的膨胀卷积的原始特征图相等,并将1×1卷积调整后的特征图与原始特征图相加,得到双粒度残差膨胀层的输出,其过程如下公式(4)和(5):
Figure FDA0003434736110000061
Figure FDA0003434736110000062
式中,
Figure FDA0003434736110000063
是对
Figure FDA0003434736110000064
进行1×1卷积运算的结果,
Figure FDA0003434736110000065
是双粒度残差膨胀层包含的1×1卷积的权重,
Figure FDA0003434736110000066
是双粒度残差膨胀层包含的1×1卷积的偏差向量,
Figure FDA0003434736110000067
是双粒度残差膨胀层在第ld层的最终输出结果;
第三部分为一个1×1卷积,
Figure FDA0003434736110000068
在结束Ld层的迭代后,还需要经过一个1×1卷积来调节输出特征图的尺寸和通道数。
9.根据权利要求1所述的基于双粒度时间卷积的腹腔镜手术阶段识别系统,其特征在于,在数据处理模块中,所述单粒度时间卷积模块的具体情况如下:
第一部分为一个1×1卷积,用于调节从双粒度时间卷积模块输出的特征图尺寸和通道数;
第二部分为一个单粒度残差膨胀层,用字母n标识,共Ln层,用l∈[0,Ln]表示当前层数,该部分每层由一个膨胀因子随l增加而呈2l形式增大的膨胀卷积实质为单粒度膨胀卷积、一个非线性激活层ReLU和一个1×1卷积组成,单粒度残差膨胀层的特征提取过程如公式(6)所示:
Figure FDA0003434736110000069
式中,Dn,l-1是单粒度残差膨胀层中第l-1层的输出,Wn,l是单粒度膨胀卷积的权重,*代表卷积操作,bn,l是单粒度膨胀卷积的偏差向量,
Figure FDA00034347361100000610
表示经由第l层的单粒度膨胀卷积和非线性激活层ReLU的操作过后得到的特征图,Qn,l是对
Figure FDA00034347361100000611
进行1×1卷积运算的结果,Wl是单粒度残差膨胀层中所包含的1×1卷积的权重,bl是单粒度残差膨胀层中所包含的1×1卷积的偏差向量,Dn,l是单粒度残差膨胀层在第l层的最终输出结果;
第三部分为一个1×1卷积,Dn,l在结束L层的迭代后,还需要经过一个1×1卷积来调节输出特征图的尺寸和通道数。
10.根据权利要求1所述的基于双粒度时间卷积的腹腔镜手术阶段识别系统,其特征在于,在数据处理模块中,使用的交叉熵损失函数的表达如下:
Figure FDA0003434736110000071
式中,Lphase是交叉熵损失函数的值,T代表当前视频的总帧数,t∈[0,T]表示当前视频的当前帧数,yt是当前帧t的真实阶段标签,
Figure FDA0003434736110000072
是当前帧t的预测值,ω是手术阶段类别的权重,用于减轻阶段类别之间的样本量不平衡。
CN202111609392.8A 2021-12-27 2021-12-27 基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统 Active CN114372962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111609392.8A CN114372962B (zh) 2021-12-27 2021-12-27 基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111609392.8A CN114372962B (zh) 2021-12-27 2021-12-27 基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统

Publications (2)

Publication Number Publication Date
CN114372962A true CN114372962A (zh) 2022-04-19
CN114372962B CN114372962B (zh) 2024-06-18

Family

ID=81141634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111609392.8A Active CN114372962B (zh) 2021-12-27 2021-12-27 基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统

Country Status (1)

Country Link
CN (1) CN114372962B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115187596A (zh) * 2022-09-09 2022-10-14 中国医学科学院北京协和医院 用于腹腔镜结直肠癌手术的神经智能辅助识别系统
CN115359873A (zh) * 2022-10-17 2022-11-18 成都与睿创新科技有限公司 用于手术质量的控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783520A (zh) * 2020-05-18 2020-10-16 北京理工大学 基于双流网络的腹腔镜手术阶段自动识别方法及装置
CN112085717A (zh) * 2020-09-04 2020-12-15 厦门大学 一种用于腹腔镜手术的视频预测方法及其系统
CN113813053A (zh) * 2021-09-18 2021-12-21 长春理工大学 一种基于腹腔镜内窥影像的手术进程分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783520A (zh) * 2020-05-18 2020-10-16 北京理工大学 基于双流网络的腹腔镜手术阶段自动识别方法及装置
CN112085717A (zh) * 2020-09-04 2020-12-15 厦门大学 一种用于腹腔镜手术的视频预测方法及其系统
CN113813053A (zh) * 2021-09-18 2021-12-21 长春理工大学 一种基于腹腔镜内窥影像的手术进程分析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115187596A (zh) * 2022-09-09 2022-10-14 中国医学科学院北京协和医院 用于腹腔镜结直肠癌手术的神经智能辅助识别系统
CN115359873A (zh) * 2022-10-17 2022-11-18 成都与睿创新科技有限公司 用于手术质量的控制方法

Also Published As

Publication number Publication date
CN114372962B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN108062525B (zh) 一种基于手部区域预测的深度学习手部检测方法
CN112733950A (zh) 一种基于图像融合与目标检测结合的电力设备故障诊断方法
CN114372962B (zh) 基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统
WO2020029915A1 (zh) 基于人工智能的中医舌像分割装置、方法及存储介质
CN111783520A (zh) 基于双流网络的腹腔镜手术阶段自动识别方法及装置
CN110288613B (zh) 一种超高像素的组织病理图像分割方法
CN111652175A (zh) 应用于机器人辅助手术视频分析的实时手术工具检测方法
CN112308087B (zh) 基于动态视觉传感器的一体化成像识别方法
CN112257711B (zh) 一种铁路货车地板破损故障检测方法
CN112749675A (zh) 一种基于卷积神经网络的马铃薯病害识别方法
CN112102332A (zh) 基于局部分类神经网络的癌症wsi的分割方法
CN111209873A (zh) 一种基于深度学习的高精度人脸关键点定位方法及系统
CN113962905A (zh) 基于多阶段特征互补网络的单幅图像去雨方法
CN113128517A (zh) 色调映射图像混合视觉特征提取模型建立及质量评价方法
Memon et al. Amsff-net: Attention-based multi-stream feature fusion network for single image dehazing
CN111105874A (zh) 一种舌象特征标注方法、装置、计算机设备及存储介质
Arora et al. Modified UNet++ model: a deep model for automatic segmentation of lungs from chest X-ray images
Zhang et al. Face deblurring based on separable normalization and adaptive denormalization
CN114332989A (zh) 一种多任务级联卷积神经网络的人脸检测方法及系统
CN114240822A (zh) 基于YOLOv3及多尺度特征融合的棉布瑕疵检测方法
CN110853040A (zh) 一种基于超分辨率重建的图像协同分割方法
Tojo et al. Medical image denoising using scaled dual convolutional neural network (SD-CNN)
CN111191550B (zh) 一种基于图像锐度自动动态调整的视觉感知装置及方法
CN113936165B (zh) Ct图像的处理方法、终端及计算机存储介质
CN112419177B (zh) 一种面向单幅图像去运动模糊的感知质量盲评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant