CN115311307A - 基于时序一致性和上下文无关的半监督视频息肉分割系统 - Google Patents

基于时序一致性和上下文无关的半监督视频息肉分割系统 Download PDF

Info

Publication number
CN115311307A
CN115311307A CN202210861961.6A CN202210861961A CN115311307A CN 115311307 A CN115311307 A CN 115311307A CN 202210861961 A CN202210861961 A CN 202210861961A CN 115311307 A CN115311307 A CN 115311307A
Authority
CN
China
Prior art keywords
branch
frame
segmentation
sequence
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210861961.6A
Other languages
English (en)
Inventor
张玥杰
李晓彤
刘靖正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202210861961.6A priority Critical patent/CN115311307A/zh
Publication of CN115311307A publication Critical patent/CN115311307A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30028Colon; Small intestine
    • G06T2207/30032Colon polyp

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于医学图像处理技术领域,具体为基于时序一致性和上下文无关的半监督视频息肉分割系统。本发明的半监督视频息肉分割系统包括双分协同训练架构、序列矫正反向注意力模块、传播矫正反向注意力模块、及上下文无关损失函数。双分支模型包括一个分割分支和一个传播分支,两者对无标签图像使用交叉伪标签方式进行监督;序列矫正反向注意力模块提取整个序列的时序信息,保证整个输入预测的时序一致性;传播矫正反向注意力模块利用存储池逐帧提取时序信息;上下文无关损失函数保证该系统对不断变化的背景信息不敏感。本发明可在1/15的标注比下取得很好的分割性能,对于大规模视频息肉分割数据集以及其他医学镜像分割任务具有广泛应用价值。

Description

基于时序一致性和上下文无关的半监督视频息肉分割系统
技术领域
本发明属于图像处理领域,具体涉及基于时序一致性和上下文无关的半监督视频息肉分割系统。
背景技术
近年来,结直肠癌已成为全球第三大常见癌症。预防和筛查结直肠癌最有效的技术是结肠镜检查,通过结肠内窥镜拍摄视频影像,医生可评估息肉组织的位置和外观,并在息肉癌变前将其切除。然而,结肠镜检查需要专业知识,否则会导致漏诊。因此,结合计算机辅助的医学影像分析技术,提高息肉自动分割的准确性对结直肠癌的预防具有重要意义。
分析发现,目前大多数的息肉分割工作仅在静态图像上对模型进行训练和评估,未充分利用内窥镜视频帧之间的时序信息。一般来说,对于来自于同一个内镜序列的图像,它们聚焦于同一息肉目标。这些图像中息肉的轨迹和外表变化具有时序相关性。在视频息肉分割任务中,仅关注独立的静态图像显然不够。而少量作用于视频息肉数据的工作,其训练方式受限于小规模数据集。这些工作首先需要在大量静态图像进行预训练,然后在视频图像上进行微调。这种训练策略需要大量优质标注,但目前视频息肉数据规模依然很小。同时,由于息肉边界模糊且与背景组织相似,即使是熟练的临床医生也可能无法对连续帧的标注达成一致。最后,目前开源的息肉数据集属于稀疏序列,其部分相邻帧之间的变化较大,虽然内窥镜视频关注相同的息肉组织,但由于摄像机角度或灯光不同,息肉所处的上下文环境(即空腔,高光,粘膜组织)会发生变化,这可能会影响相邻帧的预测结果。
基于上述分析,本发明采用半监督的训练方法,充分挖掘内窥镜视频帧之间的时序信息,希望其达到较好的分割效果。
发明内容
本发明所解决的问题是内窥镜息肉分割问题,现有工作主要存在三点不足:(1)大多数现有工作只依赖静态图像来训练和评估模型,忽略内窥镜序列中的时序信息;(2)有限的标注数据是视频息肉分割任务的瓶颈,现有的息肉分割数据集规模比较小,训练的模型容易在训练集上过拟合,同时由于息肉边界模糊且与背景组织相似,即使是熟练的临床医生也可能无法对连续帧的标注达成一致;(3)虽然内窥镜视频关注相同的息肉组织,但由于摄像机角度或灯光不同,息肉所处的上下文环境(即空腔,高光,粘膜组织)会发生变化,这可能会影响相邻帧的预测结果。为解决所述问题,本发明提供一种基于时序一致性和上下文无关的半监督视频息肉分割系统。
本发明提供的基于时序一致性和上下文无关的半监督视频息肉分割系统,包括双分支模型协同训练架构、序列矫正反向注意力模块、传播矫正反向注意力模块以及上下文无关损失函数。所述双分支模型包括一个传播分支和一个分割分支,两者对于无标签图像使用交叉伪标签方式进行协同训练;所述序列矫正反向注意力模块在分割分支中用于提取整个序列的时序信息,保证整个输入预测的时序一致性;所述传播矫正反向注意力模块在传播分支中利用存储池机制,逐帧提取时序信息;所述上下文无关损失函数保证该系统对不断变化的背景信息不敏感。
本发明中,所述双分支模型协同训练架构,包含平行的分割分支
Figure BDA0003757070880000021
和传播分支
Figure BDA0003757070880000022
对于给定的T帧序列图像(第一帧为参考帧(Ir,Yr),其余帧为无标注帧
Figure BDA0003757070880000023
每个分支的作用都是接收上述T帧图像序列,输出序列的分割预测,可以表示为
Figure BDA0003757070880000024
Figure BDA0003757070880000025
每个分支分别包括编码器
Figure BDA0003757070880000026
和解码器
Figure BDA0003757070880000027
两个部分;两个分支的编码器都采用Res2Net结构;其中,传播分支编码器的参数由分割分支编码器参数每次迭代训练的指数平滑平均计算得到。通过两个分支的Res2Net编码器获得两组五个不同尺度的图像特征,具体表示为
Figure BDA0003757070880000028
Figure BDA0003757070880000029
其中,
Figure BDA00037570708800000210
l表示层数,为1,2,…,5,H和W分别特征的高和宽,C表示特征的维度;本发明只使用后三个尺度(即l=3,4,5)进行分割预测。其中,后三个尺度的特征经过通道层面的拼接和卷积降维,被融合为全局特征
Figure BDA00037570708800000211
然后这个全局特征经过卷积操作,生成全局预测掩码
Figure BDA00037570708800000212
以上两个分支的不同之处在于解码器部分:在分割分支的解码器中,每一层的分割矫正反向注意力模块将输入图像作为一个序列整体提取时序信息,最终预测结果为
Figure BDA00037570708800000213
传播分支则采用逐帧预测的方式,将先前的预测信息和图像特征存储在存储池里,将这些存储的特征和当前帧的特征传入转播矫正反向注意力模块来辅助当前帧的分割预测,最终预测结果为
Figure BDA00037570708800000214
这里转播分支与分割分支的不同在于转播分支不会预测第一帧(也就是参考帧)的分割掩码。
所述双分支模型训练中,损失函数设计如下:
是一种有监督损失
Figure BDA00037570708800000215
包括对标注帧(Ir,Yr)的交叉熵损失和IoU损失:
Figure BDA00037570708800000216
其中,
Figure BDA00037570708800000217
为交叉熵损失;
Figure BDA00037570708800000218
为IoU损失;Ps,r是分割分支输出的参考帧预测掩码,Yr表示参考帧的标签。
针对无标注帧,使用交叉伪标签方法,计算两个分支无标注帧的伪标签:
Figure BDA0003757070880000031
Figure BDA0003757070880000032
其中,Y′s,t表示分割分支上第t帧产生的伪标签,Y′p,t表示转播分支上第t帧产生的伪标签;threshold是一个阈值,通常取为0.5;i∈I表示图像中的一个像素点i;y′s,t,i,y′p,t,i分别表示在分割分支、转播分支第t帧的像素i的位置上的伪标签,y′∈{0,1};ps,t,i,pp,t,i分别表示分割分支、转播分支在第t帧图像的像素i上的预测值;
Figure BDA0003757070880000033
表示像素i是息肉,
Figure BDA0003757070880000034
表示像素i不是息肉。交叉伪标签损失是双向的,具体为如下所示:
Figure BDA0003757070880000035
本发明中,所述序列矫正反向注意力模块,提取整个序列的时序信息,保证整个输入预测的时序一致性。在分割分支中,第l层的序列矫正反向注意力模块通过接受l层和l+1层的特征图像特征以及l+1层的分割预测,计算序列矫正位置映射
Figure BDA0003757070880000036
位置映射由M′pos和Mpos平均得到。
以Mpos为例,首先将第l层的特征加上一个2D的位置信息编码,通过两个1x1x1的卷积计算向量Q(也称查询向量)和向量K(也称键值向量):
Figure BDA0003757070880000037
Figure BDA0003757070880000038
其中,θ(·)和φ(·)表示1x1x1卷积;pos(·)表示位置信息编码。将向量Q和向量进行形状转化:
Figure BDA0003757070880000039
Figure BDA00037570708800000310
其中,
Figure BDA00037570708800000311
是形状转化函数,主要的操作是将通道C这一维度提取出来,融合特征的其他维度;Q′和K′表示形状转换之后的向量。
将向量Q′和K′点乘得到相似性矩阵Sim;
Figure BDA00037570708800000312
其中,Q′(j)l中j表示向量Q′中Q′l的值;K′(i)l中i表示向量K′中K′l的值;exp(·)表示指数函数;
⊙表示矩阵乘法运算。
然后,将l+1层的分割预测通过一个非线性的函数g(x)=ex/e,计算得到局部映射;局部映射进行形状变化
Figure BDA0003757070880000041
具体操作为将通道C=1这个维度单独提取出来,其余维度合并。
将局部映射以及Sim进行元素之间的乘法,然后在key维度上选取前K个较高的响应值进行平均,就可得到l层的位置映射
Figure BDA0003757070880000042
Figure BDA0003757070880000043
第l层的序列矫正分割映射计算,如下所示:
Figure BDA0003757070880000044
其中,
Figure BDA0003757070880000045
σ(·)是sigmoid函数;
Figure BDA0003757070880000046
表示上采样操作,上采样之后的图像大小与Mpos,t保持一致。
第l层的分割预测计算,如下所示:
Figure BDA0003757070880000047
其中,convs(·)表示多层卷积,
Figure BDA0003757070880000048
反转操作,
Figure BDA0003757070880000049
表示(1-MSC,t)的运算。
对每一层的分割预测和序列矫正分割映射,计算其损失函数:
Figure BDA00037570708800000410
其中,
Figure BDA00037570708800000411
以及
Figure BDA00037570708800000412
本发明中,所述传播矫正反向注意力模块,利用存储池机制逐帧提取序列信息。以第t帧为例,计算出第l层的特征和分割预测的向量Q和向量K:
Figure BDA00037570708800000413
Figure BDA00037570708800000414
其中,φq(·)和gq(·)表示两个平行的3x3卷积;conp(·)表示一个7x7卷积。
每一个先前帧的特征和上一步输出的分割预测被独立映射为一对V和K向量,并在时间维度上进行拼接,存储在存储池中。其中,向量V表示为
Figure BDA0003757070880000051
向量K表示为
Figure BDA0003757070880000052
其中T′表示先前帧的数量。存储池里的这些特征和当前帧的特征经过一个时间空间记忆模块,计算出一个记忆映射
Figure BDA0003757070880000053
运算方式如下:
Figure BDA0003757070880000054
Figure BDA0003757070880000055
其中,
Figure BDA0003757070880000056
表示归一化操作,[·,·]表示拼接操作。
在传播分支中,对于第t帧图像,第l层的传播矫正反向注意力模块通过对当前帧和参考帧的特征进行位置信息编码、1x1卷积计算对应的查询向量和键值向量,然后通过向量点乘计算相似性矩阵Sim;将参考帧的标注通过一个非线性函数g(x)=ex/e,计算得到局部映射;将局部映射以及Sim进行元素之间的乘法,然后在key维度上选取前K个较高的响应值进行平均,就可得到第t帧在第l层的位置映射Mpos,t。第l层的序列矫正分割映射计算如下所示:
Figure BDA0003757070880000057
第t帧在第l层的分割预测计算如下所示:
Figure BDA0003757070880000058
对每一层的分割预测和传播矫正分割映射,计算其损失函数:
Figure BDA0003757070880000059
本发明中,所述上下文无关损失函数,保证该系统对不断变化的背景信息不敏感。通过之前的正向传播中,得到预测映射,在预测映射上进行平均、扩张、收缩变化,得到病灶的大致位置预测。对每一帧图像裁剪两个有重叠区域的图像框,其中重叠区域必须包括息肉组织。然后,随机从两个不同的训练序列中各选一幅图像作为不同的背景,将之前裁剪后的图像框随机贴在背景图像上,获得两幅具有不同背景的合成图像。将这两幅图像平行输入至两个分支,获得不同的全局映射,其中两个分支在重叠位置的映射为Ωs,1和Ωs,2,上下文无关损失函数表示为:
Figure BDA00037570708800000510
其中,i∈Ω表示属于重叠区域的像素点。
本系统的训练阶段分为在伪序列上的预训练阶段以及在真实序列上的主训练阶段。
所述预训练阶段,对于模型的一个序列输入,第一帧是有标注帧,其余两帧通过第一帧的仿射变化(平移、裁剪、反转、旋转)得到。在预训练阶段,使用有标注的帧,模型是以全监督方式进行训练。
所述主训练阶段,对于模型的一个序列输入,第一帧是有标注帧作为参考帧,其余两帧是从第一帧所属序列中随机抽样得到,在抽样时保证这三证的时序顺序。主训练阶段采用半监督的方式。网络的损失函数可表示为:
Figure BDA0003757070880000061
其中,λcpsspcf表示平衡和损失项的超参;
Figure BDA0003757070880000062
的详细表达式可见(1),(4),(13),(20),(21)。
本系统的训练过程采用1/15的标注比,其中每15帧标注一次图像,其它图像作为无标注图像。模型测试阶段,仅分割分支输出最终的预测结果。
本发明的优点包括:
首先,提出新型的半监督视频息肉分割模型。
其次,设计时序矫正反向注意力模块和序列矫正反向注意力模块来保持预测在时间上的一致性,并引入上下文无关损失来缓解不同上下文背景对序列预测的影响。
最后,本发明在三个视频息肉数据集上进行实验。结果表明,即使在1/15的标签比率下训练,本发明也可与最先进的全监督方法媲美。对于自然图像和其它医学图像的分割,本发明比现有半监督方法显示出明显优越性。
附图说明
图1是本发明中的模型框架图。
图2是本发明中的序列矫正反向注意力模块图示。
图3是本发明中的转播矫正反向注意力模块图示。
图4是本系统和其他全监督息肉分割模型的结果对比。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1所示,本发明包含两个分支,即分割分支和传播分支,在其解码器的每一层包含一个序列矫正反向注意力模块或传播矫正反向注意力模块。本模型在损失函数计算过程中包括新设计的上下文无关损失函数。本发明的工作流程为:
(一)所述双分支协同训练架构包含平行的分割分支和传播分支。模型的输入是T帧的图像序列,在本实验中设置T=3(包括一张参考帧和两张无标注的帧)。两个分支的编码器具有相同的结构,通过编码器可获得五个不同尺度的特征,表示为
Figure BDA0003757070880000071
其中l表示层数取1~5,C表示特征的维度取32,H和W表示各个层的特征高度和宽度,本实验中只使用后三层的特征,其大小分别为:44x44(l=3),22x22(l=4),11x11(l=5)。其中后三个尺度的特征经过通道层面的拼接和卷积降维,被融合为全局特征
Figure BDA0003757070880000072
然后这个全局特征经过卷积操作,生成全局预测掩码
Figure BDA0003757070880000073
分割分支的解码器中,T帧图像被看作一个序列整体提取时序信息,然后再进行预测,最终的预测结果为
Figure BDA0003757070880000074
传播分支则采用存储池机制,存储参考帧的特征、真值、先前帧的特征、分割预测,当前帧的预测结果由这些存储特征计算得到,最终预测结果为
Figure BDA0003757070880000075
模型的有监督损失是针对标注帧(Ir,Yr)的交叉熵损失和IoU损失:
Figure BDA0003757070880000076
其中,
Figure BDA0003757070880000077
为交叉熵损失;
Figure BDA0003757070880000078
为IoU损失函数。
针对无标注帧,使用交叉伪标签方法,如下所示:
Figure BDA0003757070880000079
(二)所述序列矫正反向注意力模块的计算流程如图2所示。模块存在于分割分支的解码器层,作用是提取整个序列的时序信息,保证整个输入预测的时序一致性。在分割分支中,第l层的序列矫正反向注意力模块通过接受l层和l+1层的特征图像特征以及l+1层的分割预测,计算序列矫正位置映射
Figure BDA00037570708800000710
位置映射由M′pos和Mpos平均得到。以Mpos为例,首先将第l层的特征加上一个2D的位置信息编码,通过两个1x1x1的卷积计算向量
Figure BDA00037570708800000711
和向量
Figure BDA00037570708800000712
将查询键值向量点乘,得到相似性矩阵Sim;将l+1层的分割预测通过一个非线性函数g(x)=ex/e计算,得到局部映射;局部映射进行形状变化
Figure BDA00037570708800000713
将局部映射以及Sim进行元素之间的乘法,然后在key维度上选取前K个较高的响应值进行平均,就可得到l层的位置映射:
Figure BDA00037570708800000714
其中,在本实验中,设置K=8。
第l层的序列矫正分割映射计算,如下所示:
Figure BDA00037570708800000715
其中,σ(·)是sigmoid函数;
Figure BDA0003757070880000081
表示上采样操作。
第l层的分割预测计算,如下所示:
Figure BDA0003757070880000082
其中,convs(·)表示多层卷积。
对每一层的分割预测和序列矫正分割映射,计算其损失函数:
Figure BDA0003757070880000083
其中,
Figure BDA0003757070880000084
以及
Figure BDA0003757070880000085
(三)所述传播矫正反向注意力模块的计算流程如图3所示。模块存在于传播分支的解码器层,利用存储池机制逐帧提取序列信息。以第t帧为例,计算出第l层的特征和分割预测的查询向量
Figure BDA0003757070880000086
以及键值向量
Figure BDA0003757070880000087
其中C=32。每一个先前帧的特征和分割掩码被独立映射为一对键值和查询向量,并在时间维度上进行拼接,存储在存储池中。其中,键值向量表示为
Figure BDA0003757070880000088
查询向量表示为
Figure BDA0003757070880000089
T表示先前帧的数量。存储池里的这些特征和当前帧的特征经过时间空间记忆模块,计算出记忆映射
Figure BDA00037570708800000810
在传播分支中,对于第t帧图像,第l层的传播矫正反向注意力模块通过对当前帧和参考帧的特征进行位置信息编码、1x1的卷积计算对应的查询向量和键值向量,然后通过向量点成计算相似性矩阵Sim;将参考帧的标注通过一个非线性函数g(x)=ex/e计算,得到局部映射;将局部映射以及Sim进行元素之间的乘法,然后在key维度上选取前K个较高的响应值进行平均,就可以得到第t帧在第l层的位置映射Mpos,t。第l层的序列矫正分割映射计算,如下所示:
Figure BDA00037570708800000811
第t帧在第l层的分割预测计算,如下所示:
Figure BDA00037570708800000812
对每一层的分割预测和传播矫正分割映射,计算其损失函数:
Figure BDA0003757070880000091
(四)所述上下文无关损失函数保证该系统对不断变化的背景信息不敏感。通过之前的正向传播,得到病灶的大致位置预测。对每一帧图像裁剪两个有重叠区域的图像框,其中重叠区域必须包括息肉组织。然后随机从两个不同的训练序列中各选一幅图像作为不同的背景,将之前裁剪后的图像框随机贴在背景图像上,获得两幅具有不同背景的合成图像。这两幅图像被平行输入至两个分支里面,获得不同的全局映射,其中两个分支在重叠的位置的映射为Ωs,1和Ωs,2,上下文无关损失函数表示为:
Figure BDA0003757070880000092
其中,i∈Ω表示属于重叠区域的像素点。
本系统训练过程的整体损失函数可表示为:
Figure BDA0003757070880000093
其中,λcpsspcf表示平衡和损失项的超参,在实验室中,设置λcps=8,λs=1,λp=1,λcf=2。
本系统训练阶段分为在伪序列上的预训练阶段以及在真实序列上的主训练阶段。在预训练阶段,对于模型的一个序列输入,第一帧是有标注帧,其余两帧通过第一帧的仿射变化得到(比如平移、裁剪、旋转、反转等),预训练阶段使用的都是有标注帧,模型以全监督方式进行训练;所述主训练阶段,对于模型的一个序列输入,第一帧是有标注帧作为参考帧,其余两帧是从第一帧所属序列中随机抽样得到,抽样时保证这三帧的时序顺序。
本系统使用的数据集包括CVC-300、CVC-612、ETIS等视频息肉分割的数据集,数据集划分为设置CVC-300和CVC-612 60%的视频序列作为训练集,其余作为测试集,ETIS全部序列作为测试集。本系统在应用时采用1/15的标注比,即对于来自同序列的图像,每15帧作为有标注帧,其余帧作为无标注帧,共同训练模型。
模型的输入时序列长度为T=3的图像,图像大小为352x352,并归一化到[-0.5,0.5]。在训练过程中,batchsize设置为2,在训练阶段:首先预训练阶段,在上述伪序列数据集上使用Adam优化器和0.0001的学习率训练200轮;然后主训练阶段,在上述真实序列数据集上使用Adam优化器和多项式衰减的学习率(初始学习率为0.0001)训练40轮。训练阶段对数据集进行数据增强,比如旋转、裁剪、颜色强度调整。
在测试阶段,在1/15的标注比下,CVC-300-TV、CVC-612-V、CVC-612-T和ETIS数据集上达到了82.4%、85.4%、82.7%和61.8%的mDice以及73.0%、77.7%、75.2%和53.7%mIoU。其中,可以和近些年全监督息肉分割的工作(即全部的训练图像多作为训练集)媲美,其中测试集在CVC-612-V和ETIS上mDice指标超过全监督工作1.4%和7.1%。其中ETIS是训练集中不可见的数据集(即数据集中所有图像分布在训练集中不可见),通过分析原因发现,由于数据集的规模较小,大多数全监督方法容易在可见数据集上过拟合,而本系统中的双分支协同训练架构和一致性正则方法可以增加模型的泛化能力。和近些年在其他图像分割任务的半监督模型相比,本系统在上述数据集上mDice分别提升了1.1%、0.7%、0.1%和0.4%。模型的可视化效果如图4所示,第一列是输入的一个序列的三张图像,第二列是图像的标注,第三列是本系统的预测效果。其他方法容易把第三张图像的伪影(篮框标注的部分)识别为息肉,而本系统可以通过融合相邻帧的特征,来抑制这种错误预测。
综上所述,本发明针对目前息肉分割任务存在的问题,提出一种新颖的基于时序一致性和上下文无关的半监督视频息肉分割系统,通过设计双分支的协同训练结构、序列矫正反向注意力模块、传播矫正反向注意力模块、及上下文无关损失函数,在1/15的标注比下对视频息肉图像进行分割。

Claims (8)

1.一种基于时序一致性和上下文无关的半监督视频息肉分割系统,其特征在于,包括双分支模型、序列矫正反向注意力模块、传播矫正反向注意力模块以及上下文无关损失函数;所述双分支模型包括一个传播分支和一个分割分支,两者对于无标签图像使用交叉伪标签方式进行协同训练;所述序列矫正反向注意力模块在分割分支中用于提取整个序列的时序信息,保证整个输入预测的时序一致性;所述传播矫正反向注意力模块在传播分支中利用存储池机制,逐帧提取时序信息;所述上下文无关损失函数保证该系统对不断变化的背景信息不敏感。
2.根据权利要求1所述的半监督视频息肉分割系统,其特征在于,所述双分支模型包含平行的分割分支
Figure FDA0003757070870000011
和传播分支
Figure FDA0003757070870000012
对于给定的T帧序列图像,其第一帧为参考帧(Ir,Yr),其余帧为无标注帧:
Figure FDA0003757070870000013
两个分支都是接收上述T帧图像序列,输出序列的分割预测,分别表示为
Figure FDA0003757070870000014
Figure FDA0003757070870000015
每个分支分别包括编码器和解码器两个部分,分别记为:
Figure FDA0003757070870000016
Figure FDA0003757070870000017
两个分支的编码器都采用Res2Net结构;其中,传播分支编码器的参数由分割分支编码器参数每次迭代训练的指数平滑平均计算得到;通过两个分支的Res2Net编码器获得两组五个不同尺度的图像特征,具体表示为
Figure FDA0003757070870000018
Figure FDA0003757070870000019
Figure FDA00037570708700000110
其中,
Figure FDA00037570708700000111
l表示层数,为1,2,…5,H和W分别特征的高和宽,C表示特征的维度;后三个尺度即l=3、4、5经过通道层面的拼接和卷积降维,被融合为全局特征
Figure FDA00037570708700000112
然后这个全局特征经过卷积操作,生成全局预测掩码
Figure FDA00037570708700000113
以上两个分支的不同之处在于解码器部分:在分割分支的解码器中,每一层的分割矫正反向注意力模块将输入图像作为一个序列整体提取时序信息,最终预测结果为
Figure FDA00037570708700000114
传播分支则采用逐帧预测的方式,将先前的预测信息和图像特征存储在存储池里,将这些存储的特征和当前帧的特征传入转播矫正反向注意力模块来辅助当前帧的分割预测,最终预测结果为
Figure FDA00037570708700000115
这里转播分支与分割分支的不同在于转播分支不会预测第一帧(也就是参考帧)的分割掩码。
3.根据权利要求2所述的半监督视频息肉分割系统,其特征在于,所述双分支模型训练中,损失函数是一种有监督损失
Figure FDA00037570708700000116
包括对标注帧(Ir,Yr)的交叉熵损失和IoU损失:
Figure FDA00037570708700000117
其中,
Figure FDA00037570708700000118
为交叉熵损失;
Figure FDA00037570708700000119
为IoU损失;Ps,r是分割分支输出的参考帧预测掩码,Yr表示参考帧的标签;
针对无标注帧,使用交叉伪标签方法,计算两个分支无标注帧的伪标签:
Figure FDA00037570708700000120
Figure FDA0003757070870000021
其中,Y′s,t表示分割分支上第t帧产生的伪标签,Y′p,t表示转播分支上第t帧产生的伪标签;Threshold是一个阈值;i∈I表示图像中的一个像素点i;y′s,t,i,y′p,t,i分别表示在分割分支、转播分支第t帧的像素i的位置上的伪标签,y′∈{0,1};ps,t,i,pp,t,i分别表示分割分支、转播分支在第t帧图像的像素i上的预测值;
Figure FDA0003757070870000022
表示像素i是息肉,
Figure FDA0003757070870000023
表示像素i不是息肉;交叉伪标签损失是双向的,具体为如下所示:
Figure FDA0003757070870000024
4.根据权利要求3所述的半监督视频息肉分割系统,其特征在于,所述序列矫正反向注意力模块,提取整个序列的时序信息,保证整个输入预测的时序一致性;在分割分支中,第l层的序列矫正反向注意力模块通过接受l层和l+1层的特征图像特征以及l+1层的分割预测,计算序列矫正位置映射
Figure FDA0003757070870000025
位置映射由M′pos和Mpos平均得到;
对于Mpos,首先将第l层的特征加上一个2D的位置信息编码,通过两个1x1x1的卷积计算向量Q和向量K:
Figure FDA0003757070870000026
Figure FDA0003757070870000027
其中,θ(·)和φ(·)表示1x1x1卷积;pos(·)表示位置信息编码;将向量Q和向量进行形状转化:
Figure FDA0003757070870000028
Figure FDA0003757070870000029
其中,
Figure FDA00037570708700000210
是形状转化函数,主要的操作是将通道C这一维度提取出来,融合特征的其他维度;Q′和K′表示形状转换之后的向量;
将向量Q′和K′点乘得到相似性矩阵Sim;
Figure FDA00037570708700000211
其中,Q′(j)l中j表示向量Q′中Q′l的值;K′(i)l中i表示向量K′中K′l的值;exp(·)表示指数函数;⊙表示矩阵乘法运算;
然后,将l+1层的分割预测通过一个非线性的函数g(x)=ex/e,计算得到局部映射;局部映射进行形状变化
Figure FDA00037570708700000212
具体操作是将通道C=1这个维度单独提取出来,其余维度合并;
将局部映射以及Sim进行元素之间作乘法,然后在key维度上选取前K个较高的响应值进行平均,得到l层的位置映射
Figure FDA00037570708700000213
Figure FDA0003757070870000031
第l层的序列矫正分割映射计算,如下所示:
Figure FDA0003757070870000032
其中,
Figure FDA0003757070870000033
σ(·)是sigmoid函数;
Figure FDA00037570708700000318
表示上采样操作,上采样之后的图像大小与Mpos,t保持一致;
第l层的分割预测计算,如下所示:
Figure FDA0003757070870000034
其中,convs(·)表示多层卷积,
Figure FDA0003757070870000035
反转操作,
Figure FDA0003757070870000036
表示(1-MSC,t)的运算;
对每一层的分割预测和序列矫正分割映射,计算其损失函数:
Figure FDA0003757070870000037
其中,
Figure FDA0003757070870000038
以及
Figure FDA0003757070870000039
5.根据权利要求4所述的半监督视频息肉分割系统,其特征在于,所述传播矫正反向注意力模块,利用存储池机制逐帧提取序列信息;对于第t帧,计算出第l层的特征和分割预测的向量Q和向量K:
Figure FDA00037570708700000310
Figure FDA00037570708700000311
其中,φq(·)和gq(·)表示两个平行的3x3卷积;conp(·)表示一个7x7卷积;
每一个先前帧的特征和上一步输出的分割预测被独立映射为一对V和K向量,并在时间维度上进行拼接,存储在存储池中;其中,向量V表示为
Figure FDA00037570708700000312
向量K表示为
Figure FDA00037570708700000313
其中T′表示先前帧的数量;存储池里的这些特征和当前帧的特征经过一个时间空间记忆模块,计算出一个记忆映射
Figure FDA00037570708700000314
运算方式如下:
Figure FDA00037570708700000315
Figure FDA00037570708700000316
其中,
Figure FDA00037570708700000317
表示归一化操作,[·,·]表示拼接操作;
在传播分支中,对于第t帧图像,第l层的传播矫正反向注意力模块通过对当前帧和参考帧的特征进行位置信息编码、1x1卷积计算对应的查询向量和键值向量,然后通过向量点乘计算相似性矩阵Sim;将参考帧的标注通过一个非线性函数g(x)=ex/e,计算得到局部映射;将局部映射以及Sim进行元素之间的乘法,然后在key维度上选取前K个较高的响应值进行平均,得到第t帧在第l层的位置映射Mpos,t
第l层的序列矫正分割映射计算如下所示:
Figure FDA0003757070870000041
第t帧在第l层的分割预测计算如下所示:
Figure FDA0003757070870000042
对每一层的分割预测和传播矫正分割映射,计算其损失函数:
Figure FDA0003757070870000043
6.根据权利要求5所述的半监督视频息肉分割系统,其特征在于,所述上下文无关损失函数,具体设计如下:
通过之前的正向传播中,得到预测映射,在预测映射上进行平均、扩张、收缩变化,得到病灶的大致位置预测;对每一帧图像裁剪两个有重叠区域的图像框,其中重叠区域包括息肉组织;然后,随机从两个不同的训练序列中各选一幅图像作为不同的背景,将之前裁剪后的图像框随机贴在背景图像上,获得两幅具有不同背景的合成图像;将这两幅图像平行输入至两个分支,获得不同的全局映射,其中两个分支在重叠位置的映射为Ωs,1和Ωs,2,上下文无关损失函数表示为:
Figure FDA0003757070870000044
其中,i∈Ω表示属于重叠区域的像素点。
7.根据权利要求6所述的半监督视频息肉分割系统,其特征在于,系统的训练阶段分为在伪序列上的预训练阶段以及在真实序列上的主训练阶段;
所述预训练阶段,对于模型的一个序列输入,第一帧是有标注帧,其余两帧通过第一帧的仿射变化得到;在预训练阶段,使用有标注的帧,模型是以全监督方式进行训练;
所述主训练阶段,对于模型的一个序列输入,第一帧是有标注帧作为参考帧,其余两帧是从第一帧所属序列中随机抽样得到,在抽样时保证这三帧的时序顺序;主训练阶段采用半监督的方式;损失函数表示为:
Figure FDA0003757070870000045
其中,λcps,λs,λp,λcf表示平衡和损失项的超参。
8.根据权利要求7所述的半监督视频息肉分割系统,其特征在于,训练过程采用1/15的标注比,其中每15帧标注一次图像,其它图像作为无标注图像;模型测试阶段,仅分割分支输出最终的预测结果。
CN202210861961.6A 2022-07-21 2022-07-21 基于时序一致性和上下文无关的半监督视频息肉分割系统 Pending CN115311307A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210861961.6A CN115311307A (zh) 2022-07-21 2022-07-21 基于时序一致性和上下文无关的半监督视频息肉分割系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210861961.6A CN115311307A (zh) 2022-07-21 2022-07-21 基于时序一致性和上下文无关的半监督视频息肉分割系统

Publications (1)

Publication Number Publication Date
CN115311307A true CN115311307A (zh) 2022-11-08

Family

ID=83857464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210861961.6A Pending CN115311307A (zh) 2022-07-21 2022-07-21 基于时序一致性和上下文无关的半监督视频息肉分割系统

Country Status (1)

Country Link
CN (1) CN115311307A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402833A (zh) * 2023-06-08 2023-07-07 武汉纺织大学 一种基于知识蒸馏的半监督视频目标分割方法
CN116824139A (zh) * 2023-06-14 2023-09-29 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于边界监督和时序关联的内窥镜息肉分割方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402833A (zh) * 2023-06-08 2023-07-07 武汉纺织大学 一种基于知识蒸馏的半监督视频目标分割方法
CN116402833B (zh) * 2023-06-08 2023-08-22 武汉纺织大学 一种基于知识蒸馏的半监督视频目标分割方法
CN116824139A (zh) * 2023-06-14 2023-09-29 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于边界监督和时序关联的内窥镜息肉分割方法
CN116824139B (zh) * 2023-06-14 2024-03-22 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于边界监督和时序关联的内窥镜息肉分割方法

Similar Documents

Publication Publication Date Title
CN115311307A (zh) 基于时序一致性和上下文无关的半监督视频息肉分割系统
CN111915573A (zh) 一种基于时序特征学习的消化内镜下病灶跟踪方法
Wang et al. An interactively reinforced paradigm for joint infrared-visible image fusion and saliency object detection
CN112613517B (zh) 内窥镜仪器分割方法、装置、计算机设备及存储介质
CN113344932A (zh) 一种半监督的单目标视频分割方法
Puyal et al. Polyp detection on video colonoscopy using a hybrid 2D/3D CNN
Wu et al. Multi-frame collaboration for effective endoscopic video polyp detection via spatial-temporal feature transformation
CN115953582B (zh) 一种图像语义分割方法及系统
Wang et al. Patch-free 3d medical image segmentation driven by super-resolution technique and self-supervised guidance
CN115861616A (zh) 面向医学图像序列的语义分割系统
Xu et al. RGB-T salient object detection via CNN feature and result saliency map fusion
CN113436173A (zh) 基于边缘感知的腹部多器官分割建模、分割方法及系统
Zhao et al. Semi-supervised spatial temporal attention network for video polyp segmentation
Chen et al. IGT: Illumination-guided RGB-T object detection with transformers
CN115331024A (zh) 一种基于深度监督和逐步学习的肠道息肉检测方法
Li et al. TCCNet: Temporally Consistent Context-Free Network for Semi-supervised Video Polyp Segmentation.
Chen et al. Diffusion model for camouflaged object detection
Pan et al. RANT: A cascade reverse attention segmentation framework with hybrid transformer for laryngeal endoscope images
CN114022392A (zh) 用于单幅图像去雾的串行注意增强UNet++去雾网络
Posner et al. C 3 fusion: consistent contrastive colon fusion, towards deep slam in colonoscopy
Lin et al. CSwinDoubleU-Net: A double U-shaped network combined with convolution and Swin Transformer for colorectal polyp segmentation
Zhang et al. CT-Net: Asymmetric compound branch Transformer for medical image segmentation
CN116935044B (zh) 一种多尺度引导和多层次监督的内镜息肉分割方法
CN116343052B (zh) 一种基于注意力和多尺度的双时相遥感图像变化检测网络
CN116912829A (zh) 小气道分割方法、装置、电子设备及非易失性存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination