CN115311307A

CN115311307A - 基于时序一致性和上下文无关的半监督视频息肉分割系统

Info

Publication number: CN115311307A
Application number: CN202210861961.6A
Authority: CN
Inventors: 张玥杰; 李晓彤; 刘靖正
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-11-08

Abstract

本发明属于医学图像处理技术领域，具体为基于时序一致性和上下文无关的半监督视频息肉分割系统。本发明的半监督视频息肉分割系统包括双分协同训练架构、序列矫正反向注意力模块、传播矫正反向注意力模块、及上下文无关损失函数。双分支模型包括一个分割分支和一个传播分支，两者对无标签图像使用交叉伪标签方式进行监督；序列矫正反向注意力模块提取整个序列的时序信息，保证整个输入预测的时序一致性；传播矫正反向注意力模块利用存储池逐帧提取时序信息；上下文无关损失函数保证该系统对不断变化的背景信息不敏感。本发明可在1/15的标注比下取得很好的分割性能，对于大规模视频息肉分割数据集以及其他医学镜像分割任务具有广泛应用价值。

Description

基于时序一致性和上下文无关的半监督视频息肉分割系统

技术领域

本发明属于图像处理领域，具体涉及基于时序一致性和上下文无关的半监督视频息肉分割系统。

背景技术

近年来，结直肠癌已成为全球第三大常见癌症。预防和筛查结直肠癌最有效的技术是结肠镜检查，通过结肠内窥镜拍摄视频影像，医生可评估息肉组织的位置和外观，并在息肉癌变前将其切除。然而，结肠镜检查需要专业知识，否则会导致漏诊。因此，结合计算机辅助的医学影像分析技术，提高息肉自动分割的准确性对结直肠癌的预防具有重要意义。

分析发现，目前大多数的息肉分割工作仅在静态图像上对模型进行训练和评估，未充分利用内窥镜视频帧之间的时序信息。一般来说，对于来自于同一个内镜序列的图像，它们聚焦于同一息肉目标。这些图像中息肉的轨迹和外表变化具有时序相关性。在视频息肉分割任务中，仅关注独立的静态图像显然不够。而少量作用于视频息肉数据的工作，其训练方式受限于小规模数据集。这些工作首先需要在大量静态图像进行预训练，然后在视频图像上进行微调。这种训练策略需要大量优质标注，但目前视频息肉数据规模依然很小。同时，由于息肉边界模糊且与背景组织相似，即使是熟练的临床医生也可能无法对连续帧的标注达成一致。最后，目前开源的息肉数据集属于稀疏序列，其部分相邻帧之间的变化较大，虽然内窥镜视频关注相同的息肉组织，但由于摄像机角度或灯光不同，息肉所处的上下文环境(即空腔，高光，粘膜组织)会发生变化，这可能会影响相邻帧的预测结果。

基于上述分析，本发明采用半监督的训练方法，充分挖掘内窥镜视频帧之间的时序信息，希望其达到较好的分割效果。

发明内容

本发明所解决的问题是内窥镜息肉分割问题，现有工作主要存在三点不足：(1)大多数现有工作只依赖静态图像来训练和评估模型，忽略内窥镜序列中的时序信息；(2)有限的标注数据是视频息肉分割任务的瓶颈，现有的息肉分割数据集规模比较小，训练的模型容易在训练集上过拟合，同时由于息肉边界模糊且与背景组织相似，即使是熟练的临床医生也可能无法对连续帧的标注达成一致；(3)虽然内窥镜视频关注相同的息肉组织，但由于摄像机角度或灯光不同，息肉所处的上下文环境(即空腔，高光，粘膜组织)会发生变化，这可能会影响相邻帧的预测结果。为解决所述问题，本发明提供一种基于时序一致性和上下文无关的半监督视频息肉分割系统。

本发明提供的基于时序一致性和上下文无关的半监督视频息肉分割系统，包括双分支模型协同训练架构、序列矫正反向注意力模块、传播矫正反向注意力模块以及上下文无关损失函数。所述双分支模型包括一个传播分支和一个分割分支，两者对于无标签图像使用交叉伪标签方式进行协同训练；所述序列矫正反向注意力模块在分割分支中用于提取整个序列的时序信息，保证整个输入预测的时序一致性；所述传播矫正反向注意力模块在传播分支中利用存储池机制，逐帧提取时序信息；所述上下文无关损失函数保证该系统对不断变化的背景信息不敏感。

本发明中，所述双分支模型协同训练架构，包含平行的分割分支

和传播分支

对于给定的T帧序列图像(第一帧为参考帧(I_r,Y_r)，其余帧为无标注帧

每个分支的作用都是接收上述T帧图像序列，输出序列的分割预测，可以表示为

和

每个分支分别包括编码器

和解码器

两个部分；两个分支的编码器都采用Res2Net结构；其中，传播分支编码器的参数由分割分支编码器参数每次迭代训练的指数平滑平均计算得到。通过两个分支的Res2Net编码器获得两组五个不同尺度的图像特征，具体表示为

和

其中，

l表示层数，为1，2，…，5，H和W分别特征的高和宽，C表示特征的维度；本发明只使用后三个尺度(即l＝3,4,5)进行分割预测。其中，后三个尺度的特征经过通道层面的拼接和卷积降维，被融合为全局特征

然后这个全局特征经过卷积操作，生成全局预测掩码

以上两个分支的不同之处在于解码器部分：在分割分支的解码器中，每一层的分割矫正反向注意力模块将输入图像作为一个序列整体提取时序信息，最终预测结果为

传播分支则采用逐帧预测的方式，将先前的预测信息和图像特征存储在存储池里，将这些存储的特征和当前帧的特征传入转播矫正反向注意力模块来辅助当前帧的分割预测，最终预测结果为

这里转播分支与分割分支的不同在于转播分支不会预测第一帧(也就是参考帧)的分割掩码。

所述双分支模型训练中，损失函数设计如下：

是一种有监督损失

包括对标注帧(I_r,Y_r)的交叉熵损失和IoU损失：

其中，

为交叉熵损失；

为IoU损失；P_s,r是分割分支输出的参考帧预测掩码，Y_r表示参考帧的标签。

针对无标注帧，使用交叉伪标签方法，计算两个分支无标注帧的伪标签：

其中，Y′_s,t表示分割分支上第t帧产生的伪标签，Y′_p,t表示转播分支上第t帧产生的伪标签；threshold是一个阈值，通常取为0.5；i∈I表示图像中的一个像素点i；y′_s,t,i，y′_p,t,i分别表示在分割分支、转播分支第t帧的像素i的位置上的伪标签，y′∈{0,1}；p_s,t,i，p_p,t,i分别表示分割分支、转播分支在第t帧图像的像素i上的预测值；

表示像素i是息肉，

表示像素i不是息肉。交叉伪标签损失是双向的，具体为如下所示：

本发明中，所述序列矫正反向注意力模块，提取整个序列的时序信息，保证整个输入预测的时序一致性。在分割分支中，第l层的序列矫正反向注意力模块通过接受l层和l+1层的特征图像特征以及l+1层的分割预测，计算序列矫正位置映射

位置映射由M′_pos和M_pos平均得到。

以M_pos为例，首先将第l层的特征加上一个2D的位置信息编码，通过两个1x1x1的卷积计算向量Q(也称查询向量)和向量K(也称键值向量)：

其中，θ(·)和φ(·)表示1x1x1卷积；pos(·)表示位置信息编码。将向量Q和向量进行形状转化：

其中，

是形状转化函数，主要的操作是将通道C这一维度提取出来，融合特征的其他维度；Q′和K′表示形状转换之后的向量。

将向量Q′和K′点乘得到相似性矩阵Sim；

其中，Q′(j)^l中j表示向量Q′中Q′^l的值；K′(i)^l中i表示向量K′中K′^l的值；exp(·)表示指数函数；

⊙表示矩阵乘法运算。

然后，将l+1层的分割预测通过一个非线性的函数g(x)＝e^x/e，计算得到局部映射；局部映射进行形状变化

具体操作为将通道C＝1这个维度单独提取出来，其余维度合并。

将局部映射以及Sim进行元素之间的乘法，然后在key维度上选取前K个较高的响应值进行平均，就可得到l层的位置映射

第l层的序列矫正分割映射计算，如下所示：

其中，

σ(·)是sigmoid函数；

表示上采样操作，上采样之后的图像大小与M_pos,t保持一致。

第l层的分割预测计算，如下所示：

其中，convs(·)表示多层卷积，

反转操作，

表示(1-M_SC,t)的运算。

对每一层的分割预测和序列矫正分割映射，计算其损失函数：

其中，

以及

本发明中，所述传播矫正反向注意力模块，利用存储池机制逐帧提取序列信息。以第t帧为例，计算出第l层的特征和分割预测的向量Q和向量K：

其中，φ_q(·)和g_q(·)表示两个平行的3x3卷积；con_p(·)表示一个7x7卷积。

每一个先前帧的特征和上一步输出的分割预测被独立映射为一对V和K向量，并在时间维度上进行拼接，存储在存储池中。其中，向量V表示为

向量K表示为

其中T′表示先前帧的数量。存储池里的这些特征和当前帧的特征经过一个时间空间记忆模块，计算出一个记忆映射

运算方式如下：

其中，

表示归一化操作，[·,·]表示拼接操作。

在传播分支中，对于第t帧图像，第l层的传播矫正反向注意力模块通过对当前帧和参考帧的特征进行位置信息编码、1x1卷积计算对应的查询向量和键值向量，然后通过向量点乘计算相似性矩阵Sim；将参考帧的标注通过一个非线性函数g(x)＝e^x/e，计算得到局部映射；将局部映射以及Sim进行元素之间的乘法，然后在key维度上选取前K个较高的响应值进行平均，就可得到第t帧在第l层的位置映射M_pos,t。第l层的序列矫正分割映射计算如下所示：

第t帧在第l层的分割预测计算如下所示：

对每一层的分割预测和传播矫正分割映射，计算其损失函数：

本发明中，所述上下文无关损失函数，保证该系统对不断变化的背景信息不敏感。通过之前的正向传播中，得到预测映射，在预测映射上进行平均、扩张、收缩变化，得到病灶的大致位置预测。对每一帧图像裁剪两个有重叠区域的图像框，其中重叠区域必须包括息肉组织。然后，随机从两个不同的训练序列中各选一幅图像作为不同的背景，将之前裁剪后的图像框随机贴在背景图像上，获得两幅具有不同背景的合成图像。将这两幅图像平行输入至两个分支，获得不同的全局映射，其中两个分支在重叠位置的映射为Ω_s,1和Ω_s,2，上下文无关损失函数表示为：

其中，i∈Ω表示属于重叠区域的像素点。

本系统的训练阶段分为在伪序列上的预训练阶段以及在真实序列上的主训练阶段。

所述预训练阶段，对于模型的一个序列输入，第一帧是有标注帧，其余两帧通过第一帧的仿射变化(平移、裁剪、反转、旋转)得到。在预训练阶段，使用有标注的帧，模型是以全监督方式进行训练。

所述主训练阶段，对于模型的一个序列输入，第一帧是有标注帧作为参考帧，其余两帧是从第一帧所属序列中随机抽样得到，在抽样时保证这三证的时序顺序。主训练阶段采用半监督的方式。网络的损失函数可表示为：

其中，λ_cps,λ_s,λ_p,λ_cf表示平衡和损失项的超参；

的详细表达式可见(1),(4),(13),(20),(21)。

本系统的训练过程采用1/15的标注比，其中每15帧标注一次图像，其它图像作为无标注图像。模型测试阶段，仅分割分支输出最终的预测结果。

本发明的优点包括：

首先，提出新型的半监督视频息肉分割模型。

其次，设计时序矫正反向注意力模块和序列矫正反向注意力模块来保持预测在时间上的一致性，并引入上下文无关损失来缓解不同上下文背景对序列预测的影响。

最后，本发明在三个视频息肉数据集上进行实验。结果表明，即使在1/15的标签比率下训练，本发明也可与最先进的全监督方法媲美。对于自然图像和其它医学图像的分割，本发明比现有半监督方法显示出明显优越性。

附图说明

图1是本发明中的模型框架图。

图2是本发明中的序列矫正反向注意力模块图示。

图3是本发明中的转播矫正反向注意力模块图示。

图4是本系统和其他全监督息肉分割模型的结果对比。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1所示，本发明包含两个分支，即分割分支和传播分支，在其解码器的每一层包含一个序列矫正反向注意力模块或传播矫正反向注意力模块。本模型在损失函数计算过程中包括新设计的上下文无关损失函数。本发明的工作流程为：

(一)所述双分支协同训练架构包含平行的分割分支和传播分支。模型的输入是T帧的图像序列，在本实验中设置T＝3(包括一张参考帧和两张无标注的帧)。两个分支的编码器具有相同的结构，通过编码器可获得五个不同尺度的特征，表示为

其中l表示层数取1～5，C表示特征的维度取32，H和W表示各个层的特征高度和宽度，本实验中只使用后三层的特征，其大小分别为：44x44(l＝3),22x22(l＝4),11x11(l＝5)。其中后三个尺度的特征经过通道层面的拼接和卷积降维，被融合为全局特征

然后这个全局特征经过卷积操作，生成全局预测掩码

分割分支的解码器中，T帧图像被看作一个序列整体提取时序信息，然后再进行预测，最终的预测结果为

传播分支则采用存储池机制，存储参考帧的特征、真值、先前帧的特征、分割预测，当前帧的预测结果由这些存储特征计算得到，最终预测结果为

模型的有监督损失是针对标注帧(I_r,Y_r)的交叉熵损失和IoU损失：

其中，

为交叉熵损失；

为IoU损失函数。

针对无标注帧，使用交叉伪标签方法，如下所示：

(二)所述序列矫正反向注意力模块的计算流程如图2所示。模块存在于分割分支的解码器层，作用是提取整个序列的时序信息，保证整个输入预测的时序一致性。在分割分支中，第l层的序列矫正反向注意力模块通过接受l层和l+1层的特征图像特征以及l+1层的分割预测，计算序列矫正位置映射

位置映射由M′_pos和M_pos平均得到。以M_pos为例，首先将第l层的特征加上一个2D的位置信息编码，通过两个1x1x1的卷积计算向量

和向量

将查询键值向量点乘，得到相似性矩阵Sim；将l+1层的分割预测通过一个非线性函数g(x)＝e^x/e计算，得到局部映射；局部映射进行形状变化

将局部映射以及Sim进行元素之间的乘法，然后在key维度上选取前K个较高的响应值进行平均，就可得到l层的位置映射：

其中，在本实验中，设置K＝8。

第l层的序列矫正分割映射计算，如下所示：

其中，σ(·)是sigmoid函数；

表示上采样操作。

第l层的分割预测计算，如下所示：

其中，convs(·)表示多层卷积。

其中，

以及

(三)所述传播矫正反向注意力模块的计算流程如图3所示。模块存在于传播分支的解码器层，利用存储池机制逐帧提取序列信息。以第t帧为例，计算出第l层的特征和分割预测的查询向量

以及键值向量

其中C＝32。每一个先前帧的特征和分割掩码被独立映射为一对键值和查询向量，并在时间维度上进行拼接，存储在存储池中。其中，键值向量表示为

查询向量表示为

T^′表示先前帧的数量。存储池里的这些特征和当前帧的特征经过时间空间记忆模块，计算出记忆映射

在传播分支中，对于第t帧图像，第l层的传播矫正反向注意力模块通过对当前帧和参考帧的特征进行位置信息编码、1x1的卷积计算对应的查询向量和键值向量，然后通过向量点成计算相似性矩阵Sim；将参考帧的标注通过一个非线性函数g(x)＝e^x/e计算，得到局部映射；将局部映射以及Sim进行元素之间的乘法，然后在key维度上选取前K个较高的响应值进行平均，就可以得到第t帧在第l层的位置映射M_pos,t。第l层的序列矫正分割映射计算，如下所示：

第t帧在第l层的分割预测计算，如下所示：

(四)所述上下文无关损失函数保证该系统对不断变化的背景信息不敏感。通过之前的正向传播，得到病灶的大致位置预测。对每一帧图像裁剪两个有重叠区域的图像框，其中重叠区域必须包括息肉组织。然后随机从两个不同的训练序列中各选一幅图像作为不同的背景，将之前裁剪后的图像框随机贴在背景图像上，获得两幅具有不同背景的合成图像。这两幅图像被平行输入至两个分支里面，获得不同的全局映射，其中两个分支在重叠的位置的映射为Ω_s,1和Ω_s,2，上下文无关损失函数表示为：

其中，i∈Ω表示属于重叠区域的像素点。

本系统训练过程的整体损失函数可表示为：

其中，λ_cps,λ_s,λ_p,λ_cf表示平衡和损失项的超参，在实验室中，设置λ_cps＝8,λ_s＝1,λ_p＝1,λ_cf＝2。

本系统训练阶段分为在伪序列上的预训练阶段以及在真实序列上的主训练阶段。在预训练阶段，对于模型的一个序列输入，第一帧是有标注帧，其余两帧通过第一帧的仿射变化得到(比如平移、裁剪、旋转、反转等)，预训练阶段使用的都是有标注帧，模型以全监督方式进行训练；所述主训练阶段，对于模型的一个序列输入，第一帧是有标注帧作为参考帧，其余两帧是从第一帧所属序列中随机抽样得到，抽样时保证这三帧的时序顺序。

本系统使用的数据集包括CVC-300、CVC-612、ETIS等视频息肉分割的数据集，数据集划分为设置CVC-300和CVC-612 60％的视频序列作为训练集，其余作为测试集，ETIS全部序列作为测试集。本系统在应用时采用1/15的标注比，即对于来自同序列的图像，每15帧作为有标注帧，其余帧作为无标注帧，共同训练模型。

模型的输入时序列长度为T＝3的图像，图像大小为352x352,并归一化到[-0.5,0.5]。在训练过程中，batchsize设置为2，在训练阶段：首先预训练阶段，在上述伪序列数据集上使用Adam优化器和0.0001的学习率训练200轮；然后主训练阶段，在上述真实序列数据集上使用Adam优化器和多项式衰减的学习率(初始学习率为0.0001)训练40轮。训练阶段对数据集进行数据增强，比如旋转、裁剪、颜色强度调整。

在测试阶段，在1/15的标注比下，CVC-300-TV、CVC-612-V、CVC-612-T和ETIS数据集上达到了82.4％、85.4％、82.7％和61.8％的mDice以及73.0％、77.7％、75.2％和53.7％mIoU。其中，可以和近些年全监督息肉分割的工作(即全部的训练图像多作为训练集)媲美，其中测试集在CVC-612-V和ETIS上mDice指标超过全监督工作1.4％和7.1％。其中ETIS是训练集中不可见的数据集(即数据集中所有图像分布在训练集中不可见)，通过分析原因发现，由于数据集的规模较小，大多数全监督方法容易在可见数据集上过拟合，而本系统中的双分支协同训练架构和一致性正则方法可以增加模型的泛化能力。和近些年在其他图像分割任务的半监督模型相比，本系统在上述数据集上mDice分别提升了1.1％、0.7％、0.1％和0.4％。模型的可视化效果如图4所示，第一列是输入的一个序列的三张图像，第二列是图像的标注，第三列是本系统的预测效果。其他方法容易把第三张图像的伪影(篮框标注的部分)识别为息肉，而本系统可以通过融合相邻帧的特征，来抑制这种错误预测。

综上所述，本发明针对目前息肉分割任务存在的问题，提出一种新颖的基于时序一致性和上下文无关的半监督视频息肉分割系统，通过设计双分支的协同训练结构、序列矫正反向注意力模块、传播矫正反向注意力模块、及上下文无关损失函数，在1/15的标注比下对视频息肉图像进行分割。

Claims

1.一种基于时序一致性和上下文无关的半监督视频息肉分割系统，其特征在于，包括双分支模型、序列矫正反向注意力模块、传播矫正反向注意力模块以及上下文无关损失函数；所述双分支模型包括一个传播分支和一个分割分支，两者对于无标签图像使用交叉伪标签方式进行协同训练；所述序列矫正反向注意力模块在分割分支中用于提取整个序列的时序信息，保证整个输入预测的时序一致性；所述传播矫正反向注意力模块在传播分支中利用存储池机制，逐帧提取时序信息；所述上下文无关损失函数保证该系统对不断变化的背景信息不敏感。

2.根据权利要求1所述的半监督视频息肉分割系统，其特征在于，所述双分支模型包含平行的分割分支

和传播分支

对于给定的T帧序列图像，其第一帧为参考帧(I_r，Y_r)，其余帧为无标注帧：

两个分支都是接收上述T帧图像序列，输出序列的分割预测，分别表示为

和

每个分支分别包括编码器和解码器两个部分，分别记为：

和

两个分支的编码器都采用Res2Net结构；其中，传播分支编码器的参数由分割分支编码器参数每次迭代训练的指数平滑平均计算得到；通过两个分支的Res2Net编码器获得两组五个不同尺度的图像特征，具体表示为

和

其中，

l表示层数，为1，2，…5，H和W分别特征的高和宽，C表示特征的维度；后三个尺度即l＝3、4、5经过通道层面的拼接和卷积降维，被融合为全局特征

然后这个全局特征经过卷积操作，生成全局预测掩码

3.根据权利要求2所述的半监督视频息肉分割系统，其特征在于，所述双分支模型训练中，损失函数是一种有监督损失

包括对标注帧(I_r，Y_r)的交叉熵损失和IoU损失：

其中，

为交叉熵损失；

为IoU损失；P_s，r是分割分支输出的参考帧预测掩码，Y_r表示参考帧的标签；

其中，Y′_s，t表示分割分支上第t帧产生的伪标签，Y′_p，t表示转播分支上第t帧产生的伪标签；Threshold是一个阈值；i∈I表示图像中的一个像素点i；y′_s，t，i，y′_p，t，i分别表示在分割分支、转播分支第t帧的像素i的位置上的伪标签，y′∈{0，1}；p_s，t，i，p_p，t，i分别表示分割分支、转播分支在第t帧图像的像素i上的预测值；

表示像素i是息肉，

表示像素i不是息肉；交叉伪标签损失是双向的，具体为如下所示：

4.根据权利要求3所述的半监督视频息肉分割系统，其特征在于，所述序列矫正反向注意力模块，提取整个序列的时序信息，保证整个输入预测的时序一致性；在分割分支中，第l层的序列矫正反向注意力模块通过接受l层和l+1层的特征图像特征以及l+1层的分割预测，计算序列矫正位置映射

位置映射由M′_pos和M_pos平均得到；

对于M_pos，首先将第l层的特征加上一个2D的位置信息编码，通过两个1x1x1的卷积计算向量Q和向量K：

其中，θ(·)和φ(·)表示1x1x1卷积；pos(·)表示位置信息编码；将向量Q和向量进行形状转化：

其中，

是形状转化函数，主要的操作是将通道C这一维度提取出来，融合特征的其他维度；Q′和K′表示形状转换之后的向量；

将向量Q′和K′点乘得到相似性矩阵Sim；

其中，Q′(j)^l中j表示向量Q′中Q′^l的值；K′(i)^l中i表示向量K′中K′^l的值；exp(·)表示指数函数；⊙表示矩阵乘法运算；

具体操作是将通道C＝1这个维度单独提取出来，其余维度合并；

将局部映射以及Sim进行元素之间作乘法，然后在key维度上选取前K个较高的响应值进行平均，得到l层的位置映射

第l层的序列矫正分割映射计算，如下所示：

其中，

σ(·)是sigmoid函数；

表示上采样操作，上采样之后的图像大小与M_pos，t保持一致；

第l层的分割预测计算，如下所示：

其中，convs(·)表示多层卷积，

反转操作，

表示(1-M_SC，t)的运算；

其中，

以及

5.根据权利要求4所述的半监督视频息肉分割系统，其特征在于，所述传播矫正反向注意力模块，利用存储池机制逐帧提取序列信息；对于第t帧，计算出第l层的特征和分割预测的向量Q和向量K：

其中，φ_q(·)和g_q(·)表示两个平行的3x3卷积；con_p(·)表示一个7x7卷积；

每一个先前帧的特征和上一步输出的分割预测被独立映射为一对V和K向量，并在时间维度上进行拼接，存储在存储池中；其中，向量V表示为

向量K表示为

其中T′表示先前帧的数量；存储池里的这些特征和当前帧的特征经过一个时间空间记忆模块，计算出一个记忆映射

运算方式如下：

其中，

表示归一化操作，[·，·]表示拼接操作；

在传播分支中，对于第t帧图像，第l层的传播矫正反向注意力模块通过对当前帧和参考帧的特征进行位置信息编码、1x1卷积计算对应的查询向量和键值向量，然后通过向量点乘计算相似性矩阵Sim；将参考帧的标注通过一个非线性函数g(x)＝e^x/e，计算得到局部映射；将局部映射以及Sim进行元素之间的乘法，然后在key维度上选取前K个较高的响应值进行平均，得到第t帧在第l层的位置映射M_pos，t；

第l层的序列矫正分割映射计算如下所示：

第t帧在第l层的分割预测计算如下所示：

6.根据权利要求5所述的半监督视频息肉分割系统，其特征在于，所述上下文无关损失函数，具体设计如下：

通过之前的正向传播中，得到预测映射，在预测映射上进行平均、扩张、收缩变化，得到病灶的大致位置预测；对每一帧图像裁剪两个有重叠区域的图像框，其中重叠区域包括息肉组织；然后，随机从两个不同的训练序列中各选一幅图像作为不同的背景，将之前裁剪后的图像框随机贴在背景图像上，获得两幅具有不同背景的合成图像；将这两幅图像平行输入至两个分支，获得不同的全局映射，其中两个分支在重叠位置的映射为Ω_s，1和Ω_s，2，上下文无关损失函数表示为：

其中，i∈Ω表示属于重叠区域的像素点。

7.根据权利要求6所述的半监督视频息肉分割系统，其特征在于，系统的训练阶段分为在伪序列上的预训练阶段以及在真实序列上的主训练阶段；

所述预训练阶段，对于模型的一个序列输入，第一帧是有标注帧，其余两帧通过第一帧的仿射变化得到；在预训练阶段，使用有标注的帧，模型是以全监督方式进行训练；

所述主训练阶段，对于模型的一个序列输入，第一帧是有标注帧作为参考帧，其余两帧是从第一帧所属序列中随机抽样得到，在抽样时保证这三帧的时序顺序；主训练阶段采用半监督的方式；损失函数表示为：

其中，λ_cps，λ_s，λ_p，λ_cf表示平衡和损失项的超参。

8.根据权利要求7所述的半监督视频息肉分割系统，其特征在于，训练过程采用1/15的标注比，其中每15帧标注一次图像，其它图像作为无标注图像；模型测试阶段，仅分割分支输出最终的预测结果。