CN114565762A

CN114565762A - 基于roi和分裂融合策略的弱监督肝脏肿瘤分割

Info

Publication number: CN114565762A
Application number: CN202210187222.3A
Authority: CN
Inventors: 樊梦尧; 焦昶哲
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-05-31

Abstract

本发明公开了一种基于ROI和分裂融合策略的弱监督肝脏肿瘤分割方法，主要解决现有弱监督方法对目标定位不够完整准确的问题。其实现方案为：对输入图像进行划分，得到训练集和测试集；构建基于ROI和分裂融合策略的像素级标签生成网络W；用训练集对网络W进行迭代训练，得到初步训练完成的网络W_i，再将训练集重新输入到初步训练完成的网络W_i中进行迭代训练得到最终训练好的网络W′；利用W′生成像素级的标签训练已有的语义分割网络G，得到训练好的分割模型G'；将测试集的图像送入G'进行测试得到分割结果。本发明在使用边框级弱标注避免手动获得大量像素级标签的情况下取得了良好性能，可用于辅助医疗的诊断，肿瘤筛查。

Description

基于ROI和分裂融合策略的弱监督肝脏肿瘤分割

技术领域

本发明属于医学图像智慧诊断技术领域，特别涉及一种弱监督的肝脏肿瘤分割方法，可用于临床的辅助诊断，肝肿瘤筛查等。

背景技术

肝癌是世界上最常见的癌症之一，是全球癌症死亡的主要病因之一，据2015年世界卫生组织统计，肝癌已成为全球癌症死亡的第二大疾病。当前临床对于肝癌的诊断，准确率较高的是肝脏穿刺活检术，但是该检测方案在实施难度、患者体验以及术后恢复等方面均存在明显的不足。随着计算机断层扫描CT技术的日益成熟，医学图像分析已广泛应用于医疗诊断、术前计划和术后监测等临床医学的各个环节。传统的肝脏临床诊断中，往往是医生根据病人的医学影像来发现病变，但随着CT精度的提高，每次扫描所得到的CT图像数量也大大增加，使得医生的工作量大大增加，同时CT图像的分析和诊断十分依赖医生的主观判断，这些因素都加大了误诊或者漏诊的可能性。而对肝脏病变分析的前提是从CT图像中快速、准确地定位肝脏区域，因此，设计一种快速、准确分割肝脏的计算机辅助诊断CAD系统在临床应用中具有重要意义。由于肝脏周围存在的肌肉以及其他器官例如心脏和肾脏等与肝脏在灰度对比上差异小，导致肝脏边缘模糊，给肝脏的分割带来了挑战。

传统的肝脏分割方法是通过手动设置特征来对肝脏及肿瘤进行分割的，这就意味着肝脏的分割结果极大程度上受到手动设置的特征的影响，大致可分为基于灰度以及基于结构等分割方法。

基于灰度的方法主要有Yang等人分别提出的基于水平集算法LSM的肝脏和肿瘤分割方法，它首先通过在预处理后的二元图像上设置种子点进行区域生长获得粗糙肝脏区域，并使用水平集算法LSM细化得到肝脏分割结果；然后采用局部强度聚类的水平集算法LSM与隐马尔可夫随机场和期望最大化算法结合的方法用于提取肝脏肿瘤。这种方法的不足之处在于当目标与背景之间的灰度差异较小时，难以对肝脏和周围组织进行有效的区分，方法将失去有效性。

基于结构的方法已被证明是一种有效而又强大的分割方法，已应用于诸多医学领域。Baazaoui所提出引入基于熵的模糊区域生长EFRG技术来分割肝脏肿瘤用于从CT图像中分割单个和多个肝脏病变，并减小少分割的可能，特别是在包括若干病变的CT图像中，能在一定程度上提升分割的鲁棒性，但是该方法的缺点在于结果很大程度上取决于样本的选择，经常需要人工挑选大量的样本进行训练学习。

最近，深度学习方法被应用于医学图像处理等众多领域，其中基于卷积神经网络CNNs的方法应用最为广泛，该卷积神经网络不需要人工对特征进行标注，通过端到端的方法学习特征，不断的调整参数来实现分割任务，且可达到超越传统分割算法的性能。

基于深度学习的语义分割方法主要有Long等于2015年提出了全卷积网络FCN，该网络试图从抽象特征中恢复出每个像素的类别，能适应任意尺寸的输入，解决了语义级别的图像分割问题，也为后面多种语义分割的方法奠定了基础。全卷积网络FCN最大特点在于把卷积神经网络CNNs最后的全连接层转换成卷积层，输出的是一张带有标签的图片，而这个图片就可以用做语义分割，解决了输入尺寸的问题使得网络可以输入任意大小的图片，该方法也为今后的语义分割网络模型奠定了基础。

但是，包括全卷积网络FCN在内的如今大量的语义分割方案围绕全监督卷积神经网络进行研究，全监督卷积神经网络的缺点是需要利用大量手工标注的像素级别信息，而通过人工手动地对图像进行像素级别的标注非常耗时耗力。Lin等学者指出MSCOCO数据集的标注人员平均花费10.1分钟对每幅图进行逐像素的标注，而平均只需要4.1秒对图像形成更弱的类别标注信息。正是基于弱监督大大减少了时间和人力成本很多学者现在都对弱监督领域产生了极大的兴趣。

弱监督语义分割方法的主要目的就是从弱标记例如框级别的标记想办法生成像素级的标记，再利用像素级的标记去训练传统的语义分割网络，即先从框级别的弱标记得到像素级的精确标记；再利用得到的像素级的标记训练传统的语义分割网络，从而避免通过人工得到像素级的标记。现有的弱监督方法主要是以Khosla等人提出的类激活映射CAM为基础，该方法通过分类网络对输出通道进行加权组合得到目标的定位图，但是该方法由于只能找到目标的一部分关键区域，从而使得对目标的定位不完整，生成的像素级标签不完整，导致后续训练分割网络时的结果较差。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于感兴趣区域ROI和分裂融合策略的弱监督肝脏肿瘤分割方法，以得到更准确的像素级的标签，提高分割网络的分割效果。

为实现上述目的，本发明的技术方案包括如下：

(1)获取经过审查的肝脏肿瘤CT数据集，将其80％图像作为训练集，剩余20％图像作为测试集，并对该训练集的CT肝脏肿瘤图像进行框级别的弱标注，标注的矩形框记作真值框GTBox，得到了标注后训练集CT肝脏图像的框级标注文件集；

(2)构建基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W：

(2a)选用一个基于ResNet50的特征提取主干网络，该网络的输出为4个不同尺度的特征图，对4个不同尺度特征图按尺度由小到大记为P1，P2，P3，P4；

(2b)在P1，P2，P3，P4特征图的基础上建立以框为感兴趣区域ROI的区域建议网络RPN的初始框anchor生成器，用于得到不同尺度的初始框anchor；

(2c)根据不同尺度的初始框anchor和P1，P2，P3，P4四个特征图构造区域建议网络RPN的建议框proposal生成器，根据该建议框proposal生成器输出的初始框anchor的预测回归参数计算初始框anchor的回归损失L_reg，再用初始框anchor的预测回归参数对初始框anchor进行空间坐标调整得到建议框proposal；

(2d)将(2c)生成的建议框proposal划分为正负样本，用特征层计算公式Layer确定划分为正负样本的建议框proposal所在的特征层，得到划分为正负样本的建议框proposal的特征；

(2e)构建由分类器A和分类器B、C组成的分裂融合模块，其中A,B,C的主体均由2层卷积构成，第一个卷积层的输入为已划分为正负样本的建议框proposal的特征，分类器A,B,C各自第二个卷积层的输出分别为S_a、S_b、S_c；对S_a，S_b，S_c进行全局平均池化得到P_a，P_b，P_C作为分类器将建议框proposal预测为正样本的概率，并计算三个分类器各自的分类损失loss_a、loss_b、loss_c；

(2f)对A，B分类器的最后卷积层的输出S_a，S_b分别进行Softmax操作进行归一化，得到归一化的结果为M_A，M_B，并计算S_a与S_b之间的分裂损失loss_split：

其中，

和

分别代表M_A M_B在位置i,j处的值，β是分裂强度系数，S_h和S_w分别是特征图的高和宽；

(2g)计算S_a与S_b之间融合损失loss_inter：

取S_a和S_b逐个位置的最小值定义为S_inter，并对S_inter进行平均池化得到池化结果P_inter，利用池化结果P_inter计算S_a与S_b之间的融合损失loss_inter：

i的取值为1～M，M为建议框proposal的个数；

(2h)将上述特征提取主干网络作为第一部分，区域建议网络RPN的初始框anchor生成器作为第二部分，区域建议网络RPN的建议框proposal生成器作为第三部分，分类器A,B,C组成的分裂融合模块作为第四部分，对这四部分依次级联组成基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W，并设该网络的总损失loss为：

loss＝L_reg+loss_a+loss_b+loss_c+loss_split+loss_inter；

(3)利用随机梯度下降SGD算法对基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W进行迭代训练，得到训练好的得到训练好的基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W′；

(4)生成每张图片的像素级别标签：

(4a)将训练集每张图片分别送入训练好的基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W′，先执行(2a)得到图片的特征图，再根据每张图片真值框GTBox的坐标从特征图上提取真值框GTBox的特征；

(4b)将每张照片的每个真值框GTBox的特征依次送入分类器A，B，C中，通过合并策略得到三个分类器的合并图U_map作为真值框中肿瘤概率分布的热量图；

(4c)将(4a)中得到的真值框GTBox的特征图通过聚类操作，再将聚类结果结合(4b)中的合并图U_map得到像素级肿瘤标签；

(5)利用步骤(4)生成的像素级肿瘤标签和训练图像，结合随机梯度下降SGD算法去训练现有的语义分割网络DeepLabV3，得到训练好的语义分割网络DeepLabv3；

(6)将测试集的图像输入到训练好的DeepLabV3网络进行分割，得到每张图片与原图片大小相同的二维数组，该二维数组的每个像素位置的值代表原图像在该位置处像素为肿瘤的概率，并将其与设定的阈值0.5进行比较：

如果概率大于0.5，则预测原图像在该处为肿瘤，

如果概率小于0.5，则预测原图像在该处为背景。

本发明与现有技术相比具有如下的优点：

1)获得更完整准确的像素标记

本发明由于引入了分裂融合策略，可以关注到更多的肿瘤区域，同时由于通过对网络所提取的真值框GTBox中的特征进行聚类得到肿瘤的近似占比P，且取框内概率前百分之P的像素作为确定的肿瘤像素，其余1-P的像素作为背景，可得到更完整准确的肿瘤像素标记；

2)具有更好的分割结果

本发明由于获得的像素级标签更准确完整，提升了训练后的语义分割网络分割效果。

3)泛化能力强

本发明所提出的策略不仅可以用于肝脏肿瘤分割而且可以被推广到其他弱监督分割任务中，且在分割模型的选择上有较大的自主性。

附图说明

图1是本发明的实现流程图；

图2是本发明中构建的基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W结构图；

图3是本发明中对训练集图像生成的肿瘤像素分布概率图；

图4是使用本发明在测试集上的预测结果图。

具体实施方式

下面结合附图对本发明的实施例和效果作进一步详细描述。

参照图1，本发明的实现步骤如下：

步骤1.构建训练及测试数据。

(1.1)输入肝脏肿瘤图像，将80％图像作为训练集，20％图像作为测试集，本实例所用数据共5690张图像，其中4552张图片作为训练集，1138张图片作为测试集；

(1.2)对训练集中的图像进行边框级的弱标注，将标注好的弱标签文件保存用于后续训练。

步骤2.构建基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W。

参照图2，本步骤的具体实现如下：

(2.1)选用包括4个结构单元在内的共计50层的ResNet50特征提取网络，其中：

第一个单元由9层卷积层构成，每3层卷积为一组，每组中第一层卷积核的大小为1×1，第二层卷积核的大小为3×3，第三层的卷积核的大小为1×1，总共3组，每组的结构相同，其输出特征图P1作为第二个结构单元的输入，P1的尺寸为第一个结构单元输入的一半；

第二个单元由12层卷积层构成，每三层卷积为一组，每组中第一层卷积的大小为1×1，第二层卷积核的大小为3×3，第三层的卷积核的大小为1×1，总共4组，每组的结构相同，其输出特征图P2作为第三个结构单元的输入，P2的尺寸为第二个结构单元输入的一半；

第三个单元由18层卷积构成，每3层卷积为一组，每组中第一层卷积核的大小为1×1，第二层卷积核的大小为3×3，第三层的卷积核的大小为1×1，总共6组，每组的结构相同，其输出特征图P3作为第四个结构单元的输入，P3的尺寸为第三个结构单元输入的一半；

第四个单元由9层卷积构成，每3层卷积为一组，每组中第一层卷积核的大小为1×1，第二层卷积核的大小为3×3，第三层的卷积核的大小为1×1，总共3组，每组的结构相同，P4的尺寸为第四个结构单元输入的一半；

(2.2)在(2.1)中P1，P2，P3，P4这四个特征层的每个空间位置上生成3个初始框anchor，其中：

P1特征层每个位置上的3个初始框anchor的高宽比分别为0.5、1.0、2.0，面积均为20²；

P2特征层每个位置上的3个初始框anchor的高宽比分别为0.5、1.0、2.0，面积均为40²；

P3特征层每个位置上的3个初始框anchor的高宽比分别为0.5、1.0、2.0，面积均为80²；

P4特征层每个位置上的3个初始框anchor的高宽比分别为0.5、1.0、2.0，面积均为160²。

(2.3)构造区域建议网络RPN的建议框生成器，该建议框生成器由由两个卷积层级联构成，其中：

第一卷积层的输入为P1，P2，P3，P4四个特征层，其输出作为第二卷积层的输入；

第二卷积层的输出作为(2.2)中P1，P2，P3，P4四个特征层上初始框anchor的预测回归参数，其输出维度为12×H×W，H代表输入的特征层的高度，W代表输入的特征层的宽度，12代表特征层每个空间位置上生成的3个初始框anchor的预测回归参数，每4个一组代表一个初始框anchor的预测回归参数，每组预测回归参数记为t_x、t_y、t_h、t_w，其中，t_x代表对初始框anchor中心点横坐标要调整的预测量，t_y代表对初始框anchor中心点纵坐标要调整的预测量，t_h代表对初始框anchor的高度要调整的预测量，t_w代表对初始框anchor宽度要调整的预测量；并使用预测回归参数对初始框anchor进行空间坐标调整得到建议框proposal；

(2.4)计算初始框anchor的回归损失L_reg，即只在所有初始框anchor中挑选与真值框GTBox的交并比IOU大于0.5的初始框anchor去计算其回归损失L_reg，公式如下：

其中，t_i为第i个初始框anchor的预测的回归参数，t_i＝[t_x,t_y,t_w,t_h]，t_x代表对初始框anchor中心点横坐标要调整的预测量，t_y代表对初始框anchor中心点纵坐标要调整的预测量，t_w代表对初始框anchor宽度要调整的预测量，t_h代表对初始框anchor的高度要调整的预测量，i的取值为1～N，N为与真值框GTBox的交并比IOU大于0.5的初始框anchor的数量；

为第i个初始框anchor的真实的回归参数，真实的回归参数为初始框anchor与所有真值框GTBox中交并比IOU最大的那一个真值框GTBox之间的实际误差，

代表初始框anchor中心点横坐标真实的调整参数，

代表初始框anchor中心点横坐标真实的调整参数，

代表初始框anchor宽度真实的调整参数，

代表初始框anchor高度真实的调整参数。

(2.5)将(2.3)中生成的将建议框proposal划分正负样本：

(2.5.1)计算每个建议框proposal与所有真值框GTBox的交并比IOU：

Aⁱ代表第i个建议框proposal，B^j代表第j个真值框GTBox；IOU_i，j代表第i个建议框proposal与第j个真值框GTBox的交并比IOU，i的取值为1～M，M代表建议框proposal的个数，M取值为65280；j的取值为1～K，K不是一个固定值图片中有几个肿瘤K就为多大代表该张图片中真值框GTBox的数量，|·|为求像素的数量，∩为求交集；

(2.5.2)在第i个建议框proposal与所有真值框GTBox的IOU中找到最大值为

(2.5.3)设定正阈值为pos＝0.5，负阈值neg＝0；

(2.5.4)将最大值

与设定的正负阈值进行比较：

如果

大于正阈值，则第i个建议框proposal为正样本；

如果

小于负阈值，则第i个建议框proposal为负样本；

最后，将处于正负阈值中间的建议框proposal丢弃。

(2.6)根据特征层计算公式Layer，先确定划分为正负样本的建议框proposal所在的特征层，再得到划分为正负样本的建议框proposal的特征，Layer公式如下：

其中，w,h分别为建议框proposal的高和宽，l₀＝3，

代表向下取整操作；

(2.7)构建由第一分类器A和第二分类器B、第三分类器C组成的分裂融合模块，其中A,B,C的主体均由2层卷积构成，第一个卷积层的输入为已划分为正负样本的建议框proposal的特征，这三个分类器A,B,C各自的第二个卷积层输出分别为S_a、S_b、S_c；

(2.8)对S_a、S_b、S_c进行全局平均池化得到其各自平均池化后结果P_a、P_b、P_C将P_a、P_b、P_C分别作为三个分类器A，B，C预测建议框proposal为正样本的概率，并计算三个

分类器A，B，C各自的分类损失loss_a、loss_b、loss_c：

其中，Li＝1代表第i个建议框proposal为正样本，Li＝0代表第i个建议框proposal为负样本，i的取值为1～L，L为随机挑选的正、负建议框proposal的个数，在所有正、负建议框proposal中总共随机挑选512个建议框proposal，本实例取但不限于L为512；Pa代表分类器A将建议框proposal预测为正样本的概率，Pb代表分类器B将建议框proposal预测为正样本的概率，Pc代表分类器C将建议框proposal预测为正样本的概率。

(2.9)对A，B分类器的最后卷积层的输出S_a，S_b分别通过Softmax操作进行归一化得到归一化的结果为M_A，M_B

其中，

代表S_a在位置i,j处的值，

代表S_b在位置i,j处的值；

和

分别代表M_A，M_B在位置i,j处的值；

(2.10)使用(2.9)得到的M_A，M_B计算S_a与S_b之间的分裂损失loss_split：

其中，

和

分别代表M_A M_B在位置i,j处的值，β是分裂强度系数，本实例取但不限于β为5，S_h和S_w分别是特征图的高和宽；

(2.11)计算S_a与S_b之间的融合损失loss_inter：

其中，i的取值为1～L，L为随机挑选的正、负建议框proposal的个数，L取值为512；

(2.12)将提取主干网络作为第一部分，区域建议网络RPN的初始框anchor生成器作为第二部分，区域建议网络RPN的建议框proposal生成器作为第三部分，分类器A,B,C组成的分裂融合模块作为第四部分，对这四部分依次级联组成基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W，计算基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W的总损失loss：

loss＝L_reg+loss_a+loss_b+loss_c+loss_split+loss_inter。

步骤3.对基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W进行迭代训练。

(3.1)将训练集图片分为X个批次，X取值为759，初始化I＝1，对第I个批次进行训练：

(3.1.1)将第I批次图片送入网络W作为其第一部分的输入，该第一部分的输出作为第二部分的输入，依次类推，得到第I批次的网络损失loss，根据该网络损失loss，利用随机梯度下降SGD算法分别对W网络中的特征主干提取部分、建议框proposal生成器卷积层、三个分类器A，B，C的卷积层权重参数进行更新；

(3.1.2)将I与X进行比较：

如果I小于等于X，则令I＝I+1，返回(3.1.1)继续训练；

如果I大于X，则得到初步训练后基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W_i，i的取值为1～T，T为设置总迭代次；

(3.2)设总迭代次数为T，对基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W_i循环执行(3.1)共T次，T取值为30，得到训练好的基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W′。

步骤4.生成每张图片的伪像素级别标签。

(4.1)将训练集每张图片分别送入训练好的基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W′，先执行(2.1)得到图片的特征图，再根据每张图片真值框GTBox的坐标在特征图上提取真值框GTBox的特征；

(4.2)将每张照片的每个真值框GTBox的特征依次送入分类器A，B，C中，分类器A得到S_a，分类器B得到S_b，分类器C得到S_c；将S_a，S_b，S_c分别进行最大最小归一化得到各自的热量图h_a、热量图h_b、热量图h_c；将h_a，h_b，h_c逐元素取三者的最大值得到合并结果，再将h_a，h_b，h_c的合并结果缩放到原来真值框GTBox的大小后得到合并图U_map，合并图U_map每个位置的热量表明该真值框GTBox中每个位置为肿瘤的概率，如图3所示其中，图3(a)列为原图，图3(b)列为金标准像素级标签图，图3(c)列为U_map热量图；

(4.3)对得到的真值框GTBox的特征图通过聚类操作，再将聚类结果与合并图U_map结合得到像素级肿瘤标签：

(4.3.1)将真值框GTBox的特征图进行K-means聚类，类别数为2，对每一个类别根据合并图U_map的值求每一类的平均概率值；

(4.3.2)用两类别中平均概率值较大的一类的像素数除以真值框GTBox的特征图内总的像素数计算出平均概率大的一类的像素数在真值框GTBox的特征图中的比例p，作为肿瘤在真值框GTBox中的占比；

(4.3.3)对真值框GTBox框中概率值在前百分之p的像素打上肿瘤的标记，生成像素级肿瘤标签。

步骤5.根据生成的伪标签，采用随机梯度下降SGD算法对现有的语义分割网络DeepLabV3进行训练。

(5.1)将训练集图片分为Y个批次，Y取值为759，初始化J＝1，对第J个批次进行训练：

(5.1.1)将第J批次训练集图片送入DeepLabV3网络得到本批次输出，用二值交叉熵计算本轮输出和伪标签之间的损失loss_seg，根据loss_seg利用随机梯度下降SGD算法更新DeepLabv3网络的参数；

(5.1.2)比较J和Y：

如果J小于等于Y，则令J＝J+1，继续执行(5.1.1)；

如果J大于Y，则得到初步训练的DeepLabv3ⁱ网络，i的取值为1～R，R为设置总迭代次；

(5.2)设总迭代次数为R，对初步训练好的DeepLabv3ⁱ网络循环迭代执行(5.1)共R次，R取值为50，得到训练好的DeepLabv3网络。

步骤6.像素预测。

将测试集的图像输入到训练好的DeepLabV3网络进行分割，得到每张图片与原图片大小相同的二维数组，该二维数组的每个像素位置的值代表原图像在该位置处像素为肿瘤的概率，并将其与设定的阈值0.5进行比较：

如果概率大于0.5，则预测原图像在该处为肿瘤，

如果概率小于0.5，则预测原图像在该处为背景，

预测结果的示例如图4所示，其中图4(a)列为原图，图4(b)列为金标准的像素级标注，图4(c)列为预测的结果，从预测结果的可视化图可见本发明的方法与金标准的像素级标注接近。

本发明的效果可通过以下仿真进一步说明。

1.仿真条件

本实验使用的服务器配置为2.9GHz的Intel i7-10700 CPU和一张12-GB的NVIDIA2080TiGPU，使用PyTorch代码框架实现深度网络模型，开发语言为Python 3.8。

实验所用的每一幅图像的尺寸为512×512，包含1个通道，像素值范围从0-255，其中，每幅图像中目标类别有两类，分别是肝脏肿瘤像素和其他背景像素。

2.仿真内容

用本发明和现有的全监督方法FCN在测试集上分别进行分割测试，得到每种方法的交并比IOU作为评价指标，如表1所示。

表1

方法	标注形式	监督类型	IOU
				FCN	像素级	完全监督	0.48
本发明	边框级	弱监督	0.51

从表1中可见，本发明仅使用边框级标注分割结果优于FCN的全监督方法，同时本发明不需要人工去获得像素级标签，节省了大量的人力时间成本。

综上，本发明在仅仅提供框级标注的情况下仍然能够得到满意的检测结果，对类内差异的适应性良好，具有更强的适应性。

Claims

1.基于ROI和分裂融合策略的弱监督肝脏肿瘤分割，其特征在于，包括如下：

其中，

和

(2g)计算S_a与S_b之间融合损失loss_inter：

i的取值为1～M，M为建议框proposal的个数；

loss＝L_reg+loss_a+loss_b+loss_c+loss_split+loss_inter；

(3)利用随机梯度下降SGD算法对基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W进行迭代训练，得到训练好的基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W′；

(4)生成每张图片的像素级别标签：

如果概率大于0.5，则预测原图像在该处为肿瘤，

如果概率小于0.5，则预测原图像在该处为背景。

2.根据权利要求1所述的方法，其中2(b)中建立初始框anchor生成器，是在P1，P2，P3，P4这四个特征层的每个空间位置上生成3个初始框anchor，其中：

P1特征层每个位置上的3个初始框anchor的高宽比分别为0.5、1.0、2.0，面积都为20²；

P2特征层每个位置上的3个初始框anchor的高宽比分别为0.5、1.0、2.0，面积都为40²；

P3特征层每个位置上的3个初始框anchor的高宽比分别为0.5、1.0、2.0，面积都为80²；

P4特征层每个位置上的3个初始框anchor的高宽比分别为0.5、1.0、2.0，面积都为160²。

3.根据权利要求1所述的方法，其中(2c)中构建的建议框proposal生成器，由两个卷积层级联构成，其中：

第二卷积层的输出作为(2b)中P1，P2，P3，P4四个特征层上初始框anchor的预测回归参数，其输出维度为12×H×W，H代表输入的特征层的高度，W代表输入的特征层的宽度，12代表特征层每个空间位置上生成的3个初始框anchor的预测回归参数，每4个一组代表一个初始框anchor的预测回归参数，每组预测回归参数记为t_x、t_y、t_h、t_w，其中，t_x代表对初始框anchor中心点横坐标要调整的预测量，t_y代表对初始框anchor中心点纵坐标要调整的预测量，t_h代表对初始框anchor的高度要调整的预测量，t_w代表对初始框anchor宽度要调整的预测量。

4.根据权利要求1所述的方法，其中(2c)中计算初始框anchor的回归损失L_reg，只是在所有初始框anchor中挑选与真值框GTBox的交并比IOU大于0.5的初始框anchor去计算其回归损失L_reg，公式如下：

其中：t_i为第i个初始框anchor的预测的回归参数，t_i＝[t_x,t_y,t_w,t_h]，t_x代表对初始框anchor中心点横坐标要调整的预测量，t_y代表对初始框anchor中心点纵坐标要调整的预测量，t_w代表对初始框anchor宽度要调整的预测量，t_h代表对初始框anchor的高度要调整的预测量，i的取值为1～N，N为与真值框GTBox的交并比IOU大于0.5的初始框anchor的数量；

代表初始框anchor中心点横坐标真实的调整参数，

代表初始框anchor中心点横坐标真实的调整参数，

代表初始框anchor宽度真实的调整参数，

代表初始框anchor高度真实的调整参数。

5.根据权利要求1所述的方法，其中(2d)中将建议框proposal划分正负样本，实现如下：

(2d1)计算每个建议框proposal与所有真值框GTBox的交并比IOU：

其中，Aⁱ代表第i个建议框proposal，B^j代表第j个真值框GTBox；IOU_i，j代表第i个建议框proposal与第j个真值框GTBox的交并比IOU，i的取值为1～M，M代表建议框proposal的个数，j的取值为1～K，K代表真值框GTBox的数量，|·|为求像素的数量，∩为求交集；

(2d2)在第i个建议框proposal与所有真值框GTBox的IOU中找到最大值为

(2d3)设定正阈值为pos＝0.5，负阈值neg＝0；

(2d4)将最大值

与设定的正负阈值进行比较：

如果

大于pos，则第i个建议框proposal为正样本；

如果

小于neg，则第j个建议框proposal为负样本；

最后，将处于正负阈值中间的建议框proposal丢弃。

6.根据权利要求1所述的方法，其中(2e)中的loss_a、loss_b、loss_c分别计算如下：

其中,Li＝1代表第i个建议框proposal为正样本，Li＝0代表第i个建议框proposal为负样本，i的取值为1～L，L为建议框proposal的个数；Pa代表分类器A将建议框proposal预测为正样本的概率，Pb代表分类器B将建议框proposal预测为正样本的概率，Pc代表分类器C将建议框proposal预测为正样本的概率。

7.根据权利要求1所述的方法，其中(3)中利用随机梯度下降SGD算法对基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W进行迭代训练，实现如下：

(3a)将训练集图片分为X个批次，初始化I＝1，设总迭代次数为T，对第I个批次进行训练：

(3a1)将第I批次图片送入网络W作为其第一部分的输入，该第一部分的输出作为第二部分的输入，依次类推，得到第I批次的网络损失loss，根据该网络损失loss，利用随机梯度下降SGD算法分别对W网络中的特征主干提取部分、建议框proposal生成器卷积层、三个分类器A，B，C的卷积层权重参数进行更新；

(3a2)将I与X进行比较：

如果I小于等于X，则令I＝I+1，返回(3a1)继续训练；

如果I大于X，则得到初步训练后基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W_i，i的取值为1～T；

(3b)对初步训练的基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W_i循环执行(3a)共T次，得到训练好的基于感兴趣区域ROI和分裂融合策略的像素级标签生成网络W′。

8.根据权利要求1所述的方法，其中(4b)中将三个分类器A，B，C的输出进行合并，实现如下：

(4b1)将A，B，C三个分类器的输出S_a、S_b、S_c分别进行最大最小归一化，得到各自的热量图h_a、h_b、h_c；

(4b2)从三个分类器的热量图h_a，h_b，h_c中逐元素取三者的最大值得到合并结果，再将合并结果缩放到真值框GTBox特征的大小后得到合并图U_map作为可视化的热图，热图U_map每个位置的热量表明该真值框GTBox中每个位置为肿瘤的概率。

9.根据权利要求1所述的方法，其中(4c)中对得到的真值框GTBox的特征图通过聚类操作，再将聚类结果与合并图U_map结合得到像素级肿瘤标签，实现如下：

(4c1)将真值框GTBox的特征图进行K-means聚类，类别数为2，对每一个类别根据合并图U_map的值求每一类的平均概率值；

(4c2)用两类别中平均概率值较大的一类的像素数除以真值框GTBox的特征图内总的像素数计算出平均概率大的一类的像素数在真值框GTBox的特征图中的比例p，作为肿瘤在真值框GTBox中的占比；

(4c3)对真值框GTBox框中概率值在前百分之p的像素打上肿瘤的标记就生成了像素级肿瘤标签。

10.根据权利要求1所述的方法，其中(5)中采用随机梯度下降SGD算法对现有的语义分割网络DeepLabV3进行训练，实现如下：

(5a)将训练集图片分为Y个批次，初始化J＝1，设总迭代次数为R，对第J个批次进行训练：

(5a1)将第J批次训练集图片送入DeepLabV3网络得到本批次输出，用二值交叉熵计算本轮输出和伪标签之间的损失loss_seg，根据loss_seg利用随机梯度下降SGD算法更新DeepLabv3网络的参数；

(5a2)比较J和Y，如果J小于等于Y，则令J＝J+1，继续执行(5a1)；如果J大于Y，则得到初步训练的DeepLabv3ⁱ网络，i的取值为1～R；

(5b)对初步训练好的DeepLabv3ⁱ网络循环迭代执行(5a)共R次，得到训练好的DeepLabv3网络。