CN110222772B

CN110222772B - 一种基于块级别主动学习的医疗图像标注推荐方法

Info

Publication number: CN110222772B
Application number: CN201910497178.4A
Authority: CN
Inventors: 尹建伟; 林博; 张金迪; 邓水光; 李莹; 方维佳; 张鹿鸣; 尚永衡
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2021-05-04
Anticipated expiration: 2039-06-10
Also published as: CN110222772A

Abstract

本发明公开了一种基于块级别主动学习的医疗图像标注推荐方法，首先将整张图像划分成不同区域，识别和区分每个区域所含对象的类型，然后针对图像块和对象类别进行标注推荐，实现对图像各区域标注价值的细粒度评估。本发明通过定位有标注价值的区域，解决了现有标注推荐方法在医疗图像上重复推荐的问题。该方法将图像标注推荐的基本单位缩小到图像块级别，避免了图像中相似对象重复标注导致的资源浪费，进一步地减少了标注成本。与目前最好的医疗图像标注推荐方法相比，本发明在达到相同语义分割精度的情况下最多能减少15％的标注开销，或者在相同标注开销的情况下能够提高2％的语义分割精度。

Description

一种基于块级别主动学习的医疗图像标注推荐方法

技术领域

本发明属于图像标注方法技术领域，涉及一种基于块级别主动学习的医疗图像标注推荐方法。

背景技术

在计算机视觉领域中，语义分割是一个非常基础且具有挑战性的任务，旨在对一张图片上每一类预先定义的目标进行像素级别的区分和定位。例如，在自动驾驶场景中，希望通过语义分割方法将当前车载监控画面中的汽车、行人、道路、信号灯等不同目标进行区分，并确定其所在位置，以便控制系统做出后续决策。随着大数据时代来临，计算机视觉技术地发展日新月异，相较于传统方法的“原地踏步”，以深度神经网络为代表的一系列数据驱动型方法不断刷新语义分割任务的精度上限，在某些场景中甚至优于人类专家的判断。

深度学习方法主要依赖对大量数据及相应标签的学习，具体来讲，基于深度网络的语义分割方法将图片和图片中不同目标的位置信息作为输入，来学习这些待分割目标的特有模式。但是，如何准确地标注数据，应该由谁来标注数据，以及标注数据时产生的人力成本等问题在大数据时代尤为凸显。特别地，对于医疗图像中的分割任务，只有医学专家才能够对器官、组织、病灶的轮廓位置进行标注，这更将耗费大量的人力物力。

现有手段主要通过主动学习技术，估计每张未标注图像的潜在价值，并推荐一部分最具有潜在价值的图像进行标注，在几乎不损失语义分割精度的前提下，减少标注数量，降低标注开销。目前的主动学习方法多关注以图像为基本单位的标注推荐，但是由于医疗图像的特殊性，一张图像上会出现多个非常相似的对象，若标注整张图像可能会导致不必要的开销。相对地，图像块级别的标注推荐可以有效减轻这个问题，使得标注成本进一步降低。例如，组织病理切片中相同类型细胞的形状和大小往往是相似的，标注整张图像上的所有细胞会导致轮廓模式的重复，而如果只对同类型的一个细胞进行标注，将能直接减少所需标注的数量。

发明内容

对于一些医疗影像来说，其拍摄对象具有结构单一、形式固定、相似和重复的特点，而现有基于主动学习的标注推荐方法主要是以整张图像作为基本单位，从而导致不必要的标注开销，例如，一张组织病理切片包含许多相似的细胞，标注这些相似的细胞不会给语义分割模型的学习提供额外信息，但会增加标注的成本。针对上述现有技术的问题，本发明提供一种基于块级别主动学习的医疗图像标注推荐方法，首先将整张图像划分成不同区域，识别和区分每个区域所含对象的类型，然后针对图像块和对象类别进行标注推荐，实现对图像各区域价值的细粒度评估。本发明通过定位有价值的标注区域，解决了现有标注推荐方法在医疗图像上重复推荐的问题。

本发明采用的技术方案如下：

一种基于块级别主动学习的医疗图像标注推荐方法，该方法包括如下步骤：

1)构建基于深度学习的语义分割网络：任何基于深度神经网络的语义分割方法均适用；

2)图像分块：将每张医疗图像划分成多个相同大小的图像块；

3)语义分割网络的学习和网络参数更新

对语义分割网络的网络参数进行初始化，并使用所有已由医学专家标注后的图像块对语义分割网络进行训练；

4)图像块编码

使用语义分割网络对所有未标注的图像块进行推测(inference)，提取每个图像块在网络中压缩程度最高的特征图(feature map)，并在通道方向逐像素地进行平均，获得每个图像块对应的块描述符；此外，使用语义分割网络对所有未标注的图像块进行推测(inference)，得到每个图像块分割结果的概率预测值；

5)块级别聚类

以所有未标注图像块的块描述符作为输入，使用任意的聚类(clustering)方法，将图像块划分为k类；

6)基于实例和聚簇的样本查询

查询采用两轮排序实现，首先设定第一轮排序需要推荐的图像块数量Q和第二轮排序需要推荐的图像块数量T；

对于k个聚簇中的每个图像块集合

估计其聚簇重要性

并进行归一化，其中c＝1,…,k；

计算

中每个图像块的实例不确定性，并按照从大到小进行排序，选取前Q^(c)个图像块组成集合

其中

计算

中每个图像块的推荐得分

并按照从大到小进行排序，选取前T^(c)个图像块进行推荐，其中

循环执行以上步骤直到满足所需设置的停止条件；

其中：

对于一个图像块x_n，其实例不确定性

为：

其中p_j(x_n)为语义分割网络对x_v属于第j类的概率预测值，C为语义分割中预定义类别的数量；

对于两个图像块x_n和x_n′，它们的实例差异性

为：

其中

和

分别是x_n和x_n′的块描述符，d′是块描述符的元素个数，m表示块描述符中的第m个元素，

是索引{1,…,d′}的所有排列，v是其中一种索引排列，v_m是索引排列ν中的第m个元素；

对于一个图像块x_n，其推荐得分S_n为：

其中

为图像块x_n的实例不确定性，

为图像块x_n和x_q的实例差异性，Q为一组图像块的集合。

对于一个聚簇c，其聚簇不确定性

为：

其中

是属于聚簇c的图像块集合，

是

中一个图像块的块描述符，M_c是

中所有图像块所对应块描述符的均值，||表示一个集合的大小；

对于一个聚簇c，其聚簇差异性

为：

其中M_c和M_v分别是聚簇c和v中所有图像块所对应块描述符的均值，k为聚簇的数量；

对于一个聚簇c，其聚簇重要性估计

为：

其中λ₁和λ₂是两个权重参数；其值在所有聚簇的重要性估计计算时均保持不变；

7)将挑选出的图像块推荐给医学专家进行标注；

8)将被标注的图像块从未标注的数据集合中移除，并添加到已标注的数据集合中。

所述的构建基于深度学习的语义分割网络，具体可以如下：

1)定义复合组件的基本结构，其由以下组件按顺序堆叠组成：ω个3×3的卷积核、一个批规范化层(BatchNorm)、一个ReLU激活层、ω个3×3的卷积核、一个批规范化层、一个ReLU激活层；其中ω为复合组件的参数，表示卷积核的数量，该复合组件记为Block(ω)；

2)语义分割网络包含编码网络和解码网络两个部分，并且结构保持对称；

a)编码网络由以下组件按顺序堆叠组成：Block(64)、一个最大池化层(MaxPooling)、Block(128)、一个最大池化层、Block(256)、一个最大池化层、Block(512)、一个最大池化层、Block(512)；

b)解码网络由以下组件按顺序堆叠组成：一个双线性上池化层(BilinearUnpooling)、Block(256)、一个双线性上池化层、Block(128)、一个双线性上池化层、Block(64)、一个双线性上池化层、Block(64)、C个1×1的卷积核，其中C为预定义类别的数量；

c)解码网络中每个双线性上池化层接受的输入为上一层输出和编码网络中对应Block输出的拼接；

3)使用交叉熵作为网络的损失函数。

所述的将图像划分成多个相同大小的图像块，具体可以为：

1)用边长为l×l像素的滑动窗口，从图像左上角开始逐行扫描；

2)每次向右移动或向下换行的步长均为滑动窗口边长的一半，即l/2像素；

3)在扫描过程中，当图像最右侧或最下方的剩余长度小于滑动窗口的边长时，如果剩余长度大于滑动窗口边长的一半，则通过镜像的方式补足所缺少的长度，如果剩余长度小于滑动窗口边长的一半，则将这部分裁剪并舍弃掉。

在本发明所述的步骤6)中将λ₁和λ₂均设置为1。

本发明方法首先将医疗图像划分为不同区域，将每个区域的图像块嵌入到低维空间进行分布式表示，然后通过聚类的方式识别和区分每个图像块所含对象的类型，针对图像块和对象类别进行标注推荐，实现对图像各区域标注价值的细粒度评估。

该方法将图像标注推荐的基本单位缩小到图像块级别，避免了图像中相似对象重复标注导致的资源浪费，进一步地减少了标注成本。与目前最好的医疗图像标注推荐方法相比，本发明在达到相同语义分割精度的情况下最多能减少15％的标注开销，或者在相同标注开销的情况下能够提高2％的语义分割精度。

附图说明

图1是本发明方法中构建的一种具体的基于深度神经网络的语义分割网络；

图2是本发明方法的流程示意图。

具体实施方式

下面结合附图对本发明的方法做进一步说明。

在本发明方法前期需做如下准备：

1)构建基于深度学习的语义分割网络：任何基于深度神经网络的语义分割方法均适用。如图1所示，本实例中构建的一种具体的语义分割网络如下：

a)定义复合组件的基本结构，其由以下组件按顺序堆叠组成：ω个3×3的卷积核、一个批规范化层(BatchNorm)、一个ReLU激活层、ω个3×3的卷积核、一个批规范化层、一个ReLU激活层；其中ω为复合组件的参数，表示卷积核的数量，该复合组件记为Block(ω)；

b)语义分割网络包含编码网络和解码网络两个部分，并且结构保持对称；

c)编码网络由以下组件按顺序堆叠组成：Block(64)、一个最大池化层(MaxPooling)、Block(128)、一个最大池化层、Block(256)、一个最大池化层、Block(512)、一个最大池化层、Block(512)；

d)解码网络由以下组件按顺序堆叠组成：一个双线性上池化层(BilinearUnpooling)、Block(256)、一个双线性上池化层、Block(128)、一个双线性上池化层、Block(64)、一个双线性上池化层、Block(64)、C个1×1的卷积核；其中C为语义分割中预定义类别的数量；

e)解码网络中每个双线性上池化层接受的输入为上一层输出和编码网络中对应Block输出的拼接。

f)使用交叉熵作为网络的损失函数。

2)图像分块：将图像划分成多个相同大小的图像块。本实例中提供的方案是:

a)用边长为128×128像素的滑动窗口，从图像左上角开始逐行扫描；

b)每次向右移动或向下换行的步长均为滑动窗口边长的一半，即64像素；

c)在扫描过程中，当图像最右侧或最下方的剩余长度小于滑动窗口的边长时，如果剩余长度大于滑动窗口边长的一半，则通过镜像的方式补足所缺少的长度，如果剩余长度小于滑动窗口边长的一半，则将这部分裁剪并舍弃掉。

在前期准备完善后进行标注推荐的主体方法：

步骤1：语义分割网络的学习和网络参数更新

对网络参数进行初始化，可以使用任意的初始化方法。本实例中使用Xavier初始化方法。使用所有已标注的图像块对语义分割网络进行训练，在训练中可以使用任意的模型优化器对网络参数进行更新。本实例中使用Adam作为模型优化器。

步骤2：图像块编码

使用语义分割网络对所有未标注的图像块进行推测(inference)，提取每个图像块在网络中压缩程度最高的特征图(feature map)，并在通道方向逐像素地进行平均，获得每个图像块对应的块描述符。本实例提取编码网络最后一层Block(512)输出的特征图，并在通道方向上平均，生成块描述符。此外，使用语义分割网络对所有未标注的图像块进行推测(inference)，得到每个图像块分割结果的概率预测值。

步骤3：块级别聚类

以所有未标注图像块的块描述符作为输入，使用任意的聚类(clustering)方法，将图像块划分为k类。本实例使用k-均值算法(k-means)，将图像块划分为3类。

步骤4：基于实例和聚簇的样本查询策略

对于k个聚簇中的每个图像块集合

估计其聚簇重要性

并进行归一化，其中c＝1,…,k；

计算

其中

计算

中每个图像块的推荐得分

循环执行以上步骤直到满足所需设置的停止条件(由用户自行设定，如执行该查询步骤需要获得5张推荐的图像，整个方法迭代后需要获得50张推荐的图像)；

其中：

a)对于一个图像块x_n，其实例不确定性

为：

其中p_j(x_n)为语义分割网络对x_n属于第j类的概率预测值，C为语义分割中预定义类别的数量。

b)对于两个图像块x_n和x_n′，它们的实例差异性

为：

其中

和

是索引{1,…,d′}的所有排列，v是其中一种索引排列，v_m是索引排列v中的第m个元素。

c)对于一个图像块x_n，其推荐得分S_n为：

其中

为图像块x_n的实例不确定性，

为图像块x_n和x_q的实例差异性，Q为一组图像块的集合。

d)对于一个聚簇c，其聚簇不确定性

为：

其中

是属于聚簇c的图像块集合，

是

中一个图像块的块描述符，M_c是

中所有图像块所对应块描述符的均值，||表示一个集合的大小。

e)对于一个聚簇c，其聚簇差异性

为：

其中M_c和M_v分别是聚簇c和v中所有图像块所对应块描述符的均值，k为聚簇的数量。

f)对于一个聚簇c，其聚簇重要性估计

为：

其中λ₁和λ₂是两个权重参数；其值在所有聚簇的重要性估计计算时均保持不变。

本实例中将Q设置为图像块总数的5％，将T设置为图像块总数的2.5％。将λ₁和λ₂均设置为1。

步骤5：将挑选出的图像块推荐给专家标注

步骤6：将被标注的图像块从未标注的数据集合中移除，并添加到已标注的数据集合中。