CN113838058B

CN113838058B - 一种基于小样本分割的医学图像自动标注方法及系统

Info

Publication number: CN113838058B
Application number: CN202111182894.7A
Authority: CN
Inventors: 孙开伟; 刘虎; 王支浩; 冉雪; 李彦; 宣立德
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2024-03-19
Anticipated expiration: 2041-10-11
Also published as: CN113838058A

Abstract

本发明请求保护一种基于小样本分割的医学图像自动标注方法及系统，医学图像分割的进行需要大量带标注的数据，而标注新的数据过程繁琐单一，但却又需要大量人工来进行手工标注工作，增加了数据集的成本。本发明基于小样本分割技术，提出了一种自动标注网络结构Siamese‑DCNet(孪生深层对比网络)，利用双分支结构，包括一个查询分支和支持分支，分别对未标注的图像和已经标注的图像进行初步提取特征，利用双分支所得的结果，结合已知标注，去掉标注之外不重要的信息，通过计算余弦相似度来预测一个初步的标注，并输入一个迭代优化模块，经过几次迭代的细化得到最终的标注结果。本发明仅需要少量的带标注的图像，就能够实现相同场景其他所有图像的自动标注。

Description

一种基于小样本分割的医学图像自动标注方法及系统

技术领域

本发明属于深度学习、图像处理，医学图像分割，自动标注技术领域，特别是涉及一种基于小样本分割的医学图像自动标注方法。

背景技术

在医学图像领域，医学图像的标注结果能够辅助医学工作者对病人病情做出合理判断，制定相应的诊断方法。近年来，随着深度学习图像分割技术在众多计算机视觉应用中(例如，自动驾驶、医学影像、遥感技术)的广泛应用，越来越多的图像数据需要被用于训练深度学习模型。然而由于医学图像中的目标大小不一，姿势形态各异，边界不明显，因而对图像的标注是一项十分耗时费力的工作。除此之外，为了满足真实场景的需要，图像标注的准确性也十分重要，一旦出现错误的标注结果，很有可能影响诊断结果。采用人工标注的方法很难做到大规模的数据集标注，并且存在标注结果不精准的现象，因而需要探索一些自动标注方法。

为了实现医学图像自动标注，有以下几种解决方案：1、基于生成模型的自动标注方法。但是对图像标注任务而言，生成数据的似然函数可能不够优化，不足以准确地捕捉图像特征和标签之间内在的非线性依赖关系。此外，在这类模型中存在许多参数，参数估计过程往往带来较高的计算成本。2、基于判别模型的自动标注方法。忽略了标签和视觉图像特征之间的关系并且在大数据集上具有较差的可扩展性，当词汇集较大，尤其当训练图像的标签不完整或存在噪声时，标注性能不尽人意。3、基于最近邻模型的自动标注方法。这种方法往往仅根据图像视觉特征来计算测试图像和训练图像的相似性。而且当训练图像样例数量有限时，最近邻方法可能效果欠佳。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种实现医学图像分割领域数据集的自动标注、减小数据集成本、同时提升标注准确率的基于小样本分割的医学图像自动标注方法及系统。本发明的技术方案如下：

一种基于小样本分割的医学图像自动标注方法，其特征在于，包括以下步骤：

S1、获取医学影像原始图像，取出部分样本，对包含目标物体的图像进行手工标注，制作相应的标签，形成用于训练的数据集；

S2、根据模型参数设置要求，调整数据集，对数据集图像尺寸和通道做批量化调整，并划分为查询集和支持集，查询集。查询集表示需要进行标注的图像的集合，支持集表示已经带有标注的图像的集合；

S3、采用图像数据增强方法增强图像的表达能力，提升数据的鲁棒性；

S4、构建Siamese-DCNet(孪生深层对比网络)，将数据输入Resnet50的双分支，进行初步特征抽取得到查询分支结果和支持分支结果，将支持分支结果与真实标注结合去除背景信息，对得到的查询分支结果、去除背景信息的支持分支结果进行余弦相似度计算，得到查询分支的初步预测结果并进行优化迭代，细化目标的标注，得到整个Siamese-DCNet的端到端网络，最后对模型进行训练，根据评价指标来优化确定最佳模型结果；

S5、加载训练后得到的最佳模型权重，对未标注的图像进行自动标注。

进一步的，所述步骤S1中，获取医学影像中带有目标的真实图像数据并从各个类别中等比例随机抽取20％的样本作为训练数据；使用开源工具labelme，标注出图像中的目标得到相应格式的标签，得到标准的数据样本，即一张原始图像以及一张真实标签掩码Mask；将标注后的训练数据按照10:1划分训练集和验证集。

进一步的，所述步骤S2中，对训练集和验证集尺寸和通道调节，其中原始图像的宽度、高度、通道数为473×473×3，掩码Mask的宽度、高度、通道数为473×473×1；根据Siamese-DCNet的双分支结构设计，随机采样部分数据作为查询集，根据采样出的查询集中目标的类别，再次采样与查询集类相同的的数据作为支持集，最终形成用于训练的两个数据集合。

进一步的，步骤S3中，采用的图像增强技术包括：水平垂直翻转和旋转、缩放、随机剪裁。

进一步的，所述随机剪裁的计算过程为：

其中，M_new表示随机剪裁后的图像，M_old表示原始图像，表示原始图像经过剪裁后的高度，/>表示原始图像经过剪裁后的宽度，s表示原始图像尺寸，m表示随机获取的间隔,m∈(0，473×1.5-473)。

进一步的，所述步骤S4中，Siamese-DCNet网络具体包括：

S401、特征抽取模块：该模块由两个Resnet50网络构成的双分支特征抽取结构，包括一个查询分支和一个支持分支，查询分支用于提取未标注图片特征信息，支持分支用于生成目标关键信息；

S402、余弦相似度计算模块：该模块首先将支持集的掩码与支持分支所得的特征图进行元素相乘去除目标以外的无效信息，处理后的支持集进行全局平均池化操作得到的特征图的尺寸通道数为1×1×256，之后再进行上采样将特征图还原至尺寸通道数为41×41×256；将得到的支持集的特征图与查询分支生成的特征图计算空间位置的距离；

S403、迭代模块：将每一轮的预测结果保存，在下一轮预测时与下一轮的预测结果叠加，不断迭代细化边缘信息；

S404、模型训练：整个训练过程根据查询集的真实掩码，采用交叉熵Cross-Entropy作为损失函数来计算更新误差。

进一步的，所述S401特征抽取模块的两个Resnet50网络共享权重参数，为了防止模型过拟合，采用的Resnet50结构删除了第四个block，并且将第二个block提取的信息在第三个block后面进行一次残差连接，最后输出的特征图的尺寸通道数为41×41×256；

所述S402余弦相似度计算模块采用余弦相似度d进行度量，其计算公式为：

其中，Xi、Yi分别表示查询集和支持集经过特征提取形成的特征图，h为特征图的高，w为特征图的宽。

进一步的，所述S403迭代模块的过程可以表示为：

M_t＝x+M_t-1

其中x表示t时刻的预测结果，M_t-1表示t-1时刻的最终预测掩码，M_t表示t时刻最终的预测掩码；

所述S404模型训练采用交叉熵Cross-Entropy作为损失函数来计算更新误差的计算公式如下：

其中x表示样本，y表示真实标签，a表示预测结果，n表示样本总量，使用随机梯度下降法SGD作为为优化器来确定收敛方向，训练轮数为200轮，学习率设置为0.0025，采用IoU评价指标来作为确认最佳模型的依据，IoU计算公式如下：

其中T表示真实结果区域大小，P代表预测结果区域大小。

进一步的，所述步骤S5中，加载最佳训练模型进行预测，将剩余的80％未标注数据集作为查询集，已标注的数据集作为支持集，分别输入Siamese-DCNet左端的查询分支和支持分支中，通过训练好的模型，模型最终得到支持集中的预测掩码，并保存标签，完成未标注的数据的自动标注工作。

一种基于小样本分割的医学图像自动标注系统，其包括以下步骤：

数据划分模块：用于获取医学原始图像，取出部分样本，对包含目标物体的图像进行手工标注，制作相应的标签，形成用于训练的数据集；根据模型参数设置要求，调整数据集，对数据集图像尺寸和通道做批量化调整，并划分为查询集和支持集；

增强模块：用于采用图像数据增强方法来对图像的进行增强；

最佳模型训练模块：用于构建Siamese-DCNet，将数据输入Resnet50的双分支，进行初步特征抽取得到查询分支结果和支持分支结果，将支持分支结果与真实标注结合去除背景信息，对得到的查询分支结果、去除背景信息的支持分支结果分别计算余弦相似度，得到初步的预测结果进行优化迭代，细化目标的标注得到整个Siamese-DCNet的端到端网络，并对模型进行训练，根据评价指标来优化确定最佳模型结果；

自动标注模块：加载训练后得到的最佳模型权重，对未标注的图像进行自动标注。

本发明的优点及有益效果如下：

本发明针对图像分割数据集的标注问题，本发明基于小样本分割的方法，提出了一种Siamese-DCNet网络模型，采用双分支结构抽取特征，利用深度学习大规模运算，学习未标注图像与已标注图像空间距离之间的差异，有效获取了查询图像的目标信息。针对目标的预测，还进一步采用迭代模块强化了目标的标注，对于超大量的原始数据，只需标注少量样本就能自动标注所有的图像，实现了高精度自动标注技术，具有很强的工程实践意义。

附图说明

图1是本发明提供优选实施例基于小样本分割的医学图像自动标注方法的用于训练数据基于小样本分割的Siamese-DCNet网络整体结构图；

图2是基于小样本分割的医学图像自动标注方法的训练时支持集和查询集原始图像及其掩码Mask样例图，预测时支持集的原始图像及其掩码Mask样例图；

图3是基于小样本分割的医学图像自动标注方法的未标注的数据及其自动标注后的效果图；

图4是基于小样本分割的医学图像自动标注方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明的基于小样本分割的图像标注方法，其具体实施方案如下：

(1)根据所需分割场景获取医学影像原始图片中带有目标的真实图像数据并从各个类别中等比例随机抽取20％的样本作为训练数据；使用开源工具labelme，标注出图像中的目标得到相应格式的标签，得到标准的数据样本。即一张原始图像以及一张真实标签掩码Mask；将标注后的训练数据按照10:1划分训练集和验证集用于训练时各项指标的反馈。

(2)调整原始图像的宽度、高度、通道数设置为473×473×3，掩码Mask的宽度、高度、通道数设置为473×473×1；根据Siamese-DCNet的双分支结构设计，随机采样部分数据作为查询集，根据采样出的查询集中目标的类别，再次采样与查询集类相同的的数据作为支持集，最终形成用于训练的两个数据集合；

(3)进行图像增强，包括：水平垂直翻转和旋转、缩放、和随机剪裁，其中随机剪裁的计算过程为：

(4)参照图1为基于小样本分割的医学图像自动标注方法的Siamese-DCNet网络结构，具体包括：特征抽取模块：该模块由两个Resnet50网络构成的双分支特征抽取结构，包括一个查询分支和一个支持分支，查询分支用于提取未标注图片特征信息，支持分支用于生成目标关键信息。两个网络共享权重参数，为了防止模型过拟合，采用的Resnet50结构删除了第四个block，并且将第二个block提取的信息在第三个block后面进行一次残差连接，最后输出的特征图的尺寸通道数为41×41×256；余弦相似度计算模块：该模块首先将支持集的掩码与支持分支所得的特征图进行元素相乘去除目标以外的无效信息，处理后的支持集进行全局平均池化操作得到的特征图的尺寸通道数为1×1×256，之后再进行上采样将特征图还原至尺寸通道数为41×41×256；将得到的支持集的特征图与查询分支生成的特征图计算空间位置的距离，此处采用余弦相似度d进行度量，其计算公式为：

其中，Xi、Yi分别表示查询集和支持集经过特征提取形成的特征图，h为特征图的高，w为特征图的宽。迭代模块：将每一轮的预测结果保存，在下一轮预测时与下一轮的预测结果叠加，不断迭代细化边缘信息，该过程可以表示为：

M_t＝x+M_t-1

(5)参照图2为基于小样本分割的医学图像自动标注方法的支持集与查询集的原始图像及其掩码样例，分别输入查询集和支持集图像对模型参数进行训练，整个训练过程根据查询集的真实掩码，采用交叉熵Cross-Entropy作为损失函数来计算更新误差，其计算公式如下：

其中x表示样本，y表示真实标签，a表示预测结果，n表示样本总量。使用随机梯度下降法SGD作为为优化器来确定收敛方向，训练轮数为200轮，学习率设置为0.0025，采用IoU评价指标来作为确认最佳模型的依据，IoU计算公式如下：

其中T表示真实结果区域大小，P代表预测结果区域大小。

(6)参照图3为基于小样本分割的医学图像自动标注方法的加载最佳模型进行预测的预测效果，将剩余的80％未标注数据集作为查询集，已标注的数据集作为支持集，分别输入Siamese-DCNet左端的查询分支和支持分支中，通过训练好的模型，模型最终得到支持集中的预测掩码，并保存标签，完成未标注的数据的自动标注工作。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于小样本分割的医学图像自动标注方法，其特征在于，包括以下步骤：

S2、根据模型参数设置要求，调整数据集，对数据集图像尺寸和通道做批量化调整，并划分为查询集和支持集，查询集；查询集表示需要进行标注的图像的集合，支持集表示已经带有标注的图像的集合；

S4、构建Siamese-DCNet孪生深层对比网络，将数据输入Resnet50的双分支，进行初步特征抽取得到查询分支结果和支持分支结果，将支持分支结果与真实标注结合去除背景信息，对得到的查询分支结果、去除背景信息的支持分支结果进行余弦相似度计算，得到查询分支的初步预测结果并进行优化迭代，细化目标的标注，得到整个Siamese-DCNet的端到端网络，最后对模型进行训练，根据评价指标来优化确定最佳模型结果；

S5、加载训练后得到的最佳模型权重，对未标注的图像进行自动标注；

所述步骤S4中，Siamese-DCNet网络具体包括：

2.根据权利要求1所述的一种基于小样本分割的医学图像自动标注方法，其特征在于，所述步骤S1中，获取医学影像中带有目标的真实图像数据并从各个类别中等比例随机抽取20％的样本作为训练数据；使用开源工具labelme，标注出图像中的目标得到相应格式的标签，得到标准的数据样本，即一张原始图像以及一张真实标签掩码Mask；将标注后的训练数据按照10:1划分训练集和验证集。

3.根据权利要求2所述的一种基于小样本分割的医学图像自动标注方法，其特征在于，所述步骤S2中，对训练集和验证集尺寸和通道调节，其中原始图像的宽度、高度、通道数为473×473×3，掩码Mask的宽度、高度、通道数为473×473×1；根据Siamese-DCNet的双分支结构设计，随机采样部分数据作为查询集，根据采样出的查询集中目标的类别，再次采样与查询集类相同的数据作为支持集，最终形成用于训练的两个数据集合。

4.根据权利要求1所述的一种基于小样本分割的医学图像自动标注方法，其特征在于，步骤S3中，采用的图像增强技术包括：水平垂直翻转和旋转、缩放、随机剪裁。

5.根据权利要求4所述的一种基于小样本分割的医学图像自动标注方法，其特征在于，所述随机剪裁的计算过程为：

6.根据权利要求1所述的一种基于小样本分割的医学图像自动标注方法，其特征在于，所述S401特征抽取模块的两个Resnet50网络共享权重参数，为了防止模型过拟合，采用的Resnet50结构删除了第四个block，并且将第二个block提取的信息在第三个block后面进行一次残差连接，最后输出的特征图的尺寸通道数为41×41×256；

7.根据权利要求6所述的一种基于小样本分割的医学图像自动标注方法，其特征在于，所述S403迭代模块的过程表示为：

Mt＝x+Mt-1

其中x表示样本，y表示真实标签，a表示预测结果，n表示样本总量，使用随机梯度下降法SGD作为优化器来确定收敛方向，训练轮数为200轮，学习率设置为0.0025，采用IoU评价指标来作为确认最佳模型的依据，IoU计算公式如下：

其中T表示真实结果区域大小，P代表预测结果区域大小。

8.根据权利要求7所述的一种基于小样本分割的医学图像自动标注方法，其特征在于，所述步骤S5中，加载最佳训练模型进行预测，将剩余的80％未标注数据集作为查询集，已标注的数据集作为支持集，分别输入Siamese-DCNet左端的查询分支和支持分支中，通过训练好的模型，模型最终得到支持集中的预测掩码，并保存标签，完成未标注的数据的自动标注工作。

9.一种基于小样本分割的医学图像自动标注系统，其特征在于，包括：

数据划分模块：用于获取原始图像，取出部分样本，对包含目标物体的图像进行手工标注，制作相应的标签，形成用于训练的数据集；根据模型参数设置要求，调整数据集，对数据集图像尺寸和通道做批量化调整，并划分为查询集和支持集；

增强模块：用于采用图像数据增强方法来对图像的表达能力进行增强；

最佳模型训练模块：用于构建Siamese-DCNet，将数据输入Resnet50的双分支，进行初步特征抽取得到查询分支结果和支持分支结果，将支持分支结果与真实标注结合去除背景信息，对得到的查询分支结果、去除背景信息的支持分支结果进行余弦相似度计算，得到查询分支的初步预测结果并进行优化迭代，细化目标的标注，得到整个Siamese-DCNet的端到端网络，并对模型进行训练，根据评价指标来优化确定最佳模型结果；

自动标注模块：加载训练后得到的最佳模型权重，对未标注的图像进行自动标注；

所述Siamese-DCNet网络具体包括：