CN113205473A

CN113205473A - 用于医学图像检测的数据增强的方法、装置和存储介质

Info

Publication number: CN113205473A
Application number: CN202110754721.1A
Authority: CN
Inventors: 李广; 李津辰; 孙成伟; 陈聪; 曹坤琳; 宋麒
Original assignee: Shenzhen Keya Medical Technology Corp
Current assignee: Shenzhen Keya Medical Technology Corp
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-08-03
Also published as: US20230005113A1

Abstract

本公开涉及一种用于医学图像检测的数据增强的方法、装置和存储介质。用于医学图像检测的数据增强的方法包括：获取与待检测的对象相关的医学图像样本集；基于医学图像样本集中缺乏的对象的属性，在医学图像样本集中选取第一、第二医学图像，使得第一医学图像中包含缺乏属性的对象而第二医学图像中不包含；在第一医学图像中截取包含缺乏属性的第一区域图像块；在第二医学图像中截取不包含缺乏属性的第二区域图像块；基于包括对象部和对象部的周边部的蒙版对第一区域图像块和第二区域图像块进行融合，得到合成区域图像块，将其嵌回到第二医学图像中，得到第三医学图像；将第三医学图像添加到医学图像样本集中，得到数据增强后的医学图像样本集。

Description

用于医学图像检测的数据增强的方法、装置和存储介质

技术领域

本公开涉及医学图像处理领域，更具体地，涉及一种用于医学图像检测的数据增强的方法、装置和存储介质。

背景技术

医学图像中病灶的自动检测可以提升医生的阅片效率，而且可以提供病灶的量化信息。目前基于深度学习的病灶检测方法具有高鲁棒性和精确性，但是医学图像中病灶的分布非常广泛，训练数据不可能覆盖到所有的病灶分布情况，并且病灶类型以及所在解剖结构位置或上述多种因素的组合的正负样本的比例不平衡也会对深度学习的精度及泛化能力有很大的影响。因此一个好的数据增强方式，是提升病灶检测精度和模型泛化能力的关键。

目前较为流行图像数据增强方法的是对图像做旋转、平移、放缩、翻转等方式做全图整体的变换，以及Mixup和复制-粘贴等图像增强方式。图像整体变换的增强方式不能增加不同解剖结构位置上的正样本，复制-粘贴是将含有某类病灶的正样本图像中的病灶区域简单地复制后粘贴到其他负样本图像中，然后作为新增的正样本加入医学图像样本集，这种方式会在增强图像上留下很明显的图像合成的痕迹，与真实的含有病灶的医学图像样本相比，在样本的真实性方面具有较大的差距，甚至将其用于机器学习时，可能会造成额外的不利影响。因此，目前还没有针对医学图像样本集中病灶类型、所在解剖结构位置等方面的正负样本不均衡问题的非常有效的数据增强方法。

发明内容

针对现有技术的不足，提供了本公开以解决现有技术中存在的上述问题。

需要一种用于医学图像检测的数据增强的方法、装置和存储介质，其能够识别医学图像样本集中待检测对象在病灶类型、位置、尺寸等方面的样本数量缺乏或正负样本的不均衡性，并基于识别出的缺乏的对象的属性，在医学图像样本集中分别选取包含缺乏属性的对象的医学图像正样本和不包含缺乏属性的对象的医学图像负样本，并采用基于蒙版的图像块融合算法，将融合处理后的含有缺乏属性的对象的合成区域图像块嵌回医学图像负样本中，并作为正样本添加到医学图像样本集，以使医学图像样本集得到数据增强，进而提升利用数据增强后医学图像样本集进行待检测对象的检测的精度，以及利用该医学图像样本集训练的深度学习模型的泛化能力。

根据本公开的第一方案，提供一种用于医学图像检测的数据增强的方法，所述方法包括：获取与待检测的对象相关的医学图像样本集；基于所述医学图像样本集中缺乏的对象的属性，在所述医学图像样本集中选取第一医学图像和第二医学图像，使得所述第一医学图像中包含缺乏属性的对象，所述第二医学图像不包含缺乏属性的对象；在所述第一医学图像中截取包含缺乏属性的对象的区域，以得到第一区域图像块；在所述第二医学图像中截取不包含缺乏属性的对象的区域，以得到第二区域图像块；基于包括对象部和对象部的周边部的蒙版对所述第一区域图像块和所述第二区域图像块进行融合，从而得到合成区域图像块；将所述合成区域图像块嵌回到所述第二医学图像中，以得到第三医学图像；以及将所述第三医学图像添加到所述医学图像样本集中，以得到数据增强后的医学图像样本集。

根据本公开的第二方案，提供一种用于医学图像检测的数据增强的装置，所述装置包括通信接口、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可执行指令，所述处理器执行所述计算机可执行指令时实现以下步骤：通过所述通信接口获取与待检测的对象相关的医学图像样本集；所述处理器基于所述医学图像样本集中缺乏的对象的属性，在所述医学图像样本集中选取第一医学图像和第二医学图像，使得所述第一医学图像中包含缺乏属性的对象，所述第二医学图像不包含缺乏属性的对象；在所述第一医学图像中截取包含缺乏属性的对象的区域，以得到第一区域图像块；在所述第二医学图像中截取不包含缺乏属性的对象的区域，以得到第二区域图像块；基于包括对象部和对象部的周边部的蒙版对所述第一区域图像块和所述第二区域图像块进行融合，从而得到合成区域图像块；将所述合成区域图像块嵌回到所述第二医学图像中，以得到第三医学图像；以及通过所述通信接口，将所述第三医学图像添加到所述医学图像样本集中，以得到数据增强后的医学图像样本集。

根据本公开的第三方案，提供一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令被处理器执行时，实现上述的用于医学图像检测的数据增强的方法的步骤。

利用根据本公开各个实施例的用于医学图像检测的数据增强的方法、装置和存储介质，其能够识别医学图像样本集中待检测对象的属性的不均衡性，并基于识别出的缺乏的对象的属性，采用基于蒙版的图像块融合算法生成含有缺乏属性的对象的合成的医学图像，采用上述方法生成的合成的医学图像，由于进行了图像融合处理，因而与真实的含有缺乏属性的对象的医学图像非常接近，将上述合成的医学图像作为正样本添加到医学图像样本集，可以使医学图像样本集在缺乏的对象的属性方面得到样本数量、样本质量和样本场景适应性等方面的全面增强，进而提升利用数据增强后的医学图像样本集进行待检测对象的检测的精度，以及利用该医学图像样本集训练的深度学习模型的泛化能力。

附图说明

在不一定按比例绘制的附图中，相同的附图标记可以在不同的视图中描述相似的部件。附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本装置或方法的穷尽或排他实施例。

图1示出根据本公开实施例的用于医学图像检测的数据增强的方法的流程的示意图；

图2示出根据本公开实施例的示例的第一融合系数和第二融合系数的计算方法的示意图；

图3示出根据本公开实施例的基于蒙版对图像块进行融合的示例的示意图；

图4示出采用根据本公开实施例的基于蒙版对图像块进行融合生成的新结节图像与采用传统的复制-粘贴方式生成的新结节图像的效果的比较的示意图；以及

图5示出根据本公开实施例的用于医学图像检测的数据增强的装置的组成的示意图。

具体实施方式

为使本领域技术人员更好的理解本公开的技术方案，下面结合附图和具体实施方式对本公开作详细说明。下面结合附图和具体实施例对本公开的实施例作进一步详细描述，但不作为对本公开的限定。本文中所描述的各个步骤，如果彼此之间没有前后关系的必要性，则本文中作为示例对其进行描述的次序不应视为限制，本领域技术人员应知道可以对其进行顺序调整，只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1示出根据本公开实施例的用于医学图像检测的数据增强的方法的流程的示意图。如图1所示，流程开始于步骤S101，在步骤S101中，首先获取与待检测的对象相关的医学图像样本集。样本集中的医学图像可以是三维医学图像，也可以是二维医学图像，在此不做限制。在一些实施例中，待检测的对象可以是任何适用于医学图像的病灶，例如包括但不限于结节、肿瘤、囊肿和出血灶等。

在步骤S102中，基于医学图像样本集中缺乏的对象的属性，在医学图像样本集中选取第一医学图像和第二医学图像，使得第一医学图像中包含缺乏属性的对象，而第二医学图像不包含缺乏属性的对象。

在一些实施例中，上述第一医学图像和第二医学图像可以从医学图像样本集中随机选取。具体地，可以从医学图像样本集中的所有样本中依据一定的随机算法选出包含缺乏的对象的属性的第一医学图像和不包含缺乏的对象的第二医学图像，以进行后续的数据增强操作。

在另外一些实施例中，也可以在医学图像样本集的子集中随机选取第一医学图像和第二医学图像。在一些实施例中，例如可以选择包含缺乏的对象的属性，并判定为具有较高图像质量的医学图像作为医学图像样本的子集。作为另一示例，也可以将原始的、未经处理的包含缺乏的对象的属性的图像中作为医学图像样本的子集，以抑制由于多次图像融合处理可能带来的合成图像与真实的医学图像之间的累计偏差。

在一些实施例中，对象的属性可以是一切在临床应用方面具有诊断意义的属性，例如对象的亚型、对象的位置、对象的尺寸中的至少一种或其组合。在一些实施例中，当对象为肺部病灶时，对象的亚型包括实性、毛玻璃样或半实性的病灶等，而对象的位置可以包括肺叶内或胸廓中等。在一些实施例中，对象的尺寸可以根据临床对不同类型病灶的定义，区分为大尺寸、中尺寸和小尺寸等。

在一些实施例中，医学图像样本集中所缺乏的对象的属性，可以通过与对象的属性的实际分布情况进行比较来确定。例如，在临床实践中，可以检测到位于胸廓部位的肺部实性病灶，而在医学图像样本集中不具备或仅具有很少量的包含这类属性的对象的图像，则可以判定该医学样本集中缺乏肺部实性病灶对象的位于胸廓部位的属性。在另一些实施例中，也可以通过与对象的属性在临床实践中所占的比例的比较来进行是否缺乏的判定。

在另一些实施例中，关于医学图像样本集中缺乏的对象的属性也可以通过如下机器学习的方法来确定，即：利用基于医学图像样本集训练好的模型，对医学图像进行检测，以获得对象的属性的检出分布情况，并将对象的属性的检出分布情况与对象的属性的实际分布情况进行比较，当对于某一类对象的属性的检出情况不理想时，通常隐含模型训练时含有相关对象的属性的医学图像样本的缺乏，或者，即使这种检出效果不良并非由于样本集中相关对象的属性的缺乏而导致，从结果导向的角度，通过增加对应的对象的属性的图像样本数量，也可以改善该模型的训练效果。

接下来，在确定了医学图像样本集中缺乏的对象的属性之后，可以执行步骤S103至步骤S107中的操作，有针对性地对医学图像样本集进行数据增强。

在步骤S103中，首先在所选取的第一医学图像中截取包含缺乏属性的对象的区域，以得到第一区域图像块。

在步骤S104中，在第二医学图像中截取不包含缺乏属性的对象的区域，以得到第二区域图像块。

在一些实施例中，第一区域图像块可以选取以待检测对象的中心为中心，并且可以覆盖大部分待检测对象的诸如方形或圆形的区域，以利于后续的图像融合处理。

在一些实施例中，在进行第二区域图像块的选取时，可以采用与第一区域图像块相同的尺寸，以利于后续的图像融合处理。

接下来，在步骤S105中，基于包括对象部和对象部的周边部的蒙版，对第一区域图像块和第二区域图像块进行融合，从而得到合成区域图像块。

在一些实施例中，定义蒙版用于将第一区域图像块和第二区域图像块进行渐变的融合处理，其中，蒙版可以包括蒙版的对象部和对象部的周边部两部分区域。

在一些实施例中，蒙版的对象部可以根据第一区域图像块中的待检测对象的形状和范围来设定。在另一些实施例中，为便于计算，可以将以第一区域图像块中的待检测对象的中心为中心，并且覆盖待检测对象的主要特征的诸如圆形的规则形状设定为蒙版的对象部。

在一些实施例中，在设定蒙版的对象部的周边部的范围时，可以将其尺寸设定为与第一区域图像块的尺寸相匹配，作为示例，当蒙版的对象部的形状和第一区域图像块的形状相同时，对象部的周边部的边界可以设定为与第一区域图像块的边界重合。在其他实施例中，对象部的周边部可以设定为边界形状与对象部相同，并且其边界与对象部的边界具有恒定距离的区域。

在一些实施例中，蒙版的对象部和对象部的周边部的形状和尺寸的选择，可以根据具体的待检测对象来确定。在另一些实施例中，也可以根据数据增强后对待检测对象的检测效果，来调整蒙版的形状和尺寸。

在一些实施例中，当基于包括对象部和对象部的周边部的蒙版对第一区域图像块和第二区域图像块进行融合时，可以对于蒙版的各个部中的各个位置，基于第一融合系数和第二融合系数分别对第一区域图像块和第二区域图像块的相应位置的图像信息进行融合。上述第一融合系数和第二融合系数可以采用各种适用的计算方法，将在下文中结合图2中的例示详细描述。

接下来，在步骤S106中，将基于蒙版和第一区域图像块和第二区域图像块生成的合成区域图像块嵌回到第二医学图像中，以得到第三医学图像。

在一些实施例中，可以利用同一幅第一医学图像中的同一个第一区域图像块和相同/不同第二医学图像中的不同的第二区域图像块，来生成多个不同的合成区域图像块，并嵌回到对应的第二医学图像中，以得到多幅第三医学图像。

在步骤S107中，将第三医学图像添加到医学图像样本集中，以得到数据增强后的医学图像样本集。

在一些实施例中，可以以批处理的方式一次生成多幅所需的第三医学图像，并在利用医学图像样本集对深度学习模型进行完整的一轮训练之后，将多幅第三医学图像以离线的方式加入医学图像样本集，并将数据增强后的医学图像样本集用于下一轮的训练。

在另外一些实施例中，也可以采用在线的方式，随时将生成的具有缺乏的对象的属性的第三医学图像用于正在参与训练的医学图像样本集的更新。

通过上述步骤S101至S107，增加了医学图像样本集中具有缺乏的对象的属性的样本数量以及样本的多样性，因此，医学图像样本集在特定的对象的属性方面的均衡性得到了增强，增强后的医学图像样本集具有更高的检测精度和对不同场景的适应能力，所训练的深度学习模型也具有更强的泛化能力。

为了更清晰地描述基于蒙版对第一区域图像块和第二区域图像块进行融合的具体算法，下面将进一步结合图2对第一融合系数和第二融合系数的计算方法进行更为详细的描述。

图2根据本公开实施例的示例的第一融合系数和第二融合系数的计算方法的示意图。为便于描述，在图2的示例中，假设所选取的第一区域图像块和第二区域图像块具有完全相同的形状和尺寸，对应于图2中的区域20。

在一些实施例中，第一区域图像块包含诸如结节、肿瘤、囊肿和出血灶等待检测对象。在图2中，蒙版的对象部201覆盖了大部分的待检测对象的区域。值得注意的是，蒙版的对象部201并不一定是如图2所示的圆形或其他规则形状，在其他实施例中，也可以是根据待检测对象的实际情况来确定的其他任意形状。

在一些实施例中，蒙版的对象部的周边部202可以基于参数

来定义，蒙版的对象部的周边部202边界上所有点到蒙版的对象部201边界的最小距离即为

。在一些实施例中，上述参数

可以定义为区域20的边界的所有的点中，与蒙版的对象部的边界的距离最小的点，即图2中的Q点，到蒙版的对象部边界的距离。例如，在图2的示例中，在区域20 为方形，蒙版的对象部201为圆形的情况下，蒙版的对象部的周边部202即为蒙版的对象部 201外围的环宽为

的圆环区域。同样地，在其他一些实施例中，蒙版的对象部的周边部 202的形状基于蒙版的对象部201的形状和参数

来确定，因此，并不局限于环状或其他规则形状。图2中的区域203为区域20中，蒙版的对象部201和蒙版的对象部的周边部202以外的其他区域。

基于上述关于各个区域的定义，描述各个位置

上的第一融合系数场21中的第一融合系数值

和第二融合系数场22中的第二融合系数值

的计算方法。

在如图2所示的第一融合系数场21和第二融合系数场22中，各个位置

的融合系数的值位于[0，1] 区间，其中白色表示值为1，黑色表示值为0，其他灰度值表示介于（0， 1）之间的取值。在一些实施例中，可以将与蒙版的对象部201相对应的第一融合系数场21的区域211中各个位置

的

设定为1，而第二融合系数场22中对应的区域221中各个位置

的

设定为0。通过如此的设置，可以使蒙版的对象部所对应的区域进行图像融合时，完全采用第一区域图像块中的图像值，即，完全采用蒙版的对象部所指示的医学图像中待检测的对象的图像值，而不考虑不包含待检测的对象的第二区域图像块中的图像值。

在另外一些实施例中，特别是当蒙版的尺寸与区域20的尺寸不完全相同的情况，例如存在如图2所示的蒙版的对象部201和蒙版的对象部的周边部202以外的区域203的情况下，可以将第一融合系数场21中与蒙版对应的区域之外的区域213中各个位置

的

设定为0，相对应地，第二融合系数场22中与蒙版对应的区域之外的区域223各个位置

的

设定为1。通过如此的设置，可以使蒙版以外的区域进行图像融合时，完全采用第二区域图像块中原有的图像，而不考虑第一区域图像块中的图像值。换句话说，基于第一区域图像块和第二区域图像块的图像融合，只在蒙版所对应的区域进行，蒙版以外的区域保留第二区域图像块的原图像值。

在另外一些实施例中，蒙版的对象部的周边部202中的各个位置

的

和

，可以依据其与蒙版的对象部边界的距离

来确定，距离蒙版的对象部边界越近，即，

越小，其

越大，相对应地，

越小，也即：

与

的变化呈相反的趋势。在一些实施例中，例如在归一化的情况下，对于蒙版的对象部的周边部中的任意位置

，其

与

之和为1。通过如此的设置，可以使在蒙版的对象部的周边部202中进行数据融合时，距离蒙版对象部201越近，第一区域图像块的影响越大，反之，随着相对蒙版对象部201距离的增大，第二区域图像块的影响逐渐增大。

在如上所述

、

、

和

的定义之下，作为示例，

与

之间可以如下述公式(2)所描述的关系：

公式(2)

在一些实施例中，当区域20中各个位置

的

和

确定后，可以依据任何适用的规则，通过实施基于包括对象部和对象部的周边部的蒙版的图像融合，计算合成区域图像块中各个位置

的图像值

，作为示例，可以根据下述公式(1)对

和

进行加权融合：

公式(1)

其中，

为合成区域图像块中在位置

的图像值，

和

分别为第一区域图像块和第二区域图像块在位置

的图像值。

上述公式(2)和公式(1)仅仅作为示例而非限定，在另一些实施例中，也可以采用其他适用的

与

的计算方法。例如，当通过其他手段可以确定第一区域图像块中待检测对象的边界较为清晰，且所定义的蒙版的对象部201能够非常准确地表征待检测对象的边界时，可以设置

随着

的增加更快地趋近于0，以使得融合后的合成区域图像块中的待检测对象特征与实际的待检测对象更为接近。在另一些实施例中，也可以采用其他图像融合方法来利

和

计算

，例如非线性权重的图像融合方法等，以使得融合后的合成区域图像块具有更接近真实的效果。

接下来，将参照图3描述根据本公开实施例的基于蒙版对图像块进行融合的一个示例。

在本示例中，假设通过与肺部病灶的实际分布情况的比较，发现医学图像样本集中包含的对象的属性为分布在肺叶中的肺部病灶（例如，肺结节）的图像样本数量较少，因此，在本实施例中，以作为肺部病灶的肺结节为例，从医学图像样本集中随机选取如图3所示的含有肺结节的图像31和不含肺结节的图像32。但须知，肺部病灶不一定为肺结节，在其他实施例中，也可以是任何其他类型的肺部病灶。

然后，从含有肺结节的图像31 中截取出包含该肺结节病灶的图像块31a，准备用于后续的图像融合。图像32a中以方框标示出来的两个图像块，是在不含肺结节的图像32中选取的肺叶区域中准备合成肺结节的图像块，图像块中的黑色圆点是将要合成肺结节的中心点位置。图3中的蒙版33是根据图像块31a中所包含的肺结节病灶来定义的，其中包括蒙版的对象部和对象部的周边部，分别如蒙版33中部的圆形区域33a及其周围的环形区域33b所示。

接下来，利用蒙版33，将包含肺结节病灶的图像块31a作为第一区域图像块，将左肺叶中的图像32a作为第二区域图像块，融合后生成左肺叶合成区域图像块（未示出），并将其嵌回到作为第二医学图像的图像32中，生成如图3所示的新的左肺叶中包含结节病灶的图像34a。类似地，利用蒙版33，将包含肺结节病灶的图像块31a作为第一区域图像块，将右肺叶中的图像32b作为第二区域图像块，融合后生成右肺叶合成区域图像块（未示出），并将其嵌回到作为第二医学图像的图像32中，生成新的右肺叶中包含结节病灶的图像34b。所生成包含结节病灶的第三医学图像可以作为新的样本添加到医学图像样本集中，实现对原有医学图像样本集的数据增强。

在上述示例中，利用样本集中一幅含有肺叶中的肺结节的医学图像，生成了肺结节分别位于左肺叶和右肺叶不同位置的两幅新的医学图像，有效地弥补了医学图像样本集中所缺乏的肺叶中的肺结节的对象的属性，以便捷高效的方式增加了具有相同属性，但由于具有该对象的属性的病灶合成的位置不同，又使其最终生成的新的医学图像样本具有足够的差异性，因此，可以有效地实现对医学图像样本集的增强。在一些实施例中，可以根据对象的属性缺乏的实际状况和样本集中正负样本的实际分布，选择由一幅第一医学图像对应一幅第二医学图像，在符合对象的属性要求的不同的位置生成一幅或多幅第三医学图像，例如上述示例中识别出的所缺乏的对象的属性为肺叶中的肺结节，则进行第二医学图像中待合成图像块的选择时，所有的肺叶区域都是满足要求的备选区域。在另外一些实施例中，也可以选择由一幅第一医学图像对应多幅第二医学图像，生成具有多样化特征的多幅第三医学图像。

在一些实施例中，具体所生成的具有缺乏的对象的属性的第三医学图像的数量，可以以接近或达到真实场景下的该对象的属性的数据分布为依据，也可以以数据增强后医学图像样本集对该对象的属性的检测精度是否达到期望值为依据。

在另外一些实施例中，需要考虑基于增强后的医学图像样本集进行机器学习时，对该对象的属性的学习不发生过度拟合等不利影响。

通过上述方式增强的医学图像样本集，不仅在特定的对象的属性，例如肺叶上的肺结节病灶的数量可以得到强化，同时，样本的多样性也得到了提升，因此，在实际应用中，利用按照如此方式强化后的样本集所训练的诸如神经网络等机器学习网络，在对待检测的对象进行检测时，将会有更高的检测精度，利用数据增强后的医学图像样本集训练得到的深度学习模型也将具有更好的泛化能力。

在一些实施例中，所生成的具有缺乏的对象的属性的第三医学图像可以以离线扩充的方式对医学图像样本集进行数据的增强。在另外一些实施例中，也可以以在线增强的方式对医学图像样本集进行在线扩充。具体所采用的增强方式，可以根据图像样本集的容量等来确定。

图4示出采用根据本公开实施例的基于蒙版对图像块进行融合生成的新结节图像与采用传统的复制-粘贴方式生成的新结节图像的效果的比较的示意图。在图4中，图像40是从医学图像样本集中选取的肺叶中含有肺结节的图像，图像41是从医学图像样本集中选取的肺叶中不包含肺结节的图像。图像40a和图像41a分别是采用传统的复制-粘贴方式，将图像40中的含有肺结节的图像块复制，并粘贴到图像41的右肺叶和左肺叶中，生成的两幅含有肺结节的新的医学图像。从图像40a和图像41a中可以看出，由于采用简单的复制-粘贴方法，肺结节周围具有明显的边界痕迹，与自然拍摄的医学图像差距较大。与之相对应，在采用本公开实施例的基于蒙版对图像块进行融合的方法生成的含有肺结节的新的医学图像40b和41b中，肺结节周围没有明显的边界痕迹，与原有医学图像融合得很好，非常接近自然拍摄的医学图像。容易想到，当把图像40a和图像41a加入原有的医学图像样本集中，用于诸如神经网络等机器学习网络的训练时，上述边界痕迹可以认为是一种人为引入的非期望噪声，可能导致错误的识别，从而无法达到对医学图像样本集增强的效果。而采用根据本公开实施例的基于蒙版对图像块进行融合生成的新结节图像则不会带来上述导致机器学习训练时错误识别的不良影响，可以有效地实现对原有的医学图像样本集的增强。

下述为本公开的装置实施例，可以用于执行本公开的方法实施例。对于本公开的装置实施例中未披露的细节，请参照本公开的方法实施例。

图5示出根据本公开实施例的用于医学图像检测的数据增强的装置的组成的示意图。在一些实施例中，用于医学图像检测的数据增强的装置500可以是专用智能装置或通用智能装置。例如，装置500可以是为图像数据处理任务定制的计算机，或者云端的服务器。例如，装置500可以被集成到图像处理装置中。

作为示例，在用于医学图像检测的数据增强的装置500中，至少包括通信接口501、存储器502和处理器503。

在一些实施例中，通信接口501用于获取与待检测的对象相关的医学图像样本集，例如，通信接口501可以经由通信电缆、无线局域网（WLAN）、广域网（WAN）、无线网络（诸如经由无线电波、蜂窝或电信网络、和/或本地或短程无线网络（例如，蓝牙^TM））或其他通信方法接收关于医学图像样本集的数据。

在一些实施例中，通信接口501可以包括集成服务数字网（ISDN）卡、电缆调制解调器、卫星调制解调器或调制解调器，以提供数据通信连接。在这样的实现中，通信接口501可以经由直接通信链路来发送和接收电信号、电磁信号和/或光学信号，其承载表示各种类型的信息的模拟/数字数据流。在另外一些实施例中，通信接口501还可以包括局域网（LAN）卡（例如，以太网适配器），以提供到兼容LAN的数据通信连接。作为示例，通信接口501还可以包括网络接口5011，经由网络接口5011，装置500可以连接到网络（未示出），例如包括但不限于医院中的局域网或互联网。网络可以将医学图像检测的数据增强的装置500与诸如图像采集装置（未示出）的外部装置、医学图像数据库504、图像数据存储装置505连接。图像采集装置可以是获取对象的图像的任何装置，例如DSA成像设备、MRI成像设备、CT成像设备、PET成像设备、超声设备、荧光透视设备、SPECT成像设备或用于获得患者的医学图像的其他医学成像设备。例如，成像装置可以是肺部CT成像装置等。

在一些实施例中，通信接口501可以用于将由处理器503生成的第三医学图像添加到医学图像样本集中，以得到数据增强后的医学图像样本集。

在一些实施例中，用于医学图像检测的数据增强的装置500可以额外包括输入/输出506和图像显示器507中的至少一个。

处理器503是包括一个或多个通用处理设备（诸如微处理器，中央处理单元（CPU），图形处理单元（GPU）等）的处理设备。更具体地说，处理器503可以是复杂指令集计算（CISC）微处理器、精简指令集计算（RISC）微处理器、超长指令字（VLIW）微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。处理器503也可以是一个或多个专用处理设备，例如专用集成电路（ASIC）、现场可编程门阵列（FPGA）、数字信号处理器（DSP）、片上系统（SoC）等等。如本领域技术人员将理解的，在一些实施例中，处理器503可以是专用处理器，而不是通用处理器。处理器503可以包括一个或多个已知处理设备，诸如由英特尔公司制造的Pentium ^TM、Core^TM、Xeon^TM或Itanium ^TM系列的微处理器，由AMD公司制造的Turion ^TM、Athlon ^TM、Sempron ^TM、Opteron ^TM、FX™、Phenom™系列的微处理器或太阳微系统（SunMicrosystems）制造的各种处理器的任一种。处理器503还可以包括图形处理单元，诸如来自Nvidia公司制造的GeForce®、Quadro®、Tesla®系列的GPU，由英特尔TM制造的GMA、Iris ^TM系列的GPU或者由AMD 公司制造的Radeon ^TM系列GPU。处理器503还可以包括加速的处理单元，诸如AMD公司制造的桌面A-4（6,8）系列，英特尔公司制造的Xeon Phi ^TM系列。所公开的实施例不限于任何类型的处理器或处理器电路，这些处理器或处理器电路以其他方式被配置为满足如下计算需求：执行诸如根据本公开各实施例的用于医学图像检测的数据增强的方法。另外，术语“处理器”或“图像处理器”可以包括多于一个处理器，例如，多核设计或多个处理器，所述多个处理器中的每个处理器具有多核设计。处理器503可以执行存储在存储器502中的计算机程序指令的序列，以执行本文公开的各种操作、过程、方法。

处理器503可以通信地耦合到存储器502并且被配置为执行存储在其中的计算机可执行指令。存储器502可以包括只读存储器（ROM）、闪存，随机存取存储器（RAM）、诸如同步DRAM（SDRAM）或Rambus DRAM的动态随机存取存储器（DRAM）、静态存储器（例如，闪存，静态随机存取存储器）等，其上以任何格式存储计算机可执行指令。在一些实施例中，存储器502可以存储一个或多个用于医学图像检测的数据增强的程序5021的计算机可执行指令。计算机程序指令可以被处理器503访问，从ROM或者任何其他合适的存储位置读取，并加载到RAM中供处理器503执行。例如，存储器502可以存储一个或多个软件应用程序。存储在存储器502中的软件应用程序可以包括例如用于通用计算机系统的操作系统（未示出）以及软控制设备（未示出）。此外，存储器502可以存储整个软件应用程序或仅存储软件应用程序的一部分（例如用于医学图像检测的数据增强的程序5021）以能够由处理器503执行。另外，存储器502可以存储多个软件模块，用于实现与本公开一致的用于医学图像检测的数据增强的方法或训练用于医学图像检测的学习网络的过程的各个步骤。此外，存储器502可以存储在执行计算机程序时生成/缓存的数据，例如医学图像数据5022，其包括从图像采集装置、医学图像数据库504、图像数据存储装置505等发送的医学图像。这样的医学图像数据5022可以包括接收到的将要对其实行缺乏的对象的属性的检测医学图像样本集。

此外，医学图像数据5022还可以包括从医学图像样本集中选出的将要进行图像融合以合成新的具有缺乏的对象的属性的医学图像，以及合成的各个新的医学图像。

处理器503可以执行用于医学图像检测的数据增强的程序5021以实现用于医学图像检测的数据增强的方法。在一些实施例中，当执行用于医学图像检测的数据增强的程序5021时，处理器503可以将检测到的缺乏的对象的属性的数据与从医学图像样本集中选出的将要进行图像融合以合成新的具有缺乏的对象的属性的第一医学图像和第二医学图像相关联，合成的各个第三医学图像存储到存储器502。在一些实施例中，存储器502可以经由通信接口501与医学图像数据库504通信，将由处理器503生成的各个第三医学图像添加到医学图像数据库504中的医学图像样本集中，以得到数据增强后的医学图像样本集。

在一些实施例中，用于医学图像检测的学习网络可以被存储在存储器502中。在另一些实施例中，用于医学图像检测的学习网络可以被存储在远程设备、分立的数据库（诸如医学图像数据库504）、分布式设备中，并且可以由用于医学图像检测的数据增强的程序5021使用。

输入/输出506可以被配置为允许用于医学图像检测的数据增强的装置500接收和/或发送数据。输入/输出506可以包括允许装置500与用户或其他机器和装置通信的一个或多个数字和/或模拟通信设备。例如，输入/输出506可以包括允许用户提供输入的键盘和鼠标。

网络接口5011可以包括网络适配器、电缆连接器、串行连接器、USB连接器、并行连接器、诸如光纤的高速数据传输适配器、USB 3.0、闪电、无线网络适配器如WiFi适配器、电信（3G、4G / LTE等）适配器。装置500可以通过网络接口5011连接到网络。网络可以提供局域网（LAN）、无线网络、云计算环境（例如，作为服务的软件、作为服务的平台、作为服务的基础设施等）、客户端服务器、广域网（WAN）等的功能。

除了显示医学图像之外，图像显示器507还可以显示其他信息，诸如医学图像样本集中缺乏的对象的属性的图像和/或文本信息，以及指示蒙版范围的边界框等。例如，图像显示器507可以是LCD、CRT或LED显示器。

此外，尽管已经在本文中描述了示例性实施例，其范围包括任何和所有基于本公开的具有等同元件、修改、省略、组合（例如，各种实施例交叉的方案）、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释，并不限于在本说明书中或本申请的实施期间所描述的示例，其示例将被解释为非排他性的。因此，本说明书和示例旨在仅被认为是示例，真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。

以上描述旨在是说明性的而不是限制性的。例如，上述示例（或其一个或更多方案）可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反，本发明的主题可以少于特定的公开的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

Claims

1.一种用于医学图像检测的数据增强的方法，其特征在于，所述方法包括：

获取与待检测的对象相关的医学图像样本集；

基于所述医学图像样本集中缺乏的对象的属性，在所述医学图像样本集中选取第一医学图像和第二医学图像，使得所述第一医学图像中包含缺乏属性的对象，所述第二医学图像不包含缺乏属性的对象；

在所述第一医学图像中截取包含缺乏属性的对象的区域，以得到第一区域图像块；

在所述第二医学图像中截取不包含缺乏属性的对象的区域，以得到第二区域图像块；

基于包括对象部和对象部的周边部的蒙版对所述第一区域图像块和所述第二区域图像块进行融合，从而得到合成区域图像块；

将所述合成区域图像块嵌回到所述第二医学图像中，以得到第三医学图像；以及

将所述第三医学图像添加到所述医学图像样本集中，以得到数据增强后的医学图像样本集。

2.根据权利要求1所述的方法，其特征在于，基于包括对象部和对象部的周边部的蒙版对所述第一区域图像块和所述第二区域图像块进行融合具体包括：

对于所述蒙版的各个部中的各个位置，基于第一融合系数和第二融合系数分别对所述第一区域图像块和所述第二区域图像块的相应位置的图像信息进行融合。

3.根据权利要求2所述的方法，其特征在于，对于所述蒙版的所述周边部中的各个位置：

离所述对象部越近的位置，融合时所述第一融合系数越大且所述第二融合系数越小。

4.根据权利要求1所述的方法，其特征在于，所述第一区域图像块和所述第二区域图像块的尺寸相同，所述蒙版的所述周边部的尺寸与所述第一区域图像块的尺寸匹配。

5.根据权利要求1所述的方法，其特征在于，所述医学图像样本集中缺乏的对象的属性通过与对象的属性的实际分布情况比较来确定。

6.根据权利要求1所述的方法，其特征在于，所述医学图像样本集中缺乏的对象的属性通过如下来确定：利用基于所述医学图像样本集训练好的模型，对医学图像进行检测，以获得对象夫的属性的检出分布情况；以及将所述对象的属性的检出分布情况与对象的属性的实际分布情况进行比较。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：基于数据增强后的医学图像样本集来训练模型；利用训练好的模型对医学图像进行检测，以获得对象的属性的检出分布情况；以及将所述对象的属性的检出分布情况与对象的属性的实际分布情况进行比较，来确定所述医学图像样本集中缺乏的对象的属性。

8.根据权利要求1所述的方法，其特征在于，所述第一医学图像和第二医学图像是随机选取的。

9.根据权利要求1所述的方法，其特征在于，所述属性包括所述对象的亚型、对象的位置、对象的尺寸中的至少一种或其组合。

10.根据权利要求9所述的方法，其特征在于，当所述对象为肺部病灶时，所述对象的所述亚型包括实性、毛玻璃样或半实性的病灶。

11.根据权利要求9所述的方法，其特征在于，当所述对象为肺部病灶时，所述对象的所述位置包括肺叶内或胸廓中。

12.根据权利要求9所述的方法，其特征在于，所述对象的所述尺寸包括大尺寸、中尺寸和小尺寸。

13.根据权利要求2所述的方法，其特征在于，对于所述蒙版的所述对象部中的各个位置，所述第一融合系数为1，所述第二融合系数为0。

14.根据权利要求2所述的方法，其特征在于，所述第一区域图像块中，所述蒙版对应的区域之外的各个位置的所述第一融合系数为0；所述第二区域图像块中，所述蒙版对应的区域之外的各个位置的所述第二融合系数为1。

15.根据权利要求3所述的方法，其特征在于，对于所述蒙版的所述周边部中的各个位置，所述第一融合系数与所述第二融合系数之和为1。

16.根据权利要求2或3所述的方法，其特征在于，基于包括对象部和对象部的周边部的蒙版对所述第一区域图像块和所述第二区域图像块进行融合，所述合成区域图像块中各个位置的图像值为：

公式(1)

其中，

为所述合成区域图像块中在位置

的图像值，

和

分别为所述第一区域图像块和所述第二区域图像块在位置

的图像值，

和

分别为在位置

的所述第一融合系数和所述第二融合系数。

17.根据权利要求3所述的方法，其特征在于，对于所述蒙版的所述周边部中的各个位置的所述第一融合系数和所述第二融合系数按如下方式计算：

公式(2)

其中，

和

为在位置

的所述第一融合系数和所述第二融合系数，

为位置

距离所述蒙版的所述对象部边界的最小距离，

为所述蒙版的所述周边部边界上所有点到所述蒙版的所述对象部边界的最小距离。

18.一种用于医学图像检测的数据增强的装置，所述装置包括通信接口、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可执行指令，其特征在于，所述处理器执行所述计算机可执行指令时实现以下步骤：

通过所述通信接口获取与待检测的对象相关的医学图像样本集；

所述处理器

通过所述通信接口，将所述第三医学图像添加到所述医学图像样本集中，以得到数据增强后的医学图像样本集。

19.根据权利要求18所述的装置，其特征在于，所述处理器基于包括对象部和对象部的周边部的蒙版对所述第一区域图像块和所述第二区域图像块进行融合具体包括：

20.根据权利要求19所述的装置，其特征在于，对于所述蒙版的所述周边部中的各个位置：

21.根据权利要求18所述的装置，其特征在于，所述处理器选取的所述第一区域图像块和所述第二区域图像块的尺寸相同，所述蒙版的所述周边部的尺寸与所述第一区域图像块的尺寸匹配。

22.根据权利要求18所述的装置，其特征在于，所述处理器基于所述医学图像样本集中缺乏的对象的属性，在所述医学图像样本集中选取第一医学图像和第二医学图像具体包括：所述医学图像样本集中缺乏的对象的属性通过与对象的属性的实际分布情况比较来确定。

23.根据权利要求18所述的装置，其特征在于，所述处理器基于所述医学图像样本集中缺乏的对象的属性，在所述医学图像样本集中选取第一医学图像和第二医学图像进一步包括：

利用基于所述医学图像样本集训练好的模型，对医学图像进行检测，以获得对象的属性的检出分布情况；以及

将所述对象的属性的检出分布情况与对象的属性的实际分布情况进行比较。

24.根据权利要求18所述的装置，其特征在于，所述装置

基于数据增强后的医学图像样本集来训练模型；

利用训练好的模型对医学图像进行检测，以获得对象的属性的检出分布情况；以及

将所述对象的属性的检出分布情况与对象的属性的实际分布情况进行比较，来确定所述医学图像样本集中缺乏的对象的属性。

25.根据权利要求18所述的装置，其特征在于，所述处理器在所述医学图像样本集中随机选取所述第一医学图像和第二医学图像。

26.根据权利要求18所述的装置，其特征在于，所述属性包括所述对象的亚型、对象的位置、对象的尺寸中的至少一种或其组合。

27.根据权利要求26所述的装置，其特征在于，当所述对象为肺部病灶时，所述对象的所述亚型包括实性、毛玻璃样或半实性的病灶。

28.根据权利要求26所述的装置，其特征在于，当所述对象为肺部病灶时，所述对象的所述位置包括肺叶内或胸廓中。

29.根据权利要求26所述的装置，其特征在于，所述对象的所述尺寸包括大尺寸、中尺寸和小尺寸。

30.根据权利要求19所述的装置，其特征在于，对于所述蒙版的所述对象部中的各个位置，所述第一融合系数为1，所述第二融合系数为0。

31.根据权利要求19所述的装置，其特征在于，所述第一区域图像块中，所述蒙版对应的区域之外的各个位置的所述第一融合系数为0；所述第二区域图像块中，所述蒙版对应的区域之外的各个位置的所述第二融合系数为1。

32.根据权利要求20所述的装置，其特征在于，对于所述蒙版的所述周边部中的各个位置，所述第一融合系数与所述第二融合系数之和为1。

33.根据权利要求19或20所述的装置，其特征在于，基于包括对象部和对象部的周边部的蒙版对所述第一区域图像块和所述第二区域图像块进行融合，所述合成区域图像块中各个位置的图像值为：

公式(1)

其中，

为所述合成区域图像块中在位置

的图像值，

和

分别为所述第一区域图像块和所述第二区域图像块在位置

的图像值，

和

分别为在位置

的所述第一融合系数和所述第二融合系数。

34.根据权利要求20所述的装置，其特征在于，对于所述蒙版的所述周边部中的各个位置的所述第一融合系数和所述第二融合系数按如下方式计算：

公式(2)

其中，

和

为在位置

的所述第一融合系数和所述第二融合系数，

为位置

距离所述蒙版的所述对象部边界的最小距离，

35.一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行时，实现权利要求1至17中任一项所述的用于医学图像检测的数据增强的方法的步骤。