CN112614133A

CN112614133A - 一种无锚点框的三维肺结节检测模型训练方法及装置

Info

Publication number: CN112614133A
Application number: CN202110248609.0A
Authority: CN
Inventors: 杜强; 王思其; 郭雨晨; 聂方兴; 唐超
Original assignee: Beijing Xbentury Network Technology Co ltd
Current assignee: Beijing Xbentury Network Technology Co ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-04-06
Anticipated expiration: 2041-03-05
Also published as: CN112614133B

Abstract

本发明公开了一种无锚点框的三维肺结节检测模型训练方法及装置，该方法包括：获取数据集中三维肺结节样本的图像数据、标注类别和标注坐标点并构建三维肺结节数据库；将进行数据增强后的图像数据输入到卷积神经网络进行处理，得到多个特征图；将特征图输入到预先设置的具有两个卷积分支的共享头部网络，输出预测类别、预测中心度和预测坐标点，计算预测置信度和标注中心度，将标注坐标点、预测坐标点、预测置信度、标注类别、预测中心度、标注中心度输入到损失函数，反向传播，训练模型。采用本发明实施例，解决了有锚点框所带来的问题、减少了很多的计算量，采用双分支的网络结构使得不同任务间的特征不互相干扰，模型结果更加准确。

Description

一种无锚点框的三维肺结节检测模型训练方法及装置

技术领域

本发明涉及智能医学工程技术领域，尤其是涉及一种无锚点框的三维肺结节检测模型训练方法及装置。

背景技术

随着近几年人工智能技术的飞速发展，将最先进的技术有效的应用于临床领域是必要的，同时，数据、算法、计算力、专业性四大要素促进着医疗人工智能的发展。

在本次算法研究中，数据集采用为LIDC-IDRI（The Lung Image DatabaseConsortium），该数据集由胸部医学图像文件(.dcm)(如CT、X光片)和对应的诊断结果病变标注(.xml) 组成。数据是由美国国家癌症研究所(National Cancer Institute)发起收集的，目的是为了研究高危人群早期癌症检测。该数据集中，从中筛选了1018个研究实例。对于每个实例中的图像，都由4位经验丰富的胸部放射科医师进行两阶段的诊断标注。在第一阶段，每位医师分别独立诊断并标注病患位置，其中会标注三种类别：1.大于等于3mm的结节2.小于3mm的结节3.大于等于3mm的非结节。在随后的第二阶段中，各位医师都分别独立的复审其他三位医师的标注，并给出自己最终的诊断结果。这样的两阶段标注可以在避免forced consensus的前提下，尽可能完整的标注所有结果。基于这个数据集，主要是对数据集中的肺结节进行3d检测及提取,并进行假阳性检测。由于该数据集主要用到的标签是肺结节位置以及分类，且是3d数据，所以检测肺结节需要检测一个3d物体，因此需要使用3d目标检测的多任务同时优化的手段对其进行优化。

目前流行了非常多基于anchor-base的目标检测网络模型如yolo，ssd，retinanet等，基于anchor的缺点非常明显，如：1.检测表现效果对于锚框的尺寸、长宽比、数目非常敏感，因此锚框相关的超参数需要仔细的调节；2.锚框的尺寸和长宽比是固定的，因此，检测器在处理形变较大的候选对象时比较困难，尤其是对于小目标，预先定义的锚框还限制了检测器的泛化能力，因为，它们需要针对不同对象大小或长宽比进行设计；3.为了提高召回率，需要在图像上放置密集的锚框，而这些锚框大多数属于负样本，这样造成了正负样本之间的不均衡；4.大量的锚框增加了在计算交并比时计算量和内存占用。

看一张肺部CT，医生平常需要十几分钟到半个小时，而人工智能只需要几秒钟；3mm以内的小病灶，普通影像医生肉眼很容易遗漏，人工智能却容易识别；不会因为情绪、疲劳出错。

目前已有的深度学习目标检测模型如yolo，ssd，retinanet等基于anchor的都无法很好地适应该任务的要求。所以针对基于anchor-base的目标检测方法的缺点以及在3d数据集进行3d目标检测的需求，我们设计了目前在市面上暂时没有的针对肺结节图像的基于无anchor的3d目标检测的深度学习方法。

发明内容

本发明的目的在于提供一种无锚点框的三维肺结节检测模型训练方法及装置，旨在解决发明一种市面上暂时没有的针对肺结节图像的基于无锚点框的3d目标检测的深度学习方法。

本发明提供一种无锚点框的三维肺结节检测模型训练方法，包括：

S101.获取医学CT图像LIDC-IDRI数据集中三维肺结节样本并构建三维肺结节数据库，三维肺结节样本包括图像数据和标注数据，标注数据包括标注类别和标注坐标点；

S102.将进行数据增强后的图像数据输入到卷积神经网络进行卷积处理，提取图像特征，得到多个特征图；

S103.将多个特征图输入到预先设置的具有两个卷积分支的共享头部网络，分别通过两层的卷积之后，从第一个分支输出预测类别和预测中心度，从第二个分支输出预测坐标点，根据预测类别，通过激活函数得到预测置信度；

S104. 将标注坐标点经过计算得到标注中心度，将标注坐标点、预测坐标点、预测置信度、标注类别、预测中心度、标注中心度输入到损失函数，反向传播，训练模型。

本发明提供一种无锚点框的三维肺结节检测模型训练装置，包括：

样本获取模块301：获取医学CT图像LIDC-IDRI数据集中三维肺结节样本并构建三维肺结节数据库，三维肺结节样本包括图像数据和标注数据，标注数据包括标注类别和标注坐标点；

特征提取模块302：将进行数据增强后的图像数据输入到卷积神经网络进行卷积处理，提取图像特征，得到多个特征图；

预测模块303：将多个特征图输入到预先设置的具有两个卷积分支的共享头部网络，分别通过两层的卷积之后，从第一个分支输出预测类别和预测中心度，从第二个分支输出预测坐标点，根据预测类别，通过激活函数得到预测置信度；

训练模块304：将标注坐标点经过计算得到标注中心度，将标注坐标点、预测坐标点、预测置信度、标注类别、预测中心度、标注中心度输入到损失函数，反向传播，训练模型。

本发明实施例还提供一种无锚点框的三维肺结节检测模型训练设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现上述无锚点框的三维肺结节检测模型训练方法的步骤。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有信息传递的实现程序，程序被处理器执行时实现上述无锚点框的三维肺结节检测模型训练方法的步骤。

采用本发明实施例，解决了有锚点框所带来的问题以及减少了很多的计算量，采用双分支的网络结构使得不同任务间的特征不互相干扰，模型结果更加准确。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的无锚点框的三维肺结节检测模型训练方法的流程图；

图2是本发明实施例的网络模型示意图；

图3是本发明装置实施例一的三维肺结节检测模型训练装置示意图；

图4是本发明装置实施例二的三维肺结节检测模型训练装置示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、 “第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。此外，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

方法实施例

根据本发明实施例，提供了一种无锚点框的三维肺结节检测模型训练方法，图1是本发明实施例的无锚点框的三维肺结节检测模型训练方法的流程图，如图1所示，根据本发明实施例的无锚点框的三维肺结节检测模型训练方法具体包括：

在本发明实施例中，卷积神经网络具体包括骨干网络，骨干网络包括resnet3d、resnext3d和densenet3d。

在本发明实施例中，图像增强方法为：对比度增强、明亮度变化、裁剪、旋转、锐化等，使用这五种图像增强方法不仅可以扩充数据集而且可以使得模型更具有鲁棒性。

在本发明实施例中，图2是本发明实施例的网络模型示意图，如图2所示，步骤S102具体包括将图像数据进行数据增强后输入到卷积神经网络，在最后三层卷积神经网络时提取特征图C3、C4、C5；将特征图C3、C4、C5分别经过1*1的卷积横向连接得到特征图P3、P4、P5，将特征图P5经过步长为二的3*3的卷积得到特征图P6，将特征图P6经过步长为二的3*3的卷积得到特征图P7；多个特征图为特征图P3、P4、P5、P6、P7。

在本发明实施例中，如图2所示，第一个分支输出的预测类别维度为D*H*W*K，K为类别(在本专利中为2，即背景与肺结节)，通过激活函数sigmoid函数

选择大于0.5的部分得到预测置信度，所以预测置信度维度为D*H*W*1，预测中心度为特征图中目标的中心点，其输出维度为D*H*W*1。

S104. 将标注坐标点经过计算得到标注中心度，将标注坐标点、预测坐标点、预测置信度、标注类别、预测中心度、标注中心度输入到损失函数，反向传播，训练模型；

在本发明实施例中，通过标注坐标点计算得到标注中心度的公式如下

开根号是为了减缓中心度的衰减。中心度的范围从0到1，因此可以使用交叉熵BCE损失函数来训练。测试的时候，最终得分（用来给预测的边界框排序）为分类的分和中心度的乘积。因此中心度可以降低远离目标中心边界框的权重，进一步地，这些低质量的边界框大概率会被NMS过滤掉，从而显著提升了检测性能。

在本发明实施例中，步骤S104具体包括将标注坐标点经过计算得到标注中心度，将预测置信度和标注类别通过焦点Focal算法得出Focal损失函数，将预测中心度和标注中心度通过交叉熵BCE算法得出BCE损失函数，预测坐标点和标注坐标点通过交并比IOU算法得出IOU损失函数;

在本发明实施例中，步骤得出IOU损失函数具体包括计算特征图P3、P4、P5、P6、P7上每个位置的回归目标中心度点到左边界的距离l*，中心度点到上边界的距离t*，中心度点到右边界的距离r*，中心度点到下边界的距离b*，中心度点到前边界的距离f*以及中心度点到后边界的距离be*，假设mi是第i 层特征图最大的回归距离，图像中某一像素位置满足max(l*,t*,r*,b*,f*,be*)> mi或min(l*,t*,r*,b*,f*,be*)< mi-1则被定义为负样本，负样本的预测坐标点不参与IOU损失函数的计算。

本发明实施例中，m2 , m3 , m4 , m5 , m6, m7被设置为0 , 64 , 12 8, 256 ,512 , + inf。因为不同尺寸的目标被分配到不同特征层上，而大部分重叠都发生在尺寸差异比较大的目标之间，所以多层级的预测可以缓解二义性问题，提高模型的性能。

将Focal损失函数、BCE损失函数和IOU损失函数进行整合得到损失函数。

本发明实施例中，损失函数计算公式为：

其中,L_cls是Focal损失函数，L_reg是IOU 损失函数,N_pos是由负样本计算得出的正样本数量，λ设为1用于平衡两种损失,求和计算在整个特征图上进行，其中

()代表指示函数。

Focal损失函数的公式为:

其中，α、γ为超参数，需要自己设置，一般为0.25、2最佳，p_t 为类别置信度。在公式中α可以控制征服样本的权重，γ可以用来控制难以样本分类的权重。目的是通过减少易分类样本的权重，从而使得模型在训练时更专注于难分类的样本。

IOU损失函数总结公式为：

使用IOU loss可以反映预测检测框与真实检测框的检测效果，并且还有一个很好的特性就是尺度不变性，也就是对尺度不敏感（scale invariant），在回归（regression）任务中，判断预测框(predict box)和真实标签框(groundtrue)的距离最直接的指标就是IoU。

在本发明中，肺结节目标检测模型通过在LIDC-IDRI数据集上进行训练与测试，该数据集包含888个病人，从中筛选出了1018个肺结节案例，其中训练集与测试集比例为9：1在训练时，进行交叉训练及验证，来增强模型鲁棒性。在训练时，采用在image net 上训练后的resnext3d50以及densenet3d34作为基础模型提取特征，并从中选取效果最好的基础模型结构，使用了FROC为最终评价指标，最终得到验证集成绩为0.8954，该实验表明该方法能够很好地对肺结节图像进行检测和分类，并较为符合人为判断的标准。

装置实施例一

根据本发明实施例，提供了一种无锚点框的三维肺结节检测模型训练装置，图3是本发明装置实施例一的三维肺结节检测模型训练装置示意图，如图3所示，根据本发明实施例的三维肺结节检测模型训练装置具体包括：

在本发明实施例中，特征提取模块302具体包括将图像数据进行数据增强后输入到卷积神经网络，在最后三层卷积神经网络时提取特征图C3、C4、C5；将特征图C3、C4、C5分别经过1*1的卷积横向连接得到特征图P3、P4、P5，将特征图P5经过步长为二的3*3的卷积得到特征图P6，将特征图P6经过步长为二的3*3的卷积得到特征图P7；多个特征图为特征图P3、P4、P5、P6、P7。

训练模块304：将标注坐标点经过计算得到标注中心度，将标注坐标点、预测坐标点、预测置信度、标注类别、预测中心度、标注中心度输入到损失函数，反向传播，训练模型；

在本发明实施例中，步骤训练模块304具体包括将标注坐标点经过计算得到标注中心度，将预测置信度和标注类别通过焦点Focal算法得出Focal损失函数，将预测中心度和标注中心度通过交叉熵BCE算法得出BCE损失函数，预测坐标点和标注坐标点通过交并比IOU算法得出IOU损失函数;

本发明实施例是与上述方法实施例对应的装置实施例，各个模块的具体操作可以参照方法实施例的描述进行理解，在此不再赘述。

装置实施例二

本发明实施例提供一种无锚点框的三维肺结节检测模型训练装置，图4是本发明装置实施例二的三维肺结节检测模型训练装置示意图，如图4所示，包括：存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序，计算机程序被处理器402执行时实现如下方法步骤：

在本发明实施例中，步骤S102具体包括将图像数据进行数据增强后输入到卷积神经网络，在最后三层卷积神经网络时提取特征图C3、C4、C5；将特征图C3、C4、C5分别经过1*1的卷积横向连接得到特征图P3、P4、P5，将特征图P5经过步长为二的3*3的卷积得到特征图P6，将特征图P6经过步长为二的3*3的卷积得到特征图P7；多个特征图为特征图P3、P4、P5、P6、P7。

装置实施例三

本发明实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有信息传输的实现程序，程序被处理器402执行时实现如下方法步骤：

本实施例所述计算机可读存储介质包括但不限于为：ROM、RAM、磁盘或光盘等。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种无锚点框的三维肺结节检测模型训练方法，其特征在于，包括：

S1.获取医学CT图像LIDC-IDRI数据集中三维肺结节样本并构建三维肺结节数据库，所述三维肺结节样本包括图像数据和标注数据，所述标注数据包括标注类别和标注坐标点；

S2.将进行数据增强后的图像数据输入到卷积神经网络进行卷积处理，提取图像特征，得到多个特征图；

S3.将所述多个特征图输入到预先设置的具有两个卷积分支的共享头部网络，分别通过两层的卷积之后，从第一个分支输出预测类别和预测中心度，从第二个分支输出预测坐标点，根据所述预测类别，通过激活函数得到预测置信度；

S4. 将所述标注坐标点经过计算得到标注中心度，将所述标注坐标点、所述预测坐标点、所述预测置信度、所述标注类别、所述预测中心度、所述标注中心度输入到损失函数，反向传播，训练模型。

2.根据权利要求1所述的方法，其特征在于，所述步骤S2具体包括：

将图像数据进行数据增强后输入到卷积神经网络，在最后三层卷积神经网络时提取特征图C3、C4、C5；

将所述特征图C3、C4、C5分别经过1*1的卷积横向连接得到特征图P3、P4、P5，将所述特征图P5经过步长为二的3*3的卷积得到特征图P6，将所述特征图P6经过步长为二的3*3的卷积得到特征图P7；

所述多个特征图为所述特征图P3、P4、P5、P6、P7。

3.根据权利要求2所述的方法，其特征在于，步骤S4具体包括：

将所述标注坐标点经过计算得到标注中心度，将所述预测置信度和标注类别通过焦点Focal算法得出Focal损失函数，将所述预测中心度和标注中心度通过交叉熵BCE算法得出BCE损失函数，所述预测坐标点和标注坐标点通过交并比IOU算法得出IOU损失函数;

将所述Focal损失函数、BCE损失函数和IOU损失函数进行整合得到所述损失函数。

4.根据权利要求3所述的方法，其特征在于，步骤S4具体包括：计算所述特征图P3、P4、P5、P6、P7上每个位置的回归目标中心度点到左边界的距离l*，所述中心度点到上边界的距离t*，所述中心度点到右边界的距离r*，所述中心度点到下边界的距离b*，所述中心度点到前边界的距离f*以及所述中心度点到后边界的距离be*，假设mi是第i 层特征图最大的回归距离，图像中某一像素位置满足max(l*,t*,r*,b*,f*,be*)> mi或min(l*,t*,r*,b*,f*,be*)< mi-1则被定义为负样本，所述负样本的预测坐标点不参与所述IOU损失函数的计算。

5.根据权利要求1所述的方法，其特征在于，所述卷积神经网络包括骨干网络，所述骨干网络包括resnet3d、resnext3d和densenet3d。

6.一种无锚点框的三维肺结节检测模型训练装置，其特征在于，包括：

样本获取模块：获取医学CT图像LIDC-IDRI数据集中三维肺结节样本并构建三维肺结节数据库，所述三维肺结节样本包括图像数据和标注数据，所述标注数据包括标注类别和标注坐标点；

特征提取模块：将进行数据增强后的图像数据输入到卷积神经网络进行卷积处理，提取图像特征，得到多个特征图；

预测模块：将所述多个特征图输入到预先设置的具有两个卷积分支的共享头部网络，分别通过两层的卷积之后，从第一个分支输出预测类别和预测中心度，从第二个分支输出预测坐标点，根据所述预测类别，通过激活函数得到预测置信度；

训练模块：将所述标注坐标点经过计算得到标注中心度，将所述标注坐标点、所述预测坐标点、所述预测置信度、所述标注类别、所述预测中心度、所述标注中心度输入到损失函数，反向传播，训练模型。

7.根据权利要求6所述的装置，其特征在于，所述特征提取模块具体包括：图像数据进行数据增强后输入到卷积神经网络，在最后三层卷积神经网络时提取特征图C3、C4、C5；将所述特征图C3、C4、C5分别经过1*1的卷积横向连接得到特征图P3、P4、P5，将所述特征图P5经过步长为二的3*3的卷积得到特征图P6，将所述特征图P6经过步长为二的3*3的卷积得到特征图P7；所述多个特征图为所述特征图P3、P4、P5、P6、P7；

所述训练模块具体包括：将所述标注坐标点经过计算得到标注中心度，将所述预测置信度和标注类别通过焦点Focal算法得出Focal损失函数，将所述预测中心度和标注中心度通过交叉熵BCE算法得出BCE损失函数，所述预测坐标点和标注坐标点通过交并比IOU算法得出IOU损失函数; 将所述Focal损失函数、BCE损失函数和IOU损失函数进行整合得到所述损失函数；

所述训练模块具体包括：计算所述特征图P3、P4、P5、P6、P7上每个位置的回归目标中心度点到左边界的距离l*，所述中心度点到上边界的距离t*，所述中心度点到右边界的距离r*，所述中心度点到下边界的距离b*，所述中心度点到前边界的距离f*以及所述中心度点到后边界的距离be*，假设mi是第i 层特征图最大的回归距离，图像中某一像素位置满足max(l*,t*,r*,b*,f*,be*)> mi或min(l*,t*,r*,b*,f*,be*)< mi-1则被定义为负样本，所述负样本的预测坐标点不参与所述IOU损失函数的计算。

8.根据权利要求6所述的装置，其特征在于，所述卷积神经网络包括骨干网络，所述骨干网络包括resnet3d、resnext3d和densenet3d。

9.一种无锚点框的三维肺结节检测模型训练设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的无锚点框的三维肺结节检测模型训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现如权利要求1至5中任一项所述的无锚点框的三维肺结节检测模型训练方法的步骤。