CN112950546B

CN112950546B - 一种钡餐造影图像的食道癌检测方法及系统

Info

Publication number: CN112950546B
Application number: CN202110147075.2A
Authority: CN
Inventors: 徐胜舟; 佘逸飞; 盘安思; 卢浩然; 吴福彬
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2023-10-31
Anticipated expiration: 2041-02-03
Also published as: CN112950546A

Abstract

本发明提供了一种钡餐造影图像的食道癌检测方法及系统，包括：获取待检测的食道的钡餐造影图像；根据经训练的目标检测模型对钡餐造影图像进行病灶区域检测；其中，目标检测模型采用改进的Faster R‑CNN，其基础网络由携带注意力机制的卷积神经网络构成；根据基础网络获取图像的特征图，通过注意力机制增强特征图的特征显著性；根据特征图生成感兴趣区域及感兴趣区域的特征向量，根据感兴趣区域的特征向量得到病灶区域的检测信息。本发明通过在基础网络中嵌入注意力机制，改进了目标检测模型获取感兴趣区域的特征的能力，通过对多影像、多体位的检测信息的融合，提高了系统对食道癌的检测准确率。

Description

一种钡餐造影图像的食道癌检测方法及系统

技术领域

本发明涉及医学图像领域，尤指一种钡餐造影图像的食道癌检测方法及系统。

背景技术

癌症是当今对人类身体健康危害最大的疾病之一，许多癌症的早期诊断与治疗可以起到防治的效果。癌症早期在影像上往往表现为小型的病灶，需要花费医生很多时间进行筛查。使用计算机辅助检测(Computer-Aided Detection，CAD)系统可以减少医生病灶漏检率，提升医生阅片的效率。

食道癌是发生在食管上皮组织的恶性肿瘤，早发现早诊断，早治疗仍然是治愈食道癌最有效的方法。目前食道癌CAD系统主要为针对食道癌细胞图像和食管内窥镜图像的研究，还未见基于钡餐造影图像的食道癌CAD系统的相关研究。钡餐造影图像是指患者吞食糊状硫酸钡后，通过钡剂经食道到达胃、十二指肠部位的显影过程来进行诊断。钡餐造影能很好地显示病变部位，黏膜改变及癌瘤长度。既可以对病变进行定位又可以定性。在实际的临床研究中X线钡餐和CT检查各有优势，两者结合有利于食道癌诊断及指导临床治疗。

近年来计算机视觉有了很大发展，其中目标的分类、检测和分割算法已成熟应用于钡餐造影图像处理。

在2014年ROSS B.Girshick等人提出了基于感兴趣区域(Region of Interest，RoI)与卷积神经网络(Convolutional Neural Networks，CNN)相结合的目标检测算法R-CNN。R-CNN首先从输入图像中筛选出2000个包含可疑目标的感兴趣区域，然后将这2000个感兴趣区域送入CNN模型中得到特征向量，这些特征向量作为SVM(支持向量机)和边框回归模型的输入，经过SVM得到RoI属于某类对象的概率，经过边框回归模型得到待检测目标的坐标位置。虽然R-CNN实现了基于深度学习的目标检测算法，但在RoI的特征向量提取过程中，无法实现卷积层的参数共享。

2015年ROSS B.Girshick提出了基于RoI的深度学习目标检测算法Fast R-CNN，该算法首次提出了RoI Pooling(池化)层，使得用于RoI特征向量提取的卷积层实现了参数共享，也将分类和回归任务同时加入了网络。但它的缺点是在RoI提取中使用的是选择性搜索(Selective Seacrh)算法，该算法是在CPU上运行，存在运行速度慢等问题。

2016年任少卿等人采用区域生成网络(Region Proposal Network，RPN)进行RoI的提取，提出了目标检测算法Faster R-CNN(fasterregion-convolution neuralnetwork，更快速的区域卷积神经网络)。至此目标检测的三个基本步骤：提取原始图片中的RoI，RoI特征提取，RoI分类及边框回归全部被统一到同一个深度网络框架中，真正地实现了目标检测任务端到端的学习。

虽然使用Faster R-CNN网络的CAD系统在钡餐造影图像检测问题上表现出相对其他网络的明显优势，但距离实际应用还存在进一步提高的空间。

发明内容

本发明的目的是提供一种钡餐造影图像的食道癌检测方法及系统，用于进一步提升病灶区域的检测能力。

本发明提供的技术方案如下：

一种钡餐造影图像的食道癌检测方法，包括：获取待检测的食道的钡餐造影图像；根据经训练的目标检测模型对所述钡餐造影图像进行病灶区域检测；其中，所述目标检测模型采用改进的区域卷积神经网络Faster R-CNN，所述改进的Faster R-CNN网络的基础网络由携带注意力机制的卷积神经网络构成；根据所述基础网络获取所述钡餐造影图像的特征图，通过所述注意力机制增强所述特征图的特征显著性；根据所述特征图生成所述钡餐造影图像的感兴趣区域及所述感兴趣区域的特征向量，根据所述感兴趣区域的特征向量得到病灶区域的检测信息。

进一步地，所述根据经训练的目标检测模型对所述钡餐造影图像进行病灶区域检测，包括：所述目标检测模型根据食道癌病灶的特征对所述钡餐造影图像进行病灶区域检测，所述食道癌病灶的特征包括食道在显影剂的作用下呈现近似垂直方向的带状高亮度区域中形成狭窄。

进一步地，所述注意力机制为卷积注意力模块CBAM。

进一步地，所述基础网络包括多个块，从中选择至少一个目标块，在所述目标块之后加入所述卷积注意力模块CBAM。

进一步地，所述基础网络包括5个依次级联的块，分别为第一块、第二块、第三块、第四块和第五块；所述第一块包括两个由64个3×3卷积核构成的卷积层和一个2×2的最大池化层，输出300×300×64的特征图；所述第二块包括两个由128个3×3卷积核构成的卷积层和一个2×2的最大池化层，输出150×150×128的特征图；所述第三块包括三个由256个3×3卷积核构成的卷积层和一个2×2的最大池化层，输出75×75×256的特征图；所述第四块包括三个由512个3×3卷积核构成的卷积层和一个2×2的最大池化层，输出38×38×512的特征图；所述第五块包括三个由512个3×3卷积核构成的卷积层，输出38×38×512的特征图。

进一步地，在训练所述目标检测模型之前，对困难样本实施仿射变换，将仿射变换后的样本与原始训练样本合并构成第一训练样本，对所述第一训练样本采用水平翻转和垂直翻转的图像增强策略得到第二训练样本，所述第一训练样本和所述第二训练样本构成训练样本集。

进一步地，所述获取待检测的食道的钡餐造影图像包括：获取同一病患一个体位的多幅待检测的钡餐造影图像；所述根据经训练的目标检测模型对所述钡餐造影图像进行病灶区域检测包括：采用所述目标检测模型对每幅钡餐造影图像进行病灶区域检测，得到对应的检测结果，所述检测结果包括候选病灶区域的置信度和位置信息；对同一病患所述体位的多幅钡餐造影图像的检测结果进行融合，得到所述病患的病灶区域的检测信息。

进一步地，所述对同一病患所述体位的多幅钡餐造影图像的检测结果进行融合，得到所述病患的病灶区域的检测信息，包括：根据候选病灶区域的重叠情况对每幅钡餐造影图像的检测结果中的冗余病灶区域进行剔除处理；根据剩下的候选病灶区域的位置信息，获得每个候选病灶区域的相似数；获取具有最大相似数的候选病灶区域；根据所述具有最大相似数的候选病灶区域的位置信息和置信度，得到所述体位的检测结果；根据所述体位的检测结果得到所述病患的病灶区域的检测信息。

进一步地，所述获取待检测的食道的钡餐造影图像包括：获取同一病患多个体位的多幅待检测的钡餐造影图像；所述根据经训练的目标检测模型对所述钡餐造影图像进行病灶区域检测包括：采用所述目标检测模型对每幅钡餐造影图像进行病灶区域检测，得到对应的检测结果，所述检测结果包括候选病灶区域的置信度和位置信息；分别对同一病患每一体位的多幅钡餐造影图像的检测结果进行融合，得到所述病患所述体位的检测结果；对同一病患所有体位的检测结果进行融合，得到所述病患的病灶区域的检测信息。

本发明还提供一种钡餐造影图像的食道癌检测系统，包括：图像获取模块，用于获取待检测的食道的钡餐造影图像；目标检测模块，用于根据经训练的目标检测模型对所述钡餐造影图像进行病灶区域检测；其中，所述目标检测模型采用改进的区域卷积神经网络Faster R-CNN，所述改进的Faster R-CNN网络的基础网络由携带注意力机制的卷积神经网络构成；所述目标检测模块包括：图像特征提取单元，用于根据所述基础网络获取所述钡餐造影图像的特征图，通过所述注意力机制增强所述特征图的特征显著性；病灶检测单元，用于根据所述特征图生成所述钡餐造影图像的感兴趣区域及所述感兴趣区域的特征向量，根据所述感兴趣区域的特征向量得到病灶区域的检测信息。

通过本发明提供的一种钡餐造影图像的食道癌检测方法及系统，至少能够带来以下有益效果：

1、本发明通过在Faster R-CNN的基础网络中嵌入注意力机制，提升了基础网络的性能，更好地提取了食道的钡餐造影图像中食道癌病灶的特征，从而提高了系统对病灶区域的检测准确率，更好地辅助医生进行诊断。

2、本发明通过对困难样本的数据增广，提升了系统对困难样本这类图像的检测性能。

3、本发明通过对同一病患同体位下多幅图像的检测信息融合，以及多体位下多幅图像的检测信息融合进一步提高了系统检测性能。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种钡餐造影图像的食道癌检测方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明的一种钡餐造影图像的食道癌检测方法的一个实施例的流程图；

图2-1是卷积注意力模块CBAM的结构示意图；

图2-2是CBAM中的通道注意力模块CAM的结构示意图；

图2-3是CBAM中的空间注意力模块SAM的结构示意图；

图3是本发明的一种钡餐造影图像的食道癌检测方法的另一个实施例的流程图；

图4是本发明的一种钡餐造影图像的食道癌检测系统的一个实施例的结构示意图；

图5是本发明的一种钡餐造影图像的食道癌检测系统的另一个实施例的结构示意图；

图6是CBAM Faster R-CNN算法模型的算法流程示意图；

图7是CBAM Faster R-CNN算法模型的基础网络的结构示意图；

图8是钡餐造影图像中食道癌病灶的狭窄示意图；

图9是单张评测方式下，数据增广前后的AP值随IoU的变化曲线图；

图10是单张评测方式下，模型改进前后的AP值AP值随IoU的变化曲线图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘制了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

本发明的一个实施例，如图1所示，一种钡餐造影图像的食道癌检测方法，包括：

步骤S50构建目标检测模型，对模型进行训练。

采用改进的区域卷积神经网络Faster R-CNN构建目标检测模型，改进的FasterR-CNN网络的基础网络由携带注意力机制的卷积神经网络构成。

传统的FasterR-CNN网络主要由卷积神经网络CNN构成的基础网络、区域生成网络(RPN网络)和感兴趣区域池化层(RoI Pooing层)构成。

本实施例的目标检测模型，通过对传统的Faster R-CNN网络的基础网络进行改进，在基础网络中嵌入注意力机制，以提升基础网络的性能，更好地提取食道的钡餐造影图像中食道癌病灶的特征，为后续的检测和分类提供基础。

对模型进行训练前先要收集训练样本，但样本种类的不均衡，比如某类样本数量少(称为困难样本)，会影响模型对这类图像的检测识别的准确性。

为此，首先对困难样本实施仿射变换，将仿射变换后的样本与原始训练样本合并构成第一训练样本，再对第一训练样本采用水平翻转(在水平方向翻转图像)、垂直翻转(在垂直方向翻转图像)的图像增强策略得到第二训练样本，第一训练样本和第二训练样本构成训练样本集。

通过对困难样本(即数量少的样本)进行图像的增广处理，提升样本数量，从而提高模型对这类样本图像的检测识别的准确性。

步骤S100获取待检测的食道的钡餐造影图像。

步骤S200根据经训练的目标检测模型对钡餐造影图像进行病灶区域检测。

步骤S200包括：

步骤S210根据该基础网络获取钡餐造影图像的特征图，通过注意力机制增强该特征图的特征显著性；

步骤S220根据该特征图生成钡餐造影图像的感兴趣区域及该感兴趣区域的特征向量，根据该感兴趣区域的特征向量得到病灶区域的检测信息。

具体地，将钡餐造影图像输入至嵌入注意力机制的基础网络，得到一系列特征图，再由RPN网络生成感兴趣区域(即RoI区域)，由特征图获取这些感兴趣区域对应的特征向量，将这些特征向量输入至RoI pooling层，完成目标分类以及边框回归操作，得到感兴趣区域的检测信息，该检测信息可包括感兴趣区域为病灶区域的概率(即置信度)以及对应的病灶区域的位置信息。根据感兴趣区域的检测信息可以得到病灶区域的检测信息。病灶区域的检测信息包括病灶区域的置信度和病灶区域的位置信息。

优选地，注意力机制采用卷积注意力模块CBAM。

CBAM(Convolutional Block Attention Module，卷积注意力模块)是一种轻量级的注意力模块，它结合了通道(Channel)注意力机制以及空间(Spatial)注意力机制，通过引入注意力机制可以使输出信息更聚焦于更关键更有用的信息，减弱甚至消除无关信息的干扰，从而达到提高模型准确率的目的。

CBAM结构如图2-1所示，包含2个子模块，通道注意力模块(Channel AttentionModule，CAM)和空间注意力模块(Spatial Attention Module，SAM)。

首先将一个H(高度)×W(宽度)×C(通道数)的特征图F输入至通道注意力模块CAM得到通道注意力图Mc，再将特征图F与Mc相乘得到H×W×C的通道注意力特征图Fc，将Fc输入至空间注意力模块SAM得到空间注意力图Ms，最后将通道注意力特征图Fc与空间注意力图Ms的乘积作为CBAM模块的输出，即H×W×C的优化后的特征图F'。

通道注意力模块CAM的结构如图2-2所示。CAM的输入是特征图F，首先对特征图F分别采用基于高度和宽度的平均池化操作和最大池化操作，得到两个1×1×C的通道描述AvgPool_hw和MaxPool_hw。再将AvgPool_hw和MaxPool_hw输入至两层共享参数的全连接层中，第一个全连接层的输出单元数为通道数C/ratio(ratio可根据需要设置，比如设置ratio＝8)；第二个全连接层的输出单元数为通道数C。AvgPool_hw经过全连接层处理得到平均池化输出AvgPool_hw'，MaxPool_hw经过全连接层处理得到最大池化输出MaxPool_hw'。将平均池化输出AvgPool_hw'与最大池化输出MaxPool_hw'求和并使用Sigmoid激活函数，最终得到通道注意力图Mc。

空间注意力模块SAM的结构如图2-3所示。空间注意力模块的输入为通道注意力特征图Fc，首先对Fc分别进行一个通道维度的平均池化操作和最大池化操作，得到两个H×W×1的平均池化结果AvgPool_c与最大池化结果MaxPool_c，再将AvgPool_c与MaxPool_c进行拼接操作，得到的结果与1个7*7的卷积核进行卷积操作并使用Sigmoid激活函数，最终得到空间注意力图Ms。

若基础网络只包括一个块，该块可能由多个卷积层构成，则在该块之后加入注意力模块。若基础网络包括多个块，可从中选择至少一个目标块，可以是多个目标块，在每个目标块之后加入注意力模块，比如CBAM，如此得到嵌入注意力机制的基础网络。

在目标检测模型的训练中，可尝试在各种块之后加入注意力模块，通过检测对比，获取效果较优的方案，根据效果较优的方案确定目标块。

以上为通过目标检测模型在单幅图像内搜索所有可疑病灶，提取包含可疑病灶的ROI区域。进一步，可结合体位信息对检测出的ROI区域进行分析，去除一些假阳性区域，从而进一步提高系统的检测准确率。

本实施例，通过在Faster R-CNN的基础网络中嵌入注意力机制，提升了基础网络的性能，更好地提取了待检测的钡餐造影图像中食道癌病灶的特征，从而提高了系统对病灶区域的检测准确率，更好地辅助医生进行诊断。

本发明的另一个实施例，如图3所示，一种钡餐造影图像的食道癌检测方法，包括：

步骤S110获取同一病患多个体位的多幅待检测的食道的钡餐造影图像。

具体地，体位是指图像的拍摄角度，比如正面、侧面、背面分别代表2种体位。在医院进行食道的钡餐造影图像的拍摄时，往往会对同一拍摄对象从多个角度进行拍摄，每次拍摄会获得连续多张图像，所以可获得同一病患多个体位的钡餐造影图像、每个体位的多幅钡餐造影图像。

步骤S230采用经训练的目标检测模型对每幅钡餐造影图像进行病灶区域检测，得到对应的检测结果，检测结果包括候选病灶区域的置信度和位置信息。

其中，目标检测模型采用改进的区域卷积神经网络Faster R-CNN，改进的FasterR-CNN网络的基础网络由携带注意力机制的卷积神经网络构成。

步骤S300分别对同一病患每一体位的多幅钡餐造影图像的检测结果进行融合，得到该病患在对应体位的检测结果。

具体地，根据病人在同一体位下的多张钡餐造影图像给出一个综合的评测结果。通过同体位下多幅图像的信息融合进一步提高系统检测性能。

步骤S300包括：

步骤S310对同一体位的每幅钡餐造影图像的检测结果中的冗余病灶区域进行剔除处理。

根据候选病灶区域的重叠情况对每幅钡餐造影图像的检测结果中的冗余病灶区域进行剔除处理。比如，对于重叠比例高于第一预设值的两个候选病灶区域，仅保留置信度较高的候选病灶区域。可通过计算两个候选病灶区域的交并比获得重叠比例。

步骤S320根据剩下的候选病灶区域的位置信息，获得每个候选病灶区域的相似数。

具体地，根据候选病灶区域的位置信息判断两张图上的两个候选病灶区域是否相似；若相似，则候选病灶区域的相似数加1。

比如候选病灶区域用矩形框表示，候选病灶区域的位置信息用矩形框的两个对角的坐标表示。若两个矩形框的对角坐标之间的差值都在预设像素范围内，比如左上角坐标的差值和右下角坐标之间的差值都在预设像素范围内，则认为这两个矩形框是相似的，反之则不是。

在一个体位下，计算所有图片中每一个候选病灶区域与该体位下其他图片中的候选病灶区域是否相似，若相似则该候选病灶区域的相似数加一。

可以循环遍历一个体位中每张测试图片的候选病灶区域，得出每一个候选病灶区域在该体位下的相似数，从而获得每个候选病灶区域的相似数。

步骤S330获取具有最大相似数的候选病灶区域。

步骤S340根据具有最大相似数的候选病灶区域的位置信息和置信度，得到该病患在对应体位的检测结果。

比如，对具有最大相似数的一系列候选病灶区域的位置信息和置信度分别求均值，将这些均值作为对应体位的检测结果。

步骤S400对同一病患所有体位的检测结果进行融合，得到该病患的病灶区域的检测信息。

通过对同一病患的多体位检测结果融合进一步提高系统检测性能。一般，真阳性区域在多个体位下同时被检测出来的可能性相对于假阳性区域更高。

本实施例，通过对同体位下多幅图像的检测结果融合，以及多体位下多幅图像的检测结果融合进一步剔除了假阳性，从而进一步提高了系统检测性能。

本发明的一个实施例，如图4所示，一种钡餐造影图像的食道癌检测系统，包括：

模型构建模块300，用于构建目标检测模型，对模型进行训练。

图像获取模块100，用于获取待检测的食道的钡餐造影图像。

目标检测模块200，用于根据经训练的目标检测模型对钡餐造影图像进行病灶区域检测。目标检测模块200包括：

图像特征提取单元210，用于根据该基础网络获取钡餐造影图像的特征图，通过注意力机制增强该特征图的特征显著性；

病灶检测单元220，用于根据该特征图生成钡餐造影图像的感兴趣区域及该感兴趣区域的特征向量，根据该感兴趣区域的特征向量得到病灶区域的检测信息。

优选地，注意力机制采用卷积注意力模块CBAM。CBAM是一种轻量级的注意力模块，它结合了通道注意力机制以及空间注意力机制，通过引入注意力机制可以使输出信息更聚焦于更关键更有用的信息，减弱甚至消除无关信息的干扰，从而达到提高模型准确率的目的。

本发明的另一个实施例，如图5所示，一种钡餐造影图像的食道癌检测系统，包括：

图像获取模块100，用于获取同一病患多个体位的多幅待检测的钡餐造影图像。

具体地，体位是指图像的拍摄角度，从不同体位获得的图像是对同一拍摄对象从不同角度获得的图像。在医院进行食道的钡餐造影图像的拍摄时，往往会对同一拍摄对象从多个角度进行拍摄，每次拍摄会获得连续多张图像，所以可获得同一病患多个体位的钡餐造影图像、每个体位的多幅钡餐造影图像。

目标检测模块200，用于采用经训练的目标检测模型对每幅钡餐造影图像进行病灶区域检测，得到对应的检测结果，检测结果包括候选病灶区域的置信度和位置信息。

目标检测模块200包括：

综合检测模块400，用于分别对同一病患每一体位的多幅钡餐造影图像的检测结果进行融合，得到该病患在对应体位的检测结果。

综合检测模块400包括：

单幅图像处理单元410，用于对同一体位的每幅钡餐造影图像的检测结果中的冗余病灶区域进行剔除处理。

统计分析单元420，用于根据剩下的候选病灶区域的位置信息，获得每个候选病灶区域的相似数；获取具有最大相似数的候选病灶区域；根据具有最大相似数的候选病灶区域的位置信息和置信度，得到该病患在对应体位的检测结果。

综合检测模块400，还用于对同一病患所有体位的检测结果进行融合，得到该病患的病灶区域的检测信息。

需要说明的是，本发明提供的钡餐造影图像的食道癌检测系统的实施例与前述提供的钡餐造影图像的食道癌检测方法的实施例均基于同一发明构思，能够取得相同的技术效果。因而，钡餐造影图像的食道癌检测系统的实施例的其它具体内容可以参照前述钡餐造影图像的食道癌检测方法的实施例内容的记载。

本发明还提供一个具体实施场景示例，将本申请提供的方法和装置应用于钡餐造影图像的食道癌病灶区域的检测中，具体包括：

一：数据集预处理

从医院获取具有代表性的食道癌患者病例数据。根据患者检查时体位的不同，每个病例分为了若干个体位，每个体位包含若干钡餐造影图像，图像格式为JPG格式，分辨率大小为1024*1024像素，位深度为24位。

二：样本增广

为增强模型对目标区域亮度值偏高或偏低的样本的检测能力，首先对训练集中病灶区域亮度值偏高或偏低的数量偏小的困难样本实施仿射变换。将仿射变换后的困难样本与原训练集合并构成新的训练集，再对新的训练集采用水平翻转，垂直翻转的增强策略。对于普通样本，通过这些增强策略后的样本数是原样本数的3倍。对于数量偏小的困难样本，通过这些增强策略后的样本数是原样本数的7倍。

三：构建CBAM Faster R-CNN算法模型(即目标检测模型)

CBAM Faster R-CNN算法模型主要由引入CBAM模块的基础网络(CBAM BaseNetwork)、RPN网络(Region Proposal Network)、RoI Pooing层和分类器(classifer)组成。

算法流程如图6所示：首先将钡餐造影图像输入至基础网络，得到一系列特征图，再由RPN网络生成感兴趣区域Proposals(即矩形检测框)，由特征图获取这些检测框对应的特征向量，最后将这些向量输入至RoI pooling层，完成目标分类以及边框回归操作。最后得到检测框的检测信息，该检测信息包括检测框为目标类别的概率(即置信度)以及检测框的位置信息(即在待检测目标中的位置)。

如图7所示，基础网络包括5个依次级联的块，分别为第一块、第二块、第三块、第四块和第五块。第一块的输入为600×600×3的图片，经由两个由64个3×3卷积核构成的卷积层和一个2×2的最大池层，输出300×300×64的特征图；第二块经由两个由128个3×3卷积核构成的卷积层和一个2×2的最大池化层，输出150×150×128的特征图；第三块经由三个由256个3×3卷积核构成的卷积层和一个2×2的最大池化层，输出75×75×256的特征图；第四块经由三个由512个3×3卷积核构成的卷积层和一个2×2的最大池化层，输出38×38×512的特征图；第五块经由三个由512个3×3卷积核构成的卷积层，输出38×38×512的特征图。

将CBAM模块加入至Faster R-CNN基础网络中，仅考虑在Block3、Block4和Block5中添加CBAM模块，并尝试了七种不同的添加方式，再将经CBAM模块加强后的特征图输入至后续RPN层及RoI pooling层。七种方式分别为：在Block3层后加入，Block4层后加入，Block5层后加入，Block3、Block4层后分别加入，Block3、Block5层后分别加入，Block4、Block5层后分别加入以及Block3、Block4和Block5层后分别加入。

为降低训练代价的同时取得理想的检测结果，在Block1和Block2中使用VGG16在ImageNet上的预训练参数。

RPN网络主要用于生成RoI区域，其中关于RoI区域的生成主要用到了“anchor”的思想，所谓的“anchor”实际上就由CBAM基础网络得到的特征图通过3*3的卷积后，将卷积后的结果中每一个像素点通过一定比例映射至原图，并通过三种不同的长宽比以及三种不同的矩形区域面积生成共计9种不同的RoI。然后对这些RoI区域进行一定的筛选(根据RoI区域与金标准矩形框之间的IoU比例进行筛选，如大于0.7为正样本，小于0.3为负样本，介于0.3与0.7的RoI不参与实际的训练。)，最后选取128个正样本，128个负样本分为两路送入训练，一路是基于候选框前景背景的二分类问题，一路是基于候选框的初步回归问题，此回归仅涉及判定为前景的候选框。经过RPN层最终得到了以原图为基准的不同大小的Proposals，同时将这些不同大小的Proposals映射到特征图中的对应区域得到其特征向量。然后将这些特征向量送至RoI pooling层，将这些特征向量水平分为7*7的网格。对网格的每一份都进行最大池化处理。这样处理后，即使大小不同的Proposals输出结果都是7*7固定大小，实现了固定长度输出。最后将这些Proposals特征向量送入终端网络中，通过全连接层和Softmax层计算每个Proposal是否属于病灶区域，输出类别预测概率向量；同时再次利用边框回归获得每个Proposal的位置偏移量，用于回归更加精确的食道癌病灶区域。

五：实验评估

在前期研究中，通过统计分析发现钡餐造影图像中食道癌病灶(如图8中检测框所示)的重要特征：食道在显影剂的作用下呈现近似垂直方向的带状高亮度，食道癌病灶则在此带状区域中形成狭窄。目标检测模型通过学习食道癌病灶特征对钡餐造影图像进行病灶区域检测。

本实验对测试集40个病例共计148个体位1166张图片进行了评测。

1)基于单张图片的评估方式

在单张评测中，对于每一张图片，将测试结果矩形框与其金标准矩形框进行IoU(Intersection over Union,交并比)计算，其中IoU的定义如下：

其中Area(a)代表金标准矩形框面积，Area(b)代表预测矩形框面积。金标准矩形框为放射科医师圈画的食道癌病灶轮廓。

若IoU大于等于IoU阈值，则认为该模型成功预测出该张图片的病灶区域，TP(真阳性数)加一，反之则未能预测出该张图片的病灶区域，FP(假阳性数)加一。并根据TP、FN(假阴性数)和FP计算出召回率Recall、精确率Precision和AP。Recall表示在所有食道癌患者样本中有多少食道癌患者样本被预测正确，Recall值越高也表明模型的漏检率越低。Precision表示在所有预测结果中有多少食道癌患者样本被预测正确，Precision值越高也表明模型的误检率越低。其中Recall、Precision的计算公式如下，AP则是由横坐标Recall、纵坐标Precision两个维度下围成的PR曲线下面积。AP值越大则说明检测模型的综合性能越好。

2)基于体位的评估方式

在体位评测中，对于每一个体位，结合该体位下所有图片中的检测框计算出最有可能为病灶区域的单个检测框。该检测框的计算规则按照以下步骤：

1.在测试集中，若单张钡餐造影图像中两个矩形框的IoU比例大于0.3，则仅保留两个检测框中得分较高的检测框，以此来保证每张测试图片没有大比例重叠的检测框。

2.在一个体位下，计算所有图片中每一个检测框与该体位下其他图片中的检测框是否相似，若相似则该检测框的相似数加一。(若两个检测框的左上角坐标，右下角坐标之间的绝对值差值在100像素以内，则认为两个检测框是相似的，反之则不是。)

3.按照步骤2中方法，循环遍历一个体位中每张测试图片中的矩形框，得出每一个检测框基于该体位下的相似数。在具有最大相似数的一系列检测框，求得该系列中所有检测框的左上角右下角坐标值均值。作为该体位下的最终检测框。若最终检测框有多个，则全部参与与最终的评测中。

在得到最终的检测框后，在同一个体位下，由于每一张钡餐造影图像的金标准病灶区域都是相似的，故直接对该体位下所有的金标准进行均值计算，计算结果作为该体位的金标准。再将该金标准与该体位下所得的最终检测框计算IoU比例。若两者比例大于等于阈值，则认为该模型成功预测出该体位的病灶区域，TP(真阳性数)加一，反之则未能预测出该张图片的病灶区域，FP(假阳性数)加一。并根据TP、FP和FN，计算出Recall、Precision和AP。Recall表示在所有食道癌患者体位样本中有多少食道癌患者体位被预测正确，值越高也表明模型针对体位的漏检率越低。Precision表示在所有体位预测结果中有多少食道癌患者体位被预测正确，值越高也表明模型针对体位的误检率越低。

六：实验结果及分析

在Windows平台上利用TensorFlow1.13实现CBAM Faster R-CNN模型。在训练过程中，动量值、初始学习率、权重衰减和最大迭代次数分别设置为0.9、0.001、0.0005和70000。为了全面评估算法性能，模型改进前后实验均在数据增广后的训练样本上进行训练，并且在相同的测试样本上进行测试。

1.单张评测实验结果及分析

数据增广前后评测实验结果及分析：

本文采用了前述的数据增广方式，针对困难样本和普通样本进行不同数量的增广，表1描述了在各个IoU阈值下，数据增广前后对模型Recall、Precision和AP值的影响，表中一行则代表某一固定阈值，其中Recall、Precision和AP值在该阈值下最高的已用加粗字体标出。图9描述了数据增广前后模型AP值随IoU的变化曲线图。由表1和图9可观察出，针对IoU阈值处于0.1-0.5范围之间时，即检测条件更加宽松，在训练集数据增广后，模型的AP值较未增强提高了1.26％～5.61％，但在IoU阈值处于大于0.5的范围时，即检测条件更加严格，在训练集数据增广后，模型的Recall、Precision和AP值都较原始训练集有所降低。考虑到实际的项目需求，本实验主要为医生提供辅助诊断，因此主要考虑小IoU阈值时模型的检测能力。

表1数据增广前后食道癌检测结果对比(单张评测)

其中，Baseline表示模型未改进，为传统的Faster R-CNN网络。

模型改进前后实验结果及分析：

采用如表2第1列所示的7种方式将CBAM融入基础网络中，即分别在图7所示的Block3、Block4、Block5、Block3和Block4、Block3和Block5、Block4和Block5层，以及Block3、Block4和Block5层后分别加入。表2描述了在各个IoU阈值下，模型改进前后对模型Recall、Precision和AP值的影响，表中一列则代表某一固定阈值，其中Recall、Precision和AP值在该阈值下最高的已用加粗字体标出。图10描述了模型改进前后模型的AP值随IoU的变化曲线图。由表2和图10可观察出，同样在数据增广后的训练集上训练，在各IoU阈值情况下，模型改进后的Recall、Precision和AP值较原模型都有较大提升。其中模型的AP值较原始模型提高了0.1％～5.0％，即CBAM Faster R-CNN的病灶区域检测矩形框整体上更接近医生圈画的金标准且假阳性更少。为结合临床实际需求，本实验主要考虑IoU阈值为0.3时模型的检测能力，此时AP值最高的改进模型为Block5后加入CBAM模块的CBAM Faster R-CNN模型。相较于Faster R-CNN模型，Recall值提升了1.54％，Precision值提升了3.39％，AP值提高了3.73％。

表2模型改进前后食道癌检测结果对比(单张评测)

2.体位评测实验结果及分析

结合实际的临床需求，在体位评测过程中，将IoU阈值固定为0.3，分析在此IoU阈值下训练集数据增广前后以及模型改进前后体位评测结果。

数据增广前后评测结果及分析：

表3数据增广前后食道癌检测结果对比(体位评测)

体位评测方式相较于单张评测方式，模型的Recall、Precision都有所提升。未进行数据增广操作时，由表2可知，单张评测方式的Recall值为91.68％，Precision值为74.7％；由表3可知，体位评测方式Recall值为92.56％，Precision值为85.63％；模型的Recall值提升了0.88％，Precision值提升了10.93％。在进行数据增广操作后，体位评测方式的Recall值和Precision值相较于未增强前有所提高。

模型改进前后实验结果及分析：

表4模型改进前后食道癌检测结果对比(体位评测)

由表4可知，模型的Recall、Precision综合表现最好的是在Block3和Block5层后加入CBAM模块，模型的Recall为93.24％，Precision为87.90％。相较于Baseline，模型改进后保持了Recall不变的同时提高了Precision。

相较于单张评测结果而言，在IoU阈值为0.3的情况下，单张评测结果最好的是在Block5后加入CBAM模块，此时模型的Recall为93.22％，Precision为78.09％，在提出体位评测结果后，模型的Recall相较于单张评测结果而言，Recall提升0.02％，Precision提升了9.81％。换一种方式说，提出的体位评测方式相较于单张评测方式而言，假阳性数量大幅减少。

本实施例，通过在原Faster R-CNN模型的基础网络中添加CBAM模块,提高了模型的食道癌病灶区域检测能力；通过对训练集中的困难样本与普通样本采取不同倍数的数据增广，提高了模型对食道癌病灶区域亮度值偏高或偏低的病灶区域检测能力。实验结果表明，在进行数据增广后，针对IoU阈值小于0.5时，模型的AP值较未增强提高了1.26％～5.61％。在模型改进后，在各个IoU阈值上，模型的AP值较原始模型提高了0.1％～5.0％。以上实验结果表明，CBAM Faster R-CNN模型的食道癌病灶检测效果相较于Faster R-CNN算法有明显提升。同时结合实际的临床需求，创新性的提出体位评测方式，相较于单张评测方式，模型的Recall，Precision值都有所提升。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种钡餐造影图像的食道癌检测方法，其特征在于，包括：

获取待检测的食道的钡餐造影图像；

根据经训练的目标检测模型对所述钡餐造影图像进行病灶区域检测；

其中，所述目标检测模型采用改进的区域卷积神经网络Faster R-CNN，所述改进的Faster R-CNN网络的基础网络由携带注意力机制的卷积神经网络构成；以及，根据所述基础网络获取所述钡餐造影图像的特征图，通过所述注意力机制增强所述特征图的特征显著性；根据所述特征图生成所述钡餐造影图像的感兴趣区域及所述感兴趣区域的特征向量，根据所述感兴趣区域的特征向量得到病灶区域的检测信息；

所述注意力机制为卷积注意力模块CBAM；

所述基础网络包括5个依次级联的块，分别为第一块、第二块、第三块、第四块和第五块；所述第一块包括两个由64个3×3卷积核构成的卷积层和一个2×2的最大池化层，输出300×300×64的特征图；所述第二块包括两个由128个3×3卷积核构成的卷积层和一个2×2的最大池化层，输出150×150×128的特征图；所述第三块包括三个由256个3×3卷积核构成的卷积层和一个2×2的最大池化层，输出75×75×256的特征图；所述第四块包括三个由512个3×3卷积核构成的卷积层和一个2×2的最大池化层，输出38×38×512的特征图；所述第五块包括三个由512个3×3卷积核构成的卷积层，输出38×38×512的特征图；

从所述5个依次级联的块中选择至少一个目标块，在所述目标块之后加入所述卷积注意力模块CBAM；

所述获取待检测的食道的钡餐造影图像包括：获取同一病患多个体位的多幅待检测的钡餐造影图像；

所述根据经训练的目标检测模型对所述钡餐造影图像进行病灶区域检测包括：

采用所述目标检测模型对每幅钡餐造影图像进行病灶区域检测，得到对应的检测结果，所述检测结果包括候选病灶区域的置信度和位置信息；

分别对同一病患每一体位的多幅钡餐造影图像的检测结果进行融合，得到所述病患所述体位的检测结果；

对同一病患所有体位的检测结果进行融合，得到所述病患的病灶区域的检测信息。

2.根据权利要求1所述的钡餐造影图像的食道癌检测方法，其特征在于，所述根据经训练的目标检测模型对所述钡餐造影图像进行病灶区域检测，包括：

所述目标检测模型根据食道癌病灶的特征对所述钡餐造影图像进行病灶区域检测，所述食道癌病灶的特征包括食道在显影剂的作用下呈现近似垂直方向的带状高亮度区域中形成狭窄。

3.根据权利要求1所述的钡餐造影图像的食道癌检测方法，其特征在于：

在训练所述目标检测模型之前，对困难样本实施仿射变换，将仿射变换后的样本与原始训练样本合并构成第一训练样本，对所述第一训练样本采用水平翻转和垂直翻转的图像增强策略得到第二训练样本，所述第一训练样本和所述第二训练样本构成训练样本集。

4.根据权利要求1所述的钡餐造影图像的食道癌检测方法，其特征在于：

所述获取待检测的食道的钡餐造影图像包括：获取同一病患一个体位的多幅待检测的钡餐造影图像；

对同一病患所述体位的多幅钡餐造影图像的检测结果进行融合，得到所述病患的病灶区域的检测信息。

5.根据权利要求4所述的钡餐造影图像的食道癌检测方法，其特征在于，所述对同一病患所述体位的多幅钡餐造影图像的检测结果进行融合，得到所述病患的病灶区域的检测信息，具体包括：

根据候选病灶区域的重叠情况对每幅钡餐造影图像的检测结果中的冗余病灶区域进行剔除处理；

根据剩下的候选病灶区域的位置信息，获得每个候选病灶区域的相似数；

获取具有最大相似数的候选病灶区域；

根据所述具有最大相似数的候选病灶区域的位置信息和置信度，得到所述体位的检测结果；

根据所述体位的检测结果得到所述病患的病灶区域的检测信息。

6.一种钡餐造影图像的食道癌检测系统，其特征在于，包括：

图像获取模块，用于获取待检测的食道的钡餐造影图像；

目标检测模块，用于根据经训练的目标检测模型对所述钡餐造影图像进行病灶区域检测；其中，所述目标检测模型采用改进的区域卷积神经网络Faster R-CNN，所述改进的Faster R-CNN网络的基础网络由携带注意力机制的卷积神经网络构成；

所述注意力机制为卷积注意力模块CBAM；

所述目标检测模块包括：

图像特征提取单元，用于根据所述基础网络获取所述钡餐造影图像的特征图，通过所述注意力机制增强所述特征图的特征显著性；

病灶检测单元，用于根据所述特征图生成所述钡餐造影图像的感兴趣区域及所述感兴趣区域的特征向量，根据所述感兴趣区域的特征向量得到病灶区域的检测信息；

所述图像获取模块，还用于获取同一病患多个体位的多幅待检测的钡餐造影图像；

所述目标检测模块，还用于采用所述目标检测模型对每幅钡餐造影图像进行病灶区域检测，得到对应的检测结果，所述检测结果包括候选病灶区域的置信度和位置信息；

综合检测模块，用于分别对同一病患每一体位的多幅钡餐造影图像的检测结果进行融合，得到所述病患所述体位的检测结果；对同一病患所有体位的检测结果进行融合，得到所述病患的病灶区域的检测信息。