CN114005001B

CN114005001B - 一种基于深度学习的x射线图像检测方法及系统

Info

Publication number: CN114005001B
Application number: CN202111308727.2A
Authority: CN
Inventors: 辛景民; 马楠; 武佳懿; 郑南宁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2024-04-09
Anticipated expiration: 2041-11-05
Also published as: CN114005001A

Abstract

本发明公开了一种基于深度学习的X射线图像检测方法及系统，将标注完成的X射线图像输入到基础网络中，通过基础网络对X射线图像进行若干卷积组件的操作，提取到图像五个尺度不同的特征图；通过RPN网络生成regionproposals，再经过softmax层判断anchors属于背景还是前景信息，再进行标定框的回归操作，修正anchors来获取精确的proposals；将五个尺度不同的特征图和一系列proposals输入进RoI Align层，得到尺寸相同的RoI；经过2个全连接层，分别实现proposals的分类和精确定位。本发明将多层网络信息进行融合，同时学习不同深度的图像特征，极大程度提高了检测的准确性。

Description

一种基于深度学习的X射线图像检测方法及系统

技术领域

本发明属于图像处理技术领域，具体涉及一种基于深度学习的X射线图像检测方法及系统。

背景技术

现有的X射线图像检测方法，需要X射线图像具有非常高的分辨率和清晰度，很难在内容复杂、低质量的图像中进行检测，检测方法不具有很强的迁移性。

除此之外，现有的X射线图像检测方法大多依赖于后续的矫正，会带来沉重的计算代价，耗费很长的处理时间。传统的X射线图像检测方法，经常会出现不能正确区分前景和背景的问题，过于简单地使用形态学信息，难度大，泛化性能差，检测精度低。

综上，现有的X射线图像炎检测方法过于繁琐和低效，效率低，速度慢。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于深度学习的X射线图像检测方法及系统，能够快速、准确地区分出X射线图像，简化了识别流程。

本发明采用以下技术方案：

一种基于深度学习的X射线图像检测方法，包括以下步骤：

S1、在X射线图像中选取标注区域Ground Truth进行标注，将标注完成的X射线图像经过预处理成尺寸为M*N的图像，将尺寸为M*N的图像输入卷积残差网络中，输出得到五个尺寸的特征图；

S2、将步骤S1得到的五个尺寸特征图输入RPN网络中，生成若干anchors，将属于前景的anchors作为proposals输出，同时输出proposals的坐标；

S3、将步骤S2生成的若干proposals输入用于池化的RoI Align层，整合成相同尺寸的proposals；

S4、将步骤S1得到的五个尺寸的特征图和步骤S3得到的相同尺寸的proposals同步输入检测网络的两个全连接层，一个全连接层输出每个proposal的位置坐标，将得到的坐标定义的框作为检测对象的位置，另一个全连接层通过一个softmax层对proposal进行判断，将每个proposal输出的若干检测类别概率分数最高的类别作为proposal所属的类别，得到检测对象的位置和类别，实现X射线图像检测。

具体的，步骤S1中，将尺寸为M*N的图像输入卷积残差网络中，输出得到五个尺寸的特征图具体为：

S101、将尺寸为M*N的图像输入7*7*64的卷积层，然后经过最大池化层输入至stage1、stage2、stage3、stage4、stage5层，分别得到特征图C1、C2、C3、C4、C5；

S102、将特征图C5经过1*1*256的卷积层得到特征图P5，将特征图C4经过1*1*256的卷积层和P5经过上采样得到的特征图相加得到特征图P4，将特征图C3经过1*1*256的卷积层和P4经过上采样得到的特征图相加得到特征图P3，将特征图C2经过1*1*256的卷积层和P3经过下采样得到的特征图相加得到特征图P2；

S103、将得到的特征图P2、P3、P4和P5分别通过3*3*256的卷积层到得P2’、P3’、P4’、P5’，P5’经过下采样得到P6’，将P2’、P3’、P4’、P5’和P6’作为经过残差网络得到的五个尺寸的特征图。

具体的，步骤S2具体为：

S201、在特征图上使用窗口进行滑动，每个位置最大的proposals个数为9个，三个不同的尺寸分别为128*128、256*256和512*512，以及1:2，1:1和2:1三个不同的比例作为anchors；

S202、将生成的anchors输入RPN网络的两个1*1的卷积层，一个1*1的卷积层输出anchors属于前景和属于背景的分数，另一个1*1的卷积层输出anchors框的位置坐标；

S203、将anchors进行坐标回归操作，实现位置修正，提取前N个经位置修正的代表前景的anchors映射回anchors所属的feature maps，实现边框回归操作，判断anchors的位置是否超过图像范围；再利用前景的分数对没有超出范围的anchors进行非极大值抑制，提取剩余前2000个anchors及其对应的坐标作为proposals的输出。

进一步的，步骤S201中，在特征图上用3*3的窗口进行滑动。

进一步的，步骤S202中，RPN网络的损失函数L(p_i,t_i)为：

其中，N_cls是mini-batch的标准化，L_cls是log损失函数，L_reg是smoothL₁损失函数，i代表一个anchor在mini-batch中的索引值，p_i代表预测的分数，为Ground Truth的标签，λ为用于加权的平衡参数，t_i代表预测边框的坐标向量，/>代表anchor是positive时，Ground Truth的坐标，L_reg只对positive的anchor有效，N_reg是anchor的数量的标准化。

进一步的，步骤S203中，当anchors的位置超过图像的边界，剔除超出边界的anchors。

进一步的，步骤S203中，定义边框回归如下：

其中，x,y是框中心点的坐标，w,h代表框的宽和高度，x,y,x_a,y_a,x^*,y^*分别代表预测框、anchor和Ground Truth的中心点坐标，w,h,w_a,h_a,w^*,h^*分别代表预测框、anchor和Ground Truth的框的宽和高度。

具体的，步骤S3中，将RoI进行2*2的划分，得到4个框，每个框有四个采样点，利用双线性插值算法从特征图的像素点上计算采样点的值，并通过最大值或者平均值法聚合结果，将聚合的结果作为框的像素值。

具体的，步骤S4中，定义目标分类和定位的损失函数L(p,u,t_u,v)如下：

L(p,u,t_u,v)＝L_cls(p,u)+λ[u≥1]L_loc(t_u,v)

其中，L_cls是softmax二值交叉熵损失函数，p＝(p₀,...,p_K)是K+1类的概率分布，u为Ground Truth的类别，λ为权重参数，L_cls是smoothL₁损失函数，t_u是预测框回归后的坐标，v为Ground Trurh的坐标。

本发明的另一技术方案是，一种基于深度学习的X射线图像检测系统，包括：

预处理模块，在X射线图像中选取标注区域Ground Truth进行标注，将标注完成的X射线图像经过预处理成尺寸为M*N的图像，将尺寸为M*N的图像输入卷积残差网络中，输出得到五个尺寸的特征图；

网络模块，将五个尺寸特征图输入RPN网络中，生成若干anchors，将属于前景的anchors作为proposals输出，同时输出proposals的坐标；

整合模块，将生成的若干proposals输入用于池化的RoI Align层，整合成相同尺寸的proposals；

检测模块，将五个尺寸的特征图和相同尺寸的proposals同步输入检测网络的两个全连接层，一个全连接层输出每个proposal的位置坐标，将得到的坐标定义的框作为检测对象的位置，另一个全连接层通过一个softmax层对proposal进行判断，将每个proposal输出的若干检测类别概率分数最高的类别作为proposal所属的类别，得到检测对象的位置和类别，实现X射线图像检测。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于深度学习的X射线图像检测方法，实现对X射线图像中存在异常区域的识别；首先将标注完成的X射线图像输入进一系列残差网络，借助特征金字塔网络，将多层信息进行融合，把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接，使得所有尺度下的特征都有丰富的语义信息；通过不同深度的网络互相学习，得到五种尺寸的特征图，进而提高目标检测的精度，特别是相对于在整张图中所占区域较小的小物体的检测上。

进一步的，利用基础网络生成的特征图，同时融合了低层的细节信息和高层的语义信息，增加了底层的感受野，多层特征信息进行融合，能够提高网络的检测性能。

进一步的，特征图经过区域提取网络，即RPN网络，通过标注来学习预测跟GroundTruth更加相近的proposals，从而减少proposals的数量，以此保证最终模型的预测精度。

进一步的，窗口滑动的方法耗时短，并且在每个滑动位置会产生9个anchors，能更加精确地提取到特征。

进一步的，将超出feature maps边界的anchors进行剔除，为了防止后续生成的proposals超出图像边界；由于anchors存在重叠的问题，对anchors进行非极大值抑制操作，减少了检测过程中的冗杂问题。

进一步的，使用位置回归操作，能够调整proposals的位置，使得预测框的位置更加接近Ground Truth，能够更加准确地锁定目标，提高检测过程的位置精度。

进一步的，为了得到相同尺度的proposals，使用RoI Align层，采用双线性插值算法用于原图和特征图对应位置的缩放，可以保证空间对称性，以此保证预测框位置回归时的精度，提高检测效果。

进一步的，使得神经网络每次输出的结果更加靠近真实值，使网络的目的或好处，给学习过程逐渐收敛，检测网络的鲁棒性更好，检测速度更快。

进一步的，使用RPN网络的损失函数和分类、定位损失函数来监督网络学习；检测神经网络处理X射线图像时能够同时得到检测对象的位置坐标和置信度，；通过一个端到端的网络，能够自动地从X射线图像中检测出异常区域，具有很高的检测精度。

综上所述，本发明方法速度快，精度高，准确率高，它在特征提取阶段融合多层次的特征，使用位置回归操作使得预测结果更加靠近真实值，使用损失函数对检测过程进行约束，增强了检测网络的鲁棒特性，提高了检测网络的检测速度。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的检测神经网络总图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种基于深度学习的X射线图像检测方法，将标注完成的X射线图像输入到基础网络中，通过基础网络对X射线图像进行若干卷积组件的操作，提取到图像五个尺度不同的特征图；通过RPN网络生成region proposals，再经过softmax层判断anchors属于背景还是前景信息，再进行标定框的回归操作，修正anchors来获取精确的proposals；将五个尺度不同的特征图和一系列proposals输入进RoI Align层，得到尺寸相同的RoI；经过2个全连接层，分别实现proposals的分类和精确定位。本发明将多层网络信息进行融合，同时学习不同深度的图像特征，极大程度提高了类风湿性病变关节检测的准确性。

请参阅图1，本发明一种基于深度学习的X射线图像检测方法，包括以下步骤：

S1、在X射线图像中对检测区域进行标定，标注区域作为Ground Truth，将标注完成的X射线图像经过预处理得到大小为M*N的图像，将大小为M*N的图像输入卷积残差网络中，输出得到五个尺寸的特征图；

输出五个尺寸特征图具体为：

S101、尺寸固定为M*N的图像先输入进7*7*64的卷积层，然后经过最大池化层输入进stage1、stage2、stage3、stage4、stage5层，分别得到特征图C1、C2、C3、C4、C5；

S102、特征图C5经过1*1*256的卷积层得到特征图P5，C4经过1*1*256的卷积层和P5经过下采样得到的特征图相加得到特征图P4，相同的方法得到特征图P3、P2；

S103、特征图P2～P5分别通过3*3*256的卷积层到得P2’～P5’，P5’经过下采样得到P6’，P2’～P6’即就是经过残差网络得到的五个尺寸的特征图。

S2、将步骤S1得到的五个尺寸特征图输入进RPN网络中，得到若干proposals区域以及proposals的坐标；

S201、在特征图上用3*3的窗口进行滑动，每个位置最大的proposals个数为9个，3个不同的尺寸和3个不同的比例，即为anchors；

S202、将生成的anchors同时输入进两个分支，即两个1*1的卷积层，一个输出anchors属于前景和属于背景的分数，另一个输出框的位置回归坐标；

S203、提取前N个经过位置修正的代表前景的anchors，将其映射回原图，判断是否因为范围过大超过边界，剔除掉严重超过边界的anchors；再进行非极大值抑制，剩余的anchors提取前2000个作为proposals，输出proposals及其位置坐标。

RPN网络的损失函数定义为：

其中，L_cls是log损失函数，L_reg是smoothL₁损失函数。上述损失函数中i代表一个anchor在mini-batch中的索引值，p_i代表预测的分数，如果anchor是positive，那么GroundTruth的标签是1，否则为0。t_i代表预测边框的坐标向量，/>代表anchor是positive时，Ground Truth的坐标。L_reg只对positive的anchor有效，N_cls是mini-batch的标准化，N_reg是anchor的数量的标准化。

边框回归的详细定义是：

其中，x,y是中心点的坐标，w,h代表框的宽和高度，x,x_a,分别代表预测框、anchor和Ground Truth的坐标。

S3、将步骤S2生成的大小不一的proposals输入进RoI Align层，整合成相同尺寸的proposals；

具体为：

将RoI进行2*2的划分，共4个框，每个框有四个采样点，利用双线性插值算法从特征图上附件的像素点上计算采样点的值，并通过最大值或者平均值法聚合结果。

S4、将步骤S1得到的特征图和步骤S3得到的proposals同时同步输入进两个全连接层，一个全连接层输出每个proposal的位置坐标，得到的坐标所定义的框就是检测对象的位置，另一个全连接层通过一个softmax层对proposal进行判断，每个proposal输出的若干检测类别概率分数中，最高的即为proposal所属的类别。得到检测对象的位置和类别，即就是实现X射线图像检测。

目标分类和定位的损失函数定义如下：

L(p,u,t_u,v)＝L_cls(p,u)+λ[u≥1]L_loc(t_u,v)

本发明再一个实施例中，提供一种基于深度学习的X射线图像检测系统，该系统能够用于实现上述基于深度学习的X射线图像检测方法，具体的，该基于深度学习的X射线图像检测系统包括预处理模块、网络模块、整合模块以及检测模块。

其中，预处理模块，在X射线图像中选取标注区域Ground Truth进行标注，将标注完成的X射线图像经过预处理成尺寸为M*N的图像，将尺寸为M*N的图像输入卷积残差网络中，输出得到五个尺寸的特征图；

网络模块，将五个尺寸特征图输入RPN网络中，生成若干anchors，判断anchors属于前景还是背景，将属于前景的anchors作为proposals输出，同时输出proposals的坐标；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于深度学习的X射线图像检测方法的操作，包括：

在X射线图像中选取标注区域Ground Truth进行标注，将标注完成的X射线图像经过预处理成尺寸为M*N的图像，将尺寸为M*N的图像输入卷积残差网络中，输出得到五个尺寸的特征图；将五个尺寸特征图输入RPN网络中，生成若干anchors，判断anchors属于前景还是背景，将属于前景的anchors作为proposals输出，同时输出proposals的坐标；将生成的若干proposals输入用于池化的RoI Align层，整合成相同尺寸的proposals；将五个尺寸的特征图和相同尺寸的proposals同步输入检测网络的两个全连接层，一个全连接层输出每个proposal的位置坐标，将得到的坐标定义的框作为检测对象的位置，另一个全连接层通过一个softmax层对proposal进行判断，将每个proposal输出的若干检测类别概率分数最高的类别作为proposal所属的类别，得到检测对象的位置和类别，实现X射线图像检测。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关基于深度学习的X射线图像检测方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面详细介绍本发明的具体原理和设计思路：

本发明一种基于深度学习的X射线图像检测方法，在网络中加入分割损失函数对检测神经网络进行约束，具体如下：

1、构建基础网络

用一个经过修改的ResNet残差网络和特征金字塔网络作为基础网络的主体，其中包括多个连续的残差块，共有50个卷积层。

与传统ResNet残差网络相比，本发明提出的网络有以下三个方面的不同：

(i)每个卷积层(Conv)后面是一个批次归一化(BN)和一个线性校正单元(ReLU)，这里将其称为一个复合层(Conv—BN—ReLU)。

(ii)由于主要信息集中在图像中心，所以在收缩路径的每一个卷积层中都采用填充操作。

(iii)特征金字塔网络通过自底向上、自顶向下和横向连接，融合了不同层的多尺度特征，提高了目标的检测性能。

2、构建区域提取网络

实现区域提取的网络是RPN网络，与传统的生成检测框的方法相比，使用3*3的窗口在特征图上滑动，按照3个尺寸和3个比例在每个位置生成9个anchors，生成的anchors要同时输入两个1*1的卷积层，一个判断是否属于前景，一个得出anchor的位置坐标；

再判断anchors是否超出图像范围，经过非极大值抑制，得到若干固定数量的proposals；

得到的若干数量proposals和五个尺寸的特征图经过RoI Align层，将其处理成相同大小的proposals。

3、构建检测神经网络

检测网络的输入是proposals，检测网络存在两个分支，分别用来生成关节正常或者存在类风湿性病变的概率，以及关节的位置坐标。两个分支是两个全连接层，区别图像中正常区域和异常区域，输出概率需要通过softmax层。

通过检测神经网络检测X射线图像中的异常区域，利用构建的基础网络、区域提取网络和检测神经网络，将X射线图像输入整个网络中，结合RPN网络和分类的损失函数，得到异常区域的检测结果。

通过基础网络对X射线图像进行卷积操作，融合图像低层网络特征和高层网络特征，检测神经网络包含两个输出尺度不同的分支网络，生成检测框坐标和置信度两种输出，并利用损失为“引导”特征流学习提供深度监控。

除此之外，针对检测网络的损失函数，神经网络的损失函数包含两个部分，分别是RPN网络的损失函数和目标分类定位的损失函数。

本发明提出的检测神经网络(包括基础神经网络、区域提取网络和检测神经网络)与其他现有方法比较，可以更好地实现异常区域的检测。数据集包含99个X射线图像，培养了一个具有良好可推广性的健壮的深度学习模型。

表1不同方法的检测效果比较表

模型	基础网络	AP	AP50	APm	APl
						Faster RCNN	R-50-FPN	19.62	66.51	19.07	23.02
Mask RCNN	R-50-FPN	19.82	69.12	20.72	21.24

本发明提出的检测神经网络(包括基础神经网络、区域提取网络和检测神经网络)与其他现有方法比较，AP50值增加了2.61％，APm值增加了1.65％，性能参数请参见表1。

表2不同层数的基础网络的检测效果比较表

模型	基础网络	AP	AP50	APm	APl
						Mask RCNN	R-50-C4	19.55	62.14	19.34	21.29
Mask RCNN	R-50-FPN	19.82	69.12	20.72	21.24
						Mask RCNN	R-101-C4	16.96	58.89	16.47	20.29
Mask RCNN	R-101-FPN	18.89	59.64	19.27	21.24

本发明提出的检测神经网络，与其它层数不同的基础网络相比时，AP值达到19.82％，AP50值达到69.12％，APm值达到20.72％，性能参数请参见表2。

本发明实现X射线图像检测，使用基础网络中的复合层来学习每个CNN分层流的层次特征，另外，通过将卷积核大小不同的复合层组合在一起形成残差块，设计新的残差组合来防止网络发生退化，增强网络的学习能力，最后，得到手部图像的特征图。

综上所述，本发明一种基于深度学习的X射线图像检测方法及系统，将X射线图像的特征图输入到区域提取网络和检测神经网络，以预测X射线图像上的检测框和置信度，类似于深度监督的网络，来自两个流的两个额外的深度反馈(即，损失)用于“引导”早期流特征学习；本发明提出的深度学习神经网络是一个整体和端到端网络，克服了传统方法面对庞大的数据集检测速度缓慢的问题，可以在测试数据集上实现有前途的检测性能，包括来自与训练数据集相同的来源的不可见主体。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于深度学习的X射线图像检测方法，其特征在于，包括以下步骤：

S1、在X射线图像中选取标注区域Ground Truth进行标注，将标注完成的X射线图像经过预处理成尺寸为M*N的图像，将尺寸为M*N的图像输入卷积残差网络中，输出得到五个尺寸的特征图，将尺寸为M*N的图像输入卷积残差网络中，输出得到五个尺寸的特征图具体为：

S103、将得到的特征图P2、P3、P4和P5分别通过3*3*256的卷积层到得P2’、P3’、P4’、P5’，P5’经过下采样得到P6’，将P2’、P3’、P4’、P5’和P6’作为经过残差网络得到的五个尺寸的特征图；

S2、将步骤S1得到的五个尺寸特征图输入RPN网络中，生成若干anchors，将属于前景的anchors作为proposals输出，同时输出proposals的坐标，具体为：

S202、将生成的anchors输入RPN网络的两个1*1的卷积层，一个1*1的卷积层输出anchors属于前景和属于背景的分数，另一个1*1的卷积层输出anchors框的位置坐标，RPN网络的损失函数L(p_i,t_i)为：

其中，N_cls是mini-batch的标准化，L_cls是log损失函数，L_reg是smoothL₁损失函数，i代表一个anchor在mini-batch中的索引值，p_i代表预测的分数，为Ground Truth的标签，λ为用于加权的平衡参数，t_i代表预测边框的坐标向量，/>代表anchor是positive时，GroundTruth的坐标，L_reg只对positive的anchor有效，N_reg是anchor的数量的标准化；

S203、将anchors进行坐标回归操作，实现位置修正，提取前N个经位置修正的代表前景的anchors映射回anchors所属的feature maps，实现边框回归操作，判断anchors的位置是否超过图像范围；再利用前景的分数对没有超出范围的anchors进行非极大值抑制，提取剩余前2000个anchors及其对应的坐标作为proposals的输出，当anchors的位置超过图像的边界，剔除超出边界的anchors，定义边框回归如下：

其中，x,y是框中心点的坐标，w,h代表框的宽和高度，x,y,x_a,y_a,x^*,y^*分别代表预测框、anchor和Ground Truth的中心点坐标，w,h,w_a,h_a,w^*,h^*分别代表预测框、anchor和GroundTruth的框的宽和高度；

S3、将步骤S2生成的若干proposals输入用于池化的RoIAlign层，整合成相同尺寸的proposals，将RoI进行2*2的划分，得到4个框，每个框有四个采样点，利用双线性插值算法从特征图的像素点上计算采样点的值，并通过最大值或者平均值法聚合结果，将聚合的结果作为框的像素值；

2.根据权利要求1所述的基于深度学习的X射线图像检测方法，其特征在于，步骤S201中，在特征图上用3*3的窗口进行滑动。

3.根据权利要求1所述的基于深度学习的X射线图像检测方法，其特征在于，步骤S4中，定义目标分类和定位的损失函数L(p,u,t_u,v)如下：

L(p,u,t_u,v)＝L_cls(p,u)+λ[u≥1]L_loc(t_u,v)

4.一种基于深度学习的X射线图像检测系统，其特征在于，包括：

预处理模块，在X射线图像中选取标注区域Ground Truth进行标注，将标注完成的X射线图像经过预处理成尺寸为M*N的图像，将尺寸为M*N的图像输入卷积残差网络中，输出得到五个尺寸的特征图，将尺寸为M*N的图像输入卷积残差网络中，输出得到五个尺寸的特征图具体为：

将尺寸为M*N的图像输入7*7*64的卷积层，然后经过最大池化层输入至stage1、stage2、stage3、stage4、stage5层，分别得到特征图C1、C2、C3、C4、C5；

将特征图C5经过1*1*256的卷积层得到特征图P5，将特征图C4经过1*1*256的卷积层和P5经过上采样得到的特征图相加得到特征图P4，将特征图C3经过1*1*256的卷积层和P4经过上采样得到的特征图相加得到特征图P3，将特征图C2经过1*1*256的卷积层和P3经过下采样得到的特征图相加得到特征图P2；

将得到的特征图P2、P3、P4和P5分别通过3*3*256的卷积层到得P2’、P3’、P4’、P5’，P5’经过下采样得到P6’，将P2’、P3’、P4’、P5’和P6’作为经过残差网络得到的五个尺寸的特征图；

网络模块，将五个尺寸特征图输入RPN网络中，生成若干anchors，将属于前景的anchors作为proposals输出，同时输出proposals的坐标，具体为：

在特征图上使用窗口进行滑动，每个位置最大的proposals个数为9个，三个不同的尺寸分别为128*128、256*256和512*512，以及1:2，1:1和2:1三个不同的比例作为anchors；

将生成的anchors输入RPN网络的两个1*1的卷积层，一个1*1的卷积层输出anchors属于前景和属于背景的分数，另一个1*1的卷积层输出anchors框的位置坐标，RPN网络的损失函数L(p_i,t_i)为：

将anchors进行坐标回归操作，实现位置修正，提取前N个经位置修正的代表前景的anchors映射回anchors所属的feature maps，实现边框回归操作，判断anchors的位置是否超过图像范围；再利用前景的分数对没有超出范围的anchors进行非极大值抑制，提取剩余前2000个anchors及其对应的坐标作为proposals的输出，当anchors的位置超过图像的边界，剔除超出边界的anchors，定义边框回归如下：

整合模块，将生成的若干proposals输入用于池化的RoI Align层，整合成相同尺寸的proposals，将RoI进行2*2的划分，得到4个框，每个框有四个采样点，利用双线性插值算法从特征图的像素点上计算采样点的值，并通过最大值或者平均值法聚合结果，将聚合的结果作为框的像素值；