CN110009628A - 一种针对连续二维图像中多形态目标的自动检测方法 - Google Patents

一种针对连续二维图像中多形态目标的自动检测方法 Download PDF

Info

Publication number
CN110009628A
CN110009628A CN201910292922.7A CN201910292922A CN110009628A CN 110009628 A CN110009628 A CN 110009628A CN 201910292922 A CN201910292922 A CN 201910292922A CN 110009628 A CN110009628 A CN 110009628A
Authority
CN
China
Prior art keywords
loss
classification
target
network
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910292922.7A
Other languages
English (en)
Inventor
蒋玉婷
徐寒子
张秀明
袁杰
孙英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Jiangsu Cancer Hospital
Original Assignee
Nanjing University
Jiangsu Cancer Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University, Jiangsu Cancer Hospital filed Critical Nanjing University
Priority to CN201910292922.7A priority Critical patent/CN110009628A/zh
Publication of CN110009628A publication Critical patent/CN110009628A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Radiology & Medical Imaging (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种针对连续二维图像中多形态目标的自动检测方法,包括以下步骤:对二维图像进行拉宽和目标的框定,完成数据集的制作;使用目标检测网络训练制作好的数据集,尽可能保证较高的召回率,进行多次交叉验证,得到初步的目标检测结果;将初步检测框中的内容提取出来,利用卷积神经网络完成二分类,并进行多折交叉验证,得到所有分类结果;将分类结果为非目标的检测框舍去,将分类结果为目标的检测框显示在原始拉宽图像中,最后再将图片恢复成原始尺寸,通过上述步骤结合两种卷积神经网络得到准确率较高的目标检测结果。

Description

一种针对连续二维图像中多形态目标的自动检测方法
技术领域
本发明属于图像分析及目标检测领域,尤其涉及一种针对连续二维图像中多形态目标的自动检测方法。
背景技术
空间上的连续二维图像可以重建出三维图像,所以连续二维图像的目标自动检测对于实现立体空间的目标自动检测而言是具有重大意义的。目前连续二维图像中的目标检测主要依靠人为观察、传统图像处理方法或者传统机器学习方法,这种传统的检测方法存在诸多不利因素:
1)人为观察:费时,疲劳、经验等人为主观因素会影响观察结果的准确性与一致性;
2)传统的图像处理方法或者传统机器学习方法:鲁棒性不高,特别针对这种形态多变的目标。
发明内容
发明目的:本发明所要解决的技术问题是针对现有二维图像中多形态目标检测效果较差的情况,基于深度学习中的卷积神经网络和基本的图像处理方法,提供了一种基于卷积神经网络针对连续二维图像中多形态目标的自动检测方法,实现了对多形态目标的精确检测。
为了解决上述技术问题,本发明公开了一种基于卷积神经网络针对连续二维图像中多形态目标的自动检测方法,包括如下步骤:
步骤1,对二维图像进行拉宽,得到原始拉宽图像,并使用现有的标注工具对图像中的目标进行框定,得到真实标记框,将处理后的图像存入数据集D;
步骤2,将数据集D划分为训练集和测试集,在训练集上使用目标检测神经网络进行训练,将测试集通过训练好的目标检测模型,得到测试集的初步目标检测结果。在训练时依次进行交叉验证,每幅图像会得到相应的检测框;
步骤3,将检测框中的内容提取出来,存入数据集M并且划分出训练集与测试集,在训练集上使用分类神经网络进行训练,得到训练好的分类模型,将测试集通过训练好的分类模型,得到测试集的分类结果,在训练时依次进行交叉验证,得到所有检测框内容的分类结果;
步骤4,将分类结果为非目标的检测框舍去,将分类结果为目标的检测框显示在原始拉宽图像中,最后再将图片恢复成原始尺寸。
步骤1中,图像中的目标形态多样且细长条状的目标占比不小,经过试验发现卷积神经网络对于这种长宽比过大或者过小的目标敏感度不够,所以考虑对数据进行预处理,即将图像进行拉宽,使得目标的长宽比适中,易于网络感知。
步骤2中,所述目标检测神经网络为基于区域的全卷积网络R-FCN(Region-basedFully Convolutional Networks),该目标检测神经网络以全卷积网络R-FCN为主体,并且与一个区域推荐网络RPN(Region Proposal Network)共享卷积层。所述区域推荐网络RPN用于生成候选区域,所述主体的全卷积网络R-FCN对区域推荐网络生成的候选区域做分类或者进一步对候选区域进行边界的回归,从而实现目标的精确定位。基于区域的全卷积网络R-FCN与先前的目标检测网络Faster R-CNN相比,最大的创新之处在于提出了位置敏感感兴趣区域池化层position-sensitive RoI(Region of Interest)pooling layer,这一结构上的改变可以解决Faster R-CNN检测速度慢的问题,将更多的共享层放在感兴趣区域池化层RoI pooling layer之前,避免重复计算。同时,因为在目标检测中既要分类也要定位,这一新结构的引入可以在位置不变性和位置可变性之间取得一个更好的平衡。
所述目标检测神经网络R-FCN的损失函数包括目标分类损失和边界框回归损失,分类损失为交叉熵损失,边界框回归损失为smooth L1损失,计算公式为:
Lreg(t,t*)=∑smoothL1(t-t*),
其中,表示候选区域为前景的概率,为整个目标检测神经网络R-FCN的损失函数,包括Lcls和Lreg,其中Lcls为分类时的对数损失函数,Lreg是回归时的损失函数,Lreg包括t和t*;t是回归时对每个候选区域生成的一个四维参数向量,代表候选区域预测的偏移量,t*表示区域推荐网络RPN生成的候选区域相对于步骤1中对图像中的目标进行框定的真实标记框的实际偏移量,其中c*表示所述候选区域的预测是否为前景,若为前景则取值为1,否则取值为0,取值为0则所述候选区域不参与边界回归的损失计算;候选区域的边界回归使用smoothL1函数计算损失函数;λ参数作为一个权重来平衡Lcls和Lreg之间的重要性。
步骤2中,所述目标检测神经网络是一个全卷积化的网络,数据集D中的图像首先经过一个在自然图像数据集ImageNet上预训练好的全卷积网络ResNet-50,然后一方面在最后一个卷积层的后面添加K2*(C+1)个卷积核去卷积从而得到位置敏感得分图position-sensitive score map,其中C为目标检测类别数,K表示对感兴趣区域在长、宽方向各K等分成K2个小区域,另一方面,全卷积网络ResNet-50的输出作为区域推荐网络RPN的输入,区域推荐网络输出候选区域,也就是感兴趣区域,最后感兴趣区域池化层RoI Pooling layer将前面的位置敏感得分图和感兴趣区域作为输入,输出类别信息并且进行回归,则感兴趣区域池化层之后不存在额外的卷积层和全连接层。
步骤2中,目标检测工作只是起到一个初步检测的作用,所以重点应该放在召回率上,即保留更多的候选框,可以对假阳性的目标进行后续处理,但是不要将真阳性的目标漏掉。当目标检测神经网络达到设置的训练迭代次数后,针对训练集的训练过程结束并且得到训练好的目标检测模型,将测试集通过目标检测模型,测试集中的每幅图像会得到相应的预测检测框、预测类别与预测得分,将预测结果以图像的形式显示出来并且调整显示的阈值T,如果预测检测框对应的预测得分小于阈值T则该预测检测框将被剔除,否则保留。多次进行显示阈值的调整并且人为进行预测结果与实际结果的对比,本着不漏少错的原则选择出较为理想的阈值与检测效果。
步骤2中,由于连续二维图像之间是存在相似性的且数据集D为m套完整的连续二维图像,所以数据是以套为单位的并且使用目标检测神经网络进行训练时采用交叉验证法,将数据集D划分成k个互斥子集,每个子集中包含n套连续二维图像且将n取值为个位数:
m=k*n
其中Di表示第i个子集,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集,这样就能够进行k(取值范围是根据数据集的样本量来定的,几十到几百不等)次训练和测试,最终每套二维图像中都能够得到相应的检测框。
步骤3中,由于初步检测框中含有较多假阳性的存在,所以考虑将检测框中的内容提取出来,对其中的内容进行分类。而在这其中会存在很多干扰项,为了分类网络能得到更多的信息,对检测框中的内容进行提取时,保持中心位置不变,将长和宽分别设置成了原检测框的1.5倍,则提取出来的检测框内容中会包含背景信息。
步骤3中,所述分类卷积神经网络为GoogLeNet网络,GoogLeNet网络包括一个结构Inception,该结构Inception用于在使用不同的卷积核之前和最大池化操作之后分别加上1*1的卷积核改变通道数来降低特征图的厚度,完整的GoogLeNet网络的结构是在传统的卷积层和池化层之后不断进行Inception结构的堆叠,
GoogLeNet网络的损失函数Losstotal计算公式如下:
Losstotal=0.3*loss1+0.3*loss2+loss3
其中loss1和loss2是中间层的两个辅助损失函数,在中间的两个inception模块处增加两个额外的分类器是为了增强反向传播时的梯度信号,这两个分类器的损失loss以0.3的权重加在整体损失上,loss3是最后层的损失函数,每个损失函数Loss都是以交叉熵的形式计算的:
其中N为分类数据集M中训练集的样本数量,e是自然常数,GoogLeNet网络的输入为xi,xi对应的真实标签为yi,hj为GoogLeNet网络最终输出向量,即样本分别属于j这个类别的预测概率(即分类结果),C为分类任务类别数;是输出向量中第i个样本属于真实类别的预测概率。
步骤3中采用的分类神经网络的模型是在自然图像数据集ImageNet上预训练好的,在所述预训练好的模型的基础上进行微调,即在全连接层随机初始化的同时,前层会复制所述预训练好的模型的权重,可以使得训练过程更快地收敛。达到设置的迭代次数之后,训练过程结束并且得到训练好的模型,将测试集通过该模型可以得到测试集的分类结果,依次采用步骤2中所述的交叉验证法,就可以得到所有检测框内容的分类结果。
步骤4中将分类结果为非目标的检测框舍去,将分类结果为目标的检测框显示在原始拉宽图像中,最后再将图片恢复成原始尺寸,就完成了对连续二维图像中多形态目标的检测。
本发明利用卷积神经网络可以自动学习图像特征的特点,提出了一种基于卷积神经网络针对连续二维图像中多形态目标的自动检测方法。本发明将卷积神经网络应用于二维图像中多形态目标的自动检测,可排除人为观察中的主观因素的干扰并具有较强的鲁棒性,实现多形态目标的精确检测。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1为本发明方法示意图。
图2为目标检测网络R-FCN的架构示意图。
图3为多折交叉验证示意图。
图4为分类网络GoogLeNet中Inception结构示意图。
图5为本发明流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
实施例
如图1和图5所示,本发明公开了一种基于卷积神经网络针对连续二维图像中多形态目标的自动检测方法,包括如下步骤:
步骤1,对每例病人的双侧盆壁处的CT图像进行拉宽,得到原始拉宽图像,并使用现有的标注工具进行淋巴结的框定,将处理后的图像存入数据集D;
步骤2,将数据集D划分为训练集和测试集,在训练集上使用目标检测神经网络进行训练,将测试集通过训练好的目标检测模型,得到测试集的初步目标检测结果。依次进行交叉验证,每幅图像会得到相应的检测框;
步骤3,将检测框中的内容提取出来,存入数据集M并且划分训练集与测试集,使在训练集上使用分类神经网络进行训练,将测试集通过训练好的分类模型,得到测试集的分类结果。依次进行交叉验证,得到所有检测框内容的分类结果;
步骤4,将分类结果为非淋巴的检测框舍去,将分类结果为淋巴的检测框显示在原始拉宽图像中,最后再将图片恢复成原始尺寸。
本实例中,步骤1中输入的CT图像是随机从GE公司的Discovery CT750HDCT或Hispeed NX/i扫描仪上采集的,管电压均为120kV。Discovery CT750HDCT扫描仪采用自动毫安秒技术,Hispeed NX/i扫描仪管电流为400mAs。图像观察采用纵膈窗,窗宽为350,窗位为40。
本实例中,步骤1中数据集所使用的图像是从512*512的原图拉宽到尺寸为512*1024的图像,集中在人体的双侧盆壁部位,每两张之间的物理距离是1.25mm,由于人体之间的身高差异,这一部分的图片张数为50至80不等。完成图像的拉宽之后,在已拉宽的图像上使用LabelImg工具进行淋巴的标注,将处理后的图像存入数据集D。
本实例中,步骤2中所采用的目标检测神经网络为基于区域的全卷积网络R-FCN(Region-based Fully Convolutional Networks),该目标检测神经网络以全卷积网络R-FCN为主体,并且与一个区域推荐网络RPN(Region Proposal Network)共享卷积层。所述区域推荐网络RPN用于生成候选区域,所述主体的全卷积网络R-FCN对RPN网络生成的候选区域做分类或者进一步对候选区域进行边界的回归,从而实现目标的精确定位。基于区域的全卷积网络R-FCN与先前的目标检测网络Faster R-CNN相比,最大的创新之处在于提出了位置敏感感兴趣区域池化层position-sensitive RoI(Region of Interest)poolinglayer,这一结构上的改变可以解决目标检测网络Faster R-CNN检测速度慢的问题,将更多的共享层放在感兴趣区域池化层RoI pooling layer之前,避免重复计算。同时,因为在目标检测中既要分类也要定位,这一新结构的引入可以在位置不变性和位置可变性之间取得一个更好的平衡。
R-FCN的损失函数包括目标分类损失和边界框回归损失,分类部分为交叉熵损失,回归部分为smooth L1损失,计算公式为:
Lreg(t,t*)=∑smoothL1(t-t*),
其中,表示候选区域为前景的概率,为整个目标检测神经网络R-FCN的损失函数,包括Lcls和Lreg,其中Lcls为分类时的对数损失函数,Lreg是回归时的损失函数,Lreg包括t和t*;t是回归时对每个候选区域生成的一个四维参数向量,代表该候选区域预测的偏移量,t*表示RPN网络生成的候选区域相对于步骤1中真实标记框的实际偏移量,其中c*表示该候选区域的预测是否为前景,若为前景则取值为1,否则取值为0,取值为0则该候选区域不参与边界回归的损失计算;候选区域的边界回归使用smoothL1函数计算损失函数;λ参数作为一个权重来平衡Lcls和Lreg之间的重要性。该参数默认取值为10。
本实例中,步骤2中的目标检测模型是一个全卷积化的设计。如图2所示,数据集D中的CT图像首先经过一个在自然图像数据集ImageNet上预训练好的全卷积网络ResNet-50,然后一方面在最后一个卷积层的后面添加K2*(C+1)个卷积核去卷积从而得到位置敏感得分图position-sensitive score map,其中C为目标检测类别数,K表示对感兴趣区域在长宽方向各K等分成K2个小区域,K一般取值为3,;另一方面,全卷积网络ResNet-50的输出作为区域推荐网络的输入,区域推荐网络输出候选区域,也就是感兴趣区域,最后感兴趣区域池化层RoI Pooling layer将前面的位置敏感得分图和感兴趣区域作为输入,输出类别信息并且进行回归,则感兴趣区域池化层之后不存在额外的卷积层和全连接层。整个的训练过程是在深度学习框架Caffe上实现的,共训练迭代8000次。
本实例中,步骤2中的目标检测工作只是起到一个初步检测的作用,所以重点应该放在召回率上,即保留更多的候选框,可以对假阳性的目标进行后续处理,但是不要将真阳性的目标漏掉。实验结果显示,训练模型的召回率尚为可观,所以暂未对训练过程进行处理。
当目标检测神经网络达到设置的训练迭代次数8000后,针对训练集的训练过程结束并且得到训练好的目标检测模型,将测试集通过该模型,测试集中的每幅图像会得到相应的预测检测框、预测类别与预测得分,可以将预测结果以图像的形式显示出来并且可以自行调整显示的阈值,如果预测得分小于该阈值则该预测检测框将被剔除,否则保留。多次进行显示阈值的调整并且人为进行预测结果与实际结果的对比,本着不漏不错的原则选择出较为理想的阈值0.1,并且将符合条件的检测框坐标记录下来,用于下一步的检测框内容提取。
本实例中,步骤2中进行目标检测时,由于数据集D为m套完整的连续二维CT图像且连续CT图像之间是存在相似性的,所以在训练模型的时候采用了交叉验证法。如图3所示,将数据集D划分成k个大小相似的互斥子集每个子集中包含n套连续二维图像且将n取值为个位数:
m=k*n
其中Di表示第i个子集,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集,这样就能够进行k次训练和测试,保证每次的测试集与验证集之间不存在先验关系,最终每套二维图像中都可以得到相应的检测框。数据集中共有177套病人的连续CT图像,为了能让更多的数据用来训练来保证训练模型的鲁棒性,所以将n设为3,,即每个子集里只有3套病人的CT图像,根据公式,显然k的取值为59。这种做法是有点费时的,但是在数据集不太足够的情况下是非常可行的。在实验中,一般将n设置为个位数,k的取值根据m的取值来确定。
本实例中,步骤3中,由于初步检测框中含有较多假阳性的存在,所以考虑将检测框中的内容提取出来,对其中的内容进行分类。而在这其中会存在很多干扰项,为了分类网络能得到更多的信息,对检测框中的内容进行提取时,保持中心位置不变,将长和宽分别设置成了原检测框的1.5倍,这样提取出来的检测框内容中会包含背景信息有利于分类的判断。
本实例中,步骤3中采用的分类卷积神经网络为GoogLeNet网络,该网络提出了一个创造性的结构名为Inception,如图4所示,该结构是采用1*1卷积模块、3*3卷积模块、5*5卷积模块以及3*3的最大池化层的级联输出,并在3*3、5*5卷积模块之前以及3*3的最大池化层之后各添加1*1的卷积模块来降低特征图的厚度。完整的GoogLeNet结构是在传统的卷积层和池化层之后不断进行Inception结构的堆叠。
GoogLeNet的损失函数计算公式如下:
Losstotal=0.3*loss1+0.3*loss2+loss3
其中loss1和loss2是中间层的两个辅助损失函数,在中间的两个inception模块处增加两个额外的分类器是为了增强反向传播时的梯度信号,这两个分类器的损失loss以0.3的权重加在整体损失上,loss3是最后层的损失函数。每个损失函数Loss都是以交叉熵的形式计算的:
其中N为分类数据集M中训练集的样本数量,e是自然常数,GoogLeNet网络的输入为xi,xi对应的真实标签为yi,hj为GoogLeNet网络最终输出向量,即样本分别属于j这个类别的预测概率,C为分类任务类别数;是输出向量中第i个样本属于真实类别的预测概率。
本实例中步骤3中采用的网络是在深度学习框架Caffe上进行训练的,分类模型为在自然图像数据集ImageNet上预训练好的GoogLeNet模型,是从Caffe Model Zoo(http://caffe.berkeleyvision.org/model_zoo.html)中下载得来的。在该模型的基础上进行微调,在全连接层随机初始化的同时,前层会复制该预训练模型的权重,可以使得训练过程更快地收敛。达到设置的迭代次数8000次之后,训练过程结束并且得到训练好的模型,将测试集通过该模型可以得到测试集的分类结果,依次采用步骤2中所述的交叉验证法,就可以得到所有检测框内容的分类结果。
本实例中,在进行步骤3测试的时候仍采用上文所述的交叉验证法,将数据集分成多个相似尺寸的互斥子集,每次只使用一个子集作为测试集,剩下子集的并集作为训练集,从而得到所有检测框内容的分类结果。为了使得分类模型更好地显示图像的特征,任意一个子集中只有属于3组病人的检测框内容,使得训练集包含更多的数据。
本实例中,步骤4中将分类结果为非淋巴的检测框舍去,将分类结果为淋巴的检测框显示在原始拉宽图像中,最后再将图片恢复成原始尺寸,就完成了CT图像中双侧盆壁处多形态淋巴结的目标自动检测。
本发明提供了一种针对连续二维图像中多形态目标的自动检测方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (9)

1.一种针对连续二维图像中多形态目标的自动检测方法,其特征在于,包括如下步骤:
步骤1,对二维图像进行拉宽,得到原始拉宽图像,对图像中的目标进行框定,得到真实标记框,将处理后的图像存入数据集D;
步骤2,将数据集D划分为训练集和测试集,在训练集上使用目标检测神经网络进行训练,将测试集通过训练好的目标检测模型,得到测试集的初步目标检测结果,在训练时依次进行交叉验证,每幅图像会得到相应的检测框;
步骤3,将检测框中的内容提取出来,存入数据集M并且划分出训练集与测试集,在训练集上使用分类神经网络进行训练,得到训练好的分类模型,将测试集通过训练好的分类模型,得到测试集的分类结果,在训练时依次进行交叉验证,得到所有检测框内容的分类结果;
步骤4,将分类结果为非目标的检测框舍去,将分类结果为目标的检测框显示在原始拉宽图像中,最后再将图片恢复成原始尺寸。
2.根据权利要求1所述的方法,其特征在于,步骤2中,所述目标检测神经网络为基于区域的全卷积网络R-FCN,该目标检测神经网络以全卷积网络R-FCN为主体,并且与一个区域推荐网络RPN共享卷积层;所述区域推荐网络RPN用于生成候选区域,所述主体R-FCN网络对区域推荐网络RPN生成的候选区域做分类或者进一步对候选区域进行边界的回归,从而实现目标的精确定位。
3.根据权利要求2所述的方法,其特征在于,所述目标检测神经网络R-FCN的损失函数包括目标分类损失和边界框回归损失,分类损失为交叉熵损失,边界框回归损失为smoothL1损失,计算公式为:
Lreg(t,t*)=∑smoothL1(t-t*),
其中,表示候选区域为前景的概率,为整个目标检测神经网络R-FCN的损失函数,包括Lcls和Lreg,其中Lcls为分类时的对数损失函数,Lreg是回归时的损失函数,Lreg包括t和t*;t是回归时对每个候选区域生成的一个四维参数向量,代表候选区域预测的偏移量,t*表示区域推荐网络RPN生成的候选区域相对于真实标记框的实际偏移量,其中c*表示所述候选区域的预测是否为前景,若为前景则取值为1,否则取值为0,取值为0则所述候选区域不参与边界回归的损失计算;候选区域的边界回归使用smoothL1函数计算损失函数;λ参数作为一个权重来平衡Lcls和Lreg之间的重要性。
4.根据权利要求3所述的方法,其特征在于,步骤2中,所述目标检测神经网络是一个全卷积化的网络,数据集D中的图像首先经过一个在自然图像数据集ImageNet上预训练好的全卷积网络ResNet-50,然后一方面在最后一个卷积层的后面添加K2*(C+1)个卷积核去卷积从而得到位置敏感得分图,其中C为目标检测类别数,K表示对感兴趣区域在长、宽方向各K等分成K2个小区域,另一方面,全卷积网络ResNet-50的输出作为区域推荐网络RPN的输入,区域推荐网络输出候选区域,也就是感兴趣区域,最后感兴趣区域池化层RoI Poolinglayer将前面的位置敏感得分图和感兴趣区域作为输入,输出类别信息并且进行回归,则感兴趣区域池化层之后不存在额外的卷积层和全连接层。
5.根据权利要求4所述的方法,其特征在于,步骤2中,当目标检测神经网络达到设置的训练迭代次数后,针对训练集的训练过程结束并且得到训练好的目标检测模型,将测试集通过目标检测模型,测试集中的每幅图像会得到相应的预测检测框、预测类别与预测得分,将预测结果以图像的形式显示出来并且调整显示的阈值T,如果预测检测框对应的预测得分小于阈值T则该预测检测框将被剔除,否则保留。
6.根据权利要求5所述的方法,其特征在于,步骤2中,数据集D为m套完整的连续二维图像,使用目标检测神经网络进行训练时采用交叉验证法,将数据集D划分成k个互斥子集,每个子集中包含n套连续二维图像且将n取值为个位数:
m=k*n
其中Di表示第i个子集,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集,就能够进行k次训练和测试,其中k的取值范围是根据数据集的样本量来定的,最终每套二维图像中都能够得到相应的检测框。
7.根据权利要求6所述的方法,其特征在于,步骤3中,对检测框中的内容进行提取时,保持中心位置不变,将长和宽分别设置成了原检测框的1.5倍,则提取出来的检测框内容中会包含背景信息。
8.根据权利要求7所述的方法,其特征在于,步骤3中,所述分类卷积神经网络为GoogLeNet网络,GoogLeNet网络是结构Inception的堆叠,该结构Inception用于在使用不同的卷积核之前和最大池化操作之后分别加上1*1的卷积核改变通道数来降低特征图的厚度;
GoogLeNet网络的损失函数Losstotal计算公式如下:
Losstotal=0.3*loss1+0.3*loss2+loss3
其中loss1和loss2是中间层的两个辅助损失函数,在中间的两个inception模块处增加两个额外的分类器是为了增强反向传播时的梯度信号,这两个分类器的损失loss以0.3的权重加在整体损失上,loss3是最后层的损失函数,每个损失函数Loss都是以交叉熵的形式计算的:
其中N为分类数据集M中训练集的样本数量,e是自然常数,GoogLeNet网络的输入为xi,xi对应的真实标签为yi,hj为GoogLeNet网络最终输出向量,即样本分别属于j这个类别的预测概率,C为分类任务类别数;是输出向量中第i个样本属于真实类别的预测概率。
9.根据权利要求8所述的方法,其特征在于,步骤3中采用的分类神经网络的模型是在自然图像数据集ImageNet上预训练好的,在所述预训练好的模型的基础上进行微调,即在全连接层随机初始化的同时,前层会复制所述预训练好的模型的权重,达到设置的迭代次数之后,训练过程结束并且得到训练好的分类模型,将测试集通过该分类模型得到测试集的分类结果,依次采用步骤2中所述的交叉验证法,得到所有检测框内容的分类结果。
CN201910292922.7A 2019-04-12 2019-04-12 一种针对连续二维图像中多形态目标的自动检测方法 Pending CN110009628A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910292922.7A CN110009628A (zh) 2019-04-12 2019-04-12 一种针对连续二维图像中多形态目标的自动检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910292922.7A CN110009628A (zh) 2019-04-12 2019-04-12 一种针对连续二维图像中多形态目标的自动检测方法

Publications (1)

Publication Number Publication Date
CN110009628A true CN110009628A (zh) 2019-07-12

Family

ID=67171301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910292922.7A Pending CN110009628A (zh) 2019-04-12 2019-04-12 一种针对连续二维图像中多形态目标的自动检测方法

Country Status (1)

Country Link
CN (1) CN110009628A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079540A (zh) * 2019-11-19 2020-04-28 北航航空航天产业研究院丹阳有限公司 一种基于目标特性的分层可重构车载视频目标检测方法
CN111583204A (zh) * 2020-04-27 2020-08-25 天津大学 基于网络模型的二维序列磁共振图像的器官定位方法
CN111680740A (zh) * 2020-06-04 2020-09-18 京东方科技集团股份有限公司 神经网络的训练方法、装置及用电负荷的判别方法、装置
CN111898685A (zh) * 2020-08-03 2020-11-06 华南理工大学 一种基于长尾分布数据集的目标检测方法
CN112365498A (zh) * 2020-12-10 2021-02-12 南京大学 一种针对二维图像序列中多尺度多形态目标的自动检测方法
CN112949510A (zh) * 2021-03-08 2021-06-11 香港理工大学深圳研究院 基于Faster R-CNN热红外影像人物探测方法
CN113743455A (zh) * 2021-07-23 2021-12-03 北京迈格威科技有限公司 目标检索方法、装置、电子设备及存储介质
CN116842667A (zh) * 2023-06-25 2023-10-03 成都飞机工业(集团)有限责任公司 一种弯管制造可行性确定方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570874A (zh) * 2016-11-10 2017-04-19 宁波大学 一种结合图像局部约束与对象全局约束的图像标记方法
CN106651899A (zh) * 2016-12-09 2017-05-10 东北大学 基于Adaboost的眼底图像微动脉瘤检测系统
CN108182413A (zh) * 2017-12-29 2018-06-19 中国矿业大学(北京) 一种矿井移动目标检测与跟踪识别方法
CN108389220A (zh) * 2018-02-05 2018-08-10 湖南航升卫星科技有限公司 遥感视频图像运动目标实时智能感知方法及其装置
CN108416287A (zh) * 2018-03-04 2018-08-17 南京理工大学 一种基于遗漏负样本挖掘的行人检测方法
CN109325490A (zh) * 2018-09-30 2019-02-12 西安电子科技大学 基于深度学习和rpca的太赫兹图像目标识别方法
CN109409365A (zh) * 2018-10-25 2019-03-01 江苏德劭信息科技有限公司 一种基于深度目标检测的待采摘水果识别和定位方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570874A (zh) * 2016-11-10 2017-04-19 宁波大学 一种结合图像局部约束与对象全局约束的图像标记方法
CN106651899A (zh) * 2016-12-09 2017-05-10 东北大学 基于Adaboost的眼底图像微动脉瘤检测系统
CN108182413A (zh) * 2017-12-29 2018-06-19 中国矿业大学(北京) 一种矿井移动目标检测与跟踪识别方法
CN108389220A (zh) * 2018-02-05 2018-08-10 湖南航升卫星科技有限公司 遥感视频图像运动目标实时智能感知方法及其装置
CN108416287A (zh) * 2018-03-04 2018-08-17 南京理工大学 一种基于遗漏负样本挖掘的行人检测方法
CN109325490A (zh) * 2018-09-30 2019-02-12 西安电子科技大学 基于深度学习和rpca的太赫兹图像目标识别方法
CN109409365A (zh) * 2018-10-25 2019-03-01 江苏德劭信息科技有限公司 一种基于深度目标检测的待采摘水果识别和定位方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHRISTIAN SZEGEDY,等: ""Going deeper with convolutions"", 《ARXIV》 *
CHRISTIAN SZEGEDY,等: ""Rethinking the Inception Architecture for Computer Vision"", 《ARXIV》 *
JIFENG DAI,等: ""R-FCN: Object Detection via Region-based Fully Convolutional Networks"", 《ARXIV》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079540A (zh) * 2019-11-19 2020-04-28 北航航空航天产业研究院丹阳有限公司 一种基于目标特性的分层可重构车载视频目标检测方法
CN111079540B (zh) * 2019-11-19 2024-03-19 北航航空航天产业研究院丹阳有限公司 一种基于目标特性的分层可重构车载视频目标检测方法
CN111583204A (zh) * 2020-04-27 2020-08-25 天津大学 基于网络模型的二维序列磁共振图像的器官定位方法
CN111583204B (zh) * 2020-04-27 2022-10-14 天津大学 基于网络模型的二维序列磁共振图像的器官定位方法
CN111680740A (zh) * 2020-06-04 2020-09-18 京东方科技集团股份有限公司 神经网络的训练方法、装置及用电负荷的判别方法、装置
CN111898685A (zh) * 2020-08-03 2020-11-06 华南理工大学 一种基于长尾分布数据集的目标检测方法
CN111898685B (zh) * 2020-08-03 2023-10-27 华南理工大学 一种基于长尾分布数据集的目标检测方法
CN112365498A (zh) * 2020-12-10 2021-02-12 南京大学 一种针对二维图像序列中多尺度多形态目标的自动检测方法
CN112365498B (zh) * 2020-12-10 2024-01-23 南京大学 一种针对二维图像序列中多尺度多形态目标的自动检测方法
CN112949510A (zh) * 2021-03-08 2021-06-11 香港理工大学深圳研究院 基于Faster R-CNN热红外影像人物探测方法
CN113743455A (zh) * 2021-07-23 2021-12-03 北京迈格威科技有限公司 目标检索方法、装置、电子设备及存储介质
CN116842667A (zh) * 2023-06-25 2023-10-03 成都飞机工业(集团)有限责任公司 一种弯管制造可行性确定方法

Similar Documents

Publication Publication Date Title
CN110009628A (zh) 一种针对连续二维图像中多形态目标的自动检测方法
WO2020253629A1 (zh) 检测模型训练方法、装置、计算机设备和存储介质
US20210365717A1 (en) Method and apparatus for segmenting a medical image, and storage medium
CN109859190B (zh) 一种基于深度学习的目标区域检测方法
CN107610087B (zh) 一种基于深度学习的舌苔自动分割方法
CN111488921B (zh) 一种全景数字病理图像智能分析系统及方法
CN104424634B (zh) 对象跟踪方法和装置
CN111027547A (zh) 一种针对二维图像中的多尺度多形态目标的自动检测方法
CN108921057B (zh) 基于卷积神经网络的对虾形态测量方法、介质、终端设备及装置
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN110889446A (zh) 人脸图像识别模型训练及人脸图像识别方法和装置
CN111583220B (zh) 影像数据检测方法和装置
CN109815770A (zh) 二维码检测方法、装置及系统
CN109344851B (zh) 图像分类显示方法和装置、分析仪器和存储介质
CN110197206B (zh) 图像处理的方法及装置
CN112819821B (zh) 一种细胞核图像检测方法
CN111783779B (zh) 图像处理方法、装置和计算机可读存储介质
CN110909724B (zh) 一种多目标图像的缩略图生成方法
CN109472801A (zh) 一种用于多尺度的神经形态检测和分割方法
CN112561801A (zh) 基于se-fpn的目标检测模型训练方法、目标检测方法及装置
CN109671055B (zh) 肺结节检测方法及装置
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN111931867B (zh) 基于轻量级模型的新冠肺炎x射线图像分类方法及系统
CN111860587A (zh) 一种用于图片小目标的检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Jiang Yuting

Inventor after: Zhang Xiuming

Inventor after: Xu Hanzi

Inventor after: Yuan Jie

Inventor after: Sun Ying

Inventor before: Jiang Yuting

Inventor before: Xu Hanzi

Inventor before: Zhang Xiuming

Inventor before: Yuan Jie

Inventor before: Sun Ying

CB03 Change of inventor or designer information
RJ01 Rejection of invention patent application after publication

Application publication date: 20190712

RJ01 Rejection of invention patent application after publication