CN113222064A

CN113222064A - 一种图像目标对象实时检测方法、系统、终端及存储介质

Info

Publication number: CN113222064A
Application number: CN202110600752.1A
Authority: CN
Inventors: 乔琛; 杨党林; 方晗峰; 龚若林
Original assignee: Suzhou Hanlin Information Technology Development Co ltd
Current assignee: Suzhou Fuying Medical Technology Co ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-06

Abstract

一种图像目标对象实时检测方法、系统、终端及存储介质，检测方法包括：采集含有目标对象的图像，对各图像进行信息标注，并将图像与标注信息汇总；将含有目标对象的图像与对应的标注信息进行数据划分构建训练集及测试集；建立基于注意力感知和上下文信息融合的深度神经网络模型；利用训练集及测试集对建立的深度神经网络模型进行训练，得到训练后的模型；基于训练后的模型对待检测的图像进行目标对象的检测。本发明同时还提供一种图像目标对象实时检测系统、终端及存储介质。本发明能够降低检测模型的复杂程度，实现目标对象的实时辅助检测，并克服传统图像检测方法检测准确率低、漏检以及误检率高，医师专业能力负担和成本负担重的问题。

Description

一种图像目标对象实时检测方法、系统、终端及存储介质

技术领域

本发明属于图像数据处理领域，具体涉及一种图像目标对象实时检测方法、系统、终端及存储介质。

背景技术

近年来，图像目标对象的检测与分析已经有着越来越广泛的应用，例如，在医学领域中的结肠镜检查，目前大多采用传统图像检测方法，如视屏内窥镜成像，通过肠镜上的摄像头实时采集图片，并实时投射到医生面前的显示屏上，由医生根据其临床经验和专业技能对图片进行诊断，从而识别息肉及其类别，但结肠镜过程中进行检查时有着较高的漏检率，且对于肠镜医师的能力和专业要求很高，导致检查手术成本高，结肠镜检查难以广泛普及。

而深度学习作为大数据分析中最强大的工具之一，能够使对象检测更具稳定性和客观性，并提高目标对象的检出率和准确率。因此，有必要将深度学习加以运用，寻求一个能够提高检测准确率，降低漏检、误检率的深度网络模型，从而解决现有的数据处理问题。

发明内容

本发明的目的在于针对上述现有技术中图像复杂目标对象检测不易、准确率不高的问题，提供一种图像目标对象实时检测方法、系统、终端及存储介质，提高普适性和开发效率。

为了实现上述目的，本发明有如下的技术方案：

一种图像目标对象实时检测方法，包括以下步骤：

采集含有目标对象的图像，对各图像进行信息标注，并将图像与标注信息汇总；

将含有目标对象的图像与对应的标注信息进行数据划分构建训练集及测试集；

建立基于注意力感知和上下文信息融合的深度神经网络模型；

利用训练集及测试集对建立的深度神经网络模型进行训练，得到训练后的模型；

基于训练后的模型对待检测的图像进行目标对象的检测。

作为本发明图像目标对象实时检测方法的一种优选方案，将采集到的含有目标对象的图像进行裁剪并归一化为特定大小，使用LabelImg标注工具对各图像进行信息标注。

作为本发明图像目标对象实时检测方法的一种优选方案，进行数据划分之后，使训练集中的数据占总数据的70％，测试集中的数据占总数据的30％。

作为本发明图像目标对象实时检测方法的一种优选方案，所述的深度神经网络模型采用Faster R-CNN检测算法，模型训练之前采用特征提取网络ResNet101作为训练网络进行特征提取，并使用K-Means聚类方法获取适合目标对象数据集的锚框，然后在特征提取网络ResNet101的每一个block后加入ECA-SENet注意力机制，所述的ECA-SENet注意力机制基于SENet和ECA-Net注意力机制提出；最后在RPN框架产生感兴趣区域之后，计算其上下文信息，将感兴趣区域与其上下文信息进行融合。

作为本发明图像目标对象实时检测方法的一种优选方案，所述的深度神经网络模型在Faster R-CNN检测算法的RPN阶段采用Soft-NMS算法去除多余锚框。

作为本发明图像目标对象实时检测方法的一种优选方案，采用Faster R-CNN检测算法的深度神经网络模型分为以下四个部分：特征提取网络模块、RPN网络模块、上下文信息融合和ROI池化模块、分类与回归模块；四个部分的具体组成如下：

特征提取网络模块：采用预训练好的ResNet101模型，其网络结构包括conv1，conv2_x，conv3_x，conv4_x，conv5_x；从conv1到conv4_x共91层作为特征提取网络，从conv4_x的输入分为两路，一条经过RPN进行区域提名生成和选择，另一条连接ROIPooling，将RPN的结果输入ROI池化层归一化为特定大小的特征；在conv1到conv4_x四个卷积块后，均加入ECA-SENet注意力机制，ECA-SENet注意力机制先对conv4_x输出的特征图Feature map进行全局平均池化，计算通道的平均值，再使用快速一维卷积滑动计算卷积结果，然后采用两个全连接层，在中间使用ReLU，第一个全连接层进行下采样，经过ReLU激活，第二个全连接层将特征升到原始维度，最后使用sigmoid函数将权值转化到[0,1]之间；通过将权值与特征图Feature map相乘，得到对不同特征通道增加了注意力权值的新特征图；

RPN网络模块：用于生成候选区域，使用K-Means聚类算法对锚框的宽高比进行聚类，计算两个候选框之间的IoU作为距离度量，从特征图Feature map映射到原图得到候选框ROIs，再使用卷积和Softmax对候选框二分类，判断其是前景还是背景，对前景锚框使用NMS算法去除IoU交并比小于阈值的锚框，按照分数排序并提取候选框，进行ROI池化和分类回归；

上下文信息融合和ROI池化模块：

将上下文特征与RPN网络产生的ROIs分别进行ROI池化操作，输出相同特定大小的特征图，再使用add融合方式将上下文特征和ROIs进行融合，生成新的候选区域；

分类与回归模块：

新的候选区域通过conv5_x两个全连接层对区域提名进行分类和回归，分类使用Softmax loss，计算预测候选框属于检测物体的概率；使用边框回归得到位置偏移量，获得检测框。

作为本发明图像目标对象实时检测方法的一种优选方案，采用DIoU loss函数作为边框回归的损失函数，DIoU loss函数的表达式如下：

式中，IOU为交并比，即预测框和真实框的交集和并集的比值；B，B^gt分别代表了anchor框和目标框的中心点；ρ代表的是两个中心点间的欧式距离；c代表的是能够同时覆盖anchor和目标框的最小矩形的对角线距离。

本发明还提供一种图像目标对象实时检测系统，包括：

图像采集模块，用于采集含有目标对象的图像；

图像标注及信息汇总模块，用于对含有目标对象的各图像进行信息标注，并将图像与标注信息汇总；

数据集划分模块，用于将含有目标对象的图像与对应的标注信息进行数据划分构建训练集及测试集；

网络模型建立模块，用于建立基于注意力感知和上下文信息融合的深度神经网络模型；

模型训练模块，用于利用训练集及测试集对建立的深度神经网络模型进行训练，得到训练后的模型；

目标对象检测模块，用于基于训练后的模型对待检测的图像进行目标对象的检测。

本发明还提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述的处理器执行所述的计算机程序时实现所述图像目标对象实时检测方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述的计算机程序被处理器执行时实现所述图像目标对象实时检测方法的步骤。

相较于现有技术，本发明有如下的有益效果：在具体操作时，首先对采集到的含有目标对象的图像进行信息标注，再将图像与标注信息汇总，构建训练集及测试集，本发明基于注意力感知和上下文信息融合的深度神经网络模型进行目标对象的检测，利用训练集及测试集对建立的深度神经网络模型进行训练，基于训练后的模型对待检测的图像进行目标对象的检测，能够降低检测模型的复杂程度，实现目标对象的实时辅助检测，并克服传统图像检测方法检测准确率低、漏检以及误检率高，医师专业能力负担和成本负担重的问题。

进一步的，本发明深度神经网络模型采用Faster R-CNN检测算法，在原始FasterR-CNN算法的模型结构上，使用K-Means聚类方法获取适合目标对象数据集的锚框，在特征提取网络ResNet101的每一个block后加入基于SENet和ECA-Net注意力机制提出的ECA-SENet注意力机制，在RPN框架产生感兴趣区域后，计算其上下文信息，将感兴趣区域与其上下文信息进行融合，同时使用Soft-NMS算法去除多余锚框，选择DIoU loss作为边框回归的损失函数，降低了模型的复杂程度，实现对原始目标检测方法的优化，能够获得更准确的检测结果。

附图说明

为了更加清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作以简单地介绍，应当理解，以下附图仅示出了本发明部分实施例，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1本发明的深度神经网络模型结构示意图；

图2本发明ECA-SENet注意力机制网络结构示意图；

图3本发明不同k/r组合的参数量和训练测试时间对比图；

图4本发明K-Means聚类方法不同K的精确度变化曲线图；

图5本发明K＝6时的聚类结果图；

图6本发明K＝9时的聚类结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员还可以在没有做出创造性劳动的前提下获得其他实施例。

本发明提出的一种图像目标对象实时检测方法，能够适用于多种图像当中目标对象的实时监测，下面以结肠镜下息肉的实时辅助检测为例进行说明，包括如下步骤：

1)收集已备案的结肠镜下图像，再将已备案的结肠镜下图像存储于计算机中；

2)将采集到的结肠镜下图像进行裁剪并归一化为640*480大小，由专业医生使用LabelImg标注工具对各图像进行专业的标注框标注，并将图像与标注信息数据汇总；

3)将步骤2)得到的结肠镜下图像和对应的标注信息数据划分为训练集及测试集，然后将划分得到的训练集及测试集输入到基于注意力感知和上下文信息融合的Faster R-CNN检测算法的深度神经网络模型中；

由于数据集的类别数和数据量不足以支撑从头训练一个作为特征提取网络的深度学习网络，因此本发明采用迁移学习的方法。在整个目标检测模型训练以前，先采用ResNet101作为训练网络用于特征提取，再在原始Faster R-CNN算法上使用K-Means聚类方法获取适合的锚框、加入ECA-SENet注意力感知及上下文信息融合，并且选择Soft-NMS算法用于去除多余目标框，选择DIoU loss作为边框回归的损失函数，结合以上方法对原始目标检测方法进行优化，提出基于注意力感知和上下文信息融合的Faster R-CNN检测算法的深度神经网络模型，对上述数据进行息肉检测，优化方法如下：

a)设定深度学习基本框架，将训练集中的数据如图1建立基于注意力感知和上下文信息融合的Faster R-CNN检测算法的深度神经网络模型，输入层包含若干个结肠镜下图像及其标注信息数据的节点，输出层包含若干个带有标注框和标注信息的结肠镜下图像的节点。

b)对于各层网络的每个节点采用数学方程建立该节点的数据模型，同时预设数学方程中的相关参数值。

c)在该深度学习网络模型中，以ResNet101作为特征提取网络，选择检测准确率较高的二阶段目标检测算法Faster R-CNN作为基本框架；并提出SENet和ECA-Net注意力机制等方法，得到基于注意力感知和上下文信息融合的Faster R-CNN检测算法的深度神经网络模型，该算法分为四个部分：

特征提取网络：采用预训练好的ResNet101模型，网络结构参考表1，其网络结构包括conv1，conv2_x，conv3_x，conv4_x，conv5_x，表示ResNet101网络的每一部分。在此网络中，conv1到conv4_x共91层作为特征提取网络，然后从conv4_x的输入分为两路，一条经过RPN进行区域提名生成和选择，另一条连接ROI Pooling，将RPN的结果输入ROI池化层归一化为7*7大小的特征。

表1

在conv1到conv4_x四个卷积块后，均加入改进注意力机制ECA-SENet模块，ECA-SENet网络结构参考图2，超参数为一维卷积核大小k＝5和降采样比例r＝16，该改进注意力机制先对conv4_x输出的特征图Feature map进行全局平均池化，计算这C个通道的平均值，再使用大小为k的快速一维卷积滑动计算卷积结果，然后采用两个1*1卷积层的全连接层，在中间使用ReLU，第一个全连接层进行下采样，降采样比例为r，经过ReLU激活，第二个全连接层将特征升到原始维度，最后使用sigmoid函数将权值转化到[0,1]之间；最后将s与特征图Feature map相乘，即可得到对不同特征通道增加了注意力权值的新特征图，不同k/r组合的参数量和训练测试时间对比如图3所示。

RPN网络(Region Proposal Network)：用于生成候选区域，使用K-Means聚类算法对数据集中标注框的宽高比进行聚类，计算两个候选框之间的IoU作为距离度量，即两个候选框的相似程度用d＝1-IoU(box1,box_cluster)表示，K-Means聚类方法对不同K值的景精确度变化见图4，依据肘部法则和精确度情况选择K＝6和K＝9，聚类结果图见图5和图6；根据聚类结果，后续实验采取ratio＝1的比率，模型采取16*16，32*32，64*64，128*128，256*256，512*512作为锚框的尺寸，从特征图Feature map映射到原图得到候选框ROIs，再使用1*1的卷积和Softmax对候选框二分类，判断其是前景还是背景，对前景框使用NMS算法去除IoU交并比小于0.7的框，按照分数提取前128个候选框(训练阶段)作为proposal的输出结果，在测试阶段提取前300个候选框，用于后续网络进行ROI池化和分类回归；

上下文信息融合和ROI池化(Region of interest Pooling)：RPN产生ROIs后，送入上下文融合模块，使用比例为0.3和1的组合计算上下文特征，上下文特征提取流程见表2，将上下文特征与RPN网络产生的ROIs分别进行ROI池化操作，输出为7*7大小的相同大小的特征图，再使用add融合方式将上下文特征和ROIs进行融合，生成新的候选区域(Newrois)。

表2

分类与回归(Classification and Regression)：新的候选区域(New rois)通过conv5_x两个全连接层对区域提名进行分类和回归。分类使用Softmax loss，计算预测候选框属于检测物体的概率；使用边框回归得到位置偏移量，获得更精确的检测框。

Faster R-CNN的多任务损失函数如下：

式中第一部分表示分类损失函数，L_cls预测某一类别是目标和非目标的对数损失，p_i表示将锚点检测为息肉的概率，

表示是否存在息肉，有为1，无为0，即：

L_reg表示回归损失，使用DIoU Loss，损失函数公式为：

其中

只有当

才对候选框边框回归以修正位置，并计算回归损失。

λ是用来平衡分类和回归损失的，一般取λ＝10。

N_cls和N_reg分别表示cls项和reg项，其中N_cls＝256，N_reg:2400(40*60)。

d)为了避免出现同一类别互相遮挡导致NMS算法误删除的情况，在测试文件中，对每张图中的每个类别，使用Soft-NMS算法进行抑制，将重叠度高的rois进行抑制。

e)模型训练epoch经过参数调优为6；bastch_size为1即每次仅训练一个样本；线程数也为1；初始学习率经过调优为1e-3，每5个epoch学习率衰减一次，在训练时固定特征提取网络ResNet101的第一、二个卷积块，训练其余所有模块，且采用交替训练的方式训练ECA-SENet注意力机制模块，首先固定SENet的降采样比率为16，讨论不同卷积核大小对于整个网络的影响，这里分别将k设置为3～9，再固定卷积核参数k为最优结果时的k，训练选取最优的降采样比率和卷积核参数。

f)将测试集数据输入训练好的深度神经网络模型中，判断输出层的结果是否等于该测试集中数据的原始标签，根据该深度神经网络模型对测试集数据的误分类个数计算该深度神经网络模型对于结肠镜下图像息肉检测的准确性。

对比实验

在结肠等肠道组织进行病理检查诊断时，一般使用的是对比放大内镜(ME)结合窄带成像(NBI)和白光光源内镜检查(WLE)两种方法[46]。其中NBI是一种染色内镜，能够增强粘膜的微血管在光学图像中的形态，便于发现一些肉眼可能会忽略的病灶。而白光光源检测用白光进行，与普通照明灯类似，采集到的图像特征与人眼识别无异。

研究实验数据由复旦大学附属医院华山医院提供。使用白光光源一共采集14744帧结肠镜检查视频帧转化成的图像，用于息肉的识别和定位。将图像进行裁剪并归一化为640*480大小，并由专业医生使用LabelImg标注工具对采集到的14744帧息肉图像进行标注，标注原始图像的宽高和通道数、标注框的左上角、右下角坐标，以及目标物类别，数据集中共有7650个xml文件，其中有标签的xml文件有6350个，无标签的xml文件940个。

经处理后的共有3171帧不同息肉的图像，图像大小均为640*480，按照7：3的比例划分训练集和测试集，其中训练集按照2：8划分验证集和训练集，其中训练集有1775帧图像，验证集有444帧图像，测试集有952帧图像，将数据集制作为Pascal VOC格式，通过数据增强，最终获得5325帧增强图像，此时训练集数据共7100帧、验证集有444帧图像，测试集有952帧图像，本发明从分类准确性验证该网络的性能。

分类准确性

对锚框类型及数量、回归损失函数和边框筛选算法进行选择实验，实验采取ratio＝1的比率进行，模型采取16*16，32*32，64*64，128*128，256*256，512*512作为锚框的尺寸，此时accuracy为70.13％。原始的9种锚框和聚类得到的锚框作为实验参数进行比对如表3。

表3

由上表可以看到，跟原始的Faster R-CNN相比，仅使用DIoU Loss精度提升较仅使用Soft-NMS大，但漏检率降低较少。综合使用DIoU Loss和Soft-NMS的训练时间虽增大，但是检测精度提升更大。使用K-Means聚类得到的6种锚框及DIoU Loss和Soft-NMS与仅使用DIoU Loss和Soft-NMS相比，漏检率降低1.22％，分类的AUC指标也提升了一个百分点，训练时间和测试时间也降低了，训练时间降低272.35s即4.5min，对于952帧测试图片的时间降低了2s，使用K-Means聚类得到的锚框对息肉检测是适合的，因此，说明了采用上述的6个锚框、DIoU Loss和Soft-NMS，能够在较短的训练时长下，有效提高分类精确度。

将FRCNN-AA-CIF算法与一阶段目标检测算法YOLO以及SSD和原始的Faster R-CNN算法在息肉测试集上的实验结果进行了对比，对比结果如表4。

表4

可以看出，二阶段目标检测算法FR-CNN比YOLOv3和SSD的漏检率更低，对医学图像来说更适合。FRCNN-AA是仅在特征提取网络增加注意力机制模块，FRCNN-CIF是仅在RPN框架增加上下文信息融合，可以看到两种改进都使检测结果更好，但特征提取改进的效果优于上下文融合很多，对原始FRCNN进行两个改进比任一种改进结果更好。本发明的FRCNN-AA-CIF算法相比较其他公开算法检出率更高，分类准确率也更高，相比较原始的FR-CNN算法mAP提升了5.5％，漏检率降低了6.38个百分点，因此说明本发明对于息肉检测来说确实是更符合和有效的，本发明基于注意力感知和上下文信息融合的Faster R-CNN检测算法的深度神经网络模型具有高检出率和低漏检、误检率，能够显著提升检测结果。

本发明还提供一种图像目标对象实时检测系统，包括：

图像采集模块，用于采集含有目标对象的图像；

本发明还提供一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现图像目标对象实时检测方法的步骤。

本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现图像目标对象实时检测方法的步骤。

计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明的图像目标对象实时检测方法。

终端可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备，也可以是处理器、存储器。处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现本发明图像目标对象实时检测系统的各种功能。

以上所述的仅仅是本发明的较佳实施例，并不用以对本发明的技术方案进行任何限制，本领域技术人员应当理解的是，在不脱离本发明精神和原则的前提下，该技术方案还可以进行若干简单的修改和替换，这些修改和替换也均属于权利要求书所涵盖的保护范围之内。

Claims

1.一种图像目标对象实时检测方法，其特征在于，包括以下步骤：

基于训练后的模型对待检测的图像进行目标对象的检测。

2.根据权利要求1所述的图像目标对象实时检测方法，其特征在于：将采集到的含有目标对象的图像进行裁剪并归一化为特定大小，使用LabelImg标注工具对各图像进行信息标注。

3.根据权利要求1所述的图像目标对象实时检测方法，其特征在于：进行数据划分之后，使训练集中的数据占总数据的70％，测试集中的数据占总数据的30％。

4.根据权利要求1所述的图像目标对象实时检测方法，其特征在于：所述的深度神经网络模型采用Faster R-CNN检测算法，模型训练之前采用特征提取网络ResNet101作为训练网络进行特征提取，并使用K-Means聚类方法获取适合目标对象数据集的锚框，然后在特征提取网络ResNet101的每一个block后加入ECA-SENet注意力机制，所述的ECA-SENet注意力机制基于SENet和ECA-Net注意力机制提出；最后在RPN框架产生感兴趣区域之后，计算其上下文信息，将感兴趣区域与其上下文信息进行融合。

5.根据权利要求4所述的图像目标对象实时检测方法，其特征在于：所述的深度神经网络模型在Faster R-CNN检测算法的RPN阶段采用Soft-NMS算法去除多余锚框。

6.根据权利要求5所述的图像目标对象实时检测方法，其特征在于，采用Faster R-CNN检测算法的深度神经网络模型分为以下四个部分：特征提取网络模块、RPN网络模块、上下文信息融合和ROI池化模块、分类与回归模块；四个部分的具体组成如下：

特征提取网络模块：采用预训练好的ResNet101模型，其网络结构包括conv1，conv2_x，conv3_x，conv4_x，conv5_x；从conv1到conv4_x共91层作为特征提取网络，从conv4_x的输入分为两路，一条经过RPN进行区域提名生成和选择，另一条连接ROI Pooling，将RPN的结果输入ROI池化层归一化为特定大小的特征；在conv1到conv4_x四个卷积块后，均加入ECA-SENet注意力机制，ECA-SENet注意力机制先对conv4_x输出的特征图Feature map进行全局平均池化，计算通道的平均值，再使用快速一维卷积滑动计算卷积结果，然后采用两个全连接层，在中间使用ReLU，第一个全连接层进行下采样，经过ReLU激活，第二个全连接层将特征升到原始维度，最后使用sigmoid函数将权值转化到[0,1]之间；通过将权值与特征图Feature map相乘，得到对不同特征通道增加了注意力权值的新特征图；

上下文信息融合和ROI池化模块：

分类与回归模块：

7.根据权利要求1所述的图像目标对象实时检测方法，其特征在于，采用DIoUloss函数作为边框回归的损失函数，DIoUloss函数的表达式如下：

8.一种图像目标对象实时检测系统，其特征在于，包括：

图像采集模块，用于采集含有目标对象的图像；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于：所述的处理器执行所述的计算机程序时实现如权利要求1至7中任意一项所述图像目标对象实时检测方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述的计算机程序被处理器执行时实现如权利要求1至7中任意一项所述图像目标对象实时检测方法的步骤。