CN110288017B

CN110288017B - 基于动态结构优化的高精度级联目标检测方法与装置

Info

Publication number: CN110288017B
Application number: CN201910544949.0A
Authority: CN
Inventors: 王颖颖; 王大亮; 王辉; 王伟旗
Original assignee: Hebei Shuyuntang Intelligent Technology Co ltd
Current assignee: Hebei Shuyuntang Intelligent Technology Co ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2023-01-10
Anticipated expiration: 2039-06-21
Also published as: CN110288017A

Abstract

本发明涉及一种基于动态结构优化的高精度级联目标检测装置，包括：数据输入单元，数据信息采集单元，装置冷启动单元，级联网络框架动态构建单元，级联网络参数动态调整单元，模型评估单元，监测控制单元，最优模型选择单元，模型输出单元。通过本发明的技术方案，能够提高图像中目标的检测精度，动态适应不同的图像场景。通过多阶段的级联检测器对图像中目标实现了像素级别的高精度位置回归，从而大幅提升了目标检测器的定位能力。

Description

基于动态结构优化的高精度级联目标检测方法与装置

技术领域

本发明涉及图像目标检测领域，尤其涉及了一种基于动态结构优化的高精度级联目标检测方法与装置。

背景技术

图像作为最常用的信息载体，理解图像中特定的目标进而解析图像内容尤为关键。基于图像的目标检测是从背景中分离出感兴趣的目标，并确定这一目标的描述：类别和位置，其中位置通常用矩形检测框的坐标表示。然而现有的方法存在矩形检测框不贴合/不匹配的问题，例如矩形检测框太大或太小，仍然不能满足实际生产任务的需求。

目前已经存在一些相关方法。现有方法通过固定阶段数和固定IoU阈值的级联检测器检测特定场景下的目标。相关的专利和研究技术如下：

中国专利CN201910021219.2公开了一种基于级联位置敏感检测的舰船目标检测方法，它通过统计检测网络各级输出的候选框与真实框IoU的分布情况，得到三级检测模块的IoU阈值，将三阶段的级联检测器用于海上视频图像中舰船目标的精准检测。固定阶段数、固定IoU阈值仅针对海上视频图像中的舰船目标有效，无法适用于其它应用场景，而且没有使用定量化指标来评测检测模型的贴合度。

中国专利CN201610086496.8公开了一种基于级联卷积神经网络的人脸遮挡检测方法，其使用两个固定IoU阈值的三级人头卷积神经网络，保留符合级联网络各个条件的检测窗口。它同样也是固定阶段数、固定IoU阈值的级联检测器，泛化能力不强，精度也有待进一步提高。

综合现有技术，其技术方案都是固定参数的级联网络，不能实时动态监测网络的训练过程，网络性能没有逐步调整到最优，检测精度还有进一步提高的空间。

发明内容

本发明被用作解决在现有技术中的上述问题，并且提高图像中目标的检测精度，以动态适应不同的图像场景。通过多阶段的级联检测器对图像中目标实现了像素级别的高精度位置回归，从而大幅提升了目标检测器的定位能力。

为了实现上述目的，在本发明的第一方面中，提供了一种基于动态结构优化的高精度级联目标检测装置，其特征在于，包括：

(1)数据输入单元，用于对输入数据集进行训练、验证和测试集合的划分，分别包含图像及图像中目标的标注信息，并按照需求输入数据集；

(2)数据信息采集单元，用于分析数据种类、数据量大小、包含目标类别、目标的相对尺寸及目标的总数量；

(3)初始参数预置单元，用于接收用户设定的可接受像素差值及贴合度要求；

(4)装置冷启动单元，用于综合数据信息采集单元和初始参数预置单元的信息来估计初始训练阶段数；

(5)级联网络框架动态构建单元，用于根据估计的初始训练阶段数生成训练配置文件，或者根据监测控制单元的反馈信息进一步调整级联的阶段数，动态构建级联网络框架；

(6)级联网络参数动态调整单元，用于动态调整级联检测器中每个阶段正负样本的判定条件，包括级联网络训练子单元和正负样本选择子单元；

(7)模型评估单元，用于使用测试集评估检测器的贴合水平，并反馈给监测控制单元；

(8)监测控制单元，用于接收级联网络参数动态调整单元反馈的检测器训练阶段、IoU阈值、训练损失函数信息；接收模型评估单元反馈的贴合度信息；绘制贴合度和阶段数的函数曲线，通过级联网络可视化监控子单元实时监测训练过程；

(9)最优模型选择单元；用于选择保存的所有模型中性能最优的一个作为最终的输出模型；

(10)模型输出单元；用于输出训练模型文件。

进一步地，所述级联网络参数动态调整单元的两个子单元交互过程为：第一阶段检测器训练完成后将输出预测框的样本分布情况反馈给正负样本选择子单元，统计预测框和真实框的IoU分布情况，进行数据分析保证每次训练的正样本比例在20％以上，将此时正负样本的判定阈值反馈给级联网络训练子单元继续训练下一阶段检测器，两个子单元在训练过程中彼此交互，循环进行，直至完成级联检测器的训练。

进一步地，所述检测控制单元实时监测训练过程具体包括：当贴合度满足预设要求时，输出停止训练的信号，保存最优模型；当贴合曲线出现波峰并开始下降时，说明训练已达上限，输出停止训练的信号，保存最优模型；当贴合曲线呈上升趋势时，说明训练不够充分，输出继续训练的信号给级联网络框架动态构建单元，继续调整级联网络的框架。

进一步地，所述监测训练过程进一步包括：1)求解全局最优解：接收到级联网络训练可视化监控单元反馈的训练过程曲线后，首先建立贴合度y和阶段数x的一元非线性函数y＝f(x)，求解y的极大值，即求解一元非线性方程f(x)＝0的极值点；其次使用牛顿拉夫逊迭代法求解一元非线性方程f(x)＝0：对于一元非线性方程f(x)＝0，对函数f(x)进行泰勒级数展开得f(x)＝f(x0)+f’(x0)(x-x0)，此时方程可写为f(x0)+f’(x0)(x-x0)＝0，其中x0是给定的已知值；由方程f(x0)+f’(x0)(x-x0)＝0推导出方程的近似解x＝x0-f(x0)/f’(x0)，近似解x比初值x0更靠近真实解，重复进行迭代求近似解的过程，使得到的最终解非常接近准确值；上一步求得的近似解x即为最佳效果模型所对应的级联阶段数；2)作出继续训练决策的条件：使用牛顿拉夫逊迭代法计算曲线上每一点的梯度，梯度仍然有逐渐降低的趋势时，说明模型训练不够充分，直观地理解为当曲线呈现上升趋势且未达到预定要求时，输出继续训练的信号给级联网络框架动态构建单元，继续调整阶段数进行训练；3)作出停止训练决策的条件1：使用牛顿拉夫逊迭代法计算曲线中每一点的梯度，当梯度逐渐降低并趋于稳定时，说明模型已经趋于稳定，梯度最小的点对应保存的训练模型即为最优模型；直观地理解为当贴合度满足预定要求时，输出停止训练的信号给最优模型选择单元，保存最优模型权重，终止训练；4)作出停止训练决策的条件2：使用牛顿拉夫逊迭代法计算曲线中梯度为0的点，即为局部最优点，该点对应保存的训练模型即为最优模型；直观地理解为当曲线已经出现波峰并开始呈现下降趋势时，输出停止训练的信号给最优模型选择单元，保存最优模型权重，终止训练。

进一步地，所述贴合度的计算具体包括：计算平均像素差值Diff，基于矩形检测框的四条边与矩形真值框对应的四条边的差值求和，再取平均值可求得平均像素差值；所述贴合度需满足平均像素差值小于可接受像素差值的预测框比例。

进一步地，所述动态构建级联网络框架包括：1)构建基元检测器；2)构建级联网络主框架；3)调整级联阶段数；其中，所述基元检测器包括三个部分：特征提取网络、区域候选网络、目标检测网络。

进一步地，级联网络模型训练具体包括：首先是区域候选网络和目标检测网络的交叉迭代训练过程：第一，使用预训练权重文件使网络迅速收敛到全局最优附近；第二，区域候选网络在特征提取网络的输出特征图上生成若干不同尺度和长宽比的候选框；第三，将第二步的输出提供给目标检测网络，此时两个独立训练的网络参数完全独立；第四，使用第三步训练得到的网络参数再次进行区域候选网络的训练过程，更新它特有网络层对应的权重文件，共享两个网络公共的卷积层参数；第五，微调目标检测网络特有的网络层，此时完成级联检测器的初步训练。

进一步地，所述正负样本选择具体包括：根据正负样本的分布情况动态调整每个级联检测器的IoU阈值；接收级联网络训练子单元区域候选网络的输出预测框结果B0；分析区域候选网络RPN输出预测框的分布情况，绘制IoU分布图，横坐标为预测框与真实框的IoU(精确到小数点后两位)，纵坐标为该IoU对应的样本数量；计算IoU大于0.5，0.525，0.55等数值时样本所占比例，例如当IoU大于0.525时，样本所占比例为24.1％，如果此时选定IoU阈值为0.525，则正样本所占比例为24.1％，正负样本分布较为均衡，可以作为后续检测器的输入；将上一步确定的IoU阈值＝0.525反馈给级联网络训练子单元作为第一阶段检测器D1的正负样本选择条件；继续下一阶段检测器的训练；每训练完一个阶段的检测器得到预测框结果之后即进行上述的交互过程，直至完成所有检测器的训练。

进一步地，监测控制单元包括训练信息采集子单元、评估信息采集子单元、级联网络训练可视化监控子单元和决策子单元；其中，训练信息采集子单元，用于从级联网络参数动态调整单元采集训练信息，包括正在训练的阶段数，该阶段输出IoU的分布情况，该阶段的动态IoU阈值；评估信息采集子单元，用于从模型评估单元采集各个可接受像素差值对应的贴合度；级联网络训练可视化监控子单元，用于根据采集到的训练信息和评估信息，绘制训练过程曲线，横坐标为阶段数，纵坐标为指定可接受像素差值下的贴合度；将绘制完成的训练过程曲线实时反馈给决策子单元，同时提供可视化界面给用户；决策子单元，用于求解全局最优解，并作出相应训练决策。

在本发明的第二方面中，提供了一种基于动态结构优化的高精度级联目标检测方法，其特征在于，包括：

(1)对输入数据集进行训练、验证和测试集合的划分，分别包含图像及图像中目标的标注信息，并按照需求输入数据集；

(2)分析数据种类、数据量大小、包含目标类别、目标的相对尺寸及目标的总数量；

(3)接收用户设定的可接受像素差值及贴合度要求；

(4)综合步骤(2)和(3)的信息来估计初始训练阶段数；

(5)根据估计的初始训练阶段数生成训练配置文件，或者根据步骤(7)的反馈信息进一步调整级联的阶段数，动态构建级联网络框架；

(6)动态调整级联检测器中每个阶段正负样本的判定条件，包括级联网络训练和正负样本选择；

(7)使用测试集评估检测器的贴合水平，并发送反馈信息；

(8)接收反馈的检测器训练阶段、IoU阈值、训练损失函数信息；以及所反馈的贴合度信息；绘制贴合度和阶段数的函数曲线，实时监测训练过程；

(9)选择保存的所有模型中性能最优的一个作为最终的输出模型；

(10)输出训练模型文件。

进一步地，所述级联网络训练和正负样本选择的交互过程包括为：第一阶段检测器训练完成后将输出预测框的样本分布情况反馈给正负样本选择子单元，统计预测框和真实框的IoU分布情况，进行数据分析保证每次训练的正样本比例在20％以上，将此时正负样本的判定阈值反馈给级联网络训练子单元继续训练下一阶段检测器，两个子单元在训练过程中彼此交互，循环进行，直至完成级联检测器的训练。

进一步地，所述实时监测训练过程具体包括：当贴合度满足预设要求时，输出停止训练的信号，保存最优模型；当贴合曲线出现波峰并开始下降时，说明训练已达上限，输出停止训练的信号，保存最优模型；当贴合曲线呈上升趋势时，说明训练不够充分，输出继续训练的信号给级联网络框架动态构建单元，继续调整级联网络的框架。

进一步地，所述级联网络模型训练具体包括：首先是区域候选网络和目标检测网络的交叉迭代训练过程：第一，使用预训练权重文件使网络迅速收敛到全局最优附近；第二，区域候选网络在特征提取网络的输出特征图上生成若干不同尺度和长宽比的候选框；第三，将第二步的输出提供给目标检测网络，此时两个独立训练的网络参数完全独立；第四，使用第三步训练得到的网络参数再次进行区域候选网络的训练过程，更新它特有网络层对应的权重文件，共享两个网络公共的卷积层参数；第五，微调目标检测网络特有的网络层，此时完成级联检测器的初步训练。

进一步地，所述监测控制具体包括：从级联网络参数动态调整单元采集训练信息，包括正在训练的阶段数，该阶段输出IoU的分布情况，该阶段的动态IoU阈值；从模型评估单元采集各个可接受像素差值对应的贴合度；根据采集到的训练信息和评估信息，绘制训练过程曲线，横坐标为阶段数，纵坐标为指定可接受像素差值下的贴合度；将绘制完成的训练过程曲线实时反馈同时提供可视化界面给用户；求解全局最优解，并作出相应训练决策。

本发明具有以下优点：

1)大幅提升检测器的高精度定位能力，实现图像中目标的精准检测。

2)实时动态调整检测器的参数以获得最佳效果的训练模型。

3)广泛适用于各种图像场景。

附图说明

现在，在下面参考附图针对本发明的优选实施例的各方面描述了本发明，在附图中：

图1是本发明提供基于动态结构优化的高精度级联目标检测装置的整体框图；

图2是贴合度计算过程的示意图；

图3为构建级联网络主框架的过程示意图。

图4是预测框与真实框IoU的计算过程的示意图；

图5是级联网络训练子单元和正负样本选择子单元的实时交互过程示意图；

图6为监测曲线的三种状态示意图。

具体实施方式

现在将详细参考本发明的实施例，在附图中示出了它们的例子，其中，相同的参考数字通篇指示相同的元件。就此而言，本发明的实施例可以具有不同的形式，并且不应该被视为限于这里给出的描述。因此，下面通过参考附图描述这些实施例仅为了说明本发明的各方面。

本申请中所使用的专业术语名称解释见下表：

术语名称	解释
		目标检测	从图像中定位目标，给出类别和矩形预测框坐标信息
正负样本	目标为正样本，背景为负样本
		IoU	预测框和真实框的交集除以并集，衡量二者的重合程度
贴合度	满足平均像素差值小于可接受像素差值的预测框比例
		IoU阈值	用于判定正负样本所对应的IoU值
级联阶数	目标检测器的阶段数

下面，将参考附图来作出本发明的示例性实施例的说明。

图1描述了本发明提供基于动态结构优化的高精度级联目标检测装置的整体框图。

其包括以下单元：

(1)数据输入单元。对输入数据集进行训练、验证和测试集合的划分，每一部分分别包含图像及图像中目标的标注信息，并按照需求将数据集送入检测装置中。

(2)数据信息采集单元。分析数据种类、数据量大小、包含目标类别、目标的相对尺寸及目标的总数量。

(3)初始参数预置单元。接收用户设定的可接受像素差值及贴合度要求。

(4)装置冷启动单元。综合数据信息采集单元和初始参数预置单元的信息来估计初始训练阶段数。

(5)级联网络框架动态构建单元。根据估计的初始训练阶段数生成训练配置文件，或者根据监测控制单元的反馈信息进一步调整级联的阶段数，动态构建级联网络框架。

(6)级联网络参数动态调整单元。动态调整级联检测器中每个阶段正负样本的判定条件，包括级联网络训练子单元和正负样本选择子单元两部分。两个子单元的交互过程为：第一阶段检测器训练完成后将输出预测框的样本分布情况反馈给正负样本选择子单元，统计预测框和真实框的IoU分布情况，进行数据分析保证每次训练的正样本比例在20％以上，将此时正负样本的判定阈值反馈给级联网络训练子单元继续训练下一阶段检测器，两个子单元在训练过程中彼此交互，循环进行，直至完成级联检测器的训练。

(7)模型评估单元。使用测试集评估检测器的贴合水平，并反馈给监测控制单元。

(8)监测控制单元。接收级联网络参数动态调整单元反馈的检测器训练阶段、IoU阈值、训练损失函数等信息；接收模型评估单元反馈的贴合度信息；绘制贴合度和阶段数的函数曲线，通过级联网络可视化监控子单元实时监测训练过程；当贴合度满足预设要求时，输出停止训练的信号，保存最优模型；当贴合曲线出现波峰并开始下降时，说明训练已达上限，输出停止训练的信号，保存最优模型；当贴合曲线呈上升趋势时，说明训练不够充分，输出继续训练的信号给级联网络框架动态构建单元，继续调整级联网络的框架。

(9)最优模型选择单元。选择保存的所有模型中性能最优的一个作为最终的输出模型。

(10)模型输出单元。输出训练模型文件。

更进一步地，本发明提供的基于动态结构优化的高精度级联目标检测方法包括：

1.数据信息采集

图像数据是本专利的输入，充分挖掘图像数据中的信息，包括数据种类、数据集大小、数据集包含目标类别、目标相对图像的尺寸、目标的总数量。掌握数据集的目标分布情况之后，有针对性地进行数据增强，包括平移、旋转、尺度缩放等基本操作。

2.初始参数预置

接收用户输入的可接受像素差值及对应的贴合度。使用这两个指标来衡量目标检测的精准度。贴合度的计算包括两个步骤：

1)计算平均像素差值Diff。矩形检测框(红色)的四条边与矩形真值框(绿色)对应的四条边的差值求和，再取平均值可求得平均像素差值。

2)计算贴合度。所述贴合度满足平均像素差值小于可接受像素差值的预测框比例。

图2所示为贴合度计算过程的示意图。

3.装置冷启动

装置冷启动单元基于收集到的数据信息和接收到的精度要求，同时结合先验知识针对不同种类图像数据(例如遥感图像、医学图像、可见光图像等类型)的个性化特点，来综合估计级联检测器的初始阶段数。其包括三个步骤：

1)根据数据信息估计训练阶段数

对于任意一个新输入的数据集，初始训练阶段数为:

N1＝[10*(Data_size/100000)+10*(Object_size/0.6)+10*(Num_object/500000)]/3(公式1)

Data_size：数据集大小

Num_classes：数据集包含目标类别

Object_size：数据集中目标相对图像的尺寸

Num_object：数据集中目标的总数量

N1：估计初始训练阶段数

例如当Data_size＝100000，Object_size＝0.6，Num_object＝500000时，训练阶段数N1＝10。

2)根据精度要求估计训练阶段数

对于新输入的精度要求，初始训练阶段数为:

N2＝[10*(Accept_pixel/10)+10*(Fit_level/0.5)]/2

(公式2)

Accept_pixel：可接受像素差值

Fit_level：贴合度

例如当Accept_pixel＝10，Fit_level＝0.5时，训练阶段数N2＝10。

3)估算训练阶段数

最终估算的初始训练阶段数，有小数部分则向上取整：

N＝(N1+N2)/2 (公式3)

4.级联网络框架动态构建

级联网络动态构建基于装置冷启动单元估计的级联网络初始阶段数，构建级联网络的主框架。主要包含构建基元检测器、构建级联网络主框架及调整级联网络阶段数三个步骤：

1)构建基元检测器

基元检测器包括三个部分：特征提取网络、区域候选网络、目标检测网络。

特征提取网络：

将构建的训练集图像分批次输入到特征提取网络中，使用卷积神经网络主动学习图像中的特征，其核心部分在卷积层，通过定义不同类型的卷积核，比如提取图像水平细节或者对角细节的卷积核，使用不同卷积核遍历整张图像，保留图像中具有该卷积核特征的细节信息，包括图像的边缘信息、纹理信息等等。全连接层将卷积核提取到的目标的多样性特征统一起来，确保机器对目标的认知更加全面，目标分类更加准确。卷积神经网络的深度对分类和识别的效果有很大的影响，本专利中选用深度残差网络作为特征提取网络，在保留较高空间分辨率的基础上充分提取图像的抽象语义特征信息，以实现精准定位小目标的功能。

区域候选网络：

在特征提取网络的输出特征图上，每个像素点对应原始图像中的一个图像块，以每个空间位置为中心点产生3个不同尺度和3个不同长宽比{1:1,1:2,2:1}的9个候选框，映射到原图中尽可能多的覆盖图像中可能存在目标的区域。利用卷积神经网络提取的深层特征滤除大部分背景样本将候选框的数量迅速缩小到一个较小的数目(1-2k)，高质量且数目较少的候选框进一步提高检测的速度和精度。

目标检测网络：

特征提取网络的输出特征图和区域候选网络得到的稀疏候选目标位置集合作为目标检测网络的输入，但此时图像上的矩形预测框既没有标签，位置也不准确，此网络的功能在于进一步筛选矩形预测框，同时打上相应的类别标签和回归精准的矩形预测框。使用SoftMax分类器计算各个类别的得分。使用梯度下降法实现区域候选框到目标包围框的回归过程。

SoftMax分类器：得分函数是将原始的图片像素值经过处理后映射到每个类的打分的函数，损失函数的特点是预测结果与实际结果的差距越大对损失函数的贡献越大。Softmax分类器在计算得到各类的得分之后，进一步将得分归一化到范围在[0,1]之间的概率值，概率的大小表示判定目标所属类的概率。

边框回归：边框回归是目标检测任务中精准定位目标的理论基础。网络使用训练集学习内部复杂的参数层，训练集中包含训练图像及实际的目标包围框，训练的目的是使得预测框尽可能的接近真值框，保存此时的网络权重文件，当检测新的没有真值框的图像时，保存有最优参数的权重文件也能有效识别出目标。

2)构建级联网络主框架

特征提取网络记为FEN

区域候选网络记为RPN

第i阶段检测器记为Di

第i阶段检测器的分类结果(输出类别)记为Ci

第i阶段检测器的预测框结果(输出矩形预测框坐标)记为Bi

检测网络的主框架是级联网络的一个基本单元。仅通过一个固定IoU阈值的检测器无法实现高精度的目标检测，本专利设计了一套IoU阈值递增的级联检测器，根据估计得到的初始阶段数生成指定阶数的级联检测器。具体流程(见附图3)如下：根据输入的级联阶段数动态构建级联网络，区域候选网络的输出预测框结果B0作为第1阶段检测器的输入，后续第i阶段检测器Di的预测框结果作为第i+1阶段检测器Di+1的输入，使用训练数据集逐级训练各个级联检测模块。

如图3所示为构建级联网络主框架的过程示意图。

3)动态调整级联阶段数

初始估计的级联阶段数不能确保训练效果达到最优或者满足预先设定的精度要求，需要根据实际的训练情况实时动态的调整级联检测器的阶段数。当接收到监测控制单元反馈回的继续训练信号后，根据监测控制单元的监测曲线，从以下两种选择中做出应答：

继续调整各阶段IoU阈值：

输出信号给级联网络参数动态调整单元。

及时调整级联检测器的阶段数：

当训练不够充分时继续增加阶段数，返回2)重新修改配置文件，重新构造级联检测器的主框架；当训练过拟合时减少阶段数，返回2)重新修改配置文件，重新构造级联检测器的主框架。

5.级联网络参数动态调整

级联网络参数动态调整包括两个子单元：级联网络训练子单元和正负样本选择子单元。主要流程包括以下两个步骤：

1)级联网络模型训练

首先是区域候选网络和目标检测网络的交叉迭代训练过程，具体表现为以下几点：第一，使用预训练权重文件使网络迅速收敛到全局最优附近；第二，区域候选网络在特征提取网络的输出特征图上生成若干不同尺度和长宽比的候选框；第三，将第二步的输出提供给目标检测网络，此时两个独立训练的网络参数完全独立；第四，使用第三步训练得到的网络参数再次进行区域候选网络的训练过程，更新它特有网络层对应的权重文件，共享两个网络公共的卷积层参数；第五，微调目标检测网络特有的网络层，此时完成级联检测器的初步训练。

2)正负样本选择

根据正负样本的分布情况动态调整每个级联检测器的IoU阈值。具体流程如下：

接收级联网络训练子单元区域候选网络的输出预测框结果B0。

分析区域候选网络RPN输出预测框的分布情况，绘制IoU分布图，横坐标为预测框与真实框的IoU(精确到小数点后两位)，纵坐标为该IoU对应的样本数量。

计算IoU大于0.5，0.525，0.55等数值时样本所占比例，例如当IoU大于0.525时，样本所占比例为24.1％，如果此时选定IoU阈值为0.525，则正样本所占比例为24.1％，正负样本分布较为均衡，可以作为后续检测器的输入。

将上一步确定的IoU阈值＝0.525反馈给级联网络训练子单元作为第一阶段检测器D1的正负样本选择条件。继续下一阶段检测器的训练。

每训练完一个阶段的检测器得到预测框结果之后即进行上述的交互过程，直至完成所有检测器的训练。

图4为预测框与真实框IoU的计算过程的示意图。

图5为级联网络训练子单元和正负样本选择子单元的实时交互过程示意图。

6.模型评估

使用测试集评估级联网络的性能，计算可接受像素差值为1～10时的贴合度。反馈评估信息给监测控制单元。

7.监测控制

监测控制单元包括训练信息采集子单元、评估信息采集子单元、级联网络训练可视化监控子单元和决策子单元四部分。它的工作流程如下：

1)采集训练信息

首先从级联网络参数动态调整单元采集训练信息，包括正在训练的阶段数，该阶段输出IoU的分布情况，该阶段的动态IoU阈值。

2)采集评估信息

从模型评估单元采集各个可接受像素差值对应的贴合度。

3)级联网络训练可视化监控

根据采集到的训练信息和评估信息，绘制训练过程曲线，横坐标为阶段数，纵坐标为指定可接受像素差值下的贴合度。将绘制完成的训练过程曲线实时反馈给决策子单元，同时提供可视化界面给用户，便于整体调控级联网络训练过程。

4)作出决策

求解全局最优解：

接收到级联网络训练可视化监控单元反馈的训练过程曲线后，首先建立贴合度y和阶段数x的一元非线性函数y＝f(x)，求解y的极大值，即求解一元非线性方程f(x)＝0的极值点；其次使用牛顿拉夫逊迭代法求解一元非线性方程f(x)＝0：

对于一元非线性方程f(x)＝0，对函数f(x)进行泰勒级数展开(只展开至线性项)得f(x)＝f(x0)+f’(x0)(x-x0)，此时方程可写为f(x0)+f’(x0)(x-x0)＝0，其中x0是给定的已知值(例如极值点可能在级联阶段数为2的附近取到，则可选定初值x0＝2)；

由方程f(x0)+f’(x0)(x-x0)＝0推导出方程的近似解x＝x0-f(x0)/f’(x0)，近似解x比初值x0更靠近真实解，重复进行迭代求近似解的过程，可以使得到的最终解非常接近准确值；

上一步求得的近似解x即为最佳效果模型所对应的级联阶段数。

作出继续训练决策的条件：

使用牛顿拉夫逊迭代法计算曲线上每一点的梯度，梯度仍然有逐渐降低的趋势时，说明模型训练不够充分，直观地理解为当曲线呈现上升趋势且未达到预定要求时(见图6：①)，输出继续训练的信号给级联网络框架动态构建单元，继续调整阶段数进行训练。

作出停止训练决策的条件1：

使用牛顿拉夫逊迭代法计算曲线中每一点的梯度，当梯度逐渐降低并趋于稳定时，说明模型已经趋于稳定，梯度最小的点对应保存的训练模型即为最优模型。直观地理解为当贴合度满足预定要求时(见图6：②)，输出停止训练的信号给最优模型选择单元，保存最优模型权重，终止训练。

作出停止训练决策的条件2：

使用牛顿拉夫逊迭代法计算曲线中梯度为0的点，即为局部最优点，该点对应保存的训练模型即为最优模型。直观地理解为当曲线已经出现波峰并开始呈现下降趋势时(见图6：③)，输出停止训练的信号给最优模型选择单元，保存最优模型权重，终止训练。

图6为监测曲线的三种状态示意图。

基于本申请所使用贴合度指标来评估预测框的贴合水平，并反馈给网络进一步监督训练过程，能够大幅提升检测器的高精度定位能力，实现图像中目标的精准检测。

本申请不仅可以动态调整级联检测器的阶段数，也可以根据训练过程中正负样本的比例动态调整每个检测器的IoU阈值，实时动态调整检测器的参数持续循环学习过程，尽可能获得最佳效果的训练模型。

本申请所提供的技术方案适用于各种图像场景，针对不同的图像数据集合，通过级联卷积神经网络自适应的主动学习数据集中的多样性特征，从而可以得到更加准确、更加全面的检测结果。

虽然本申请所揭露的实施方式如上，但所述的内容仅为便于理解本申请而采用的实施方式，并非用以限定本申请，如本发明实施方式中的具体的实现方法。任何本申请所属领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于动态结构优化的高精度级联目标检测装置，其特征在于，包括：

(10)模型输出单元；用于输出训练模型文件。

2.根据权利要求1所述的装置，其特征在于，所述级联网络参数动态调整单元的两个子单元交互过程为：第一阶段检测器训练完成后将输出预测框的样本分布情况反馈给正负样本选择子单元，统计预测框和真实框的IoU分布情况，进行数据分析保证每次训练的正样本比例在20％以上，将此时正负样本的判定阈值反馈给级联网络训练子单元继续训练下一阶段检测器，两个子单元在训练过程中彼此交互，循环进行，直至完成级联检测器的训练。

3.根据权利要求1或2所述的装置，其特征在于，所述监测控制单元实时监测训练过程具体包括：当贴合度满足预设要求时，输出停止训练的信号，保存最优模型；当贴合曲线出现波峰并开始下降时，说明训练已达上限，输出停止训练的信号，保存最优模型；当贴合曲线呈上升趋势时，说明训练不够充分，输出继续训练的信号给级联网络框架动态构建单元，继续调整级联网络的框架。

4.根据权利要求3所述的装置，其特征在于，所述监测训练过程进一步包括：1)求解全局最优解：接收到级联网络训练可视化监控单元反馈的训练过程曲线后，首先建立贴合度y和阶段数x的一元非线性函数y＝f(x)，求解y的极大值，即求解一元非线性方程f(x)＝0的极值点；其次使用牛顿拉夫逊迭代法求解一元非线性方程f(x)＝0：对于一元非线性方程f(x)＝0，对函数f(x)进行泰勒级数展开得f(x)＝f(x0)+f’(x0)(x-x0)，此时方程可写为f(x0)+f’(x0)(x-x0)＝0，其中x0是给定的已知值；由方程f(x0)+f’(x0)(x-x0)＝0推导出方程的近似解x＝x0-f(x0)/f’(x0)，近似解x比初值x0更靠近真实解，重复进行迭代求近似解的过程，使得到的最终解非常接近准确值；上一步求得的近似解x即为最佳效果模型所对应的级联阶段数；2)作出继续训练决策的条件：使用牛顿拉夫逊迭代法计算曲线上每一点的梯度，梯度仍然有逐渐降低的趋势时，说明模型训练不够充分，直观地理解为当曲线呈现上升趋势且未达到预定要求时，输出继续训练的信号给级联网络框架动态构建单元，继续调整阶段数进行训练；3)作出停止训练决策的条件1：使用牛顿拉夫逊迭代法计算曲线中每一点的梯度，当梯度逐渐降低并趋于稳定时，说明模型已经趋于稳定，梯度最小的点对应保存的训练模型即为最优模型；直观地理解为当贴合度满足预定要求时，输出停止训练的信号给最优模型选择单元，保存最优模型权重，终止训练；4)作出停止训练决策的条件2：使用牛顿拉夫逊迭代法计算曲线中梯度为0的点，即为局部最优点，该点对应保存的训练模型即为最优模型；直观地理解为当曲线已经出现波峰并开始呈现下降趋势时，输出停止训练的信号给最优模型选择单元，保存最优模型权重，终止训练。

5.根据权利要求3所述的装置，其特征在于，所述贴合度的计算具体包括：计算平均像素差值Diff，基于矩形检测框的四条边与矩形真值框对应的四条边的差值求和，再取平均值可求得平均像素差值；所述贴合度需满足平均像素差值小于可接受像素差值的预测框比例。

6.根据权利要求1所述的装置，其特征在于，所述动态构建级联网络框架包括：1)构建基元检测器；2)构建级联网络主框架；3)调整级联阶段数；其中，所述基元检测器包括三个部分：特征提取网络、区域候选网络、目标检测网络。

7.根据权利要求2所述的装置，其特征在于，级联网络模型训练具体包括：首先是区域候选网络和目标检测网络的交叉迭代训练过程：第一，使用预训练权重文件使网络迅速收敛到全局最优附近；第二，区域候选网络在特征提取网络的输出特征图上生成若干不同尺度和长宽比的候选框；第三，将第二步的输出提供给目标检测网络，此时两个独立训练的网络参数完全独立；第四，使用第三步训练得到的网络参数再次进行区域候选网络的训练过程，更新它特有网络层对应的权重文件，共享两个网络公共的卷积层参数；第五，微调目标检测网络特有的网络层，此时完成级联检测器的初步训练。

8.根据权利要求2所述的装置，其特征在于，所述正负样本选择具体包括：根据正负样本的分布情况动态调整每个级联检测器的IoU阈值；接收级联网络训练子单元区域候选网络的输出预测框结果B0；分析区域候选网络RPN输出预测框的分布情况，绘制IoU分布图，横坐标为预测框与真实框的IoU，纵坐标为该IoU对应的样本数量；计算IoU大于0.5，0.525，0.55数值时样本所占比例。

9.根据权利要求8所述的装置，其特征在于，当IoU大于0.525时，样本所占比例为24.1％，此时选定IoU阈值为0.525，则正样本所占比例为24.1％，正负样本分布较为均衡，作为后续检测器的输入；将上一步确定的IoU阈值＝0.525反馈给级联网络训练子单元作为第一阶段检测器D1的正负样本选择条件；继续下一阶段检测器的训练；每训练完一个阶段的检测器得到预测框结果之后即进行上述的交互过程，直至完成所有检测器的训练。

10.根据权利要求1所述的装置，其特征在于，监测控制单元包括训练信息采集子单元、评估信息采集子单元、级联网络训练可视化监控子单元和决策子单元；其中，训练信息采集子单元，用于从级联网络参数动态调整单元采集训练信息，包括正在训练的阶段数，该阶段输出预测IoU的分布情况，该阶段的动态IoU阈值；评估信息采集子单元，用于从模型评估单元采集各个可接受像素差值对应的贴合度；级联网络训练可视化监控子单元，用于根据采集到的训练信息和评估信息，绘制训练过程曲线，横坐标为阶段数，纵坐标为指定可接受像素差值下的贴合度；将绘制完成的训练过程曲线实时反馈给决策子单元，同时提供可视化界面给用户；决策子单元，用于求解全局最优解，并作出相应训练决策。

11.一种基于动态结构优化的高精度级联目标检测方法，其特征在于，包括：

(3)接收用户设定的可接受像素差值及贴合度要求；

(4)综合步骤(2)和(3)的信息来估计初始训练阶段数；

(7)使用测试集评估检测器的贴合水平，并发送反馈信息；

(10)输出训练模型文件。

12.根据权利要求11所述的方法，其特征在于，所述级联网络训练和正负样本选择的交互过程包括为：第一阶段检测器训练完成后将输出预测框的样本分布情况反馈给正负样本选择子单元，统计预测框和真实框的IoU分布情况，进行数据分析保证每次训练的正样本比例在20％以上，将此时正负样本的判定阈值反馈给级联网络训练子单元继续训练下一阶段检测器，两个子单元在训练过程中彼此交互，循环进行，直至完成级联检测器的训练。

13.根据权利要求11或12所述的方法，其特征在于，所述实时监测训练过程具体包括：当贴合度满足预设要求时，输出停止训练的信号，保存最优模型；当贴合曲线出现波峰并开始下降时，说明训练已达上限，输出停止训练的信号，保存最优模型；当贴合曲线呈上升趋势时，说明训练不够充分，输出继续训练的信号给级联网络框架动态构建单元，继续调整级联网络的框架。

14.根据权利要求13所述的方法，其特征在于，所述监测训练过程进一步包括：1)求解全局最优解：接收到级联网络训练可视化监控单元反馈的训练过程曲线后，首先建立贴合度y和阶段数x的一元非线性函数y＝f(x)，求解y的极大值，即求解一元非线性方程f(x)＝0的极值点；其次使用牛顿拉夫逊迭代法求解一元非线性方程f(x)＝0：对于一元非线性方程f(x)＝0，对函数f(x)进行泰勒级数展开得f(x)＝f(x0)+f’(x0)(x-x0)，此时方程可写为f(x0)+f’(x0)(x-x0)＝0，其中x0是给定的已知值；由方程f(x0)+f’(x0)(x-x0)＝0推导出方程的近似解x＝x0-f(x0)/f’(x0)，近似解x比初值x0更靠近真实解，重复进行迭代求近似解的过程，使得到的最终解非常接近准确值；上一步求得的近似解x即为最佳效果模型所对应的级联阶段数；2)作出继续训练决策的条件：使用牛顿拉夫逊迭代法计算曲线上每一点的梯度，梯度仍然有逐渐降低的趋势时，说明模型训练不够充分，直观地理解为当曲线呈现上升趋势且未达到预定要求时，输出继续训练的信号给级联网络框架动态构建单元，继续调整阶段数进行训练；3)作出停止训练决策的条件1：使用牛顿拉夫逊迭代法计算曲线中每一点的梯度，当梯度逐渐降低并趋于稳定时，说明模型已经趋于稳定，梯度最小的点对应保存的训练模型即为最优模型；直观地理解为当贴合度满足预定要求时，输出停止训练的信号给最优模型选择单元，保存最优模型权重，终止训练；4)作出停止训练决策的条件2：使用牛顿拉夫逊迭代法计算曲线中梯度为0的点，即为局部最优点，该点对应保存的训练模型即为最优模型；直观地理解为当曲线已经出现波峰并开始呈现下降趋势时，输出停止训练的信号给最优模型选择单元，保存最优模型权重，终止训练。

15.根据权利要求13所述的方法，其特征在于，所述贴合度的计算具体包括：计算平均像素差值Diff，基于矩形检测框的四条边与矩形真值框对应的四条边的差值求和，再取平均值可求得平均像素差值；所述贴合度需满足平均像素差值小于可接受像素差值的预测框比例。

16.根据权利要求12所述的方法，其特征在于，级联网络模型训练具体包括：首先是区域候选网络和目标检测网络的交叉迭代训练过程：第一，使用预训练权重文件使网络迅速收敛到全局最优附近；第二，区域候选网络在特征提取网络的输出特征图上生成若干不同尺度和长宽比的候选框；第三，将第二步的输出提供给目标检测网络，此时两个独立训练的网络参数完全独立；第四，使用第三步训练得到的网络参数再次进行区域候选网络的训练过程，更新它特有网络层对应的权重文件，共享两个网络公共的卷积层参数；第五，微调目标检测网络特有的网络层，此时完成级联检测器的初步训练。

17.根据权利要求12所述的方法，其特征在于，所述正负样本选择具体包括：根据正负样本的分布情况动态调整每个级联检测器的IoU阈值；接收级联网络训练子单元区域候选网络的输出预测框结果B0；分析区域候选网络RPN输出预测框的分布情况，绘制IoU分布图，横坐标为预测框与真实框的IoU，纵坐标为该IoU对应的样本数量；计算IoU大于0.5，0.525，0.55数值时样本所占比例。

18.根据权利要求17所述的方法，其特征在于，当IoU大于0.525时，样本所占比例为24.1％，此时选定IoU阈值为0.525，则正样本所占比例为24.1％，正负样本分布较为均衡，作为后续检测器的输入；将上一步确定的IoU阈值＝0.525反馈给级联网络训练子单元作为第一阶段检测器D1的正负样本选择条件；继续下一阶段检测器的训练；每训练完一个阶段的检测器得到预测框结果之后即进行上述的交互过程，直至完成所有检测器的训练。

19.根据权利要求12所述的方法，其特征在于，所述监测训练控制过程具体包括：从级联网络参数动态调整单元采集训练信息，包括正在训练的阶段数，该阶段输出IoU的分布情况，该阶段的动态IoU阈值；从模型评估单元采集各个可接受像素差值对应的贴合度；根据采集到的训练信息和评估信息，绘制训练过程曲线，横坐标为阶段数，纵坐标为指定可接受像素差值下的贴合度；将绘制完成的训练过程曲线实时反馈同时提供可视化界面给用户；求解全局最优解，并作出相应训练决策。