CN116152487A

CN116152487A - 一种基于深度IoU网络的目标检测方法、装置、设备及介质

Info

Publication number: CN116152487A
Application number: CN202310403005.8A
Authority: CN
Inventors: 张妮; 吴庆耀; 谭明奎; 胡灏; 李利; 岑俊华; 张木树; 杨正文
Original assignee: Guangdong Guangwu Internet Technology Co ltd
Current assignee: Guangdong Guangwu Internet Technology Co ltd
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-05-23

Abstract

本申请公开了一种基于深度IoU网络的目标检测方法、装置、设备及介质，涉及目标检测领域，包括：对输入图像进行特征提取，并通过预设特征图处理模块进行处理，以得到处理后特征图；对处理后特征图进行预测，以获得相应的特征信息，基于预设交并比预测层生成处理后特征图中若干预测边界框相关的交并比值；基于交并比值以及预获取数据确定深度IoU网络的网络损失，并利用网络损失训练深度IoU网络，以便利用训练后网络输出包含准确边界框的输出图像；对输出图像进行测试，以便对所述输出图像中的准确边界框进行过滤与聚合，得到与输入图像对应的目标图像。这样一来，可以通过引入预设特征图处理模块实现对密集场景中微小对象边界框的精确检测。

Description

一种基于深度IoU网络的目标检测方法、装置、设备及介质

技术领域

本发明涉及目标检测领域，特别涉及一种基于深度IoU网络的目标检测方法、装置、设备及介质。

背景技术

随着深度神经网络可用性的普及，机器视觉目标检测领域取得了显著的进展，深度神经网络结合了丰富的特征表示以及用于预训练代表性模型的大规模数据库。现有技术中，虽然深度检测器的效率很高，但通常需要大量的标记数据才能从每个特定场景中学习。当需要大量注释时，密集场景下的目标检测就会出现问题。首先，场景中的目标数量多，尺寸小，且外形相似，已有的检测器无法从小型对象中提取足够的信息来识别它们。其次，目标之间的位置相近，导致输出的边界框有大量的重叠，且一个边界框中可能包含多个目标，检测效果较差。如何实现对钢筋等微小对象的边界框的精确检测成为了工业应用亟待解决的关键问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度IoU网络的目标检测方法、装置、设备及介质，可以通过引入预设特征图处理模块实现对密集场景中微小对象边界框的精确检测。其具体方案如下：

第一方面，本申请公开了一种基于深度IoU网络的目标检测方法，包括：

通过预设检测器网络对输入图像进行特征提取，并通过所述预设检测器网络中的预设特征图处理模块对经过特征提取得到的多尺度特征图进行处理，以得到包含若干预测边界框的处理后特征图；

对所述处理后特征图进行预测，以获得与所述若干预测边界框对应的特征信息，并基于预设交并比预测层生成所述若干预测边界框相关的交并比值；

基于所述交并比值以及预获取数据确定深度IoU网络的网络损失，并利用所述网络损失训练所述深度IoU网络，以便利用训练后网络输出与所述输入图像对应的包含准确边界框的输出图像；

利用预设聚合层对所述输出图像进行测试，以便对所述输出图像中的所述准确边界框进行过滤与聚合，得到与所述输入图像对应的目标图像。

可选的，所述通过预设检测器网络对输入图像进行特征提取，并通过所述预设检测器网络中的预设特征图处理模块对经过特征提取得到的多尺度特征图进行处理，以得到包含若干预测边界框的处理后特征图，包括：

通过预设检测器网络中的检测头预设若干不同anchor，以便基于所述若干不同anchor对输入图像进行特征提取，以得到多尺度特征图；所述特征提取操作包括卷积操作，池化操作；

将所述多尺度特征图输入至所述预设检测器网络中的预设特征图处理模块，以便通过预设处理规则对所述多尺度特征图进行处理，以得到包含若干预测边界框的处理后特征图。

可选的，所述通过预设处理规则对所述多尺度特征图进行处理，以得到包含若干预测边界框的处理后特征图，包括：

依次利用归一化层、多头注意模块、随机失活层、所述归一化层、前馈神经网络、所述随机失活层对所述多尺度特征图进行处理，以得到包含若干预测边界框的所述处理后特征图。

可选的，所述对所述处理后特征图进行预测，以获得与所述若干预测边界框对应的特征信息，包括：

利用所述检测头为所述预测边界框生成回归输出坐标；所述回归输出坐标包括所述预测边界框的中心坐标与所述边界框的高度与宽度；

通过所述预设检测器网络中的分类头生成网络输出置信度与表示有无检测目标的标签。

可选的，所述基于深度IoU网络的目标检测方法，还可以包括：

获取历史训练数据中的若干真实边界框，并确定标准交叉熵损失以及欧氏距离损失。

可选的，所述基于所述交并比值以及预获取数据确定深度IoU网络的网络损失，包括：

基于所述交并比值、所述网络输出置信度生成目标交叉熵；所述交并比值通过所述若干真实边界框以及所述若干预测边界框确定；

利用所述目标交叉熵、所述标准交叉熵损失以及所述欧氏距离损失确定深度IoU网络的网络损失。

可选的，所述利用预设聚合层对所述输出图像进行测试，以便对所述输出图像中的所述准确边界框进行过滤与聚合，得到与所述输入图像对应的目标图像，包括：

将所述预测边界框转化为混合高斯分布，并对所述准确边界框中发生重叠以及置信度低于预设置信度阈值的边界框进行过滤，以得到若干过滤后边界框；

将所述过滤后边界框转化为过滤后高斯分布，并利用EM算法对所述过滤后高斯分布进行处理，以便所述过滤后高斯分布与所述混合高斯分布之间的相对熵小于预设相对熵阈值，并输出与所述输入图像对应的目标图像。

第二方面，本申请公开了一种基于深度IoU网络的目标检测装置，包括：

图像处理模块，用于通过预设检测器网络对输入图像进行特征提取，并通过所述预设检测器网络中的预设特征图处理模块对经过特征提取得到的多尺度特征图进行处理，以得到包含若干预测边界框的处理后特征图；

参数生成模块，用于对所述处理后特征图进行预测，以获得与所述若干预测边界框对应的特征信息，并基于预设交并比预测层生成所述若干预测边界框相关的交并比值；

图像输出模块，用于基于所述交并比值以及预获取数据确定深度IoU网络的网络损失，并利用所述网络损失训练所述深度IoU网络，以便利用训练后网络输出与所述输入图像对应的包含准确边界框的输出图像；

图像测试模块，用于利用预设聚合层对所述输出图像进行测试，以便对所述输出图像中的所述准确边界框进行过滤与聚合，得到与所述输入图像对应的目标图像。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序以实现如前述的基于深度IoU网络的目标检测方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现如前述的基于深度IoU网络的目标检测方法。

本申请中，首先通过预设检测器网络对输入图像进行特征提取，并通过所述预设检测器网络中的预设特征图处理模块对经过特征提取得到的多尺度特征图进行处理，以得到包含若干预测边界框的处理后特征图，并对所述处理后特征图进行预测，以获得与所述若干预测边界框对应的特征信息，并基于预设交并比预测层生成所述若干预测边界框相关的交并比值，然后基于所述交并比值以及预获取数据确定深度IoU网络的网络损失，并利用所述网络损失训练所述深度IoU网络，以便利用训练后网络输出与所述输入图像对应的包含准确边界框的输出图像，最后利用预设聚合层对所述输出图像进行测试，以便对所述输出图像中的所述准确边界框进行过滤与聚合，得到与所述输入图像对应的目标图像。由此可见，本申请中可以在对输入图像进行特征提取得到多尺度特征图后，再通过预设的特征图处理模块对多尺度特征图进行处理，以便得到包含若干预测边界框的处理后特征图，生成所述若干预测边界框相关的交并比值，基于所述交并比值确定深度IoU网络的网络损失，并利用所述网络损失训练所述深度IoU网络，以便输出包含准确边界框的输出图像，对所述输出图像进行测试，对图像中的边界框进行过滤与聚合，以得到目标图像。这样一来，可以通过引入预设特征图处理模块实现对密集场景中微小对象边界框的精确检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种基于深度IoU网络的目标检测方法流程图；

图2为本申请提供的一种具体的基于深度IoU网络的目标检测方法流程图；

图3为本申请提供的一种改进的SSD检测网络结构图；

图4为本申请提供的一种Transformer encoder结构图；

图5为本申请提供的另一种具体的基于深度IoU网络的目标检测方法流程图；

图6为本申请提供的一种深度IoU网络结构图；

图7为本申请提供的一种基于深度IoU网络的目标检测装置结构示意图；

图8为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，虽然深度检测器的效率很高，但通常需要大量的标记数据才能从每个特定场景中学习。当需要大量注释时，密集场景下的目标检测就会出现问题。首先，场景中的目标数量多，尺寸小，且外形相似，已有的检测器无法从小型对象中提取足够的信息来识别它们。其次，目标之间的位置相近，导致输出的边界框有大量的重叠，且一个边界框中可能包含多个目标，检测效果较差。

为了克服上述技术问题，本申请提供了一种基于深度IoU网络的目标检测方法、装置、设备及介质，可以在对输入图像进行特征提取得到多尺度特征图后，再通过预设的特征图处理模块对多尺度特征图进行处理，得到包含若干预测边界框的处理后特征图，生成所述若干预测边界框相关的交并比值，基于所述交并比值确定深度IoU网络的网络损失，并利用所述网络损失训练所述深度IoU网络，以便输出包含准确边界框的输出图像，对所述输出图像进行测试，对图像中的边界框进行过滤与聚合，以得到目标图像。这样一来，可以通过引入预设特征图处理模块实现对密集场景中微小对象边界框的精确检测。

参见图1所示，本发明实施例公开了一种基于深度IoU网络的目标检测方法，包括：

步骤S11、通过预设检测器网络对输入图像进行特征提取，并通过所述预设检测器网络中的预设特征图处理模块对经过特征提取得到的多尺度特征图进行处理，以得到包含若干预测边界框的处理后特征图。

本实施例中，首先需要通过基于SSD（Single Shot MultiBox Detector）改进的检测器网络对输入图像进行特征提取，以得到基于不同尺度大小的若干张多尺度特征图，并且所述输入图像可以为任意大小的单尺度图像，在本申请中选择包含多个钢筋的钢筋图像。在得到所述若干张多尺度图像后，需要通过预设特征图处理模块对所述多尺度特征图进行处理，也即通过所述预设特征图处理模块中的多头注意模块（multi-head attentionblock）以及前馈神经网络（Multi-Layer Perception，MLP）对所述多尺度特征图进行处理，得到包含若干预测边界框的处理后特征图，并且所述预设特征图处理模块为transformerencoder模块。

步骤S12、对所述处理后特征图进行预测，以获得与所述若干预测边界框对应的特征信息，并基于预设交并比预测层生成所述若干预测边界框相关的交并比值。

本实施例中，需要通过transformer encoder模块中的三个transformer-based全卷积输出头，也即检测头、分类头以及预设交并比预测层（Soft-IoU层）对包含若干预测边界框的处理后特征图进行预测，以便为所述处理后特征图中包含的若干预测边界框生成回归输出、用于预测表示有无检测目标的标签、网络输出的置信度以及与若干预测边界框相关的交并比值。需要进行说明的是，所述与若干预测边界框相关的交并比值（IoU值），也即每个预测边界框与历史数据中最近的真实边界框之间的交并比值。

步骤S13、基于所述交并比值以及预获取数据确定深度IoU网络的网络损失，并利用所述网络损失训练所述深度IoU网络，以便利用训练后网络输出与所述输入图像对应的包含准确边界框的输出图像。

本实施例中，需要基于获取的交并比值、网络输出的置信度、预获取的标准交叉熵损失、欧氏距离损失确定出所述深度IoU网络的网络损失，然后利用得到的所述网络损失对所述深度IoU网络进行训练，以生成精确的边界框位置，标签信息以及IoU值，得到与输入图像对应的包含准确边界框的输出图像。这样一来，通过深度IoU网络中的transformerencoder模块，也即预设特征图处理模块对多尺度特征图进行处理得到网络损失，并利用所述网络损失对所述深度IoU网络进行训练，可以有效提高输出图像中边界框的精度，使输出的图像中的每个边界框都对应一个目标，使对图像中目标的检测更加准确，增强了本申请中所述基于深度IoU网络的目标检测方法的可靠性。

步骤S14、利用预设聚合层对所述输出图像进行测试，以便对所述输出图像中的所述准确边界框进行过滤与聚合，得到与所述输入图像对应的目标图像。

本实施例中，通过改进后SSD检测器对输入图像进行处理，得到包含准确边界框的输出图像后，所述包含准确边界框的输出图像中的每个准确边界框都对应了一个目标，但是图像中的每个目标可能同时对应多个边界框，为了使目标检测更加精确，需要通过EM聚合层对所述包含准确边界框的输出图像进行测试，以便对所述输出图像中的所述准确边界框进行过滤与聚合。首先需要将预测边界框转换为混合高斯分布，并对所述准确边界框中发生重叠以及置信度低于预设置信度阈值的边界框进行过滤，将所述过滤后边界框转化为过滤后高斯分布，并利用EM算法对所述过滤后高斯分布进行处理，使过滤后高斯分布趋近于混合高斯分布，以便所述过滤后高斯分布与所述混合高斯分布之间的相对熵小于预设相对熵阈值，并输出与所述输入图像对应的目标图像。这样一来，可以对输出图像中置信度低边界框进行过滤与聚合，有效提高了本申请中所述基于深度IoU网络的目标检测方法的准确度。

由此可见，本实施例中首先通过预设检测器网络对输入图像进行特征提取，并通过所述预设检测器网络中的预设特征图处理模块对经过特征提取得到的多尺度特征图进行处理，以得到包含若干预测边界框的处理后特征图，并对所述处理后特征图进行预测，以获得与所述若干预测边界框对应的特征信息，并基于预设交并比预测层生成所述若干预测边界框相关的交并比值，然后基于所述交并比值以及预获取数据确定深度IoU网络的网络损失，并利用所述网络损失训练所述深度IoU网络，以便利用训练后网络输出与所述输入图像对应的包含准确边界框的输出图像，最后利用预设聚合层对所述输出图像进行测试，以便对所述输出图像中的所述准确边界框进行过滤与聚合，得到与所述输入图像对应的目标图像。由此可见，本申请中可以在对输入图像进行特征提取得到多尺度特征图后，再通过预设的特征图处理模块对多尺度特征图进行处理，以便得到包含若干预测边界框的处理后特征图，生成所述若干预测边界框相关的交并比值，基于所述交并比值确定深度IoU网络的网络损失，并利用所述网络损失训练所述深度IoU网络，以便输出包含准确边界框的输出图像，对所述输出图像进行测试，对图像中的边界框进行过滤与聚合，以得到目标图像。这样一来，可以通过引入预设特征图处理模块实现对密集场景中微小对象边界框的精确检测。

基于前述实施例可知，本申请中需要利用预设特征图处理模块对进行特征提取后得到的多尺度特征图进行处理与预测，并通过得到的网络损失对深度IoU网络进行训练，以输出包含准确边界框的输出图像，为此本申请对如何利用预设特征图处理模块对多尺度特征图进行处理与预测，以及如何训练深度IoU网络进行训练进行了详细的说明，参见图2所示，本发明实施例公开了一种基于深度IoU网络的目标检测方法，包括：

步骤S21、通过预设检测器网络中的检测头预设若干不同anchor，以便基于所述若干不同anchor对输入图像进行特征提取，以得到多尺度特征图；所述特征提取操作包括卷积操作，池化操作。

本实施例中，如图3所示为本申请中提出的改进的SSD网络，并且以任意大小的单尺度图像作为输入，经过卷积、池化等操作进行特征提取，并且检测头为每个尺度的特征图采用单独预定义的anchor，最后结合所有预设anchor在不同尺度和纵横比下的预测结果，得到多尺度特征图。需要进行说明的是，所述改进的SSD网络为在传统SSD网络的基础上加入transformer encoder模块，也即预设特征图处理模块，能使用多个特征图从逐渐降低的分辨率模拟不同大小的输入图像，同时跨尺度共享计算，并且每个特征图的anchor的尺寸S_k定义公式如下所示：

其中，k∈[1,m]，S_min和S_max的默认值分别为0.2与0.9，其中m=6。且m的值可以根据需求进行自行设定，在本申请中取m的值为6。

步骤S22、将所述多尺度特征图输入至所述预设检测器网络中的预设特征图处理模块，以便通过预设处理规则对所述多尺度特征图进行处理，以得到包含若干预测边界框的处理后特征图。

本实施例中，如图4所示需要将得到的多尺度特征图输入至预设检测器网络，也即改进后的SSD网络中的transformer encoder模块进行处理，依次利用归一化层（LayerNorm层）、多头注意模块（multi-head attention block）、随机失活层（Dropout层）、所述归一化层、前馈神经网络（Multi-Layer Perception，MLP）、所述随机失活层对所述多尺度特征图进行处理，以得到包含若干预测边界框的所述处理后特征图。其中，LayerNorm层和Dropout层能加速网络的收敛，防止网络过拟合。多头注意可以帮助网络当前节点不仅关注当前像素，并且能更好地结合全局信息。

步骤S23、利用所述检测头为所述预测边界框生成回归输出坐标；所述回归输出坐标包括所述预测边界框的中心坐标与所述边界框的高度与宽度。

本实施例中，利用所述检测头为所述预测边界框生成回归输出坐标，也即通过基于边界框位置和大小的检测头，为每个检测对象生成边界框回归输出，所述回归输出表示为4元组（x,y,h,w），其中x和y分别表示边界框中心坐标的横坐标与纵坐标，h和w分别表示边界框的高度和宽度。

步骤S24、通过所述预设检测器网络中的分类头生成网络输出置信度与表示有无检测目标的标签。

本实施例中，通过所述预设检测器网络中的分类头生成网络输出置信度与表示有无检测目标的标签，也即通过改进后的SSD网络中的transformer-based全卷积输出头中的分类头生成用于预测表示有无检测目标的标签c，并且c∈[0,1]，当c=0时表示图像中的边界框中不存在检测目标，当c=1时表示图像中的边界框中存在检测目标，并且生成网络输出的置信度c_i ^iou。需要进行说明的是，基于所述若干预测边界框的IoU值、预获取数据以及所述特征信息确定深度IoU网络的网络损失之前，还包括：获取历史训练数据中的若干真实边界框，并确定标准交叉熵损失以及欧氏距离损失，也即获取历史数据中若干真实边界框，并计算所述若干真实边界框与若干预测边界框之间的IoU值，也即交并比值，并且所述IoU值的计算公式如下所示：

其中，i∈{1，…，N}，N代表预测边界框的数量，

代表预测边界框，/>

代表距离最近的真实边界框，/>

代表/>

与/>

之间的交集，/>

代表/>

与/>

之间的并集。

在确定了所述若干真实边界框与若干预测边界框之间的IoU值，也即交并比值之后，需要确定标准交叉熵损失以及欧氏距离损失，其中标准交叉熵损失L_{classification}与欧氏距离损失L_Regression的与确定公式如下所示：

其中，y代表真实边界框的标签，c代表预测边界框的标签，y∈[0,1]，当y=0时表示边界框中不存在检测目标，当c=1时表示边界框中存在检测目标。

其中，y代表真实边界框的标签，（x_t,y_t,h_t,w_t）中（x_t,y_t,）代表真实边界框中心坐标的横坐标与纵坐标，h_t和w_t分别表示真实边界框的高度和宽度，并且在本申请中取λ₁=5，λ₂=0.5。

步骤S25、基于所述交并比值、所述网络输出置信度生成目标交叉熵。

本实施例中，需要基于所述交并比值IoU_i，所述网络输出置信度c_i ^iou生成目标交叉熵L_sIoU，并且所述目标交叉熵的表达式如下所示：

其中，n为采样的数量。

步骤S26、利用所述目标交叉熵、所述标准交叉熵损失以及所述欧氏距离损失确定深度IoU网络的网络损失。

本实施例中，需要根据得到的目标交叉熵L_sIoU，标准交叉熵损失L_{classification}以及所述欧氏距离损失L_Regression确定出深度IoU网络的网络损失L，并且所述深度IoU网络的网络损失L的表达式如下所示：

步骤S27、利用所述网络损失训练所述深度IoU网络，以便利用训练后网络输出与所述输入图像对应的包含准确边界框的输出图像。

本实施例中，在得到网络损失L后，需要利用所述网络损失对所属深度IoU网络进行训练，并利用训练后的深度IoU网络对输入图像重新进行处理，以得到与输入图像对应的，包括准确边界框的输出图像，需要进行说明的是，所述准确边界框是指每个边界框均对应一个目标对象。

步骤S28、利用预设聚合层对所述输出图像进行测试，以便对所述输出图像中的所述准确边界框进行过滤与聚合，得到与所述输入图像对应的目标图像。

需要进行说明的是，本实施例中关于步骤S28更加详细的描述可以参照前述实施例，在此不再进行赘述。

由此可见，本实施例中首先需要通过预设检测器网络中的检测头预设若干不同anchor，以便基于所述若干不同anchor对输入图像进行特征提取，以得到多尺度特征图，将所述多尺度特征图输入至所述预设检测器网络中的预设特征图处理模块，以便通过预设处理规则对所述多尺度特征图进行处理，以得到包含若干预测边界框的处理后特征图，并利用所述检测头为所述预测边界框生成回归输出坐标，然后通过所述预设检测器网络中的分类头生成网络输出置信度与表示有无检测目标的标签，基于所述交并比值、所述网络输出置信度生成目标交叉熵，利用所述目标交叉熵、所述标准交叉熵损失以及所述欧氏距离损失确定深度IoU网络的网络损失，最后利用所述网络损失训练所述深度IoU网络，以便利用训练后网络输出与所述输入图像对应的包含准确边界框的输出图像。这样一来，可以通过预设特征图处理模块，也即transformer encoder模块基于所述多尺度特征图生成相应的网络损失，并利用所述网络损失对深度IoU网络进行训练，以便通过训练后网络输出包含准确边界框的输出图像，可以使本申请中所述基于深度IoU网络的目标检测方法更加准确。

基于前述实施例可知，再通过训练后深度IoU网络输出包含准确边界框的输出图像之后，需要利用EM聚合层对所述输出图像进行测试，为此本实施例对如何利用EM聚合层对所述输出图像进行测试进行了详细的说明。参见图5所示，本发明实施例公开了一种基于深度IoU网络的目标检测方法，包括：

步骤S31、通过预设检测器网络对输入图像进行特征提取，并通过所述预设检测器网络中的预设特征图处理模块对经过特征提取得到的多尺度特征图进行处理，以得到包含若干预测边界框的处理后特征图。

步骤S32、对所述处理后特征图进行预测，以获得与所述若干预测边界框对应的特征信息，并基于预设交并比预测层生成所述若干预测边界框相关的交并比值。

步骤S33、基于所述交并比值以及预获取数据确定深度IoU网络的网络损失，并利用所述网络损失训练所述深度IoU网络，以便利用训练后网络输出与所述输入图像对应的包含准确边界框的输出图像。

步骤S34、将所述预测边界框转化为混合高斯分布，并对所述准确边界框中发生重叠以及置信度低于预设置信度阈值的边界框进行过滤，以得到若干过滤后边界框。

本实施例中，如图6所示，为深度IoU网络的网络结构，并且在得到包含准确边界框的输出图像后，需要利用EM聚合层对所述输出图像进行处理，并且具体实施过程如下：需要将预测边界框转化为高斯分布f，并且高斯分布如下所示：

其中，p为二维图像的坐标，高斯分布的均值用预测框的中心点表示，即前述实施例中确定的4元组（x,y,h,w）中的（x,y）由于预测框有多个，因此预测框的中心点表示为（x_i,y_i），对角协方差用预测边界框的长和宽表示，即Σ_i=[(h_i/4)²,0; (w_i/4)²]。

对于所有预测边界框的分布使用混合高斯分布表示，即：

其中，权重α_i代表IoU的占比。将预测边界框转化为混合高斯分布后，需要对准确边界框中发生重叠以及置信度低于预设置信度阈值的边界框进行过滤以得到过滤后边界框。

步骤S35、将所述过滤后边界框转化为过滤后高斯分布，并利用EM算法对所述过滤后高斯分布进行处理，以便所述过滤后高斯分布与所述混合高斯分布之间的相对熵小于预设相对熵阈值，并输出与所述输入图像对应的目标图像。

本实施例中，需要将所述过滤后边界框转化为过滤后高斯分布g，且所述过滤后高斯分布g的表达式如下所示：

其中，K＜＜N，N为混合高斯分布中i的取值范围，β_j的表达式如下所示：

使用相对熵，也即KL散度衡量混合高斯分布与过滤后高斯分布间的差距，并且KL散度的表达式如下所示：

在得到混合高斯分布与过滤后高斯分布间的KL散度之后，基于EM算法与所述KL散度使过滤后高斯分布趋近于混合高斯分布，首先根据过滤后高斯分布与KL散度将混合高斯分布分为K类，其表达式如下所示：

分类完成后，更新EM算法中的模型参数，直到KL散度收敛到小于预设相对熵阈值，其中

且

，也即前述实施例中的每个预测框的中心点坐标，/>

为EM算法中的一项模型参数，当/>

发生变化时，/>

也产生相应的变化，并根据产生的变化对模型进行更新，直到KL散度收敛到小于预设相对熵阈值。/>

当KL散度，也即相对熵收敛到小于预设相对熵阈值后，利用已经更新过参数的EM算法重新对输出图像进行处理，以得到目标图像，此时得到的目标图中不存在重叠以及不准确的边界框。

需要进行说明的是，本实施例中关于步骤S31、步骤S32、步骤S33更加详细的说法可以参考前述实施例，在此不再进行赘述。

由此可见，本实施例中在得到包含准确边界框的输出图像后，需要将所述预测边界框转化为混合高斯分布，并对所述准确边界框中发生重叠以及置信度低于预设置信度阈值的边界框进行过滤，以得到若干过滤后边界框，然后将所述过滤后边界框转化为过滤后高斯分布，并利用EM算法对所述过滤后高斯分布进行处理，以便所述过滤后高斯分布与所述混合高斯分布之间的相对熵小于预设相对熵阈值，并输出与所述输入图像对应的目标图像。这样一来，可以通过EM算法过滤置信度低但与其他边界框交叠率较高的边界框，实现对每个目标的单一检测。

参见图7所示，本发明实施例公开了一种基于深度IoU网络的目标检测装置，包括：

图像处理模块11，用于通过预设检测器网络对输入图像进行特征提取，并通过所述预设检测器网络中的预设特征图处理模块对经过特征提取得到的多尺度特征图进行处理，以得到包含若干预测边界框的处理后特征图；

参数生成模块12，用于对所述处理后特征图进行预测，以获得与所述若干预测边界框对应的特征信息，并基于预设交并比预测层生成所述若干预测边界框相关的交并比值；

图像输出模块13，用于基于所述交并比值以及预获取数据确定深度IoU网络的网络损失，并利用所述网络损失训练所述深度IoU网络，以便利用训练后网络输出与所述输入图像对应的包含准确边界框的输出图像；

图像测试模块14，用于利用预设聚合层对所述输出图像进行测试，以便对所述输出图像中的所述准确边界框进行过滤与聚合，得到与所述输入图像对应的目标图像。

在一些实施例中，所述图像处理模块11，具体可以包括：

特征提取子模块，用于通过预设检测器网络中的检测头预设若干不同anchor，以便基于所述若干不同anchor对输入图像进行特征提取，以得到多尺度特征图；所述特征提取操作包括卷积操作，池化操作；

图像处理子模块，用于将所述多尺度特征图输入至所述预设检测器网络中的预设特征图处理模块，以便通过预设处理规则对所述多尺度特征图进行处理，以得到包含若干预测边界框的处理后特征图。

在一些实施例中，所述图像处理子模块，具体可以包括：

图像处理单元，用于依次利用归一化层、多头注意模块、随机失活层、所述归一化层、前馈神经网络、所述随机失活层对所述多尺度特征图进行处理，以得到包含若干预测边界框的所述处理后特征图。

在一些实施例中，所述参数生成模块12，具体可以包括：

第一参数生成单元，用于利用所述检测头为所述预测边界框生成回归输出坐标；所述回归输出坐标包括所述预测边界框的中心坐标与所述边界框的高度与宽度；

第二参数生成单元，用于通过所述预设检测器网络中的分类头生成网络输出置信度与表示有无检测目标的标签。

在一些实施例中，所述基于深度IoU网络的目标检测装置，还可以包括：

参数确定模块，用于获取历史训练数据中的若干真实边界框，并确定标准交叉熵损失以及欧氏距离损失。

在一些实施例中，所述图像输出模块13，具体可以包括：

交叉熵确定单元，用于基于所述交并比值、所述网络输出置信度生成目标交叉熵；所述交并比值通过所述若干真实边界框以及所述若干预测边界框确定；

网络损失确定单元，用于利用所述目标交叉熵、所述标准交叉熵损失以及所述欧氏距离损失确定深度IoU网络的网络损失。

在一些实施例中，所述图像测试模块14，具体可以包括：

边界框过滤单元，用于将所述预测边界框转化为混合高斯分布，并对所述准确边界框中发生重叠以及置信度低于预设置信度阈值的边界框进行过滤，以得到若干过滤后边界框；

图像聚合单元，用于将所述过滤后边界框转化为过滤后高斯分布，并利用EM算法对所述过滤后高斯分布进行处理，以便所述过滤后高斯分布与所述混合高斯分布之间的相对熵小于预设相对熵阈值，并输出与所述输入图像对应的目标图像。

进一步的，本申请实施例还公开了一种电子设备，图8是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图8为本申请实施例提供的一种电子设备20的结构示意图。该电子设备 20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的基于深度IoU网络的目标检测方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222 等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的基于深度IoU网络的目标检测方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的基于深度IoU网络的目标检测方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于深度IoU网络的目标检测方法，其特征在于，包括：

2.根据权利要求1所述的基于深度IoU网络的目标检测方法，其特征在于，所述通过预设检测器网络对输入图像进行特征提取，并通过所述预设检测器网络中的预设特征图处理模块对经过特征提取得到的多尺度特征图进行处理，以得到包含若干预测边界框的处理后特征图，包括：

3.根据权利要求2所述的基于深度IoU网络的目标检测方法，其特征在于，所述通过预设处理规则对所述多尺度特征图进行处理，以得到包含若干预测边界框的处理后特征图，包括：

4.根据权利要求2所述的基于深度IoU网络的目标检测方法，其特征在于，所述对所述处理后特征图进行预测，以获得与所述若干预测边界框对应的特征信息，包括：

5.根据权利要求4所述的基于深度IoU网络的目标检测方法，其特征在于，还包括：

6.根据权利要求5所述的基于深度IoU网络的目标检测方法，其特征在于，所述基于所述交并比值以及预获取数据确定深度IoU网络的网络损失，包括：

7.根据权利要求1至6任一项所述的基于深度IoU网络的目标检测方法，其特征在于，所述利用预设聚合层对所述输出图像进行测试，以便对所述输出图像中的所述准确边界框进行过滤与聚合，得到与所述输入图像对应的目标图像，包括：

8.一种基于深度IoU网络的目标检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至7任一项所述的基于深度IoU网络的目标检测方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于深度IoU网络的目标检测方法。