CN116993969A

CN116993969A - 一种标签四点检测模型构建方法和装置

Info

Publication number: CN116993969A
Application number: CN202310958596.5A
Authority: CN
Inventors: 谈震; 刘兆峰; 舒依娜; 杨兴旺; 孙宝贵; 徐希涛; 齐云鹏; 魏自强; 吴奇; 熊永平
Original assignee: Nanjing Nari Water Conservancy And Hydropower Technology Co ltd
Current assignee: Nanjing Nari Water Conservancy And Hydropower Technology Co ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-11-03

Abstract

本发明公开了一种标签四点检测模型构建方法和装置，所述方法包括：获取标签图像的训练数据集，对其进行数据增强并标注正确的目标检测框；构建初始网络模型，该模型包括主干网络、位置子网络和分类子网络；通过主干网络提取并生成相应图像样本的多层特征图；再通过分类子网络和位置子网络生成每个目标的初始类别和位置；将多层特征图中每个目标的预测框映射回原图，计算得到多个经过还原的真实坐标的预测框，采用预设方法筛选得到最优的预测框的类别及位置；采用训练数据集训练初始网络模型，构建损失函数，以得到标签四点检测模型。本发明能够有效检测不规则四边形目标，精确输出不规则四边形的四个角点坐标。

Description

一种标签四点检测模型构建方法和装置

技术领域

本发明涉及目标检测技术，具体涉及一种标签四点检测模型构建方法和装置。

背景技术

随着人工智能以及深度学习的快速发展，目标检测等计算机视觉的技术已经广泛的应用到了各行各业并且发挥了重要作用。其中，以FoveaBox、FCOS为代表的anchor-free目标检测技术，改变了绝大多数目标检测算法都要使用anchor box的现状，大大降低了模型的复杂度，并且减少了模型的输出。

具体的，相较于anchor-based方法，anchor-free方法最大的优势在于高效的检测速度和模型效率，因为该方法不需要预先设计anchor，只需要对不同尺度的特征图中的目标中心点、高和宽进行回归即可，这显著地减少了模型的耗时和计算成本。

然而，现有anchor-free方法整体的检测精度并不能达到anchor-based方法研究任务中最好模型的检测精度。并且对于不规则四边形的标签检测也存在着较大的问题，示例性的，存在检测不精准、无法准确识别目标标签的四点角点等问题。而目前通用的检测算法基本上都是回归边界框，但结合工程经验来看，边界框的定位不如采用角点定位的形式精度高。

发明内容

发明目的：本发明的一个目的在于提供一种标签四点检测模型构建方法，能够解决现有基于anchor-free目标检测方法所存在的检测效果差、精度低、效率低以及无法准确识别目标标签四点角点的问题。

本发明的另一目的在于提供一种标签四点检测模型构建装置。

技术方案：本发明的标签四点检测模型构建方法，该方法包括以下步骤：

获取训练数据集，并对所述训练数据集进行数据增强操作；所述训练数据集包括多个样本，每个样本中包含有标签图像；为每个样本的标签图像标注正确的目标检测框；

将所述训练数据集的各样本依次输入至预先构建标签四点检测模型的初始网络模型，初始网络模型包括主干网络、位置子网络和分类子网络；通过所述主干网络提取并生成相应样本的多层特征图，将多层特征图输入位置子网络生成多层特征图中每个目标的目标预测框和以及获取多层特征图中每个目标的初始位置信息，将多层特征图输入分类子网络以得到多层特征图中每个目标的初始类别信息；将多层特征图中每个目标的目标预测框映射回原图，计算得到多个经过还原的真实坐标的预测框，并采用预设方法从多个目标预测框中筛选得到最优预测框以及最优预测框的位置信息和类别信息；以及

采用所述训练数据集训练初始网络模型，基于所述目标检测框和预设缩放因子构建正负样本，用于在训练过程中计算损失，并利用不同的损失函数对位置子网络和分类子网络进行训练，最终得到满足预设性能的标签四点检测模型。

进一步的，所述主干网络采用特征金字塔网络，特征金字塔网络包括自顶向下的通路和横向连接，其中，自顶向下的通路为ResNet网络；所述特征金字塔网络的金字塔层级从浅层到深层，每个层次对输入的样本图像进行降采样。

进一步的，所述将多层特征图中每个目标的目标预测框映射回原图，计算得到多个经过还原的真实坐标的预测框，包括：

将多层特征图中每个目标的目标预测框映射回原图，利用Smooth L1损失函数计算投影坐标与真实图像的归一化偏移，得到多个经过还原的真实坐标的预测框。

进一步的，所述对所述训练数据集进行数据增强操作，其中，数据增强操作至少包括透视变换操作和随机缩放操作。

进一步的，所述基于所述目标检测框和预设缩放因子构建正负样本，包括：

将相应样本的目标检测框映射到目标所在的层级特征图中，计算中心点坐标，计算式为：

c^’ _x＝x^’ ₁+0.5(x^’ ₂-x^’ ₁),c^’ _y＝y₁ ^’+0.5(y^’ ₂-y₁ ^’)；

其中，(x₁,y₁)和(x₂,y₂)为目标检测框左上和右下的坐标；(x^’ ₁,y₁ ^’)和(x^’ ₂,y₂ ^’)为映射后目标检测框的左上和右下的坐标；(c^’ _x,c^’ _y)为映射后目标检测框的中心点坐标；2^l表示步长。

进一步的，所述基于所述目标检测框和预设缩放因子构建正负样本，还包括：

根据所述目标检测框内各正样本与所述中心点坐标的距离为各正样本分配权重，并引入具有旋转、放缩特性的一般化归一化二维高斯分布，计算式为：

其中，X表示正样本的坐标；u表示中心关键点的坐标；(·)^T表示转置。

进一步的，所述采用预设方法从多个经过还原的真实坐标的预测框中筛选得到最优预测框以及最优预测框的位置信息和类别信息，其中，预设方法采用非极大值抑制方法。

进一步的，所述初始网络模型采用基于高斯策略的样本分布与置信度预测。

进一步的，所述将多层特征图输入分类子网络以得到多层特征图中每个目标的初始类别信息，包括：

将所述多层特征图输入分类子网络进行逐像素分类，预测对应样本的置信度，以得到每个目标的初始类别信息和初始位置信息。

本发明的另一实施例中，一种标签四点检测模型构建装置，包括

数据获取模块，用于获取训练数据集，并对所述训练数据集进行数据增强操作；

模型构建模块，用于构建标签四点检测模型的初始网络模型，用于将所述训练数据集的各样本依次输入至预先构建标签四点检测模型的初始网络模型，初始网络模型包括主干网络、位置子网络和分类子网络；用于通过所述主干网络提取并生成相应样本的多层特征图，将多层特征图输入位置子网络生成多层特征图中每个目标的目标预测框和多层特征图中每个目标的初始位置信息，将多层特征图输入分类子网络以得到多层特征图中每个目标的初始类别信息；还用于将多层特征图中每个目标的目标预测框映射回原图，计算得到多个经过还原的真实坐标的预测框，并采用预设方法从多个经过还原的真实坐标的预测框中筛选得到最优预测框以及最优预测框的位置信息和类别信息；

模型训练模块，用于采用所述训练数据集训练初始网络模型，用于基于所述目标检测框和预设缩放因子构建正负样本，并利用不同的损失函数对位置子网络和分类子网络进行训练，最终得到满足预设性能的标签四点检测模型。

有益效果：本发明的技术方案与现有技术相比，其有益效果在于：

(1)本发明的标签四点检测模型训练简易，能够有效检测不规则四边形目标并精确输出不规则四边形的四个角点的坐标，检测速度快、准确度高且实用性强；

(2)对训练数据集进行数据增强，能够提升数据集质量，以提升模型的泛化能力；

(3)主干网络采用特征金字塔网络，融合浅层到深层的特征图，以充分利用各个层次的特征。

附图说明

图1为本发明方法流程图；

图2为本发明实施例中初始网络模型结构示意图；

图3为本发明实施例中基于高斯分布的样本分配示意图；

图4为本发明实施例中特征金字塔结构图。

具体实施方式

下面结合具体实施方式和说明书附图对本发明的技术方案进行详细介绍。

如图1所示，本发明的标签四点检测模型构建方法，包括以下步骤：

步骤S101：获取训练数据集，并对训练数据集进行数据增强操作。其中，训练数据集包括多个样本，每个样本中包含一张标签图像；为每个样本的标签图像标注正确的目标检测框。

在此步骤中，获取训练数据集时，可以利用照相机拍摄收集标签图像。具体的，采用预设远程控制系统控制照相机进行旋转，并分时采集标签图像，以得到包含不同特征的样本数据，构建训练数据集。

在一些实施例中，基于采集到的标签图像，首先构建整体数据集，按照预设比例将整体数据集分为训练集和测试集，训练集用于训练初始网络模型，测试集用于测试训练得到的标签四点检测模型，以评估其性能。示例性的，预设比例为7:3。

在此步骤中，对训练数据集进行数据增强操作，提升样本质量，以提升模型的泛化能力以及鲁棒性，其中，数据增强操作至少包括透视变换操作和随机缩放操作。

步骤S102：如图2所示，构建标签四点检测模型的初始网络模型。该初始网络模型包括主干网络、位置子网络和分类子网络。将训练数据集的各样本依次输入至预先构建标签四点检测模型的初始网络模型，通过主干网络提取并生成相应样本的多层特征图；将多层特征图输入位置子网络，生成多层特征图中每个目标的目标预测框并获取多层特征图中每个目标的初始位置信息；将多层特征图输入分类子网络，以得到多层特征图中每个目标的初始类别信息。再将多层特征图中每个目标的目标预测框映射回原图，计算得到多个经过还原的真实坐标的预测框，并采用预设方法从多个经过还原的真实坐标的预测框中筛选得到最优预测框以及最优预测框的位置信息和类别信息。

在此步骤中，将训练数据集的各样本依次输入至预先构建标签四点检测模型的初始网络模型之前，需要设定初始网络模型的初始参数。

在此步骤中，将多层特征图输入分类子网络以得到多层特征图中每个目标的初始类别信息，包括：将多层特征图输入分类子网络进行逐像素分类，预测对应样本的置信度，以得到多层特征图中每个目标的初始类别信息。

在此步骤中，将多层特征图中每个目标的目标预测框映射回原图，计算得到多个经过还原的真实坐标的预测框，包括：将多层特征图中每个目标的目标预测框映射回原图，利用Smooth L1损失函数计算投影坐标与真实图像的归一化偏移，得到多个经过还原的真实坐标的预测框。

在此步骤中，采用预设方法从多个经过还原的真实坐标的预测框中筛选得到最优预测框以及最优预测框的位置信息和类别信息，其中，预设方法采用非极大值抑制方法。位置信息包括目标预测框左上、右上、左下、右下四点的坐标。

在此步骤中，初始网络模型采用基于高斯策略的样本分布与置信度预测，具体来说，将初始的样本分布改为基于高斯策略的样本分布，同理，置信度预测也基于高斯策略。设计网络结构，调整模型输出通道数，输出通道数为12(4+8)的预测特征图，其中，4通道为四个角点的预测高斯得分，8通道为四个角点的坐标，以得到目标标签的分类以及其左上、右上、左下、右下四个角点的坐标信息。如图3所示，为基于高斯分布的样本分配示意图，展示了目标检测框可视化的效果以及四角点形成的最小外接四边形。

本发明在构建初始神经网络模型时，引入高斯策略的样本分布，可以很好的体现空间分布信息，并且能够更加精准的识别目标图像。

本发明构建的初始网络模型，相对于现有的基于anchor-free目标检测算法，在训练和测试阶段都不要靠默认的anchor设置，使得模型对于边界框(bounding box)的分布更具有鲁棒性。初始网络模型包括一个主干网络和两个任务不同的子网络，分为别位置子网络和分类子网络。其中，主干网络主要负责从输入的样本图像中计算得到多层特征图，在本发明中，主干网络采用现有的网络进行实现；位置子网络用于根据计算得到的多层特征图在相应的位置上进行bounding box的预测；分类子网络用于在计算得到的多层特征图上进行逐像素分类。

在此步骤中，初始网络模型采用特征金字塔网络(Feature Pyramid Network，FPN)作为主干网络。在卷积网络中，随着网络深度的增加，特征图的尺寸越来越小，语义信息也越来越抽象。浅层特征图的语义信息较少，目标位置相对比较准确，深层特征图的语义信息比较丰富，目标位置则比较粗略，导致小物体容易检测不到。特征金字塔网络融合了浅层到深层的特征图，可以充分利用各个层次的特征。

在此步骤中，主干网络采用特征金字塔网络，特征金字塔网络包括自顶向下的通路和横向连接，其中，自顶向下的通路为ResNet网络；对于一个单一尺度的输入图像，特征金字塔网络通过自顶向下处理特征图和横向连接构建了一个特征金字塔，可以实现对不同尺度的目标进行检测。示例性的，如图4所示，本发明特征金字塔网络构建的特征金字塔层级是从P₃到P₇，每个层次P₁对输入的样本图像进行降采样，示例性的，每个层次对输入的样本图像做1/2的降采样。所有层级的通道数均为C＝256。

步骤S103：采用训练数据集训练初始网络模型，基于目标检测框和预设缩放因子构建正负样本，并利用不同的损失函数对位置子网络和分类子网络进行训练，最终得到满足预设性能的标签四点检测模型。本方案中，构建Focal Loss损失函数训练分类子网络，构建Smooth L1损失函数训练位置子网络。

在现有的anchor-based的检测器中，经常会出现位置定义模糊问题。具体来说，通过主干网络得到的多层特征图的每个位置上都有多个anchor，其中，有的是正样本，有的是负样本，导致分类器在工作时不仅需要区分不同位置的样本，还要区分同一位置上的正负样本，因此出现位置定义模糊的问题。在本发明中，初始神经网络模型的分类子网络中，在每个位置明确地预测一个分类结果，很好避免了anchor中的模糊问题。

同时考虑到如果直接将样本标注的正确的目标检测框(Ground Truth box，GTbox)内的样本作为正样本，其中存在一些在目标检测框附近的点是远离目标中心的，甚至与背景像素更为接近，如果将这些点也作为正样本，则会对模型的训练造成困难；但若直接将其作为负样本，则又仍会出现上述的模糊问题。

本发明考虑到上述问题，所以在计算正负样本的时候，不需要像anchor那样计算IOU，可以直接将目标检测框GT box映射到对应层级的特征图上，以此确定正负样本，并增加正负样本之间的判别度。具体如下：

基于目标检测框和预设缩放因子构建正负样本，包括：

假设任一目标检测框GT box为(x₁,t₁,x₂,t₂)，其中，(x₁,t₁)和(x₂,t₂)分别表示目标检测框左上和右下的坐标。将相应样本的目标检测框用步长2^l映射到目标所在的层级特征图中，计算得到映射后的左上、右下和中心点坐标，计算式如公式(1)至公式(3)所示：

c’_x＝x’₁+0.5(x’₂-x’₁),c’_y＝y’₁+0.5(y’₂-t’₁ (3)

其中，(x₁,y₁)和(x₂,y₂)为目标检测框左上和右下的坐标；(x’₁,y’₁)和(x’₂,y’₂)为映射后目标检测框的左上和右下的坐标；(c’_x,c’_y)为映射后目标检测框的中心点坐标；2^l表示步长。

同时，根据前文所述，GT box内的点并不均是正样本，部分点是远离目标中心的，由此引入缩放因子，根据缩放因子动态设置正样本范围，计算式如公式(4)和公式(5)所示：

x”₁＝c’_x-0.5(x’₂-x’₁)σ₁y”₁＝c’_y-0.5(y’₂-y’₁)σ₁ (4)

x”₂＝c’_x+0.5(x’₂-x’₁)σ₁,y”₂＝c’_y+0.5(y’₂-y’₁)σ₁ (5)

其中，(x”₁,y”₁)和(x”₂,y”₂)分别表示经过缩放因子调节后的正样本范围的左上和右下的坐标。

对于负样本而言，采用另一个缩放因子σ₂根据上式再次调节映射后的GT box的宽和高，使其向外扩展一点，将扩展到GT box边框外部的点做为负样本。

通过缩放因子σ₁和σ₂缩放后的两个边框之间的点，将会在训练时被忽略掉。示例性的，σ₁＝0.3，σ₂＝0.4，则位于0.3～0.4之间的区域就不参与训练。

在实施时，考虑到正样本只占整个特征图的一小部分，仍存在正负样本不均的情况，本发明在训练分类子网络时构建Focal Loss损失函数进行优化，处理正负样本之间的不均衡。

标签的四个角点信息构成了一个四边形，往往会带有一些旋转、错切等特性，因此直接选择目标检测框GT box内部的关键点作为正样本，不能很好地体现出空间分布信息。此外，将GT box内部的点全部作为等价的正样本，也并不准确。由此，本发明引入权重思想，认为越中心的关键点越能获得更加全面的特征信息，所以中心处的关键点的权重相比于边缘处的点的权重应当更大。因此，为契合任意四边形的形状，按分布配权的思想，引入了具有旋转、放缩特性的一般化的归一化二维高斯分布，具体如下：

根据目标检测框内各正样本与中心点坐标的距离为各正样本分配权重，并引入具有旋转、放缩特性的一般化归一化二维高斯分布，计算式为：

初始神经网络模型的位置子网络中，在坐标预测上主要是通过学习Transformation函数来进行坐标的变换，在训练中，将特征图上选为正样本的坐标先变换到原图上的坐标，再得到该坐标与其所属物体样本的GT box边框的偏移量。在本发明中，从原本的预测边框只有左上和右下两个角点，增加到四个角点，并采用Smooth L1损失函数作为计算坐标的损失函数，坐标的计算式如公式(7)至公式(10)所示：

其中，分别表示模型输出的预测框的左上、右上、左下、右下四点的坐标；(x₁,y₁)、(x₂,y₂)、(x₃,y₃)、(x₄,y₄)分别表示目标检测框的左上、右上、左下、右下四点的坐标；(x,y)表示正样本的坐标；2^l表示步长；z为归一化因子，将输出空间投影到以1为中心的空间。

同时，本发明在构建初始神经网络模型时，引入高斯策略的样本分布，可以很好的体现空间分布信息，并且能够更加精准的识别目标图像。

根据实验数据表明，基于本发明提供的标签四点检测模型可以实现对不规则四边形目标标签的检测，例如物料标签、车牌等；可以同时对多个标签图像进行检测，且检测准确率达到90％以上。

综上所述，本发明所述的标签四点检测模型构建方法，收集标签图像，构建用于模型训练的训练数据集；对训练数据集进行数据增强，提升数据集质量，以提升模型的泛化能力，为训练数据集中每个样本标注正确的目标检测框；构建初始网络模型，该模型包括主干网络、位置子网络和分类子网络，其中，主干网络采用特征金字塔网络；引入高斯策略的样本分布，并设计网络结构，使得模型最终输出通道数为12的预测特征图，其中4通道为四个角点的预测高斯得分，8通道为四个角点的坐标；主干网络采用特征金字塔网络融合浅层到深层的特征图，以充分利用各个层次的特征。将图像样本输入初始网络模型，通过主干网络提取并生成相应图像样本的多层特征图；再通过分类子网络和位置子网络生成每个目标的初始类别和位置；将多层特征图中每个目标的预测框映射回原图，利用Smooth L1损失函数计算坐标损失，得到多个目标预测框，采用非极大值抑制方法筛选得到最优的目标预测框的类别及位置。采用训练数据集训练初始网络模型，构建损失函数，最终得到标签四点检测模型。本发明提供的标签四点检测模型训练简易，能够有效检测不规则四边形目标并精确输出不规则四边形的四个角点的坐标，检测速度快、准确度高且实用性强。

本发明还包括一种标签四点检测模型构建装置，该装置可以构建标签四点检测模型，具体包括：

Claims

1.一种标签四点检测模型构建方法，其特征在于，该方法包括以下步骤：

将所述训练数据集的各样本依次输入至预先构建标签四点检测模型的初始网络模型，初始网络模型包括主干网络、位置子网络和分类子网络；通过所述主干网络提取并生成相应样本的多层特征图，将多层特征图输入位置子网络生成多层特征图中每个目标的目标预测框以及获取多层特征图中每个目标的初始位置信息，将多层特征图输入分类子网络以得到多层特征图中每个目标的初始类别信息；将多层特征图中每个目标的目标预测框映射回原图，计算得到多个经过还原的真实坐标的预测框，并采用预设方法从多个经过还原的真实坐标的预测框中筛选得到最优预测框以及最优预测框的位置信息和类别信息；以及

2.根据权利要求1所述的标签四点检测模型构建方法，其特征在于：所述主干网络采用特征金字塔网络，特征金字塔网络包括自顶向下的通路和横向连接，其中，自顶向下的通路为ResNet网络；所述特征金字塔网络的金字塔层级从浅层到深层，每个层次对输入的样本图像进行降采样。

3.根据权利要求1所述的标签四点检测模型构建方法，其特征在于，所述将多层特征图中每个目标的目标预测框映射回原图，计算得到多个经过还原的真实坐标的预测框，包括：

4.根据权利要求1所述的标签四点检测模型构建方法，其特征在于：所述对所述训练数据集进行数据增强操作，其中，数据增强操作至少包括透视变换操作和随机缩放操作。

5.根据权利要求1所述的标签四点检测模型构建方法，其特征在于，所述基于所述目标检测框和预设缩放因子构建正负样本，包括：

c’_x＝x’₁+0.5(x’₂-x’₁),c’_y＝y’₁+0.5(y’₂-y’₁)；

6.根据权利要求1所述的标签四点检测模型构建方法，其特征在于：所述基于所述目标检测框和预设缩放因子构建正负样本，还包括：

7.根据权利要求1所述的标签四点检测模型构建方法，其特征在于：所述采用预设方法从多个经过还原的真实坐标的预测框中筛选得到最优预测框以及最优预测框的位置信息和类别信息，其中，预设方法采用非极大值抑制方法。

8.根据权利要求1所述的标签四点检测模型构建方法，其特征在于：所述初始网络模型采用基于高斯策略的样本分布与置信度预测。

9.根据权利要求1所述的标签四点检测模型构建方法，其特征在于，所述将多层特征图输入分类子网络以得到多层特征图中每个目标的初始类别信息，包括：

将所述多层特征图输入分类子网络进行逐像素分类，预测对应样本的置信度，以得到多层特征图中每个目标的初始类别信息。

10.一种标签四点检测模型构建装置，其特征在于：包括

模型构建模块，用于构建标签四点检测模型的初始网络模型；用于将所述训练数据集的各样本依次输入至预先构建标签四点检测模型的初始网络模型，初始网络模型包括主干网络、位置子网络和分类子网络；用于通过所述主干网络提取并生成相应样本的多层特征图，将多层特征图输入位置子网络生成多层特征图中每个目标的目标预测框和多层特征图中每个目标的初始位置信息，将多层特征图输入分类子网络以得到多层特征图中每个目标的初始类别信息；还用于将多层特征图中每个目标的目标预测框映射回原图，计算得到多个经过还原的真实坐标的预测框，并采用预设方法从多个经过还原的真实坐标的预测框中筛选得到最优目标预测框以及最优目标预测框的位置信息和类别信息；