CN115330759A

CN115330759A - 一种基于豪斯多夫距离计算距离损失的方法及装置

Info

Publication number: CN115330759A
Application number: CN202211243593.5A
Authority: CN
Inventors: 张晓武; 陈斌; 李伟; 徐朝彬
Original assignee: Zhejiang Linyan Precision Technology Co ltd
Current assignee: Zhejiang Linyan Precision Technology Co ltd
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2022-11-11
Anticipated expiration: 2042-10-12
Also published as: CN115330759B

Abstract

本发明涉及豪斯多夫距离技术领域，公开了一种基于豪斯多夫距离计算距离损失的方法，包括：构建基于豪斯多夫距离的网络模型，网络模型包括从前到后依次连接的基于通道注意力模块的ShuffleNetV2网络、RepBlockv2模块和基于豪斯多夫距离设计的无锚点检测头网络；将待测工业产品的数据集和训练集输入到基于通道注意力模块的ShuffleNetV2网络获取不同尺寸的提取特征图；将提取特征图输入到RepBlockv2模块，使用多分支结构配合深度可分离卷积和残差连接，进行多级预测获取融合特征图；训练后的基于豪斯多夫距离的网络模型检测待测工业产品。本发明设计豪斯多夫距离损失函数，解决了目标检测中常用损失函数与评测指标不一致的问题，并且使得预测检测框的坐标回归范围的边界更加准确和平滑。

Description

一种基于豪斯多夫距离计算距离损失的方法及装置

技术领域

本发明涉及豪斯多夫距离技术领域，具体地说，是一种基于豪斯多夫距离计算距离损失的方法及装置。

背景技术

工业产品在生产过程中，由于产品表面会受到药粉等不可控的脏污，从而导致对产品检测出现误检的情况，因此能够正确检测产品，既可以保证工业产品的质量，也能大幅度提高生产效率。工业产品检测方法主要分为传统方法和人工智能方法。传统方法也分两种，一种完全由人眼检测，这种方法检测结果不稳定，检测人员的主观因素占比很大，而且随着产品产量的增加，检测人员会出现视觉疲劳，造成大量误检；另外一种是对工业产品提取手工特征进行分类，是一种应用传统图像处理衍生的技术，但是一些产品上面的文字或图案，由于模具不一致以及图像模糊等原因，使用传统的图像匹配算法容易出错，造成误检。人工智能方法是指使用基于深度学习的方法进行检测，通过深度神经网络模型对采集的工业产品图像数据进行分析，定位出检测目标，在数据量较大且复杂的情况下，也能通过加深加宽网络模型，提高模型的特征表达能力，从而精准检测产品，得到了令人满意的检测效果。基于深度学习的检测技术主要分为两阶段算法和单阶段算法，两阶段算法中代表算法有Fater R-CNN、MTCNN等，这类基于Anchor-Based算法主要将检测过程分成生成候选区域和基于候选区域检测分类，具有高精度的优势。而单阶段代表算法有YOLOV3、SSD等，这类算法基于Anchor-Free，没有候选区域部分的计算，直接在特征图上定位分类，具有较高的实时性。

目前的工业产品检测，为了能够得到精度较高的模型，模型结构比较复杂，如专利号CN202210386933.3 一种基于无锚框算法的轻量化文字检测方法及装置中所述的ShuffleNetV2中包含了通道随机混合操作模块，该模块起到了通道间的信息交换作用，但是会出现特征融合损失的问题，而且计算过程较为复杂即计算操作比较比较耗时间。传统的特征融合模块，模型的计算效率和检测性能无法同时兼顾，往往为保证检测性能该模块的设计会出现计算量较大的情况。传统目标检测损失函数中会出现损失函数与评测指标不一致，即更小的损失值不等于更高的性能的问题，且预测检测框往往会因为目标个体的形状、重叠的目标和目标背景而产生边界框不准确、不平滑的问题。从而产生的模型比较笨重，这直接影响了在实际工业应用中由于设备的限制，不能够有效的实施。因此，亟需一种部署简单的轻量化工业产品检测方案，使得模型能够在移动端部署，以达到实时对工业产品上文字位置准确检测的性能。

发明内容

本发明的目的在于提供一种基于豪斯多夫距离计算距离损失的方法，对工业产品上准确检测的效果。

本发明通过下述技术方案实现：一种基于豪斯多夫距离计算距离损失的方法，包括：

步骤S1，构建基于豪斯多夫距离的网络模型，所述网络模型包括从前到后依次连接的基于通道注意力模块的ShuffleNetV2网络、RepBlockv2模块和基于豪斯多夫距离设计的无锚点检测头网络；

步骤S2，将待测工业产品的数据集和训练集输入到基于通道注意力模块的ShuffleNetV2网络获取不同尺寸的提取特征图；

步骤S3，将所述提取特征图输入到RepBlockv2模块，使用多分支结构配合深度可分离卷积和残差连接，进行多级预测获取融合特征图；

步骤S4，将所述融合特征图输入到基于豪斯多夫距离设计的无锚点检测头网络获取检测特征图，并计算预测检测框和真实框的距离损失，根据所述距离损失对所述基于豪斯多夫距离的网络模型进行训练，把检测特征图的每个位置作为训练样本，对于检测特征图中的每个位置对应原图的边框都进行边界更加平滑的回归，最终使用训练后的基于豪斯多夫距离的网络模型检测待测工业产品。

为了更好地实现本发明，进一步地，所述步骤S1中基于通道注意力模块的ShuffleNetV2网络包括：

所述ShuffleNetV2网络从前至后依次设置卷积层、批标准化层、激活函数层和若干个ShuffleNet基本单元，并去掉了最后一层卷积，抽取8、16、32倍下采样的特征对工业产品数据集的训练集进行多尺度的特征融合，获取不同尺寸的提取特征图；

所述ShuffleNet基本单元包括从前至后依次设置的卷积层、深度可分离卷积层和特征相加层，去掉了通道随机混合操作模块，设计了通道注意力模块代替；

所述通道注意力模块包括从前至后依次设置的自适应平均池化层、卷积层、ReLU激活函数、批标准化层和Hard-Sigmoid激活函数；

所述Hard-Sigmoid激活函数表示为：

，其中，x为神经元的输出。

为了更好地实现本发明，进一步地，所述步骤S1中RepBlockv2模块包括：

所述RepBlockv2模块包括从前至后依次设置的卷积层、深度可分离卷积层、批标准化层、特征相加层和ReLU激活函数；

所述RepBlockv2模块中的上采样和下采样均使用插值完成，并且将多尺寸的提取特征图直接相加。

为了更好地实现本发明，进一步地，所述RepBlockv2模块包括从前至后依次设置的卷积层、深度可分离卷积层、批标准化层、特征相加层和ReLU激活函数；

为了更好地实现本发明，进一步地，所述步骤S1中基于豪斯多夫距离设计的无锚点检测头网络包括：

基于豪斯多夫距离设计的无锚点检测头网络检测的待测工业产品检测特征图和多层特征图集中各图之间的误差的方法包括分类损失函数和位置回归函数：

所述类别分类损失函数采用焦点损失函数，所述的位置回归函数采用双向豪斯多夫距离损失函数和平滑L1损失函数；

所述双向豪斯多夫距离表示为：

；

其中，B和G分别代表预测检测框和真实框的二维高斯分布，b和g分别为分布中的点集，然后采用非线性转换函数f将双向豪斯多夫距离映射为类似IoU损失的函数，所以豪斯多夫损失函数表示为：

；

最终总损失函数表示如下：

；

其中，n为预测检测框的个数，

为预测检测框，

为真实框，

为预测检测框的标签，

为真实框的标签，

和

为超参数，

为焦点损失。

为了更好地实现本发明，进一步地，本发明还提供了一种基于豪斯多夫距离计算距离损失的装置，包括采集模块、训练模块和检测模块：

所述采集模块用于采集待测工业产品上的工业产品图像样本作为工业产品数据集，并将工业产品数据集分为测试集和训练集；

所述训练模块用于采集训练集训练基于豪斯多夫距离的网络模型，所述基于豪斯多夫距离的网络模型包括从前到后依次连接的基于通道注意力模块的ShuffleNetV2网络、RepBlockv2模块和基于豪斯多夫距离设计的无锚点检测头网络；

所述检测模块用于使用训练后的基于豪斯多夫距离的网络模型检测待测工业产品。

本发明与现有技术相比，具有以下优点及有益效果：

（1）使用基于通道注意力模块的ShuffleNetV2网络，能对网络通道进行加权并获得更好的特征，在保证模型精度不降低的情况下，减少了模型的参数量，提升了模型的检测速度。

（2）结合RepBlockv2模块，使用多分支结构配合深度可分离卷积和残差连接，进行多级预测获取融合特征图，在使用参数量较少的情况下，提升模型的特征融合能力，从而提高了模型的检测性能。

（3）设计豪斯多夫距离损失函数，解决了目标检测中常用损失函数与评测指标不一致，即更小的损失值不等于更高的性能的问题，并且使得预测检测框的坐标回归范围的边界更加准确和平滑。

附图说明

图1为本发明实施例提供的一种基于豪斯多夫距离的轻量化文字检测装置的流程图。

图2为本发明实施例提供的基于豪斯多夫距离的轻量化文字检测装置的网络结构图。

图3为本发明实施例提供的ShuffleNetV2网络中通道注意力模块的示意图。

图4为本发明实施例提供的ShuffleNetV2网络中改进后ShuffleNet基本单元的示意图。

图5为本发明实施例提供的特征金字塔网络中的特征融合模块示意图。

图6为本发明实施例提供的特征金字塔网络中的RepBlockv2模块示意图。

图7为本发明实施例提供的基于豪斯多夫距离的轻量化文字检测装置的结构框图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，因此不应被看作是对保护范围的限定。基于本发明中的实施例，本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“设置”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；也可以是直接相连，也可以是通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1：

本实施例的一种基于豪斯多夫距离的轻量化文字检测方法，如图1-图3所示，本发明通过构建基于豪斯多夫距离的网络模型，所述网络模型包括从前到后依次连接的基于通道注意力模块的ShuffleNetV2网络、RepBlockv2模块和基于豪斯多夫距离设计的无锚点检测头网络；将待测工业产品的数据集和训练集输入到基于通道注意力模块的ShuffleNetV2网络获取不同尺寸的提取特征图；将所述提取特征图输入到RepBlockv2模块进行多级预测获取融合特征图；将融合特征图输入到基于豪斯多夫距离设计的无锚点检测头网络获取检测特征图，并计算预测检测框和真实框的距离损失，根据所述距离损失对所述基于豪斯多夫距离的网络模型进行训练，把检测特征图的每个位置作为训练样本，对于检测特征图中的每个位置对应原图的边框都进行边界更加平滑的回归，最终使用训练后的基于豪斯多夫距离的网络模型检测待测工业产品。因此，基于豪斯多夫距离的网络模型，在参数量较少的情况下，提升了模型的检测性能，使得预测检测框的边界更加准确和平滑，而且提升了模型的检测速度，使得模型更适合移动端的部署。

实施例2：

本实施例在实施例1的基础上做进一步优化，在本实施例中，首在获取工业产品数据集的过程中进行了数据增强，对工业产品数据集进行数据增强的过程其实是对工业产品图像样本进行数据增强的过程，是为了提高样本数量，之后再进行后续操作。再此过程中会标注信息，标注的信息包含检测文字的类别和位置信息，标注的信息比例以自定义的比例将工业产品数据集分为测试集和训练集，经常设定为8:2，训练集和测试集包含的标注信息是一样的。因为划分数据集后训练集数量足够多，足够用于训练，所以将训练集输入网络模型进行训练，标注的信息包含检测文字的类别和位置信息，标注的信息比例以自定义的比例将工业产品数据集分为测试集和训练集，经常设定为8:2，训练集和测试集包含的标注信息是一样的。因为划分数据集后训练集数量足够多，足够用于训练，所以将训练集输入网络模型进行训练。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例在上述实施例1或2的基础上做进一步优化，本实施例在实现过程中，进行了多次试验尝试，在上次尝试的方法中，专利号CN202210386933.3 一种基于无锚框算法的轻量化文字检测方法及装置中所述，首先获取工业产品训练图像数据集，接着以主干网络进行特征提取得到特征图，然后根据特征图结合特征金字塔网络和无锚点检测头网络进行多层预测，构建检测模型；通过训练图像数据集对检测模型进行训练，得到训练后的检测模型；将含有待检测目标的图像作为输入，通过训练好的检测模型对图像中的待检测目标进行检测，包括如下阶段和步骤：

阶段1：对工业产品数据集进行数据增强处理得到增强后的工业产品数据集，具体包括：依次对工业产品数据集进行镜像操作和尺寸调整操作，尺寸调整操作为随机扩充或者随机裁剪；

阶段2：构建基于Anchor-Free的轻量化文字检测模型，其包括以下3个步骤：

首先，搭建主干网络ShuffleNetV2，ShuffleNetV2网络包括从前至后依次设置的卷积层、批标准化层、激活函数层以及若干个ShuffleNet基本单元，并且去掉了最后一层卷积，并且抽取8、16、32倍下采样的特征进行多尺度的特征融合。

其次，搭建特征金字塔网络，采用了特征融合模块PAN结构，去掉了PAN中的所有3×3卷积层，保留从主干网络中特征提取后的1x1卷积来进行特征通道维度的对齐，其中，上采样和下采样均使用插值完成，并且将多尺寸的特征图直接相加，使得整个模块的计算量非常小。如图2所示，对P5通过上采样和下采样操作后分别得到了P3、P4和P6、P7的不同层次的特征图，然后将通过主干网络产生的特征层C3、C4、C5与对应的P3、P4、P5进行特征融合。

最后，搭建检测头结构，无锚点检测头网络采用了FCOS系列中的检测头，使用了共享权重的检测头，即对FPN出来的多尺度Feature Map使用同一组卷积预测检测框，然后每一层使用一个可学习的Scale值作为系数，对预测出来的框进行缩放，这能够将检测头的参数量降低为不共享权重状态下的1/5，但是由于移动端模型推理由CPU进行计算，共享权重并不会对推理过程进行加速，而且在检测头非常轻量的情况下，共享权重使得其检测能力进一步下降，因此本发明可以选择对每一层特征使用一层卷积。同时，检测头使用了组归一化的方式，避免将归一化的参数直接融合进卷积中，节省归一化操作的时间。FCOS的检测头使用了4个通道数为256的卷积作为一个分支，因此边框回归和分类两个分支上一共有8个通道数为256的卷积，计算量非常大。为了轻量化，本实例使用了使用深度可分离卷积替换普通卷积，并且将中间的卷积层数量减少到只有一个。在通道数上，将256维压缩至96维，将通道数保持为8或16的倍数，这样能够享受到大部分推理框架的并行加速。最后，借鉴了yolo系列的做法，将边框回归和分类使用同一组卷积进行计算，然后分成两份。其中，预测类别的支路输出维度是数据集总类别个数K，坐标预测维度为4维的向量(t ,l,b ,r)，其中t ,l ,b ,r分别为特征图P3-P7的每一个空间位置(x，y)的预测的真实框的坐标相对特征图的中心位置的偏移值，从而确定预测检测框的大小和位置。其预测的目标值的回归公式是：

；

其中，

分别表示真实标签框的四个坐标值，

表示回归的目标值，即中心点

与真实框四条边界的距离。该回归方式没有利用Anchor-Based的中间媒介，由此可以达到Anchor-Free，即无锚框算法的目的。

但在这种方法中，虽然达到了无锚框算法的目的，但是计算过程仍然较为复杂，而且模型的计算效率和检测性能无法同时兼顾，因此，在此基础上，主干网络ShuffleNetV2使用了通道注意力模块替代了通道随机混合操作模块，能对网络通道进行加权并获得更好的特征，在保证模型精度不降低的情况下，减少了模型的参数量，提升了模型的检测速度，特征融合模块中重新设计了RepBlockv2模块，使用多分支结构配合深度可分离卷积和残差连接，进行多级预测获取融合特征图，在使用参数量较少的情况下，提升模型的特征融合能力，从而提高了模型的检测性能，损失函数中将常用的焦点损失与全新设计的豪斯多夫距离损失函数融合，解决了目标检测中常用损失函数与评测指标不一致，即更小的损失值不等于更高的性能的问题，并且使得预测检测框的坐标回归范围的边界更加准确和平滑。

在损失函数计算中包括了类别分类损失函数和位置回归函数，在本实施例中类别分类损失函数采用了焦点损失。位置回归函数采用了常用的

损失和IoU损失，然后单独使用

损失会对预测得到的坐标当作相互独立的信息，实际上是由一定相关性的，而且不同的检测框可能会出现相同大小的损失，因此需要结合IoU损失，不过普通的IoU往往会出现损失函数与评测指标不一致的问题，即更小的损失值不等于更高的性能。因此，在本实施例中引入了豪斯多夫距离计算预测检测框和真实框的距离损失，首先将预测检测框和真实框的坐标信息通过计算均值和方差转化成二维高斯分布，从而将两者的分布用于计算双向豪斯多夫距离，双向豪斯多夫距离表示为：

；

；

所以，最终总损失函数表示如下：

；

其中，n为预测检测框的个数，

为预测检测框，

为真实框，

为预测检测框的标签，

为真实框的标签，

和

为超参数，

为焦点损失。引入豪斯多夫距离损失，能够与IoU度量标准保持一致，并且对于预测检测框的坐标回归范围的边界更加平滑，能够应对度量标准和损失计算的不一致问题。

本实施例的其他部分与上述实施例1或2相同，故不再赘述。

实施例4：

本实施例在实施例1的基础上做进一步优化，在本实施例中，对于主干网络ShuffleNetV2做出部分改进。专利号CN202210386933.3 中原始版本的ShuffleNetV2中包含了通道随机混合操作模块，该模块起到了通道间的信息交换作用，但是会出现特征融合损失的问题。本实施例设计了通道注意力模块代替通道随机混合操作模块，通道注意力模块如图3所示包括从前至后依次设置的自适应平均池化层、卷积层、ReLU激活函数、批标准化层和Hard-Sigmoid激活函数，Hard-Sigmoid激活函数表示为：

其中，在该模块中包含三个分支，首先将分支1输入特征矩阵通过3×3卷积，得到输出特征矩阵，其次分支2将通过3×3卷积的特征矩阵，对每个通道进行自适应平均池化处理，接下来通过1×1卷积，它的卷积个数为输入特征矩阵通道的1/4，并对应Relu激活函数，这极大地减少了计算量，然后继续通过1×1卷积，卷积个数和输入特征矩阵通道一致，并使用了Hard-Sigmoid激活函数，使用该激活函数能够提升运行效率，最后使用了一个捷径分支，将输入特征矩阵与各分支的输出特征矩阵在相同的维度数值上进行拼接操作。

每一个ShuffleNet基本单元都包含了通道注意力模块，并去掉了最后一层卷积，抽取8、16、32倍下采样的特征对工业产品数据集的训练集进行多尺度的特征融合，获取不同尺寸的提取特征图，改进后的ShuffleNet基本单元如图4所示。

实施例5：

本实施例在上述实施例1-4任一项的基础上做进一步优化，如图5所示，本实施例中，将主干网络ShuffleNetV2得到的C5输出20×20×512大小的特征图，通过1×1卷积后变成20×20×256的大小，上采样成40×40×128后与C4 相加成40×40×128的大小，C4经过RepBlockv2和1×1卷积得到40×40×128的特征图，上采样后相加成80×80×128的特征图。最后经过右边的RepBlockv2和1×1卷积输出P3,P4,P5，大小分别为80×80×64，40×40×128，20×20×256。

所述PAN网络中的上采样和下采样均使用插值完成，并且将多尺寸的提取特征图直接相加。在YOLOV6提出了Rep-PAN，融合了多个RepBlock模块，每个模块中都包含了3×3卷积，且经过上采样得到的特征图是通过在通道维度上拼接处理得到输入特征图，因此模型的计算量过于大，从而会导致显存占用过大的问题，不易于移动端的部署。因此，秉承轻量化的原则，本实施例在特征融合中重新设计了RepBlock模块，并命名为RepBlockv2模块，该模块包括从前至后依次设置卷积层、深度可分离卷积层、批标准化层、特征相加层和ReLU激活函数。RepBlockv2模块采用多分支的结构，如图6所示，不同分支应用不同的卷积核，能够获得不同的感受野，在达到高效推理的同时，保持较好的多尺度特征融合能力。通过使用深度可分离卷积层和上采样使用插值完成，并且将多尺寸的提取特征图通过特征相加层直接相加，从而大大降低了模型的计算量。

本实施例的其他部分与上述实施例1-4任一项相同，故不再赘述。

实施例6：

本实施例在上述实施例1-5任一项基础上做进一步优化，本实施例引入了训练豪斯多夫模块并配合了动态的标签分配策略，训练豪斯多夫模块由4个3×3卷积层和组归一化层组成，并且在不同尺度的特征图间共享参数，通过该训练豪斯多夫模块预测得到分类概率和检测框，并将分类概率和检测框通过动态的标签匹配策略计算匹配损失代价来得到最优的标签匹配。标签匹配策略采用SimOTA算法，首先根据中心先验信息确定正样本的候选区域，其次计算每个样本对应的每个真实框的损失代价，然后使用每个真实框的预测样本确定它需要分配道德正样本数，接着为每个真实框动态的选取损失代价最小的前k个样本作为正样本，最后去掉同一个样本被分配到多个真实框的正样本的情况。本实施例引入了一个简单轻量的训练豪斯多夫模块结合动态的标签匹配策略，相比传统的基于中心点和预设范围的静态匹配策略，运算速度更快，能够使用较少的训练资源来提升模型的检测性能。

本实施例的其他部分与上述实施例1-5任一项相同，故不再赘述。

最后应说明的是，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于豪斯多夫距离计算距离损失的方法，其特征在于，包括：

步骤S4，将所述融合特征图输入到基于豪斯多夫距离设计的无锚点检测头网络获取检测特征图，并计算预测检测框和真实框的距离损失，根据所述距离损失对所述基于豪斯多夫距离的网络模型进行训练，把检测特征图的每个位置作为训练样本，对于检测特征图中的每个位置对应原图的边框都进行边界平滑的回归，最终使用训练后的基于豪斯多夫距离的网络模型检测待测工业产品。

2.根据权利要求1所述的一种基于豪斯多夫距离计算距离损失的方法，其特征在于，所述步骤S1中基于通道注意力模块的ShuffleNetV2网络包括：

所述Hard-Sigmoid激活函数表示为：