CN115330759B - 一种基于豪斯多夫距离计算距离损失的方法及装置 - Google Patents

一种基于豪斯多夫距离计算距离损失的方法及装置 Download PDF

Info

Publication number
CN115330759B
CN115330759B CN202211243593.5A CN202211243593A CN115330759B CN 115330759 B CN115330759 B CN 115330759B CN 202211243593 A CN202211243593 A CN 202211243593A CN 115330759 B CN115330759 B CN 115330759B
Authority
CN
China
Prior art keywords
module
distance
detection
network
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211243593.5A
Other languages
English (en)
Other versions
CN115330759A (zh
Inventor
张晓武
陈斌
李伟
徐朝彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Linyan Precision Technology Co ltd
Original Assignee
Zhejiang Linyan Precision Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Linyan Precision Technology Co ltd filed Critical Zhejiang Linyan Precision Technology Co ltd
Priority to CN202211243593.5A priority Critical patent/CN115330759B/zh
Publication of CN115330759A publication Critical patent/CN115330759A/zh
Application granted granted Critical
Publication of CN115330759B publication Critical patent/CN115330759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及豪斯多夫距离技术领域,公开了一种基于豪斯多夫距离计算距离损失的方法,包括:构建基于豪斯多夫距离的网络模型,网络模型包括从前到后依次连接的基于通道注意力模块的ShuffleNetV2网络、RepBlockv2模块和基于豪斯多夫距离设计的无锚点检测头网络;将待测工业产品的数据集和训练集输入到基于通道注意力模块的ShuffleNetV2网络获取不同尺寸的提取特征图;将提取特征图输入到RepBlockv2模块,使用多分支结构配合深度可分离卷积和残差连接,进行多级预测获取融合特征图;训练后的基于豪斯多夫距离的网络模型检测待测工业产品。本发明设计豪斯多夫距离损失函数,解决了目标检测中常用损失函数与评测指标不一致的问题,并且使得预测检测框的坐标回归范围的边界更加准确和平滑。

Description

一种基于豪斯多夫距离计算距离损失的方法及装置
技术领域
本发明涉及豪斯多夫距离技术领域,具体地说,是一种基于豪斯多夫距离计算距离损失的方法及装置。
背景技术
工业产品在生产过程中,由于产品表面会受到药粉等不可控的脏污,从而导致对产品检测出现误检的情况,因此能够正确检测产品,既可以保证工业产品的质量,也能大幅度提高生产效率。工业产品检测方法主要分为传统方法和人工智能方法。传统方法也分两种,一种完全由人眼检测,这种方法检测结果不稳定,检测人员的主观因素占比很大,而且随着产品产量的增加,检测人员会出现视觉疲劳,造成大量误检;另外一种是对工业产品提取手工特征进行分类,是一种应用传统图像处理衍生的技术,但是一些产品上面的文字或图案,由于模具不一致以及图像模糊等原因,使用传统的图像匹配算法容易出错,造成误检。人工智能方法是指使用基于深度学习的方法进行检测,通过深度神经网络模型对采集的工业产品图像数据进行分析,定位出检测目标,在数据量较大且复杂的情况下,也能通过加深加宽网络模型,提高模型的特征表达能力,从而精准检测产品,得到了令人满意的检测效果。基于深度学习的检测技术主要分为两阶段算法和单阶段算法,两阶段算法中代表算法有Fater R-CNN、MTCNN等,这类基于Anchor-Based算法主要将检测过程分成生成候选区域和基于候选区域检测分类,具有高精度的优势。而单阶段代表算法有YOLOV3、SSD等,这类算法基于Anchor-Free,没有候选区域部分的计算,直接在特征图上定位分类,具有较高的实时性。
目前的工业产品检测,为了能够得到精度较高的模型,模型结构比较复杂,如专利号CN202210386933.3 一种基于无锚框算法的轻量化文字检测方法及装置中所述的ShuffleNetV2中包含了通道随机混合操作模块,该模块起到了通道间的信息交换作用,但是会出现特征融合损失的问题,而且计算过程较为复杂即计算操作比较比较耗时间。传统的特征融合模块,模型的计算效率和检测性能无法同时兼顾,往往为保证检测性能该模块的设计会出现计算量较大的情况。传统目标检测损失函数中会出现损失函数与评测指标不一致,即更小的损失值不等于更高的性能的问题,且预测检测框往往会因为目标个体的形状、重叠的目标和目标背景而产生边界框不准确、不平滑的问题。从而产生的模型比较笨重,这直接影响了在实际工业应用中由于设备的限制,不能够有效的实施。因此,亟需一种部署简单的轻量化工业产品检测方案,使得模型能够在移动端部署,以达到实时对工业产品上文字位置准确检测的性能。
发明内容
本发明的目的在于提供一种基于豪斯多夫距离计算距离损失的方法,对工业产品上准确检测的效果。
本发明通过下述技术方案实现:一种基于豪斯多夫距离计算距离损失的方法,包括:
步骤S1,构建基于豪斯多夫距离的网络模型,所述网络模型包括从前到后依次连接的基于通道注意力模块的ShuffleNetV2网络、RepBlockv2模块和基于豪斯多夫距离设计的无锚点检测头网络;
步骤S2,将待测工业产品的数据集和训练集输入到基于通道注意力模块的ShuffleNetV2网络获取不同尺寸的提取特征图;
步骤S3,将所述提取特征图输入到RepBlockv2模块,使用多分支结构配合深度可分离卷积和残差连接,进行多级预测获取融合特征图;
步骤S4,将所述融合特征图输入到基于豪斯多夫距离设计的无锚点检测头网络获取检测特征图,并计算预测检测框和真实框的距离损失,根据所述距离损失对所述基于豪斯多夫距离的网络模型进行训练,把检测特征图的每个位置作为训练样本,对于检测特征图中的每个位置对应原图的边框都进行边界更加平滑的回归,最终使用训练后的基于豪斯多夫距离的网络模型检测待测工业产品。
为了更好地实现本发明,进一步地,所述步骤S1中基于通道注意力模块的ShuffleNetV2网络包括:
所述ShuffleNetV2网络包括从前至后依次设置的卷积层、批标准化层、激活函数层以及若干个ShuffleNet基本单元,并去掉了最后一层卷积,抽取8、16、32倍下采样的特征对工业产品数据集的训练集进行多尺度的特征融合,获取不同尺寸的提取特征图;
所述ShuffleNet基本单元包括从前至后依次设置的卷积层、深度可分离卷积层和特征相加层,去掉了通道随机混合操作模块,设计了通道注意力模块代替;
所述通道注意力模块包括从前至后依次设置的自适应平均池化层、卷积层、ReLU激活函数、批标准化层和Hard-Sigmoid激活函数;
所述Hard-Sigmoid激活函数表示为:
Figure 149995DEST_PATH_IMAGE001
,其中,x为神经元的输出。
为了更好地实现本发明,进一步地,所述步骤S1中RepBlockv2模块包括:
所述RepBlockv2模块包括从前至后依次设置的卷积层、深度可分离卷积层、批标准化层、特征相加层和ReLU激活函数;
所述RepBlockv2模块中的上采样和下采样均使用插值完成,并且将多尺寸的提取特征图直接相加。
为了更好地实现本发明,进一步地,所述RepBlockv2模块包括从前至后依次设置的卷积层、深度可分离卷积层、批标准化层、特征相加层和ReLU激活函数;
所述RepBlockv2模块中的上采样和下采样均使用插值完成,并且将多尺寸的提取特征图直接相加。
为了更好地实现本发明,进一步地,所述步骤S1中基于豪斯多夫距离设计的无锚点检测头网络包括:
基于豪斯多夫距离设计的无锚点检测头网络检测的待测工业产品检测特征图和多层特征图集中各图之间的误差的方法包括类别分类损失函数和位置回归函数:
所述类别分类损失函数采用焦点损失函数,所述的位置回归函数采用双向豪斯多夫距离损失函数和平滑L1损失函数;
所述双向豪斯多夫距离表示为:
Figure 242716DEST_PATH_IMAGE002
其中,B和G分别代表预测检测框和真实框的二维高斯分布,b和g分别为分布中的点集,然后采用非线性转换函数f将双向豪斯多夫距离映射为类似IoU损失的函数,所以豪斯多夫损失函数表示为:
Figure 698974DEST_PATH_IMAGE003
最终总损失函数表示如下:
Figure 484527DEST_PATH_IMAGE004
其中,n为预测检测框的个数,
Figure 363752DEST_PATH_IMAGE005
为预测检测框,
Figure 260164DEST_PATH_IMAGE006
为真实框,
Figure 56082DEST_PATH_IMAGE007
为预测检测框的标签,
Figure 261804DEST_PATH_IMAGE008
为真实框的标签,
Figure 408752DEST_PATH_IMAGE009
Figure 859587DEST_PATH_IMAGE010
为超参数,
Figure 775590DEST_PATH_IMAGE011
为焦点损失。
为了更好地实现本发明,进一步地,本发明还提供了一种基于豪斯多夫距离计算距离损失的装置,包括采集模块、训练模块和检测模块:
所述采集模块用于采集待测工业产品上的工业产品图像样本作为工业产品数据集,并将工业产品数据集分为测试集和训练集;
所述训练模块用于采集训练集训练基于豪斯多夫距离的网络模型,所述基于豪斯多夫距离的网络模型包括从前到后依次连接的基于通道注意力模块的ShuffleNetV2网络、RepBlockv2模块和基于豪斯多夫距离设计的无锚点检测头网络;
所述检测模块用于使用训练后的基于豪斯多夫距离的网络模型检测待测工业产品。
本发明与现有技术相比,具有以下优点及有益效果:
(1)使用基于通道注意力模块的ShuffleNetV2网络,能对网络通道进行加权并获得更好的特征,在保证模型精度不降低的情况下,减少了模型的参数量,提升了模型的检测速度。
(2)结合RepBlockv2模块,使用多分支结构配合深度可分离卷积和残差连接,进行多级预测获取融合特征图,在使用参数量较少的情况下,提升模型的特征融合能力,从而提高了模型的检测性能。
(3)设计豪斯多夫距离损失函数,解决了目标检测中常用损失函数与评测指标不一致,即更小的损失值不等于更高的性能的问题,并且使得预测检测框的坐标回归范围的边界更加准确和平滑。
附图说明
本发明结合下面附图和实施例做进一步说明,本发明所有构思创新应视为所公开内容和本发明保护范围。
图1为本发明实施例提供的一种基于豪斯多夫距离的轻量化文字检测装置的流程图。
图2为本发明实施例提供的基于豪斯多夫距离的轻量化文字检测装置的网络结构图。
图3为本发明实施例提供的ShuffleNetV2网络中通道注意力模块的示意图。
图4为本发明实施例提供的ShuffleNetV2网络中改进后ShuffleNet基本单元的示意图。
图5为本发明实施例提供的特征金字塔网络中的特征融合模块示意图。
图6为本发明实施例提供的特征金字塔网络中的RepBlockv2模块示意图。
图7为本发明实施例提供的基于豪斯多夫距离的轻量化文字检测装置的结构框图。
具体实施方式
为了更清楚地说明本发明实施例的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,因此不应被看作是对保护范围的限定。基于本发明中的实施例,本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“设置”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;也可以是直接相连,也可以是通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1:
本实施例的一种基于豪斯多夫距离的轻量化文字检测方法,如图1-图3所示,本发明通过构建基于豪斯多夫距离的网络模型,所述网络模型包括从前到后依次连接的基于通道注意力模块的ShuffleNetV2网络、RepBlockv2模块和基于豪斯多夫距离设计的无锚点检测头网络;将待测工业产品的数据集和训练集输入到基于通道注意力模块的ShuffleNetV2网络获取不同尺寸的提取特征图;将所述提取特征图输入到RepBlockv2模块进行多级预测获取融合特征图;将融合特征图输入到基于豪斯多夫距离设计的无锚点检测头网络获取检测特征图,并计算预测检测框和真实框的距离损失,根据所述距离损失对所述基于豪斯多夫距离的网络模型进行训练,把检测特征图的每个位置作为训练样本,对于检测特征图中的每个位置对应原图的边框都进行边界更加平滑的回归,最终使用训练后的基于豪斯多夫距离的网络模型检测待测工业产品。因此,基于豪斯多夫距离的网络模型,在参数量较少的情况下,提升了模型的检测性能,使得预测检测框的边界更加准确和平滑,而且提升了模型的检测速度,使得模型更适合移动端的部署。
实施例2:
本实施例在实施例1的基础上做进一步优化,在本实施例中,首在获取工业产品数据集的过程中进行了数据增强,对工业产品数据集进行数据增强的过程其实是对工业产品图像样本进行数据增强的过程,是为了提高样本数量,之后再进行后续操作。再此过程中会标注信息,标注的信息包含检测文字的类别和位置信息,标注的信息比例以自定义的比例将工业产品数据集分为测试集和训练集,经常设定为8:2,训练集和测试集包含的标注信息是一样的。因为划分数据集后训练集数量足够多,足够用于训练,所以将训练集输入网络模型进行训练,标注的信息包含检测文字的类别和位置信息,标注的信息比例以自定义的比例将工业产品数据集分为测试集和训练集,经常设定为8:2,训练集和测试集包含的标注信息是一样的。因为划分数据集后训练集数量足够多,足够用于训练,所以将训练集输入网络模型进行训练。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例3:
本实施例在上述实施例1或2的基础上做进一步优化,本实施例在实现过程中,进行了多次试验尝试,在上次尝试的的方法中,专利号CN202210386933.3 一种基于无锚框算法的轻量化文字检测方法及装置中所述,首先获取工业产品训练图像数据集,接着以主干网络进行特征提取得到特征图,然后根据特征图结合特征金字塔网络和无锚点检测头网络进行多层预测,构建检测模型;通过训练图像数据集对检测模型进行训练,得到训练后的检测模型;将含有待检测目标的图像作为输入,通过训练好的检测模型对图像中的待检测目标进行检测,包括如下阶段和步骤:
阶段1:对工业产品数据集进行数据增强处理得到增强后的工业产品数据集,具体包括:依次对工业产品数据集进行镜像操作和尺寸调整操作,尺寸调整操作为随机扩充或者随机裁剪;
阶段2:构建基于Anchor-Free的轻量化文字检测模型,其包括以下3个步骤:
首先,搭建主干网络ShuffleNetV2,ShuffleNetV2网络包括从前至后依次设置的卷积层、批标准化层、激活函数层以及若干个ShuffleNet基本单元,并且去掉了最后一层卷积,并且抽取8、16、32倍下采样的特征进行多尺度的特征融合。
其次,搭建特征金字塔网络,采用了特征融合模块PAN结构,去掉了PAN中的所有3×3卷积层,保留从主干网络中特征提取后的1x1卷积来进行特征通道维度的对齐,其中,上采样和下采样均使用插值完成,并且将多尺寸的特征图直接相加,使得整个模块的计算量非常小。如图2所示,对P5通过上采样和下采样操作后分别得到了P3、P4和P6、P7的不同层次的特征图,然后将通过主干网络产生的特征层C3、C4、C5与对应的P3、P4、P5进行特征融合。
最后,搭建检测头结构,无锚点检测头网络采用了FCOS系列中的检测头,使用了共享权重的检测头,即对FPN出来的多尺度Feature Map使用同一组卷积预测检测框,然后每一层使用一个可学习的Scale值作为系数,对预测出来的框进行缩放,这能够将检测头的参数量降低为不共享权重状态下的1/5,但是由于移动端模型推理由CPU进行计算,共享权重并不会对推理过程进行加速,而且在检测头非常轻量的情况下,共享权重使得其检测能力进一步下降,因此本发明可以选择对每一层特征使用一层卷积。同时,检测头使用了组归一化的方式,避免将归一化的参数直接融合进卷积中,节省归一化操作的时间。FCOS的检测头使用了4个通道数为256的卷积作为一个分支,因此边框回归和分类两个分支上一共有8个通道数为256的卷积,计算量非常大。为了轻量化,本实例使用了使用深度可分离卷积替换普通卷积,并且将中间的卷积层数量减少到只有一个。在通道数上,将256维压缩至96维,将通道数保持为8或16的倍数,这样能够享受到大部分推理框架的并行加速。最后,借鉴了yolo系列的做法,将边框回归和分类使用同一组卷积进行计算,然后分成两份。其中,预测类别的支路输出维度是数据集总类别个数K,坐标预测维度为4维的向量(t ,l,b ,r),其中t ,l ,b ,r分别为特征图P3-P7的每一个空间位置(x,y)的预测的真实框的坐标相对特征图的中心位置的偏移值,从而确定预测检测框的大小和位置。其预测的目标值的回归公式是:
Figure 637367DEST_PATH_IMAGE012
其中,
Figure 520878DEST_PATH_IMAGE013
分别表示真实标签框的四个坐标值,
Figure 759093DEST_PATH_IMAGE014
表示回归的目标值,即中心点
Figure 795182DEST_PATH_IMAGE015
与真实框四条边界的距离。该回归方式没有利用Anchor-Based的中间媒介,由此可以达到Anchor-Free,即无锚框算法的目的。
但在这种方法中,虽然达到了无锚框算法的目的,但是计算过程仍然较为复杂,而且模型的计算效率和检测性能无法同时兼顾,因此,在此基础上,主干网络ShuffleNetV2使用了通道注意力模块替代了通道随机混合操作模块,能对网络通道进行加权并获得更好的特征,在保证模型精度不降低的情况下,减少了模型的参数量,提升了模型的检测速度,特征融合模块中重新设计了RepBlockv2模块,使用多分支结构配合深度可分离卷积和残差连接,进行多级预测获取融合特征图,在使用参数量较少的情况下,提升模型的特征融合能力,从而提高了模型的检测性能,损失函数中将常用的焦点损失与全新设计的豪斯多夫距离损失函数融合,解决了目标检测中常用损失函数与评测指标不一致,即更小的损失值不等于更高的性能的问题,并且使得预测检测框的坐标回归范围的边界更加准确和平滑。
在损失函数计算中包括了类别分类损失函数和位置回归函数,在本实施例中类别分类损失函数采用了焦点损失。位置回归函数采用了常用的
Figure 578592DEST_PATH_IMAGE016
损失和IoU损失,然后单独使用
Figure 903395DEST_PATH_IMAGE016
损失会对预测得到的坐标当作相互独立的信息,实际上是由一定相关性的,而且不同的检测框可能会出现相同大小的损失,因此需要结合IoU损失,不过普通的IoU往往会出现损失函数与评测指标不一致的问题,即更小的损失值不等于更高的性能。因此,在本实施例中引入了豪斯多夫距离计算预测检测框和真实框的距离损失,首先将预测检测框和真实框的坐标信息通过计算均值和方差转化成二维高斯分布,从而将两者的分布用于计算双向豪斯多夫距离,双向豪斯多夫距离表示为:
Figure 991305DEST_PATH_IMAGE017
其中,B和G分别代表预测检测框和真实框的二维高斯分布,b和g分别为分布中的点集,然后采用非线性转换函数f将双向豪斯多夫距离映射为类似IoU损失的函数,所以豪斯多夫损失函数表示为:
Figure 507999DEST_PATH_IMAGE018
所以,最中总损失函数表示如下:
Figure 242737DEST_PATH_IMAGE019
其中,n为预测检测框的个数,
Figure 320415DEST_PATH_IMAGE020
为预测检测框,
Figure 477595DEST_PATH_IMAGE021
为真实框,
Figure 957118DEST_PATH_IMAGE022
为预测检测框的标签,
Figure 597178DEST_PATH_IMAGE023
为真实框的标签,
Figure 381726DEST_PATH_IMAGE024
Figure 562171DEST_PATH_IMAGE025
为超参数,
Figure 161780DEST_PATH_IMAGE026
为焦点损失。引入豪斯多夫距离损失,能够与IoU度量标准保持一致,并且对于预测检测框的坐标回归范围的边界更加平滑,能够应对度量标准和损失计算的不一致问题。
本实施例的其他部分与上述实施例1或2相同,故不再赘述。
实施例4:
本实施例在实施例1的基础上做进一步优化,在本实施例中,对于主干网络ShuffleNetV2做出部分改进。专利号CN202210386933.3 中原始版本的ShuffleNetV2中包含了通道随机混合操作模块,该模块起到了通道间的信息交换作用,但是会出现特征融合损失的问题。本实施例设计了通道注意力模块代替通道随机混合操作模块,通道注意力模块如图3所示包括从前至后依次设置的自适应平均池化层、卷积层、ReLU激活函数、批标准化层和Hard-Sigmoid激活函数,Hard-Sigmoid激活函数表示为:
Figure 222009DEST_PATH_IMAGE027
其中,在该模块中包含三个分支,首先将分支1输入特征矩阵通过3×3卷积,得到输出特征矩阵,其次分支2将通过3×3卷积的特征矩阵,对每个通道进行自适应平均池化处理,接下来通过1×1卷积,它的卷积个数为输入特征矩阵通道的1/4,并对应Relu激活函数,这极大地减少了计算量,然后继续通过1×1卷积,卷积个数和输入特征矩阵通道一致,并使用了Hard-Sigmoid激活函数,使用该激活函数能够提升运行效率,最后使用了一个捷径分支,将输入特征矩阵与各分支的输出特征矩阵在相同的维度数值上进行拼接操作。
每一个ShuffleNet基本单元都包含了通道注意力模块,并去掉了最后一层卷积,抽取8、16、32倍下采样的特征对工业产品数据集的训练集进行多尺度的特征融合,获取不同尺寸的提取特征图,改进后的ShuffleNet基本单元如图4所示。
实施例5:
本实施例在上述实施例1-4任一项的基础上做进一步优化,如图5所示,本实施例中,将主干网络ShuffleNetV2得到的C5输出20×20×512大小的特征图,通过1×1卷积后变成20×20×256的大小,上采样成40×40×128后与C4 相加成40×40×128的大小,C4经过RepBlockv2和1×1卷积得到40×40×128的特征图,上采样后相加成80×80×128的特征图。最后经过右边的RepBlockv2和1×1卷积输出P3,P4,P5,大小分别为80×80×64,40×40×128,20×20×256。
所述PAN网络中的上采样和下采样均使用插值完成,并且将多尺寸的提取特征图直接相加。在YOLOV6提出了Rep-PAN,融合了多个RepBlock模块,每个模块中都包含了3×3卷积,且经过上采样得到的特征图是通过在通道维度上拼接处理得到输入特征图,因此模型的计算量过于大,从而会导致显存占用过大的问题,不易于移动端的部署。因此,秉承轻量化的原则,本实施例在特征融合中重新设计了RepBlock模块,并命名为RepBlockv2模块,该模块包括从前至后依次设置卷积层、深度可分离卷积层、批标准化层、特征相加层和ReLU激活函数。RepBlockv2模块采用多分支的结构,如图6所示,不同分支应用不同的卷积核,能够获得不同的感受野,在达到高效推理的同时,保持较好的多尺度特征融合能力。通过使用深度可分离卷积层和上采样使用插值完成,并且将多尺寸的提取特征图通过特征相加层直接相加,从而大大降低了模型的计算量。
本实施例的其他部分与上述实施例1-4任一项相同,故不再赘述。
实施例6:
本实施例在上述实施例1-5任一项基础上做进一步优化,本实施例引入了训练豪斯多夫模块并配合了动态的标签分配策略,训练豪斯多夫模块由4个3×3卷积层和组归一化层组成,并且在不同尺度的特征图间共享参数,通过该训练豪斯多夫模块预测得到分类概率和检测框,并将分类概率和检测框通过动态的标签匹配策略计算匹配损失代价来得到最优的标签匹配。标签匹配策略采用SimOTA算法,首先根据中心先验信息确定正样本的候选区域,其次计算每个样本对应的每个真实框的损失代价,然后使用每个真实框的预测样本确定它需要分配道德正样本数,接着为每个真实框动态的选取损失代价最小的前k个样本作为正样本,最后去掉同一个样本被分配到多个真实框的正样本的情况。本实施例引入了一个简单轻量的训练豪斯多夫模块结合动态的标签匹配策略,相比传统的基于中心点和预设范围的静态匹配策略,运算速度更快,能够使用较少的训练资源来提升模型的检测性能。
本实施例的其他部分与上述实施例1-5任一项相同,故不再赘述。
最后应说明的是,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (4)

1.一种基于豪斯多夫距离计算距离损失的方法,其特征在于,包括:
步骤S1,构建基于豪斯多夫距离的网络模型,所述网络模型包括从前到后依次连接的基于通道注意力模块的ShuffleNetV2网络、RepBlockv2模块和基于豪斯多夫距离设计的无锚点检测头网络;
步骤S2,将待测工业产品的数据集和训练集输入到基于通道注意力模块的ShuffleNetV2网络获取不同尺寸的提取特征图;
步骤S3,将所述提取特征图输入到RepBlockv2模块,使用多分支结构配合深度可分离卷积和残差连接,进行多级预测获取融合特征图;
步骤S4,将所述融合特征图输入到基于豪斯多夫距离设计的无锚点检测头网络获取检测特征图,并计算预测检测框和真实框的距离损失,根据所述距离损失对所述基于豪斯多夫距离的网络模型进行训练,把检测特征图的每个位置作为训练样本,对于检测特征图中的每个位置对应原图的边框都进行边界平滑的回归,最终使用训练后的基于豪斯多夫距离的网络模型检测待测工业产品;
所述步骤S1中基于通道注意力模块的ShuffleNetV2网络包括:
所述ShuffleNetV2网络包括从前至后依次设置的卷积层、批标准化层、激活函数层以及若干个ShuffleNet基本单元,并去掉了最后一层卷积,抽取8、16、32倍下采样的特征对工业产品数据集的训练集进行多尺度的特征融合,获取不同尺寸的提取特征图;
所述ShuffleNet基本单元包括从前至后依次设置的卷积层、深度可分离卷积层和特征相加层,去掉了通道随机混合操作模块,设计了通道注意力模块代替;
所述通道注意力模块包括从前至后依次设置的自适应平均池化层、卷积层、ReLU激活函数、批标准化层和Hard-Sigmoid激活函数;
所述Hard-Sigmoid激活函数表示为:
Figure 463975DEST_PATH_IMAGE001
,其中,x为神经元的输出。
2.根据权利要求1所述的一种基于豪斯多夫距离计算距离损失的方法,其特征在于,所述步骤S1中RepBlockv2模块包括:
所述RepBlockv2模块包括从前至后依次设置的卷积层、深度可分离卷积层、批标准化层、特征相加层和ReLU激活函数;
所述RepBlockv2模块中的上采样和下采样均使用插值完成,并且将多尺寸的提取特征图直接相加。
3.根据权利要求1所述的一种基于豪斯多夫距离计算距离损失的方法,其特征在于,所述步骤S1中基于豪斯多夫距离设计的无锚点检测头网络包括:
基于豪斯多夫距离设计的无锚点检测头网络检测的待测工业产品检测特征图和多层特征图集中各图之间的误差的方法包括类别分类损失函数和位置回归函数:
所述类别分类损失函数采用焦点损失函数,所述的位置回归函数采用双向豪斯多夫距离损失函数和平滑L1损失函数;
所述双向豪斯多夫距离表示为:
Figure 411202DEST_PATH_IMAGE002
其中,B和G分别代表预测检测框和真实框的二维高斯分布,b和g分别为分布中的点集,然后采用非线性转换函数f将双向豪斯多夫距离映射为类似IoU损失的函数,所以豪斯多夫损失函数表示为:
Figure 743089DEST_PATH_IMAGE003
最终总损失函数表示如下:
Figure 15938DEST_PATH_IMAGE004
其中,n为预测检测框的个数,
Figure 479281DEST_PATH_IMAGE005
为预测检测框,
Figure 479467DEST_PATH_IMAGE006
为真实框,
Figure 711865DEST_PATH_IMAGE007
为预测检测框的标签,
Figure 906348DEST_PATH_IMAGE008
为真实框的标签,
Figure 591407DEST_PATH_IMAGE009
Figure 146017DEST_PATH_IMAGE010
为超参数,
Figure 482189DEST_PATH_IMAGE011
为焦点损失。
4.一种基于豪斯多夫距离计算距离损失的装置,其特征在于,包括采集模块、训练模块和检测模块: 所述采集模块用于采集待测工业产品上的工业产品图像样本作为工业产品数据集,并将工业产品数据集分为测试集和训练集;
所述训练模块中引入训练豪斯多夫模块,用于采集训练基于豪斯多夫距离的网络模型,所述基于豪斯多夫距离的网络模型包括从前到后依次连接的基于通道注意力模块的ShuffleNetV2网络、RepBlockv2模块和基于豪斯多夫距离设计的无锚点检测头网络;
所述检测模块用于使用训练后的基于豪斯多夫距离的网络模型检测待测工业产品;
所述ShuffleNetV2网络包括从前至后依次设置的卷积层、批标准化层、激活函数层以及若干个ShuffleNet基本单元,并去掉了最后一层卷积,抽取8、16、32倍下采样的特征对工业产品数据集的训练集进行多尺度的特征融合,获取不同尺寸的提取特征图;
所述ShuffleNet基本单元包括从前至后依次设置的卷积层、深度可分离卷积层和特征相加层,去掉了通道随机混合操作模块,设计了通道注意力模块代替;
所述通道注意力模块包括从前至后依次设置的自适应平均池化层、卷积层、ReLU激活函数、批标准化层和Hard-Sigmoid激活函数;
所述Hard-Sigmoid激活函数表示为:
Figure 893579DEST_PATH_IMAGE001
,其中,x为神经元的输出。
CN202211243593.5A 2022-10-12 2022-10-12 一种基于豪斯多夫距离计算距离损失的方法及装置 Active CN115330759B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211243593.5A CN115330759B (zh) 2022-10-12 2022-10-12 一种基于豪斯多夫距离计算距离损失的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211243593.5A CN115330759B (zh) 2022-10-12 2022-10-12 一种基于豪斯多夫距离计算距离损失的方法及装置

Publications (2)

Publication Number Publication Date
CN115330759A CN115330759A (zh) 2022-11-11
CN115330759B true CN115330759B (zh) 2023-03-10

Family

ID=83914026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211243593.5A Active CN115330759B (zh) 2022-10-12 2022-10-12 一种基于豪斯多夫距离计算距离损失的方法及装置

Country Status (1)

Country Link
CN (1) CN115330759B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116259111A (zh) * 2023-05-15 2023-06-13 江西工业贸易职业技术学院 基于vr的体育动作评分方法、系统、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021011315A1 (en) * 2019-07-15 2021-01-21 Facebook Technologies, Llc System and method for shift-based information mixing across channels for shufflenet-like neural networks
CN112766087A (zh) * 2021-01-04 2021-05-07 武汉大学 一种基于知识蒸馏的光学遥感图像舰船检测方法
CN113034548A (zh) * 2021-04-25 2021-06-25 安徽科大擎天科技有限公司 一种适用于嵌入式终端的多目标跟踪方法及其系统
CN113553979A (zh) * 2021-07-30 2021-10-26 国电汉川发电有限公司 一种基于改进yolo v5的安全服检测方法和系统
CN113792643A (zh) * 2021-09-10 2021-12-14 武汉理工大学 活体人脸识别方法及系统
CN113850816A (zh) * 2020-06-28 2021-12-28 中国人民解放军空军军医大学 一种宫颈癌mri图像的分割装置及方法
CN114220456A (zh) * 2021-11-29 2022-03-22 北京捷通华声科技股份有限公司 语音合成模型的生成方法、装置和电子设备
CN114708231A (zh) * 2022-04-11 2022-07-05 常州大学 一种基于轻量化YOLO v5的甘蔗蚜虫目标检测方法
CN114862768A (zh) * 2022-04-14 2022-08-05 长沙理工大学 基于改进YOLOv5-LITE轻量级的配电组件缺陷识别方法
CN115063679A (zh) * 2022-06-15 2022-09-16 电子科技大学 一种基于深度学习的路面质量评估方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019213459A1 (en) * 2018-05-04 2019-11-07 Northeastern University System and method for generating image landmarks
US11195044B2 (en) * 2020-01-12 2021-12-07 Dalian University Of Technology Fully automatic natural image matting method
CN113744178B (zh) * 2020-08-06 2023-10-20 西北师范大学 一种基于卷积注意力模型的皮肤病变分割方法
CN114841244B (zh) * 2022-04-05 2024-03-12 西北工业大学 一种基于鲁棒采样和混合注意力金字塔的目标检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021011315A1 (en) * 2019-07-15 2021-01-21 Facebook Technologies, Llc System and method for shift-based information mixing across channels for shufflenet-like neural networks
CN113850816A (zh) * 2020-06-28 2021-12-28 中国人民解放军空军军医大学 一种宫颈癌mri图像的分割装置及方法
CN112766087A (zh) * 2021-01-04 2021-05-07 武汉大学 一种基于知识蒸馏的光学遥感图像舰船检测方法
CN113034548A (zh) * 2021-04-25 2021-06-25 安徽科大擎天科技有限公司 一种适用于嵌入式终端的多目标跟踪方法及其系统
CN113553979A (zh) * 2021-07-30 2021-10-26 国电汉川发电有限公司 一种基于改进yolo v5的安全服检测方法和系统
CN113792643A (zh) * 2021-09-10 2021-12-14 武汉理工大学 活体人脸识别方法及系统
CN114220456A (zh) * 2021-11-29 2022-03-22 北京捷通华声科技股份有限公司 语音合成模型的生成方法、装置和电子设备
CN114708231A (zh) * 2022-04-11 2022-07-05 常州大学 一种基于轻量化YOLO v5的甘蔗蚜虫目标检测方法
CN114862768A (zh) * 2022-04-14 2022-08-05 长沙理工大学 基于改进YOLOv5-LITE轻量级的配电组件缺陷识别方法
CN115063679A (zh) * 2022-06-15 2022-09-16 电子科技大学 一种基于深度学习的路面质量评估方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SS-YOLO: An Object Detection Algorithm based on YOLOv3 and ShuffleNet;Yong Li etal.;《2020 IEEE 4th Information Technology, Networking, Electronic and Automation Control Conference (ITNEC)》;20200504;全文 *
基于改进卷积神经网络舰船的实时目标检测算法;沈丰毅等;《计算机应用研究》;20201231;全文 *

Also Published As

Publication number Publication date
CN115330759A (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN107977932B (zh) 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法
CN112507777A (zh) 一种基于深度学习的光学遥感图像舰船检测与分割方法
CN108629367B (zh) 一种基于深度网络增强服装属性识别精度的方法
CN110032925B (zh) 一种基于改进胶囊网络与算法的手势图像分割与识别方法
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN106228185A (zh) 一种基于神经网络的通用图像分类识别系统及方法
CN114782311B (zh) 一种基于CenterNet改进的多尺度缺陷目标检测方法及系统
CN110309835B (zh) 一种图像局部特征提取方法及装置
CN110222718B (zh) 图像处理的方法及装置
CN105139004A (zh) 基于视频序列的人脸表情识别方法
CN114841244B (zh) 一种基于鲁棒采样和混合注意力金字塔的目标检测方法
CN111524140B (zh) 基于cnn和随机森林法的医学图像语义分割方法
CN109344898A (zh) 基于稀疏编码预训练的卷积神经网络图像分类方法
CN114419413A (zh) 感受野自适应的变电站绝缘子缺陷检测神经网络构建方法
CN108960260A (zh) 一种分类模型生成方法、医学影像图像分类方法及装置
CN110211127A (zh) 基于双相关性网络的图像分割方法
CN109165698A (zh) 一种面向智慧交通的图像分类识别方法及其存储介质
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN115330759B (zh) 一种基于豪斯多夫距离计算距离损失的方法及装置
CN113392937A (zh) 一种3d点云数据分类方法及其相关装置
CN113870160A (zh) 一种基于变换器神经网络的点云数据处理方法
CN109583289A (zh) 蟹的性别识别方法和装置
CN114612709A (zh) 图像金字塔特征指导的多尺度目标检测方法
CN116363517A (zh) 一种基于改进yolox-s算法的苹果叶片病害检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant