CN113469099A - 目标检测模型的训练方法、检测方法、装置、设备及介质 - Google Patents

目标检测模型的训练方法、检测方法、装置、设备及介质 Download PDF

Info

Publication number
CN113469099A
CN113469099A CN202110790337.7A CN202110790337A CN113469099A CN 113469099 A CN113469099 A CN 113469099A CN 202110790337 A CN202110790337 A CN 202110790337A CN 113469099 A CN113469099 A CN 113469099A
Authority
CN
China
Prior art keywords
feature map
convolution
basic
feature
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110790337.7A
Other languages
English (en)
Other versions
CN113469099B (zh
Inventor
张英
杨一帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hangke Weishi Photoelectric Information Technology Co ltd
Original Assignee
Beijing Hangke Weishi Photoelectric Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hangke Weishi Photoelectric Information Technology Co ltd filed Critical Beijing Hangke Weishi Photoelectric Information Technology Co ltd
Priority to CN202110790337.7A priority Critical patent/CN113469099B/zh
Publication of CN113469099A publication Critical patent/CN113469099A/zh
Application granted granted Critical
Publication of CN113469099B publication Critical patent/CN113469099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4007Interpolation-based scaling, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4046Scaling the whole image or part thereof using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开一种目标检测模型的训练方法、检测方法、装置、设备及介质,其中,训练方法包括:利用辅助卷积特征图分别对基础卷积特征图和基础全连接特征图进行特征融合,得到融合后的卷积特征图和融合后的全连接特征图;将融合后的卷积特征图、融合后的全连接特征图,以及特征尺度依次递减的多个辅助卷积特征图输入目标检测模型的分类回归层,得到样本图像中不同尺度的目标对象的预测类别和预测位置;利用样本图像中所述目标对象的标注类别和预测类别之间的关系,标注位置和预测位置之间的关系,对目标检测模型进行训练,通过采用上述技术方案,有效提升了多尺度目标检测的检出效果。

Description

目标检测模型的训练方法、检测方法、装置、设备及介质
技术领域
本发明实施例涉及目标检测技术领域,具体而言,涉及一种目标检测模型的训练方法、检测方法、装置、设备及介质。
背景技术
目标检测是计算机视觉领域重要的研究方向之一,它主要是通过计算分析定位感兴趣目标,得出每个目标在图像中的类别信息和位置信息,目标检测在自动驾驶,医学影像和安防监控方面等多个领域具有十分重要的应用价值。
传统的目标检测算法通常根据具体任务设计人工特征,然后在滑动窗口上提取图像特征,最后基于这些特征训练分类器,并通过这个分类器来判断滑窗区域是否为目标。但是传统的人工特征很难适应目标的尺度、形态以及外界光照的变化,同时如果外界场景过于复杂,人工特征很难提取有用的信息,该方法计算量大,而且时间复杂度高,没有很好的鲁棒性,很难适应多类目标检测,这导致传统的目标检测技术很难满足目前的目标检测任务需求。
随着深度学习技术的不断发展,基于卷积神经网络的目标检测算法相比于传统的方法能带来很大的提升。该方法利用卷积神经网络从大量数据集中自动学习如何提取有效的特征。与人工特征相比,基于深度学习的目标检测技术能学习到质量更好,更具有鲁棒性的特征,该方法能够将特征提取与特征分类融合在同一个网络模型当中,并通过误差反向传播来进行优化。因此,基于深度学习的目标检测算法逐渐成为计算机视觉领域的研究热点方向。但是,该技术方法在面对多尺度目标、背景复杂等场景依然有改进的空间。如何设计网络模型来提取更加完备的特征,如何改进多尺度目标检测的检测效果等这些问题还亟待解决。
发明内容
本发明实施例提供一种目标检测模型的训练方法、检测方法、装置、设备及介质,有效提升了多尺度目标检测的检出效果。
第一方面,本发明实施提供了一种目标检测模型的训练方法,该方法包括:
对样本图像进行特征提取,得到基础卷积特征图和基础全连接特征图;
利用辅助卷积特征图分别对基础卷积特征图和基础全连接特征图进行特征融合,得到融合后的卷积特征图和融合后的全连接特征图;其中,融合后的卷积特征图的特征尺度与所述基础卷积特征图的特征尺度相同;融合后的全连接特征图的特征尺度与所述基础全连接特征图的特征尺度相同;其中,所述基础全连接特征图的特征尺度小于所述基础卷积特征图的特征尺度,且大于所述辅助卷积特征图的特征尺度;
将所述融合后的卷积特征图、所述融合后的全连接特征图,以及特征尺度依次递减的多个辅助卷积特征图输入目标检测模型的分类回归层,得到样本图像中不同尺度的目标对象的预测类别和预测位置;
利用样本图像中所述目标对象的标注类别和预测类别之间的关系,标注位置和预测位置之间的关系,对所述目标检测模型进行训练,使得训练完成的多尺度目标检测模型建立不同尺度、不同类别的目标对象与其在图像中的位置信息之间的关联关系。
可选的,所述利用辅助卷积特征图分别对基础卷积特征图和基础全连接特征图进行特征融合,包括:
基于双线性差值方法,分别对所述辅助卷积特征图和所述基础全连接特征图进行上采样,得到第一辅助卷积特征图和上采样后的基础全连接特征图;其中,所述第一辅助卷积特征图和上采样后的基础全连接特征图与所述基础卷积特征图特征尺度相同;
将所述第一辅助卷积特征图、所述上采样后的基础全连接特征图,与基础卷积特征图进行拼接,并对拼接后的卷积特征图进行通道数调整,得到与所述基础卷积特征图特征尺度相同的融合后的卷积特征图;
基于双线性差值方法,对所述辅助卷积特征图进行上次样,得到第二辅助卷积特征图;所述第二辅助卷积特征图与所述基础全连接特征图特征尺度相同;
将所述第二辅助卷积特征图和所述基础全连接特征图进行拼接,得到特征融合后的全连接特征图。
可选的,所述目标检测模型还包括预测单元,与所述分类回归层连接,所述预测单元具体通过如下方式来实现:
对于将所述融合后的卷积特征图、所述融合后的全连接特征图,以及特征尺度依次递减的多个辅助卷积中的任意一个特征图,对该特征图先后经过1×1×256和1×1×512的卷积核得到第一特征图,并从该特征提取出输出的特征序列经过1×1×512的残差边得到第二特征图;
通过将第一特征图和第二特征图中的对应的特征信息相加,得到特征增强后的增强特征图;
相应的,将所述增强特征图输入目标检测模型的分类回归层,得到样本图像中不同尺度的目标对象的预测类别和预测位置。
可选的,所述基础卷积图对应的特征尺度为38×38;所述基础全连接图对应的特征尺度为19×19;所述多个辅助卷积图对应的特征尺度分别为10×10、5×5、3×3和1×1。
第二方面,本发明实施例还提供了一种目标检测方法,包括:
获取原始图像数据;
基于训练完成的目标检测模型,对所述原始图像数据进行识别,得到原始图像中的不同尺度、不同类别的目标对象的类别信息和位置信息;
其中,所述目标检测模型采用本发明任意实施例所提供的目标检测模型的训练方法进行训练。
第三方面,本发明实施例还提供了一种目标检测模型的训练装置,该装置包括:
特征提取模块,被配置为对样本图像进行特征提取,得到基础卷积特征图和基础全连接特征图;
特征融合模块,被配置为利用辅助卷积特征图分别对基础卷积特征图和基础全连接特征图进行特征融合,得到融合后的卷积特征图和融合后的全连接特征图;其中,融合后的卷积特征图的特征尺度与所述基础卷积特征图的特征尺度相同;融合后的全连接特征图的特征尺度与所述基础全连接特征图的特征尺度相同;其中,所述基础全连接特征图的特征尺度小于所述基础卷积特征图的特征尺度,且大于所述辅助卷积特征图的特征尺度;
特征增强模块,被配置为将所述融合后的卷积特征图、所述融合后的全连接特征图,以及特征尺度依次递减的多个辅助卷积特征图输入目标检测模型的分类回归层,得到样本图像中不同尺度的目标对象的预测类别和预测位置;
模型训练模块,被配置为利用样本图像中所述目标对象的标注类别和预测类别之间的关系,标注位置和预测位置之间的关系,对所述目标检测模型进行训练,使得训练完成的多尺度目标检测模型建立不同尺度、不同类别的目标对象与其在图像中的位置信息之间的关联关系。
可选的,所述特征融合模块,具体被配置为:
基于双线性差值方法,分别对所述辅助卷积特征图和所述基础全连接特征图进行上采样,得到第一辅助卷积特征图和上采样后的基础全连接特征图;其中,所述第一辅助卷积特征图和上采样后的基础全连接特征图与所述基础卷积特征图特征尺度相同;
将所述第一辅助卷积特征图、所述上采样后的基础全连接特征图,与基础卷积特征图进行拼接,并对拼接后的卷积特征图进行通道数调整,得到与所述基础卷积特征图特征尺度相同的融合后的卷积特征图;
基于双线性差值方法,对所述辅助卷积特征图进行上次样,得到第二辅助卷积特征图;所述第二辅助卷积特征图与所述基础全连接特征图特征尺度相同;
将所述第二辅助卷积特征图和所述基础全连接特征图进行拼接,得到特征融合后的全连接特征图。
可选的,所述目标检测模型还包括预测单元,与所述分类回归层连接,所述预测单元具体通过如下方式来实现:
对于将所述融合后的卷积特征图、所述融合后的全连接特征图,以及特征尺度依次递减的多个辅助卷积中的任意一个特征图,对该特征图先后经过1×1×256和1×1×512的卷积核得到第一特征图,并从该特征提取出输出的特征序列经过1×1×512的残差边得到第二特征图;
通过将第一特征图和第二特征图中的对应的特征信息相加,得到特征增强后的增强特征图;
相应的,将所述增强特征图输入目标检测模型的分类回归层,得到样本图像中不同尺度的目标对象的预测类别和预测位置。
可选的,所述基础卷积图对应的特征尺度为38×38;所述基础全连接图对应的特征尺度为19×19;所述多个辅助卷积图对应的特征尺度分别为10×10、5×5、3×3和1×1。
第四方面,本发明实施例还提供了一种目标检测装置,包括:
图像获取模块,被配置为获取原始图像数据;
目标检测模块,被配置为基于训练完成的目标检测模型,对所述原始图像数据进行识别,得到原始图像中的不同尺度、不同类别的目标对象的类别信息和位置信息;
其中,所述目标检测模型采用本发明任意实施例所提供的目标检测模型进行训练。
第五方面,本发明实施例还提供了一种计算设备,包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明任意实施例所提供的目标检测模型的训练方法。
第六方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的目标检测模型的训练方法。
第七方面,本发明实施例还提供了一种计算设备,包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明任意实施例所提供的目标检测方法。
第八方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的目标检测方法。
本发明实施例提供的技术方案,充分利用了不同特征层之间的信息,使得深层具有语义信息的特征层与浅层的特征层进行充分的融合,可以有效地对小目标物体进行检测。本发明实施例中通过采用六种不同尺度的特征层负责检测不同尺度的目标物体,可对检测目标的尺度覆盖连续、全面。此外,本发明实施例提出的分类回归层进一步提升了网络框架的检出率。并且,本发明实施例该提供的多尺度目标检测模型,网络模型简单,简单有效,非常方便在嵌入式设备上进行移植应用。
本发明实施例的创新点包括:
1、通过使深层具有语义信息的特征层与浅层的特征层进行充分的融合,可以提高地对小目标物体的检测率,是本发明实施例的创新点之一。
2、预测单元通过对特征图先后经过1×1×256和1×1×512的卷积核得到第一特征图,并利用残差边对特征图经过1×1×512的卷积核得到第二特征图;通过将第一特征图和第二特征图中的对应的特征信息相加,得到特征增强后的增强特征图,进一步增强了目标检测模型对多尺度目标的检出能力,是本发明实施例的创新点之一。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例一提供的一种目标检测模型的训练方法的流程图;
图1b为本发明实施例一提供的一种多尺度目标检测模型的框架示意图;
图1c为本发明实施例一提供的一种残差结构的示意图;
图2a为本发明实施例二提供的一种多尺度目标检测方法的流程示意图;
图2b为本发明实施例二提供的一种利用多尺度目标检测模型进行目标检测的结果示意图;
图3为本发明实施例三提供的一种目标检测模型的训练装置的结构框图;
图4为本发明实施例四提供的一种目标检测装置的结构框图;
图5是本发明实施例五提供的一种计算设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种目标检测模型的训练方法、检测方法、装置、设备及介质。以下分别进行详细说明。
图1a为本发明实施例一提供的一种目标检测模型的训练方法的流程图,该方法可应用于多尺度目标检测、背景复杂等场景下。该方法可通过目标检测模型的训练装置来执行,该装置可通过软件和/或硬件的方式来实现。如图1a所示,该方法包括:
100、对样本图像进行特征提取,得到基础卷积特征图和基础全连接特征图。
其中,可采用基础卷积层和基础全连接层分别来自VGG-16(Visual GeometryGroup Network,视觉几何群网络)对样本图像进行特征提取,得到基础卷积特征图和基础全连接特征图。其中,基础卷积特征图可以是经过VGG-16中的第Conv4_3卷积层后得到的特征图,该基础卷积特征图的特征尺度可为38×38,主要负责检测小尺度目标物体。基础全连接特征图可以是经过VGG-16第FC7全连接成得到的特征图,该基础全连接特征图对应的特征尺度可以为19×19。
110、利用辅助卷积特征图分别对基础卷积特征图和基础全连接特征图进行特征融合,得到融合后的卷积特征图和融合后的全连接特征图。
其中,辅助卷积特征图可以是经过神经网络的卷积层进行特征提取后得到的卷积特征图。为了覆盖目标物体对应的区域,本实施例中,可采用特征尺度可以为10×10、5×5、3×3和1×1的特征图作为辅助卷积特征图。本实施例采用上述特征图,可实现对不同尺度的目标物体的有效识别。
具体的,对于上述卷积特征图Conv4_3,为了使得该特征特征图所包含有更多的语义信息,以加强对小目标物体的检测效果,本实施例采用特征融合的方式将具有深层语义信息的辅助卷积特征图与该卷积特征图Conv4_3进行了充分的融合。其中,可从上述多个辅助卷积特征图中选择任意一个特征图进行特征融合,优选的,可选择特征尺度为10×10的辅助卷积特征图。
示例性的,特征融合的具体方式可以为:基于双线性差值方法,对辅助卷积特征图和基础全连接特征图进行上采样,得到第一辅助卷积特征图和上采样后的基础全连接特征图;其中,第一辅助卷积特征图和上采样后的基础全连接特征图与基础卷积特征图特征尺度相同。将第一辅助卷积特征图、上采样后的基础全连接特征图,与基础卷积特征图进行拼接,并对拼接后的卷积特征图进行通道数调整,得到与基础卷积特征图特征尺度相同的融合后的卷积特征图。其中,拼接操作可通过深度神经网络中的拼接Concatenate函数来实现,以对图像进行通道数合并。
具体的,对拼接后的卷积特征图进行通道数调整时,可采用1×1×512卷积核,以使特征融合后的卷积层的特征尺度与基础卷积特征图Conv4_3的特征尺度(38×38×512)相同。
对于基础全连接特征图FC7,为了使得该特征特征图所包含有更多的语义信息,以加强对小目标物体的检测效果,可采用与基础卷积层类似的特征融合方法,具体可以为:
基于双线性差值方法,对辅助卷积特征图进行上次样,得到第二辅助卷积特征图;其中,第二辅助卷积特征图与基础全连接特征图的特征尺度相同;将第二辅助卷积特征图和基础全连接特征图进行拼接,得到特征融合后的全连接特征图。
120、将融合后的卷积特征图、融合后的全连接特征图,以及特征尺度不同的多个辅助卷积特征图输入目标检测模型的分类回归层,得到样本图像中不同尺度的目标对象的预测类别和预测位置。
具体的,图1b为本发明实施例一提供的一种多尺度目标检测模型的框架示意图。如图1b所示,输入图像依次经过特征融合的卷积特征图E_Con4_3,特征融合后的全连接特征图E_FC7以及特征尺度递减的多个辅助卷积特征图Conv6_2、Conv7_2、Conv8_2和Conv9_2,以对图像中不同尺度的目标按照特征尺度从大到小的方式进行检测。
本实施例中,为了进一步提升该网络模型的检测精度,本实施例通过预预测单元与各特征提取层连接,以对各特征提取层输出的特征信息进行进一步整合,从而可以将深层的语义信息与全局信息添加到浅层特征层中去,增强了神经网络对小物体的位置敏感程度。其中,该预测单元可以是由1×1的卷积核,以及1×1的残差边所构成的残差结构。图1c为本发明实施例一提供的一种残差结构的示意图,如图1c所示,该残差结构具体通过如下方式来实现:
对于任意一个特征图,从该特征图先后经过1×1×256和1×1×512的卷积核得到第一特征图,并利用残差边,将该特征经过1×1×512的卷积核得到第二特征层;通过将第一特征层和第二特征层中的对应的特征信息进行Eltw Sum操作,即对应元素对应相加的方法,得到具有分类(classification,CLS)和回归单元的特征图。其中,分类损失利用的是交叉熵损失函数,回归单元具体指位置(location,LOC)回归,位置损失利用的是Smooth L1函数。
如图1b所示,预测单元PM,负责检测不同尺度目标的特征图E_Con4_3,E_FC7,Conv6_2,Conv7_2,Conv8_2和Conv9_2进行进一步特征信息整合,从而进一步增强网络模型对多尺度目标的检出能力。
本实施例中,预测单元与分类归回层连接,该分类回归层包括探测模块和非极大值抑制操作模块。具体的的,如图1b所示,在经过预测单元PM后,通过探测模块Detections对经过PM预测模块后的多尺度特征信息进行分类和回归操作,得到不同尺度目标的类别信息和位置置信度,通过NMS(Non-Maximum Suppression,非极大值抑制操作)模块,可提取出置信度最高的目标检测框,而抑制置信度低的误检框。
130、利用样本图像中目标对象的标注类别和预测类别之间的关系,标注位置和预测位置之间的关系,对目标检测模型进行训练,使得训练完成的多尺度目标检测模型建立不同尺度、不同类别的目标对象与其在图像中的位置信息之间的关联关系。
其中,图像样本集为大量标注有不同尺度、不同类别及其位置信息的图像数据。利用图像样本集进行模型训练主要包括前向传播阶段和反向传播阶段。其中,前向传播是根据输入样本数据得到输出的过程。反向传播主要是对代价函数进行反向求导,需要不断迭代来更新神经元前面的参数和偏差,进行误差反向传播,利用得到的残差来对权值和偏置进行更新,当损失函数loss值不再下降,达到收敛的时候表明可以结束训练,网络已收敛。其中,模型可利用交叉熵损失函数和smooth L1进行分类和位置回归。
本实施例提供的技术方案,充分利用了不同特征层之间的信息,使得深层具有语义信息的特征层与浅层的特征层进行了充分的融合,可以很好地对小目标物体进行检测。该发明采用六种不同尺度的特征层负责检测不同尺度的目标物体,对检测目标的尺度覆盖连续、全面。此外,本发明实施例发明提出的预测单元进一步提升了网络框架的检出率。本发明实施例该提供的出的多尺度目标检测模型,网络模型简单,简单有效,非常方便在嵌入式设备上进行移植应用。
实施例二
图2a为本发明实施例二提供的一种多尺度目标检测方法的流程示意图,该方法可以通过多尺度目标检测装置来执行,该装置可通过软件和/或硬件的方式来实现。如图2a所示,本实施例提供的多尺度目标检测方法具体包括:
210、获取原始图像数据。
220、基于训练完成的目标检测模型,对原始图像数据进行识别,得到原始图像中的不同尺度、不同类别的目标对象的类别信息和位置信息。
具体的,基于训练完成的目标检测模型,可先对原始图像数据进行特征提取,得到特征尺度依次递减的多个特征图,该特征图中包括经过卷积层得到的基础卷积特征图、经过全连接层后得到的基础全连接特征图,以及经过其他卷积层后得到的辅助卷积特征图。
利用辅助卷积特征图分别对基础卷积特征图和基础全连接特征图进行特征融合,得到融合后的卷积特征图和融合后的全连接特征图;其中,融合后的卷积特征图的特征尺度与所述基础卷积特征图的特征尺度相同;融合后的全连接特征图的特征尺度与所述基础全连接特征图的特征尺度相同;其中,所述基础全连接特征图的特征尺度小于所述基础卷积特征图的特征尺度,且大于所述辅助卷积特征图的特征尺度;
将所述融合后的卷积特征图、所述融合后的全连接特征图,以及特征尺度依次递减的多个辅助卷积特征图输入已完成训练的目标检测模型的分类回归层,得到原始图像中不同尺度的目标对象的类别信息和位置信息。
其中,目标检测模型的训练方法具体可参照上述实施例的说明,此处不再赘述。多尺度目标检测模型训练完成后,即建立了不同尺度、不同类别的目标对象与其在图像中的位置信息之间的关联关系。对于输入的图像数据,可利用该多尺度目标检测模型得到不同尺度、不同类别的目标对象在图像中的类别信息和位置信息。
具体的,图2b为本发明实施例二提供的一种利用多尺度目标检测模型进行目标检测的结果示意图。如图2b所示,多尺度目标检测模型可输出不同尺度、不同类别的目标对象在图像中类别置信度和位置检测框,并通过NMS方法提取置信度最高的目标检测框,如图2b中目标物体,如不同尺度的汽车(car)、不同尺度的人(person)、不同尺度的摩托车(motorbike)对应的目标检测框。
本实施例提供的技术方案,通过利用已经训练完成的目标检测模型识别图像数据,可得到图像中不同类别、不同尺度的目标物体在图像中的位置信息。由于目标检测模型在训练过程中经过了深层具有语义信息的特征层与浅层特征的充分融合,因此可以实现对图像中小目标物体进行有效检测,并且多尺度目标检测模型中的预测模块可进一步提升了网络框架的检出率。
实施例三
图3为本发明实施例三提供的一种目标检测模型的训练装置的结构框图,如图3所示,该装置包括:特征提取模块300、特征融合模块310、特征增强模块320和模型训练模块330;其中,
特征提取模块300,被配置为对样本图像进行特征提取,得到基础卷积特征图和基础全连接特征图;
特征融合模块310,被配置为利用辅助卷积特征图分别对基础卷积特征图和基础全连接特征图进行特征融合,得到融合后的卷积特征图和融合后的全连接特征图;其中,融合后的卷积特征图的特征尺度与所述基础卷积特征图的特征尺度相同;融合后的全连接特征图的特征尺度与所述基础全连接特征图的特征尺度相同;其中,所述基础全连接特征图的特征尺度小于所述基础卷积特征图的特征尺度,且大于所述辅助卷积特征图的特征尺度;
特征增强模块320,被配置为将所述融合后的卷积特征图、所述融合后的全连接特征图,以及特征尺度依次递减的多个辅助卷积特征图输入目标检测模型的分类回归层,得到样本图像中不同尺度的目标对象的预测类别和预测位置;
模型训练模块330,被配置为利用样本图像中所述目标对象的标注类别和预测类别之间的关系,标注位置和预测位置之间的关系,对所述目标检测模型进行训练,使得训练完成的多尺度目标检测模型建立不同尺度、不同类别的目标对象与其在图像中的位置信息之间的关联关系。
可选的,所述特征融合模块,具体被配置为:
基于双线性差值方法,分别对所述辅助卷积特征图和所述基础全连接特征图进行上采样,得到第一辅助卷积特征图和上采样后的基础全连接特征图;其中,所述第一辅助卷积特征图和上采样后的基础全连接特征图与所述基础卷积特征图特征尺度相同;
将所述第一辅助卷积特征图、所述上采样后的基础全连接特征图,与基础卷积特征图进行拼接,并对拼接后的卷积特征图进行通道数调整,得到与所述基础卷积特征图特征尺度相同的融合后的卷积特征图;
基于双线性差值方法,对所述辅助卷积特征图进行上次样,得到第二辅助卷积特征图;所述第二辅助卷积特征图与所述基础全连接特征图特征尺度相同;
将所述第二辅助卷积特征图和所述基础全连接特征图进行拼接,得到特征融合后的全连接特征图。
可选的,所述目标检测模型还包括预测单元,与所述分类回归层连接,所述预测单元具体通过如下方式来实现:
对于将所述融合后的卷积特征图、所述融合后的全连接特征图,以及特征尺度依次递减的多个辅助卷积中的任意一个特征图,对该特征图先后经过1×1×256和1×1×512的卷积核得到第一特征图,并从该特征提取出输出的特征序列经过1×1×512的残差边得到第二特征图;
通过将第一特征图和第二特征图中的对应的特征信息相加,得到特征增强后的增强特征图;
相应的,将所述增强特征图输入目标检测模型的分类回归层,得到样本图像中不同尺度的目标对象的预测类别和预测位置。
可选的,所述基础卷积图对应的特征尺度为38×38;所述基础全连接图对应的特征尺度为19×19;所述多个辅助卷积图对应的特征尺度分别为10×10、5×5、3×3和1×1。
本发明实施例所提供的目标检测模型的训练装置可执行本发明任意实施例所提供的目标检测模型的训练方法,具备执行方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的目标检测模型的训练方法。
实施例四
图4为本发明实施例四提供的一种目标检测装置的结构框图,如图4所示,该装置包括:图像获取模块410和目标检测模块420;其中,
图像获取模块410,被配置为获取原始图像数据;
目标检测模块420,被配置为基于训练完成的目标检测模型,对所述原始图像数据进行识别,得到原始图像中的不同尺度、不同类别的目标对象的类别信息和位置信息;
其中,所述多目标检测模型采用本发明任意实施例所提供的目标检测模型进行训练。
本发明实施例所提供的目标检测装置可执行本发明任意实施例所提供的目标检测方法,具备执行方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的目标检测方法。
实施例五
请参阅图5,图5是本发明实施例五提供的一种计算设备的结构示意图。如图5所示,该计算设备可以包括:
存储有可执行程序代码的存储器701;
与存储器701耦合的处理器702;
其中,处理器702调用存储器701中存储的可执行程序代码,执行本发明任意实施例所提供的目标检测模型的训练方法。
本发明实施例还公开了一种计算设备,该计算设备可以包括:
存储有可执行程序代码的存储器;
与存储器耦合的处理器;
其中,处理器调用存储器中存储的可执行程序代码,执行本发明任意实施例所提供的目标检测方法。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行本发明任意实施例所提供的目标检测模型的训练方法。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行本发明任意实施例所提供的目标检测方法。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (10)

1.一种目标检测模型的训练方法,其特征在于,包括:
对样本图像进行特征提取,得到基础卷积特征图和基础全连接特征图;
利用辅助卷积特征图分别对基础卷积特征图和基础全连接特征图进行特征融合,得到融合后的卷积特征图和融合后的全连接特征图;其中,融合后的卷积特征图的特征尺度与所述基础卷积特征图的特征尺度相同;融合后的全连接特征图的特征尺度与所述基础全连接特征图的特征尺度相同;其中,所述基础全连接特征图的特征尺度小于所述基础卷积特征图的特征尺度,且大于所述辅助卷积特征图的特征尺度;
将所述融合后的卷积特征图、所述融合后的全连接特征图,以及特征尺度依次递减的多个辅助卷积特征图输入目标检测模型的分类回归层,得到样本图像中不同尺度的目标对象的预测类别和预测位置;
利用样本图像中所述目标对象的标注类别和预测类别之间的关系,标注位置和预测位置之间的关系,对所述目标检测模型进行训练,使得训练完成的多尺度目标检测模型建立不同尺度、不同类别的目标对象与其在图像中的位置信息之间的关联关系。
2.根据权利要求1所述的方法,其特征在于,所述利用辅助卷积特征图分别对基础卷积特征图和基础全连接特征图进行特征融合,包括:
基于双线性差值方法,分别对所述辅助卷积特征图和所述基础全连接特征图进行上采样,得到第一辅助卷积特征图和上采样后的基础全连接特征图;其中,所述第一辅助卷积特征图和上采样后的基础全连接特征图与所述基础卷积特征图特征尺度相同;
将所述第一辅助卷积特征图、所述上采样后的基础全连接特征图,与基础卷积特征图进行拼接,并对拼接后的卷积特征图进行通道数调整,得到与所述基础卷积特征图特征尺度相同的融合后的卷积特征图;
基于双线性差值方法,对所述辅助卷积特征图进行上次样,得到第二辅助卷积特征图;所述第二辅助卷积特征图与所述基础全连接特征图特征尺度相同;
将所述第二辅助卷积特征图和所述基础全连接特征图进行拼接,得到特征融合后的全连接特征图。
3.根据权利要求1所述的方法,其特征在于,所述目标检测模型还包括预测单元,与所述分类回归层连接,所述预测单元具体通过如下方式来实现:
对于将所述融合后的卷积特征图、所述融合后的全连接特征图,以及特征尺度依次递减的多个辅助卷积中的任意一个特征图,对该特征图先后经过1×1×256和1×1×512的卷积核得到第一特征图,并从该特征提取出输出的特征序列经过1×1×512的残差边得到第二特征图;
通过将第一特征图和第二特征图中的对应的特征信息相加,得到特征增强后的增强特征图;
相应的,将所述增强特征图输入目标检测模型的分类回归层,得到样本图像中不同尺度的目标对象的预测类别和预测位置。
4.一种目标检测方法,其特征在于,包括:
获取原始图像数据;
基于训练完成的目标检测模型,对所述原始图像数据进行识别,得到原始图像中的不同尺度、不同类别的目标对象的类别信息和位置信息;
其中,所述目标检测模型采用如权利要求1-3任一所述的目标检测模型的训练方法进行训练。
5.一种目标检测模型的训练装置,其特征在于,包括:
特征提取模块,被配置为对样本图像进行特征提取,得到基础卷积特征图和基础全连接特征图;
特征融合模块,被配置为利用辅助卷积特征图分别对基础卷积特征图和基础全连接特征图进行特征融合,得到融合后的卷积特征图和融合后的全连接特征图;其中,融合后的卷积特征图的特征尺度与所述基础卷积特征图的特征尺度相同;融合后的全连接特征图的特征尺度与所述基础全连接特征图的特征尺度相同;其中,所述基础全连接特征图的特征尺度小于所述基础卷积特征图的特征尺度,且大于所述辅助卷积特征图的特征尺度;
特征增强模块,被配置为将所述融合后的卷积特征图、所述融合后的全连接特征图,以及特征尺度依次递减的多个辅助卷积特征图输入目标检测模型的分类回归层,得到样本图像中不同尺度的目标对象的预测类别和预测位置;
模型训练模块,被配置为利用样本图像中所述目标对象的标注类别和预测类别之间的关系,标注位置和预测位置之间的关系,对所述目标检测模型进行训练,使得训练完成的多尺度目标检测模型建立不同尺度、不同类别的目标对象与其在图像中的位置信息之间的关联关系。
6.一种目标检测装置,其特征在于,包括:
图像获取模块,被配置为获取原始图像数据;
目标检测模块,被配置为基于训练完成的目标检测模型,对所述原始图像数据进行识别,得到原始图像中的不同尺度、不同类别的目标对象的类别信息和位置信息;
其中,所述多尺度目标检测模型采用如权利要求1-3任一所述的目标检测模型的训练方法进行训练。
7.一种计算设备,其特征在于,所述计算设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3任一所述的目标检测模型的训练方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3任一所述的目标检测模型的训练方法。
9.一种计算设备,其特征在于,所述计算设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求4所述的目标检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求4所述的目标检测方法。
CN202110790337.7A 2021-07-13 2021-07-13 目标检测模型的训练方法、检测方法、装置、设备及介质 Active CN113469099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110790337.7A CN113469099B (zh) 2021-07-13 2021-07-13 目标检测模型的训练方法、检测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110790337.7A CN113469099B (zh) 2021-07-13 2021-07-13 目标检测模型的训练方法、检测方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113469099A true CN113469099A (zh) 2021-10-01
CN113469099B CN113469099B (zh) 2024-03-15

Family

ID=77880241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110790337.7A Active CN113469099B (zh) 2021-07-13 2021-07-13 目标检测模型的训练方法、检测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113469099B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457540A (zh) * 2022-11-11 2022-12-09 整数智能信息技术(杭州)有限责任公司 点云目标检测模型的构建方法、目标检测标注方法及装置
CN115841587A (zh) * 2022-10-24 2023-03-24 智慧眼科技股份有限公司 图像分类任务的特征提取方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510012A (zh) * 2018-05-04 2018-09-07 四川大学 一种基于多尺度特征图的目标快速检测方法
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法
CN111738052A (zh) * 2020-04-13 2020-10-02 上海海洋大学 基于深度学习的多特征融合高光谱遥感地物分类方法
CN112529904A (zh) * 2019-09-18 2021-03-19 华为技术有限公司 图像语义分割方法、装置、计算机可读存储介质和芯片
CN112580664A (zh) * 2020-12-15 2021-03-30 哈尔滨理工大学 一种基于ssd网络的小目标检测方法
CN112733942A (zh) * 2021-01-13 2021-04-30 北京航空航天大学 一种基于多级特征自适应融合的变尺度目标检测方法
CN112785564A (zh) * 2021-01-15 2021-05-11 武汉纺织大学 一种基于机械臂的行人检测跟踪系统与方法
CN112801230A (zh) * 2021-04-07 2021-05-14 国网江西省电力有限公司电力科学研究院 一种配电线路无人机智能验收方法
CN112949673A (zh) * 2019-12-11 2021-06-11 四川大学 一种基于全局注意力的特征融合目标检测与识别方法
CN113052188A (zh) * 2021-03-26 2021-06-29 大连理工大学人工智能大连研究院 一种遥感图像目标检测方法、系统、设备以及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510012A (zh) * 2018-05-04 2018-09-07 四川大学 一种基于多尺度特征图的目标快速检测方法
CN112529904A (zh) * 2019-09-18 2021-03-19 华为技术有限公司 图像语义分割方法、装置、计算机可读存储介质和芯片
CN112949673A (zh) * 2019-12-11 2021-06-11 四川大学 一种基于全局注意力的特征融合目标检测与识别方法
CN111738052A (zh) * 2020-04-13 2020-10-02 上海海洋大学 基于深度学习的多特征融合高光谱遥感地物分类方法
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法
CN112580664A (zh) * 2020-12-15 2021-03-30 哈尔滨理工大学 一种基于ssd网络的小目标检测方法
CN112733942A (zh) * 2021-01-13 2021-04-30 北京航空航天大学 一种基于多级特征自适应融合的变尺度目标检测方法
CN112785564A (zh) * 2021-01-15 2021-05-11 武汉纺织大学 一种基于机械臂的行人检测跟踪系统与方法
CN113052188A (zh) * 2021-03-26 2021-06-29 大连理工大学人工智能大连研究院 一种遥感图像目标检测方法、系统、设备以及存储介质
CN112801230A (zh) * 2021-04-07 2021-05-14 国网江西省电力有限公司电力科学研究院 一种配电线路无人机智能验收方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张晓: "轮廓检测深度学习模型的多尺度特征解码网络", 广西科技大学学报, vol. 32, no. 03, 22 June 2021 (2021-06-22), pages 60 - 66 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841587A (zh) * 2022-10-24 2023-03-24 智慧眼科技股份有限公司 图像分类任务的特征提取方法、装置、设备及存储介质
CN115841587B (zh) * 2022-10-24 2023-11-24 智慧眼科技股份有限公司 图像分类任务的特征提取方法、装置、设备及存储介质
CN115457540A (zh) * 2022-11-11 2022-12-09 整数智能信息技术(杭州)有限责任公司 点云目标检测模型的构建方法、目标检测标注方法及装置

Also Published As

Publication number Publication date
CN113469099B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN111126258B (zh) 图像识别方法及相关装置
CN111178183B (zh) 人脸检测方法及相关装置
CN111126399B (zh) 一种图像检测方法、装置、设备及可读存储介质
CN112132119B (zh) 客流统计方法、装置、电子设备和存储介质
CN112132156A (zh) 多深度特征融合的图像显著性目标检测方法及系统
CN110660102B (zh) 基于人工智能的说话人识别方法及装置、系统
CN113591872A (zh) 一种数据处理系统、物体检测方法及其装置
CN113469099A (zh) 目标检测模型的训练方法、检测方法、装置、设备及介质
CN114049512A (zh) 模型蒸馏方法、目标检测方法、装置及电子设备
CN113781164B (zh) 虚拟试衣模型训练方法、虚拟试衣方法和相关装置
CN111444850A (zh) 一种图片检测的方法和相关装置
CN115019181B (zh) 遥感图像旋转目标检测方法、电子设备及存储介质
CN113516113A (zh) 一种图像内容识别方法、装置、设备及存储介质
CN111783716A (zh) 基于姿态信息的行人检测方法、系统、装置
CN111310531A (zh) 图像分类方法、装置、计算机设备及存储介质
CN115719428A (zh) 基于分类模型的人脸图像聚类方法、装置、设备及介质
CN116092179A (zh) 一种改进的yolox跌倒检测系统
CN115311680A (zh) 人体图像质量检测方法、装置、电子设备及存储介质
CN115294467A (zh) 茶叶病害的检测方法及相关装置
CN114662605A (zh) 基于改进的YOLOv5模型的火焰检测方法
CN114359892A (zh) 三维目标检测方法、装置及计算机可读存储介质
CN114387496A (zh) 一种目标检测方法和电子设备
CN113469100A (zh) 一种复杂背景下目标检测方法、装置、设备及介质
CN111191575A (zh) 一种基于火苗跳动建模的明火检测方法及系统
CN113569600A (zh) 物体重识别的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant