CN116994030A - 目标检测模型的训练方法、检测方法、装置、设备、介质 - Google Patents
目标检测模型的训练方法、检测方法、装置、设备、介质 Download PDFInfo
- Publication number
- CN116994030A CN116994030A CN202310729792.5A CN202310729792A CN116994030A CN 116994030 A CN116994030 A CN 116994030A CN 202310729792 A CN202310729792 A CN 202310729792A CN 116994030 A CN116994030 A CN 116994030A
- Authority
- CN
- China
- Prior art keywords
- image
- training
- target
- network
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 364
- 238000012549 training Methods 0.000 title claims abstract description 361
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000000605 extraction Methods 0.000 claims abstract description 81
- 238000005259 measurement Methods 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000003379 elimination reaction Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000002776 aggregation Effects 0.000 description 6
- 238000004220 aggregation Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了目标检测模型的训练方法、目标检测方法、装置、设备、介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于智慧城市等场景。具体实现方案为:获取训练图像以及训练图像对应的训练标签;根据训练图像以及训练图像对应的训练标签对目标检测训练模型进行训练,获取预训练的目标检测模型;目标检测训练模型包括目标检测模型以及检索网络;目标检测训练模型至少根据度量学习损失进行训练,度量学习损失根据目标框对应的检测图像特征和目标框对应的检索图像特征确定;目标框对应的检测图像特征根据特征提取网络获取;目标框对应的检索图像特征根据检索网络获取。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于智慧城市等场景。具体而言,本公开涉及一种目标检测模型的训练方法、检测方法、装置、设备、介质。
背景技术
随着技术的发展,一些业务,如快消品行业的业务,开始逐步摆脱传统人工检查及统计等耗时耗力的方法,而是借助人工智能图像识别技术提升业务的速度和精度。
由于快消品种类丰富、应用场景复杂,因此,快消品行业的业务对图像识别的精度要求较高。
发明内容
本公开提供了一种目标检测模型的训练方法、目标检测方法、装置、设备、介质。
根据本公开的第一方面,提供了一种目标检测模型的训练方法,该方法包括:
获取训练图像以及所述训练图像对应的训练标签;所述训练图像对应的训练标签包括所述训练图像中目标对应的目标框的位置以及所述目标框中目标所属的类别;
根据所述训练图像以及所述训练图像对应的训练标签对目标检测训练模型进行训练,获取预训练的目标检测模型;
所述目标检测训练模型包括目标检测模型以及检索网络;所述目标检测模型包括特征提取网络和分类回归网络;所述目标检测训练模型至少根据度量学习损失进行训练,所述度量学习损失根据所述目标框对应的检测图像特征和所述目标框对应的检索图像特征确定;所述目标框对应的检测图像特征根据所述特征提取网络获取;所述目标框对应的检索图像特征根据所述检索网络获取。
根据本公开的第二方面,提供了一种目标检测方法,该方法包括:
获取待检测图像,将所述待检测图像输入预训练的目标检测模型,获取预测框的位置以及所述预测框内目标所属的类别;
其中,所述目标检测模型基于上述的目标检测模型的训练方法获取。
根据本公开第三方面,提供了一种目标检测模型的训练装置,该装置包括:
数据模块,用于获取训练图像以及所述训练图像对应的训练标签;所述训练图像对应的训练标签包括所述训练图像中目标对应的目标框的位置以及所述目标框中目标所属的类别;
训练模块,用于根据所述训练图像以及所述训练图像对应的训练标签对目标检测训练模型进行训练,获取预训练的目标检测模型;
所述目标检测训练模型包括目标检测模型以及检索网络;所述目标检测模型包括特征提取网络和分类回归网络;所述目标检测训练模型至少根据度量学习损失进行训练,所述度量学习损失根据所述目标框对应的检测图像特征和所述目标框对应的检索图像特征确定;所述目标框对应的检测图像特征根据所述特征提取网络获取;所述目标框对应的检索图像特征根据所述检索网络获取。
根据本公开第四方面,提供了一种目标检测装置,该装置包括:
推理模块,用于获取待检测图像,将所述待检测图像输入预训练的目标检测模型,获取预测框的位置以及所述预测框内目标所属的类别;
其中,所述目标检测模型基于上述的目标检测模型的训练装置获取。
根据本公开的第五方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与上述至少一个处理器通信连接的存储器;其中,
存储器存储有可被上述至少一个处理器执行的指令,指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行上述目标检测方法和/或目标检测模型的训练方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使计算机执行上述目标检测方法和/或目标检测模型的训练方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述目标检测方法和/或目标检测模型的训练方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种目标检测网络的训练方法的流程示意图;
图2是本公开实施例提供的一种目标检测训练模型的结构的示意图;
图3是本公开实施例提供的另一种目标检测网络的训练方法的部分步骤的流程示意图;
图4是本公开实施例提供的一种目标检测方法的流程示意图;
图5是本公开实施例提供的另一种目标检测方法的部分步骤的流程示意图;
图6本公开实施例提供的一种目标检测网络的训练装置的结构示意图;
图7是本公开实施例提供的一种目标检测装置的结构示意图;
图8是用来实现本公开实施例的目标检测方法和目标检测网络的训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在一些相关技术中,使用基于卷积神经网络的目标检测模型进行图像识别。
基于卷积神经网络的目标检测模型可以简单分为一阶段检测模型和二阶段检测模型。
一阶段检测模型中应用较为广泛的是PPYOLOE(一种性能极佳的产业级目标检测器)模型,其性能Sota(目前最高水平)且部署相对友好。二阶段检测模型中应用较为广泛的是Faster-RCNN(检测速度较快的区域卷积神经网络)模型,其能够用近乎实时的速度实现目标检测。
在实际的工业实践中,为了追求更高的检测精度,往往会通过两步法来进行目标检测,即第一步训练一个通用类别为1的目标检测模型,再训练一个高精度的检索模型,通过将待检测图像输入独立的通用目标检测模型后,将目标检测模型输出结果输入检索模型获取高精度的目标检测结果。
本公开实施例提供的目标检测模型的训练方法、目标检测方法、目标检测模型的训练装置、目标检测装置、电子设备、计算机可读存储介质,旨在解决现有技术的如上技术问题中的至少一个。
本公开实施例提供的目标检测模型的训练方法、目标检测方法可以由终端设备或服务器等电子设备执行,终端设备可以为车载设备、用户设备(UserEquipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(PersonalDigitalAssistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,所述方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。或者,可通过服务器执行所述方法。
图1示出了本公开实施例提供的目标检测模型的训练方法的流程示意图。如图1中所示,本公开实施例的目标检测方法可以包括步骤S110、步骤S120。
在步骤S110中,获取训练图像以及训练图像对应的训练标签;训练图像对应的训练标签包括训练图像中目标对应的目标框的位置以及目标框中目标所属的类别;
在步骤S120中,根据训练图像以及训练图像对应的训练标签对目标检测训练模型进行训练,获取预训练的目标检测模型;
目标检测训练模型包括目标检测模型以及检索网络;目标检测模型包括特征提取网络和分类回归网络;目标检测训练模型至少根据度量学习损失进行训练,度量学习损失根据目标框对应的检测图像特征和目标框对应的检索图像特征确定;目标框对应的检测图像特征根据特征提取网络获取;目标框对应的检索图像特征根据检索网络获取。
举例来说,在步骤S110中,训练图像可以是快消品行业的相关图像,如可以是安装在仓库等物品存储地的摄像装置拍摄的图像。训练图像中可以包括一种或多种物品(如快消货品等)。
训练图像对应的训练标签中训练图像中目标对应的目标框的位置可以是训练图像中物品的位置,目标框中目标所属的类别可以是物品所属的类别。
在一些可能的实现方式中,获取的目标检测模型可以用于计算快消货品在物品存储地的位置以及货品所属的类别,根据快消货品所属的类别可以对快消货品进行统计,根据物品存储地的位置以及快消货品所属的类别可以对快消货品进行分拣等,进而减少人工统计和分拣造成的人力资源和时间资源的浪费。
在一些可能的实现方式中,可以通过数据扩充的方式(如图像旋转、图像放大等方式)增加训练图像的数量。
在一些可能的实现方式中,在步骤S220中,目标检测模型可以包括特征提取网络和分类回归网络。
其中,特征提取网络用于获取训练图像对应的训练图像特征;分类回归网络用于根据训练图像特征获取预测框的位置以及预测框内目标所属的类别。
在一些可能的实现方式中,特征提取网络包括BackBone(骨干网络)和Neck(瓶颈网络)。
其中,BackBone用于获取训练图像的图像特征;Neck用于根据训练图像的图像特征,通过将底层特征和高层特征的融合,获取训练图像的多层语义特征。在一些可能的实现方式中,将训练图像的多层语义特征作为训练图像的训练图像特征。
在一些可能的实现方式中,目标检测模型与检索网络组成目标检测训练模型。通过使用训练图像以及训练图像对应的训练标签对目标检测训练模型进行训练获取预训练的目标检测模型。
其中,检索网络可以是高精度的图像分类网络,其可以获取输入检索网络的图像的图像特征,确定输入检索网络的图像所属的分类。
在一些可能的实现方式中,检索网络的输入可以是由多张图像组成的图像集,检索网络可以获取图像集中每一张图像的图像特征,确定图像集中每一张图像所属的类别。
目标检测训练模型可以根据度量学习损失进行训练。
度量学习损失根据训练图像的目标框对应的检测图像特征和目标框对应的检索图像特征获取。
其中,目标框对应的检测图像特征可以根据特征提取网络获取;目标框对应的检索图像特征可以根据检索网络获取。
在一些可能的实现方式中,检测图像特征可以根据特征提取网络输出的训练图像的训练图像特征确定。
在一些具体的实现方式中,可以通过将训练图像的训练图像特征以及目标框的位置输入ROIAlign(区域特征聚集模块)获取。
在一些可能的实现方式中,检索图像特征可以根据将目标框对应的子图像输入检索网络获取。
其中,目标框对应的子图像可以根据目标框的位置,对训练图像进行裁剪获取。
在一些可能的实现方式中,通过对检测图像特征和检索图像特征进行度量学习,获取检测图像特征和检索图像特征的空间距离,并根据检测图像特征和检索图像特征的空间距离确定度量学习损失。
通过度量学习损失对目标检测训练模型进行训练,可以对齐检测图像特征和检索图像特征的空间距离,减少检测图像特征和检索图像特征的语义距离。
由于检索图像特征是根据检索模型获取的,检索模型是高精度的图像分类网络,因此,检索模型获取的检索图像特征包括可以提升分类准确性的高精度的语义信息。通过度量学习,可以使检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,进而传播至特征提取网络以及目标检测模型中,进而提升目标检测模型的分类任务(即确定预测框内目标所属的类别)的准确性。
同时,由于检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,其并不会对检测图像特征中的回归定位信息进行影响,因此,不会影响目标检测模型的回归任务(即确定预测框的位置)的准确性。
在一些可能的实现方式中,目标检测训练模型还可以根据分类回归损失进行训练。
在一些可能的实现方式中,分类回归损失包括检测分类损失以及检测回归损失。
其中,检测分类损失根据分类回归网络输出的预测框内目标所属的类别以及目标框中目标所属的类别确定;检测回归损失根据分类回归网络输出的预测框的位置以及目标框的位置确定。
在一些可能的实现方式中,目标检测训练模型还可以根据检索分类损失进行训练。
其中,检索分类损失根据检索网络根据检索网络输出的目标框类别以及目标框中目标所属的类别确定;目标框类别通过将目标框对应的子图像输入检索网络获取。
在本公开实施例提供的目标检测模型的训练方法中,通过度量学习损失对目标检测训练模型进行训练,由于度量学习损失根据目标框对应的检测图像特征和目标框对应的检索图像特征确定,目标框对应的检测图像特征根据特征提取网络获取,目标框对应的检索图像特征根据检索网络获取;因此,通过度量学习,可以使检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,进而传播至特征提取网络以及目标检测模型中,进而提升目标检测模型的分类任务的准确性;同时,由于检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,其并不会对检测图像特征中的回归定位信息进行影响,因此,不会影响目标检测模型的回归任务的准确性。
下面对本公开实施例提供的目标检测方法进行具体描述。
图2示出了本公开实施例提供的目标检测模型的训练方法的一种实现方式中目标检测训练模型的组成结构。如图2中所示,目标检测模型可以包括特征提取网络和分类回归网络。
本公开实施例对目标检测模型的具体模型种类并不做限制,任何可以实现目标检测的深度学习模型都在本公开实施例的保护范围内。
PPYOLOE模型是一种性能极佳的产业级目标检测器,其性能Sota(目前最高水平)且部署相对友好。
PPYOLOE模型的模型框架可以划分为按照顺序连接的BackBone、Neck和Head(头网络)三个部分。
其中,BackBone可以为CSPRepResNet(改进的残差网络),Neck可以为PAN(PathAggregationNetwork,路径聚合网络),Head为ET-head(Task-alignedHead,任务对齐头)网络。
BackBone和Neck网络主要用于提取输入图像的多层语义特征,多层语义特征输入到Head进行分类和定位回归计算,确定输入图像中预测框的位置以及预测框中目标所属的类别。
图3示出了在目标检测模型包括特征提取网络和分类回归网络的情况下,根据训练图像以及训练图像对应的训练标签对目标检测训练模型进行训练的流程示意图。如图3中所示,获取预测框的位置以及预测框内目标所属的类别可以包括步骤S310、步骤S320、步骤S330、步骤S340。
在步骤S310中,将训练图像输入特征提取网络获取训练图像对应的训练图像特征;
在步骤S320中,将训练图像特征输入分类回归网络,获取预测框的位置以及预测框内目标所属的类别;
在步骤S330中,根据预测框内目标所属的类别以及目标框中目标所属的类别确定检测分类损失;根据预测框的位置以及目标框的位置确定检测回归损失;
在步骤S340中,至少根据检测分类损失、检测回归损失、度量学习损失对目标检测训练模型进行训练。
在一些可能的实现方式中,在步骤S310之前,可以对训练图像进行预处理以提升训练图像的质量,进而通过提升训练数据的质量提升获取的目标检测模型的性能。
本公开实施例提供的目标检测模型的训练方法对预处理的方法并不做限定。
在一些可能的实现方式中,在步骤S310中,特征提取网络可以包括按照顺序连接的骨干网络和瓶颈网络。
将训练图像输入骨干网络,获取训练图像的图像特征;将训练图像的图像特征输入瓶颈网络,获取训练图像的多层语义特征,将多层语义特征作为训练图像特征。
其中,骨干网络获取的图像特征可以是训练图像的不同网络层以及不同尺度的图像特征。瓶颈网络通过不同网络层的特征的融合,使底层网络的特征可以传递至高层网络,同时,高层网络的特征也可以反向传播至底层网络,保证获取的推理图像特征既具有底层全局特征,也觉有高层语义特征。
在一些可能的实现方式中,在步骤S320中,分类回归网络可以包括分类子网络和回归子网络。回归子网络用于进行定位回归任务,确定训练图像中目标的位置,进而确定预测框的位置;分类子网络用于进行分类任务,确定预测框中目标所属的类别。
一张训练图像中可能有多个目标,分类回归网络可以用于确定一张训练图像中多个目标的预测框的位置以及多个目标每个目标所属的类别。
在一些可能的实现方式中,在步骤S330中,分类回归网络在训练过程中输出的结果可以用于计算分类回归损失。
分类回归损失可以包括检测分类损失和检测回归损失。
其中,检测分类损失可以根据将训练图像输入目标检测网络后,分类回归网络输出的预测框内目标所属的类别和训练图像对应的目标框内目标所属的类别计算确定。
检测回归损失是可以根据将训练图像输入目标检测网络后,分类回归网络输出的预测框的位置和训练图像对应的目标框的位置计算确定。
本公开实施例并不对计算获取检测分类损失和检测回归损失的计算方法进行限制,可以实现计算检测分类损失和检测回归损失的计算方法都在本公开实施例的保护范围。
在一些可能的实现方式中,在步骤S340中,可以根据检测分类损失、检测回归损失、度量学习损失对目标检测训练模型进行训练获取目标检测模型。
如图2中所示,检索网络可以是检索网络可以是高精度的图像分类网络,其可以获取输入检索网络的图像的图像特征,确定输入检索网络的图像所属的分类。
本公开实施例对检索网络的具体类型并不做限定,任何高精度的图像分类网络都在本公开实施例的保护范围内。
如检索网络可以是VGG(VisualGeometryGroup,视觉几何组网络)、ResNet(残差网络)、GoogleNet(谷歌网络)、DenseNet(张量网络)等图像分类网络。
在一些可能的实现方式中,检索网络可以是PPLCNet(超轻量分类网络),作为一种轻量的用于图像分类的卷积神经网络模型,PPLCNe主要通过堆叠多个DepthSepConv(深度序列卷积)模块组成,DepthSepConv模块由DW/h-swish(Depth-WiseConvolution,深度方向卷积层)以及PW/h-swish(Point-WiseConvolution,点方向卷积层)和SE注意力机制组成,可以减少计算量和参数量,因此,其准确性和分类效率都较高。
在一些可能的实现方式中,检索网络的输入可以是由多张图像组成的图像集,检索网络可以获取图像集中每一张图像的图像特征,确定图像集中每一张图像所属的类别。
如图2中所示,在训练过程中,可以根据训练图像对应的目标框的位置通过图像裁剪获取目标框对应的子图像,具体的,可以使用目标框包括的像素组成目标框对应的子图像,并通过Crop将所有目标框对应的子图像处理成同样的大小,以使检索网络可以处理目标框对应的子图像。
在一些可能的实现方式中,可以将所有目标框对应的子图像同时输入检索网络获取每个目标框对应的子图像的图像特征,作为目标框对应的检索图像特征;获取每个目标框对应的子图像的类别,并与训练标签中目标框中目标所属的类别进行计算,获取检索分类损失。
本公开实施例对计算检索分类损失的方法并不做限定。在一些具体的实现方式中,可以使用图像分类CrossEntropy(交叉熵)计算检索分类损失。
检索分类损失可以用于目标检测训练模型的训练。
通过将所有目标框对应的子图像同时输入检索网络可以一次性获取所有目标框对应的检索特征,可以提升目标检测训练模型的训练效率。
目标框对应的检索图像特征还可以用于计算度量学习损失。
在一些可能的实现方式中,通过目标框对应的检索图像特征和目标框的检测图像特征计算度量学习损失。
检测图像特征可以根据特征提取网络输出的训练图像的训练图像特征确定。在一些可能的实现方式中,可以根据将训练图像输入特征提取网络,获取的训练图像特征以及训练标签中目标框的位置确定目标框的检测图像特征。
在一些可能的实现方式中,将目标框的位置输入ROIAlign(区域特征聚集模块)获取目标框对应的检测图像特征。
使用ROIAlign可以避免在获取目标框对应的检测图像特征的过程中丢失训练图像特征的信息,通过全程不量化来保证最大的信息完整性,进而提升获取的检测图像特征的完整性和准确性,进而保证高精度语义信息的扩散准确性。
在一些可能的实现方式中,通过对检测图像特征和检索图像特征进行度量学习,获取检测图像特征和检索图像特征的空间距离,并根据检测图像特征和检索图像特征的空间距离确定度量学习损失。
在一些可能的实现方式中,如图2所示,可以根据度量学习损失、检索分类损失、分类回归损失进行反向传播,对目标检测训练模型进行训练,修改目标检测训练模型的参数,获取预训练的目标检测模型。
在一些可能的实现方式中,度量学习损失的反向传播用于对特征提取网络和检索网络的参数进行修改;检索分类损失的反向传播用于对检索网络的参数进行修改;分类回归损失的反向传播用于对特征提取网络和分类回归网络的参数进行修改。
图4示出了本公开实施例提供的目标检测方法的流程示意图。如图4中所示,本公开实施例的目标检测方法可以包括步骤S410。
在步骤S410中,获取待检测图像,将待检测图像输入预训练的目标检测模型,获取预测框的位置以及预测框内目标所属的类别;
其中,目标检测模型基于本公开实施例提供的目标检测模型的训练方法获取。
举例来说,待检测图像可以是快消品行业的相关图像,如可以是安装在仓库等货品存储地的摄像装置拍摄的图像。待检测图像中可以包括一种或多种物品(如快消货品等)。
将待检测图像输入目标检测模型后获取的预测框可以是目标检测模型预测的待检测图像中快消货品的位置,预测框内目标所属的类别可以是目标检测模型预测的快消货品所属的类别。
在一些可能的实现方式中,根据待检测图像中快消货品的位置可以计算快消货品在物品存储地的位置,根据快消货品所属的类别可以对快消货品进行统计,根据物品存储地的位置以及快消货品所属的类别可以对快消货品进行分拣等,进而减少人工统计和分拣造成的人力资源和时间资源的浪费。
在一些可能的实现方式中,目标检测模型可以包括特征提取网络和分类回归网络。
将待检测图像输入预训练的目标检测模型,获取预测框的位置以及预测框内目标所属的类别可以是将待检测图像输入特征提取网络,获取待检测图像对应的推理图像特征;将推理图像特征输入分类回归网络,获取预测框的位置以及预测框内目标所属的类别。
在一些可能的实现方式中,特征提取网络包括BackBone(骨干网络)和Neck(瓶颈网络)。
其中,BackBone用于获取待检测图像的图像特征;Neck用于根据待检测图像的图像特征,通过将底层特征和高层特征的融合,获取待检测图像的多层语义特征。
在一些可能的实现方式中,将待检测图像的多层语义特征作为待检测图像的推理图像特征。
在一些可能的实现方式中,目标检测模型与检索网络组成目标检测训练模型。通过使用训练图像以及训练图像对应的训练标签对目标检测训练模型进行训练获取预训练的目标检测模型。
其中,训练图像可以是包括目标的图像;训练图像对应训练标签可以包括训练图像中目标对应的目标框的位置以及目标所属的类别。
检索网络可以是高精度的图像分类网络,其可以获取输入检索网络的图像的图像特征,确定输入检索网络的图像所属的分类。
在一些可能的实现方式中,检索网络的输入可以是由多张图像组成的图像集,检索网络可以获取图像集中每一张图像的图像特征,确定图像集中每一张图像所属的类别。
目标检测训练模型可以根据度量学习损失进行训练。
度量学习损失根据训练图像的目标框对应的检测图像特征和目标框对应的检索图像特征获取。
其中,目标框对应的检测图像特征可以根据特征提取网络获取;目标框对应的检索图像特征可以根据检索网络获取。
在一些可能的实现方式中,检测图像特征可以根据特征提取网络输出的训练图像的训练图像特征确定。
在一些具体的实现方式中,可以通过将训练图像的训练图像特征以及目标框的位置输入ROIAlign(区域特征聚集模块)获取。
在一些可能的实现方式中,检索图像特征可以根据将目标框对应的子图像输入检索网络获取。
其中,目标框对应的子图像可以根据目标框的位置,对训练图像进行裁剪获取。
在一些可能的实现方式中,通过对检测图像特征和检索图像特征进行度量学习,获取检测图像特征和检索图像特征的空间距离,并根据检测图像特征和检索图像特征的空间距离确定度量学习损失。
通过度量学习损失对目标检测训练模型进行训练,可以对齐检测图像特征和检索图像特征的空间距离,减少检测图像特征和检索图像特征的语义距离。
由于检索图像特征是根据检索模型获取的,检索模型是高精度的图像分类网络,因此,检索模型获取的检索图像特征包括可以提升分类准确性的高精度的语义信息。通过度量学习,可以使检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,进而传播至特征提取网络以及目标检测模型中,进而提升目标检测模型的分类任务(即确定预测框内目标所属的类别)的准确性。
同时,由于检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,其并不会对检测图像特征中的回归定位信息进行影响,因此,不会影响目标检测模型的回归任务(即确定预测框的位置)的准确性。
在一些可能的实现方式中,目标检测训练模型还可以根据分类回归损失进行训练。
在一些可能的实现方式中,分类回归损失包括检测分类损失以及检测回归损失。
其中,检测分类损失根据分类回归网络输出的预测框内目标所属的类别以及目标框中目标所属的类别确定;检测回归损失根据分类回归网络输出的预测框的位置以及目标框的位置确定。
在一些可能的实现方式中,目标检测训练模型还可以根据检索分类损失进行训练。
其中,检索分类损失根据检索网络根据检索网络输出的目标框类别以及目标框中目标所属的类别确定;目标框类别通过将目标框对应的子图像输入检索网络获取。
在本公开实施例提供的目标检测方法中,通过度量学习损失对目标检测训练模型进行训练,由于度量学习损失根据目标框对应的检测图像特征和目标框对应的检索图像特征确定,目标框对应的检测图像特征根据特征提取网络获取,目标框对应的检索图像特征根据检索网络获取;因此,通过度量学习,可以使检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,进而传播至特征提取网络以及目标检测模型中,进而提升目标检测模型的分类任务的准确性;同时,由于检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,其并不会对检测图像特征中的回归定位信息进行影响,因此,不会影响目标检测模型的回归任务的准确性。
下面对本公开实施例提供的目标检测方法进行具体描述。
图2示出了本公开实施例提供的目标检测方法的一种实现方式中目标检测训练模型的组成结构。如图2中所示,目标检测模型可以包括特征提取网络和分类回归网络。
本公开实施例对目标检测模型的具体模型种类并不做限制,任何可以实现目标检测的深度学习模型都在本公开实施例的保护范围内。
在一些可能的实现方式中,目标检测模型可以使用PPYOLOE模型。
PPYOLOE模型是一种性能极佳的产业级目标检测器,其性能Sota(目前最高水平)且部署相对友好。
PPYOLOE模型的模型框架可以划分为按照顺序连接的BackBone、Neck和Head(头网络)三个部分。
其中,BackBone可以为CSPRepResNet(改进的残差网络),Neck可以为PAN(PathAggregationNetwork,路径聚合网络),Head为ET-head(Task-alignedHead,任务对齐头)网络。
BackBone和Neck网络主要用于提取输入图像的多层语义特征,多层语义特征输入到Head进行分类和定位回归计算,确定输入图像中预测框的位置以及预测框中目标所属的类别。
图5示出了在目标检测模型包括特征提取网络和分类回归网络的情况下,获取预测框的位置以及预测框内目标所属的类别的流程示意图。如图5中所示,获取预测框的位置以及预测框内目标所属的类别可以包括步骤S510、步骤S520、步骤S530。
在步骤S510中,获取待检测图像;
在步骤S520中,将待检测图像输入特征提取网络获取待检测图像对应的推理图像特征;
在步骤S530中,将推理图像特征输入分类回归网络,获取预测框的位置以及预测框内目标所属的类别。
在一些可能的实现方式中,在步骤S510中,获取待检测图像后可以对待检测图像进行预处理以提升待检测图像的质量,进而提升目标检测模型获取的预测框的位置的精度以及预测框内目标所属的类别的准确度。
本公开实施例提供的目标检测方法对预处理的方法并不做限定。
在一些可能的实现方式中,在步骤S520中,特征提取网络可以包括按照顺序连接的骨干网络和瓶颈网络。
将待检测图像输入骨干网络,获取待检测图像的图像特征;将待检测图像的图像特征输入瓶颈网络,获取待检测图像的多层语义特征,将多层语义特征作为推理图像特征。
其中,骨干网络获取的图像特征可以是待检测图像的不同网络层以及不同尺度的图像特征。瓶颈网络通过不同网络层的特征的融合,使底层网络的特征可以传递至高层网络,同时,高层网络的特征也可以反向传播至底层网络,保证获取的推理图像特征既具有底层全局特征,也觉有高层语义特征。
在一些可能的实现方式中,在步骤S530中,分类回归网络可以包括分类子网络和回归子网络。回归子网络用于进行定位回归任务,确定待检测图像中目标的位置,进而确定预测框的位置;分类子网络用于进行分类任务,确定预测框中目标所属的类别。
一张待检测图像中可能有多个目标,分类回归网络可以用于确定一张待检测图像中多个目标的预测框的位置以及多个目标每个目标所属的类别。
分类回归网络在训练过程中输出的结果可以用于计算分类回归损失。
分类回归损失可以包括检测分类损失和检测回归损失。
其中,检测分类损失可以根据将训练图像输入目标检测网络后,分类回归网络输出的预测框内目标所属的类别和训练图像对应的目标框内目标所属的类别计算确定。
检测回归损失是可以根据将训练图像输入目标检测网络后,分类回归网络输出的预测框的位置和训练图像对应的目标框的位置计算确定。
本公开实施例并不对计算获取检测分类损失和检测回归损失的计算方法进行限制,可以实现计算检测分类损失和检测回归损失的计算方法都在本公开实施例的保护范围。
如图2中所示,检索网络可以是检索网络可以是高精度的图像分类网络,其可以获取输入检索网络的图像的图像特征,确定输入检索网络的图像所属的分类。
本公开实施例对检索网络的具体类型并不做限定,任何高精度的图像分类网络都在本公开实施例的保护范围内。
如检索网络可以是VGG(VisualGeometryGroup,视觉几何组网络)、ResNet(残差网络)、GoogleNet(谷歌网络)、DenseNet(张量网络)等图像分类网络。
在一些可能的实现方式中,检索网络可以是PPLCNet(超轻量分类网络),作为一种轻量的用于图像分类的卷积神经网络模型,PPLCNe主要通过堆叠多个DepthSepConv(深度序列卷积)模块组成,DepthSepConv模块由DW/h-swish(Depth-WiseConvolution,深度方向卷积层)以及PW/h-swish(Point-WiseConvolution,点方向卷积层)和SE注意力机制组成,可以减少计算量和参数量,因此,其准确性和分类效率都较高。
在一些可能的实现方式中,检索网络的输入可以是由多张图像组成的图像集,检索网络可以获取图像集中每一张图像的图像特征,确定图像集中每一张图像所属的类别。
如图2中所示,在训练过程中,可以根据训练图像对应的目标框的位置通过图像裁剪获取目标框对应的子图像,具体的,可以使用目标框包括的像素组成目标框对应的子图像,并通过Crop将所有目标框对应的子图像处理成同样的大小,以使检索网络可以处理目标框对应的子图像。
在一些可能的实现方式中,可以将所有目标框对应的子图像同时输入检索网络获取每个目标框对应的子图像的图像特征,作为目标框对应的检索图像特征;获取每个目标框对应的子图像的类别,并与训练标签中目标框中目标所属的类别进行计算,获取检索分类损失。
本公开实施例对计算检索分类损失的方法并不做限定。在一些具体的实现方式中,可以使用图像分类CrossEntropy(交叉熵)计算检索分类损失。
检索分类损失可以用于目标检测训练模型的训练。
通过将所有目标框对应的子图像同时输入检索网络可以一次性获取所有目标框对应的检索特征,可以提升目标检测训练模型的训练效率。
目标框对应的检索图像特征可以用于计算度量学习损失。在一些可能的实现方式中,通过目标框对应的检索图像特征和目标框的检测图像特征计算度量学习损失。
检测图像特征可以根据特征提取网络输出的训练图像的训练图像特征确定。在一些可能的实现方式中,可以根据将训练图像输入特征提取网络,获取的训练图像特征以及训练标签中目标框的位置确定目标框的检测图像特征。
在一些可能的实现方式中,将目标框的位置输入ROIAlign(区域特征聚集模块)获取目标框对应的检测图像特征。
使用ROIAlign可以避免在获取目标框对应的检测图像特征的过程中丢失训练图像特征的信息,通过全程不量化来保证最大的信息完整性,进而提升获取的检测图像特征的完整性和准确性,进而保证高精度语义信息的扩散准确性。
在一些可能的实现方式中,通过对检测图像特征和检索图像特征进行度量学习,获取检测图像特征和检索图像特征的空间距离,并根据检测图像特征和检索图像特征的空间距离确定度量学习损失。
基于与图1中所示的方法相同的原理,图6示出了本公开实施例提供的一种目标检测模型的训练装置的结构示意图,如图6所示,该目标检测模型的训练装置60可以包括:
数据模块610,用于获取训练图像以及训练图像对应的训练标签;训练图像对应的训练标签包括训练图像中目标对应的目标框的位置以及目标框中目标所属的类别;
训练模块620,用于根据训练图像以及训练图像对应的训练标签对目标检测训练模型进行训练,获取预训练目标检测模型;
目标检测训练模型包括目标检测模型以及检索网络;目标检测模型包括特征提取网络和分类回归网络;目标检测训练模型至少根据度量学习损失进行训练,度量学习损失根据目标框对应的检测图像特征和目标框对应的检索图像特征确定;目标框对应的检测图像特征根据特征提取网络获取;目标框对应的检索图像特征根据检索网络获取。
在本公开实施例提供的目标检测模型的训练装置中,通过度量学习损失对目标检测训练模型进行训练,由于度量学习损失根据目标框对应的检测图像特征和目标框对应的检索图像特征确定,目标框对应的检测图像特征根据特征提取网络获取,目标框对应的检索图像特征根据检索网络获取;因此,通过度量学习,可以使检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,进而传播至特征提取网络以及目标检测模型中,进而提升目标检测模型的分类任务的准确性;同时,由于检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,其并不会对检测图像特征中的回归定位信息进行影响,因此,不会影响目标检测模型的回归任务的准确性。
在一些可能的实现方式中,训练模块包括:特征提取单元,用于将训练图像输入特征提取网络获取训练图像对应的训练图像特征;区域特征单元,用于将训练图像特征输入区域特征距离模块获取目标框对应的检测图像特征;检索网络单元,用于将目标框对应的子图像输入检索网络获取目标对应的检索图像特征;度量学习单元,用于根据目标框对应的检测图像特征和目标框对应的检索图像特征进行度量学习,获取检测图像特征和检索图像特征的特征空间距离,确定度量学习损失,根据度量学习损失对目标检测训练模型进行训练。
在一些可能的实现方式中,训练模块包括:特征提取单元,用于将训练图像输入特征提取网络获取训练图像对应的训练图像特征;分类回归单元,用于将训练图像特征输入分类回归网络,获取预测框的位置以及预测框内目标所属的类别;损失计算单元,用于根据预测框内目标所属的类别以及目标框中目标所属的类别确定检测分类损失;根据预测框的位置以及目标框的位置确定检测回归损失;训练单元,用于至少根据检测分类损失、检测回归损失、度量学习损失对目标检测训练模型进行训练。
在一些可能的实现方式中,特征提取网络包括骨干网络和瓶颈网络;特征提取单元包括:图像特征子单元,用于将训练图像输入骨干网络,获取训练图像的图像特征;语义特征子单元,用于将训练图像的图像特征输入瓶颈网络,获取训练图像的多层语义特征,将多层语义特征作为训练图像特征。
在一些可能的实现方式中,训练模块包括:检索网络单元,用于将目标框对应的子图像输入检索网络获取目标框类别;损失计算单元,用于根据目标框类别以及目标框中目标所属的类别确定检索分类损失;训练单元,用于至少根据检索分类损失、度量学习损失对目标检测训练模型进行训练。
在一些可能的实现方式中,目标框对应的检索图像特征通过将所有目标框对应的子图像同时输入检索网络获取。
在一些可能的实现方式中,训练图像为包括至少一种物品的图像;目标框的位置为训练图像中物品的位置;目标框内目标所属的类别为物品所属的类别。
可以理解的是,本公开实施例中的目标检测模型的训练装置的上述各模块具有实现图1中所示的实施例中的目标检测模型的训练方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述目标检测模型的训练装置的各模块的功能描述具体可以参见图1中所示实施例中的目标检测模型的训练方法的对应描述,在此不再赘述。
基于与图4中所示的方法相同的原理,图7示出了本公开实施例提供的一种目标检测装置的结构示意图,如图7所示,该目标检测装置70可以包括:
推理模块710,用于获取待检测图像,将待检测图像输入预训练的目标检测模型,获取预测框的位置以及预测框内目标所属的类别;
其中,目标检测模型包括特征提取网络和分类回归网络;目标检测模型与检索网络组成目标检测训练模型;
目标检测模型通过使用训练图像以及训练图像对应的训练标签对目标检测训练模型预训练获取;训练图像对应的训练标签包括训练图像中目标对应的目标框的位置以及目标框中目标所属的类别;
目标检测模型至少根据度量学习损失进行训练,度量学习损失根据目标框对应的检测图像特征和目标框对应的检索图像特征确定;目标框对应的检测图像特征根据特征提取网络获取;目标框对应的检索图像特征根据检索网络获取。
在本公开实施例提供的目标检测装置中,通过度量学习损失对目标检测训练模型进行训练,由于度量学习损失根据目标框对应的检测图像特征和目标框对应的检索图像特征确定,目标框对应的检测图像特征根据特征提取网络获取,目标框对应的检索图像特征根据检索网络获取;因此,通过度量学习,可以使检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,进而传播至特征提取网络以及目标检测模型中,进而提升目标检测模型的分类任务的准确性;同时,由于检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,其并不会对检测图像特征中的回归定位信息进行影响,因此,不会影响目标检测模型的回归任务的准确性。
在一些可能的实现方式中,目标检测模型包括特征提取网络和分类回归网络;推理模块包括:图像获取单元,用于获取待检测图像;
特征推理单元,用于将待检测图像输入特征提取网络获取待检测图像对应的推理图像特征;分类推理单元,用于将推理图像特征输入分类回归网络,获取预测框的位置以及预测框内目标所属的类别。
在一些可能的实现方式中,特征提取网络包括骨干网络和瓶颈网络;特征推理单元包括:骨干推理子单元,用于将待检测图像输入骨干网络,获取待检测图像的图像特征;瓶颈推理子单元,用于将待检测图像的图像特征输入瓶颈网络,获取待检测图像的多层语义特征,将多层语义特征作为推理图像特征。
在一些可能的实现方式中,待检测图像为包括至少一种物品的图像;预测框的位置为目标检测模型预测的待检测图像中物品的位置;预测框内目标所属的类别为目标检测模型预测的物品所属的类别。
可以理解的是,本公开实施例中的目标检测装置的上述各模块具有实现图4中所示的实施例中的目标检测方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述目标检测装置的各模块的功能描述具体可以参见图7中所示实施例中的目标检测方法的对应描述,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如本公开实施例提供的目标检测方法和目标检测模型的训练方法。
该电子设备与现有技术相比,通过度量学习损失对目标检测训练模型进行训练,由于度量学习损失根据目标框对应的检测图像特征和目标框对应的检索图像特征确定,目标框对应的检测图像特征根据特征提取网络获取,目标框对应的检索图像特征根据检索网络获取;因此,通过度量学习,可以使检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,进而传播至特征提取网络以及目标检测模型中,进而提升目标检测模型的分类任务的准确性;同时,由于检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,其并不会对检测图像特征中的回归定位信息进行影响,因此,不会影响目标检测模型的回归任务的准确性。
该可读存储介质为存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如本公开实施例提供的目标检测方法和目标检测模型的训练方法。
该可读存储介质与现有技术相比,通过度量学习损失对目标检测训练模型进行训练,由于度量学习损失根据目标框对应的检测图像特征和目标框对应的检索图像特征确定,目标框对应的检测图像特征根据特征提取网络获取,目标框对应的检索图像特征根据检索网络获取;因此,通过度量学习,可以使检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,进而传播至特征提取网络以及目标检测模型中,进而提升目标检测模型的分类任务的准确性;同时,由于检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,其并不会对检测图像特征中的回归定位信息进行影响,因此,不会影响目标检测模型的回归任务的准确性。
该计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开实施例提供的目标检测方法和目标检测模型的训练方法。
该计算机程序产品与现有技术相比,通过度量学习损失对目标检测训练模型进行训练,由于度量学习损失根据目标框对应的检测图像特征和目标框对应的检索图像特征确定,目标框对应的检测图像特征根据特征提取网络获取,目标框对应的检索图像特征根据检索网络获取;因此,通过度量学习,可以使检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,进而传播至特征提取网络以及目标检测模型中,进而提升目标检测模型的分类任务的准确性;同时,由于检索图像特征中的高精度语义信息以特征对齐的方式传播至检测图像特征中,其并不会对检测图像特征中的回归定位信息进行影响,因此,不会影响目标检测模型的回归任务的准确性。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如目标检测方法和目标检测模型的训练方法。例如,在一些实施例中,目标检测方法和目标检测模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM803并由计算单元801执行时,可以执行上文描述的目标检测方法和目标检测模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行目标检测方法和目标检测模型的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (25)
1.一种目标检测模型的训练方法,包括:
获取训练图像以及所述训练图像对应的训练标签;所述训练图像对应的训练标签包括所述训练图像中目标对应的目标框的位置以及所述目标框中目标所属的类别;
根据所述训练图像以及所述训练图像对应的训练标签对目标检测训练模型进行训练,获取预训练的目标检测模型;
所述目标检测训练模型包括目标检测模型以及检索网络;所述目标检测模型包括特征提取网络和分类回归网络;所述目标检测训练模型至少根据度量学习损失进行训练,所述度量学习损失根据所述目标框对应的检测图像特征和所述目标框对应的检索图像特征确定;所述目标框对应的检测图像特征根据所述特征提取网络获取;所述目标框对应的检索图像特征根据所述检索网络获取。
2.根据权利要求1所述的方法,其中,所述根据所述训练图像以及所述训练图像对应的训练标签对目标检测训练模型进行训练包括:
将所述训练图像输入所述特征提取网络获取所述训练图像对应的训练图像特征;
将所述训练图像特征输入区域特征距离模块获取所述目标框对应的检测图像特征;
将目标框对应的子图像输入所述检索网络获取所述目标对应的检索图像特征;
根据所述目标框对应的检测图像特征和所述目标框对应的检索图像特征进行度量学习,获取所述检测图像特征和所述检索图像特征的特征空间距离,确定所述度量学习损失,根据所述度量学习损失对所述目标检测训练模型进行训练。
3.根据权利要求1所述的方法,其中,所述根据所述训练图像以及所述训练图像对应的训练标签对目标检测训练模型进行训练包括:
将所述训练图像输入所述特征提取网络获取所述训练图像对应的训练图像特征;
将所述训练图像特征输入所述分类回归网络,获取预测框的位置以及所述预测框内目标所属的类别;
根据所述预测框内目标所属的类别以及所述目标框中目标所属的类别确定检测分类损失;根据所述预测框的位置以及所述目标框的位置确定检测回归损失;
至少根据所述检测分类损失、所述检测回归损失、所述度量学习损失对所述目标检测训练模型进行训练。
4.根据权利要求3所述的方法,其中,所述特征提取网络包括骨干网络和瓶颈网络;
所述将所述训练图像输入所述特征提取网络获取所述训练图像对应的训练图像特征,包括:
将所述训练图像输入所述骨干网络,获取所述训练图像的图像特征;
将所述训练图像的图像特征输入所述瓶颈网络,获取所述训练图像的多层语义特征,将所述多层语义特征作为所述训练图像特征。
5.根据权利要求1所述的方法,其中,所述根据所述训练图像以及所述训练图像对应的训练标签对目标检测训练模型进行训练包括:
将所述目标框对应的子图像输入所述检索网络获取目标框类别;
根据所述目标框类别以及所述目标框中目标所属的类别确定检索分类损失;
至少根据所述检索分类损失、所述度量学习损失对所述目标检测训练模型进行训练。
6.根据权利要求1所述的方法,其中,所述目标框对应的检索图像特征通过将所有目标框对应的子图像同时输入所述检索网络获取。
7.根据权利要求1所述的方法,其中,所述训练图像为包括至少一种物品的图像;所述目标框的位置为所述训练图像中物品的位置;所述目标框内目标所属的类别为所述物品所属的类别。
8.一种目标检测方法,包括:
获取待检测图像,将所述待检测图像输入预训练的目标检测模型,获取预测框的位置以及所述预测框内目标所属的类别;
其中,所述目标检测模型基于权利要求1-7任一项所述的目标检测模型的训练方法获取。
9.根据权利要求8所述的方法,其中,所述目标检测模型包括特征提取网络和分类回归网络;
所述获取待检测图像,将所述待检测图像输入预训练的目标检测模型,获取预测框的位置以及所述预测框内目标所属的类别包括:
获取待检测图像;
将所述待检测图像输入所述特征提取网络获取所述待检测图像对应的推理图像特征;
将所述推理图像特征输入所述分类回归网络,获取预测框的位置以及所述预测框内目标所属的类别。
10.根据权利要求9所述的方法,其中,所述特征提取网络包括骨干网络和瓶颈网络;
所述将所述待检测图像输入所述特征提取网络获取所述待检测图像对应的推理图像特征,包括:
将所述待检测图像输入所述骨干网络,获取所述待检测图像的图像特征;
将所述待检测图像的图像特征输入所述瓶颈网络,获取所述待检测图像的多层语义特征,将所述多层语义特征作为所述推理图像特征。
11.根据权利要求8所述的方法,其中,所述待检测图像为包括至少一种物品的图像;所述预测框的位置为所述目标检测模型预测的所述待检测图像中物品的位置;所述预测框内目标所属的类别为所述目标检测模型预测的所述物品所属的类别。
12.一种目标检测模型的训练装置,包括:
数据模块,用于获取训练图像以及所述训练图像对应的训练标签;所述训练图像对应的训练标签包括所述训练图像中目标对应的目标框的位置以及所述目标框中目标所属的类别;
训练模块,用于根据所述训练图像以及所述训练图像对应的训练标签对目标检测训练模型进行训练,获取预训练的目标检测模型;
所述目标检测训练模型包括目标检测模型以及检索网络;所述目标检测模型包括特征提取网络和分类回归网络;所述目标检测训练模型至少根据度量学习损失进行训练,所述度量学习损失根据所述目标框对应的检测图像特征和所述目标框对应的检索图像特征确定;所述目标框对应的检测图像特征根据所述特征提取网络获取;所述目标框对应的检索图像特征根据所述检索网络获取。
13.根据权利要求12所述的装置,其中,所述训练模块包括:
特征提取单元,用于将所述训练图像输入所述特征提取网络获取所述训练图像对应的训练图像特征;
区域特征单元,用于将所述训练图像特征输入区域特征距离模块获取所述目标框对应的检测图像特征;
检索网络单元,用于将目标框对应的子图像输入所述检索网络获取所述目标对应的检索图像特征;
度量学习单元,用于根据所述目标框对应的检测图像特征和所述目标框对应的检索图像特征进行度量学习,获取所述检测图像特征和所述检索图像特征的特征空间距离,确定所述度量学习损失,根据所述度量学习损失对所述目标检测训练模型进行训练。
14.根据权利要求12所述的装置,其中,所述训练模块包括:
特征提取单元,用于将所述训练图像输入所述特征提取网络获取所述训练图像对应的训练图像特征;
分类回归单元,用于将所述训练图像特征输入所述分类回归网络,获取预测框的位置以及所述预测框内目标所属的类别;
损失计算单元,用于根据所述预测框内目标所属的类别以及所述目标框中目标所属的类别确定检测分类损失;根据所述预测框的位置以及所述目标框的位置确定检测回归损失;
训练单元,用于至少根据所述检测分类损失、所述检测回归损失、所述度量学习损失对所述目标检测训练模型进行训练。
15.根据权利要求14所述的装置,其中,所述特征提取网络包括骨干网络和瓶颈网络;
所述特征提取单元包括:
图像特征子单元,用于将所述训练图像输入所述骨干网络,获取所述训练图像的图像特征;
语义特征子单元,用于将所述训练图像的图像特征输入所述瓶颈网络,获取所述训练图像的多层语义特征,将所述多层语义特征作为所述训练图像特征。
16.根据权利要求12所述的装置,其中,所述训练模块包括:
检索网络单元,用于将所述目标框对应的子图像输入所述检索网络获取目标框类别;
损失计算单元,用于根据所述目标框类别以及所述目标框中目标所属的类别确定检索分类损失;
训练单元,用于至少根据所述检索分类损失、所述度量学习损失对所述目标检测训练模型进行训练。
17.根据权利要求12所述的装置,其中,所述目标框对应的检索图像特征通过将所有目标框对应的子图像同时输入所述检索网络获取。
18.根据权利要求12所述的装置,其中,所述训练图像为包括至少一种物品的图像;所述目标框的位置为所述训练图像中物品的位置;所述目标框内目标所属的类别为所述物品所属的类别。
19.一种目标检测装置,包括:
推理模块,用于获取待检测图像,将所述待检测图像输入预训练的目标检测模型,获取预测框的位置以及所述预测框内目标所属的类别;
其中,所述目标检测模型基于权利要求10-16任一项所述的目标检测模型的训练装置获取。
20.根据权利要求19所述的装置,其中,所述目标检测模型包括特征提取网络和分类回归网络;
所述推理模块包括:
图像获取单元,用于获取待检测图像;
特征推理单元,用于将所述待检测图像输入所述特征提取网络获取所述待检测图像对应的推理图像特征;
分类推理单元,用于将所述推理图像特征输入所述分类回归网络,获取预测框的位置以及所述预测框内目标所属的类别。
21.根据权利要求20所述的装置,其中,所述特征提取网络包括骨干网络和瓶颈网络;
所述特征推理单元包括:
骨干推理子单元,用于将所述待检测图像输入所述骨干网络,获取所述待检测图像的图像特征;
瓶颈推理子单元,用于将所述待检测图像的图像特征输入所述瓶颈网络,获取所述待检测图像的多层语义特征,将所述多层语义特征作为所述推理图像特征。
22.根据权利要求19所述的装置,其中,所述待检测图像为包括至少一种物品的图像;所述预测框的位置为所述目标检测模型预测的所述待检测图像中物品的位置;所述预测框内目标所属的类别为所述目标检测模型预测的所述物品所属的类别。
23.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法或权利要求8-11中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法或权利要求8-11中任一项所述的方法。
25.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法或权利要求8-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310729792.5A CN116994030A (zh) | 2023-06-19 | 2023-06-19 | 目标检测模型的训练方法、检测方法、装置、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310729792.5A CN116994030A (zh) | 2023-06-19 | 2023-06-19 | 目标检测模型的训练方法、检测方法、装置、设备、介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116994030A true CN116994030A (zh) | 2023-11-03 |
Family
ID=88532895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310729792.5A Pending CN116994030A (zh) | 2023-06-19 | 2023-06-19 | 目标检测模型的训练方法、检测方法、装置、设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116994030A (zh) |
-
2023
- 2023-06-19 CN CN202310729792.5A patent/CN116994030A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113657390B (zh) | 文本检测模型的训练方法和检测文本方法、装置和设备 | |
US20210390296A1 (en) | Optical character recognition method and apparatus, electronic device and storage medium | |
CN113436100B (zh) | 用于修复视频的方法、装置、设备、介质和产品 | |
US11620815B2 (en) | Method and device for detecting an object in an image | |
CN115880536B (zh) | 数据处理方法、训练方法、目标对象检测方法及装置 | |
CN113239807B (zh) | 训练票据识别模型和票据识别的方法和装置 | |
CN113378857A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN113326773A (zh) | 识别模型训练方法、识别方法、装置、设备及存储介质 | |
CN113378969A (zh) | 一种目标检测结果的融合方法、装置、设备及介质 | |
CN115358392A (zh) | 深度学习网络的训练方法、文本检测方法及装置 | |
CN114973333B (zh) | 人物交互检测方法、装置、设备以及存储介质 | |
CN116994030A (zh) | 目标检测模型的训练方法、检测方法、装置、设备、介质 | |
CN116229211A (zh) | 样本生成方法、模型训练方法、对象检测方法及装置 | |
CN113947771B (zh) | 图像识别方法、装置、设备、存储介质以及程序产品 | |
CN113361519B (zh) | 目标处理方法、目标处理模型的训练方法及其装置 | |
CN115527069A (zh) | 物品识别和物品识别系统构建方法及装置 | |
CN114429631A (zh) | 三维对象检测方法、装置、设备以及存储介质 | |
CN113887394A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN113936158A (zh) | 一种标签匹配方法及装置 | |
CN117112816B (zh) | 安检图像的排序方法、装置、设备及存储介质 | |
CN114092874B (zh) | 目标检测模型的训练方法、目标检测方法及其相关设备 | |
CN114581746B (zh) | 物体检测方法、装置、设备及介质 | |
CN115205555B (zh) | 确定相似图像的方法、训练方法、信息确定方法及设备 | |
CN112486677B (zh) | 一种数据的图传方法及装置 | |
CN114926447B (zh) | 用于训练模型的方法、用于检测目标的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |