CN113963236A - 目标检测方法及装置 - Google Patents
目标检测方法及装置 Download PDFInfo
- Publication number
- CN113963236A CN113963236A CN202111289391.XA CN202111289391A CN113963236A CN 113963236 A CN113963236 A CN 113963236A CN 202111289391 A CN202111289391 A CN 202111289391A CN 113963236 A CN113963236 A CN 113963236A
- Authority
- CN
- China
- Prior art keywords
- image
- layer
- loss function
- original feature
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 169
- 238000012549 training Methods 0.000 claims abstract description 125
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000012545 processing Methods 0.000 claims description 139
- 238000005457 optimization Methods 0.000 claims description 43
- 238000003860 storage Methods 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000012937 correction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 144
- 230000008569 process Effects 0.000 description 13
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请公开一种目标检测方法及装置,涉及计算机视觉技术领域。本申请的方法包括:获取多个样本图像;基于预置模型生成每个所述样本图像对应的优化特征图像;将多个所述优化特征图像作为训练样本集,对所述预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得目标检测模型;将待检测图像输入至所述目标检测模型中,以便所述目标检测模型输出所述待检测图像对应的目标检测结果。
Description
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种目标检测方法及装置。
背景技术
随着科学技术的不断发展,计算机视觉技术也得到了迅速发展。其中,目标检测技术是计算机视觉技术中的一个重要分支,目标检测是指在待检测图像中检测出每个预设类别的目标对象的位置,并确定每个目标对象的具体分类,因此,目标检测技术在人脸识别、车辆识别、动态追踪等领域具有广泛的应用前景。
其中,如何提高目标检测的准确性是至关重要的。
发明内容
本申请实施例提供一种目标检测方法及装置,主要目的在于有效地提高目标检测的准确性。
为解决上述技术问题,本申请实施例提供如下技术方案:
第一方面,本申请提供了一种目标检测方法,该方法包括:
获取多个样本图像;
基于预置模型生成每个所述样本图像对应的优化特征图像;
将多个所述优化特征图像作为训练样本集,对所述预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得目标检测模型;
将待检测图像输入至所述目标检测模型中,以便所述目标检测模型输出所述待检测图像对应的目标检测结果。
可选的,所述基于预置模型生成每个所述样本图像对应的优化特征图像,包括:
基于预置模型生成每个所述样本图像对应的原始特征图像;
分别对每个所述原始特征图像进行优化处理,以获得每个所述原始特征图像对应的优化特征图像。
可选的,所述分别对每个所述原始特征图像进行优化处理,以获得每个所述原始特征图像对应的优化特征图像,包括:
确定所述原始特征图像包含的每个原始特征图层对应的通道注意力权重值;
根据多个所述原始特征图层和每个所述原始特征图层对应的通道注意力权重值,生成通道注意力特征图像;
根据每个所述原始特征图层对应的通道注意力权重值对所述通道注意力特征图像进行空间维度处理,以获得通道空间注意力图像,其中,所述通道空间注意力图像包含每个所述原始特征图层对应的通道空间注意力图层;
对所述原始特征图像和所述通道空间注意力图像进行组合处理,以获得所述原始特征图像对应的优化特征图像。
可选的,所述预置模型中包含池化层和分类回归层;所述确定所述原始特征图像包含的每个原始特征图层对应的通道注意力权重值,包括:
根据所述池化层和所述分类回归层,确定每个所述原始特征图层对应的多个分类概率值,其中,所述原始特征图层对应的多个分类概率值为所述原始特征图层的每个像素点对应的分类概率值;
分别对每个所述原始特征图层对应的每个分类概率值进行反向传播处理,以获得每个所述原始特征图层对应的梯度特征图层;
分别对每个所述梯度特征图层进行全局平均池化处理,以获得每个所述原始特征图层对应的通道注意力权重值。
可选的,所述根据多个所述原始特征图层和每个所述原始特征图层对应的通道注意力权重值,生成通道注意力特征图像,包括:
分别计算每个所述原始特征图层与其对应的通道注意力权重值的乘积,以获得每个所述原始特征图层对应的通道权重特征图层;
对多个所述通道权重特征图层进行第一预设方式处理,以生成所述通道注意力特征图像,其中,所述第一预设方式处理包括像素值叠加处理、非线性修正处理和归一化处理。
可选的,所述根据每个所述原始特征图层对应的通道注意力权重值对所述通道注意力特征图像进行空间维度处理,以获得通道空间注意力图像,包括:
分别将每个所述原始特征图层对应的通道注意力权重值代入预设公式中,以获得每个所述原始特征图层对应的优化通道注意力权重值;
根据每个所述原始特征图层对应的优化通道注意力权重值和所述通道注意力特征图像,生成每个所述原始特征图层对应的通道空间注意力图层;
对多个所述通道空间注意力图层进行组合处理,以获得所述通道空间注意力图像。
可选的,所述将多个所述优化特征图像作为训练样本集,对所述预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得目标检测模型,包括:
基于所述训练样本集对所述预置模型进行迭代训练;其中,
在每轮训练后,判断所述预置模型的总损失函数是否收敛;
若所述总损失函数收敛,则将本轮训练后得到的所述预置模型确定为所述目标检测模型;
若所述总损失函数未收敛,则对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述预置模型的模型参数进行优化调整,以及基于优化调整后的所述预置模型进入下一轮训练。
可选的,所述总损失函数包括分类损失函数、回归损失函数和像素分割损失函数;所述判断所述预置模型的总损失函数是否收敛,包括:
获取所述分类损失函数对应的损失值、所述回归损失函数对应的损失值和所述像素分割损失函数对应的损失值;
对所述分类损失函数对应的损失值、所述回归损失函数对应的损失值和所述像素分割损失函数对应的损失值进行求和计算,以获得所述总损失函数对应的总损失值;
判断所述总损失值是否小于预设阈值。
可选的,所述方法还包括:
若所述总损失函数未收敛,则判断当前累计迭代训练时长是否达到预设时长阈值;
若达到所述预设时长阈值,则将本轮训练后得到的所述预置模型确定为所述目标检测模型;
若未达到所述预设时长阈值,则进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述预置模型的模型参数进行优化调整,以及基于优化调整后的所述预置模型进入下一轮训练的步骤。
可选的,所述方法还包括:
若所述总损失函数未收敛,则判断当前累计迭代训练次数是否达到预设次数阈值;
若达到所述预设次数阈值,则将本轮训练后得到的所述预置模型确定为所述目标检测模型;
若未达到所述预设次数阈值,则进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述预置模型的模型参数进行优化调整,以及基于优化调整后的所述预置模型进入下一轮训练的步骤。
可选的,所述预置模型中包含特征提取网络;所述基于预置模型生成每个所述样本图像对应的原始特征图像,包括:
依次将每个所述样本图像输入至所述特征提取网络中,以便所述特征提取网络输出每个所述样本图像对应的原始特征图像。
可选的,在所述获取多个样本图像之后,所述方法还包括:
根据预设图像尺寸对每个所述样本图像进行第二预设方式处理,其中,所述第二预设方式处理包括等比例缩放处理、裁剪处理和仿射变换处理中的任意一种或任意多种;
所述基于预置模型生成每个所述样本图像对应的优化特征图像,包括:
基于所述预置模型生成每个经过第二预设方式处理的所述样本图像对应的优化特征图像。
第二方面,本申请还提供一种目标检测装置,该装置包括:
获取单元,用于获取多个样本图像;
生成单元,用于基于预置模型生成每个所述样本图像对应的优化特征图像;
训练单元,用于将多个所述优化特征图像作为训练样本集,对所述预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得目标检测模型;
输入单元,用于将待检测图像输入至所述目标检测模型中,以便所述目标检测模型输出所述待检测图像对应的目标检测结果。
可选的,所述生成单元包括:
生成模块,用于基于预置模型生成每个所述样本图像对应的原始特征图像;
优化模块,用于分别对每个所述原始特征图像进行优化处理,以获得每个所述原始特征图像对应的优化特征图像。
可选的,所述优化模块包括:
确定子模块,用于确定所述原始特征图像包含的每个原始特征图层对应的通道注意力权重值;
生成子模块,用于根据多个所述原始特征图层和每个所述原始特征图层对应的通道注意力权重值,生成通道注意力特征图像;
第一处理子模块,用于根据每个所述原始特征图层对应的通道注意力权重值对所述通道注意力特征图像进行空间维度处理,以获得通道空间注意力图像,其中,所述通道空间注意力图像包含每个所述原始特征图层对应的通道空间注意力图层;
第二处理子模块,用于对所述原始特征图像和所述通道空间注意力图像进行组合处理,以获得所述原始特征图像对应的优化特征图像。
可选的,所述预置模型中包含池化层和分类回归层;
所述确定子模块,具体用于根据所述池化层和所述分类回归层,确定每个所述原始特征图层对应的多个分类概率值,其中,所述原始特征图层对应的多个分类概率值为所述原始特征图层的每个像素点对应的分类概率值;分别对每个所述原始特征图层对应的每个分类概率值进行反向传播处理,以获得每个所述原始特征图层对应的梯度特征图层;分别对每个所述梯度特征图层进行全局平均池化处理,以获得每个所述原始特征图层对应的通道注意力权重值。
可选的,所述生成子模块,具体用于分别计算每个所述原始特征图层与其对应的通道注意力权重值的乘积,以获得每个所述原始特征图层对应的通道权重特征图层;对多个所述通道权重特征图层进行第一预设方式处理,以生成所述通道注意力特征图像,其中,所述第一预设方式处理包括像素值叠加处理、非线性修正处理和归一化处理。
可选的,所述第一处理子模块,具体用于分别将每个所述原始特征图层对应的通道注意力权重值代入预设公式中,以获得每个所述原始特征图层对应的优化通道注意力权重值;根据每个所述原始特征图层对应的优化通道注意力权重值和所述通道注意力特征图像,生成每个所述原始特征图层对应的通道空间注意力图层;对多个所述通道空间注意力图层进行组合处理,以获得所述通道空间注意力图像。
可选的,所述训练单元,具体用于基于所述训练样本集对所述预置模型进行迭代训练;其中,
在每轮训练后,判断所述预置模型的总损失函数是否收敛;
若所述总损失函数收敛,则将本轮训练后得到的所述预置模型确定为所述目标检测模型;
若所述总损失函数未收敛,则对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述预置模型的模型参数进行优化调整,以及基于优化调整后的所述预置模型进入下一轮训练。
可选的,所述总损失函数包括分类损失函数、回归损失函数和像素分割损失函数;所述训练单元包括:
获取模块,用于获取所述分类损失函数对应的损失值、所述回归损失函数对应的损失值和所述像素分割损失函数对应的损失值;
计算模块,用于对所述分类损失函数对应的损失值、所述回归损失函数对应的损失值和所述像素分割损失函数对应的损失值进行求和计算,以获得所述总损失函数对应的总损失值;
第一判断模块,用于判断所述总损失值是否小于预设阈值。
可选的,所述训练单元包括:
第二判断模块,用于当所述总损失函数未收敛时,判断当前累计迭代训练时长是否达到预设时长阈值;
第一确定模块,用于当所述当前累计迭代训练时长达到所述预设时长阈值时,将本轮训练后得到的所述预置模型确定为所述目标检测模型;
第一进入模块,用于当所述当前累计迭代训练时长未达到所述预设时长阈值时,进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述预置模型的模型参数进行优化调整,以及基于优化调整后的所述预置模型进入下一轮训练的步骤。
可选的,所述训练单元包括:
第三判断模块,用于当所述总损失函数未收敛时,判断当前累计迭代训练次数是否达到预设次数阈值;
第二确定模块,用于当所述当前累计迭代训练次数达到所述预设次数阈值时,将本轮训练后得到的所述预置模型确定为所述目标检测模型;
第二进入模块,用于当所述当前累计迭代训练次数未达到所述预设次数阈值时,进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述预置模型的模型参数进行优化调整,以及基于优化调整后的所述预置模型进入下一轮训练的步骤。
可选的,所述预置模型中包含特征提取网络;
所述生成模块,具体用于依次将每个所述样本图像输入至所述特征提取网络中,以便所述特征提取网络输出每个所述样本图像对应的原始特征图像。
可选的,所述装置还包括:
处理单元,用于在所述获取单元获取多个样本图像之后,根据预设图像尺寸对每个所述样本图像进行第二预设方式处理,其中,所述第二预设方式处理包括等比例缩放处理、裁剪处理和仿射变换处理中的任意一种或任意多种;
所述生成单元,具体用于基于所述预置模型生成每个经过第二预设方式处理的所述样本图像对应的优化特征图像。
第三方面,本申请的实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行第一方面所述的目标检测方法。
第四方面,本申请的实施例提供了一种目标检测装置,所述装置包括存储介质;及一个或者多个处理器,所述存储介质与所述处理器耦合,所述处理器被配置为执行所述存储介质中存储的程序指令;所述程序指令运行时执行第一方面所述的目标检测方法。
借由上述技术方案,本申请提供的技术方案至少具有下列优点:
本申请提供一种目标检测方法及装置,本申请能够在目标检测应用程序获取得到多个样本图像后,由目标检测应用程序基于预置模型生成每个样本图像对应的优化特征图像,再将多个优化特征图像作为训练样本集,对预置模型进行训练,直至预置模型的总损失函数收敛,以获得目标检测模型,再将需要进行目标检测的待检测图像输入至目标检测模型中,以便目标检测模型对待检测图像进行目标检测,从而输出待检测图像对应的目标检测结果。由于,在本申请中,目标检测应用程序是基于多个样本图像对应的优化特征图像对预置模型进行训练,从而能够有效提高目标检测模型输出目标检测结果的准确性,进而使得目标检测应用程序能够准确输出待检测图像对应的目标检测结果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,相同或对应的标号表示相同或对应的部分,其中:
图1示出了本申请实施例提供的一种目标检测方法流程图;
图2示出了本申请实施例提供的另一种目标检测方法流程图;
图3示出了本申请实施例提供的一种目标检测装置的组成框图;
图4示出了本申请实施例提供的另一种目标检测装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。
目前,在对待检测图像进行目标检测时,通常是通过目标检测模型对待检测图像进行目标检测。为了保证目标检测模型输出的目标检测结果的准确性,需要预先对目标检测模型进行训练。因此,如何有效地对目标检测模型进行训练,从而提高目标检测模型输出目标检测结果的准确性是至关重要的。
本申请实施例提供一种目标检测方法,如图1所示,该方法包括:
101、获取多个样本图像。
其中,样本图像为包含一个或多个属于预设类别的目标对象的图像。在本申请实施例中,各个步骤中的执行主体为运行在终端设备中的目标检测应用程序,其中,终端设备可以但不限于为:计算机、服务器等等。
在本申请实施例中,目标检测应用程序首先需要获取得到多个样本图像,以便后续基于多个样本图像训练获得目标检测模型。
102、基于预置模型生成每个样本图像对应的优化特征图像。
其中,预置模型为采用预置算法建立的模型,预置算法可以但不限于为:MaskRCNN算法、Faster RCNN算法、YOLO算法等深度学习算法中的任意一种。
在本申请实施例中,目标检测应用程序在获取得到多个样本图像后,便可基于预置模型生成每个样本图像对应的优化特征图像,以便后续根据多个优化特征图像对预置模型进行训练,从而获得目标检测模型。
具体的,在本步骤中,目标检测应用程序可以采用以下方式基于预置模型生成每个样本图像对应的优化特征图像:先基于预置模型生成每个样本图像对应的原始特征图像,再分别对每个原始特征图像进行优化处理,从而获得每个原始特征图像对应的优化特征图像(即每个样本图像对应的优化特征图像)。
103、将多个优化特征图像作为训练样本集,对预置模型进行训练,直至预置模型的总损失函数收敛,以获得目标检测模型。
在本申请实施例中,目标检测应用程序在生成每个样本图像对应的优化特征图像后,便可将多个优化特征图像作为训练样本集,对预置模型进行训练,直至预置模型的总损失函数收敛,此时,便可将训练完成的预置模型确定为目标检测模型。
104、将待检测图像输入至目标检测模型中,以便目标检测模型输出待检测图像对应的目标检测结果。
在本申请实施例中,目标检测应用程序在训练获得目标检测模型后,便可将需要进行目标检测的待检测图像输入至目标检测模型中,目标检测模型在接收到待检测图像后,便可对待检测图像进行目标检测,从而输出待检测图像对应的目标检测结果。
本申请实施例提供一种目标检测方法,本申请实施例能够在目标检测应用程序获取得到多个样本图像后,由目标检测应用程序基于预置模型生成每个样本图像对应的优化特征图像,再将多个优化特征图像作为训练样本集,对预置模型进行训练,直至预置模型的总损失函数收敛,以获得目标检测模型,再将需要进行目标检测的待检测图像输入至目标检测模型中,以便目标检测模型对待检测图像进行目标检测,从而输出待检测图像对应的目标检测结果。由于,在本申请实施例中,目标检测应用程序是基于多个样本图像对应的优化特征图像对预置模型进行训练,从而能够有效提高目标检测模型输出目标检测结果的准确性,进而使得目标检测应用程序能够准确输出待检测图像对应的目标检测结果。
以下为了更加详细地说明,本申请实施例提供了另一种目标检测方法,具体如图2所示,该方法包括:
201、获取多个样本图像。
其中,关于步骤201、获取多个样本图像,可以参考图1对应部分的描述,本申请实施例此处将不再赘述。
202、根据预设图像尺寸对每个样本图像进行第二预设方式处理。
其中,第二预设方式处理包括等比例缩放处理、裁剪处理和仿射变换处理中的任意一种或任意多种。
在本申请实施例中,由于,多个样本图像的图像尺寸并不统一,因此,目标检测应用程序在获取得到多个样本图像后,需要根据预设图像尺寸对每个样本图像进行第二预设方式处理,以使得将多个样本图像的图像尺寸转换为预设图像尺寸。
203、基于预置模型生成每个经过第二预设方式处理的样本图像对应的优化特征图像。
在本申请实施例中,目标检测应用程序在根据预设图像尺寸对每个样本图像进行第二预设方式处理后,便可基于预置模型生成每个经过第二预设方式处理的样本图像对应的优化特征图像,其具体过程为:先基于预置模型生成每个样本图像对应的原始特征图像,再分别对每个原始特征图像进行优化处理,从而获得每个原始特征图像对应的优化特征图像(即每个样本图像对应的优化特征图像)。
具体的,在本步骤中,预置模型中包含特征提取网络,目标检测应用程序可以采用以下方式基于预置模型生成每个样本图像对应的原始特征图像:预置模型的特征提取网络在接收到某个图像后,便可输出该图像对应的原始特征图像,从而使得在依次将每个样本图像输入至预置模型的特征提取网络中后,预置模型的特征提取网络便可输出每个样本图像对应的原始特征图像。
具体的,在本步骤中,对于任意一个样本图像对应的原始特征图像而言,目标检测应用程序可以采用以下方式对该原始特征图像进行优化处理,从而获得该原始特征图像对应的优化特征图像:
(1)确定原始特征图像包含的每个原始特征图层对应的通道注意力权重值。
其中,原始特征图像中包含多个原始特征图层;其中,预置模型中包含池化层和分类回归层。
在本申请实施例中,确定原始特征图像包含的每个原始特征图层对应的通道注意力权重值的具体过程为:首先,使用预置模型中包含的池化层和分类回归层,对原始特征图像进行处理,从而确定原始特征图像包含的每个原始特征图层对应的多个分类概率值,其中,任意一个原始特征图层对应的多个分类概率值为该原始特征图层的每个像素点对应的分类概率值;其次,分别对每个原始特征图层对应的每个分类概率值进行反向传播处理,从而获得每个原始特征图层对应的梯度特征图层;最后,分别对每个梯度特征图层进行全局平均池化处理,从而获得每个原始特征图层对应的通道注意力权重值。
具体的,对于任意一个原始特征图层而言,可以采用以下方式获得该原始特征图层对应的梯度特征图层:
首先,获取该原始特征图层中每个像素点对应的原始像素值;其次,依次将该原始特征图层中的每个像素点对应的原始像素值和分类概率值代入预设公式中,从而计算获得该原始特征图层对应的梯度特征图层中的每个像素点的梯度像素值;最后,根据计算获得的各个像素点的梯度像素值组成该原始特征图层对应的梯度特征图层;
其中,本步骤中的预设公式具体如下:
其中,为第k个原始特征图层对应的梯度特征图层中的第(i,j)个像素点的梯度像素值,为第k个原始特征图层中的第(i,j)个像素点对应的分类概率值,为第k个原始特征图层中的第(i,j)个像素点对应的原始像素值。
具体的,对于任意一个原始特征图层而言,可以采用以下方式获得该原始特征图层对应的通道注意力权重值:
将该原始特征图层对应的梯度特征图层代入预设公式中,从而计算获得该原始特征图层对应的通道注意力权重值;
其中,本步骤中的预设公式具体如下:
其中,Sk为第k个原始特征图层对应的通道注意力权重值,W为第k个原始特征图层对应的长度,H为第k个原始特征图层对应的宽度,Gk为第k个原始特征图层对应的梯度特征图层。
(2)根据多个原始特征图层和每个原始特征图层对应的通道注意力权重值,生成通道注意力特征图像。
在本申请实施例中,在获取得到每个原始特征图层对应的通道注意力权重值后,便可根据多个原始特征图层和每个原始特征图层对应的通道注意力权重值,生成通道注意力特征图像,其具体过程为:首先,分别计算每个原始特征图层与其对应的通道注意力权重值的乘积,从而获得每个原始特征图层对应的通道权重特征图层;其次,对多个通道权重特征图层进行第一预设方式处理,从而生成通道注意力特征图像,其中,第一预设方式处理包括像素值叠加处理、非线性修正处理和归一化处理。
具体的,可以采用以下方式对多个通道权重特征图层进行第一预设方式处理,从而生成通道注意力特征图像:
将多个通道权重特征图层代入预设公式中,从而生成通道注意力特征图像;
其中,本步骤中的预设公式具体如下:
其中,A为通道注意力特征图像,C为多个原始特征图层的总个数,Bi为第i个原始特征图层对应的通道权重特征图层。
(3)根据每个原始特征图层对应的通道注意力权重值对通道注意力特征图像进行空间维度处理,以获得通道空间注意力图像。
其中,通道空间注意力图像包含每个原始特征图层对应的通道空间注意力图层。
在本申请实施例中,在生成通道注意力特征图像后,便可根据每个原始特征图层对应的通道注意力权重值对通道注意力特征图像进行空间维度处理,从而获得通道空间注意力图像。
具体的,可以采用以下方式根据每个原始特征图层对应的通道注意力权重值对通道注意力特征图像进行空间维度处理,从而获得通道空间注意力图像:
首先,分别将每个原始特征图层对应的通道注意力权重值代入预设公式中,从而获得每个原始特征图层对应的优化通道注意力权重值;
其中,本步骤中的预设公式具体如下:
其中,wk为第k个原始特征图层对应的优化通道注意力权重值,Sk为第k个原始特征图层对应的通道注意力权重值;
其次,根据每个原始特征图层对应的优化通道注意力权重值和通道注意力特征图像,生成每个原始特征图层对应的通道空间注意力图层,其具体过程为:对于任意一个原始特征图层而言,首先,获取通道注意力特征图像中每个像素点对应的通道注意力特征像素值;其次,依次将通道注意力特征图像中的每个像素点对应的通道注意力特征像素值和该原始特征图层对应的优化通道注意力权重值代入预设公式中,从而计算获得该原始特征图层对应的通道空间注意力图层中的每个像素点对应的通道空间注意力像素值;最后,根据计算获得的各个像素点对应的通道空间注意力像素值组成该原始特征图层对应的通道空间注意力图层;
其中,本步骤中的预设公式具体如下:
其中,为第k个原始特征图层对应的通道空间注意力图层中的第(i,j)个像素点的通道空间注意力像素值,wk为第k个原始特征图层对应的优化通道注意力权重值,Aij为通道注意力特征图像中的第(i,j)个像素点对应的通道注意力特征像素值。
最后,对多个通道空间注意力图层进行组合处理,从而获得通道空间注意力图像。
(4)对原始特征图像和通道空间注意力图像进行组合处理,以获得原始特征图像对应的优化特征图像。
在本申请实施例中,在获取得到通道空间注意力图像后,便可对原始特征图像和通道空间注意力图像进行组合处理,从而获得原始特征图像对应的优化特征图像,其具体过程为:对原始特征图像和通道空间注意力图像进行Hadamard(哈达马德)运算,再将运算结果确定为原始特征图像对应的优化特征图像。
目标检测应用程序采用上述方式,便可获取得到每个原始特征图像对应的优化特征图像。
204、将多个优化特征图像作为训练样本集,对预置模型进行训练,直至预置模型的总损失函数收敛,以获得目标检测模型。
在本申请实施例中,目标检测应用程序在获取得到每个原始特征图像对应的优化特征图像后,便可将多个优化特征图像作为训练样本集,对预置模型进行训练,直至预置模型的总损失函数收敛,此时,便可将训练完成的预置模型确定为目标检测模型。
具体的,在本步骤中,目标检测应用程序将多个优化特征图像作为训练样本集,对预置模型进行训练,直至预置模型的总损失函数收敛,从而获得目标检测模型的具体过程为:
基于训练样本集对预置模型进行迭代训练;其中,在每轮训练后,判断预置模型的总损失函数是否收敛;若预置模型的总损失函数收敛,则将本轮训练后得到的预置模型确定为目标检测模型;若预置模型的总损失函数未收敛,则对预置模型的总损失函数进行反向传播处理,并根据经过反向传播处理后的总损失函数,对预置模型的模型参数进行优化调整,以及基于优化调整后的预置模型进入下一轮训练。其中,对预置模型的总损失函数进行反向传播处理,即为计算总损失函数对应的梯度向量,根据经过反向传播处理后的总损失函数,对预置模型的模型参数进行优化调整,即为根据总损失函数对应的梯度向量,对预置模型的模型参数进行优化调整。
其中,预置模型的总损失函数包括分类损失函数、回归损失函数和像素分割损失函数,判断预置模型的总损失函数是否收敛的具体过程为:
首先,分别获取分类损失函数对应的损失值、回归损失函数对应的损失值和像素分割损失函数对应的损失值;其次,对分类损失函数对应的损失值、回归损失函数对应的损失值和像素分割损失函数对应的损失值进行求和计算,从而获得总损失函数对应的总损失值;最后,判断总损失函数对应的总损失值是否小于预设阈值,若是,则可以判定总损失函数收敛,若否,则可以判定总损失函数未收敛。
进一步的,在本申请实施例中,由于,在某些特定情况下,即使是进行大量的迭代训练,预置模型的总损失函数也不会收敛,因此,为了避免预置模型的迭代训练无休止的进行下去,在确定本轮训练后得到的预置模型的总损失函数未收敛时,可以但不限于采用以下两种方式进行处理:
(1)若预置模型的总损失函数未收敛,则判断基于训练样本集迭代训练预置模型的当前累计迭代训练时长是否达到预设时长阈值。
若当前累计迭代训练时长达到预设时长阈值,则说明迭代训练时长已达到要求,此时,可以停止迭代训练,并将本轮训练后得到的预置模型确定为目标检测模型。
若当前累计迭代训练时长未达到预设时长阈值,则可以进入对预置模型的总损失函数进行反向传播处理,并根据经过反向传播处理后的总损失函数,对预置模型的模型参数进行优化调整的步骤。
(2)若预置模型的总损失函数未收敛,则判断基于训练样本集迭代训练预置模型的当前累计迭代训练次数是否达到预设次数阈值。
若当前累计迭代训练次数达到预设次数阈值,则说明迭代训练次数已达到要求,此时,可以停止迭代训练,并将本轮训练后得到的预置模型确定为目标检测模型。
若当前累计迭代训练次数未达到预设次数阈值,则可以进入对预置模型的总损失函数进行反向传播处理,并根据经过反向传播处理后的总损失函数,对预置模型的模型参数进行优化调整的步骤。
205、将待检测图像输入至目标检测模型中,以便目标检测模型输出待检测图像对应的目标检测结果。
其中,关于步骤205、将待检测图像输入至目标检测模型中,以便目标检测模型输出待检测图像对应的目标检测结果,可以参考图1对应部分的描述,本申请实施例此处将不再赘述。
为了实现上述目的,根据本申请的另一方面,本申请实施例还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的目标检测方法。
为了实现上述目的,根据本申请的另一方面,本申请实施例还提供了一种目标检测装置,所述装置包括存储介质;及一个或者多个处理器,所述存储介质与所述处理器耦合,所述处理器被配置为执行所述存储介质中存储的程序指令;所述程序指令运行时执行上述所述的目标检测方法。
进一步的,作为对上述图1及图2所示方法的实现,本申请另一实施例还提供了一种目标检测装置。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于有效地提高目标检测的准确性,具体如图3所示,该装置包括:
获取单元31,用于获取多个样本图像;
生成单元32,用于基于预置模型生成每个所述样本图像对应的优化特征图像;
训练单元33,用于将多个所述优化特征图像作为训练样本集,对所述预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得目标检测模型;
输入单元34,用于将待检测图像输入至所述目标检测模型中,以便所述目标检测模型输出所述待检测图像对应的目标检测结果。
进一步的,如图4所示,生成单元32包括:
生成模块321,用于基于预置模型生成每个所述样本图像对应的原始特征图像;
优化模块322,用于分别对每个所述原始特征图像进行优化处理,以获得每个所述原始特征图像对应的优化特征图像。
进一步的,如图4所示,优化模块322包括:
确定子模块3221,用于确定所述原始特征图像包含的每个原始特征图层对应的通道注意力权重值;
生成子模块3222,用于根据多个所述原始特征图层和每个所述原始特征图层对应的通道注意力权重值,生成通道注意力特征图像;
第一处理子模块3223,用于根据每个所述原始特征图层对应的通道注意力权重值对所述通道注意力特征图像进行空间维度处理,以获得通道空间注意力图像,其中,所述通道空间注意力图像包含每个所述原始特征图层对应的通道空间注意力图层;
第二处理子模块3224,用于对所述原始特征图像和所述通道空间注意力图像进行组合处理,以获得所述原始特征图像对应的优化特征图像。
进一步的,如图4所示,所述预置模型中包含池化层和分类回归层;确定子模块3221,具体用于根据所述池化层和所述分类回归层,确定每个所述原始特征图层对应的多个分类概率值,其中,所述原始特征图层对应的多个分类概率值为所述原始特征图层的每个像素点对应的分类概率值;分别对每个所述原始特征图层对应的每个分类概率值进行反向传播处理,以获得每个所述原始特征图层对应的梯度特征图层;分别对每个所述梯度特征图层进行全局平均池化处理,以获得每个所述原始特征图层对应的通道注意力权重值。
进一步的,如图4所示,生成子模块3222,具体用于分别计算每个所述原始特征图层与其对应的通道注意力权重值的乘积,以获得每个所述原始特征图层对应的通道权重特征图层;对多个所述通道权重特征图层进行第一预设方式处理,以生成所述通道注意力特征图像,其中,所述第一预设方式处理包括像素值叠加处理、非线性修正处理和归一化处理。
进一步的,如图4所示,第一处理子模块3223,具体用于分别将每个所述原始特征图层对应的通道注意力权重值代入预设公式中,以获得每个所述原始特征图层对应的优化通道注意力权重值;根据每个所述原始特征图层对应的优化通道注意力权重值和所述通道注意力特征图像,生成每个所述原始特征图层对应的通道空间注意力图层;对多个所述通道空间注意力图层进行组合处理,以获得所述通道空间注意力图像。
进一步的,如图4所示,训练单元33,具体用于基于所述训练样本集对所述预置模型进行迭代训练;其中,
在每轮训练后,判断所述预置模型的总损失函数是否收敛;
若所述总损失函数收敛,则将本轮训练后得到的所述预置模型确定为所述目标检测模型;
若所述总损失函数未收敛,则对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述预置模型的模型参数进行优化调整,以及基于优化调整后的所述预置模型进入下一轮训练。
进一步的,如图4所示,所述总损失函数包括分类损失函数、回归损失函数和像素分割损失函数;训练单元33包括:
获取模块331,用于获取所述分类损失函数对应的损失值、所述回归损失函数对应的损失值和所述像素分割损失函数对应的损失值;
计算模块332,用于对所述分类损失函数对应的损失值、所述回归损失函数对应的损失值和所述像素分割损失函数对应的损失值进行求和计算,以获得所述总损失函数对应的总损失值;
第一判断模块333,用于判断所述总损失值是否小于预设阈值。
进一步的,如图4所示,训练单元33包括:
第二判断模块334,用于当所述总损失函数未收敛时,判断当前累计迭代训练时长是否达到预设时长阈值;
第一确定模块335,用于当所述当前累计迭代训练时长达到所述预设时长阈值时,将本轮训练后得到的所述预置模型确定为所述目标检测模型;
第一进入模块336,用于当所述当前累计迭代训练时长未达到所述预设时长阈值时,进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述预置模型的模型参数进行优化调整,以及基于优化调整后的所述预置模型进入下一轮训练的步骤。
进一步的,如图4所示,训练单元33包括:
第三判断模块337,用于当所述总损失函数未收敛时,判断当前累计迭代训练次数是否达到预设次数阈值;
第二确定模块338,用于当所述当前累计迭代训练次数达到所述预设次数阈值时,将本轮训练后得到的所述预置模型确定为所述目标检测模型;
第二进入模块339,用于当所述当前累计迭代训练次数未达到所述预设次数阈值时,进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述预置模型的模型参数进行优化调整,以及基于优化调整后的所述预置模型进入下一轮训练的步骤。
进一步的,如图4所示,所述预置模型中包含特征提取网络;
生成模块321,具体用于依次将每个所述样本图像输入至所述特征提取网络中,以便所述特征提取网络输出每个所述样本图像对应的原始特征图像。
进一步的,如图4所示,该装置还包括:
处理单元35,用于在获取单元31获取多个样本图像之后,根据预设图像尺寸对每个所述样本图像进行第二预设方式处理,其中,所述第二预设方式处理包括等比例缩放处理、裁剪处理和仿射变换处理中的任意一种或任意多种;
生成单元32,具体用于基于所述预置模型生成每个经过第二预设方式处理的所述样本图像对应的优化特征图像。
本申请实施例提供一种目标检测方法及装置,本申请实施例能够在目标检测应用程序获取得到多个样本图像后,由目标检测应用程序基于预置模型生成每个样本图像对应的优化特征图像,再将多个优化特征图像作为训练样本集,对预置模型进行训练,直至预置模型的总损失函数收敛,以获得目标检测模型,再将需要进行目标检测的待检测图像输入至目标检测模型中,以便目标检测模型对待检测图像进行目标检测,从而输出待检测图像对应的目标检测结果。由于,在本申请实施例中,目标检测应用程序是基于多个样本图像对应的优化特征图像对预置模型进行训练,从而能够有效提高目标检测模型输出目标检测结果的准确性,进而使得目标检测应用程序能够准确输出待检测图像对应的目标检测结果。
所述目标检测装置包括处理器和存储器,上述获取单元、生成单元、训练单元和输入单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来有效地提高目标检测的准确性。
本申请实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的目标检测方法。
存储介质可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例还提供了一种目标检测装置,所述装置包括存储介质;及一个或者多个处理器,所述存储介质与所述处理器耦合,所述处理器被配置为执行所述存储介质中存储的程序指令;所述程序指令运行时执行上述所述的目标检测方法。
本申请实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取多个样本图像;
基于预置模型生成每个所述样本图像对应的优化特征图像;
将多个所述优化特征图像作为训练样本集,对所述预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得目标检测模型;
将待检测图像输入至所述目标检测模型中,以便所述目标检测模型输出所述待检测图像对应的目标检测结果。
进一步的,所述基于预置模型生成每个所述样本图像对应的优化特征图像,包括:
基于预置模型生成每个所述样本图像对应的原始特征图像;
分别对每个所述原始特征图像进行优化处理,以获得每个所述原始特征图像对应的优化特征图像。
进一步的,所述分别对每个所述原始特征图像进行优化处理,以获得每个所述原始特征图像对应的优化特征图像,包括:
确定所述原始特征图像包含的每个原始特征图层对应的通道注意力权重值;
根据多个所述原始特征图层和每个所述原始特征图层对应的通道注意力权重值,生成通道注意力特征图像;
根据每个所述原始特征图层对应的通道注意力权重值对所述通道注意力特征图像进行空间维度处理,以获得通道空间注意力图像,其中,所述通道空间注意力图像包含每个所述原始特征图层对应的通道空间注意力图层;
对所述原始特征图像和所述通道空间注意力图像进行组合处理,以获得所述原始特征图像对应的优化特征图像。
进一步的,所述预置模型中包含池化层和分类回归层;所述确定所述原始特征图像包含的每个原始特征图层对应的通道注意力权重值,包括:
根据所述池化层和所述分类回归层,确定每个所述原始特征图层对应的多个分类概率值,其中,所述原始特征图层对应的多个分类概率值为所述原始特征图层的每个像素点对应的分类概率值;
分别对每个所述原始特征图层对应的每个分类概率值进行反向传播处理,以获得每个所述原始特征图层对应的梯度特征图层;
分别对每个所述梯度特征图层进行全局平均池化处理,以获得每个所述原始特征图层对应的通道注意力权重值。
进一步的,所述根据多个所述原始特征图层和每个所述原始特征图层对应的通道注意力权重值,生成通道注意力特征图像,包括:
分别计算每个所述原始特征图层与其对应的通道注意力权重值的乘积,以获得每个所述原始特征图层对应的通道权重特征图层;
对多个所述通道权重特征图层进行第一预设方式处理,以生成所述通道注意力特征图像,其中,所述第一预设方式处理包括像素值叠加处理、非线性修正处理和归一化处理。
进一步的,所述根据每个所述原始特征图层对应的通道注意力权重值对所述通道注意力特征图像进行空间维度处理,以获得通道空间注意力图像,包括:
分别将每个所述原始特征图层对应的通道注意力权重值代入预设公式中,以获得每个所述原始特征图层对应的优化通道注意力权重值;
根据每个所述原始特征图层对应的优化通道注意力权重值和所述通道注意力特征图像,生成每个所述原始特征图层对应的通道空间注意力图层;
对多个所述通道空间注意力图层进行组合处理,以获得所述通道空间注意力图像。
进一步的,所述将多个所述优化特征图像作为训练样本集,对所述预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得目标检测模型,包括:
基于所述训练样本集对所述预置模型进行迭代训练;其中,
在每轮训练后,判断所述预置模型的总损失函数是否收敛;
若所述总损失函数收敛,则将本轮训练后得到的所述预置模型确定为所述目标检测模型;
若所述总损失函数未收敛,则对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述预置模型的模型参数进行优化调整,以及基于优化调整后的所述预置模型进入下一轮训练。
进一步的,所述总损失函数包括分类损失函数、回归损失函数和像素分割损失函数;所述判断所述预置模型的总损失函数是否收敛,包括:
获取所述分类损失函数对应的损失值、所述回归损失函数对应的损失值和所述像素分割损失函数对应的损失值;
对所述分类损失函数对应的损失值、所述回归损失函数对应的损失值和所述像素分割损失函数对应的损失值进行求和计算,以获得所述总损失函数对应的总损失值;
判断所述总损失值是否小于预设阈值。
进一步的,所述方法还包括:
若所述总损失函数未收敛,则判断当前累计迭代训练时长是否达到预设时长阈值;
若达到所述预设时长阈值,则将本轮训练后得到的所述预置模型确定为所述目标检测模型;
若未达到所述预设时长阈值,则进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述预置模型的模型参数进行优化调整,以及基于优化调整后的所述预置模型进入下一轮训练的步骤。
进一步的,所述方法还包括:
若所述总损失函数未收敛,则判断当前累计迭代训练次数是否达到预设次数阈值;
若达到所述预设次数阈值,则将本轮训练后得到的所述预置模型确定为所述目标检测模型;
若未达到所述预设次数阈值,则进入对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述预置模型的模型参数进行优化调整,以及基于优化调整后的所述预置模型进入下一轮训练的步骤。
进一步的,所述预置模型中包含特征提取网络;所述基于预置模型生成每个所述样本图像对应的原始特征图像,包括:
依次将每个所述样本图像输入至所述特征提取网络中,以便所述特征提取网络输出每个所述样本图像对应的原始特征图像。
进一步的,在所述获取多个样本图像之后,所述方法还包括:
根据预设图像尺寸对每个所述样本图像进行第二预设方式处理,其中,所述第二预设方式处理包括等比例缩放处理、裁剪处理和仿射变换处理中的任意一种或任意多种;
所述基于预置模型生成每个所述样本图像对应的优化特征图像,包括:
基于所述预置模型生成每个经过第二预设方式处理的所述样本图像对应的优化特征图像。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取多个样本图像;基于预置模型生成每个所述样本图像对应的优化特征图像;将多个所述优化特征图像作为训练样本集,对所述预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得目标检测模型;将待检测图像输入至所述目标检测模型中,以便所述目标检测模型输出所述待检测图像对应的目标检测结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (11)
1.一种目标检测方法,其特征在于,所述方法包括:
获取多个样本图像;
基于预置模型生成每个所述样本图像对应的优化特征图像;
将多个所述优化特征图像作为训练样本集,对所述预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得目标检测模型;
将待检测图像输入至所述目标检测模型中,以便所述目标检测模型输出所述待检测图像对应的目标检测结果。
2.根据权利要求1所述的方法,其特征在于,所述基于预置模型生成每个所述样本图像对应的优化特征图像,包括:
基于预置模型生成每个所述样本图像对应的原始特征图像;
分别对每个所述原始特征图像进行优化处理,以获得每个所述原始特征图像对应的优化特征图像。
3.根据权利要求2所述的方法,其特征在于,所述分别对每个所述原始特征图像进行优化处理,以获得每个所述原始特征图像对应的优化特征图像,包括:
确定所述原始特征图像包含的每个原始特征图层对应的通道注意力权重值;
根据多个所述原始特征图层和每个所述原始特征图层对应的通道注意力权重值,生成通道注意力特征图像;
根据每个所述原始特征图层对应的通道注意力权重值对所述通道注意力特征图像进行空间维度处理,以获得通道空间注意力图像,其中,所述通道空间注意力图像包含每个所述原始特征图层对应的通道空间注意力图层;
对所述原始特征图像和所述通道空间注意力图像进行组合处理,以获得所述原始特征图像对应的优化特征图像。
4.根据权利要求3所述的方法,其特征在于,所述预置模型中包含池化层和分类回归层;所述确定所述原始特征图像包含的每个原始特征图层对应的通道注意力权重值,包括:
根据所述池化层和所述分类回归层,确定每个所述原始特征图层对应的多个分类概率值,其中,所述原始特征图层对应的多个分类概率值为所述原始特征图层的每个像素点对应的分类概率值;
分别对每个所述原始特征图层对应的每个分类概率值进行反向传播处理,以获得每个所述原始特征图层对应的梯度特征图层;
分别对每个所述梯度特征图层进行全局平均池化处理,以获得每个所述原始特征图层对应的通道注意力权重值。
5.根据权利要求3所述的方法,其特征在于,所述根据多个所述原始特征图层和每个所述原始特征图层对应的通道注意力权重值,生成通道注意力特征图像,包括:
分别计算每个所述原始特征图层与其对应的通道注意力权重值的乘积,以获得每个所述原始特征图层对应的通道权重特征图层;
对多个所述通道权重特征图层进行第一预设方式处理,以生成所述通道注意力特征图像,其中,所述第一预设方式处理包括像素值叠加处理、非线性修正处理和归一化处理。
6.根据权利要求3所述的方法,其特征在于,所述根据每个所述原始特征图层对应的通道注意力权重值对所述通道注意力特征图像进行空间维度处理,以获得通道空间注意力图像,包括:
分别将每个所述原始特征图层对应的通道注意力权重值代入预设公式中,以获得每个所述原始特征图层对应的优化通道注意力权重值;
根据每个所述原始特征图层对应的优化通道注意力权重值和所述通道注意力特征图像,生成每个所述原始特征图层对应的通道空间注意力图层;
对多个所述通道空间注意力图层进行组合处理,以获得所述通道空间注意力图像。
7.根据权利要求1所述的方法,其特征在于,所述将多个所述优化特征图像作为训练样本集,对所述预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得目标检测模型,包括:
基于所述训练样本集对所述预置模型进行迭代训练;其中,
在每轮训练后,判断所述预置模型的总损失函数是否收敛;
若所述总损失函数收敛,则将本轮训练后得到的所述预置模型确定为所述目标检测模型;
若所述总损失函数未收敛,则对所述总损失函数进行反向传播处理,并根据经过反向传播处理后的所述总损失函数,对所述预置模型的模型参数进行优化调整,以及基于优化调整后的所述预置模型进入下一轮训练。
8.根据权利要求7所述的方法,其特征在于,所述总损失函数包括分类损失函数、回归损失函数和像素分割损失函数;所述判断所述预置模型的总损失函数是否收敛,包括:
获取所述分类损失函数对应的损失值、所述回归损失函数对应的损失值和所述像素分割损失函数对应的损失值;
对所述分类损失函数对应的损失值、所述回归损失函数对应的损失值和所述像素分割损失函数对应的损失值进行求和计算,以获得所述总损失函数对应的总损失值;
判断所述总损失值是否小于预设阈值。
9.根据权利要求2所述的方法,其特征在于,所述预置模型中包含特征提取网络;所述基于预置模型生成每个所述样本图像对应的原始特征图像,包括:
依次将每个所述样本图像输入至所述特征提取网络中,以便所述特征提取网络输出每个所述样本图像对应的原始特征图像。
10.一种目标检测装置,其特征在于,所述装置包括:
获取单元,用于获取多个样本图像;
生成单元,用于基于预置模型生成每个所述样本图像对应的优化特征图像;
训练单元,用于将多个所述优化特征图像作为训练样本集,对所述预置模型进行训练,直至所述预置模型的总损失函数收敛,以获得目标检测模型;
输入单元,用于将待检测图像输入至所述目标检测模型中,以便所述目标检测模型输出所述待检测图像对应的目标检测结果。
11.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至9中任一项所述的目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111289391.XA CN113963236A (zh) | 2021-11-02 | 2021-11-02 | 目标检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111289391.XA CN113963236A (zh) | 2021-11-02 | 2021-11-02 | 目标检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113963236A true CN113963236A (zh) | 2022-01-21 |
Family
ID=79468977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111289391.XA Pending CN113963236A (zh) | 2021-11-02 | 2021-11-02 | 目标检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113963236A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115049878A (zh) * | 2022-06-17 | 2022-09-13 | 平安科技(深圳)有限公司 | 基于人工智能的目标检测优化方法、装置、设备及介质 |
CN116682014A (zh) * | 2023-06-07 | 2023-09-01 | 无锡照明股份有限公司 | 一种灯幕楼宇图像分割方法、装置、设备及存储介质 |
-
2021
- 2021-11-02 CN CN202111289391.XA patent/CN113963236A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115049878A (zh) * | 2022-06-17 | 2022-09-13 | 平安科技(深圳)有限公司 | 基于人工智能的目标检测优化方法、装置、设备及介质 |
CN115049878B (zh) * | 2022-06-17 | 2024-05-03 | 平安科技(深圳)有限公司 | 基于人工智能的目标检测优化方法、装置、设备及介质 |
CN116682014A (zh) * | 2023-06-07 | 2023-09-01 | 无锡照明股份有限公司 | 一种灯幕楼宇图像分割方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106570464B (zh) | 一种快速处理人脸遮挡的人脸识别方法及装置 | |
CN110349190B (zh) | 自适应学习的目标跟踪方法、装置、设备及可读存储介质 | |
CN111914908B (zh) | 一种图像识别模型训练方法、图像识别方法及相关设备 | |
CN107832683A (zh) | 一种目标跟踪方法及系统 | |
CN113963236A (zh) | 目标检测方法及装置 | |
CN110827292B (zh) | 一种基于卷积神经网络的视频实例分割方法及设备 | |
CN111899203B (zh) | 基于标注图在无监督训练下的真实图像生成方法及存储介质 | |
CN109902588B (zh) | 一种手势识别方法、装置及计算机可读存储介质 | |
CN114241388A (zh) | 基于时空记忆信息的视频实例分割方法和分割装置 | |
CN114549913A (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN113505797A (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
CN112150497A (zh) | 基于二值神经网络的局部激活方法与系统 | |
CN109903246B (zh) | 检测图像变化的方法及装置 | |
CN113744280B (zh) | 图像处理方法、装置、设备及介质 | |
CN113469111A (zh) | 图像关键点检测方法及系统、电子设备、存储介质 | |
CN113723352A (zh) | 一种文本检测方法、系统、存储介质及电子设备 | |
CN110992371B (zh) | 一种基于先验信息的人像分割方法、装置及电子设备 | |
CN112465847A (zh) | 一种基于预测清晰边界的边缘检测方法、装置及设备 | |
CN115798005A (zh) | 基准照片的处理方法及装置、处理器和电子设备 | |
CN111639654B (zh) | 一种图像处理方法、装置及计算机存储介质 | |
US11288534B2 (en) | Apparatus and method for image processing for machine learning | |
CN111523533B (zh) | 一种从图像中确定物体所在区域的方法及装置 | |
CN110751197A (zh) | 图片分类方法、图片模型训练方法及设备 | |
CN111626305B (zh) | 目标检测方法、装置和设备 | |
CN116071375B (zh) | 图像分割方法和装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 101, floor 1, building 3, yard 18, Kechuang 10th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing 100176 Applicant after: Beijing ESWIN Computing Technology Co.,Ltd. Address before: Room 101, floor 1, building 3, yard 18, Kechuang 10th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing 100176 Applicant before: Beijing yisiwei Computing Technology Co.,Ltd. |
|
CB02 | Change of applicant information |