CN116580230A - 一种目标检测方法及一种分类模型的训练方法 - Google Patents
一种目标检测方法及一种分类模型的训练方法 Download PDFInfo
- Publication number
- CN116580230A CN116580230A CN202310472332.9A CN202310472332A CN116580230A CN 116580230 A CN116580230 A CN 116580230A CN 202310472332 A CN202310472332 A CN 202310472332A CN 116580230 A CN116580230 A CN 116580230A
- Authority
- CN
- China
- Prior art keywords
- region
- interest
- classification
- base learner
- base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 105
- 238000001514 detection method Methods 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000013145 classification model Methods 0.000 title claims abstract description 52
- 238000000605 extraction Methods 0.000 claims description 38
- 230000004927 fusion Effects 0.000 claims description 35
- 238000005070 sampling Methods 0.000 claims description 10
- 239000000523 sample Substances 0.000 description 88
- 238000004590 computer program Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000003860 storage Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 5
- 230000000750 progressive effect Effects 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000005286 illumination Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000003466 welding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及机器视觉技术领域,提供一种目标检测方法及一种分类模型的训练方法,一种目标检测方法包括获取待检测图像,并确定待检测图像中的感兴趣区域;将感兴趣区域分别输入至分类模型中的多个基学习器,利用多个基学习器分别输出与感兴趣区域对应的各候选标签的预测分类分数;各基学习器分别根据不同特征类型的样本特征训练得到;根据各预测分类分数从各候选标签中确定与感兴趣区域对应的分类标签;确定与感兴趣区域对应的位置信息;根据分类标签和位置信息输出待检测图像的检测结果。本方法能够利用各基学习器根据待检测图像的各特征精准确定出对应的预测分类分数,进而精准确定出分类标签,因此能够提高目标检测的精准度。
Description
技术领域
本申请涉及机器视觉技术领域,尤其涉及一种目标检测方法、装置、一种分类模型的训练方法、终端设备和计算机可读存储介质。
背景技术
近年来,目标检测技术在各行业领域广泛应用。目标检测技术指的是利用预先训练出的检测模型在待检测图像中识别并定位出检测目标的技术。随着深度学习技术的快速发展,在大量训练样本的支持下,目标检测技术已经取得很大的进展。
在实际操作中,可以针对复杂交通场景中的待检测图像进行目标检测,确定出检测结果;或者对复杂作业场景中的PCB(Printed Circuit Board,印制电路板)图像进行目标检测,以识别故障或残损PCB。其中,待检测图像可能是在存在复杂干扰因素的场景下获取到的,复杂交通场景对应的复杂干扰因素包括极端的光照条件(强光照射)、多种多样的交通场景(高速道路或乡村道路等)以及恶劣的天气条件(雨天或雾天等)等;复杂作业场景对应的复杂干扰因素包括对PCB的集中光照条件、PCB处于移动过程以及拍摄角度限制等。而由于出现干扰因素的情况较少,使得包括复杂干扰因素对应的训练样本较少,在训练检测模型时将存在样本类别分布不均衡的问题,从而导致训练出的检测模型的泛化性较差,在对包括复杂干扰因素的待检测图像进行目标检测时的精准度低。
因此,如何提高目标检测的精准度,是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的在于提供一种目标检测方法、装置、一种分类模型的训练方法、终端设备和计算机可读存储介质,旨在提高目标检测的精准度。
第一方面,本申请提供了一种目标检测方法。所述方法包括:
获取待检测图像,并确定所述待检测图像中的感兴趣区域;
将所述感兴趣区域分别输入至分类模型中的多个基学习器,利用多个所述基学习器分别输出与所述感兴趣区域对应的各候选标签的预测分类分数;各所述基学习器分别根据不同特征类型的样本特征训练得到;
根据各所述预测分类分数从各所述候选标签中确定与所述感兴趣区域对应的分类标签;
确定与所述感兴趣区域对应的位置信息;
根据所述分类标签和所述位置信息输出所述待检测图像的检测结果。
在其中一个实施例中,多个所述基学习器的输入输出顺序连接;所述将所述感兴趣区域分别输入至分类模型中的多个基学习器,利用多个所述基学习器分别输出与所述感兴趣区域对应的各候选标签的预测分类分数,包括:
针对分类模型中的多个所述基学习器中的任一非首个所述基学习器,将所述感兴趣区域和上一基学习器的输出结果输入至所述基学习器,输出与各候选标签分别对应的预测分类分数;所述输出结果为所述上一基学习器对各所述候选标签分别输出的预测分类分数。
在其中一个实施例中,所述确定与所述感兴趣区域对应的位置信息,包括:
确定所述感兴趣区域对应的参考框的初始坐标;
利用多个回归器基于所述感兴趣区域和所述初始坐标进行迭代计算,得到与所述感兴趣区域对应的位置信息。
在其中一个实施例中,所述获取待检测图像,并确定所述待检测图像中的感兴趣区域,包括:
获取待检测图像;
利用特征提取网络确定所述待检测图像的多尺度特征图;
对所述多尺度特征图进行特征融合,得到融合特征图;
根据所述融合特征图确定所述待检测图像中的感兴趣区域。
在其中一个实施例中,所述对所述多尺度特征图进行特征融合,得到融合特征图,包括:
针对所述多尺度特征图中的每一特征图,根据所述特征图和预设倍数上采样层确定与所述特征图对应的中间特征图;
针对每一所述中间特征图,根据所述中间特征图和预设倍数下采样层确定与所述中间特征图对应的融合特征图。
在其中一个实施例中,所述利用特征提取网络确定所述待检测图像的多尺度特征图,包括:
确定所述待检测图像的场景类型;
确定与所述场景类型对应的特征提取网络;
将所述待检测图像输入至所述特征提取网络中,利用所述特征提取网络进行特征提取,得到多尺度特征图。
第二方面,本申请还提供了一种分类模型的训练方法。所述分类模型包括多个基学习器,所述方法包括:
基于不同特征类型的训练样本分别对各所述基学习器进行学习训练,得到对应的基学习器;所述基学习器的输出为与待检测图像的感兴趣区域对应的各候选标签的预测分类分数;
根据各所述基学习器确定出所述分类模型。
在其中一个实施例中,多个所述基学习器顺序连接,所述基于不同特征类型的训练样本分别对各所述基学习器进行学习训练,得到对应的基学习器,包括:
针对任一非首个所述基学习器,基于不同特征类型的所述训练样本和上一基学习器的样本输出结果对所述基学习器进行学习训练,得到对应的基学习器;所述训练样本包括感兴趣区域和样本标签;所述上一基学习器为与所述基学习器连接的前一个基学习器;所述样本输出结果为所述上一基学习器对各所述样本标签分别输出的预测分类分数。
在其中一个实施例中,所述针对任一非首个所述基学习器,基于不同特征类型的所述训练样本和上一基学习器的样本输出结果对所述基学习器进行学习训练,得到对应的基学习器,包括:
针对任一非首个所述基学习器,根据所述训练样本的样本特征和上一基学习器的样本输出结果确定所述基学习器对所述训练样本的分类权重;
根据所述感兴趣区域和所述分类权重进行学习训练,得到对应的基学习器。
在其中一个实施例中,所述根据所述感兴趣区域和所述分类权重进行学习训练,得到对应的基学习器,包括:
根据所述感兴趣区域、预测分类分数对应的样本标签和所述分类权重确定所述基学习器的分类误差;
根据所述分类误差对所述基学习器进行模型参数调整,确定出对应的基学习器。
第三方面,本申请还提供了一种目标检测装置。所述装置包括:
获取模块,用于获取待检测图像,并确定所述待检测图像中的感兴趣区域;
分数确定模块,用于将所述感兴趣区域分别输入至分类模型中的多个基学习器,利用多个所述基学习器分别输出与所述感兴趣区域对应的各候选标签的预测分类分数;各所述基学习器分别根据不同特征类型的样本特征训练得到;
分类模块,用于根据各所述预测分类分数从各所述候选标签中确定与所述感兴趣区域对应的分类标签;
位置确定模块,用于确定与所述感兴趣区域对应的位置信息;
输出模块,用于根据所述分类标签和所述位置信息输出所述待检测图像的检测结果。
第四方面,本申请还提供了一种终端设备。所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
第五方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法的步骤。
本申请提供一种目标检测方法,在确定出待检测图像的感兴趣区域后,将感兴趣区域分别输入至分类模型中的多个基学习器,利用多个基学习器分别输出与感兴趣区域对应的各候选标签的预测分类分数,并根据各预测分类分数从各候选标签中确定与感兴趣区域对应的分类标签;由于各基学习器分别根据不同特征类型的样本特征训练得到,因此,本方法能够利用各基学习器根据待检测图像的各特征精准确定出对应的预测分类分数,进而根据预测分类分数精准确定出分类标签。可见,本方法能够提高目标检测的精准度。
可以理解的是,本申请实施例提供的一种目标检测装置、一种分类模型的训练方法、终端设备和计算机可读存储介质具有如上述目标检测方法相同的有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种目标检测方法的流程图;
图2为本申请实施例提供的一种回归器的结构示意图;
图3为本申请实施例提供的另一种目标检测方法的过程示意图;
图4为本申请实施例提供的一种分类模型的训练方法的流程图;
图5为本申请实施例提供的一种基学习器的结构示意图;
图6为本申请实施例提供的一种目标检测装置的结构示意图;
图7为本申请实施例提供的一种分类模型的训练装置的结构示意图;
图8为本申请实施例提供的一种终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、设备、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。“多个”表示“两个或两个以上”。
本申请实施例提供的一种目标检测方法,可以由终端设备的处理器在运行相应的计算机程序时执行。
图1为本申请实施例提供的一种目标检测方法的流程图,为了便于说明,仅示出了与本实施例相关的部分,本实施例提供的方法包括如下步骤:
S110:获取待检测图像,并确定待检测图像中的感兴趣区域。
其中,待检测图像为需要进行目标检测的图像;待检测图像可以是交通场景对应的图像,也可以是在工业作业场景采集到的PCB图像等,本实施例对待检测图像的具体类型不做限定。
在实际操作中,可以是直接采集待检测图像,也可以是在采集到监测场景对应的视频数据后,从视频数据中确定出需要进行目标检测的图像帧,即确定出对应的待检测图像。
其中,感兴趣区域(region of interest,ROI)指的是在图像处理中,从待检测图像中以方框、圆、椭圆、不规则多边形等方式勾勒出需要进行目标检测的区域;即感兴趣区域是从待检测图像中选择的一个图像区域,这个区域是进行目标检测的重点。在实际操作中,可以从待检测图像中确定出一个或多个感兴趣区域,本实施例对此不做限定,根据实际需求设置即可。
S120:将感兴趣区域分别输入至分类模型中的多个基学习器,利用多个基学习器分别输出与感兴趣区域对应的各候选标签的预测分类分数;各基学习器分别根据不同特征类型的样本特征训练得到。
本实施例中,预先训练出多个基学习器(个体学习器),每个基学习器在学习训练的过程中学习训练样本的不同特征类型的样本特征,即每一个预先训练出的基学习器“好而不同”,然后将各基学习器按照一定的结合策略进行结合,使其形成一个强学习器,即得到分类模型。
在确定出感兴趣区域后,将待检测图像的感兴趣区域分别输入至分类模型中的各基学习器中,各基学习器分别输出与感兴趣区域对应的各候选标签的预测分类分数。也就是说,针对感兴趣区域对应的各分类标签,不同特征类型的基学习器基于各自预先训练出的样本特征输出对应的预测分类分数。
S130:根据各预测分类分数从各候选标签中确定与感兴趣区域对应的分类标签。
具体的,在各基学习器分别输出与各候选标签对应的预测分类分数后,针对每一类型的候选标签,分别利用对应的各预测分类分数进行加权平均计算,得到计算结果;比较各候选标签分别对应的计算结果,从各候选标签中确定出与感兴趣区域对应的分类标签。
S140:确定与感兴趣区域对应的位置信息。
其中,位置信息指的是与感兴趣区域对应的参考框的坐标;也就是感兴趣区域中的检测目标在待检测图像中对应的位置信息。具体的,在确定出待检测图像中的感兴趣区域后,将感兴趣区域输入至回归器(Bounding-box regression)中,利用回归器输出与感兴趣区域对应的回归坐标,即确定出感兴趣区域的位置信息。在实际操作中,一般使用四维向量(x,y,w,h)来表示回归坐标,x、y、w和h分别表示参考框对应的中心点坐标、框宽和框高。
S150:根据分类标签和位置信息输出待检测图像的检测结果。
具体的,在确定出感兴趣区域对应的分类标签和位置信息后,可以直接在待检测图像上设置相应的标记,并输出标记后的图像,即得到对待检测图像进行目标检测的检测结果;也可以将分类标签和位置信息编码成其他格式输出,确定出目标检测的检测结果;本实施例对输出检测结果的具体方式不做限定。
本申请实施例提供一种目标检测方法,在确定出待检测图像的感兴趣区域后,将感兴趣区域分别输入至分类模型中的多个基学习器,利用多个基学习器分别输出与感兴趣区域对应的各候选标签的预测分类分数,并根据各预测分类分数从各候选标签中确定与感兴趣区域对应的分类标签;由于各基学习器分别根据不同特征类型的样本特征训练得到,因此,本方法能够利用各基学习器根据待检测图像的各特征精准确定出对应的预测分类分数,进而根据预测分类分数精准确定出分类标签。可见,本方法能够提高目标检测的精准度。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,本实施例中,多个基学习器的输入输出顺序连接;将感兴趣区域分别输入至分类模型中的多个基学习器,利用多个基学习器分别输出与感兴趣区域对应的各候选标签的预测分类分数,包括:
针对分类模型中的多个基学习器中的任一非首个基学习器,将感兴趣区域和上一基学习器的输出结果输入至基学习器,输出与各候选标签分别对应的预测分类分数;输出结果为上一基学习器对各候选标签分别输出的预测分类分数。
在本实施例中,多个基学习器的输入输出顺序连接,即上一个基学习器的输出与下一个基学习器的输入连接。针对分类模型中的多个基学习器中的任一非首个基学习器,其输出预测分类分数的过程包括:将感兴趣区域和与该基学习器对应的上一基学习器的输出结果输出至该基学习器中,上一基学习器为与该基学习器顺序连接的前一个基学习器,输出结果为上一基学习器对各候选标签分别输出的预测分类分数;该基学习器根据感兴趣区域和输出结果输出与各候选标签分别对应的预测分类分数。该基学习器在确定出与各候选标签分别对应的预测分类分数后,即确定出与该基学习器顺序连接的下一基学习器的输出结果,将输出结果输入至与该基学习器对应的下一基学习器中。
可见,按照本实施例的方法,能够利用分类模型精准确定出各候选标签分别对应的预测分类分数,从而提高确定出的与感兴趣区域对应的分类标签的精准度。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,本实施例中,确定与感兴趣区域对应的位置信息,包括:
确定感兴趣区域对应的参考框的初始坐标;
利用多个回归器基于感兴趣区域和初始坐标进行迭代计算,得到与感兴趣区域对应的位置信息。
具体的,在本实施例中,预先设置多个回归器,且各回归器顺序连接。图2为本申请实施例提供的一种回归器的结构示意图;如图所示,每个回归器包括少量的卷积层;在确定感兴趣区域对应的参考框的初始坐标后,利用多个回归器基于感兴趣区域和初始坐标进行迭代计算,得到与感兴趣区域对应的回归坐标(位置信息);迭代计算的过程如下:
其中,R(·)表示神经网络中的非线性计算,b表示感兴趣区域对应的参考框的初始坐标,M为所有回归器的数量,x表示回归的感兴趣区域的特征图。每一个回归器Rm优化来自前一个回归器Rm-1的参考框的坐标bm-1。
针对每一个回归器,其对应的非线性计算包括:将裁剪下来的感兴趣区域的特征经过少量卷积层、归一层(根据具体情况来灵活使用Batch Normalization等归一化方法)以及激活层之后,进行展平,最后经过全连接层得到参考框的位置信息。
本实施例通过渐进式回归的方法,能够高效精准地确定出待检测图像中的感兴趣区域的位置信息。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,本实施例中,获取待检测图像,并确定待检测图像中的感兴趣区域,包括:
获取待检测图像;
利用特征提取网络确定待检测图像的多尺度特征图;
对多尺度特征图进行特征融合,得到融合特征图;
根据融合特征图确定待检测图像中的感兴趣区域。
其中,特征提取网络指的是用于提取待检测图像的特征的网络,本实施例对特征提取网络的具体类型不做限定,例如可以包括ResNet50、Swin-T以及Mobilenet v3等。本实施例中,将待检测图像输入至特征提取网络中,利用特征提取网络输出与待检测图像对应的多尺度特征图。
其中,多尺度特征图指的是不同层次的图片特征,如低层特征和高层特征等;需要说明的是,确定出的多尺度特征图中,低层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多;高层特征具有更强的语义信息,但是分辨率很低,对细节的感知能力较差。
其中,特征融合指的是利用低层特征和高层特征之间的互补性,融合特征之间的优点,进而提高模型的性能的操作。本实施例中,在确定出多尺度特征图后,将多尺度特征图进行特征融合,得到融合特征图。
具体的,可以根据先验知识或者对相应场景类型的图像进行K-means聚类分析确定锚框(anchor box)的比例(scale)和边长(ratio),得到不同的锚框。本实施例中,锚框的边长可以为{4,8,16,32}。然后,为融合特征图中的每个像素分配预设的锚框,并将各锚框对应的特征图输入至池化层进行感兴趣区域池化操作,固定特征的大小,确定出交并比(Intersection over Union,IoU)大于预设阈值的锚框,该锚框也就是与感兴趣区域对应的参考框,即确定出感兴趣区域。
本实施例通过确定待检测图像的多尺度特征图,并对待检测图像的多尺度特征图进行特征融合得到融合特征图,根据融合特征图确定待检测图像中的感兴趣区域,能够有效提取并凸显待检测图像的各个尺度对应的特征,基于该感兴趣区域进行目标检测,能够提高目标检测的精准度。
在其中一个实施例中,对多尺度特征图进行特征融合,得到融合特征图,包括:
针对多尺度特征图中的每一特征图,根据特征图和预设倍数上采样层确定与特征图对应的中间特征图;
针对每一中间特征图,根据中间特征图和预设倍数下采样层确定与中间特征图对应的融合特征图。
具体的,在确定出待检测图像的多尺度特征图后,针对多尺度特征图中的每一特征图,先确定与该特征图对应的预设倍数上采样层,然后根据该特征层和预设倍数上采样层确定与该特征图对应的中间特征图;针对每一中间特征图,先确定与该中间特征图对应的预设倍数下采样层,然后根据该中间特征图和预设倍数下采样层确定与中间特征图对应的融合特征图;本实例中的预设倍数上采样层可以是两倍上采样层,预设倍数下采样层可以是两倍下采样层。
按照本实施例的方法确定出融合特征图,能够获取待检测图像中更多的特征,从而提高目标检测的精准度。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,本实施例中,利用特征提取网络确定待检测图像的多尺度特征图,包括:
确定待检测图像的场景类型;
确定与场景类型对应的特征提取网络;
将待检测图像输入至特征提取网络中,利用特征提取网络进行特征提取,得到多尺度特征图。
其中,场景类型指的是采集待检测图像对应的场景;若待检测图像为交通场景图像,场景类型包括不同复杂程度的街道场景、不同复杂程度的交通道路场景以及不同复杂程度的住宅区场景等;若待检测图像为PCB图像,场景类型包括在不同复杂程度的作业场景。
在实际操作中,预先针对不同的场景类型分别确定对应类型的特征提取网络,如针对复杂的街道场景,可以利用深度骨干网络如Swin-T进行特征提取;针对简单的住宅区场景,可以利用更轻量化的骨干网络如Mobilenet v3进行特征提取;或者针对复杂的作业场景,可以利用深度骨干网络如Swin-T进行特征提取;针对简单的作业场景,可以利用更轻量化的骨干网络如Mobilenet v3进行特征提取。
具体的,在确定出与场景类型对应的特征提取网络后,将待检测图像输入至特征提取网络中,利用特征提取网络进行特征提取,得到多尺度特征图。
本实施例中,利用与待检测图像的场景类型对应的特征提取网络对待检测图像进行特征提取,能够提高确定出多尺度特征图的效率,提高边缘计算的效率。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面结合实际应用场景对本申请实施例中的技术方案进行详细说明。结合图3所示的本申请实施例提供的另一种目标检测的过程示意图,在本申请实施例中,一种目标检测方法的具体步骤如下:
在作业场景中获取待检测图像(RGB通道);待检测图像为包括复杂干扰因素的PCB图像;
将待检测图像输入至特征提取网络(如ResNet50)中,提取ResNet101的第一层至第五层即Layer 1,Layer 2,Layer 3,Layer 4和Layer 5的特征图,得到多尺度特征图{x1,x2,x3,x4,x5},记为为了过滤掉一定的图片噪声,删除特征图x1,x2,得到多尺度特征图/>
利用基于反向路径聚合的特征混合模块进行特征融合,得到融合特征图;在一个具体的实施例中,确定融合特征图的过程如下:
将多尺度特征图输入到基于反向路径聚合的特征混合模块,在从上往下的特征聚合路径中,利用高层特征来增强低层特征,得到中间特征图/>具体如下:
其中,conv(·)表示卷积计算,u(·)表示两倍上采样层。
在从下往上的特征聚合路径中,利用低层特征增强高层特征,得到融合特征图具体如下:
其中,conv(·)表示卷积计算,该卷积相较于计算中间特征图时的卷积计算的步长更大,d(·)表示两倍下采样层。
然后,将融合特征图输入至区域候选网络,确定出感兴趣区域,并从待检测图像中裁剪出感兴趣区域,将裁剪出的特征图分别输入至集成式分类模块(分类模型)和渐进式回归模块。
对现有的作业场景对应的PCB图像集进行分析,使用K-means聚类分析方法,确定锚框的边长为{4,8,16,32}。在区域候选网络中,为融合特征图中的每个像素分配预设的锚框,并将各锚框对应的特征图输入至池化层进行感兴趣区域池化操作,固定特征的大小,确定出交并比大于预设阈值的锚框,该锚框也就是与感兴趣区域对应的参考框,即确定出感兴趣区域。
将感兴趣区域输入至集成式分类模块中,利用集成式分类模块的每一个基学习器分别输出与各候选标签分别对应的预测分类分数,并根据各预测分类分数从各候选标签中确定与感兴趣区域对应的分类标签;其中,每一个基学习器获取与基学习器对应的上一基学习器对各候选标签分别输出的预测分类分数,根据获取到的各预测分类分数中的最小值和感兴趣区域输出与各候选标签分别对应的预测分类分数;
将感兴趣区域输入至渐进式回归模块,确定感兴趣区域对应的参考框的初始坐标,并利用渐进式回归模块中的多个回归器基于感兴趣区域和初始坐标进行迭代计算,得到与感兴趣区域对应的位置信息;当前的技术方案中,是让分类任务和回归任务共享全连接层,将导致预测性能下降以及不准确的回归,本实施例提供的一种目标检测方法中,通过解耦分类任务和回归任务,利用独立于集成式分类模块的渐进式回归模块确定检测目标的位置信息,能够提高确定出位置信息的精准度和效率。
根据分类标签和位置信息在待检测图像上标记对应的检测结果并输出标记后的图像,确定出存在故障、残损或焊点异常的PCB图像。
本申请实施例提供一种目标检测方法,在确定出待检测图像的感兴趣区域后,将感兴趣区域分别输入至分类模型中的多个基学习器,利用多个基学习器分别输出与感兴趣区域对应的各候选标签的预测分类分数,并根据各预测分类分数从各候选标签中确定与感兴趣区域对应的分类标签;由于各基学习器分别根据不同特征类型的样本特征训练得到,因此,本方法能够利用各基学习器根据待检测图像的各特征精准确定出对应的预测分类分数,进而根据预测分类分数精准确定出分类标签。可见,本方法能够提高目标检测的精准度。
本申请实施例还提供一种分类模型的训练方法,本实施例中的分类模型包括多个基学习器,图4为本申请实施例提供的一种分类模型的训练方法的流程图,本实施例提供的一种分类模型的训练方法包括如下步骤:
S410:基于不同特征类型的训练样本分别对各基学习器进行学习训练,得到对应的基学习器;基学习器的输出为与待检测图像的感兴趣区域对应的各候选标签的预测分类分数;
S420:根据各基学习器确定出分类模型。
具体的,本实施例中的分类模型包括多个基学习器,针对分类模型中的各基学习器,利用不同特征类型的训练样本分别对各基学习器进行学习训练,得到对应的基学习器。每一个训练好的基学习器的输入为待检测图像,输出为与待检测图像的感兴趣区域对应的各候选标签的预测分类分数。在确定出各基学习器的基础上,根据训练出的各基学习器确定出对应的分类模型。
按照本实施例提供的分类模型的训练方法训练得出分类模型,并基于该分类模型进行目标检测,能够全面精准地进行目标检测,提高目标检测的精准度。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,本实施例中,多个基学习器顺序连接,基于不同特征类型的训练样本分别对各基学习器进行学习训练,得到对应的基学习器,包括:
针对任一非首个基学习器,基于不同特征类型的训练样本和上一基学习器的样本输出结果对基学习器进行学习训练,得到对应的基学习器;训练样本包括感兴趣区域和样本标签;上一基学习器为与基学习器连接的前一个基学习器;样本输出结果为上一基学习器对各样本标签分别输出的预测分类分数。
可以理解的是,训练样本的特征类型不同,基学习器基于训练样本所学习的样本特征的特征类型将对应不同。在本实施例中,针对任一非首个基学习器,获取样本输出结果,样本输出结果为上一基学习器对各样本标签分别输出的预测分类分数;将不同特征类型的训练样本和样本输出结果输入至该基学习器中,该基学习器根据训练样本和样本输出结果进行学习训练,输出对各样本标签分别对应的预测分类分数。
按照本实施例的方法,针对任一非首个基学习器,利用上一基学习器的样本输出结果对基学习器进行约束,增强上一个基学习器学得不好的样本特征的权重,避免各基学习器变得同质化;因此利用对应的分类模型进行目标检测,能够提高目标检测的精准度。
在一个具体的实施例中,针对任一非首个基学习器,基于不同特征类型的训练样本和上一基学习器的样本输出结果对基学习器进行学习训练,得到对应的基学习器,包括:
针对任一非首个基学习器,根据训练样本的样本特征和上一基学习器的样本输出结果确定基学习器对训练样本的分类权重;
根据感兴趣区域和分类权重进行学习训练,得到对应的基学习器。
在本实施例中,针对首个基学习器,将训练样本输入至该基学习器中进行学习训练,该基学习器根据训练样本的样本特征确定基学习器对训练样本的分类权重,并根据感兴趣区域和分类权重进行学习训练,得到对应的基学习器。针对任一非首个基学习器,将训练样本和样本输出结果输入至该基学习器中,该基学习器根据训练样本的样本特征和上一基学习器的样本输出结果确定基学习器对训练样本的分类权重,并根据感兴趣区域和分类权重进行学习训练,得到对应的基学习器。
图5为本申请实施例提供的一种基学习器的结构示意图;每一个基学习器包括至少一个全连接层和至少一个激活层;具体的,在每一个基学习器中,先将感兴趣区域展平,然后送入全连接层与卷积层的混合网络:确定训练样本的样本类型,样本类型包括前景样本和背景样本;获取与基学习器连接的上一基学习器输出的与训练样本的各样本标签对应的预测分类分数;根据训练样本的样本类型和上一样本分类分数确定训练样本的分类权重。
具体的,对于第i个基学习器的第j个训练样本,其分类权重表示如下:
其中,ω(ω≥0)表示敏感度;c表示样本标签;表示上一基学习器i-1对样本标签c的预测分类分数;F表示前景样本集合,B表示背景样本集合。
按照本实施例的方法,通过调整每一个基学习器对训练样本的分类权重来确定出针对不同学习特征的基学习器,操作方式便捷易行,并且每一个基学习器均与其他基学习器不同,减少了多个基学习器的预测方差,并且每个基学习器通过增强上一个基学习器学得不好的训练样本对应的分类权重,能够增强基学习器对复杂干扰因素对应的特征的学习,因此能够提高检测模型的鲁棒性和泛化性,提高目标检测的精准度。
在其中一个实施例中,根据感兴趣区域和分类权重进行学习训练,得到对应的基学习器,包括:
根据感兴趣区域、预测分类分数对应的样本标签和分类权重确定基学习器的分类误差;
根据分类误差对基学习器进行模型参数调整,确定出对应的基学习器。
具体的,首先根据感兴趣区域、预测分类分数对应的样本标签和分类权重确定基学习器的分类误差;在确定出该基学习器在当前训练阶段对应分类误差后,根据分类误差确定损失函数,基于损失函数调整基学习器的模型参数,在确定基学习器达到期待效果时,将对应训练阶段的基学习器确定为最终训练出的基学习器。
对于顺序连接的各基学习器中的第一个基学习器,其对应的所有的感兴趣区域设为1,且对于第i个基学习器的分类误差可以表示为:
其中,k表示训练样本中样本感兴趣区域对应的参考框;K表示训练样本中参考框的数量;表示基学习器i对参考框k对应的样本标签c的预测分类分数,且/> 表示基学习器i对参考框k对应的样本标签c的分类标签;C表示样本标签的类别数量。
在按照本实施例的方法确定出各基学习器后,在对待检测图像进行目标检测时,利用各基学习器分别确定出待检测图像中与感兴趣区域对应的各候选标签对应的预测分类分数,针对每个候选标签,通过将与该候选标签对应的各预测分类分数进行加权平均计算,得到与该候选标签对应的分类分数,通过比较各候选标签的分类分数的大小关系,从多个候选标签中确定与感兴趣区域对应的分类标签。其中,计算与候选标签的分类分数的计算方式如下:
其中,N表示基学习器的数量。
按照本实施例的方法训练出基学习器,每个基学习器通过增强上一个基学习器学得不好的训练样本对应的分类权重,能够增强基学习器对复杂干扰因素对应的特征的学习,因此能够提高检测模型的鲁棒性和泛化性,提高目标检测的精准度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图6所示为本申请实施例提供的一种目标检测装置的结构示意图。如图6所示,该实施例的目标检测装置包括获取模块610、分数确定模块620、分类模块630、位置确定模块640和输出模块660;其中,
获取模块610,用于获取待检测图像,并确定待检测图像中的感兴趣区域;
分数确定模块620,用于将感兴趣区域分别输入至分类模型中的多个基学习器,利用多个基学习器分别输出与感兴趣区域对应的各候选标签的预测分类分数;各基学习器分别根据不同特征类型的样本特征训练得到;
分类模块630,用于根据各预测分类分数从各候选标签中确定与感兴趣区域对应的分类标签;
位置确定模块640,用于确定与感兴趣区域对应的位置信息;
输出模块650,用于根据分类标签和位置信息输出待检测图像的检测结果。
本申请实施例提供的一种目标检测装置,具有与上述一种目标检测方法相同的有益效果。
在其中一个实施例中,多个基学习器的输入输出顺序连接;分数确定模块620包括:
预测分数确定子模块,用于针对分类模型中的多个基学习器中的任一非首个基学习器,将感兴趣区域和上一基学习器的输出结果输入至基学习器,输出与各候选标签分别对应的预测分类分数;输出结果为上一基学习器对各候选标签分别输出的预测分类分数。
在其中一个实施例中,位置确定模块640包括:
信息确定子模块,用于确定感兴趣区域对应的参考框的初始坐标;
位置信息确定子模块,用于利用多个回归器基于感兴趣区域和初始坐标进行迭代计算,得到与感兴趣区域对应的位置信息。
在其中一个实施例中,获取模块610包括:
图像获取子模块,用于获取待检测图像;
特征提取子模块,用于利用特征提取网络确定待检测图像的多尺度特征图;
特征融合子模块,用于对多尺度特征图进行特征融合,得到融合特征图;
区域确定子模块,用于根据融合特征图确定待检测图像中的感兴趣区域。
在其中一个实施例中,特征融合子模块包括:
第一特征融合单元,用于针对多尺度特征图中的每一特征图,根据特征图和预设倍数上采样层确定与特征图对应的中间特征图;
第二特征融合单元,用于针对每一中间特征图,根据中间特征图和预设倍数下采样层确定与中间特征图对应的融合特征图。
在其中一个实施例中,特征提取子模块包括:
场景确定单元,用于确定待检测图像的场景类型;
网络确定单元,用于确定与场景类型对应的特征提取网络;
特征提取单元,用于将待检测图像输入至特征提取网络中,利用特征提取网络进行特征提取,得到多尺度特征图。
图7所示为本申请实施例提供的一种分类模型的训练装置的结构示意图。如图7所示,该实施例的一种分类模型的训练装置包括模型训练模块710和模型确定模块720;其中,
模型训练模块710,用于基于不同特征类型的训练样本分别对各基学习器进行学习训练,得到对应的基学习器;基学习器的输出为与待检测图像的感兴趣区域对应的各候选标签的预测分类分数;
模型确定模块720,用于根据各基学习器确定出分类模型。
在其中一个实施例中,多个基学习器顺序连接,模型训练模块710包括:
模型训练子模块,用于针对任一非首个基学习器,基于不同特征类型的训练样本和上一基学习器的输出结果对基学习器进行学习训练,得到对应的基学习器;训练样本包括感兴趣区域和样本标签;上一基学习器为与基学习器连接的前一个基学习器;输出结果为上一基学习器对各样本标签分别输出的预测分类分数。
在其中一个实施例中,模型训练子模块包括:
第一确定单元,用于针对任一非首个基学习器,根据训练样本的样本特征和上一基学习器的输出结果确定基学习器对训练样本的分类权重;
第二确定单元,用于根据感兴趣区域和分类权重进行学习训练,得到对应的基学习器。
在其中一个实施例中,第二确定单元包括:
第一确定子单元,用于根据感兴趣区域、预测分类分数对应的样本标签和分类权重确定基学习器的分类误差;
第二确定子单元,用于根据分类误差对基学习器进行模型参数调整,确定出对应的基学习器。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图8为本申请实施例提供的一种终端设备的结构示意图。如图8所示,该实施例的终端设备800包括存储器801、处理器802以及存储在存储器801中并可在处理器802上运行的计算机程序803;处理器802执行计算机程序803时实现上述各个目标检测方法实施例中的步骤或各个分类模型的训练方法实施例中的步骤,或者处理器802执行计算机程序803时实现上述各装置实施例中各模块/单元的功能,例如图6所示获取模块610、分数确定模块620、分类模块630、位置确定模块640和输出模块650的功能,或者图7所示模型训练模块710和模型确定模块720的功能。
示例性的,计算机程序803可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器801中,并由处理器802执行,以实现本申请实施例的方法。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序803在终端设备800中的执行过程。例如,计算机程序803可以被分割成获取模块、分数确定模块、分类模块、位置确定模块和输出模块,各模块具体功能如下:
获取模块,用于获取待检测图像,并确定待检测图像中的感兴趣区域;
分数确定模块,用于将感兴趣区域分别输入至分类模型中的多个基学习器,利用多个基学习器分别输出与感兴趣区域对应的各候选标签的预测分类分数;各基学习器分别根据不同特征类型的样本特征训练得到;
分类模块,用于根据各预测分类分数从各候选标签中确定与感兴趣区域对应的分类标签;
位置确定模块,用于确定与感兴趣区域对应的位置信息;
输出模块,用于根据分类标签和位置信息输出待检测图像的检测结果。
在应用中,终端设备800可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备800可包括但不仅限于存储器801和处理器802。本领域技术人员可以理解,图8仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备还可以包括输入输出设备、网络接入设备、总线等;其中,输入输出设备可以包括摄像头、音频采集/播放器件、显示屏等;网络接入设备可以包括通信模块,用于与外部设备进行无线通信。
在应用中,处理器可以是中央处理单元(Central Processing Unit,CPU),也可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在应用中,存储器可以是终端设备的内部存储单元,例如终端设备的硬盘或内存;也可以是终端设备的外部存储设备,例如,终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等;还可以既包括终端设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(Boot Loader)、数据以及其他程序等,例如计算机程序的程序代码等。存储器还可以用于暂时存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
本申请实施例提供的一种计算机可读存储介质,具有与上述一种目标检测方法相同的有益效果。
本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到终端设备的任何实体或设备、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的设备及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,设备间接耦合或通讯连接,可以是电性,机械或其它的形式。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种目标检测方法,其特征在于,所述方法包括:
获取待检测图像,并确定所述待检测图像中的感兴趣区域;
将所述感兴趣区域分别输入至分类模型中的多个基学习器,利用多个所述基学习器分别输出与所述感兴趣区域对应的各候选标签的预测分类分数;各所述基学习器分别根据不同特征类型的样本特征训练得到;
根据各所述预测分类分数从各所述候选标签中确定与所述感兴趣区域对应的分类标签;
确定与所述感兴趣区域对应的位置信息;
根据所述分类标签和所述位置信息输出所述待检测图像的检测结果。
2.根据权利要求1所述的方法,其特征在于,多个所述基学习器的输入输出顺序连接;所述将所述感兴趣区域分别输入至分类模型中的多个基学习器,利用多个所述基学习器分别输出与所述感兴趣区域对应的各候选标签的预测分类分数,包括:
针对分类模型中的多个所述基学习器中的任一非首个所述基学习器,将所述感兴趣区域和上一基学习器的输出结果输入至所述基学习器,输出与各候选标签分别对应的预测分类分数;所述输出结果为所述上一基学习器对各所述候选标签分别输出的预测分类分数。
3.根据权利要求1所述的方法,其特征在于,所述确定与所述感兴趣区域对应的位置信息,包括:
确定所述感兴趣区域对应的参考框的初始坐标;
利用多个回归器基于所述感兴趣区域和所述初始坐标进行迭代计算,得到与所述感兴趣区域对应的位置信息。
4.根据权利要求1所述的方法,其特征在于,所述获取待检测图像,并确定所述待检测图像中的感兴趣区域,包括:
获取待检测图像;
利用特征提取网络确定所述待检测图像的多尺度特征图;
对所述多尺度特征图进行特征融合,得到融合特征图;
根据所述融合特征图确定所述待检测图像中的感兴趣区域。
5.根据权利要求4所述的方法,其特征在于,所述对所述多尺度特征图进行特征融合,得到融合特征图,包括:
针对所述多尺度特征图中的每一特征图,根据所述特征图和预设倍数上采样层确定与所述特征图对应的中间特征图;
针对每一所述中间特征图,根据所述中间特征图和预设倍数下采样层确定与所述中间特征图对应的融合特征图。
6.根据权利要求4所述的方法,其特征在于,所述利用特征提取网络确定所述待检测图像的多尺度特征图,包括:
确定所述待检测图像的场景类型;
确定与所述场景类型对应的特征提取网络;
将所述待检测图像输入至所述特征提取网络中,利用所述特征提取网络进行特征提取,得到多尺度特征图。
7.一种分类模型的训练方法,其特征在于,所述分类模型包括多个基学习器,所述方法包括:
基于不同特征类型的训练样本分别对各所述基学习器进行学习训练,得到对应的基学习器;所述基学习器的输出为与待检测图像的感兴趣区域对应的各候选标签的预测分类分数;
根据各所述基学习器确定出所述分类模型。
8.根据权利要求7所述的方法,其特征在于,多个所述基学习器顺序连接,所述基于不同特征类型的训练样本分别对各所述基学习器进行学习训练,得到对应的基学习器,包括:
针对任一非首个所述基学习器,基于不同特征类型的所述训练样本和上一基学习器的样本输出结果对所述基学习器进行学习训练,得到对应的基学习器;所述训练样本包括感兴趣区域和样本标签;所述上一基学习器为与所述基学习器连接的前一个基学习器;所述样本输出结果为所述上一基学习器对各所述样本标签分别输出的预测分类分数。
9.根据权利要求8所述的方法,其特征在于,所述针对任一非首个所述基学习器,基于不同特征类型的所述训练样本和上一基学习器的样本输出结果对所述基学习器进行学习训练,得到对应的基学习器,包括:
针对任一非首个所述基学习器,根据所述训练样本的样本特征和上一基学习器的样本输出结果确定所述基学习器对所述训练样本的分类权重;
根据所述感兴趣区域和所述分类权重进行学习训练,得到对应的基学习器。
10.根据权利要求9所述的方法,其特征在于,所述根据所述感兴趣区域和所述分类权重进行学习训练,得到对应的基学习器,包括:
根据所述感兴趣区域、预测分类分数对应的样本标签和所述分类权重确定所述基学习器的分类误差;
根据所述分类误差对所述基学习器进行模型参数调整,确定出对应的基学习器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310472332.9A CN116580230A (zh) | 2023-04-24 | 2023-04-24 | 一种目标检测方法及一种分类模型的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310472332.9A CN116580230A (zh) | 2023-04-24 | 2023-04-24 | 一种目标检测方法及一种分类模型的训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116580230A true CN116580230A (zh) | 2023-08-11 |
Family
ID=87540552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310472332.9A Pending CN116580230A (zh) | 2023-04-24 | 2023-04-24 | 一种目标检测方法及一种分类模型的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580230A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437608A (zh) * | 2023-11-16 | 2024-01-23 | 元橡科技(北京)有限公司 | 一种全地形路面类型识别方法及系统 |
-
2023
- 2023-04-24 CN CN202310472332.9A patent/CN116580230A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437608A (zh) * | 2023-11-16 | 2024-01-23 | 元橡科技(北京)有限公司 | 一种全地形路面类型识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528878A (zh) | 检测车道线的方法、装置、终端设备及可读存储介质 | |
KR20210013216A (ko) | 멀티 레벨 타겟 분류 및 교통 표지 검출 방법 및 장치, 기기, 매체 | |
CN112016569B (zh) | 基于注意力机制的目标检测方法、网络、设备和存储介质 | |
CN112041851A (zh) | 一种识别文本的方法及终端设备 | |
CN110348522A (zh) | 一种图像检测识别方法及系统、电子设备、图像分类网络优化方法及系统 | |
CN111814593B (zh) | 交通场景解析方法和设备、存储介质 | |
CN111191611A (zh) | 基于深度学习的交通标志标号识别方法 | |
CN112215190A (zh) | 基于yolov4模型的违章建筑检测方法 | |
CN111027539A (zh) | 一种基于空间位置信息的车牌字符分割方法 | |
CN113065609B (zh) | 图像分类方法、装置、电子设备及可读存储介质 | |
CN111382625A (zh) | 道路标识识别方法、装置及电子设备 | |
CN114820679B (zh) | 图像标注方法、装置、电子设备和存储介质 | |
CN116580230A (zh) | 一种目标检测方法及一种分类模型的训练方法 | |
CN113255555A (zh) | 中国交通标志牌识别方法、系统、处理设备及存储介质 | |
CN114299030A (zh) | 物体检测模型处理方法、装置、设备及存储介质 | |
CN112712036A (zh) | 交通标志识别方法、装置、电子设备及计算机存储介质 | |
CN112149707B (zh) | 图像采集控制方法、装置、介质及设备 | |
CN114399657A (zh) | 车辆检测模型训练方法、装置、车辆检测方法及电子设备 | |
CN109242882B (zh) | 视觉跟踪方法、装置、介质及设备 | |
CN113902740A (zh) | 图像模糊程度评价模型的构建方法 | |
CN112966687B (zh) | 图像分割模型训练方法、装置及通信设备 | |
CN111476226B (zh) | 一种文本定位方法、装置及模型训练方法 | |
CN112287905A (zh) | 车辆损伤识别方法、装置、设备及存储介质 | |
CN112749293A (zh) | 一种图像分类方法、装置及存储介质 | |
CN116843983A (zh) | 路面病害识别方法、模型训练方法、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |