CN113792803A - 前景信息引导的弱监督目标检测方法与系统 - Google Patents
前景信息引导的弱监督目标检测方法与系统 Download PDFInfo
- Publication number
- CN113792803A CN113792803A CN202111089103.6A CN202111089103A CN113792803A CN 113792803 A CN113792803 A CN 113792803A CN 202111089103 A CN202111089103 A CN 202111089103A CN 113792803 A CN113792803 A CN 113792803A
- Authority
- CN
- China
- Prior art keywords
- candidate
- foreground
- classification
- score
- candidate frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims description 25
- 238000002372 labelling Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000005065 mining Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- -1 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种前景信息引导的弱监督目标检测方法与系统,将前景‑背景二分类任务引入了弱监督目标检测任务,从而能从图片中定位出更准确的物体,本发明中,前景‑背景二分类网络能够很好地引导检测器区分前景特征和背景特征的区别,从而很好地缓解现有技术存在的两项技术问题。前景引导的自训练模块很好地利用了额外的前景信息来获取可靠的种子,并采用多种子训练的策略来消除噪声种子带来的影响,从而有效地训练多分类网络,提升检测器的检测性能;除此之外,还在推理阶段利用了前景‑背景二分类网络所提供的前景信息。综上,本发明提供的上述方案,大幅提升了弱监督目标检测的准确率。
Description
技术领域
本发明涉及目标检测技术领域,尤其涉及一种前景信息引导的弱监督目标检测方法与系统。
背景技术
目标检测是计算机视觉中的基础任务之一,它的目的是在图片中定位出感兴趣的物体并对它们进行分类。目标检测任务广泛应用在医学、自动驾驶、国防等领域。因此,高效、准确的目标检测方案是一个很重要的研究课题。
现阶段目标检测方案取得的成功很大程度上依赖于遵循“全监督”设置的目标框层级的标注。然而,对于目标框这样精细的标注往往需要消耗大量的人力和时间,这很不利于大量训练数据的获取,从而给目标检测方案的应用带来很大的难度。相对于全监督的设置,基于弱监督的目标检测只需要图像层级的标注,从而大大减小了标注数据的工作量和数据获取的难度。因此,弱监督目标检测已经成为一个新兴的研究课题。
近年来,基于深度学习的方法被引入了目标检测领域。目前的弱监督目标检测方案把目标检测任务转化为一个多实例学习问题,并将其与神经网络相结合。现有方案中将图片和预先提取好的候选框输入网络,利用神经网络提取出这些候选框的特征,然后利用一个二分支结构来生成候选框的类别分数。在训练过程中,通过对候选框分数求和能够得到图像层级的分数,并与对应的图像层级标注共同计算交叉熵损失,从而对整个神经网络进行训练。但是,现有方案存在如下技术问题:
1)多分类任务往往倾向于寻找每类物体(目标)的类内相似性,而每类物体最相似的部分往往只有物体最显著的部位(如:鸟的头部)。因此,检测器往往只能定位出这些物体最显著的部位而不是整个物体。
2)目前的方案只引入了多分类任务,因此往往使得检测器只关注于寻找各个前景类别之间的不同,然而并没有考虑前景和背景之间的差异性,这使得导致很多背景区域被错误地包含在检测框中。
发明内容
本发明的目的是提供一种前景信息引导的弱监督目标检测方法与系统,能够利用图像层级的标注来训练检测器,从而实现目标检测任务,同时,检测器能够尽可能地定位出完整的物体且能够分辨和去除背景噪声。
本发明的目的是通过以下技术方案实现的:
一种前景信息引导的弱监督目标检测方法,包括:
构建包含多实例学习模块、前景-背景二分类网络、前景引导的自训练模块及回归网络的弱监督目标检测器;
训练阶段,将从图像中提取的所有的候选框特征输入至所述弱监督目标检测器;所述多实例学习模块,根据候选框特征对候选框进行分类和检测,获得每一候选框的第一分类分数,对于每个类别,计算所有候选框在相应类别的分类分数总和,得到图像层级的分类分数,并与给定的图像层的标签计算第一部分损失;所述前景-背景二分类网络,根据候选框特征计算出每一候选框的前景分数,并结合相应候选框的第一分类分数将每一候选框标注为前景类或者背景类,利用相应候选框标注与候选框的前景分数共同计算第二部分损失;所述前景引导的自训练模块,利用候选框的前景分数对候选框进行筛选,并结合筛选后的候选框的前景分数和第一分类分数挑选出满足类别限制和重叠度限制的候选框,作为图像的第一组种子,并计算所有候选框的第二分类分数,再利用第一组种子对所有候选框进行标注,得到第一组标签,同时,使用最高分策略从所有候选框中挑选图像的第二组种子,再利用第二组种子对所有候选框进行标注,得到第二组标签,综合两组标签以及相应候选框的第二分类分数计算第三部分损失;所述回归网络,对所有候选框进行处理,得到各候选框的第三分类分数与回归参数,利用所述前景引导的自训练模块挑选出的第一组种子生成所有候选框的伪标签,并对所有候选框进行标注,结合相应候选框的标注与第三分类分数与回归参数计算第四部分损失;综合四部分损失进行网络训练;
推理阶段,对于待检测图像中的每一候选框,综合训练后弱监督目标检测器计算的候选框第一分类分数、前景分数、第二分类分数以及第三分类分数得到候选框的分类结果,并利用回归网络来修正候选框。
一种前景信息引导的弱监督目标检测系统,该系统基于包含多实例学习模块、前景-背景二分类网络、前景引导的自训练模块及回归网络的弱监督目标检测器实现目标检测;
其中,所述弱监督目标检测器采用前述方法进行训练,在推理阶段,对于待检测图像中的每一候选框,综合训练后弱监督目标检测器计算的候选框第一分类分数、前景分数、第二分类分数、第三分类分数得到候选框的分类结果,并利用回归网络来修正候选框。
由上述本发明提供的技术方案可以看出,将前景-背景二分类任务引入了弱监督目标检测任务,从而能从图片中定位出更准确的物体,本发明中,前景-背景二分类网络能够很好地引导检测器区分前景特征和背景特征的区别,从而很好地缓解现有技术存在的两项技术问题。前景引导的自训练模块很好地利用了额外的前景信息来获取可靠的种子,并采用多种子训练的策略来消除噪声种子带来的影响,从而有效地训练自训练多分类网络,提升检测器的检测性能;除此之外,还在推理阶段利用了前景-背景二分类网络所提供的前景信息。综上,本发明提供的上述方案,大幅提升了弱监督目标检测的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种前景信息引导的弱监督目标检测方法的流程图;
图2为本发明实施例提供的弱监督目标检测器的结构示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
下面对本发明所提供的一种前景信息引导的弱监督目标检测方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
如图1所示,一种前景信息引导的弱监督目标检测方法,包括如下步骤:
1、构建包含多实例学习模块、前景-背景二分类网络、前景引导的自训练模块及回归网络的弱监督目标检测器。
2、训练阶段,将从图像中提取的所有的候选框特征输入至所述弱监督目标检测器;所述多实例学习模块,根据候选框特征对候选框进行分类和检测,获得每一候选框的第一分类分数,对于每个类别,计算所有候选框在相应类别的分类分数总和,得到图像层级的分类分数,并与给定的图像层的标签计算第一部分损失;所述前景-背景二分类网络,根据候选框特征计算出每一候选框的前景分数,并结合相应候选框的第一分类分数将每一候选框标注为前景类或者背景类,利用相应候选框标注与候选框的前景分数共同计算第二部分损失;所述前景引导的自训练模块,利用候选框的前景分数对候选框进行筛选,并结合筛选后的候选框的前景分数和第一分类分数挑选出满足类别限制和重叠度限制的候选框,作为图像的第一组种子,并计算所有候选框的第二分类分数,再利用第一组种子对所有候选框进行标注,得到第一组标签,同时,使用最高分策略从所有候选框中挑选图像的第二组种子,再利用第二组种子对所有候选框进行标注,得到第二组标签,综合两组标签以及相应候选框的第二分类分数计算第三部分损失;所述回归网络,对所有候选框进行处理,得到各候选框的第三分类分数与回归参数,利用所述前景引导的自训练模块挑选出的第一组种子生成所有候选框的伪标签,并对所有候选框进行标注,结合相应候选框的标注与第三分类分数与回归参数计算第四部分损失;综合四部分损失进行网络训练。
3、推理阶段,对于待检测图像中的每一候选框,综合训练后弱监督目标检测器计算的候选框前景分数与第二分类分数得到候选框的分类结果。
本发明实施例提供的上述方案中构建了弱监督目标检测器,一方面,通过前景-背景二分类网络,将前景-背景二分类任务引入弱监督目标检测框架,并利用了一个简洁但有效的网络来实现,前景-背景二分类任务的引入使得网络能够有效地区分前景与背景之间的特征差异。另一方面,通过前景引导的自训练模块,利用二分类网络提供的前景信息,通过算法在线挖掘图片中一些精确的实例,然后用其来获得一系列伪标签。这些伪标签被用来在线训练一系列分类器。
为了便于理解,下面结合图2所示的弱监督目标检测器对本发明优选实施方式进行说明。
一、弱监督目标检测器的结构。
如图2所示,弱监督目标检测器主要包括:多实例学习模块(Multiple InstanceLearning,简写为MIL)、前景-背景二分类网络(图中的F-BBC)、前景引导的自训练模块(Foreground Guided Self-Training,简写为FGST)以及回归网络(图中的分类分支CLS与回归分支REG)。其中:
多实例学习模块的输入包括:候选框特征、图像层级的标签。
前景-背景二分类网络的输入包括:图像层级的标签、候选框特征以及多实例学习模块的输出。
前景引导的自训练模块的输入包括:候选框特征,以及多实例学习模块与前景-背景二分类网络的输出。
回归网络的输入包括:候选框特征,以及前景-背景二分类网络与前景引导的自训练模块的输出。
本领域技术人员可以理解,图像层级的标签是指图像中所包含的类别,例如,图像中包含鸟、人等类别;而本发明实施例中的目标检测任务是为了获得精细的目标框层级的标注,即将图像中的各类别的目标用矩形框定位并得到每一矩形框中目标的类别。
二、训练阶段。
1、前置的神经网络。
本发明实施例中,所述候选框特征通过预训练的神经网络提取,所述预训练的神经网络的输入为图像和预先生成的候选框。
图2示出了神经网络的主体结构,包括:依次设置的卷积网络、感兴趣区域池化层(RoI Pooling)以及全连接层。
需要说明的是,神经网络的训练方式、图像中候选框的生成方式都可以参照常规技术实现,本发明不做赘述。
前置的神经网络将输出所有候选框的特征,所有候选框及其候选框特征将作为后续各个模块的输入,值得注意的是,后续某些模块中会对候选框进行类别标注,未被标注的候选框将不参与相关模块中损失的计算。
2、多实例学习模块。
本发明实施例中,所述多实例学习模块包括并行的分类支路和检测支路,将候选框特征输入两个并行支路后,由分类分支输出分类分数,检测分支输出检测分数,将分类分数与检测分数点乘,得到候选框的第一分类分数xmil。
之后,对于每个类别,计算所有候选框在相应类别的分类分数总和,得到图像层级的分类分数,并与给定的图像层的标注计算交叉熵损失,作为第一部分损失,用于引导网络训练,所述的网络是指弱监督目标检测器。
3、前景-背景二分类网络。
本发明实施例中,所述前景-背景二分类网络中包括一个全连接层和一个sigmoid层,输入所有候选框特征后,每一候选框的前景分数通过下式计算:
xfg=σ(FC(f))
其中,f=[f1,f2,…,fN]表示候选框特征,N为候选框总数,FC(·)表示全连接层,σ(·)表示sigmoid层。
结合候选框的第一分类分数将每一候选框标注为前景类、背景类或忽略的方式包括:
之后,根据图像层级的标签可以得到图像中存在的类别。对于每个存在的类别,选取每一类别中第一分类分数xmil最高的候选框,作为相应类别的伪真实框,计算每一候选框与所有伪真实框的交并比(Intersection over Union),并得到其中最大的交并比,若最大的交并比大于等于第一设定值K1,则相应候选框标注为前景类;若最大的交并比位于区间[K2,K1)内,则相应候选框标注为背景类,其中,K2表示第二设定值,其余的候选框将在之后的第二部分损失计算中被忽略。
对于未被忽略的候选框(也即标注为前景类与背景类的候选框),利用相应候选框标注与候选框的前景分数共同计算一个带有权重的交叉熵损失作为第二部分损失,用于引导网络训练。
示例性的,可以设置:K1=0.5,K2=0.1。
本领域技术人员可以理解,本发明实施例所涉及的类别根据具体应用场景来决定,例如,前景类别可以为行人、或者各类动物等,具体的可以由本领域技术人员根据实际情况设定,本发明不对具体类别进行限定。
4、前景引导的自训练模块。
本发明实施例中,所述前景引导的自训练模块均包含前景引导的种子挖掘(Foreground Guided Seeds Mining)模块和一个自训练多分类网络。
1)所述前景引导的种子挖掘模块,用于通过前景引导的种子挖掘算法,利用迭代的方法从候选框中挑选出第一组种子。
本发明实施例中,通过前景引导的种子挖掘算法,利用迭代的方法从候选框中挑选出满足类别限制和重叠度限制的候选框,作为图像的第一组种子,主要方式包括:
A)设定阈值,根据候选框的前景分数xfg,筛选出前景分数大于阈值的候选框;具体的阈值大小由本领域技术人员根据实际情况或者经验自行设定,本发明不做数值大小的限定。
B)将选出的候选框的前景分数、多分类分数,以及给定的图像层的标签作为前景引导的种子挖掘算法的输入;对于输入图像所属数据集中的每个类别,如果该类别对应的标签为1,则表示相应类别存在于图像中,则选取出多分类分数最高的候选框,加入第一种子集。
C)根据选出的候选框的前景分数,对候选框进行降序排序;在排序中从前往后依次选取候选框:提取当前候选框的多分类分数,选取分数最高的类别,作为当前候选框的类别,若类别对应的标签为1(表示相应类别存在于图像中,即候选框所对应的物体类别标注也必定在图像标注中),则计算当前候选框与第一种子集中当前所有种子的交并比,否则选取下一个候选框,如果最大交并比小于第一设定值K1,则将当前候选框其加入种子集,否则结束选取,如果当前候选框为最后一个候选框,则结束选取,将第一种子集中的当前所有种子作为第一组种子。
2)所述自训练多分类网络,用于计算候选框的第二分类分数,再利用第一组种子对所有候选框进行标注。
所述自训练多分类网络具备分类功能,对于所有的候选框可以计算出其中每一候选框的第二分类分数xst,具体分类方式可参照常规方式实现,本发明不做限定。
之后,使用与前景-背景二分类网络介绍中类似的方式进行候选框标注:计算每一个候选框与所有种子的交并比(Intersection over Union),并得到其中最大的交并比,若最大的交并比大于等于第一设定值K1,则把相应候选框标注为种子对应的类别;若最大的交并比位于区间[K2,K1)内,则把该候选框标注为背景类,其余的候选框将在之后的第三部分损失计算中被忽略。
为了减少不够精确的种子带来的负面影响,本发明实施例中,采用了多种子训练(Multi-Seed Training)方法,即除了利用前景引导的种子挖掘算法得到第一组种子,还采取最高分数策略来获取第二组种子,并对候选框进行标注。具体来说:
使用最高分策略从所有候选框中挑选图像的第二组种子,即,对于各类别,选取所有候选框中各类别多分类分数xmcc最高的候选框,组成第二组种子;之后,采用与第一组种子相同的方式对利用第二组种子对所有候选框进行标注,同样的,未被标注的候选框将被忽略不参与第三部分损失的计算。
如图2所示,本发明实施例中,所述前景引导的自训练模块的数目为多个(具体数目可以根据实际情况进行设定),每一前景引导的自训练模块均包含前景引导的种子挖掘模块和一个自训练多分类网络。每一前景引导的自训练模块中都需要使用候选框的多分类分数xmcc,对于第一个前景引导的自训练模块,候选框的多分类分数xmcc为第一分类分数xmil;对于非第一个前景引导的自训练模块,候选框的多分类分数xmcc为上一个前景引导的自训练模块中自训练多分类网络计算的第二分类分数xst。
最后一个前景引导的自训练模块输出的第一组种子、所有候选框将输入至回归网络。需要说明的是,为了保持前景引导的自训练模块内部操作描述上的统一并与其它模块操作的描述进行区分,将每一个前景引导的自训练模块中自训练多分类网络输出的分类分数称为第二分类分数。
在每一前景引导的自训练模块中,根据其计算两组标签各自与所有候选框的第二分类分数计算一个带有权重的交叉熵损失,将两组计算的损失结合作为单个前景引导的自训练模块计算的损失,累加所有前景引导的自训练模块计算的损失作为第三部分损失,共同引导网络的训练。单个前景引导的自训练模块计算的损失为:
5、回归网络。
如图2所示,回归网络包含了分类(CLS)和回归(REG)两个分支。将所有候选框的特征输入回归网络,得到各候选框的第三分类分数与回归参数。
之后,使用与前景-背景二分类网络介绍中类似的方式进行候选框标注:对于每一个候选框,分别计算与最后一个前景引导的自训练模块得到的第一组种子的交并比(Intersection over Union),并得到其中最大的交并比,若最大的交并比大于等于第一设定值K1,则把相应候选框标注为种子对应的类别;若最大的交并比位于区间[K2,K1)内,则把该候选框标注为背景类,其余的候选框将在之后的第四部分损失计算中被忽略,将第三分类分数与类别标签共同计算带有权重的交叉熵损失得到分类损失。
对于前景类别的候选框,结合候选框与其对应的种子计算出回归量,而其它框不参与回归损失的计算,将回归参数和回归量共同计算smooth-L1 loss得到回归损失,将分类损失和回归损失结合作为第四部分损失,从而引导网络的训练。
最终,将前文介绍的四部分损失相加,作为网络训练的总损失,对网络中各模块的参数进行优化,相关流程可参照常规技术实现,本发明不做赘述。
本发明实施例中,前置的神经网络输出的各候选框及候选框的特征都将输入到弱监督目标检测器的每一部分;如之前所述,某些部分中会对候选框进行标注,满足相关要求的候选框才会被标注,进而参与相应损失的计算,未被标注的候选框将被忽略不参与相应损失的计算;此外,损失计算时所涉及的交叉熵或者smooth-L1 loss的计算方式都可以直接参照常规算式,本发明不做赘述。
三、推理阶段。
推理阶段,对于待检测图像中的每一候选框,综合训练后弱监督目标检测器计算的候选框第一分类分数、前景分数、第二分类分数以及第三分类分数得到候选框的分类结果;具体来说:首先对于每个候选框的第一分类分数,将其中的最高分数替换为候选框前景分数xfg,得到更新后的第一分类分数,并将该最高分数相应类别作为该候选框的类别,最后将更新后的第一分类分数、所有前景引导的自训练模块中自训练网络得到的第二分类分数xst(假设前景引导的自训练模块的数目为3个,则此处会存在三组第二分类分数)、第三分类分数取平均,得到最终的分类分数,并利用回归网络来修正候选框。
优选的,得到最终的分类分数后,还可以利用非极大值抑制(Non-MaximumSuppression)来生成最终的检测结果,以进一步提升检测的准确率。
需要说明的是,多实例学习模块的输入包含了所有候选框的特征,但是,由于相关模块进行了候选框的筛选,因此,后续流程中仅提取筛选后的候选框的特征进行相关的计算。
本发明另一实施例还提供一种前景信息引导的弱监督目标检测系统,该系统基于图2所示的,包含多实例学习模块、前景-背景二分类网络、前景引导的自训练模块及回归网络的弱监督目标检测器实现目标检测。所述弱监督目标检测器采用前述实施例介绍的方式进行训练与在推理,具体的训练方案与推理方案在之前的实施例中已经做了详细的介绍,故不再赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (10)
1.一种前景信息引导的弱监督目标检测方法,其特征在于,包括:
构建包含多实例学习模块、前景-背景二分类网络、前景引导的自训练模块及回归网络的弱监督目标检测器;
训练阶段,将从图像中提取的所有的候选框特征输入至所述弱监督目标检测器;所述多实例学习模块,根据候选框特征对候选框进行分类和检测,获得每一候选框的第一分类分数,对于每个类别,计算所有候选框在相应类别的分类分数总和,得到图像层级的分类分数,并与给定的图像层的标签计算第一部分损失;所述前景-背景二分类网络,根据候选框特征计算出每一候选框的前景分数,并结合相应候选框的第一分类分数将每一候选框标注为前景类或者背景类,利用相应候选框标注与候选框的前景分数共同计算第二部分损失;所述前景引导的自训练模块,利用候选框的前景分数对候选框进行筛选,并结合筛选后的候选框的前景分数和第一分类分数挑选出满足类别限制和重叠度限制的候选框,作为图像的第一组种子,并计算所有候选框的第二分类分数,再利用第一组种子对所有候选框进行标注,得到第一组标签,同时,使用最高分策略从所有候选框中挑选图像的第二组种子,再利用第二组种子对所有候选框进行标注,得到第二组标签,综合两组标签以及相应候选框的第二分类分数计算第三部分损失;所述回归网络,对所有候选框进行处理,得到各候选框的第三分类分数与回归参数,利用所述前景引导的自训练模块挑选出的第一组种子生成所有候选框的伪标签,并对所有候选框进行标注,结合相应候选框的标注与第三分类分数与回归参数计算第四部分损失;综合四部分损失进行网络训练;
推理阶段,对于待检测图像中的每一候选框,综合训练后弱监督目标检测器计算的候选框第一分类分数、前景分数、第二分类分数以及第三分类分数得到候选框的分类结果,并利用回归网络来修正候选框。
2.根据权利要求1所述的一种前景信息引导的弱监督目标检测方法,其特征在于,所述多实例学习模块包括分类支路和检测支路,分类分支输出分类分数,检测分支输出检测分数,将分类分数与检测分数点乘,得到候选框的第一分类分数xmil。
3.根据权利要求1所述的一种前景信息引导的弱监督目标检测方法,其特征在于,所述前景-背景二分类网络中包括一个全连接层和一个sigmoid层,每一候选框的前景分数通过下式计算:
xfg=σ(FC(f))
其中,f=[f1,f2,…,fN]表示候选框特征,N为候选框总数,FC(·)表示全连接层,σ(·)表示sigmoid层;
结合候选框的第一分类分数将每一候选框标注为前景类、背景类或忽略的方式包括:
根据图像层级的标签得到图像中存在的类别,对于每个存在的类别,选取每一类别中第一分类分数xmil最高的候选框,作为相应类别的伪真实框,计算每一候选框与所有伪真实框的交并比,得到其中最大的交并比,若最大的交并比大于等于第一设定值K1,则相应候选框标注为前景类;若最大的交并比位于区间[K2,K1)内,则相应候选框标注为背景类,其中,K2表示第二设定值,其余的候选框将被忽略不参与第二部分损失的计算。
4.根据权利要求1所述的一种前景信息引导的弱监督目标检测方法,其特征在于,所述前景引导的自训练模块的数目为多个,每一前景引导的自训练模块均包含前景引导的种子挖掘模块和一个自训练多分类网络;
所述前景引导的种子挖掘模块,利用前景分数筛选出一系列候选框,再通过前景引导的种子挖掘算法,利用迭代的方法从筛选后的候选框中挑选出第一组种子;
所述自训练多分类网络,用于计算候选框的第二分类分数,再利用第一组种子对所有的候选框进行标注;
其中,前景引导的种子挖掘算法执行时需要使用候选框的多分类分数;对于第一个前景引导的自训练模块,候选框的多分类分数为第一分类分数;对于非第一个前景引导的自训练模块,候选框的多分类分数为上一个前景引导的自训练模块中自训练多分类网络计算的第二分类分数。
5.根据权利要求4所述的一种前景信息引导的弱监督目标检测方法,其特征在于,所述利用前景分数筛选出一系列候选框,再通过前景引导的种子挖掘算法,利用迭代的方法从筛选后的候选框中挑选出第一组种子的方式包括:
设定阈值,根据候选框的前景分数xfg,筛选出前景分数大于阈值的候选框;
将筛选出的候选框的前景分数、多分类分数,以及给定的图像层的标注作为前景引导的种子挖掘算法的输入;对于每个类别,如果类别对应的标签为1,则表示相应类别存在于图像中,则选取出多分类分数最高的候选框,加入第一种子集;
根据选出的候选框的前景分数,对候选框进行降序排序;在排序中从前往后依次选取候选框:提取当前候选框的多分类分数,选取分数最高的类别,作为当前候选框的类别,若类别对应的标签为1,则计算当前候选框与第一种子集中当前所有种子的交并比,否则选取下一个候选框,如果最大交并比小于第一设定值K1,则将当前候选框其加入种子集,否则结束选取,如果当前候选框为最后一个候选框,则结束选取,将第一种子集中的当前所有种子作为第一组种子。
6.根据权利要求4所述的一种前景信息引导的弱监督目标检测方法,其特征在于,所述利用第一组种子对候选框进行标注包括:
计算所有候选框与所有种子的交并比,得到其中最大的交并比,若最大的交并比大于等于第一设定值K1,则把相应候选框标注为种子对应的类别;若最大的交并比位于区间[K2,K1)内,则把该候选框标注为背景类,其中,K2表示第二设定值,其余的候选框将被忽略不参与第三部分损失的计算。
7.根据权利要求4或6所述的一种前景信息引导的弱监督目标检测方法,其特征在于,所述使用最高分策略从所有候选框中挑选图像的第二组种子,再利用第二组种子对所有候选框进行标注包括:
对于各类别,选取候选框中各类别多分类分数最高的候选框,组成第二组种子;采用与第一组种子相同的方式对所有候选框进行标注,未被标注的候选框将被忽略不参与第三部分损失的计算。
8.根据权利要求1所述的一种前景信息引导的弱监督目标检测方法,其特征在于,所述回归网络包括分类和回归两个分支;
将所有候选框的特征输入回归网络,得到各候选框的第三分类分数与回归参数后,对于每一个候选框,分别计算与第一组种子的交并比,得到其中最大的交并比,若最大的交并比大于等于第一设定值K1,则把相应候选框标注为种子对应的类别;若最大的交并比位于区间[K2,K1)内,则把该候选框标注为背景类,其余的候选框将在之后的第四部分损失计算中被忽略,利用相应候选的标注以及第三分类分数共同计算分类损失;
对于前景类别的候选框,结合候选框与其对应的种子计算出回归量,将回归参数和回归量共同计算回归损失,将分类损失和回归损失结合作为第四部分损失。
9.根据权利要求1所述的一种前景信息引导的弱监督目标检测方法,其特征在于,
所述第一部分损失为:图像层级的分类分数与给定的图像层的标注,计算的交叉熵损失;
所述第二部分损失为:候选框标注与候选框的前景分数共同计算一个带有权重的交叉熵损失;
所述第三部分损失为:两组标签各自与候选框的第二分类分数计算一个带有权重的交叉损失,将两组计算的损失结合即为第三部分损失;
所述第四部分损失中的分类损失使用带有权重的交叉熵损失计算,回归损失使用smooth-L1 loss计算。
10.一种前景信息引导的弱监督目标检测系统,其特征在于,该系统基于包含多实例学习模块、前景-背景二分类网络、前景引导的自训练模块及回归网络的弱监督目标检测器实现目标检测;
其中,所述弱监督目标检测器采用权利要求1-9任一项所述的方法进行训练,在推理阶段,对于待检测图像中的每一候选框,综合训练后弱监督目标检测器计算的候选框第一分类分数、前景分数、第二分类分数、第三分类分数得到候选框的分类结果,并利用回归网络来修正候选框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111089103.6A CN113792803B (zh) | 2021-09-16 | 2021-09-16 | 前景信息引导的弱监督目标检测方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111089103.6A CN113792803B (zh) | 2021-09-16 | 2021-09-16 | 前景信息引导的弱监督目标检测方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792803A true CN113792803A (zh) | 2021-12-14 |
CN113792803B CN113792803B (zh) | 2024-03-29 |
Family
ID=79183889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111089103.6A Active CN113792803B (zh) | 2021-09-16 | 2021-09-16 | 前景信息引导的弱监督目标检测方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792803B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627437A (zh) * | 2022-05-16 | 2022-06-14 | 科大天工智能装备技术(天津)有限公司 | 一种交通目标识别方法及系统 |
CN115100501A (zh) * | 2022-06-22 | 2022-09-23 | 中国科学院大学 | 一种基于单点监督的精准目标检测方法 |
CN116596990A (zh) * | 2023-07-13 | 2023-08-15 | 杭州菲数科技有限公司 | 目标检测方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160379371A1 (en) * | 2015-06-29 | 2016-12-29 | Beihang University | Method for object segmentation in videos tagged with semantic labels |
CN107203781A (zh) * | 2017-05-22 | 2017-09-26 | 浙江大学 | 一种基于显著性指导的端到端的弱监督目标检测方法 |
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和系统 |
CN113239924A (zh) * | 2021-05-21 | 2021-08-10 | 上海交通大学 | 一种基于迁移学习的弱监督目标检测方法及系统 |
CN113378829A (zh) * | 2020-12-15 | 2021-09-10 | 浙江大学 | 一种基于正负样本均衡的弱监督目标检测方法 |
-
2021
- 2021-09-16 CN CN202111089103.6A patent/CN113792803B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160379371A1 (en) * | 2015-06-29 | 2016-12-29 | Beihang University | Method for object segmentation in videos tagged with semantic labels |
CN107203781A (zh) * | 2017-05-22 | 2017-09-26 | 浙江大学 | 一种基于显著性指导的端到端的弱监督目标检测方法 |
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和系统 |
CN113378829A (zh) * | 2020-12-15 | 2021-09-10 | 浙江大学 | 一种基于正负样本均衡的弱监督目标检测方法 |
CN113239924A (zh) * | 2021-05-21 | 2021-08-10 | 上海交通大学 | 一种基于迁移学习的弱监督目标检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
李阳;王璞;刘扬;刘国军;王春宇;刘晓燕;郭茂祖;: "基于显著图的弱监督实时目标检测", 自动化学报, no. 02 * |
青晨;禹晶;肖创柏;段娟;: "深度卷积神经网络图像语义分割研究进展", 中国图象图形学报, no. 06 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627437A (zh) * | 2022-05-16 | 2022-06-14 | 科大天工智能装备技术(天津)有限公司 | 一种交通目标识别方法及系统 |
CN115100501A (zh) * | 2022-06-22 | 2022-09-23 | 中国科学院大学 | 一种基于单点监督的精准目标检测方法 |
CN115100501B (zh) * | 2022-06-22 | 2023-09-22 | 中国科学院大学 | 一种基于单点监督的精准目标检测方法 |
CN116596990A (zh) * | 2023-07-13 | 2023-08-15 | 杭州菲数科技有限公司 | 目标检测方法、装置、设备及存储介质 |
CN116596990B (zh) * | 2023-07-13 | 2023-09-29 | 杭州菲数科技有限公司 | 目标检测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113792803B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shu et al. | Transferable curriculum for weakly-supervised domain adaptation | |
CN106897738B (zh) | 一种基于半监督学习的行人检测方法 | |
Kim et al. | Sowp: Spatially ordered and weighted patch descriptor for visual tracking | |
CN113792803A (zh) | 前景信息引导的弱监督目标检测方法与系统 | |
CN106446933B (zh) | 基于上下文信息的多目标检测方法 | |
Arivazhagan et al. | Detection of unhealthy region of plant leaves and classification of plant leaf diseases using texture features | |
US7529403B2 (en) | Weighted ensemble boosting method for classifier combination and feature selection | |
Kim et al. | CDT: Cooperative detection and tracking for tracing multiple objects in video sequences | |
Grcic et al. | Dense anomaly detection by robust learning on synthetic negative data | |
Lee et al. | Individualness and determinantal point processes for pedestrian detection | |
Lee et al. | Dynamic belief fusion for object detection | |
Weber et al. | Single-shot panoptic segmentation | |
JP2020053073A (ja) | 学習方法、学習システム、および学習プログラム | |
Azadi et al. | Learning detection with diverse proposals | |
He et al. | Large-scale dataset pruning with dynamic uncertainty | |
CN110580499A (zh) | 基于众包重复标签的深度学习目标检测方法及系统 | |
CN118297094A (zh) | 基于低算力边缘设备的鸡舍流水线筛蛋计数方法及系统 | |
Bai et al. | Two-step ensemble under-sampling algorithm for massive imbalanced data classification | |
Wang et al. | Weakly-and semi-supervised fast region-based CNN for object detection | |
Hridya Krishna et al. | Deep learning approach for brown spot detection and nitrogen deficiency estimation in rice crops | |
Rahman et al. | A CNN Model-based ensemble approach for Fruit identification using seed | |
Chen et al. | KDT-SPSO: A multimodal particle swarm optimisation algorithm based on kd trees for palm tree detection | |
CN109145978A (zh) | 一种鞋底花纹图像的特征弱相关聚类方法 | |
Hayder et al. | Structural kernel learning for large scale multiclass object co-detection | |
Guo et al. | Cascaded convolutional neural networks for object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |