CN116486197A - 图像检测模型的训练方法、图像检测方法和图像标注方法 - Google Patents

图像检测模型的训练方法、图像检测方法和图像标注方法 Download PDF

Info

Publication number
CN116486197A
CN116486197A CN202310325488.4A CN202310325488A CN116486197A CN 116486197 A CN116486197 A CN 116486197A CN 202310325488 A CN202310325488 A CN 202310325488A CN 116486197 A CN116486197 A CN 116486197A
Authority
CN
China
Prior art keywords
image
feature
detection model
detection
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310325488.4A
Other languages
English (en)
Other versions
CN116486197B (zh
Inventor
郝钰莹
彭军才
汤诗雨
林漫晖
刘毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202310325488.4A priority Critical patent/CN116486197B/zh
Publication of CN116486197A publication Critical patent/CN116486197A/zh
Application granted granted Critical
Publication of CN116486197B publication Critical patent/CN116486197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种图像检测模型的训练方法、图像检测方法和图像标注方法,涉及图像处理技术领域,尤其涉及计算机视觉、深度学习技术领域。具体实现方案为:利用第一检测模型的交互分支,根据第一引导点集,确定第一位置特征;利用第一检测模型的图像分支,根据样本图像,确定样本图像特征;根据第一位置特征和样本图像特征,对样本图像中的对象进行检测,以得到第一检测结果;以及根据第一检测结果、样本图像的真实标注结果以及第一引导点集,对第一检测模型进行训练,以得到第二检测模型。本公开可以通过人工指导提供的先验信息,简化模型训练,提升模型训练、图像检测和图像标注的效率。

Description

图像检测模型的训练方法、图像检测方法和图像标注方法
技术领域
本公开涉及图像处理技术领域,尤其涉及计算机视觉、深度学习技术领域。
背景技术
图像检测技术在生产和生活当中应用广泛,提出了许多优秀的基于深度学习的图像检测模型。然而,基于深度学习方法训练高精度的检测模型依赖于大量高质量、高精度的标注图像。并且,对于不同的检测任务,需要不同场景的高质量数据才能使得检测模型具有较好的泛化性能。
发明内容
本公开提供了一种图像检测模型的训练方法、图像检测方法和图像标注方法、装置、设备以及存储介质。
根据本公开的第一方面,提供了一种图像检测模型的训练方法,包括:
利用第一检测模型的交互分支,根据第一引导点集,确定第一位置特征;其中,第一引导点集包括根据在样本图像上实施的第一选取操作所确定的第一坐标点;
利用第一检测模型的图像分支,根据样本图像,确定样本图像特征;
根据第一位置特征和样本图像特征,对样本图像中的对象进行检测,以得到第一检测结果;以及
根据第一检测结果、样本图像的真实标注结果以及第一引导点集,对第一检测模型进行训练,以得到第二检测模型。
根据本公开的第二方面,提供了一种图像检测方法,包括:
利用第二检测模型,对待检测图像中的对象进行检测,以得到第二检测结果;其中,第二检测模型根据本公开的第一方面提供的图像检测模型的训练方法训练得到。
根据本公开的第三方面,提供了一种图像标注方法,包括:
响应于检测操作或在待标注图像上实施的第五选取操作,根据本公开的第二方面提供的图像检测方法,对待标注图像中的目标对象进行检测,以得到目标对象的集合;以及
根据集合中的目标对象的位置信息,在待标注图像上生成目标对象的边界框和/或主体框;其中,主体框在边界框之内,主体框用于覆盖目标对象的主体部分。
根据本公开的第四方面,提供了一种图像检测模型的训练装置,包括:
第一确定模块,用于利用第一检测模型的交互分支,根据第一引导点集,确定第一位置特征;其中,第一引导点集包括根据在样本图像上实施的第一选取操作所确定的第一坐标点;
第二确定模块,用于利用第一检测模型的图像分支,根据样本图像,确定样本图像特征;
第一检测模块,用于根据第一位置特征和样本图像特征,对样本图像中的对象进行检测,以得到第一检测结果;
训练模块,用于根据第一检测结果、样本图像的真实标注结果以及第一引导点集,对第一检测模型进行训练,以得到第二检测模型。
根据本公开的第五方面,提供了一种图像检测装置,包括:
图像检测模块,用于利用第二检测模型,对待检测图像中的对象进行检测,以得到第二检测结果;其中,第二检测模型根据本公开的第四方面提供的图像检测模型的训练装置训练得到。
根据本公开的第六方面,提供了一种图像标注装置,包括:
交互模块,用于响应于检测操作或在待标注图像上实施的第五选取操作,利用本公开的第五方面提供的图像检测装置,对待标注图像中的目标对象进行检测,以得到目标对象的集合;以及
标注模块,用于根据集合中的目标对象的位置信息,在待标注图像上生成目标对象的边界框和/或主体框;其中,主体框在边界框之内,主体框用于覆盖目标对象的主体部分。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开实施例中任一的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。
本公开可以通过人工指导提供的先验信息,简化模型训练,提升模型训练、图像检测和图像标注的效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开一实施例的图像检测模型的训练方法的流程示意图;
图2是根据本公开一实施例的图像检测方法的流程示意图;
图3是根据本公开一实施例的图像标注方法的流程示意图;
图4是根据本公开一实施例的基于交互式检测架构的检测流程示意图;
图5是根据本公开一实施例的检测模型的结构示意图;
图6是根据本公开一实施例的图像检测模型的训练装置的结构示意图;
图7是根据本公开一实施例的图像检测装置的结构示意图;
图8是根据本公开一实施例的图像标注装置的结构示意图;
图9是用来实现本公开实施例的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如以上在背景技术中所描述的,相关技术中,基于深度学习获取高质量高精度的模型依赖于大量高精度的标注图像。需要通过拟合大量的高质量数据使得模型能够具有较好的泛化性能。然而,大规模数据的标记,尤其是微小物体的标记,是非常昂贵的,因为标记密集且注释过程非常耗时。例如在遥感和细胞分析等场景中,细心、经验丰富、具有领域专长的标注者是准确标注的前提条件,这无疑进一步增加了标注成本。提高数据标注的效率可以提供大量高质量的训练样本,从而开辟了提高目标检测性能的新途径。
为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题,本公开提出一种图像检测模型的训练方法和具有交互式能力的图像检测方法、图像标注方法。利用本公开的实施方式的技术方案,通过人工交互提供的先验信息,简化模型训练,提升模型训练、图像检测和图像标注的效率。
本公开的应用场合、应用领域可以包括图像检测标注任务,例如自动驾驶、医疗影像、工业场景、通用场景、遥感建筑物分割等。交互式检测技术的使用能够有效的提升标注效率,从而降低检测行业的准入门槛,间接提升检测模型的准确性。
图1是根据本公开一实施例提供的图像检测模型的训练方法的流程示意图。如图1所示,该方法至少包括以下步骤:
S110、利用第一检测模型的交互分支,根据第一引导点集,确定第一位置特征。其中,第一引导点集包括根据在样本图像上实施的第一选取操作所确定的第一坐标点。
本公开实施例中,第一检测模型可以理解为是待训练的模型,或者是未经训练的初始模型。第一检测模型包括交互分支至少包括若干卷积层和池化层。第一引导点集中的一个或多个第一坐标点输入第一检测模型的交互分支后,交互分支可以根据第一坐标点确定第一位置特征。
第一选取操作,可以理解为包括在样本图像进行点击或框选操作,根据点击或框选的位置,可以从在样本图像上确定至少一个第一坐标点。在第一选取操作为点击操作的情况下,针对每个不同的对象可以仅点击一次,从而得到每个对象的第一坐标点。实施第一选取操作可以在S110之前,完成第一选取操作后,将至少一个第一坐标点形成的第一引导点集输入第一检测模型的交互分支。
S120、利用第一检测模型的图像分支,根据样本图像,确定样本图像特征。
第一检测模型的图像分支至少包括若干卷积层,样本图像输入图像分支后,图像分支可以根据样本图像确定样本图像特征。
S130、根据第一位置特征和样本图像特征,对样本图像中的对象进行检测,以得到第一检测结果。
第一检测模型可以根据第一位置特征和样本图像特征对样本图像中的对象进行检测,以得到第一检测结果。第一检测结果中包括至少一个对象以及对象的位置信息。
对象可以包括样本图像中的动物、物品等需要识别的任意目标,例如图像中的人和风筝。
位置信息可以包括属于该对象的每个像素点的坐标,也可以仅包含该对象的四角顶点处的坐标,或者是四角顶点形成的任一根对角线上的两个端点的坐标。
S140、根据第一检测结果、样本图像的真实标注结果以及第一引导点集,对第一检测模型进行训练,以得到第二检测模型。
样本图像中的每个对象已经被提前标注,即真实标注结果。根据第一检测结果与真实标注结果以及第一引导点集的差异,可以确定损失值,从而对第一检测模型进行训练。
根据本公开实施例的方案,通过检测模型的交互分支使得检测模型具有利用人工指导(第一选取操作)产生的先验信息的能力,可以简化模型训练,提升模型训练的效率。
在一种可能的实现方式中,步骤S140根据第一检测结果、样本图像的真实标注结果以及第一引导点集,对第一检测模型进行训练,以得到第二检测模型,还可以包括步骤:
根据第一检测结果所包含的对象与第一引导点集对应的对象,确定第一损失值。
根据第一检测结果所包含的对象与样本图像的真实标注结果所包含的对象,确定第二损失值。
根据第一损失值和第二损失值,对第一检测模型进行训练,以得到第二检测模型。
本公开实施例中,根据第一检测结果与真实标注结果对比,可以在整体上确定第一检测结果的质量,与真实标注结果的差异大小。同时,第一检测结果与第一引导点集对比,可以确定人工选取的位置上(第一坐标点)的对象是否被检测到,进而确定第一检测模型是否有效利用了先验信息(至少一个第一坐标点形成的第一引导点集)。通过两方面对比的结果,对第一检测模型进行训练,从而得到第二检测模型。分别根据第一检测结果与真实标注结果对比,确定第一损失值。根据第一检测结果与第一引导点集对比,确定第二损失值,
根据本公开实施例的方案,分别设置第一检测结果与真实标注结果间的第一损失值和第一检测结果与第一引导点集间的第二损失值,可以提升先验信息的对模型训练的作用。
在一种可能的实现方式中,步骤S140根据第一检测结果、样本图像的真实标注结果以及第一引导点集,对第一检测模型进行训练,以得到第二检测模型,还可以包括步骤:
S141、根据第一检测结果、样本图像的真实标注结果以及第一引导点集,对第一检测模型进行训练。
S142、在第一检测模型未收敛的情况下,更新第一引导点集。
本公开实施例中,第一检测模型未收敛可以理解第一检测结果包含的对象没有包括样本图像上全部的对象,即还有未被检测到的对象。因此,模型的预测值与真实值之间仍有差距,损失函数没有收敛。
更新第一引导点集,可以是通过在样本图像上实施新的选取操作,得到新的第一坐标点,从而更新第一引导点集。更新可以是将新的第一坐标点加入第一引导点集中,也可以是使用新的第一坐标点替代至少部分原有第一坐标点。
S143、利用第一检测模型的交互分支,根据更新后的第一引导点集,更新第一位置特征。
S144、根据更新后的第一位置特征和样本图像特征,对样本图像中的对象再次进行检测,以更新第一检测结果。
S145、根据更新后的第一检测结果、样本图像的真实标注结果以及更新后的第一引导点集,对第一检测模型进行训练,以得到第二检测模型。
本公开实施例中,在第一检测模型没有收敛的情况下,将第一引导点集更新后重新利用第一检测模型进行检测,以更新第一检测结果。如果此轮检测得出的第一检测结果依然没有包括样本图像中全部的对象,则再次返回S142,更新第一引导点集,并进行下一轮迭代,直到样本图像中全部的对象都被检测到。
根据本公开实施例的方案,通过更新第一引导点集,帮助第一检测模型快速完成模型训练,提升模型训练的效率。
在一种可能的实现方式中,在第一检测模型未收敛的情况下,更新第一引导点集,进一步包括步骤:
在第一检测模型未收敛的情况下,根据在样本图像上实施的第二选取操作所确定的第二坐标点和/或第一检测结果所包含的对象的第三坐标点,更新第一引导点集。
本公开实施例中,更新第一引导点集的方式包括三种:
1)根据在样本图像上实施的第二选取操作所确定的第二坐标点,更新第一引导点集。
第二选取操作,可以理解为对未被检测到的对象(第一检测结果之外的对象)进行选取,从而根据得到的第二坐标点,更新第一引导点集。该方式下,更新后的检测结果可能与上一轮检测结果存在较大差异,上一轮检测结果可能会丢失。该方式可以用于查看检测模型对于不同的先验信息的检测效果。
2)根据第一检测结果所包含的对象的第三坐标点,更新第一引导点集。
第三坐标点可以理解为已被检测到的对象的坐标点。将所有已经被检测到的对象的坐标点作为第一引导点集,即将上一轮检测结果的对象的坐标点作为先验信息,可以保证下一轮检测结果稳定,原有检测结果不丢失。
3)根据第二坐标点和第三坐标点,更新第一引导点集。
通过第二选取操作可以将第一检测结果之外的对象的坐标点加入到第一引导点集中,即在原先验信息(第一选取操作)之上,进一步提供人工指导。将新的人工指导信息和上一轮检测结果的信息同时作为先验信息进行下一轮检测。可以保证下一轮检测结果
在一种示例中,样本图像上有a、b、c、d、e五个对象,第一选取操作在对象a和对象b的位置进行点击,得到的2个坐标点作为第一引导点集。第一检测模型根据第一引导点集的位置特征,对样本图像进行第一轮检测,得到的第一检测结果中包含了对象a、b、c、d。由于对象e未被检测到,因此还需要进行第二轮检测,以进一步对第一检测模型进行训练。此时,可以使用上述3种更新第一引导点集的方式中的任一种,更新后进行第二轮检测。以第3种方式为例,可以直接选取对象e,将点击对象e生成的坐标点和对象a、b、c、d的坐标点,更新第一引导点集,这种方式可以有效保证本轮的检测结果包含全部的5个对象。
可见,在图像中需要识别的对象数量较多时,可以通过若干轮检测,每轮检测中人工选取一个或数个少量对象,通过检测模型得到更多对象。使每轮检测的检测结果都能在下一轮检测结果中得到保留的同时,每轮检测结果的对象数量保持递增。
根据本公开实施例的方案,通过迭代策略简化模型训练,提高模型训练的效率。
在一种可能的实现方式中,步骤S130根据第一位置特征和样本图像特征,对样本图像中的对象进行检测,以得到第一检测结果,进一步包括步骤:
S131、利用第一检测模型的注意力模块,根据样本图像特征和第一位置特征,确定第一融合特征。
S132、根据第一融合特征,对样本图像中的第一目标对象进行检测,以得到第一检测结果。
本公开实施例中,第一检测模型的注意力模块的输入端与交互分支、图像分支连接。注意力模块的输出端与头部模块相连。
头部模块包括全连接层和输出层。注意力模块确定第一融合特征后,将确定第一融合特征输入头部模块,由头部模块输出第一检测结果。
根据本公开实施例的方案,将交互分支的第一位置特征与样本图像特征融合,有助于突出人工兴趣的位置,提高了模型对位置特征的注意力,对先验信息的响应效果。
在一种可能的实现方式中,步骤S131利用第一检测模型的注意力模块,根据样本图像特征和第一位置特征,确定第一融合特征,包括:
将样本图像特征与第一位置特征相乘,得到第一合并特征。
利用第一检测模型的注意力模块,根据第一合并特征,确定第一融合特征。
本公开实施例中,通过将第一位置特征与样本图像特征相乘,使得在模型的后期,把第一位置特征注入到样本图像特征中。
根据本公开实施例的方案,防止根据交互信息得到的位置特征被其他特征淹没,提高模型对先验信息的响应精度。
在一种可能的实现方式中,利用第一检测模型的注意力模块,根据第一合并特征,确定第一融合特征,进一步包括步骤:
利用第一检测模型的注意力模块的通道注意力分支,根据第一合并特征,确定第一通道分支特征。
利用注意力模块的位置注意力分支,根据第一合并特征,确定第一位置分支特征。
根据第一通道分支特征和第一位置分支特征,确定第一融合特征,其中,第一融合特征与第一合并特征的形状相同。
本公开实施例中,通道注意力分支利用通道映射之间的相互依赖性。位置注意力分支用于关联相似的特征而不考虑空间位置,并捕获局部特征的丰富上下文关系。因此,注意力模块在空间和通道维度上结合远程上下文信息来实现后期融合,即双重注意力架构。同时,该双重注意力架构可以确保输出与颈部模块具有相同的形状,这可以确保该架构配备任何检测模型。
根据本公开实施例的方案,通过将位置特征与图像特征进行深层次的融合,使得检测模型可以根据交互信息快速准确的给出预测结果。
在一种可能的实现方式中,步骤S120利用第一检测模型的图像分支,根据样本图像,确定样本图像特征,进一步包括步骤:
S121、将第一检测模型的图像分支在主干阶段生成的图像特征与交互分支在相应阶段生成的位置特征合并,以得到第一中间图像特征。
本公开实施例中,图像特征与位置特征合并的方式可以是将图像特征与位置特征相加,也可以采用其它合并方式。
S122、利用图像分支中的颈部模块,根据第一中间图像特征,确定样本图像特征。
需要说明的是,对于一般的检测任务,检测模型仅将图像作为输入并产生边界框位置以及相应的类别。相比之下,本公开实施例提供的交互式检测模型需要考虑交互式信息。因此采用早期-后期融合(early-late fusion)策略来提高模型对位置信息的响应精度。
根据本公开实施例的方案,通过早期的融合,可以提供额外的点击信息,同时减少对主干的修改。
在一种可能的实现方式中,步骤S121将第一检测模型的图像分支在主干阶段生成的图像特征与交互分支在相应阶段生成的位置特征合并,以得到第一中间图像特征,进一步包括步骤:
将第一检测模型的图像分支在主干阶段的第一个卷积块生成的图像特征与交互分支在对应阶段生成的位置特征合并,以得到第一中间特征。
将第一中间特征输入图像分支的主干阶段中的第一阶段,以得到第二中间特征。
将第二中间特征与交互分支在对应阶段生成的位置特征合并,以得到第三中间特征。
将第三中间特征输入图像分支的主干阶段中的第二阶段,以得到第一中间图像特征。
本公开实施例中,在主干backbone阶段第一个卷积块之后和第一个阶段stage后将人工指导和上一轮检测结果的位置信息注入图像分支的对应阶段中。
根据本公开实施例的方案,提高了早期位置特征注入的效果。
图2是本公开一实施例提供的图像检测方法的流程示意图。如图2所示,该方法至少包括以下步骤:
S210、利用第二检测模型,对待检测图像中的对象进行检测,以得到第二检测结果。其中,第二检测模型根据上述图像检测模型的训练方法训练得到。
根据本公开实施例的方案,使用第二检测模型,对待检测图像中的对象进行检测,可以提高图像检测的效率。
在一种可能的实现方式中,步骤S210利用第二检测模型,对待检测图像中的对象进行检测,以得到第二检测结果,进一步包括步骤:
S211、根据在待检测图像上实施的第三选取操作确定的第四坐标点,得到第二引导点集。
S212、利用第二检测模型,根据第二引导点集,对待检测图像中的对象进行检测,以得到第二检测结果。
本公开实施例中,在进行检测之前,在待检测图像上选取一个或多个对象,即根据第三选取操作的第四坐标点,得到第二引导点集。将第二引导点集作为人工提供的先验信息,帮助检测模型进行检测。
根据本公开实施例的方案,通过人工交互操作,为检测模型提供先验信息,可以极大地提高检测效率。
在一种可能的实现方式中,本公开实施例的图像检测方法包括步骤S210或者S211至S212,还包括步骤:
S220、在第二检测结果未包含待检测图像中的全部对象的情况下,根据针对第二检测结果不包含的对象的第四选取操作,确定第五坐标点。
S230、根据第二检测结果中的对象,确定第六坐标点。
S240、根据第五坐标点和第六坐标点,得到第三引导点集。
S250、利用第二检测模型,根据第三引导点集,对待检测图像中的对象再次进行检测,以更新第二检测结果。
本公开实施例中,在通过S250步骤更新得到的第二检测结果依然未包含待检测图像中的全部对象的情况下,可以返回S220进行下一轮检测。直至第二检测结果包含了待检测图像中的全部对象。
根据本公开实施例的方案,采用迭代式的检测方法,每轮迭代中使用上一轮检测结果得到的第六坐标点和人工额外添加的第五坐标点作为引导,可以稳定每轮迭代的检测结果的连续性,并且持续改进检测结果,从而快速完成检测,提高了图像检测效率。
在一种可能的实现方式中,S230根据第二检测结果中的对象,确定第六坐标点,进一步包括步骤:
根据第二检测结果所包含的对象的位置信息,确定对象的边界框。
在边界框之内确定对象的核心点。
根据对象的核心点,确定第六坐标点。
本公开实施例中,核心点可以是边界框的中心点。在另一种方式中,在边界框之内确定对象的核心点,包括:在边界框中确定主体框,主体框的长宽可以是边界框的一半,即主体框的面积是边界框的四分之一,两者中心点相同。在主体框中进一步根据属于对象的像素值在该主体框中所占的位置确定核心点,将核心点的坐标作为第六坐标点。
需要说明的是,主体框仅覆盖了对象是中心部分,因此,在多个对象相互叠加或连接的情况下,有助于在人工进行选取操作时,区分点击操作的坐标点属于哪个对象。同时,在主体框内选取核心点有助于避免一个对象的核心点落在其它对象上。
在一种可能的实现方式中,S212利用第二检测模型,根据第二引导点集,对待检测图像中的对象进行检测,以得到第二检测结果,进一步包括步骤:
利用第二检测模型的图像分支,根据待检测图像,确定待测图像特征。
利用第二检测模型的交互分支,根据第二引导点集,确定第二位置特征。
利用第二检测模型的注意力模块,根据待测图像特征和第二位置特征,确定第二融合特征。
根据第二融合特征,对待检测图像中的对象进行检测,以得到第二检测结果。
在一种可能的实现方式中,利用第二检测模型的注意力模块,根据待测图像特征和第二位置特征,确定第二融合特征,进一步包括步骤:
将第二位置特征与待测图像特征相乘,得到第二合并特征。
利用第二检测模型的注意力模块,根据第二合并特征,确定第二融合特征。
在一种可能的实现方式中,利用第二检测模型的注意力模块,根据第二合并特征,确定第二融合特征,进一步包括步骤:
利用第二检测模型的注意力模块的通道注意力分支,根据第二合并特征,确定第二通道分支特征。
利用注意力模块的位置注意力分支,根据第二合并特征,确定第二位置分支特征。
根据第二通道分支特征和第二位置分支特征,确定第二融合特征,其中,第二融合特征与第二合并特征的形状相同。
在一种可能的实现方式中,利用第二检测模型的图像分支,根据待检测图像,确定待测图像特征,进一步包括步骤:
将第二检测模型的图像分支在主干阶段生成的图像特征与交互分支在相应阶段生成的位置特征合并,以得到第二中间图像特征。
利用图像分支中的颈部模块,根据第二中间图像特征,确定待测图像特征。
在一种可能的实现方式中,将第二检测模型的图像分支在主干阶段生成的图像特征与交互分支在相应阶段生成的位置特征合并,以得到第二中间图像特征,进一步包括步骤:
将第二检测模型的图像分支在主干阶段的第一个卷积块生成的图像特征与第二检测模型的交互分支在对应阶段生成的位置特征合并,以得到第四中间特征。
将第四中间特征输入第二检测模型的图像分支的主干阶段的第一阶段,以得到第五中间特征。
将第五中间特征与第二检测模型的交互分支在对应阶段生成的位置特征合并,以得到第六中间特征。
将第六中间特征输入第二检测模型的图像分支的主干阶段的第二阶段,以得到第二中间图像特征。
图3是本公开一实施例的图像标注方法的流程示意图。该方法包括步骤:
S310、响应于检测操作或在待标注图像上实施的第五选取操作,根据任一实施例提供的图像检测方法,对待标注图像中的目标对象进行检测,以得到目标对象的集合。
S320、根据集合中的目标对象的位置信息,在待标注图像上生成目标对象的边界框和/或主体框。其中,主体框在边界框之内,主体框用于覆盖目标对象的主体部分。
本公开实施例中,通过采用具有交互能力的图像检测方法,可以通过人工引导从而快速完成标注,提升标注效率。
相比于传统技术中,需要人工逐个对每个对象进行标注,且每个对象需要至少点击三次才能完成标注而言,根据本公开实施例的方案,对不同目标对象仅需点击一次,根据点击产生的先验信息,由检测模型检测出目标对象从而完成标注,在效率上具有极大地提升。另一方面,由于在标注时可以利用人工引导,使得可以降低对检测模型的检测能力、泛化性、精度等方面的要求,进而也减少了模型训练的成本。无需针对不同的场景训练多种模型,也就是说,使用质量和精度较为一般的检测模型加上少量人工引导,即可实现高精度、高效率的标注。
在一种可能的实现方式中,本公开实施例提出了一种用于交互式检测的新范例。该范例采用与类无关的用户输入并迭代地改进标注注释。此外,使用迭代策略简化模型训练,其中上一次迭代的框中心(根据上一轮检测结果中的对象的边界框所确定的核心点)和当前迭代的用户点击(选取操作)用作指导。
基于这种范式,提供了一个统一且有效的交互式检测架构(A Unified andEffective Interactive Detection Framework,EIDet)。EIDet采用early-late fusion策略来提高模型对用户点击的响应精度。使用EIDet,任何通用检测模型都可以交互地注释检测数据集。整个流程如图4所示:EIDet以原图,用户的点击信息以及上一次迭代产生的关于边界框bounding box的位置信息作为输入,输出检测结果。如果输出的检测结果满意,则终止点击,如果结果不满意,则用户需要继续进行交互,修改标注结果,直到满意为止。
EIDet采用early-late fusion的方式,可以广泛应用到现有的通用检测模型当中,使其具有交互式检测能力。具体结构如图5所示。
交互式分支以用户点击和框引导为输入,将位置特征注入到不同的backbone阶段中。早期的融合结构旨在提供额外的点击信息,同时减少对主干的修改。为此,可以在backbone第一个卷积块之后和第一个stage后将用户点击和框引导信息进行注入。
然而,与图像特征相比,点击产生的位置特征更稀疏,更容易被淹没,如果仅使用浅层融合,会使得模型无法根据交互信息给出快速准确的预测。为了防止用户交互信息被其他特征淹没,本公开实施例在颈部neck模块后面使用注意力模块进行进一步的特征融合。后期融合的目的是突出用户兴趣的位置,在长程上下文特征中找到相似的特征。
具体来说,后期融合模块将图像imaging分支和交互式interaction分支的输出作为输入,然后将像素到像素的乘法结果输入到注意力模块中。注意力模块有两个主要部分:通道注意力和位置注意力。注意力模块在空间和通道维度上结合远程上下文信息来实现后期融合。
根据本公开实施例的方案,将交互式能力引入到检测任务当中,能够显著降低检测任务的标注难度,降低检测数据集获取的门槛。相较于之前的降低标注成本的方法,本公开实施例的方法能够做到精度高,准确性好,降低人工标注成本,在小目标数据集Tiny-DOTA单次点击精度mAP50为59.2%,为目前业界的最高。
图6是本公开一实施例的图像检测模型的训练装置的结构示意图。如图6所示,该装置600至少包括:
第一确定模块601,用于利用第一检测模型的交互分支,根据第一引导点集,确定第一位置特征。其中,第一引导点集包括根据在样本图像上实施的第一选取操作所确定的第一坐标点。
第二确定模块602,用于利用第一检测模型的图像分支,根据样本图像,确定样本图像特征。
第一检测模块603,用于根据第一位置特征和样本图像特征,对样本图像中的对象进行检测,以得到第一检测结果。
训练模块604,用于根据第一检测结果、样本图像的真实标注结果以及第一引导点集,对第一检测模型进行训练,以得到第二检测模型。
在一种可能的实现方式中,训练模块604用于:
根据第一检测结果所包含的对象与第一引导点集对应的对象,确定第一损失值。
根据第一检测结果所包含的对象与样本图像的真实标注结果所包含的对象,确定第二损失值。
根据第一损失值和第二损失值,对第一检测模型进行训练,以得到第二检测模型。
在一种可能的实现方式中,训练模块604包括:
更新子模块,用于在第一检测模型未收敛的情况下,更新第一引导点集。
第一位置特征确定模块还用于利用第一检测模型的交互分支,根据更新后的第一引导点集,更新第一位置特征。
第一检测模块还用于根据更新后的第一位置特征和样本图像特征,对样本图像中的对象再次进行检测,以更新第一检测结果。
训练模块还用于根据更新后的第一检测结果、样本图像的真实标注结果以及更新后的第一引导点集,对第一检测模型进行训练,以得到第二检测模型。
在一种可能的实现方式中,更新子模块用于:
在第一检测模型未收敛的情况下,根据在样本图像上实施的第二选取操作所确定的第二坐标点和/或第一检测结果所包含的对象的第三坐标点,更新第一引导点集。
在一种可能的实现方式中,第一检测模块603用于:
利用第一检测模型的注意力模块,根据样本图像特征和第一位置特征,确定第一融合特征。
根据第一融合特征,对样本图像中的第一目标对象进行检测,以得到第一检测结果。
在一种可能的实现方式中,第一检测模块603包括:
后期注入子模块,用于将样本图像特征与第一位置特征相乘,得到第一合并特征。
第一确定子模块,用于利用第一检测模型的注意力模块,根据第一合并特征,确定第一融合特征。
在一种可能的实现方式中,第一确定子模块用于:
利用第一检测模型的注意力模块的通道注意力分支,根据第一合并特征,确定第一通道分支特征。
利用注意力模块的位置注意力分支,根据第一合并特征,确定第一位置分支特征。
根据第一通道分支特征和第一位置分支特征,确定第一融合特征,其中,第一融合特征与第一合并特征的形状相同。
在一种可能的实现方式中,第二确定模块602,包括:
早期注入子模块,用于将第一检测模型的图像分支在主干阶段生成的图像特征与交互分支在相应阶段生成的位置特征合并,以得到第一中间图像特征。
第二确定子模块,用于利用图像分支中的颈部模块,根据第一中间图像特征,确定样本图像特征。
在一种可能的实现方式中,早期注入子模块用于:
将第一检测模型的图像分支在主干阶段的第一个卷积块生成的图像特征与交互分支在对应阶段生成的位置特征合并,以得到第一中间特征。
将第一中间特征输入图像分支的主干阶段中的第一阶段,以得到第二中间特征。
将第二中间特征与交互分支在对应阶段生成的位置特征合并,以得到第三中间特征。
将第三中间特征输入图像分支的主干阶段中的第二阶段,以得到第一中间图像特征。
本公开实施例的装置的各模块、子模块的具体功能和示例的描述,可以参见上述方法实施例中对应步骤的相关描述,在此不再赘述。
图7是根据本公开一实施例提供的图像检测装置的结构示意图。如图7所示,该装置700至少包括:
图像检测模块701,用于利用第二检测模型,对待检测图像中的对象进行检测,以得到第二检测结果。其中,第二检测模型根据本公开任一实施例通过的图像检测模型的训练装置训练得到。
在一种可能的实现方式中,图像检测模块701还用于:
根据在待检测图像上实施的第三选取操作确定的第四坐标点,得到第二引导点集。
利用第二检测模型,根据第二引导点集,对待检测图像中的对象进行检测,以得到第二检测结果。
在一种可能的实现方式中,该图像检测装置还包括:
点集确定模块,用于在第二检测结果未包含待检测图像中的全部对象的情况下,根据针对第二检测结果不包含的对象的第四选取操作,确定第五坐标点。
根据第二检测结果中的对象,确定第六坐标点。
根据第五坐标点和第六坐标点,得到第三引导点集。
图像检测模块701还用于利用第二检测模型,根据第三引导点集,对待检测图像中的对象再次进行检测,以更新第二检测结果。
在一种可能的实现方式中,点集确定模块还用于:
根据第二检测结果所包含的对象的位置信息,确定对象的边界框。
在边界框之内确定对象的核心点。
根据对象的核心点,确定第六坐标点。
在一种可能的实现方式中,图像检测模块701,包括:
图像子模块,用于利用第二检测模型的图像分支,根据待检测图像,确定待测图像特征。
位置子模块,用于利用第二检测模型的交互分支,根据第二引导点集,确定第二位置特征。
融合子模块,用于利用第二检测模型的注意力模块,根据待测图像特征和第二位置特征,确定第二融合特征。
检测子模块,用于根据第二融合特征,对待检测图像中的对象进行检测,以得到第二检测结果。
在一种可能的实现方式中,融合子模块用于:
将第二位置特征与待测图像特征相乘,得到第二合并特征。
利用第二检测模型的注意力模块,根据第二合并特征,确定第二融合特征。
在一种可能的实现方式中,融合子模块还用于:
利用第二检测模型的注意力模块的通道注意力分支,根据第二合并特征,确定第二通道分支特征。
利用注意力模块的位置注意力分支,根据第二合并特征,确定第二位置分支特征。
根据第二通道分支特征和第二位置分支特征,确定第二融合特征,其中,第二融合特征与第二合并特征的形状相同。
在一种可能的实现方式中,图像子模块还用于:
将第二检测模型的图像分支在主干阶段生成的图像特征与交互分支在相应阶段生成的位置特征合并,以得到第二中间图像特征。
利用图像分支中的颈部模块,根据第二中间图像特征,确定待测图像特征。
在一种可能的实现方式中,图像子模块还用于:
将第二检测模型的图像分支在主干阶段的第一个卷积块生成的图像特征与第二检测模型的交互分支在对应阶段生成的位置特征合并,以得到第四中间特征。
将第四中间特征输入第二检测模型的图像分支的主干阶段的第一阶段,以得到第五中间特征。
将第五中间特征与第二检测模型的交互分支在对应阶段生成的位置特征合并,以得到第六中间特征。
将第六中间特征输入第二检测模型的图像分支的主干阶段的第二阶段,以得到第二中间图像特征。
本公开实施例的装置的各模块、子模块的具体功能和示例的描述,可以参见上述方法实施例中对应步骤的相关描述,在此不再赘述。
图8是根据本公开一实施例提供的图像标注装置的结构示意图。如图8所示,该装置800至少包括:
交互模块801,用于响应于检测操作或在待标注图像上实施的第五选取操作,利用本公开任一实施例提供的图像检测装置,对待标注图像中的目标对象进行检测,以得到目标对象的集合。以及
标注模块802,用于根据集合中的目标对象的位置信息,在待标注图像上生成目标对象的边界框和/或主体框。其中,主体框在边界框之内,主体框用于覆盖目标对象的主体部分。
本公开实施例的装置的各模块、子模块的具体功能和示例的描述,可以参见上述方法实施例中对应步骤的相关描述,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如图像检测模型的训练方法、图像检测方法、图像标注方法。例如,在一些实施例中,图像检测模型的训练方法、图像检测方法、图像标注方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的图像检测模型的训练方法、图像检测方法、图像标注方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像检测模型的训练方法、图像检测方法、图像标注方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (41)

1.一种图像检测模型的训练方法,包括:
利用第一检测模型的交互分支,根据第一引导点集,确定第一位置特征;其中,所述第一引导点集包括根据在样本图像上实施的第一选取操作所确定的第一坐标点;
利用所述第一检测模型的图像分支,根据所述样本图像,确定样本图像特征;
根据所述第一位置特征和所述样本图像特征,对所述样本图像中的对象进行检测,以得到第一检测结果;以及
根据所述第一检测结果、所述样本图像的真实标注结果以及所述第一引导点集,对所述第一检测模型进行训练,以得到第二检测模型。
2.根据权利要求1所述的方法,其中,根据所述第一检测结果、所述样本图像的真实标注结果以及所述第一引导点集,对所述第一检测模型进行训练,以得到第二检测模型,包括:
根据所述第一检测结果所包含的对象与所述第一引导点集对应的对象,确定第一损失值;
根据所述第一检测结果所包含的对象与所述样本图像的真实标注结果所包含的对象,确定第二损失值;
根据所述第一损失值和所述第二损失值,对所述第一检测模型进行训练,以得到第二检测模型。
3.根据权利要求1所述的方法,其中,根据所述第一检测结果、所述样本图像的真实标注结果以及所述第一引导点集,对所述第一检测模型进行训练,以得到第二检测模型,包括:
根据所述第一检测结果、所述样本图像的真实标注结果以及所述第一引导点集,对所述第一检测模型进行训练;
在所述第一检测模型未收敛的情况下,更新所述第一引导点集;
利用所述第一检测模型的交互分支,根据更新后的第一引导点集,更新所述第一位置特征;
根据更新后的第一位置特征和所述样本图像特征,对所述样本图像中的对象再次进行检测,以更新所述第一检测结果;
根据更新后的第一检测结果、所述样本图像的真实标注结果以及所述更新后的第一引导点集,对所述第一检测模型进行训练,以得到第二检测模型。
4.根据权利要求3所述的方法,其中,在所述第一检测模型未收敛的情况下,更新所述第一引导点集,包括:
在所述第一检测模型未收敛的情况下,根据在所述样本图像上实施的第二选取操作所确定的第二坐标点和/或所述第一检测结果所包含的对象的第三坐标点,更新所述第一引导点集。
5.根据权利要求1至4中任一项所述的方法,其中,根据所述第一位置特征和所述样本图像特征,对所述样本图像中的对象进行检测,以得到第一检测结果,包括:
利用所述第一检测模型的注意力模块,根据所述样本图像特征和所述第一位置特征,确定第一融合特征;
根据所述第一融合特征,对所述样本图像中的第一目标对象进行检测,以得到第一检测结果。
6.根据权利要求5所述的方法,其中,利用所述第一检测模型的注意力模块,根据所述样本图像特征和所述第一位置特征,确定第一融合特征,包括:
将所述样本图像特征与所述第一位置特征相乘,得到第一合并特征;
利用所述第一检测模型的注意力模块,根据所述第一合并特征,确定第一融合特征。
7.根据权利要求6所述的方法,其中,利用所述第一检测模型的注意力模块,根据所述第一合并特征,确定第一融合特征,包括:
利用所述第一检测模型的注意力模块的通道注意力分支,根据所述第一合并特征,确定第一通道分支特征;
利用所述注意力模块的位置注意力分支,根据所述第一合并特征,确定第一位置分支特征;
根据所述第一通道分支特征和所述第一位置分支特征,确定第一融合特征,其中,所述第一融合特征与所述第一合并特征的形状相同。
8.根据权利要求5所述的方法,其中,利用所述第一检测模型的图像分支,根据所述样本图像,确定样本图像特征,包括:
将所述第一检测模型的图像分支在主干阶段生成的图像特征与所述交互分支在相应阶段生成的位置特征合并,以得到第一中间图像特征;
利用所述图像分支中的颈部模块,根据所述第一中间图像特征,确定样本图像特征。
9.根据权利要求8所述的方法,其中,将所述第一检测模型的图像分支在主干阶段生成的图像特征与所述交互分支在相应阶段生成的位置特征合并,以得到第一中间图像特征,包括:
将所述第一检测模型的图像分支在主干阶段的第一个卷积块生成的图像特征与所述交互分支在对应阶段生成的位置特征合并,以得到第一中间特征;
将所述第一中间特征输入所述图像分支的主干阶段中的第一阶段,以得到第二中间特征;
将所述第二中间特征与所述交互分支在对应阶段生成的位置特征合并,以得到第三中间特征;
将所述第三中间特征输入所述图像分支的主干阶段中的第二阶段,以得到第一中间图像特征。
10.一种图像检测方法,包括:
利用第二检测模型,对待检测图像中的对象进行检测,以得到第二检测结果;其中,所述第二检测模型根据权利要求1至9中任一项所述的图像检测模型的训练方法训练得到。
11.根据权利要求10所述的方法,其中,利用第二检测模型,对待检测图像中的对象进行检测,以得到第二检测结果,包括:
根据在待检测图像上实施的第三选取操作确定的第四坐标点,得到第二引导点集;
利用所述第二检测模型,根据所述第二引导点集,对所述待检测图像中的对象进行检测,以得到第二检测结果。
12.根据权利要求10或11所述的方法,还包括:
在所述第二检测结果未包含所述待检测图像中的全部对象的情况下,根据针对所述第二检测结果不包含的对象的第四选取操作,确定第五坐标点;
根据所述第二检测结果中的对象,确定第六坐标点;
根据所述第五坐标点和所述第六坐标点,得到第三引导点集;
利用所述第二检测模型,根据所述第三引导点集,对所述待检测图像中的对象再次进行检测,以更新所述第二检测结果。
13.根据权利要求12所述的方法,其中,根据所述第二检测结果中的对象,确定第六坐标点,包括:
根据所述第二检测结果所包含的对象的位置信息,确定所述对象的边界框;
在所述边界框之内确定所述对象的核心点;
根据所述对象的核心点,确定第六坐标点。
14.根据权利要求11所述的方法,其中,利用所述第二检测模型,根据所述第二引导点集,对所述待检测图像中的对象进行检测,以得到第二检测结果,包括:
利用所述第二检测模型的图像分支,根据待检测图像,确定待测图像特征;
利用所述第二检测模型的交互分支,根据所述第二引导点集,确定第二位置特征;
利用所述第二检测模型的注意力模块,根据所述待测图像特征和所述第二位置特征,确定第二融合特征;
根据所述第二融合特征,对所述待检测图像中的对象进行检测,以得到第二检测结果。
15.根据权利要求14所述的方法,其中,利用所述第二检测模型的注意力模块,根据所述待测图像特征和所述第二位置特征,确定第二融合特征,包括:
将所述第二位置特征与所述待测图像特征相乘,得到第二合并特征;
利用所述第二检测模型的注意力模块,根据所述第二合并特征,确定第二融合特征。
16.根据权利要求15所述的方法,其中,利用所述第二检测模型的注意力模块,根据所述第二合并特征,确定第二融合特征,包括:
利用所述第二检测模型的注意力模块的通道注意力分支,根据所述第二合并特征,确定第二通道分支特征;
利用所述注意力模块的位置注意力分支,根据所述第二合并特征,确定第二位置分支特征;
根据所述第二通道分支特征和所述第二位置分支特征,确定第二融合特征,其中,所述第二融合特征与所述第二合并特征的形状相同。
17.根据权利要求14所述的方法,其中,利用所述第二检测模型的图像分支,根据所述待检测图像,确定待测图像特征,包括:
将所述第二检测模型的图像分支在主干阶段生成的图像特征与所述交互分支在相应阶段生成的位置特征合并,以得到第二中间图像特征;
利用所述图像分支中的颈部模块,根据所述第二中间图像特征,确定待测图像特征。
18.根据权利要求17所述的方法,其中,将所述第二检测模型的图像分支在主干阶段生成的图像特征与所述交互分支在相应阶段生成的位置特征合并,以得到第二中间图像特征,包括:
将所述第二检测模型的图像分支在主干阶段的第一个卷积块生成的图像特征与所述第二检测模型的交互分支在对应阶段生成的位置特征合并,以得到第四中间特征;
将所述第四中间特征输入所述第二检测模型的图像分支的主干阶段的第一阶段,以得到第五中间特征;
将所述第五中间特征与所述第二检测模型的交互分支在对应阶段生成的位置特征合并,以得到第六中间特征;
将所述第六中间特征输入所述第二检测模型的图像分支的主干阶段的第二阶段,以得到第二中间图像特征。
19.一种图像标注方法,包括:
响应于检测操作或在待标注图像上实施的第五选取操作,根据权利要求10至18中任一项所述的图像检测方法,对所述待标注图像中的目标对象进行检测,以得到所述目标对象的集合;以及
根据所述集合中的所述目标对象的位置信息,在所述待标注图像上生成所述目标对象的边界框和/或主体框;其中,所述主体框在所述边界框之内,所述主体框用于覆盖所述目标对象的主体部分。
20.一种图像检测模型的训练装置,包括:
第一确定模块,用于利用第一检测模型的交互分支,根据第一引导点集,确定第一位置特征;其中,所述第一引导点集包括根据在样本图像上实施的第一选取操作所确定的第一坐标点;
第二确定模块,用于利用所述第一检测模型的图像分支,根据所述样本图像,确定样本图像特征;
第一检测模块,用于根据所述第一位置特征和所述样本图像特征,对所述样本图像中的对象进行检测,以得到第一检测结果;
训练模块,用于根据所述第一检测结果、所述样本图像的真实标注结果以及所述第一引导点集,对所述第一检测模型进行训练,以得到第二检测模型。
21.根据权利要求20所述的装置,其中,所述训练模块用于:
根据所述第一检测结果所包含的对象与所述第一引导点集对应的对象,确定第一损失值;
根据所述第一检测结果所包含的对象与所述样本图像的真实标注结果所包含的对象,确定第二损失值;
根据所述第一损失值和所述第二损失值,对所述第一检测模型进行训练,以得到第二检测模型。
22.根据权利要求20所述的装置,其中,所述训练模块包括:
更新子模块,用于在所述第一检测模型未收敛的情况下,更新所述第一引导点集;
所述第一位置特征确定模块还用于利用所述第一检测模型的交互分支,根据更新后的第一引导点集,更新所述第一位置特征;
所述第一检测模块还用于根据更新后的第一位置特征和所述样本图像特征,对所述样本图像中的对象再次进行检测,以更新所述第一检测结果;
所述训练模块还用于根据更新后的第一检测结果、所述样本图像的真实标注结果以及所述更新后的第一引导点集,对所述第一检测模型进行训练,以得到第二检测模型。
23.根据权利要求22所述的装置,其中,所述更新子模块用于:
在所述第一检测模型未收敛的情况下,根据在所述样本图像上实施的第二选取操作所确定的第二坐标点和/或所述第一检测结果所包含的对象的第三坐标点,更新所述第一引导点集。
24.根据权利要求20至23中任一项所述的装置,其中,所述第一检测模块用于:
利用所述第一检测模型的注意力模块,根据所述样本图像特征和所述第一位置特征,确定第一融合特征;
根据所述第一融合特征,对所述样本图像中的第一目标对象进行检测,以得到第一检测结果。
25.根据权利要求24所述的装置,其中,所述第一检测模块包括:
后期注入子模块,用于将所述样本图像特征与所述第一位置特征相乘,得到第一合并特征;
第一确定子模块,用于利用所述第一检测模型的注意力模块,根据所述第一合并特征,确定第一融合特征。
26.根据权利要求25所述的装置,其中,所述第一确定子模块用于:
利用所述第一检测模型的注意力模块的通道注意力分支,根据所述第一合并特征,确定第一通道分支特征;
利用所述注意力模块的位置注意力分支,根据所述第一合并特征,确定第一位置分支特征;
根据所述第一通道分支特征和所述第一位置分支特征,确定第一融合特征,其中,所述第一融合特征与所述第一合并特征的形状相同。
27.根据权利要求24所述的装置,其中,所述第二确定模块,包括:
早期注入子模块,用于将所述第一检测模型的图像分支在主干阶段生成的图像特征与所述交互分支在相应阶段生成的位置特征合并,以得到第一中间图像特征;
第二确定子模块,用于利用所述图像分支中的颈部模块,根据所述第一中间图像特征,确定样本图像特征。
28.根据权利要求27所述的装置,其中,所述早期注入子模块用于:
将所述第一检测模型的图像分支在主干阶段的第一个卷积块生成的图像特征与所述交互分支在对应阶段生成的位置特征合并,以得到第一中间特征;
将所述第一中间特征输入所述图像分支的主干阶段中的第一阶段,以得到第二中间特征;
将所述第二中间特征与所述交互分支在对应阶段生成的位置特征合并,以得到第三中间特征;
将所述第三中间特征输入所述图像分支的主干阶段中的第二阶段,以得到第一中间图像特征。
29.一种图像检测装置,包括:
图像检测模块,用于利用第二检测模型,对待检测图像中的对象进行检测,以得到第二检测结果;其中,所述第二检测模型根据权利要求20至28中任一项所述的图像检测模型的训练装置训练得到。
30.根据权利要求29所述的装置,其中,所述图像检测模块还用于:
根据在待检测图像上实施的第三选取操作确定的第四坐标点,得到第二引导点集;
利用所述第二检测模型,根据所述第二引导点集,对所述待检测图像中的对象进行检测,以得到第二检测结果。
31.根据权利要求29或30所述的装置,还包括:
点集确定模块,用于在所述第二检测结果未包含所述待检测图像中的全部对象的情况下,根据针对所述第二检测结果不包含的对象的第四选取操作,确定第五坐标点;
根据所述第二检测结果中的对象,确定第六坐标点;
根据所述第五坐标点和所述第六坐标点,得到第三引导点集;
所述图像检测模块还用于利用所述第二检测模型,根据所述第三引导点集,对所述待检测图像中的对象再次进行检测,以更新所述第二检测结果。
32.根据权利要求31所述的装置,其中,所述点集确定模块还用于:
根据所述第二检测结果所包含的对象的位置信息,确定所述对象的边界框;
在所述边界框之内确定所述对象的核心点;
根据所述对象的核心点,确定第六坐标点。
33.根据权利要求30所述的装置,其中,所述图像检测模块,包括:
图像子模块,用于利用所述第二检测模型的图像分支,根据待检测图像,确定待测图像特征;
位置子模块,用于利用所述第二检测模型的交互分支,根据所述第二引导点集,确定第二位置特征;
融合子模块,用于利用所述第二检测模型的注意力模块,根据所述待测图像特征和所述第二位置特征,确定第二融合特征;
检测子模块,用于根据所述第二融合特征,对所述待检测图像中的对象进行检测,以得到第二检测结果。
34.根据权利要求33所述的装置,其中,所述融合子模块用于:
将所述第二位置特征与所述待测图像特征相乘,得到第二合并特征;
利用所述第二检测模型的注意力模块,根据所述第二合并特征,确定第二融合特征。
35.根据权利要求34所述的装置,其中,所述融合子模块还用于:
利用所述第二检测模型的注意力模块的通道注意力分支,根据所述第二合并特征,确定第二通道分支特征;
利用所述注意力模块的位置注意力分支,根据所述第二合并特征,确定第二位置分支特征;
根据所述第二通道分支特征和所述第二位置分支特征,确定第二融合特征,其中,所述第二融合特征与所述第二合并特征的形状相同。
36.根据权利要求33所述的装置,其中,所述图像子模块还用于:
将所述第二检测模型的图像分支在主干阶段生成的图像特征与所述交互分支在相应阶段生成的位置特征合并,以得到第二中间图像特征;
利用所述图像分支中的颈部模块,根据所述第二中间图像特征,确定待测图像特征。
37.根据权利要求36所述的装置,其中,所述图像子模块还用于:
将所述第二检测模型的图像分支在主干阶段的第一个卷积块生成的图像特征与所述第二检测模型的交互分支在对应阶段生成的位置特征合并,以得到第四中间特征;
将所述第四中间特征输入所述第二检测模型的图像分支的主干阶段的第一阶段,以得到第五中间特征;
将所述第五中间特征与所述第二检测模型的交互分支在对应阶段生成的位置特征合并,以得到第六中间特征;
将所述第六中间特征输入所述第二检测模型的图像分支的主干阶段的第二阶段,以得到第二中间图像特征。
38.一种图像标注装置,包括:
交互模块,用于响应于检测操作或在待标注图像上实施的第五选取操作,利用权利要求29至37中任一项所述的图像检测装置,对所述待标注图像中的目标对象进行检测,以得到所述目标对象的集合;以及
标注模块,用于根据所述集合中的所述目标对象的位置信息,在所述待标注图像上生成所述目标对象的边界框和/或主体框;其中,所述主体框在所述边界框之内,所述主体框用于覆盖所述目标对象的主体部分。
39.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-19中任一项所述的方法。
40.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-19中任一项所述的方法。
41.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-19中任一项所述的方法。
CN202310325488.4A 2023-03-29 2023-03-29 图像检测模型的训练方法、图像检测方法和图像标注方法 Active CN116486197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310325488.4A CN116486197B (zh) 2023-03-29 2023-03-29 图像检测模型的训练方法、图像检测方法和图像标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310325488.4A CN116486197B (zh) 2023-03-29 2023-03-29 图像检测模型的训练方法、图像检测方法和图像标注方法

Publications (2)

Publication Number Publication Date
CN116486197A true CN116486197A (zh) 2023-07-25
CN116486197B CN116486197B (zh) 2024-03-19

Family

ID=87218584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310325488.4A Active CN116486197B (zh) 2023-03-29 2023-03-29 图像检测模型的训练方法、图像检测方法和图像标注方法

Country Status (1)

Country Link
CN (1) CN116486197B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860573A (zh) * 2020-06-04 2020-10-30 北京迈格威科技有限公司 模型训练方法、图像类别检测方法、装置和电子设备
CN113033715A (zh) * 2021-05-24 2021-06-25 禾多科技(北京)有限公司 目标检测模型训练方法和目标车辆检测信息生成方法
CN114677653A (zh) * 2022-03-04 2022-06-28 北京百度网讯科技有限公司 模型训练方法、车辆关键点检测方法及相应的装置
KR20220125719A (ko) * 2021-04-28 2022-09-14 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 목표 대상 검측 모델을 트레이닝하는 방법 및 장비, 목표 대상을 검측하는 방법 및 장비, 전자장비, 저장매체 및 컴퓨터 프로그램
CN115082740A (zh) * 2022-07-18 2022-09-20 北京百度网讯科技有限公司 目标检测模型训练方法、目标检测方法、装置、电子设备
CN115393384A (zh) * 2022-09-14 2022-11-25 清华大学 基于跨相机的多目标跟踪模型的训练方法及装置
CN115620081A (zh) * 2022-09-27 2023-01-17 北京百度网讯科技有限公司 一种目标检测模型的训练方法及目标检测方法、装置
CN115861809A (zh) * 2022-11-30 2023-03-28 北京百度网讯科技有限公司 杆状物检测及其模型的训练方法、装置、电子设备、介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860573A (zh) * 2020-06-04 2020-10-30 北京迈格威科技有限公司 模型训练方法、图像类别检测方法、装置和电子设备
KR20220125719A (ko) * 2021-04-28 2022-09-14 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 목표 대상 검측 모델을 트레이닝하는 방법 및 장비, 목표 대상을 검측하는 방법 및 장비, 전자장비, 저장매체 및 컴퓨터 프로그램
CN113033715A (zh) * 2021-05-24 2021-06-25 禾多科技(北京)有限公司 目标检测模型训练方法和目标车辆检测信息生成方法
CN114677653A (zh) * 2022-03-04 2022-06-28 北京百度网讯科技有限公司 模型训练方法、车辆关键点检测方法及相应的装置
CN115082740A (zh) * 2022-07-18 2022-09-20 北京百度网讯科技有限公司 目标检测模型训练方法、目标检测方法、装置、电子设备
CN115393384A (zh) * 2022-09-14 2022-11-25 清华大学 基于跨相机的多目标跟踪模型的训练方法及装置
CN115620081A (zh) * 2022-09-27 2023-01-17 北京百度网讯科技有限公司 一种目标检测模型的训练方法及目标检测方法、装置
CN115861809A (zh) * 2022-11-30 2023-03-28 北京百度网讯科技有限公司 杆状物检测及其模型的训练方法、装置、电子设备、介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WANG, JEONGHYEON: "Semantic Segmentation of Urban Scenes with a Location Prior Map Using Lidar Measurements", 《IEEE INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS》 *
谢禹;李玉俊;董文生;: "基于SSD神经网络的图像自动标注及应用研究", 信息技术与标准化, no. 04 *

Also Published As

Publication number Publication date
CN116486197B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN112597837B (zh) 图像检测方法、装置、设备、存储介质和计算机程序产品
US8693734B2 (en) Detecting poorly conditioned points in bundle adjustment
US10755139B2 (en) Random sample consensus for groups of data
CN113239928B (zh) 图像差异检测及模型训练的方法、设备及程序产品
CN116109824A (zh) 基于扩散模型的医学影像及像素级标注生成方法及装置
CN114511743B (zh) 检测模型训练、目标检测方法、装置、设备、介质及产品
CN115359308B (zh) 模型训练、难例识别方法、装置、设备、存储介质及程序
CN114202648A (zh) 文本图像矫正方法、训练方法、装置、电子设备以及介质
CN116486197B (zh) 图像检测模型的训练方法、图像检测方法和图像标注方法
CN115457365B (zh) 一种模型的解释方法、装置、电子设备及存储介质
CN113610856B (zh) 训练图像分割模型和图像分割的方法和装置
CN115239899B (zh) 位姿图生成方法、高精地图生成方法和装置
CN114429631B (zh) 三维对象检测方法、装置、设备以及存储介质
CN112861811B (zh) 目标识别方法、装置、设备、存储介质及雷达
CN113361519B (zh) 目标处理方法、目标处理模型的训练方法及其装置
CN112558810B (zh) 检测指尖位置的方法、装置、设备和存储介质
CN115147561A (zh) 位姿图生成方法、高精地图生成方法和装置
CN114842066A (zh) 图像深度识别模型训练方法、图像深度识别方法及装置
CN113781653A (zh) 对象模型生成方法、装置、电子设备及存储介质
CN113392795B (zh) 联合检测模型训练、联合检测方法、装置、设备及介质
CN111523452B (zh) 用于检测图像中人体位置的方法和装置
CN113343979B (zh) 用于训练模型的方法、装置、设备、介质和程序产品
CN116486230B (zh) 基于半递归特征金字塔结构的图像检测方法及存储介质
CN116824609B (zh) 文档版式检测方法、装置和电子设备
CN113378773B (zh) 手势识别方法、装置、设备、存储介质以及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant