CN115147598B - 目标检测分割方法、装置、智能终端及存储介质 - Google Patents

目标检测分割方法、装置、智能终端及存储介质 Download PDF

Info

Publication number
CN115147598B
CN115147598B CN202210622029.8A CN202210622029A CN115147598B CN 115147598 B CN115147598 B CN 115147598B CN 202210622029 A CN202210622029 A CN 202210622029A CN 115147598 B CN115147598 B CN 115147598B
Authority
CN
China
Prior art keywords
target
vector
image
detection
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210622029.8A
Other languages
English (en)
Other versions
CN115147598A (zh
Inventor
李峰
张�浩
徐怀哲
刘世隆
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Digital Economy Academy IDEA
Original Assignee
International Digital Economy Academy IDEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Digital Economy Academy IDEA filed Critical International Digital Economy Academy IDEA
Priority to CN202210622029.8A priority Critical patent/CN115147598B/zh
Publication of CN115147598A publication Critical patent/CN115147598A/zh
Application granted granted Critical
Publication of CN115147598B publication Critical patent/CN115147598B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了目标检测分割方法、装置、智能终端及存储介质,其中,上述方法包括:获取待处理图像对应的特征图,进而获取内容嵌入向量和位置嵌入向量并输入预先训练的目标检测分割模型中的编码器,根据编码器的输出数据获取待解码内容查询向量和待解码检测框查询向量并输入目标检测分割模型中的解码器,根据解码器的输出数据获取待处理图像中各个目标对象对应的目标类别和目标框;将特征图、编码器的输出数据和解码器的输出数据输入目标检测分割模型中的分割器,通过分割器输出待处理图像对应的分割掩码;将目标类别、目标框和分割掩码进行匹配,获得待处理图像对应的检测分割结果。本发明有利于提高目标检测分割的效率和获得的结果的关联性。

Description

目标检测分割方法、装置、智能终端及存储介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及的是一种目标检测分割方法、装置、智能终端及存储介质。
背景技术
随着科学技术的发展,基于计算机视觉的图像处理技术的应用越来越广泛。目标检测和图像分割都是计算机视觉中的基础任务,并且有着广泛的应用。通过目标检测可以检测出图像中的各个物体及其对应的类别,通过图像分割可以分割出图像中的各个物体。
现有技术中,目标检测和图像分割两个任务通常是分别进行的,例如,使用两个不同的模型来分别执行目标检测和图像分割的任务。现有技术的问题在于,没有统一的目标检测分割模型,即没有一个能够同时执行目标检测和图像分割的模型,只能通过两个模型分别进行目标检测和图像分割,不利于提高目标检测分割的效率和获得的结果的关联性。
因此,现有技术还有待改进和发展。
发明内容
本发明的主要目的在于提供一种目标检测分割方法、装置、智能终端及存储介质,旨在解决现有技术中没有统一的目标检测分割模型,只能通过两个模型分别进行目标检测和图像分割,不利于提高目标检测分割的效率和获得的结果的关联性的问题。
为了实现上述目的,本发明第一方面提供一种目标检测分割方法,其中,上述目标检测分割方法包括:
获取待处理图像对应的特征图,并根据上述特征图获取上述待处理图像的内容嵌入向量和位置嵌入向量;
将上述内容嵌入向量和上述位置嵌入向量输入预先训练的目标检测分割模型中的编码器,根据上述编码器的输出数据获取待解码内容查询向量和待解码检测框查询向量;
将上述待解码内容查询向量和上述待解码检测框查询向量输入上述预先训练的目标检测分割模型中的解码器,根据上述解码器的输出数据获取上述待处理图像中各个目标对象对应的目标类别和目标框;
将上述特征图、上述编码器的输出数据和上述解码器的输出数据输入上述预先训练的目标检测分割模型中的分割器,通过上述分割器输出上述待处理图像对应的分割掩码;
将上述目标类别、上述目标框和上述分割掩码进行匹配,获得上述待处理图像对应的检测分割结果。
可选的,上述获取待处理图像对应的特征图,并根据上述特征图获取上述待处理图像的内容嵌入向量和位置嵌入向量,包括:
通过预设的骨干网络对上述待处理图像进行特征提取,获得上述待处理图像对应的特征图;
根据上述特征图获取上述待处理图像的内容嵌入向量和位置嵌入向量。
可选的,上述编码器的输出数据包括预测内容查询向量和预测检测框查询向量,上述将上述内容嵌入向量和上述位置嵌入向量输入预先训练的目标检测分割模型中的编码器,根据上述编码器的输出数据获取待解码内容查询向量和待解码检测框查询向量,包括:
将上述内容嵌入向量和上述位置嵌入向量相加后输入预先训练的目标检测分割模型中的编码器,通过上述编码器输出上述待处理图像对应的预测内容查询向量和预测检测框查询向量,其中,上述预测内容查询向量和上述预测检测框查询向量一一对应;
根据预设的查询向量选择条件从上述预测内容查询向量中选择获取待解码内容查询向量并获取上述待解码内容查询向量对应的待解码检测框查询向量。
可选的,上述根据预设的查询向量选择条件从上述预测内容查询向量中选择获取待解码内容查询向量并获取上述待解码内容查询向量对应的待解码检测框查询向量,包括:
获取各上述预测内容查询向量对应的预测类别和类别概率;
从上述预测内容查询向量中选出类别概率最大的i个待解码内容查询向量,其中,i是预设的向量选择数目;
将各上述待解码内容查询向量对应的预测内容查询向量分别作为与各待解码内容查询向量对应的待解码检测框查询向量。
可选的,上述解码器的输出数据包括目标内容查询向量和目标检测框查询向量,上述将上述待解码内容查询向量和上述待解码检测框查询向量输入上述预先训练的目标检测分割模型中的解码器,根据上述解码器的输出数据获取上述待处理图像中各个目标对象对应的目标类别和目标框,包括:
将上述待解码内容查询向量和上述待解码检测框查询向量输入上述预先训练的目标检测分割模型中的解码器,通过上述解码器输出上述待处理图像对应的目标内容查询向量和目标检测框查询向量,其中,上述解码器中注意力机制的Key向量和Value向量都为目标向量和,上述目标向量和是上述预测内容查询向量和上述预测检测框查询向量之和;
根据上述目标内容查询向量和上述目标检测框查询向量获得上述待处理图像中各个目标对象对应的目标类别和目标框。
可选的,上述将上述特征图、上述编码器的输出数据和上述解码器的输出数据输入上述预先训练的目标检测分割模型中的分割器,通过上述分割器输出上述待处理图像对应的分割掩码,包括:
将上述特征图、上述预测内容查询向量、上述预测检测框查询向量和上述目标内容查询向量输入上述预先训练的目标检测分割模型中的分割器;
在上述分割器中根据上述预测内容查询向量和上述预测检测框查询向量获取特征还原图,将上述特征图与上述特征还原图相加以获得像素嵌入图,将上述像素嵌入图与上述目标内容查询向量相乘以获得上述待处理图像对应的分割掩码。
可选的,上述目标检测分割模型预先根据如下步骤进行训练:
将训练数据中的特征训练图、内容嵌入训练向量和位置嵌入训练向量输入上述目标检测分割模型,通过上述目标检测分割模型获取上述特征训练图对应的训练分割掩码、训练目标框和训练目标类别,其中,上述训练数据包括多组训练信息,每一组训练信息包括特征训练图、内容嵌入训练向量、位置嵌入训练向量、真实分割掩码、真实目标框和真实目标类别;
根据上述训练分割掩码、上述训练目标框、上述训练目标类别、上述真实分割掩码、上述真实目标框以及上述真实目标类别,对上述目标检测分割模型的模型参数进行调整,并继续执行上述将训练数据中的特征训练图、内容嵌入训练向量和位置嵌入训练向量输入上述目标检测分割模型的步骤,直至满足预设训练条件,得到已训练的目标检测分割模型。
可选的,上述训练信息还包括噪声检测框和噪声检测框类别;
上述噪声检测框是对上述真实目标框添加噪声后获得的检测框,上述噪声检测框类别与该噪声检测框对应的真实检测框的真实目标类别相同;
上述噪声检测框和上述噪声检测框类别用于输入上述目标检测分割模型的解码器以加速上述目标检测分割模型训练时的收敛速度。
本发明第二方面提供一种目标检测分割装置,其中,上述目标检测分割装置包括:
图像处理模块,用于获取待处理图像对应的特征图,并根据上述特征图获取上述待处理图像的内容嵌入向量和位置嵌入向量;
向量处理模块,用于将上述内容嵌入向量和上述位置嵌入向量输入预先训练的目标检测分割模型中的编码器,根据上述编码器的输出数据获取待解码内容查询向量和待解码检测框查询向量;
目标检测模块,用于将上述待解码内容查询向量和上述待解码检测框查询向量输入上述预先训练的目标检测分割模型中的解码器,根据上述解码器的输出数据获取上述待处理图像中各个目标对象对应的目标类别和目标框;
目标分割模块,用于将上述特征图、上述编码器的输出数据和上述解码器的输出数据输入上述预先训练的目标检测分割模型中的分割器,通过上述分割器输出上述待处理图像对应的分割掩码;
匹配模块,用于将上述目标类别、上述目标框和上述分割掩码进行匹配,获得上述待处理图像对应的检测分割结果。
本发明第三方面提供一种智能终端,上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的目标检测分割程序,上述目标检测分割程序被上述处理器执行时实现任意一项上述目标检测分割方法的步骤。
本发明第四方面提供一种计算机可读存储介质,上述计算机可读存储介质上存储有目标检测分割程序,上述目标检测分割程序被处理器执行时实现任意一项上述目标检测分割方法的步骤。
由上可见,本发明方案中,获取待处理图像对应的特征图,并根据上述特征图获取上述待处理图像的内容嵌入向量和位置嵌入向量;将上述内容嵌入向量和上述位置嵌入向量输入预先训练的目标检测分割模型中的编码器,根据上述编码器的输出数据获取待解码内容查询向量和待解码检测框查询向量;将上述待解码内容查询向量和上述待解码检测框查询向量输入上述预先训练的目标检测分割模型中的解码器,根据上述解码器的输出数据获取上述待处理图像中各个目标对象对应的目标类别和目标框;将上述特征图、上述编码器的输出数据和上述解码器的输出数据输入上述预先训练的目标检测分割模型中的分割器,通过上述分割器输出上述待处理图像对应的分割掩码;将上述目标类别、上述目标框和上述分割掩码进行匹配,获得上述待处理图像对应的检测分割结果。
与现有技术中只能通过两个模型分别进行目标检测和图像分割的方案相比,本发明中使用一个统一的目标检测分割模型来执行目标检测和图像分割的任务,通过目标检测分割模型中的编码器和解码器可以进行目标检测并获得图像中各个物体(即目标对象)的目标类别和目标框,而目标检测分割模型中的分割器可以结合编码器的输出数据、解码器的输出数据以及待处理图像对应的特征图进行图像分割并获得对应的分割掩码。如此,可以通过一个统一的目标检测分割模型将目标检测和图像分割结合起来,有利于提高目标检测分割的效率和获得的结果的关联性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种目标检测分割方法的流程示意图;
图2是本发明实施例图1中步骤S100的具体流程示意图;
图3是本发明实施例提供的一种通过目标检测分割模型进行目标检测和图像分割的具体流程示意图;
图4是本发明实施例图1中步骤S200的具体流程示意图;
图5是本发明实施例提供的一种对目标检测分割模型训练过程中的数据处理具体流程示意图;
图6是本发明实施例提供的一种目标检测分割装置的结构示意图;
图7是本发明实施例提供的一种智能终端的内部结构原理框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于检测到”。类似的,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述的条件或事件]”或“响应于检测到[所描述条件或事件]”。
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
随着科学技术的发展,基于计算机视觉的图像处理技术的应用越来越广泛。目标检测和图像分割都是计算机视觉中的基础任务,并且有着广泛的应用。通过目标检测可以检测出图像中的各个物体及其对应的类别,通过图像分割可以分割出图像中的各个物体。
现有技术中,目标检测和图像分割两个任务通常是分别进行的,例如,使用两个不同的模型来分别执行目标检测和图像分割的任务。现有技术的问题在于,没有统一的目标检测分割模型,即没有一个能够同时执行目标检测和图像分割的模型,只能通过两个模型分别进行目标检测和图像分割,不利于提高目标检测分割的效率和获得的结果的关联性。同时,两个分开的模型需要分开进行模型训练,需要耗费较多的训练时间,并且训练后的两个模型之间缺乏关联性,导致对图像进行目标检测和图像分割后获得的结果之间也缺乏关联性,从而可能导致两部分识别出来的结果存在偏差。
具体的,在一种应用场景中,可以通过目标检测模型(DETR,DetectionTransformer)或提高降噪锚框的目标检测模型(DINO,DETR with Improved DeNoisingAnchor Boxes for End-to-End Object Detection)进行目标检测,但DETR和DINO并不适用于分割任务。
在另一种应用场景中,可以通过Mask2Former分割模型进行图像分割,但Mask2Former分割模型并不适用于检测任务。具体的,在Mask2Former分割模型中,查询向量(queries)难以使用更好的位置先验信息,Mask2Former的内容查询向量与来自Transformer编码器的特征在语义上是一致的,而位置查询向量与vanilla DETR中的可学习向量一样,而不是与单一模式相关联的位置;Mask2Former中的注意力掩码在每一层是非常的密集和硬约束的,这使得训练检测框在训练中学习不灵活,且计算量较大也不够有效;Mask2Former不能明确地逐层进行检测框的细化处理,它在解码器中逐层细化未能使用到编码器的多尺度特征图。
为了解决上述多个问题中的至少一个问题,本发明方案中,获取待处理图像对应的特征图,并根据上述特征图获取上述待处理图像的内容嵌入向量和位置嵌入向量;将上述内容嵌入向量和上述位置嵌入向量输入预先训练的目标检测分割模型中的编码器,根据上述编码器的输出数据获取待解码内容查询向量和待解码检测框查询向量;将上述待解码内容查询向量和上述待解码检测框查询向量输入上述预先训练的目标检测分割模型中的解码器,根据上述解码器的输出数据获取上述待处理图像中各个目标对象对应的目标类别和目标框;将上述特征图、上述编码器的输出数据和上述解码器的输出数据输入上述预先训练的目标检测分割模型中的分割器,通过上述分割器输出上述待处理图像对应的分割掩码;将上述目标类别、上述目标框和上述分割掩码进行匹配,获得上述待处理图像对应的检测分割结果。
与现有技术中只能通过两个模型分别进行目标检测和图像分割的方案相比,本发明中使用一个统一的目标检测分割模型来执行目标检测和图像分割的任务,通过目标检测分割模型中的编码器和解码器可以进行目标检测并获得图像中各个物体(即目标对象)的目标类别和目标框,而目标检测分割模型中的分割器可以结合编码器的输出数据、解码器的输出数据以及待处理图像对应的特征图进行图像分割并获得对应的分割掩码。如此,可以通过一个统一的目标检测分割模型将目标检测和图像分割结合起来,有利于提高目标检测分割的效率和获得的结果的关联性。
在一种应用场景中,可以基于DINO模型获得本发明中的目标检测分割模型,在DINO模型中引入分割器(即分割分支),通过分割器实现特征图和目标内容查询向量在像素层面的对齐,提高图像分割的准确性。
进一步的,本实施例中,在上述目标检测分割模型的训练过程中,还引入了噪声,即添加了噪声检测框和噪声检测框类别,并进行降噪训练,有利于提高目标检测分割模型训练时的收敛速度,从而提高训练效率。
示例性方法
如图1所示,本发明实施例提供一种目标检测分割方法,具体的,上述方法包括如下步骤:
步骤S100,获取待处理图像对应的特征图,并根据上述特征图获取上述待处理图像的内容嵌入向量和位置嵌入向量。
其中,上述待处理图像是需要进行目标检测和图像分割的图像,特征图可以通过对待处理图像进行特征提取获得,上述内容嵌入向量和位置嵌入向量可以通过对特征图进行扁平化(Flatten)处理获得。上述内容嵌入向量用于体现上述待处理图像中对应的内容特征,内容嵌入向量和位置嵌入向量一一对应,位置嵌入向量用于指示各上述内容嵌入向量在待处理图像(或特征图)中的位置。
具体的,本实施例中,如图2所示,上述步骤S100包括如下具体步骤:
步骤S101,通过预设的骨干网络对上述待处理图像进行特征提取,获得上述待处理图像对应的特征图。
步骤S102,根据上述特征图获取上述待处理图像的内容嵌入向量和位置嵌入向量。
其中,上述预设的骨干网络是预先设置的骨干网络模型,例如ResNet50或ResNet100。在一种应用场景中,上述骨干网络也可以是目标检测分割模型的一个组成部分,例如,目标检测分割模型中设置有特征提取模块,该特征提取模块由预设的骨干网络构成,用于进行特征图的提取。
具体的,通过上述骨干网络提取出单层或多层(例如4层)特征图,然后将特征图对应的多维特征向量作为内容嵌入向量,与位置嵌入向量一起作为编码器的输入。
图3是本发明实施例提供的一种通过目标检测分割模型进行目标检测和图像分割的具体流程示意图,如图3所示,本实施例中,通过骨干网络提取出多层特征图,包括分辨率为1/4、1/8、1/16和1/32的多张特征图,图3中仅标出了这四种分辨率的特征图,还可以有其它分辨率,在此不作具体限定。然后根据这多张特征图中除分辨率最大(即1/4)的特征图以外的其它特征图获得内容嵌入向量和位置嵌入向量。
需要说明的是,本实施例中,上述内容嵌入向量和位置嵌入向量的维度相同,将内容嵌入向量和位置嵌入向量逐点相加后作为上述目标检测分割模型中的编码器的输入数据,以更好地通过编码器中的注意力机制对上述两者进行融合。
步骤S200,将上述内容嵌入向量和上述位置嵌入向量输入预先训练的目标检测分割模型中的编码器,根据上述编码器的输出数据获取待解码内容查询向量和待解码检测框查询向量。
本实施例中,上述编码器的输出数据包括预测内容查询向量和预测检测框查询向量。上述目标检测分割模型是基于Transformer的模型,因此目标检测分割模型中的编码器是Transformer编码器。在Transformer编码器中通过注意力机制对上述内容嵌入向量和上述位置嵌入向量进行融合,输出预测的预测内容查询向量和预测检测框查询向量。其中,上述预测内容查询向量用于指示待处理图像中各个像素点对应的内容特征,可以根据上述预测内容查询向量确定待处理图像中可能存在的预测类别以及各个预测类别对应的概率,上述预测检测框查询向量用于指示各个预测内容查询向量对应的特征的位置信息,具体的,上述位置信息包括检测框的中心点坐标、检测框的高度和宽度。
本实施例中,如图4所示,上述步骤S200包括如下具体步骤:
步骤S201,将上述内容嵌入向量和上述位置嵌入向量相加后输入预先训练的目标检测分割模型中的编码器,通过上述编码器输出上述待处理图像对应的预测内容查询向量和预测检测框查询向量,其中,上述预测内容查询向量和上述预测检测框查询向量一一对应。
步骤S202,根据预设的查询向量选择条件从上述预测内容查询向量中选择获取待解码内容查询向量并获取上述待解码内容查询向量对应的待解码检测框查询向量。
其中,上述内容嵌入向量和上述位置嵌入向量相加后输入预先训练的目标检测分割模型中的编码器,上述编码器对输入的数据进行融合和预测,输出对应的预测内容查询向量和预测检测框查询向量。
需要说明的是,本实施例中,上述目标检测分割模型中包括依次连接的多层编码器(例如N层,N为预设的正整数),将上述内容嵌入向量和上述位置嵌入向量相加后输入第1层编码器,然后根据第1层编码器的输出数据获取第2层编码器的输入数据(即将第1层编码器输出的第1层预测内容查询向量和第1层预测检测框查询向量相加并作为第2层编码器的输入数据),以此类推,直到获得最后一层(第N层)编码器的输出数据(即第N层预测内容查询向量和第N层预测检测框查询向量),作为编码器最终输出的预测内容查询向量和预测检测框查询向量。
本实施例中,通过查询向量选择条件进行统一向量选择,其中,图3中统一向量选择是指目标检测和图像分割两种任务都依赖于同一个查询向量选择的结果。上述查询向量选择条件是预先设置的从所有上述预测内容查询向量中选出部分预测内容查询向量作为待解码内容查询向量的条件,而选出的该部分预测内容查询向量所对应的预测检测框查询向量则作为对应的待解码检测框查询向量。
需要说明的是,在一种应用场景中,上述查询向量选择条件可以是选择所有的预测内容查询向量。在另一种应用场景中,上述查询向量选择条件可以是从所有上述预测内容查询向量中随机选出部分预测内容查询向量作为待解码内容查询向量,具体选择的预测内容查询向量的数目可以根据实际需求设置。
本实施例中,上述查询向量选择条件为根据各预测内容查询向量对应的类别概率进行选择。具体的,上述步骤S202包括如下步骤:获取各上述预测内容查询向量对应的预测类别和类别概率;从上述预测内容查询向量中选出类别概率最大的i个待解码内容查询向量,其中,i是预设的向量选择数目;将各上述待解码内容查询向量对应的预测内容查询向量分别作为与各待解码内容查询向量对应的待解码检测框查询向量。
在一种应用场景中,每一个上述预测内容查询向量代表特征图中一个像素点的特征内容信息,通过查询向量选择条件从像素级的预测内容查询向量中选择出有意义的待解码内容查询向量。具体的,对各上述预测内容查询向量进行类别预测,然后选择类别概率最高的i个预测内容查询向量作为待解码内容查询向量。因为类别概率较高代表该预测内容查询向量包含有更多的信息,有利于提高目标检测和图像分割的效率,且可以降低计算量。本实施例中,i预先设置为300,但不作为具体限定。
步骤S300,将上述待解码内容查询向量和上述待解码检测框查询向量输入上述预先训练的目标检测分割模型中的解码器,根据上述解码器的输出数据获取上述待处理图像中各个目标对象对应的目标类别和目标框。
本实施例中,在选择出300个待解码内容查询向量并获得对应的300个待解码检测框查询向量之后,作为预先训练的目标检测分割模型中解码器的输入数据,通过解码器进行预测回归,并获得对应的目标类别和目标框。
具体的,上述解码器的输出数据包括目标内容查询向量和目标检测框查询向量,上述将上述待解码内容查询向量和上述待解码检测框查询向量输入上述预先训练的目标检测分割模型中的解码器,根据上述解码器的输出数据获取上述待处理图像中各个目标对象对应的目标类别和目标框,包括:将上述待解码内容查询向量和上述待解码检测框查询向量输入上述预先训练的目标检测分割模型中的解码器,通过上述解码器输出上述待处理图像对应的目标内容查询向量和目标检测框查询向量,其中,上述解码器中注意力机制的Key向量和Value向量都为目标向量和,上述目标向量和是上述预测内容查询向量和上述预测检测框查询向量之和;根据上述目标内容查询向量和上述目标检测框查询向量获得上述待处理图像中各个目标对象对应的目标类别和目标框。
具体的,在上述解码器中,通过注意力机制进行内容查询向量和特征的匹配,解码器通过待解码内容查询向量、Key向量和Value向量进行特征查询或特征提取,提取出待处理图像中的特征,然后预测出对应的检测框。需要说明的是,在一种应用场景中,解码器的输入数据中待解码检测框查询向量会添加到待解码内容查询向量,即解码器中对应的检测框查询向量会加到对应的内容查询向量上,因此此时的内容查询向量包含检测框查询向量的信息。解码器的具体特征提取和匹配过程可以参照DETR或DINO模型,在此不作具体限定。
需要说明的是,本实施例中,通过解码器构建检测分支,检测分支用于预测目标框及其对应的物体类别。如图3所示,上述目标检测分割模型中可以预先设置有多层依次连接的解码器(例如M层,M为预设的正整数),将上述待解码内容查询向量和上述待解码检测框查询向量输入第1层解码器,然后将第1层解码器的输出数据(即第1层目标内容查询向量和第1层目标检测框查询向量)作为第2层解码器的输入数据,以此类推,直到获得最后一层(第M层)解码器的输出数据(即第M层目标内容查询向量和第M层目标检测框查询向量),作为解码器最终输出的目标内容查询向量和目标检测框查询向量。
具体的,每一层解码器的注意力机制的Key向量(即关键词向量)和Value向量(即值向量)都被设置为目标向量和,上述目标向量和是上述预测内容查询向量和上述预测检测框查询向量之和。
在一种应用场景中,根据第M层目标内容查询向量和第M层目标检测框查询向量确定对应的目标类别和目标框。根据解码器输出的目标内容查询向量和目标检测查询向量从解码器中查询得到目标物体的内容和位置。本实施例中,上述解码器最终输出300组目标查询向量,包括300个目标内容查询向量和300个目标检测框查询向量。但对应的待处理图像中有且仅有6个物体,则需要从300组目标查询向量中匹配出6个真实物体的检测框及类别。
在另一种应用场景中,物体的类别(目标类别)由上述第M层目标内容查询向量直接预测得出,而物体的目标框对应的预测结果由两部分组成,即第M层目标检测框查询向量,以及根据第M层目标内容查询向量回归出的目标框偏移结果,将两者相加可以获得第M层解码器预测出的目标框。
步骤S400,将上述特征图、上述编码器的输出数据和上述解码器的输出数据输入上述预先训练的目标检测分割模型中的分割器,通过上述分割器输出上述待处理图像对应的分割掩码。
本实施例中,上述步骤S400具体包括:将上述特征图、上述预测内容查询向量、上述预测检测框查询向量和上述目标内容查询向量输入上述预先训练的目标检测分割模型中的分割器;在上述分割器中根据上述预测内容查询向量和上述预测检测框查询向量获取特征还原图,将上述特征图与上述特征还原图相加以获得像素嵌入图,将上述像素嵌入图与上述目标内容查询向量相乘以获得上述待处理图像对应的分割掩码。
具体的,本实施例中,由上述分割器构成上述目标检测分割模型中的分割分支,用于在像素层面对齐内容查询向量和像素嵌入图,执行图像分割的任务。本实施例中,上述分割器包括加法器、乘法器、升维器和图像还原单元。具体的,如图3所示,本实施例中通过骨干网络提取获得了多张特征图,选择其中的一张特征图输入到分割器中,本实施例中选择的是1/4分辨率大小的特征图Cb,以保留更多的特征细节。同时,通过图像还原单元(图3中未示出)根据上述预测内容查询向量和上述预测检测框查询向量进行图像还原(即Unflatten,去扁平化处理),可以获得多个特征还原图,特征还原图的分辨率与内容嵌入向量和位置嵌入向量对应的特征图的分辨率是对应的,例如,图3中获得的特征还原图可以包括分辨率为1/8、1/16和1/32的多张特征还原图。本实施例中,设置的升维器是2倍升维器,因此选择分辨率为1/8的特征还原图Ce通过升维器进行升维获得特征升维图,将特征图Cb与特征升维图相加得到像素嵌入图。然后使用解码器输出的每一个目标内容查询向量qc与上述像素嵌入图进行点乘,获得分割掩码矩阵m。具体的,分割掩码矩阵的计算公式可以参照如下公式(1):
Figure BDA0003677177210000151
其中,m代表分割器输出的一个分割掩码矩阵,qc代表解码器输出的一个目标内容查询向量qc。M为分割头,由3层神经网络线性层组成,T为预设的转换矩阵,用于进行特征转换,F为预设的上采样函数,用于将1/8分辨率大小的特征图上采样到1/4。
在一种应用场景中,预设的向量选择数目i为300,则解码器对应有300组输入数据,对应的,解码器输出300个预测内容查询向量和300个预测检测框查询向量,而分割器输出分割掩码的集合,由300个分割掩码(mask)构成,每一个分割掩码是一个由0和1组成的二元图像(或矩阵),每一个分割掩码与一个类别对应,在分割掩码中,属于该类别的像素点对应的值为1,不属于该来别的像素点对应的值为0。需要说明的是,图3中混合匹配之后的分割掩码示意图是将所有的分割掩码叠加后的效果示意图,实际使用过程中,若一个分割掩码与类别“狗”对应,则该分割掩码中只有识别为“狗”的区域对应的像素点的值为1,其它区域为0。
步骤S500,将上述目标类别、上述目标框和上述分割掩码进行匹配,获得上述待处理图像对应的检测分割结果。
本实施例中,通过上述目标检测分割模型会对一个目标对象(即一个物体)预测出3种目标,即目标类别、目标框和分割掩码,同时三者的预测上是平行的关系,因此需要将三者进行匹配,确定其关联对应关系,组成“目标类别-目标框-分割掩码”等具有关联的检测分割结果。
现有的二分匹配过程只考虑目标类别和目标框,本实施例中,加入分割掩码进行匹配,采用混合二分匹配的方式,使用目标类别、目标框和分割掩码一起匹配并获得最终的检测分割结果,使得目标和分割掩码的匹配更准确和快速。
具体的,本实施例中,上述目标检测分割模型预先根据如下步骤进行训练:将训练数据中的特征训练图、内容嵌入训练向量和位置嵌入训练向量输入上述目标检测分割模型,通过上述目标检测分割模型获取上述特征训练图对应的训练分割掩码、训练目标框和训练目标类别,其中,上述训练数据包括多组训练信息,每一组训练信息包括特征训练图、内容嵌入训练向量、位置嵌入训练向量、真实分割掩码、真实目标框和真实目标类别;根据上述训练分割掩码、上述训练目标框、上述训练目标类别、上述真实分割掩码、上述真实目标框以及上述真实目标类别,对上述目标检测分割模型的模型参数进行调整,并继续执行上述将训练数据中的特征训练图、内容嵌入训练向量和位置嵌入训练向量输入上述目标检测分割模型的步骤,直至满足预设训练条件,得到已训练的目标检测分割模型。
在一种应用场景中,上述训练数据可以根据实际需求进行采集整理获得,也可以是对现有的数据集(例如MS COCO 2017目标检测数据)进行数据增广后获得。需要说明的是,目标检测分割模型的训练过程中的数据处理流程与通过目标检测分割模型进行目标检测和图像分割的过程中的数据处理流程相似,因此未详细描述之处可以参照上述具体描述。
具体的,训练时根据目标检测分割模型预测获得的训练分割掩码、训练目标框、训练目标类别与对应标注的真实分割掩码、真实目标框以及真实目标类别之间的损失对模型参数进行调整,反复迭代,直到满足预设训练条件,上述预设训练条件为迭代次数大于预设的迭代阈值,或者根据预设的损失函数计算出的损失阈值小于预设的损失阈值,还可以有其它预设训练条件,在此不作具体限定。需要说明的是,上述真实分割掩码、真实目标框以及真实目标类别是预先标注好且一一对应的,即一个真实分割掩码、一个真实目标框以及一个真实目标类别是对应的。
图5是本发明实施例提供的一种对目标检测分割模型训练过程中的数据处理具体流程示意图,根据图3和图5可知,目标检测分割模型的训练过程中的数据处理流程与通过目标检测分割模型进行目标检测和图像分割的过程中的数据处理流程基本相同。需要说明的是,本实施例中,在模型训练过程中还引入了噪声以加快模型的收敛速度。
具体的,本实施例中,上述训练信息还包括噪声检测框和噪声检测框类别;上述噪声检测框是对上述真实目标框添加噪声后获得的检测框,上述噪声检测框类别与该噪声检测框对应的真实检测框的真实目标类别相同;上述噪声检测框和上述噪声检测框类别用于输入上述目标检测分割模型的解码器以加速上述目标检测分割模型训练时的收敛速度。
本实施例中,还构造统一去噪部分以提高模型的收敛速度。具体的,如图5所示,通过额外对解码器输入加入噪声的噪声检测框和噪声检测类别,并训练模型重现对应的真实目标框和真实目标类别来加速收敛。其中,解码器的输入由两部分组成,目标框和内容表示。目标框部分包括根据编码器的输出选择的出的待解码检测框查询向量,以及对应的噪声检测框向量。具体的,对于一组训练信息中的每一个真实目标框添加随机噪声,以获得对应的噪声检测框(向量)。需要说明的是,本实施例中添加两种随机噪声,中心点偏移噪声和目标框缩放噪声,具体的,对于一个真实目标框(x,y,w,h),对应的噪声为(Δx,Δy,Δw,Δh),其中,x、y为中心点坐标,w、h为框的宽和高,Δx和Δy控制中心点偏移,Δw和Δh控制目标框缩放,Δx、Δy、Δw、Δh在预设的范围内随机生成。
进一步的,对于一组训练信息中的每一个真实目标框重复添加多次噪声,获得一个真实目标框对应的多组噪声检测框(向量),例如本实施例中每一个真实目标框采用5组对应的噪声检测框(向量),对应的真实目标框(即不添加噪声的目标框)在每组中出现且仅出现一次。如此,获得更多的训练数据,且调整使得模型更快和更准确地进行去噪获得真实目标框,有利于提高模型训练速度。在统一去噪部分,对于噪声检测框对应的输出数据,根据噪声检测框所对应的真实分割掩码、真实目标框以及真实目标类别计算对应的损失值,并对目标检测封模型的模型参数进行调整,使模型能更好的重现对应的真实分割掩码、真实目标框以及真实目标类别。即本实施例中,不仅要训练模型预测获得原始的真实目标框和真实目标类别,还会训练模型预测获得原始的真实分割掩码,实现统一去噪,也可以加速分割分支的训练速度。
在一种全景分割的应用场景中,对于全景分割任务,背景类别的检测框预测是不必要且低效的,许多背景类别是像“天空”这样的背景,其真实分割掩码对应的检测框是非常不规则的,往往覆盖整个图像,因此,这些类别的检测框预测会误导实例级的检测和分割。为了解决这个问题,本实施例中删除背景类别的检测框损失计算和检测框,具体的,对于背景类别,检测框预测方式保持不变,仅定位有意义的区域并提取其特征。然而在训练过程中,背景类别的损失只算训练分割掩码、训练目标类别、真实分割掩码以及真实目标类别计算对应的损失值,获得背景类别对应的训练目标框,但不计算对应的损失,进而也不会将训练目标框、真实目标框对应的损失用于调整模型参数。而本实施例模型训练的迭代过程中,对于除去背景类别以外的其它所有类别,则根据所有训练分割掩码、训练目标框、训练目标类别、真实分割掩码、真实目标框以及真实目标类别计算对应的损失值,根据损失值对上述目标检测分割模型的模型参数进行调整。如此,实现解耦的检测框预测,可以加速训练,并为全景分割产生额外的收益。
具体的,本实施例中,训练获得的目标检测分割模型可以包括用于抽取特征的骨干网络,用于进行特征融合的Transformer编码器,用于查找目标框的Transformer解码器和用于获取分割掩码的分割器,且可以针对分割掩码进行统一查询选择、统一去噪训练,通过混合匹配进行结果的匹配,还可以设置针对背景类别进行解耦的检测框预测训练。本实施例中的目标检测分割模型有利于提高分割任务的执行效率和结果的准确性,在使用ResNet50做主干网络,抽取多级特征图的设定下,实例分割任务在COCO上获得了54.5AP的效果,全景分割任务在COCO上获得了59.4PQ的效果,语义分割在ADE20k上获得了60.8mIoU。根据上述目标检测分割模型的框架,也有利于提高目标检测的效率。同时,由于检测的数据量较大而分割的数据量较小,这个统一的框架可以在检测和分割的数据上同时训练,从而利用更多的数据量来提升检测和分割的效果。
由上可见,本发明实施例提供的目标检测分割方法中,使用一个统一的目标检测分割模型来执行目标检测和图像分割的任务,通过目标检测分割模型中的编码器和解码器可以进行目标检测并获得图像中各个物体(即目标对象)的目标类别和目标框,而目标检测分割模型中的分割器可以结合编码器的输出数据、解码器的输出数据以及待处理图像对应的特征图进行图像分割并获得对应的分割掩码。如此,可以通过一个统一的目标检测分割模型将目标检测和图像分割结合起来,有利于提高目标检测分割的效率和获得的结果的关联性。
示例性设备
如图6中所示,对应于上述目标检测分割方法,本发明实施例还提供一种目标检测分割装置,上述目标检测分割装置包括:
图像处理模块610,用于获取待处理图像对应的特征图,并根据上述特征图获取上述待处理图像的内容嵌入向量和位置嵌入向量。
向量处理模块620,用于将上述内容嵌入向量和上述位置嵌入向量输入预先训练的目标检测分割模型中的编码器,根据上述编码器的输出数据获取待解码内容查询向量和待解码检测框查询向量。
目标检测模块630,用于将上述待解码内容查询向量和上述待解码检测框查询向量输入上述预先训练的目标检测分割模型中的解码器,根据上述解码器的输出数据获取上述待处理图像中各个目标对象对应的目标类别和目标框。
目标分割模块640,用于将上述特征图、上述编码器的输出数据和上述解码器的输出数据输入上述预先训练的目标检测分割模型中的分割器,通过上述分割器输出上述待处理图像对应的分割掩码。
匹配模块650,用于将上述目标类别、上述目标框和上述分割掩码进行匹配,获得上述待处理图像对应的检测分割结果。
具体的,本实施例中,上述目标检测分割装置及其各模块的具体功能可以参照上述目标检测分割方法中的对应描述,在此不再赘述。
需要说明的是,上述目标检测分割装置的各个模块的划分方式并不唯一,在此也不作为具体限定。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图7所示。上述智能终端包括通过系统总线连接的处理器、存储器、网络接口以及显示屏。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和目标检测分割程序。该内存储器为非易失性存储介质中的操作系统和目标检测分割程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该目标检测分割程序被处理器执行时实现上述任意一种目标检测分割方法的步骤。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。
本领域技术人员可以理解,图7中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的目标检测分割程序,上述目标检测分割程序被上述处理器执行时进行以下操作指令:
获取待处理图像对应的特征图,并根据上述特征图获取上述待处理图像的内容嵌入向量和位置嵌入向量;
将上述内容嵌入向量和上述位置嵌入向量输入预先训练的目标检测分割模型中的编码器,根据上述编码器的输出数据获取待解码内容查询向量和待解码检测框查询向量;
将上述待解码内容查询向量和上述待解码检测框查询向量输入上述预先训练的目标检测分割模型中的解码器,根据上述解码器的输出数据获取上述待处理图像中各个目标对象对应的目标类别和目标框;
将上述特征图、上述编码器的输出数据和上述解码器的输出数据输入上述预先训练的目标检测分割模型中的分割器,通过上述分割器输出上述待处理图像对应的分割掩码;
将上述目标类别、上述目标框和上述分割掩码进行匹配,获得上述待处理图像对应的检测分割结果。
本发明实施例还提供一种计算机可读存储介质,上述计算机可读存储介质上存储有目标检测分割程序,上述目标检测分割程序被处理器执行时实现本发明实施例提供的任意一种目标检测分割方法的步骤。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的系统/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的系统/终端设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种目标检测分割方法,其特征在于,所述目标检测分割方法包括:
获取待处理图像对应的特征图,并根据所述特征图获取所述待处理图像的内容嵌入向量和位置嵌入向量;
将所述内容嵌入向量和所述位置嵌入向量输入预先训练的目标检测分割模型中的编码器,根据所述编码器的输出数据获取待解码内容查询向量和待解码检测框查询向量;
将所述待解码内容查询向量和所述待解码检测框查询向量输入所述预先训练的目标检测分割模型中的解码器,根据所述解码器的输出数据获取所述待处理图像中各个目标对象对应的目标类别和目标框;
将所述特征图、所述编码器的输出数据和所述解码器的输出数据输入所述预先训练的目标检测分割模型中的分割器,通过所述分割器输出所述待处理图像对应的分割掩码;
将所述目标类别、所述目标框和所述分割掩码进行匹配,获得所述待处理图像对应的检测分割结果;
所述将所述特征图、所述编码器的输出数据和所述解码器的输出数据输入所述预先训练的目标检测分割模型中的分割器,通过所述分割器输出所述待处理图像对应的分割掩码,包括:
将特征图、预测内容查询向量、预测检测框查询向量和目标内容查询向量输入预先训练的目标检测分割模型中的分割器;
在分割器中根据预测内容查询向量和预测检测框查询向量获取特征还原图,将特征图与特征还原图相加以获得像素嵌入图,将像素嵌入图与目标内容查询向量相乘以获得所述待处理图像对应的分割掩码。
2.根据权利要求1所述的目标检测分割方法,其特征在于,所述获取待处理图像对应的特征图,并根据所述特征图获取所述待处理图像的内容嵌入向量和位置嵌入向量,包括:
通过预设的骨干网络对所述待处理图像进行特征提取,获得所述待处理图像对应的特征图;
根据所述特征图获取所述待处理图像的内容嵌入向量和位置嵌入向量。
3.根据权利要求1所述的目标检测分割方法,其特征在于,所述编码器的输出数据包括预测内容查询向量和预测检测框查询向量,所述将所述内容嵌入向量和所述位置嵌入向量输入预先训练的目标检测分割模型中的编码器,根据所述编码器的输出数据获取待解码内容查询向量和待解码检测框查询向量,包括:
将所述内容嵌入向量和所述位置嵌入向量相加后输入预先训练的目标检测分割模型中的编码器,通过所述编码器输出所述待处理图像对应的预测内容查询向量和预测检测框查询向量,其中,所述预测内容查询向量和所述预测检测框查询向量一一对应;
根据预设的查询向量选择条件从所述预测内容查询向量中选择获取待解码内容查询向量并获取所述待解码内容查询向量对应的待解码检测框查询向量。
4.根据权利要求3所述的目标检测分割方法,其特征在于,所述根据预设的查询向量选择条件从所述预测内容查询向量中选择获取待解码内容查询向量并获取所述待解码内容查询向量对应的待解码检测框查询向量,包括:
获取各所述预测内容查询向量对应的预测类别和类别概率;
从所述预测内容查询向量中选出类别概率最大的i个待解码内容查询向量,其中,i是预设的向量选择数目;
将各所述待解码内容查询向量对应的预测内容查询向量分别作为与各待解码内容查询向量对应的待解码检测框查询向量。
5.根据权利要求3所述的目标检测分割方法,其特征在于,所述解码器的输出数据包括目标内容查询向量和目标检测框查询向量,所述将所述待解码内容查询向量和所述待解码检测框查询向量输入所述预先训练的目标检测分割模型中的解码器,根据所述解码器的输出数据获取所述待处理图像中各个目标对象对应的目标类别和目标框,包括:
将所述待解码内容查询向量和所述待解码检测框查询向量输入所述预先训练的目标检测分割模型中的解码器,通过所述解码器输出所述待处理图像对应的目标内容查询向量和目标检测框查询向量,其中,所述解码器中注意力机制的Key向量和Value向量都为目标向量和,所述目标向量和是所述预测内容查询向量和所述预测检测框查询向量之和;
根据所述目标内容查询向量和所述目标检测框查询向量获得所述待处理图像中各个目标对象对应的目标类别和目标框。
6.根据权利要求5所述的目标检测分割方法,其特征在于,所述目标检测分割模型预先根据如下步骤进行训练:
将训练数据中的特征训练图、内容嵌入训练向量和位置嵌入训练向量输入所述目标检测分割模型,通过所述目标检测分割模型获取所述特征训练图对应的训练分割掩码、训练目标框和训练目标类别,其中,所述训练数据包括多组训练信息,每一组训练信息包括特征训练图、内容嵌入训练向量、位置嵌入训练向量、真实分割掩码、真实目标框和真实目标类别;
根据所述训练分割掩码、所述训练目标框、所述训练目标类别、所述真实分割掩码、所述真实目标框以及所述真实目标类别,对所述目标检测分割模型的模型参数进行调整,并继续执行所述将训练数据中的特征训练图、内容嵌入训练向量和位置嵌入训练向量输入所述目标检测分割模型的步骤,直至满足预设训练条件,得到已训练的目标检测分割模型。
7.根据权利要求6所述的目标检测分割方法,其特征在于,所述训练信息还包括噪声检测框和噪声检测框类别;
所述噪声检测框是对所述真实目标框添加噪声后获得的检测框,所述噪声检测框类别与该噪声检测框对应的真实检测框的真实目标类别相同;
所述噪声检测框和所述噪声检测框类别用于输入所述目标检测分割模型的解码器以加速所述目标检测分割模型训练时的收敛速度。
8.一种目标检测分割装置,其特征在于,所述目标检测分割装置包括:
图像处理模块,用于获取待处理图像对应的特征图,并根据所述特征图获取所述待处理图像的内容嵌入向量和位置嵌入向量;
向量处理模块,用于将所述内容嵌入向量和所述位置嵌入向量输入预先训练的目标检测分割模型中的编码器,根据所述编码器的输出数据获取待解码内容查询向量和待解码检测框查询向量;
目标检测模块,用于将所述待解码内容查询向量和所述待解码检测框查询向量输入所述预先训练的目标检测分割模型中的解码器,根据所述解码器的输出数据获取所述待处理图像中各个目标对象对应的目标类别和目标框;
目标分割模块,用于将所述特征图、所述编码器的输出数据和所述解码器的输出数据输入所述预先训练的目标检测分割模型中的分割器,通过所述分割器输出所述待处理图像对应的分割掩码;
匹配模块,用于将所述目标类别、所述目标框和所述分割掩码进行匹配,获得所述待处理图像对应的检测分割结果;
所述将所述特征图、所述编码器的输出数据和所述解码器的输出数据输入所述预先训练的目标检测分割模型中的分割器,通过所述分割器输出所述待处理图像对应的分割掩码,包括:
将特征图、预测内容查询向量、预测检测框查询向量和目标内容查询向量输入预先训练的目标检测分割模型中的分割器;
在分割器中根据预测内容查询向量和预测检测框查询向量获取特征还原图,将特征图与特征还原图相加以获得像素嵌入图,将像素嵌入图与目标内容查询向量相乘以获得所述待处理图像对应的分割掩码。
9.一种智能终端,其特征在于,所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的目标检测分割程序,所述目标检测分割程序被所述处理器执行时实现如权利要求1-7任意一项所述目标检测分割方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有目标检测分割程序,所述目标检测分割程序被处理器执行时实现如权利要求1-7任意一项所述目标检测分割方法的步骤。
CN202210622029.8A 2022-06-02 2022-06-02 目标检测分割方法、装置、智能终端及存储介质 Active CN115147598B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210622029.8A CN115147598B (zh) 2022-06-02 2022-06-02 目标检测分割方法、装置、智能终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210622029.8A CN115147598B (zh) 2022-06-02 2022-06-02 目标检测分割方法、装置、智能终端及存储介质

Publications (2)

Publication Number Publication Date
CN115147598A CN115147598A (zh) 2022-10-04
CN115147598B true CN115147598B (zh) 2023-07-14

Family

ID=83406256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210622029.8A Active CN115147598B (zh) 2022-06-02 2022-06-02 目标检测分割方法、装置、智能终端及存储介质

Country Status (1)

Country Link
CN (1) CN115147598B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115393854B (zh) * 2022-10-27 2023-02-21 粤港澳大湾区数字经济研究院(福田) 一种视觉对齐处理方法、终端及存储介质
CN115631205B (zh) * 2022-12-01 2023-03-21 阿里巴巴(中国)有限公司 图像分割及模型训练的方法、装置及设备
CN116563604A (zh) * 2023-04-04 2023-08-08 粤港澳大湾区数字经济研究院(福田) 端到端目标检测模型训练、图像目标检测方法及相关设备
CN116758093B (zh) * 2023-05-30 2024-05-07 首都医科大学宣武医院 一种图像分割方法、模型训练方法、装置、设备及介质
CN116778170B (zh) * 2023-08-25 2023-11-07 安徽蔚来智驾科技有限公司 点云全景分割方法、控制装置、可读存储介质及车辆
CN117853428B (zh) * 2023-12-22 2024-07-30 北京市农林科学院信息技术研究中心 养殖种群数量标注方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494297A (zh) * 2022-01-28 2022-05-13 杭州电子科技大学 处理多种先验知识的自适应视频目标分割方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670429B (zh) * 2018-12-10 2021-03-19 广东技术师范大学 一种基于实例分割的监控视频多目标人脸检测方法及系统
US20210027098A1 (en) * 2019-07-22 2021-01-28 Shenzhen Malong Technologies Co., Ltd. Weakly Supervised Image Segmentation Via Curriculum Learning
CN112304512A (zh) * 2020-11-26 2021-02-02 河南耀蓝智能科技有限公司 一种基于人工智能的多工件场景气密性检测方法及系统
CN114283347B (zh) * 2022-03-03 2022-07-15 粤港澳大湾区数字经济研究院(福田) 目标检测方法、系统、智能终端及计算机可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494297A (zh) * 2022-01-28 2022-05-13 杭州电子科技大学 处理多种先验知识的自适应视频目标分割方法

Also Published As

Publication number Publication date
CN115147598A (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN115147598B (zh) 目标检测分割方法、装置、智能终端及存储介质
CN111126359B (zh) 基于自编码器与yolo算法的高清图像小目标检测方法
CN112634296A (zh) 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
CN114170516B (zh) 一种基于路侧感知的车辆重识别方法、装置及电子设备
CN113869138A (zh) 多尺度目标检测方法、装置及计算机可读存储介质
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN115631344B (zh) 一种基于特征自适应聚合的目标检测方法
CN112132834B (zh) 一种心室图像分割方法、系统、装置及存储介质
CN114863407B (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN115222998B (zh) 一种图像分类方法
CN116071300A (zh) 一种基于上下文特征融合的细胞核分割方法及相关设备
CN118097340B (zh) 一种车道图像分割模型的训练方法、系统、设备及介质
CN114494699B (zh) 基于语义传播与前背景感知的图像语义分割方法及系统
CN113256662B (zh) 病理切片图像分割方法、装置、计算机设备和存储介质
CN113807354B (zh) 图像语义分割方法、装置、设备和存储介质
CN117237623B (zh) 一种无人机遥感图像语义分割方法及系统
CN117809198A (zh) 基于多尺度特征聚合网络的遥感图像显著性检测方法
US11769278B2 (en) Polygonal building extraction from satellite images
CN110490235B (zh) 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置
CN113095328A (zh) 一种基尼指数引导的基于自训练的语义分割方法
CN112164078A (zh) 基于编码器-解码器的rgb-d多尺度语义分割方法
Zhou et al. FENet: Fast Real-time Semantic Edge Detection Network
Lim et al. Global and local multi-scale feature fusion for object detection and semantic segmentation
CN116091758B (zh) 基于细节提取的图像处理方法、装置、设备及存储介质
CN116821699B (zh) 一种感知模型训练方法、装置及电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant