CN114283347B - 目标检测方法、系统、智能终端及计算机可读存储介质 - Google Patents

目标检测方法、系统、智能终端及计算机可读存储介质 Download PDF

Info

Publication number
CN114283347B
CN114283347B CN202210200586.0A CN202210200586A CN114283347B CN 114283347 B CN114283347 B CN 114283347B CN 202210200586 A CN202210200586 A CN 202210200586A CN 114283347 B CN114283347 B CN 114283347B
Authority
CN
China
Prior art keywords
content
vector
query
anchor frame
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210200586.0A
Other languages
English (en)
Other versions
CN114283347A (zh
Inventor
刘世隆
李峰
张�浩
齐宪标
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Digital Economy Academy IDEA
Original Assignee
International Digital Economy Academy IDEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Digital Economy Academy IDEA filed Critical International Digital Economy Academy IDEA
Priority to CN202210200586.0A priority Critical patent/CN114283347B/zh
Publication of CN114283347A publication Critical patent/CN114283347A/zh
Application granted granted Critical
Publication of CN114283347B publication Critical patent/CN114283347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了目标检测方法、系统、智能终端及计算机可读存储介质,其中,所述目标检测方法包括:获取待检测图片,通过预先设置的特征提取模型获取待检测图片对应的内容特征图;获取与内容特征图对应的位置特征图,将位置特征图和内容特征图相加后输入至少一个Transformer编码器层获得内容特征增强图;将内容特征增强图和位置特征图输入M个Transformer解码器层,通过Transformer解码器层进行物体特征提取,并根据Transformer解码器层的输出获取目标检测结果,其中,目标检测结果包括待检测图片中各个物体对应的物体类别和物体位置,M大于或等于1。与现有技术相比,本发明方案有利于提高目标检测的效率。

Description

目标检测方法、系统、智能终端及计算机可读存储介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及的是一种目标检测方法、系统、智能终端及计算机可读存储介质。
背景技术
随着科学技术的发展,尤其是计算机视觉技术的发展,目标检测的应用越来越广泛。目标检测是计算机视觉中的基础任务,通过目标检测可以识别出图片中各个物体的类别和对应的位置。
现有技术中,通常基于卷积神经网络进行目标检测,具体的,将需要进行检测的图片输入训练好的卷积神经网络模型中进行检测。现有技术的问题在于,在进行目标检测时,仅使用了需要进行检测的图片的内容信息,需要根据内容信息进行类别检测和位置检测,不利于提高目标检测的效率。
因此,现有技术还有待改进和发展。
发明内容
本发明的主要目的在于提供一种目标检测方法、系统、智能终端及计算机可读存储介质,旨在解决现有技术中卷积神经网络模型仅根据需要进行检测的图片的内容信息进行目标检测,不利于提高目标检测的效率的问题。
为了实现上述目的,本发明第一方面提供一种目标检测方法,其中,上述目标检测方法包括:
获取待检测图片,通过预先设置的特征提取模型获取上述待检测图片对应的内容特征图;
获取与上述内容特征图对应的位置特征图,将上述位置特征图和上述内容特征图相加后输入至少一个Transformer编码器层获得内容特征增强图;
将上述内容特征增强图和上述位置特征图输入M个Transformer解码器层,通过上述Transformer解码器层进行物体特征提取,并根据上述Transformer解码器层的输出获取目标检测结果,其中,上述目标检测结果包括上述待检测图片中各个物体对应的物体类别和物体位置,M大于或等于1。
可选的,上述获取待检测图片,通过预先设置的特征提取模型获取上述待检测图片对应的内容特征图,包括:
获取待检测图片,将上述待检测图片输入上述特征提取模型,获取上述特征提取模型的输出特征图;
获取目标特征维度,根据上述目标特征维度,通过预设的投影层对上述输出特征图的特征维度进行调整,获得上述内容特征图,其中,上述内容特征图是包含上述待检测图片的内容信息的矩阵。
可选的,上述获取与上述内容特征图对应的位置特征图,包括:
获取上述内容特征图中各上述内容信息在上述待检测图片中的二维坐标,基于上述二维坐标生成位置信息图;
根据预设的编码方式对上述位置信息图中的每一个上述二维坐标分别进行编码并获得位置特征,根据所有上述位置特征生成上述位置特征图,其中,上述位置特征的维度与上述目标特征维度相同。
可选的,上述预设的编码方式为正余弦编码。
可选的,在上述将上述内容特征增强图和上述位置特征图输入M个Transformer解码器层,通过上述Transformer解码器层进行物体特征提取,并根据上述Transformer解码器层的输出获取目标检测结果之前,上述方法还包括:
获取预设的检测物体数量个初始化的锚框信息和上述检测物体数量个初始化的内容查询向量,将上述锚框信息和上述内容查询向量输入第1个上述Transformer解码器层,其中,一个上述锚框信息对应一条位置查询信息,上述位置查询信息包括锚框的中心点横坐标、中心点纵坐标、宽度和高度。
可选的,上述Transformer解码器层中包括一个自注意力子层、一个交叉注意力子层、一个前馈子层和一个位置信息调制子层,上述Transformer解码器层基于以下步骤进行物体特征提取:
获取上述Transformer解码器层的输入内容查询向量和输入锚框信息,其中,第1个上述Transformer解码器层的输入内容查询向量是上述初始化的内容查询向量,第1个上述Transformer解码器层的输入锚框信息是上述初始化的锚框信息,第i个上述Transformer解码器层的输入内容查询向量是第i-1个上述Transformer解码器层的输出内容查询向量,第i个上述Transformer解码器层的输入锚框信息是第i-1个上述Transformer解码器层的输出锚框信息,i大于1且i不大于M;
根据预设的编码方式对上述输入锚框信息进行位置编码获得位置查询向量;
在上述自注意力子层中根据上述输入内容查询向量和上述位置查询向量获得第一内容查询增强向量;
在上述位置信息调制子层中根据参考宽度、参考高度以及上述输入锚框信息中的宽度和高度调制上述位置查询向量,并获得位置查询增强向量,其中,上述参考宽度和上述参考高度由上述输入内容查询向量经过预先设置的向量投影层投影生成;
在上述交叉注意力子层中根据上述位置查询增强向量、上述第一内容查询增强向量、上述内容特征增强图和上述位置特征图获得第二内容查询增强向量;
在上述前馈子层中根据上述第二内容查询增强向量获得第三内容查询增强向量;
将上述第三内容查询增强向量作为上述Transformer解码器层的输出内容查询向量,并根据上述第三内容查询增强向量和上述输入锚框信息获取上述Transformer解码器层的输出锚框信息。
可选的,上述根据上述Transformer解码器层的输出获取目标检测结果,包括:
根据第M个上述Transformer解码器层的输出内容查询向量和输出锚框信息获取上述目标检测结果。
本发明第二方面提供一种目标检测系统,其中,上述目标检测系统包括:
待检测图片获取模块,用于获取待检测图片,通过预先设置的特征提取模型获取上述待检测图片对应的内容特征图;
内容特征增强图获取模块,用于获取与上述内容特征图对应的位置特征图,将上述位置特征图和上述内容特征图相加后输入至少一个Transformer编码器层并获得内容特征增强图;
目标检测模块,用于将上述内容特征增强图和上述位置特征图输入M个Transformer解码器层,在上述Transformer编码器层中通过上述Transformer解码器层进行物体特征提取,并根据上述Transformer解码器层的输出获取目标检测结果,其中,上述目标检测结果包括上述待检测图片中各个物体对应的物体类别和物体位置,M大于或等于1。
本发明第三方面提供一种智能终端,上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的目标检测程序,上述目标检测程序被上述处理器执行时实现任意一项上述目标检测方法的步骤。
本发明第四方面提供一种计算机可读存储介质,上述计算机可读存储介质上存储有目标检测程序,上述目标检测程序被处理器执行时实现任意一项上述目标检测方法的步骤。
由上可见,本发明方案中,获取待检测图片,通过预先设置的特征提取模型获取上述待检测图片对应的内容特征图;获取与上述内容特征图对应的位置特征图,将上述位置特征图和上述内容特征图相加后输入至少一个Transformer编码器层获得内容特征增强图;将上述内容特征增强图和上述位置特征图输入M个Transformer解码器层,通过上述Transformer解码器层进行物体特征提取,并根据上述Transformer解码器层的输出获取目标检测结果,其中,上述目标检测结果包括上述待检测图片中各个物体对应的物体类别和物体位置,M大于或等于1。与现有技术中通过卷积神经网络模型根据需要进行检测的图片的内容信息进行目标检测的方案相比,本发明中,获取与待检测图片的内容特征图对应的位置特征图,基于Transformer编码器层和Transformer解码器层,通过位置特征图对待检测图片的内容特征图进行增强,并结合增强后的内容特征增强图和对应的位置特征图进行目标检测,有利于更好地针对待检测图片中对应位置的内容特征进行物体特征提取,从而有利于提高目标检测的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种目标检测方法的流程示意图;
图2是本发明实施例图1中步骤S100的具体流程示意图;
图3是本发明实施例图1中步骤S200的具体流程示意图;
图4是本发明实施例提供的一种目标检测的具体流程示意图;
图5是本发明实施例提供的一种目标检测系统的结构示意图;
图6是本发明实施例提供的一种智能终端的内部结构原理框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于检测到”。类似的,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述的条件或事件]”或“响应于检测到[所描述条件或事件]”。
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
随着科学技术的发展,尤其是计算机视觉技术的发展,目标检测的应用越来越广泛。目标检测是计算机视觉中的基础任务,通过目标检测可以识别出图片中各个物体的类别和对应的位置。
现有技术中,通常基于卷积神经网络进行目标检测,具体的,将需要进行检测的图片输入训练好的卷积神经网络模型中进行检测。现有技术的问题在于,在进行目标检测时,仅使用了需要进行检测的图片的内容信息,需要根据内容信息进行类别检测和位置检测,不利于提高目标检测的效率。
在一种应用场景中,可以通过检测Transformer进行目标检测,检测Transformer是一个基于Transformer的端到端的检测器,可以摆脱对后处理(如非极大抑制)的需求。具体的,检测Transformer中可以使用多个(例如100个)查询向量(即query)作为输入,这100个query经过解码器之后预测出100个目标物体。在训练过程中则可以将预测出的100个预测结果与标准结果进行匹配来计算损失。但实际使用过程中,上述检测Transformer的query没有具体的含义,完全依靠数据学习获得,是高维学习到的向量,不利于理解和优化,也不利于提升检测Transformer的可解释性,同时也不利于基于query对检测Transformer进行优化。且不能结合待检测图片的位置信息对检测Transformer进行训练或者进行目标检测,因此不利于提高检测Transformer的训练速度(收敛速度)和进行目标检测的速度。
为了解决上述多个问题中的至少一个问题,本发明方案中,获取待检测图片,通过预先设置的特征提取模型获取上述待检测图片对应的内容特征图;获取与上述内容特征图对应的位置特征图,将上述位置特征图和上述内容特征图相加后输入至少一个Transformer编码器层获得内容特征增强图;将上述内容特征增强图和上述位置特征图输入M个Transformer解码器层,通过上述Transformer解码器层进行物体特征提取,并根据上述Transformer解码器层的输出获取目标检测结果,其中,上述目标检测结果包括上述待检测图片中各个物体对应的物体类别和物体位置,M大于或等于1。
与现有技术中通过卷积神经网络模型根据需要进行检测的图片的内容信息进行目标检测的方案相比,本发明中,获取与待检测图片的内容特征图对应的位置特征图,基于Transformer编码器层和Transformer解码器层,通过位置特征图对待检测图片的内容特征图进行增强,并结合增强后的内容特征增强图和对应的位置特征图进行目标检测,有利于更好地针对待检测图片中对应位置的内容特征进行物体特征提取,从而有利于提高目标检测的效率。
示例性方法
如图1所示,本发明实施例提供一种目标检测方法,具体的,上述方法包括如下步骤:
步骤S100,获取待检测图片,通过预先设置的特征提取模型获取上述待检测图片对应的内容特征图。
本实施例中,上述待检测图片是需要进行目标检测的图片,可以通过摄像装置拍摄获得。上述预先设置的特征提取模型是预先训练好的用于提取内容特征的模型,例如,可以是在ImageNet上预训练好的骨干模型(如ResNet、Swin Transformer等)。
需要说明的是,本实施例中,上述目标检测方法是基于一个目标检测模型(或目标检测器)进行目标检测的,各步骤都由该目标检测模型(或目标检测器)执行。
在一种应用场景中,可以根据上述目标检测方法获得的检测结果对检测器进行训练,即将上述目标检测方法应用于检测器(或模型等)的训练过程中。此时上述待检测图片是用于进行训练的图片,在将上述待检测图片输入上述特征提取模型之前,还可以对上述待检测图片进行增广变换,例如进行随机裁剪和随机缩放等,如此可以实现数据增强,从而提高后续训练的目标检测模型的性能。
本实施例中,如图2所示,上述步骤S100具体包括如下步骤:
步骤S101,获取待检测图片,将上述待检测图片输入上述特征提取模型,获取上述特征提取模型的输出特征图。
步骤S102,获取目标特征维度,根据上述目标特征维度,通过预设的投影层对上述输出特征图的特征维度进行调整,获得上述内容特征图,其中,上述内容特征图是包含上述待检测图片的内容信息的矩阵。
其中,上述目标特征维度是上述内容特征图中各内容信息需要达到的维度。其中,上述目标特征维度可以预先设置,也可以根据实际需求实时输入和调整,本实施例中,记上述目标特征维度为D,且可以设置D=256,但不作为具体限定。具体的,通过上述特征提取模型获得的输出特征图中对应的特征的维度取决于具体的特征提取模型,且维度通常较高,例如,ResNet的输出特征图中对应的特征的维度为2048。为了统一不同的特征提取模型对应的特征维度,同时为了减小计算量并提升目标检测的效率,本实施例中可以对输出特征图的特征维度进行线性变换实现降维处理。
进一步的,通过预先设置的投影层(例如一个用于调整维度的线性层)根据上述目标特征维度降低上述输出特征图的特征维度,并获得对应的内容特征图。本实施例中,获取的上述内容特征图是一个三维的内容特征矩阵,具体的尺寸为H×W×D,其中H是上述内容特征图的高度,W是上述内容特征图的宽度。在上述内容特征图中,一共有H×W个位置,每个位置的内容特征是一个D维的向量。
需要说明的是,上述内容特征图的高度和宽度可以与输入的待检测图片保持一致,也可以根据实际需求进行调整,在此不做具体限定。
步骤S200,获取与上述内容特征图对应的位置特征图,将上述位置特征图和上述内容特征图相加后输入至少一个Transformer编码器层获得内容特征增强图。
其中,上述位置特征图中包含上述内容特征图中各内容信息对应的位置特征,可以根据待检测图片中与内容特征图中各内容信息对应的二维信息获得。
本实施例中,如图3所示,上述步骤S200中获取位置特征图的过程具体包括如下步骤:
步骤S201,获取上述内容特征图中各上述内容信息在上述待检测图片中的二维坐标,基于上述二维坐标生成位置信息图。
步骤S202,根据预设的编码方式对上述位置信息图中的每一个上述二维坐标分别进行编码并获得位置特征,根据所有上述位置特征生成上述位置特征图,其中,上述位置特征的维度与上述目标特征维度相同。
具体的,经过上述步骤S100可以获得一张尺寸为H×W×D的内容特征图,内容特征图中的每一个位置的内容信息(即矩阵中的每一个元素)都有一个对应的二维坐标,基于内容信息对应的二维坐标可以获得一个位置信息图,上述位置信息图是一个尺寸为H×W×2的矩阵。
为了使位置信息与上述内容特征图的尺寸匹配,以便进行内容特征的增强,本实施例中,根据预设的编码方式对上述位置信息图中的每一个上述二维坐标分别进行编码并获得位置特征,获得由位置特征组成的位置特征图。本实施例中,上述预设的编码方式为正余弦编码,将每个位置的二维坐标使用正余弦编码的方式进行编码,获得多个D维的位置特征,最终获得尺寸为H×W×D的位置特征图。
需要说明的是,上述位置特征代表在进行特征提取时希望内容查询向量关心哪些位置,具体表现形式是二维坐标的正余弦编码。上述二维坐标是每一个像素点的固有属性,可以根据预先确定的坐标系直接获取,例如二维坐标(0.5,0.5)代表该内容信息处于图片中心,因此希望查询向量关心图片中心,对该二维坐标进行正余弦编码后即可获得位置特征。
进一步的,将上述位置特征图和上述内容特征图进行元素相加,然后输入N个Transformer编码器层,在上述N个Transformer编码器层中进行编码和增强并获得内容特征增强图,其中,N大于或等于1。
在本实施例中,令N=1,通过1个Transformer编码器层进行内容增强。具体的,将上述位置特征图和上述内容特征图进行元素相加后,获得的特征图(矩阵)中每一个元素既能体现内容特征又能体现位置特征,然后通过Transformer编码器层进行编码,可以实现通过位置特征对内容特征进行增强,从而获得对应的内容特征增强图,内容特征增强图中的每一个元素体现出对应的内容特征和位置特征,且内容特征增强图的尺寸也为(H×W×D)。需要说明的是,上述Transformer编码器层中的编码方式可以根据实际需求进行设置和调整,在此不作具体限定。
在一种应用场景中,令N大于1(例如N=6),通过N个Transformer编码器层进行内容增强。具体的,上述N个Transformer编码器层依次连接,将上述内容特征图和上述位置特征图相加后输入第1个Transformer编码器层。在第j个Transformer编码器层中进行编码获得特征输出图并作为第j+1个Transformer编码器层的特征输入图,其中,第1个Transformer编码器层的特征输入图是上述内容特征图和上述位置特征图相加后获得的特征图,j+1不大于N,将第N个Transformer编码器层的特征输出图作为上述内容特征增强图。
需要说明的是,进行元素相加时还可以基于预设的权值进行加权相加,在此不做具体限定。
步骤S300,将上述内容特征增强图和上述位置特征图输入M个Transformer解码器层,通过上述Transformer解码器层进行物体特征提取,并根据上述Transformer解码器层的输出获取目标检测结果,其中,上述目标检测结果包括上述待检测图片中各个物体对应的物体类别和物体位置,M大于或等于1。
需要说明的是,上述步骤S100到步骤S300所示的目标检测方法既可以用于实际的目标检测过程中,也可以用于目标检测器的训练过程之中。
本实施例中,用于对待检测图片进行实际的目标检测并输出目标检测结果,从而判断待检测图片中的物体种类和位置,即使用的模型、可学习参数、上述Transformer编码器层和上述Transformer解码器层等是训练完成的。
在一种应用场景中,将上述目标检测方法应用于对目标检测器(或目标检测模型)中上述Transformer编码器层和上述Transformer解码器层等进行训练的过程中,即使用的模型、可学习参数、上述Transformer编码器层和上述Transformer解码器层等是需要进行训练的。具体的,获取上述目标检测结果后,根据上述待检测图片对应的标准结果(标准结果可以通过预先标记获得)获取上述目标检测结果对应的损失,并通过梯度下降进行模型更新,基于上述目标检测结果、上述标准结果和上述损失对可学习参数进行调整。其中,上述可学习参数包括上述Transformer编码器层和上述Transformer解码器层中的预设参数、初始化的锚框信息中的值以及初始化的内容查询向量中的值。
优选的,本实施例中,在上述步骤S300之前,还执行以下步骤:获取预设的检测物体数量个初始化的锚框信息和上述检测物体数量个初始化的内容查询向量,将上述锚框信息和上述内容查询向量输入第1个上述Transformer解码器层,其中,一个上述锚框信息对应一条位置查询信息,上述位置查询信息包括锚框的中心点横坐标、中心点纵坐标、宽度和高度。即本实施例中,向Transformer解码器层中引入锚框,基于锚框获得位置查询向量,进行位置的调制,使得调制后的位置查询向量更好地关心锚框的宽度和高度(即对应的物体的大小),从而更好地提取对应大小的物体特征,即针对不同尺寸的物体调整对应的注意力范围,从而提高物体特征提取的效率,提高目标检测的效率。其中,一个锚框信息中可以包括一条对应的位置查询信息,还可以包括其它与锚框相关的信息,例如锚框编号、锚框生成时间、锚框调整次数等,在此不作具体限定。
具体的,上述检测物体数量可以预先设置,也可以根据实际需求进行调整,本实施例中记检测物体数量为K,初始化K个锚框信息和K个内容查询向量,上述锚框信息与上述内容查询向量一一对应。在一种应用场景中,预先设置K=300,初始化K个锚框信息和K个内容查询向量,其中,一个上述锚框信息中对应一条x、y、w和h组合的位置查询信息,x和y是位置信息,x代表锚框中心点的横坐标,y代表锚框中心点的纵坐标,w和h是尺寸信息,w代表锚框的宽度,h代表锚框的高度,则初始化的锚框信息的尺寸为K×4。在后续使用过程中,需要对初始化的锚框信息进行位置编码,获得K×2D维的位置查询向量。而初始化的上述内容查询向量中每一个初始的内容信息的维度也为D,因此内容查询向量组成的矩阵的尺寸为K×D。
需要说明的是,上述初始化的锚框信息中的值以及初始化的内容查询向量中各内容信息对应的具体值可以根据实际需求预先设置(即指定为固定值),也可以作为可学习的参数,在目标检测器的训练过程中学习,并在进行实际目标检测的过程中设置为学习后的具体数值。具体的,在一种应用场景中,根据实际需求直接设置锚框中心点的坐标,如通过随机初始化使所有锚框均匀分布于整张图片,有利于提高模型的收敛速度。在另一种应用场景中,内容查询向量的值可以是固定的,例如全部设置为0。本实施例中,上述x、y、w、h和内容查询向量的值都设置为预先学习好的参数值,以提高目标检测的效率。
优选的,本实施例中,上述Transformer解码器层中包括一个自注意力子层、一个交叉注意力子层、一个前馈子层和一个位置信息调制子层,上述Transformer解码器层基于以下步骤进行物体特征提取:获取上述Transformer解码器层的输入内容查询向量和输入锚框信息,其中,第1个上述Transformer解码器层的输入内容查询向量是上述初始化的内容查询向量,第1个上述Transformer解码器层的输入锚框信息是上述初始化的锚框信息,第i个上述Transformer解码器层的输入内容查询向量是第i-1个上述Transformer解码器层的输出内容查询向量,第i个上述Transformer解码器层的输入锚框信息是第i-1个上述Transformer解码器层的输出锚框信息,i大于1且i不大于M;根据预设的编码方式对上述输入锚框信息进行位置编码获得位置查询向量;在上述自注意力子层中根据上述输入内容查询向量和上述位置查询向量获得第一内容查询增强向量;在上述位置信息调制子层中根据参考宽度、参考高度以及上述输入锚框信息中的宽度和高度调制上述位置查询向量,并获得位置查询增强向量,其中,上述参考宽度和上述参考高度由上述输入内容查询向量经过预先设置的向量投影层投影生成;在上述交叉注意力子层中根据上述位置查询增强向量、上述第一内容查询增强向量、上述内容特征增强图和上述位置特征图获得第二内容查询增强向量;在上述前馈子层中根据上述第二内容查询增强向量获得第三内容查询增强向量;将上述第三内容查询增强向量作为上述Transformer解码器层的输出内容查询向量,并根据上述第三内容查询增强向量和上述输入锚框信息获取上述Transformer解码器层的输出锚框信息。
需要说明的是,上述预先设置的向量投影层是预先设置的用来对输入内容查询向量进行投影并获得对应的参考宽度和参考高度的投影层,向量投影层的具体结构或具体的投影实现方式可以根据实际需求进行设置和调整,在此不作具体限定。
图4是本发明实施例提供的一种目标检测的具体流程示意图,如图4所示,本实施例中,将待检测图片输入训练完成的骨干模型,获得提取后的内容特征图。同时获取与内容特征图对应的位置信息图,并通过编码获得对应的位置特征图。将上述内容特征图和上述位置特征图相加后输入Transformer编码器层,通过Transformer编码器层处理后获得对应的内容特征增强图。然后将获得的内容特征增强图以及上述位置特征图输入到Transformer解码器层进行物体特征提取。
需要说明的是,图4中仅示出了一个Transformer解码器层中进行物体内容特征提取的具体流程,实际使用过程中共有M个Transformer解码器层,第i+1个Transformer解码器层将第i个Transformer解码器层的输出作为输入,进行M次内容查询向量和位置查询向量的更新,以提高目标检测的准确性。
本实施例中,以M=1为例进行具体说明。如图4所示,每一个Transformer解码器层包括一个自注意力子层、一个交叉注意力子层、一个前馈子层和一个位置信息调制子层。将初始化的内容查询向量(包括K个D维向量)和初始化的锚框信息(包括K个4维向量)作为上述Transformer解码器层的输入内容查询向量和输入锚框信息。对于上述输入锚框进行位置编码,从原来的4维编码至2D维,获得对应的K×2D维的位置查询向量(包括K个2D维的向量),其中,进行位置编码的编码方式与对位置信息图进行编码时使用的预设编码方式相同(本实施例中为正余弦编码)。将上述内容查询向量和上述位置查询向量输入上述自注意力子层中,进行第一次内容特征的增强(例如进行向量的对应相加或加权求和),获得第一内容查询增强向量。将上述内容查询向量和上述位置查询向量输入上述位置信息调制子层,通过参考宽度、参考高度以及上述输入锚框信息中的宽度和高度调制上述位置查询向量,并获得位置查询增强向量,其中,上述参考宽度和上述参考高度由上述输入内容查询向量经过预先设置的向量投影层投影生成。然后将上述位置查询增强向量、上述第一内容查询增强向量、上述内容特征增强图和上述位置特征图输入到上述交叉注意力子层中,进行第二次内容特征的增强,获得第二内容查询增强向量,如此,结合调制后的位置查询增强向量进行内容特征的增强,可以将物体大小信息引入注意力机制进行计算,从而有利于针对不同尺寸的物体进行关注区域的调整,有利于提高目标检测的效率。进一步的,将上述第二内容查询增强向量输入到上述前馈子层中进行第三次内容特征的增强,获得第三内容查询增强向量,即更新的内容查询向量。将上述第三内容查询增强向量(即更新的内容查询向量)作为Transformer解码器层的输出内容查询向量,更新的内容查询向量会预测锚框的变化值,因此将更新的内容查询向量与原始的锚框参数(即该Transformer解码器层的输入锚框信息)相加即可以获得更新的锚框(即输出锚框信息)。实际使用过程中,M大于1时会重复进行M次上述步骤,直到最后一个Transformer解码器层完成对应向量的更新。
需要说明的是,上述图4中还示出了每一个特征图或向量的尺寸或维度,其中,H代表特征高度(即通过骨干模型提取的内容特征图的高度);W代表特征宽度(即通过骨干模型提取的内容特征图的宽度);D代表特征向量的维度,即目标特征维度;K代表预设的检测物体数量,也即锚框数量;C代表物体的种类数(类别数),即预先设置一共识别C种种类的物体,判断每一个物体是C种种类中的哪一种,例如第1类代表人,第2类代表猫,第3类代表桌子等,在此不作具体限定。
本实施例中,在上述位置调制子层中使用锚框的宽度和高度调制位置编码。具体的,如图4所示,上述内容查询向量和锚框是意义对应的(均为K个),对于任意一个锚框
Figure 35827DEST_PATH_IMAGE001
,都有一个D维的内容查询向量与其对应,可以记为
Figure 860564DEST_PATH_IMAGE002
。在上述Transformer解码器层中将锚框
Figure 510988DEST_PATH_IMAGE003
编码至2D维向量
Figure 808983DEST_PATH_IMAGE004
,其中横纵坐标
Figure 177647DEST_PATH_IMAGE005
对应的原始的位置查询向量是D维向量
Figure 337233DEST_PATH_IMAGE006
。基于
Figure 107743DEST_PATH_IMAGE002
可以获得内容信息的参考宽度
Figure 812525DEST_PATH_IMAGE007
和参考高度
Figure 668485DEST_PATH_IMAGE008
,记为
Figure 835025DEST_PATH_IMAGE009
,其中,F是一个可以预先学习的函数,可以通过一个多层感知机实现,需要说明的是,参考宽度
Figure 833942DEST_PATH_IMAGE010
和参考高度
Figure 99839DEST_PATH_IMAGE008
是两个标量。进一步的,基于原始的位置查询向量
Figure 302150DEST_PATH_IMAGE006
、锚框宽度和高度
Figure 288692DEST_PATH_IMAGE011
以及参考的高度和宽度
Figure 768214DEST_PATH_IMAGE012
进行位置查询向量的调制,获得调制后的位置查询向量(即位置查询增强向量)为
Figure 329646DEST_PATH_IMAGE013
,获得的位置查询增强向量的维度同样为D。需要说明的是,上述对于位置查询向量的调整可以影响注意力图的尺寸。现有技术中的注意力图和物体尺寸无关而只与锚框中心的坐标
Figure 471783DEST_PATH_IMAGE005
有关,因此可能对于大物体只能关注物体局部,而对于小物体的关注范围又会超过物体范围。本实施例中,将尺寸信息引入位置查询向量中,可以使得调制后获得的位置查询增强向量同时考虑锚框的中心坐标和对应物体的尺寸,从而使得查询向量更好地覆盖物体的整体,有利于提高目标检测的效率和准确性。
本实施例中,上述根据上述Transformer解码器层的输出获取目标检测结果,包括:根据第M个上述Transformer解码器层的输出内容查询向量和输出锚框信息获取上述目标检测结果。
具体的,经过所有M个上述Transformer解码器层后,可以获得最终更新的内容查询向量和更新的锚框,即第M个上述Transformer解码器层的输出内容查询向量和输出锚框信息。对任何一个D维的内容查询向量,都有一个4维的锚框与其对应。获取预先设置的需要预测的物体类别数C,将第M个上述Transformer解码器层的输出内容查询向量通过预设的线性层投影到C维,获得的C维向量代表对应锚框中的物体属于这C个类别的概率。本实施例中,选用概率最高(值最大)的类别作为该物体对应的预测类别,并将对应锚框的坐标作为该物体对应的预测位置,如此,可以获得K个物体的预测类别和预测位置,作为目标检测结果并输出。
由上可见,本发明实施例提供的目标检测方法中,获取待检测图片,通过预先设置的特征提取模型获取上述待检测图片对应的内容特征图;获取与上述内容特征图对应的位置特征图,将上述位置特征图和上述内容特征图相加后输入至少一个Transformer编码器层获得内容特征增强图;将上述内容特征增强图和上述位置特征图输入M个Transformer解码器层,通过上述Transformer解码器层进行物体特征提取,并根据上述Transformer解码器层的输出获取目标检测结果,其中,上述目标检测结果包括上述待检测图片中各个物体对应的物体类别和物体位置,M大于或等于1。与现有技术中通过卷积神经网络模型根据需要进行检测的图片的内容信息进行目标检测的方案相比,本发明中,获取与待检测图片的内容特征图对应的位置特征图,基于Transformer编码器层和Transformer解码器层,通过位置特征图对待检测图片的内容特征图进行增强,并结合增强后的内容特征增强图和对应的位置特征图进行目标检测,有利于更好地针对待检测图片中对应位置的内容特征进行物体特征提取,从而有利于提高目标检测的效率。
同时,将位置信息编码成与对应的内容查询向量(query)相同的维度,使两者匹配,有利于进行模型的优化。使用锚框来建模query,使得检测Transformer中的query有了直接的物理意义,并可以方便的在解码器的层与层之间进行更新,提高目标检测的效率和准确性。且使用锚框建模query直接引入了位置先验特征,使得模型有了更快的收敛速度。进一步的,还使用锚框的宽度和高度调制注意力图的注意力范围,提高对于不同大小的物体进行目标检测的适应性和效率。
示例性设备
如图5中所示,对应于上述目标检测方法,本发明实施例还提供一种目标检测系统,上述目标检测系统包括:
待检测图片获取模块410,用于获取待检测图片,通过预先设置的特征提取模型获取上述待检测图片对应的内容特征图。
本实施例中,上述待检测图片是需要进行目标检测的图片,可以通过摄像装置拍摄获得。上述预先设置的特征提取模型是预先训练好的用于提取内容特征的模型,例如,可以是在ImageNet上预训练好的骨干模型(如ResNet、Swin Transformer等)。
内容特征增强图获取模块420,用于获取与上述内容特征图对应的位置特征图,将上述位置特征图和上述内容特征图相加后输入至少一个Transformer编码器层获得内容特征增强图。
其中,上述位置特征图中包含上述内容特征图中各内容信息对应的位置特征,可以根据待检测图片中与内容特征图中各内容信息对应的二维信息获得。
目标检测模块430,用于将上述内容特征增强图和上述位置特征图输入M个Transformer解码器层,在上述Transformer编码器层中通过上述Transformer解码器层进行物体特征提取,并根据上述Transformer解码器层的输出获取目标检测结果,其中,上述目标检测结果包括上述待检测图片中各个物体对应的物体类别和物体位置,M大于或等于1。
在一种应用场景中,上述目标检测模块430还用于:获取预设的检测物体数量个初始化的锚框信息和上述检测物体数量个初始化的内容查询向量,将上述锚框信息和上述内容查询向量输入第1个上述Transformer解码器层,其中,一个上述锚框信息对应一条位置查询信息,上述位置查询信息包括锚框的中心点横坐标、中心点纵坐标、宽度和高度。即本实施例中,向Transformer解码器层中引入锚框,基于锚框获得位置查询向量,进行位置的调制,使得调制后的位置查询向量更好地关心锚框的宽度和高度(即对应的物体的大小),从而更好地提取对应大小的物体特征,即针对不同尺寸的物体调整对应的注意力范围,从而提高物体特征提取的效率,提高目标检测的效率。
本实施例中,上述目标检测模块430中的Transformer解码器层包括一个自注意力子层、一个交叉注意力子层、一个前馈子层和一个位置信息调制子层,上述Transformer解码器层基于以下步骤进行物体特征提取:获取上述Transformer解码器层的输入内容查询向量和输入锚框信息,其中,第1个上述Transformer解码器层的输入内容查询向量是上述初始化的内容查询向量,第1个上述Transformer解码器层的输入锚框信息是上述初始化的锚框信息,第i个上述Transformer解码器层的输入内容查询向量是第i-1个上述Transformer解码器层的输出内容查询向量,第i个上述Transformer解码器层的输入锚框信息是第i-1个上述Transformer解码器层的输出锚框信息,i大于1且i不大于M;根据预设的编码方式对上述输入锚框信息进行位置编码获得位置查询向量;在上述自注意力子层中根据上述输入内容查询向量和上述位置查询向量获得第一内容查询增强向量;在上述位置信息调制子层中根据参考宽度、参考高度以及上述输入锚框信息中的宽度和高度调制上述位置查询向量,并获得位置查询增强向量,其中,上述参考宽度和上述参考高度由上述输入内容查询向量经过预先设置的向量投影层投影生成;在上述交叉注意力子层中根据上述位置查询增强向量、上述第一内容查询增强向量、上述内容特征增强图和上述位置特征图获得第二内容查询增强向量;在上述前馈子层中根据上述第二内容查询增强向量获得第三内容查询增强向量;将上述第三内容查询增强向量作为上述Transformer解码器层的输出内容查询向量,并根据上述第三内容查询增强向量和上述输入锚框信息获取上述Transformer解码器层的输出锚框信息。
需要说明的是,上述目标检测系统中的上述各个模块可以基于上述流程进行实际的目标检测,也可以基于上述流程对自身进行训练。当基于上述流程对自身进行训练时,在获取到上述目标检测结果后,根据上述待检测图片对应的标准结果(标准结果可以通过预先标记获得)获取上述目标检测结果对应的损失,并通过梯度下降进行各模块对应的模型更新,基于上述目标检测结果、上述标准结果和上述损失对可学习参数进行调整。其中,上述可学习参数包括上述Transformer编码器层和上述Transformer解码器层中的预设参数、初始化的锚框信息中的值以及初始化的内容查询向量中的值。
具体的,本实施例中,上述目标检测系统及其各模块的具体功能可以参照上述目标检测方法中的对应描述,在此不再赘述。
需要说明的是,上述目标检测系统的各个模块的划分方式并不唯一,在此也不作为具体限定。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图6所示。上述智能终端包括通过系统总线连接的处理器、存储器、网络接口以及显示屏。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和目标检测程序。该内存储器为非易失性存储介质中的操作系统和目标检测程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该目标检测程序被处理器执行时实现上述任意一种目标检测方法的步骤。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。
本领域技术人员可以理解,图6中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的目标检测程序,上述目标检测程序被上述处理器执行时进行以下操作指令:
获取待检测图片,通过预先设置的特征提取模型获取上述待检测图片对应的内容特征图;
获取与上述内容特征图对应的位置特征图,将上述位置特征图和上述内容特征图相加后输入至少一个Transformer编码器层获得内容特征增强图;
将上述内容特征增强图和上述位置特征图输入M个Transformer解码器层,通过上述Transformer解码器层进行物体特征提取,并根据上述Transformer解码器层的输出获取目标检测结果,其中,上述目标检测结果包括上述待检测图片中各个物体对应的物体类别和物体位置,M大于或等于1。
本发明实施例还提供一种计算机可读存储介质,上述计算机可读存储介质上存储有目标检测程序,上述目标检测程序被处理器执行时实现本发明实施例提供的任意一种目标检测方法的步骤。
综上所述,本发明可以带来如下有益效果:首先,获取与待检测图片的内容特征图对应的位置特征图,基于Transformer编码器层和Transformer解码器层,通过位置特征图对待检测图片的内容特征图进行增强,并结合增强后的内容特征增强图和对应的位置特征图进行目标检测,有利于更好地针对待检测图片中对应位置的内容特征进行物体特征提取,从而有利于提高目标检测的效率。具体的,使用锚框建模query(内容查询向量)直接引入了位置先验特征(即对应的位置信息),使得目标检测系统中各模型(或编码层、解码层)有了更快的收敛速度。同时,还使用锚框的宽度和高度调制注意力图的注意力范围,提高对于不同大小的物体进行目标检测的适应性和效率。进一步的,还将位置信息编码成与对应的内容查询向量相同的维度,使两者匹配,有利于进行目标检测系统中模型的优化。进一步的,使用锚框来建模query,使得检测Transformer中的query有了直接的物理意义,并可以方便的在解码器的层与层之间进行更新,提高目标检测的效率和准确性。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述系统的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的系统/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的系统/终端设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (8)

1.一种目标检测方法,其特征在于,所述目标检测方法包括:
获取待检测图片,通过预先设置的特征提取模型获取所述待检测图片对应的内容特征图;
获取与所述内容特征图对应的位置特征图,将所述位置特征图和所述内容特征图相加后输入至少一个Transformer编码器层获得内容特征增强图;
获取预设的检测物体数量个初始化的锚框信息和所述检测物体数量个初始化的内容查询向量,将所述锚框信息和所述内容查询向量输入M个Transformer解码器层中的第1个Transformer解码器层,其中,一个所述锚框信息对应一条位置查询信息,所述位置查询信息包括锚框的中心点横坐标、中心点纵坐标、宽度和高度;
将所述内容特征增强图和所述位置特征图输入M个所述Transformer解码器层,通过所述Transformer解码器层进行物体特征提取,并根据所述Transformer解码器层的输出获取目标检测结果,其中,所述目标检测结果包括所述待检测图片中各个物体对应的物体类别和物体位置,M大于1;
所述Transformer解码器层中包括一个自注意力子层、一个交叉注意力子层、一个前馈子层和一个位置信息调制子层;
所述Transformer解码器层在进行物体特征提取时,获取所述Transformer解码器层的输入内容查询向量和输入锚框信息,其中,第1个所述Transformer解码器层的输入内容查询向量是所述初始化的内容查询向量,第1个所述Transformer解码器层的输入锚框信息是所述初始化的锚框信息,第i个所述Transformer解码器层的输入内容查询向量是第i-1个所述Transformer解码器层的输出内容查询向量,第i个所述Transformer解码器层的输入锚框信息是第i-1个所述Transformer解码器层的输出锚框信息,i大于1且i不大于M;根据预设的编码方式对所述输入锚框信息进行位置编码获得位置查询向量;在所述自注意力子层中根据所述输入内容查询向量和所述位置查询向量获得第一内容查询增强向量;在所述位置信息调制子层中根据参考宽度、参考高度以及所述输入锚框信息中的宽度和高度调制所述位置查询向量,并获得位置查询增强向量,其中,所述参考宽度和所述参考高度由所述输入内容查询向量经过预先设置的向量投影层投影生成;在所述交叉注意力子层中根据所述位置查询增强向量、所述第一内容查询增强向量、所述内容特征增强图和所述位置特征图获得第二内容查询增强向量;在所述前馈子层中根据所述第二内容查询增强向量获得第三内容查询增强向量;将所述第三内容查询增强向量作为所述Transformer解码器层的输出内容查询向量,并根据所述第三内容查询增强向量和所述输入锚框信息获取所述Transformer解码器层的输出锚框信息。
2.根据权利要求1所述的目标检测方法,其特征在于,所述获取待检测图片,通过预先设置的特征提取模型获取所述待检测图片对应的内容特征图,包括:
获取待检测图片,将所述待检测图片输入所述特征提取模型,获取所述特征提取模型的输出特征图;
获取目标特征维度,根据所述目标特征维度,通过预设的投影层对所述输出特征图的特征维度进行调整,获得所述内容特征图,其中,所述内容特征图是包含所述待检测图片的内容信息的矩阵。
3.根据权利要求2所述的目标检测方法,其特征在于,所述获取与所述内容特征图对应的位置特征图,包括:
获取所述内容特征图中各所述内容信息在所述待检测图片中的二维坐标,基于所述二维坐标生成位置信息图;
根据预设的编码方式对所述位置信息图中的每一个所述二维坐标分别进行编码并获得位置特征,根据所有所述位置特征生成所述位置特征图,其中,所述位置特征的维度与所述目标特征维度相同。
4.根据权利要求3所述的目标检测方法,其特征在于,所述预设的编码方式为正余弦编码。
5.根据权利要求4所述的目标检测方法,其特征在于,所述根据所述Transformer解码器层的输出获取目标检测结果,包括:
根据第M个所述Transformer解码器层的输出内容查询向量和输出锚框信息获取所述目标检测结果。
6.一种目标检测系统,其特征在于,所述目标检测系统包括:
待检测图片获取模块,用于获取待检测图片,通过预先设置的特征提取模型获取所述待检测图片对应的内容特征图;
内容特征增强图获取模块,用于获取与所述内容特征图对应的位置特征图,将所述位置特征图和所述内容特征图相加后输入至少一个Transformer编码器层获得内容特征增强图;
目标检测模块,用于将所述内容特征增强图和所述位置特征图输入M个Transformer解码器层,通过所述Transformer解码器层进行物体特征提取,并根据所述Transformer解码器层的输出获取目标检测结果,其中,所述目标检测结果包括所述待检测图片中各个物体对应的物体类别和物体位置,M大于1;
在所述目标检测模块将所述内容特征增强图和所述位置特征图输入M个Transformer解码器层,通过所述Transformer解码器层进行物体特征提取,并根据所述Transformer解码器层的输出获取目标检测结果之前,所述目标检测系统还用于获取预设的检测物体数量个初始化的锚框信息和所述检测物体数量个初始化的内容查询向量,将所述锚框信息和所述内容查询向量输入第1个所述Transformer解码器层,其中,一个所述锚框信息对应一条位置查询信息,所述位置查询信息包括锚框的中心点横坐标、中心点纵坐标、宽度和高度;
所述Transformer解码器层中包括一个自注意力子层、一个交叉注意力子层、一个前馈子层和一个位置信息调制子层;
所述Transformer解码器层在进行物体特征提取时,获取所述Transformer解码器层的输入内容查询向量和输入锚框信息,其中,第1个所述Transformer解码器层的输入内容查询向量是所述初始化的内容查询向量,第1个所述Transformer解码器层的输入锚框信息是所述初始化的锚框信息,第i个所述Transformer解码器层的输入内容查询向量是第i-1个所述Transformer解码器层的输出内容查询向量,第i个所述Transformer解码器层的输入锚框信息是第i-1个所述Transformer解码器层的输出锚框信息,i大于1且i不大于M;根据预设的编码方式对所述输入锚框信息进行位置编码获得位置查询向量;在所述自注意力子层中根据所述输入内容查询向量和所述位置查询向量获得第一内容查询增强向量;在所述位置信息调制子层中根据参考宽度、参考高度以及所述输入锚框信息中的宽度和高度调制所述位置查询向量,并获得位置查询增强向量,其中,所述参考宽度和所述参考高度由所述输入内容查询向量经过预先设置的向量投影层投影生成;在所述交叉注意力子层中根据所述位置查询增强向量、所述第一内容查询增强向量、所述内容特征增强图和所述位置特征图获得第二内容查询增强向量;在所述前馈子层中根据所述第二内容查询增强向量获得第三内容查询增强向量;将所述第三内容查询增强向量作为所述Transformer解码器层的输出内容查询向量,并根据所述第三内容查询增强向量和所述输入锚框信息获取所述Transformer解码器层的输出锚框信息。
7.一种智能终端,其特征在于,所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的目标检测程序,所述目标检测程序被所述处理器执行时实现如权利要求1-5任意一项所述目标检测方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有目标检测程序,所述目标检测程序被处理器执行时实现如权利要求1-5任意一项所述目标检测方法的步骤。
CN202210200586.0A 2022-03-03 2022-03-03 目标检测方法、系统、智能终端及计算机可读存储介质 Active CN114283347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210200586.0A CN114283347B (zh) 2022-03-03 2022-03-03 目标检测方法、系统、智能终端及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210200586.0A CN114283347B (zh) 2022-03-03 2022-03-03 目标检测方法、系统、智能终端及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN114283347A CN114283347A (zh) 2022-04-05
CN114283347B true CN114283347B (zh) 2022-07-15

Family

ID=80882108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210200586.0A Active CN114283347B (zh) 2022-03-03 2022-03-03 目标检测方法、系统、智能终端及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114283347B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147598B (zh) * 2022-06-02 2023-07-14 粤港澳大湾区数字经济研究院(福田) 目标检测分割方法、装置、智能终端及存储介质
CN115330898B (zh) * 2022-08-24 2023-06-06 晋城市大锐金马工程设计咨询有限公司 一种基于改进Swin Transformer的杂志广告嵌入方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157956A (zh) * 2021-04-23 2021-07-23 雅马哈发动机(厦门)信息系统有限公司 图片搜索方法、系统、移动终端及存储介质
CN113222916A (zh) * 2021-04-28 2021-08-06 北京百度网讯科技有限公司 采用目标检测模型检测图像的方法、装置、设备和介质
CN113313028A (zh) * 2021-05-28 2021-08-27 国网陕西省电力公司电力科学研究院 一种火焰检测方法、系统、终端设备及可读存储介质
CN113435594A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 安防检测模型训练方法、装置、设备及存储介质
CN113505193A (zh) * 2021-06-01 2021-10-15 华为技术有限公司 一种数据处理方法及相关设备
CN113902926A (zh) * 2021-12-06 2022-01-07 之江实验室 一种基于自注意力机制的通用图像目标检测方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11138392B2 (en) * 2018-07-26 2021-10-05 Google Llc Machine translation using neural network models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157956A (zh) * 2021-04-23 2021-07-23 雅马哈发动机(厦门)信息系统有限公司 图片搜索方法、系统、移动终端及存储介质
CN113222916A (zh) * 2021-04-28 2021-08-06 北京百度网讯科技有限公司 采用目标检测模型检测图像的方法、装置、设备和介质
CN113313028A (zh) * 2021-05-28 2021-08-27 国网陕西省电力公司电力科学研究院 一种火焰检测方法、系统、终端设备及可读存储介质
CN113505193A (zh) * 2021-06-01 2021-10-15 华为技术有限公司 一种数据处理方法及相关设备
CN113435594A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 安防检测模型训练方法、装置、设备及存储介质
CN113902926A (zh) * 2021-12-06 2022-01-07 之江实验室 一种基于自注意力机制的通用图像目标检测方法和装置

Also Published As

Publication number Publication date
CN114283347A (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
CN110084281B (zh) 图像生成方法、神经网络的压缩方法及相关装置、设备
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
Kulhánek et al. Viewformer: Nerf-free neural rendering from few images using transformers
CN114283347B (zh) 目标检测方法、系统、智能终端及计算机可读存储介质
CN110062934A (zh) 使用神经网络确定图像中的结构和运动
CN113128558B (zh) 基于浅层空间特征融合与自适应通道筛选的目标检测方法
KR20160034814A (ko) 뉴럴 네트워크를 수반한 클라이언트 장치 및 그것을 포함하는 시스템
CN113326930B (zh) 数据处理方法、神经网络的训练方法及相关装置、设备
CN115147598B (zh) 目标检测分割方法、装置、智能终端及存储介质
CN111860398A (zh) 遥感图像目标检测方法、系统及终端设备
CN111352965A (zh) 序列挖掘模型的训练方法、序列数据的处理方法及设备
CN112036381B (zh) 视觉跟踪方法、视频监控方法及终端设备
WO2023068953A1 (en) Attention-based method for deep point cloud compression
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN115222998A (zh) 一种图像分类方法
CN112988851B (zh) 反事实预测模型数据处理方法、装置、设备及存储介质
CN116095183A (zh) 一种数据压缩方法以及相关设备
CN112532251A (zh) 一种数据处理的方法及设备
CN115100599A (zh) 基于掩码transformer的半监督人群场景异常检测方法
CN114399708A (zh) 一种视频动作迁移深度学习系统和方法
CN114677611A (zh) 数据识别方法、存储介质及设备
WO2021055364A1 (en) Efficient inferencing with fast pointwise convolution
CN117853678B (zh) 基于多源遥感进行地理空间数据三维实体化改造的方法
US20220147790A1 (en) Deep Polynomial Neural Networks
EP4372693A1 (en) Method for 3d reconstruction, method for training 3d reconstruction neural network system and computing system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant