CN113344003B - 目标检测方法及装置、电子设备和存储介质 - Google Patents

目标检测方法及装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113344003B
CN113344003B CN202110895232.8A CN202110895232A CN113344003B CN 113344003 B CN113344003 B CN 113344003B CN 202110895232 A CN202110895232 A CN 202110895232A CN 113344003 B CN113344003 B CN 113344003B
Authority
CN
China
Prior art keywords
vector
coding
layer
image
sparse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110895232.8A
Other languages
English (en)
Other versions
CN113344003A (zh
Inventor
姚寒星
娄身强
高君宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing LLvision Technology Co ltd
Original Assignee
Beijing LLvision Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing LLvision Technology Co ltd filed Critical Beijing LLvision Technology Co ltd
Priority to CN202110895232.8A priority Critical patent/CN113344003B/zh
Publication of CN113344003A publication Critical patent/CN113344003A/zh
Application granted granted Critical
Publication of CN113344003B publication Critical patent/CN113344003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种目标检测方法及装置、电子设备和存储介质。目标标检测方法通过将待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像。随后将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量。最后将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量,通过构建完整的编码—解码的端到端的目标检测模型,避免了CNN固有的平移同变性、局部性等归纳偏置的影响,有利于提升目标检测的效果。

Description

目标检测方法及装置、电子设备和存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种目标检测方法及装置、电子设备和存储介质。
背景技术
自人工智能领域提出目标检测模型(Transformer)结构后,目标检测模型已在NLP(Neuro-Linguistic Programming,自然语言处理)领域取得巨大成功。在目标检测算法中,GPT(Generative Pre-training Transformer,有效预训练模型)、BERT(BidirectionalEncoder Representations from Transformers,预训练生成模型)等知名人工智能算法都依赖于单纯的目标检测模型的模块堆叠,且采用大规模数据集上预训练+微调的训练方案,在多种NLP任务上都取得了最先进的结果。
目标检测模型一般由骨干网、编码器和解码器组成,其中,骨干网一般是用于从输 入图像中提取特征,现有的目标检测算法中,一般是采用CNN(卷积神经网络)或者VIT(基于 自注意力网络)作为目标检测骨干网,两者用于图像特征提取时,由于ViT将输入图像分成 固定尺寸的子图像块,由此确定网络输入长度,因此,ViT的计算复杂度与网络输入长度L(L =W(宽)*H(高)的平方成正比,而CNN为目标检测骨干网时,网络的计算量仅与网络输入长度
Figure 679827DEST_PATH_IMAGE001
D有关,现有技术中,由于卷积神经网络的平移同变性、局部性等归纳偏置的原因,会影响 最终目标检测的效果。
发明内容
本发明提供一种目标检测方法及装置、电子设备和存储介质,用以解决现有技术中CNN固有的平移同变性、局部性等归纳偏置导致检测效果较差的技术缺陷,以提升目标检测的效果。
本发明提供一种目标检测方法,包括:
获取待检测图像;
将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像;
将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量;
将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量,根据所述解码向量生成目标预测值。
根据本发明提供的一种目标检测方法,所述编码器包括顺次连接的n个编码层,每个编码层包括互相连接的代理编码层和稀疏编码层,n大于1。
根据本发明提供的一种目标检测方法,所述将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量的步骤包括:
对于第1个编码层:
将所述第一缩放图像进行嵌入处理得到第一嵌入向量,将所述第一嵌入向量输入至第1个代理编码层,输出第一代理编码向量;
将所述第二缩放图像进行嵌入处理得到第二嵌入向量,将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层,输出第一稀疏编码向量;
对于第i个编码层,其中,1<i≤n:
将第i-1个代理编码层输出的第i-1代理编码向量输入至第i个代理编码层,输出第i代理编码向量;
将第i-1个稀疏编码层输出的第i-1稀疏编码向量以及第i代理编码向量输入至第i个稀疏编码层,输出第i稀疏编码向量;
将第n个稀疏编码层输出的第n稀疏编码向量作为所述编码器输出的编码向量。
根据本发明提供的一种目标检测方法,所述解码器包括m个解码层,m大于1;
所述将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量的步骤包括:
对于第1个解码层:
将所述编码向量和参考解码向量输入至第1个解码层,输出第1解码向量;
对于第j个解码层,其中,1<j≤m:
将所述编码向量和第j-1解码向量输入至第j个解码层,输出第j解码向量;
将第m个解码层输出的第m解码向量作为所述解码器输出的解码向量。
根据本发明提供的一种目标检测方法,所述将所述第一缩放图像进行嵌入处理得到第一嵌入向量的步骤包括:
将所述第一缩放图像切分为块序列,
对每个块序列进行嵌入处理得到原始嵌入向量;
在原始嵌入向量
中插入多个代理编码单元形成混合序列向量,将所述混合序列向量作为所述第一嵌入向量。
根据本发明提供的一种目标检测方法,所述将所述第一嵌入向量输入至第1个代理编码层,输出第一代理编码向量,包括:
将混合序列向量输入至第1个代理编码层执行自注意力处理,输出第一代理编码向量,其中,第一代理编码向量包括与代理编码单元对应的部分代理编码向量。
根据本发明提供的一种目标检测方法,稀疏编码层包括交叉计算注意力层和稀疏注意力层;
所述将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层,输出第一稀疏编码向量的步骤包括:将所述第一代理编码向量中的部分代理编码向量以及所述第二嵌入向量输入至第一交叉计算注意力层,输出第一交叉编码向量;
将第一交叉编码向量输入至第一稀疏注意力层,输出第一稀疏注意力向量;
将第一交叉编码向量和第一稀疏注意力向量的和作为第一稀疏编码向量。
本发明还提供一种目标检测装置,包括:
待检测图像获取单元,用于获取待检测图像;
预处理单元,用于将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像;
编码单元,用于将所述第一缩放图像和第二缩放图像进行编码处理,得到输出的编码向量;
解码单元,用于将所述编码向量进行解码处理得到输出的解码向量,并根据所述解码向量生成目标预测值。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述目标检测方法的步骤。
本发明还提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述目标检测方法的步骤。
本发明提供的目标检测方法,通过将待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像。随后将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量。使得编码器的计算量随着缩放系数而缩小。最后将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量,根据所述解码向量生成目标预测值,从而通过构建完整的编码—解码的端到端的目标检测模型,避免了CNN固有的平移同变性、局部性等归纳偏置的影响,有利于提升目标检测的效果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的目标检测方法的流程示意图之一;
图2是本发明提供的目标检测方法的流程示意图之二;
图3是本发明提供的目标检测方法中一步骤的过程示意图;
图4是本发明提供的目标检测方法的流程示意图之三;
图5是本发明提供的目标检测方法的模型架构图;
图6是本发明提供的目标检测装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一示例性技术中,DETR(基于目标检测模型的端到端目标检测,主要组成部分是基于集合的全局损失函数)是一种端到端、泛化(anchor-free)的目标检测方法,DETR包含三个主要组件:CNN骨干网、编码器(transformer encoder)和解码器(transformerdecoder)。DETR依赖CNN骨干网从输入图像中提取特征,并将特征序列嵌入后送入编码器进行编码,然后将可训练的目标查询向量(object queries)输入编码器,预测出输入图像包含的目标。在训练时,DETR的预测与标注数据(ground truths)之间采用匈牙利算法进行二分图匹配。然而,DETR方法存在训练收敛慢的问题。而且,由于DETR依赖于CNN网络提取图像特征,无法避免受CNN固有的归纳偏置的影响。
而以ViT(自注意力架构)作为骨干网的目标检测算法,其中,ViT骨干网将输入图 像分成固定尺寸的子图像块,并使用线性投影模块将子图像块序列嵌入,加上位置信息嵌 入(position embeddings)后输入NLP任务中类似的标准模型(Transformer)编码器。采用 纯粹的Transformer编码器替代CNN(卷积神经网络)结构,ViT避免了CNN固有的平移同变 性、局部性等归纳偏置,适合在大规模数据集上预训练并在中小数据集上微调。但是,ViT的 计算复杂度与网络输入长度
Figure 247075DEST_PATH_IMAGE002
Figure 279753DEST_PATH_IMAGE003
)的平方成正比。然而,在目标检测任务中
Figure 463610DEST_PATH_IMAGE002
往往很大,需要检测小目标时尤为如此,将ViT作为目标检测骨干网难以工程化落地。而以 CNN为目标检测骨干网时,网络的计算量与
Figure 974356DEST_PATH_IMAGE002
成正比。
下面结合图1-图4描述本发明的一种目标检测方法。
需要说明的是,目标检测算法是应用于目标检测中的一个大类,包括多种算法模型,而本申请的方法是基于示例性技术的问题的基础上所进行的发明再创造。
在一实施例 ,如图1所示,目标检测方法包括:
S1、获取待检测图像;
待检测图像为通过各种摄像设备或者存储设备获取的电子图像信号。
S2、将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像;
其中,待检测图像按照第一缩放系数得到第一缩放图像,待检测图像按照第二缩 放系数得到第二缩放图像,此时的第一缩放系数和第二缩放系数可以大于0,为任意正分 数。此时的缩放图像是分辨率缩放,将第一缩放系数记为
Figure 864952DEST_PATH_IMAGE004
,将第二缩放系数记为
Figure 458744DEST_PATH_IMAGE005
,待检测 图像的宽度方向上的像素为
Figure 972640DEST_PATH_IMAGE006
,待检测图像的高度方向上的像素为
Figure 880553DEST_PATH_IMAGE007
,待检测图像的分 辨率为
Figure 422393DEST_PATH_IMAGE008
,按照第一缩放系数缩放后得到的第一缩放图像的分辨率为
Figure 62453DEST_PATH_IMAGE009
,按照第二缩放系数缩放后得到的第二缩放图像的分辨率为
Figure 689743DEST_PATH_IMAGE010
S3、将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量;
S4、将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量,根据所述解码向量生成目标预测值。
在上述实施例中,目标检测模型的骨干网由步骤S1和步骤S2所描述的步骤组成,因此,无需采用CNN卷积神经网络。本申请通过将待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像,使得编码器所需要编码的计算量随着缩放系数而缩小,从而减小目标检测方法的计算量,解决现有目标检测方法计算量较大的问题。尤其是在待检测图像数量较多的情况下,可以大幅度提高目标预测值的生成速度。另外,由于此时的前期数据处理并未采用卷积神经网络,从而避免了示例性技术中所提到的卷积神经网络固有的归纳偏置的影响。
可选地,第一缩放系数
Figure 870189DEST_PATH_IMAGE004
小于第二缩放系数
Figure 938639DEST_PATH_IMAGE011
由于第一缩放系数
Figure 749600DEST_PATH_IMAGE012
小于第二缩放系数
Figure 67449DEST_PATH_IMAGE005
,且缩放后的待检测图像经过编码层编 码,使得最后本申请的神经网络模型的骨干网部分理论计算量远远小于神经网络模型的骨 干网部分为卷积神经网络的理论计算值。
可选地,所述编码器包括顺次连接的n个编码层,每个编码层包括互相连接的代理编码层和稀疏编码层,n大于1。
此时,编码层主要是执行编码运算,用于累计每个缩放图像的特征值,每次累计均可以提升一定程度上的预测准确率,当编码层的n为6或12时,可以实现预测准确率和预测时间上的折中,优化目标检测模型的性能,另外,代理编码层为增加代理权重形成新的代理编码向量(代理特征),稀疏编码层为增加稀疏权重形成新的稀疏编码向量(稀疏特征),通过多重特征加权重,可以充分的提取图像的特征,进一步提高目标预测的准确率。
在一实施例中,如图4所示,所述将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量的步骤包括:
对于第1个编码层:
将所述第一缩放图像进行嵌入处理得到第一嵌入向量,将所述第一嵌入向量输入至第1个代理编码层,输出第一代理编码向量;
将所述第二缩放图像进行嵌入处理得到第二嵌入向量,将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层,输出第一稀疏编码向量;
对于第i个编码层,其中,1<i≤n:
将第i-1个代理编码层输出的第i-1代理编码向量输入至第i个代理编码层,输出第i代理编码向量;
将第i-1个稀疏编码层输出的第i-1稀疏编码向量以及第i代理编码向量输入至第i个稀疏编码层,输出第i稀疏编码向量;
将第n个稀疏编码层输出的第n稀疏编码向量作为所述编码器输出的编码向量。
在现有技术中,编码器一般由n个编码层组成,有且仅有一种注意力(加权)方式,而在本申请的技术方案中,参照图5所示,发明人将代理编码层和稀疏编码层组成编码器中的一层编码层,巧妙的将相关的参数进行赋值和加权运算,依次经过代理编码层和稀疏编码层进行不同的加权运算,从而保证了编码的复杂度,进一步增加目标检测模型的收敛速度。
在一实施例中,所述解码器包括m个解码层,m大于1;
所述将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量的步骤包括:
对于第1个解码层:
将所述编码向量和参考解码向量输入至第1个解码层,输出第1解码向量;
其中,参考解码向量为目标检测模型中的预设值。
对于第j个解码层,其中,1<j≤m:
将所述编码向量和第j-1解码向量输入至第j个解码层,输出第j解码向量;
将第m个解码层输出的第m解码向量作为所述解码器输出的解码向量。
在本申请的技术方案中,通过上述解码过程,经过解码层的多次解码,即去除加权,可以快速实现目标预测值的输出。需要说明的是,参照图5所示,解码层的数量可以为m个,数量上不必强制与编码层的个数n等同也可实现本发明的目的。
可选地,预设值输出至损失函数中计算损失,通过上述公式,可以方便用户时刻关注自己的机器识别速度情况。
在一实施例中,参照图2和图5所示,所述将所述第一缩放图像进行嵌入处理得到第一嵌入向量的步骤包括:
S311、将所述第一缩放图像切分为块序列;
将待检测图像记为I,第一缩放图像为Ip,将切分后的块序列
Figure 848323DEST_PATH_IMAGE013
记为
Figure 21814DEST_PATH_IMAGE014
,其中
Figure 65993DEST_PATH_IMAGE015
Figure 667876DEST_PATH_IMAGE016
表示块序列索引。
S312、对每个块序列进行嵌入处理得到原始嵌入向量;
Figure 393387DEST_PATH_IMAGE017
进行嵌入处理,即对每个索引
Figure 967587DEST_PATH_IMAGE016
,找到预训练时原始图像坐标系中与
Figure 979406DEST_PATH_IMAGE016
对应的位 置坐标
Figure 943951DEST_PATH_IMAGE018
,其中
Figure 332207DEST_PATH_IMAGE019
Figure 760914DEST_PATH_IMAGE020
。设
Figure 819000DEST_PATH_IMAGE017
对应的位置嵌入序列为
Figure 661054DEST_PATH_IMAGE021
},目 标检测模型的位置嵌入序列为
Figure 790684DEST_PATH_IMAGE022
Figure 244537DEST_PATH_IMAGE023
可通过对
Figure 129316DEST_PATH_IMAGE022
中与位置
Figure 802874DEST_PATH_IMAGE024
紧邻的4个位置嵌入向量进 行2D插值获得。具体的,设
Figure 470616DEST_PATH_IMAGE025
Figure 670653DEST_PATH_IMAGE026
,位置
Figure 601700DEST_PATH_IMAGE024
临近的4个位置坐标分别为
Figure 621609DEST_PATH_IMAGE027
Figure 358620DEST_PATH_IMAGE028
Figure 554110DEST_PATH_IMAGE029
Figure 249533DEST_PATH_IMAGE030
。设投影映射嵌入为
Figure 225579DEST_PATH_IMAGE031
,执行对
Figure 671342DEST_PATH_IMAGE017
的嵌入操作获 得原始嵌入向量
Figure 580392DEST_PATH_IMAGE032
。以上过程将电子图像信号转换为可以被处理的向量,快速 实现图像数据的数学化。
S313、在原始嵌入向量中插入多个代理编码单元形成混合序列向量,将所述混合 序列向量作为所述第一嵌入向量
Figure 853242DEST_PATH_IMAGE033
在原始嵌入向量
Figure 51005DEST_PATH_IMAGE034
中插入代理编码单元(proxy token)形成新的第一嵌入向量
Figure 926557DEST_PATH_IMAGE033
的具体过程如下,代理编码单元(proxy token)插入采用2D固定间隔方法,如图3所示,即首 先将原始嵌入向量(token)重排列成二维(2D)形式,然后每间隔
Figure 96638DEST_PATH_IMAGE035
插入1个新的代理编码 单元(proxy token),最后再映射回1D排列形式,从而形成第一嵌入向量
Figure 133864DEST_PATH_IMAGE033
。代理编码单元 (proxy token)的位置嵌入采用可学习的位置嵌入方法。
基于上述实施例,在图5中,字母为a、c、e、h分别表示组成第一缩放图像的不同块序列,将其进行输入嵌入处理即是步骤S312以及步骤S313所执行的过程,因此,通过缩放后的缩放图像与代理编码单元叠加,可以更为快速的进行目标检测,减小目标检测方法的计算量。另外,字母为a、b、c、d、e、f、h分别表示组成第二缩放图像的不同块序列,将其进行输入嵌入处理即是步骤S312以及步骤S313所执行的过程。
另外,在上述实施例中,由于代码编码单元实际上是将图像嵌入向量部分替代,从而使得最后的运算量进一步减小。
需要说明的是,混合序列向量理论上是与顺序无关的,靠位置嵌入(positionembeddings)提供位置信息。本文中2D tokens默认可按行优先方式转为1D形式混合序列向量。对代理编码单元(proxy token)插入来说,图3只是为了说明本申请的技术方案所给出的一种实施例,代理编码单元(proxy token)事实上可以放在任意位置,如全部放在原始嵌入向量的最前面或者最后面。
在一实施例中,所述将所述第一嵌入向量输入至第1个代理编码层,输出第一代理编码向量,包括:
将混合序列向量输入至第1个代理编码层执行自注意力处理,输出第一代理编码向量,其中,第一代理编码向量包括与代理编码单元对应的部分代理编码向量。
在此步骤中,为对混合序列向量的第一次加权处理,从而可以保证自注意力处理后的第一代理编码向量具有独立性,从而提高计算效率。
在一实施例中,稀疏编码层包括交叉计算注意力层和稀疏注意力层;
所述将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层,输出第一稀疏编码向量的步骤包括:
将所述第一代理编码向量中的部分代理编码向量以及所述第二嵌入向量输入至第一交叉计算注意力层(cross-scale attention),输出第一交叉编码向量Zcsa
此时,第一交叉计算注意力层所执行的交叉计算注意力为:
将第二嵌入向量
Figure 84503DEST_PATH_IMAGE036
作为查询(query),并将代理编码层中输出的第一代理编码向 量
Figure 373533DEST_PATH_IMAGE037
作为key(键)和值(value),输出第一交叉编码向量
Figure 522754DEST_PATH_IMAGE038
。具体地,设交叉计算注意力层 的交叉计算注意力头数为
Figure 934144DEST_PATH_IMAGE039
Figure 277139DEST_PATH_IMAGE040
。定义注意力操作,单头注意力
Figure 760072DEST_PATH_IMAGE041
。 记
Figure 701484DEST_PATH_IMAGE042
,其中
Figure 221458DEST_PATH_IMAGE043
,
Figure 943426DEST_PATH_IMAGE044
。随后计算
Figure 574259DEST_PATH_IMAGE045
,交叉计算注意力层的交叉计算注意力输出结果第一交叉编码向量
Figure 635756DEST_PATH_IMAGE046
将第一交叉编码向量输入至第一稀疏注意力层(deformable attention),输出第一稀疏注意力向量Zdfa
此时,参照图5执行本申请的编码过程,其中,第一稀疏注意力层执行的编码过程如下:
设头数为
Figure 451265DEST_PATH_IMAGE039
Figure 270316DEST_PATH_IMAGE040
,采样键(key)数为
Figure 829474DEST_PATH_IMAGE047
Figure 745477DEST_PATH_IMAGE048
。第一稀 疏注意力层的稀疏注意力将第一交叉编码向量
Figure 111648DEST_PATH_IMAGE038
输入Offset函数投影映射
Figure 808209DEST_PATH_IMAGE049
,输出 deformable offsets,记为
Figure 108740DEST_PATH_IMAGE050
Figure 551354DEST_PATH_IMAGE051
;将第一交叉编码向量
Figure 974245DEST_PATH_IMAGE038
输入Weight函数投影映射
Figure 502310DEST_PATH_IMAGE052
,并紧跟激励函数(SoftMax)操作输出attention weights,记为
Figure 606532DEST_PATH_IMAGE053
Figure 293865DEST_PATH_IMAGE054
。设预定 义的参考点(Reference Points)坐标序列为
Figure 763024DEST_PATH_IMAGE055
,记单头注意力
Figure 903018DEST_PATH_IMAGE056
Figure 545352DEST_PATH_IMAGE057
为采样操作。记
Figure 461093DEST_PATH_IMAGE058
Figure 225787DEST_PATH_IMAGE059
。随后计算
Figure 728443DEST_PATH_IMAGE060
,第 一稀疏注意力层的稀疏注意力结果为第一稀疏注意力向量
Figure 174468DEST_PATH_IMAGE061
将第一交叉编码向量Zcsa和第一稀疏注意力向量Zdfa的和作为第一稀疏编码向量。
此时,若循环进行编码,则将参考解码向量(Object Queries)序列为输入,执行自注意力(self-attention)操作。再将self-attention的输出作为query,将上一个编码层输出的第一稀疏编码向量Zcda作为key/value,执行交叉注意力(cross attention)操作。
通过上述方案,以目标训练模型为ViT模型
Figure 836394DEST_PATH_IMAGE062
为例说明上述方案的效果,ViT模型
Figure 647355DEST_PATH_IMAGE062
的分辨率为
Figure 496362DEST_PATH_IMAGE008
,其理论计算量为
Figure 746078DEST_PATH_IMAGE063
。将
Figure 137876DEST_PATH_IMAGE062
直接用作DETR骨干网并将输入分辨率缩放
Figure 244372DEST_PATH_IMAGE064
倍,则骨干网部分的理论计算量
Figure 954577DEST_PATH_IMAGE065
以下结合预训练的ViT模型
Figure 742405DEST_PATH_IMAGE062
说明本申请的有益效果,采用本专利方法,设采样key 数为
Figure 113343DEST_PATH_IMAGE066
,代理编码层(Proxy Encoder)插入间隔为
Figure 266107DEST_PATH_IMAGE035
Figure 355286DEST_PATH_IMAGE067
,稀疏编码层(Deformable Sparse Encoder)的分辨率缩放系数
Figure 681225DEST_PATH_IMAGE068
,Proxy Encoder的分辨率缩放系数
Figure 47615DEST_PATH_IMAGE069
,则本专 利方法DETR骨干网部分的理论计算量为
Figure 495914DEST_PATH_IMAGE070
。 按上述参数值设置,本方法骨干网部分的理论计算量仅为直接采用ViT作为骨干网时理论 计算量的
Figure 682176DEST_PATH_IMAGE071
倍。
假定采用与预训练的ViT模型
Figure 811806DEST_PATH_IMAGE062
计算量相当的CNN网络作为目标检测模型(DETR)骨 干网,输入分辨率缩放
Figure 422916DEST_PATH_IMAGE072
倍时,DETR骨干网部分的理论计算量为
Figure 150438DEST_PATH_IMAGE073
。按上述参数值设 置,本方法骨干网部分的理论计算量与CNN作为骨干网时理论计算量比为
Figure 151892DEST_PATH_IMAGE074
。因 此,可以证明,本申请在降低计算量上具有突出贡献同时,本方法在采用纯目标预测模型 (transformer),即构建全新的骨干网替代CNN,从而避免了CNN固有的归纳偏置的影响。
基于上述任一实施例,图6为本发明实施例提供的目标检测装置,目标检测装置包括待检测图像获取单元10、预处理单元20、编码单元30和解码单元40:
待检测图像获取单元10,用于获取待检测图像;其中,待检测图像为通过各种摄像设备或者存储设备获取的电子图像信号。
预处理单元20,用于将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像;
其中,待检测图像按照第一缩放系数得到第一缩放图像,待检测图像按照第二缩 放系数得到第二缩放图像,此时的第一缩放系数和第二缩放系数可以大于0,为任意正分 数。此时的缩放图像是分辨率缩放,将第一缩放系数记为
Figure 881951DEST_PATH_IMAGE012
,将第二缩放系数记为
Figure 222933DEST_PATH_IMAGE005
,待检测 图像的宽度方向上的像素为
Figure 747456DEST_PATH_IMAGE006
,待检测图像的高度方向上的像素为
Figure 236206DEST_PATH_IMAGE007
,待检测图像的分 辨率为
Figure 910901DEST_PATH_IMAGE008
,按照第一缩放系数缩放后得到的第一缩放图像的分辨率为
Figure 965445DEST_PATH_IMAGE075
,按照第二缩放系数缩放后得到的第二缩放图像的分辨率为
Figure 864130DEST_PATH_IMAGE076
编码单元30,用于将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量;
解码单元40,用于将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量,并根据所述解码向量生成目标预测值。
本发明实施例提供的装置,通过预处理单元将待检测图像进行缩放,从而缩减了编码单元和解码单元的计算量,从而减小了目标检测单元的计算量,另外,由于此时的预处理(前期数据处理)并未采用卷积神经网络,避免了卷积神经网络固有的平移同变性、局部性等归纳偏置的影响,有利于提升目标检测的效果。
可选地,所述编码器包括顺次连接的n个编码层,每个编码层包括互相连接的代理编码层和稀疏编码层,n大于1。
可选地,所述编码单元30,具体用于:
对于第1个编码层:
将所述第一缩放图像进行嵌入处理得到第一嵌入向量,将所述第一嵌入向量输入至第1个代理编码层,输出第一代理编码向量;
将所述第二缩放图像进行嵌入处理得到第二嵌入向量,将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层,输出第一稀疏编码向量;
对于第i个编码层,其中,1<i≤n:
将第i-1个代理编码层输出的第i-1代理编码向量输入至第i个代理编码层,输出第i代理编码向量;
将第i-1个稀疏编码层输出的第i-1稀疏编码向量以及第i代理编码向量输入至第i个稀疏编码层,输出第i稀疏编码向量;
将第n个稀疏编码层输出的第n稀疏编码向量作为所述编码器输出的编码向量。
可选地,所述解码器包括m个解码层,m大于1;
所述解码单元40,具体用于:
对于第1个解码层:
将所述编码向量和参考解码向量输入至第1个解码层,输出第1解码向量;
对于第j个解码层,其中,1<j≤m:
将所述编码向量和第j-1解码向量输入至第j个解码层,输出第j解码向量;
将第m个编码层输出的第m解码向量作为所述解码器输出的解码向量。
可选地,所述编码单元30,具体用于:
将所述第一缩放图像切分为块序列,
对每个块序列进行嵌入处理得到原始嵌入向量;
在原始嵌入向量中插入多个代理编码单元形成混合序列向量,将所述混合序列向量作为所述第一嵌入向量。
可选地,所述编码单元30,具体用于:
将混合序列向量输入至第1个代理编码层执行自注意力处理,输出第一代理编码向量,其中,第一代理编码向量包括与代理编码单元对应的部分代理编码向量。
可选地,稀疏编码层包括交叉计算注意力层和稀疏注意力层;
所述编码单元30,具体用于:
将所述第一代理编码向量中的部分代理编码向量以及所述第二嵌入向量输入至第一交叉计算注意力层,输出第一交叉编码向量;
将第一交叉编码向量输入至第一稀疏注意力层,输出第一稀疏注意力向量;
将第一交叉编码向量和第一稀疏注意力向量的和作为第一稀疏编码向量。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行目标检测方法,该方法包括:
S1、获取待检测图像;
S2、将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像;
S3、将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量;
S4、将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量,根据所述解码向量生成目标预测值。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明还提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的目标检测方法,该方法包括:
S1、获取待检测图像;
S2、将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像;
S3、将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量;
S4、将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量,根据所述解码向量生成目标预测值。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种目标检测方法,其特征在于,包括:
获取待检测图像;
将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像;
将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量;
将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量,根据所述解码向量生成目标预测值;
其中,所述编码器包括顺次连接的n个编码层,每个编码层包括互相连接的代理编码层和稀疏编码层,n大于1;
所述将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量的步骤包括:
对于第1个编码层:
将所述第一缩放图像进行嵌入处理得到第一嵌入向量,将所述第一嵌入向量输入至第1个代理编码层,输出第一代理编码向量;
将所述第二缩放图像进行嵌入处理得到第二嵌入向量,将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层,输出第一稀疏编码向量;
对于第i个编码层,其中,1<i≤n:
将第i-1个代理编码层输出的第i-1代理编码向量输入至第i个代理编码层,输出第i代理编码向量;
将第i-1个稀疏编码层输出的第i-1稀疏编码向量以及第i代理编码向量输入至第i个稀疏编码层,输出第i稀疏编码向量;
将第n个稀疏编码层输出的第n稀疏编码向量作为所述编码器输出的编码向量。
2.根据权利要求1所述的目标检测方法,其特征在于,所述解码器包括m个解码层,m大于1;
所述将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量的步骤包括:
对于第1个解码层:
将所述编码向量和参考解码向量输入至第1个解码层,输出第1解码向量;
对于第j个解码层,其中,1<j≤m:
将所述编码向量和第j解码向量输入至第j个解码层,输出第j解码向量;
将第m个稀疏编码层输出的第m解码向量作为所述解码器输出的解码向量。
3.根据权利要求1所述的目标检测方法,其特征在于,所述将所述第一缩放图像进行嵌入处理得到第一嵌入向量的步骤包括:
将所述第一缩放图像切分为块序列,
对每个块序列进行嵌入处理得到原始嵌入向量;
在原始嵌入向量中插入多个代理编码单元形成混合序列向量,将所述混合序列向量作为所述第一嵌入向量。
4.根据权利要求3所述的目标检测方法,其特征在于,所述将所述第一嵌入向量输入至第1个代理编码层,输出第一代理编码向量,包括:
将混合序列向量输入至第1个代理编码层执行自注意力处理,输出第一代理编码向量,其中,第一代理编码向量包括与代理编码单元对应的部分代理编码向量。
5.根据权利要求4所述的目标检测方法,其特征在于,稀疏编码层包括交叉计算注意力层和稀疏注意力层;
所述将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层,输出第一稀疏编码向量的步骤包括:将所述第一代理编码向量中的部分代理编码向量以及所述第二嵌入向量输入至第一交叉计算注意力层,输出第一交叉编码向量;
将第一交叉编码向量输入至第一稀疏注意力层,输出第一稀疏注意力向量;
将第一交叉编码向量和第一稀疏注意力向量的和作为第一稀疏编码向量。
6.一种目标检测装置,其特征在于,包括:
待检测图像获取单元,用于获取待检测图像;
预处理单元,用于将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像;
编码单元,用于将所述第一缩放图像和第二缩放图像进行编码处理,得到输出的编码向量;
解码单元,用于将所述编码向量进行解码处理得到输出的解码向量,并根据所述解码向量生成目标预测值;
其中,所述编码单元 包括顺次连接的n个编码层,每个编码层包括互相连接的代理编码层和稀疏编码层,n大于1;
所述编码单元具体用于:
对于第1个编码层:
将所述第一缩放图像进行嵌入处理得到第一嵌入向量,将所述第一嵌入向量输入至第1个代理编码层,输出第一代理编码向量;
将所述第二缩放图像进行嵌入处理得到第二嵌入向量,将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层,输出第一稀疏编码向量;
对于第i个编码层,其中,1<i≤n:
将第i-1个代理编码层输出的第i-1代理编码向量输入至第i个代理编码层,输出第i代理编码向量;
将第i-1个稀疏编码层输出的第i-1稀疏编码向量以及第i代理编码向量输入至第i个稀疏编码层,输出第i稀疏编码向量;
将第n个稀疏编码层输出的第n稀疏编码向量作为所述编码器输出的编码向量。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述目标检测方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述目标检测方法的步骤。
CN202110895232.8A 2021-08-05 2021-08-05 目标检测方法及装置、电子设备和存储介质 Active CN113344003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110895232.8A CN113344003B (zh) 2021-08-05 2021-08-05 目标检测方法及装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110895232.8A CN113344003B (zh) 2021-08-05 2021-08-05 目标检测方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113344003A CN113344003A (zh) 2021-09-03
CN113344003B true CN113344003B (zh) 2021-11-02

Family

ID=77480807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110895232.8A Active CN113344003B (zh) 2021-08-05 2021-08-05 目标检测方法及装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113344003B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114219901B (zh) * 2022-02-22 2022-06-10 松立控股集团股份有限公司 基于投影一致性和孪生Transformer的三维底盘投影方法
CN115393953B (zh) * 2022-07-28 2023-08-08 深圳职业技术学院 基于异构网络特征交互的行人重识别方法、装置及设备
CN116128965A (zh) * 2023-02-21 2023-05-16 国网吉林省电力有限公司长春供电公司 基于vit的电力缆线位置检测方法、电子设备及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401229B2 (en) * 2007-09-04 2013-03-19 Objectvideo, Inc. Stationary target detection by exploiting changes in background model
CN106529537B (zh) * 2016-11-22 2018-03-06 亿嘉和科技股份有限公司 一种数字仪表读数图像识别方法
CN108734164A (zh) * 2018-05-04 2018-11-02 北京物灵智能科技有限公司 卡片、识别卡片的方法、绘本阅读机器人及存储设备
CN110263706B (zh) * 2019-06-19 2021-07-27 南京邮电大学 一种雾霾天气车载视频动态目标检测和识别的方法
US10956724B1 (en) * 2019-09-10 2021-03-23 Facebook Technologies, Llc Utilizing a hybrid model to recognize fast and precise hand inputs in a virtual environment
CN111209921A (zh) * 2020-01-07 2020-05-29 南京邮电大学 基于改进的YOLOv3网络的车牌检测模型及构建方法
CN112016547A (zh) * 2020-08-20 2020-12-01 上海天壤智能科技有限公司 基于深度学习的图像文字识别方法、系统及介质

Also Published As

Publication number Publication date
CN113344003A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN113344003B (zh) 目标检测方法及装置、电子设备和存储介质
CN111798400B (zh) 基于生成对抗网络的无参考低光照图像增强方法及系统
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
WO2019213459A1 (en) System and method for generating image landmarks
CN111476719B (zh) 图像处理方法、装置、计算机设备及存储介质
JP2020173782A (ja) 画像エンコーディング方法及び装置並びに画像デコーディング方法及び装置
CN112507990A (zh) 视频时空特征学习、抽取方法、装置、设备及存储介质
CN113792741B (zh) 文字识别方法、装置、设备及存储介质
CN114677412B (zh) 一种光流估计的方法、装置以及设备
RU2665273C2 (ru) Обучаемые визуальные маркеры и способ их продуцирования
CN112884802B (zh) 一种基于生成的对抗攻击方法
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN116843834A (zh) 一种三维人脸重建及六自由度位姿估计方法、装置及设备
Wei et al. A robust image watermarking approach using cycle variational autoencoder
CN110659641A (zh) 一种文字识别的方法、装置及电子设备
CN115222947B (zh) 基于全局自注意力变换网络的岩石节理分割方法和装置
CN115631343A (zh) 基于全脉冲网络的图像生成方法、装置、设备及存储介质
CN116095321A (zh) 显著性区域图像编解码方法、系统、设备及存储介质
CN116012662A (zh) 特征编解码方法、编解码器的训练方法、设备和介质
CN115565108A (zh) 一种基于解耦自监督的视频伪装和显著性对象检测方法
CN114820755A (zh) 一种深度图估计方法及系统
CN110490235B (zh) 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置
CN113936333A (zh) 一种基于人体骨架序列的动作识别算法
Wang et al. Gabor filtering-based scale and rotation invariance feature for 2D barcode region detection
CN110659962A (zh) 一种商品信息输出方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Target detection method and device, electronic equipment and storage medium

Effective date of registration: 20220727

Granted publication date: 20211102

Pledgee: Xiamen International Bank Co.,Ltd. Beijing Branch

Pledgor: BEIJING LLVISION TECHNOLOGY Co.,Ltd.

Registration number: Y2022990000481