CN113344003B - 目标检测方法及装置、电子设备和存储介质 - Google Patents
目标检测方法及装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113344003B CN113344003B CN202110895232.8A CN202110895232A CN113344003B CN 113344003 B CN113344003 B CN 113344003B CN 202110895232 A CN202110895232 A CN 202110895232A CN 113344003 B CN113344003 B CN 113344003B
- Authority
- CN
- China
- Prior art keywords
- vector
- coding
- layer
- image
- sparse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 93
- 239000013598 vector Substances 0.000 claims abstract description 264
- 238000012545 processing Methods 0.000 claims abstract description 24
- 239000003795 chemical substances by application Substances 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 7
- 238000013519 translation Methods 0.000 abstract description 6
- 238000013527 convolutional neural network Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 11
- 238000012549 training Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000007850 degeneration Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000006698 induction Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种目标检测方法及装置、电子设备和存储介质。目标标检测方法通过将待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像。随后将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量。最后将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量,通过构建完整的编码—解码的端到端的目标检测模型,避免了CNN固有的平移同变性、局部性等归纳偏置的影响,有利于提升目标检测的效果。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种目标检测方法及装置、电子设备和存储介质。
背景技术
自人工智能领域提出目标检测模型(Transformer)结构后,目标检测模型已在NLP(Neuro-Linguistic Programming,自然语言处理)领域取得巨大成功。在目标检测算法中,GPT(Generative Pre-training Transformer,有效预训练模型)、BERT(BidirectionalEncoder Representations from Transformers,预训练生成模型)等知名人工智能算法都依赖于单纯的目标检测模型的模块堆叠,且采用大规模数据集上预训练+微调的训练方案,在多种NLP任务上都取得了最先进的结果。
发明内容
本发明提供一种目标检测方法及装置、电子设备和存储介质,用以解决现有技术中CNN固有的平移同变性、局部性等归纳偏置导致检测效果较差的技术缺陷,以提升目标检测的效果。
本发明提供一种目标检测方法,包括:
获取待检测图像;
将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像;
将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量;
将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量,根据所述解码向量生成目标预测值。
根据本发明提供的一种目标检测方法,所述编码器包括顺次连接的n个编码层,每个编码层包括互相连接的代理编码层和稀疏编码层,n大于1。
根据本发明提供的一种目标检测方法,所述将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量的步骤包括:
对于第1个编码层:
将所述第一缩放图像进行嵌入处理得到第一嵌入向量,将所述第一嵌入向量输入至第1个代理编码层,输出第一代理编码向量;
将所述第二缩放图像进行嵌入处理得到第二嵌入向量,将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层,输出第一稀疏编码向量;
对于第i个编码层,其中,1<i≤n:
将第i-1个代理编码层输出的第i-1代理编码向量输入至第i个代理编码层,输出第i代理编码向量;
将第i-1个稀疏编码层输出的第i-1稀疏编码向量以及第i代理编码向量输入至第i个稀疏编码层,输出第i稀疏编码向量;
将第n个稀疏编码层输出的第n稀疏编码向量作为所述编码器输出的编码向量。
根据本发明提供的一种目标检测方法,所述解码器包括m个解码层,m大于1;
所述将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量的步骤包括:
对于第1个解码层:
将所述编码向量和参考解码向量输入至第1个解码层,输出第1解码向量;
对于第j个解码层,其中,1<j≤m:
将所述编码向量和第j-1解码向量输入至第j个解码层,输出第j解码向量;
将第m个解码层输出的第m解码向量作为所述解码器输出的解码向量。
根据本发明提供的一种目标检测方法,所述将所述第一缩放图像进行嵌入处理得到第一嵌入向量的步骤包括:
将所述第一缩放图像切分为块序列,
对每个块序列进行嵌入处理得到原始嵌入向量;
在原始嵌入向量
中插入多个代理编码单元形成混合序列向量,将所述混合序列向量作为所述第一嵌入向量。
根据本发明提供的一种目标检测方法,所述将所述第一嵌入向量输入至第1个代理编码层,输出第一代理编码向量,包括:
将混合序列向量输入至第1个代理编码层执行自注意力处理,输出第一代理编码向量,其中,第一代理编码向量包括与代理编码单元对应的部分代理编码向量。
根据本发明提供的一种目标检测方法,稀疏编码层包括交叉计算注意力层和稀疏注意力层;
所述将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层,输出第一稀疏编码向量的步骤包括:将所述第一代理编码向量中的部分代理编码向量以及所述第二嵌入向量输入至第一交叉计算注意力层,输出第一交叉编码向量;
将第一交叉编码向量输入至第一稀疏注意力层,输出第一稀疏注意力向量;
将第一交叉编码向量和第一稀疏注意力向量的和作为第一稀疏编码向量。
本发明还提供一种目标检测装置,包括:
待检测图像获取单元,用于获取待检测图像;
预处理单元,用于将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像;
编码单元,用于将所述第一缩放图像和第二缩放图像进行编码处理,得到输出的编码向量;
解码单元,用于将所述编码向量进行解码处理得到输出的解码向量,并根据所述解码向量生成目标预测值。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述目标检测方法的步骤。
本发明还提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述目标检测方法的步骤。
本发明提供的目标检测方法,通过将待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像。随后将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量。使得编码器的计算量随着缩放系数而缩小。最后将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量,根据所述解码向量生成目标预测值,从而通过构建完整的编码—解码的端到端的目标检测模型,避免了CNN固有的平移同变性、局部性等归纳偏置的影响,有利于提升目标检测的效果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的目标检测方法的流程示意图之一;
图2是本发明提供的目标检测方法的流程示意图之二;
图3是本发明提供的目标检测方法中一步骤的过程示意图;
图4是本发明提供的目标检测方法的流程示意图之三;
图5是本发明提供的目标检测方法的模型架构图;
图6是本发明提供的目标检测装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一示例性技术中,DETR(基于目标检测模型的端到端目标检测,主要组成部分是基于集合的全局损失函数)是一种端到端、泛化(anchor-free)的目标检测方法,DETR包含三个主要组件:CNN骨干网、编码器(transformer encoder)和解码器(transformerdecoder)。DETR依赖CNN骨干网从输入图像中提取特征,并将特征序列嵌入后送入编码器进行编码,然后将可训练的目标查询向量(object queries)输入编码器,预测出输入图像包含的目标。在训练时,DETR的预测与标注数据(ground truths)之间采用匈牙利算法进行二分图匹配。然而,DETR方法存在训练收敛慢的问题。而且,由于DETR依赖于CNN网络提取图像特征,无法避免受CNN固有的归纳偏置的影响。
而以ViT(自注意力架构)作为骨干网的目标检测算法,其中,ViT骨干网将输入图
像分成固定尺寸的子图像块,并使用线性投影模块将子图像块序列嵌入,加上位置信息嵌
入(position embeddings)后输入NLP任务中类似的标准模型(Transformer)编码器。采用
纯粹的Transformer编码器替代CNN(卷积神经网络)结构,ViT避免了CNN固有的平移同变
性、局部性等归纳偏置,适合在大规模数据集上预训练并在中小数据集上微调。但是,ViT的
计算复杂度与网络输入长度()的平方成正比。然而,在目标检测任务中
往往很大,需要检测小目标时尤为如此,将ViT作为目标检测骨干网难以工程化落地。而以
CNN为目标检测骨干网时,网络的计算量与成正比。
下面结合图1-图4描述本发明的一种目标检测方法。
需要说明的是,目标检测算法是应用于目标检测中的一个大类,包括多种算法模型,而本申请的方法是基于示例性技术的问题的基础上所进行的发明再创造。
在一实施例 ,如图1所示,目标检测方法包括:
S1、获取待检测图像;
待检测图像为通过各种摄像设备或者存储设备获取的电子图像信号。
S2、将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像;
其中,待检测图像按照第一缩放系数得到第一缩放图像,待检测图像按照第二缩
放系数得到第二缩放图像,此时的第一缩放系数和第二缩放系数可以大于0,为任意正分
数。此时的缩放图像是分辨率缩放,将第一缩放系数记为,将第二缩放系数记为,待检测
图像的宽度方向上的像素为,待检测图像的高度方向上的像素为,待检测图像的分
辨率为,按照第一缩放系数缩放后得到的第一缩放图像的分辨率为,按照第二缩放系数缩放后得到的第二缩放图像的分辨率为。
S3、将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量;
S4、将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量,根据所述解码向量生成目标预测值。
在上述实施例中,目标检测模型的骨干网由步骤S1和步骤S2所描述的步骤组成,因此,无需采用CNN卷积神经网络。本申请通过将待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像,使得编码器所需要编码的计算量随着缩放系数而缩小,从而减小目标检测方法的计算量,解决现有目标检测方法计算量较大的问题。尤其是在待检测图像数量较多的情况下,可以大幅度提高目标预测值的生成速度。另外,由于此时的前期数据处理并未采用卷积神经网络,从而避免了示例性技术中所提到的卷积神经网络固有的归纳偏置的影响。
可选地,所述编码器包括顺次连接的n个编码层,每个编码层包括互相连接的代理编码层和稀疏编码层,n大于1。
此时,编码层主要是执行编码运算,用于累计每个缩放图像的特征值,每次累计均可以提升一定程度上的预测准确率,当编码层的n为6或12时,可以实现预测准确率和预测时间上的折中,优化目标检测模型的性能,另外,代理编码层为增加代理权重形成新的代理编码向量(代理特征),稀疏编码层为增加稀疏权重形成新的稀疏编码向量(稀疏特征),通过多重特征加权重,可以充分的提取图像的特征,进一步提高目标预测的准确率。
在一实施例中,如图4所示,所述将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量的步骤包括:
对于第1个编码层:
将所述第一缩放图像进行嵌入处理得到第一嵌入向量,将所述第一嵌入向量输入至第1个代理编码层,输出第一代理编码向量;
将所述第二缩放图像进行嵌入处理得到第二嵌入向量,将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层,输出第一稀疏编码向量;
对于第i个编码层,其中,1<i≤n:
将第i-1个代理编码层输出的第i-1代理编码向量输入至第i个代理编码层,输出第i代理编码向量;
将第i-1个稀疏编码层输出的第i-1稀疏编码向量以及第i代理编码向量输入至第i个稀疏编码层,输出第i稀疏编码向量;
将第n个稀疏编码层输出的第n稀疏编码向量作为所述编码器输出的编码向量。
在现有技术中,编码器一般由n个编码层组成,有且仅有一种注意力(加权)方式,而在本申请的技术方案中,参照图5所示,发明人将代理编码层和稀疏编码层组成编码器中的一层编码层,巧妙的将相关的参数进行赋值和加权运算,依次经过代理编码层和稀疏编码层进行不同的加权运算,从而保证了编码的复杂度,进一步增加目标检测模型的收敛速度。
在一实施例中,所述解码器包括m个解码层,m大于1;
所述将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量的步骤包括:
对于第1个解码层:
将所述编码向量和参考解码向量输入至第1个解码层,输出第1解码向量;
其中,参考解码向量为目标检测模型中的预设值。
对于第j个解码层,其中,1<j≤m:
将所述编码向量和第j-1解码向量输入至第j个解码层,输出第j解码向量;
将第m个解码层输出的第m解码向量作为所述解码器输出的解码向量。
在本申请的技术方案中,通过上述解码过程,经过解码层的多次解码,即去除加权,可以快速实现目标预测值的输出。需要说明的是,参照图5所示,解码层的数量可以为m个,数量上不必强制与编码层的个数n等同也可实现本发明的目的。
可选地,预设值输出至损失函数中计算损失,通过上述公式,可以方便用户时刻关注自己的机器识别速度情况。
在一实施例中,参照图2和图5所示,所述将所述第一缩放图像进行嵌入处理得到第一嵌入向量的步骤包括:
S311、将所述第一缩放图像切分为块序列;
S312、对每个块序列进行嵌入处理得到原始嵌入向量;
对进行嵌入处理,即对每个索引,找到预训练时原始图像坐标系中与对应的位
置坐标,其中,。设对应的位置嵌入序列为},目
标检测模型的位置嵌入序列为,可通过对中与位置紧邻的4个位置嵌入向量进
行2D插值获得。具体的,设,,位置临近的4个位置坐标分别为,,,。设投影映射嵌入为,执行对的嵌入操作获
得原始嵌入向量。以上过程将电子图像信号转换为可以被处理的向量,快速
实现图像数据的数学化。
在原始嵌入向量中插入代理编码单元(proxy token)形成新的第一嵌入向量
的具体过程如下,代理编码单元(proxy token)插入采用2D固定间隔方法,如图3所示,即首
先将原始嵌入向量(token)重排列成二维(2D)形式,然后每间隔插入1个新的代理编码
单元(proxy token),最后再映射回1D排列形式,从而形成第一嵌入向量。代理编码单元
(proxy token)的位置嵌入采用可学习的位置嵌入方法。
基于上述实施例,在图5中,字母为a、c、e、h分别表示组成第一缩放图像的不同块序列,将其进行输入嵌入处理即是步骤S312以及步骤S313所执行的过程,因此,通过缩放后的缩放图像与代理编码单元叠加,可以更为快速的进行目标检测,减小目标检测方法的计算量。另外,字母为a、b、c、d、e、f、h分别表示组成第二缩放图像的不同块序列,将其进行输入嵌入处理即是步骤S312以及步骤S313所执行的过程。
另外,在上述实施例中,由于代码编码单元实际上是将图像嵌入向量部分替代,从而使得最后的运算量进一步减小。
需要说明的是,混合序列向量理论上是与顺序无关的,靠位置嵌入(positionembeddings)提供位置信息。本文中2D tokens默认可按行优先方式转为1D形式混合序列向量。对代理编码单元(proxy token)插入来说,图3只是为了说明本申请的技术方案所给出的一种实施例,代理编码单元(proxy token)事实上可以放在任意位置,如全部放在原始嵌入向量的最前面或者最后面。
在一实施例中,所述将所述第一嵌入向量输入至第1个代理编码层,输出第一代理编码向量,包括:
将混合序列向量输入至第1个代理编码层执行自注意力处理,输出第一代理编码向量,其中,第一代理编码向量包括与代理编码单元对应的部分代理编码向量。
在此步骤中,为对混合序列向量的第一次加权处理,从而可以保证自注意力处理后的第一代理编码向量具有独立性,从而提高计算效率。
在一实施例中,稀疏编码层包括交叉计算注意力层和稀疏注意力层;
所述将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层,输出第一稀疏编码向量的步骤包括:
将所述第一代理编码向量中的部分代理编码向量以及所述第二嵌入向量输入至第一交叉计算注意力层(cross-scale attention),输出第一交叉编码向量Zcsa;
此时,第一交叉计算注意力层所执行的交叉计算注意力为:
将第二嵌入向量作为查询(query),并将代理编码层中输出的第一代理编码向
量作为key(键)和值(value),输出第一交叉编码向量。具体地,设交叉计算注意力层
的交叉计算注意力头数为,。定义注意力操作,单头注意力。
记,其中,。随后计算 ,交叉计算注意力层的交叉计算注意力输出结果第一交叉编码向量。
将第一交叉编码向量输入至第一稀疏注意力层(deformable attention),输出第一稀疏注意力向量Zdfa;
此时,参照图5执行本申请的编码过程,其中,第一稀疏注意力层执行的编码过程如下:
设头数为,,采样键(key)数为,。第一稀
疏注意力层的稀疏注意力将第一交叉编码向量输入Offset函数投影映射,输出
deformable offsets,记为,;将第一交叉编码向量输入Weight函数投影映射,并紧跟激励函数(SoftMax)操作输出attention weights,记为,。设预定
义的参考点(Reference Points)坐标序列为,记单头注意力,
为采样操作。记,。随后计算 ,第
一稀疏注意力层的稀疏注意力结果为第一稀疏注意力向量。
将第一交叉编码向量Zcsa和第一稀疏注意力向量Zdfa的和作为第一稀疏编码向量。
此时,若循环进行编码,则将参考解码向量(Object Queries)序列为输入,执行自注意力(self-attention)操作。再将self-attention的输出作为query,将上一个编码层输出的第一稀疏编码向量Zcda作为key/value,执行交叉注意力(cross attention)操作。
以下结合预训练的ViT模型说明本申请的有益效果,采用本专利方法,设采样key
数为,代理编码层(Proxy Encoder)插入间隔为,,稀疏编码层(Deformable
Sparse Encoder)的分辨率缩放系数,Proxy Encoder的分辨率缩放系数,则本专
利方法DETR骨干网部分的理论计算量为。
按上述参数值设置,本方法骨干网部分的理论计算量仅为直接采用ViT作为骨干网时理论
计算量的倍。
假定采用与预训练的ViT模型计算量相当的CNN网络作为目标检测模型(DETR)骨
干网,输入分辨率缩放倍时,DETR骨干网部分的理论计算量为。按上述参数值设
置,本方法骨干网部分的理论计算量与CNN作为骨干网时理论计算量比为。因
此,可以证明,本申请在降低计算量上具有突出贡献同时,本方法在采用纯目标预测模型
(transformer),即构建全新的骨干网替代CNN,从而避免了CNN固有的归纳偏置的影响。
基于上述任一实施例,图6为本发明实施例提供的目标检测装置,目标检测装置包括待检测图像获取单元10、预处理单元20、编码单元30和解码单元40:
待检测图像获取单元10,用于获取待检测图像;其中,待检测图像为通过各种摄像设备或者存储设备获取的电子图像信号。
预处理单元20,用于将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像;
其中,待检测图像按照第一缩放系数得到第一缩放图像,待检测图像按照第二缩
放系数得到第二缩放图像,此时的第一缩放系数和第二缩放系数可以大于0,为任意正分
数。此时的缩放图像是分辨率缩放,将第一缩放系数记为,将第二缩放系数记为,待检测
图像的宽度方向上的像素为,待检测图像的高度方向上的像素为,待检测图像的分
辨率为,按照第一缩放系数缩放后得到的第一缩放图像的分辨率为,按照第二缩放系数缩放后得到的第二缩放图像的分辨率为
编码单元30,用于将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量;
解码单元40,用于将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量,并根据所述解码向量生成目标预测值。
本发明实施例提供的装置,通过预处理单元将待检测图像进行缩放,从而缩减了编码单元和解码单元的计算量,从而减小了目标检测单元的计算量,另外,由于此时的预处理(前期数据处理)并未采用卷积神经网络,避免了卷积神经网络固有的平移同变性、局部性等归纳偏置的影响,有利于提升目标检测的效果。
可选地,所述编码器包括顺次连接的n个编码层,每个编码层包括互相连接的代理编码层和稀疏编码层,n大于1。
可选地,所述编码单元30,具体用于:
对于第1个编码层:
将所述第一缩放图像进行嵌入处理得到第一嵌入向量,将所述第一嵌入向量输入至第1个代理编码层,输出第一代理编码向量;
将所述第二缩放图像进行嵌入处理得到第二嵌入向量,将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层,输出第一稀疏编码向量;
对于第i个编码层,其中,1<i≤n:
将第i-1个代理编码层输出的第i-1代理编码向量输入至第i个代理编码层,输出第i代理编码向量;
将第i-1个稀疏编码层输出的第i-1稀疏编码向量以及第i代理编码向量输入至第i个稀疏编码层,输出第i稀疏编码向量;
将第n个稀疏编码层输出的第n稀疏编码向量作为所述编码器输出的编码向量。
可选地,所述解码器包括m个解码层,m大于1;
所述解码单元40,具体用于:
对于第1个解码层:
将所述编码向量和参考解码向量输入至第1个解码层,输出第1解码向量;
对于第j个解码层,其中,1<j≤m:
将所述编码向量和第j-1解码向量输入至第j个解码层,输出第j解码向量;
将第m个编码层输出的第m解码向量作为所述解码器输出的解码向量。
可选地,所述编码单元30,具体用于:
将所述第一缩放图像切分为块序列,
对每个块序列进行嵌入处理得到原始嵌入向量;
在原始嵌入向量中插入多个代理编码单元形成混合序列向量,将所述混合序列向量作为所述第一嵌入向量。
可选地,所述编码单元30,具体用于:
将混合序列向量输入至第1个代理编码层执行自注意力处理,输出第一代理编码向量,其中,第一代理编码向量包括与代理编码单元对应的部分代理编码向量。
可选地,稀疏编码层包括交叉计算注意力层和稀疏注意力层;
所述编码单元30,具体用于:
将所述第一代理编码向量中的部分代理编码向量以及所述第二嵌入向量输入至第一交叉计算注意力层,输出第一交叉编码向量;
将第一交叉编码向量输入至第一稀疏注意力层,输出第一稀疏注意力向量;
将第一交叉编码向量和第一稀疏注意力向量的和作为第一稀疏编码向量。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行目标检测方法,该方法包括:
S1、获取待检测图像;
S2、将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像;
S3、将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量;
S4、将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量,根据所述解码向量生成目标预测值。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明还提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的目标检测方法,该方法包括:
S1、获取待检测图像;
S2、将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像;
S3、将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量;
S4、将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量,根据所述解码向量生成目标预测值。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种目标检测方法,其特征在于,包括:
获取待检测图像;
将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像;
将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量;
将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量,根据所述解码向量生成目标预测值;
其中,所述编码器包括顺次连接的n个编码层,每个编码层包括互相连接的代理编码层和稀疏编码层,n大于1;
所述将所述第一缩放图像和第二缩放图像输入至目标检测模型的编码器进行编码处理,得到输出的编码向量的步骤包括:
对于第1个编码层:
将所述第一缩放图像进行嵌入处理得到第一嵌入向量,将所述第一嵌入向量输入至第1个代理编码层,输出第一代理编码向量;
将所述第二缩放图像进行嵌入处理得到第二嵌入向量,将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层,输出第一稀疏编码向量;
对于第i个编码层,其中,1<i≤n:
将第i-1个代理编码层输出的第i-1代理编码向量输入至第i个代理编码层,输出第i代理编码向量;
将第i-1个稀疏编码层输出的第i-1稀疏编码向量以及第i代理编码向量输入至第i个稀疏编码层,输出第i稀疏编码向量;
将第n个稀疏编码层输出的第n稀疏编码向量作为所述编码器输出的编码向量。
2.根据权利要求1所述的目标检测方法,其特征在于,所述解码器包括m个解码层,m大于1;
所述将所述编码向量输入至所述目标检测模型的解码器进行解码处理得到输出的解码向量的步骤包括:
对于第1个解码层:
将所述编码向量和参考解码向量输入至第1个解码层,输出第1解码向量;
对于第j个解码层,其中,1<j≤m:
将所述编码向量和第j解码向量输入至第j个解码层,输出第j解码向量;
将第m个稀疏编码层输出的第m解码向量作为所述解码器输出的解码向量。
3.根据权利要求1所述的目标检测方法,其特征在于,所述将所述第一缩放图像进行嵌入处理得到第一嵌入向量的步骤包括:
将所述第一缩放图像切分为块序列,
对每个块序列进行嵌入处理得到原始嵌入向量;
在原始嵌入向量中插入多个代理编码单元形成混合序列向量,将所述混合序列向量作为所述第一嵌入向量。
4.根据权利要求3所述的目标检测方法,其特征在于,所述将所述第一嵌入向量输入至第1个代理编码层,输出第一代理编码向量,包括:
将混合序列向量输入至第1个代理编码层执行自注意力处理,输出第一代理编码向量,其中,第一代理编码向量包括与代理编码单元对应的部分代理编码向量。
5.根据权利要求4所述的目标检测方法,其特征在于,稀疏编码层包括交叉计算注意力层和稀疏注意力层;
所述将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层,输出第一稀疏编码向量的步骤包括:将所述第一代理编码向量中的部分代理编码向量以及所述第二嵌入向量输入至第一交叉计算注意力层,输出第一交叉编码向量;
将第一交叉编码向量输入至第一稀疏注意力层,输出第一稀疏注意力向量;
将第一交叉编码向量和第一稀疏注意力向量的和作为第一稀疏编码向量。
6.一种目标检测装置,其特征在于,包括:
待检测图像获取单元,用于获取待检测图像;
预处理单元,用于将所述待检测图像分别按照第一缩放系数和第二缩放系数进行缩放,得到对应的第一缩放图像和第二缩放图像;
编码单元,用于将所述第一缩放图像和第二缩放图像进行编码处理,得到输出的编码向量;
解码单元,用于将所述编码向量进行解码处理得到输出的解码向量,并根据所述解码向量生成目标预测值;
其中,所述编码单元 包括顺次连接的n个编码层,每个编码层包括互相连接的代理编码层和稀疏编码层,n大于1;
所述编码单元具体用于:
对于第1个编码层:
将所述第一缩放图像进行嵌入处理得到第一嵌入向量,将所述第一嵌入向量输入至第1个代理编码层,输出第一代理编码向量;
将所述第二缩放图像进行嵌入处理得到第二嵌入向量,将所述第二嵌入向量和第一代理编码向量输入至第1个稀疏编码层,输出第一稀疏编码向量;
对于第i个编码层,其中,1<i≤n:
将第i-1个代理编码层输出的第i-1代理编码向量输入至第i个代理编码层,输出第i代理编码向量;
将第i-1个稀疏编码层输出的第i-1稀疏编码向量以及第i代理编码向量输入至第i个稀疏编码层,输出第i稀疏编码向量;
将第n个稀疏编码层输出的第n稀疏编码向量作为所述编码器输出的编码向量。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述目标检测方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述目标检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110895232.8A CN113344003B (zh) | 2021-08-05 | 2021-08-05 | 目标检测方法及装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110895232.8A CN113344003B (zh) | 2021-08-05 | 2021-08-05 | 目标检测方法及装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113344003A CN113344003A (zh) | 2021-09-03 |
CN113344003B true CN113344003B (zh) | 2021-11-02 |
Family
ID=77480807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110895232.8A Active CN113344003B (zh) | 2021-08-05 | 2021-08-05 | 目标检测方法及装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113344003B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114219901B (zh) * | 2022-02-22 | 2022-06-10 | 松立控股集团股份有限公司 | 基于投影一致性和孪生Transformer的三维底盘投影方法 |
CN115393953B (zh) * | 2022-07-28 | 2023-08-08 | 深圳职业技术学院 | 基于异构网络特征交互的行人重识别方法、装置及设备 |
CN116128965A (zh) * | 2023-02-21 | 2023-05-16 | 国网吉林省电力有限公司长春供电公司 | 基于vit的电力缆线位置检测方法、电子设备及介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009032922A1 (en) * | 2007-09-04 | 2009-03-12 | Objectvideo, Inc. | Stationary target detection by exploiting changes in background model |
CN106529537B (zh) * | 2016-11-22 | 2018-03-06 | 亿嘉和科技股份有限公司 | 一种数字仪表读数图像识别方法 |
CN108734164A (zh) * | 2018-05-04 | 2018-11-02 | 北京物灵智能科技有限公司 | 卡片、识别卡片的方法、绘本阅读机器人及存储设备 |
CN110263706B (zh) * | 2019-06-19 | 2021-07-27 | 南京邮电大学 | 一种雾霾天气车载视频动态目标检测和识别的方法 |
US10956724B1 (en) * | 2019-09-10 | 2021-03-23 | Facebook Technologies, Llc | Utilizing a hybrid model to recognize fast and precise hand inputs in a virtual environment |
CN111209921A (zh) * | 2020-01-07 | 2020-05-29 | 南京邮电大学 | 基于改进的YOLOv3网络的车牌检测模型及构建方法 |
CN112016547A (zh) * | 2020-08-20 | 2020-12-01 | 上海天壤智能科技有限公司 | 基于深度学习的图像文字识别方法、系统及介质 |
-
2021
- 2021-08-05 CN CN202110895232.8A patent/CN113344003B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113344003A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113344003B (zh) | 目标检测方法及装置、电子设备和存储介质 | |
CN111798400B (zh) | 基于生成对抗网络的无参考低光照图像增强方法及系统 | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
WO2019213459A1 (en) | System and method for generating image landmarks | |
CN111476719B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
JP2020173782A (ja) | 画像エンコーディング方法及び装置並びに画像デコーディング方法及び装置 | |
CN114677412B (zh) | 一种光流估计的方法、装置以及设备 | |
CN112507990A (zh) | 视频时空特征学习、抽取方法、装置、设备及存储介质 | |
CN113792741B (zh) | 文字识别方法、装置、设备及存储介质 | |
CN113706686A (zh) | 一种三维点云重建结果补全方法及相关组件 | |
RU2665273C2 (ru) | Обучаемые визуальные маркеры и способ их продуцирования | |
CN112884802B (zh) | 一种基于生成的对抗攻击方法 | |
CN114140831B (zh) | 人体姿态估计方法、装置、电子设备及存储介质 | |
CN115019135A (zh) | 模型训练、目标检测方法、装置、电子设备及存储介质 | |
CN116843834A (zh) | 一种三维人脸重建及六自由度位姿估计方法、装置及设备 | |
CN116993926B (zh) | 单视图人体三维重建方法 | |
CN110659641A (zh) | 一种文字识别的方法、装置及电子设备 | |
CN115222947B (zh) | 基于全局自注意力变换网络的岩石节理分割方法和装置 | |
CN114820755B (zh) | 一种深度图估计方法及系统 | |
CN115631343A (zh) | 基于全脉冲网络的图像生成方法、装置、设备及存储介质 | |
CN116095321A (zh) | 显著性区域图像编解码方法、系统、设备及存储介质 | |
CN116012662A (zh) | 特征编解码方法、编解码器的训练方法、设备和介质 | |
CN115565108A (zh) | 一种基于解耦自监督的视频伪装和显著性对象检测方法 | |
CN115331301A (zh) | 一种基于Transformer的6D姿态估计方法 | |
CN110490235B (zh) | 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Target detection method and device, electronic equipment and storage medium Effective date of registration: 20220727 Granted publication date: 20211102 Pledgee: Xiamen International Bank Co.,Ltd. Beijing Branch Pledgor: BEIJING LLVISION TECHNOLOGY Co.,Ltd. Registration number: Y2022990000481 |