CN113869138A - 多尺度目标检测方法、装置及计算机可读存储介质 - Google Patents

多尺度目标检测方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN113869138A
CN113869138A CN202111038815.5A CN202111038815A CN113869138A CN 113869138 A CN113869138 A CN 113869138A CN 202111038815 A CN202111038815 A CN 202111038815A CN 113869138 A CN113869138 A CN 113869138A
Authority
CN
China
Prior art keywords
model
scale
images
feature extraction
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111038815.5A
Other languages
English (en)
Inventor
陈海波
高春洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyan Technology Beijing Co ltd
Original Assignee
Shenyan Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyan Technology Beijing Co ltd filed Critical Shenyan Technology Beijing Co ltd
Priority to CN202111038815.5A priority Critical patent/CN113869138A/zh
Publication of CN113869138A publication Critical patent/CN113869138A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种多尺度目标检测方法、装置、电子设备及计算机可读存储介质,所述方法包括:获取包括自然场景的多个图像并对多个图像进行数据处理,以生成训练样本集合;建立并使用训练样本集合训练多尺度特征提取模型,使得训练完成的多尺度特征提取模型能够识别所述图像中不同空间和不同尺度的多个特征;建立并使用训练样本集合训练detr检测模型,使得训练完成的detr检测模型能够识别图像中的多个特征;对多尺度特征提取模型和detr检测模型进行模型融合以获取融合模型,并且训练所述融合模型;以及使用训练完成的融合模型进行目标检测。解决本地操作无法掌握尺度多变的情况;提供更强大的特征提取能力和更快速的目标检测功能。

Description

多尺度目标检测方法、装置及计算机可读存储介质
技术领域
本申请涉及计算机视觉技术和目标检测技术领域,尤其涉及一种多尺度的识别方法、装置、电子设备及计算机可读存储介质。
背景技术
机器视觉检测技术作为当今工业中的一项重要技术,被广泛应用于基于内容的图像检索、汽车安全、视频监控和机器人技术等各大领域,并且随着技术的发展,机器视觉检测技术被应用于越来越多的领域,以满足不断提升的市场需求。
计算机视觉对于目标运动的分析可以大致分为三个层次:运动分割,目标检测;目标跟踪;动作识别,行为描述。其中,目标检测既是计算机视觉领域要解决的基础任务之一,同时它也是视频监控技术的基本任务。由于视频中的目标具有不同姿态且经常出现遮挡、其运动具有不规则性,同时考虑到监控视频的景深、分辨率、天气、光照等条件和场景的多样性,而且目标检测算法的结果将直接影响后续的跟踪、动作识别和行为描述的效果。故即使在技术发展的今天,目标检测这一基本任务仍然是非常具有挑战性的课题,存在很大的提升潜力和空间。。
发明内容
本申请的目的在于提供更加稳定、准确率更高的目标检测方法、装置、电子设备及计算机可读存储介质,其基于深度学习的方法,应用广泛。
本申请的目的采用以下技术方案实现:
第一方面,本申请提供了一种多尺度目标检测方法,所述方法包括:获取包括自然场景的多个图像并对所述多个图像进行数据处理,以生成训练样本集合;建立并使用所述训练样本集合训练多尺度特征提取模型,使得训练完成的所述多尺度特征提取模型能够识别所述图像中不同空间和不同尺度的多个特征;建立并使用所述训练样本集合训练detr检测模型,使得训练完成的所述detr检测模型能够识别所述图像中的多个特征;对所述多尺度特征提取模型和所述detr检测模型进行模型融合以获取融合模型,并且训练所述融合模型;以及使用训练完成的所述融合模型进行目标检测。
该技术方案的有益效果在于,在特征金字塔网络中加入了多尺度识别模块来解决本地操作无法掌握尺度多变的情况,为多有的特征层带去更丰富的信息。而且,通过进行特征强融合,在一阶段的情况下,提供更强大的特征提取能力和更快速的目标检测功能。
在一些可选的实施例中,所述多尺度目标检测方法,包括:所述数据处理包括:使得获得的所述多个图像的大小符合所述特征提取模型和所述注意力机制模型的输入需求;对所述多个图像进行对比度增强处理;以及以对所述多个图像进行多样性扩展的方式扩展所述多个图像的数量。该技术方案的有益效果在于,通过对图像进行各种处理,能够丰富数据集的信息,从而更全面地对构建的模型进行训练,使得训练后的模型能够更准确地进行目标识别。
在一些可选的实施例中,在所述方法种,所述多个图像进行对比度增强处理具体包括:以RGB图像的格式使用所述多个图像以对所述多尺度特征提取模型和所述detr检测模型进行训练,并且根据训练结果对所述多个图像进行RGB归一化。该技术方案的有益效果在于,使得训练后的模型能够不受图像中光照变化和阴影的影响,提高对目标的检测准确度。
在一些可选的实施例中,在所述方法中,对所述多个图像进行多样性扩展具体包括:对所述图像进行镜像翻转;对所述图像进行随机剪裁;以及所述多个图像彼此之间的拼贴。该技术方案的有益效果在于,对图像数据进行了数据增强,使得能够丰富训练样本,从而更好地训练模型。
在一些可选的实施例中,在所述方法中,建立所述多尺度特征提取模型具体包括:利用CNN网络构建特征金字塔;对所述特征金字塔进行同层级non-local交互,以捕获同一层级的特征图上的共现的目标特征;对所述特征金字塔进行自上向下的跨层级non-local交互,以将高层级特征图中的概念融进低层级的像素中;以及对所述特征金字塔进行自下向上的跨层级non-local交互,以合并所述低层级中的视觉属性来呈现高层级的概念。该技术方案的有益效果在于,通过以同层级交互、自上向下的跨层级交互以及自下向上的跨层级交互这三种跨空间、跨尺度的交互方式对特征金字塔进行转换,使得转换后得到的特征金字塔大小不变但带有更丰富的上下文信息,实现对自然场景中的目标的多尺度目标检测。
在一些可选的实施例中,所述方法还包括:在约束的区域内对所述特征金字塔进行自上向下的跨层级交互。该技术方案的有益效果在于,缩小了语义分割的范围,避免进行不必要的跨尺度交互,提高交互效率。
在一些可选的实施例中,在所述方法中,建立的所述detr检测模型具体包括:特征提取网络,用于提取图像中的特征;编码器,用于对图像进行编码以得到多个物体编码后的特征;解码器,用于并行解码所述多个物体;以及匹配器,使用二元匹配将真实框与解码后得到的预测框进行匹配,以得到识别结果。该技术方案的有益效果在于,采用基于transformer的编码-解码器的架构和进行二元匹配的集合损失函数实现对模型的端对端训练,以使得模型能够一次地直接预测多个检测目标,从而大大提高检测速度。
在一些可选的实施例中,所述方法还包括:在训练所述融合模型的过程中,随机扩张所述图片的大小。该技术方案的有益效果在于,能够丰富训练样本,提高模型检测能力。
第二方面,本申请提供了一种多尺度目标检测装置,所述装置包括:数据处理模块,用于获取包括自然场景的多个图像并对所述多个图像进行数据处理,以生成训练样本集合;多尺度特征提取模块,建立并使用所述训练样本集合训练多尺度特征提取模型,使得训练完成的所述多尺度特征提取模型能够识别所述图像中不同空间和不同尺度的多个特征;detr检测模块,建立并使用所述训练样本集合训练detr检测模型,使得训练完成的所述detr检测模型能够识别所述图像中的多个特征;模型融合模块,用于对所述多尺度特征提取模型和所述detr检测模型进行模型融合以获取融合模型,并且训练所述融合模型;以及目标检测模块,用于使用训练完成的所述融合模型进行目标检测。
在一些可选的实施例中,所述数据处理模块包括:图像尺寸处理模块,用于使得获得的所述多个图像的大小符合所述特征提取模型和所述注意力机制模型的输入需求;对比度处理模块,用于对所述多个图像进行对比度增强处理;以及多样性扩展模块,用于对所述多个图像进行多样性扩展的方式扩展所述多个图像的数量。
在一些可选的实施例中,在所述对比度处理模块中,以RGB图像的格式使用所述多个图像以对所述多尺度特征提取模型和所述detr检测模型进行训练,并且根据训练结果对所述多个图像进行RGB归一化。
在一些可选的实施例中,在所述多样性扩展模块中能够实现如下操作:对所述图像进行镜像翻转;对所述图像进行随机剪裁;以及所述多个图像彼此之间的拼贴。
在一些可选的实施例中,所述多尺度特征提取模块包括:利用CNN网络构建的特征金字塔,用于对图像进行特征提取;同层级交互模块,用于对所述特征金字塔进行同层级non-local交互,以捕获同一层级的特征图上的共现的目标特征;低层级增强模块,用于对所述特征金字塔进行自上向下的跨层级non-local交互,以将高层级特征图中的概念融进低层级的像素中;以及高层级渲染模块,用于对所述特征金字塔进行自下向上的跨层级non-local交互,以合并所述低层级中的视觉属性来呈现高层级的概念。
在一些可选的实施例中,在所述低层级增强模块中,在约束的区域内对所述特征金字塔进行自上向下的跨层级交互
在一些可选的实施例中,所述detr检测模块包括:特征提取网络,用于提取图像中的特征;编码器,用于对图像进行编码以得到多个物体编码后的特征;解码器,用于并行解码所述多个物体;以及匹配器,使用二元匹配将真实框与解码后得到的预测框进行匹配,以得到识别结果。
在一些可选的实施例中,所述模型融合模块包括训练模块,该训练模块随机扩张所述图片的大小来训练融合的模型。
第三方面,本申请提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项方法的步骤。
附图说明
下面结合附图和实施例对本申请进一步说明。
图1是本申请实施例提供的一种多尺度目标检测方法的流程图;
图2是本申请实施例提供的一种图像数据处理的流程图;
图3是本申请实施例提供的一种建立多尺度特征提取模型的流程图;
图4是本申请实施例提供的一种建立多尺度特征提取模型的流程示意图;
图5是用于说明建立多尺度特征提取模型的过程示意图;
图6是本申请实施例提供的一种单层detr监测模型的结构图;
图7是本申请实施例提供的一种多尺度目标检测装置的结构示意图;
图8是本申请实施例提供的一种多尺度目标检测装置的数据处理模块的结构示意图;
图9是本申请实施例提供的一种电子设备的结构示意图;
图10是本申请实施例提供的一种用于实现多尺度目标检测方法的程序产品的结构示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本申请做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
参见图1,本申请实施例提供了一种多尺度目标检测方法,所述方法包括步骤S1~S5。
步骤S1:获取包括自然场景的多个图像并对所述多个图像进行数据处理,以生成训练样本集合。具体地,例如基于COCO视频数据获取包括自然场景的数据,即多个图像。
在具体实施中,参见图2,所述步骤S1可以包括步骤S101~S103。
步骤S101:使得获得的所述多个图像的大小符合所述特征提取模型和所述注意力机制模型的输入需求。例如根据模型输入需求将图像处理为最大边不超过1400,最短边不超过800,并且在训练过程中可以随机改变图片的大小。
步骤S102:对所述多个图像进行对比度增强处理。例如,对于后文所述的两种模型,采用RGB图进行训练实验,对RGB图像进行归一化,并进一步作对比度增强处理。
步骤S103:以对所述多个图像进行多样性扩展的方式扩展所述多个图像的数量。增强方式例如包括将整个图像进行镜像翻转,对整个图像在每一帧随机剪裁部分图像,以及图像数据之间的复制粘贴操作等。
由此,通过对图像进行各种处理,能够丰富数据集的信息,从而更全面地对构建的模型进行训练,使得训练后的模型能够更准确地进行目标识别。
步骤S2:建立并使用所述训练样本集合训练多尺度特征提取模型,使得训练完成的所述多尺度特征提取模型能够识别所述图像中不同空间和不同尺度的多个特征。具体过程如下所述。
如图3所示,步骤S2包括步骤S201~S204,其中,S201:利用CNN网络构建特征金字塔。
如图4所示,利用CNN网络可以构建一个特征金字塔(图4中的(a)),其中细粒度/粗粒度特征图分别处于低层级(图中c层)/高层级(图中a层),图中“Conv”表示3×3卷积。后文中,低层级的细粒度特征图用Xf表示,高层级的粗粒度特征图用Xc表示。然后,对各层级的特征图进行non-local(非局部)操作并且输出尺度相同的转换后的各层级特征图,以实现远程交互。
经典的non-local交互是对单个特征图X的queries(Q)、keys(K)和values(V)进行操作,输出尺度相同的转换后的X’。Non-local交互可用如下公式(1)表示:
输入:qi,kj,vj
相似度:si,j=Fsim(qi,kj)
权重:ωi,j=Fnom(si,j)
输出:X′i=Fmuli,j,vj) (1)
其中,qi=fq(Xi)∈Q是第i个query,kj=fk(Xj)∈K和vj=fv(Xj)∈V是第j个key/value,fq()、fk()和fv()是query、key和value的转换函数。Xi和Xj是X中第i个和第j个特征位置。Fsim是相似度函数(点积或高斯嵌入),Fnom是归一化函数(默认为softmax),Fmul是权重聚合函数(默认为矩阵相乘),X’i是转换后的特征图X’的第i个位置。
S202:利用同层级转换器(Self-Transformer,见图5(a))对所述特征金字塔进行同层级non-local交互,以捕获同一层级的特征图上的共现的目标特征。
Self-Transformer(后文有时简称“ST”)的目的是捕获在一个特征图上共现的目标特征。ST是一种改进的non-local,输出特征图X’与输入X的尺度相同。和原本不同的是,其中部署了一个混合softmaxes(MoS)作为归一化函数Fmos,这比标准的Softmax在图像上更有效。并且其中将qi和kj分为N块,然后计算每一块的相似度分数sn i,j,基于MoS的归一化函数Fmos如下公式2所示:
Figure BDA0003248433040000071
Sn i,j是第n块的相似度分数。πn是第n个聚合权重,等于Softmax(wT nk),wn是一个可学习的用于归一化的线性向量,k是所有kj的算术平均数。基于Fmos,公式1可以重新表示为:
输入:
Figure BDA0003248433040000081
相似度:
Figure BDA0003248433040000082
权重:
Figure BDA0003248433040000083
输出:X′i=Fmul(wi,j,vj), (3)
S203:利用低层级增强交换器(Grounding-Transformer,后文有时简称为“GT”)对所述特征金字塔进行自上向下的跨层级non-local交互,以将高层级特征图中的概念融进低层级的像素中
GT是一种自上而下的non-local交互,将高层特征图Xc中的概念融进低层级Xf的像素中。输出X’f和Xf的尺度相同。通常不同尺度的图像特征会提取出不同的语义或上下文信息,或者两者都是。并且当两个特征图的语义信息不同时,欧氏距离的负值Feud在计算相似度时会比点积更有效。所以在本实施例中,使用Feud作为相似度函数,表示为:
Feud(qi,kj)=-||qi-kj||2 (4)
其中
Figure BDA0003248433040000084
Figure BDA0003248433040000085
是Xf中的第i个特征位置,
Figure BDA0003248433040000086
是Xc中的第j个位置,作者即将相似度函数替换为Feud,式子又变为:
输入:
Figure BDA0003248433040000087
相似度:
Figure BDA0003248433040000088
权重:
Figure BDA0003248433040000089
输出:
Figure BDA00032484330400000810
其中,
Figure BDA00032484330400000811
Figure BDA00032484330400000812
是X’f的第i个转换后的特征位置。根据上式,每一对qi和kj距离越近,其权重越大,与点积的结果相比,使用Feud在自上而下的交互中带来了明显的改进。
在特征金字塔中,高/低层级的特征图包含了大量的全局/局部图像信息。而对跨尺度特征交互的语义分割,是无需使用全局信息对图像中的两个目标进行分割的。Query位置附近的局部区域内的上下文会包含更多的信息。如图5(b)所示,它们本质上是隐式的局部模式。因此当前默认的GT是全局交互。
因此,在优选的实施例中引入了一个GT的位置约束版本,称为位置约束GT(LGT,见图5(c)),用于语义分割,这是一个显式的局部特征交互。如图5(d)所示,每个qi(即底层特征图上的网格)与一部分在中心坐标与qi相同、边长为正方形的局部正方形区域内的kj和vj交互(高层级特征图上的网格)。对于超出索引的kj和vj位置,记为0值。
S204:使用高层级渲染转换器(Rendering-Transformer,后文有时称为“RT”)对所述特征金字塔进行自下向上的跨层级non-local交互,以合并所述低层级中的视觉属性来呈现高层级的概念。
RT以自下而上的方式工作,通过合并低层级中的视觉属性来呈现高层级的概念,如图5(d)所示,RT是一种局部交互,有考虑到用来自另一个遥远对象的特性或属性来呈现一个对象是没有意义的。
在本实施例中,RT不是按像素进行的,而是对于整个特征图。例如,将高层级的特征图定义为Q;将低层级特征图定义为K和V。为了突出显示渲染目标,Q和K之间的交互逐通道进行。K首先通过全局平均池化(GAP)计算Q的权重w。然后,加权后的Q(即Qatt)经3×3卷积进行细化,V经一个3×3卷积减小特征图大小(图5(d)中的中间正方形)。最后将精细化的Qatt和下采样的V(即Vdow)求和,并通过另一个3×3卷积进行处理以进行渲染。提出的RT可以如下表示:
输入:Q,K,V
权重:w=GAP(K)
权重Query:Qatt=Fatt(Q,w)
下采样Value:Vdow=Fsconv(V)
输出:X′c=Fadd(Fconv(Qatt),Vdow) (6)
其中,Fatt()是一个外积函数,Fsconv()是一个3×3的步长卷积,当Q和V的尺度相等时步长为1,Fconv()是一个用于精细化的3×3卷积,Fadd()是带着一个3×3卷积的求和函数,X’c表示RT的输出特征图。
以上,建立了多尺度的特征提取模型。
下面描述一阶段的注意力机制模型Detr的设计。
步骤S3:建立并使用所述训练样本集合训练detr金字塔检测模型,使得训练完成的所述detr检测模型能够识别所述图像中的多个特征。Detr金字塔模型结构如图6所示。
步骤S3具体包括步骤S301~S304。
S301:利用CNN建立特征提取网络,用于提取图像中的特征。例如使用CNN主干网络(ResNet)提取一些特征。
S302:建立编码器,用于对图像进行编码以得到多个物体编码后的特征。具体地,将提取的特征降维到d×HW。特征降维之后与空间位置编码相加,然后被送到编码器里。
为了体现图像在x和y维度上的信息,分别计算两个维度的位置编码,然后Cat(结合)到一起,代码如下:
pos_x=torch.stack((pos_x[:,:,:,0::2].sin(),pos_x[:,:,:,1::2].cos()),dim=4).flatten(3)
pos_y=torch.stack((pos_y[:,:,:,0::2].sin(),pos_y[:,:,:,1::2].cos()),dim=4).flatten(3)
pos=torch.cat((pos_y,pos_x),dim=3).permute(0,3,1,2)
Encoder最后得到对N个物体编码后的特征。
S303:建立解码器,用于并行解码所述多个物体。Detr解码器的结构与Transformer类似,区别在于解码器并行解码N个物体。每个解码器有两个输入:一路是物体Query(或者是上一个解码器的输出),另一路是编码器的结果。其中物体Query是一组模型学到的参数的权重。
S304:建立匹配器,使用二元匹配(Bipartite Matching)将真实框与解码后得到的预测框进行匹配,以得到识别结果。
以上完成了Detr检测模型的构建。
随后,步骤S4:对所述多尺度特征提取模型和所述detr检测模型进行模型融合以获取融合模型,并且训练所述融合模型,并使用训练完成的所述融合模型进行目标检测。其中,在训练过程中可随机地改变图像的大小。
由此,在特征金字塔网络中加入了多尺度识别模块来解决本地操作无法掌握尺度多变的情况,为多有的特征层带去更丰富的信息。而且,通过进行特征强融合,在一阶段的情况下,提供更强大的特征提取能力和更快速的目标检测功能。
参见图7,本申请实施例还提供了一种多尺度目标检测装置,其具体实现方式与上述方法的实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。
所述装置包括:数据处理模块101,用于获取包括自然场景的多个图像并对多个图像进行数据处理,以生成训练样本集合;多尺度特征提取模块102,建立并使用训练样本集合训练多尺度特征提取模型,使得训练完成的多尺度特征提取模型能够识别图像中不同空间和不同尺度的多个特征;detr检测模块103,建立并使用所述训练样本集合训练一阶段的注意力机制模型detr,使得训练完成的detr检测模型能够识别图像中的多个特征;模型融合模块104,用于对多尺度特征提取模型和detr检测模型进行模型融合以获取融合模型,并且训练融合模型;以及目标检测模块105,用于使用训练完成的融合模型进行目标检测。
参见图8,在具体实施中,所述数据处理模块101可以包括:图像尺寸处理模块,用于使得获得的多个图像的大小符合特征提取模型和detr检测模型的输入需求;对比度处理模块,用于对所述多个图像进行对比度增强处理;以及多样性扩展模块,用于对多个图像进行多样性扩展的方式扩展多个图像的数量。
在一优选实施例中,在对比度处理模块中,以RGB图像的格式使用多个图像以对多尺度特征提取模型和detr检测模型进行训练,并且根据训练结果对多个图像进行RGB归一化。
在一优选实施例中,在多样性扩展模块中能够实现如下操作:对图像进行镜像翻转;对图像进行随机剪裁;以及多个图像彼此之间的拼贴。
在一优选实施例中,多尺度特征提取模块102包括:利用CNN网络构建的特征金字塔FPN,用于对图像进行特征提取;同层级交互模块Self-Transformer,用于对特征金字塔进行同层级non-local交互,以捕获同一层级的特征图上的共现的目标特征;低层级增强模块Grounding-Transformer,用于对特征金字塔进行自上向下的跨层级non-local交互,以将高层级特征图中的概念融进低层级的像素中;以及高层级渲染模块Rendering-Transformer,用于对特征金字塔进行自下向上的跨层级non-local交互,以合并所述低层级中的视觉属性来呈现高层级的概念。
在一优选实施例中,在低层级增强模块中,在约束的区域内对所述特征金字塔进行自上向下的跨层级交互。
在一优选实施例中,detr检测模块包括103:特征提取网络,用于提取图像中的特征;编码器,用于对图像进行编码以得到多个物体编码后的特征;解码器,用于并行解码多个物体;以及匹配器,使用二元匹配将真实框与解码后得到的预测框进行匹配,以得到识别结果。
在一优选实施例中,所述模型融合模块104包括训练模块,该训练模块随机扩张所述图片的大小来训练融合的模型,使得训练后的模型能够识别包括自然场景的图像中的所有物体及它们之间的关系。
以上说明了根据本发明的多尺度目标检测装置。
参见图9,本申请实施例还提供了一种电子设备200,电子设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。
存储器210可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)211和/或高速缓存存储器212,还可以进一步包括只读存储器(ROM)213。
其中,存储器210还存储有计算机程序,计算机程序可以被处理器220执行,使得处理器220执行本申请实施例中上述任一项方法的步骤,其具体实现方式与上述方法的实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。存储器210还可以包括具有一组(至少一个)程序模块215的程序/实用工具214,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
相应的,处理器220可以执行上述计算机程序,以及可以执行程序/实用工具214。
总线230可以为表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信,还可与一个或者多个能够与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质用于存储计算机程序,所述计算机程序被执行时实现本申请实施例中上述任一项方法的步骤,其具体实现方式与上述方法的实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。图10示出了本实施例提供的用于实现上述方法的程序产品300,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品300不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言诸如Java、C++等,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本申请从使用目的上,效能上,进步及新颖性等观点进行阐述,其设置有的实用进步性,已符合专利法所强调的功能增进及使用要件,本申请以上的说明及附图,仅为本申请的较佳实施例而已,并非以此局限本申请,因此,凡一切与本申请构造,装置,特征等近似、雷同的,即凡依本申请专利申请范围所作的等同替换或修饰等,皆应属本申请的专利申请保护的范围之内。

Claims (10)

1.一种多尺度目标检测方法,其特征在于,所述方法包括:
获取包括自然场景的多个图像并对所述多个图像进行数据处理,以生成训练样本集合;
建立并使用所述训练样本集合训练多尺度特征提取模型,使得训练完成的所述多尺度特征提取模型能够识别所述图像中不同空间和不同尺度的多个特征;
建立并使用所述训练样本集合训练detr检测模型,使得训练完成的所述det r检测模型能够识别所述图像中的多个特征;
对所述多尺度特征提取模型和所述detr检测模型进行模型融合以获取融合模型,并且训练所述融合模型;以及
使用训练完成的所述融合模型进行目标检测。
2.根据权利要求1所述的多尺度目标检测方法,其特征在于,
所述数据处理包括:
使得获得的所述多个图像的大小符合所述特征提取模型和所述注意力机制模型的输入需求;
对所述多个图像进行对比度增强处理;以及
以对所述多个图像进行多样性扩展的方式扩展所述多个图像的数量。
3.根据权利要求2所述的多尺度目标检测方法,其特征在于,
对所述多个图像进行对比度增强处理具体包括:
以RGB图像的格式使用所述多个图像以对所述多尺度特征提取模型和所述detr检测模型进行训练,并且
根据训练结果对所述多个图像进行RGB归一化。
4.根据权利要求2所述的多尺度目标检测方法,其特征在于,
对所述多个图像进行多样性扩展具体包括:
对所述图像进行镜像翻转;
对所述图像进行随机剪裁;以及
所述多个图像彼此之间的拼贴。
5.根据权利要求1至4的任意一项所述的多尺度目标检测方法,其特征在于,
建立所述多尺度特征提取模型具体包括:
利用CNN网络构建特征金字塔;
对所述特征金字塔进行同层级non-local交互,以捕获同一层级的特征图上的共现的目标特征;
对所述特征金字塔进行自上向下的跨层级non-local交互,以将高层级特征图中的概念融进低层级的像素中;以及
对所述特征金字塔进行自下向上的跨层级non-local交互,以合并所述低层级中的视觉属性来呈现高层级的概念。
6.根据权利要求5所述的多尺度目标检测方法,其特征在于,
在约束的区域内对所述特征金字塔进行自上向下的跨层级交互。
7.根据权利要求1至4的任意一项所述的多尺度目标检测方法,其特征在于,
建立所述detr检测模型具体包括:
建立特征提取网络,用于提取图像中的特征;
建立编码器,用于对图像进行编码以得到多个物体编码后的特征;
建立解码器,用于并行解码所述多个物体;以及
建立匹配器,使用二元匹配将真实框与解码后得到的预测框进行匹配,以得到识别结果。
8.根据权利要求1至4的任意一项所述的多尺度目标检测方法,其特征在于,
在训练所述融合模型的过程中,随机扩张所述图片的大小。
9.一种多尺度目标检测装置,其特征在于,所述装置包括:
数据处理模块,用于获取包括自然场景的多个图像并对所述多个图像进行数据处理,以生成训练样本集合;
多尺度特征提取模块,建立并使用所述训练样本集合训练多尺度特征提取模型,使得训练完成的所述多尺度特征提取模型能够识别所述图像中不同空间和不同尺度的多个特征;
detr检测模块,建立并使用所述训练样本集合训练detr检测模型,使得训练完成的所述detr检测模型能够识别所述图像中的多个特征;
模型融合模块,用于对所述多尺度特征提取模型和所述detr检测模型进行模型融合以获取融合模型,并且训练所述融合模型;以及
目标检测模块,用于使用训练完成的所述融合模型进行目标检测。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
CN202111038815.5A 2021-09-06 2021-09-06 多尺度目标检测方法、装置及计算机可读存储介质 Pending CN113869138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111038815.5A CN113869138A (zh) 2021-09-06 2021-09-06 多尺度目标检测方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111038815.5A CN113869138A (zh) 2021-09-06 2021-09-06 多尺度目标检测方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113869138A true CN113869138A (zh) 2021-12-31

Family

ID=78989648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111038815.5A Pending CN113869138A (zh) 2021-09-06 2021-09-06 多尺度目标检测方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113869138A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115170536A (zh) * 2022-07-22 2022-10-11 北京百度网讯科技有限公司 图像检测方法、模型的训练方法和装置
CN115565006A (zh) * 2022-06-28 2023-01-03 哈尔滨学院 一种智能图像处理方法、电子设备及存储介质
CN116452972A (zh) * 2023-03-17 2023-07-18 兰州交通大学 一种基于Transformer端到端的遥感图像车辆目标检测方法
CN116469059A (zh) * 2023-06-20 2023-07-21 松立控股集团股份有限公司 一种基于detr的停车场出入口车辆积压检测方法
CN117226854A (zh) * 2023-11-13 2023-12-15 之江实验室 一种夹取任务的执行方法、装置、存储介质及电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565006A (zh) * 2022-06-28 2023-01-03 哈尔滨学院 一种智能图像处理方法、电子设备及存储介质
CN115565006B (zh) * 2022-06-28 2023-08-11 哈尔滨学院 一种智能图像处理方法、电子设备及存储介质
CN115170536A (zh) * 2022-07-22 2022-10-11 北京百度网讯科技有限公司 图像检测方法、模型的训练方法和装置
CN115170536B (zh) * 2022-07-22 2023-05-05 北京百度网讯科技有限公司 图像检测方法、模型的训练方法和装置
CN116452972A (zh) * 2023-03-17 2023-07-18 兰州交通大学 一种基于Transformer端到端的遥感图像车辆目标检测方法
CN116469059A (zh) * 2023-06-20 2023-07-21 松立控股集团股份有限公司 一种基于detr的停车场出入口车辆积压检测方法
CN117226854A (zh) * 2023-11-13 2023-12-15 之江实验室 一种夹取任务的执行方法、装置、存储介质及电子设备
CN117226854B (zh) * 2023-11-13 2024-02-02 之江实验室 一种夹取任务的执行方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
US11610384B2 (en) Zero-shot object detection
US11373390B2 (en) Generating scene graphs from digital images using external knowledge and image reconstruction
CN113869138A (zh) 多尺度目标检测方法、装置及计算机可读存储介质
EP3399460B1 (en) Captioning a region of an image
WO2021093435A1 (zh) 语义分割网络结构的生成方法、装置、设备及存储介质
WO2022105125A1 (zh) 图像分割方法、装置、计算机设备及存储介质
GB2571825A (en) Semantic class localization digital environment
JP2023541532A (ja) テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
JP7286013B2 (ja) ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス
AU2016201908A1 (en) Joint depth estimation and semantic labeling of a single image
CN111210446B (zh) 一种视频目标分割方法、装置和设备
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
US20220292805A1 (en) Image processing method and apparatus, and device, storage medium, and image segmentation method
CN115147598B (zh) 目标检测分割方法、装置、智能终端及存储介质
CN111935487B (zh) 一种基于视频流检测的图像压缩方法及系统
CN114429566A (zh) 一种图像语义理解方法、装置、设备及存储介质
US20220270341A1 (en) Method and device of inputting annotation of object boundary information
WO2022222854A1 (zh) 一种数据处理方法及相关设备
CN116304307A (zh) 一种图文跨模态检索网络训练方法、应用方法及电子设备
CN111401309A (zh) 基于小波变换的cnn训练和遥感图像目标识别方法
CN114708436B (zh) 语义分割模型的训练方法、语义分割方法、装置和介质
CN115272768A (zh) 内容识别方法、装置、设备、存储介质及计算机程序产品
WO2022165132A1 (en) Keypoint based action localization
Jokela Person counter using real-time object detection and a small neural network
CN113421267A (zh) 一种基于改进PointConv的点云语义与实例联合分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination