CN113313201A - 基于Swin Transformer和ZED摄像头的多目标检测和测距方法 - Google Patents

基于Swin Transformer和ZED摄像头的多目标检测和测距方法 Download PDF

Info

Publication number
CN113313201A
CN113313201A CN202110685876.4A CN202110685876A CN113313201A CN 113313201 A CN113313201 A CN 113313201A CN 202110685876 A CN202110685876 A CN 202110685876A CN 113313201 A CN113313201 A CN 113313201A
Authority
CN
China
Prior art keywords
swin
target
target detection
transformer
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110685876.4A
Other languages
English (en)
Inventor
程伟国
周伯荣
邝文腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Wave Smart Technology Co ltd
Original Assignee
Nanjing Wave Smart Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Wave Smart Technology Co ltd filed Critical Nanjing Wave Smart Technology Co ltd
Priority to CN202110685876.4A priority Critical patent/CN113313201A/zh
Publication of CN113313201A publication Critical patent/CN113313201A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/14Measuring arrangements characterised by the use of optical techniques for measuring distance or clearance between spaced objects or spaced apertures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • G06T2207/20032Median filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于Swin Transformer和ZED摄像头的多目标检测和测距方法,该方法包括以下步骤:S1、采用预设的训练超参数对SwinTransformer目标检测器进行训练,得到Swin Transformer目标检测模型;S2、利用Swin Transformer目标检测模型和ZED摄像头实现多目标的实时检测及测距。有益效果:本发明融合Swin Transformer目标检测和ZED双目测距,有效地解决了终端设备实时实现多目标检测和多目标测距的难点,相比于传统的检测和测距方法,该方法能对目标进行快速、智能化检测与提取,并计算目标距离,适用于小车避障、无人机跟踪等工业场景。

Description

基于Swin Transformer和ZED摄像头的多目标检测和测距 方法
技术领域
本发明涉及视频图像处理以及目标检测技术领域,具体来说,涉及基于SwinTransformer和ZED摄像头的多目标检测和测距方法。
背景技术
现代机器人的性能得到了不断地发展和提高,现在机器人已经广泛应用于工业生产、军事、生活服务、未知环境探索和支援救灾等各种领域。机器人能够对其所处的环境进行充分的认识,不仅仅具有感觉功能而且还具有自适应能力,能够结合自身判断和给定的指令确定合适的动作行为,其本质类似于一个不断完善的知识信息系统。智能机器人具有与外界环境相协调的能力,而其视觉系统正是这一能力所需要的关键部分。
双目是类人型机器人的必备装置,其对于机器人获取外部世界信息具有至关重要的作用。基于双目机器人的动态目标检测与跟踪系统,可以通过双目实时的定位外界目标,进而可以利用机器人运动控制算法对动态目标进行追踪。上述过程的关键正在于动态目标的精确定位,而基于视觉的动态目标检测与测距技术又是目标定位的关键所在,所以研究动态目标检测与测距技术尤为重要。
发明内容
针对相关技术中的问题,本发明提出基于Swin Transformer和ZED摄像头的多目标检测和测距方法,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
基于Swin Transformer和ZED摄像头的多目标检测和测距方法,该方法包括以下步骤:
S1、采用预设的训练超参数对Swin Transformer目标检测器进行训练,得到SwinTransformer目标检测模型;
S2、利用Swin Transformer目标检测模型和ZED摄像头实现多目标的实时检测及测距。
进一步的,所述S1中采用预设的训练参数对Swin Transformer目标检测器进行训练,得到Swin Transformer目标检测模型包括以下步骤:
S11、制作数据集:下载COCO数据集,将数据集打乱,并按照7:2:1比例抽取得到训练集、验证集及测试集;
S12、数据扩充:采用基础的图像扩充方式对训练数据进行扩充;
S13、设定训练超参数:设置Swin Transformer目标检测器的训练超参数;
S14、模型训练:根据训练超参数和制作好的数据集对Swin Transformer目标检测器进行训练,得到Swin Transformer目标检测模型。
进一步的,所述S12中对训练数据进行扩充包括:裁剪、随机旋转、水平翻转、颜色变换及针对目标裁剪策略的几种扩充方式;
所述S13中设置Swin Transformer目标检测器的训练超参数包括:训练每批图像数量、输入图像宽度、图像高度、图像通道数、冲量、初始学习率、权重衰减系数、学习率调整参数、最大迭代次数、优化器以及阈值。
进一步的,所述S2中利用Swin Transformer目标检测模型和ZED摄像头实现多目标的实时检测及测距包括以下步骤:
S21、初始化:对摄像头参数及Swin Transformer目标检测模型进行初始化处理;
S22、读取标志位判断是否退出程序:读取键盘状态并判断是否退出程序;
S23、读取图像:利用ZED双目摄像头读取左摄像头彩色图像,送入SwinTransformer目标检测模型,并判断是否成功读取图像,若是则执行S24,若否则返回S22;
S24、目标检测:利用Swin Transformer目标检测模型读取新的图像,预测得到图像中的目标的外接框、置信度以及类别置信度信息;
S25、目标测距:根据Swin Transformer目标检测模型预测结果和ZED摄像头深度图,计算每个目标的距离实现多目标测距;
S26、显示:在原图上画出目标检测到的多目标的外接框、目标类别以及置信度,并且标记计算得到的目标距离。
进一步的,所述S21中对摄像头参数及Swin Transformer目标检测模型进行初始化处理包括以下步骤:
S211、对摄像头参数进行初始化处理;
S212、为Swin Transformer目标检测模型新建一个新的子线程;
S213、对Swin Transformer目标检测模型进行初始化处理。
进一步的,所述S211中对摄像头参数进行初始化处理具体包括以下步骤:
设置摄像头采集模式为WVGA;
设置摄像头的帧率为100;
设置采集图片的大小为672x386。
进一步的,所述S213中对Swin Transformer目标检测模型进行初始化处理具体包括:读取模型配置文件config和权重文件checkpoint。
进一步的,所述S22中读取键盘状态并判断是否退出程序包括以下步骤:
读取键盘状态,判断是否有键盘输入q或Esc,若是设置退出标志为真,关闭SwinTransformer目标检测模型,关闭子线程,退出主程序;若否则执行S23。
进一步的,所述S24中利用Swin Transformer目标检测模型读取新的图像,预测得到图像中的目标的外接框、置信度以及类别置信度信息包括以下步骤:
S241、加载Swin Transformer目标检测模型;
S242、判断退出标志是否为真,若为真则关闭Swin Transformer目标检测模型,退出线程,若为假则执行S243;
S243、判断是否有新的输入图像,若没有则延时1ms返回S242,若有新的输入图像则进入S244;
S244、图像格式转换,将Opencv3的Mat型图像转化为Swin Transformer目标检测模型的image类型;
S245、将转化过的image类型图像输入Swin Transformer目标检测模型,预测得到图像中的目标的外接框、置信度以及类别置信度信息;
S246、更改数据标志位为检测结束,传给主线程,返回S242。
进一步的,所述S25中根据Swin Transformer目标检测模型预测结果和ZED摄像头深度图,计算每个目标的距离实现多目标测距包括以下步骤:
S251、根据Swin Transformer目标检测模型预测目标框,获得目标的类别、目标框的左上角坐标以及目标长宽(x,y,w,h);
S252、利用ZED摄像头获得每个像素点距离的深度图像Dst;
S253、获取目标框左上角、右上角、左下角、右下角以及中心点的邻域3x3的深度值;
S254、对目标框左上角、右上角、左下角、右下角以及中心点深度像素进行中值滤波;
其中,滤波公式为ddst(x,y)=med{Dst(x+k,y+l),(k,l∈[-l,1])},式中ddst代表中值滤波计算结果,Dst代表深度图,med意味在集合中取中间值,x和y代表横纵坐标,k和l为横纵坐标上的遍历值,在区间[-1,1]之间;
S255、取目标框中心点滤波后的深度值作为目标的距离,实现多目标测距;
其中,深度值的公式为ddst(x+w/2,y+h/2),式中,ddst代表中值滤波计算结果,x和y代表横纵坐标,w和h为预测框的宽和高。
本发明的有益效果为:本发明提供了一种基于Swin Transformer和ZED摄像头的多目标检测及测距方法,融合Swin Transformer目标检测和ZED双目测距,有效地解决了终端设备实时实现多目标检测和多目标测距的难点;相比于传统的检测和测距方法,该方法能对目标进行快速、智能化检测与提取,并计算目标距离,适用于小车避障、无人机跟踪等工业场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的基于Swin Transformer和ZED摄像头的多目标检测和测距方法的流程示意图;
图2是根据本发明实施例的基于Swin Transformer和ZED摄像头的多目标检测和测距方法的算法示意图;
图3是根据本发明实施例的基于Swin Transformer和ZED摄像头的多目标检测和测距方法中针对目标的剪裁策略的结构示意图;
图4是根据本发明实施例的基于Swin Transformer和ZED摄像头的多目标检测和测距方法中主线程流程图;
图5是根据本发明实施例的基于Swin Transformer和ZED摄像头的多目标检测和测距方法中ZED摄像头初始化示意图;
图6是根据本发明实施例的基于Swin Transformer和ZED摄像头的多目标检测和测距方法中Swin Transformer目标检测模型初始化示意图;
图7是根据本发明实施例的基于Swin Transformer和ZED摄像头的多目标检测和测距方法中Swin Transformer检测器子线程流程图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了基于Swin Transformer和ZED摄像头的多目标检测和测距方法。
现结合附图和具体实施方式对本发明进一步说明,如图1-7所示,根据本发明实施例的基于Swin Transformer和ZED摄像头的多目标检测和测距方法,该方法包括以下步骤:
S1、采用预设的训练超参数对Swin Transformer目标检测器进行训练,得到SwinTransformer目标检测模型;
其中,所述Swin Transformer是一种以Transformer为基本单元的神经网络目标检测模型,Transformer是用以完成机器翻译等学习任务的一种全新网络结构,其完全使用注意力机制来实现序列到序列的建模,具有计算复杂度小、并行度高、容易学习长程依赖等优势。Swin Transformer通过引入卷积神经网络中常用的层次化构建方式构建层次化Transformer实现目标检测任务。
Swin Transformer模型的设计参照了卷积神经网络的分层特征表示,整个模型分为不同层,每层对上一层输出的特征图进行降采样,其中分层特征是由移动窗口计算的。移位窗口通过将自注意力计算限制在不重叠的本地窗口同时还允许跨窗口连接来提高效率。这种分层架构在各种尺度上建模具有灵活性,并且相对于图像大小也具有线性计算复杂性。预测层时采用多尺度预测,针对不同的感受野可以检测到图中大、中、小的目标物体。
Swin Transformer需要通过数据训练得到神经网络的参数。此处设置输入图像为672x386。将COCO数据集进行划分并对训练数据进行扩充,使用Swin Transformer目标检测器训练得到Swin Transformer目标检测模型,完成目标检测模型的训练。
具体的,所述S1中采用预设的训练参数对Swin Transformer目标检测器进行训练,得到Swin Transformer目标检测模型包括以下步骤:
S11、制作数据集:下载COCO数据集,将数据集打乱,并按照7:2:1的比例抽取得到训练集、验证集及测试集;
S12、数据扩充:采用基础的图像扩充方式对训练数据进行扩充;
对训练数据采用基础的几个图像扩充方式:裁剪、旋转、水平翻转以及亮度变换。并且在扩充的同时,保留目标框的标记,对于目标框发生偏移或者变换,通过公式计算对目标框的大小和坐标进行改变,保证图像变换之后能保留目标框的标记,实现自动扩充,减少人力。具体方式为:
1)样本统一尺寸:将所有的样本图片统一缩放到672x386的尺寸,便于适应实时检测图像的大小。
2)样本裁剪:如上述本方法的样本图片尺寸都会resize到672x386一个长方形大小。本方法用一个较大的长方形的框(随机指定0.8到0.9倍原图这么大)在原图的随机位置裁剪出一个图像块,这样可以保证目标大概率在裁剪的图像中,并提高模型的泛化性。
3)随机旋转:对原图在0-15度之间随机选择一个角度,让图像旋转这个角度并加入训练集。对于神经网络来说旋转的图片也是新的数据,由于在数据扩充之后还要在自动在原图之上标记,如果旋转角度过大则容易造成目标大范围的偏移,根据目标框的变换为了保障目标都能框住,所以相较于原框宽高都会大一些,当旋转角度α越大框的变化越大,造成框的误差也更大,而在15度以内框的偏移和大小变化较小,能控制外接框的误差在可控范围。
4)水平翻转:水平翻转可以使样本图扩大一倍,也可以和其他扩充方式联合使用,本方法将随机旋转的图片和镜像翻转同时使用。
5)颜色抖动:将图片转入HSV空间,在HSV颜色空间尝试随机改变图像原有的饱和度和明度(即,改变S和V通道的值)或对色调进行微调(小范围改变该通道的值)。
6)针对目标的剪裁策略:原理如图3所示,针对目标检测任务的特殊性,考虑到原图标注框的位置,在研究过程中形成了新的扩充策略:保持一定覆盖面积比并以原标注框位置为基准随机抖动。记原目标框A位置信息为[xmin,ymin,xmax,ymax],对坐标进行扩大化随机抖动后的标注框B的位置信息为[xmin-Δxmin,ymin-Δymin,xmax+Δxmax,ymax+Δymax]。当框A和大框B面积的比值大于0.5,则按框B在原图中的位置进行截取并存入训练集。
S13、设定训练超参数:设置Swin Transformer目标检测器的训练超参数;
设置良好的超参能使神经网络拟合的更快更好,训练超参数如下表1所示。一个epoch代表着将所有数据训练一遍,其中在27个epochs和33个epochs的时候学习率乘以学习率调节参数0.1降低学习率。
表1训练时超参数设定
Figure BDA0003124634870000071
Figure BDA0003124634870000081
S14、模型训练:根据训练超参数和制作好的数据集对Swin Transformer目标检测器进行训练,得到Swin Transformer目标检测模型。
S2、利用Swin Transformer目标检测模型和ZED摄像头实现多目标的实时检测及测距。
其中,基于Swin Transformer和ZED摄像头的多目标测距方法流程为:ZED摄像头实时采集图像并计算深度图,使用训练得到的模型对采集得到彩色图像预测图像中的多目标位置和目标类别,结合深度图。
ZED摄像头可以实时采集图像,目标检测和双目测距是两个不同的任务,测距需要确定目标框的位置才能给出来,原则上目标检测在双目测距之前,但目标检测所需的时间远远大于双目测距所需的时间。为保证效率提高,开一个线程做目标检测,主线程负责图像的采集、传输、测距。
主函数流程图如图4所示,首先对ZED摄像头参数和Swin Transformer目标检测模型初始化,参数的输入可通过main函数的argv传入形参,这样在linux执行程序时就可以传入所需参数。主函数的线程执行双目测距的程序,用一个while循环执行代码的主体部分,如果在键盘上输入q或Esc,程序判断有退出标志则直接退出,zed摄像头采集到新的数据则取出,并取出深度图像,根据Swin Transformer目标检测得到的目标框计算出摄像头和每个目标的距离,然后在原图上画出边界框、目标名称、识别置信度和目标的距离并显示。为方便我们有时需要对某一帧图片仔细分析,设置当按下键p时则做while循环暂停,直到再次按下键p时则继续运行。
具体的,所述S2中利用Swin Transformer目标检测模型和ZED摄像头实现多目标的实时检测及测距包括以下步骤:
S21、初始化:对摄像头参数及Swin Transformer目标检测模型进行初始化处理;
程序初始化分为两步,摄像头初始化和Swin Transformer目标检测模型初始化。摄像头初始化如图5所示,首先设置摄像头采集模式和帧率,为保证数据处理的流畅和速度,采集模式设置位WVGA,帧率设为100,采集图片的大小为672x386。
Swin Transformer目标检测模型初始化流程如图6所示,首先需要读取模型配置文件config和权重文件checkpoint,为保证程序实时采样监测,新建一个新的线程给SwinTransformer检测器,然后启动Swin Transformer检测器。每当摄像头获取图像给检测器时,Swin Transformer完成检测并返回检测结果。
S22、读取标志位判断是否退出程序:读取键盘状态并判断是否退出程序;
所述S22中读取键盘状态并判断是否退出程序包括以下步骤:读取键盘状态,判断是否有键盘输入q或Esc,若是设置退出标志为真,关闭Swin Transformer目标检测模型,关闭子线程,退出主程序;若否则执行S23。
S23、读取图像:利用ZED双目摄像头读取左摄像头彩色图像,送入SwinTransformer目标检测模型,并判断是否成功读取图像,若是则执行S24,若否则返回S22;
ZED作为双目摄像头,会根据左右两个摄像头获取彩色图像并自动计算每个像素点的深度信息,这里只需要获取左摄像头的彩色图像并送入Swin Transformer目标检测模型。
S24、目标检测:利用Swin Transformer目标检测模型读取新的图像,预测得到图像中的目标的外接框、置信度以及类别置信度信息;
Swin Transformer目标检测模型获得图像推断图像中存在哪些目标,主线程设置有数据标志位,当标志位为真时,代表Swin Transformer目标检测模型空闲中,可以输入新的图像;若标志位为假,则意味着Swin Transformer目标检测模型在忙碌,不用输入新的图像。检测子线程流程图如图7所示,具体步骤包括:
S241、加载Swin Transformer目标检测模型,需要Swin Transformer框架解释文件配置文件config;
S242、判断退出标志是否为真,若为真则关闭Swin Transformer目标检测模型,退出线程,若为假则执行S243;
S243、判断是否有新的输入图像,若没有则延时1ms返回S242,若有新的输入图像则进入S244;
S244、图像格式转换,将Opencv3的Mat型图像转化为Swin Transformer目标检测模型的image类型;
S245、将转化过的image类型图像输入Swin Transformer目标检测模型,计算得到此帧图像的多目标信息,该目标信息为一个21x12x3x(4+1+c)的张量,即将输入图像分成21x12块,每一块图像会预测3个外接框,每个外接框包含坐标信息(x,y,w,h)、是否含有目标以及每个类别置信度等信息;整合以上信息经过极大值抑制就能得到图像的多目标检测结果;
S246、更改数据标志位为检测结束,传给主线程,返回S242。
S25、目标测距:根据Swin Transformer目标检测模型预测结果和ZED摄像头深度图,计算每个目标的距离实现多目标测距;
所述S25中根据Swin Transformer目标检测模型预测结果和ZED摄像头深度图,计算每个目标的距离实现多目标测距包括以下步骤:
S251、根据Swin Transformer目标检测模型预测目标框,获得目标的类别、目标框的左上角坐标以及目标长宽(x,y,w,h);
S252、利用ZED摄像头获得每个像素点距离的深度图像Dst;
S253、获取目标框左上角、右上角、左下角、右下角以及中心点的邻域3x3的深度值;
S254、对目标框左上角、右上角、左下角、右下角以及中心点深度像素进行中值滤波;
其中,滤波公式为ddst(x,y)=med{Dst(x+k,y+l),(k,l∈[-1,1])},式中ddst代表中值滤波计算结果,Dst代表深度图,med意味在集合中取中间值,x和y代表横纵坐标,k和l为横纵坐标上的遍历值,在区间[-1,1]之间;
S255、取目标框中心点滤波后的深度值作为目标的距离,实现多目标测距;
其中,深度值的公式为ddst(x+w/2,y+h/2),式中,ddst代表中值滤波计算结果,x和y代表横纵坐标,w和h为预测框的宽和高。
S26、显示:在原图上画出目标检测到的多目标的外接框、目标类别以及置信度,并且标记计算得到的目标距离。
综上所述,借助于本发明的上述技术方案,本发明提供了一种基于SwinTransformer和ZED摄像头的多目标检测及测距方法,融合Swin Transformer目标检测和ZED双目测距,有效地解决了终端设备实时实现多目标检测和多目标测距的难点;相比于传统的检测和测距方法,该方法能对目标进行快速、智能化检测与提取,并计算目标距离,适用于小车避障、无人机跟踪等工业场景。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (10)

1.基于Swin Transformer和ZED摄像头的多目标检测和测距方法,其特征在于,该方法包括以下步骤:
S1、采用预设的训练超参数对Swin Transformer目标检测器进行训练,得到SwinTransformer目标检测模型;
S2、利用Swin Transformer目标检测模型和ZED摄像头实现多目标的实时检测及测距。
2.根据权利要求1所述的基于Swin Transformer和ZED摄像头的多目标检测和测距方法,其特征在于,所述S1中采用预设的训练参数对Swin Transformer目标检测器进行训练,得到Swin Transformer目标检测模型包括以下步骤:
S11、制作数据集:下载COCO数据集,将数据集打乱,并按照预设比例抽取得到训练集、验证集及测试集;
S12、数据扩充:采用基础的图像扩充方式对训练数据进行扩充;
S13、设定训练超参数:设置Swin Transformer目标检测器的训练超参数;
S14、模型训练:根据训练超参数和制作好的数据集对Swin Transformer目标检测器进行训练,得到Swin Transformer目标检测模型。
3.根据权利要求2所述的基于Swin Transformer和ZED摄像头的多目标检测和测距方法,其特征在于,所述S12中对训练数据进行扩充包括:裁剪、随机旋转、水平翻转、颜色变换及针对目标裁剪策略的几种扩充方式;
所述S13中设置Swin Transformer目标检测器的训练超参数包括:训练每批图像数量、输入图像宽度、图像高度、图像通道数、冲量、初始学习率、权重衰减系数、学习率调整参数、最大迭代次数、优化器以及阈值。
4.根据权利要求1所述的基于Swin Transformer和ZED摄像头的多目标检测和测距方法,其特征在于,所述S2中利用Swin Transformer目标检测模型和ZED摄像头实现多目标的实时检测及测距包括以下步骤:
S21、初始化:对摄像头参数及Swin Transformer目标检测模型进行初始化处理;
S22、读取标志位判断是否退出程序:读取键盘状态并判断是否退出程序;
S23、读取图像:利用ZED双目摄像头读取左摄像头彩色图像,送入Swin Transformer目标检测模型,并判断是否成功读取图像,若是则执行S24,若否则返回S22;
S24、目标检测:利用Swin Transformer目标检测模型读取新的图像,预测得到图像中的目标的外接框、置信度以及类别置信度信息;
S25、目标测距:根据Swin Transformer目标检测模型预测结果和ZED摄像头深度图,计算每个目标的距离实现多目标测距;
S26、显示:在原图上画出目标检测到的多目标的外接框、目标类别以及置信度,并且标记计算得到的目标距离。
5.根据权利要求4所述的基于Swin Transformer和ZED摄像头的多目标检测和测距方法,其特征在于,所述S21中对摄像头参数及Swin Transformer目标检测模型进行初始化处理包括以下步骤:
S211、对摄像头参数进行初始化处理;
S212、为Swin Transformer目标检测模型新建一个新的子线程;
S213、对Swin Transformer目标检测模型进行初始化处理。
6.根据权利要求5所述的基于Swin Transformer和ZED摄像头的多目标检测和测距方法,其特征在于,所述S211中对摄像头参数进行初始化处理具体包括以下步骤:
设置摄像头采集模式为WVGA;
设置摄像头的帧率为100;
设置采集图片的大小为672x386。
7.根据权利要求5所述的基于Swin Transformer和ZED摄像头的多目标检测和测距方法,其特征在于,所述S213中对Swin Transformer目标检测模型进行初始化处理具体包括:读取模型配置文件config和权重文件checkpoint。
8.根据权利要求4所述的基于Swin Transformer和ZED摄像头的多目标检测和测距方法,其特征在于,所述S22中读取键盘状态并判断是否退出程序包括以下步骤:
读取键盘状态,判断是否有键盘输入q或Esc,若是设置退出标志为真,关闭SwinTransformer目标检测模型,关闭子线程,退出主程序;若否则执行S23。
9.根据权利要求1所述的基于Swin Transformer和ZED摄像头的多目标检测和测距方法,其特征在于,所述S24中利用Swin Transformer目标检测模型读取新的图像,预测得到图像中的目标的外接框、置信度以及类别置信度信息包括以下步骤:
S241、加载Swin Transformer目标检测模型;
S242、判断退出标志是否为真,若为真则关闭Swin Transformer目标检测模型,退出线程,若为假则执行S243;
S243、判断是否有新的输入图像,若没有则延时1ms返回S242,若有新的输入图像则进入S244;
S244、图像格式转换,将Opencv3的Mat型图像转化为Swin Transformer目标检测模型的image类型;
S245、将转化过的image类型图像输入Swin Transformer目标检测模型,预测得到图像中的目标的外接框、置信度以及类别置信度信息;
S246、更改数据标志位为检测结束,传给主线程,返回S242。
10.根据权利要求1所述的基于Swin Transformer和ZED摄像头的多目标检测和测距方法,其特征在于,所述S25中根据Swin Transformer目标检测模型预测结果和ZED摄像头深度图,计算每个目标的距离实现多目标测距包括以下步骤:
S251、根据Swin Transformer目标检测模型预测目标框,获得目标的类别、目标框的左上角坐标以及目标长宽(x,y,w,h);
S252、利用ZED摄像头获得每个像素点距离的深度图像Dst;
S253、获取目标框左上角、右上角、左下角、右下角以及中心点的邻域3x3的深度值;
S254、对目标框左上角、右上角、左下角、右下角以及中心点深度像素进行中值滤波;
其中,滤波公式为ddst(x,y)=med{Dst(x+k,y+l),(k,l∈[-1,1])},式中ddst代表中值滤波计算结果,Dst代表深度图,med意味在集合中取中间值,x和y代表横纵坐标,k和l为横纵坐标上的遍历值,在区间[-1,1]之间;
S255、取目标框中心点滤波后的深度值作为目标的距离,实现多目标测距;
其中,深度值的公式为ddst(x+w/2,y+h/2),式中,ddst代表中值滤波计算结果,x和y代表横纵坐标,w和h为预测框的宽和高。
CN202110685876.4A 2021-06-21 2021-06-21 基于Swin Transformer和ZED摄像头的多目标检测和测距方法 Pending CN113313201A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110685876.4A CN113313201A (zh) 2021-06-21 2021-06-21 基于Swin Transformer和ZED摄像头的多目标检测和测距方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110685876.4A CN113313201A (zh) 2021-06-21 2021-06-21 基于Swin Transformer和ZED摄像头的多目标检测和测距方法

Publications (1)

Publication Number Publication Date
CN113313201A true CN113313201A (zh) 2021-08-27

Family

ID=77379729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110685876.4A Pending CN113313201A (zh) 2021-06-21 2021-06-21 基于Swin Transformer和ZED摄像头的多目标检测和测距方法

Country Status (1)

Country Link
CN (1) CN113313201A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114152441A (zh) * 2021-12-13 2022-03-08 山东大学 基于移位窗口变换器网络的滚动轴承故障诊断方法及系统
CN115330898A (zh) * 2022-08-24 2022-11-11 晋城市大锐金马工程设计咨询有限公司 一种基于改进Swin Transformer的杂志、书刊广告嵌入方法
WO2023092813A1 (zh) * 2021-11-25 2023-06-01 苏州大学 一种基于通道注意力的Swin-Transformer图像去噪方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392965A (zh) * 2017-07-24 2017-11-24 王华锋 一种基于深度学习和双目立体视觉相结合的测距方法
CN109509223A (zh) * 2018-11-08 2019-03-22 西安电子科技大学 基于深度学习的前方车辆测距方法
CN109816695A (zh) * 2019-01-31 2019-05-28 中国人民解放军国防科技大学 一种复杂背景下的红外小型无人机目标检测与跟踪方法
CN110069993A (zh) * 2019-03-19 2019-07-30 同济大学 一种基于深度学习的目标车辆检测方法
CN110796103A (zh) * 2019-11-01 2020-02-14 邵阳学院 基于Faster-RCNN的目标及其距离检测方法
CN111144232A (zh) * 2019-12-09 2020-05-12 国网智能科技股份有限公司 基于智能视频监控的变电站电子围栏监测方法、存储介质及设备
CN111239684A (zh) * 2020-01-17 2020-06-05 中航华东光电(上海)有限公司 一种基于YoloV3深度学习的双目快速距离测量方法
WO2020155873A1 (zh) * 2019-02-02 2020-08-06 福州大学 一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法
CN111696147A (zh) * 2020-05-22 2020-09-22 东南大学 一种基于改进YOLOv3模型的深度估计方法
CN111708042A (zh) * 2020-05-09 2020-09-25 汕头大学 一种行人轨迹预测和跟随的机器人方法及系统
CN111982300A (zh) * 2020-08-20 2020-11-24 湖北林青测控科技有限公司 区域危险目标热值定位采集系统和装置
CN112837366A (zh) * 2021-01-22 2021-05-25 南京邮电大学 基于双目相机和卷积神经网络的目标识别及定位的方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392965A (zh) * 2017-07-24 2017-11-24 王华锋 一种基于深度学习和双目立体视觉相结合的测距方法
CN109509223A (zh) * 2018-11-08 2019-03-22 西安电子科技大学 基于深度学习的前方车辆测距方法
CN109816695A (zh) * 2019-01-31 2019-05-28 中国人民解放军国防科技大学 一种复杂背景下的红外小型无人机目标检测与跟踪方法
WO2020155873A1 (zh) * 2019-02-02 2020-08-06 福州大学 一种基于深度表观特征和自适应聚合网络的多人脸跟踪方法
CN110069993A (zh) * 2019-03-19 2019-07-30 同济大学 一种基于深度学习的目标车辆检测方法
CN110796103A (zh) * 2019-11-01 2020-02-14 邵阳学院 基于Faster-RCNN的目标及其距离检测方法
CN111144232A (zh) * 2019-12-09 2020-05-12 国网智能科技股份有限公司 基于智能视频监控的变电站电子围栏监测方法、存储介质及设备
CN111239684A (zh) * 2020-01-17 2020-06-05 中航华东光电(上海)有限公司 一种基于YoloV3深度学习的双目快速距离测量方法
CN111708042A (zh) * 2020-05-09 2020-09-25 汕头大学 一种行人轨迹预测和跟随的机器人方法及系统
CN111696147A (zh) * 2020-05-22 2020-09-22 东南大学 一种基于改进YOLOv3模型的深度估计方法
CN111982300A (zh) * 2020-08-20 2020-11-24 湖北林青测控科技有限公司 区域危险目标热值定位采集系统和装置
CN112837366A (zh) * 2021-01-22 2021-05-25 南京邮电大学 基于双目相机和卷积神经网络的目标识别及定位的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZE-LIU等: "Swin Transformer: Hierarchical Vision Transformer using ShiftedWindows", ARXIV, pages 1 - 5 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023092813A1 (zh) * 2021-11-25 2023-06-01 苏州大学 一种基于通道注意力的Swin-Transformer图像去噪方法及系统
CN114152441A (zh) * 2021-12-13 2022-03-08 山东大学 基于移位窗口变换器网络的滚动轴承故障诊断方法及系统
CN115330898A (zh) * 2022-08-24 2022-11-11 晋城市大锐金马工程设计咨询有限公司 一种基于改进Swin Transformer的杂志、书刊广告嵌入方法

Similar Documents

Publication Publication Date Title
US11915502B2 (en) Systems and methods for depth map sampling
CN113313201A (zh) 基于Swin Transformer和ZED摄像头的多目标检测和测距方法
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
Rohan et al. Convolutional neural network-based real-time object detection and tracking for parrot AR drone 2
CN110070615B (zh) 一种基于多相机协同的全景视觉slam方法
CN111665842B (zh) 一种基于语义信息融合的室内slam建图方法及系统
Steccanella et al. Waterline and obstacle detection in images from low-cost autonomous boats for environmental monitoring
US11064178B2 (en) Deep virtual stereo odometry
CN109034018A (zh) 一种基于双目视觉的低空小型无人机障碍物感知方法
US10699438B2 (en) Mobile device localization in complex, three-dimensional scenes
Chen et al. An apple detection method based on des-YOLO v4 algorithm for harvesting robots in complex environment
DuToit et al. Consistent map-based 3D localization on mobile devices
CN105975923A (zh) 用于跟踪人体对象的方法和系统
CN106022266A (zh) 一种目标跟踪方法及装置
CN114972421A (zh) 车间物料识别追踪与定位方法、系统
Altuntaş et al. Comparison of 3-dimensional SLAM systems: RTAB-Map vs. Kintinuous
Wang et al. 3D-LIDAR based branch estimation and intersection location for autonomous vehicles
CN112288809B (zh) 一种用于多物体复杂场景的机器人抓取检测方法
Le et al. Human detection and tracking for autonomous human-following quadcopter
CN115393538A (zh) 基于深度学习的室内动态场景的视觉slam方法及系统
CN115205793A (zh) 基于深度学习二次确认的电力机房烟雾检测方法及装置
CN113515978A (zh) 数据处理方法、设备及存储介质
Zaslavskiy et al. Method for automated data collection for 3d reconstruction
Belter et al. Keyframe-Based local normal distribution transform occupancy maps for environment mapping
CN113139984B (zh) 检测与跟踪融合的长时间无人机目标跟踪方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination