CN115147806A - 一种基于关键点检测车辆伪3d边界框的方法 - Google Patents

一种基于关键点检测车辆伪3d边界框的方法 Download PDF

Info

Publication number
CN115147806A
CN115147806A CN202210555090.5A CN202210555090A CN115147806A CN 115147806 A CN115147806 A CN 115147806A CN 202210555090 A CN202210555090 A CN 202210555090A CN 115147806 A CN115147806 A CN 115147806A
Authority
CN
China
Prior art keywords
point
coordinate
sub
thermodynamic diagram
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210555090.5A
Other languages
English (en)
Inventor
徐昀
谢钱昆
王芬芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Zero Run Technology Co Ltd
Original Assignee
Zhejiang Zero Run Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Zero Run Technology Co Ltd filed Critical Zhejiang Zero Run Technology Co Ltd
Priority to CN202210555090.5A priority Critical patent/CN115147806A/zh
Publication of CN115147806A publication Critical patent/CN115147806A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于关键点检测车辆伪3d边界框的方法,包括以下步骤:输入图片;目标检测提取车辆ROI;使用亚像素坐标编码训练多检测头分支;通过自注意力在线蒸馏选择最佳检测头分支;输出关键点坐标;获取车辆伪3d的类别信息;利用车辆伪3d的类别信息将预测的关键点连接形成伪3d边界框。上述技术方案模型结构简单,易于训练,对多个分支的结果计算通道维度的自注意力以及尺度空间的自注意力,最后对两个维度进行融合,能够捕捉独立分支之间的全局信息。

Description

一种基于关键点检测车辆伪3d边界框的方法
技术领域
本发明涉及智能驾驶技术领域,尤其涉及一种基于关键点检测车辆伪3d边界框的方法。
背景技术
关键点检测是目标检测的一个重要分支,广泛应用于姿态估计,人脸识别,自动驾驶等领域。随着深度学习的不断发展,目前主流的关键点检测技术分为两种形式,一种是基于热力图的关键点检测;一种是基于回归的关键点检测。
基于热力图的方法因为其卓越的性能在关键点检测中处于主导地位,该方法为每个关键点预测一个热力分布图,在热力图上利用局部信息在空间维度上实现特征匹配,预测各个点的概率分布,然后使用argmax获取极值点,预测的精度一般高于直接回归坐标值的方法。缺点是为了保持精度需要上采样操作(如转置卷积)以及一些额外的后处理(如DARK(分布感知坐标表示)),增加了网络计算量和显存需求,且随着输入分辨率的降低而导致精度急剧下降。
基于回归的方法利用神经网络直接回归关键点在原图中的坐标,可以实现网络的端到端训练,无需后处理,前向速度快。但是该方法严重依赖输入的空间分布,容易受到遮挡、截断等模糊场景下的噪声干扰,空间泛化能力弱,网络难以拟合,检测精度通常不如基于热力图的方法。
有资料显示,目前主流的关键点检测方法以热力图辅助回归的方式为主。因为人为标注的关键点坐标很难精准的代表真实目标位置,通常采用高斯核的方式平滑标签,将目标点区域平滑展开为二维高斯分布,为每个热力图上的关键点区域分配一个概率值表示该点作为真实目标点的置信度,目标点的概率值最大,一般设为1。Centernet输入图片提取特征后下采样生成原始1/4的热力图,然后对热力图进行分类和回归,最后将坐标值转换到原始图上,但是该方法精度受特征图分辨率大小的影响,在下采样过程中会产生量化误差,无法直接输出坐标值;DARK提出一种新的分布感知的关键点坐标表示方法,将热力图的分布信息近似成泰勒展开的分布,生成无偏的热力图来减少特征图在下采样过程中带来的坐标量化误差,但是也增加了额外的后处理过程。
中国专利文献CN107671414A公开了一种“伪3D边界框构建的方法、装置及电子设备”。通过获取交通摄像头采集的交通场景的视频数据,并从视频数据中提取目标车辆对应的车辆图像,基于所采集的车辆图像中的车身2D检测框、上半车身2D检测框和车端2D检测框构建目标车辆对应的伪3D边界框。上述方案需要回归多个2d检测框,包含冗余的特征信息,且需对多个框重合的点进行筛选,增加了网络的复杂度。
发明内容
本发明主要解决原有的技术方案基于热力图下采样过程中带来的量化误差,网络的复杂度高的技术问题,提供一种基于关键点检测车辆伪3d边界框的方法,通过将回归坐标点的形式简化为简单的分类任务,结合了热力图空间信息的优点,使用亚像素坐标去除下采样过程中的量化误差,使用soft-argmax直接输出关键点坐标值,无需保持高分辨率的热力图,模型结构简单,易于训练,对多个分支的结果计算通道维度的自注意力以及尺度空间的自注意力,最后对两个维度进行融合,能够捕捉独立分支之间的全局信息。
本发明的上述技术问题主要是通过下述技术方案得以解决的:本发明包括以下步骤:
S1输入图片;
S2目标检测提取车辆ROI;
S3使用亚像素坐标编码训练多检测头分支;
S4通过自注意力在线蒸馏选择最佳检测头分支;
S5输出关键点坐标;
S6获取车辆伪3d的类别信息;
S7利用车辆伪3d的类别信息将预测的关键点连接形成伪3d边界框。
作为优选,所述的步骤S3具体包括:
S3.1首先对原始图上的关键点P(x,y)坐标取整为P(round(x),round(y)),然后下采样制作成热力图标签;
S3.2训练过程中将热力图转换到一维空间,通过一层全连接层得到各点预测的概率分布,利用soft-argmax计算点P在当前特征图上单元点的位置信息。
作为优选,所述的步骤S3.1具体包括,先假设P点坐标,对关键点P坐标值进行取整,点P经k倍下采样后在热力图中的坐标为(Hx,Hy),将该位置标签值设为1,其他背景类设为0。
以原图大小为12×12,k为4为例,假设P点坐标为(6.2,7.3),对关键点P坐标值取整为(6,7),点P经k倍下采样后在热力图中的坐标为(1,1),将该位置标签值设为1,其他背景类设为0。
作为优选,所述的步骤S3.2将二维热力图转换为到一维空间,利用全连接层对各点进行分类,与制作的标签计算损失值,得到各点代表关键点的概率值PI(i=0,1,2…),使用soft-argmax的方法计算关键点P在一维向量中的位置Cp为:
Figure BDA0003654610200000031
其中j代表的意义与i相同,β为扩大因子,用于提高接近目标点的准确度,再将得到的一维坐标转换到热力图上的二维坐标点(Hx,Hy),
Figure BDA0003654610200000041
Figure BDA0003654610200000042
其中W,H分别表示热力图的宽和高。
作为优选,所述的步骤S3.1利用亚像素坐标点的方法将热力图的量化误差值转换为亚像素坐标点,然后采用分类的方法得到亚像素坐标值以解决制作热力图标签时原图坐标缩小k倍后非整数的问题,亚像素标签制作过程具体包括将热力图中单元点在亚像素级别上扩大k倍,利用卷积将该点映射到k×k的特征图,每个热力图单元点之间看作k个亚像素点大小,即映射到原始图大小级别,热力图坐标量化的小数点部分为亚像素坐标下的真实标签坐标(Sx′,Sy′)。
由于制作热力图标签时存在坐标量化的过程,即原图坐标缩小k倍后非整数,本发明利用亚像素坐标点的方法将热力图的量化误差值转换为亚像素坐标点,然后依然采用分类的方法得到亚像素坐标值,本例中:
Sx′=6%4=2
Sy′=7%4=3。
作为优选,所述的亚像素坐标下的真实标签坐标(Sx′,Sy′)获取后,与计算热力图坐标的方式相同,网络再次经过一个全连接层对亚像素坐标点进行分类,同样使用soft-argmax方法转换到亚像素坐标下的坐标点为(Sx,Sy),最终输出预测的关键点P(Px,Py)在原始图中的坐标值为:
Px=Hx×k+Sx
Py=Hy×k+Sy
关键点检测头的整个过程完全可微,只在原始图制作标签的时取整一次,误差为原始图单个像素级别大小,远小于多次下采样的量化误差级别,或者通过添加一个分支用于回归取整的误差大小。
作为优选,所述的步骤S4具体包括,首先将关键点检测头部扩展为多个分支,将多个分支的输出特征图联合计算通道维度上的自注意力以及尺度维度上的自注意力,然后将其融合得到最终的集成特征,使用集成后的模型与各分支分别计算坐标损失以实现蒸馏的过程,最后通过训练结果选择一个最好性能的分支作为网络模型的检测头。由于检测头部分结构简单,利用蒸馏的方式增强检测头网络部分的性能。
作为优选,所述的步骤S6车辆伪3d的分类为普通的分类任务,根据车辆在图中的朝向将车辆伪3d类别分为头左、头右、尾左、尾右、头、尾、左、右八类。
本发明的有益效果是:通过将回归坐标点的形式简化为简单的分类任务,结合了热力图空间信息的优点,使用亚像素坐标去除下采样过程中的量化误差,使用soft-argmax直接输出关键点坐标值,无需保持高分辨率的热力图,模型结构简单,易于训练,对多个分支的结果计算通道维度的自注意力以及尺度空间的自注意力,最后对两个维度进行融合,能够捕捉独立分支之间的全局信息。
附图说明
图1是本发明的一种流程图。
图2是本发明的一种soft-argmax的计算过程图。
图3是本发明的一种亚像素标签示意图。
图4是本发明的一种自注意力在线知识蒸馏示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的一种基于关键点检测车辆伪3d边界框的方法,如图1所示,首先输入图片经过一个2d检测网络得到图像中车辆的感兴趣区域(ROI),然后对ROI部分进行关键点检测和车辆伪3d分类,最好利用车辆伪3d的类别信息将预测的关键点连接形成伪3d边界框。
检测头同热力图方法一样通过卷积神经网络将ROI下采样生成热力图,热力图大小为原始ROI的1/k,不同的是将检测任务转换为多个分类任务进行监督学习,利用亚像素坐标思想对坐标重新编码去除下采样过程中的量化误差,而且网络可以直接输出坐标点信息。首先对原始图上的关键点P(x,y)坐标取整为P(round(x),round(y)),然后下采样制作成热力图标签;训练过程中将热力图转换到一维空间,通过一层全连接层得到各点预测的概率分布,利用soft-argmax计算点P在当前特征图上单元点的位置信息;该过程如图2所示,以原图大小为12×12,k为4为例,假设P点坐标为(6.2,7.3),对关键点P坐标值取整为(6,7),点P经k倍下采样后在热力图中的坐标为(1,1),将该位置标签值设为1,其他背景类设为0。网络预测过程中将二维热力图转换为到一维空间,利用全连接层对各点进行分类,与制作的标签计算损失值,得到各点代表关键点的概率值PI(i=0,1,2…),为了使网络在获取坐标值的过程可微,使用soft-argmax的方法计算关键点P在一维向量中的位置Cp为:
Figure BDA0003654610200000061
其中j代表的意义与i相同,β为扩大因子,用于提高接近目标点的准确度。再将得到的一维坐标转换到热力图上的二维坐标点(Hx,Hy),
Figure BDA0003654610200000062
Figure BDA0003654610200000063
其中W,H分别表示热力图的宽和高。
由于制作热力图标签时存在坐标量化的过程,即原图坐标缩小k倍后非整数。本发明利用亚像素坐标点的方法将热力图的量化误差值转换为亚像素坐标点,然后依然采用分类的方法得到亚像素坐标值。亚像素标签制作过程如图3所示,将热力图中单元点在亚像素级别上扩大k倍,利用卷积将该点映射到k×k的特征图,每个热力图单元点之间看作k个亚像素点大小,即映射到原始图大小级别,热力图坐标量化的小数点部分为亚像素坐标下的真实标签坐标(Sx′,Sy′),本例中:
Sx′=6%4=2
Sy′=7%4=3
与计算热力图坐标的方式相同,网络再次经过一个全连接层对亚像素坐标点进行分类,同样使用soft-argmax方法转换到亚像素坐标下的坐标点为(Sx,Sy),最终输出预测的关键点P(Px,Py)在原始图中的坐标值为:
Px=Hx×k+Sx
Py=Hy×k+Sy
关键点检测头的整个过程完全可微,只在原始图制作标签的时取整一次,误差仅为原始图单个像素级别大小,远小于多次下采样的量化误差级别。也可选择通过添加一个分支用于回归取整的误差大小。
由于检测头部分结构简单,利用蒸馏的方式增强检测头网络部分的性能。提出的自注意力在线蒸馏方法首先将关键点检测头部扩展为多个分支,如图4所示,将多个分支的输出特征图联合计算通道维度上的自注意力以及尺度维度上的自注意力,然后将其融合得到最终的集成特征,蒸馏的过程是使用集成后的模型与各分支分别计算坐标损失,最后通过训练结果选择一个最好性能的分支作为网络模型的检测头。
车辆伪3d的分类为普通的分类任务,根据车辆在图中的朝向将车辆伪3d类别分为头左、头右、尾左、尾右、头、尾、左、右八类。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了ROI、亚像素坐标编码等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims (8)

1.一种基于关键点检测车辆伪3d边界框的方法,其特征在于,包括以下步骤:
S1输入图片;
S2目标检测提取车辆ROI;
S3使用亚像素坐标编码训练多检测头分支;
S4通过自注意力在线蒸馏选择最佳检测头分支;
S5输出关键点坐标;
S6获取车辆伪3d的类别信息;
S7利用车辆伪3d的类别信息将预测的关键点连接形成伪3d边界框。
2.根据权利要求1所述的一种基于关键点检测车辆伪3d边界框的方法,其特征在于,所述步骤S3具体包括:
S3.1首先对原始图上的关键点P(x,y)坐标取整为P(round(x),round(y)),然后下采样制作成热力图标签;
S3.2训练过程中将热力图转换到一维空间,通过一层全连接层得到各点预测的概率分布,利用soft-argmax计算点P在当前特征图上单元点的位置信息。
3.根据权利要求2所述的一种基于关键点检测车辆伪3d边界框的方法,其特征在于,所述步骤S3.1具体包括,先假设P点坐标,对关键点P坐标值进行取整,点P经k倍下采样后在热力图中的坐标为(Hx,Hy),将该位置标签值设为1,其他背景类设为0。
4.根据权利要求2所述的一种基于关键点检测车辆伪3d边界框的方法,其特征在于,所述步骤S3.2将二维热力图转换为到一维空间,利用全连接层对各点进行分类,与制作的标签计算损失值,得到各点代表关键点的概率值PI(i=0,1,2…),使用soft-argmax的方法计算关键点P在一维向量中的位置Cp为:
Figure FDA0003654610190000021
其中j代表的意义与i相同,β为扩大因子,用于提高接近目标点的准确度,再将得到的一维坐标转换到热力图上的二维坐标点(Hx,Hy),
Figure FDA0003654610190000022
Figure FDA0003654610190000023
其中W,H分别表示热力图的宽和高。
5.根据权利要求3所述的一种基于关键点检测车辆伪3d边界框的方法,其特征在于,所述步骤S3.1利用亚像素坐标点的方法将热力图的量化误差值转换为亚像素坐标点,然后采用分类的方法得到亚像素坐标值以解决制作热力图标签时原图坐标缩小k倍后非整数的问题,亚像素标签制作过程具体包括将热力图中单元点在亚像素级别上扩大k倍,利用卷积将该点映射到k×k的特征图,每个热力图单元点之间看作k个亚像素点大小,即映射到原始图大小级别,热力图坐标量化的小数点部分为亚像素坐标下的真实标签坐标(Sx′,Sy′)。
6.根据权利要求5所述的一种基于关键点检测车辆伪3d边界框的方法,其特征在于,所述亚像素坐标下的真实标签坐标(Sx′,Sy′)获取后,与计算热力图坐标的方式相同,网络再次经过一个全连接层对亚像素坐标点进行分类,同样使用soft-argmax方法转换到亚像素坐标下的坐标点为(Sx,Sy),最终输出预测的关键点P(Px,Py)在原始图中的坐标值为:
Px=Hx×k+Sx
Py=Hy×k+Sy
关键点检测头的整个过程完全可微,只在原始图制作标签的时取整一次,误差为原始图单个像素级别大小,远小于多次下采样的量化误差级别,或者通过添加一个分支用于回归取整的误差大小。
7.根据权利要求1所述的一种基于关键点检测车辆伪3d边界框的方法,其特征在于,所述步骤S4具体包括,首先将关键点检测头部扩展为多个分支,将多个分支的输出特征图联合计算通道维度上的自注意力以及尺度维度上的自注意力,然后将其融合得到最终的集成特征,使用集成后的模型与各分支分别计算坐标损失以实现蒸馏的过程,最后通过训练结果选择一个最好性能的分支作为网络模型的检测头。
8.根据权利要求1所述的一种基于关键点检测车辆伪3d边界框的方法,其特征在于,所述步骤S6车辆伪3d的分类为普通的分类任务,根据车辆在图中的朝向将车辆伪3d类别分为头左、头右、尾左、尾右、头、尾、左、右八类。
CN202210555090.5A 2022-05-20 2022-05-20 一种基于关键点检测车辆伪3d边界框的方法 Pending CN115147806A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210555090.5A CN115147806A (zh) 2022-05-20 2022-05-20 一种基于关键点检测车辆伪3d边界框的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210555090.5A CN115147806A (zh) 2022-05-20 2022-05-20 一种基于关键点检测车辆伪3d边界框的方法

Publications (1)

Publication Number Publication Date
CN115147806A true CN115147806A (zh) 2022-10-04

Family

ID=83406497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210555090.5A Pending CN115147806A (zh) 2022-05-20 2022-05-20 一种基于关键点检测车辆伪3d边界框的方法

Country Status (1)

Country Link
CN (1) CN115147806A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117523645A (zh) * 2024-01-08 2024-02-06 深圳市宗匠科技有限公司 一种人脸关键点检测方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117523645A (zh) * 2024-01-08 2024-02-06 深圳市宗匠科技有限公司 一种人脸关键点检测方法、装置、电子设备及存储介质
CN117523645B (zh) * 2024-01-08 2024-03-22 深圳市宗匠科技有限公司 一种人脸关键点检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
Zamanakos et al. A comprehensive survey of LIDAR-based 3D object detection methods with deep learning for autonomous driving
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN110443842B (zh) 基于视角融合的深度图预测方法
CN111612807B (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN111160214B (zh) 一种基于数据融合的3d目标检测方法
CN113033570B (zh) 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
Biasutti et al. Lu-net: An efficient network for 3d lidar point cloud semantic segmentation based on end-to-end-learned 3d features and u-net
JP2016045943A (ja) シーンの取得画像を意味的にラベル付けする方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN113283525B (zh) 一种基于深度学习的图像匹配方法
CN112651316B (zh) 二维和三维多人姿态估计系统及方法
CN116797787B (zh) 基于跨模态融合与图神经网络的遥感影像语义分割方法
CN116229452B (zh) 一种基于改进的多尺度特征融合的点云三维目标检测方法
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
EP3836083B1 (en) Disparity estimation system and method, electronic device and computer program product
CN115512103A (zh) 多尺度融合遥感图像语义分割方法及系统
Song et al. Deep novel view synthesis from colored 3d point clouds
CN116453121B (zh) 一种车道线识别模型的训练方法及装置
CN110781894A (zh) 点云语义分割方法、装置及电子设备
He et al. Learning scene dynamics from point cloud sequences
CN116129291A (zh) 一种面向无人机畜牧的图像目标识别方法及其装置
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN115147806A (zh) 一种基于关键点检测车辆伪3d边界框的方法
CN114494786A (zh) 一种基于多层协调卷积神经网络的细粒度图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination