CN115565146A - 基于自编码器获取鸟瞰图特征的感知模型训练方法及系统 - Google Patents

基于自编码器获取鸟瞰图特征的感知模型训练方法及系统 Download PDF

Info

Publication number
CN115565146A
CN115565146A CN202211318099.0A CN202211318099A CN115565146A CN 115565146 A CN115565146 A CN 115565146A CN 202211318099 A CN202211318099 A CN 202211318099A CN 115565146 A CN115565146 A CN 115565146A
Authority
CN
China
Prior art keywords
encoder
self
training
model
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211318099.0A
Other languages
English (en)
Inventor
廖文龙
何弢
马浩博
彭湃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Kuyi Robot Co ltd
Anhui Cowarobot Co ltd
Original Assignee
Shanghai Kuyi Robot Co ltd
Anhui Cowarobot Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Kuyi Robot Co ltd, Anhui Cowarobot Co ltd filed Critical Shanghai Kuyi Robot Co ltd
Priority to CN202211318099.0A priority Critical patent/CN115565146A/zh
Publication of CN115565146A publication Critical patent/CN115565146A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于自编码器获取鸟瞰图特征的感知模型训练方法及系统,包括:获取原始图像数据集,对其进行标注,得到标注数据集;创建第一自编码器;利用所述标注数据集对所述第一自编码器进行自编码训练,完成后得到第一解码器模型和第一鸟瞰图特征集;创建第二编码器;利用所述标注数据集和所述第一鸟瞰图特征集对所述第二编码器进行训练,完成后得到第二编码器模型;将所述第二编码器模型和所述第一解码器模型级联起来,所述第二编码器模型的输出作为所述第一解码器模型的输入,构成第二自编码器;对所述第二自编码器进行微调训练,完成后得到感知模型。本发明大幅提升训练速度,极大降低模型改进成本,提高可解释性。

Description

基于自编码器获取鸟瞰图特征的感知模型训练方法及系统
技术领域
本发明涉及计算机视觉领域,具体地,涉及一种基于自编码器获取鸟瞰图特征的感知模型训练方法及系统。
背景技术
在自动驾驶领域,感知任务非常重要,其中最为关键的是目标检测和语义分割,目的是检测出车辆周围的各种目标以及区分周围空间的属性。感知任务一般将周视相机、激光雷达等传感器采集到的数据作为输入,使用机器学习模型加以分析,最终得到目标框和语义分割属性等输出。在感知任务中,如何整合多个相机以及激光雷达的信息一直是一个难点,近年来学术界最前沿和最有效的方法就是使用鸟瞰图(Bird’s Eye View,BEV)方法。
鸟瞰图指的是物体在垂直于高度方向的平面上的投影,也就是从空中视角观察车辆周围空间。鸟瞰图方法会将所有的信息融合到鸟瞰图中,每个相机和激光雷达所采集到的信息会被提取到对应的鸟瞰图特征中。目前有两种常见的鸟瞰图表示,一种是稀疏的,对每个目标检测框设置一个鸟瞰图特征;另一种则是稠密的,直接生成车辆周围一定范围内的鸟瞰图特征。后者更适合用于多种下游任务,比如语义分割,同时也更有利于融合时序信息或者来自其他模态的特征,比如把周视相机和激光雷达的鸟瞰图特征直接拼接。
论文《BEVFormer:Learning Bird′s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》提出了一种基于鸟瞰图方法的BEVFormer模型,使用纯视觉输入,用鸟瞰图融合多个相机的信息。BEVFormer的缺点主要有两个,一是鸟瞰图特征太大,导致训练速度缓慢,特别是模型需要时序信息,而时序信息需要模型输出,但模型在训练时又是变化的,所以在每次训练之前都要从场景的开头一直运行模型到上一时刻,以获取上一时刻的鸟瞰图,当场景较长时,这种开销无疑是非常巨大的;二是可解释性不够,BEVFormer希望生成显式的、稠密的、对应实际场景的BEV,用于多种下游任务,但实际上鸟瞰图特征依旧是模型的中间隐藏变量,只有训练实际任务时才能获得鸟瞰图;三是改进实验困难,因为模型整体是端到端的,所以改进模型的任何细节都要完整训练包括下游任务在内的所有内容,同时训练速度又缓慢,使得尝试对模型的改进较为困难。
公开号为CN114445310A的专利公开了一种3D目标检测方法,所述方法包括:获取场景中的图像数据以及激光点云数据;根据所述图像数据,进行特征处理,生成鸟瞰图特征;根据所述激光点云数据,进行特征处理,生成激光点云特征;将所述鸟瞰图特征与所述激光点云特征进行特征融合,得到融合后的特征;根据所述融合后的特征,通过时序神经网络进行时序特征提取,进行特征解码,得到3D目标框;对所述3D目标框进行损失计算,所述损失计算至少包括重叠度损失计算。该专利提供的方法需要将鸟瞰图特征与激光点云特征进行融合,过程繁琐、周期冗长,无法达到快速训练模型的目的,而且得到的鸟瞰图特征仍然是中间隐式变量,不够直观和实用。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于自编码器获取鸟瞰图特征的感知模型训练方法及系统。
第一方面,本发明提供一种基于自编码器获取鸟瞰图特征的感知模型训练方法,包括:
步骤S1:获取原始图像数据集,对其进行标注,得到标注数据集;
步骤S2:创建第一自编码器,其包含第一编码器和第一解码器,二者级联,所述第一编码器的输出作为所述第一解码器的输入;
步骤S3:利用所述标注数据集对所述第一自编码器进行自编码训练,完成后得到第一解码器模型和第一鸟瞰图特征集;
步骤S4:创建第二编码器;
步骤S5:利用所述标注数据集和所述第一鸟瞰图特征集对所述第二编码器进行训练,完成后得到第二编码器模型;
步骤S6:将所述第二编码器模型和所述第一解码器模型级联起来,所述第二编码器模型的输出作为所述第一解码器模型的输入,构成第二自编码器;
步骤S7:对所述第二自编码器进行微调训练,完成后得到感知模型。
优选地,所述第一编码器包括:
标注编码模块,包括一个全连接层,用于根据标注数据的信息生成N维标注特征;
标注采样模块,用于把空间划分为M×M个网格,利用自定义算子计算每个网格的标注信息,生成M×M×N的特征矩阵;
可变形多头自注意力层,用于在生成鸟瞰图特征时只采样特征矩阵对应周围空间的特征,计算公式为:
Figure BDA0003910240940000031
其中,Nhead为注意力头的总数量;j是总采样键值,Δpij表示第i个注意头中第j个采样点的采样偏移量,Aij表示第i个注意头中第j个采样点的注意权重,Wi为可学习的权重,Nkey为采样点总数量,q为查询元素,p为查询元素二维参考点,x为输入特征图;
前馈神经网络层,包括两个全连接层和一个激活层,用于增强特征学习;
两个正则化层,采用Ln正则化。
优选地,所述第一解码器包括:
多头自注意力层,使用输入的鸟瞰图特征作为Key和Value,并且声明多个Query,计算权重后相加获得输出;有多个头做同样的操作以获得不同侧重点的输出,单个头的计算公式为:
Figure BDA0003910240940000032
其中,K、V、Q分别代表Key、Value和Query矩阵;QKT为元素点积;
Figure BDA0003910240940000033
为key的维度;
多尺度可变形注意力层,将普通可变形自注意力层扩展到多尺度特征输入上,有多个注意力头,计算公式为:
Figure BDA0003910240940000034
其中,M表示注意头的总数,L表示输入特征级别,K表示采样点数量,Δpmlqk和Amlqk分别表示第l个特征级别第k个采样点的采样偏移量和第m个注意头的注意权重,Wm为可学习的权重,
Figure BDA0003910240940000035
为归一化后
Figure BDA0003910240940000036
缩放到第l层的特征图,
Figure BDA0003910240940000037
为每个查询元素q的参考点的归一化坐标,
Figure BDA0003910240940000038
为输入的多尺度特征图,zq为查询元素;
前馈神经网络层,包括两个全连接层和一个激活层;
三个正则化层,采用Ln正则化;
损失函数,先计算目标检测框和分类结果,然后分别计算回归损失和分类损失,最后加权获得结果;回归损失计算L1损失,分类损失计算Focal损失,二者计算公式分别为:
Figure BDA0003910240940000041
Focalloss(pt)=-(1-pt)γlog(pt)
其中,回归损失权重为w1,分类损失权重为w2,Lb为平衡L1损失,
Figure BDA0003910240940000042
为第i对应的u类的回归结果,vi为第i回归目标,pt为易分样本,γ为调节因子;
优选地,所述第二编码器包括:
骨干网络,采用ResNet结构,用于获取图像的特征;
三个特征金字塔网络层,输出三层多尺度特征,用于识别各个尺度的特征;
可变形多头自注意力层,输入历史鸟瞰图特征,对Query加鸟瞰图位置特征进行线性变换获得权重矩阵,然后计算要采样的周围空间的点,最后调用可变形多头自注意力函数;
可变形交叉注意力层,根据之前计算的图像特征上的投影,先计算每个鸟瞰图特征对应的参考电位,然后调用多尺度可变形注意力函数;
前馈神经网络层,包括两个全连接层和一个激活层;
三个正则化层,采用Ln正则化;
损失函数,计算平衡L1损失,计算公式为:
若|x|<1,
Figure BDA0003910240940000043
否则,Lb(x)=γ|x|+C
其中,α,b,γ为超参数,且满足αln(b+1)=γ,C为偏移常量。
优选地,所述步骤S3包括:
步骤S3.1:将所述标注数据集中的标注数据依次输入所述第一编码器中,输出对应的鸟瞰图特征;
步骤S3.2:将所述鸟瞰图特征输入所述第一解码器中,输出对应的检测结果;
步骤S3.3:比较所述检测结果和所述标注数据,计算损失并利用所述损失对整个第一自编码器进行迭代训练;
步骤S3.4:利用测试数据集对训练后的自编码器进行测试,如果测试分数达到第一分数阈值,则结束训练,获得此时的解码器模型和鸟瞰图特征集,即为第一解码器模型和第一鸟瞰图特征集,否则继续训练。
优选地,所述步骤S5包括:
步骤S5.1:将所述标注数据集中的标注数据依次输入所述第二编码器中,输出对应的鸟瞰图特征结果;
步骤S5.2:将所述第一鸟瞰图特征集中与所述标注数据对应的鸟瞰图特征作为标准鸟瞰图特征,比较所述鸟瞰图特征结果和所述标准鸟瞰图特征,计算损失并利用所述损失对所述第二编码器进行迭代训练;
步骤S5.3:利用测试数据集对训练后的第二编码器进行测试,如果测试分数达到第二分数阈值,则结束训练,获得第二编码器模型,否则继续训练。
优选地,在所述第二编码器的训练过程中,采用所述第一鸟瞰图特征集中上一时刻的鸟瞰图特征作为时序特征。
优选地,所述步骤S7包括:
步骤S7.1:将所述标注数据集中的标注数据依次输入所述第二编码器模型中,输出对应的鸟瞰图特征;
步骤S7.2:将所述鸟瞰图特征输入所述第一解码器模型中,输出对应的检测结果;
步骤S7.3:比较所述检测结果和所述标注数据,计算损失并利用所述损失对整个第二自编码器进行迭代训练;
步骤S7.4:利用测试数据集对训练后的第二自编码器进行测试,如果测试分数达到第三分数阈值,则结束训练,获得此时的第二自编码器模型,即为感知模型,否则继续训练。
优选地,在所述第二自编码器的训练过程中,在前P轮采用所述第一鸟瞰图特征集中对应的上一时刻鸟瞰图特征作为时序特征,在第P轮之后则采用所述第二编码器模型自己产生的上一时刻鸟瞰图特征作为时序特征。
第二方面,本发明提供一种基于自编码器获取鸟瞰图特征的感知模型训练系统,包括:
标注数据获取模块:获取原始图像数据集,对其进行标注,得到标注数据集;
第一自编码器训练模块:创建第一自编码器,其包含第一编码器和第一解码器,二者级联,所述第一编码器的输出作为所述第一解码器的输入;利用所述标注数据集对所述第一自编码器进行自编码训练,完成后得到第一解码器模型和第一鸟瞰图特征集;
第二编码器训练模块:创建第二编码器;利用所述标注数据集和所述第一鸟瞰图特征集对所述第二编码器进行训练,完成后得到第二编码器模型;
感知模型训练模块:将所述第二编码器模型和所述第一解码器模型级联起来,所述第二编码器模型的输出作为所述第一解码器模型的输入,构成第二自编码器;对所述第二自编码器进行微调训练,完成后得到感知模型。
优选地,所述第一编码器包括:
标注编码模块,包括一个全连接层,用于根据标注数据的信息生成N维标注特征;
标注采样模块,用于把空间划分为M×M个网格,利用自定义算子计算每个网格的标注信息,生成M×M×N的特征矩阵;
可变形多头自注意力层,用于在生成鸟瞰图特征时只采样特征矩阵对应周围空间的特征;计算公式为:
Figure BDA0003910240940000061
其中,Nhead为注意力头的总数量;j是总采样键值,Δpij表示第i个注意头中第j个采样点的采样偏移量,Aij表示第i个注意头中第j个采样点的注意权重,Wi为可学习的权重,Nkey为采样点总数量,q为查询元素,p为查询元素二维参考点,x为输入特征图;
前馈神经网络层,包括两个全连接层和一个激活层,用于增强特征学习;
两个正则化层,采用Ln正则化;
所述第一解码器包括:
多头自注意力层,使用输入的鸟瞰图特征作为Key和Value,并且声明多个Query,计算权重后相加获得输出;有多个头做同样的操作以获得不同侧重点的输出,单个头的计算公式为:
Figure BDA0003910240940000062
其中,K、V、Q分别代表Key、Value和Query矩阵;QKT为元素点积;
Figure BDA0003910240940000063
为key的维度;
多尺度可变形注意力层,将普通可变形自注意力层扩展到多尺度特征输入上,有多个注意力头,计算公式为:
Figure BDA0003910240940000071
其中,M表示注意头的总数,L表示输入特征级别,K表示采样点数量,Δpmlqk和Amlqk分别表示第l个特征级别第k个采样点的采样偏移量和第m个注意头的注意权重;Wm为可学习的权重,
Figure BDA0003910240940000072
为归一化后
Figure BDA0003910240940000073
缩放到第l层的特征图,
Figure BDA0003910240940000074
为每个查询元素q的参考点的归一化坐标,
Figure BDA0003910240940000075
为输入的多尺度特征图,zq为查询元素;
前馈神经网络层,包括两个全连接层和一个激活层;
三个正则化层,采用Ln正则化;
损失函数,先计算目标检测框和分类结果,然后分别计算回归损失和分类损失,最后加权获得结果;回归损失计算L1损失,分类损失计算Focal损失,二者计算公式分别为:
Figure BDA0003910240940000076
Focalloss(pt)=-(1-pt)γlog(pt)
其中,回归损失权重为w1,分类损失权重为w2,Lb为平衡L1损失,
Figure BDA0003910240940000077
为第i对应的u类的回归结果,vi为第i回归目标,pt为易分样本,γ为调节因子;
所述第二编码器包括:
骨干网络,采用ResNet结构,用于获取图像的特征;
三个特征金字塔网络层,输出三层多尺度特征,用于识别各个尺度的特征;
可变形多头自注意力层,输入历史鸟瞰图特征,对Query加鸟瞰图位置特征进行线性变换获得权重矩阵,然后计算要采样的周围空间的点,最后调用可变形多头自注意力函数;
可变形交叉注意力层,根据之前计算的图像特征上的投影,先计算每个鸟瞰图特征对应的参考电位,然后调用多尺度可变形注意力函数;
前馈神经网络层,包括两个全连接层和一个激活层;
三个正则化层,采用Ln正则化;
损失函数,计算平衡L1损失,计算公式为:
若|x|<1,
Figure BDA0003910240940000078
否则Lb(x)=γ|x|+C
其中,α,b,γ为超参数,且满足αln(b+1)=γ,C为偏移常量。
优选地,所述第一自编码器训练模块包括:
第一创建单元,创建第一自编码器,其包含第一编码器和第一解码器,二者级联,所述第一编码器的输出作为所述第一解码器的输入;
第一输入单元,将所述标注数据集中的标注数据依次输入所述第一编码器中,输出对应的鸟瞰图特征;
第一输出单元,将所述鸟瞰图特征输入所述第一解码器中,输出对应的检测结果;
第一迭代单元,比较所述检测结果和所述标注数据,计算损失并利用所述损失对整个第一自编码器进行迭代训练;
第一测试单元,利用测试数据集对训练后的自编码器进行测试,如果测试分数达到第一分数阈值,则结束训练,获得此时的解码器模型和鸟瞰图特征集,即为第一解码器模型和第一鸟瞰图特征集,否则继续训练;
所述第二编码器训练模块包括:
第二创建单元,创建第二编码器;
第二输入输出单元,将所述标注数据集中的标注数据依次输入所述第二编码器中,输出对应的鸟瞰图特征结果;
第二迭代单元,将所述第一鸟瞰图特征集中与所述标注数据对应的鸟瞰图特征作为标准鸟瞰图特征,比较所述鸟瞰图特征结果和所述标准鸟瞰图特征,计算损失并利用所述损失对所述第二编码器进行迭代训练;
第二测试单元,利用测试数据集对训练后的第二编码器进行测试,如果测试分数达到第二分数阈值,则结束训练,获得第二编码器模型,否则继续训练;在所述第二编码器的训练过程中,采用所述第一鸟瞰图特征集中上一时刻的鸟瞰图特征作为时序特征;
所述感知模型训练模块包括:
第三创建单元,将所述第二编码器模型和所述第一解码器模型级联起来,所述第二编码器模型的输出作为所述第一解码器模型的输入,构成第二自编码器;
第三输入单元,将所述标注数据集中的标注数据依次输入所述第二编码器模型中,输出对应的鸟瞰图特征;
第三输出单元,将所述鸟瞰图特征输入所述第一解码器模型中,输出对应的检测结果;
第三迭代单元,比较所述检测结果和所述标注数据,计算损失并利用所述损失对整个第二自编码器进行迭代训练;
第三测试单元,利用测试数据集对训练后的第二自编码器进行测试,如果测试分数达到第三分数阈值,则结束训练,获得此时的第二自编码器模型,即为感知模型,否则继续训练;在所述第二自编码器的训练过程中,在前P轮采用所述第一鸟瞰图特征集中对应的上一时刻鸟瞰图特征作为时序特征,在第P轮之后则采用所述第二编码器模型自己产生的上一时刻鸟瞰图特征作为时序特征。
第三方面,本发明提供一种基于自编码器获取鸟瞰图特征的感知模型,包括:
第二编码器模型和第一解码器模型,所述第二编码器模型和所述第一解码器模型级联,所述第二编码器模型的输出作为所述第一解码器模型的输入;
所述第二编码器模型包括:骨干网络,采用ResNet结构,用于获取图像的特征;三个特征金字塔网络层,输出三层多尺度特征,用于识别各个尺度的特征;可变形多头自注意力层,输入历史鸟瞰图特征,对Query加鸟瞰图位置特征进行线性变换获得权重矩阵,然后计算要采样的周围空间的点,最后调用可变形多头自注意力函数;可变形交叉注意力层,根据之前计算的图像特征上的投影,先计算每个鸟瞰图特征对应的参考电位,然后调用多尺度可变形注意力函数;前馈神经网络层,包括两个全连接层和一个激活层;三个正则化层,采用Ln正则化;损失函数,计算平衡L1损失,计算公式为:
若|x|<1,
Figure BDA0003910240940000091
否则Lb(x)=γ|x|+C
其中,α,b,γ为超参数,且满足αln(b+1)=γ,C为偏移常量。
所述第一解码器模型包括:多头自注意力层,使用输入的鸟瞰图特征作为Key和Value,并且声明多个Query,计算权重后相加获得输出;有多个头做同样的操作以获得不同侧重点的输出,单个头的计算公式为:
Figure BDA0003910240940000092
其中,K、V、Q分别代表Key、Value和Query矩阵;QKT为元素点积;
Figure BDA0003910240940000093
为key的维度;
多尺度可变形注意力层,将普通可变形自注意力层扩展到多尺度特征输入上,有多个注意力头,计算公式为:
Figure BDA0003910240940000101
其中,M表示注意头的总数,L表示输入特征级别,K表示采样点数量,Δpmlqk和Amlqk分别表示第l个特征级别第k个采样点的采样偏移量和第m个注意头的注意权重,Wm为可学习的权重,
Figure BDA0003910240940000102
为归一化后
Figure BDA0003910240940000103
缩放到第l层的特征图,
Figure BDA0003910240940000104
为每个查询元素q的参考点的归一化坐标,
Figure BDA0003910240940000105
为输入的多尺度特征图,zq为查询元素;
前馈神经网络层,包括两个全连接层和一个激活层;三个正则化层,采用Ln正则化;损失函数,先计算目标检测框和分类结果,然后分别计算回归损失和分类损失,最后加权获得结果;回归损失计算L1损失,分类损失计算Focal损失,二者计算公式分别为:
Figure BDA0003910240940000106
Focalloss(pt)=-(1-pt)γlog(pt)
其中,回归损失权重为w1,分类损失权重为w2,Lb为平衡L1损失,
Figure BDA0003910240940000107
为第i对应的u类的回归结果,vi为第i回归目标,pt为易分样本,γ为调节因子;
优选地,所述感知模型部署在移动终端设备上;所述移动终端设备将采集到的实时图像送入所述感知模型中,所述第二编码器模型从所述实时图像中提取出鸟瞰图特征并输入所述第一解码器模型中,所述第一解码器模型根据所述鸟瞰图特征输出检测结果,完成感知任务。
与现有技术相比,本发明具有如下的有益效果:
1、本发明通过自编码器获取鸟瞰图特征,大幅提升了感知模型的训练速度,现有技术原本需要24个轮次训练的模型,本发明提供的方案包含微调在内总共只用了19个轮次的训练就达到了相同的效果,同时每个轮次的训练速度也有所提升;
2、本发明极大降低了模型改进成本,因为采用了模块化结构,分开训练编码器和解码器,分别只需要5个轮次的训练即可收敛,所以可以轻松地对模型进行改进和测试;
3、本发明提高了模型的可解释性,鸟瞰图特征不再是中间隐藏变量,而是由自编码器生成的、包含了所需信息的显式输出;同时,模型的可迁移性也增强了,自编码器生成的鸟瞰图特征可以用于训练和优化任何采用鸟瞰图方法的模型。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例所提供感知模型训练方法的整体流程图;
图2为自编码器的工作原理图;
图3为本发明实施例中第一自编码器进行自编码训练(即步骤S3)的流程图;
图4为本发明实施例中第一自编码器进行自编码训练的示意图;
图5为本发明实施例中第二编码器进行训练(即步骤S5)的流程图;
图6为本发明实施例中第二编码器进行训练的示意图;
图7为一个具体实施例中第二编码器训练损失收敛图;
图8为本发明实施例中第二自编码器进行微调训练(即步骤S7)的流程图;
图9为本发明实施例中第二自编码器进行微调训练的示意图;
图10为一个具体实施例中第二自编码器微调训练损失收敛图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
在本发明的一个实施例中,提供一种基于自编码器获取鸟瞰图特征的感知模型训练方法,如图1所示,包括:
步骤S1:获取原始图像数据集,对其进行标注,得到标注数据集;
步骤S2:创建第一自编码器,其包含第一编码器和第一解码器,二者级联,所述第一编码器的输出作为所述第一解码器的输入;
如图2所示,一个自编码器通常包括一个编码器(encoder)和个一解码器(decoder),二者级联,X作为编码器的输入,并获得特征Z,解码器再将特征Z解码为X’,Z用于表征X的信息。
具体地,所述第一编码器包括:
标注编码模块,包括一个全连接层,用于根据标注数据的信息生成N维标注特征;
标注采样模块,用于把空间划分为M×M个网格,利用自定义算子计算每个网格的标注信息,生成M×M×N的特征矩阵;
可变形多头自注意力层,用于在生成鸟瞰图特征时只采样特征矩阵对应周围空间的特征,计算公式为:
Figure BDA0003910240940000121
其中,Nhead为注意力头的总数量;j是总采样键值,Δpij表示第i个注意头中第j个采样点的采样偏移量,Aij表示第i个注意头中第j个采样点的注意权重,Wi为可学习的权重,Nkey为采样点总数量,q为查询元素,p为查询元素二维参考点,x为输入特征图;
前馈神经网络层,包括两个全连接层和一个激活层,用于增强特征学习;
两个正则化层,采用Ln正则化。
具体地,所述第一解码器包括:
多头自注意力层,使用输入的鸟瞰图特征作为Key和Value,并且声明多个Query,计算权重后相加获得输出;有多个头做同样的操作以获得不同侧重点的输出,单个头的计算公式为:
Figure BDA0003910240940000122
其中,K、V、Q分别代表Key、Value和Query矩阵;QKT为元素点积;
Figure BDA0003910240940000123
为key的维度;
多尺度可变形注意力层,将普通可变形自注意力层扩展到多尺度特征输入上,有多个注意力头,计算公式为:
Figure BDA0003910240940000124
其中,M表示注意头的总数,L表示输入特征级别,K表示采样点数量,Δpmlqk和Amlqk分别表示第l个特征级别第k个采样点的采样偏移量和第m个注意头的注意权重,Wm为可学习的权重,
Figure BDA0003910240940000125
为归一化后
Figure BDA0003910240940000126
缩放到第l层的特征图,
Figure BDA0003910240940000127
为每个查询元素q的参考点的归一化坐标,
Figure BDA0003910240940000128
为输入的多尺度特征图,zq为查询元素;
前馈神经网络层,包括两个全连接层和一个激活层;
三个正则化层,采用Ln正则化;
损失函数,先计算目标检测框和分类结果,然后分别计算回归损失和分类损失,最后加权获得结果;回归损失计算L1损失,分类损失计算Focal损失,二者计算公式分别为:
Figure BDA0003910240940000131
Focalloss(pt)=-(1-pt)γlog(pt)
其中,回归损失权重为w1,分类损失权重为w2,Lb为平衡L1损失,
Figure BDA0003910240940000132
为第i对应的u类的回归结果,vi为第i回归目标,pt为易分样本,γ为调节因子;
步骤S3:利用所述标注数据集对所述第一自编码器进行自编码训练,完成后得到第一解码器模型和第一鸟瞰图特征集;
具体地,如图3所述,步骤S3包括:
步骤S3.1:将所述标注数据集中的标注数据依次输入所述第一编码器中,输出对应的鸟瞰图特征;
步骤S3.2:将所述鸟瞰图特征输入所述第一解码器中,输出对应的检测结果;
步骤S3.3:比较所述检测结果和所述标注数据,计算损失并利用所述损失对整个第一自编码器进行迭代训练;
步骤S3.4:利用测试数据集对训练后的自编码器进行测试,如果测试分数达到第一分数阈值,则结束训练,获得此时的解码器模型和鸟瞰图特征集,即为第一解码器模型和第一鸟瞰图特征集,否则继续训练。
图4是所述第一自编码器进行自编码训练的示意图。
从上面的描述可见,在本方案中,鸟瞰图特征不再是中间隐藏变量,而是由自编码器生成的、包含了所需信息的显式输出;同时,模型的可迁移性也增强了,自编码器生成的鸟瞰图特征可以用于训练和优化任何采用鸟瞰图方法的模型。
步骤S4:创建第二编码器;
具体地,第二编码器包括:
骨干网络,采用ResNet结构,用于获取图像的特征;ResNet是一种深度残差学习网络,主要思想是在网络中增加直连通道,允许一定比例的原始输入信息直接传到后面的层中,从而缓解了传统卷积网络在层数加深时出现的梯度爆炸和梯度消失的问题;
三个特征金字塔网络层,输出三层多尺度特征,用于识别各个尺度的特征;
可变形多头自注意力层,输入历史鸟瞰图特征,对Query加鸟瞰图位置特征进行线性变换获得权重矩阵,然后计算要采样的周围空间的点,最后调用可变形多头自注意力函数;
可变形交叉注意力层,根据之前计算的图像特征上的投影,先计算每个鸟瞰图特征对应的参考电位,然后调用多尺度可变形注意力函数;
前馈神经网络层,包括两个全连接层和一个激活层;
三个正则化层,采用Ln正则化;
损失函数,计算平衡L1损失,计算公式为:
若|x|<1,
Figure BDA0003910240940000141
否则,Lb(x)=γ|x|+C
其中,α,b,γ为超参数,且满足αln(b+1)=γ,C为偏移常量。
步骤S5:利用所述标注数据集和所述第一鸟瞰图特征集对所述第二编码器进行训练,完成后得到第二编码器模型;
具体地,如图5所示,步骤S5包括:
步骤S5.1:将所述标注数据集中的标注数据依次输入所述第二编码器中,输出对应的鸟瞰图特征结果;
步骤S5.2:将所述第一鸟瞰图特征集中与所述标注数据对应的鸟瞰图特征作为标准鸟瞰图特征,比较所述鸟瞰图特征结果和所述标准鸟瞰图特征,计算损失并利用所述损失对所述第二编码器进行迭代训练;
步骤S5.3:利用测试数据集对训练后的第二编码器进行测试,如果测试分数达到第二分数阈值,则结束训练,获得第二编码器模型,否则继续训练。
更具体地,第二编码器的训练过程中,采用所述第一鸟瞰图特征集中上一时刻的鸟瞰图特征作为时序特征。
图6是所述第二编码器进行训练的示意图。图7是一个具体实施例中第二编码器训练损失收敛图,由图可见,由于在训练中直接使用第一编码器上一时刻输出的鸟瞰图特征作为时序特征,因此模型的训练速度大大提高,仅用5个轮次就收敛了。
步骤S6:将所述第二编码器模型和所述第一解码器模型级联起来,所述第二编码器模型的输出作为所述第一解码器模型的输入,构成第二自编码器;
步骤S7:对所述第二自编码器进行微调训练,完成后得到感知模型。
具体地,如图8所示,步骤S7包括:
步骤S7.1:将所述标注数据集中的标注数据依次输入所述第二编码器模型中,输出对应的鸟瞰图特征;
步骤S7.2:将所述鸟瞰图特征输入所述第一解码器模型中,输出对应的检测结果;
步骤S7.3:比较所述检测结果和所述标注数据,计算损失并利用所述损失对整个第二自编码器进行迭代训练;
步骤S7.4:利用测试数据集对训练后的第二自编码器进行测试,如果测试分数达到第三分数阈值,则结束训练,获得此时的第二自编码器模型,即为感知模型,否则继续训练。
更具体地,在第二自编码器的训练过程中,在前P轮采用所述第一鸟瞰图特征集中对应的上一时刻鸟瞰图特征作为时序特征,在第P轮之后则采用所述第二编码器模型自己产生的上一时刻鸟瞰图特征作为时序特征。在一个具体实施例中,P=4。
图9是所述第二自编码器进行微调训练的示意图。图10是一个具体实施例中第二自编码器训练损失收敛图,由图可见,仅用14个轮次模型损失就收敛了。考虑到第二编码器训练所花费的5个轮次,整个模型仅用19个轮次就训练完毕,与现有技术相比训练速度显著提高。
本领域技术人员可以将本发明提供的一种基于自编码器获取鸟瞰图特征的感知模型训练方法,理解为基于自编码器获取鸟瞰图特征的感知模型训练系统的具体实施方式,即所述基于自编码器获取鸟瞰图特征的感知模型训练系统可以通过执行所述基于自编码器获取鸟瞰图特征的感知模型训练方法的步骤流程予以实现。
在本发明的另一个实施例中,提供一种基于自编码器获取鸟瞰图特征的感知模型训练系统,包括:
标注数据获取模块:获取原始图像数据集,对其进行标注,得到标注数据集;
第一自编码器训练模块:创建第一自编码器,其包含第一编码器和第一解码器,二者级联,所述第一编码器的输出作为所述第一解码器的输入;利用所述标注数据集对所述第一自编码器进行自编码训练,完成后得到第一解码器模型和第一鸟瞰图特征集;
第二编码器训练模块:创建第二编码器;利用所述标注数据集和所述第一鸟瞰图特征集对所述第二编码器进行训练,完成后得到第二编码器模型;
感知模型训练模块:将所述第二编码器模型和所述第一解码器模型级联起来,所述第二编码器模型的输出作为所述第一解码器模型的输入,构成第二自编码器;对所述第二自编码器进行微调训练,完成后得到感知模型。
具体地,所述第一编码器包括:
标注编码模块,包括一个全连接层,用于根据标注数据的信息生成N维标注特征;
标注采样模块,用于把空间划分为M×M个网格,利用自定义算子计算每个网格的标注信息,生成M×M×N的特征矩阵;
可变形多头自注意力层,用于在生成鸟瞰图特征时只采样特征矩阵对应周围空间的特征;计算公式为:
Figure BDA0003910240940000161
其中,Nhead为注意力头的总数量;j是总采样键值,Δpij表示第i个注意头中第j个采样点的采样偏移量,Aij表示第i个注意头中第j个采样点的注意权重,Wi为可学习的权重,Nkey为采样点总数量,q为查询元素,p为查询元素二维参考点,x为输入特征图;
前馈神经网络层,包括两个全连接层和一个激活层,用于增强特征学习;
两个正则化层,采用Ln正则化;
所述第一解码器包括:
多头自注意力层,使用输入的鸟瞰图特征作为Key和Value,并且声明多个Query,计算权重后相加获得输出;有多个头做同样的操作以获得不同侧重点的输出,单个头的计算公式为:
Figure BDA0003910240940000162
其中,K、V、Q分别代表Key、Value和Query矩阵;QKT为元素点积;
Figure BDA0003910240940000163
为key的维度;
多尺度可变形注意力层,将普通可变形自注意力层扩展到多尺度特征输入上,有多个注意力头,计算公式为:
Figure BDA0003910240940000164
其中,M表示注意头的总数,L表示输入特征级别,K表示采样点数量,Δpmlqk和Amlqk分别表示第l个特征级别第k个采样点的采样偏移量和第m个注意头的注意权重;Wm为可学习的权重,
Figure BDA0003910240940000165
为归一化后
Figure BDA0003910240940000166
缩放到第l层的特征图,
Figure BDA0003910240940000167
为每个查询元素q的参考点的归一化坐标,
Figure BDA0003910240940000168
为输入的多尺度特征图,zq为查询元素;
前馈神经网络层,包括两个全连接层和一个激活层;
三个正则化层,采用Ln正则化;
损失函数,先计算目标检测框和分类结果,然后分别计算回归损失和分类损失,最后加权获得结果;回归损失计算L1损失,分类损失计算Focal损失,二者计算公式分别为:
Figure BDA0003910240940000171
Focalloss(pt)=-(1-pt)γlog(pt)
其中,回归损失权重为w1,分类损失权重为w2,Lb为平衡L1损失,
Figure BDA0003910240940000172
为第i对应的u类的回归结果,vi为第i回归目标,pt为易分样本,γ为调节因子;
所述第二编码器包括:
骨干网络,采用ResNet结构,用于获取图像的特征;
三个特征金字塔网络层,输出三层多尺度特征,用于识别各个尺度的特征;
可变形多头自注意力层,输入历史鸟瞰图特征,对Query加鸟瞰图位置特征进行线性变换获得权重矩阵,然后计算要采样的周围空间的点,最后调用可变形多头自注意力函数;
可变形交叉注意力层,根据之前计算的图像特征上的投影,先计算每个鸟瞰图特征对应的参考电位,然后调用多尺度可变形注意力函数;
前馈神经网络层,包括两个全连接层和一个激活层;
三个正则化层,采用Ln正则化;
损失函数,计算平衡L1损失,计算公式为:
若|x|<1,
Figure BDA0003910240940000173
否则Lb(x)=γ|x|+C
其中,α,b,γ为超参数,且满足αln(b+1)=γ,C为偏移常量。
具体地,所述第一自编码器训练模块包括:
第一创建单元,创建第一自编码器,其包含第一编码器和第一解码器,二者级联,所述第一编码器的输出作为所述第一解码器的输入;
第一输入单元,将所述标注数据集中的标注数据依次输入所述第一编码器中,输出对应的鸟瞰图特征;
第一输出单元,将所述鸟瞰图特征输入所述第一解码器中,输出对应的检测结果;
第一迭代单元,比较所述检测结果和所述标注数据,计算损失并利用所述损失对整个第一自编码器进行迭代训练;
第一测试单元,利用测试数据集对训练后的自编码器进行测试,如果测试分数达到第一分数阈值,则结束训练,获得此时的解码器模型和鸟瞰图特征集,即为第一解码器模型和第一鸟瞰图特征集,否则继续训练;
所述第二编码器训练模块包括:
第二创建单元,创建第二编码器;
第二输入输出单元,将所述标注数据集中的标注数据依次输入所述第二编码器中,输出对应的鸟瞰图特征结果;
第二迭代单元,将所述第一鸟瞰图特征集中与所述标注数据对应的鸟瞰图特征作为标准鸟瞰图特征,比较所述鸟瞰图特征结果和所述标准鸟瞰图特征,计算损失并利用所述损失对所述第二编码器进行迭代训练;
第二测试单元,利用测试数据集对训练后的第二编码器进行测试,如果测试分数达到第二分数阈值,则结束训练,获得第二编码器模型,否则继续训练;在所述第二编码器的训练过程中,采用所述第一鸟瞰图特征集中上一时刻的鸟瞰图特征作为时序特征;
所述感知模型训练模块包括:
第三创建单元,将所述第二编码器模型和所述第一解码器模型级联起来,所述第二编码器模型的输出作为所述第一解码器模型的输入,构成第二自编码器;
第三输入单元,将所述标注数据集中的标注数据依次输入所述第二编码器模型中,输出对应的鸟瞰图特征;
第三输出单元,将所述鸟瞰图特征输入所述第一解码器模型中,输出对应的检测结果;
第三迭代单元,比较所述检测结果和所述标注数据,计算损失并利用所述损失对整个第二自编码器进行迭代训练;
第三测试单元,利用测试数据集对训练后的第二自编码器进行测试,如果测试分数达到第三分数阈值,则结束训练,获得此时的第二自编码器模型,即为感知模型,否则继续训练;在所述第二自编码器的训练过程中,在前P轮采用所述第一鸟瞰图特征集中对应的上一时刻鸟瞰图特征作为时序特征,在第P轮之后则采用所述第二编码器模型自己产生的上一时刻鸟瞰图特征作为时序特征。
在本发明的另一个实施例中,提供一种基于自编码器获取鸟瞰图特征的感知模型,包括:
第二编码器模型和第一解码器模型,所述第二编码器模型和所述第一解码器模型级联,所述第二编码器模型的输出作为所述第一解码器模型的输入;
所述第二编码器模型包括:骨干网络,采用ResNet结构,用于获取图像的特征;三个特征金字塔网络层,输出三层多尺度特征,用于识别各个尺度的特征;可变形多头自注意力层,输入历史鸟瞰图特征,对Query加鸟瞰图位置特征进行线性变换获得权重矩阵,然后计算要采样的周围空间的点,最后调用可变形多头自注意力函数;可变形交叉注意力层,根据之前计算的图像特征上的投影,先计算每个鸟瞰图特征对应的参考电位,然后调用多尺度可变形注意力函数;前馈神经网络层,包括两个全连接层和一个激活层;三个正则化层,采用Ln正则化;损失函数,计算平衡L1损失,计算公式为:
若|x|<1,
Figure BDA0003910240940000191
否则Lb(x)=γ|x|+C
其中,α,b,γ为超参数,且满足αln(b+1)=γ,C为偏移常量。
所述第一解码器模型包括:多头自注意力层,使用输入的鸟瞰图特征作为Key和Value,并且声明多个Query,计算权重后相加获得输出;有多个头做同样的操作以获得不同侧重点的输出,单个头的计算公式为:
Figure BDA0003910240940000192
其中,K、V、Q分别代表Key、Value和Query矩阵;QKT为元素点积;
Figure BDA0003910240940000193
为key的维度;
多尺度可变形注意力层,将普通可变形自注意力层扩展到多尺度特征输入上,有多个注意力头,计算公式为:
Figure BDA0003910240940000194
其中,M表示注意头的总数,L表示输入特征级别,K表示采样点数量,Δpmlqk和Amlqk分别表示第l个特征级别第k个采样点的采样偏移量和第m个注意头的注意权重,Wm为可学习的权重,
Figure BDA0003910240940000195
为归一化后
Figure BDA0003910240940000196
缩放到第l层的特征图,
Figure BDA0003910240940000197
为每个查询元素q的参考点的归一化坐标,
Figure BDA0003910240940000198
为输入的多尺度特征图,zq为查询元素;
前馈神经网络层,包括两个全连接层和一个激活层;三个正则化层,采用Ln正则化;损失函数,先计算目标检测框和分类结果,然后分别计算回归损失和分类损失,最后加权获得结果;回归损失计算L1损失,分类损失计算Focal损失,二者计算公式分别为:
Figure BDA0003910240940000201
Focalloss(pt)=-(1-pt)γlog(pt)
其中,回归损失权重为w1,分类损失权重为w2,Lb为平衡L1损失,
Figure BDA0003910240940000202
为第i对应的u类的回归结果,vi为第i回归目标,pt为易分样本,γ为调节因子;
具体地,所述感知模型部署在移动终端设备上;所述移动终端设备将采集到的实时图像送入所述感知模型中,所述第二编码器模型从所述实时图像中提取出鸟瞰图特征并输入所述第一解码器模型中,所述第一解码器模型根据所述鸟瞰图特征输出检测结果,完成感知任务。除上述实施例提供的方法外,还可以使用其他方法训练编码器生成鸟瞰图特征,也就是并非直接自编码,而是替换下游任务来训练编码器,比如用NLP中使用的掩码模型替换掉输入中的某些部分,让模型预测这部分结果;另外,编码器的模型也可能更改为其他编码模型。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (14)

1.一种基于自编码器获取鸟瞰图特征的感知模型训练方法,其特征在于,包括:
步骤S1:获取原始图像数据集,对其进行标注,得到标注数据集;
步骤S2:创建第一自编码器,其包含第一编码器和第一解码器,二者级联,所述第一编码器的输出作为所述第一解码器的输入;
步骤S3:利用所述标注数据集对所述第一自编码器进行自编码训练,完成后得到第一解码器模型和第一鸟瞰图特征集;
步骤S4:创建第二编码器;
步骤S5:利用所述标注数据集和所述第一鸟瞰图特征集对所述第二编码器进行训练,完成后得到第二编码器模型;
步骤S6:将所述第二编码器模型和所述第一解码器模型级联起来,所述第二编码器模型的输出作为所述第一解码器模型的输入,构成第二自编码器;
步骤S7:对所述第二自编码器进行微调训练,完成后得到感知模型。
2.根据权利要求1所述的基于自编码器获取鸟瞰图特征的感知模型训练方法,其特征在于,所述第一编码器包括:
标注编码模块,包括一个全连接层,用于根据标注数据的信息生成N维标注特征;
标注采样模块,用于把空间划分为M×M个网格,利用自定义算子计算每个网格的标注信息,生成M×M×N的特征矩阵;
可变形多头自注意力层,用于在生成鸟瞰图特征时只采样特征矩阵对应周围空间的特征,计算公式为:
Figure FDA0003910240930000011
其中,Nhead为注意力头的总数量;j是总采样键值,Δpij表示第i个注意头中第j个采样点的采样偏移量,Aij表示第i个注意头中第j个采样点的注意权重,Wi为可学习的权重,Nkey为采样点总数量,q为查询元素,p为查询元素二维参考点,x为输入特征图;
前馈神经网络层,包括两个全连接层和一个激活层,用于增强特征学习;
两个正则化层,采用Ln正则化。
3.根据权利要求1所述的基于自编码器获取鸟瞰图特征的感知模型训练方法,其特征在于,所述第一解码器包括:
多头自注意力层,使用输入的鸟瞰图特征作为Key和Value,并且声明多个Query,计算权重后相加获得输出;有多个头做同样的操作以获得不同侧重点的输出,单个头的计算公式为:
Figure FDA0003910240930000021
其中,K、V、Q分别代表Key、Value和Query矩阵;QKT为元素点积;
Figure FDA0003910240930000022
为key的维度;
多尺度可变形注意力层,将普通可变形自注意力层扩展到多尺度特征输入上,有多个注意力头,计算公式为:
Figure FDA0003910240930000023
其中,M表示注意头的总数,L表示输入特征级别,K表示采样点数量,Δpmlqk和Amlqk分别表示第l个特征级别第k个采样点的采样偏移量和第m个注意头的注意权重,Wm为可学习的权重,
Figure FDA0003910240930000024
为归一化后
Figure FDA0003910240930000025
缩放到第l层的特征图,
Figure FDA0003910240930000026
为每个查询元素q的参考点的归一化坐标,
Figure FDA0003910240930000027
为输入的多尺度特征图,zq为查询元素;
前馈神经网络层,包括两个全连接层和一个激活层;
三个正则化层,采用Ln正则化;
损失函数,先计算目标检测框和分类结果,然后分别计算回归损失和分类损失,最后加权获得结果;回归损失计算L1损失,分类损失计算Focal损失,二者计算公式分别为:
Figure FDA0003910240930000028
Focalloss(pt)=-(1-pr)γlog(pt)
其中,回归损失权重为w1,分类损失权重为w2,Lb为平衡L1损失,
Figure FDA0003910240930000029
为第i对应的u类的回归结果,vi为第i回归目标,pt为易分样本,γ为调节因子。
4.根据权利要求1所述的基于自编码器获取鸟瞰图特征的感知模型训练方法,其特征在于,所述第二编码器包括:
骨干网络,采用ResNet结构,用于获取图像的特征;
三个特征金字塔网络层,输出三层多尺度特征,用于识别各个尺度的特征;
可变形多头自注意力层,输入历史鸟瞰图特征,对Query加鸟瞰图位置特征进行线性变换获得权重矩阵,然后计算要采样的周围空间的点,最后调用可变形多头自注意力函数;
可变形交叉注意力层,根据之前计算的图像特征上的投影,先计算每个鸟瞰图特征对应的参考电位,然后调用多尺度可变形注意力函数;
前馈神经网络层,包括两个全连接层和一个激活层;
三个正则化层,采用Ln正则化;
损失函数,计算平衡L1损失,计算公式为:
若|x|<1,
Figure FDA0003910240930000031
否则,Lb(x)=γ|x|+C
其中,α,b,γ为超参数,且满足αln(b+1)=γ,C为偏移常量。
5.根据权利要求1所述的基于自编码器获取鸟瞰图特征的感知模型训练方法,其特征在于,所述步骤S3包括:
步骤S3.1:将所述标注数据集中的标注数据依次输入所述第一编码器中,输出对应的鸟瞰图特征;
步骤S3.2:将所述鸟瞰图特征输入所述第一解码器中,输出对应的检测结果;
步骤S3.3:比较所述检测结果和所述标注数据,计算损失并利用所述损失对整个第一自编码器进行迭代训练;
步骤S3.4:利用测试数据集对训练后的自编码器进行测试,如果测试分数达到第一分数阈值,则结束训练,获得此时的解码器模型和鸟瞰图特征集,即为第一解码器模型和第一鸟瞰图特征集,否则继续训练。
6.根据权利要求1所述的基于自编码器获取鸟瞰图特征的感知模型训练方法,其特征在于,所述步骤S5包括:
步骤S5.1:将所述标注数据集中的标注数据依次输入所述第二编码器中,输出对应的鸟瞰图特征结果;
步骤S5.2:将所述第一鸟瞰图特征集中与所述标注数据对应的鸟瞰图特征作为标准鸟瞰图特征,比较所述鸟瞰图特征结果和所述标准鸟瞰图特征,计算损失并利用所述损失对所述第二编码器进行迭代训练;
步骤S5.3:利用测试数据集对训练后的第二编码器进行测试,如果测试分数达到第二分数阈值,则结束训练,获得第二编码器模型,否则继续训练。
7.根据权利要求6所述的基于自编码器获取鸟瞰图特征的感知模型训练方法,其特征在于,在所述第二编码器的训练过程中,采用所述第一鸟瞰图特征集中上一时刻的鸟瞰图特征作为时序特征。
8.根据权利要求1所述的基于自编码器获取鸟瞰图特征的感知模型训练方法,其特征在于,所述步骤S7包括:
步骤S7.1:将所述标注数据集中的标注数据依次输入所述第二编码器模型中,输出对应的鸟瞰图特征;
步骤S7.2:将所述鸟瞰图特征输入所述第一解码器模型中,输出对应的检测结果;
步骤S7.3:比较所述检测结果和所述标注数据,计算损失并利用所述损失对整个第二自编码器进行迭代训练;
步骤S7.4:利用测试数据集对训练后的第二自编码器进行测试,如果测试分数达到第三分数阈值,则结束训练,获得此时的第二自编码器模型,即为感知模型,否则继续训练。
9.根据权利要求8所述的基于自编码器获取鸟瞰图特征的感知模型训练方法,其特征在于,在所述第二自编码器的训练过程中,在前P轮采用所述第一鸟瞰图特征集中对应的上一时刻鸟瞰图特征作为时序特征,在第P轮之后则采用所述第二编码器模型自己产生的上一时刻鸟瞰图特征作为时序特征。
10.一种基于自编码器获取鸟瞰图特征的感知模型训练系统,其特征在于,包括:
标注数据获取模块:获取原始图像数据集,对其进行标注,得到标注数据集;
第一自编码器训练模块:创建第一自编码器,其包含第一编码器和第一解码器,二者级联,所述第一编码器的输出作为所述第一解码器的输入;利用所述标注数据集对所述第一自编码器进行自编码训练,完成后得到第一解码器模型和第一鸟瞰图特征集;
第二编码器训练模块:创建第二编码器;利用所述标注数据集和所述第一鸟瞰图特征集对所述第二编码器进行训练,完成后得到第二编码器模型;
感知模型训练模块:将所述第二编码器模型和所述第一解码器模型级联起来,所述第二编码器模型的输出作为所述第一解码器模型的输入,构成第二自编码器;对所述第二自编码器进行微调训练,完成后得到感知模型。
11.根据权利要求10所述的基于自编码器获取鸟瞰图特征的感知模型训练系统,其特征在于,所述第一编码器包括:
标注编码模块,包括一个全连接层,用于根据标注数据的信息生成N维标注特征;
标注采样模块,用于把空间划分为M×M个网格,利用自定义算子计算每个网格的标注信息,生成M×M×N的特征矩阵;
可变形多头自注意力层,用于在生成鸟瞰图特征时只采样特征矩阵对应周围空间的特征;计算公式为:
Figure FDA0003910240930000051
其中,Nhead为注意力头的总数量;j是总采样键值,Δpij表示第i个注意头中第j个采样点的采样偏移量,Aij表示第i个注意头中第j个采样点的注意权重,Wi为可学习的权重,Nkey为采样点总数量,q为查询元素,p为查询元素二维参考点,x为输入特征图;
前馈神经网络层,包括两个全连接层和一个激活层,用于增强特征学习;
两个正则化层,采用Ln正则化;
所述第一解码器包括:
多头自注意力层,使用输入的鸟瞰图特征作为Key和Value,并且声明多个Query,计算权重后相加获得输出;有多个头做同样的操作以获得不同侧重点的输出,单个头的计算公式为:
Figure FDA0003910240930000052
其中,K、V、Q分别代表Key、Value和Query矩阵;QKT为元素点积;
Figure FDA0003910240930000053
为key的维度;
多尺度可变形注意力层,将普通可变形自注意力层扩展到多尺度特征输入上,有多个注意力头,计算公式为:
Figure FDA0003910240930000054
其中,M表示注意头的总数,L表示输入特征级别,K表示采样点数量,Δpmlqk和Amlqk分别表示第l个特征级别第k个采样点的采样偏移量和第m个注意头的注意权重;Wm为可学习的权重,
Figure FDA0003910240930000055
为归一化后
Figure FDA0003910240930000056
缩放到第l层的特征图,
Figure FDA0003910240930000057
为每个查询元素q的参考点的归一化坐标,
Figure FDA0003910240930000058
为输入的多尺度特征图,zq为查询元素;
前馈神经网络层,包括两个全连接层和一个激活层;
三个正则化层,采用Ln正则化;
损失函数,先计算目标检测框和分类结果,然后分别计算回归损失和分类损失,最后加权获得结果;回归损失计算L1损失,分类损失计算Focal损失,二者计算公式分别为:
Figure FDA0003910240930000061
Focalloss(pt)=-(1-pt)γlog(pt)
其中,回归损失权重为w1,分类损失权重为w2,Lb为平衡L1损失,
Figure FDA0003910240930000062
为第i对应的u类的回归结果,vi为第i回归目标,pt为易分样本,γ为调节因子;
所述第二编码器包括:
骨干网络,采用ResNet结构,用于获取图像的特征;
三个特征金字塔网络层,输出三层多尺度特征,用于识别各个尺度的特征;
可变形多头自注意力层,输入历史鸟瞰图特征,对Query加鸟瞰图位置特征进行线性变换获得权重矩阵,然后计算要采样的周围空间的点,最后调用可变形多头自注意力函数;
可变形交叉注意力层,根据之前计算的图像特征上的投影,先计算每个鸟瞰图特征对应的参考电位,然后调用多尺度可变形注意力函数;
前馈神经网络层,包括两个全连接层和一个激活层;
三个正则化层,采用Ln正则化;
损失函数,计算平衡L1损失,计算公式为:
若|x|<1,
Figure FDA0003910240930000063
否则Lb(x)=γ|x|+C
其中,α,b,γ为超参数,且满足αln(b+1)=γ,C为偏移常量。
12.根据权利要求10所述的基于自编码器获取鸟瞰图特征的感知模型训练系统,其特征在于:
所述第一自编码器训练模块包括:
第一创建单元,创建第一自编码器,其包含第一编码器和第一解码器,二者级联,所述第一编码器的输出作为所述第一解码器的输入;
第一输入单元,将所述标注数据集中的标注数据依次输入所述第一编码器中,输出对应的鸟瞰图特征;
第一输出单元,将所述鸟瞰图特征输入所述第一解码器中,输出对应的检测结果;
第一迭代单元,比较所述检测结果和所述标注数据,计算损失并利用所述损失对整个第一自编码器进行迭代训练;
第一测试单元,利用测试数据集对训练后的自编码器进行测试,如果测试分数达到第一分数阈值,则结束训练,获得此时的解码器模型和鸟瞰图特征集,即为第一解码器模型和第一鸟瞰图特征集,否则继续训练;
所述第二编码器训练模块包括:
第二创建单元,创建第二编码器;
第二输入输出单元,将所述标注数据集中的标注数据依次输入所述第二编码器中,输出对应的鸟瞰图特征结果;
第二迭代单元,将所述第一鸟瞰图特征集中与所述标注数据对应的鸟瞰图特征作为标准鸟瞰图特征,比较所述鸟瞰图特征结果和所述标准鸟瞰图特征,计算损失并利用所述损失对所述第二编码器进行迭代训练;
第二测试单元,利用测试数据集对训练后的第二编码器进行测试,如果测试分数达到第二分数阈值,则结束训练,获得第二编码器模型,否则继续训练;在所述第二编码器的训练过程中,采用所述第一鸟瞰图特征集中上一时刻的鸟瞰图特征作为时序特征;
所述感知模型训练模块包括:
第三创建单元,将所述第二编码器模型和所述第一解码器模型级联起来,所述第二编码器模型的输出作为所述第一解码器模型的输入,构成第二自编码器;
第三输入单元,将所述标注数据集中的标注数据依次输入所述第二编码器模型中,输出对应的鸟瞰图特征;
第三输出单元,将所述鸟瞰图特征输入所述第一解码器模型中,输出对应的检测结果;
第三迭代单元,比较所述检测结果和所述标注数据,计算损失并利用所述损失对整个第二自编码器进行迭代训练;
第三测试单元,利用测试数据集对训练后的第二自编码器进行测试,如果测试分数达到第三分数阈值,则结束训练,获得此时的第二自编码器模型,即为感知模型,否则继续训练;在所述第二自编码器的训练过程中,在前P轮采用所述第一鸟瞰图特征集中对应的上一时刻鸟瞰图特征作为时序特征,在第P轮之后则采用所述第二编码器模型自己产生的上一时刻鸟瞰图特征作为时序特征。
13.一种基于自编码器获取鸟瞰图特征的感知模型,其特征在于,包括:
第二编码器模型和第一解码器模型,所述第二编码器模型和所述第一解码器模型级联,所述第二编码器模型的输出作为所述第一解码器模型的输入;
所述第二编码器模型包括:骨干网络,采用ResNet结构,用于获取图像的特征;三个特征金字塔网络层,输出三层多尺度特征,用于识别各个尺度的特征;可变形多头自注意力层,输入历史鸟瞰图特征,对Query加鸟瞰图位置特征进行线性变换获得权重矩阵,然后计算要采样的周围空间的点,最后调用可变形多头自注意力函数;可变形交叉注意力层,根据之前计算的图像特征上的投影,先计算每个鸟瞰图特征对应的参考电位,然后调用多尺度可变形注意力函数;前馈神经网络层,包括两个全连接层和一个激活层;三个正则化层,采用Ln正则化;损失函数,计算平衡L1损失,计算公式为:
若|x|<1,
Figure FDA0003910240930000081
否则Lb(x)=γ|x|+C
其中,α,b,γ为超参数,且满足αln(b+1)=γ,C为偏移常量。
所述第一解码器模型包括:多头自注意力层,使用输入的鸟瞰图特征作为Key和Value,并且声明多个Query,计算权重后相加获得输出;有多个头做同样的操作以获得不同侧重点的输出,单个头的计算公式为:
Figure FDA0003910240930000082
其中,K、V、Q分别代表Key、Value和Query矩阵;QLT为元素点积;
Figure FDA0003910240930000083
为key的维度;
多尺度可变形注意力层,将普通可变形自注意力层扩展到多尺度特征输入上,有多个注意力头,计算公式为:
Figure FDA0003910240930000084
其中,M表示注意头的总数,L表示输入特征级别,K表示采样点数量,Δpmlqk和Amlqk分别表示第l个特征级别第k个采样点的采样偏移量和第m个注意头的注意权重,Wm为可学习的权重,
Figure FDA0003910240930000085
为归一化后
Figure FDA0003910240930000086
缩放到第l层的特征图,
Figure FDA0003910240930000087
为每个查询元素q的参考点的归一化坐标,
Figure FDA0003910240930000088
)为输入的多尺度特征图,zq为查询元素;
前馈神经网络层,包括两个全连接层和一个激活层;三个正则化层,采用Ln正则化;损失函数,先计算目标检测框和分类结果,然后分别计算回归损失和分类损失,最后加权获得结果;回归损失计算L1损失,分类损失计算Focal损失,二者计算公式分别为:
Figure FDA0003910240930000091
Focalloss(pt)=-(1-pt)γlog(pt)
其中,回归损失权重为w1,分类损失权重为w2,Lb为平衡L1损失,
Figure FDA0003910240930000092
为第i对应的u类的回归结果,vi为第i回归目标,pt为易分样本,γ为调节因子。
14.根据权利要求13所述的自编码器获取鸟瞰图特征的感知模型,其特征在于,所述感知模型部署在移动终端设备上;所述移动终端设备将采集到的实时图像送入所述感知模型中,所述第二编码器模型从所述实时图像中提取出鸟瞰图特征并输入所述第一解码器模型中,所述第一解码器模型根据所述鸟瞰图特征输出检测结果,完成感知任务。
CN202211318099.0A 2022-10-26 2022-10-26 基于自编码器获取鸟瞰图特征的感知模型训练方法及系统 Pending CN115565146A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211318099.0A CN115565146A (zh) 2022-10-26 2022-10-26 基于自编码器获取鸟瞰图特征的感知模型训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211318099.0A CN115565146A (zh) 2022-10-26 2022-10-26 基于自编码器获取鸟瞰图特征的感知模型训练方法及系统

Publications (1)

Publication Number Publication Date
CN115565146A true CN115565146A (zh) 2023-01-03

Family

ID=84767797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211318099.0A Pending CN115565146A (zh) 2022-10-26 2022-10-26 基于自编码器获取鸟瞰图特征的感知模型训练方法及系统

Country Status (1)

Country Link
CN (1) CN115565146A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452654A (zh) * 2023-04-11 2023-07-18 北京辉羲智能科技有限公司 一种基于bev感知的相对位姿估计方法、神经网络及其训练方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452654A (zh) * 2023-04-11 2023-07-18 北京辉羲智能科技有限公司 一种基于bev感知的相对位姿估计方法、神经网络及其训练方法
CN116452654B (zh) * 2023-04-11 2023-11-10 北京辉羲智能科技有限公司 一种基于bev感知的相对位姿估计方法、神经网络及其训练方法

Similar Documents

Publication Publication Date Title
CN110163187B (zh) 基于f-rcnn的远距离交通标志检测识别方法
CN109886066A (zh) 基于多尺度和多层特征融合的快速目标检测方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN109886225A (zh) 一种基于深度学习的图像手势动作在线检测与识别方法
CN111368972B (zh) 一种卷积层量化方法及其装置
CN113158862A (zh) 一种基于多任务的轻量级实时人脸检测方法
CN110222718B (zh) 图像处理的方法及装置
CN111046821A (zh) 一种视频行为识别方法、系统及电子设备
CN112464912B (zh) 基于YOLO-RGGNet的机器人端人脸检测方法
CN114037640A (zh) 图像生成方法及装置
CN111738074B (zh) 基于弱监督学习的行人属性识别方法、系统及装置
CN111291695B (zh) 人员违章行为识别模型训练方法、识别方法及计算机设备
CN114626476A (zh) 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
CN115565146A (zh) 基于自编码器获取鸟瞰图特征的感知模型训练方法及系统
Maddileti et al. Pseudo Trained YOLO R_CNN Model for Weapon Detection with a Real-Time Kaggle Dataset
CN113673308A (zh) 对象识别方法、装置和电子系统
CN113095199A (zh) 一种高速行人识别方法及装置
CN115620122A (zh) 神经网络模型的训练方法、图像重识别方法及相关设备
CN112766176A (zh) 轻量化卷积神经网络的训练方法及人脸属性识别方法
CN116994049A (zh) 全自动针织横机及其方法
CN112364864A (zh) 一种车牌识别方法、装置、电子设备及存储介质
CN110929632A (zh) 面向复杂场景的车辆目标检测方法及装置
CN115761667A (zh) 一种基于改进fcos算法的无人车辆搭载摄像头目标检测方法
CN112699809B (zh) 痘痘类别识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination