CN116645508A - 基于局部窗口交叉注意力的轻量型语义目标分割方法 - Google Patents
基于局部窗口交叉注意力的轻量型语义目标分割方法 Download PDFInfo
- Publication number
- CN116645508A CN116645508A CN202310585256.2A CN202310585256A CN116645508A CN 116645508 A CN116645508 A CN 116645508A CN 202310585256 A CN202310585256 A CN 202310585256A CN 116645508 A CN116645508 A CN 116645508A
- Authority
- CN
- China
- Prior art keywords
- bev
- module
- encoder
- cross
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000009466 transformation Effects 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 35
- 230000017105 transposition Effects 0.000 claims description 18
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供的一种基于局部窗口交叉注意力的轻量型语义目标分割方法,包括以下步骤:S1.构建轻量型语义分割网络,轻量型语义分割网络包含改进型EdgeNeXt网络、交叉视图转换编码器和BEV特征解码器;S2.将样本图像输入至轻量型语义分割网络中进行训练;S3.判断轻量型语义分割网络是否训练完成,如是,则进入步骤S4,如否,则返回步骤S2,直至达到训练完成目标;S4.实时采集环境图像,将环境图像输入至训练完成的轻量型语义分割网络中进行语义分割,输出语义分割结果。通过上述方法,能够实现跨相机透视图之间的特征查询,指导BEV查询关注正确的局部区域,减少查询计算量,提高了查询准确度和语义分割效率。
Description
技术领域
本发明涉及一种语义分割领域,尤其涉及一种基于局部窗口交叉注意力的轻量型语义目标分割方法。
背景技术
自动驾驶汽车高度依赖于自车对场景的理解,例如交通标志检测和障碍物检测等。在环视多相机语义分割任务中,前期研究多基于单目相机分割得到2D目标,然后采用跨相机后处理方式将分割结果投影至统一车身坐标系下获得3D输出。这类方法不能跨视图处理特征,分割结果容易受到环境影响而出现歧义,严重影响语义分割准确度。在自动驾驶汽车环境感知任务中,采用环视相机在统一鸟瞰图(Bird's Eye View,BEV)坐标系下对车道线、车辆等目标进行语义分割受到广泛关注,相机个数增加致使任务推理延迟线性上升,实时性难以完成语义分割任务。
为解决上述技术问题,亟需提出一种新的技术手段。
发明内容
本发明提供的一种基于局部窗口交叉注意力的轻量型语义目标分割方法,包括以下步骤:
S1.构建轻量型语义分割网络,轻量型语义分割网络包含改进型EdgeNeXt网络、交叉视图转换编码器和BEV特征解码器;
改进型EdgeNeXt网络作为骨干网络,改进型EdgeNeXt网络的特征金字塔以添加残差块的方式构建,改进型EdgeNeXt网络用于捕获图像的全局信息和局部信息;
交叉视图转换编码器包含BEV局部窗口查询模块和交叉注意力模块,交叉视图转换编码器用于跨相机透视图查询图像特征;
BEV特征解码器由上采样残差块和分割头组成,用于完成语义分割;
S2.将样本图像输入至轻量型语义分割网络中进行训练;
S3.判断轻量型语义分割网络是否训练完成,如是,则进入步骤S4,如否,则返回步骤S2,直至达到训练完成目标;
S4.实时采集环境图像,将环境图像输入至训练完成的轻量型语义分割网络中进行语义分割,输出语义分割结果。
进一步,步骤S1中,通过如下方法构建EdgeNeXt网络:
EdgeNeXt网络包含Stage1模块、Stage2模块、Stage3模块、Stage4模块和特征金字塔模块;
其中,Stage1的输出端连接Stage2的输入端,Stage2的输出端连接Stage3的输入端,Stage3的输出端连接Stage4的输入端,Stage2的输出端、Stage3的输出端和Stage4的输出端连接特征金字塔模块的输入端;
S111.构建Stage1模块,Stage1模块包含4×4卷积层和3×3卷积编码器,其中,卷积层的输出端连接卷积编码器的输入端;
S112.构建Stage2模块,Stage2模块包含下采样模块、5×5卷积编码器、位置编码器和深度转置注意编码器,其中,下采样模块的输出端连接卷积编码器的输入端,卷积编码器的输出和位置编码器的输出进行特征融合,得到融合后的特征图,将融合后的特征图输入深度转置注意编码器中;
S113.构建Stage3模块,Stage3模块包含下采样模块、7×7卷积编码器和深度转置注意编码器,其中,下采样的输出端连接卷积编码器的输入端,卷积编码器的输出端连接深度转置注意编码器的输入端;
S114.构建Stage4模块,Stage4模块包含下采样模块、7×7卷积编码器和深度转置注意编码器;
S115.构建特征金字塔模块,特征金字塔模块包含上采样模块、下采样模块和残差块,其中,对Stage2的输出进行下采样,对Stage4的输出进行上采样,再将下采样后的Stage2输出、上采样后的Stage4输出和Stage3输出进行拼接,将拼接结果输入残差块中。
进一步,步骤S1中,交叉视图转换编码器根据传感器的感知距离和相机的分辨率确定BEV网格的大小,将BEV网格划分为4个窗口,窗口内的BEV查询和BEV查询对应的透视图完成交叉注意力计算,输出融合透视图特征的BEV特征图Z。
进一步,透视特征图和BEV特征图的交叉注意力通过如下方法完成:
首先,将透视图特征T∈RN×H×W×C转换为BEV特征B∈RX×Y×C,其中,表示传感器个数,H表示像素高度,W表示像素宽度,C表示通道数,X表示网格的长度,Y表示网格的宽度;
其次,将BEV坐标BJ转化为透视图坐标TJ,转化过程如下:
其中,u和v表示图像的BEV坐标,d表示深度,BJ=(u,v,d),u′和v′表示BJ坐标输入resize函数后得到的BEV坐标,I表示相机内参矩阵,E表示相机外参矩阵,E-1表示相机外参矩阵的逆矩阵;
然后,通过计算透视图像反投影的BEV坐标和BEV网格坐标之间的余弦相似度完成交叉注意力,具体过程如下:
根据透视特征图大小构建透视特征图反投影索引,并通过线性投射层得到K和V,K和V公式如下:
K=M(EI-1TJ′)
V=M(TJ)
其中,K表示反投影索引矩阵,K∈RN×HW×d,V表示BEV图像特征,V∈RNHW×d,N表示传感器个数,TJ′表示透视图坐标转置,H表示像素高度,W表示像素宽度,d表示深度,E表示相机外参矩阵,I-1表示相机内参矩阵的逆矩阵,M表示线性投射层,TJ表示透视图坐标;
计算余弦相似度:
其中,sim表示余弦相似度,表示透视图坐标,BJ表示BEV坐标,E表示相机外参矩阵,K-1表示反投影索引矩阵的逆矩阵,n表示视图数量;
最后,输出特征图Z,特征图Z是通过融合BEV查询和BEV查询对应透视图的特征得到:
Z=CrossAttention(Q,K,V)
其中,Z表示特征图,Q表示查询的窗口,K表示反投影索引矩阵,V表示BEV图像特征。
进一步,步骤S2中,轻量型语义分割网络初始学习率设置为1e-4,权重衰减为0.01,设置单次传递用于训练的样本数batch_size为8,损失函数采用交叉熵损失函数,优化器采用Adam优化器,交叉熵损失函数的公式如下:
其中,A表示样本总数量,b表示目标检测类别数量,Pic表示样本i为c的预测概率,yic表示样本i类别是否为c,如是,则c取1,如否,则c取0。
进一步,步骤S3中,当样本数据集完成20轮训练时,轻量型语义分割网络训练完成。
本发明的有益效果:本发明通过构建BEV查询和图像特征之间的局部窗口交叉注意力,完成对跨相机透视图之间的特征查询,减少了查询计算量,提高了查询准确度和语义分割效率。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明流程图;
图2为本发明网络整体结构;
图3为本发明骨干网络结构;
图4为本发明局部窗口交叉注意力过程图。
具体实施方式
以下结合说明书附图对本发明作出进一步描述:
本发明提供的一种基于局部窗口交叉注意力的轻量型语义目标分割方法,包括以下步骤:
S1.构建轻量型语义分割网络,轻量型语义分割网络包含改进型EdgeNeXt网络、交叉视图转换编码器和BEV特征解码器;
改进型EdgeNeXt网络作为骨干网络,改进型EdgeNeXt网络的特征金字塔以添加残差块的方式构建,改进型EdgeNeXt网络用于捕获图像的全局信息和局部信息;
交叉视图转换编码器包含BEV局部窗口查询模块和交叉注意力模块,交叉视图转换编码器用于跨相机透视图查询图像特征;
S2.将样本图像输入至轻量型语义分割网络中进行训练;
S3.判断轻量型语义分割网络是否训练完成,如是,则进入步骤S4,如否,则返回步骤S2,直至达到训练完成目标;
S4.实时采集环境图像,将环境图像输入至训练完成的轻量型语义分割网络中进行语义分割,输出语义分割结果。通过上述方法,能够实现跨相机透视图之间的特征查询,指导BEV查询关注正确的局部区域,减少查询计算量,提高了查询准确度和语义分割效率。
本实施例中,步骤S1中,构建轻量型语义分割网络,轻量型语义分割网络包含改进型EdgeNeXt网络、交叉视图转换编码器和BEV特征解码器,如图1所示;
S11.构建改进型EdgeNeXt网络包含Stage1模块、Stage2模块、Stage3模块、Stage4模块和特征金字塔模块,如图3所示;
其中,Stage1的输出端连接Stage2的输入端,Stage2的输出端连接Stage3的输入端,Stage3的输出端连接Stage4的输入端,Stage2的输出端、Stage3的输出端和Stage4的输出端连接特征金字塔模块的输入端;
S111.构建Stage1模块,Stage1模块包含1个4×4卷积层和3个3×3卷积编码器,其中,卷积层的输出端连接卷积编码器的输入端;
S112.构建Stage2模块,Stage2模块包含1个下采样模块、2个5×5卷积编码器、1个位置编码器和1个深度转置注意编码器,其中,下采样模块的输出端连接卷积编码器的输入端,卷积编码器的输出和位置编码器的输出进行特征融合,得到融合后的特征图,将融合后的特征图输入深度转置注意编码器中;
卷积编码器、位置编码器和深度转置注意编码器为现有技术,在此不加以赘述;
S113.构建Stage3模块,Stage3模块包含1个下采样模块、8个7×7卷积编码器和1个深度转置注意编码器,其中,下采样模块的输出端连接卷积编码器的输入端,卷积编码器的输出端连接深度转置注意编码器的输入端;
S114.构建Stage4模块,Stage4模块包含1个下采样模块、2个7×7卷积编码器和1个深度转置注意编码器,其中,下采样模块的输出端连接卷积编码器的输入端,卷积编码器的输出端连接深度转置注意编码器的输入端;
S115.构建特征金字塔模块,特征金字塔模块包含上采样模块、下采样模块和残差块,其中,对Stage2的输出进行下采样,对Stage4的输出进行上采样,再将下采样后的Stage2输出、上采样后的Stage4输出和Stage3输出进行拼接,将拼接结果输入残差块中;
S12.构建交叉视图转换编码器,交叉视图转换编码器为在交叉注意视图模块的基础上,将BEV网格划分为4个窗口,其中,交叉注意视图模块为CVT网络中的现有技术,在此不加以赘述;交叉视图转换编码器根据传感器的感知距离和相机的分辨率确定BEV网格的大小,例如,传感器检测范围为50m,相机分辨率为1024×1024,则可X方向[-51.2m,51.2m],Y方向[-51.2m,51.2m],Z方向[-5m,3m],并在X、Y方向上将检测范围等分成1024×1024个大小为0.1m×0.1m的窗口;BEV网格尺寸先经过下采样降低网格尺度,当透视图坐标转换为BEV坐标之后,将降低后的网格尺寸通过上采样残差块还原;
局部窗口交叉注意力的BEV查询窗口不会与所有透视图进行关联,窗口内的BEV查询仅和关联视图完成交叉注意力计算,输出融合透视图特征的BEV特征图Z,其中,关联视图为BEV查询对应的透视图,BEV查询对应的透视图根据传感器FOV视场角确定,例如,BEV查询对应的透视图出现在传感器的3个FOV视场角中,则每个窗口与三个关联视图进行交叉注意力计算,如图4所示;
透视特征图和BEV特征图的交叉注意力通过如下方法完成:
首先,将透视图特征T∈RN×H×W×C转换为BEV特征B∈RX×Y×C,其中,N表示传感器个数,H表示像素高度,W表示像素宽度,C表示通道数,X表示网格的长度,Y表示网格的宽度;
其次,将BEV坐标BJ转化为透视图坐标TJ,转化过程如下:
其中,u和v表示图像的BEV坐标,d表示深度,VJ=(u,v,d),u′和v′表示BJ坐标输入resize函数后得到的BEV坐标,I表示相机内参矩阵,E表示相机外参矩阵,E-1表示相机外参矩阵的逆矩阵;
然后,通过计算透视图像反投影的BEV坐标和BEV网格坐标之间的余弦相似度完成交叉注意力,具体过程如下:
根据透视特征图大小构建透视特征图反投影索引,并通过线性投射层得到K和V,K和V公式如下:
K=M(EI-1TJ′)
V=M(TJ)
其中,K表示反投影索引矩阵,K∈RN×HW×d,V表示BEV图像特征,V∈RNHW×d,N表示传感器个数,TJ′表示透视图坐标转置,H表示像素高度,W表示像素宽度,d表示深度,E表示相机外参矩阵,I-1表示相机内参矩阵的逆矩阵,M表示线性投射层,TJ表示透视图坐标;
计算余弦相似度:
其中,sim表示余弦相似度,表示透视图坐标,bJ表示BEV坐标,E表示相机外参矩阵,K-1表示反投影索引矩阵的逆矩阵,n表示视图数量;
最后,输出特征图Z,特征图Z是通过融合BEV查询和BEV查询对应透视图的特征得到:
Z=CrossAttention(Q,K,V)
其中,Z表示特征图,Q表示查询的窗口,K表示反投影索引矩阵,V表示BEV图像特征;
S13.构建BEV特征解码器,BEV特征解码器由上采样残差块和分割头组成。通过上述方法,能够有效减少计算量,指导BEV查询关注正确的局部区域,并提高BEV分辨率。
本实施例中,步骤S2中,将采集的相机环视透视图输入轻量型语义分割网络中进行训练,轻量型语义分割网络初始学习率设置为1e-4,权重衰减为0.01,设置单次传递用于训练的样本数batch_size为8,损失函数采用交叉熵损失函数,优化器采用Adam优化器,交叉熵损失函数的公式如下:
其中,A表示样本总数量,b表示目标检测类别数量,Pic表示样本i为c的预测概率,yic表示样本i类别是否为c,如是,则c取1,如否,则c取0。通过上述方法,能够有效提高预测精度,使误差尽可能减小。
本实施例中,步骤S3中,判断所有样本数据集是否输入至轻量型语义分割网络中完成20轮训练,如是,则进入步骤S4,如否,则返回步骤S2,将所有样本数据集输入轻量型语义分割网络中继续训练,直到所有样本数据集完成20轮训练,每次训练轻量型语义分割网络中的Adam优化器均会对权重参数进行更新。通过上述方法,能够保证轻量型语义分割网络预测结果达到预测精度。
本实施例中,步骤S4中,使用环视六相机实时采集自车环境图像,将环境图像输入至训练完成的轻量型语义分割骨干网络中,如图3所示,图像进入Stage1模块,通过1个4×4卷积层,再通过3个3×3卷积编码器,输出特征图T1,将特征图T1输入至Stage2模块,对特征图T1进行8倍下采样,并将通道数改为96,通过2个5×5卷积编码器和1个位置编码器,再经过1个深度转置注意编码器输出特征图T2,将特征图T2输入至Stage3模块,对特征图T2进行16倍下采样,并将通道数改为160,通过8个7×7卷积编码器和1个深度转置注意编码器输出特征图T3,将特征图T3输入至Stage4模块,对特征图T3进行32倍下采样,并将通道数改为304,通过2个7×7卷积编码器和1个深度转置注意编码器输出特征图T4,对特征图T2进行2倍下采样得到特征图T5,对特征图T4进行2倍上采样得到特征图T6,将特征图T5、特征图T3和特征图T6进行拼接,并将拼接后的特征图输入1个残差块中进行聚合特征,输出宽高下采样16倍的特征图T7,骨干网络EdgeNeXt输出宽高下采样32倍的特征图T4和宽高下采样16倍的特征图T7;
将特征图T4和特征图T7输入至交叉视图转换编码器中,如图2所示,特征图T4和BEV查询完成局部窗口交叉注意力,输出BEV特征图B1,BEV特征图B1经过正则化得到BEV特征图B1′,BEV特征图B1′经过前馈神经网络得到BEV特征图B1″,将BEV特征图B1′和BEV特征图B1″相加,再将相加后的BEV特征图进行正则化,输出BEV特征图B1″′;特征图T7和BEV查询完成局部窗口交叉注意力,输出BEV特征图B2,将BEV特征图B2和BEV特征图B1″′相加,再将相加后的BEV特征图进行正则化,输出BEV特征图B2′,BEV特征图B2′经过前馈神经网络得到BEV特征图B2″,将BEV特征图B2′和BEV特征图B2″相加,将相加后的BEV特征图进行正则化,输出BEV特征图B2″′;
将BEV特征图B1″′和BEV特征图B2″′输入BEV特征解码器中,经过3个上采样残差块和1个分割头,输出语义分割结果。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种基于局部窗口交叉注意力的轻量型语义目标分割方法,其特征在于:包括以下步骤:
S1.构建轻量型语义分割网络,轻量型语义分割网络包含改进型EdgeNeXt网络、交叉视图转换编码器和BEV特征解码器;
改进型EdgeNeXt网络作为骨干网络,改进型EdgeNeXt网络的特征金字塔以添加残差块的方式构建,改进型EdgeNeXt网络用于捕获图像的全局信息和局部信息;
交叉视图转换编码器包含BEV局部窗口查询模块和交叉注意力模块,交叉视图转换编码器用于跨相机透视图查询图像特征;
BEV特征解码器由上采样残差块和分割头组成,用于完成语义分割;
S2.将样本图像输入至轻量型语义分割网络中进行训练;
S3.判断轻量型语义分割网络是否训练完成,如是,则进入步骤S4,如否,则返回步骤S2,直至达到训练完成目标;
S4.实时采集环境图像,将环境图像输入至训练完成的轻量型语义分割网络中进行语义分割,输出语义分割结果。
2.根据权利要求1所述一种基于局部窗口交叉注意力的轻量型语义目标分割方法,其特征在于:步骤S1中,通过如下方法构建EdgeNeXt网络:
EdgeNeXt网络包含Stage1模块、Stage2模块、Stage3模块、Stage4模块和特征金字塔模块;
其中,Stage1的输出端连接Stage2的输入端,Stage2的输出端连接Stage3的输入端,Stage3的输出端连接Stage4的输入端,Stage2的输出端、Stage3的输出端和Stage4的输出端连接特征金字塔模块的输入端;
S111.构建Stage1模块,Stage1模块包含4×4卷积层和3×3卷积编码器,其中,卷积层的输出端连接卷积编码器的输入端;
S112.构建Stage2模块,Stage2模块包含下采样模块、5×5卷积编码器、位置编码器和深度转置注意编码器,其中,下采样模块的输出端连接卷积编码器的输入端,卷积编码器的输出和位置编码器的输出进行特征融合,得到融合后的特征图,将融合后的特征图输入深度转置注意编码器中;
S113.构建Stage3模块,Stage3模块包含下采样模块、7×7卷积编码器和深度转置注意编码器,其中,下采样的输出端连接卷积编码器的输入端,卷积编码器的输出端连接深度转置注意编码器的输入端;
S114.构建Stage4模块,Stage4模块包含下采样模块、7×7卷积编码器和深度转置注意编码器;
S115.构建特征金字塔模块,特征金字塔模块包含上采样模块、下采样模块和残差块,其中,对Stage2的输出进行下采样,对Stage4的输出进行上采样,再将下采样后的Stage2输出、上采样后的Stage4输出和Stage3输出进行拼接,将拼接结果输入残差块中。
3.根据权利要求1所述一种基于局部窗口交叉注意力的轻量型语义目标分割方法,其特征在于:步骤S1中,交叉视图转换编码器根据传感器的感知距离和相机的分辨率确定BEV网格的大小,将BEV网格划分为4个窗口,窗口内的BEV查询和BEV查询对应的透视图完成交叉注意力计算,输出融合透视图特征的BEV特征图Z。
4.根据权利要求3所述一种基于局部窗口交叉注意力的轻量型语义目标分割方法,其特征在于:透视特征图和BEV特征图的交叉注意力通过如下方法完成:
首先,将透视图特征T∈RN×H×W×C转换为BEV特征B∈RX×Y×C,其中,N表示传感器个数,H表示像素高度,W表示像素宽度,C表示通道数,X表示网格的长度,Y表示网格的宽度;
其次,将BEV坐标BJ转化为透视图坐标TJ,转化过程如下:
其中,u和v表示图像的BEV坐标,d表示深度,BJ=(u,v,d),u′和v′表示BJ坐标输入resize函数后得到的BEV坐标,I表示相机内参矩阵,E表示相机外参矩阵,E-1表示相机外参矩阵的逆矩阵;
然后,通过计算透视图像反投影的BEV坐标和BEV网格坐标之间的余弦相似度完成交叉注意力,具体过程如下:
根据透视特征图大小构建透视特征图反投影索引,并通过线性投射层得到K和V,K和V公式如下:
K=M(EI-1TJ′)
V=M(TJ)
其中,K表示反投影索引矩阵,K∈RN×HW×d,V表示BEV图像特征,V∈RNHW×d,N表示传感器个数,TJ′表示透视图坐标转置,H表示像素高度,W表示像素宽度,d表示深度,E表示相机外参矩阵,I-1表示相机内参矩阵的逆矩阵,M表示线性投射层,TJ表示透视图坐标;
计算余弦相似度:
其中,sim表示余弦相似度,表示透视图坐标,BJ表示BEV坐标,E表示相机外参矩阵,K-1表示反投影索引矩阵的逆矩阵,n表示视图数量;
最后,输出特征图Z,特征图Z是通过融合BEV查询和BEV查询对应透视图的特征得到:
Z=CrossAttention(Q,K,V)
其中,Z表示特征图,Q表示查询的窗口,K表示反投影索引矩阵,V表示BEV图像特征。
5.根据权利要求1所述一种基于局部窗口交叉注意力的轻量型语义目标分割方法,其特征在于:步骤S2中,轻量型语义分割网络初始学习率设置为1e-4,权重衰减为0.01,设置单次传递用于训练的样本数batch_size为8,损失函数采用交叉熵损失函数,优化器采用Adam优化器,交叉熵损失函数的公式如下:
其中,A表示样本总数量,b表示目标检测类别数量,Pic表示样本i为c的预测概率,yic表示样本i类别是否为c,如是,则c取1,如否,则c取0。
6.根据权利要求1所述一种基于局部窗口交叉注意力的轻量型语义目标分割方法,其特征在于:步骤S3中,当样本数据集完成20轮训练时,轻量型语义分割网络训练完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310585256.2A CN116645508A (zh) | 2023-05-23 | 2023-05-23 | 基于局部窗口交叉注意力的轻量型语义目标分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310585256.2A CN116645508A (zh) | 2023-05-23 | 2023-05-23 | 基于局部窗口交叉注意力的轻量型语义目标分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116645508A true CN116645508A (zh) | 2023-08-25 |
Family
ID=87624024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310585256.2A Pending CN116645508A (zh) | 2023-05-23 | 2023-05-23 | 基于局部窗口交叉注意力的轻量型语义目标分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645508A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274957A (zh) * | 2023-11-23 | 2023-12-22 | 西南交通大学 | 一种基于深度学习的道路交通标志检测方法及系统 |
-
2023
- 2023-05-23 CN CN202310585256.2A patent/CN116645508A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274957A (zh) * | 2023-11-23 | 2023-12-22 | 西南交通大学 | 一种基于深度学习的道路交通标志检测方法及系统 |
CN117274957B (zh) * | 2023-11-23 | 2024-03-01 | 西南交通大学 | 一种基于深度学习的道路交通标志检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11734918B2 (en) | Object identification apparatus, moving body system, object identification method, object identification model learning method, and object identification model learning apparatus | |
CN114677446B (zh) | 基于路侧多传感器融合的车辆检测方法、装置及介质 | |
EP3822852B1 (en) | Method, apparatus, computer storage medium and program for training a trajectory planning model | |
US11461911B2 (en) | Depth information calculation method and device based on light-field-binocular system | |
CN113408454B (zh) | 一种交通目标检测方法、装置、电子设备及检测系统 | |
CN116645508A (zh) | 基于局部窗口交叉注意力的轻量型语义目标分割方法 | |
CN114648551B (zh) | 轨迹预测方法及装置 | |
CN111985300A (zh) | 自动驾驶动态目标定位方法、装置、电子设备及存储介质 | |
CN115359474A (zh) | 适用于移动端的轻量级三维目标检测方法、装置及介质 | |
Li et al. | Enhancing 3-D LiDAR point clouds with event-based camera | |
CN116222577A (zh) | 闭环检测方法、训练方法、系统、电子设备及存储介质 | |
CN115879060A (zh) | 基于多模态的自动驾驶感知方法、装置、设备和介质 | |
CN117115690A (zh) | 一种基于深度学习和浅层特征增强的无人机交通目标检测方法及系统 | |
CN117834839A (zh) | 基于移动终端的多视角3d智能成像测量系统 | |
CN116797894A (zh) | 一种增强特征信息的雷达与视频融合目标检测方法 | |
CN110766732A (zh) | 一种鲁棒的单相机深度图估计方法 | |
CN115496788A (zh) | 一种使用空域传播后处理模块的深度补全方法 | |
WO2022175057A1 (en) | Apparatus, system and method for translating sensor label data between sensor domains | |
CN114913209B (zh) | 一种基于俯视投射的多目标跟踪网络构建方法及装置 | |
CN118172560B (zh) | 一种融合多模态传感器的鸟瞰图语义分割预测系统及方法 | |
US20230410373A1 (en) | Method for training depth estimation model, electronic device and readable storage medium | |
CN118097353A (zh) | 一种基于多模态bev融合的路侧停车管理方法 | |
CN118445748A (zh) | 一种智能网联车辆多源传感器异构数据多模态融合方法 | |
CN118609114A (zh) | 一种基于精细化特征提取的图像点云三维目标检测方法 | |
CN118505998A (zh) | 一种基于三向分割融合的实时语义分割系统及分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |