CN114332496A

CN114332496A - 一种静态目标分割方法和系统

Info

Publication number: CN114332496A
Application number: CN202210260910.8A
Authority: CN
Inventors: 华炜; 邱奇波; 马也驰
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-04-12

Abstract

本发明公开一种静态目标分割方法和系统，该方法包括：步骤一，获取当前帧图像和参考帧图像，输入纹理提取网络模块，得到对应图像的纹理特征；步骤二，利用注意力计算模块，对当前帧和参考帧的纹理特征进行切块后计算每块的相似度，并基于相似度的计算，得到软硬注意力；步骤三，将当前帧图像和参考帧图像输入编码网络模块，得到对应编码特征，利用参考帧编码特征和硬注意力，通过注意力特征生成模块得到注意力特征，再根据注意力特征和当前帧编码特征得到最终的注意力特征；步骤四，构造解码网络模块，基于当前帧编码特征和最终的注意力特征得到当前帧图像的最终静态目标分割结果。本发明在保证分割精度的同时提高了整体逻辑处理的速度。

Description

一种静态目标分割方法和系统

技术领域

本发明属于静态目标分割技术领域，涉及一种静态目标分割方法和系统。

背景技术

基于视觉的静态目标分割，如车道线，人行道，交通标志、环境障碍物等，是无人驾驶视觉感知中的重要技术，以车道线识别为例，目前该领域研究成果集中于单帧数据的使用，因此从模型层面对于检测结果的稳定性难以保证，需要复杂的后处理逻辑，增加开发部署的难度，同时也会带来额外计算开销。

单帧车道线识别技术主要分为基于分割（segmentation-based）、基于锚点（anchor-based）、按行搜索（row-wise）、参数预测（Parametric Prediction）四大类；其中基于分割的方法可以产生更加精准丰富的识别结果，但是对算力要求更高，因此有很多研究者致力于通过网络的巧妙设置在保证精度的同时提高推理速度，如《ERFNet: EfficientResidual Factorized ConvNet for Real-Time Semantic Segmentation》。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种静态目标分割方法和系统，其具体技术方案如下：

一种静态目标分割方法，包括以下步骤：

步骤一，获取到当前帧图像和参考帧图像，输入纹理提取网络模块提取得到对应图像的纹理特征；

步骤二，利用注意力计算模块，对当前帧和参考帧的纹理特征进行切块后计算每块的相似度，并基于相似度的计算，得到软硬注意力；

步骤三，将当前帧图像和参考帧图像输入编码网络模块，得到对应编码特征，利用参考帧编码特征和硬注意力，通过注意力特征生成模块得到注意力特征，再根据注意力特征和当前帧编码特征得到最终的注意力特征；

步骤四，构造解码网络模块，基于当前帧编码特征和最终的注意力特征得到当前帧图像的最终静态目标分割结果。

进一步的，所述步骤一，具体包括以下子步骤：

步骤1.1，获取当前帧图像和参考帧图像后预处理；

步骤1.2，构造纹理提取网络模块，将预处理后的当前帧图像和参考帧图像分别输入道路语义的纹理提取网络模块，得到当前帧纹理特征和参考帧纹理特征，其尺寸均为C_L*H_L*W_L, C_L、H_L、W_L分别表示纹理通道数、纹理高度、纹理宽度。

进一步的，所述纹理提取网络模块包含两种卷积层，其卷积核大小分别为K_L*1和1*K_L，两种卷积层交错设置，若前一层卷积核大小为K_L*1，则后一层卷积核大小为1*K_L，若前一层卷积核大小为1*K_L，则后一层卷积核大小为K_L*1，卷积层数和K_L取值预先设置。

进一步的，所述步骤二，具体包括以下子步骤：

步骤2.1，构造注意力计算模块，该模块采用滑动窗口，窗口大小为K_A*K_A，步长为Str_A，分别将当前帧纹理特征和参考帧纹理特征分成P块，

*

，每一块用一个特征向量来表征，特征向量的值来自于窗口在每个通道上取值的拼接，因此该特征向量长度为

*

*

；

步骤2.2，对于当前帧纹理特征中每一个块，计算其与参考帧纹理特征中每一块之间的相似度，得到一个P*P的相似度矩阵A，对于A的任意一个元素

有：

其中

表示将来自参考帧纹理特征的第i个方块的特征展开为一个向量

后进行归一化，

表示将来自参考帧纹理特征Ref_feat的第j个方块的特征展开为一个向量

后进行归一化，

表示求两个向量内积；

步骤2.3，根据相似度矩阵A按行计算每一行的最大值和最大值索引，分别得到软注意力向量AS和硬注意力向量AH，作为注意力计算模块最后的输出，其长度均为P，对于硬注意力向量AH中第i个元素

有：

其中argmax表示求最大值对应的索引；

对于软注意力向量AS中第i个元素

有：

其中max表示求最大值；

的物理意义为当前帧纹理特征Curr_feat的第i块跟参考帧纹理特征Ref_feat的第

块相似度最高，

为对应的相似度值。

进一步的，所述步骤三，具体包括以下子步骤：

步骤3.1，构造编码网络模块，将参考帧图像和当前帧图像分别输入到编码网络模块得到参考帧编码特征和当前帧编码特征，其尺寸均为C_E*H_L*W_L。

步骤3.2，构造注意力特征生成模块，将大小为C_E*H_L*W_L的参考帧编码特征通过滑动窗口切分方式，窗口大小为K_A*K_A，步长为Str_A，转为P行

列的参考帧编码矩阵，构建参考帧编码特征中滑动窗口每次滑动的位置和参考帧编码矩阵中行的位置映射关系F_win，其中

*

*

；

基于硬注意力向量AH从参考帧编码特征中进行特征选择，对于硬注意力向量AH中的第i个元素AH_i选择参考帧编码矩阵的第AH_i行，组成P*L_E的注意力特征矩阵；

根据所述滑动窗口的操作，将注意力特征矩阵根据位置映射关系F_win的逆映射重新整理得到

的注意力特征AHF；

步骤3.3，注意力特征生成模块将注意力特征AHF 和当前帧编码特征按照通道进行拼接，得到(C_E+C_L)*H_L*W_L的特征张量，输入到卷积层，输入通道数C_E+C_L，输出通道数C_E，得到特征张量FT，其大小为C_E*H_L*W_L；再将特征张量FT与软注意力向量AS的对应元素相乘，得到最终的注意力特征EF，其尺寸为C_E*H_L*W_L。

进一步的，所述编码网络模块由不同尺寸的空洞卷积层、下采样层交错设置组成，按顺序设置为1个下采样层+E₁个空洞卷积层+1个下采样层+E₂个空洞卷积层+1个下采样层。

进一步的，所述步骤四，具有为：构造解码网络模块，将最终的注意力特征EF与当前帧编码特征相加得到C_E*H_L*W_L的特征张量输入到解码网络模块，通过解码网络模块输出当前帧图像的最终静态目标分割结果，其大小为Class*H*W，Class为需要分割的静态目标类型数目，H表示高，W表示宽。

进一步的，所述解码网络模块由空洞卷积和上采样层交错组成，按顺序设置为1个下采样层+D₁个空洞卷积层+1个下采样层+D₂个空洞卷积层+1个下采样层。

一种静态目标分割系统，包括：纹理提取网络模块、注意力计算模块、编码网络模块、注意力特征生成模块和解码网络模块，所述纹理提取网络模块的输入两张预处理后的图像数据，分别表示当前帧和参考帧，输出提取的纹理特征至注意力计算模块；所述注意力计算模块输入为当前帧纹理特征和参考帧纹理特征，输出为两种纹理特征的硬注意力和软注意力；所述编码网络模块其输入为当前帧图像和参考帧图像，输出为当前帧编码特征和参考帧编码特征；所述注意力特征生成模块其输入为当前帧编码特征、参考帧编码特征、硬注意力、软注意力，输出为注意力特征；所述解码网络模块，其输入为注意力特征、当前帧编码特征，输出为静态目标分割结果。

有益效果：

本发明能够基于参考帧图像，从当前帧图像中分割出静态目标，在保证分割精度的同时提高了整体逻辑处理的速度，且易于开发部署。

附图说明

图1是本发明的一种静态目标分割方法流程图；

图2是本发明的一种静态目标分割系统的网络连接示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。

如图1和图2所示，本发明的一种静态目标分割方法和系统，该方法包括以下步骤：

步骤1.1，获取当前帧图像Curr_img和参考帧图像Ref_img后预处理，形状均为H*W*3，H表示高，W表示宽，3是维度值，本实施例尺寸取值为1024*512*3。

步骤1.2，以车道线识别为例，构造道路语义的纹理提取网络模块Feature_Net，将预处理后的当前帧图像Curr_img和参考帧图像Ref_img分别输入道路语义的纹理提取网络模块Feature_Net，得到当前帧纹理特征Curr_feat和参考帧纹理特征Ref_feat，其尺寸均为C_L*H_L*W_L,分别为预定义的纹理通道数、纹理高度、纹理宽度，本实施例尺寸均为64*64*128。

纹理提取网络模块包含两种卷积层，其卷积核大小分别为K_L*1和1*K_L，两种卷积层交错设置，如果前一层卷积核大小为K_L*1，则后一层卷积核大小为1*K_L，如果前一层卷积核大小为1*K_L，则后一层卷积核大小为K_L*1，卷积层数和K_L取值预先设置。

步骤二，利用注意力计算模块，对当前帧和参考帧的图像纹理特征进行切块后计算每块的相似度，并基于相似度的计算，得到软硬注意力；

步骤2.1 构造注意力计算模块Attn_module，该模块采用滑动窗口，窗口大小为K_A*K_A，步长为Str_A，分别将当前帧纹理特征Curr_feat和参考帧纹理特征Ref_feat分P块，

*

，每一块用一个特征向量来表征，特征向量的值来自于窗口在每个通道上取值的拼接，因此该向量长度为

*

*

；

本发明实施例中，注意力计算模块Attn_module，将参考帧纹理特征Ref_feat的每个通道的特征，尺寸为64*128，采用滑动窗口，窗口大小3*3，步长为1，裁剪成64*128=8192个同样大小的方块；每个方块对应的特征展开成一个长64*3*3=576的向量；同理对当前帧纹理特征Curr_feat进行一样的滑动裁剪操作，得到8192个块，每个块特征为长576的向量。

步骤2.2，对于当前帧纹理特征Curr_feat中每一个块，计算其与参考帧纹理特征Ref_feat中每个块之间的相似度，得到一个P*P的相似度矩阵A，A为8192行8192列的方阵，对于A的任意一个元素

有：

其中

表示将来自参考帧纹理特征Ref_feat的第i个方块的特征展开为一个向量

后进行归一化，

后进行归一化，

表示求两个向量内积，相似度的计算也可以采用其他方式。

步骤2.3，根据相似度矩阵A按行计算每一行的最大值和最大值索引，分别得到软注意力向量AS和硬注意力向量AH，作为该模块最后的输出，其长度均为P，本实施例两个向量的长度均为8192，对于硬注意力向量AH中第i个元素

有：

其中argmax表示求最大值对应的索引；

对于软注意力向量AS中第i个元素

有：

其中max表示求最大值；

块相似度最高，

为对应的相似度值。

步骤3.1，构造编码网络Encode_Net，将参考帧图像Ref_img和当前帧图像Curr_img分别输入到编码网络模块Encode_Net得到参考帧编码特征Ref_enc和当前帧编码特征Curr_enc，其尺寸均为C_E*H_L*W_L，高宽与纹理特征提取模块的输出一致，C_E由预先设定，本实施例尺寸均为128*64*128。

编码网络模块由不同尺寸的空洞卷积层、下采样层交错设置组成，按顺序设置为1个下采样层+E₁个空洞卷积层+1个下采样层+E₂个空洞卷积层+1个下采样层,E₁和E₂的值由预先设定好。

步骤3.2，构造注意力特征生成模块Attn_feat_select，将大小为C_E*H_L*W_L的参考帧编码特征Ref_enc按照步骤二中的滑动窗口切分方式，转为P行

列的参考帧编码矩阵Ref_enc_win，构建参考帧编码特征Ref_enc中滑窗每次滑动的位置和参考帧编码矩阵Ref_enc_win中行的位置映射关系F_win,其中

*

*

；

基于硬注意力向量AH从参考帧编码特征Ref_enc中进行特征选择，对于硬注意力向量AH中的第i个元素AH_i选择参考帧编码矩阵Ref_enc_win的第AH_i行_，组成P*L_E的注意力特征矩阵AHF_tmp；

根据所述滑动窗口的操作，将注意力特征矩阵AHF_tmp根据保存的位置映射关系F_win的逆映射重新整理得到

的注意力特征AHF；

实施例中，对参考帧编码特征Ref_enc进行步骤二中的滑动裁剪操作，得到8192个块，每块特征为长1152的向量，用一个8192*1152的参考帧编码矩阵Ref_enc_win表示；基于硬注意力向量AH对参考帧编码特征Ref_enc的特征块进行选择，对于硬注意力向量AH中的第i个元素AH_i选择参考帧编码矩阵Ref_enc_win的第AH_i行，得到一个1152行8192列的注意力特征矩阵AHF_tmp，将注意力特征矩阵AHF_tmp转为张量，具体地根据步骤二滑动窗口的操作，将1152*8192的注意力特征矩阵AHF_tmp重新整理成128*9*64*128的张量，将张量沿第二个维度取均值，得到128*64*128的注意力特征AHF。

步骤3.3，注意力特征生成模块Attn_feat_select将注意力特征AHF 和当前帧编码特征Curr_enc按照通道进行拼接，得到(C_E+C_L)*H_L*W_L的特征张量，输入到卷积层，卷积核大小由预先设定，输入通道数C_E+C_L，输出通道数C_E，得到特征张量FT，其大小为C_E*H_L*W_L；

注意力特征生成模块Attn_feat_select将特征张量FT与软注意力向量AS的对应元素相乘，得到最终的注意力特征EF，其尺寸为C_E*H_L*W_L。

实施例中，将当前帧编码特征Curr_enc与注意力特征AHF的通道叠加，得到256*64*128的特征图，注意力特征生成模块Attn_feat_select将该特征图进行一次卷积操作转换成128*64*128的特征张量FT，将特征张量FT与软注意力向量AS对应元素相乘，得到128*64*128的最终的注意力特征EF。

步骤四，构造解码网络模块，基于当前帧编码特征和最终的注意力特征得到当前帧图像的最终静态目标分割结果；

构造解码网络模块Decode_Net，将最终的注意力特征EF与当前帧编码特征Curr_enc相加得到C_E*H_L*W_L的特征张量输入到解码网络模块Decode_Net，解码网络模块的输出为当前帧图像的最终静态目标分割结果Seg，其大小为Class*H*W, Class为需要分割的静态目标类型数目。

本实施例中，解码网络模块输出得到21*512*1024的分割结果Seg，分别表示每个像素属于21种车道线类型的概率。

解码网络模块的设置参考编码网络模块，由空洞卷积和上采样层交错组成，按顺序设置为1个下采样层+D₁个空洞卷积层+1个下采样层+D₂个空洞卷积层+1个下采样层,D₁和D₂的值由预先设定好。

本发明的系统包括：纹理提取网络模块、注意力计算模块、编码网络模块、注意力特征生成模块和解码网络模块，所述纹理提取网络模块的输入两张预处理后的图像数据，分别表示当前帧和参考帧，输出提取的纹理特征至注意力计算模块；所述注意力计算模块输入为当前帧纹理特征和参考帧纹理特征，输出为两种纹理特征的硬注意力和软注意力；所述编码网络模块其输入为当前帧图像和参考帧图像，输出为当前帧编码特征和参考帧编码特征；所述注意力特征生成模块其输入为当前帧编码特征、参考帧编码特征、硬注意力、软注意力，输出为注意力特征；所述解码网络模块，其输入为注意力特征、当前帧编码特征，输出为静态目标分割结果。

本发明的系统，对纹理提取网络模块、编码网络模块和解码网络模块参数进行训练，训练数据包括当前帧图像和对应的分割标注，参考帧图像和对应的分割标注，其中纹理提取网络模块的权重来自于相关数据集的预训练，训练采用log_softmax损失，并且对背景类带来的损失设置权重小于被检测类带来的损失；对高稳定性的静态目标分割系统进行推理测试，加载训练好的纹理提取网络模块、编码网络模块和解码网络模块模型，将预处理后的当前帧图像和参考帧图像输入系统，得到最终的分割结果。其中参考帧可以来自于相机的上一帧，也可以来自于相近坐标下的历史图像。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种静态目标分割方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种静态目标分割方法，其特征在于，所述步骤一，具体包括：

步骤1.1，获取当前帧图像和参考帧图像后预处理；

3.如权利要求2所述的一种静态目标分割方法，其特征在于，所述纹理提取网络模块包含两种卷积层，其卷积核大小分别为K_L*1和1*K_L，两种卷积层交错设置，若前一层卷积核大小为K_L*1，则后一层卷积核大小为1*K_L，若前一层卷积核大小为1*K_L，则后一层卷积核大小为K_L*1，卷积层数和K_L取值预先设置。

4.如权利要求1所述的一种静态目标分割方法，其特征在于，所述步骤二，具体包括：

*

*

*

；

有：

其中

后进行归一化，

后进行归一化，

表示求两个向量內积；

有：

其中argmax表示求最大值对应的索引；

对于软注意力向量AS中第i个元素

有：

其中max表示求最大值；

块相似度最高，

为对应的相似度值。

5.如权利要求4所述的一种静态目标分割方法，其特征在于，所述步骤三，具体包括：

步骤3.1，构造编码网络模块，将参考帧图像和当前帧图像分别输入到编码网络模块得到参考帧编码特征和当前帧编码特征，其尺寸均为C_E*H_L*W_L；

*

*

；

的注意力特征AHF；

6.如权利要求5所述的一种静态目标分割方法，其特征在于，所述编码网络模块由不同尺寸的空洞卷积层、下采样层交错设置组成，按顺序设置为1个下采样层+E₁个空洞卷积层+1个下采样层+E₂个空洞卷积层+1个下采样层。

7.如权利要求5所述的一种静态目标分割方法，其特征在于，所述步骤四，具有为：构造解码网络模块，将最终的注意力特征EF与当前帧编码特征相加得到C_E*H_L*W_L的特征张量输入到解码网络模块，通过解码网络模块输出当前帧图像的最终静态目标分割结果，其大小为Class*H*W，Class为需要分割的静态目标类型数目，H表示高，W表示宽。

8.如权利要求7所述的一种静态目标分割方法，其特征在于，所述解码网络模块由空洞卷积和上采样层交错组成，按顺序设置为1个下采样层+D₁个空洞卷积层+1个下采样层+D₂个空洞卷积层+1个下采样层。

9.一种静态目标分割系统，包括：纹理提取网络模块、注意力计算模块、编码网络模块、注意力特征生成模块和解码网络模块，其特征在于，所述纹理提取网络模块的输入两张预处理后的图像数据，分别表示当前帧和参考帧，输出提取的纹理特征至注意力计算模块；所述注意力计算模块输入为当前帧纹理特征和参考帧纹理特征，输出为两种纹理特征的硬注意力和软注意力；所述编码网络模块其输入为当前帧图像和参考帧图像，输出为当前帧编码特征和参考帧编码特征；所述注意力特征生成模块其输入为当前帧编码特征、参考帧编码特征、硬注意力、软注意力，输出为注意力特征；所述解码网络模块，其输入为注意力特征、当前帧编码特征，输出为静态目标分割结果。