CN113536904A

CN113536904A - 时频域联合全景分割方法、系统和介质

Info

Publication number: CN113536904A
Application number: CN202110617605.5A
Authority: CN
Inventors: 杨大伟; 任凤至; 毛琳; 张汝波
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-10-22
Anticipated expiration: 2041-06-03
Also published as: CN113536904B

Abstract

时频域联合全景分割方法、系统和介质，属于深度学习图像处理领域，输入图像，响应于输入图像，时频域联合全景分割卷积神经网络执行分割步骤，获取全景风格，效果是能够应用于自主汽车、辅助驾驶、机器人以及公共安全天眼监控系统等多个领域。

Description

时频域联合全景分割方法、系统和介质

技术领域

本发明属于深度学习图像处理领域，具体的说是一种联合了时域和频域两种视角分析全景分割算法的卷积神经网络、时频域联合全景分割方法、系统和介质，适用于无人驾驶和自主机器人场景。

背景技术

近年来，无人驾驶和机器人领域由于深度学习的快速发展而取得重大突破，基于强大的场景理解功能，全景分割技术逐渐成为计算机视觉环境感知的重要手段。然而，传统的时域卷积神经网络只能从空间域角度出发对图像进行无差别的特征提取，忽略了图像中由于频率不同而形成的前、背景显著程度的差异性，导致图像前景分割精度不佳；普通的频域卷积神经网络主要观察图像像素的振动变化，有利于分割图像中频率变化差异较大的目标，而对图像背景的空间位置关系分析不足。

专利《一种带有双向连接和遮挡处理的全景分割方法》(公开号：CN111242954A)提出了一种空间域连接的全景分割方法，通过在语义分割和实例分割间建立双向连接，使得任务间特征相互加强。专利《一种基于卷积实现的图像全景分割预测优化方法》(公开号：CN109801297A)公开了一种基于时域全景分割卷积神经网络，网络从空间关系出发，对实例目标进行遮挡优先级的排序，解决了实例间存在的遮挡问题，但该专利没有考虑到全景图像的频率特性，丢失了实例对象所具有的高频信息，可能导致网络对实例目标的识别精度受到限制。

发明内容

为了解决以双重视角进行网络分析的问题，本发明提出如下技术方案：一种时频域联合全景分割方法，包括如下步骤：

输入图像，

响应于输入图像，时频域联合全景分割卷积神经网络执行分割步骤，

获取全景风格。

进一步的，所述分割包括如下步骤：

第1步：读取数据集图像，得到四层残差特征；

第2步：对所述四层残差特征实施高低频特征分离，得到高频特征和低频特征；对所述四层残差特征实施实例特征和语义特征分离，得到实例特征和语义特征；

第3步：高频特征、低频特征、实例特征和语义特征分配乘积系数，得到时频域特征组合；

第4步：将时频域特征组合进行拆分，分别送入前景分割网络、背景分割网络，进行分割预测，得到前景分割结果和背景分割结果。

进一步的，所述分割包步骤中，

第1步：读取数据集图像，经由预处理结构得到四层残差特征R(R₁,R₂,R₃,R₄)；

第2步：在频域变换网络中，对四层残差特征R(R₁,R₂,R₃,R₄)进行必要的特征维度调整后，实施高低频特征分离，得到高频特征H(H₁,H₂,H₃,H₄)和低频特征L(L₁,L₂,L₃,L₄)；在时域变换网络中，对所述四层残差特征R(R₁,R₂,R₃,R₄)进行必要的特征维度调整后，实施实例特征和语义特征分离，得到实例特征I(I₁,I₂,I₃,I₄)和语义特征S(S₁,S₂,S₃,S₄)。

进一步的，所述分割包步骤中，

第3步：将得到的高频特征H、低频特征L、实例特征I和语义特征S传递到时频域联合网络分配乘积系数，得到时频域特征组合{a*H,b*L,c*I,d*S}，高频特征的系数为a，0≦a≦1，低频特征的系数为b，0≦b≦1，实例特征的系数为c，0≦c≦1，语义特征的系数为d，0≦d≦1；

第4步：将第3步得到的时频域特征组合进行拆分，将{a*H,c*I}(a+c＝1)送入前景分割网络、将{b*L,d*S}(b+d＝1)送入背景分割网络，进行分割预测，得到前景分割结果和背景分割结果。

进一步的，所述获取全景风格包括步骤：将得到的前景分割结果和背景分割结果传递到全景融合网络得到全景分割结果。

进一步的，系数分配组合范围C₆，如公式(6)所示：

C₆(a,b,c,d)＝{0.7～1,0～0.3,0～0.3,0.7～1} (6)

进一步的，高频特征H(H₁,H₂,H₃,H₄)：

低频特征L(L₁,L₂,L₃,L₄)：

实例特征I(I₁,I₂,I₃,I₄)：

语义特征S(S₁,S₂,S₃,S₄)：

在公式(7)～(22)中，F_r(k*k)表示卷积核为k*k、扩张率为r的卷积，F^-1(k*k)表示卷积核为k*k的反卷积，U(n)表示扩大n倍的双线性插值，

表示特征向量X的通道数为a、长为b、宽为c，A＝{F,F^-1,U}，

表示经过A＝{F,F^-1,U}的计算后，特征向量的通道数由h₁变为h₂、长l、宽w没有变化；

表示经过A＝{F,F^-1,U}的计算后，特征向量的通道数h没有变化、长由l₁变为l₂、宽由w₁变为w₂。

一种计算机系统，包括：处理器；以及存储器，其中，所述存储器中存储有计算机指令，所述处理器执行所述计算机指令以实现任一项所述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令在被处理器执行时，实现任一项所述的方法的步骤。

有益效果：

(1)时频域联合，组合时域特征和频域特征

本发明从时域和频域两个层面分析全景分割卷积神经网络，解决了传统时域网络对目标显著性差异的忽视问题，弥补了频域网络在目标空间逻辑分析上的缺陷，通过时域特征和频域特征的组合完美实现了前景分割和背景分割质量的共同提升，提高了全景分割的性能。

(2)频域变换，高低频特征分离

本发明的频域变换网络能够将传统卷积神经网络变换为频域网络，以频域视角分析网络，根据图像的频率特点分离图像高低频特征。

(3)时域变换，实例特征和语义特征分离

本发明的时域变换网络能够将卷积神经网络变换为时域网络，根据图像的空间位置关系分离图像的实例特征和语义特征。

(4)适用于无人驾驶技术

本发明为计算机视觉环境感知技术，适用于无人驾驶领域。本发明联合时域特征和频域特征，能够有效提高图像前景和背景的分割精度，精准分割行人、行驶车辆等前景目标和道路、建筑物等背景目标，有利于视觉环境的准确分析，避免交通事故的发生。

(5)适用于工业机器人技术

本发明为计算机视觉环境感知技术，适用于机器人领域，本发明联合时域特征和频域特征，能够有效提高图像前景和背景的分割精度，精准分割人、零件等前景目标和道路、厂房等背景目标，有利于对工业生产环境的准确感知，适用于工业领域的机器人技术。

(6)适用于公共交通监控系统

本发明对行人、车辆和道路环境的有效识别满足了道路交通场景的需求，一方面，为驾驶人员提供了安全驾驶的辅助手段，另一方面，为整体交通场景的监控提供了有利的条件，特别适用于复杂环境下公共交通监控系统。

附图说明

图1是本发明的整体网络示意图

图2是频域变换模块的示意图

图3是时域变换模块的示意图

图4是实施例1中不同系数组合下的全景分割图

图5是实施例2中简单场景全景分割图

图6是实施例3中复杂场景全景分割图

图7是实施例4中交通场景全景分割图

图8是实施例5中十字路口的交通场景全景分割图

图9是实施例6中街道的交通场景全景分割图

图10是实施例7中人行横道的交通场景全景分割图

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述，时频域联合全景分割卷积神经网络的逻辑示意如图1所示：

1.技术方案

基于图像本身固有的时域和频域两种基本特性，本发明提出时频域联合全景分割卷积神经网络，结合时域网络对空间关系的准确把控和频域网络对像素频率变化的敏感性这两项优势实现网络对前景实例细节轮廓的精准识别和背景区域的有效划分。时域和频域的联合分析解决了传统卷积神经网络前背景分割质量不平衡的难题，实现了前背景分割的共赢局面，从根本上提高了全景分割的精度。

时频域联合全景分割卷积神经网络的特色是提出从两个角度分析卷积神经网络的思想，利用两种视角观察全景分割网络，结合图像前背景的时频域特点，为前景分割和背景分割两种任务分别提供适配的时域特征和频域特征。

本发明技术名词约定如下：

高频特征：指图像灰度变换剧烈的地方，形成图像边缘和细节，也称为高频特征。

低频特征：指图像灰度变换平缓的地方，形成图像基本灰度等级，也称为低频特征。

实例特征：指图像中实例轮廓、纹理等细节信息丰富的特征。

语义特征：指图像中位置逻辑信息丰富的特征。

高通链路：将输入变换为高频特征的链路网络。

低通链路：将输入变换为低频特征的链路网络。

实例链路：将输入变换为实例特征的链路网络。

语义链路：将输入变换为语义特征的链路网络。

2.网络架构

总体上看，时频域联合全景分割卷积神经网络包括频域变换网络、时域变换网络、时频域联合网络和分割融合网络四个部分，包括

频域变换网络，将输入变换为频域信息，提取图像的高低频特征；

时域变换网络，将输入变换为时域信息，提取图像中的实例特征和语义特征；

时频域联合网络，为频域变换网络和时域变换网络分别对应输出的高频特征、低频特征、实例特征和语义特征依次分配乘积系数；

分割融合网络，融合前背景分割结果，生成全景分割结果。

更为具体的，还包括预处理结构，且对该五层结构进行详细说明：

(1)预处理结构

预处理结构是频域变换网络和时域变换网络的共享网络，用于对输入图像进行初步的预处理操作。预处理结构由四层残差网络构成，每层分别对应输出一个残差特征。输入图像经过预处理后获得四层残差特征R(R₁,R₂,R₃,R₄)，而后残差特征同时进入频域变换网络和时域变换网络。

(2)频域变换网络

频域变换网络的功能是将输入变换为频域信息，以提取图像的高低频特征。

频域变换网络由预处理结构和一个频域变换模块构成，频域变换模块包括一个高通链路和一个低通链路。其中，高通链路由两个完全相同的高通卷积层和一个反卷积层构成；低通链路由一个低通卷积层和一个上采样层构成。

残差特征R(R₁,R₂,R₃,R₄)进入频域变换网络，利用高通链路得到高频特征H(H₁,H₂,H₃,H₄)、利用低通链路得到低频特征L(L₁,L₂,L₃,L₄)。

(3)时域变换网络

时域变换网络的功能是将输入变换为时域信息，以提取图像中的实例特征和语义特征。

时域变换网络由预处理结构和一个时域变换模块构成，时域变换模块包括一个实例链路和一个语义链路。其中，实例链路由一层反卷积层构成；语义链路由一层上采样层构成。

残差特征R(R₁,R₂,R₃,R₄)进入时域变换网络，利用实例链路得到实例特征I(I₁,I₂,I₃,I₄)、利用语义链路得到语义特征S(S₁,S₂,S₃,S₄)。

(4)时频域联合网络

时频域联合网络由时频域联合模块构成，时频域联合模块负责联合频域变换网络和时域变换网络。具体地说，时频域联合模块会为频域变换网络和时域变换网络分别对应输出的高频特征、低频特征、实例特征和语义特征这四种特征依次分配一个乘积系数，高频特征的系数为a(0≦a≦1)，低频特征的系数为b(0≦b≦1)，实例特征的系数为c(0≦c≦1)，语义特征的系数为d(0≦d≦1)。

时频域联合模块的系数分配原则是满足a+b＝1,c+d＝1，保证频域变换网络和时域变换网络均有特征输出，实现多域联合分析，提升网络精度。为高低特征、低频特征、实例特征和语义特征分配乘积系数是为了寻求时域特征和频域特征的最佳比例，以适应全景分割中前景分割和背景分割的不同需求。

典型的系数分配组合有五种，分别为高频实例组，高频语义组，低频实例组、低频语义组合平均分配组，其系数分配组合分别如公式(1)～(5)所示。

C₁(a,b,c,d)＝{1,0,1,0} (1)

C₂(a,b,c,d)＝{1,0,0,1} (2)

C₃(a,b,c,d)＝{0,1,0,1} (3)

C₄(a,b,c,d)＝{0,1,1,0} (4)

C₅(a,b,c,d)＝{0.5,0.5,0.5,0.5} (5)

其中，函数C为时频域联合函数。

五种典型的系数分配组合中的前四种C₁、C₂、C₃和C₄只取了频域特征和时域特征中的某一类型，将该类型的系数置为1，将另一个类型的系数置为0。这四种组合方式是时频域联合网络的简化形式，可以降低结构的复杂性，提高实时性，但是容易造成时域或频域中有用特征的损失，对网络精度造成一定影响。因此，给出第五种系数分配组合C₅，对系数进行平均分配，将系数均设定为0.5。C₅是时频域联合网络的标准形式，高频特征、低频特征、实例特征和语义特征都能参与到网络计算，且比例一致。

在实际应用中，由于高频特征和实例特征包含图像前景信息较为丰富；而低频特征和语义特征则拥有大量的图像背景信息，所以高频特征和实例特征适用于前景分割；低频特征和语义特征适用于背景分割。

更重要地，相比实例特征，高频特征在目标细节和轮廓等信息上的表现力更强，所以高频特征系数应高于实例特征系数；语义特征对空间位置的把控比低频特征要好，所以，语义特征系数应高于低频特征系数。据此，给出最优的系数分配组合范围C₆，如公式(6)所示。

C₆(a,b,c,d)＝{0.7～1,0～0.3,0～0.3,0.7～1} (6)

(5)分割融合网络

分割融合网络包括前景分割网络、背景分割网络和全景融合网络。

前景分割网络由三层标准卷积层和一层反卷积层构成；背景分割网络由三层可变形卷积层和相应的上采样结构组成，其中，上采样结构用于调整输出的尺寸大小；全景融合网络负责融合前背景分割结果，生成全景分割结果。

3.结构要求

(1)预处理结构中的四层残差特征R₁，R₂，R₃，R₄的尺寸大小分别为[256*200*304]、[512*100*152]、[1024*50*76]、[2048*25*38]；

(2)频域变换网络高通链路输出的四层高频特征H₁，H₂，H₃，H₄的尺寸大小分别为[256*200*304]、[256*100*152]、[256*50*76]、[256*25*38]；低通链路输出的四层低频特征L₁，L₂，L₃，L₄的尺寸大小分别为[256*200*304]、[256*100*152]、[256*50*76]、[256*25*38]；

(3)频域变换网络高通链路中的高通卷积层为标准卷积，该卷积层不改变输入特征的尺寸大小；高通链路中的反卷积层将输入该层的特征尺寸扩大两倍；

(4)频域变换网络低通链路中的低通卷积层为空洞卷积，低通卷积层将输入该卷积层的特征尺寸缩小两倍；低通链路中的上采样层采用双线性插值的方法，将输入该层的特征尺寸扩大四倍；

(5)时域变换网络实例链路输出的四层高频实例特征I₁，I₂，I₃，I₄的尺寸大小分别为[256*200*304]、[256*100*152]、[256*50*76]、[256*25*38]；语义链路输出的四层语义特征S₁，S₂，S₃，S₄的尺寸大小分别为[256*200*304]、[256*100*152]、[256*50*76]、[256*25*38]；

(6)时域变换网络实例链路中反卷积层将输入该层的特征尺寸扩大两倍；

(7)时域变换网络语义链路中上采样层采用双线性插值的方法，将输入该层的特征尺寸扩大两倍。

在一种实施例中，一种时频域联合全景分割方法，包括如下步骤：

输入图像，

获取全景风格。

分割步骤包括：

第1步：读取数据集图像，经由预处理结构得到四层残差特征R(R₁,R₂,R₃,R₄)。

第2步：在频域变换网络中，对第1步中的四层残差特征R(R₁,R₂,R₃,R₄)进行必要的特征维度调整后，实施高低频特征分离，得到高频特征H(H₁,H₂,H₃,H₄)和低频特征L(L₁,L₂,L₃,L₄)。如公式(7)～(14)所示。

高频特征H(H₁,H₂,H₃,H₄)：

低频特征L(L₁,L₂,L₃,L₄)：

在时域变换网络中，对第1步中的四层残差特征R(R₁,R₂,R₃,R₄)进行必要的特征维度调整后，实施实例特征和语义特征分离，得到实例特征I(I₁,I₂,I₃,I₄)和语义特征S(S₁,S₂,S₃,S₄)。如公式(15)～(22)所示。

实例特征I(I₁,I₂,I₃,I₄)：

语义特征S(S₁,S₂,S₃,S₄)：

在公式(7)～(22)中，F_r(k*k)表示卷积核为k*k，扩张率为r的卷积。F^-1(k*k)表示卷积核为k*k的反卷积。U(n)表示扩大n倍的双线性插值。

表示特征向量X的通道数为a，长为b，宽为c。A＝{F,F^-1,U}，

第3步：将第2步得到的高频特征H、低频特征L、实例特征I和语义特征S传递到时频域联合网络，得到时频域特征组合{a*H,b*L,c*I,d*S}。

第5步：将第4步得到的前景分割结果和背景分割结果传递到全景融合网络得到全景分割结果。

本发明实施例记载的时频域联合全景分割卷积神经网络，属于深度学习图像处理领域，基于全景图像固有的时域和频域两种特性，以时、频域双重视角分析卷积神经网络，联合时域上像素间空间关系和频域上像素振动频率的信息，根据图像前背景的特点，组合应用时域特征和频域特征，以提高前背景分割精度，从整体上提升全景分割质量。本发明方法能够应用于自主汽车、辅助驾驶、机器人以及公共安全天眼监控系统等多个领域。

本发明将传统时域卷积网络上像素之间的空间关系和频域上像素的振动频率相结合，构建时频域联合卷积神经网络，综合考虑图像固有的时域和频域两种属性，以双重视角进行网络分析，集合时域分析和频域分析的优势，从整体上提高分割质量。

实施例1：

不同系数组合下的全景分割图

本实施实例为，将图像输入到系数分配组合分别为C₁、C₂、C₃、C₄、C₅和C₆的时频域联合全景分割卷积神经网络中，得到全景分割结果如图4。

实施例2：

简单场景下的全景分割

本实施实例为，将前背景环境简单的场景输入到时频域联合全景分割卷积神经网络中，得到全景分割结果。简单场景全景分割结果如图5。

实施例3：

复杂场景下的全景分割

本实施实例为，将前背景环境复杂的场景输入到时频域联合全景分割卷积神经网络中，得到全景分割结果。复杂场景全景分割结果如图6。

实施例4：

交通场景下的全景分割

本实施实例为，将交通场景输入到时频域联合全景分割卷积神经网络中，得到全景分割结果。交通场景全景分割结果如图7。

实施例5：

十字路口交通场景下的全景分割

本实施实例为，将十字路口的交通场景输入到时频域联合全景分割卷积神经网络中，得到全景分割结果。十字路口交通场景全景分割结果如图8。

实施例6：

街道交通场景下的全景分割

本实施实例为，将街道的交通场景输入到时频域联合全景分割卷积神经网络中，得到全景分割结果。街道交通场景全景分割结果如图9。

实施例7：

人行横道交通场景下的全景分割

本实施实例为，将人行横道的交通场景输入到时频域联合全景分割卷积神经网络中，得到全景分割结果。人行横道交通场景全景分割结果如图10。