CN113537000A

CN113537000A - 单目视觉实例分割深度链式特征提取网络、方法和系统

Info

Publication number: CN113537000A
Application number: CN202110746899.1A
Authority: CN
Inventors: 毛琳; 任凤至; 杨大伟; 张汝波
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2021-10-22

Abstract

单目视觉实例分割深度链式特征提取网络、方法和系统，属于计算机视觉应用中的实例分割领域，单链结构主要由卷积层组和加法融合器组成，且被区分为双端输入π型单链结构和双端输入倒π型单链结构，双端输入π型单链结构和双端输入倒π型单链结构交替顺序连接，本发明结构简单灵活，可连续堆叠使用，适用于无人驾驶、移动机器人等低功耗、快速反应需求的多种场景和设备。

Description

单目视觉实例分割深度链式特征提取网络、方法和系统

技术领域

本发明属于计算机视觉应用中的实例分割领域，具体的说是一种适用于无人驾驶等单目视觉环境的，级联堆叠的实例分割特征提取网络。

背景技术

近年来无人驾驶技术快速发展，无人驾驶汽车是通过车载传感系统感知道路环境，自动规划行车路线并控制车辆到达预定目标的智能汽车。而在无人驾驶技术中，如何使用简单的设备快速准确地识别车辆前方的物体和行人毫无疑问是当前无人驾驶技术发展的一个很大的障碍，如果不能在简易装置下短时间内准确识别并做出反应，那么无人驾驶技术将很难走远。

近年来，人工神经网络识别技术已经引起了社会广泛的关注，并且大量应用于图像分割。基于神经网络的分割方法的基本思想是通过训练多层感知机来得到线性决策函数，然后用决策函数对像素进行分类来达到分割的目的。但在深度学习中，往往一个框架只能完成单线程任务，而随着深度学习计算机视觉领域的发展，越来越要求在深度神经网络中实现多任务集成，即目标检测，图像分类，图像分割通过一个学习框架完成，代表框架就是实例分割。

专利《一种融合空洞卷积和边缘信息的实例分割方法》(公开号：CN110348445A)，公开了一种融合空洞卷积和边缘信息的实例分割方法，提出在特征金字塔网络加入混合空洞卷积层对金字塔顶层特征图进行混合空洞卷积；在初步分割网络加入边缘检测模块，对分割结果进行边缘检测。专利《基于无人驾驶技术对实例分割的改进方法》(公开号：CN110276378A)，公开了一种实例分割的改进方法，提出基于Mask R-CNN的Faster R-CNN基础上对目标进行检测以及分类，之后通过FCN特征粗提取以及CRF优化输出从而实现实例分割。该方法对特征金字塔提取到的特征进行深入精细处理，通过特征融合优化来提高分割结果。

发明内容

为了解决根据实际硬件环境和设备参数，可调整堆叠层数数量，更适用于低功耗、快速反应的硬件设备需求的问题，本发明提出如下技术方案：一种单目视觉实例分割深度链式特征提取网络，主要由若干单链结构顺序连接而成，单链结构主要由卷积层组和加法融合器组成，且被区分为双端输入π型单链结构和双端输入倒π型单链结构，双端输入π型单链结构和双端输入倒π型单链结构交替顺序连接；

双端输入π型单链结构的卷积层组输出第一超前特征信息和第二超前特征信息，第一超前特征信息输出，作为至该双端输入π型单链结构最近邻后级双端输入π型单链结构的卷积层组超前特征信息输入，第二超前特征信息与基本特征信息在加法融合器中融合并输出，作为该双端输入π型单链结构后级双端输入倒π型单链结构卷积层组的基本特征信息输入；

双端输入倒π型单链结构的卷积层组输出与该双端输入倒π型单链结构的前级双端输入π型单链结构输出的第一超前特征信息于加法融合器中融合并输出，作为该双端输入倒π型单链结构的后级双端输入π型单链结构的基本特征信息输入。

作为技术方案的补充，首端单链结构是单端输入π型单链结构，双端输入倒π型单链结构的输出端和位于其后级的双端输入π型单链结构组成双端输入π型双链复合结构。

作为技术方案的补充，链式网络末端的单链结构是双端输入倒π型单链结构或者是双端输入π型单链结构，且末端的单链结构的超前特征信息与基本特征信息中的一个通过卷积层组，并与另一个融合于加法融合器中并输出。

作为技术方案的补充，单端输入π型单链结构，包括

第一特征信息输入端，输出1a特征信息和1b特征信息；

第一卷积层组，1a特征信息输入第一卷积层组，第一卷积层组输出2a特征信息和1d特征信息；

第一加法融合器，1b特征信息输入第一加法融合器的第一输入端，1d特征信息输入第一加法融合器的第二输入端，第一加法融合器输出2b特征信息；

双端输入倒π型单链结构，包括

第二信息输入端，输出2a特征信息和2b特征信息；

第二卷积层组，2b特征信息输入第二卷积层组，第二卷积层组输出2c特征信息；

第二加法融合器，2c特征信息输入第二加法融合器的第一输入端，2a特征信息输入第二加法融合器的第二输入端，第二加法融合器输出3b特征信息；

双端输入π型单链结构，包括

第三信息输入端，输出2a特征信息和3b特征信息；

第三卷积层组，2a特征信息输入第三卷积层组，第三卷积层组输出4a特征信息；

第三加法融合器，4a特征信息输入第三加法融合器的第一输入端，3b特征信息输入第三加法融合器的第二输入端，第三加法融合器输出4b特征信息。

作为技术方案的补充，单端输入π型单链结构的第一卷积层组输出2a特征信息的输出端连接位于其后级的双端输入倒π型单链结构的第二信息输入端输出2a特征信息的输入端，单端输入π型单链结构的第一加法融合器输出2b特征信息的输出端连接位于其后级的双端输入倒π型单链结构的第二信息输入端输出2b特征信息的输入端；

双端输入倒π型单链结构输出2a特征信息的输出端连接位于其后级的双端输入π型单链结构的第三信息输入端输出2a特征信息的输入端，双端输入倒π型单链结构的第二加法融合器输出3b特征信息的输出端连接位于其后级的双端输入π型单链结构的第三信息输入端输出3b特征信息的输入端；

双端输入π型单链结构输出4a特征信息的输出端连接位于其后级的双端输入倒π型单链结构第二信息输入端输出2a特征信息的输入端，双端输入π型单链结构的第三加法融合器输出4b特征信息的输出端连接位于其后级的双端输入倒π型单链结构第二信息输入端输出2b特征信息的输入端；

双端输入倒π型单链结构输出2a特征信息的输出端连接位于其后级的双端输入π型单链结构的第三信息输入端输出2a特征信息的输入端，双端输入倒π型单链结构的第二加法融合器输出3b特征信息的输出端连接位于其后级的双端输入π型单链结构的第三信息输入端输出3b特征信息的输入端。

作为技术方案的补充，深度链式网络是由多个单链结构复合堆叠而成的网络形式，其具体网络形式满足链式网络构成的约束条件：

链式网络的输入是256*14*14的三维矩阵；

链式网络中的卷积层组由三个尺寸大小完全相同的卷积层构成；

链式网络的输出是256*14*14的三维矩阵。

作为技术方案的补充，链式网络深度n的范围是1到正无穷；

链式网络深度n＝1时，链式网络的形式只能是由一个单一的单端输入π型单链结构构成；

一种单目视觉实例分割深度链式特征提取网络，主要由若干单链结构顺序连接而成，单链结构主要由卷积层组和加法融合器组成，单链结构的卷积层组第一输出被作为超前特征信息，输入该单链结构的后级单链结构的卷积层组，且该单链结构的卷积层组第二输出与基本特征信息输入端于加法融合器中融合，输出并作为该单链结构的后级单链结构基本特征信息。

作为技术方案的补充，链式网络首端的单链结构是单端输入π型单链结构，末端的单链结构是双端输入π型单链结构，且末端的单链结构的超前特征信息通过卷积层组输出，并与基本特征信息融合于加法融合器中并输出；

单端输入π型单链结构，包括

第一特征信息输入端，输出1a特征信息和1b特征信息；

双端输入π型单链结构，包括

第二信息输入端，输出2a特征信息和2b特征信息；

第二卷积层组，2a特征信息输入第二卷积层组，第二卷积层组输出3a特征信息和2d特征信息；

第二加法融合器，2b特征信息输入第二加法融合器的第一输入端，2d特征信息输入第二加法融合器的第二输入端，第二加法融合器输出3b特征信息；

单端输入π型单链结构的第一卷积层组输出2a特征信息的输出端连接位于其后级的双端输入π型单链结构的第二信息输入端输出2a特征信息的输入端，单端输入π型单链结构的第一加法融合器输出2b特征信息的输出端连接位于其后级的双端输入π型单链结构的第二信息输入端输出2b特征信息的输入端；

双端输入π型单链结构输出3a特征信息的输出端连接位于其后级的双端输入π型单链结构的第二信息输入端输出3a特征信息的输入端，双端输入π型单链结构的第二加法融合器输出3b特征信息的输出端连接位于其后级的双端输入π型单链结构的第二信息输入端输出3b特征信息的输入端。

一种单目视觉实例分割深度链式特征提取方法：

第1步：读取数据集图像，对特征进行粗提取，获得图像特征信息；

第2步：将图像特征信息整理后得到要求尺寸的特征矩阵；

第3步：将特征矩阵输入全连接网络获取类别和边框坐标；

第4步：将特征矩阵输入单目视觉实例分割深度链式特征提取网络，对实例特征进行深入特征提取，获取实例目标的精确特征信息；

第5步：利用精确特征信息生成实例目标的掩模；

第6步：根据类别和边框坐标与实例目标分割掩模，输出最终的实例分割结果。

一种计算机系统，包括处理器以及存储器，处理器执行所述存储器中的代码以实现所述的方法。

有益效果：本发明提出一种利用简单的链式结构级联堆叠而成的深度链式特征提取网络，深入挖掘实例目标的详细特征信息，以提高分割精度。本发明结构简单灵活，可连续堆叠使用，适用于无人驾驶、移动机器人等低功耗、快速反应需求的多种场景和设备。

附图说明

图1是深度n＝3的同侧卷积链式网络结构示意图。

图2是深度n＝3的异侧卷积链式网络结构示意图。

图3是实施例1的实例分割图。

图4是实施例1的实例分割图。

图5是实施例2的实例分割图。

图6是实施例2的实例分割图。

图7是实施例3的实例分割图。

图8是实施例3的实例分割图。

具体实施方式

为使本发明的上述目的和效果能够更加明显易懂，下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提出的深度链式网络，由于采用链式结构，一个环状结构连接另一个环状结构，每个结构主要核心卷积器的尺寸大小完全一致，仅区别在连线方式不同，具有结构简单轻巧、可堆叠应用的特点。

1.链式网络的基本构成单元

链式网络的构成由三种基本单链形式和一种复合双链形式构成。其中单链形式分别为双端输入π型单链结构、单端输入π型单链结构和双端输入倒π型单链结构三种形式，复合双链形式为双端输入π型双链复合结构。

(1)双端输入π型单链结构

双端输入π型单链结构定义：该结构是构成链式网络结构的基本元素。它由两个输入端(分别为基本特征信息输入端和超前特征信息输入端)，一个卷积层组，一个加法融合器和两个输出端构成(分别输出加法融合特征和卷积层组特征)。当双端输入π型单链结构位于链式网络末端时，仅有一个输出端，输出加法融合特征。从构成几何形式上看，超前特征信息输入端直接将信息传递给卷积层组，而后与基本特征信息输入端信息相加融合作为输出结果。

双端输入π型结构有两个输入端口，基本特征信息输入端作为该双端输入π型单链结构的主要输入端。而这里，所谓的超前特征信息输入端，是用来引入其它结构中的待融合特征信息，相对于基本特征信息输入端而言，超前特征信息的获取往往在时间先后上，早于基本特征信息输入端的信息，故此，用超前来描述其特性。

(2)单端输入π型单链结构

如图1和2所示，单端输入π型单链结构定义：该结构由一个特征信息输入端，一个卷积层组，一个加法融合器和两个输出端构成(分别输出加法融合特征和卷积层组特征)。从构成几何形式上看，与双端输入π型单链结构本质不同在于，此单链结构仅有一个输入端，相当于双端输入π型单链结构两个输入端输入相同特征信息，属于双端输入π型单链结构的特例形式。

(3)双端输入倒π型单链结构

如图2所示，双端输入倒π型单链结构定义：该结构是构成链式网络结构的基本元素。它由两个输入端(分别为基本特征信息输入端和超前特征信息输入端)，一个卷积层组，一个加法融合器和两个输出端构成(分别输出加法融合特征和输入该结构的超前特征)。从构成几何形式上看，与双端输入π型单链结构的本质不同在于，基本特征信息输入端直接将信息传递给卷积层组，而不是由超前特征信息输入端进入，与双端输入π型单链结构的卷积层位置也对应调整，从而形成倒π型结构。

(4)双端输入π型双链复合结构

如图2所示，双端输入π型双链复合结构定义：该结构由1个双端输入倒π型单链结构和1个双端输入π型单链结构组合在一起，构成一个双端输入的π型对称复合型结构。构成该结构的两个基本单链结构，不可交换顺序，可以作为深度堆叠的复合单元出现在深度网络设计中。

2.链式网络的组成形式

(1)链式网络深度定义：链式网络深度用英文字母n表示，n为大于0的整数。其含义是指一个深度网络复合的单链结构的次数。当n＝1时，该网络形式表示为一个单链网络；当n大于1时，网络形式表示为复合型深度网络。

根据卷积层组在网络中的分布，链式网络分为同侧卷积链式网络和异侧卷积链式网络两种类型。如图1所示，同侧卷积链式网络中每个单元的卷积层组位于网络同侧，如图2所示，异侧卷积链式网络中相邻单元的卷积层组位于网络异侧。

(2)同侧卷积链式网络具有双端输入和双端输出，双端输出包括一个卷积层组处理结果输出(作为下一个单元的超前特征信息输入端)和一个加法融合结果输出(作为下一个单元的基本特征信息输入端)。同侧卷积双端输出的结构使得不同层次的图像特征能够得以保留，并传递到下一个单元，继续进行卷积计算，这维持了特征层次体系的完整性，使得网络最终输出结果中兼具浅层位置信息和深层语义特征，有利于对目标进行准确提取。

根据深度不同，同侧卷积链式网络组成形式有以下几种类型：

深度n＝1时：同侧卷积链式网络表现为1个单端输入π型单链结构。

深度n为大于1的整数时：同侧卷积链式网络表现为1个单端输入π型单链结构和(n-1)个双端输入π型单链结构。

(3)异侧卷积链式网络具有双端输入和双端输出，双端输出包括一个卷积层组处理结果输出或捷径结果输出(作为下一个单元的超前特征信息输入端)和一个加法融合结果输出(作为下一个单元的基本特征信息输入端)。异侧卷积链式网络也是双端输入双端输出的，但是，跟同侧卷积链式网络不同的是，异侧卷积链式网络的卷积层组在网络中是异侧分布的，这使得网络中每个单元结构双端输出的结果是不确定的，在固有结构框架的基础之上，这种不确定性能够在一定程度上激发链式网络的学习潜力，提升特征提取能力。

根据深度不同，异侧卷积链式网络组成形式有以下几种类型：

深度n＝1时：异侧卷积链式网络表现为1个单端输入π型单链结构。

深度n＝2时：异侧卷积链式网络表现为1个单端输入π型单链结构和1个双端输入倒π型单链结构。

深度n为大于2的奇数时：异侧卷积链式网络表现为1个单端输入π型单链结构和

个双端输入π型双链复合结构。

深度n为大于2的偶数时：异侧卷积链式网络表现为1个单端输入π型单链结构和

个双端输入π型双链复合结构和1个双端输入倒π型单链结构。

3.链式网络的约束条件

深度链式网络是由单个或多个单链结构复合堆叠而成的网络形式，其具体网络形式必须满足链式网络构成的约束条件：

约束条件1：链式网络的输入是256*14*14的三维矩阵。

约束条件2：链式网络中的卷积层组由三个尺寸大小完全相同的卷积层构成。

约束条件3：链式网络的输出是256*14*14的三维矩阵。

约束条件4：链式网络深度n的范围是1到正无穷，其取值越大，计算量越大；实际应用中，链式网络深度n不宜过大，一般取值范围为1，2，3，4，5，6，7，8。

约束条件5：链式网络深度n＝1时，链式网络的形式只能是由一个单一的单端输入π型单链结构构成。

4.网络适用领域及效果

(1)适用无人驾驶单目视觉环境

本发明为单目视觉环境感知技术，能够对驾驶环境中的行人、车辆、建筑等实例目标进行准确的分割，为正常驾驶提供重要的保障。本发明可以在无人驾驶场景使用，为无人车提供视觉辅助，防止危险的发生。

(2)深度链式网络具有拓展性、灵活性

本发明中的深度链式结构具有拓展性，结构灵活，可以无穷延伸，形成多种特征提取结构。在不影响时间损耗的情况下，对实例特征进行深度提取。可以根据需求选择使用深度链式结构，以达到实例分割算法的最优表现。

(3)小目标分割精度高，适用家居智能设备

本发明提出深度链式学习结构，深入挖掘提取实例目标深度特征，对日常生活实例目标甚至多数小目标分割精度提高，适用于各种家居智能设备。

(4)适用公共交通监控系统

本发明对行人和车辆的准确分割满足了道路交通场景的需求，为驾驶人员提供了安全驾驶的辅助手段；依靠本发明的分割精度和速度，针对违章车辆、违章驾驶车辆的驾驶员(违规操作)和不守交通规则的行人都可以有效进行分割识别，及时拍照，改善公共监控系统的工作效率。

具体实施步骤如下：

第1步：读取数据集图像，通过任意特征网络对特征进行粗提取，获得特征信息；

第2步：将第1步特征信息整理后，得到尺寸为256*14*14的特征矩阵；

第3步：将第2步所得尺寸为256*14*14的特征矩阵，送入全连接网络获取类别和边框坐标；

第4步：将第2步所得尺寸为256*14*14的特征送入深度链式网络，对实例特征进行深入特征提取，获取实例目标的精确特征信息；

第5步：利用第4步所得精确特征信息，生成实例目标的掩模，即实例目标分割掩模；

第6步：根据第3步得到的类别和边框坐标，与第5步所得实例目标分割掩模，输出最终的实例分割结果。

实施例1：

无人驾驶单目视觉分割情况

本实施例针对无人驾驶单目视觉场景，将车载传感器所采集的周围路面环境输入同侧卷积链式网络模型中，得出实例分割结果如图3；将车载传感器所采集的周围路面环境输入异侧卷积链式网络模型中，得到实例分割结果如图4。本发明用于对周围环境中的行人、车辆及标志物等实例目标进行准确分割，为驾驶者提供驾驶辅助手段，降低交通事故率，提高车辆的安全驾驶能力。

实施例2：

日常生活小目标分割情况

本实施例针对日常生活小目标场景，将日常生活图像输入到同侧卷积链式网络模型中，得出实例分割结果如图5；将日常生活图像输入到异侧卷积链式网络模型中，得出实例分割结果如图6。本发明用于对日常生活中的实例目标尤其是大量小目标进行分割，为家居智能设备的正常工作提供视觉辅助，提高其工作效率。

实施例3：

公共交通监控场景分割情况

本实施例针对公共交通监控场景，将交通路面图像输入同侧卷积链式网络模型中，得出实例分割结果如图7；将交通路面图像输入异侧卷积链式网络模型中，得出实例分割结果如图8。为公共监控系统提供路面实况，为监察违规行为提供助力。

Claims

1.一种单目视觉实例分割深度链式特征提取网络，主要由若干单链结构顺序连接而成，其特征在于，

单链结构主要由卷积层组和加法融合器组成，且被区分为双端输入π型单链结构和双端输入倒π型单链结构，双端输入π型单链结构和双端输入倒π型单链结构交替顺序连接；

2.如权利要求1所述的单目视觉实例分割深度链式特征提取网络，其特征在于：首端单链结构是单端输入π型单链结构，双端输入倒π型单链结构的输出端和位于其后级的双端输入π型单链结构组成双端输入π型双链复合结构。

3.如权利要求2所述的单目视觉实例分割深度链式特征提取网络，其特征在于：链式网络末端的单链结构是双端输入倒π型单链结构或者是双端输入π型单链结构，且末端的单链结构的超前特征信息与基本特征信息中的一个通过卷积层组，并与另一个融合于加法融合器中并输出。

4.如权利要求1所述的单目视觉实例分割深度链式特征提取网络，其特征在于：

单端输入π型单链结构，包括

第一特征信息输入端，输出1a特征信息和1b特征信息；

双端输入倒π型单链结构，包括

第二信息输入端，输出2a特征信息和2b特征信息；

双端输入π型单链结构，包括

第三信息输入端，输出2a特征信息和3b特征信息；

5.如权利要求1所述的单目视觉实例分割深度链式特征提取网络，其特征在于：

单端输入π型单链结构的第一卷积层组输出2a特征信息的输出端连接位于其后级的双端输入倒π型单链结构的第二信息输入端输出2a特征信息的输入端，单端输入π型单链结构的第一加法融合器输出2b特征信息的输出端连接位于其后级的双端输入倒π型单链结构的第二信息输入端输出2b特征信息的输入端；

6.如权利要求1所述的单目视觉实例分割深度链式特征提取网络，其特征在于：

深度链式网络是由多个单链结构复合堆叠而成的网络形式，其具体网络形式满足链式网络构成的约束条件：

链式网络的输入是256*14*14的三维矩阵；

链式网络的输出是256*14*14的三维矩阵。

7.如权利要求1或6所述的单目视觉实例分割深度链式特征提取网络，其特征在于：

链式网络深度n的范围是1到正无穷；

链式网络深度n＝1时，链式网络的形式只能是由一个单一的单端输入π型单链结构构成。

8.一种单目视觉实例分割深度链式特征提取网络，主要由若干单链结构顺序连接而成，其特征在于，单链结构主要由卷积层组和加法融合器组成，单链结构的卷积层组第一输出被作为超前特征信息，输入该单链结构的后级单链结构的卷积层组，且该单链结构的卷积层组第二输出与基本特征信息输入端于加法融合器中融合，输出并作为该单链结构的后级单链结构基本特征信息。

9.如权利要求8所述的单目视觉实例分割深度链式特征提取网络，其特征在于：

链式网络首端的单链结构是单端输入π型单链结构，末端的单链结构是双端输入π型单链结构，且末端的单链结构的超前特征信息通过卷积层组输出，并与基本特征信息融合于加法融合器中并输出；

单端输入π型单链结构，包括

第一特征信息输入端，输出1a特征信息和1b特征信息；

双端输入π型单链结构，包括

第二信息输入端，输出2a特征信息和2b特征信息；

10.一种单目视觉实例分割深度链式特征提取方法，其特征在于：

第2步：将图像特征信息整理后得到要求尺寸的特征矩阵；

第3步：将特征矩阵输入全连接网络获取类别和边框坐标；

第5步：利用精确特征信息生成实例目标的掩模；