CN114742971A

CN114742971A - 一种基于线框表示的平面检测方法

Info

Publication number: CN114742971A
Application number: CN202210356575.1A
Authority: CN
Inventors: 袁晓军; 周乐乐
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-12
Anticipated expiration: 2042-04-06
Also published as: CN114742971B

Abstract

本发明属于计算机视觉领域，具体的说是涉及一种基于线框表示的平面检测方法。本发明通过使用实例分割技术，顶点检测技术，最终实现了使用几何多边形构成的封闭线框表示的平面来解析图像三维场景结构的目的。使用本发明可以提取城市建筑物场景图像中的几何多边形封闭线框结构表示的平面。

Description

一种基于线框表示的平面检测方法

技术领域

本发明属于计算机视觉目标检测场景解析领域，具体的说是涉及使用封闭线框表示的检测平面来解析图像场景结构的方法。

背景技术

二维图像可以认为是三维世界到二维空间的投影，蕴含着丰富的三维世界的结构信息。点，结构线和封闭线框表示的平面等是最直观的能够反应现实世界三维结构信息的几何元素。从图像中提取这些几何元素，通过几何推断对其进行组合，进而实现对三维场景结构的解析，是计算机视觉领域中的一个研究热点。对图像场景结构的解析和描述，涉及对场景中的几何结构的检测，包括点检测，线检测以及线框构成的平面检测等。在传统图像处理中，要提取图像中的点，常用的算法有Harris角点检测器等，提取图像中的线段及边缘特征，往往需要手工设计各种算子，利用图像中的梯度信息实现图像中的线段及边缘的检测。常使用的传统的线段检测算法有霍夫变换线段检测算法，边缘检测算法有Sobel边缘检测算子，Prewit边缘检测算子，Robert边缘检测算子，Canny边缘检测算子等。但这些边缘检测算子，通常都是基于图像中的低级梯度特征，往往只能检测某一方向上的边缘直线等，对于纹理干扰等信息敏感。

随着深度学习的兴起，人们逐渐认识到深度卷积神经网络在特征提取上具有极大的优势。于是，采用深度卷积神经网络提取图像特征，并依据提取的特征实现对图像中的点，直线，平面等目标的检测，逐渐吸引了研究者的目光。基于线框的相关检测工作，致力于利用深度卷积神经网络从图像中检测点和结构线，使用点和直线来解析描述是三维场景结构。Kun Huang,Yifan Wang,Zihan Zhou etc，Learning to parse wireframes in imagesof man-made environments，首次提出将深度卷积神经网络用于人造场景图像中的点和结构线的检测，开启了使用点和结构线来解析三维场景结构的新篇章。Yichao Zhou,HaozhiQi,Yuexiang Zhai,etc,Learning to Reconstruct 3D Manhattan Wireframes from aSingle Image.利用神经网络实现了图像中结构线的提取。Yichao Zhou,Haozhi Qi,YiMa,End-to-End Wireframe Parsing通过新的网络结构设计LCNN进一步的提升了结构线检测的性能。线框检测与传统的线段检测不同，传统线段检测一般根据图像中的局部边缘特征，比如梯度信息来检测图像中的边的信息。线框检测中线段的表示，隐式的包含了端点的位置信息，其端点通常是具有明确物理含义的点，比如是角点或者线段的交点。传统的直线线段检测算法不会检测线段的端点以及线段之间的连接关系，这就限制了其在场景解析和理解上的应用。

线框检测倡导使用图像中具有几何含义的几何结构元素，比如点，结构线及线框等来解析图像场景结构，但截止目前的相关工作都是利用深度卷积神经网络从图像中检测点和结构线，采用点和结构线来解析场景结构，还未有利用封闭线框来解析场景结构的工作出现。本发明与之前这一系列工作的最大不同就是采用了封闭线框构成的多边形结构来解析图像中的场景结构。

发明内容

针对上述问题，本发明认为仅仅采用顶点和结构线不足以完全表达图像中蕴含的三维结构信息。由封闭线框构成的多边形表示的平面更能直观全面的描述图像中的三维场景结构。封闭线框多边形平面的几何信息能够表示一个区域以及区域的边界，而结构线仅仅能够表示物体的几何边界。因此，相对来说，多边形线框构成的平面蕴含的几何信息更为丰富，并且包含了线框检测中的顶点和结构线的信息。多边形封闭线框的顶点即是结构线的顶点，多边形线框的边即是结构线。本发明相当于在之前线框检测工作的基础之上，将一个个松散独立的顶点和线段等基本几何元素，使用由平面顶点构造的封闭线框多边形将其组合统一起来，以多边形平面区域的方式来解析二维图像中的三维场景结构。据了解，目前，还没有相关的使用平面顶点构成的平面多边形来解析图像中的三维场景结构的工作出现

本发明在使用点和线段来解析场景三维结构的基础之上，对使用由平面顶点构成的平面线框多边形来解析图像中的场景结构进行了进一步的探索。本发明可以实现对城市建筑物外墙平面结构的解析，即输入城市场景建筑物图像，可以实现建筑物外墙平面的检测，并输出由平面顶点构成的表示平面的线框多边形。

为实现上述目的，本发明的技术方案为：一种基于线框表示的平面检测方法，具体包括以下步骤：

S1、采集尺寸为512x512的城市场景图像作为训练集。将训练集图像输入主干网络ResNet101_FPN提取城市场景图像的特征。

S2、将提取的特征送入平面检测分支，输出平面的实例分割。同时，将提取的特征送入平面顶点检测分支，经过注意力机制模块后，分成三个小分支：

分支一，经2层卷积模块输出中继监督的顶点。中继监督顶点的标签采用公式(1.1)构造，并将其顶点范围由原来1个像素点扩大为5x5的区域，区域内中心点像素值为1，区域内其它位置处的像素值根据公式(1.1)计算出来的概率值填充。这一分支训练浅层网络学习一个顶点的粗略范围，起到指导监督的作用。

式中x,y为像素点坐标，v_x,v_y为顶点坐标，σ为调节参数，在本发明中σ＝3。

分支二，经4层卷积输出较为精准的平面顶点，其顶点标签依然采用公式(1.1)构造，这里顶点范围扩展的窗口大小缩小为3x3。同时采用分支一和分支二作用在神经网络不同层的卷积模块上来预测平面顶点的主要思想是让神经网络由粗及精，逐步细化的定位顶点。

分支三，经5层卷积模块输出平面顶点对应位置处的横纵坐标的偏置信息。由分支二的顶点坐标加上分支三对应位置处的横纵偏置信息，就可以得到顶点的精确位置坐标。

S3、利用分支二和分支三的结果可以得到与原图尺寸相同的精确的所有平面的顶点坐标。再使用平面实例分割作为先验，将属于单个平面的顶点提取出来。并根据平面实例分割的轮廓，对单个平面的所有平面顶点进行排序。最后，再使用平面顶点循环简化算法对冗余的平面顶点进行过滤和删除，最终输出由平面顶点构成的封闭多边形线框表示的平面。

本发明的有益效果为：本发明可以实现对城市场景图像中建筑物外墙平面的顶点检测，平面实例分割检测，通过利用平面实例分割的先验信息将平面顶点进行提取和排序，形成由平面顶点构成的多边形封闭线框，进而实现了使用封闭线框来解析三维场景结构的目的。

附图说明

图1为本发明基于线框的多边形平面检测方法的流程步骤及核心处理模块。

图2为主干特征提取网络ResNet101_FPN网络结构。

图3为顶点检测网络模块结构。

图4为本发明输出封闭线框多边形平面结果与图像叠加展示。

具体实施方式

下面结合附图对本发明进行详细说明，并对流程过程中的某些处理进行展示。

本发明基于自有的城市场景外墙平面数据集，将平面的检测建模为一个实例分割的任务。平面检测分支主要完成对各个平面实例的分割掩膜的预测。获取分割掩膜结果，主要是为了单个平面顶点的提取以及平面顶点的排序提供一个先验的依据和指导。本发明中采用的是Detectron2目标检测框架，主干特征提取网络采用的是基于残差神经网络的ResNet101_FPN网络。在平面实例分割检测上采用的是Mask R-CNN的检测结构。

整体网络架构可以分成四部分(见附图1)。分别为主干特提取网络模块，平面实例分割网络模块，平面顶点检测网络模块，以及平面线框生成模块。

第一个部分为特征提取主干特征网络ResNet101_FPN(见附图2)。输入为3x512x512的城市场景图像，输出为五层的金字塔特征从下至上依次为P2,P3,P4,P5,P6,通道数均为256，宽高尺寸从128开始依次减半，即维度分别为256x128x128，256x64x64,256x32x32,256x16x16,256x8x8。

第二个部分为平面实例分割检测网络模块。网络结构为Mask R-CNN实例分割网络结构。输入为第一部分的金字塔特征P2-P5,(P6未使用)。输出为1x28x28的实例分割，最后经放缩还原为1x512x512尺寸的实例分割。

第三个部分为顶点检测网络模块(见附图3)。输入为特征金字塔的P2层特征，经注意力机制模块后分成三个分支。一个分支经卷积模块后与一个伪高斯标签做Loss,完成中继监督。另外两个分支，分别完成平面顶点概率及平面顶点偏置矩阵的预测，经一系列卷积后输出一个1x128x128，元素为顶点预测概率值的矩阵，以及一个2x128x128的顶点在横纵坐标上的偏置矩阵。

第四个部分为平面线框封闭多边形生成模块。输入为通过平面实例分割模块获得的平面的实例分割和通过顶点检测网络模块获得的图像中的所有平面顶点。输出为封闭线框多边形表示的平面。具体实现如下：

首先，对模型顶点检测分支预测的概率二维矩阵进行非极大值抑制，这一步可以过滤掉冗余的平面预测顶点，仅保留窗口区域内概率的极大值，可以获得少量的较为准确的顶点。在非极大值抑制之后，还需要设置一个顶点概率阈值，本发明中概率阈值为0.13，将低于概率阈值的顶点像素置为0，表示背景，大于顶点阈值的像素置为1，表示顶点。将顶点为1的坐标加上偏置矩阵中对应位置的偏置之后，再乘以4，就得到了1x512x512下的精确顶点矩阵，等待进行下一步的处理。

其次，下一步操作就是提取平面分割掩膜对应的平面顶点。本发明通过遍历所有平面顶点并计算平面顶点到平面分割掩膜轮廓的欧式距离，选择一个合适的距离阈值，将平面顶点关联到该平面上。在阈值设置方面需要综合权衡，一方面不能过小，因为要将属于该平面的顶点尽可能的加入进来，过小容易因为平面分割的不完美而导致大量顶点遗漏。另一方面，也不能设置过大，过大会导致过多的邻近平面的顶点加入进来。

在平面的多边形线框表示中，还需要考虑一个特殊的情形，这种情况在现实世界中也比较常见，就是“回”字型平面。在建筑物的屋顶，当视角从上方往下看时，就很有可能出现这种情况。“回”字型平面的轮廓可能不止一个，本发明算法依次对每个轮廓单独处理，即遍历所有顶点，计算顶点到轮廓的欧式距离，选择距离小于点到轮廓距离阈值的顶点加入到多边形集合中，并将得到的同一个“回”字型面的多个多边形共同组合在一起，表示一个“回”字型面。

再次，得到单个平面的所有顶点之后，要构成最终的封闭线框多边形，还需要对提取的平面顶点进行排序。由于平面并不都是凸多边形构成的，因此，没有确定的算法可以完美的解决这一顶点排序的问题。本发明算法巧妙的借用了网络模型预测的平面分割掩膜，作为顶点排序的一个先验依据。具体的讲，先提取平面分割掩膜的轮廓，然后，依次遍历属于该平面的所有顶点，并计算顶点到平面分割轮廓线的距离，将顶点绑定在其最近的轮廓点上，然后按照被绑定的点在平面分割轮廓线上的相对顺序，对平面顶点进行排序，得到最终的排序结果。

最后，对于单个平面的顶点，由于分割掩膜不规则以及在收集平面顶点时，根据点到平面轮廓的距离是否小于一定阈值，作为是否为该平面顶点的判定依据而导致将邻近平面的顶点判定为此平面的顶点。当然，模型自身预测的顶点也可能存在冗余。于是，本发明提出了自适应的平面顶点的循环简化算法来过滤或删除掉这些冗余的顶点。具体的，该算法主要针对如下两种情形的顶点。

第一种情况，该顶点不是此平面的顶点，但是它是邻近平面的顶点。这种情况下它与前一个顶点构成的向量以及它与后一个顶点构成的向量夹角余弦值的绝对值将接近1，本发明通过计算该点与前后顶点向量夹角的余弦值的绝对值，是否大于某一阈值来决定是否删除该点。本发明中阈值为0.975。

第二种情况，模型检测出的冗余顶点。在模型输出的顶点中，本发明通过非极大值抑制的方式以及通过设置一个分数阈值的方式，已经过滤了绝大多数的预测的冗余顶点，但是在距离真实顶点很小范围内，还是会存在冗余的预测顶点。这种情况下本文使用距离阈值，即若该点与前后顶点的距离小于一定的阈值，则可以删除该顶点。本发明中该阈值为5。

由于平面的起始顶点不同，可能影响算法的执行结果。针对此问题，本文创新性的提出平面顶点循环简化的算法。即依次以每个顶点为起始顶点，平面顶点个数为循环次数，在循环过程中不断修改平面顶点的个数。最终，消除因平面起始顶点的不同，带来的算法结果差异。

训练细节：初始学习率为0.01，总的迭代次数为160000，在120000以及140000处学习率分别衰减为0.001和0.0001，优化器采用Adam。

本发明在原先通过检测点和结构线来解析场景结构基础上，进一步的采用检测场景中的点和平面，并采用由平面顶点构成的封闭线框多边形来解析场景结构，封闭线框多边形不仅包含了场景中的点和结构线的信息，还包含了场景中的平面区域信息，在几何语义上更加丰富，是场景结构解析由点到线，再到面的发展必然。

Claims

1.一种基于线框的平面检测方法，其特征在于，包括以下步骤：

S1、采集尺寸为512x512的城市场景图像作为训练集，并将训练集图像输入主干网络ResNet101_FPN提取城市场景图像的特征；

S2、对提取的城市场景图像的特征，采用平面检测网络进行平面实例分割，所述平面检测网络为Mask R-CNN实例分割网络；对提取的城市场景图像的特征，还采用顶点检测网络进行平面顶点检测，具体方法为：将提取的城市场景图像的特征经过注意力机制模块后分为三个分支，第一分支经2层卷积模块后输出中继监督的顶点，中继监督顶点的标签采用如下概率公式构造：

并将其顶点范围由原来1个像素点扩大为5x5的区域，区域内中心点像素值为1，区域内其它位置处的像素值根据概率公式计算出来的概率值填充；

第二分支经4层卷积输出较为精准的平面顶点，其顶点标签依然采用概率公式构造，这里顶点范围扩展的窗口大小缩小为3x3；

第三分支经5层卷积模块输出平面顶点对应位置处的横纵坐标的偏置信息；由第二分支的顶点坐标加上第三分支对应位置处的横纵偏置信息，得到顶点的位置坐标；

S3、利用第二分支和第三分支的结果得到与原图尺寸相同的所有平面的顶点坐标，再使用平面实例分割作为先验，将属于单个平面的顶点提取出来，并根据平面实例分割的轮廓，对单个平面的所有平面顶点进行排序，最后再使用平面顶点循环算法对冗余的平面顶点进行过滤和删除，最终输出由平面顶点构成的封闭多边形线框表示的平面。