CN113792745A

CN113792745A - 单面树木点云骨架线提取方法及系统

Info

Publication number: CN113792745A
Application number: CN202111091076.6A
Authority: CN
Inventors: 张紫微; 刘骥
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2021-12-14
Anticipated expiration: 2041-09-17
Also published as: CN113792745B

Abstract

本发明属于树木骨架提取技术领域，具体公开了一种单面树木点云骨架线提取方法及系统，该方法通过采集树木单面图片信息，将单面图片信息输入全卷积神经网络中，得到树枝图，将树枝图输入卷积神经网络，提取树枝图中的关键点，将关键点输入训练网络中，自侧输出层提取出不同尺度的多张真值骨架图，训练网络把其中相同尺度的真值骨架图进行融合，得到二维树骨架，采集树木的深度图，并对深度图进行优化，根据相机标定方法，将优化后的深度图与二维树骨架结合，得到三维树骨架。采用本技术方案，利用端到端的学习算法，依靠卷积神经网络的学习能力，从二维图像中提取骨架，再结合深度图信息生成三维骨架。

Description

单面树木点云骨架线提取方法及系统

技术领域

本发明属于树木骨架提取技术领域，涉及一种单面树木点云骨架线提取方法及系统。

背景技术

近年来随着计算机视觉技术的不断发展，植物研究与虚拟现实的结合也越来越深入。树木作为自然界中数量最多、种类最多的植物之一，将树木应用于虚拟环境如三维动画、自然场景模拟、城市景观开发等，也逐渐成为研究热点。由于树本身枝条纵横交错、形状千奇百怪、叶片数量繁多，导致树木不便于直接用于研究。而树骨架保留了树的拓扑结构及完整形状，所以通常选择树骨架作为树的一维表达形式用于研究。由此可见，提取三维树骨架线具有重要研究价值。

提取三维树骨架线需要依赖现实世界中的真实三维树木，现有技术中常用的一种方法是使用摄像机对树木进行全方位多角度的拍摄，利用相机成像原理和图像处理技术获取到树木表面的三维点云，再通过三维点云提取树木骨架线。但该方法限制条件较多，首先获取树木全方位的数据需要花费大量的时间和足够的空间，采集数据的成本过高；其次由于拍摄环境条件复杂如树木杂草众多、树木被遮挡严重等很难获得全面的树木数据。

而利用双目相机从单个角度左右两面的树木信息(即单面树木)来提取骨架线，提取的图像单一，且树木本身拓扑结构复杂、分枝众多，导致提取的三维树骨架严重缺乏结构信息，拓扑结构和连通性也出现错误。

发明内容

本发明的目的在于提供一种单面树木点云骨架线提取方法及系统，降低骨架提取的复杂度。

为了达到上述目的，本发明的基础方案为：一种单面树木点云骨架线提取方法，包括如下步骤：

采集树木多个面的单面图片信息；

采用图像分割技术，将树木的单面图片信息进行图像分割，得到树枝图；

将树枝图输入卷积神经网络，构建一个使用无序像素点作为输入的深度学习框架，提取树枝图中的关键点；

将关键点输入训练网络中，训练网络中设有多个卷积层，每个卷积层连接有侧输出层，自侧输出层提取出不同尺度的多张真值骨架图，训练网络把其中相同尺度的真值骨架图进行融合，得到二维树骨架；

采集树木的深度图，并对深度图进行优化，得到可信任的深度点；

根据相机标定方法，将优化后的深度图与二维树骨架结合，得到三维树骨架。

本基础方案的工作原理和有益效果在于：先从二维图像中提取骨架，再结合深度图信息生成三维骨架。相比直接从三维点云中提取骨架的方法，降低了拍摄照片的难度，也不必考虑三维点云稀疏性造成的大量空间浪费。同时所需处理的数据数量更少，降低数据处理的复杂度。相比于全方位多角度的RGB图像，深度图信息也更好获取，获取方法多样，便于操作。

进一步，提取树枝图中的关键点的步骤如下：

在卷积神经网络中设置两层卷积层，树枝图依次经过两层卷积层，卷积层内的多个卷积核对树枝图进行扫描，每个卷积核对应输出一张特征图谱，卷积层的输入输出之间的关系如下所示：

In_ij是某层中位置(i，j)处的向量，(i，j)为位置的坐标，i为横坐标，j为纵坐标，Out_ij是下一层中特定位置(i，j)处的向量，f_ks代表输入和输出之间的映射关系，σ_i表示下一层特定位置i处所取的内核大小，σ_j表示下一层特定位置j处所取的内核大小，k是内核大小，s是步幅大小；

经卷积层处理的数据依次输入两个全连接层中，全连接层整合卷积层中具有类别区分性的局部信息，全连接层每个神经元的激活函数采用ReLU函数，如下

经全连接层处理的数据输入最大池化层，

得到预测骨架图

其中

表示每个像素的预测标签，

的值为1则对应处理后的树枝图的像素点为关键点，

值为0则对应处理后的树枝图的像素点为非关键点。

经过两个卷积层，两个全连接层和一个最大池化层之后提取到关键点，以便后续利用关键点进行骨架提取。卷积神经网络的表达能力很大程度上受到最大池化层的影响，维持最大池化层的稳定性，使它不轻易因为微小误差而导致输出有较大偏差。

进一步，得到二维树骨架的步骤如下：

设置训练集表示为S＝{(Xⁿ,Yⁿ),n＝1,…,N}，其中

表示的是关键点，

表示的是真值骨架图；

将每个关键点像素的尺度定义为以其为中心的最大圆盘的直径，非关键点像素定义为0，对于每个真值骨架图Y相应的y_i＝A(m_i>0)，其中A是一个指示函数，m_i是每个像素点的尺度；

当感受野大小大于关键点像素的规模时，卷积层捕捉到关键点像素的特征，将关键点像素量化为一个离散值，表示在训练网络中可以检测到关键点像素的对应具体阶段，关键点像素的尺度m的量化值q计算如下：

其中，M表示网络层数，γ_i表示感受野大小，λ是定值；

根据输入关键点，构建一个量化的尺度值

Q＝{q_i,i＝1,…,|X|}z_i＝1,…,M

训练网络的每一卷积层只能检测尺度小于感受野大小的关键点像素，每一卷积层的侧输出都是和该层的尺度相关联的，将第j层输出绑定到一个与尺度相关的真值骨架图，

Q^j＝Q·A(Q≤j)

T^j表示Q^j的最大值，T^j＝j，则有

当得到多尺度输出结果后，训练网络将得到的结果按尺度进行融合以得到二维树骨架。

得到关键点后需要经过数个卷积层，每个卷积层连接一个侧输出层，将侧输出关键点图分为多个不同尺度的关键点图，根据识别能力不同生成了不同尺度的真值图，以此进行目标有差异的监督学习。再将不同阶段输出的尺度相同的关键点图进行融合从而得到最终融合的完整的骨架图。相比直接从原始图像中提取骨架而言要求训练的参数更少，理论上训练速度更快。

进一步，所述训练网络将得到的结果按尺度进行融合以得到二维树骨架的步骤如下：

在侧输出层中，对于每个输入像素，每个侧输出数据都提供了一个预测分数P来表示侧输出数据量化尺度是t的可能性，将预测分数P乘以相应的权重

再求和得到融合值，公式如下：

其中

侧输出层的尺度逐渐变小，感受野逐渐变大，增加一个加权融合层进行自动学习如何融合来自多尺度的输出结果，加权融合层在训练过程中学习融合权重，根据学习的权重值将不同尺度的特征进行融合以得到最终融合侧输出。

利用加权融合层学习如何融合来自多尺度的输出结果，简化融合操作，利于使用。

进一步，所述训练网络中每一个卷积层连接的侧输出层中设有损失函数，用

表示，其中ω是网络层参数，每个侧输出层均关联一个分类器，δ^j是第j个卷积层对应侧输出层关联的分类器的参数；

不同尺度的关键点像素和非关键点像素的分布存在偏差，因此定义一个加权的softmax函数:

是第t层的损失函数的权值，P是分类器给出的关于x_i的量化尺度是t的可能性的预测分数，

如下：

其中NZ表示集合中非零元素的个数，A是指示函数；

设

是输入x_i的量化尺度t对应的第j边侧输出的激活函数，然后用softmax函数θ(·)计算P值如下：

通过求得

对

偏导数反向传播，不断更新权值和偏差，缩小预测值和真实值的差距，得到最好的训练效果，具体公式如下：

其中的δ^j表示分类器的参数，δ＝(δ^j；j＝1,…,M)表示每个侧输出层对应分类器的权重，则训练网络侧输出层的损失函数简化为：

损失函数可以不断减小预测值和真值之间的差距从而达到更好的训练效果，优化训练网络。

进一步，根据训练网络侧输出层的损失函数，定义融合损失函数：

设置融合损失函数，优化取得的融合骨架。

进一步，建立目标函数，求解侧输出层的损失函数和融合损失函数，所述目标函数为：

(ω，δ，B)*＝argmin(Loss_side(ω,δ)+Loss_fusion(ω,δ,B))。

目标函数使得训练网络模型内部的学习目标更为纯粹、输入与真值之间没有额外干预，在复杂学习任务上的准确性远远高于传统算法，无需人工标记和提取特征。

进一步，所述对深度图进行优化的步骤如下：

将需要修正的深度图作为辅助图像记为F,在输入的深度图训练集中选出与之关联性较大的图像集合记为C，O为集合C中的任意一幅图像，设V_O(v)是图像O中v点所对应的三维点，D_O为V_O(v)相对于图像O的深度；

对于辅助图像中的每个像素点，可获得三个相关的三维点，V_F(v_f)、V_O(v_o)、V_O(v_f→v_o)，将v_f处的像素点依据深度值反映射到三维空间，再将V_F(v_f)映射到图像O中得到映射点v_f→v_o，将v_f→v_o反映射到三维空间获得V_o(v_f→v_o)，把图像O中的所有像素点映射到三维空间获得距离辅助图像F最近的三维点，得到与像素点v_f相关的三个深度点：V_O(v_o)、V_F(v_f)、V_O(v_f→v_o)；

在三个深度点之间找到一个点与另外两个点的距离之差的绝对值小于预先设置阈值ε，则该点作为信任的深度点，其他两个深度点丢弃；选取信任的深度点：

其中N是深度点集合，V_i,V_j,V_k分别表示深度点。

受制于物理硬件的限制，获取的深度图存在一定问题，需要进行优化，得到更准确的深度点。

本发明还提供一种单面树木点云骨架线提取系统，包括图像采集模块和处理器，所述图像采集模块用于采集树木左、右两面的单面图片信息，图像采集模块的输出端与处理器的输入端连接，所述处理器执行本发明所述的方法，进行单面树木点云骨架线提取。

利用该系统，通过二维图像和深度图结合提取三维骨架，原始数据容易获取，降低了拍摄困难。

附图说明

图1是本发明单面树木点云骨架线提取方法的流程示意图；

图2是本发明单面树木点云骨架线提取方法的结构示意图；

图3是本发明单面树木点云骨架线提取方法的卷积神经网络的结构示意图；

图4是本发明单面树木点云骨架线提取方法的得到可信任的深度点的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

早期的从二维图像中提取骨架的方法仅能处理简单图像，本发明公开了一种单面树木点云骨架线提取方法，如图1和2所示，该方法可以处理清晰度高、分辨率高的复杂图片，且不需要人工划分模块和设置大量参数，降低了人工干预可能带来误差的风险。该方法包括如下步骤：

采集树木多个面的单面图片信息，例如左、右两面或三面等，采用图像分割技术，将树木的单面图片信息进行图像分割，得到树枝图，图像分割技术可选用全卷积神经网络方法(FCN)、U-Net图像分割等，经过全卷积神经网络可以得到树枝图片，保留仅有树枝的图片继续操作。FCN网络中所有的层都是卷积层，输入可以是任意尺寸的彩色图像，输出和输入的尺寸相同。全卷积神经网络在图像的卷积过程中由于参数的不同可能会对图像下采样，池化层也会使得图像的分辨率下降，在知道卷积参数的情况下，进行反操作，通过反卷积对输出结果进行上采样以保留图片原始分辨率。

具体操作如下：(1)采集图片数据、(2)数据增强、(3)构建分割网络模型、(4)设计损失函数、(5)模型训练和测试、(6)输出图片分割结果。

基于图像分割后的树枝图，本发明采用基于卷积神经网络的二维骨架提取方法，分为两部分：一、将树枝图输入卷积神经网络，构建一个使用无序像素点作为输入的深度学习框架，提取树枝图中的关键点；二、将关键点输入训练网络中，训练网络中设有多个卷积层，每个卷积层连接有侧输出层，自侧输出层提取出不同尺度的多张真值骨架图，训练网络把其中相同尺度的真值骨架图进行融合，得到二维树骨架。

采集树木的深度图，深度图的获取方式有两类，分别是被动测距传感和主动深度传感。本方法中使用的是主动深度传感中的投射结构光，微软的Kinect就是采用这种结构光技术来获取深度信息的设备。微软的Kinect使用红外投影机投射红外光谱，照射到物体之后，光谱出现形变而后生成衍射散斑，通过红外摄像机来获取反馈信息，根据散斑来获取深度信息。受制于物理硬件的限制，目前深度相机输出的深度图还有很多问题，比如对于光滑物体表面反射、半/透明物体、深色物体、超出量程等都会造成深度图缺失，因此需要对深度图进行优化，得到可信任的深度点。

最后根据相机标定方法，将优化后的深度图与二维树骨架结合，得到三维树骨架。首先使用相机标定方法，利用Matlab相机标定工具对相机进行标定，获取相机参数。结合通过Kinect得到的深度图和经过二维图像骨架提取后得到的RGB图像生成3D立体显示透视图模块即三维骨架。

本发明的一种优选方案中，如图3所示，提取树枝图中的关键点的步骤如下：

在卷积神经网络中设置两层卷积层，树枝图依次经过两层卷积层，输入数据经过两层卷积层实现维度变换，卷积层内的多个卷积核对树枝图进行扫描，每个卷积核对应输出一张特征图谱，卷积层的输入输出之间的关系如下所示：

经卷积层处理的数据依次输入两个全连接层中，卷积神经网络中的全连接层和多层感知机(MLP)结构一样，全连接层整合卷积层中具有类别区分性的局部信息，全连接层每个神经元的激活函数采用ReLU函数(Rectified Linear Unit,线性整流函数)，如下

经全连接层处理的数据输入最大池化层，卷积神经网络的表达能力很大程度上受到最大池化层的影响，需要维持最大池化层的稳定性，使其不轻易因为微小误差而导致输出有较大偏差。以下公式表明输入集的小故障或额外的噪声点不会改变整个网络的输出(此处验证最大池化层的稳定性的过程可采用现有技术)，假设：

u:X→R^k，

f＝γ·u

则，

设计C_S∈T∈N_S，则f(T)＝f(S)，|C_S|≤K；

其中，X＝{x_i,i＝1,…,|X|}为输入树枝图，u是求取最大值函数，R^k表示k维实数空间，h是卷积神经网络中可用的一个连续函数，γ是卷积神经网络中可用的一个连续的函数，f是最大池化层函数，S是输入集，C_S是关键集，N_S是最大集，T是任意集合，K是最大池化层输出数据维度。对于任何输入数据集，都存在一个关键集和一个最大集，对关键集和最大集之间的任何集合，其网络输出都一样，即模型对输入数据在有噪声和有数据损坏的情况都是鲁棒的，而关键集的数据多少由最大池化层操作输出数据的维度K给出上界。

经过卷积神经网络处理后，得到预测骨架图

其中

表示每个像素的预测标签，

的值为1则对应处理后的树枝图的一像素点为关键点，

的值为0则对应处理后的树枝图的一像素点为非关键点。

本发明的一种优选方案中，得到二维树骨架的步骤如下：

设置训练集表示为S＝{(Xⁿ,Yⁿ),n＝1,…,N}，其中

表示的是关键点，

表示的是真值骨架图；

将每个关键点像素的尺度定义为以其为中心的最大圆盘的直径，非关键点像素定义为0，并定义一个尺度图：M_i＝{m_i,i＝1,…,|X|}，对于每个真值骨架图Y相应的y_i＝A(m_i>0)，其中A是一个指示函数，m_i是每个像素点的尺度，m_i大于0代表这个点是关键点；

当感受野大小大于关键点像素的规模时，卷积层捕捉到关键点像素的特征，随着训练网络中卷积层数的增加，各个卷积层的感受野逐渐增加，只有当感受野的大小大于骨架像素的大小时，卷积层才能捕获骨架像素的特征，因此将关键点像素量化为一个离散值，表示在训练网络中可以检测到关键点像素的对应具体阶段，关键点像素的尺度m的量化值q计算如下：

其中，M表示网络层数，γ_i表示感受野大小，λ是定值，优选λ大于1，以确保感受野足够大；

根据输入关键点，构建一个量化的尺度值

Q＝{q_i,i＝1,…,|X|}z_i＝1,…,M

Q^j＝Q·A(Q≤j)

T^j表示Q^j的最大值，T^j＝j，则有

本发明的一种优选方案中，训练网络将得到的结果按尺度进行融合以得到二维树骨架的步骤如下：

再求和得到融合值，公式如下：

其中

侧输出层的尺度逐渐变小，感受野逐渐变大，增加一个加权融合层进行自动学习如何融合来自多尺度的输出结果，加权融合层在训练过程中学习融合权重。每一个侧输出层因为感受野的不同输出的骨架图都不同，最浅层次的卷积层对应的侧输出层会输出最细的骨架分支，最深层次的卷积层对应的侧输出层会输出最粗的骨架分支，中间层次的则依据层次由浅到深依次输出较细分支和较粗分支。部分分支会在多个侧输出层均有对应的输出，不同阶段输出的不同尺度的骨架图，根据学习的权重值将不同尺度的特征进行融合以得到最终融合侧输出。

本发明的一种优选方案中，训练网络中每一个卷积层连接的侧输出层中设有损失函数，用

表示，其中ω是网络层参数，即表示该网络层有ω个参数，每个侧输出层均关联一个分类器，δ^j是第j个卷积层对应侧输出层关联的分类器的参数。训练网络是针对整幅图像进行训练，所以损失函数需要在训练图像X和真值骨架映射Q上相关联的所有像素上进行计算，而不同尺度的关键点像素和非关键点像素的分布存在偏差，因此定义一个加权的softmax函数(归一化指数函数):

如下：

其中NZ表示集合中非零元素的个数，A是指示函数；

设

通过求得

对

其中的δ^j表示分类器的参数，其它参数上文都提到过。δ＝(δ^j；j＝1,…,M)表示每个侧输出层对应分类器的权重，则训练网络侧输出层的损失函数简化为：

根据训练网络侧输出层的损失函数，定义融合损失函数：

建立目标函数，求解侧输出层的损失函数和融合损失函数，目标函数为：

(ω，δ，B)*＝argmin(Loss_side(ω,δ)+Loss_fusion(ω,δ,B))。

本发明的一种优选方案中，如图4所示，对深度图进行优化的步骤如下：

在三个深度点之间找到一个点与另外两个点的距离之差的绝对值小于预先设置阈值ε，则该点作为信任的深度点，其他两个深度点丢弃，如果不丢弃多余的深度点会造成深度点冗余，不利于深度图与二维图像的结合。选取信任的深度点：

其中N是深度点集合，V_i,V_j,V_k分别表示深度点。

本发明还提供一种单面树木点云骨架线提取系统，包括图像采集模块和处理器，图像采集模块用于采集树木左、右两面的单面图片信息，优选图像采集模块为数码相机，利用数码相机拍摄光照条件下的单面树木的清晰图片。图像采集模块的输出端与处理器的输入端电性连接，处理器执行本发明所述的方法，进行单面树木点云骨架线提取。本发明应用了融合侧输出的方法，每个阶段先提取出不同尺度的骨架，再把相同尺度的骨架进行融合。这样较细的分支在多个阶段都能被提取到，通过训练可以提取细小分支，同时经过融合得到完整的树骨架。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。