CN113989699A

CN113989699A - 基于单目视觉和深度学习的结构全场位移稠密测量方法、装置、设备及存储介质

Info

Publication number: CN113989699A
Application number: CN202111159350.9A
Authority: CN
Inventors: 李惠; 赵今; 徐阳
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-28

Abstract

本发明提出基于单目视觉和深度学习的结构全场位移稠密测量方法、装置、设备及存储介质，所述方法首先建立结构的三维可变形网格模型，其次，将视频的每一帧图片输入训练好的结构构件语义分割模块，输出结构的构件语义分割结果；接着，将识别出的结构构件语义分割蒙版输入结构姿态参数识别模块，输出结构姿态参数；最后将结构构件姿态参数返回三维网格模型中，即可获取结构的稠密位移测量结果。相较于传统的基于计算机视觉的结构位移识别方法，本发明使用三维模型作为结构位移的载体，使用深度学习算法突破性的实现了稠密测点的位移，克服了传统方法只能依次识别单点的局限性，对于建筑桥梁的振动信息的正确评估有着重要的意义。

Description

基于单目视觉和深度学习的结构全场位移稠密测量方法、装置、设备及存储介质

技术领域

本发明属于结构位移识别技术领域，特别是涉及基于单目视觉和深度学习的结构全场位移稠密测量方法、装置、设备及存储介质。

背景技术

在传统的结构振动位移监测中，一般采用接触式拉线位移传感器或全球定位系统完成对结构位移的测量。接触式拉线位移传感器的使用寿命短，服役后的维护成本高，且人工安装危险性高，在长期的结构位移监测中并不十分适用。而全球定位系统的位移监测的识别精度较低。近三十年以来，基于视频的建筑桥梁结构位移测量技术有了较多的发展。大量的视觉识别算法应用于建筑桥梁的位移测量中。这类方法主要以一个或多个摄像机拍摄的建筑或桥梁结构的视频为识别素材，通过目标追踪、目标匹配、数字图像识别等算法对结构上的目标点进行识别与追踪，最终通过坐标转换获取结构的真实位移。这类方法的主要问题在于依赖在结构上安装目标靶点，人力成本较高，且无法获取结构的密集位移。

近十年来，随着深度学习以及计算视觉算法的飞速发展，给基于视频的结构位移识别方法带来了稠密识别的可能。深度学习以基于神经元的网络结构为框架，以有监督学习、无监督学习以及强化学习作为训练方法，可以完成传统方法难以或无法完成的任务建模，比较适用于对机理不够了解、难以直接进行数学建模的任务。

发明内容

本发明为了解决现有技术的问题，提出了基于单目视觉和深度学习的结构全场位移稠密测量方法、装置、设备及存储介质。本发明以建筑桥梁结构的三维模型为位移信息载体，通过深度学习训练结构构件语义分割和结构姿态参数识别神经网络，完成对结构的稠密位移识别及测量。

本发明是通过以下技术方案实现的，本发明提出基于单目视觉和深度学习的结构全场位移稠密测量方法，所述方法具体包括以下步骤：

步骤一：针对单目相机拍摄的结构视频，建立建筑桥梁结构的三维网格模型，所述三维网格模型形状由结构姿态参数控制；

步骤二：将视频的每一帧图片输入训练好的结构构件语义分割模块，输出结构的构件语义分割结果；

步骤三：将步骤二中识别出的结构构件语义分割蒙版输入结构姿态参数识别模块，输出结构姿态参数；

步骤四：将结构构件姿态参数返回步骤一中建立的三维网格模型中，即可获取结构的稠密位移测量结果。

进一步地，步骤一具体为：根据结构设计图纸建立建筑桥梁结构的初始三维网格模型，在模型上设置控制截面，通过结构姿态参数控制所述截面的旋转和平移，模型中垂直于长度方向的截面是刚体，其位置和方向由三个平移分量和三个旋转分量决定，选择结构振动的主要平移分量H和主要旋转分量R作为结构姿态参数，节点的协调器中结构姿态参数的平移分量H为高度，旋转分量R为扭转角，节点的协调器由结构振动过程中节点截面的结构姿态参数高度H和扭转角R确定，控制节点之间的其余部分通过样条插值计算。

进一步地，步骤二具体为：结构构件语义分割模块将视频每帧的像素分类为不同的结构构件，如式(1)所示：

K_t＝UNet(I_t) (1)

式中，K是结构构件语义分割蒙版，UNet是语义分割网络，I是输入图像，下标t是视频帧的时间顺序编号；

每帧的语义分割蒙版是包含目标蒙版的三维张量，语义分割蒙版与结构构件有关，语义分割蒙版前两个维度是沿着图像的高度和宽度的像素数，第三维是目标蒙版的标签编号，每个通道是包含一个构件语义分割蒙版的二维矩阵，语义分割蒙版在高度和宽度方向上的图像分辨率相同；结构构件语义分割模块采用U-net作为识别框架，训练U-net模型采用监督学习的方式；将视频的若干帧进行语义分割构件标注，并使用随机弹性变形方法增强数据以构建数据集，如式(2)所示：

式中，x,y是原图片的像素的坐标，Δx与Δy是像素坐标的偏移，W是弹性变形函数，ti是手动标注的数据的编号，I_ti是手动标注的图像原图，W_j是第j次进行的弹性变形函数，j是生成的样本的编号，

是通过随机弹性变形函数新生成的图像，K_t晦是手动标注的图像的结构构件语义分割蒙版，

是通过随机弹性变形函数新生成的结构构件语义分割蒙版；

然后基于该构建的数据集训练U-net；

使用二进制交叉熵(BCE)损失函数来描述结构构件语义分割模块的预测值与结构构件蒙版的真实值的近似值：

式中，K是结构构件语义分割蒙版，

是结构构件蒙版的真实值，h和w是图像的分辨率的长和宽，L₂是正则项，λ₁L是正则项的权重，ω_i是交叉熵损失函数主体项的系数，K_i是第i个像素的预测值，

l是K_i的真实标签值。

进一步地，步骤三具体为：利用结构姿态参数识别模块建立可变形的三维网格模型及其姿态参数H和R之间的关系：

H,R＝ParaNet(K) (4)

式中，ParaNet是结构姿态参数识别网络，K是结构构件语义分割蒙版；

结构姿态参数识别模块输入结构构件的语义分割蒙版，输出是姿态参数H和R，进而通过识别出的姿态参数更新三维网格模型顶点坐标以获取结构稠密动态位移；

结构姿态参数识别模块的网络结构为：在InceptionV3网络的末尾添加了一个输出法分支以同时输出两个结构姿态参数H和R；这两个分支分别表示为H分支和R分支；两个分支的分叉口设置在网络末端附近以确保网络有足够的空间提取高级结构特征；

在结构姿态参数识别模块中，应用均方误差(MSE)损失函数来估计结构姿态参数(H，R)的地面真实值与结构姿态参数识别模块的预测值之间的差值：

式中，N_node表示控制节点的数量，H是高度预测值，

是高度真实值；L₂为正则项，λ₂是正则项的权重，

表示第i个控制节点的高度真实值，H_晦表示第i个控制节点的高度预测值，

是扭转角真实值，R是扭转角预测值，R_晦表示第i个控制节点的扭转角预测值，

表示第i个控制节点的扭转角真实值。

进一步地，步骤四具体为：定义三维网格模型上顶点V在视频第t帧的坐标为(x,y,z)，其中y是垂直于截面的方向上的分量，z是平行于截面方向上的分量，x是在垂直于y和z的方向上的分量；首先，根据三次样条插值函数SplItp计算V的H和R：

式中，y₀是初始三维网格模型中顶点V的y分量，H_v和R_v是顶点V对应的H和R；获得H和R的数值之后V的坐标计算如下：

式中，width是截面的宽度，length是结构构件的长度，x₀，z₀是顶点的初始坐标值；假设z为主要测量方向，则在帧t处的V位移和包含V的截面的扭转角度表示为：

式中，D_v即为所求的某一顶点的位移，R_v是截面的扭转角；

计算三维网格模型上所有顶点的位移，最终即可获取结构稠密动态位移测量的结果。

本发明还提出基于单目视觉和深度学习的结构全场位移稠密测量装置，所述装置包括：

模型建立模块：用于针对单目相机拍摄的结构视频，建立建筑桥梁结构的三维网格模型，所述三维网格模型形状由结构姿态参数控制；

结构构件语义分割模块：用于获取视频的每一帧图片并将识别出的结构构件语义分割蒙版输出；

结构姿态参数识别模块：用于获取识别出的结构构件语义分割蒙版并输出结构姿态参数；

测量模块：用于将结构构件姿态参数返回模型建立模块中建立的三维网格模型中，即可获取结构的稠密位移测量结果。

本发明还提出一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于单目视觉和深度学习的结构全场位移稠密测量方法的步骤。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于单目视觉和深度学习的结构全场位移稠密测量方法的步骤。

本发明提出了一种基于单目视觉和深度学习的结构全场位移稠密测量方法，针对单目相机拍摄的结构视频，首先建立结构的三维可变形网格模型，该模型顶点具有待定的坐标且可以随视频每帧的图像而发生同步变形，然后通过结构构件语义分割模块和结构姿态参数识别模块，更新结构三维模型每个顶点的三维坐标，最终根据坐标转换和样条插值获取结构稠密动态位移的测量结果。其中，结构构件语义分割模块用于从原始视频生成语义分割蒙版，输入待识别结构的视频，输出结构构件的语义分割结果；结构姿态参数识别模块用于识别结构姿态参数，从结构构件语义分割结果中进一步提取结构姿态参数。通过结构姿态参数控制结构三维网格模型中每个顶点的坐标，通过坐标转换和样条插值，最终获取结构稠密动态位移结果。相较于传统的基于目标匹配与追踪的结构位移识别方法，本发明使用三维模型作为结构位移的载体，突破性地实现了稠密测点与不可见测点的位移测量，克服了传统方法只能识别单个可见测点位移的局限性，对于建筑桥梁结构振动的精确测量和状态评估有着重要的意义。

本发明有益效果：

本发明提出了基于单目视觉和深度学习的结构全场位移稠密测量方法，效果如下：

1.设计了结构构件语义分割模块和结构姿态参数识别模块两个模块来识别结构部件的语义分类掩码并预测结构姿态参数：平移H和扭转角角R。

2.通过结构姿态参数可以恢复结构的三维信息，包括三维稠密动态位移信息。这种基于单目相机的方法可以预测视频中结构不可见部分的位移。

3.结构构件语义分割模块通过随机弹性变形函数使用仅由少数人工标注图像和语义分类蒙版生成的数据集进行训练。结构姿态参数识别模块通过改进InceptionV3网络，在网络中添加一个分支形成双分支网络系统，并使用从随机分布的姿势参数和相应渲染的语义分类蒙版生成的数据集进行训练。

4.本发明可以在像素级误差为0.2像素的情况下，以结构长度的2％的分辨率近似获得稠密的结构位移。

5.在混凝土框架模型、斜拉桥桥塔模型、真实桥梁等多种结构上验证了本发明的有效性。

6.本发明通过语义分割蒙版作为中间媒介，使在人工生成的数据集上训练的深度学习模型可以良好的在真实结构上运行。

附图说明

图1为本发明所述基于单目视觉和深度学习的结构全场位移稠密测量方法的流程图；

图2为本发明姿态参数控制三维网格模型形状的原理示意图；

图3为本发明中的结构构件语义分割网络样本的生成原理示意图；

图4为本发明中结构构件语义分割结果示意图；

图5为本发明中结构姿态参数识别网络结构示意图；

图6为本发明实施方式中混凝土框架模型试验示意图；

图7为本发明实施方式中混凝土框架试验拉线传感器和本发明识别结果对比图；

图8为本发明实施方式中斜拉桥模型振动台试验示意图；

图9为本发明实施方式中斜拉桥模型振动台试验拉线传感器和本发明识别结果对比图；

图10为本发明实施方式中真实桥梁示意图；

图11为本发明实施方式中真实桥梁结构稠密位移识别结果图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1-11，本发明提出基于单目视觉和深度学习的结构全场位移稠密测量方法，所述方法具体包括以下步骤：

步骤四：将结构构件姿态参数返回步骤一中建立的三维网格模型中，通过坐标转换和样条插值，即可获取结构的稠密位移测量结果。

步骤一具体为：根据结构设计图纸建立建筑桥梁结构的初始三维网格模型，在模型上设置控制截面，通过结构姿态参数控制所述截面的旋转和平移，模型中垂直于长度方向的截面是刚体，其位置和方向由三个平移分量和三个旋转分量决定，选择结构振动的主要平移分量H和主要旋转分量R作为结构姿态参数，节点的协调器中结构姿态参数的平移分量H为高度，旋转分量R为扭转角，节点的协调器由结构振动过程中节点截面的结构姿态参数高度H和扭转角R确定，控制节点之间的其余部分通过样条插值计算。

步骤二具体为：结构构件语义分割模块将视频每帧的像素分类为不同的结构构件，如式(1)所示：

K_t＝UNet(I_t) (1)

每帧的语义分割蒙版是包含目标蒙版的三维张量，语义分割蒙版与结构构件有关，语义分割蒙版前两个维度是沿着图像的高度和宽度的像素数，第三维是目标蒙版的标签编号，每个通道是包含一个构件语义分割蒙版的二维矩阵，语义分割蒙版在高度和宽度方向上的图像分辨率相同；结构构件语义分割模块采用U-net作为识别框架，训练U-net模型采用监督学习的方式；为了解决监督学习需要大量训练样本的问题，采用人工生成数据集的方式。对于位置固定的摄像机拍摄的视频，每帧之间具有较高的相似度，但是在图像形态上有细微的区别。利用此特点，将视频的若干帧进行语义分割构件标注，并使用随机弹性变形方法增强数据以构建数据集，如式(2)所示：

是通过随机弹性变形函数新生成的结构构件语义分割蒙版；

然后基于该构建的数据集训练U-net；

式中，K是结构构件语义分割蒙版，

l是K_i的真实标签值。

步骤三具体为：利用结构姿态参数识别模块建立可变形的三维网格模型及其姿态参数H和R之间的关系：

H,R＝ParaNet(K) (4)

式中，N_node表示控制节点的数量，H是高度预测值，

是高度真实值；L₂为正则项以避免过拟合，λ₂是正则项的权重，

表示第i个控制节点的扭转角真实值。

步骤四具体为：定义三维网格模型上顶点V在视频第t帧的坐标为(x,y,z)，其中y是垂直于截面的方向上的分量，z是平行于截面方向上的分量，x是在垂直于y和z的方向上的分量；首先，根据三次样条插值函数SplItp计算V的H和R：

式中，D_v即为所求的某一顶点的位移，R_v是截面的扭转角；

本实施例以混凝土框架模型、斜拉桥桥塔模型、真实桥梁三个对象，来说明本发明的具体实施过程：

本实施例中，对象为钢筋混凝土框架结构模型(RC框架模型)的振动台测试。在每个楼层安装了四个位移传感器，即DX1，DX2，DX3和DX4，以256Hz的采样频率测量了振动方向上的位移。将固定摄像机(Black Magic Design URSAmini 4K)放置在距框架模型8m处，以记录模型振动。相机的焦距和姿态通过GPnPf算法计算得出。视频的记录帧速率为60Hz，分辨率为2160×3840(高×宽，已降采样并裁剪为540×340。张正友相机校准算法用于纠正视频帧的失真。通过三维动画建模软件Blender建立RC框架模型的三维模型。框架模型在高度方向上在地面和四个楼层(0m，1.85m，3.35m，4.85m和6.35m)处设置了五个控制节点，如图6所示。

通过随机弹性变形功能生成10,000个样本用于结构构件语义分割模块的训练和测试，其中500张图像用于测试集。结构构件语义分割模块的超参数设置如下：输入图片分辨率为340×540，学习率为0.01，批量大小为5。使用学习率衰减策略进行训练，每个时期的衰减率均为0.9。BCE损失函数采用因子为0.0001的L₂正则项。训练epoch数为5，可确保BCE损失函数曲线趋于收敛。

为了训练结构姿态参数识别模块，将随机值赋予框架模型以生成随机图像样本，然后将其转换为蒙版。因为与H相比扭转可忽略不计，因此R的值全部设置为零。

结构姿态参数识别模块的超参数设置如下：输入图片分辨率为340×540，学习率为0.01，批量大小为5。使用学习率衰减策略进行训练，每个时期的衰减率均为0.9。BCE损失函数采用因子为0.0001的L₂正则项。训练epoch数为5，可确保BCE损失函数曲线趋于收敛。

图7显示了四个位移传感器DX1，DX2，DX3和DX4的位移记录结果，以及该方法的预测位移结果。位移的预测与位移传感器的位移记录非常吻合。

本实施例以斜拉桥桥塔模型为对象。斜拉桥模型的振动台测试(1:35，如图8所示)用于验证所提出的方法。该模型的主跨度为3108.6厘米，两侧跨度为1428.6厘米。两座钢筋混凝土塔的高度为908.3厘米。

如图8所示，在模型上安装了七个位移传感器TDY1-7，其采样频率为256Hz。固定摄像机(BlackMagic Design URSAmini 4K)放置在距塔11m处。模型以记录结果振动。摄像机的焦距和姿态由GPnPf算法通过视频捕获计算得出。视频记录帧速率为60Hz，分辨率为2160×3840(高×宽，已下采样并裁剪为520×320)。

使用三维动画建模软件Blender软件中构建了桥塔的三维模型。框架模型分为16个部分，并在底部，四等分点和顶部(0m，2.27m)的高度设置了五个控制节点。

通过随机弹性变形功能生成10,000个样本用于结构组件语义分割模块的训练和测试，其中将500张图像分配给测试集。结构组件语义分割模块的超参数设置如下：输入分辨率为320×540，学习率设置为0.01，批处理大小为5。使用学习率衰减并设置衰减率均为0.9。使用BCE损失函数并添加系数为0.0001的L₂正则项。训练epoch数为5，可确保测试结果(BCE损失函数曲线)达到收敛。

结构姿态参数识别模块的超参数设置如下：输入分辨率为540×320，学习率设置为0.01，批大小为10。

图9显示了来自拉线位移传感器的位移记录以及所提出方法的预测位移结果。来自位移传感器的位移记录与所提出方法的预测结果相符。

本实施例以鹦鹉洲大桥为对象。采用本发明所述方法，识别了某三塔悬索桥的风致振动。通过监控摄像头录制的监控录像(如图10所示)，识别该桥的稠密振动位移。

结构的三维模型根据实际大小通过Blender软件进行初始化建立。在三维网格模型中，主梁分为16个部分，并设置三个控制截面，以控制其旋转角度和高度。相机姿态通过GPnPf算法估算获得。对于每个视频片段，采用随机弹性变形法从视频片段的第一帧生成10000张图像和相应的语义分割标签。9500张图像作为训练数据集，其余500张图像作为测试数据集。结构组件语义分割模块的超参数设置如下：将学习率设置为0.01，批尺寸为10。学习率衰减策略应用于训练中，每个时期的衰减率均为0.94。BCE损失函数采用因子为0.0001的L₂调节项。训练时期数为10，可确保测试结果(BCE损失函数和错误率)达到收敛。图11显示了4个控制截面的预测位移。

以上对本发明所提出的基于单目视觉和深度学习的结构全场位移稠密测量方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.基于单目视觉和深度学习的结构全场位移稠密测量方法，其特征在于：所述方法具体包括以下步骤：

2.根据权利要求1所述的方法，其特征在于：步骤一具体为：根据结构设计图纸建立建筑桥梁结构的初始三维网格模型，在模型上设置控制截面，通过结构姿态参数控制所述截面的旋转和平移，模型中垂直于长度方向的截面是刚体，其位置和方向由三个平移分量和三个旋转分量决定，选择结构振动的主要平移分量H和主要旋转分量R作为结构姿态参数，节点的协调器中结构姿态参数的平移分量H为高度，旋转分量R为扭转角，节点的协调器由结构振动过程中节点截面的结构姿态参数高度H和扭转角R确定，控制节点之间的其余部分通过样条插值计算。

3.根据权利要求2所述的方法，其特征在于：步骤二具体为：结构构件语义分割模块将视频每帧的像素分类为不同的结构构件，如式(1)所示：

K_t＝UNet(I_t) (1)