CN116433755B

CN116433755B - 基于可变形三维模型和光流表示学习的结构稠密位移识别方法及系统

Info

Publication number: CN116433755B
Application number: CN202310342821.2A
Authority: CN
Inventors: 李惠; 徐阳; 赵今
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-11-14
Anticipated expiration: 2043-03-31
Also published as: CN116433755A

Abstract

本发明公开了一种基于可变形三维模型和光流表示学习的结构稠密位移识别方法及系统，其中，该方法包括：建立结构三维可变形网络模型，以选取多个控制点，并生成控制点热图；以视频每一帧输入，建立光流表示学习网络，计算每个视频帧与其初始帧之间的稠密光流，以获得每个视频帧的控制点热图；利用每个视频帧的控制点热图建立基于多层感知机神经网络模型的结构姿态参数识别子网络；采用自监督训练方式训练该结构姿态参数识别子网络，得到最优结构姿态参数；将最优结构姿态参数转换为结构稠密位移。该方法可以直接从训练模型迁移到实际视频中，不需要考虑训练数据和真实数据之间的差异，并且不会引入语义分割蒙版的不可控信息差异。

Description

基于可变形三维模型和光流表示学习的结构稠密位移识别方法及系统

技术领域

本发明涉及智慧基础设施、智能运维技术领域，特别涉及一种基于可变形三维模型和光流表示学习的结构稠密位移识别方法及系统。

背景技术

桥梁是我国基础设施建设和国民经济发展的重要组成部分，目前我国的桥梁数量及规模均跃居世界前列。桥梁结构在长达上百年服役期内不可避免地遭受环境侵蚀、材料老化、疲劳荷载、灾害及突发事件等复杂因素的耦合作用，形成混凝土剥落、混凝土裂缝、钢筋暴露、拉索腐蚀剥落、钢结构疲劳裂纹等多类型损伤。在疲劳、裂缝和腐蚀等局部损伤没有出现在结构表面的情况下，可以使用结构全场位移和模态参数识别方法来监测结构参数的变化。桥梁结构所面临的服役安全形势愈发严峻，健康监测和运维管养的任务日趋加重。结构健康监测和检测技术已经成为保障桥梁安全的先进有效方法。传统的人工检测方法严重依赖检测人员的主观判断，准确性和稳定性较低，对某些难抵达区域的检测十分困难、危险性大，并且成本高、预报滞后、时效性差，已经满足不了当前数字化时代的桥梁安全管理需求。

桥梁和建筑物的异常振动会对结构舒适性和安全性产生不利影响。振动测量是结构健康监测的重要组成部分。拉线式位移传感器是最常见的位移监测手段，由于需要固定位置的支架，在实际工程中难以应用。加速度计是用于测量振动的典型传感器，但是需要对加速度进行二次积分运算，导致位移测量出现累积误差。与接触式传感器相比，非接触式测量传感器安装灵活且服役期长。全球定位系统GPS常被用于结构位移监测，但普通GPS动态位移监测的采样频率在1-20Hz，难以达到动态位移测量的要求，此外容易遭受电磁噪声、天气状况变化等环境因素影响其稳定性。非接触式激光位移传感器可以在小范围内提供高分辨率的精确位移测量，但是测量范围很小因而无法一次性测量尺度较大的结构。因此，为实际大尺度结构开发低成本的位移监测技术仍然是一个挑战。

目前，计算机视觉和深度学习技术获得了飞速发展。国内外研究已经开展了大量基于计算机视觉的结构位移测量方法。早期算法在桥梁上安装用于视觉识别的目标靶点，由于目标靶点具有明显图像特征，一般不需要复杂的目标跟踪手段。但是目标靶点安装耗时，需要额外成本，限制了其进一步发展。由于目标点以上这些缺点，逐渐发展了一批不依赖于目标点，而是从视频目标难本身视觉特征出发的算法，比如特征点匹配、数字图像相关、基于相位的运动放大算法、稠密光流方法等。然而，特征点匹配方法只能得到结构的单点位移；数字图像相关算法需要较高视频质量，普通消费级相机无法在常规场景下提供高质量视频；运动放大方法可以同时提取结构模态，然而模态分析仅适用于线性结构，对于进入非线性的结构则无能为力，并且无法获取结构较大的位移；稠密光流方法的主要问题是计算速度很慢，在实际应用中远远无法达到实时需求。因此，现有基于计算机视觉的位移识别算法普遍依赖于目标靶点，并且识别结果经常以离散点的形式出现，无法获取结构稠密位移。故如何通过单个视频识别结构稠密位移，成为了本领域的挑战。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于可变形三维模型和光流表示学习的结构稠密位移识别方法，该方法可以直接从训练模型迁移到实际视频中，不需要考虑训练数据和真实数据之间的差异，并且不会引入语义分割蒙版的不可控信息差异。

本发明的另一个目的在于提出一种基于可变形三维模型和光流表示学习的结构稠密位移识别系统。

本发明的又一个目的在于提出一种计算机设备。

本发明的还一个目的在于提出一种非临时性计算机可读存储介质。

为达到上述目的，本发明一方面实施例提出了基于可变形三维模型和光流表示学习的结构稠密位移识别方法，包括以下步骤：步骤S1，建立结构三维可变形网络模型，以选取多个控制点，并生成控制点热图；步骤S2，以视频每一帧输入，建立光流表示学习网络，计算每个视频帧与其初始帧之间的稠密光流，以获得每个视频帧的控制点热图；步骤S3，利用所述每个视频帧的控制点热图建立基于多层感知机神经网络模型的结构姿态参数识别子网络；步骤S4，采用自监督训练方式训练所述基于多层感知机神经网络模型的结构姿态参数识别子网络，得到最优结构姿态参数；步骤S5，将所述最优结构姿态参数转换为结构稠密位移。

本发明实施例的基于可变形三维模型和光流表示学习的结构稠密位移识别方法，通过稠密光流表示学习，以原始视频帧为输入，计算不同视频帧与初始帧之间的稠密光流，输出控制点热图，通过质心计算可以稳定获取控制点二维坐标；基于稠密光流实现了对不同视频帧与参考帧之间的细微位移变化的精细识别，与传统方法相比提高了精度；建立了基于控制点的结构姿态参数识别子网络，利用多层感知机神经网络的特征提取能力，实现了结构姿态参数自动识别；基于结构三维可变形网格模型，建立了由控制点坐标到结构姿态参数的自监督训练方法，实现了在无人工标注数据下结构姿态参数识别子网络的自监督训，训练过程不需要进行任何人工标注；还可以直接从训练模型迁移到实际视频中，而不需要考虑训练数据和真实数据之间的差异，并且不会引入语义分割蒙版的不可控信息差异；与基于图像分割的方法相比，由于人工生成的语义分割蒙版与真实视频的语义分割蒙版之间存在形态和噪声等的细微差异，部分数据无法通过人工生成数据来模仿，就会导致训练模型在实际识别时出现一定误差；基于稠密光流学习，提高了对视频质量和光线变化的鲁棒性。

另外，根据本发明上述实施例的基于可变形三维模型和光流表示学习的结构稠密位移识别方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述步骤S1具体包括：步骤S101，选择结构姿态参数，并对所述结构姿态参数施加变形函数，其中，所述结构姿态参数包括高度和扭转角；步骤S102，构建结构初始三维网格模型，在所述结构初始三维网格模型上添加施加变形函数后的结构姿态参数，生成所述结构三维可变形网络模型；步骤S103，选取所述结构三维可变形网络模型的多个控制点，以作为输入视频帧和输出结构姿态参数之间的中间桥梁；步骤S104，通过相机变换矩阵将每个控制点的三维空间坐标转换为二维相机坐标，并在每个控制点的二维相机坐标处生成一个正态分布热图；步骤S105，将所有控制点的正态分布热图按照控制点编号索引为通道方向进行拼接，生成所述控制点热力图。

进一步地，在本发明的一个实施例中，所述步骤S2具体包括：步骤S201，以视频每一帧为输入，建立光流表示学习网络，输出每个视频帧与其初始帧之间的稠密光流；步骤S202，以初始视频帧对应的控制点热图为基准，将所述稠密光流逐帧施加于每个视频帧，得到每个视频帧的控制点热图。

进一步地，在本发明的一个实施例中，所述步骤S3具体包括：步骤S301，根据所述每个视频帧的控制点热图计算每个通道的质心坐标；步骤S302，以所有控制点的质心坐标按控制点编号索引拼接组成的一维向量为输入，以所有控制点对应的结构形态参数按控制点编号索引拼接组成的一维向量为输出，建立所述基于多层感知机神经网络模型的结构姿态参数识别子网络。

进一步地，在本发明的一个实施例中，所述步骤S4具体包括：步骤S401，随机在一个固定范围内随机生成结构姿态参数的真实值；步骤S402，将所述真实值施加在结构初始三维网格模型上，获得结构控制点的三维空间坐标；步骤S403，通过相机矩阵变换将所述三维空间坐标转换为二维相机坐标；步骤S404，将所述二维相机坐标扁平化，并将扁平化后的二维相机坐标输入所述基于多层感知机神经网络模型的结构姿态参数识别子网络中，输出结构姿态参数的预测值；步骤S405，将所述预测值与所述真实值进行对比，计算回归损失函数；判断所述回归损失函数是否小于预设阈值，若不小于则通过误差反向传播算法和基于梯度下降的网络优化算法，更新所述基于多层感知机神经网络模型的结构姿态参数识别子网络的结构姿态参数，并迭代执行步骤S401-S406，直至所述回归损失函数小于所述预设阈值，得到所述最优结构姿态参数。

进一步地，在本发明的一个实施例中，所述步骤S404中的回归损失函数为：

其中，L为回归损失函数，num为控制点数量，i为控制点数量的索引编号，H_i和R_i分别为第i个控制点的结构姿态参数高度和扭转角预测值，和/>分别为第i个控制点的结构姿态参数高度和扭转角真实值，λ₁和λ₂为权重系数，L₂为网络权重二范数正则化项。

进一步地，在本发明的一个实施例中，所述步骤S5具体包括：步骤S501，定义所述结构三维可变形网格模型的顶点在视频第t帧的坐标；步骤S502，根据三次样条插值函数、所述最优结构姿态参数和所述坐标计算所述顶点的高度和扭转角；步骤S503，根据所述顶点的高度和扭转角计算所述顶点的真实三维坐标，并将所述真实三维坐标转换为所述结构稠密位移。

为达到上述目的，本发明另一方面实施例提出了基于可变形三维模型和光流表示学习的结构稠密位移识别系统，包括：网络模型构建模块，用于建立结构三维可变形网络模型，以选取多个控制点，并生成控制点热图；学习网络构建模块，用于以视频每一帧输入，建立光流表示学习网络，计算每个视频帧与其初始帧之间的稠密光流，以获得每个视频帧的控制点热图；识别子网络构建模块，用于利用所述每个视频帧的控制点热图建立基于多层感知机神经网络模型的结构姿态参数识别子网络；训练模块，用于采用自监督训练方式训练所述基于多层感知机神经网络模型的结构姿态参数识别子网络，得到最优结构姿态参数；转换模块，用于将所述最优结构姿态参数转换为结构稠密位移。

本发明实施例的基于可变形三维模型和光流表示学习的结构稠密位移识别系统，通过稠密光流表示学习，以原始视频帧为输入，计算不同视频帧与初始帧之间的稠密光流，输出控制点热图，通过质心计算可以稳定获取控制点二维坐标；基于稠密光流实现了对不同视频帧与参考帧之间的细微位移变化的精细识别，与传统方法相比提高了精度；建立了基于控制点的结构姿态参数识别子网络，利用多层感知机神经网络的特征提取能力，实现了结构姿态参数自动识别；基于结构三维可变形网格模型，建立了由控制点坐标到结构姿态参数的自监督训练方法，实现了在无人工标注数据下结构姿态参数识别子网络的自监督训，训练过程不需要进行任何人工标注；还可以直接从训练模型迁移到实际视频中，而不需要考虑训练数据和真实数据之间的差异，并且不会引入语义分割蒙版的不可控信息差异；与基于图像分割的方法相比，由于人工生成的语义分割蒙版与真实视频的语义分割蒙版之间存在形态和噪声等的细微差异，部分数据无法通过人工生成数据来模仿，就会导致训练模型在实际识别时出现一定误差；基于稠密光流学习，提高了对视频质量和光线变化的鲁棒性。

本发明又一方面实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述实施例所述的基于可变形三维模型和光流表示学习的结构稠密位移识别方法。

本发明还一方面实施例提供一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例所述的基于可变形三维模型和光流表示学习的结构稠密位移识别方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的基于可变形三维模型和光流表示学习的结构稠密位移识别方法的流程图；

图2是本发明一个实施例的结构三维可变形网格模型控制点热图生成过程的示意图；

图3是本发明一个实施例的稠密光流彩色图像与光流向量的对应关系示意图；

图4是本发明一个实施例的建立控制点估计子网络和结构控制点坐标识别过程示意图；

图5是本发明一个实施例的基于多层感知机神经网络模型的结构姿态参数识别子网络示意图；

图6是本发明一个实施例的基于可变形三维模型和光流表示学习的结构稠密位移识别系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于可变形三维模型和光流表示学习的结构稠密位移识别方法及系统，其直接所属结构健康监测、计算机视觉、深度学习的技术领域，可以直接应用的技术领域包括智慧基础设施、智能运维等，首先将参照附图描述根据本发明实施例提出的基于可变形三维模型和光流表示学习的结构稠密位移识别方法。

图1是本发明一个实施例的基于可变形三维模型和光流表示学习的结构稠密位移识别方法的流程图。

如图1所示，该基于可变形三维模型和光流表示学习的结构稠密位移识别方法包括以下步骤：

在步骤S1中，建立结构三维可变形网络模型，以选取多个控制点，并生成控制点热图。

在本发明的一个实施例中，步骤S1具体包括：

步骤S101，选择结构姿态参数，并对结构姿态参数施加变形函数，其中，结构姿态参数包括高度和扭转角；

步骤S102，构建结构初始三维网格模型，在结构初始三维网格模型上添加施加变形函数后的结构姿态参数，生成结构三维可变形网络模型；

步骤S103，选取结构三维可变形网络模型的多个控制点，以作为输入视频帧和输出结构姿态参数之间的中间桥梁；

步骤S104，通过相机变换矩阵将每个控制点的三维空间坐标转换为二维相机坐标，并在每个控制点的二维相机坐标处生成一个正态分布热图；

步骤S105，将所有控制点的正态分布热图按照控制点编号索引为通道方向进行拼接，生成控制点热力图。

具体地，选择结构三维可变形网格模型姿态参数，包括结构姿态参数的高度H和扭转角R；针对结构初始三维网格模型M₀＝G[V₀]，对于高度H和扭转角R施加变形函数D，产生结构三维可变形网络模型：

M＝G[D(H,R；V₀)]

其中，V₀为结构初始三维网格模型的顶点，G为顶点图关系函数、在变形过程中保持不变，D为控制结构姿态参数高度H和扭转角R的变形函数。在给定结构初始三维网格模型的顶点V₀、顶点图关系函数G和变形函数D后，就确定了一个结构三维可变形网格模型；

再选取结构三维可变形网格模型的控制点，作为输入视频帧和输出结构姿态参数输出之间的中间桥梁。控制点一般为结构的梁柱交接处、两个平面交接线处、主梁不同构件之间连接结点处等，控制点密度越大，三维网格模型的空间分辨率越高，结构稠密位移的识别就更精确，除了控制节点，其余顶点通过控制节点之间的样条插值计算；

基于相机变换矩阵，将控制点三维坐标转换为二维相机坐标，在每个控制点二维相机坐标的位置，生成一个正态分布热图，其中，该热图质心即代表了控制点的二维相机坐标位置：

式中，为第i个控制点对应的热图；/>为归一化后的二维正态分布函数，第i个控制点的二维坐标为/>标准差为σ；i为控制点索引编号，上限为控制点的数量；th为手动设置的截止阈值；

如图2所示，将所有控制点热图按控制点编号索引为通道方向进行拼接，形成控制点热力图三维张量H_m，维度为num×H×W，其中，num为控制点数量，H和W分别为热力图的高度和宽度，与视频帧的高度和宽度保持一致。

在步骤S2中，以视频每一帧输入，建立光流表示学习网络，计算每个视频帧与其初始帧之间的稠密光流，以获得每个视频帧的控制点热图。

在本发明的一个实施例中，步骤S2具体包括：

步骤S201，以视频每一帧为输入，建立光流表示学习网络，输出每个视频帧与其初始帧之间的稠密光流；

步骤S202，以初始视频帧对应的控制点热图为基准，将稠密光流逐帧施加于每个视频帧，得到每个视频帧的控制点热图。

具体地，如图3所示，以视频每一帧为输入，建立光流表示学习网络，输出每个视频帧与其初始帧之间的稠密光流；以初始视频帧对应的控制点热图为基准，将稠密光流识别结果逐帧施加于每一视频帧，输出每一视频帧的控制点热图，从而实现步骤S3中对每一个视频帧中结构控制点坐标的识别。

其中，如图4所示，光流表示学习网络采用预训练FlowNet2.0，光流场通过色轮转换转化为彩色图像，不同色相代表了光流向量的方向，饱和度代表了光流向量的模。

在步骤S3中，利用每个视频帧的控制点热图建立基于多层感知机神经网络模型的结构姿态参数识别子网络。

进一步地，在本发明的一个实施例中，步骤S3具体包括：

步骤S301，根据每个视频帧的控制点热图计算每个通道的质心坐标；

步骤S302，以所有控制点的质心坐标按控制点编号索引拼接组成的一维向量为输入，以所有控制点对应的结构形态参数按控制点编号索引拼接组成的一维向量为输出，建立基于多层感知机神经网络模型的结构姿态参数识别子网络。

具体地，根据步骤S2获得的每个视频帧控制点热图三维张量，计算每个通道的质心坐标：

式中，t为第t个视频帧，i为第i个控制点的索引编号，x和y分别表示沿图像高度H和宽度W方向的坐标轴索引变量，H_m为控制点的二维相机坐标位置，CH和CW分别表示沿高度和宽度方向的质心坐标分量；

如图5所示，以所有控制点质心坐标按顺序拼接组成的一维向量为输入、维度为1×2num，以所有控制点对应的结构形态参数高度H和扭转角R按顺序拼接组成的一维向量为输出，建立基于多层感知机神经网络模型的结构姿态参数识别子网络。

在步骤S4中，采用自监督训练方式训练基于多层感知机神经网络模型的结构姿态参数识别子网络，得到最优结构姿态参数。

在本发明的一个实施例中，步骤S4具体包括：

步骤S401，随机在一个固定范围内随机生成结构姿态参数的真实值；

步骤S402，将真实值施加在结构初始三维网格模型上，获得结构控制点的三维空间坐标；

步骤S403，通过相机矩阵变换将三维空间坐标转换为二维相机坐标；

步骤S404，将二维相机坐标扁平化，并将扁平化后的二维相机坐标输入基于多层感知机神经网络模型的结构姿态参数识别子网络中，输出结构姿态参数的预测值；

步骤S405，将预测值与真实值进行对比，计算回归损失函数；

步骤S406，判断回归损失函数是否小于预设阈值，若不小于则通过误差反向传播算法和基于梯度下降的网络优化算法，更新基于多层感知机神经网络模型的结构姿态参数识别子网络的结构姿态参数，并迭代执行步骤S401-S406，直至回归损失函数小于预设阈值，得到最优结构姿态参数。

具体地，随机在一个固定范围内随机生成结构姿态参数高度和扭转角的真实值；将生成的结构姿态参数真实值施加在结构初始三维网格模型上，获得结构控制点的三维空间坐标；通过相机矩阵变换将结构控制点的三维空间坐标转换为二维相机坐标；将结构控制点的相机二维坐标扁平化后输入结构姿态参数识别子网络中，输出结构姿态参数高度和扭转角的识别结果，与结构姿态参数高度和扭转角的真实值进行对比，计算回归损失函数；判断回归损失函数是否小于预设阈值，若不小于，则通过误差反向传播算法和基于梯度下降的网络优化算法，更新结构姿态参数识别子网络的结构姿态参数，并迭代前述过程不断更新结构姿态参数识别子网络的结构姿态参数，直至损失函数低于预设阈值。

其中，回归损失函数为：

其中，L为回归损失函数，num为控制点数量，i为控制点数量的索引编号，H_i和R_i分别为第i个控制点的结构姿态参数高度和扭转角预测值，和/>分别为第i个控制点的结构姿态参数高度和扭转角真实值，λ₁和λ₂为权重系数，L₂为为了防止过拟合的网络权重二范数正则化项。

在步骤S5中，将最优结构姿态参数转换为结构稠密位移。

在本发明的一个实施例中，步骤S5具体包括：

步骤S501，定义结构三维可变形网格模型的顶点在视频第t帧的坐标；

步骤S502，根据三次样条插值函数、最优结构姿态参数和坐标计算顶点的高度和扭转角；

步骤S503，根据顶点的高度和扭转角计算顶点的真实三维坐标，并将真实三维坐标转换为结构稠密位移。

具体地，定义结构三维可变形网格模型的顶点V在视频第t帧的坐标为(x,y,z)，其中，y为垂直于截面方向上的分量，z为截面方向上的分量，x为垂直于y和z的平面方向上的分量；

根据三次样条插值函数SplItp计算顶点V的H和R，即H_V和H_R：

H_V＝SplItp(y₀,H),R_V＝SplItp(y₀,R)

式中，H_V和R_V为顶点V的结构姿态参数，SplItp为三次样条插值函数，y₀为结构初始三维网格模型中顶点V₀沿y轴的分量；

计算顶点V的真实三维坐标，根据顶点V真实三维坐标变化换算出实际位移：

其中，width为截面宽度，length为结构构件长度。

需要说明的是，本发明实施例中并未对基于多层感知机神经网络模型的结构姿态参数识别子网络中网络的具体形式、模型训练的优化算法及超参数选择、损失函数中权重系数的具体数值等设置进行限制。任何一种特定的选择只是本发明实现的一种具体形式，因此不局限于某种特定的设计。对多层感知机神经网络模型的具体形式、模型训练的优化算法及超参数选择、损失函数中权重系数等采用不同设置，在本质上仍然在本发明所阐述方法及核心思想的涵盖范围之内。

综上，根据本发明实施例提出的基于可变形三维模型和光流表示学习的结构稠密位移识别方法，通过稠密光流表示学习，以原始视频帧为输入，计算不同视频帧与初始帧之间的稠密光流，输出控制点热图，通过质心计算可以稳定获取控制点二维坐标；基于稠密光流实现了对不同视频帧与参考帧之间的细微位移变化的精细识别，与传统方法相比提高了精度；建立了基于控制点的结构姿态参数识别子网络，利用多层感知机神经网络的特征提取能力，实现了结构姿态参数自动识别；基于结构三维可变形网格模型，建立了由控制点坐标到结构姿态参数的自监督训练方法，实现了在无人工标注数据下结构姿态参数识别子网络的自监督训，训练过程不需要进行任何人工标注；还可以直接从训练模型迁移到实际视频中，而不需要考虑训练数据和真实数据之间的差异，并且不会引入语义分割蒙版的不可控信息差异；与基于图像分割的方法相比，由于人工生成的语义分割蒙版与真实视频的语义分割蒙版之间存在形态和噪声等的细微差异，部分数据无法通过人工生成数据来模仿，就会导致训练模型在实际识别时出现一定误差；基于稠密光流学习，提高了对视频质量和光线变化的鲁棒性。

其次参照附图描述根据本发明实施例提出的基于可变形三维模型和光流表示学习的结构稠密位移识别系统。

如图6所示，该系统10包括：网络模型构建模块100、学习网络构建模块200、识别子网络构建模块300、训练模块400和转换模块500。

其中，网络模型构建模块100用于建立结构三维可变形网络模型，以选取多个控制点，并生成控制点热图。学习网络构建模块200用于以视频每一帧输入，建立光流表示学习网络，计算每个视频帧与其初始帧之间的稠密光流，以获得每个视频帧的控制点热图。识别子网络构建模块300用于利用每个视频帧的控制点热图建立基于多层感知机神经网络模型的结构姿态参数识别子网络。训练模块400用于采用自监督训练方式训练基于多层感知机神经网络模型的结构姿态参数识别子网络，得到最优结构姿态参数。转换模块500用于将最优结构姿态参数转换为结构稠密位移。

在本发明的一个实施例中，网络模型构建模块100具体用于：

选择结构姿态参数，并对结构姿态参数施加变形函数，其中，结构姿态参数包括高度和扭转角；

构建结构初始三维网格模型，在结构初始三维网格模型上添加施加变形函数后的结构姿态参数，生成结构三维可变形网络模型；

选取结构三维可变形网络模型的多个控制点，以作为输入视频帧和输出结构姿态参数之间的中间桥梁；

通过相机变换矩阵将每个控制点的三维空间坐标转换为二维相机坐标，并在每个控制点的二维相机坐标处生成一个正态分布热图；

将所有控制点的正态分布热图按照控制点编号索引为通道方向进行拼接，生成控制点热力图。

在本发明的一个实施例中，学习网络构建模块200具体用于：

以视频每一帧为输入，建立光流表示学习网络，输出每个视频帧与其初始帧之间的稠密光流；

以初始视频帧对应的控制点热图为基准，将稠密光流逐帧施加于每个视频帧，得到每个视频帧的控制点热图。

在本发明的一个实施例中，识别子网络构建模块300具体用于：

根据每个视频帧的控制点热图计算每个通道的质心坐标；

以所有控制点的质心坐标按控制点编号索引拼接组成的一维向量为输入，以所有控制点对应的结构形态参数按控制点编号索引拼接组成的一维向量为输出，建立基于多层感知机神经网络模型的结构姿态参数识别子网络。

在本发明的一个实施例中，训练模块400具体用于：

随机在一个固定范围内随机生成结构姿态参数的真实值；

将真实值施加在结构初始三维网格模型上，获得结构控制点的三维空间坐标；

通过相机矩阵变换将三维空间坐标转换为二维相机坐标；

将二维相机坐标扁平化，并将扁平化后的二维相机坐标输入基于多层感知机神经网络模型的结构姿态参数识别子网络中，输出结构姿态参数的预测值；

将预测值与真实值进行对比，计算回归损失函数；

判断回归损失函数是否小于预设阈值，若不小于则通过误差反向传播算法和基于梯度下降的网络优化算法，更新基于多层感知机神经网络模型的结构姿态参数识别子网络的结构姿态参数，并迭代执行前述过程，直至回归损失函数小于预设阈值，得到最优结构姿态参数。

在本发明的一个实施例中，转换模块500具体用于：

定义结构三维可变形网格模型的顶点在视频第t帧的坐标；

根据三次样条插值函数、最优结构姿态参数和坐标计算顶点的高度和扭转角；

根据顶点的高度和扭转角计算顶点的真实三维坐标，并将真实三维坐标转换为结构稠密位移。

需要说明的是，前述对基于可变形三维模型和光流表示学习的结构稠密位移识别方法实施例的解释说明也适用于该实施例的系统，此处不再赘述。

根据本发明实施例提出的基于可变形三维模型和光流表示学习的结构稠密位移识别系统，通过稠密光流表示学习，以原始视频帧为输入，计算不同视频帧与初始帧之间的稠密光流，输出控制点热图，通过质心计算可以稳定获取控制点二维坐标；基于稠密光流实现了对不同视频帧与参考帧之间的细微位移变化的精细识别，与传统方法相比提高了精度；建立了基于控制点的结构姿态参数识别子网络，利用多层感知机神经网络的特征提取能力，实现了结构姿态参数自动识别；基于结构三维可变形网格模型，建立了由控制点坐标到结构姿态参数的自监督训练方法，实现了在无人工标注数据下结构姿态参数识别子网络的自监督训，训练过程不需要进行任何人工标注；还可以直接从训练模型迁移到实际视频中，而不需要考虑训练数据和真实数据之间的差异，并且不会引入语义分割蒙版的不可控信息差异；与基于图像分割的方法相比，由于人工生成的语义分割蒙版与真实视频的语义分割蒙版之间存在形态和噪声等的细微差异，部分数据无法通过人工生成数据来模仿，就会导致训练模型在实际识别时出现一定误差；基于稠密光流学习，提高了对视频质量和光线变化的鲁棒性。

为了实现上述实施例，本发明还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如前述实施例所述的基于可变形三维模型和光流表示学习的结构稠密位移识别方法。

为了实现上述实施例，本发明还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述实施例所述的基于可变形三维模型和光流表示学习的结构稠密位移识别方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于可变形三维模型和光流表示学习的结构稠密位移识别方法，其特征在于，包括以下步骤：

步骤S1，建立结构三维可变形网络模型，以选取多个控制点，并生成控制点热图；

步骤S2，以视频每一帧输入，建立光流表示学习网络，计算每个视频帧与其初始帧之间的稠密光流，以获得每个视频帧的控制点热图，所述步骤S2具体包括：

步骤S202，以初始视频帧对应的控制点热图为基准，将所述稠密光流逐帧施加于每个视频帧，得到每个视频帧的控制点热图；

步骤S3，利用所述每个视频帧的控制点热图建立基于多层感知机神经网络模型的结构姿态参数识别子网络，所述步骤S3具体包括：

步骤S301，根据所述每个视频帧的控制点热图计算每个通道的质心坐标；

步骤S302，以所有控制点的质心坐标按控制点编号索引拼接组成的一维向量为输入，以所有控制点对应的结构形态参数按控制点编号索引拼接组成的一维向量为输出，建立所述基于多层感知机神经网络模型的结构姿态参数识别子网络；

步骤S4，采用自监督训练方式训练所述基于多层感知机神经网络模型的结构姿态参数识别子网络，得到最优结构姿态参数；

步骤S5，将所述最优结构姿态参数转换为结构稠密位移。

2.根据权利要求1所述的基于可变形三维模型和光流表示学习的结构稠密位移识别方法，其特征在于，所述步骤S1具体包括：

步骤S101，选择结构姿态参数，并对所述结构姿态参数施加变形函数，其中，所述结构姿态参数包括高度和扭转角；

步骤S102，构建结构初始三维网格模型，在所述结构初始三维网格模型上添加施加变形函数后的结构姿态参数，生成所述结构三维可变形网络模型；

步骤S103，选取所述结构三维可变形网络模型的多个控制点，以作为输入视频帧和输出结构姿态参数之间的中间桥梁；

步骤S105，将所有控制点的正态分布热图按照控制点编号索引为通道方向进行拼接，生成所述控制点热力图。

3.根据权利要求1所述的基于可变形三维模型和光流表示学习的结构稠密位移识别方法，其特征在于，所述步骤S4具体包括：

步骤S402，将所述真实值施加在结构初始三维网格模型上，获得结构控制点的三维空间坐标；

步骤S403，通过相机矩阵变换将所述三维空间坐标转换为二维相机坐标；

步骤S404，将所述二维相机坐标扁平化，并将扁平化后的二维相机坐标输入所述基于多层感知机神经网络模型的结构姿态参数识别子网络中，输出结构姿态参数的预测值；

步骤S405，将所述预测值与所述真实值进行对比，计算回归损失函数；

步骤S406，判断所述回归损失函数是否小于预设阈值，若不小于则通过误差反向传播算法和基于梯度下降的网络优化算法，更新所述基于多层感知机神经网络模型的结构姿态参数识别子网络的结构姿态参数，并迭代执行步骤S401-S406，直至所述回归损失函数小于所述预设阈值，得到所述最优结构姿态参数。

4.根据权利要求3所述的基于可变形三维模型和光流表示学习的结构稠密位移识别方法，其特征在于，所述步骤S405中的回归损失函数为：

5.根据权利要求1所述的基于可变形三维模型和光流表示学习的结构稠密位移识别方法，其特征在于，所述步骤S5具体包括：

步骤S501，定义所述结构三维可变形网格模型的顶点在视频第t帧的坐标；

步骤S502，根据三次样条插值函数、所述最优结构姿态参数和所述坐标计算所述顶点的高度和扭转角；

步骤S503，根据所述顶点的高度和扭转角计算所述顶点的真实三维坐标，并将所述真实三维坐标转换为所述结构稠密位移。

6.一种基于可变形三维模型和光流表示学习的结构稠密位移识别系统，其特征在于，包括：

网络模型构建模块，用于建立结构三维可变形网络模型，以选取多个控制点，并生成控制点热图；

学习网络构建模块，用于以视频每一帧输入，建立光流表示学习网络，计算每个视频帧与其初始帧之间的稠密光流，以获得每个视频帧的控制点热图，其中，所述学习网络构建模块具体用于：

以初始视频帧对应的控制点热图为基准，将稠密光流逐帧施加于每个视频帧，得到每个视频帧的控制点热图；

识别子网络构建模块，用于利用所述每个视频帧的控制点热图建立基于多层感知机神经网络模型的结构姿态参数识别子网络，其中，所述识别子网络构建模块具体用于：

根据每个视频帧的控制点热图计算每个通道的质心坐标；

以所有控制点的质心坐标按控制点编号索引拼接组成的一维向量为输入，以所有控制点对应的结构形态参数按控制点编号索引拼接组成的一维向量为输出，建立基于多层感知机神经网络模型的结构姿态参数识别子网络；

训练模块，用于采用自监督训练方式训练所述基于多层感知机神经网络模型的结构姿态参数识别子网络，得到最优结构姿态参数；

转换模块，用于将所述最优结构姿态参数转换为结构稠密位移。

7.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-5中任一所述的基于可变形三维模型和光流表示学习的结构稠密位移识别方法。

8.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的基于可变形三维模型和光流表示学习的结构稠密位移识别方法。