CN116030200B

CN116030200B - 一种基于视觉融合的场景重构方法与装置

Info

Publication number: CN116030200B
Application number: CN202310307106.5A
Authority: CN
Inventors: 李振波; 周维; 郭媛媛
Original assignee: Wuhan Zero Vision Cg Technology Co ltd
Current assignee: Wuhan Zero Vision Cg Technology Co ltd
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-06-13
Anticipated expiration: 2043-03-27
Also published as: CN116030200A

Abstract

本发明提供了一种基于视觉融合的场景重构方法与装置，其中，方法包括：获取多个视觉信息，并分割为多个分块，提取目标分块进行标记，并通过二次注意力机制，以输入GAN网络模型中进行对抗训练，从而得到基于各个轴点在各个时间点的所述实际三维坐标，基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构，从而得到重构场景。本发明的有益效果：使得到训练完成后的神经网络模型可以对得到的三维坐标进行纠正，从而提高精度，降低局部区域的失真程度，提高观看人员的体验。

Description

一种基于视觉融合的场景重构方法与装置

技术领域

本发明涉及场景重构技术领域，特别涉及一种基于视觉融合的场景重构方法与装置。

背景技术

随着科技的发展，虚拟现实或者增强现实技术已经得到了突飞猛进，其在艺术娱乐、医疗、教育等领域都有广泛的应用，然而，发明人意识到，由于一些采集的数据具有一定的误差，这导致重构的场景会有局部区域失真，导致重构的场景与实际场景会有比较大的出入，这给予观看人员极其不好的体验，因此，亟需一种视觉融合的场景重构方法和装置。

发明内容

本发明的主要目的为提供一种基于视觉融合的场景重构方法与装置，旨在解决重构的场景会有局部区域失真的问题。

本发明提供了一种基于视觉融合的场景重构方法，包括：

通过预设的多个激光雷达从各自预设的角度获取目标场景的多个视觉信息；其中，一个激光雷达获取一个视觉信息，所述视觉信息包括连续多帧的视觉图片；

按照时间顺序选取各个所述视觉信息的第一张视觉图片作为第一视觉图片，将其余的视觉图片记为第二视觉图片；

将第一视觉图片分割为预设数量的分块；

判断各个所述分块是否在第二视觉图片中存在；

若存在，则根据预设的DS搜索算法搜寻每个分块在各个第二视觉图片中的位置，并计算相邻两帧视觉图片中各个分块之间的位置差值；

将所述位置差值大于0的分块记为目标分块；

对各个目标分块的轴点进行标记，并将各个目标分块的任意两个轴点的之间的距离作为对应任意两个轴点的第一注意力机制；其中同一分块的任意两个轴点的距离不会发生变化；

获取相邻两帧视觉图片中同一轴点的位置，从而得到同一轴点的移动距离，并将所述同一轴点的距离作为对应轴点的第二注意力机制；

基于所述多个视觉信息获取到各个轴点的三维坐标；

将所述三维坐标输入至生成网络模型中，以及将所述第一注意力机制和所述第二注意力机制输入至判别网络模型中，得到各个轴点在各个时间点的实际三维坐标；其中，所述生成网络模型和判别网络模型为GAN网络模型的两个子模型，一个时间点对应所述视觉信息中的一帧视觉图片的拍摄时间点；

基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构，从而得到重构场景；其中，所述预设的三维模型为根据目标场景预先构建的虚拟模型。

进一步地，所述将所述三维坐标输入至生成网络模型中，以及将所述第一注意力机制和所述第二注意力机制输入至判别网络模型中，得到各个轴点在各个时间点的实际三维坐标的步骤之前，还包括：

获取三维重构训练样本集；其中，所述三维重构训练样本集中的一组数据包括各个轴点的实际三维位置信息、基于各个激光雷达检测得到的预计三维信息、第一注意力机制、第二注意力机制；

根据所述实际三维信息得到各个轴点的实际移动距离以及分块相邻两个轴点的位置，并进行向量化，从而得到目标向量

，根据各个轴点的预计三维信息得到各个轴点的预计移动距离以及分块相邻两个轴点的位置，并进行向量化，从而得到第一向量/>

，根据所述第一注意力机制和所述第二注意力机制进行向量化，从而得到第二向量/>

；

将所述第一向量

输入至初始生成模型中，得到第一预测值/>

，将所述目标向量

输入所述初始生成模型中，通过公式

对所述初始生成模型进行初始训练，得到中间生成模型，并再次输入第一向量得到训练后的暂时预测值/>

，

并将所述第二向量

输入至初始判别模型中，通过公式

对所述初始生成模型进行初始训练，得到中间判别模型；其中，/>

，/>

表示生成模型的参数集，/>

表示判别模型的参数集；

根据公式

对所述中间生成模型和中间判别模型进行二次训练，训练完成后得到所述生成模型和所述判别模型；其中/>

表示在满足上述公式的前提下取/>

的最小值以及/>

的最大值。

进一步地，所述基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构，从而得到重构场景的步骤，包括：

获取各个分块的类型和几何信息并输入至预设的支持向量机中，得到物品特征；

将所述物品特征输入至预先训练好的分类器中，得到所述物品特征的分类和语义标注；

将所述物品特征的分类和语义标注加入至所述重构场景中，以实现对所述重构场景的标注。

进一步地，所述基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构，从而得到重构场景的步骤之前，还包括：

通过所述多个激光雷达采集所述目标场景的点云数据；

对所述点云数据进行预处理，得到处理后的标准点云数据；其中，所述预处理包括坐标转换、去除不合格和不需要的点云中的任意一种或者多种方式；

获取所述目标场景的全景图像，并通过所述全景图像对所述标准点云数据进行渲染，得到所述预设的三维模型。

本发明还提供了一种基于视觉融合的场景重构装置，包括：

第一获取模块，用于通过预设的多个激光雷达从各自预设的角度获取目标场景的多个视觉信息；其中，一个激光雷达获取一个视觉信息，所述视觉信息包括连续多帧的视觉图片；

选取模块，用于按照时间顺序选取各个所述视觉信息的第一张视觉图片作为第一视觉图片，将其余的视觉图片记为第二视觉图片；

分割模块，用于将第一视觉图片分割为预设数量的分块；

判断模块，用于判断各个所述分块是否在第二视觉图片中存在；

搜寻模块，用于若存在，则根据预设的DS搜索算法搜寻每个分块在各个第二视觉图片中的位置，并计算相邻两帧视觉图片中各个分块之间的位置差值；

第一标记模块，用于将所述位置差值大于0的分块记为目标分块；

第二标记模块，用于对各个目标分块的轴点进行标记，并将各个目标分块的任意两个轴点的之间的距离作为对应任意两个轴点的第一注意力机制；其中同一分块的任意两个轴点的距离不会发生变化；

第二获取模块，用于获取相邻两帧视觉图片中同一轴点的位置，从而得到同一轴点的移动距离，并将所述同一轴点的距离作为对应轴点的第二注意力机制；

第三获取模块，用于基于所述多个视觉信息获取到各个轴点的三维坐标；

输入模块，用于将所述三维坐标输入至生成网络模型中，以及将所述第一注意力机制和所述第二注意力机制输入至判别网络模型中，得到各个轴点在各个时间点的实际三维坐标；其中，所述生成网络模型和判别网络模型为GAN网络模型的两个子模型，一个时间点对应所述视觉信息中的一帧视觉图片的拍摄时间点；

重构模块，用于基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构，从而得到重构场景；其中，所述预设的三维模型为根据目标场景预先构建的虚拟模型。

进一步地，所述基于视觉融合的场景重构装置，还包括：

训练数据获取模块，用于获取三维重构训练样本集；其中，所述三维重构训练样本集中的一组数据包括各个轴点的实际三维位置信息、基于各个激光雷达检测得到的预计三维信息、第一注意力机制、第二注意力机制；

向量化模块，用于根据所述实际三维信息得到各个轴点的实际移动距离以及分块相邻两个轴点的位置，并进行向量化，从而得到目标向量

；

向量输入模块，用于将所述第一向量

输入至初始生成模型中，得到第一预测值

，将所述目标向量/>

输入所述初始生成模型中，通过公式/>

，

并将所述第二向量

输入至初始判别模型中，通过公式

，/>

表示生成模型的参数集，/>

表示判别模型的参数集；

训练模块，用于根据公式

表示在满足上述公式的前提下取/>

的最小值以及/>

的最大值。

进一步地，所述重构模块，包括：

获取子模块，用于获取各个分块的类型和几何信息并输入至预设的支持向量机中，得到物品特征；

输入子模块，用于将所述物品特征输入至预先训练好的分类器中，得到所述物品特征的分类和语义标注；

加入子模块，用于将所述物品特征的分类和语义标注加入至所述重构场景中，以实现对所述重构场景的标注。

进一步地，所述基于视觉融合的场景重构装置，还包括：

点云数据采集模块，用于通过所述多个激光雷达采集所述目标场景的点云数据；

预处理模块，用于对所述点云数据进行预处理，得到处理后的标准点云数据；其中，所述预处理包括坐标转换、去除不合格和不需要的点云中的任意一种或者多种方式；

全景图像获取模块，用于获取所述目标场景的全景图像，并通过所述全景图像对所述标准点云数据进行渲染，得到所述预设的三维模型。

本发明的有益效果：获取多个视觉信息，并分割为多个分块，提取目标分块进行标记，并通过二次注意力机制，以输入GAN网络模型中进行对抗训练，从而使得到训练完成后的神经网络模型可以对得到的三维坐标进行纠正，从而提高精度，降低局部区域的失真程度，提高观看人员的体验。

附图说明

图1 是本发明一实施例的基于视觉融合的场景重构方法的流程示意图；

图2 是本发明一实施例的基于视觉融合的场景重构装置的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示（诸如上、下、左、右、前、后等）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变，所述的连接可以是直接连接，也可以是间接连接。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参照图1，本发明提出一种基于视觉融合的场景重构方法，包括：

S1：通过预设的多个激光雷达从各自预设的角度获取目标场景的多个视觉信息；其中，一个激光雷达获取一个视觉信息，所述视觉信息包括连续多帧的视觉图片；

S2：按照时间顺序选取各个所述视觉信息的第一张视觉图片作为第一视觉图片，将其余的视觉图片记为第二视觉图片；

S3：将第一视觉图片分割为预设数量的分块；

S4：判断各个所述分块是否在第二视觉图片中存在；

S5：若存在，则根据预设的DS搜索算法搜寻每个分块在各个第二视觉图片中的位置，并计算相邻两帧视觉图片中各个分块之间的位置差值；

S6：将所述位置差值大于0的分块记为目标分块；

S7：对各个目标分块的轴点进行标记，并将各个目标分块的任意两个轴点的之间的距离作为对应任意两个轴点的第一注意力机制；其中同一分块的任意两个轴点的距离不会发生变化；

S8：获取相邻两帧视觉图片中同一轴点的位置，从而得到同一轴点的移动距离，并将所述同一轴点的距离作为对应轴点的第二注意力机制；

S9：基于所述多个视觉信息获取到各个轴点的三维坐标；

S10：将所述三维坐标输入至生成网络模型中，以及将所述第一注意力机制和所述第二注意力机制输入至判别网络模型中，得到各个轴点在各个时间点的实际三维坐标；其中，所述生成网络模型和判别网络模型为GAN网络模型的两个子模型，一个时间点对应所述视觉信息中的一帧视觉图片的拍摄时间点；

S11：基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构，从而得到重构场景；其中，所述预设的三维模型为根据目标场景预先构建的虚拟模型。

如上述步骤S1所述，通过预设的多个激光雷达从各自预设的角度获取目标场景的多个视觉信息，其中，激光雷达可以是是VLP-16型激光雷达，该雷达是Velodyne公司推出的三维激光雷达，通过激光光束发射与接收的时间间隔计算目标物至激光系统的距离，通过脉冲的水平旋转角度可以得到目标物的视觉角度，因此，设置了多个激光激光雷达可以得到对应目标点的三维坐标，其中，激光雷达的数量不作限定，可以准确获取到目标点的三维坐标即可，然后各个激光雷达可以获取到不同的视觉信息，综合该信息可以得到目标点的三维坐标。

如上述步骤S2所述，按照时间顺序选取各个所述视觉信息的第一张视觉图片作为第一视觉图片，将其余的视觉图片记为第二视觉图片。其中视觉信息中包括多个视觉图片，该视觉图片为点云图，因此，需要进行此基础上进行视觉融合的重建技术时，可以获取到各个时间点各个点的坐标，因此，将所述视觉信息的第一张视觉图片作为第一视觉图片，将其余的视觉图片记为第二视觉图片。

如上述步骤S3所述，将第一视觉图片分割为预设数量的分块，其中，分块的分割方式可以是以各种物体进行分割，例如通过像素进行分割，也可以是人为进行分割，尽量将单个物体作为一个分块。

如上述步骤S4-S6所述，判断各个所述分块是否在第二视觉图片中存在；若存在，则根据预设的DS搜索算法搜寻每个分块在各个第二视觉图片中的位置，并计算相邻两帧视觉图片中各个分块之间的位置差值，对于一些不移动的物体，可以不用进行计算，菱形搜索法（DS搜索法）的具体步骤为在搜索窗口中以九个点的大菱形块为模板，计算邻域内所有点的SAD值；如果SAD最小值点刚好是搜索窗口中心点，进入第三步，否则重复第一步；③以五个点的小菱形块为模板，计算这些点的SAD值，最小值点即为所求点。从而将所述位置差值大于0的分块记为目标分块，只需要计算目标分块，从而可以减少计算量，提高场景复现的精度。

如上述步骤S7所述，对各个目标分块的轴点进行标记，并将各个目标分块的任意两个轴点的之间的距离作为对应任意两个轴点的第一注意力机制；其中同一分块的任意两个轴点的距离不会发生变化。其中，轴点为转动点，例如人的关节点，机器旋转固定点等，标记的方式一般为人为标记，也可以采取其他的标记方式，本申请对此不作限定，两个轴点的之间的距离作为对应任意两个轴点的第一注意力机制，两个轴点的距离是不会发生变化的，因此需要设置第一注意力机制进行限定。

如上述步骤S8所述，获取相邻两帧视觉图片中同一轴点的位置，从而得到同一轴点的移动距离，并将所述同一轴点的距离作为对应轴点的第二注意力机制，两个轴点的移动距离也是需要注意的，这与后续检测到的三维坐标具有一定的差距，因此，在每帧图片中需要将其作为第二注意力机制进行限定。

如上述步骤S9所述，基于所述多个视觉信息获取到各个轴点的三维坐标，具体地，根据激光雷达获取轴点的三维坐标的方式不作限定，可以基于现有的技术进行获取，本申请对此不作赘述。

如上述步骤S10-S11所述，将所述三维坐标输入至生成网络模型中，以及将所述第一注意力机制和所述第二注意力机制输入至判别网络模型中，得到各个轴点在各个时间点的实际三维坐标，基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构，从而得到重构场景；其中，所述生成网络模型和判别网络模型为GAN网络模型的两个子模型，一个时间点对应所述视觉信息中的一帧视觉图片的拍摄时间点。通过二次注意力机制，以输入GAN网络模型中进行对抗训练，从而使得到训练完成后的神经网络模型可以对得到的三维坐标进行纠正，从而提高精度，降低局部区域的失真程度，提高观看人员的体验。

在一个实施例中，所述将所述三维坐标输入至生成网络模型中，以及将所述第一注意力机制和所述第二注意力机制输入至判别网络模型中，得到各个轴点在各个时间点的实际三维坐标的步骤S10之前，还包括：

S901：获取三维重构训练样本集；其中，所述三维重构训练样本集中的一组数据包括各个轴点的实际三维位置信息、基于各个激光雷达检测得到的预计三维信息、第一注意力机制、第二注意力机制；

S902：根据所述实际三维信息得到各个轴点的实际移动距离以及分块相邻两个轴点的位置，并进行向量化，从而得到目标向量

，根据各个轴点的预计三维信息得到各个轴点的预计移动距离以及分块相邻两个轴点的位置，并进行向量化，从而得到第一向量

；

S903：将所述第一向量

输入至初始生成模型中，得到第一预测值/>

，将所述目标向量/>

输入所述初始生成模型中，通过公式

，

并将所述第二向量

输入至初始判别模型中，通过公式

，/>

表示生成模型的参数集，/>

表示判别模型的参数集；

S904：根据公式

表示在满足上述公式的前提下取/>

的最小值以及/>

的最大值。

如上述步骤S901-S904所述，根据所述实际三维信息得到各个轴点的实际移动距离以及分块相邻两个轴点的位置，并进行向量化，从而得到目标向量，向量化的方式为将得到的值按照预设的顺序进行排列，然后进行拼接所得到对应的向量，即目标向量

，同理可得第一向量/>

以及第二向量/>

。需要说明的是，初始生成模型中具有随机的参数集，为预先构建的参数集，从而使其可以正常的输出结果，以便于训练，通过公式

进行训练，另外，训练的方式是采用随机梯度下降方法进行更新，即在当前的样本训练完成后，又进行下一个样本的训练，每次训练完成后都对参数集进行更新，从而完成对初始生成模型的训练。同理通过公式/>

进行中间判别模型的训练，每次训练完成后都对参数集进行更新，从而完成对初始生成模型的训练，更新的方式也可以是随机梯度下降方法进行更新，具体地，再根据公式

进行综合，对初始生成模型和判别模型进行二次训练，其中，需要说明的是，每个样本都需要进行上述三个公式的训练，即在一组样本的训练过程中，需要对样本进行两次更新。最终得到中间生成模型参数集/>

以及中间判别模型参数集/>

的最优值，为了使模型的判别效果更好，此处应当尽可能将中间生成模型参数集/>

取最小值，将中间判别模型参数集/>

取最大值。

在一个实施例中，所述基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构，从而得到重构场景的步骤S11包括：

S1101：获取各个分块的类型和几何信息并输入至预设的支持向量机中，得到物品特征；

S1102：将所述物品特征输入至预先训练好的分类器中，得到所述物品特征的分类和语义标注；

S1103：将所述物品特征的分类和语义标注加入至所述重构场景中，以实现对所述重构场景的标注。

如上述步骤S1101-S1103所述，实现了对重构场景的标注。支持向量机是一种基于监督学习的二分类模型，其目的是可以在样本特征空间中寻求最优分类超平面，即可以将目标场景分解为多个不同的特征形状，此外为了提高分类精度，支持向量机还可以引入核函数变换思想，将在低维空间中不可分割的特征映射到高维空间中，使其转换为高维空间中的线性分类问题，核函数可以是多项式核函数，线性核函数，径向基核函数以及sigmoid核函数等，从而实现了对各个物品特征的分类。

在一个实施例中，所述基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构，从而得到重构场景的步骤S11之前，还包括：

S1001：通过所述多个激光雷达采集所述目标场景的点云数据；

S1002：对所述点云数据进行预处理，得到处理后的标准点云数据；其中，所述预处理包括坐标转换、去除不合格和不需要的点云中的任意一种或者多种方式；

S1003：获取所述目标场景的全景图像，并通过所述全景图像对所述标准点云数据进行渲染，得到所述预设的三维模型。

如上述步骤S1001-S1003所述，通过激光雷达获取点云数据，然后可以通过点云处理库，例如：PCL（Point Cloud Library，点云库）进行预处理，从而得到标准点云数据，然后再基于目标场景的全景图像，该全景图像可以通过高清摄像头进行获取，通过所述全景图像对所述标准点云数据进行渲染，得到所述预设的三维模型，从而实现对三维模型的构建，需要说明的是，该三维模型的构建后与各个视觉信息中的第一视觉图片中的内容需要保持一致，即物体不能发生位置的变化，否则重构会有很大的误差。

本发明还提供了一种基于视觉融合的场景重构装置，包括：

第一获取模块10，用于通过预设的多个激光雷达从各自预设的角度获取目标场景的多个视觉信息；其中，一个激光雷达获取一个视觉信息，所述视觉信息包括连续多帧的视觉图片；

选取模块20，用于按照时间顺序选取各个所述视觉信息的第一张视觉图片作为第一视觉图片，将其余的视觉图片记为第二视觉图片；

分割模块30，用于将第一视觉图片分割为预设数量的分块；

判断模块40，用于判断各个所述分块是否在第二视觉图片中存在；

搜寻模块50，用于若存在，则根据预设的DS搜索算法搜寻每个分块在各个第二视觉图片中的位置，并计算相邻两帧视觉图片中各个分块之间的位置差值；

第一标记模块60，用于将所述位置差值大于0的分块记为目标分块；

第二标记模块70，用于对各个目标分块的轴点进行标记，并将各个目标分块的任意两个轴点的之间的距离作为对应任意两个轴点的第一注意力机制；其中同一分块的任意两个轴点的距离不会发生变化；

第二获取模块80，用于获取相邻两帧视觉图片中同一轴点的位置，从而得到同一轴点的移动距离，并将所述同一轴点的距离作为对应轴点的第二注意力机制；

第三获取模块90，用于基于所述多个视觉信息获取到各个轴点的三维坐标；

输入模块100，用于将所述三维坐标输入至生成网络模型中，以及将所述第一注意力机制和所述第二注意力机制输入至判别网络模型中，得到各个轴点在各个时间点的实际三维坐标；其中，所述生成网络模型和判别网络模型为GAN网络模型的两个子模型，一个时间点对应所述视觉信息中的一帧视觉图片的拍摄时间点；

重构模块110，用于基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构，从而得到重构场景；其中，所述预设的三维模型为根据目标场景预先构建的虚拟模型。

在一个实施例中，所述基于视觉融合的场景重构装置，还包括：

；

向量输入模块，用于将所述第一向量

输入至初始生成模型中，得到第一预测值/>

，将所述目标向量/>

输入所述初始生成模型中，通过公式

，

并将所述第二向量

输入至初始判别模型中，通过公式

，/>

表示生成模型的参数集，/>

表示判别模型的参数集；

训练模块，用于根据公式

表示在满足上述公式的前提下取/>

的最小值以及/>

的最大值。

在一个实施例中，所述重构模块110，包括：

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于视觉融合的场景重构方法，其特征在于，包括：

将第一视觉图片分割为预设数量的分块；

判断各个所述分块是否在第二视觉图片中存在；

若存在，则根据预设的DS搜索算法搜寻每个分块在各个第二视觉图片中的位置，并计算相邻两帧视觉图片中各个分块之间的位置差值；其中，DS搜索法的具体步骤为在搜索窗口中以九个点的大菱形块为模板，计算邻域内所有点的SAD值；如果SAD最小值点刚好是搜索窗口中心点，则以五个点的小菱形块为模板，计算这些点的SAD值，最小值点即为所求点；

将所述位置差值大于0的分块记为目标分块；

基于所述多个视觉信息获取到各个轴点的三维坐标；

基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构，从而得到重构场景；其中，所述预设的三维模型为根据目标场景预先构建的虚拟模型；

所述基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构，从而得到重构场景的步骤之前，还包括：

通过所述多个激光雷达采集所述目标场景的点云数据；

获取所述目标场景的全景图像，并通过所述全景图像对所述标准点云数据进行渲染，得到所述预设的三维模型；

所述将所述三维坐标输入至生成网络模型中，以及将所述第一注意力机制和所述第二注意力机制输入至判别网络模型中，得到各个轴点在各个时间点的实际三维坐标的步骤之前，还包括：

；

将所述第一向量

输入至初始生成模型中，得到第一预测值/>

，将所述目标向量/>

输入所述初始生成模型中，通过公式

，

并将所述第二向量

输入至初始判别模型中，通过公式

，/>

，/>

表示生成模型的参数集，

表示判别模型的参数集；

根据公式

表示在满足上述公式的前提下取/>

的最小值以及/>

的最大值。

2.如权利要求1所述的基于视觉融合的场景重构方法，其特征在于，所述基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构，从而得到重构场景的步骤，包括：

3.一种基于视觉融合的场景重构装置，其特征在于，包括：

分割模块，用于将第一视觉图片分割为预设数量的分块；

搜寻模块，用于若存在，则根据预设的DS搜索算法搜寻每个分块在各个第二视觉图片中的位置，并计算相邻两帧视觉图片中各个分块之间的位置差值；其中，DS搜索法的具体步骤为在搜索窗口中以九个点的大菱形块为模板，计算邻域内所有点的SAD值；如果SAD最小值点刚好是搜索窗口中心点，则以五个点的小菱形块为模板，计算这些点的SAD值，最小值点即为所求点；

重构模块，用于基于各个轴点在各个时间点的所述实际三维坐标在预设的三维模型中进行重构，从而得到重构场景；其中，所述预设的三维模型为根据目标场景预先构建的虚拟模型；

全景图像获取模块，用于获取所述目标场景的全景图像，并通过所述全景图像对所述标准点云数据进行渲染，得到所述预设的三维模型；

所述基于视觉融合的场景重构装置，还包括：