CN117336459A

CN117336459A - 一种三维视频融合方法、装置、电子设备及存储介质

Info

Publication number: CN117336459A
Application number: CN202311306146.4A
Authority: CN
Inventors: 王利; 马继生; 刘明; 马晓彪; 许洪波
Original assignee: Xiongan Xiongchuang Digital Technology Co ltd
Current assignee: Xiongan Xiongchuang Digital Technology Co ltd
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2024-01-02
Anticipated expiration: 2043-10-10
Also published as: CN117336459B

Abstract

本公开提供了一种三维视频融合方法、装置、电子设备及存储介质，所述方法包括：获取摄像头采集的初始视频数据；对所述初始视频数据进行光照参数优化和稳定化处理，得到待融合视频；对所述待融合视频进行目标检测获取目标对象，根据所述摄像头的位置参数信息将所述目标对象投影到构建的三维虚拟场景模型中；将所述待融合视频与所述三维虚拟场景模型中的目标对象进行匹配融合，得到三维融合视频。

Description

一种三维视频融合方法、装置、电子设备及存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种三维视频融合方法、装置、电子设备及存储介质。

背景技术

传统三维视频融合平台合成三维视频是基于平台内部集成的三维模型场景以及摄像头数据实现。但由于摄像头多部署于室外，容易受天气、镜头、光线等问题，导致的视频画面出现昏暗、眩光、不清晰等问题，因此，需要人为对不同摄像头进行定位，然后再与三维模型场景进行匹配，才能进行三维视频融合效果。因此，三维视频融合技术对于平台性能和稳定性要求较高，否则会导致平台无法承载大面积场景数据，融合效果不佳等问题。

发明内容

本公开提供了一种三维视频融合方法、装置、电子设备及存储介质，以至少解决现有技术中存在的以上技术问题。

根据本公开的第一方面，提供了一种三维视频融合方法，所述方法包括：

获取摄像头采集的初始视频数据；

对所述初始视频数据进行光照参数优化和稳定化处理，得到待融合视频；

对所述待融合视频进行目标检测获取目标对象，根据所述摄像头的位置参数信息将所述目标对象投影到构建的三维虚拟场景模型中；

将所述待融合视频与所述三维虚拟场景模型中的目标对象进行匹配融合，得到三维融合视频。

在一可实施方式中，对所述初始视频数据进行光照参数优化和稳定化处理，得到待融合视频，包括：

利用目标图像生成器对所述初始视频数据的每一帧图像进行光照参数的优化，得到优化视频；所述光照参数包括光照强度和光照角度；

对所述优化视频进行稳定化处理，得到所述待融合视频。

在一可实施方式中，当通过多个摄像头采集获取到多个初始视频数据时，在所述得到所述待融合视频之后，所述方法还包括：

对多个待融合视频分别进行下采样操作，识别所述待融合视频中的融合区域；

对多个完成所述下采样操作的待融合视频进行上采样操作；

根据所述融合区域，将多个完成所述上采样操作的待融合视频进行拼接融合，并对融合边界进行平滑处理，得到拼接融合后的待融合视频。

在一可实施方式中，所述目标图像生成器的获取方法，包括：

获取待训练视频数据；

标记所述待训练视频数据中每一帧画面图像的光照参数得到待训练图像；

基于所述待训练图像，构建对抗生成网络并执行多轮训练过程，所述对抗生成网络包括图像生成器和图像判别器，每一轮的训练过程包括：

通过当前版本的图像生成器对所述待训练图像的光照参数进行优化，得到所述待训练图像对应的优化图像；所述当前版本的图像生成器为上一轮训练得到的图像生成器；

通过当前版本的图像判别器对所述待训练图像对应的优化图像和真实图像进行真伪判别，得到判别结果；所述当前版本的图像判别器为上一轮训练得到的图像判别器；

根据所述判别结果，对当前版本的图像生成器和当前版本的图像判别器进行优化，完成本轮训练过程；

通过多轮训练过程，确定当前版本的图像生成器收敛且当前版本的图像判别器对所述优化图像的判别结果满足预设阈值时，将所述当前版本的图像生成器作为所述目标图像生成器。

在一可实施方式中，所述对所述优化视频进行稳定化处理，得到所述待融合视频，包括：

获取所述优化视频中的目标区域在每一帧中的灰度值；

针对于每一帧中的所述目标区域，根据所述目标区域在当前帧和前一帧中的灰度值，确定所述当前帧的位移信息；

根据每一帧的位移信息，对所述优化视频的每一帧进行调整，得到待融合视频。

在一可实施方式中，所述对所述待融合视频进行目标检测获取目标对象，根据所述摄像头的位置参数信息将所述目标对象投影到构建的三维虚拟场景模型中，包括：

对所述待融合视频进行目标检测获取所述目标对象；所述目标对象为特征图像或特征视频；

根据所述目标对象以及所述摄像头的位置参数信息，构建所述三维虚拟场景模型，获取所述目标对象在所述三维虚拟场景模型中的位置和姿态；

根据所述目标对象在所述三维虚拟场景模型中的位置和姿态、所述摄像头的位置参数信息以及所述三维虚拟场景模型的几何形状，计算所述目标对象的投影位置；

根据所述投影位置，将所述目标对象投影到所述三维虚拟场景模型中。

在一可实施方式中，将所述待融合视频与所述三维虚拟场景模型中的目标对象进行匹配融合，得到三维融合视频，包括：

将所述待融合视频与所述目标对象的时间轴和分辨率调整一致；

计算所述待融合视频与所述目标对象中对应帧的光流；

根据所述光流和投影位置，将所述待融合视频和所述三维虚拟场景模型中的目标对象进行匹配融合，得到三维融合视频。

根据本公开的第二方面，提供了一种三维视频融合装置，所述装置包括：

获取模块，用于获取摄像头采集的初始视频数据；

第一处理模块，用于对所述初始视频数据进行光照参数优化和稳定化处理，得到待融合视频；

第二处理模块，用于对所述待融合视频进行目标检测获取目标对象，根据所述摄像头的位置参数信息将所述目标对象投影到构建的三维虚拟场景模型中；

融合模块，用于将所述待融合视频与所述三维虚拟场景模型中的目标对象进行匹配融合，得到三维融合视频。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开所述的方法。

本公开的三维视频融合方法、装置、电子设备及存储介质，通过对摄像头采集的初始视频数据进行光照参数优化和稳定化处理，得到待融合视频。如此，不仅可以解决由于室外环境的影响导致采集的视频数据出现昏暗、眩光、不清晰等问题，而且还可以抑制视频数据中的抖动和摇晃。进一步的，通过对待融合视频进行目标检测获取目标对象，并根据摄像头的位置参数信息将目标对象投影到构建的三维虚拟场景模型中。如此，根据目标对象和摄像头位置参数信息在三维虚拟场景模型中进行定位，从而能够高效精准地实现待融合视频与三维虚拟场景模型中的目标对象进行匹配融合，得到三维融合视频。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本公开实施例三维视频融合方法的实现流程示意图；

图2示出了本公开实施例获取待融合视频的实现流程示意图；

图3示出了本公开实施例多个待融合视频进行拼接融合的实现流程示意图；

图4示出了本公开实施例获取目标图像生成器的实现流程示意图；

图5示出了本公开实施例对抗生成网络执行多轮训练的实现流程示意图；

图6示出了本公开实施例稳定化处理方法的实现流程示意图；

图7示出了本公开实施例构建三维虚拟场景模型的实现流程示意图；

图8示出了本公开实施例获取三维视频融合实现流程示意图；

图9示出了本公开实施例三维视频融合装置的示意图一；

图10示出了本公开实施例三维视频融合装置的示意图二；

图11示出了本公开实施例一种电子设备的组成结构示意图。

具体实施方式

为使本公开的目的、特征、优点能够更加的明显和易懂，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而非全部实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开了提供了一种三维视频融合方法，如图1所示，该方法包括：

步骤101：获取摄像头采集的初始视频数据。

在本示例中，在实际场景内选择位置合适的摄像头，并获取摄像头采集的视频数据作为初始视频数据。

步骤102：对初始视频数据进行光照参数优化和稳定化处理，得到待融合视频。

在本示例中，由于实际场景中的摄像头大多处于室外环境，受天气、镜头、光线等环境影响导致的采集的初始视频数据中容易出现昏暗、眩光、不清晰等问题，因此需要获取初始视频数据中的光照参数，并对光照参数进行优化处理。在对初始视频数据完成光照参数优化后，再对优化后的视频数据进行稳定化处理，以抑制视频数据中的抖动和摇晃，最终得到可以进行三维视频融合的待融合视频。

步骤103：对待融合视频进行目标检测获取目标对象，根据摄像头的位置参数信息将目标对象投影到构建的三维虚拟场景模型中。

在本示例中，利用目标检测算法对待融合视频进行目标检测，识别待融合视频中的一个或多个目标对象。基于构建好的三维虚拟场景模型，根据摄像头的位置参数信息，将该目标对象投影到三维虚拟场景模型对应的位置上，以确定待融合视频在三维虚拟场景模型中的投影位置。

步骤104：将待融合视频与三维虚拟场景模型中的目标对象进行匹配融合，得到三维融合视频。

在本示例中，根据目标对象在三维虚拟场景模型中的定位，将待融合视频与三维虚拟场景模型进行融合处理，最终得到三维融合视频。

本公开提供了一种三维视频融合方法，通过对摄像头采集的初始视频数据进行光照参数优化和稳定化处理，得到待融合视频。如此，不仅可以解决由于室外环境的影响导致采集的视频数据出现昏暗、眩光、不清晰等问题，而且还可以抑制视频数据中的抖动和摇晃。进一步的，通过对待融合视频进行目标检测获取目标对象，并根据摄像头的位置参数信息将目标对象投影到构建的三维虚拟场景模型中。如此，根据目标对象和摄像头位置参数信息在三维虚拟场景模型中进行定位，从而能够高效精准地实现待融合视频与三维虚拟场景模型中的目标对象进行匹配融合，得到三维融合视频。

在一个示例中，对初始视频数据进行光照参数优化和稳定化处理，得到待融合视频的实现过程，如图2所示，包括：

步骤201：利用目标图像生成器对初始视频数据的每一帧图像进行光照参数的优化，得到优化视频；光照参数包括光照强度和光照角度。

在本示例中，通过构建图像生成器和图像判别器进行对抗生成训练，并利用完成生成对抗训练时目标图像生成器对初始视频数据中的每一帧图像进行光照参数的优化处理，从而得到初始视频数据对应的优化视频。

其中，图像生成器进行优化的光照参数包括光照强度和光照角度，需要指出的是，本公开的光照参数不仅局限于光照强度和光照角度这两种光照参数，还可以根据实际情况对可优化的参数类型进行调整。

步骤202：对优化视频进行稳定化处理，得到待融合视频。

在本示例中，在对优化视频进行稳定化处理之前，需要对优化视频进行预处理。具体的，利用基于深度学习的图像去噪算法对优化视频进行去噪处理，降低噪声对图像质量的影响，以提高后续算法对优化视频的处理准确性和效率。经过预处理后，再对优化视频进行稳定化处理，得到待融合视频。稳定化处理是通过抑制视频数据中每一帧画面的抖动和摇晃，来提高视频数据的稳定性和清晰度。

在一个示例中，当通过多个摄像头采集获取多个初始视频数据时，在得到待融合视频之后，如图3所示，该方法还包括：

步骤301：对多个待融合视频分别进行下采样操作，识别待融合视频中的融合区域。

在本示例中，实际场景中通常会设置多个摄像头，因此，可以获取多个摄像头拍摄的初始视频数据，将多个初始视频数据分别进行光照参数优化和稳定化处理之后，得到多个对应的待融合视频。将多个待融合视频再进一步拼接融合，可得到更完整的待融合视频。

具体的，首先，对每个待融合视频进行下采样操作，对待融合视频中的融合区域进行识别。举例说明，例如视频A和视频B的大小均为1920×1080，基于U-Net自编码架构，使用U-Net编码器，对视频A和视频B分别以5×5的卷积核、池化率为2进行下采样操作，下采样操作的次数为50-100次，结合特征提取与特征匹配算法，识别到视频A的右侧和视频B的左侧存在可进行拼接融合的融合区域。需要指出的是，本示例中视频的大小、卷积核、池化率以及下采样操作的次数仅为示例，可以根据实际情况进行调整，且后续实施例中的数据举例均为示例，不再赘述。

步骤302：对多个完成下采样操作的待融合视频进行上采样操作。

在本示例中，经过下采样操作后的待融合视频尺寸缩小，因此需要将待融合视频进行上采样操作，以恢复待融合视频的尺寸。承接上述示例，使用U-Net解码器，将完成下采样操作的视频A和视频B分别以5×5的卷积核、池化率为2进行上采样操作，上采样操作的次数与下采样的次数一致。

步骤303：根据融合区域，将多个完成上采样操作的待融合视频进行拼接融合，并对融合边界进行平滑处理，得到拼接融合后的待融合视频。

在本示例中，基于识别得到的融合区域，将多个完成上采样操作的待融合视频进行拼接融合。在拼接融合过程中，两个视频进行融合部分会存在明显的融合边界，因此，获取融合边界的像素值，并通过以下公式对融合边界进行平滑处理：

其中，X为融合边界上任一像素点经过平滑处理后的像素值；待融合像素点的权重，取值范围为0到1；/>为一个待融合视频的融合边界上该像素点的像素值；/>为另一个待融合视频的融合边界上该像素点的像素值。

通过调整的取值对融合边界进行平滑处理，实现待融合视频平滑的混合效果。

在一个示例中，上述目标图像生成器的获取方法的实现过程，如图4和图5所示，包括：

步骤401：获取待训练视频数据。

在本示例中，为了保证待训练视频数据具备的多样性和代表性，须在场景内选择一个位置合适的摄像头，并提取该摄像头拍摄的大量的不同光照强度和光照角度下该摄像头视频数据。并且，为了获取更多的待训练视频数据，可以通过数据集对待训练视频数据进行扩充，数据集可以包括ImageNet和COCO等数据集。

步骤402：标记待训练视频数据中每一帧图像的光照参数得到待训练图像。

在本示例中，对采集完成或者扩充后的待训练视频数据中每一帧图像的光照参数进行标记得到待训练图像。其中，标记的方式可采用人工标注或者自动标注工具。

步骤403：基于待训练图像，构建对抗生成网络并执行多轮训练过程，对抗生成网络包括图像生成器和图像判别器，每一轮的训练过程包括：

步骤4031：通过当前版本的图像生成器对待训练图像的光照参数进行优化，得到待训练图像对应的优化图像；当前版本的图像生成器为上一轮训练得到的图像生成器。

在本示例中，基于当前版本的图像生成器对标记光照参数的待训练图像进行优化处理，得到待训练图像对应的优化图像。其中，当前训练为整体训练过程中的任一轮训练过程，当前版本的图像生成器即为上一轮训练得到的图像生成器。

步骤4032：通过当前版本的图像判别器对待训练图像对应的优化图像和真实图像进行真伪判别，得到判别结果；当前版本的图像判别器为上一轮训练得到的图像判别器。

在本示例中，当前本版本的图像判别器将当前版本的图像判别器输出的待训练图像的优化图像与待训练图像对应的真实图像进行真伪判别，得到的判别结果为优化图像为真实图像的概率。同样的，当前版本的图像判别器为上一轮训练得到的图像判别器。

步骤4033：根据判别结果，对当前版本的图像生成器和当前版本的图像判别器进行优化，完成本轮训练过程。

在本示例中，通过以下公式对当前版本的图像生成器和图像判别器均可以通过以下损失函数计算各自对应的损失值：

其中，表示当前版本的图像生成器或图像判别器的损失值；N表示待训练样本的数量；/>表示输入图像的标签值，其中真实图像为1，优化图像为0；/>表示输入图像为真实图像的概率。

基于上述损失函数的公式，获取图像生成器的最小化损失值。图像生成器利用该损失函数衡量了生成器优化图像与真实图像之间的差距，并通过将损失值最小化，使得图像生成器被迫不断改进优化的质量。

基于上述损失函数的公式，获取图像判别器的最大化或最小化损失值。其中，最小化损失值是指通过最小化图像判别器的损失函数，使得图像判别器对优化图像和真实图像的判别结果更加准确。最小化损失值的目标是让图像判别器能够正确地将优化图像和真实图像区分开来，提高图像判别器的判别能力。

而最大化损失值是指通过最大化图像判别器的损失函数，使得图像判别器能够更好地区分优化图像和真实图像。最大化损失的目标是让图像判别器能够更加敏锐地发现优化图像与真实图像之间的差异，提高图像判别器的鉴别能力。

在训练过程中，图像判别器通常会交替进行最小化损失和最大化损失的优化。例如，通过最小化损失值训练图像生成器，使优化图像更接近真实图像，以迷惑图像判别器。然后，通过最大化损失值训练图像判别器，使其更好地区分优化图像和真实图像。这种对抗性的优化过程使得图像生成器和图像判别器能够相互竞争、相互提升，从而达到生成高质量视频的目标。需要指出的是，具体使用最小化还是最大化取决于具体的模型架构和优化算法的设计，以及对图像生成器和图像判别器的期望性能要求。

步骤404：通过多轮训练过程，确定当前版本的图像生成器收敛且当前版本的图像判别器对优化图像的判别结果满足预设阈值时，将当前版本的图像生成器作为目标图像生成器。

在本示例中，通过设置与使用结构相似性、增值信噪比、感知相似度等相关的属性值作为预设条件对图像生成器的收敛进行判断，并设置预设阈值对当前版本的图像判别器对优化图像的判别结果进行收敛判断。而当当前版本的图像生成器收敛且当前版本的图像判别器对优化图像的判别结果满足预设阈值时，将当前版本的图像生成器作为目标图像生成器，可用于对初始视频数据的光照参数的优化处理。

在一个示例中，对优化视频进行稳定化处理，得到待融合视频的实现过程，如图6所示，包括：

步骤601：获取优化视频中的目标区域在每一帧中的灰度值。

在本示例中，摄像头在实际场景拍摄时，由于受到环境外力的影响会产生画面抖动和摇晃的情况，因此，为了保证后续视频融合的稳定性和清晰度，需要对优化视频进行稳定化处理。

由于实际场景中的摄像头拍摄的是指定区域的画面，因此在每一帧画面中通常包括相同的区域，这些区域在每一帧中具有相同或相近的像素值、光照参数等。因此，在对优化视频进行稳定化处理时，将这些区域作为参考的目标区域，并获取目标区域在每一帧中的灰度值。

步骤602：针对于每一帧中的目标区域，根据目标区域在当前帧和前一帧中的灰度值，确定当前帧的位移信息。

在本示例中，由于要保证每一帧画面的稳定性，因此需要逐帧进行稳定化处理。以每一帧中目标区域作为参考对象，根据目标区域在当前帧和前一帧中的灰度值，确定当前帧相对于前一帧的位移信息。

步骤603：根据每一帧的位移信息，对优化视频的每一帧进行调整，得到待融合视频。

在本示例中，根据每一帧中目标区域的帧间差分值确定每一帧的位移信息，根据每一帧的位移信息对优化视频中的每一帧画面进行调整，得到可以进行三维视频融合的待融合视频。

举例说明，例如优化视频中第A帧中的目标区域a的灰度值为，而目标区域a在第A-1帧画面中的灰度值为/>，通过比较目标区域a在当前帧（第A帧）和前一帧（第A-1帧）中的灰度值，可知当前帧相对于前一帧向左上角移动产生位移信息，因此对当前帧进行反向移动，向右下角移动相同的距离。除了对当前帧进行反向移动之外，还可以对每一帧进行适当剪裁，以保证消除抖动范围的边界。如此，通过对每一帧画面进行调整，逐帧抑制对视频数据中的抖动和摇晃。

在一个示例中，对待融合视频进行目标检测获取目标对象，根据摄像头的位置参数信息将目标对象投影到构建的三维虚拟场景模型中的实现过程，如图7所示，包括：

步骤701：对待融合视频进行目标检测获取目标对象；目标对象为特征图像或特征视频。

在本示例中，使用基于深度学习的目标检测模型对待融合视频进行目标检测。常见的目标检测模型包括YOLO、Faster R-CNN、SSD等，其中优选采用YOLO模型作为目标检测模型。通过YOLO模型，对待融合视频的进行目标检测，目标检测的结果可获取目标对象以及目标对象位置和大小等信息。

步骤702：根据目标对象以及摄像头的位置参数信息，构建三维虚拟场景模型，获取目标对象在三维虚拟场景模型中的位置和姿态。

在本示例中，为了将三维虚拟模型场景与待融合视频中进行融合，需要构建三维虚拟场景模型，并将虚拟场景和实际场景进行匹配，即将三维虚拟模型场景与待融合视频进行匹配。

本公开将采用同时定位与地图构建技术（Simultaneous Localization AndMapping，简称SLAM技术）实现上述的构建过程和匹配过程。

其中，根据目标对象以及目标对象位置和大小和摄像头的位置参数信息构建出三维虚拟场景模型，其中摄像头的位置参数信息包括内部参数和外部参数，内部参数例如焦距、主点坐标等，外部参数例如摄像头的位置、高度、拍摄角度和姿态等。并且，在构建完三维虚拟场景模型之后，根据SLAM算法获取目标对象在三维虚拟场景模型中的位置和姿态，以用于后续三维虚拟模型场景与待融合视频的匹配。

步骤703：根据目标对象在三维虚拟场景模型中的位置和姿态、摄像头的位置参数信息以及三维虚拟场景模型的几何形状，计算目标对象的投影位置。

在本示例中，在完成目标检测、三维虚拟场景模型的构建和虚拟场景和实际场景匹配之后，基于SLAM技术将目标对象投影到三维虚拟场景模型中。具体的，根据目标对象在三维虚拟场景模型中的位置和姿态、摄像头的位置参数信息以及三维虚拟场景模型的几何形状，利用计算机图形学的投影矩阵方法，计算目标对象在三维虚拟场景模型中的投影位置。

步骤704：根据投影位置，将目标对象投影到三维虚拟场景模型中。

在本示例中，根据目标对象的投影位置，基于SLAM技术将目标对象投影到三维虚拟场景模型中，实现三维虚拟模型场景与待融合视频的匹配。

在本公开中，将优选采用ORB-SLAM（Oriented FAST and BRIEF-SimultaneousLocalization And Mapping）算法。ORB-SLAM算法是基于特征的单目视觉SLAM算法，其具有良好的实时性，能够较好支撑实时视频流的处理；同时其在不同场景下具有较好的鲁棒性，能够较好适应不同光线、视角变化、动态场景等情况，能提高匹配和投射的匹配度；ORB-SLAM算法还具有尺度恢复能力，能够准确地将目标对象投射至三维虚拟场景中。

在一个示例中，将待融合视频与三维虚拟场景模型中的目标对象进行匹配融合，得到三维融合视频的实现过程，如图8所示，包括：

步骤801：将待融合视频与目标对象的时间轴和分辨率调整一致。

在本示例中，当目标对象是特征图像时，由于特征图像也是从待融合视频中的一帧中提取得到的，因此，可将待融合视频和三维虚拟场景模型中的特征图像的时间轴和分辨率调整一致。当目标对象是特征视频时，此时不仅要将待融合视频和三维虚拟场景模型中的特征视频的时间轴和分辨率调整一致还需要将两个视频的帧率调整同步。

步骤802：计算待融合视频与目标对象中对应帧的光流。

在本示例中，使用光流估计模型（Flow Net）计算待融合视频与目标对象中对应帧的光流。光流可以描述图像中的像素运动情况，为后续的视频融合提供信息。

步骤803：根据光流和投影位置，将待融合视频和三维虚拟场景模型中的目标对象进行匹配融合，得到三维融合视频。

在本示例中，根据光流和投影位置，通过加权平均、透明度混合等像素级的图像融合技术，实现将三维虚拟场景模型中的目标对象与待融合视频进行匹配融合。最后，使用去噪、颜色校正、图像增强等方法，对融合后的视频进行必要的后处理以提高视觉效果和质量，得到三维融合视频。

本公开还提供了一种三维视频融合装置，如图9所示，该装置包括：

获取模块901，用于获取摄像头采集的初始视频数据；

第一处理模块902，用于对初始视频数据进行光照参数优化和稳定化处理，得到待融合视频；

第二处理模块903，用于对待融合视频进行目标检测获取目标对象，根据摄像头的位置参数信息将目标对象投影到构建的三维虚拟场景模型中；

融合模块904，用于将待融合视频与三维虚拟场景模型中的目标对象进行匹配融合，得到三维融合视频。

在一个示例中，如图10所示，上述第一处理模块902包括第一优化单元9021和第二优化单元9022，其中：

第一优化单元9021，用于利用目标图像生成器对初始视频数据的每一帧图像进行光照参数的优化，得到优化视频；光照参数包括光照强度和光照角度；

第二优化单元9022，用于对优化视频进行稳定化处理，得到待融合视频。

在一个示例中，如图10所示，上述第一处理模块902还包括：拼接融合单元9023；

拼接融合单元9023，用于当通过多个摄像头采集获取到多个初始视频数据时，在得到待融合视频之后，对多个待融合视频分别进行下采样操作，识别待融合视频中的融合区域；对多个完成下采样操作的待融合视频进行上采样操作；根据融合区域，将多个完成上采样操作的待融合视频进行拼接融合，并对融合边界进行平滑处理，得到拼接融合后的待融合视频。

在一个示例中，如图10所示，上述第一处理模块902还包括训练单元90211；

训练单元90211用于获取待训练视频数据；并标记待训练视频数据中每一帧画面图像的光照参数得到待训练图像；基于待训练图像，构建对抗生成网络并执行多轮训练过程，对抗生成网络包括图像生成器和图像判别器，每一轮的训练过程包括：通过当前版本的图像生成器对待训练图像的光照参数进行优化，得到待训练图像对应的优化图像；当前版本的图像生成器为上一轮训练得到的图像生成器；通过当前版本的图像判别器对待训练图像对应的优化图像和真实图像进行真伪判别，得到判别结果；当前版本的图像判别器为上一轮训练得到的图像判别器；根据判别结果，对当前版本的图像生成器和当前版本的图像判别器进行优化，完成本轮训练过程；通过多轮训练过程，确定当前版本的图像生成器收敛且当前版本的图像判别器对优化图像的判别结果满足预设阈值时，将当前版本的图像生成器作为目标图像生成器。

在一个示例中，上述第二优化单元9022具体用于：

获取所述优化视频中的目标区域在每一帧中的灰度值；针对于每一帧中的所述目标区域，根据所述目标区域在当前帧和前一帧中的灰度值，确定所述当前帧的位移信息；根据每一帧的位移信息，对所述优化视频的每一帧进行调整，得到待融合视频。

在一个示例中，上述第二处理模块903具体用于：

对待融合视频进行目标检测获取目标对象；目标对象为特征图像或特征视频；根据目标对象以及摄像头的位置参数信息，构建三维虚拟场景模型，获取目标对象在三维虚拟场景模型中的位置和姿态；根据目标对象在三维虚拟场景模型中的位置和姿态、摄像头的位置参数信息以及三维虚拟场景模型的几何形状，计算目标对象的投影位置；根据投影位置，将目标对象投影到三维虚拟场景模型中。

在一个示例中，上述融合模块904具体用于：

将待融合视频与目标对象的时间轴和分辨率调整一致；计算待融合视频与目标对象中对应帧的光流；根据光流和投影位置，将待融合视频和三维虚拟场景模型中的目标对象进行匹配融合，得到三维融合视频。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器（ROM）1102中的计算机程序或者从存储单元1108加载到随机访问存储器（RAM）1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出（I/O）接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如三维视频融合方法。例如，在一些实施例中，三维视频融合方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的三维视频融合方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行三维视频融合方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种三维视频融合方法，其特征在于，所述方法包括：

获取摄像头采集的初始视频数据；

2.根据权利要求1所述的方法，其特征在于，对所述初始视频数据进行光照参数优化和稳定化处理，得到待融合视频，包括：

利用图像生成器对所述初始视频数据的每一帧图像进行光照参数的优化，得到优化视频；所述光照参数包括光照强度和光照角度；

对所述优化视频进行稳定化处理，得到所述待融合视频。

3.根据权利要求1或2所述的方法，其特征在于，当通过多个摄像头采集获取到多个初始视频数据时，在所述得到所述待融合视频之后，所述方法还包括：

对多个完成所述下采样操作的待融合视频进行上采样操作；

4.根据权利要求2所述的方法，其特征在于，所述目标图像生成器的获取方法，包括：

获取待训练视频数据；

5.根据权利要求2所述的方法，其特征在于，所述对所述优化视频进行稳定化处理，得到所述待融合视频，包括：

获取所述优化视频中的目标区域在每一帧中的灰度值；

6.根据权利要求1所述的方法，其特征在于，所述对所述待融合视频进行目标检测获取目标对象，根据所述摄像头的位置参数信息将所述目标对象投影到构建的三维虚拟场景模型中，包括：

7.根据权利要求6所述的方法，其特征在于，将所述待融合视频与所述三维虚拟场景模型中的目标对象进行匹配融合，得到三维融合视频，包括：

计算所述待融合视频与所述目标对象中对应帧的光流；

8.一种三维视频融合装置，其特征在于，所述装置包括：

获取模块，用于获取摄像头采集的初始视频数据；

第一处理模块，用于对所述初始视频数据进行光照参数优化，得到待融合视频；

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的方法。