CN116206019A

CN116206019A - 一种基于第一人称视角视频的动感数据生成方法及系统

Info

Publication number: CN116206019A
Application number: CN202310194720.5A
Authority: CN
Inventors: 杨承磊; 黄莉; 王宇; 盖伟; 吕高荣
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-06-02

Abstract

本发明提供了一种基于第一人称视角视频的动感数据生成方法及系统，获取视频图像信息，确定相机的内部参数；提取相邻视频帧图像的特征点，估计相机运动，根据所获图像特征判断相机是否回到了之前访问过的环境区域，建立回环约束；检测视频中镜头的抖动行为或静止行为，提供特殊效应生成的位置指令；根据不同时刻测量的相机位姿，以及回环检测的信息，对其进行优化，得到全局一致的相机运动轨迹数据；将生成的全局一致的相机运动轨迹数据映射到动感座椅的运动范围上作为主驱动信号，叠加特殊效应生成的位置指令，生成相应的动感数据。本发明处理效率高，且能够使用户在体验过程有更真实的体验。

Description

一种基于第一人称视角视频的动感数据生成方法及系统

技术领域

本发明属于视频数据处理技术领域，涉及一种基于第一人称视角视频的动感数据生成方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在通信、超高清、虚拟现实等新兴技术催生下，沉浸式视频行业迎来了井喷式的发展。动感座椅是由动感数据驱动，通过俯仰、侧滚和偏航三种回转动作来模拟真实空间中的运动效果，并且能够整合前庭运动、体感、振动触觉、听觉、风力技术来增加观看者的沉浸感。因此，动感座椅可以为用户在沉浸式视频的体验中提供更高水平的互动感和临场感。但由于在沉浸式视频播放时，动感座椅须获得与之对应的运动数据，因此需要一种有效的动感数据生成方法。

据发明人了解，在现有技术中，基于沉浸式视频的动感效果的制作仍依赖于人工创作且是高度劳动密集型的。目前，人们往往采用手工法和摇杆法来制作动感数据。手工法是由技术专家根据视频的内容，提前观看视频，同时通过手工编写或者通过3D软件编辑运动曲线来模拟视频对应的相机镜头的运动，还有运用模拟器输入的方式来获取动感座椅运动数据，并得到一份座椅和特效设备运行的动作参数文件。在视频播放时，把对应的参数文件内容传送到座椅，控制动感座椅跟随情节同步运动。摇杆法是由技术人员观看视频，同时操作六自由度摇杆，随着镜头的变化去摇动手中的摇杆，同时利用测量装置测量摇杆的运动轨迹，然后根据该轨迹生成相应的动感座椅运动数据。以上两种方法均需要专业的技术人员，耗费大量的人力，且效率低下，成本较高。从工业角度考虑，整个过程不能自动化和智能化，标准化执行难度较大。另外技术人员的观看感受具有个体差异性，获取的运动数据不统一，无法标准化。

发明内容

本发明为了解决上述问题，提出了一种基于第一人称视角视频的动感数据生成方法及系统，本发明处理效率高，且能够使用户在体验过程有更真实的体验。

根据一些实施例，本发明采用如下技术方案：

一种基于第一人称视角视频的动感数据生成方法，包括以下步骤：

获取视频图像信息，确定相机的内部参数；

提取相邻视频帧图像的特征点，估计相机运动，根据所获图像特征判断相机是否回到了之前访问过的环境区域，建立回环约束；

检测视频中镜头的抖动行为或静止行为，提供特殊效应生成的位置指令；

根据不同时刻测量的相机位姿，以及回环检测的信息，对其进行优化，得到全局一致的相机运动轨迹数据；

将生成的全局一致的相机运动轨迹数据映射到动感座椅的运动范围上作为主驱动信号，叠加特殊效应生成的位置指令，生成相应的动感数据。

作为可选择的实施方式，获取视频图像信息，确定相机的内部参数的具体过程为，将视频数据处理为帧图像，根据帧图像的帧宽度与帧高度，结合设置为定值的相机的焦距，确定相机的内部参数。

作为可选择的实施方式，提取相邻视频帧图像的特征点，估计相机运动的具体过程包括：通过检测图像局部像素灰度变化明显的地方提取FAST角点并描述特征，并采用快速近似最近邻算法在相邻视频帧中进行特征点的匹配；剔除错误匹配对，并利用两幅图像的对极几何约束计算相机相对位姿，直到配对成功个数满足预定值。

作为可选择的实施方式，根据所获图像特征判断相机是否回到了之前访问过的环境区域，建立回环约束的具体过程包括将当前帧图像与已处理的视频帧图像逐一对比，并将一个相似度最高的图像加入回环候选帧集，快速完成粗检索，遍历所确定的回环候选帧集，求解当前帧与回环候选帧的相对相机位姿，并进行重投影匹配，确定匹配数量，最终确定回环。

作为可选择的实施方式，检测视频中镜头的抖动行为或静止行为，提供特殊效应生成的位置指令的具体过程包括检测视频中镜头的抖动行为，并利用特征匹配点的欧式距离判定相机在一定时间内是否发生移动，以判断镜头的静止行为。

作为可选择的实施方式，对相机位姿的优化过程包括：

将单个图像帧中对应三维世界中的多个地图点建立多个一元连接边，构成图结构；对于共视关键帧执行局部优化，将多个具有共视关系的关键帧所对应的地图点放入图结构中进行优化。

作为可选择的实施方式，对回环检测的信息的优化过程包括：

对检测到的回环约束信息执行本质图优化，将共视的关键帧和回环帧所对应的地图点加入图优化，在图结构中将回环始端和末端位姿连接，进行相机位姿优化；

将全局关键帧所对应的地图点加入图优化，得到全局相机优化位姿。

一种基于第一人称视角视频的动感数据生成系统，包括：

数据读取模块，被配置为获取视频图像信息，确定相机的内部参数；

视觉里程计模块，被配置为提取相邻视频帧图像的特征点，估计相机运动；

回环检测模块，被配置为根据所获图像特征判断相机是否回到了之前访问过的环境区域，建立回环约束；

特殊效应检测模块，被配置为检测视频中镜头的抖动行为或静止行为，提供特殊效应生成的位置指令；

后端优化模块，被配置为根据不同时刻测量的相机位姿，以及回环检测的信息，对其进行优化，得到全局一致的相机运动轨迹数据；

动感模拟模块，被配置为将生成的全局一致的相机运动轨迹数据映射到动感座椅的运动范围上作为主驱动信号，叠加特殊效应生成的位置指令，生成相应的动感数据。

作为可选择的实施方式，所述视觉里程计模块包括：

特征提取与匹配模块，被配置为提取图像特征，通过检测图像局部像素灰度变化明显的地方提取FAST角点，并计算描述子，采用快速近似最近邻算法在相邻视频帧中进行特征点的匹配；

相机位姿初始估计模块，被配置为根据匹配点对剔除错误匹配对，并利用两幅图像的对极几何约束计算相机相对位姿。

作为可选择的实施方式，所述回环检测模块包括：

外观验证模块，被配置为将当前帧图像与已处理的视频帧图像逐一对比，并将一个相似度最高的图像加入回环候选帧集；

几何验证模块，被配置为遍历外观验证模块所确定的回环候选帧集，求解当前帧与回环候选帧的相对相机位姿，并进行重投影匹配，确定匹配数量，最终确定回环。

作为可选择的实施方式，所述后端优化模块包括：

位姿图优化模块，被配置为对单个图像帧中对应三维世界中的多个地图点建立多个一元连接边，构成图结构来优化相对相机位姿；

局部BA优化模块，被配置为将多个具有共视关系的关键帧所对应的地图点放入一个图结构进行优化；

本质图优化模块，为将共视的关键帧和回环帧所对应的地图点加入图优化，在图结构中将回环始端和末端位姿连接，进行相机位姿优化；

全局BA优化模块，被配置为将全局关键帧所对应的地图点加入图优化，并进行全局相机位姿优化。

与现有技术相比，本发明的有益效果为：

本发明可以从POV视频(第一人称视角视频)中自动获取动感数据，极大节省了动感效果的制作成本。

本发明添加了后端优化和回环检测的功能模块，降低对两个视频帧之间求解相机位姿所造成的累计误差，提高对相机全局运动轨迹估计的准确性。

本发明检测相机在运动中发生的抖动效应并将该效应叠加到相机运动的主驱动信号上，覆盖视频范围更广并提高用户在体验过程中的沉浸感以及满意度。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本实施提供的基于POV视频的视觉算法处理生成动感数据的方法的流程示意图；

图2为分解本质矩阵得到的四个解示意图；

图3为计算视频相邻帧相机运动流程示意图；

图4为基于g2o优化图结构示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供的基于POV视频的视觉算法处理生成动感数据的方法包括如下步骤：

(1)读取视频图像信息并获取相机内部参数。

(2)通过提取相邻视频帧图像的特征点来估计相机运动；通过所获图像特征判断相机是否回到了之前访问过的环境区域，建立回环约束；检测视频中镜头的抖动行为或静止行为，提供特殊效应生成的位置指令。

(3)根据不同时刻测量的相机位姿，以及回环检测的信息，对它们进行优化，降低误差，得到全局一致的相机运动轨迹数据。

(4)将生成的全局相机运动轨迹参数通过冲洗滤波器映射到动感座椅的运动范围上作为主驱动信号，另外根据特殊效应位置指令生成抖震信号或者静止信号，叠加到主驱动信号上，从而生成相应的动感数据。

所述步骤1中，将视频数据处理为帧图像并确定相机的内参矩阵K。

w、h分别为视频的帧宽度与帧高度，f为相机的焦距。在动感体验中，我们需要的是模拟视频中虚拟相机运动的趋势而非具体位姿。参数f的大小只会造成恢复后的相机运动与真正的相机运动之间产生一个恒定的比例因子。人体在感知运动时是对加速度进行感知而非速度，因此我们将f设置为定值，而这并不影响整体的动感模拟。

所述步骤2中，具体方法包括：

(2-1)如图3所示，通过检测图像局部像素灰度变化明显的地方提取FAST角点并计算BRIEF描述子来描述ORB特征，并采用快速近似最近邻(FLANN)算法在相邻视频帧中进行ORB特征点的匹配。根据匹配点采用RANSAC策略剔除错误匹配对，并利用两幅图像的对极几何约束计算相机相对位姿，即旋转矩阵R与平移向量t。在两幅图上随机选择8对匹配成功的特征点，并通过本质矩阵E的计算与分解求得两幅图像的4组可能的相对位姿(如图2所示)。其中1组相对位姿生成的具有正深度值的地图点数量大于剩下3组各自生成的具有正深度值得地图点数量的1.5倍。若存在这样的相对位姿则停止RANSAC过程，此相对位姿为正确解；若没有满足条件的相对位姿则继续选取8对匹配成功的特征点重复计算。

＝ ^∧R (2)

(2-2)检测回环。基于BoW词袋模型将当前帧图像与已处理的视频帧图像逐一对比，并将一个相似度最高的图像加入回环候选帧集，快速完成粗检索。遍历所确定的回环候选帧集，采用RANSAC方法求解当前帧与回环候选帧的相对相机位姿，并进行重投影匹配，确定匹配数量，最终确定回环。将该回环约束加入步骤3，从而消除相机位姿估计的累计误差以及保持在长时间下数据获取的准确性。

(2-3)检测视频中的特殊效应。使用特征点匹配法来检测视频中镜头的抖动行为，并利用ORB匹配点的欧式距离判定相机在一定时间内是否发生移动来判断镜头的静止行为。将两种特殊效应加入步骤4。

所述步骤3中，具体方法包括：

(3-1)基于g2o优化库对步骤2所求的相机位姿数据进行优化。对于(2-2)中计算得出的相对相机位姿进行位姿图优化，将单个图像帧中对应三维世界中的多个地图点建立多个一元连接边，构成图结构来优化相机位姿数据，减小误差。对于共视关键帧执行局部BA优化，将多个具有共视关系的关键帧所对应的地图点放入图结构中进行优化。对于(2-3)中检测到的回环约束信息执行本质图优化，将共视的关键帧和回环帧所对应的地图点加入图优化，在图结构中将回环始端和末端位姿连接，进行相机位姿优化。另外在所有工作完成后，将全局关键帧所对应的地图点加入图优化，得到全局相机优化位姿。

本发明还提供产品实施例：

基于POV视频的视觉算法处理生成动感数据的系统，包括：

数据读取模块，被配置为对相机图像信息的读取和获取相机内部参数。

视觉里程计模块，被配置为通过提取并匹配相邻视频帧图像的特征点来估计相机的运动。

回环检测模块，被配置为通过所获图像特征判断相机是否回到了之前访问过的环境区域，建立回环约束加入后端全局优化模块，从而消除相机位姿估计的累计误差以及保持在长时间下数据获取的准确性。

后端优化模块，被配置为接受不同时刻视觉里程计模块测量的相机位姿，以及回环检测的信息，对它们进行优化，降低误差，得到全局一致的相机运动轨迹。

特殊效应检测模块，被配置为检测视频中镜头的抖动行为或静止行为，为动感模拟模块提供特殊效应生成的位置指令。

动感模拟模块，被配置为将生成的全局相机运动轨迹参数通过冲洗滤波器映射到动感座椅的运动范围上作为主驱动信号，另外根据特殊效应位置指令生成抖震信号或者静止信号，叠加到主驱动信号上，从而生成相应的动感数据。

上述系统中，视觉里程计模块包括：

特征提取与匹配模块，被配置为提取图像ORB特征，ORB是一种局部不变特征检测子，即在图像发生旋转变换时仍可以保持很好的鲁棒性。通过检测图像局部像素灰度变化明显的地方提取FAST角点，并计算BRIEF描述子，采用快速近似最近邻(FLANN)算法在相邻视频帧中进行ORB特征点的匹配。

相机位姿初始估计模块，被配置为根据匹配点对采用RANSAC策略剔除错误匹配对，并利用两幅图像的对极几何约束计算相机相对位姿。RANSAC算法先进行随机取点，再对选取的点进行采样，最后拟合出一条直线，来验证选取的局内点是否为正确结果的匹配点。

本实施例中，回环检测模块包括：

外观验证模块，被配置为基于BoW词袋模型将当前帧图像与已处理的视频帧图像逐一对比，并将一个相似度最高的图像加入回环候选帧集。

几何验证模块，被配置为遍历外观验证模块所确定的回环候选帧集，采用RANSAC方法求解当前帧与回环候选帧的相对相机位姿，并进行重投影匹配，确定匹配数量，最终确定回环。

本实施例中，后端优化模块包括：

位姿图优化模块，被配置为对单个图像帧中对应三维世界中的多个地图点建立多个一元连接边，构成图结构来优化相对相机位姿。

局部BA优化模块，被配置为将多个具有共视关系的关键帧所对应的地图点放入一个图结构进行优化。

本质图优化模块，为将共视的关键帧和回环帧所对应的地图点加入图优化，在图结构中将回环始端和末端位姿连接，进行相机位姿优化。

本实施例的图结构均为基于g2o优化库所采用的图结构，所选动感座椅为六自由度的并联机构STEWART平台。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于第一人称视角视频的动感数据生成方法，其特征是，包括以下步骤：

获取视频图像信息，确定相机的内部参数；

2.如权利要求1所述的一种基于第一人称视角视频的动感数据生成方法，其特征是，获取视频图像信息，确定相机的内部参数的具体过程为，将视频数据处理为帧图像，根据帧图像的帧宽度与帧高度，结合设置为定值的相机的焦距，确定相机的内部参数。

3.如权利要求1所述的一种基于第一人称视角视频的动感数据生成方法，其特征是，提取相邻视频帧图像的特征点，估计相机运动的具体过程包括：通过检测图像局部像素灰度变化明显的地方提取FAST角点并描述特征，并采用快速近似最近邻算法在相邻视频帧中进行特征点的匹配；剔除错误匹配对，并利用两幅图像的对极几何约束计算相机相对位姿，直到配对成功个数满足预定值。

4.如权利要求1所述的一种基于第一人称视角视频的动感数据生成方法，其特征是，根据所获图像特征判断相机是否回到了之前访问过的环境区域，建立回环约束的具体过程包括将当前帧图像与已处理的视频帧图像逐一对比，并将一个相似度最高的图像加入回环候选帧集，完成粗检索，遍历所确定的回环候选帧集，求解当前帧与回环候选帧的相对相机位姿，并进行重投影匹配，确定匹配数量，最终确定回环。

5.如权利要求1所述的一种基于第一人称视角视频的动感数据生成方法，其特征是，检测视频中镜头的抖动行为或静止行为，提供特殊效应生成的位置指令的具体过程包括检测视频中镜头的抖动行为，并利用特征匹配点的欧式距离判定相机在一定时间内是否发生移动，以判断镜头的静止行为。

6.如权利要求1所述的一种基于第一人称视角视频的动感数据生成方法，其特征是，对相机位姿的优化过程包括：

7.如权利要求1所述的一种基于第一人称视角视频的动感数据生成方法，其特征是，对回环检测的信息的优化过程包括：

8.一种基于第一人称视角视频的动感数据生成系统，其特征是，包括：

9.如权利要求8所述的一种基于第一人称视角视频的动感数据生成系统，其特征是，所述视觉里程计模块包括：

10.如权利要求8所述的一种基于第一人称视角视频的动感数据生成系统，其特征是，所述回环检测模块包括：

几何验证模块，被配置为遍历外观验证模块所确定的回环候选帧集，求解当前帧与回环候选帧的相对相机位姿，并进行重投影匹配，确定匹配数量，最终确定回环；

或，所述后端优化模块包括：