CN114943747A - 图像分析方法及其装置、视频编辑方法及其装置、介质 - Google Patents
图像分析方法及其装置、视频编辑方法及其装置、介质 Download PDFInfo
- Publication number
- CN114943747A CN114943747A CN202210369918.8A CN202210369918A CN114943747A CN 114943747 A CN114943747 A CN 114943747A CN 202210369918 A CN202210369918 A CN 202210369918A CN 114943747 A CN114943747 A CN 114943747A
- Authority
- CN
- China
- Prior art keywords
- image
- data
- optical flow
- video
- panoramic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003703 image analysis method Methods 0.000 title claims abstract description 39
- 230000011218 segmentation Effects 0.000 claims abstract description 189
- 230000003287 optical effect Effects 0.000 claims abstract description 156
- 230000000007 visual effect Effects 0.000 claims abstract description 57
- 230000008447 perception Effects 0.000 claims abstract description 47
- 238000013507 mapping Methods 0.000 claims abstract description 32
- 230000004927 fusion Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 14
- 238000010191 image analysis Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 8
- 230000001133 acceleration Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 26
- 230000003068 static effect Effects 0.000 description 25
- 230000000694 effects Effects 0.000 description 18
- 238000005457 optimization Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 7
- 238000003384 imaging method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101000836150 Homo sapiens Transforming acidic coiled-coil-containing protein 3 Proteins 0.000 description 1
- 102100027048 Transforming acidic coiled-coil-containing protein 3 Human genes 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像分析方法及其装置、视频编辑方法及其装置、计算机可读存储介质,其中,图像分析方法包括:获取图像序列、光流数据和各个图像的参考数据;按照当前图像的图像特征获取第一全景分割结果;利用第一全景分割结果以及光流数据,获取全景感知光流表示数据;利用全景感知光流表示数据对相机位姿数据和深度数据进行优化;基于新的相机位姿数据和新的深度数据将前一帧图像的图像特征映射到当前图像;按照当前图像的映射特征获取第二全景分割结果;利用第一全景分割结果和第二全景分割结果,得到最终全景分割结果。上述方案,能够通过高精度的视觉里程计和视频全景分割,得到多个图像一致的视频全景分割结果。
Description
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种图像分析方法及其装置、视频编辑方法及其装置、计算机可读存储介质。
背景技术
就单一的VO(VisualOdometry,视觉里程计)问题来说,将单目视频作为输入,并估计每一帧的摄像机姿势,它需要有一定的能力来分辨视频中的动态物体。现有的视觉语义里程计(VSO,Visual Semantic Odometry)被提出来明确地过滤掉潜在的移动物体,如行人和车辆。然而,它忽略了一个事实,即停放的车辆与静态背景一致的相机运动。相比之下,视频全景分割(VPS,Video Panoptic Segmentation)首先获得单个图像的全景分割,然后用特征图追踪单个实例,但并不明确区分物体是否在移动。
现有的方法大体上将这两项任务割裂开来,但没有认识到它们的相关性。一些方法如SimVODIS以多任务的方式训练运动-语义网络,使用的损失函数可能会相互制约,从而导致性能的减弱。
发明内容
本申请提供一种图像分析方法及其装置、视频编辑方法及其装置、计算机可读存储介质。
本申请第一方面提供了一种图像分析方法,所述图像分析方法包括:
获取图像序列、光流数据和所述图像序列中各个图像的参考数据,其中,所述参考数据包括相机位姿数据和深度数据;
按照当前图像的图像特征获取所述当前图像的第一全景分割结果;
利用所述第一全景分割结果以及所述光流数据,获取全景感知光流表示数据;
利用所述全景感知光流表示数据对所述相机位姿数据和/或所述深度数据进行优化,得到新的相机位姿数据和/或新的深度数据;
基于所述新的相机位姿数据和/或新的深度数据将所述当前图像的前一帧图像的图像特征映射到所述当前图像,得到所述当前图像的映射特征;
按照所述当前图像的映射特征获取所述当前图像的第二全景分割结果;
利用所述当前图像的第一全景分割结果和第二全景分割结果,得到所述当前图像的最终全景分割结果。
其中,所述利用所述第一全景分割结果以及所述光流数据,获取全景感知光流表示数据,包括:
将所述第一全景分割结果和所述光流数据,输入光流编码器;
利用所述光流编码器对所述第一全景分割结果和所述光流数据进行编码,得到所述全局感知光流表示数据。
其中,所述利用所述全景感知光流表示数据对所述相机位姿数据和所述深度数据进行优化,包括:
获取所述当前图像和所述当前图像的前一帧图像的特征关系;
利用所述特征关系以及所述全景感知光流表示数据对所述相机位姿数据和/或所述深度数据进行优化。
其中,所述当前图像和所述当前图像的前一帧图像的特征关系包括所述当前图像和所述当前图像的前一帧图像的相关性表示关系,和/或所述当前图像和所述当前图像的前一帧图像的上下文特征关系。
其中,所述利用所述特征关系以及所述全景感知光流表示数据对所述相机位姿数据和/或所述深度数据进行优化,包括:
将所述全景感知光流表示数据和所述当前图像和所述当前图像的前一帧图像的特征关系进行卷积处理,得到对应的全景感知动态掩膜、置信度和稠密光流偏移量;
利用所述全景感知动态掩膜、置信度和稠密光流偏移量对所述相机位姿数据和/或所述深度数据进行优化。
其中,所述利用所述全景感知动态掩膜、置信度和稠密光流偏移量对所述相机位姿数据和/或所述深度数据进行优化,包括:
利用所述全景感知动态掩膜和所述置信度,得到全景感知置信度;
将稠密光流偏移量与所述光流数据进行融合,得到融合光流数据;
利用所述全景感知置信度和所述融合光流数据对所述相机位姿数据和/或所述深度数据进行优化。
其中,所述图像分析方法还包括:
将所述当前图像的图像特征和所述映射特征进行融合,得到所述当前图像的融合特征;
利用所述融合特征获取所述当前图像的第一全景分割结果。
其中,利用特征对齐损失函数和/或分割一致损失函数对所述融合特征进行优化。
其中,所述利用所述当前图像的第一全景分割结果和第二全景分割结果,得到所述当前图像的最终全景分割结果,包括:
获取所述第一全景分割结果与所述第二全景分割结果的交集分割结果;
通过所述交集分割结果得到所述当前图像的最终全景分割结果。
本申请第二方面提供了一种图像分析装置,所述图像分析装置包括图像全景分割模块、视觉里程计模块以及视频全景分割模块;其中,
所述图像全景分割模块,用于获取图像序列、光流数据和所述图像序列中各个图像的参考数据,其中,所述参考数据包括相机位姿数据和深度数据;按照当前图像的图像特征获取所述当前图像的第一全景分割结果;
所述视觉里程计模块,用于利用所述第一全景分割结果以及所述光流数据,获取全景感知光流表示数据;利用所述全景感知光流表示数据对所述相机位姿数据和/或所述深度数据进行优化,得到新的相机位姿数据和/或新的深度数据;
所述视频全景分割模块,用于基于所述新的相机位姿数据和/或新的深度数据将所述当前图像的前一帧图像的图像特征映射到所述当前图像,得到所述当前图像的映射特征;按照所述当前图像的映射特征获取所述当前图像的第二全景分割结果;利用所述当前图像的第一全景分割结果和第二全景分割结果,得到所述当前图像的最终全景分割结果。
本申请第三方面提供了一种视频编辑方法,所述视频编辑方法包括:
获取待编辑视频;
利用上述的图像分析方法获取所述待编辑视频中若干视频帧的全景分割结果;
按照所述若干视频帧的全景分割结果,获取所述待编辑视频中动态物体的动态光流;
响应于用户的控制指令,利用所述动态物体的动态光流控制所述动态物体在所述待编辑视频中的位置。
其中,所述控制指令包括关于所述动态物体的加速、减速、暂停、反向、复制、删除中的一种或多种操作指令。
其中,所述按照所述若干视频帧的全景分割结果,获取所述待编辑视频中动态物体的动态光流,包括:
采用所述若干视频帧的全景分割结果、光流数据、相机位姿数据和深度数据分解所述待编辑视频中不同动态物体的动态光流。
其中,所述利用所述动态物体的动态光流控制所述动态物体在所述待编辑视频中的位置之后,所述视频编辑方法还包括:
获取在所述待编辑视频中与所述动态物体处于相同位置的遮挡物体;
利用所述动态物体的深度数据和所述遮挡物体的深度数据进行遮挡检测,以确定所述动态物体和所述遮挡物体在所述待编辑视频中的前后位置关系。
本申请第四方面提供了一种视频编辑装置,所述视频编辑装置包括视频获取模块、视频分割模块以及视频编辑模块;其中,
所述视频获取模块,用于获取待编辑视频;
所述视频分割模块,用于利用上述的图像分析方法获取所述待编辑视频中若干视频帧的全景分割结果;按照所述若干视频帧的全景分割结果,获取所述待编辑视频中动态物体的动态光流;
所述视频编辑模块,用于响应于用户的控制指令,利用所述动态物体的动态光流控制所述动态物体在所述待编辑视频中的位置。
本申请第五方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的图像分析方法,和/或实现上述第三方面中的视频编辑方法。
本申请第六方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的图像分析方法,和/或实现上述第三方面中的视频编辑方法。
上述方案,图像分析装置获取图像序列、光流数据和各个图像的参考数据,其中,所述图像序列包括当前图像以及前一帧图像,所述参考数据包括相机位姿数据和深度数据;按照所述当前图像的图像特征获取所述当前图像的第一全景分割结果;利用所述第一全景分割结果以及所述光流数据,获取全景感知光流表示数据;利用所述全景感知光流表示数据对所述相机位姿数据和所述深度数据进行优化,得到新的相机位姿数据和新的深度数据;基于所述新的相机位姿数据和新的深度数据将所述前一帧图像的图像特征映射到所述当前图像,得到所述当前图像的映射特征;按照所述当前图像的映射特征获取所述当前图像的第二全景分割结果;利用所述当前图像的第一全景分割结果和第二全景分割结果,得到所述当前图像的最终全景分割结果。本申请的图像分析方法通过将视觉里程计和视频全景分割以统一的视角建模起来,实现用于视频一致性编辑的全景视觉里程计,提高对多个图像,如视频一致的视频全景分割结果的准确性。
附图说明
图1是本申请提供的PVO方法和现有方法的区别;
图2是本申请提供的图像分析方法一实施例的流程示意图;
图3是本申请提供的PVO组成模块的结构示意图;
图4是本申请提供的全景增强的视觉里程计模块一实施例的结构示意图;
图5是本申请提供的视觉里程计增强的视频全景分割模块一实施例的结构示意图;
图6是本申请提供的视频编辑方法一实施例的流程示意图;
图7是本申请利用PVO进行视频编辑的效果示意图;
图8是本申请提供的对物体运动的视频编辑一实施例的示意图;
图9是本申请提供的对物体运动的视频编辑另一实施例的示意图;
图10是本申请提供的对物体运动的视频编辑又一实施例的示意图
图11是PVO在Vitual KITTI2数据集与DROID-SLAM的实验结果的对比示意图;
图12是Vitual KITTI2数据集序列01,18,20的轨迹比较的示意图;
图13是Vitual KITTI2数据集视频全景分割实验结果的示意图;
图14是KITTI数据集实验结果的示意图;
图15是本申请提供的图像分析装置一实施例的结构示意图;
图16是本申请提供的视频编辑装置一实施例的结构示意图;
图17是本申请电子设备一实施例的框架示意图;
图18是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
为了解决现有技术的问题,本申请提出了一种新的方法,即用于视频一致性编辑的全景视觉里程计,称为PVO。在本申请提出的PVO方法中,将视觉里程计(VO)和视频全景分割(VPS)以统一的视角建模起来,并使这两项工作相互促进。
在本申请提供的图像分析方法中,分为全景增强视觉里程计模块(Panoptic-Enhanced VO Module)和视觉里程计增强的视频全景分割模块(VO-Enhanced VPSModule)。在全景增强视觉里程计模块中,提出了一个全景更新模块,通过自适应调整优化摄像机的权重来提高相机位姿估计的准确性以消除动态物体的干扰。而视觉里程计增强的视频全景分割模块,则通过使用从全景增强视觉里程计模块获得的相机姿势、深度和光流等几何信息,将当前帧的分割结果在线融合到相邻的帧中,进一步提高分割的准确性。这两个模块通过循环的迭代优化的方式来相互促进。
本申请提供的用于视频一致性编辑的全景视觉里程计,有利于提高对场景的基本理解,并协助各种应用,如自动驾驶场景模拟,删除、复制或增强视频中的单个物体等。
现有的方法大体将这两项任务割裂开来,但没有认识到它们的相关性。一些方法如SimVODIS以多任务的方式训练运动-语义网络。如图1所示,图1是本申请提供的PVO方法和现有方法的区别。
本申请提供的PVO方法一方面通过运动网络获取图像序列的运动信息:位姿和光流,以及几何信息:深度;另一方面通过全景分割网络得到图像序列的语义和实例信息:全景信息。进一步地,本申请提供的PVO方法同时对两个网络进行迭代优化以增强网络的输出结果,即运动网络和全景分割网络分别以对方的输出作为自己的输入不断迭代优化自身网络的输出结果。相较于现有方法,如图1中的Data-driven VO,以及SimVODIS,本申请提供的PVO方法将运动网络和全景分割网络的任务有机地结合起来,受EM算法启发,采用循环迭代优化的方式使这两项任务相互促进。
本申请提供的PVO由三个模块组成:图像全景分割初始化,全景增强的视觉里程计模块(Panoptic-Enhanced VO Module),视觉里程计增强的视频全景分割模块(VO-Enhanced VPS Module),下面结合具体的图像分析方法的过程介绍三个模块的工作原理。
具体请参阅图2和图3,图2是本申请提供的图像分析方法一实施例的流程示意图,图3是本申请提供的PVO组成模块的结构示意图。
具体而言,本申请提供的图像分析方法可以包括如下步骤:
步骤S11:获取图像序列、光流数据和图像序列中各个图像的参考数据,其中,所述参考数据包括相机位姿数据和深度数据。
在本申请实施例中,图像序列包括具有共视关系的第一图像和第二图像,按照采集顺序分类则第一图像为前一帧图像,第二图像为当前图像。需要说明的是,在第一图像中某一像素点反投影至三维空间的三维点,若该三维点能够投影至第二图像内,则可以认为第一图像与第二图像具有共视关系,即若三维空间中某一三维点同时存在于第一图像和第二图像,则可以认为第一图像和第二图像具有共视关系。也就是说,在第一图像和第二图像两者视角至少部分重叠的情况下,可以认为第一图像和第二图像具有共视关系。此外,在分析过程中,与第一图像具有共视关系的第二图像可以不止一个,即可以获取至少一个(如,一个、两个、三个、四个等)与第一图像具有共视关系的第二图像,与第一图像组成图像序列,在此不做限定。
本公开实施例中,光流数据可以包括第一图像的静态光流和整体光流,静态光流由摄像器件运动引起,整体光流由摄像器件运动和拍摄对象运动共同引起。示例性地,三维空间中某一三维点在摄像器件t1时刻拍摄得到的第一图像中位于P1(u1、v1),且该三维点所属物体为静止物体,在t2时刻由于摄像器件本身的运动,该三维点在摄像器件t2时刻拍摄到的第二图像中位于P2(u2,v2),则第一图像中P1(u1、v1)的静态光流值可以记为(u2-u1,v2-v1),第一图像的静态光流即包含第一图像中各个像素点的静态光流值;或者,示例性地,仍以三维空间中某一三维点在摄像器件t1时刻拍摄得到的第一图像中位于P1(u1、v1)为例,若该三维点所属物体为运动物体,在t2时刻由于摄像器件本身的运动以及该运动物体的运动,该三维点在摄像器件t2时刻拍摄到的第二图像中位于P3(u3,v3),则第一图像中P1(u1、v1)的整体光流值可以记为(u3-u1,v3-v1),第一图像的整体光流即包含第一图像中各像素点的整体光流值。
在一个实施场景中,以第一图像记为图像i,第二图像记为图像j为例,则第一图像中各像素点由于摄像器件运动所引起的静态光流经坐标变换之后,对应于第二图像某一像素位置的像素点,且若像素点属于静止物体且静态光流完全准确,则第一图像中像素点与经静态光流转换坐标之后在第二图像中像素点应对应于三维空间中相同三维点,为了便于描述,可以将静态光流记为Fsij。
在一个实施场景中,仍以第一图像记为图像i,第二图像记为图像j为例,则第一图像中各像素点由于摄像器件运动和拍摄对象共同引起的整体光流经坐标变换之后,对应于第二图像某一像素位置的像素点,且若整体光流完全准确,则第一图像中像素点与经整体光流转换坐标之后在第二图像中像素点对应于三维空间啊中相同三维点,为了便于描述,可以将整体光流记为Foij。
本公开实施例中,参考数据包括位姿和深度。仍以第一图像记为图像i,第二图像记为图像j为例,参考数据可以包括第一图像i的位姿Gi和第二图像的位姿Gj,参考数据还可以包括第一图像i中各像素点的深度值和第二图像j中各像素点的深度值,第一图像的深度即包含第一图像中各像素点的深度值,第二图像的深度即包含第二图像中各像素点的深度值。为了便于描述,可以将第一图像的深度记为di,类似地,第二图像的深度可以记为dj。需要说明的是,位姿为位置和姿态的合称,其描述了世界坐标系与相机坐标系之间的转换关系,具体可以参阅位姿的技术细节,在此不再赘述。此外,深度表示物体至摄像器件之间的距离,本公开实施例中,深度可以采用逆深度参数化(即inverse depthparameterization)进行表示,具体可以参阅逆深度的相关技术细节,在此不再赘述。
在一个实施场景中,本公开实施例可以循环迭代N次(如,10次、15次等),以尽可能地优化深度和位姿,提升两者的准确性,则在首次循环迭代时,可以为位姿赋予初值。示例性地,位姿可以采用4*4矩阵表示,其具体含义可以参阅位姿的相关技术细节,在此不再赘述。在此基础上,可以将位姿初始化为主对角线元素为1,其他元素为0的矩阵。在此基础上,在后续循环迭代过程中,第i次迭代输入的位姿,可以为第i-1次迭代输出的位姿。具体可以参阅后续相关描述,在此暂不赘述。
在一个实施场景中,对于深度而言,也可以采用类似的方式,在首次循环迭代时,可以为深度赋予初值,深度的具体数值,在此不做限定。示例性地,可以先识别出第一图像和第二图像中的静止物体(如,建筑、路灯等),并基于静止物体,对第一图像和第二图像进行特征匹配,得到若干匹配点对,且匹配点对包含属于第一图像中静止物体的第一像素点,以及属于第二图像中静止物体的第二像素点,且第一像素点和第二像素点对应于三维空间中相同三维点。在此基础上,可以基于第一图像的位姿、第一像素点的深度值和第一像素点在第一图像中的像素位置,确定第一像素点在三维空间中的三维位置,与此同时,可以基于第二图像的位姿、与前述第一像素点属于相同匹配点中第二像素点的深度值及其在第二图像中的像素位置,确定第二像素点在三维空间中的三维位置,由于第一像素点对应的三维位置和第二像素点对应的三维位置应相同,故通过若干匹配点对可以构建得到一系列以第一像素点的深度值和第二像素点的深度值为未知量的方程式,求解方程式,即可得到第一像素点的深度值和第二像素点的深度值,并基于此分别为得到首次循环迭代时第一图像深度的初值,以及首次循环迭代时第二图像深度的初值。在此基础上,在后续循环迭代过程中,第i次迭代输入的深度,可以为第i-1次迭代输出的深度。具体可以参阅后续相关描述,在此暂不赘述。
步骤S12:按照当前图像的图像特征获取当前图像的第一全景分割结果。
在本申请实施例中,图像全景分割以单幅图像为输入,输出图像全景分割的结果,图像的全景分割结果结合了语义分割结果和实例分割结果,对图像的背景和前景实例元素进行全面建模。
图像全景分割的输出结果有两个作用,一方面,可以被用于视频全景分割的初始化数据;另一方面,还可以被送入下面提到的全景增强的视觉里程计模块,以获取全景感知的光流表示、全景感知的置信度信息等。
本申请在图像全景分割中可以使用广泛使用的图像全景分割网络:PanopticFPN。该网络以Resnet50作为主干,提取图像的多尺度特征,然后用一个解码器输出全景分割的结果。
然后,使用解码器g输出全景分割结果,用权值θd包括语义分割结果和实例分割结果。因此,图像的每个像素点p的全景分割结果可以表示为:
在本申请实施例中,送入解码器的多尺度特征有两种输入:1)在没有初始化当前图像全景分割的情况下,使用原始的由Resnet50提取的多尺度特征。2)在循环迭代优化时,使用在全景增强的视觉里程计模块提升视频全景分割模块过程中融合的多尺度特征。为了在替换多尺度特征后保持解码器的正常运行,本申请在后续介绍的视觉里程计增强的视频全景分割模块中提出了一个在线特征融合模块,在后续介绍中详细展示其构成。
步骤S13:利用第一全景分割结果以及光流数据,获取全景感知光流表示数据。
步骤S14:利用全景感知光流表示数据对相机位姿数据和/或深度数据进行优化,得到新的相机位姿数据和/或新的深度数据。
在本申请实施例中,在动态场景无处不在的视觉里程计中,过滤掉动态物体的干扰尤为重要。DROID-SLAM的前端通过迭代优化带有置信度的光流信息来优化摄像机位姿和深度估计的残差,以达到较为准确的摄像机位姿和深度估计。但是DROID-SLAM没有考虑到大多数背景是静态的,而前景物体可能是动态的这一事实。本申请实施例的的全景增强的视觉里程计模块(如图4)通过纳入全景分割的信息来获得更好的置信度,具体请参阅图4,图4是本申请提供的全景增强的视觉里程计模块一实施例的结构示意图。
本申请实施例的全景增强的视觉里程计模块,继承了DROID-SLAM的前端VO模块,通过一个光流编码器将全景分割信息和光流信息结合起来,得到一个具有全景感知(panoptic-aware)的光流表示。
具体地,在图4所示的全景增强的视觉里程计模块还包括全景更新模块(Panopticon Update Module)。
全景更新模块将全景感知光流表示、由两帧图像建立的4D相关性表示以及从上下文编码器获得的特征作为中间变量被送入convGRU,然后由convGRU的三个卷积层分别输出全景感知动态掩码置信度和稠密光流偏移量
具体地,给定初始化的全景分割结果,全景更新模块可以调整全景感知动态掩码。需要说明的是,背景分割将被设置为静态,而具有高动态概率的全景对象将被设置为动态。将置信度和全景感知动态掩码通过一个全景感知滤波模块,得到全景感知置信度:
wpij=sigmoid(wij+(1-Mdij)·η)
其中,sigmoid表示归一化函数,Mdij表示动态掩膜,1-Mdij表示校准掩膜,wij表示置信度图,η表示加权系数,如可以设置为10、20等,在此不做限定。上述方式,能够从像素点本身的置信度以及像素点与运动对象的相关度两方面共同衡量像素点的重要度,进而能够有利于提升后续优化位姿和深度的精度。
全景更新模块将稠密光流偏移量和原始光流数据,反馈给密集束调整层(DBA层),以优化深度并得到姿态残差。全景更新模块迭代优化N次,直到收敛为止。在DROID-SLAM之后,全景更新模块通过SE3流形,将姿态残差应用于当前姿态:
其中,G(k)表示输入第k次循环迭代的位姿,G(k+1)表示输入第k+1次循环迭代的位姿,即新的位姿,Δξ(k)表示姿态残差。也就是说,对于位姿而言,需要基于位姿的变化量在SE3流形对位姿进行拉伸。
而深度和动态掩码残差分别添加到当前深度和动态掩码中:
Ξ(k+1)=ΔΞ(k)+Ξ(k),Ξ∈{d,Md}
其中,Ξ(k)表示输入第k次循环迭代的深度,ΔΞ(k)表示第k次循环迭代输出的深度的变化量,Ξ(k+1)表示输入第k+1次循环迭代的深度,即新的深度。也就是说,对于深度而言,可以直接将深度加上深度的变化量,得到新的深度。
以第一图像i和第二图像j为宽W且高H的二维图像为例,第一图像i中各个像素点的像素位置pi可以采用H*W的二通道图像表示,即类似地,第一图像中像素点投影至第二图像中的像素位置pij也可以采用H*W的二通道图像表示,即其计算公式如下:
其中,Πc表示用于将三维点映射至图像的相机模型,表示用于基于像素位置pi和深度di将二维点映射至三维点的反投影函数,运算符表示哈达玛积(Hadamardproduct)。需要说明的是,相对位姿Gij可以表示为:
∑ij=diagwdij
其中,diag表示取矩阵主对角线上元素,G′ij表示第一图像新的位姿和第二图像新的位姿之间的相对位姿,d′i表示第一图像新的深度。此外,Πc,两者的含义可以参阅前述相关描述,在此不再赘述。‖·‖∑表示马氏距离(即mahalanobis距离),具体含义可以参阅关于马氏距离的相关技术细节,在此不再赘述。(i,j)∈ε表示具有共视关系的第一图像i和第二图像j。
需要说明的是,第一投影位置为第一图像中像素点基于静态光流投影在第二图像的像素位置。为了便于描述,第一投影位置可以记为psij,且如前所述,静态光流的光流校准数据可以记为rsij,则校准位置可以表示为即可以对于图像中各像素点而言,可以直接将其第一投影位置加上该像素点在光流校准数据中查询到的光流校准值即可。
在一个具体的实施场景中,如前所述,为了提升图像分析的效率,可以预先训练一个图像分析模型,图像分析模型的训练过程,可以参阅下述相关公开实施例,在此暂不赘述。该图像分析模型可以包括动态更新网络,该动态更新网络具体可以包括但不限于语义提取子网络,如ConvGRU(即结合卷积的门控循环单元)等,在此对动态更新网络的网络结构不做限定。在得到目标相关数据、静态光流和整体光流之后,即可输入动态更新网络,得到分析结果。进一步地,动态更新网络可以包括光流编码器和相关编码器,则可以分别基于目标相关数据进行编码,得到第一编码特征,并基于静态光流和整体光流进行编码,得到第二编码特征,以及第一编码特征和第二编码特征,预测得到分析结果。具体来说,可以将第一编码特征和第二编码特征一同输入结合卷积的门控循环单元(即ConvGRU),得到深层语义特征,并基于深层语义特征进行预测,得到分析结果,具体过程可以参阅下述相关描述,在此暂不赘述。需要说明的是,由于ConvGRU为具有较小感受野的局部操作,故可以在图像空间维度将隐层向量取均值,作为全局上下文特征,并将全局上下文特征作为ConvGRU的额外输入。为了便于描述,可以将第k+1次循环迭代时的全局上下文特征记为h(k+1)。上述方式,基于目标相关数据进行编码,得到第一编码特征,并基于静态光流和整体光流进行编码,得到第二编码特征,在此基础上再基于第一编码特征和第二编码特征,预测得到分析结果,从而能够在预测之前分别提取光流数据和相关数据的深层特征信息,进而能够有利于提升后续预测分析的准确性。
置信度和全景感知动态掩码通过全景更新模块中的全景感知滤波模块,得到全景感知的置信度信息。原始光流数据加上稠密光流偏移量送入密集束调整(DBA)层,以优化深度和相机位姿。全景更新模块(Panopticon Update Module)被迭代优化N次,直到收敛。
在一个实施场景中,为了进一步提升位姿和深度的优化精度,参考数据还可以包括动态掩膜,动态掩膜可以用于指示图像中的运动对象。示例性地,在图像中某一像素点属于运动对象的情况下,图像的动态掩膜中与该像素点对应的像素位置处像素值可以为第一数值,反之,在图像中某一像素点不属于运动对象的情况下,图像的动态掩膜中与该像素点对应的像素位置处像素值可以为第二数值,且第一数值和第二数值不同,如第一数值可以设置为0,第二数值可以设置为1。在首次循环迭代时,可以将动态掩膜初始化为全0矩阵。为了便于描述,仍以第一图像i和第二图像j均为W*H的二维图像为例,动态掩膜可以表示为H*W的二通道图像,即动态掩膜请区别于前述通过在特征相关数据中进行搜索得到目标相关数据,并基于目标相关数据、静态光流和整体光流,预测得到分析结果的方式,可以基于目标相关数据、静态光流、整体光流和动态掩膜,预测得到分析结果,且分析结果可以进一步包括动态掩膜的掩膜校准数据。上述方式,在动态更新过程中,进一步参考动态掩膜,且动态掩膜用于指示图像中的运动对象,故能够为后续光流分解提供进一步指导,有利于进一步提升优化位姿和深度的精度。
其中,全景更新模块获取当前图像和前一帧的图像的特征关系,具体可以表征为两帧图像建立的相关性表示,如上述的4D相关性表示,也可以表征为两帧图像的上下文特征,如上述的上下文编码器获得的特征。
全景更新模块可以利用当前图像和前一帧的图像的特征关系结合全景感知光流表示数据对相机位姿数据和所述深度数据进行优化。
具体地,全景更新模块将全景感知光流表示数据当前图像和前一帧图像的特征关系进行卷积处理,得到对应的全景感知动态掩膜、置信度和稠密光流偏移量。如图4所示,全景更新模块一方面利用全景感知动态掩膜和置信度融合得到全景感知置信度,另一方面利用稠密光流偏移量与原始光流数据进行融合,得到融合光流数据。全景更新模块进一步将全景感知置信度和融合光流数据同时输入DBA层,得到DBA层优化后的相机位姿数据和深度数据。
进一步地,DBA层优化后的相机位姿数据和深度数据还可以用于生成新的光流数据以及新的全景分割结果,从而不断对全景增强的视觉里程计模块进行迭代优化,即不断迭代优化全景增强的视觉里程计模块输出的相机位姿数据和深度数据。
在其他实施例中,图像分析装置也可以通过对DBA层的修改,使得DBA层只对相机位姿数据和深度数据中的一种数据进行优化,而无需同时对以上两种数据进行优化。例如,通过对DBA层的修改,图像分析装置可以只将相机位姿数据和深度数据中的一种数据作为DBA层的输入,从而实现对其中的一种数据进行优化的效果,能够有效提高优化效率。
步骤S15:基于新的相机位姿数据和/或新的深度数据将当前图像的前一帧图像的图像特征映射到当前图像,得到当前图像的映射特征。
步骤S16:按照当前图像的映射特征获取当前图像的第二全景分割结果。
步骤S17:利用当前图像的第一全景分割结果和第二全景分割结果,得到当前图像的最终全景分割结果。
在本申请实施例中,视频全景分割的目的是为了获得每一帧的全景分割结果,并保持分割在各帧之间的一致性。为了提高分割精度和跟踪精度,一些方法如FuseTrack试图使用光流信息来融合特征,并根据特征的相似性来跟踪它们,然而这些方法只是从二维角度出发,可能会遇到遮挡或剧烈运动的情况。
本申请的视觉里程计增强的视频全景分割模块为了更好地模拟三维世界场景,使用来自全景增强的视觉里程计模块的深度信息,具体请参阅图5,图5是本申请提供的视觉里程计增强的视频全景分割模块一实施例的结构示意图。
视觉里程计增强的视频全景分割模块使用从视觉里程计模块得到的深度、摄像机姿态和光流信息将前一帧的特征映射到当前帧,获得映射后的特征。视觉里程计感知的在线融合模块(VO-Aware online fusion)将融合当前帧t的特征和映射后的特征,得到融合后的特征。
一方面,融合后的特征将被应用于全景增强的视觉里程计模块的下一次迭代。另一方面,融合后的特征将被送入解码器网络,以获得当前帧的全景分割结果。为了保持视频分割的一致性,我们将前一帧映射后的特征送入解码器以获得前一帧映射后的全景分割结果。然后,通过一个简单的IOU-match模块来对当前帧图像的全景分割结果和前一帧图像映射后的全景分割结果进行并集处理,获得一致的视频全景分割结果。
进一步地,如图5所示,视频全景分割模块中还设置有感知视觉测绘的在线融合模块(VO-Aware online fusion)。
在线融合模块的特征在线融合网络首先将两个特征,即当前帧图像的特征zt和前一帧图像映射到当前帧图像的特征zt-1连接起来,然后通过卷积层的ReLU激活,得到融合后的特征zt ∧。为了确保在线特征融合的有效性,本申请在NeuralBlox的启发下提出了两个损失函数用于监督。
本申请采用一个特征对齐损失函数(Feature Alignment Loss)来最小化zt *和zt ∧的距离。zt *表示来自不同图像但映射后为同一张图像的同一像素点的平均特征,其中,特征对齐损失函数表示如下:
lfea=||zt *-zt ∧||1
此外,本申请还增加了一个分割一致损失函数(Segmentation ConsistentLoss:),来最小化zt *和zt ∧解码后的像素p的对数差异,其中,分割一致损失函数表示如下:
在本申请实施例的图像分析方法中,图像全景分割模块以单幅图像为输入,输出全景分割结果。这些结果被输入到全景增强的视觉里程计中。可以使用任何全景分割模型来替换全景分割模块。在全景增强的视觉里程计模块中,我们提出了一个全景更新模块来过滤动态物体的干扰,从而提高动态场景中姿势估计的准确性。在视觉里程计增强的视频全景分割模块中,引入了一个在线融合模块,将当前帧的多分辨率特征与相邻帧的姿态、深度和光流对齐,有效解决多物体遮挡的问题。同时实验表明,循环迭代优化进一步提高了视觉里程计和视频全景分割的精度。
在本申请实施例中,图像分析装置获取图像序列、光流数据和各个图像的参考数据,其中,所述图像序列包括当前图像以及前一帧图像,所述参考数据包括相机位姿数据和深度数据;按照所述当前图像的图像特征获取所述当前图像的第一全景分割结果;利用所述第一全景分割结果以及所述光流数据,获取全景感知光流表示数据;利用所述全景感知光流表示数据对所述相机位姿数据和所述深度数据进行优化,得到新的相机位姿数据和新的深度数据;基于所述新的相机位姿数据和新的深度数据将所述前一帧图像的图像特征映射到所述当前图像,得到所述当前图像的映射特征;按照所述当前图像的映射特征获取所述当前图像的第二全景分割结果;利用所述当前图像的第一全景分割结果和第二全景分割结果,得到所述当前图像的最终全景分割结果。本申请的图像分析方法通过将视觉里程计和视频全景分割以统一的视角建模起来,实现用于视频一致性编辑的全景视觉里程计,提高对多个图像,如视频一致的视频全景分割结果的准确性。
视频编辑是一项重要的任务,在计算机视觉和计算机图形领域得到了广泛的研究。随着智能手机等移动设备的普及,它无处不在,在人类现实生活中发挥着越来越重要的作用。虽然视频编辑已经取得了令人瞩目的进展,如纹理映射、分割传播、视频风格转移以及图像到视频的纹理转移。然而,现有的方法仍然仅限于对视频内容的简单操纵,但忽略了视频目标的运动模式的操纵(如加速、减速、暂停、后退等)。因此我们基于上述实施例的图像分析方法提出了一个新颖的、具有挑战性的视频一致性编辑方法。
请继续参阅图6和图7,图6是本申请提供的视频编辑方法一实施例的流程示意图,图7是本申请利用PVO进行视频编辑的效果示意图。
具体而言,本申请实施例的视频编辑方法可以包括以下步骤:
步骤S21:获取待编辑视频。
在本申请实施例中,输入待编辑视频,其中,待编辑视频包括若干原始视频帧。
步骤S22:获取待编辑视频中若干视频帧的全景分割结果。
在本申请实施例中,将待编辑视频的原始视频帧从t到t+n输入图3所示的PVO网络,VO-Enhanced VPS Module和Panoptic-Enhanced VO Module将分别得到每一帧的全景分割结果和光流估计、深度和摄像机位姿信息。从PVO网络的全景视觉测绘中,可以获得了丰富的二维信息和三维信息,这有利于视频编辑。
步骤S23:按照若干视频帧的全景分割结果,获取待编辑视频中动态物体的动态光流。
在本申请实施例中,按照若干视频帧的全景分割结果,可以区分开待编辑视频中的静态背景以及动态物体,其中,动态物体的运动可以被分解为摄像机的动态场和静态场。具体地,视频编辑装置可以利用若干视频帧的全景分割结果、光流数据、相机位姿数据和深度数据分解待编辑视频中不同动态物体的动态光流。
同样地,视频编辑装置可以在新的场景视频中进行如上述的全景分割操作,从而得到全方位的场景建模信息。
步骤S24:响应于用户的控制指令,利用动态物体的动态光流控制动态物体在待编辑视频中的位置。
在本申请实施例中,视频编辑装置响应于用户的控制指令,选择原始视频中的一个实例,然后通过合并新场景的静态场和原始视频中被选中物体的动态场,获得目标在新场景中的运动,完成将物体插入新场景的视频效果。通过这种方式,视频编辑装置可以进行一些生动的视频效果,包括运动控制、复制和粘贴、删除和实例交互。
其中,用户输入的控制指令具体可以包括关于动态物体的加速、减速、暂停、反向、复制、删除中的一种或多种操作指令。
具体请参阅图8,图8是本申请提供的对物体运动的视频编辑一实施例的示意图。
如图8所示的六组图片中,方框A表示原始运动模式,其他方框表示视频编辑后的运动操作效果。例如,第一组图片是原始视频,第二组图片中方框B标出了加速后的汽车运动,第三组图片中方框C标出了减速后的汽车运动,第四组图片中方框D标出了倒车运动,第五组图片中方框E标出了复制后的汽车,并使其具有加速效果,第六组图片是删除汽车后的图像。
在本申请实施例中,基于本申请的PVO方法,有一定的能力来分辨视频中的动态物体;采用全景分割和从视觉里程计中获得的位姿,光流和深度来分解不同动态物体的动态光流,实现对单个实例的动态光流进行加速、减速、暂停、反向等操作,以获得不同的视频编辑效果,同时还允许复制和删除在同一车道上的对象进行场景编辑;其中,视觉里程计增强的视频全景分割模块为了更好地模拟三维世界场景,使用来自视觉里程计模块的深度信息,在一定程度上解决了遮挡问题。
具体地,视频编辑装置还可以加上深度检查和遮挡检测等附加信息,使得将物体插入新场景的视频效果更加逼真和真实。
例如,视频编辑装置还可以获取在新场景中与原始视频中被选中物体处于相同位置的遮挡物体,然后,利用被选中物体的深度数据和遮挡物体的深度数据进行遮挡检测,以确定动态物体和遮挡物体的前后位置关系。
如图9所示的本申请提供的对物体运动的视频编辑另一实施例的示意图,图9中的第一列图像,即汽车a1为用户选中的动态物体,图9中的第二列图像,即汽车a2为现有技术的视频编辑效果,图9中的第三列图像,即汽车a3为利用本申请实施例的视频编辑方法将汽车a1融合到新场景的效果图。比较图9中的第二列图像和第三列图像可知,本申请通过深度检测和遮挡检测等附加信息,能够准确度确定在新场景,汽车与原始场景中其它事物的前后位置关系,从而得到更加逼真和真实的视频融合结果,即得到图9中第三列图像的效果。
本申请创新性地将视觉里程计(VO)和视频全景分割(VPS)建立在统一的视图中,并使这两项工作通过迭代优化的方式相互促进。实现对单个实例的动态光流进行加速、减速、暂停、反向等操作,以获得不同的视频编辑效果,同时还允许复制和删除在同一车道上的对象进行场景编辑。
进一步地,本申请实施例中,步骤S23和步骤S24中的由用户选择的动态物体可以为一个,也可以为多个,如图10所示的本申请提供的对物体运动的视频编辑又一实施例的示意图。图10中显示用户选择的三个动态物体,分别为图10中的汽车b1,汽车b2以及汽车b3。通过步骤S24中对于动态物体的位置控制,能够有效实现如图10中的多个动态物体在同一场景中同时控制的效果。多个动态物体同时控制可以视为每个动态物体分别与新场景进行融合,其融合过程在上述实施例中已经进行阐述,在此不再赘述。
在对比实验方面,由于Vitual KITTI2数据集包含场景,运动和全景分割信息等,适合我们的要求,故而本申请选择在Vitual KITTI2数据集上进行了广泛的实验。为了验证Panoptic-Enhanced VO Module的有效性,本申请将DROID-SLAM作为VO-baseline进行对比。具体请参阅图11和图12,其中,图11是PVO在Vitual KITTI2数据集与DROID-SLAM的实验结果的对比示意图,图12是Vitual KITTI2数据集序列01,18,20的轨迹比较的示意图。
如图11和图12所示,Vitual KITTI2数据集序列01,18,20具有较强的动态物体,本申请提出的PVO方法对于动态敏感,故而在这3个数据集上的精度相比DROID-SLAM有较为明显的提升。同时由于全景信息可以更好地减少动态物体对姿态估计的干扰,保持较高的精度,故而本申请提出的循环迭代优化可以进一步改善结果。
为了验证视觉里程计增强的视频全景分割模块的有效性,本申请将PanopticFPN+RAFT作为VPS baseline,验证了在线融合模块以及迭代对于精度的影响,具体请参阅图13提供的Vitual KITTI2数据集视频全景分割实验结果。由图13对比可知,视觉里程计增强的视频全景分割模块有效地提高了分割的准确性和跟踪的一致性。
为了验证本申请的PVO方法在视觉里程计(VO)任务中具有一定泛化性,本申请简单地将在Vitual KITTI2数据集上训练出来的PVO模型应用于KITTI数据集。由于VitualKITTI2和KITTI的场景具有相似性,故而具有较高的精度,我们将与DROID-SLAM进行精度对比,具体请参阅图14提供的KITTI数据集实验结果的示意图。
如图14所示,KITTI是一个捕捉真实世界交通情况的数据集,范围从农村地区的高速公路到有许多静态和动态物体的城市内部场景。在本申请的实验中,本申请使用KITTI的09和10序列来验证本申请的系统在动态环境中的准确性。与DROID-SLAM相比,本申请的位姿估计的误差远远低于DROID-SLAM。
请参阅图15,图15是本申请提供的图像分析装置一实施例的结构示意图。如图15所示,本申请实施例的图像分析装置300包括图像全景分割模块31、视觉里程计模块32以及视频全景分割模块33。
其中,所述图像全景分割模块31,用于获取图像序列、光流数据和所述图像序列中各个图像的参考数据,其中,所述参考数据包括相机位姿数据和深度数据;按照当前图像的图像特征获取所述当前图像的第一全景分割结果。
所述视觉里程计模块32,用于利用所述第一全景分割结果以及所述光流数据,获取全景感知光流表示数据;利用所述全景感知光流表示数据对所述相机位姿数据和/或所述深度数据进行优化,得到新的相机位姿数据和/或新的深度数据。
所述视频全景分割模块33,用于基于所述新的相机位姿数据和/或新的深度数据将所述当前图像的前一帧图像的图像特征映射到所述当前图像,得到所述当前图像的映射特征;按照所述当前图像的映射特征获取所述当前图像的第二全景分割结果;利用所述当前图像的第一全景分割结果和第二全景分割结果,得到所述当前图像的最终全景分割结果。
请参阅图16,图16是本申请提供的视频编辑装置一实施例的结构示意图。如图16所示,本申请实施例的视频编辑装置400包括视频获取模块41、视频分割模块42以及视频编辑模块43。
其中,所述视频获取模块41,用于获取待编辑视频。
所述视频分割模块42,用于利用上述的图像分析方法获取所述待编辑视频中若干视频帧的全景分割结果;按照所述若干视频帧的全景分割结果,获取所述待编辑视频中动态物体的动态光流。
所述视频编辑模块43,用于响应于用户的控制指令,利用所述动态物体的动态光流控制所述动态物体在所述待编辑视频中的位置。
请参阅图17,图17是本申请电子设备100一实施例的框架示意图。电子设备100包括相互耦接的存储器101和处理器102,处理器102用于执行存储器101中存储的程序指令,以实现上述任一图像分析方法实施例的步骤,和/或实现上述任一视频编辑方法实施例的步骤。在一个具体的实施场景中,电子设备100可以包括但不限于:微型计算机、服务器,此外,电子设备100还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器102用于控制其自身以及存储器101以实现上述任一图像分析方法实施例的步骤,和/或实现上述任一视频编辑方法实施例的步骤。处理器102还可以称为CPU(Central Processing Unit,中央处理单元)。处理器102可能是一种集成电路芯片,具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器102可以由集成电路芯片共同实现。
请参阅图18,图18为本申请计算机可读存储介质110一实施例的框架示意图。计算机可读存储介质110存储有能够被处理器运行的程序指令111,程序指令111用于实现上述任一图像分析方法实施例的步骤,和/或实现上述任一视频编辑方法实施例的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本公开涉及增强现实领域,通过获取现实环境中的目标对象的图像信息,进而借助各类视觉相关算法实现对目标对象的相关特征、状态及属性进行检测或识别处理,从而得到与具体应用匹配的虚拟与现实相结合的AR效果。示例性的,目标对象可涉及与人体相关的脸部、肢体、手势、动作等,或者与物体相关的标识物、标志物,或者与场馆或场所相关的沙盘、展示区域或展示物品等。视觉相关算法可涉及视觉定位、SLAM、三维重建、图像注册、背景分割、对象的关键点提取及跟踪、对象的位姿或深度检测等。具体应用不仅可以涉及跟真实场景或物品相关的导览、导航、讲解、重建、虚拟效果叠加展示等交互场景,还可以涉及与人相关的特效处理,比如妆容美化、肢体美化、特效展示、虚拟模型展示等交互场景。
可通过卷积神经网络,实现对目标对象的相关特征、状态及属性进行检测或识别处理。上述卷积神经网络是基于深度学习框架进行模型训练而得到的网络模型。
Claims (17)
1.一种图像分析方法,其特征在于,所述图像分析方法包括:
获取图像序列、光流数据和所述图像序列中各个图像的参考数据,其中,所述参考数据包括相机位姿数据和深度数据;
按照当前图像的图像特征获取所述当前图像的第一全景分割结果;
利用所述第一全景分割结果以及所述光流数据,获取全景感知光流表示数据;
利用所述全景感知光流表示数据对所述相机位姿数据和/或所述深度数据进行优化,得到新的相机位姿数据和/或新的深度数据;
基于所述新的相机位姿数据和/或新的深度数据将所述当前图像的前一帧图像的图像特征映射到所述当前图像,得到所述当前图像的映射特征;
按照所述当前图像的映射特征获取所述当前图像的第二全景分割结果;
利用所述当前图像的第一全景分割结果和第二全景分割结果,得到所述当前图像的最终全景分割结果。
2.根据权利要求1所述的图像分析方法,其特征在于,
所述利用所述第一全景分割结果以及所述光流数据,获取全景感知光流表示数据,包括:
将所述第一全景分割结果和所述光流数据,输入光流编码器;
利用所述光流编码器对所述第一全景分割结果和所述光流数据进行编码,得到所述全局感知光流表示数据。
3.根据权利要求2所述的图像分析方法,其特征在于,
所述利用所述全景感知光流表示数据对所述相机位姿数据和所述深度数据进行优化,包括:
获取所述当前图像和所述当前图像的前一帧图像的特征关系;
利用所述特征关系以及所述全景感知光流表示数据对所述相机位姿数据和/或所述深度数据进行优化。
4.根据权利要求3所述的图像分析方法,其特征在于,
所述当前图像和所述当前图像的前一帧图像的特征关系包括所述当前图像和所述当前图像的前一帧图像的相关性表示关系,和/或所述当前图像和所述当前图像的前一帧图像的上下文特征关系。
5.根据权利要求3或4所述的图像分析方法,其特征在于,
所述利用所述特征关系以及所述全景感知光流表示数据对所述相机位姿数据和/或所述深度数据进行优化,包括:
将所述全景感知光流表示数据和所述当前图像和所述当前图像的前一帧图像的特征关系进行卷积处理,得到对应的全景感知动态掩膜、置信度和稠密光流偏移量;
利用所述全景感知动态掩膜、置信度和稠密光流偏移量对所述相机位姿数据和/或所述深度数据进行优化。
6.根据权利要求5所述的图像分析方法,其特征在于,
所述利用所述全景感知动态掩膜、置信度和稠密光流偏移量对所述相机位姿数据和/或所述深度数据进行优化,包括:
利用所述全景感知动态掩膜和所述置信度,得到全景感知置信度;
将稠密光流偏移量与所述光流数据进行融合,得到融合光流数据;
利用所述全景感知置信度和所述融合光流数据对所述相机位姿数据和/或所述深度数据进行优化。
7.根据权利要求1所述的图像分析方法,其特征在于,所述图像分析方法还包括:
将所述当前图像的图像特征和所述映射特征进行融合,得到所述当前图像的融合特征;
利用所述融合特征获取所述当前图像的第一全景分割结果。
8.根据权利要求7所述的图像分析方法,其特征在于,所述图像分析方法还包括:
利用特征对齐损失函数和/或分割一致损失函数对所述融合特征进行优化。
9.根据权利要求1所述的图像分析方法,其特征在于,
所述利用所述当前图像的第一全景分割结果和第二全景分割结果,得到所述当前图像的最终全景分割结果,包括:
获取所述第一全景分割结果与所述第二全景分割结果的交集分割结果;
通过所述交集分割结果得到所述当前图像的最终全景分割结果。
10.一种图像分析装置,其特征在于,所述图像分析装置包括图像全景分割模块、视觉里程计模块以及视频全景分割模块;其中,
所述图像全景分割模块,用于获取图像序列、光流数据和所述图像序列中各个图像的参考数据,其中,所述参考数据包括相机位姿数据和深度数据;按照当前图像的图像特征获取所述当前图像的第一全景分割结果;
所述视觉里程计模块,用于利用所述第一全景分割结果以及所述光流数据,获取全景感知光流表示数据;利用所述全景感知光流表示数据对所述相机位姿数据和/或所述深度数据进行优化,得到新的相机位姿数据和/或新的深度数据;
所述视频全景分割模块,用于基于所述新的相机位姿数据和/或新的深度数据将所述当前图像的前一帧图像的图像特征映射到所述当前图像,得到所述当前图像的映射特征;按照所述当前图像的映射特征获取所述当前图像的第二全景分割结果;利用所述当前图像的第一全景分割结果和第二全景分割结果,得到所述当前图像的最终全景分割结果。
11.一种视频编辑方法,其特征在于,所述视频编辑方法包括:
获取待编辑视频;
利用权利要求1至9任一项所述的图像分析方法获取所述待编辑视频中若干视频帧的全景分割结果;
按照所述若干视频帧的全景分割结果,获取所述待编辑视频中动态物体的动态光流;
响应于用户的控制指令,利用所述动态物体的动态光流控制所述动态物体在所述待编辑视频中的位置。
12.根据权利要求11所述的视频编辑方法,其特征在于,
所述控制指令包括关于所述动态物体的加速、减速、暂停、反向、复制、删除中的一种或多种操作指令。
13.根据权利要求11所述的视频编辑方法,其特征在于,
所述按照所述若干视频帧的全景分割结果,获取所述待编辑视频中动态物体的动态光流,包括:
采用所述若干视频帧的全景分割结果、光流数据、相机位姿数据和深度数据分解所述待编辑视频中不同动态物体的动态光流。
14.根据权利要求11或13所述的视频编辑方法,其特征在于,
所述利用所述动态物体的动态光流控制所述动态物体在所述待编辑视频中的位置之后,所述视频编辑方法还包括:
获取在所述待编辑视频中与所述动态物体处于相同位置的遮挡物体;
利用所述动态物体的深度数据和所述遮挡物体的深度数据进行遮挡检测,以确定所述动态物体和所述遮挡物体在所述待编辑视频中的前后位置关系。
15.一种视频编辑装置,其特征在于,所述视频编辑装置包括视频获取模块、视频分割模块以及视频编辑模块;其中,
所述视频获取模块,用于获取待编辑视频;
所述视频分割模块,用于利用权利要求1至9任一项所述的图像分析方法获取所述待编辑视频中若干视频帧的全景分割结果;按照所述若干视频帧的全景分割结果,获取所述待编辑视频中动态物体的动态光流;
所述视频编辑模块,用于响应于用户的控制指令,利用所述动态物体的动态光流控制所述动态物体在所述待编辑视频中的位置。
16.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至9任一项所述的图像分析方法,和/或实现权利要求11至14任一项所述的视频编辑方法。
17.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至9任一项所述的图像分析方法,和/或实现权利要求11至14任一项所述的视频编辑方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210369918.8A CN114943747A (zh) | 2022-04-08 | 2022-04-08 | 图像分析方法及其装置、视频编辑方法及其装置、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210369918.8A CN114943747A (zh) | 2022-04-08 | 2022-04-08 | 图像分析方法及其装置、视频编辑方法及其装置、介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114943747A true CN114943747A (zh) | 2022-08-26 |
Family
ID=82906323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210369918.8A Pending CN114943747A (zh) | 2022-04-08 | 2022-04-08 | 图像分析方法及其装置、视频编辑方法及其装置、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114943747A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115690170A (zh) * | 2022-10-08 | 2023-02-03 | 苏州大学 | 一种针对不同尺度目标自适应的光流估计的方法及系统 |
CN115775325A (zh) * | 2023-01-29 | 2023-03-10 | 摩尔线程智能科技(北京)有限责任公司 | 一种位姿确定方法及装置、电子设备和存储介质 |
-
2022
- 2022-04-08 CN CN202210369918.8A patent/CN114943747A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115690170A (zh) * | 2022-10-08 | 2023-02-03 | 苏州大学 | 一种针对不同尺度目标自适应的光流估计的方法及系统 |
CN115775325A (zh) * | 2023-01-29 | 2023-03-10 | 摩尔线程智能科技(北京)有限责任公司 | 一种位姿确定方法及装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiang et al. | Deep learning for image inpainting: A survey | |
Zhu et al. | RGB-D local implicit function for depth completion of transparent objects | |
Schmidt et al. | Self-supervised visual descriptor learning for dense correspondence | |
Truong et al. | Pdc-net+: Enhanced probabilistic dense correspondence network | |
Wang et al. | Hmor: Hierarchical multi-person ordinal relations for monocular multi-person 3d pose estimation | |
CN112530019B (zh) | 三维人体重建方法、装置、计算机设备和存储介质 | |
Chen et al. | 3d point cloud processing and learning for autonomous driving | |
CN114943747A (zh) | 图像分析方法及其装置、视频编辑方法及其装置、介质 | |
CN114937083B (zh) | 一种应用于动态环境的激光slam系统及方法 | |
CN113781519A (zh) | 目标跟踪方法和目标跟踪装置 | |
Hoque et al. | Deep learning for 6D pose estimation of objects—A case study for autonomous driving | |
WO2023178951A1 (zh) | 图像分析方法、模型的训练方法、装置、设备、介质及程序 | |
You et al. | MISD‐SLAM: multimodal semantic SLAM for dynamic environments | |
Hwang et al. | Lidar depth completion using color-embedded information via knowledge distillation | |
CN116597336A (zh) | 视频处理方法、电子设备、存储介质及计算机程序产品 | |
Dai et al. | RGB‐D SLAM with moving object tracking in dynamic environments | |
Xu et al. | MRFTrans: Multimodal Representation Fusion Transformer for monocular 3D semantic scene completion | |
Zhao et al. | Human pose regression through multiview visual fusion | |
Qiao et al. | Objects matter: Learning object relation graph for robust absolute pose regression | |
Wang et al. | 3D object detection algorithm for panoramic images with multi-scale convolutional neural network | |
Li et al. | Centroid-based graph matching networks for planar object tracking | |
Langerman et al. | Domain Adaptation of Networks for Camera Pose Estimation: Learning Camera Pose Estimation Without Pose Labels | |
Ren et al. | Multi-scale convolutional feature fusion for 6D pose estimation | |
Liu et al. | Deep learning for 3D human pose estimation and mesh recovery: A survey | |
Wang et al. | ST-PixLoc: a scene-agnostic network for enhanced camera localization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |