CN112200756A

CN112200756A - 一种子弹特效短视频智能生成方法

Info

Publication number: CN112200756A
Application number: CN202011072459.4A
Authority: CN
Inventors: 段昶; 赵犇; 朱策
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2021-01-08

Abstract

本发明提供了一种子弹特效短视频智能生成方法，包括如下步骤：S1：通过阵列相机拍摄出视频或图片材料；S2：根据视频或图片材料将要进行子弹特效制作的帧选取出来；S3：将由于相机摆放产生的误差进行修正；S4：对图片中要切割的目标分割出来；S5：结合目标的深度信息将其融合到另一视频中；S6：最后将融合帧连接生成子弹特效短视频。

Description

一种子弹特效短视频智能生成方法

技术领域

本发明属于图像融合技术领域，尤其涉及一种子弹特效短视频智能生成方法。

背景技术

视频充斥的我们的日常生活，我们有着很多获取视频的方式，多视点采集视频再电影制作中很常见，然后通过剪辑来生成一些特效来产生有趣吸引人的视频，而通过人手动的去剪辑来生成特效，太过于耗费时间，希望通过算法代替手动剪辑来生成这些特效。采集多视点视频需要使用到阵列式相机，就是用多个小镜头来代替一个大镜头的拍摄效果，其原理和阵列式天文望远镜及昆虫的复眼类似。和传统的相机来对比的话，阵列式相机能够有更加好的视野，得到更多的信息。多相机阵列图像处理系统由多个子相机组成,建立在单相机的图像处理技术基础上。例如在图像融合,视频融合技术是虚拟现实技术的一个分支，也可以说是虚拟现实的一个发展阶段。视频融合技术指将一个或多个由视频采集设备采集的关于某场景或模型的图像序列视频与一个与之相关的虚拟场景加以融合，以生成一个新的关于此场景的虚拟场景或模型。多相机系统需要对单个相机结果进行综合处理,完成目标在多相机之间的深度信息然后来判断物体之间的遮挡关系。项目从实际应用角度出发,研究并实现多相机阵列的视频融合。根据应用场景需求,完成将阵列相机拍摄的视频信息在计算机上处理，进行视频融合。将视频图像传输到计算机。计算机完成多相机之间的信息处理并将目标融合进视频当中。

对于阵列相机拍摄的信息进行处理主要是通过阵列相机获取的视频然后进行合成处理，本文介绍的时通过抠图与深度估计得到其中的信息来进行视频的融合，视频融合是基于两个或多个视频图像信息的过程。由于图像采集的场景，融合的目的和使用的算法不同，需要对融合进行分类。根据融合过程中算法的空间域范围，图像融合可以分为两类：空间域和变换域。空间域图像融合是一种图像融合算法，可对图像像素执行简单快速的操作。通过源图像的多尺度分解来进行变换域的融合，再通过分解获得的系数来获得融合系数，最后进行算法重构。

一般按照融合过程中信息处理的复杂程度，一般将融合分为三类像素级的融合，特征级的像素融合以及决策级的特征融合。基于像素层面的融合是指，直接对图像的像素进行操作得到的融合图像的过程。特征级的像素融合。基于特征层面图像融合是指，首先从源图像中提取图像的特征信息，即代表图像轮廓、纹理的信息，然后再对提取到的特征信息进行处理的过程。基于决策层面的图像融合是对图像进行判断与推理的过程。基于决策层面的融合过程首先模拟人的判断与分析，对图像进行初步判定，然后对判定的结果进行相关处理，最后进行图像融合。

金字塔变换由Burt P.J.和Adelson E.H.等在1983年提出。金字塔变换的优点是能较为突出的表征图像的特征信息；存在的不足是图像信息丢失较多，分解过程不具备方向性。

小波变换可以将原始图像分解为不同的频域子图像，并能反映原始图像细节。随着小波技术的进步，小波逐渐应用到图像处理领域。小波变换不仅可以获得低频信息，还可以获得高频部分的水平、垂直和对角线三个方向信息。与传统的基于塔分解的方法相比，小波变换的融合效果更好。

由于小波变换获取的方向信息比较局限，无法有效捕获图像的轮廓纹理特征，其中M.Choi提出的Curvelet变换和Contourlet变换因各向异性等特点表现出比小波变换更加适合于刻画二维图像中的曲线或直线的能力,被迅速引入到可见光图像融合以及多光谱与全色卫星图像融合技术。

非采样Contourlet变换是由A.L.Cunha等提出的，克服了Contourlet变换没有平移不变性的缺点。张强等人将非采样Contourlet变换运用到遥感图像的融合中，通过对每个波段进行双插值运算得到低频系数，对高频子带系数采用物理的注入模型进行调整，得到融合后的高频系数，最终获得的融合图像空间分辨率明显提高。

如何来得到场景的深度信息这个是计算机视觉领域一个经典问题，基于图像的深度估计方法根据不同的输入图像数量可分为多幅图像深度估计方法与单幅图像深度估计方法。基于多幅图像的深度估计方法包括多视立体几何(MVS) 算法(Barnard和Fischler；1982；Dhond和Aggarwal，1989)、运动中恢复结构(SFM)算法(Dellaert等，2000；Tomasi和Kanade，1992)与从阴影中恢复形状 (SFS)算法(Zhang等，1999)等。MVS利用三角测量法对左右视图进行匹配计算深度，其原理类似人眼的双目立体成像过程，SFM则利用单摄像机捕获的时间序列图像获取深度，SFS一般利用灰度图像中变化的阴影恢复物体表面形状。

从单幅RGB图像中估计深度的方法也称单目深度估计方法，是计算机视觉领域近年来热门的研究课题，但该问题是一个病态问题(Eigen等，2014)，其原因在于单张RGB图片对应的真实场景可能有无数个，而图像中没有稳定的线索来约束这些可能性。受人类能够轻易地利用经验和图像中的线索推断出单幅图像对应的深度信息的启发，早期的研究根据光学原理，利用图像中的离焦信息恢复深度(DFD)(Asada等，1998；Favaro和Soatto，2005；Nayar和 Nakagawa，1994；Pentland，1987)，其基本假设是图像中焦点所在位置景物最为清晰，离焦点越远模糊程度越深。

随着深度学习的迅速发展，深度神经网络以其强大的特征拟合能力和优异的性能，在计算机视觉、自然语言处理和语音识别等各个领域发挥了重要作用。神经网络由诸多神经元按照一定的拓扑结构连接而成。对于高维的图像数据，实验中常利用Lecun等人(1998)在Lenet架构中提出的CNN进行处理。CNN利用权值共享的策略让一组神经元共享参数来节省计算开销。类似于动物视觉系统的多层抽象机制(Hubel和Wiesel，1970)，CNN利用卷积核提取图像特征，通过深度神经网络对特征逐层抽象来完成高级的视觉任务。基于深度学习的单幅图像估计方法。

Eigen等人(2014)首次将深度神经网络用于单目深度估计任务。提出使用两个尺度的神经网络对单张图片的深度进行估计:粗尺度网络预测图片的全局深度，细尺度网络优化局部细节。网络由两个堆栈组成，两个网络均以RGB图片作为输入，原始图片输入粗尺度网络后，得到全局尺度下场景深度的粗略估计结果。然后将粗尺度网络的输出作为附加的第一层图像特征传递给细尺度网络，对全局预测进行局部优化以添加更多的细节信息。粗尺度网络的任务是预测场景的全局深度，有效地利捕获诸如消失点、目标位置和空间对齐等。

Eigen等人(2015)基于上述工作改进后提出了一个统一的多尺度网络框架，分别将其用于深度预测，表面法向量估计和语义分割3个任务。值得一提的是，这里是将同一框架独立应用于不同任务，并不是多任务统一学习，因此将此归为单任务方法。不同的任务设定不同的损失函数，使用不同的数据集训练。网络模型是端到端的，不需要后处理。网络结构，共包含3个尺度的网络，scale1 网络对整张图片做粗略估计，然后用scale2和scale3网络对全局预测进行细节优化。利用第3个细尺度的网络进一步增添细节信息，提高分辨率；将scale1 网络的多通道特征图输入scale2网络，联合训练前面两个尺度的网络，简化训练过程，提高网络性能。

目前的子弹特效视频的生成多为人工手动剪辑制作，制作流程长耗时多，且为了便于后期处理，除了真正的拍摄场景，还需要搭建特殊的场景进行拍摄用于后期分割融合处理也因此导致目标深度信息与背景信息不匹配，需要人工进行遮挡关系判断。

发明内容

鉴于现有技术的不足，本发明公开了一种子弹特效短视频智能生成方法，以解决现有技术的不足。

为了实现上述目的，本发明采用了如下技术方案：

一种子弹特效短视频智能生成方法，包括如下步骤：

S1：通过阵列相机拍摄出视频或图片材料；

S2：根据视频或图片材料将要进行子弹特效制作的帧选取出来；

S3：将由于相机摆放产生的误差进行修正；

S4：对图片中要切割的目标分割出来；

S5：结合目标的深度信息将其融合到另一视频中；

S6：最后将融合帧连接生成子弹特效短视频。

作为上述技术方案的进一步描述：所述步骤S2中帧选取的指标包括：

(1)距离上一关键帧的帧数是否足够多(时间)；

(2)距离最近关键帧的距离是否足够远(空间)/运动；

(3)跟踪质量/共视特征点这种方法就是记录当前视角下的特征点数、或者视角。

作为上述技术方案的进一步描述：所述步骤S3中修正具体包括：

由于在视频或照片拍摄过程中相机摆设位置未能在同一基准上，导致之后合成的视频场景会出现上下抖动，通过计算出目标在相机中在一些标准下的相对位置，使得目标在照片中处于稳定的相对位置，减少生成视频的抖动。

作为上述技术方案的进一步描述：所述步骤S4中目标分割包括制作α图和 Trimap图，其中公式包括：

I_i＝α_iF_i+(1-α_i)B_iα_i∈[0,1]

其中，像素i处的RGB值I_i是已知的，前景色F_i、背景色B_i以及不透明度α_i是未知的。这个公式反映出一个模型，把原始图像看作由若干图中对象叠加合成所组成的图像，α则是每个对象的不透明度(在[0,1]区间变化，1为不透明， 0为完全透明)。

作为上述技术方案的进一步描述：所述步骤S4中a图的制作方法，包括如下步骤：

(1)输入要进行matting的图；

(2)为了解出未知的前景色、背景色以及不透明度，就需要用户提供先验信息，在此处一般是提供trimap，将能轻易辨认的部分分别在原图标志为前景和背景，剩下不容易确定的部分则为未知区域由计算机处理，这样一张由人工制作的包含前景、背景和未知区域的图就叫作trimap图；

(3)将制作的Trimap图输入到训练的DeepMatting网络中进行计算；

(4)最终得到需要的α图也就是最终用于Matting的图。

作为上述技术方案的进一步描述：所述步骤S4中Trimap图的制作方法，包括如下步骤：

(1)输入需要生成Trimap的图像；

(2)对图像进行分割得到制作Trimap的Mask图；

(3)对Mask图进行二值化处理；

(4)使用腐蚀膨胀算法对Mask图进行操作来进行Trimap图的制作，得到 Trimap图。

作为上述技术方案的进一步描述：所述步骤S5具体为：采取深度估计的方法来判断两个融合视频中目标与背景之间的遮挡关系，并在空间域进行图像融合。

本发明具有如下有益效果：

本发明的整个流程由计算机自动完成，省时省力。自动对目标进行分割，因此不需要在此建立特殊场景用于人工分割，且因此可以通过深度估计方法获得目标与背景的深度，此时的深度信息的对比是有效的，以此对目标与背景的遮挡关系进行判断，不需要人工进行判断。

附图说明

图1为本发明提供的一种子弹特效短视频智能生成方法的流程示意图；

图2为α图制作方法的流程示意图；

图3为Trimap图制作方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种子弹特效短视频智能生成方法，包括如下步骤：

1)阵列相机拍摄的视频：通过阵列相机拍摄出视频或图片材料；

2)子弹特效关键帧选取：根据视频或图片材料将要进行子弹特效制作的帧选取出来；

3)目标配准：将由于相机摆放产生的误差进行修正；

4)目标精准分割：对图片中要切割的目标分割出来；

5)图像融合：结合目标的深度信息将其融合到另一视频中；

6)子弹特效短视频：最后将融合帧连接生成子弹特效短视频。

在本实施例中，关键帧目前是一种非常常用的方法，可以减少待优化的帧数，并且可以代表其附近的帧。视频相比图像来说信息更加丰富，但是一个序列里冗余信息太多，如何提取关键帧的信息对于很多任务都是至关重要的。所述步骤2)中关键帧选取的指标包括：

(1)距离上一关键帧的帧数是否足够多(时间)。比如我每隔固定帧数选择一个关键帧，这样编程简单但效果不好。比如运动很慢的时候，就会选择大量相似的关键帧，冗余，运动快的时候又丢失了很多重要的帧。

(2)距离最近关键帧的距离是否足够远(空间)/运动。比如相邻帧计算运动的相对大小，可以是位移也可以是旋转或者两个都考虑，运动足够大(超过一定阈值)就新建一个关键帧，这种方法比第一种好。但问题是如果对着同一个物体来回扫就会出现大量相似关键帧。

(3)跟踪质量(主要根据跟踪过程中搜索到的点数和搜索的点数比例)/ 共视特征点这种方法就是记录当前视角下的特征点数，或者视角，当相机离开当前场景时才会新建关键帧，避免了第2种方法的问题。缺点是比较复杂。

在本实施例中，所述步骤3)中修正具体包括：

在本实施例中，所述步骤4)中目标分割包括制作α图和Trimap图，其中公式包括：

I_i＝α_iF_i+(1-α_i)B_iα_i∈[0,1]

在本实施例中，所述步骤4)中a图的制作方法，包括如下步骤：

(1)输入要进行matting的图；

(3)将制作的Trimap图输入到训练的DeepMatting网络中进行计算；

(4)最终得到需要的α图也就是最终用于Matting的图。

在本实施例中，所述步骤4)中Trimap图的制作方法，包括如下步骤：

(1)输入需要生成Trimap的图像；

(2)对图像进行分割得到制作Trimap的Mask图；

(3)对Mask图进行二值化处理；

在本实施例中，视频融合就是在已获得的两个或者多个视频的基础上。由于图像采集的场景，融合的目的和使用的算法不同，需要对融合进行分类。根据融合过程中算法的空间域范围，图像融合可以分为两类：空间域和变换域。空间域图像融合是一种图像融合算法，可对图像像素执行简单快速的操作。通过源图像的多尺度分解来进行变换域的融合，再通过分解获得的系数来获得融合系数，最后进行算法重构。在本发明的视频融合中将采取深度估计的方法来判断两个融合视频中目标与背景之间的遮挡关系,在空间域进行图像融合。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种子弹特效短视频智能生成方法，其特征在于，包括如下步骤：

S1：通过阵列相机拍摄出视频或图片材料；

S3：将由于相机摆放产生的误差进行修正；

S4：对图片中要切割的目标分割出来；

S5：结合目标的深度信息将其融合到另一视频中；

S6：最后将融合帧连接生成子弹特效短视频。

2.根据权利要求1所述的子弹特效短视频智能生成方法，其特征在于，所述步骤S2中帧选取的指标包括：

(1)距离上一关键帧的帧数是否足够多(时间)；

(2)距离最近关键帧的距离是否足够远(空间)/运动；

3.根据权利要求1所述的子弹特效短视频智能生成方法，其特征在于，所述步骤S3中修正具体包括：

4.根据权利要求1所述的子弹特效短视频智能生成方法，其特征在于，所述步骤S4中目标分割包括制作α图和Trimap图，其中公式包括：

I_i＝α_iF_i+(1-α_i)B_iα_i∈[0,1]

其中，像素i处的RGB值I_i是已知的，前景色F_i、背景色B_i以及不透明度α_i是未知的。这个公式反映出一个模型，把原始图像看作由若干图中对象叠加合成所组成的图像，α则是每个对象的不透明度(在[0,1]区间变化，1为不透明，0为完全透明)。

5.根据权利要求4所述的子弹特效短视频智能生成方法，其特征在于，所述步骤S4中a图的制作方法，包括如下步骤：

(1)输入要进行matting的图；

(3)将制作的Trimap图输入到训练的DeepMatting网络中进行计算；

(4)最终得到需要的α图也就是最终用于Matting的图。

6.根据权利要求5所述的子弹特效短视频智能生成方法，其特征在于，所述步骤S4中Trimap图的制作方法，包括如下步骤：

(1)输入需要生成Trimap的图像；

(2)对图像进行分割得到制作Trimap的Mask图；

(3)对Mask图进行二值化处理；

(4)使用腐蚀膨胀算法对Mask图进行操作来进行Trimap图的制作，得到Trimap图。

7.根据权利要求1所述的子弹特效短视频智能生成方法，其特征在于，所述步骤S5具体为：采取深度估计的方法来判断两个融合视频中目标与背景之间的遮挡关系，并在空间域进行图像融合。