CN110876036B

CN110876036B - 一种视频生成的方法以及相关装置

Info

Publication number: CN110876036B
Application number: CN201811014611.6A
Authority: CN
Inventors: 方璡
Original assignee: Tencent Cyber Tianjin Co Ltd
Current assignee: Tencent Cyber Tianjin Co Ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2022-08-02
Anticipated expiration: 2038-08-31
Also published as: CN110876036A

Abstract

本发明实施例公开了一种视频生成的方法，包括：从全景图像中获取第一时刻下的第一剪裁图像，其中，所述第一剪裁图像中包括目标对象，所述目标对象包括至少一个目标子对象；从所述全景图像中获取第二时刻下的第二剪裁图像，其中，所述第二剪裁图像中包括所述目标对象，所述第二时刻出现在所述第一时刻之后；根据所述第一剪裁图像以及所述第二剪裁图像生成目标视频。本发明实施例还公开一种视频生成装置以及终端设备。本发明实施例中当被拍摄的目标对象在全景图像范围内移动时，拍摄者无需移动终端设备也可得到剪裁后输出的视频，从而大幅度的降低了自动跟拍的成本。

Description

一种视频生成的方法以及相关装置

技术领域

本发明涉及多媒体信息处理领域，尤其涉及一种视频生成的方法以及相关装置。

背景技术

随着现代科技的高速发展，自动跟拍技术也日益成熟。利用一套自动跟拍系统可以实现对画面中的目标对象进行跟踪拍摄，比如，画面中的人物正在跳舞，自动跟拍系统能够对准舞者的位置拍摄。

目前所采用的自动跟拍系统如图1所示，图1为现有方案中自动跟拍系统的一个结构示意图，自动跟拍系统需要采用电子控制云台系统，摄像机可以根据画面中目标对象的移动，相应地控制用电子控制云台系统转动，或者指向目标对象的移动位置，从而实现自动跟拍。

然而，自动跟拍系统不但需要包括云台以及摄像机，还需要设计专用的电子控制云台系统，从而导致应用成本和技术成本较大。

发明内容

本发明实施例提供了一种视频生成的方法以及相关装置，当被拍摄的目标对象在全景图像范围内移动时，拍摄者无需移动终端设备也可得到剪裁后输出的视频，从而大幅度的降低了自动跟拍的成本。

有鉴于此，本发明的第一方面提供了一种视频生成的方法，包括：

从全景图像中获取第一时刻下的第一剪裁图像，其中，所述第一剪裁图像中包括目标对象，所述目标对象包括至少一个目标子对象；

从所述全景图像中获取第二时刻下的第二剪裁图像，其中，所述第二剪裁图像中包括所述目标对象，所述第二时刻出现在所述第一时刻之后；

根据所述第一剪裁图像以及所述第二剪裁图像生成目标视频。

本发明的第二方面提供了一种视频生成装置，包括：

获取模块，用于从全景图像中获取第一时刻下的第一剪裁图像，其中，所述第一剪裁图像中包括目标对象，所述目标对象包括至少一个目标子对象；

所述获取模块，还用于从所述全景图像中获取第二时刻下的第二剪裁图像，其中，所述第二剪裁图像中包括所述目标对象，所述第二时刻出现在所述第一时刻之后；

生成模块，用于根据所述获取模块获取的所述第一剪裁图像以及所述第二剪裁图像生成目标视频。

本发明的第三方面提供了一种视频生成的方法，包括：

获取所述第一时刻下目标对象的第一声源，其中，所述目标对象包括至少一个目标子对象；

根据所述第一声源确定所述目标对象所对应的第一位置；

根据所述目标对象所对应的第一位置，从全景图像中获取所述第一时刻下的所述第一剪裁图像；

获取所述第二时刻下所述目标对象的第二声源，其中，所述第二时刻出现在所述第一时刻之后；

根据所述第二声源确定所述目标对象所对应的第二位置；

根据所述目标对象所对应的第二位置，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像；

本发明的第四方面提供了一种视频生成的方法，包括：

获取模块，用于获取所述第一时刻下目标对象的第一声源，其中，所述目标对象包括至少一个目标子对象；

确定模块，用于根据所述获取模块获取的所述第一声源确定所述目标对象所对应的第一位置；

所述获取模块，还用于根据所述确定模块确定的所述目标对象所对应的第一位置，从全景图像中获取所述第一时刻下的所述第一剪裁图像；

所述获取模块，还用于获取所述第二时刻下所述目标对象的第二声源，其中，所述第二时刻出现在所述第一时刻之后；

所述确定模块，还用于根据所述获取模块获取的所述第二声源确定所述目标对象所对应的第二位置；

所述获取模块，还用于根据所述确定模块确定的所述目标对象所对应的第二位置，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像；

本发明的第五方面提供了一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述第一剪裁图像以及所述第二剪裁图像生成目标视频；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本发明的第六方面提供了一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述第一声源确定所述目标对象所对应的第一位置；

根据所述第二声源确定所述目标对象所对应的第二位置；

本发明的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，提供了一种视频生成的方法，视频生成装置首先从全景图像中获取第一时刻下的第一剪裁图像，其中，第一剪裁图像中包括目标对象，目标对象包括至少一个目标子对象，然后从全景图像中获取第二时刻下的第二剪裁图像，其中，第二剪裁图像中包括目标对象，第二时刻出现在第一时刻之后，最后，视频生成装置可以根据第一剪裁图像以及第二剪裁图像生成目标视频。通过上述方式，当被拍摄的目标对象在全景图像范围内移动时，拍摄者无需移动终端设备也可得到剪裁后输出的视频，从而大幅度的降低了自动跟拍的成本。

附图说明

图1为现有方案中自动跟拍系统的一个结构示意图；

图2为本发明应用场景中视频生成的方法一个实施例示意图；

图3为本发明实施例中视频生成的方法一个实施例示意图；

图4为本发明实施例中全景图像的一个示意图；

图5为本发明实施例中第一剪裁图像在全景图像的一个示意图；

图6为本发明实施例中第二剪裁图像在全景图像的一个示意图；

图7为本发明实施例中生成一个目标子对象视频的实施例示意图；

图8为本发明实施例中生成多个目标子对象视频的实施例示意图；

图9为本发明实施例中视频生成的方法另一个实施例示意图；

图10为本发明实施例中基于声源切换目标子对象的实施例示意图；

图11为本发明实施例中视频生成装置一个实施例示意图；

图12为本发明实施例中视频生成装置另一个实施例示意图；

图13为本发明实施例中视频生成装置另一个实施例示意图；

图14为本发明实施例中视频生成装置一个实施例示意图；

图15为本发明实施例中终端设备一个结构示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包括，例如，包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本发明实施例所提供的视频生成方法可应用于自动跟拍的场景，在无需增加额外硬件的情况下，拍摄者可以利用终端设备拍摄一个有限范围，被摄对象在有限范围内进行移动或者发出声音即可实现自动画面追踪。基于上述介绍的视频生成方法，可将该方法部署于应用程序上，其中，该应用程序可以社交类应用程序，也可以是多媒体类应用程序，还可以是交互式应用程序(比如游戏等)，本发明将以短视频创作与分享类应用程序为例进行介绍。

为了便于介绍，请参阅图2，图2为本发明应用场景中视频生成的方法一个实施例示意图。如图所示，首先固定一个拍摄角度，在这个拍摄角度下可以得到全景图像，全景图像用于展示被拍摄场景。需要说明的是，在拍摄全景图像的过程中应包括被拍摄对象，且被拍摄对象(如人群)从初始位置A移动至结束位置B。接下来，对于全景图像而言需要对被拍摄对象进行剪裁取景，于是对初始位置A所包含的被拍摄对象进行剪裁，并且生成对应的初始位置A跟拍输出视频。同理在被拍摄对象移动到结束位置B的过程中。对结束位置B所包含的被拍摄对象也进行剪裁。并且生成对应的结束位置B跟拍输出视频。通过对被拍摄对象进行智能剪裁而输出连贯的目标视频。

本发明实施例的核心在于，可根据终端设备拍摄的全景图像进行剪裁取景的方式实现跟踪效果视频的输出。

可以理解的是，本发明中拍摄图像的摄像头可以是外置摄像头，也可以是内置摄像头，具体还可以是360度全景摄像头。内置摄像头是指摄像头在终端设备内部，更方便。外置终端设备通过数据线或者终端设备下部接口与数码相机相连，来完成数码相机的拍摄功能。外置摄像头的优点在于可以减轻终端设备的重量。摄像头的功能主要包括拍摄静态图像，连拍功能，短片拍摄，镜头可旋转，自动白平衡，内置闪光灯等。终端设备的拍摄功能是与其屏幕材质、屏幕的分辨率、摄像头像素以及摄像头材质有直接关系。

下面将从视频生成装置的角度，对本发明中视频生成的方法进行介绍，请参阅图3，本发明实施例中视频生成的方法一个实施例包括：

101、从全景图像中获取第一时刻下的第一剪裁图像，其中，第一剪裁图像中包括目标对象，目标对象包括至少一个目标子对象；

本实施例中，部署于终端设备上的视频生成装置首先获取全景图像。其中，这里的全景图像可以是通过终端设备上的摄像头实时拍摄得到的，也可以预先储存在终端设备上的，或者是由其他终端设备向视频生成装置发送的，又或者是视频生成装置从服务器上下载的，此处不做限定。

这里的全景图像通常具有固定的视角，也就是说，在获取全局图像的过程中无需用户来回移动终端设备的摄像头来拍摄，而是直接固定该终端设备的摄像头即可。

为了便于介绍，请参阅图4，图4为本发明实施例中全景图像的一个示意图，以舞台为例，全景图像中所包括的拍摄场景是一个舞台全景，舞者在舞台上舞动，舞者即为目标对象，如果是群舞的话则包含多个舞者，即目标对象包含至少一个目标子对象。这里的至少一个目标子对象可以是一个目标子对象，也可以是多个目标子对象。可以理解的是，全景图像还可以包括舞台场景，也可以包括运动场场景、会议场景以及街道场景等，此处仅为一个示意，并不应理解为对本发明的限定。

在视频生成装置获取全景图像之后，即可从该全景图像中截取第一时刻下的第一剪裁图像，这里的第一剪裁图像中需要包含目标对象。为了便于介绍，请参阅图5，图5为本发明实施例中第一剪裁图像在全景图像的一个示意图，如图所示，S1所示的区域即为第一剪裁图像所对应的区域，目标对象即为正在舞动的舞者。

102、从全景图像中获取第二时刻下的第二剪裁图像，其中，第二剪裁图像中包括目标对象，第二时刻出现在第一时刻之后；

本实施例中，在视频生成装置获取第一时刻下的第一剪裁图像之后，在接下来的第二时刻继续从全景图像中截取第二剪裁图像。第二时刻可以是出现在第二时刻之后的任意一个时刻，既可以是目标视频中的一个中间时刻，也可以是目标视频中的结束时刻，此处不做限定。

为了便于介绍，请参阅图6，图6为本发明实施例中第二剪裁图像在全景图像的一个示意图，如图所示，S2所示的区域即为第二剪裁图像所对应的区域，目标对象即为正在舞动的舞者。

需要说明的是，本实施例以第一剪裁图像以及第二剪裁图像为例进行说明，然而，在实际情况下，还可以包括更多的剪裁图像，这里的第一剪裁图像以及第二剪裁图像仅为一个示意，不应理解为对本发明的限定。

103、根据第一剪裁图像以及第二剪裁图像生成目标视频。

本实施例中，视频生成装置对第一剪裁图像以及第二剪裁图像进行拼接，即将第二剪裁图像置于第一剪裁图像之后，从而形成两帧不同的画面，至少两帧画面即可构成目标视频。

在实际应用中，由于目标对象的位置会发生变化，从而导致剪裁图像的位置也会随之发生抖动，因此，需要采用视频平滑算法来压制、弱化或消除由于裁剪位置抖动而引发输出视频画面的抖动等令观看效果下降的情况。视频平滑是对多帧视频画面进行时间序列上进行平均计算，以及设定可调的阈值来让画面抖动超过一定程度时再进行平滑处理，以及可以对目标视频中的多帧图像进行低通滤波，可在空间域或频率域实现。空间域图像平滑方法主要用低通卷积滤波以及中值滤波等；频率域视频平滑常用的低通滤波器有低通梯形滤波器、低通高斯滤波器、低通指数滤波器以及巴特沃思低通滤波器等，还可以采用光流算法等。

另外，在工程化方面，可直接采取对裁剪区域具体坐标数据进行时间序列上的数据平滑处理，而后再输出裁剪的目标视频输出，也可以到达平滑裁剪输出视频的结果。本发明实施例中的平滑主要是指一系列画幅的位置抖动，而非单个画面本身的需要平滑。是需要平滑由于裁剪位置的波动引发的裁剪位置的波动。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供视频生成的方法第一个可选实施例中，从全景图像中获取第一时刻下的第一剪裁图像之前，还可以包括：

通过摄像装置采集全景图像，其中，全景图像具有M个像素，M为大于1的整数；

对全景图像进行压缩处理，以得到目标全景图像；

从全景图像中获取第一时刻下的第一剪裁图像，包括：

从目标全景图像中获取第一时刻下的第一剪裁图像，其中，第一剪裁图像具有N个像素，N为小于M的整数，且N大于1；

从全景图像中获取第二时刻下的第二剪裁图像，包括：

从目标全景图像中获取第二时刻下的第二剪裁图像，其中，第二剪裁图像具有N个像素。

本实施例中，为了保证输出的目标视频画面质量，还可以对超像素采集到的全景图像进行剪裁。其中，超像素概念是图像分割技术，是指具有相似纹理、颜色以及亮度等特征的相邻像素构成的有一定视觉意义的不规则像素块。它利用像素之间特征的相似性将像素分组，用少量的超像素代替大量的像素来表达图片特征，很大程度上降低了图像后处理的复杂度。

对于终端设备的摄像头而言，往往可以拍摄到像素很高的画面，比如拍摄到2000万像素的画面，2000万像素能够达到8K的(分辨率)清晰度。而目标视频的分辨率达到1080逐行扫描(Progressive scanning，P)或者720P就能满足观看需求。于是，可以对采集到的高像素全景图像进行压缩，从而得到目标全景图像，再从目标全景图像中获取第一时刻下的第一剪裁图像，以及获取第二时刻下的第二剪裁图像，即可得到画质较高的第一剪裁图像和第二剪裁图像。

值得注意的是，在实际应用中，对第一剪裁图像和第二剪裁图像的尺寸和比例不作具体限定，可以是在横屏的全景图像中得到的横屏剪裁图像，或者是在横屏的全景图像中得到的竖屏剪裁图像，还可以是在竖屏的全景图像中得到的横屏剪裁图像，或者是在竖屏的全景图像中得到的竖屏剪裁图像。

下面将简单介绍摄像头像素与分辨率的关系。一张图像或者影像，如果将之放大数倍，会发现这些连续的色调其实是由许多色彩相近的小方点所组成，这些小方点就是构成影像的最小单元——像素。所以像素是指图像分辨率的尺寸单位。举例来说，一幅分辨率为1920×1080的图像，意思就是其横向有1920个像素，纵向有1080个像素点，总共就是2088960个像素点。对于屏幕来说，显示分辨率是指屏幕所能显示的最高像素有多少。换句话说，一个屏幕的分辨率为1920×1080P，指的是屏幕能显示得最高分辨率是这个数值，如果加载一个更高分辨率的图片或者影像，那这个屏幕是显示不出来的。所谓1080P视频，一般是指画面分辨率为1920×1080。拍摄1080P视频，在像素量方面200万像素的摄像头基本可以胜任。

其次，本发明实施例中，视频处理装置通过摄像装置采集全景图像，其中，全景图像具有M个像素，然后对全景图像进行压缩处理，以得到目标全景图像，从压缩后的目标全景图像中获取第一时刻下的第一剪裁图像，并且从目标全景图像中获取第二时刻下的第二剪裁图像，其中，第一剪裁图像和第二剪裁图像具有N个像素。通过上述方式，对于大数据量的图像进行压缩，再截取压缩后的图像，可以得到画质较高的图像，也就是说，剪裁图像具有较高的像素，从而大幅提升图像画质。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供视频生成的方法第二个可选实施例中，从全景图像中获取第一时刻下的第一剪裁图像，可以包括：

通过对象识别模型获取在第一时刻下全景图像中目标对象的类型和位置，其中，对象识别模型用于在图像中检测待剪裁对象所对应的类型以及位置；

根据在第一时刻下全景图像中目标对象的类型和位置，生成第一剪裁图像；

从全景图像中获取第二时刻下的第二剪裁图像，可以包括：

通过对象识别模型获取在第二时刻下全景图像中目标对象的类型和位置，其中，对象识别模型用于在图像中检测待剪裁对象所对应的类型以及位置；

根据在第二时刻下全景图像中目标对象的类型和位置，生成第二剪裁图像。

本实施例中，在生成第一剪裁图像和第二剪裁图像的过程中，首先需要在全景图像中识别目标对象。其中，目标对象不仅限于人或者动物，还可以是汽车或者足球等可移动物体。基于不同种类的目标对象，本发明采用对象识别模型对这些目标对象的种类和位置进行识别。

具体地，对象识别模型是经过大量正样本和负样本训练得到的神经网络模型，该神经网络模型具有图像识别的功能，图像识别是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。图像识别是人工智能的一个重要领域。目前主要的图像识别方法有基于神经网络的图像识别方法、基于小波矩的图像识别方法以及基于分形特征等。下面将分别对上述几种图像识别方法进行介绍。

1、基于神经网络的图像识别方法；

神经网络的图像识别系统是神经网络模式识别系统的一种，原理是一致的。一般神经网络图像识别系统由预处理，特征提取和神经网络分类器组成。预处理就是将原始数据中的无用信息删除，平滑，二值化和进行幅度归一化等。神经网络图像识别系统中的特征提取部分不一定存在，这样就分为两大类：有特征提取部分的以及无特征提取部分的。

其中，有特征提取部分的，这一类系统实际上是传统方法与神经网络方法技术的结合，这种方法可以充分利用人的经验来获取模式特征以及神经网络分类能力来识别目标图像。特征提取必须能反应整个图像的特征。无特征提取部分的，省去特征抽取，整副图像直接作为神经网络的输入，这种方式下，系统的神经网络结构的复杂度大大增加了，输入模式维数的增加导致了网络规模的庞大。此外，神经网络结构需要完全自己消除模式变形的影响。但是网络的抗干扰性能好，识别率高。

2、基于小波矩的图像识别方法；

将输入二维二值图像的不变矩作为识别特征，运用误差反向传播算法(ErrorBack Propagation Training，BP)网络进行识别，将输入图像经过归一化处理，极坐标化，旋转不变小波矩特征提取后，送入BP网络分类器进行识别，获得识别结果。其中，基于小波矩的图像识别方法的特点如下：

小波矩特征对具有平移、缩放和旋转的样本具有良好的分辨能力，在未加噪声的情况下，小波矩特征都能正确分辨测试样本，识别率优于几何矩，差距达到30个百分点。

随着添加随机噪声，两种矩特征的识别率都有所下降，但由于小波矩具有较好的提取图像局部特征能力，所以小波矩的识别率下降相对缓慢.最高正确识别率达到98％。

小波矩特征较为稳定，几何矩的分辨能力有时不能随着特征数的增加而稳定，这样需要较多的分辨特征的情况下是不利的。而小波矩虽然也有一定波动，但波动幅度有限，其判别精度整体为稳定增加趋势。

3、基于分形特征的图像识别方法；

一般认为自然纹理图像满足分形特性，可以提取其分形特征以供进一步的纹理分割以及目标对象识别等，而人造目标对象的图像是不满足分形特性的，不可以提取其分形特征。基于分形特征的红外图像识别方法步骤如下：

(1)红外图像预处理，由于探测器本身固有的特性，红外热图像普遍存在目标与背景对比度较差，图像边缘模糊，噪声较大等缺点，因此必须进行预处理，以增强其对比度。

(2)红外图像分形特征提取，分别提取提取基于分形维数的特征、基于赫斯特(Hurst)指数的分形特征、基于缝隙的分形特征。

(3)基于神经网络的红外图像识别。人工神经网络是进行目标识别(包括图像识别)的强有力工具。它通过对原始数据的训练，获得最佳的权系数，取得很好的识别结果。

其次，本发明实施例中，视频生成装置利用对象识别模型分别对不同时刻的全局图像进行识别，得到目标对象在不同时刻所对应的类型和位置，由此根据在第一时刻下全景图像中目标对象的类型和位置，生成第一剪裁图像，并根据在第二时刻下全景图像中目标对象的类型和位置，生成第二剪裁图像。通过上述方式，采用对象识别模型对目标对象的类型和位置进行识别，能够有效地提升识别目标对象的准确度，且可以对不同类型的目标对象进行识别，不仅限于人或者动物，还可以是其他的非生物体，从而提升方案的灵活性和实用性。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供视频生成的方法第三个可选实施例中，从全景图像中获取第一时刻下的第一剪裁图像之前，还可以包括：

接收第一对象选择指令，其中，第一对象选择指令携带一个目标子对象的标识；

根据第一对象选择指令，确定待获取的第一剪裁图像以及第二剪裁图像中包括一个目标子对象。

本实施例中，将以全景图像仅包括一个目标子对象为例，对本发明所提供的视频生成方法进行介绍。

具体地，请参阅图7，图7为本发明实施例中生成一个目标子对象视频的实施例示意图，如图所示，在全景图像中展示有一个舞者，该舞者即为目标子对象。拍摄者可以在终端设备的显示屏幕上点击目标子对象，即触发第一对象选择指令，视频生成装置接收用户触发的第一对象选择指令，解析该指令之后得到目标子对象的标识，从而确定仅对截取包含这个目标子对象的图像，即确定接下来待获取的第一剪裁图像以及第二剪裁图像中都只包括这一个目标子对象。如图7右侧所示的图像可知，最终生成的目标视频只包含一个舞者。其中，“JING”为用户名，“359781”为该用户“JING”的标识号(identity，ID)。

其次，本发明实施例中，视频生成装置从全景图像中获取第一时刻下的第一剪裁图像之前，可接收第一对象选择指令，其中，第一对象选择指令携带一个目标子对象的标识，然后根据第一对象选择指令，确定待获取的第一剪裁图像以及第二剪裁图像中包括一个目标子对象。通过上述方式，拍摄者可根据需求选择一位目标子对象进行目标视频的输出，由此使得方案具有更强的实用性和可行性。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供视频生成的方法第四个可选实施例中，从全景图像中获取第一时刻下的第一剪裁图像之前，还可以包括：

接收第二对象选择指令，其中，第二对象选择指令携带多个目标子对象的标识；

根据第二对象选择指令，确定待获取的第一剪裁图像以及第二剪裁图像中包括多个目标子对象。

本实施例中，将以全景图像仅包括多个目标子对象为例，对本发明所提供的视频生成方法进行介绍。

具体地，请参阅图8，图8为本发明实施例中生成多个目标子对象视频的实施例示意图，如图所示，在全景图像中展示有两个舞者(在实际应用中，还可以包括两个以上的目标子对象)，该舞者即为目标子对象(舞者甲为第一目标子对象，舞者乙为第二目标子对象)。拍摄者可以在终端设备的显示屏幕上点击第一目标子对象和第二目标子对象，即触发第二对象选择指令，视频生成装置接收用户触发的第二对象选择指令，解析该指令之后得到多个目标子对象(第一目标子对象以及第二目标子对象)的标识，从而确定对截取包含这些目标子对象的图像，即确定接下来待获取的第一剪裁图像以及第二剪裁图像中都包括这些个目标子对象。如图8右侧所示的图像可知，最终生成的目标视频只包含两个舞者。其中，“JING”为用户名，“359781”为该用户“JING”的ID。

其次，本发明实施例中，视频生成装置从全景图像中获取第一时刻下的第一剪裁图像之前，可接收第二对象选择指令，其中，第二对象选择指令携带多个目标子对象的标识，然后根据第二对象选择指令，确定待获取的第二剪裁图像以及第二剪裁图像中包括多个目标子对象。通过上述方式，拍摄者可根据需求选择多位目标子对象进行目标视频的输出，由此使得方案具有更强的实用性和可行性。

可选地，在上述图3对应的第四个实施例的基础上，本发明实施例提供视频生成的方法第五个可选实施例中，多个目标子对象包括第一目标子对象以及第二目标子对象；

从全景图像中获取第一时刻下的第一剪裁图像，包括：

当第一目标子对象的位移大于第二目标子对象的位移时，从全景图像中获取第一时刻下的第一剪裁图像，其中，第一剪裁图像中包括第一目标子对象；

当第二目标子对象的位移大于第一目标子对象的位移时，从全景图像中获取第一时刻下的第一剪裁图像，其中，第一剪裁图像中包括第二目标子对象；

从全景图像中获取第二时刻下的第二剪裁图像，包括：

当第一目标子对象的位移大于第二目标子对象的位移时，从全景图像中获取第二时刻下的第二剪裁图像，其中，第二剪裁图像中包括第一目标子对象；

当第二目标子对象的位移大于第目标子对象的位移时，从全景图像中获取第二时刻下的第二剪裁图像，其中，第二剪裁图像中包括第二目标子对象。

本实施例中，将介绍一种如何在具有多个目标子对象的情况下输出目标视频的方法，该情况可以应用于表演或者运动等场景，通常需要在多个对象之间进行切换，比如，舞台上有两位舞者在表演，其中，舞者甲在主舞时，舞者乙作为伴舞在舞台上表演，舞者甲的移动范围需要从舞台一侧到另一侧，而舞者乙的移动范围仅在舞台中央位置处，于是，视频生成装置对舞者甲所在的图像进行剪裁即可，舞者甲即为目标视频中的“主角”。当然，如果舞者乙从伴舞变为主舞，且需要在舞台上进行大范围的移动，则视频生成装置会对舞者乙所在的图像进行剪裁，舞者乙即为目标视频中的“主角”。

具体地，假设多个目标子对象包括第一目标子对象以及第二目标子对象，视频生成装置需要实时检测第一目标子对象的位移和第二目标子对象的位移。若在第一时刻下检测到第一目标子对象的位移大于第二目标子对象的位移，则从全景图像中获取包括第一目标子对象的第一剪裁图像。反之，若在第一时刻下检测到第二目标子对象的位移大于第一目标子对象的位移，则从全景图像中获取包括第二目标子对象的第一剪裁图像。接下来，需要继续检测下一个时刻的目标子对象位移情况。若在第二时刻下检测到第一目标子对象的位移大于第二目标子对象的位移，则从全景图像中获取包括第一目标子对象的第二剪裁图像。反之，若在第二时刻下检测到第二目标子对象的位移大于第一目标子对象的位移，则从全景图像中获取包括第二目标子对象的第二剪裁图像。

再次，本发明实施例中，介绍了一种对不同的目标子对象之间进行切换拍摄的方法。具体为，当检测到第一目标子对象的位移大于第二目标子对象的位移时，从全景图像中获取包括第一目标子对象的剪裁图像，当检测到第二目标子对象的位移大于第一目标子对象的位移时，从全景图像中获取包括第二目标子对象的剪裁图像。也就是说，目标视频包括运动幅度更大的目标子对象。通过上述方式，能够在表演或者运动等动态场景中，优先输出活动幅度更大的目标子对象所对应的视频，一方面增加了对动态场景的适应性，另一方面提升了方案的可行性和灵活性。

下面将从视频生成装置的角度，对本发明中视频生成的方法进行介绍，请参阅图9，本发明实施例中视频生成的方法一个实施例包括：

201、获取第一时刻下目标对象的第一声源，其中，目标对象包括至少一个目标子对象；

首先，视频生成装置获取第一时刻下目标对象的第一声源，其中，目标对象包括至少一个目标子对象。

202、根据第一声源确定目标对象所对应的第一位置；

本实施例中，终端设备还设置有音频输入装置，具体地，音频输入装置具有噪声源识别的功能。噪声源识别是指在同时有许多噪声源或包含许多振动发生部件的复杂声源情况下，为了确定各个声源或振动部件的声辐射的性能，区分噪声源，并根据他们对于生产的作用加以分等而进行的测量与分析。人们的听觉器官就是非常好的识别噪声源的分析器，配合头部扭动运动就相当于一个搭配了运动机构的双麦克风阵列，具有方向性辨别以及频率分析的能力。传声器阵列是由一定数量的传声器按照一定的空间几何位置排列而成的。阵列参数包括传声器的数目，阵列的孔径大小，传声器阵元间距，传声器的空间分布形式等几何参数。另外还包括指向性，波束宽度，最大旁瓣级等衡量阵列性能优劣的特征参数。

一般来说，基于麦克风阵列的声源定位算法划分为三类，一是基于波束形成的方法，二是基于高分辨率谱估计的方法，三是基于声达时延差的方法，此处不对采用上述何种方法进行限定。

视频生成装置根据第一声源确定目标对象所对应的第一位置。

203、根据目标对象所对应的第一位置，从全景图像中获取第一时刻下的第一剪裁图像；

本实施例中，在视频生成装置从全景图像中获取第一时刻下的第一剪裁图像之前，需要先检测在第一时刻下的声源，通过该声源可以找到目标对象所在的第一位置，从而可以从全景图像中获取第一时刻下的第一剪裁图像。

204、获取第二时刻下目标对象的第二声源，其中，第二时刻出现在第一时刻之后；

本实施例中，由于目标对象可能会在发出声音的同时进行移动(比如一边在舞台上演讲，一边来回走动的情况)，因此，在第二时刻仍需要实时检测声源，并且通过声源找到目标对象所在的第二位置，由此从全景图像中获取第二时刻下的第二剪裁图像。当然，如果目标对象在发声的过程中并未进行任何移动，那么第一位置和第二位置不发生变化。

205、根据第二声源确定目标对象所对应的第二位置；

本实施例中，视频生成装置在获取到第二声源之后，根据第二声源可以定位到目标对象所对应的第二位置。

206、根据目标对象所对应的第二位置，从全景图像中获取第二时刻下的第二剪裁图像；

本实施例中，在视频生成装置从全景图像中获取第二时刻下的第二剪裁图像之前，需要先检测在第二时刻下的声源，通过该声源可以找到目标对象所在的第二位置，从而可以从全景图像中获取第二时刻下的第二剪裁图像。

207、根据第一剪裁图像以及第二剪裁图像生成目标视频。

本发明实施例中，介绍了一种利用声源生成目标视频的方式，即在第一时刻先获取第一声源，根据第一声源确定目标对象所对应的第一位置，从而从全景图像中获取第一时刻下的第一剪裁图像。同理，在第二时刻获取第二声源，然后根据第二声源确定该目标对象所对应的第二位置，从而从全景图像中获取第二时刻下的第二剪裁图像，最后，第一剪裁图像和第二剪裁图像分别作为不同帧图像，用于构成目标视频。通过上述方式，为目标视频的生成提供了另一种可行的方式，可以不采用摄像头也能实现视频生成的功能，由此提升方案的灵活性和可行性。

可选地，在上述图9对应的实施例的基础上，本发明实施例提供视频生成的方法第一个可选实施例中，目标对象包括多个目标子对象，且多个目标子对象包括第一目标子对象以及第二目标子对象；

从全景图像中获取第一时刻下的第一剪裁图像，可以包括：

当检测到第一目标子对象的声源时，从全景图像中获取第一时刻下的第一剪裁图像，其中，第一剪裁图像中包括第一目标子对象；

当检测到第二目标子对象的声源时，从全景图像中获取第一时刻下的第一剪裁图像，其中，第一剪裁图像中包括第二目标子对象；

从全景图像中获取第二时刻下的第二剪裁图像，包括：

当检测到第一目标子对象的声源时，从全景图像中获取第二时刻下的第二剪裁图像，其中，第二剪裁图像中包括第一目标子对象；

当检测到第二目标子对象的声源时，从全景图像中获取第二时刻下的第二剪裁图像，其中，第二剪裁图像中包括第二目标子对象。

本实施例中，将介绍一种如何在具有多个目标子对象的情况下输出目标视频的方法，该情况可以应用于会议场景或者演讲场景，通常需要在多个对象之间进行切换，以此达到说话者即为“主角”的效果。而多个目标子对象可以是不同的发言人员或者参会人员。

需要说明的是，本发明实施例是以第一目标子对象以及第二目标子对象为例进行说明的，然而，在实际情况下，目标对象还可以包括更多的目标子对象，这里的第一目标子对象以及第二目标子对象仅为一个示意，不应理解为对本发明的限定。

下面将结合图10说明如何利用音频输入装置实现视频生成的方法，请参阅图10，图10为本发明实施例中基于声源切换目标子对象的实施例示意图，在视频生成装置从全景图像中获取第一时刻下的第一剪裁图像之前，需要先实时检测第一时刻下的声源(即第一声源)，若检测到第一时刻是副总经理正在发言，则副总经理即为第一目标子对象，且根据第一声源确定第一目标子对象所在的第一位置。视频生成装置根据第一位置从全景图像中剪裁出该第一时刻下的第一剪裁图像，第一剪裁图像中展示副总经理正在讲话的画面。

由于生成的目标视频是连贯的，因此，在第一时刻之后的第二时刻仍需要检测声源(即第二声源)，若检测到第二时刻是副总经理正在发言，那么第二目标子对象还是副总经理，于是第二剪裁图像中继续展示副总经理正在讲话的画面。若检测到第二时刻是总经理正在发言，那么第二目标子对象则不再是副总经理，而是总经理，且根据第二声源确定第二目标子对象所在的第二位置。视频生成装置根据第二位置从全景图像中剪裁出该第二时刻下的第二剪裁图像，第二剪裁图像中展示总经理正在讲话的画面。

再次，本发明实施例中，介绍了一种对不同的目标子对象之间进行切换拍摄的方法。具体为，当检测到第一目标子对象的声源时，从全景图像中获取包括第一目标子对象的剪裁图像，当检测到第二目标子对象的声源时，从全景图像中获取包括第二目标子对象的剪裁图像。也就是说，目标视频包括正在发声的目标子对象所对应的画面。通过上述方式，能够在会议场景或者演讲场景中，优先输出正在发声的目标子对象所对应的视频，使得观众的注意力能够放在更具有关注度的对象身上，一方面增加了对会议场景或者其他讲话场景的适应性，另一方面提升了方案的可行性和灵活性。

下面对本发明中的视频生成装置进行详细描述，请参阅图11，图11为本发明实施例中视频生成装置一个实施例示意图，视频生成装置30包括：

获取模块301，用于从全景图像中获取第一时刻下的第一剪裁图像，其中，所述第一剪裁图像中包括目标对象，所述目标对象包括至少一个目标子对象；

所述获取模块301，还用于从所述全景图像中获取第二时刻下的第二剪裁图像，其中，所述第二剪裁图像中包括所述目标对象，所述第二时刻出现在所述第一时刻之后；

生成模块302，用于根据所述获取模块301获取的所述第一剪裁图像以及所述第二剪裁图像生成目标视频。

本实施例中，获取模块301从全景图像中获取第一时刻下的第一剪裁图像，其中，所述第一剪裁图像中包括目标对象，所述目标对象包括至少一个目标子对象，所述获取模块301从所述全景图像中获取第二时刻下的第二剪裁图像，其中，所述第二剪裁图像中包括所述目标对象，所述第二时刻出现在所述第一时刻之后，生成模块302根据所述获取模块301获取的所述第一剪裁图像以及所述第二剪裁图像生成目标视频。

可选地，在上述图11所对应的实施例的基础上，请参阅图12，本发明实施例提供的视频生成装置30的另一实施例中，所述视频生成装置30还包括采集模块303以及压缩模块304；

所述采集模块303，用于所述获取模块301从全景图像中获取第一时刻下的第一剪裁图像之前，通过摄像装置采集所述全景图像，其中，所述全景图像具有M个像素，所述M为大于1的整数；

所述压缩模块304，用于对所述采集模块303采集到的所述全景图像进行压缩处理，以得到目标全景图像；

所述获取模块301，具体用于从所述压缩模块304压缩后得到的所述目标全景图像中获取所述第一时刻下的所述第一剪裁图像，其中，所述第一剪裁图像具有N个像素，所述N为小于所述M的整数，且所述N大于1；

所述获取模块301，具体用于从所述压缩模块304压缩后得到的所述目标全景图像中获取所述第二时刻下的所述第二剪裁图像，其中，所述第二剪裁图像具有所述N个像素。

可选地，在上述图11所对应的实施例的基础上，本发明实施例提供的视频生成装置30的另一实施例中，

所述获取模块301，具体用于通过对象识别模型获取在所述第一时刻下所述全景图像中所述目标对象的类型和位置，其中，所述对象识别模型用于在图像中检测待剪裁对象所对应的类型以及位置；

根据在所述第一时刻下所述全景图像中所述目标对象的类型和位置，生成所述第一剪裁图像；

所述获取模块301，具体用于通过所述对象识别模型获取在所述第二时刻下所述全景图像中所述目标对象的类型和位置，其中，所述对象识别模型用于在图像中检测待剪裁对象所对应的类型以及位置；

根据在所述第二时刻下所述全景图像中所述目标对象的类型和位置，生成所述第二剪裁图像。

可选地，在上述图11所对应的实施例的基础上，请参阅图13，本发明实施例提供的视频生成装置30的另一实施例中，所述视频生成装置30还包括接收模块305以及确定模块306；

所述接收模块305，用于所述获取模块301从全景图像中获取第一时刻下的第一剪裁图像之前，接收第一对象选择指令，其中，所述第一对象选择指令携带一个目标子对象的标识；

所述确定模块306，用于根据所述接收模块305接收的所述第一对象选择指令，确定待获取的所述第一剪裁图像以及所述第二剪裁图像中包括所述一个目标子对象。

可选地，在上述图11所对应的实施例的基础上，请再次参阅图13，本发明实施例提供的视频生成装置30的另一实施例中，所述视频生成装置30还包括所述接收模块305以及所述确定模块306；

所述接收模块305，用于所述获取模块301从全景图像中获取第一时刻下的第一剪裁图像之前，接收第二对象选择指令，其中，所述第二对象选择指令携带多个目标子对象的标识；

所述确定模块306，用于根据所述接收模块305接收的所述第二对象选择指令，确定待获取的所述第一剪裁图像以及所述第二剪裁图像中包括所述多个目标子对象。

可选地，在上述图13所对应的实施例的基础上，本发明实施例提供的视频生成装置30的另一实施例中，所述多个目标子对象包括第一目标子对象以及第二目标子对象；

所述获取模块301，具体用于当所述第一目标子对象的位移大于所述第二目标子对象的位移时，从所述全景图像中获取所述第一时刻下的所述第一剪裁图像，其中，所述第一剪裁图像中包括所述第一目标子对象；

当所述第二目标子对象的位移大于所述第一目标子对象的位移时，从所述全景图像中获取所述第一时刻下的所述第一剪裁图像，其中，所述第一剪裁图像中包括所述第二目标子对象；

所述获取模块301，具体用于当所述第一目标子对象的位移大于所述第二目标子对象的位移时，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像，其中，所述第二剪裁图像中包括所述第一目标子对象；

当所述第二目标子对象的位移大于所述第目标子对象的位移时，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像，其中，所述第二剪裁图像中包括所述第二目标子对象。

下面对本发明中的视频生成装置进行详细描述，请参阅图14，图14为本发明实施例中视频生成装置一个实施例示意图，视频生成装置40包括：

获取模块401，用于获取所述第一时刻下目标对象的第一声源，其中，所述目标对象包括至少一个目标子对象；

确定模块402，用于根据所述获取模块401获取的所述第一声源确定所述目标对象所对应的第一位置；

所述获取模块401，还用于根据所述确定模块402确定的所述目标对象所对应的第一位置，从全景图像中获取所述第一时刻下的所述第一剪裁图像；

所述获取模块401，还用于获取所述第二时刻下所述目标对象的第二声源，其中，所述第二时刻出现在所述第一时刻之后；

所述确定模块402，还用于根据所述获取模块401获取的所述第二声源确定所述目标对象所对应的第二位置；

所述获取模块401，还用于根据所述确定模块402确定的所述目标对象所对应的第二位置，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像；

生成模块403，用于根据所述获取模块获取的所述第一剪裁图像以及所述第二剪裁图像生成目标视频。

本实施例中，获取模块401获取所述第一时刻下目标对象的第一声源，其中，所述目标对象包括至少一个目标子对象，确定模块402根据所述获取模块401获取的所述第一声源确定所述目标对象所对应的第一位置，所述获取模块401根据所述确定模块402确定的所述目标对象所对应的第一位置，从全景图像中获取所述第一时刻下的所述第一剪裁图像，所述获取模块401获取所述第二时刻下所述目标对象的第二声源，其中，所述第二时刻出现在所述第一时刻之后，所述确定模块402根据所述获取模块401获取的所述第二声源确定所述目标对象所对应的第二位置，所述获取模块401根据所述确定模块402确定的所述目标对象所对应的第二位置，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像，生成模块403根据所述获取模块获取的所述第一剪裁图像以及所述第二剪裁图像生成目标视频。

可选地，在上述图14所对应的实施例的基础上，本发明实施例提供的视频生成装置40的另一实施例中，所述目标对象包括多个目标子对象，且所述多个目标子对象包括第一目标子对象以及第二目标子对象；

所述获取模块401，具体用于当检测到所述第一目标子对象的声源时，从所述全景图像中获取所述第一时刻下的所述第一剪裁图像，其中，所述第一剪裁图像中包括所述第一目标子对象；

当检测到所述第二目标子对象的声源时，从所述全景图像中获取所述第一时刻下的所述第一剪裁图像，其中，所述第一剪裁图像中包括所述第二目标子对象；

所述获取模块401，具体用于当检测到所述第一目标子对象的声源时，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像，其中，所述第二剪裁图像中包括所述第一目标子对象；

当检测到所述第二目标子对象的声源时，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像，其中，所述第二剪裁图像中包括所述第二目标子对象。

其次，本发明实施例中，介绍了一种对不同的目标子对象之间进行切换拍摄的方法。具体为，当检测到第一目标子对象的声源时，从全景图像中获取包括第一目标子对象的剪裁图像，当检测到第二目标子对象的声源时，从全景图像中获取包括第二目标子对象的剪裁图像。也就是说，目标视频包括正在发声的目标子对象所对应的画面。通过上述方式，能够在会议场景或者演讲场景中，优先输出正在发声的目标对象所对应的视频，使得观众的注意力能够放在更具有关注度的对象身上，一方面增加了对会议场景或者其他讲话场景的适应性，另一方面提升了方案的可行性和灵活性。

本发明实施例还提供了另一种终端设备，如图15所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端(Point of Sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图15示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图15，手机包括：射频(Radio Frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity，WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图15中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图15对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板541。进一步的，触控面板331可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图15中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图15示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；可选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，可选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端所包括的处理器580还具有以下功能：

可选地，处理器580还用于执行如下步骤：

通过摄像装置采集所述全景图像，其中，所述全景图像具有M个像素，所述M为大于1的整数；

对所述全景图像进行压缩处理，以得到目标全景图像；

处理器580具体用于执行如下步骤：

从所述目标全景图像中获取所述第一时刻下的所述第一剪裁图像，其中，所述第一剪裁图像具有N个像素，所述N为小于所述M的整数，且所述N大于1；

从所述目标全景图像中获取所述第二时刻下的所述第二剪裁图像，其中，所述第二剪裁图像具有所述N个像素。

可选地，处理器580具体用于执行如下步骤：

通过对象识别模型获取在所述第一时刻下所述全景图像中所述目标对象的类型和位置，其中，所述对象识别模型用于在图像中检测待剪裁对象所对应的类型以及位置；

通过所述对象识别模型获取在所述第二时刻下所述全景图像中所述目标对象的类型和位置，其中，所述对象识别模型用于在图像中检测待剪裁对象所对应的类型以及位置；

可选地，处理器580还用于执行如下步骤：

接收第一对象选择指令，其中，所述第一对象选择指令携带一个目标子对象的标识；

根据所述第一对象选择指令，确定待获取的所述第一剪裁图像以及所述第二剪裁图像中包括所述一个目标子对象。

可选地，处理器580还用于执行如下步骤：

接收第二对象选择指令，其中，所述第二对象选择指令携带多个目标子对象的标识；

根据所述第二对象选择指令，确定待获取的所述第一剪裁图像以及所述第二剪裁图像中包括所述多个目标子对象。

可选地，处理器580具体用于执行如下步骤：

当所述第一目标子对象的位移大于所述第二目标子对象的位移时，从所述全景图像中获取所述第一时刻下的所述第一剪裁图像，其中，所述第一剪裁图像中包括所述第一目标子对象；

当所述第一目标子对象的位移大于所述第二目标子对象的位移时，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像，其中，所述第二剪裁图像中包括所述第一目标子对象；

根据所述第一声源确定所述目标对象所对应的第一位置；

根据所述第二声源确定所述目标对象所对应的第二位置；

可选地，处理器580具体用于执行如下步骤：

当检测到所述第一目标子对象的声源时，从所述全景图像中获取所述第一时刻下的所述第一剪裁图像，其中，所述第一剪裁图像中包括所述第一目标子对象；

当检测到所述第一目标子对象的声源时，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像，其中，所述第二剪裁图像中包括所述第一目标子对象；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频生成的方法，其特征在于，包括：

通过摄像装置采集全景图像，其中，所述全景图像为通过超像素采集到的全景图像，所述超像素采集为利用像素之间特征的相似性将像素分组，用少量的超像素代替大量的像素来表达图片特征，所述全景图像具有M个像素，所述M为大于1的整数；对所述全景图像进行压缩处理，以得到目标全景图像；

接收第二对象选择指令，其中，所述第二对象选择指令携带多个目标子对象的标识；根据所述第二对象选择指令，确定待获取的第一剪裁图像以及第二剪裁图像中包括所述多个目标子对象；所述多个目标子对象包括第一目标子对象以及第二目标子对象；

从所述全景图像中获取第一时刻下的第一剪裁图像，包括：当所述第一目标子对象的位移大于所述第二目标子对象的位移时，从所述全景图像中获取所述第一时刻下的所述第一剪裁图像，其中，所述第一剪裁图像中包括所述第一目标子对象；当所述第二目标子对象的位移大于所述第一目标子对象的位移时，从所述全景图像中获取所述第一时刻下的所述第一剪裁图像，其中，所述第一剪裁图像中包括所述第二目标子对象；

从所述全景图像中获取第二时刻下的第二剪裁图像，包括：当所述第一目标子对象的位移大于所述第二目标子对象的位移时，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像，其中，所述第二剪裁图像中包括所述第一目标子对象；当所述第二目标子对象的位移大于所述第一目标子对象的位移时，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像，其中，所述第二剪裁图像中包括所述第二目标子对象；其中，所述第二时刻出现在所述第一时刻之后；

判断所述目标视频的画面抖动程度是否超过预设阈值，若是，对所述目标视频进行视频平滑处理。

2.根据权利要求1所述的方法，其特征在于，所述从全景图像中获取第一时刻下的第一剪裁图像，包括：

所述从所述全景图像中获取第二时刻下的第二剪裁图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述从全景图像中获取第一时刻下的第一剪裁图像，包括：

通过对象识别模型获取在所述第一时刻下所述全景图像中所述目标子对象的类型和位置，其中，所述对象识别模型用于在图像中检测待剪裁对象所对应的类型以及位置；

根据在所述第一时刻下所述全景图像中所述目标子对象的类型和位置，生成所述第一剪裁图像；

通过所述对象识别模型获取在所述第二时刻下所述全景图像中所述目标子对象的类型和位置，其中，所述对象识别模型用于在图像中检测待剪裁对象所对应的类型以及位置；

根据在所述第二时刻下所述全景图像中所述目标子对象的类型和位置，生成所述第二剪裁图像。

4.根据权利要求1所述的方法，其特征在于，所述从全景图像中获取第一时刻下的第一剪裁图像之前，所述方法还包括：

5.一种视频生成的方法，其特征在于，包括：

获取第一时刻下目标对象的第一声源，其中，所述目标对象包括至少一个目标子对象；当所述目标对象包括多个目标子对象时，所述多个目标子对象包括第一目标子对象以及第二目标子对象；

根据所述第一声源确定所述目标对象所对应的第一位置；

根据所述目标对象所对应的第一位置，从所述全景图像中获取所述第一时刻下的第一剪裁图像；所述从全景图像中获取所述第一时刻下的所述第一剪裁图像，包括：当检测到所述第一目标子对象的声源时，从所述全景图像中获取所述第一时刻下的所述第一剪裁图像，其中，所述第一剪裁图像中包括所述第一目标子对象；当检测到所述第二目标子对象的声源时，从所述全景图像中获取所述第一时刻下的所述第一剪裁图像，其中，所述第一剪裁图像中包括所述第二目标子对象；

获取第二时刻下所述目标对象的第二声源，其中，所述第二时刻出现在所述第一时刻之后；根据所述第二声源确定所述目标对象所对应的第二位置；根据所述目标对象所对应的第二位置，从所述全景图像中获取所述第二时刻下的第二剪裁图像；所述从所述全景图像中获取所述第二时刻下的第二剪裁图像，包括：当检测到所述第一目标子对象的声源时，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像，其中，所述第二剪裁图像中包括所述第一目标子对象；当检测到所述第二目标子对象的声源时，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像，其中，所述第二剪裁图像中包括所述第二目标子对象；

6.一种视频生成装置，其特征在于，包括：

采集模块，用于通过摄像装置采集全景图像，其中，所述全景图像为通过超像素采集到的全景图像，所述超像素采集为利用像素之间特征的相似性将像素分组，用少量的超像素代替大量的像素来表达图片特征，所述全景图像具有M个像素，所述M为大于1的整数；

压缩模块，用于对所述采集模块采集到的所述全景图像进行压缩处理，以得到目标全景图像；

接收模块，用于接收第二对象选择指令，其中，所述第二对象选择指令携带多个目标子对象的标识；

确定模块，用于根据所述接收模块接收的所述第二对象选择指令，确定待获取的第一剪裁图像以及第二剪裁图像中包括所述多个目标子对象；所述多个目标子对象包括第一目标子对象以及第二目标子对象；

获取模块，用于从所述全景图像中获取第一时刻下的第一剪裁图像，其中，所述第一剪裁图像中包括目标对象，所述目标对象包括至少一个目标子对象；

生成模块，用于根据所述获取模块获取的所述第一剪裁图像以及所述第二剪裁图像生成目标视频；并判断所述目标视频的画面抖动程度是否超过预设阈值，若是，对所述目标视频进行视频平滑处理；

所述获取模块，具体用于当所述第一目标子对象的位移大于所述第二目标子对象的位移时，从所述全景图像中获取所述第一时刻下的所述第一剪裁图像，其中，所述第一剪裁图像中包括所述第一目标子对象；当所述第二目标子对象的位移大于所述第一目标子对象的位移时，从所述全景图像中获取所述第一时刻下的所述第一剪裁图像，其中，所述第一剪裁图像中包括所述第二目标子对象；

所述获取模块，具体用于当所述第一目标子对象的位移大于所述第二目标子对象的位移时，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像，其中，所述第二剪裁图像中包括所述第一目标子对象；当所述第二目标子对象的位移大于所述第一目标子对象的位移时，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像，其中，所述第二剪裁图像中包括所述第二目标子对象。

7.根据权利要求6所述的视频生成装置，其特征在于，所述视频生成装置还包括接收模块以及确定模块；

所述接收模块，用于所述获取模块从全景图像中获取第一时刻下的第一剪裁图像之前，接收第一对象选择指令，其中，所述第一对象选择指令携带一个目标子对象的标识；

所述确定模块，用于根据所述接收模块接收的所述第一对象选择指令，确定待获取的所述第一剪裁图像以及所述第二剪裁图像中包括所述一个目标子对象。

8.一种视频生成装置，其特征在于，包括：

获取模块，用于获取第一时刻下目标对象的第一声源，其中，所述目标对象包括至少一个目标子对象；

所述获取模块，还用于根据所述确定模块确定的所述目标对象所对应的第一位置，从所述全景图像中获取所述第一时刻下的第一剪裁图像；

所述获取模块，还用于获取第二时刻下所述目标对象的第二声源，其中，所述第二时刻出现在所述第一时刻之后；

所述获取模块，还用于根据所述确定模块确定的所述目标对象所对应的第二位置，从所述全景图像中获取所述第二时刻下的第二剪裁图像；

所述目标对象包括多个目标子对象，且所述多个目标子对象包括第一目标子对象以及第二目标子对象；所述获取模块，具体用于：

当检测到所述第一目标子对象的声源时，从所述全景图像中获取所述第一时刻下的所述第一剪裁图像，其中，所述第一剪裁图像中包括所述第一目标子对象；当检测到所述第二目标子对象的声源时，从所述全景图像中获取所述第一时刻下的所述第一剪裁图像，其中，所述第一剪裁图像中包括所述第二目标子对象；当检测到所述第一目标子对象的声源时，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像，其中，所述第二剪裁图像中包括所述第一目标子对象；当检测到所述第二目标子对象的声源时，从所述全景图像中获取所述第二时刻下的所述第二剪裁图像，其中，所述第二剪裁图像中包括所述第二目标子对象。

9.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

判断所述目标视频的画面抖动程度是否超过预设阈值，若是，对所述目标视频进行视频平滑处理；

10.根据权利要求9所述的终端设备，其特征在于，所述处理器还用于执行如下步骤：

11.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述第一声源确定所述目标对象所对应的第一位置；

12.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至4中任一项所述的方法，或执行如权利要求5所述的方法。