CN105141974B

CN105141974B - 一种视频剪辑方法和装置

Info

Publication number: CN105141974B
Application number: CN201510453763.6A
Authority: CN
Inventors: 潘任丹; 于博文; 黄琬凝
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-07-29
Filing date: 2015-07-29
Publication date: 2018-11-09
Anticipated expiration: 2035-07-29
Also published as: CN105141974A

Abstract

本发明提供了一种视频剪辑方法和装置，客户端获取获取用户在视频的其中一帧图像上输入的封闭区域信息；将所述一帧图像上的封闭区域信息发送至云端服务器；所述云端服务器利用所述一帧图像上的封闭区域信息，对所述视频的各帧图像进行剪辑，并将剪辑后的视频数据返回给客户端。其中对视频的各帧图像进行的剪辑包括：去除封闭区域以外的背景数据，以及将素材与去除背景数据后的视频数据进行合成。本发明依托了云端服务器强大的计算能力，用户仅需要在视频的其中一帧图像上输入封闭区域信息，即可实现基于该封闭区域信息对该视频的自动剪辑，降低了用户操作的复杂度和制作成本。

Description

一种视频剪辑方法和装置

【技术领域】

本发明涉及计算机应用技术领域，特别涉及一种视频剪辑方法和装置。

【背景技术】

随着智能终端技术的迅猛普及和发展，人们越来越多的利用智能终端设备获取信息、沟通、娱乐和工作。人们使用智能终端设备可以很方便地录制或者获取一段视频，然而，如果用户想要对视频进行剪辑则需要依托专业级的视频编辑软件。通常这些专业级的视频编辑软件在PC端上进行操作，操作复杂、门槛和制作成本较高，往往需要具备专业级的知识才能够完成。

【发明内容】

有鉴于此，本发明提供了一种视频剪辑方法和装置，以便于降低视频剪辑的复杂度和制作成本。

具体技术方案如下：

本发明提供了一种视频剪辑方法，该方法包括：

获取用户在视频的其中一帧图像上输入的封闭区域信息；

将所述一帧图像上的封闭区域信息发送至云端服务器，以便所述云端服务器利用所述一帧图像上的封闭区域信息，对所述视频的各帧图像进行剪辑；

接收所述云端服务器返回的剪辑后的视频数据。

根据本发明一优选实施方式，在将所述一帧图像上的封闭区域信息发送至云端服务器之前或者同时，还包括：

上传所述视频至所述云端服务器。

根据本发明一优选实施方式，获取用户在视频的其中一帧图像上输入的封闭区域信息之前，还包括：

接收到用户对所述一帧图像的放大指令后，对所述一帧图像进行无损放大，将无损放大后的所述一帧图像提供给用户，以便用户在无损放大后的所述一帧图像上输入封闭区域信息；或者，

接收到用户对所述一帧图像的放大指令后，向所述云端服务器请求并获取对所述一帧图像进行无损放大后的图像，并将无损放大后的所述一帧图像提供给用户，以便用户在无损放大后的所述一帧图像上输入封闭区域信息。

根据本发明一优选实施方式，对所述视频的各帧图像进行剪辑包括：

对所述视频的各帧图像去除所述封闭区域所包含对象之外的背景数据。

根据本发明一优选实施方式，该方法还包括：确定用户输入的素材信息，将所述素材信息发送至所述云端服务器；

对所述视频的各帧图像进行剪辑包括：将所述素材信息对应的素材与去除背景数据之后的视频数据进行合成。

根据本发明一优选实施方式，所述确定用户输入的素材信息包括：

向用户提供一种以上的素材供用户选择，确定用户选择的素材信息；或者，

确定用户从本地文件中导入的素材信息。

本发明还提供了一种视频剪辑方法，该方法包括：

接收客户端发送的视频的其中一帧图像上的封闭区域信息；

利用所述一帧图像上的封闭区域信息，对所述视频的各帧图像进行剪辑；

将剪辑后的视频数据返回给所述客户端。

根据本发明一优选实施方式，该方法还包括：

接收所述客户端上传的所述视频。

根据本发明一优选实施方式，该方法还包括：

接收到来自所述客户端的放大所述一帧图像的请求后，对所述一帧图像进行无损放大，将无损放大后的所述一帧图像返回给所述客户端。

根据本发明一优选实施方式，对所述视频的各帧图像去除所述封闭区域所包含对象之外的背景数据包括：

利用所述一帧图像上的封闭区域信息，确定在所述一帧图像上所述封闭区域所包含对象的边界信息；

确定所述视频其他各帧图像上所述对象的边界信息；

依据所述视频的各帧图像上确定出的边界信息，将各帧图像上对应边界信息所围区域之外的图像数据确定为背景数据，去除各帧图像中的背景数据。

根据本发明一优选实施方式，确定所述视频其他各帧图像上所述对象的边界信息包括：

依据所述一帧图像上的边界信息，采用视频连续帧的目标跟踪方法，确定所述视频其他各帧上对应的边界信息。

根据本发明一优选实施方式，该方法还包括：接收所述客户端发送的素材信息；

对所述视频的各帧图像进行剪辑包括：将所述素材信息对应的素材与所述去除背景数据之后的视频数据进行合成。

根据本发明一优选实施方式，所述素材信息包括：背景图像信息、视频信息或灯光信息。

根据本发明一优选实施方式，在进行所述合成之前，还包括：

将所述去除背景数据之后的视频数据的各帧图像进行对象边界区域的羽化处理。

识别背景图像中的关键物体；

对所述背景图像做纹理检测，得到纹理特征梯度不发生突变的区域；

保持所述关键物体的大小，对所述纹理特征梯度不发生突变的区域进行拉伸处理，以使得所述背景图像与所述视频数据的各帧图像大小一致。

本发明还提供了一种视频剪辑装置，设置于客户端，该装置包括：

用户交互单元，用于获取用户在视频的其中一帧图像上输入的封闭区域信息；

网络侧交互单元，用于将所述一帧图像上的封闭区域信息发送至云端服务器，以便所述云端服务器利用所述一帧图像上的封闭区域信息，对所述视频的各帧图像进行剪辑；接收所述云端服务器返回的剪辑后的视频数据。

根据本发明一优选实施方式，所述网络侧交互单元，还用于上传所述视频至所述云端服务器。

根据本发明一优选实施方式，该装置还包括：

无损放大单元，用于在所述用户交互单元接收到用户对所述一帧图像的放大指令后，对所述一帧图像进行无损放大；

所述用户交互单元，还用于将无损放大后的所述一帧图像提供给所述用户，以便用户在无损放大后的所述一帧图像上输入封闭区域信息。

根据本发明一优选实施方式，所述网络侧交互单元，还用于在所述用户交互单元接收到用户对所述一帧图像的放大指令后，向所述云端服务器请求并获取对所述一帧图像进行无损放大后的图像；

所述用户交互单元，还用于将无损放大后的所述一帧图像提供给用户，以便用户在无损放大后的所述一帧图像上输入封闭区域信息。

根据本发明一优选实施方式，所述用户交互单元，还用于确定用户输入的素材信息；

所述网络侧交互单元，还用于将所述素材信息发送至所述云端服务器。

根据本发明一优选实施方式，所述用户交互单元在确定用户输入的素材信息时，具体用于：

确定用户从本地文件中导入的素材信息。

本发明还提供了一种视频剪辑装置，该装置设置于云端服务器，该装置包括：

交互单元，用于接收客户端发送的视频的其中一帧图像上的封闭区域信息；将剪辑单元剪辑后的视频数据返回给所述客户端；

剪辑单元，用于利用所述一帧图像上的封闭区域信息，对所述视频的各帧图像进行剪辑。

根据本发明一优选实施方式，所述交互单元，还用于接收所述客户端上传的所述视频。

根据本发明一优选实施方式，放大单元，用于在所述交互单元接收到来自所述客户端的放大所述一帧图像的请求后，对所述一帧图像进行无损放大；

所述交互单元，还用于接收来自所述客户端的放大所述一帧图像的请求；将无损放大后的所述一帧图像返回给所述客户端。

根据本发明一优选实施方式，所述剪辑单元包括：

背景去除子单元，用于利用所述一帧图像上的封闭区域信息，对所述视频的各帧图像去除所述封闭区域所包含对象之外的背景数据。

根据本发明一优选实施方式，所述背景去除子单元，具体用于：

确定所述视频其他各帧图像上所述对象的边界信息；

根据本发明一优选实施方式，所述背景去除子单元依据所述一帧图像上的边界信息，采用视频连续帧的目标跟踪方法，确定所述视频其他各帧上对应的边界信息。

根据本发明一优选实施方式，所述交互单元，还用于接收所述客户端发送的素材信息；

所述剪辑单元还包括：

合成子单元，用于将所述素材信息对应的素材与所述去除背景数据之后的视频数据进行合成。

根据本发明一优选实施方式，所述剪辑单元还包括：

羽化子单元，用于将所述去除背景数据之后的视频数据的各帧图像进行对象边界区域的羽化处理，将羽化处理后的视频数据的各帧图像提供给所述合成子单元进行合成。

根据本发明一优选实施方式，所述剪辑单元还包括：

拉伸子单元，用于识别背景图像中的关键物体；对所述背景图像做纹理检测，得到纹理特征梯度不发生突变的区域；保持所述关键物体的大小，对所述纹理特征梯度不发生突变的区域进行拉伸处理，以使得所述背景图像与所述视频数据的各帧图像大小一致；将拉伸处理后的背景图像提供给所述合成子单元进行合成。

由以上技术方案可以看出，本发明依托了云端服务器强大的计算能力，用户仅需要在视频的其中一帧图像上输入封闭区域信息，即可实现基于该封闭区域信息对该视频的自动剪辑，降低了用户操作的复杂度和制作成本。

【附图说明】

图1为本发明实施例所基于的系统架构图；

图2为本发明实施例提供的方法流程图；

图3a为本发明是谁提供的视频的一帧图像实例图；

图3b为在图3a基础上划取封闭区域的实例图；

图3c为在图3a基础上涂抹封闭区域的实例图；

图3d为在图3b或图3c基础上去除背景数据后的实例图；

图4为本发明实施例提供的去除背景数据的方法流程图；

图5a为本发明实施例提供的用户选择素材信息的实例图；

图5b为在图5a基础上进行素材合成后的实例图；

图6为本发明实施例提供的设置于客户端的装置结构图；

图7为本发明实施例提供的设置于云端服务器的装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明所基于的系统架构可以如图1中所示，包括客户端和云端服务器，其中客户端可以设置于PC等固定计算机设备，也可以设置于诸如智能手机、平板电脑等智能终端设备。当客户端设置于PC等固定计算机设备时，客户端可以是安装于固定计算机设备中的软件形式，当客户端设置于智能终端设备时，客户端可以是安装于智能终端设备的应用(APP)形式。云端服务器能够与多个客户端进行通信，同时为多个客户端提供服务。在本发明实施例中，以客户端设置于智能终端设备为例进行描述。

其中，客户端可以具备以下重要功能：

1)将视频上传至云端服务器。这里上传至云端服务器的视频可以是本发明实施例中需要进行剪辑处理的视频，该视频可以是智能终端设备录制的视频，也可以是智能终端设备从其他设备获取的视频。

2)获取用户在视频的其中一帧图像上输入的封闭区域信息。该封闭区域信息可以是依据用户在智能终端屏幕上对该一帧图像进行划取的轨迹确定的。如果是具有触摸屏幕的智能终端设备，用户可以直接用手指或电容笔等在智能终端屏幕上划取轨迹。如果是PC等不具有触摸屏幕的固定设备，用户可以用鼠标、触摸输入板等输入设备在屏幕上划取轨迹。

3)将该一帧图像上的封闭区域信息发送至云端服务器。

4)接收云端服务器返回的视频数据。该视频数据是云端服务器进行剪辑之后的视频数据，包括：对视频的各帧图像去除了封闭区域所包含对象之外的背景数据后得到的视频数据，或者将素材信息对应的素材与视频数据进行合成后得到的视频数据。

5)确定用户输入的素材信息。客户端可以向用户提供可选择的一个以上的素材信息，确定用户选择的素材信息。客户端也可以确定用户从本地文件中导入的素材信息。这里的素材信息可以包括但不限于：背景图像信息、音频信息或灯光信息。

6)将素材信息发送至云端服务器。

云端服务器可以具备以下主要功能：

1)接收客户端上传的视频。

2)接收客户端发送的视频的其中一帧图像上的封闭区域信息。

3)利用该一帧图像上的封闭区域信息，对视频进行剪辑，包括：对视频的各帧图像去除封闭区域所包含对象之外的背景数据，将素材信息对应的素材与去除背景数据之后的视频数据进行合成。

4)接收客户端发送的素材信息。

5)将剪辑后的视频数据返回给客户端。

上述功能的具体应用和具体实现将在后续实施例进行详细体现。图2为本发明实施例提供的方法流程图，如图2中所示，该方法可以具体包括以下步骤：

在201中，客户端上传视频至云端服务器。

对于要进行剪辑的视频可以是用户通过智能终端设备录制的视频，也可以是智能终端设备从其他设备获取到的视频，例如从其他智能终端设备获取的视频，从网站上下载的视频等等。这种情况下，客户端可以将获取的视频上传至云端服务器，以便云端服务器后续进行剪辑处理。

另外，对于一些云端服务器上已经具备一些视频资源的情况，即云端服务器同时具有视频资源管理和剪辑的功能，那么当用户对于这些视频具有剪辑需求时，无需重复上传视频至云端服务器，而仅需要告知云端服务器视频信息即可，例如视频的标识、编号、名称等等。

在202中，客户端获取用户在视频的其中一帧图像上输入的封闭区域信息。

当用户需要对某视频进行编辑时，例如用户需要对自己录制的一段唱歌的视频进行编辑，那么可以在该视频的一帧图像上输入封闭区域信息，该一帧图像可以是视频中的其中一帧，例如可以是首帧，即视频处于开始未播放状态时的图像，如图3a中所示。可以包括但不限于以下方式：

用户在屏幕上划取出一个封闭区域，该封闭区域中包含用户要保留的对象。例如，在图3a基础上划取出唱歌的人的轮廓即边界后，如图3b中所示。

用户在屏幕上通过涂抹的方式填涂出一个封闭区域，该封闭区域中包含用户要保留的对象。例如，在图3a基础上涂抹出唱歌的人的区域，如图3c中所示。

在203中，将上述一帧图像上的封闭区域信息发送至云端服务器。

在本步骤中，可以将划取出或涂抹出封闭区域的一帧图像数据发送至云端服务器，也可以将上述一帧图像的帧号和封闭区域的位置信息发送至云端服务器，也可以采用其他方式。

另外，需要说明的是，上述步骤的先后顺序仅仅为本实施例提供的顺序，但并不是唯一的顺序，例如上述视频的上传也可以与一帧图像上的封闭区域信息一起发送给云端服务器。

云端服务器在接收到客户端发送的视频的其中一帧图像上的封闭区域信息后，在204中利用上述一帧图像上的封闭区域信息，对视频的各帧图像去除封闭区域所包含对象之外的背景数据。

本步骤的具体实现可以如图4中所示，包括以下步骤：

在401中，云端服务器利用上述一帧图像上的封闭区域信息，确定在该一帧图像上封闭区域所包含对象的边界信息。

封闭区域实际上包围了一个对象，也就是用户想保留的目标，在图3b和图3c所示的实例中，该对象就是唱歌的人。由于往往用户手工在屏幕上划取或涂抹出的封闭区域并不能精确描述出对象边界，因此需要在本步骤中更加精确地确定出对象的边界信息。

本步骤中可以采用但不限于现有的多种边界确定算法，诸如边界矩形算法、八邻域边界跟踪算法、边界标志算法等等，在此不再一一详述。

除此之外，还有一种实现方式，为了尽可能让用户精确地输入封闭区域信息，云端服务器可以向客户端发送放大后的一帧图像，由客户端提供给用户，或者直接由客户端向用户提供放大后的一帧图像。在对该一帧图像进行放大时，尽量保证图像不模糊，即无损放大。目前无损放大采用的方式大多是通过对放大的区域进行纹理检测，在对该区域进行放大时依照纹理特征进行放大，而不是纯色填充，这样就可以让用户在尽可能大的区域内尽量精确地选择自己感兴趣的区域。在本发明实施例中可以采用但不限于已有的图像无损放大方式。在这种方式下，可以直接将用户输入的封闭区域信息作为边界信息。

在402中，确定视频其他各帧图像上上述对象的边界信息。

由于视频中各帧图像上同一对象可能处于运动过程中，在每帧图像上同一对象的边界可能发生变化，因此需要确定视频中各帧图像上对象的边界信息。本步骤采用的是视频连续帧的目标跟踪方法，可以具体采用但不限于：光流法、基于特征匹配的跟踪法，等等。

其中光流法主要是对一帧的边界像素块进行标记后，在相邻帧的同样像素位置和相邻像素位置做检测，依据像素值确定第一帧的边界像素块在相邻帧中的对应位置，以此类推，就能够得到每一帧图像中同一对象的边界信息。

基于特征匹配的跟踪法主要是对一帧的边界像素块进行sift特征提取，在相邻帧的同样像素位置和相邻像素位置做同样的sift特征提取，根据sift特征的相似性来确定第一帧的边界像素块在相邻帧中的对应位置，以此类推，就能够得到每一帧图像中同一对象的边界信息。

在403中，依据视频的各帧图像上确定出的边界信息，将各帧图像上对应边界信息所围区域之外的图像数据确定为背景数据，去除各帧图像中的背景数据。

在去除各帧图像中的背景数据时，可以通过将背景数据对应区域的alpha通道置0。Alpha通道是一个8位的灰度通道，该通道用256级灰度来记录图像中的透明度信息。在本步骤中，可以将背景数据对应的区域的alpha通道置0，这样该背景数据对应的区域就为完全不透明，也就是覆盖掉了背景区域，从而实现背景数据的去除。对图3b或图3c中所示的图像进行背景数据去除后，得到的视频数据中的一帧图像可以如图3d中所示。

继续参见图2，在205中，云端服务器将去除了背景数据之后的视频数据返回给客户端。这样客户端就能够将该去除了背景数据之后的视频展现给用户。

本步骤并不是必须的步骤，云端服务器也可以不返回去除背景数据之后的视频数据给客户端，而是直接将后续步骤中与素材进行合成之后的视频数据返回给客户端。

在206中，客户端获取用户输入的素材信息，将用户输入的素材信息发送给云端服务器。

客户端可以向用户提供一些可选的素材，例如用户可以通过调取客户端中的素材库，从素材库中选取自己想要的素材。这些素材可以包括但不限于：背景图像、灯光、音频等等。例如，可以提供一些舞台、风景、建筑物等图像供用户选择，也可以提供不同光效的灯光供用户选择，也可以提供一些音乐、脱口秀、歌曲等等音频供用户选择，如图5a中所示。用户可以从中选择一种或多种素材组合的方式，客户端获取用户选择的素材信息。

另外，用户也可以从智能终端设备的本地文件中选择图片、音频等作为素材，客户端获取用户从本地文件中导入的素材信息。

需要说明的是，本步骤也可以在云端服务器去除背景数据之前执行，即云端服务器可以在接收到素材信息后，统一执行去除背景数据、合成素材等剪辑处理。

在207中，云端服务器将接收到的素材信息对应的素材与去除背景数据之后的视频数据进行合成。

在进行合成时，如果素材包含素材图像，则将视频中各帧图像分别与素材图像进行合成。图像合成技术已经是现有比较成熟的技术，在此不再详述。如果素材包含音频，则将该音频依据视频的编码率，加入视频数据一起进行重新编码，从而形成合成后的视频码流。

在本步骤中，为了提高图片合成的效果，可以将去除背景数据之后的视频中的各帧图像进行羽化操作，即将各帧图像中对象的边界区域进行一定半径的羽化操作，使得边界区域比较柔合。这样合成后的背景与视频中保留的对象之间的过渡就会比较自然。

另外，用户选择或者导入的背景图像可能与视频中各帧图像的大小不一致，这就需要对导入的背景图像进行拉伸处理。为了尽量保留背景图像中场景的真实性，可以基于识别的方法检测背景图像中的关键物体，比如夕阳、自由女神像等等；对背景图像做纹理检测，得到纹理特征比较单一(纹理特征梯度不发生突变)的区域，例如大海、整块云彩、海滩等等；在进行背景图像的拉伸时，保留关键物体的大小，只对纹理内容比较单一的区域做拉伸。然后将拉伸后的背景图像与视频中的各帧图像做合成处理。

在208中，云端服务器将合成后得到的视频数据返回给客户端。

假设用户在图5a中选择了标识为“唱歌”的舞台图像作为素材，那么经过合成后的视频数据就可以如图5b所示，在图5b中仅示出了视频中的一帧图像。

以上是对本发明提供的方法进行的详细描述，下面对本发明提供的装置进行详细描述。

图6为本发明实施例提供的设置于客户端的装置结构图，如图6中所示，该装置可以包括：用户交互单元01和网络侧交互单元02，还可以包括无损放大单元03。各组成单元的主要功能如下：

用户交互单元01负责获取用户在视频的其中一帧图像上输入的封闭区域信息。当用户需要对某视频进行编辑时，例如用户需要对自己录制的一段唱歌的视频进行编辑，那么可以在该视频的一帧图像上输入封闭区域信息，该一帧图像可以是视频中的其中一帧，例如可以是首帧，即视频处于开始未播放状态时的图像。用户可以在屏幕上划取一个封闭区域，该封闭区域中暴扣用户要保留的对象；或者在在屏幕上涂抹出一个封闭区域，该封闭区域中包含用户要保留的对象。

网络侧交互单元02负责将一帧图像上的封闭区域信息发送至云端服务器，以便云端服务器利用一帧图像上的封闭区域信息，对视频的各帧图像进行剪辑；接收云端服务器返回的剪辑后的视频数据。

如果该视频是客户端通过录制或者从其他设备获取的视频，则网络侧交互单元02可以上传视频至云端服务器，以便云端服务器对视频进行剪辑。

除此之外，为了帮助用户准确地输入封闭区域信息，则无损放大单元03在用户交互单元01接收到用户对一帧图像的放大指令后，对一帧图像进行无损放大。目前无损放大采用的方式大多是通过对放大的区域进行纹理检测，在对该区域进行放大时依照纹理特征进行放大，而不是纯色填充，这样用户交互单元01将无损放大后的一帧图像提供给用户，以便用户在无损放大后的一帧图像上输入封闭区域信息。

除了客户端自身具有无损放大功能之外，无损放大功能还可以由云端服务器提供。此时，网络侧交互单元02在用户交互单元01接收到用户对一帧图像的放大指令后，向云端服务器请求并获取对一帧图像进行无损放大后的图像。用户交互单元01将无损放大后的一帧图像提供给用户，以便用户在无损放大后的一帧图像上输入封闭区域信息。

用户交互单元01还可以确定用户输入的素材信息，由网络侧交互单元02将素材信息发送至云端服务器，以便云端服务器将素材信息对应的素材将去除背景数据后的视频数据进行合成。

其中，用户交互单元在确定用户输入的素材信息时可以向用户提供一种以上的素材供用户选择，确定用户选择的素材信息；也可以确定用户从本地文件中导入的素材信息。

图7为本发明实施例提供的设置于云端服务器的装置结构图，如图7所示，该装置可以包括：交互单元11和剪辑单元12，还可以包括放大单元13。其中剪辑单元12可以具体包括背景去除子单元21、合成子单元22、羽化子单元23和拉伸子单元24。

交互单元11负责接收客户端发送的视频的其中一帧图像上的封闭区域信息。剪辑单元12利用该一帧图像上的封闭区域信息，对视频的各帧图像进行剪辑。再由交互单元11将剪辑单元12剪辑后的视频数据返回给客户端。

其中对视频的各帧图像进行的剪辑包括去除背景数据，还可以进一步包括将素材与去除背景数据后的视频数据进行合成，将在后续涉及。

交互单元11还可以接收客户端上传的视频，以便对视频数据进行编辑。如果要编辑的视频是云端服务器本地管理的视频，则客户端可以不必上传视频，仅提供要剪辑的视频信息即可。

为了方便用户更加精确地输入封闭区域信息，在云端服务器上可以具备无损放大功能。即在交互单元11接收到来自客户端的放大一帧图像的请求后，放大单元13对一帧图像进行无损放大。然后交互单元11将无损放大后的一帧图像返回给客户端。

背景去除子单元21负责利用一帧图像上的封闭区域信息，对视频的各帧图像去除封闭区域所包含对象之外的背景数据。具体地，可以利用一帧图像上的封闭区域信息，确定在一帧图像上封闭区域所包含对象的边界信息；确定视频其他各帧图像上对象的边界信息；依据视频的各帧图像上确定出的边界信息，将各帧图像上对应边界信息所围区域之外的图像数据确定为背景数据，去除各帧图像中的背景数据。

其中背景去除子单元21可以采用但不限于现有的多种边界确定算法，诸如边界矩形算法、八邻域边界跟踪算法、边界标志算法等等，在此不再一一详述。

背景去除子单元21可以依据一帧图像上的边界信息，采用视频连续帧的目标跟踪方法，确定视频其他各帧上对应的边界信息。其中目标跟踪方法可以具体采用但不限于：光流法、基于特征匹配的跟踪法，等等。

在去除各帧图像中的背景数据时，可以通过将背景数据对应区域的alpha通道置0。

交互单元11还可以接收客户端发送的素材信息。此时，合成子单元22可以将素材信息对应的素材与去除背景数据之后的视频数据进行合成。其中的素材信息可以包括但不限于：背景图像信息、视频信息或灯光信息。在进行合成时，如果素材包含素材图像，则将视频中各帧图像分别与素材图像进行合成。图像合成技术已经是现有比较成熟的技术，在此不再详述。如果素材包含音频，则将该音频依据视频的编码率，加入视频数据一起进行重新编码，从而形成合成后的视频码流。

为了提高图片合成的效果，羽化子单元23可以将去除背景数据之后的视频数据的各帧图像进行对象边界区域的羽化处理，将羽化处理后的视频数据的各帧图像提供给合成子单元进行合成。这样各帧图像中的边界区域比较柔和，合成后的背景与视频中保留的对象之间的过渡就会比较自然。

另外，用户选择或者导入的背景图像可能与视频中各帧图像的大小不一致，这就需要对导入的背景图像进行拉伸处理。为了尽量保留背景图像中场景的真实性，拉伸子单元24可以识别背景图像中的关键物体；对背景图像做纹理检测，得到纹理特征梯度不发生突变的区域；保持关键物体的大小，对纹理特征梯度不发生突变的区域进行拉伸处理，以使得背景图像与视频数据的各帧图像大小一致；将拉伸处理后的背景图像提供给合成子单元进行合成。

通过本发明实施例提供的上述方法和装置，用户通过在客户端上的简单操作就能够实现对视频的剪辑，例如将视频中唱歌的人剪辑到酷炫的舞台背景中，将视频中奔跑的人剪辑到美丽的海滩上等等。制作简单，无需专业的剪辑知识和软件，制作成本低。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种视频剪辑方法，其特征在于，该方法包括：

获取用户在视频的其中一帧图像上输入的封闭区域信息，将所述一帧图像上的封闭区域信息发送至云端服务器，以及，确定用户输入的素材信息，将所述素材信息发送给云端服务器，以便所述云端服务器利用所述一帧图像上的封闭区域信息，对所述视频的各帧图像去除所述封闭区域所包含对象之外的背景数据，将所述素材信息对应的素材与去除背景数据之后的视频数据进行合成；

接收所述云端服务器返回的合成后的视频数据。

2.根据权利要求1所述的方法，其特征在于，在将所述一帧图像上的封闭区域信息发送至云端服务器之前或者同时，还包括：

上传所述视频至所述云端服务器。

3.根据权利要求1或2所述的方法，其特征在于，获取用户在视频的其中一帧图像上输入的封闭区域信息之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述确定用户输入的素材信息包括：

确定用户从本地文件中导入的素材信息。

5.一种视频剪辑方法，其特征在于，该方法包括：

接收客户端发送的视频的其中一帧图像上的封闭区域信息以及素材信息；

利用所述一帧图像上的封闭区域信息，对所述视频的各帧图像去除所述封闭区域所包含对象之外的背景数据，将所述素材信息对应的素材与去除背景数据之后的视频数据进行合成；

将合成后的视频数据返回给所述客户端。

6.根据权利要求5所述的方法，其特征在于，该方法还包括：

接收所述客户端上传的所述视频。

7.根据权利要求5所述的方法，其特征在于，该方法还包括：

8.根据权利要求5所述的方法，其特征在于，对所述视频的各帧图像去除所述封闭区域所包含对象之外的背景数据包括：

确定所述视频其他各帧图像上所述对象的边界信息；

9.根据权利要求8所述的方法，其特征在于，确定所述视频其他各帧图像上所述对象的边界信息包括：

10.根据权利要求5所述的方法，其特征在于，所述素材信息包括：背景图像信息、视频信息或灯光信息。

11.根据权利要求5所述的方法，其特征在于，在进行所述合成之前，还包括：

12.根据权利要求5所述的方法，其特征在于，在进行所述合成之前，还包括：

识别背景图像中的关键物体；

13.一种视频剪辑装置，设置于客户端，其特征在于，该装置包括：

用户交互单元，用于获取用户在视频的其中一帧图像上输入的封闭区域信息，确定用户输入的素材信息；

网络侧交互单元，用于将所述一帧图像上的封闭区域信息发送至云端服务器，以及将所述素材信息发送给云端服务器，以便所述云端服务器利用所述一帧图像上的封闭区域信息，对所述视频的各帧图像去除所述封闭区域所包含对象之外的背景数据，将所述素材信息对应的素材与去除背景数据之后的视频数据进行合成；接收所述云端服务器返回的合成后的视频数据。

14.根据权利要求13所述的装置，其特征在于，所述网络侧交互单元，还用于上传所述视频至所述云端服务器。

15.根据权利要求13或14所述的装置，其特征在于，该装置还包括：

16.根据权利要求13或14所述的装置，其特征在于，所述网络侧交互单元，还用于在所述用户交互单元接收到用户对所述一帧图像的放大指令后，向所述云端服务器请求并获取对所述一帧图像进行无损放大后的图像；

17.根据权利要求13所述的装置，其特征在于，所述用户交互单元在确定用户输入的素材信息时，具体用于：

确定用户从本地文件中导入的素材信息。

18.一种视频剪辑装置，该装置设置于云端服务器，其特征在于，该装置包括：

交互单元，用于接收客户端发送的视频的其中一帧图像上的封闭区域信息以及素材信息；将剪辑单元合成后的视频数据返回给所述客户端；

剪辑单元，用于利用所述一帧图像上的封闭区域信息，对所述视频的各帧图像去除所述封闭区域所包含对象之外的背景数据，将所述素材信息对应的素材与去除背景数据之后的视频数据进行合成。

19.根据权利要求18所述的装置，其特征在于，所述交互单元，还用于接收所述客户端上传的所述视频。

20.根据权利要求18所述的装置，其特征在于，放大单元，用于在所述交互单元接收到来自所述客户端的放大所述一帧图像的请求后，对所述一帧图像进行无损放大；

21.根据权利要求18所述的装置，其特征在于，所述剪辑单元包括：

22.根据权利要求21所述的装置，其特征在于，所述背景去除子单元，具体用于：

确定所述视频其他各帧图像上所述对象的边界信息；

23.根据权利要求22所述的装置，其特征在于，所述背景去除子单元依据所述一帧图像上的边界信息，采用视频连续帧的目标跟踪方法，确定所述视频其他各帧上对应的边界信息。

24.根据权利要求18所述的装置，其特征在于，所述剪辑单元包括：

25.根据权利要求18或24所述的装置，其特征在于，所述素材信息包括：背景图像信息、视频信息或灯光信息。

26.根据权利要求24所述的装置，其特征在于，所述剪辑单元还包括：

27.根据权利要求24所述的装置，其特征在于，所述剪辑单元还包括：