CN106131669B

CN106131669B - 一种合并视频的方法及装置

Info

Publication number: CN106131669B
Application number: CN201610592046.6A
Authority: CN
Inventors: 王军
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2016-07-25
Filing date: 2016-07-25
Publication date: 2019-11-26
Anticipated expiration: 2036-07-25
Also published as: US10721545B2; DE102017116177A1; US20180027308A1; CN106131669A

Abstract

本发明实施例公开了一种合并视频的方法，所述方法包括：获取至少两个视频文件；解析所述至少两个视频文件，分别获得与所述至少两个视频文件相对应的视频信号以及音频信号；从各个音频信号中确定出至少一个相同的声音特征；以所述至少一个相同的声音特征为时间参考，对所述至少两个视频文件进行合并。同时，本发明实施例还公开了一种合并视频的装置。

Description

一种合并视频的方法及装置

技术领域

本发明涉及音视频处理技术领域，具体涉及一种合并视频的方法及装置。

背景技术

目前，将多台电子设备中的视频合并到一个视频中的需求越来越高。例如，在拍摄视频时，为了更好地记录当时的场景，往往有多台电子设备对该场景中的一个或多个对象进行拍摄，在后续进行播放时需要先对多台电子设备中的视频进行整理合并，然后播放合并后的视频。

但是，现有的合成软件都是需要手工同步，且同步效果并不理想，如在同一画面中呈现的多个视频之间有延时，且延时时间较长。

发明内容

有鉴于此，本发明期望提供一种合并视频的方法及装置，至少能解决上述问题之一。

为达到上述目的，本发明的技术方案是这样实现的：

本发明提供了一种合并视频的方法，所述方法包括：

获取至少两个视频文件；

解析所述至少两个视频文件，分别获得与所述至少两个视频文件相对应的视频信号以及音频信号；

从各个音频信号中确定出至少一个相同的声音特征；

以所述至少一个相同的声音特征为时间参考，对所述至少两个视频文件进行合并。

上述方案中，可选地，所述从各个音频信号中确定出至少一个相同的声音特征，包括：

获取与所述各个音频信号对应的音频数据；

从与所述各个音频信号对应的音频数据中确定出至少一个相同的声音特征。

上述方案中，可选地，所述以所述至少一个相同的声音特征为时间参考，对所述至少两个视频文件进行合并，包括：

根据所述至少一个相同的声音特征确定第一时间点；

以所述第一时间点为中心，同步所述至少两个视频文件中的视频数据以及音频数据。

上述方案中，可选地，所述以所述第一时间点为中心，同步所述至少两个视频文件中的视频数据以及音频数据，包括：

分别获取所述至少两个视频文件中与所述第一时间点所对应的一帧视频数据以及一帧音频数据，对所述至少两个视频文件中与所述第一时间点所对应的各帧视频数据以及各帧音频数据进行对齐；

以所述第一时间点为中心，确定M个第二时间点，分别获取所述至少两个视频文件中与所述M个第二时间点所对应的各帧视频数据以及各帧音频数据，对所述至少两个视频文件中与所述M个第二时间点所对应的各帧视频数据以及各帧音频数据进行对齐；其中，M为正整数。

上述方案中，可选地，所述方法还包括：

根据所述至少一个相同的声音特征确定第三时间点；其中，所述第三时间点对应的声音特征与所述第一时间点所对应的声音特征不同；

检测合并后的视频文件中第三时间点对应的声音特征是否对齐；如果未对齐，对所述至少两个视频文件进行重新合并。

上述方案中，可选地，所述方法还包括：

从所述至少两个视频文件中确定出主视频文件；

基于所述主视频文件对应的元数据以及其他视频文件对应的元数据，生成合并后的视频文件的元数据。

上述方案中，可选地，所述对所述至少两个视频文件进行合并，还包括：

控制各个视频数据对应的图像在显示屏幕的第一区域按照预设形式呈现。

上述方案中，可选地，所述方法还包括：

获取所述至少两个视频文件的格式；

判断所述至少两个视频文件的格式是否为预设格式；

如果不是，对所述至少两个视频文件的格式进行格式转换，使转换后的格式为预设格式。

本发明还提供了一种合并视频的装置，所述装置包括：

解码器，用于获取至少两个视频文件；解析所述至少两个视频文件，分别获得与所述至少两个视频文件相对应的视频信号以及音频信号；

处理器，用于从各个音频信号中确定出至少一个相同的声音特征；以所述至少一个相同的声音特征为时间参考，对所述至少两个视频文件进行合并。

上述方案中，可选地，所述处理器，还用于：

获取与所述各个音频信号对应的音频数据；

上述方案中，可选地，所述处理器，还用于：

根据所述至少一个相同的声音特征确定第一时间点；

上述方案中，可选地，所述处理器，还用于：

上述方案中，可选地，所述装置还包括：

检测器，用于：根据所述至少一个相同的声音特征确定第三时间点；其中，所述第三时间点对应的声音特征与所述第一时间点所对应的声音特征不同；检测合并后的视频文件中第三时间点对应的声音特征是否对齐；如果未对齐，通知所述处理器对所述至少两个视频文件进行重新合并。

上述方案中，可选地，所述处理器，还用于：

从所述至少两个视频文件中确定出主视频文件；

上述方案中，可选地，所述处理器，还用于：

获取所述至少两个视频文件的格式；

判断所述至少两个视频文件的格式是否为预设格式；

本发明提供的合并视频的方法及装置，获取至少两个视频文件；解析所述至少两个视频文件，分别获得与所述至少两个视频文件相对应的视频信号以及音频信号；从各个音频信号中确定出至少一个相同的声音特征；以所述至少一个相同的声音特征为时间参考，对所述至少两个视频文件进行合并。如此，相对于现有技术中仅仅采用同时开始录制视频而尽量使多个视频信号同步来说，至少能够解决因延时而导致的合并后的文件不同步问题。

附图说明

图1为本发明实施例合并视频的方法的实现流程示意图；

图2为本发明实施例提供的一种不同视频文件的音频数据在时间轴上对比示意图；

图3为本发明实施例提供的另一种不同视频文件的音频数据在时间轴上对比示意图；

图4为本发明实施例合并视频的装置的结构示意图一；

图5为本发明实施例合并视频的装置的结构示意图二。

具体实施方式

下面结合附图对本发明的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明。

实施例一

图1为本发明实施例合并视频的方法的实现流程示意图，在本发明一个优选实施例中，所述合并视频的方法主要包括以下步骤：

步骤101：获取至少两个视频文件。

通常来说，视频文件既包括视频信号，又包括音频信号。对于同一个视频文件来说，从该视频文件解析出的视频信号与音频信号是同步的。

作为一种实施方式，所述至少两个视频文件是记录有在同一时间采集的针对同一场景的文件。

比如，为了更好地记录小朋友们参加夏令营的情景，在小朋友们乘坐的大巴车上，用一台电子设备录制大巴车里的小朋友们的活动情况；同时，用另一台电子设备也录制大巴车里的小朋友们的活动情况。而后期制作时，可以对这两台电子设备所获取的视频文件进行合并。

作为另一种实施方式，所述至少两个视频是记录有在同一时间所采集的针对不同场景的文件。

比如，为了更好地记录小朋友们参加夏令营的情景，在小朋友们乘坐的大巴车上，用一台电子设备录制大巴车里左边那排座位上的小朋友们的活动情况；用另一台电子设备录制大巴车里右边那排座位上的小朋友们的活动情况。而后期制作时，可以对这两台电子设备所获取的视频文件进行合并。

步骤102：解析所述至少两个视频文件，分别获得与所述至少两个视频文件相对应的视频信号以及音频信号。

作为一种可选实施方式，采用视频解码器对视频文件进行解码，获取与该视频文件相对应的视频信号以及音频信号。

这里，视频解码器如何对视频文件进行解码，属于现有技术，在此不再赘述。

在一实施例中，所述解析所述至少两个视频文件之前，还包括：

获取所述至少两个视频文件的格式；

判断所述至少两个视频文件的格式是否为预设格式；

这里，所述预设格式可以理解为视频解码器支持的格式。

如此，通过对多个视频文件的格式的统一，更有助于后续对视频文件进行解码，使得视频解码器对多个视频文件所采取的解析方法相同，减少因视频文件格式不同而导致的解码误差不一致的问题，为后续合并视频文件提供了很好的技术支撑。

步骤103：从各个音频信号中确定出至少一个相同的声音特征。

作为一种可选实施方式，所述从各个音频信号中确定出至少一个相同的声音特征，包括：

获取与所述各个音频信号对应的音频数据；

如此，能为后续对所述至少两个视频文件合并提供参考依据。

步骤104：以所述至少一个相同的声音特征为时间参考，对所述至少两个视频文件进行合并。

作为一种可选实施方式，所述以所述至少一个相同的声音特征为时间参考，对所述至少两个视频文件进行合并，包括：

根据所述至少一个相同的声音特征确定第一时间点；

如此，至少能保证合并后的视频文件中，该相同的声音特征所对应的视频数据的同步。

作为一种具体实施方式，所述以所述第一时间点为中心，同步所述至少两个视频文件中的视频数据以及音频数据，包括：

以所述第一时间点为中心，确定M个第二时间点，分别获取所述至少两个视频文件中与所述M个第二时间点所对应的各帧视频数据以及各帧音频数据，对所述至少两个视频文件中与所述M个第二时间点所对应的各帧视频数据以及各帧音频数据进行对齐。

优选地，所述第二时间点也包含有所述至少两个视频文件中相同的声音特征。通常来说，所述第二时间点对应的声音特征，与所述第一时间点对应的声音特征，不是同一个声音特征。

其中，所述M为大于或等于1的正整数。

举例来说，电子设备A与电子设备B同时对同一场景下的多个人录像；电子设备A生成了视频文件a，电子设备B生成了视频文件b；如图2所示，对视频文件a解析时，在第5S对应的音频数据为“你好吗”；对视频文件b解析时，在第6S对应的音频数据也为“你好吗”；且“你好吗”为同一人在同一时刻发出的声音。可见，两台电子设备在进行录像时存在延时，若在合并视频文件时，不分析音频数据内容，而仅仅将两个视频文件按照各自记录的时间进行帧视频数据以及帧音频数据对齐，显然会使得合并后的视频文件不同步，存在延时。采用本实施例所述技术方案，需要将视频文件a解析出的第5S对应的一帧音频数据，与视频文件b解析出的第6S对应的一帧音频数据合并，并将视频文件a解析出的第5S对应的一帧视频数据，与视频文件b解析出的第6S对应的一帧视频数据对齐。如此，至少能保证合并后的视频文件中，该相同的声音特征所对应的视频数据的同步。

上述方案中，可选地，所述方法还包括：

继续以上述例子来说明，电子设备A与电子设备B同时对同一场景下的多个人录像；电子设备A生成了视频文件a，电子设备B生成了视频文件b；如图3所示，对视频文件a解析时，在第5S对应的音频数据为“你好吗”；对视频文件b解析时，在第6S对应的音频数据也为“你好吗”；且“你好吗”为同一人在同一时刻发出的声音。对视频文件a解析时，在第7S对应的音频数据为“一起吃饭”；对视频文件b解析时，在第9S对应的音频数据也为“一起吃饭”；且“一起吃饭”为同一人在同一时刻发出的声音。显然，仅仅以“你好吗”为中心，将与“你好吗”对应的视频数据进行对齐后，然后以该点为中心，按序对其它视频数据以及音频数据进行对齐，仍会出现合并后的视频文件中某些视频数据以及音频数据不同步的问题；而该例子中，需要再将与“一起吃饭”对应的视频数据进行对齐后，然后以该点为中心，再继续检验，直至相同的声音特征所对应的视频数据均能同步。

如此，能够检验合并的视频文件是否实现了多个视频信号以及音频信号的同步，避免因解析时漏帧而引起的合并后的视频文件存在部分视频信号或音频信号不同步的问题，大大提高了视频文件合并的正确度。

上述方案中，可选地，所述方法还包括：

从所述至少两个视频文件中确定出主视频文件；

例如，所述元数据可以是指字幕。

作为一具体实施方式，所述基于所述主视频文件对应的元数据以及其他视频文件对应的元数据，生成合并后的视频文件的元数据，包括：

保留与所述主视频文件对应的元数据，删除与其他视频文件对应的元数据。

作为另一具体实施方式，所述基于所述主视频文件对应的元数据以及其他视频文件对应的元数据，生成合并后的视频文件的元数据，包括：

依据所述主视频文件对应的元数据以及所述其他视频文件对应的元数据，生成新的元数据。

这里，所述新的元数据可以是基于对主视频文件以及其他视频文件的元数据的概括或总结。

作为又一具体实施方式，所述基于所述主视频文件对应的元数据以及其他视频文件对应的元数据，生成合并后的视频文件的元数据，包括：

删除与所述主视频文件对应的元数据，保留与其他视频文件对应的全部或部分元数据。

比如，所述预设形式可以是：层叠，例如从第一区域的左上角开始到右下角以堆叠的方式显示各个视频文件中的视频图像。

比如，所述预设形式可以是：平铺，例如自动调整窗口的大小并实现各个窗口以平铺的方式紧密填满显示屏幕的第一区域。

比如，所述预设形式可以是：嵌入，例如将一视频图像插入到另一视频图像中，呈现画中画的显示形式。

需要说明的是，所述预设形式并不限于上述所列举的这几种，可以根据实际剪辑需要，对各个视频图像进行编辑，在此不再赘述。

本实施例中，所述电子设备可以是能够录像的电子设备，如平板电脑、笔记本电脑、手机、电视等等。

在本发明实施例中，获取至少两个视频文件；解析所述至少两个视频文件，分别获得与所述至少两个视频文件相对应的视频信号以及音频信号；从各个音频信号中确定出至少一个相同的声音特征；以所述至少一个相同的声音特征为时间参考，对所述至少两个视频文件进行合并。如此，相对于现有技术中仅仅采用同时开始录制视频而尽量使多个视频信号同步来说，至少能够解决因延时而导致的合并后的文件不同步问题，无需增加硬件成本，即可实现多视频信号的同步。

实施例二

图4为本发明实施例提供的合并视频的装置的结构示意图一，如图4所示，所述装置包括：

解码器41，用于获取至少两个视频文件；解析所述至少两个视频文件，分别获得与所述至少两个视频文件相对应的视频信号以及音频信号；

处理器42，用于从各个音频信号中确定出至少一个相同的声音特征；以所述至少一个相同的声音特征为时间参考，对所述至少两个视频文件进行合并。

作为一种可选实施方式，所述处理器42，还用于：

获取与所述各个音频信号对应的音频数据；

作为一种可选实施方式，所述处理器42，还用于：

根据所述至少一个相同的声音特征确定第一时间点；

在一具体实施方式中，所述处理器42，还用于：

上述方案中，可选地，所述装置还包括：

检测器43，用于：根据所述至少一个相同的声音特征确定第三时间点；其中，所述第三时间点对应的声音特征与所述第一时间点所对应的声音特征不同；检测合并后的视频文件中第三时间点对应的声音特征是否对齐；如果未对齐，通知所述处理器42对所述至少两个视频文件进行重新合并。

作为一种实施方式，所述处理器42，还用于：

从所述至少两个视频文件中确定出主视频文件；

作为一种实施方式，所述处理器42，还用于：

获取所述至少两个视频文件的格式；

判断所述至少两个视频文件的格式是否为预设格式；

本领域技术人员应当理解，本发明实施例的电子设备中各处理模块的功能，可参照前述合并视频的方法的相关描述而理解，本发明实施例的合并视频的装置中各处理模块，可通过实现本发明实施例所述的功能的模拟电路而实现，也可以通过执行本发明实施例所述的功能的软件在电子设备上的运行而实现。

其中，所述处理器42在实际应用中，均可由合并视频的装置中的中央处理器(CPU，Central Processing Unit)、微处理器(MCU，Micro Controller Unit)、数字信号处理器(DSP，Digital Signal Processing)或可编程逻辑器件(PLC，Programmable LogicController)等实现。

本实施例所述合并视频的装置，相对于现有技术中仅仅采用同时开始录制视频而尽量使多个视频信号同步来说，至少能够解决因延时而导致的合并后的文件不同步问题，无需增加硬件成本，即可实现多视频信号的同步。

实施例三

图5为本发明实施例提供的合并视频的装置的结构示意图二，如图5所示，所述装置包括：

第一获取单元51，用于获取至少两个视频文件；

第二获取单元52，用于解析所述至少两个视频文件，分别获得与所述至少两个视频文件相对应的视频信号以及音频信号；

确定单元53，用于从各个音频信号中确定出至少一个相同的声音特征；

合并单元54，用于以所述至少一个相同的声音特征为时间参考，对所述至少两个视频文件进行合并。

作为一种可选实施方式，所述确定单元53，具体用于：

获取与所述各个音频信号对应的音频数据；

作为一种可选实施方式，所述合并单元53，还用于：

根据所述至少一个相同的声音特征确定第一时间点；

作为一种具体实施方式，所述确定单元53，具体用于：

上述方案中，所述合并单元54，还用于：

从所述至少两个视频文件中确定出主视频文件；

上述方案中，所述合并单元54，还用于：

上述方案中，所述第二获取单元52，还用于：

获取所述至少两个视频文件的格式；

判断所述至少两个视频文件的格式是否为预设格式；

本领域技术人员应当理解，本发明实施例的合并视频的装置中各处理模块的功能，可参照前述合并视频的方法的相关描述而理解，本发明实施例的电子设备中各处理模块，可通过实现本发明实施例所述的功能的模拟电路而实现，也可以通过执行本发明实施例所述的功能的软件在电子设备上的运行而实现。

其中，所述第一获取单元51、第二获取单元52、确定单元53、合并单元54，在实际应用中，均可由电子设备中的中央处理器CPU、MCU、DSP或PLC等实现。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法、装置和电子设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明实施例上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种合并视频的方法，其特征在于，所述方法包括：

获取至少两个视频文件；

从各个音频信号中确定出至少一个相同的声音特征；

以所述至少一个相同的声音特征为时间参考，对所述至少两个视频文件进行合并；

其中，所述以所述至少一个相同的声音特征为时间参考，对所述至少两个视频文件进行合并，包括：

根据所述至少一个相同的声音特征确定第一时间点；

以所述第一时间点为中心，同步所述至少两个视频文件中的视频数据以及音频数据；

所述方法还包括：

从所述至少两个视频文件中确定出主视频文件；

2.根据权利要求1所述的方法，其特征在于，所述从各个音频信号中确定出至少一个相同的声音特征，包括：

获取与所述各个音频信号对应的音频数据；

3.根据权利要求1所述的方法，其特征在于，所述以所述第一时间点为中心，同步所述至少两个视频文件中的视频数据以及音频数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述至少两个视频文件进行合并，还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述至少两个视频文件的格式；

判断所述至少两个视频文件的格式是否为预设格式；

7.一种合并视频的装置，其特征在于，所述装置包括：

处理器，用于从各个音频信号中确定出至少一个相同的声音特征；以所述至少一个相同的声音特征为时间参考，对所述至少两个视频文件进行合并；

其中，所述处理器，还用于：

根据所述至少一个相同的声音特征确定第一时间点；

所述处理器，还用于：

从所述至少两个视频文件中确定出主视频文件；

8.根据权利要求7所述的装置，其特征在于，所述处理器，还用于：

获取与所述各个音频信号对应的音频数据；

9.根据权利要求7所述的装置，其特征在于，所述处理器，还用于：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

11.根据权利要求7所述的装置，其特征在于，所述处理器，还用于：

12.根据权利要求7所述的装置，其特征在于，所述处理器，还用于：

获取所述至少两个视频文件的格式；

判断所述至少两个视频文件的格式是否为预设格式；