CN108769559B

CN108769559B - 多媒体文件的同步方法及装置

Info

Publication number: CN108769559B
Application number: CN201810546057.XA
Authority: CN
Inventors: 袁鲲; 齐红威; 丰强泽
Original assignee: Datatang Beijing Technology Co ltd
Current assignee: Datatang Beijing Technology Co ltd
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2020-12-01
Anticipated expiration: 2038-05-25
Also published as: CN108769559A

Abstract

本发明提供了一种多媒体文件的同步方法及装置，其中，多媒体文件的同步方法中，在每个视频设备拍摄的音频文件均包括同一脉冲波，在确定所述脉冲波在每个音频文件中的起始采样点之后，利用将样本序列和校验音频文件中的脉冲波进行相似度对比，得到每个所述校验音频文件中的最相似序列，依据每个所述校验音频文件中的最相似序列的位置，计算得到每个所述校验音频文件中的最相似序列的参照位置，实现了对多个视频设备录制的音频文件的同步。

Description

多媒体文件的同步方法及装置

技术领域

本发明涉及多媒体技术领域，尤其涉及一种多媒体文件的同步方法及装置。

背景技术

目前，在口型合成、唇语识别等应用场景，需要多个视频设备同时工作，从不同位置或角度完成一段动作的录制。并且，还需要不同设备在拍摄一个动作时的音频都能严格同步(一般误差要求小于30毫秒)。

现有技术中，一般通过遥控器来对视频设备进行同步控制，具体控制其同时录制以及同时停止。例如：某些DV支持外接遥控器来通过按键方式来启动和停止录制。但是，这种通过遥控器控制视频设备进行同步控制的方法存在控制及传输时延，导致多个视频设备同步误差会超过30毫秒。

发明内容

基于上述现有技术的不足，本发明提出一种多媒体文件的同步方法及装置，以实现多个视频设备录制的多个多媒体文件的同步。

为解决上述问题，现提出的方案如下：

一种多媒体文件的同步方法，包括：

获取由多个视频设备同步拍摄的音频文件；其中，每个所述音频文件均包括同一脉冲波；

依据每个所述音频文件中音频帧的MFCC特征值，确定每个所述音频文件中的脉冲波的起始采样点；

将样本序列和校验音频文件中的脉冲波进行相似度对比，得到每个所述校验音频文件中的最相似序列；其中，所述样本序列为样本音频中以脉冲波的起始采样点为起始而截取得到的采样点序列，所述样本音频为所述视频设备拍摄的音频文件中的任意一个；所述校验音频文件包括所述视频设备拍摄的音频文件中除所述样本音频以外的音频文件；

依据每个所述校验音频文件中的最相似序列的位置，计算得到每个所述校验音频文件中的最相似序列的参照位置，其中，所述最相似序列的参照位置以所述样本音频中的样本序列为对齐参照。

可选地，还包括：

依据所述每个所述校验音频文件中的最相似序列的参照位置，计算得到每个所述校验音频文件的同步视频帧位置。

可选地，所述依据所述每个所述校验音频文件中的最相似序列的参照位置，计算得到每个所述校验音频文件的同步视频帧位置，包括：

将每个所述校验音频文件中的最相似序列的参照位置，与帧长相乘，得到每个所述校验音频文件中的最相似序列中起始采样点的位置；

将每个所述校验音频文件中的最相似序列中起始采样点的位置，除以采样率，得到每个所述校验音频文件的同步时间点；

将每个所述校验音频文件的同步时间点，与视频的帧率做乘，得到每个所述校验音频文件的同步视频帧位置。

可选地，还包括：

降低每个所述音频文件的位深，得到处理后的音频文件；

其中，所述依据每个所述音频文件中音频帧的MFCC特征值，确定每个所述音频文件中的脉冲波的起始采样点，包括：依据每个所述处理后的音频文件中音频帧的MFCC特征值，确定每个所述音频文件中的脉冲波的起始采样点。

一种多媒体文件的同步装置，包括：

获取单元，用于获取由多个视频设备同步拍摄的音频文件；其中，每个所述音频文件均包括同一脉冲波；

确定单元，用于依据每个所述音频文件中音频帧的MFCC特征值，确定每个所述音频文件中的脉冲波的起始采样点；

比对单元，用于将样本序列和校验音频文件中的脉冲波进行相似度对比，得到每个所述校验音频文件中的最相似序列；其中，所述样本序列为样本音频中以脉冲波的起始采样点为起始而截取得到的采样点序列，所述样本音频为所述视频设备拍摄的音频文件中的任意一个；所述校验音频文件包括所述视频设备拍摄的音频文件中除所述样本音频以外的音频文件；

第一计算单元，用于依据每个所述校验音频文件中的最相似序列的位置，计算得到每个所述校验音频文件中的最相似序列的参照位置，其中，所述最相似序列的参照位置以所述样本音频中的样本序列为对齐参照。

可选地，还包括：

第二计算单元，用于依据所述每个所述校验音频文件中的最相似序列的参照位置，计算得到每个所述校验音频文件的同步视频帧位置。

可选地，所述第二计算单元，包括：

第一计算子单元，用于将每个所述校验音频文件中的最相似序列的参照位置，与帧长相乘，得到每个所述校验音频文件中的最相似序列中起始采样点的位置；

第二计算子单元，用于将每个所述校验音频文件中的最相似序列中起始采样点的位置，除以采样率，得到每个所述校验音频文件的同步时间点；

第三计算子单元，用于将每个所述校验音频文件的同步时间点，与视频的帧率做乘，得到每个所述校验音频文件的同步视频帧位置。

可选地，还包括：

处理单元，用于降低每个所述音频文件的位深，得到处理后的音频文件；

其中，所述确定单元执行依据每个所述音频文件中音频帧的MFCC特征值，确定每个所述音频文件中的脉冲波的起始采样点时，用于依据每个所述处理后的音频文件中音频帧的MFCC特征值，确定每个所述音频文件中的脉冲波的起始采样点。

一种多媒体文件的同步装置，包括：处理器和存储器，其中；

所述存储器用于存储计算机可读程序；

所述处理器执行所述存储器存储的程序时，用于获取由多个视频设备同步拍摄的音频文件；其中，每个所述音频文件均包括同一脉冲波；依据每个所述音频文件中音频帧的MFCC特征值，确定每个所述音频文件中的脉冲波的起始采样点；将样本序列和校验音频文件中的脉冲波进行相似度对比，得到每个所述校验音频文件中的最相似序列；其中，所述样本序列为样本音频中以脉冲波的起始采样点为起始而截取得到的采样点序列，所述样本音频为所述视频设备拍摄的音频文件中的任意一个；所述校验音频文件包括所述视频设备拍摄的音频文件中除所述样本音频以外的音频文件；依据每个所述校验音频文件中的最相似序列的位置，计算得到每个所述校验音频文件中的最相似序列的参照位置，其中，所述最相似序列的参照位置以所述样本音频中的样本序列为对齐参照。

可选地，所述处理器还用于：依据所述每个所述校验音频文件中的最相似序列的参照位置，计算得到每个所述校验音频文件的同步视频帧位置。

本发明提供的公开的多媒体文件的同步方法中，在每个视频设备拍摄的音频文件均包括同一脉冲波，在确定所述脉冲波在每个音频文件中的起始采样点之后，利用将样本序列和校验音频文件中的脉冲波进行相似度对比，得到每个所述校验音频文件中的最相似序列，依据每个所述校验音频文件中的最相似序列的位置，计算得到每个所述校验音频文件中的最相似序列的参照位置，实现了对多个视频设备录制的音频文件的同步。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种多媒体文件的同步方法的流程图；

图2为本发明另一实施例公开的一种多媒体文件的同步方法的流程图；

图3为本发明实施例公开的一种多媒体文件的同步装置的结构示意图；

图4为本发明实施例公开的一种多媒体文件的同步装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提出一种多媒体文件的同步方法及装置，以实现多个视频设备录制的多个多媒体文件的同步。

参见图1，本申请实施例公开的一种多媒体文件的同步方法，包括步骤：

S101、获取由多个视频设备同步拍摄的音频文件；其中，每个所述音频文件均包括同一脉冲波。

脉冲波具有规律性波谱，与正常的音频波形具有显著的区别，可以是稳定在预定的频率且持续一定时间的波形，例如：频率稳定在1kHz的波形，且持续0.66秒。还可以是具有变化规律的波形，例如：波形频谱呈现y＝Ce^kt[ε(t)-ε(t-0.33)]的变化规律；C、k为常数。当然，还可以包括两部分，第一部分为稳定在预定的频率且持续一定时间的波形，第二部分是具有变化规律的波形。例如：第一部分是频率稳定在1kHz的波形，持续0.33秒；第二部分是频谱呈现y＝Ce^kt[ε(t)-ε(t-0.33)]的变化规律的波形；C、k为常数。

多个视频设备被同时启动，用于同步录制音频。在录制正常音频之前，需先录制脉冲波。还需要说明的是，在视频设备录制脉冲波之前，先设定录制音频的采样率和位深。一般情况下，为了保证能够录制最高频率达16kHz的脉冲波，采样率至少需要为32kHz，本实施例中可选采用48KHz的采样率。并且，设置的位深为32bit。

多个视频设备录制脉冲和正常音频之后，分别得到音频文件，且每一个音频文件均脉冲波，且由于脉冲波是先于正常音频录制，所以脉冲波会位于音频文件的起始位置。

还需要说明的是，视频设备一般用于拍摄视频，所以录制得到的音频文件一般是视频文件。因此，在得到视频设备录制的视频文件之后，还需要将视频文件中的音频和图像分离，得到音频文件。

可选地，本申请的另一实施例中，获取由多个视频设备同步拍摄的音频文件之后，还包括：

降低每个所述音频文件的位深，得到处理后的音频文件。

具体的，利用如ffmpeg这类工具对音频文件的量化精度进行批量调整，得到的音频的采样率为48kHz，位深为16bit。其中，降低音频文件的位深，可以降低音频文件的后续处理工作的工作量，提高处理速度。

S102、依据每个所述音频文件中音频帧的MFCC特征值，确定每个所述音频文件中的脉冲波的起始采样点。

其中，检查每一个视频设备录制的音频文件，提取各个视频帧的Mel频率倒谱系数((Mel Frequency Cepstrum Coefficient，MFCC)特征值，并进行记录。可选地，可以以帧长256点，帧移256点提取MFCC特征值，即一个音频帧包括256个采样点。

音频文件中包括脉冲波和正常音频，脉冲波的波形明显区别于正常音频，其MFCC特征值与正常音频的MFCC特征值也有明显区别。因此，依据音频文件中各个音频帧的MFCC特征值，可以识别出音频文件中的属于脉冲波的音频帧。并且，根据属于脉冲波的音频帧的帧号，可以确定出音频文件中属于脉冲波的音频帧的起始采样点。

S103、将样本序列和校验音频文件中的脉冲波进行相似度对比，得到每个所述校验音频文件中的最相似序列。

其中，所述样本序列为样本音频中以脉冲波的起始采样点为起始而截取得到的采样点序列，所述样本音频为所述视频设备拍摄的音频文件中的任意一个；所述校验音频文件包括所述视频设备拍摄的音频文件中除所述样本音频以外的音频文件。

一般情况下，脉冲波包括至少2个音频帧。选择多个视频设备拍摄的多个音频文件中的任意一个作为样本音频，以样本音频中的脉冲波的起始采样点为起始点，截取至少2帧音频的脉冲波作为样本序列。为了避免样本序列和校验音频文件中的脉冲波进行相似度比对过程中，因干扰信号导致比对结果不准确，所以在样本音频中截取的是至少2帧音频。

将截取得到的样本序列，分别与每个校验音频文件中的脉冲波比对，确定出每个校验音频文件中的脉冲波中，与样本序列最相似的序列。具体的，在校验音频文件中的脉冲波中选取与样本序列同等帧数的音频帧，样本序列进行比对，例如：样本序列为3帧，进行相似对比对时，分别将样本序列与校验音频文件中的脉冲波的第1、2和3帧，第2、3和4帧，第3、4和5帧，直至最后三帧脉冲波，分别比对，确定出最相似的帧序列。

S104、依据每个所述校验音频文件中的最相似序列的位置，计算得到每个所述校验音频文件中的最相似序列的参照位置，其中，所述最相似序列的参照位置以所述样本音频中的样本序列为对齐参照。

样本音频中的样本序列，和每一个校验音频文件中的最相似序列，都属于同一脉冲波，且都是由相同的脉冲波的采样点构成。因此，若多个视频设备是完全同步工作，那样本音频中的样本序列在样本音频中的位置和每一个校验音频文件中的最相似序列在校验音频文件的位置，应该是相同的。

由于多个视频设备不能做到完全同步工作，所以才会导致样本音频中的样本序列在样本音频中的位置和每一个校验音频文件中的最相似序列在校验音频文件的位置，不相同。因此，需要计算得到每个校验音频文件中的最相似序列，以所述样本音频中的样本序列的位置为起始位置时，在校验音频文件中的所处位置。

具体的，计算出每个所述校验音频文件中的最相似序列的位置和样本音频中的样本序列的位置之间的位置差值，在每个所述校验音频文件中的最相似序列的位置的基础上加/减计算得到的位置差值，得到每个所述校验音频文件中的最相似序列的参照位置。

还需要说明的是，本步骤中提及的校验音频文件中的最相似序列的位置以及校验音频文件中的最相似序列的参照位置，都是指最相似序列的起始帧号的位置，即起始帧号。

本实施例公开的多媒体文件的同步方法中，在每个视频设备拍摄的音频文件均包括同一脉冲波，在确定所述脉冲波在每个音频文件中的起始采样点之后，利用将样本序列和校验音频文件中的脉冲波进行相似度对比，得到每个所述校验音频文件中的最相似序列，依据每个所述校验音频文件中的最相似序列的位置，计算得到每个所述校验音频文件中的最相似序列的参照位置，实现了对多个视频设备录制的音频文件的同步。

若视频设备录制的是视频文件，那除了对音频文件进行同步之外，还需要对视频文件中的画面进行同步，即实现视频文件的视频帧的同步。可选地，本申请的另一实施例中，参见图2，多媒体文件的同步方法包括：步骤S201～S204，除此之外，步骤S204之后，还包括：

S205、依据所述每个所述校验音频文件中的最相似序列的参照位置，计算得到每个所述校验音频文件的同步视频帧位置。

其中，校验音频文件的同步视频帧位置是指，校验音频文件对应的视频文件的同步帧的位置。并且，检验音频文件的同步视频帧位置，是指检验音频文件的同步视频帧的帧号。

可选地，本申请的另一实施例中，步骤S105的一种实施方式，包括：

将每个所述校验音频文件中的最相似序列的参照位置，与帧长相乘，得到每个所述校验音频文件中的最相似序列中起始采样点的位置。

将每个所述校验音频文件中的最相似序列中起始采样点的位置，除以采样率，得到每个所述校验音频文件的同步时间点。可选地，同步时间点的时间单位为毫秒，若计算得到的数值有小数，则可以对小数可进行4舍5入。

将每个所述校验音频文件的同步时间点，与视频的帧率做乘，得到每个所述校验音频文件的同步视频帧位置。可选地，若计算结果包括小数，也可以采用4舍5入。

本申请另一实施例还公开了一种多媒体文件的同步装置，参见图3，包括：

获取单元301，用于获取由多个视频设备同步拍摄的音频文件；其中，每个所述音频文件均包括同一脉冲波；

确定单元302，用于依据每个所述音频文件中音频帧的MFCC特征值，确定每个所述音频文件中的脉冲波的起始采样点；

比对单元303，用于将样本序列和校验音频文件中的脉冲波进行相似度对比，得到每个所述校验音频文件中的最相似序列；其中，所述样本序列为样本音频中以脉冲波的起始采样点为起始而截取得到的采样点序列，所述样本音频为所述视频设备拍摄的音频文件中的任意一个；所述校验音频文件包括所述视频设备拍摄的音频文件中除所述样本音频以外的音频文件；

第一计算单元304，用于依据每个所述校验音频文件中的最相似序列的位置，计算得到每个所述校验音频文件中的最相似序列的参照位置，其中，所述最相似序列的参照位置以所述样本音频中的样本序列为对齐参照。

本实施例中各个单元的具体工作过程可参见对应图1的方法实施例的内容，此处不再赘述。

可选地，本申请另一实施例中，所述多媒体文件的同步装置还包括：

可选地，本申请另一实施例中，所述第二计算单元，包括：

本申请上述实施例中的单元的具体过程可参见对应图2的方法实施例的内容，此处不再赘述。

本实施例中各个单元的具体工作过程可参见对应图1的方法实施例的可选实施例内容，此处不再赘述。

本申请另一实施例还公开了一种多媒体文件的同步装置，参见图4，包括：处理器401和存储器402，其中；

存储器402用于存储计算机可读程序；

处理器401执行所述存储器存储的程序时，用于获取由多个视频设备同步拍摄的音频文件；其中，每个所述音频文件均包括同一脉冲波；依据每个所述音频文件中音频帧的MFCC特征值，确定每个所述音频文件中的脉冲波的起始采样点；将样本序列和校验音频文件中的脉冲波进行相似度对比，得到每个所述校验音频文件中的最相似序列；其中，所述样本序列为样本音频中以脉冲波的起始采样点为起始而截取得到的采样点序列，所述样本音频为所述视频设备拍摄的音频文件中的任意一个；所述校验音频文件包括所述视频设备拍摄的音频文件中除所述样本音频以外的音频文件；依据每个所述校验音频文件中的最相似序列的位置，计算得到每个所述校验音频文件中的最相似序列的参照位置，其中，所述最相似序列的参照位置以所述样本音频中的样本序列为对齐参照。

可选地，本申请另一实施例中，所述处理器还用于：依据所述每个所述校验音频文件中的最相似序列的参照位置，计算得到每个所述校验音频文件的同步视频帧位置。

可选地，本申请另一实施例中，所述处理器执行依据所述每个所述校验音频文件中的最相似序列的参照位置，计算得到每个所述校验音频文件的同步视频帧位置，用于：将每个所述校验音频文件中的最相似序列的参照位置，与帧长相乘，得到每个所述校验音频文件中的最相似序列中起始采样点的位置；将每个所述校验音频文件中的最相似序列中起始采样点的位置，除以采样率，得到每个所述校验音频文件的同步时间点；将每个所述校验音频文件的同步时间点，与视频的帧率做乘，得到每个所述校验音频文件的同步视频帧位置。

可选地，本申请另一实施例中，所述处理器还用于：降低每个所述音频文件的位深，得到处理后的音频文件；

其中，所述处理器执行依据每个所述音频文件中音频帧的MFCC特征值，确定每个所述音频文件中的脉冲波的起始采样点，用于：依据每个所述处理后的音频文件中音频帧的MFCC特征值，确定每个所述音频文件中的脉冲波的起始采样点。

本申请上述实施例中的单元的具体过程，可参见对应方法实施例的内容，此处不再赘述。

专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多媒体文件的同步方法，其特征在于，包括：

获取由多个视频设备同步拍摄的音频文件；其中，每个所述音频文件均包括同一脉冲波，所述同一脉冲波位于每个所述音频文件的起始位置；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，所述依据所述每个所述校验音频文件中的最相似序列的参照位置，计算得到每个所述校验音频文件的同步视频帧位置，包括：

4.根据权利要求1-3中任意一项所述的方法，其特征在于，还包括：

降低每个所述音频文件的位深，得到处理后的音频文件；

5.一种多媒体文件的同步装置，其特征在于，包括：

获取单元，用于获取由多个视频设备同步拍摄的音频文件；其中，每个所述音频文件均包括同一脉冲波，所述同一脉冲波位于每个所述音频文件的起始位置；

6.根据权利要求5所述的装置，其特征在于，还包括：

7.根据权利要求6所述的装置，其特征在于，所述第二计算单元，包括：

8.根据权利要求5-7中任意一项所述的装置，其特征在于，还包括：

9.一种多媒体文件的同步装置，其特征在于，包括：处理器和存储器，其中；

所述存储器用于存储计算机可读程序；

所述处理器执行所述存储器存储的程序时，用于获取由多个视频设备同步拍摄的音频文件；其中，每个所述音频文件均包括同一脉冲波，所述同一脉冲波位于每个所述音频文件的起始位置；依据每个所述音频文件中音频帧的MFCC特征值，确定每个所述音频文件中的脉冲波的起始采样点；将样本序列和校验音频文件中的脉冲波进行相似度对比，得到每个所述校验音频文件中的最相似序列；其中，所述样本序列为样本音频中以脉冲波的起始采样点为起始而截取得到的采样点序列，所述样本音频为所述视频设备拍摄的音频文件中的任意一个；所述校验音频文件包括所述视频设备拍摄的音频文件中除所述样本音频以外的音频文件；依据每个所述校验音频文件中的最相似序列的位置，计算得到每个所述校验音频文件中的最相似序列的参照位置，其中，所述最相似序列的参照位置以所述样本音频中的样本序列为对齐参照。

10.根据权利要求9所述的装置，其特征在于，所述处理器还用于：依据所述每个所述校验音频文件中的最相似序列的参照位置，计算得到每个所述校验音频文件的同步视频帧位置。