CN108769559B - 多媒体文件的同步方法及装置 - Google Patents
多媒体文件的同步方法及装置 Download PDFInfo
- Publication number
- CN108769559B CN108769559B CN201810546057.XA CN201810546057A CN108769559B CN 108769559 B CN108769559 B CN 108769559B CN 201810546057 A CN201810546057 A CN 201810546057A CN 108769559 B CN108769559 B CN 108769559B
- Authority
- CN
- China
- Prior art keywords
- audio file
- audio
- verification
- sequence
- sampling point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
- H04N5/92—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N5/9201—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
- H04N5/9202—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal the additional signal being a sound signal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明提供了一种多媒体文件的同步方法及装置,其中,多媒体文件的同步方法中,在每个视频设备拍摄的音频文件均包括同一脉冲波,在确定所述脉冲波在每个音频文件中的起始采样点之后,利用将样本序列和校验音频文件中的脉冲波进行相似度对比,得到每个所述校验音频文件中的最相似序列,依据每个所述校验音频文件中的最相似序列的位置,计算得到每个所述校验音频文件中的最相似序列的参照位置,实现了对多个视频设备录制的音频文件的同步。
Description
技术领域
本发明涉及多媒体技术领域,尤其涉及一种多媒体文件的同步方法及装置。
背景技术
目前,在口型合成、唇语识别等应用场景,需要多个视频设备同时工作,从不同位置或角度完成一段动作的录制。并且,还需要不同设备在拍摄一个动作时的音频都能严格同步(一般误差要求小于30毫秒)。
现有技术中,一般通过遥控器来对视频设备进行同步控制,具体控制其同时录制以及同时停止。例如:某些DV支持外接遥控器来通过按键方式来启动和停止录制。但是,这种通过遥控器控制视频设备进行同步控制的方法存在控制及传输时延,导致多个视频设备同步误差会超过30毫秒。
发明内容
基于上述现有技术的不足,本发明提出一种多媒体文件的同步方法及装置,以实现多个视频设备录制的多个多媒体文件的同步。
为解决上述问题,现提出的方案如下:
一种多媒体文件的同步方法,包括:
获取由多个视频设备同步拍摄的音频文件;其中,每个所述音频文件均包括同一脉冲波;
依据每个所述音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点;
将样本序列和校验音频文件中的脉冲波进行相似度对比,得到每个所述校验音频文件中的最相似序列;其中,所述样本序列为样本音频中以脉冲波的起始采样点为起始而截取得到的采样点序列,所述样本音频为所述视频设备拍摄的音频文件中的任意一个;所述校验音频文件包括所述视频设备拍摄的音频文件中除所述样本音频以外的音频文件;
依据每个所述校验音频文件中的最相似序列的位置,计算得到每个所述校验音频文件中的最相似序列的参照位置,其中,所述最相似序列的参照位置以所述样本音频中的样本序列为对齐参照。
可选地,还包括:
依据所述每个所述校验音频文件中的最相似序列的参照位置,计算得到每个所述校验音频文件的同步视频帧位置。
可选地,所述依据所述每个所述校验音频文件中的最相似序列的参照位置,计算得到每个所述校验音频文件的同步视频帧位置,包括:
将每个所述校验音频文件中的最相似序列的参照位置,与帧长相乘,得到每个所述校验音频文件中的最相似序列中起始采样点的位置;
将每个所述校验音频文件中的最相似序列中起始采样点的位置,除以采样率,得到每个所述校验音频文件的同步时间点;
将每个所述校验音频文件的同步时间点,与视频的帧率做乘,得到每个所述校验音频文件的同步视频帧位置。
可选地,还包括:
降低每个所述音频文件的位深,得到处理后的音频文件;
其中,所述依据每个所述音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点,包括:依据每个所述处理后的音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点。
一种多媒体文件的同步装置,包括:
获取单元,用于获取由多个视频设备同步拍摄的音频文件;其中,每个所述音频文件均包括同一脉冲波;
确定单元,用于依据每个所述音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点;
比对单元,用于将样本序列和校验音频文件中的脉冲波进行相似度对比,得到每个所述校验音频文件中的最相似序列;其中,所述样本序列为样本音频中以脉冲波的起始采样点为起始而截取得到的采样点序列,所述样本音频为所述视频设备拍摄的音频文件中的任意一个;所述校验音频文件包括所述视频设备拍摄的音频文件中除所述样本音频以外的音频文件;
第一计算单元,用于依据每个所述校验音频文件中的最相似序列的位置,计算得到每个所述校验音频文件中的最相似序列的参照位置,其中,所述最相似序列的参照位置以所述样本音频中的样本序列为对齐参照。
可选地,还包括:
第二计算单元,用于依据所述每个所述校验音频文件中的最相似序列的参照位置,计算得到每个所述校验音频文件的同步视频帧位置。
可选地,所述第二计算单元,包括:
第一计算子单元,用于将每个所述校验音频文件中的最相似序列的参照位置,与帧长相乘,得到每个所述校验音频文件中的最相似序列中起始采样点的位置;
第二计算子单元,用于将每个所述校验音频文件中的最相似序列中起始采样点的位置,除以采样率,得到每个所述校验音频文件的同步时间点;
第三计算子单元,用于将每个所述校验音频文件的同步时间点,与视频的帧率做乘,得到每个所述校验音频文件的同步视频帧位置。
可选地,还包括:
处理单元,用于降低每个所述音频文件的位深,得到处理后的音频文件;
其中,所述确定单元执行依据每个所述音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点时,用于依据每个所述处理后的音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点。
一种多媒体文件的同步装置,包括:处理器和存储器,其中;
所述存储器用于存储计算机可读程序;
所述处理器执行所述存储器存储的程序时,用于获取由多个视频设备同步拍摄的音频文件;其中,每个所述音频文件均包括同一脉冲波;依据每个所述音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点;将样本序列和校验音频文件中的脉冲波进行相似度对比,得到每个所述校验音频文件中的最相似序列;其中,所述样本序列为样本音频中以脉冲波的起始采样点为起始而截取得到的采样点序列,所述样本音频为所述视频设备拍摄的音频文件中的任意一个;所述校验音频文件包括所述视频设备拍摄的音频文件中除所述样本音频以外的音频文件;依据每个所述校验音频文件中的最相似序列的位置,计算得到每个所述校验音频文件中的最相似序列的参照位置,其中,所述最相似序列的参照位置以所述样本音频中的样本序列为对齐参照。
可选地,所述处理器还用于:依据所述每个所述校验音频文件中的最相似序列的参照位置,计算得到每个所述校验音频文件的同步视频帧位置。
本发明提供的公开的多媒体文件的同步方法中,在每个视频设备拍摄的音频文件均包括同一脉冲波,在确定所述脉冲波在每个音频文件中的起始采样点之后,利用将样本序列和校验音频文件中的脉冲波进行相似度对比,得到每个所述校验音频文件中的最相似序列,依据每个所述校验音频文件中的最相似序列的位置,计算得到每个所述校验音频文件中的最相似序列的参照位置,实现了对多个视频设备录制的音频文件的同步。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种多媒体文件的同步方法的流程图;
图2为本发明另一实施例公开的一种多媒体文件的同步方法的流程图;
图3为本发明实施例公开的一种多媒体文件的同步装置的结构示意图;
图4为本发明实施例公开的一种多媒体文件的同步装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提出一种多媒体文件的同步方法及装置,以实现多个视频设备录制的多个多媒体文件的同步。
参见图1,本申请实施例公开的一种多媒体文件的同步方法,包括步骤:
S101、获取由多个视频设备同步拍摄的音频文件;其中,每个所述音频文件均包括同一脉冲波。
脉冲波具有规律性波谱,与正常的音频波形具有显著的区别,可以是稳定在预定的频率且持续一定时间的波形,例如:频率稳定在1kHz的波形,且持续0.66秒。还可以是具有变化规律的波形,例如:波形频谱呈现y=Cekt[ε(t)-ε(t-0.33)]的变化规律;C、k为常数。当然,还可以包括两部分,第一部分为稳定在预定的频率且持续一定时间的波形,第二部分是具有变化规律的波形。例如:第一部分是频率稳定在1kHz的波形,持续0.33秒;第二部分是频谱呈现y=Cekt[ε(t)-ε(t-0.33)]的变化规律的波形;C、k为常数。
多个视频设备被同时启动,用于同步录制音频。在录制正常音频之前,需先录制脉冲波。还需要说明的是,在视频设备录制脉冲波之前,先设定录制音频的采样率和位深。一般情况下,为了保证能够录制最高频率达16kHz的脉冲波,采样率至少需要为32kHz,本实施例中可选采用48KHz的采样率。并且,设置的位深为32bit。
多个视频设备录制脉冲和正常音频之后,分别得到音频文件,且每一个音频文件均脉冲波,且由于脉冲波是先于正常音频录制,所以脉冲波会位于音频文件的起始位置。
还需要说明的是,视频设备一般用于拍摄视频,所以录制得到的音频文件一般是视频文件。因此,在得到视频设备录制的视频文件之后,还需要将视频文件中的音频和图像分离,得到音频文件。
可选地,本申请的另一实施例中,获取由多个视频设备同步拍摄的音频文件之后,还包括:
降低每个所述音频文件的位深,得到处理后的音频文件。
具体的,利用如ffmpeg这类工具对音频文件的量化精度进行批量调整,得到的音频的采样率为48kHz,位深为16bit。其中,降低音频文件的位深,可以降低音频文件的后续处理工作的工作量,提高处理速度。
S102、依据每个所述音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点。
其中,检查每一个视频设备录制的音频文件,提取各个视频帧的Mel频率倒谱系数((Mel Frequency Cepstrum Coefficient,MFCC)特征值,并进行记录。可选地,可以以帧长256点,帧移256点提取MFCC特征值,即一个音频帧包括256个采样点。
音频文件中包括脉冲波和正常音频,脉冲波的波形明显区别于正常音频,其MFCC特征值与正常音频的MFCC特征值也有明显区别。因此,依据音频文件中各个音频帧的MFCC特征值,可以识别出音频文件中的属于脉冲波的音频帧。并且,根据属于脉冲波的音频帧的帧号,可以确定出音频文件中属于脉冲波的音频帧的起始采样点。
S103、将样本序列和校验音频文件中的脉冲波进行相似度对比,得到每个所述校验音频文件中的最相似序列。
其中,所述样本序列为样本音频中以脉冲波的起始采样点为起始而截取得到的采样点序列,所述样本音频为所述视频设备拍摄的音频文件中的任意一个;所述校验音频文件包括所述视频设备拍摄的音频文件中除所述样本音频以外的音频文件。
一般情况下,脉冲波包括至少2个音频帧。选择多个视频设备拍摄的多个音频文件中的任意一个作为样本音频,以样本音频中的脉冲波的起始采样点为起始点,截取至少2帧音频的脉冲波作为样本序列。为了避免样本序列和校验音频文件中的脉冲波进行相似度比对过程中,因干扰信号导致比对结果不准确,所以在样本音频中截取的是至少2帧音频。
将截取得到的样本序列,分别与每个校验音频文件中的脉冲波比对,确定出每个校验音频文件中的脉冲波中,与样本序列最相似的序列。具体的,在校验音频文件中的脉冲波中选取与样本序列同等帧数的音频帧,样本序列进行比对,例如:样本序列为3帧,进行相似对比对时,分别将样本序列与校验音频文件中的脉冲波的第1、2和3帧,第2、3和4帧,第3、4和5帧,直至最后三帧脉冲波,分别比对,确定出最相似的帧序列。
S104、依据每个所述校验音频文件中的最相似序列的位置,计算得到每个所述校验音频文件中的最相似序列的参照位置,其中,所述最相似序列的参照位置以所述样本音频中的样本序列为对齐参照。
样本音频中的样本序列,和每一个校验音频文件中的最相似序列,都属于同一脉冲波,且都是由相同的脉冲波的采样点构成。因此,若多个视频设备是完全同步工作,那样本音频中的样本序列在样本音频中的位置和每一个校验音频文件中的最相似序列在校验音频文件的位置,应该是相同的。
由于多个视频设备不能做到完全同步工作,所以才会导致样本音频中的样本序列在样本音频中的位置和每一个校验音频文件中的最相似序列在校验音频文件的位置,不相同。因此,需要计算得到每个校验音频文件中的最相似序列,以所述样本音频中的样本序列的位置为起始位置时,在校验音频文件中的所处位置。
具体的,计算出每个所述校验音频文件中的最相似序列的位置和样本音频中的样本序列的位置之间的位置差值,在每个所述校验音频文件中的最相似序列的位置的基础上加/减计算得到的位置差值,得到每个所述校验音频文件中的最相似序列的参照位置。
还需要说明的是,本步骤中提及的校验音频文件中的最相似序列的位置以及校验音频文件中的最相似序列的参照位置,都是指最相似序列的起始帧号的位置,即起始帧号。
本实施例公开的多媒体文件的同步方法中,在每个视频设备拍摄的音频文件均包括同一脉冲波,在确定所述脉冲波在每个音频文件中的起始采样点之后,利用将样本序列和校验音频文件中的脉冲波进行相似度对比,得到每个所述校验音频文件中的最相似序列,依据每个所述校验音频文件中的最相似序列的位置,计算得到每个所述校验音频文件中的最相似序列的参照位置,实现了对多个视频设备录制的音频文件的同步。
若视频设备录制的是视频文件,那除了对音频文件进行同步之外,还需要对视频文件中的画面进行同步,即实现视频文件的视频帧的同步。可选地,本申请的另一实施例中,参见图2,多媒体文件的同步方法包括:步骤S201~S204,除此之外,步骤S204之后,还包括:
S205、依据所述每个所述校验音频文件中的最相似序列的参照位置,计算得到每个所述校验音频文件的同步视频帧位置。
其中,校验音频文件的同步视频帧位置是指,校验音频文件对应的视频文件的同步帧的位置。并且,检验音频文件的同步视频帧位置,是指检验音频文件的同步视频帧的帧号。
可选地,本申请的另一实施例中,步骤S105的一种实施方式,包括:
将每个所述校验音频文件中的最相似序列的参照位置,与帧长相乘,得到每个所述校验音频文件中的最相似序列中起始采样点的位置。
将每个所述校验音频文件中的最相似序列中起始采样点的位置,除以采样率,得到每个所述校验音频文件的同步时间点。可选地,同步时间点的时间单位为毫秒,若计算得到的数值有小数,则可以对小数可进行4舍5入。
将每个所述校验音频文件的同步时间点,与视频的帧率做乘,得到每个所述校验音频文件的同步视频帧位置。可选地,若计算结果包括小数,也可以采用4舍5入。
本申请另一实施例还公开了一种多媒体文件的同步装置,参见图3,包括:
获取单元301,用于获取由多个视频设备同步拍摄的音频文件;其中,每个所述音频文件均包括同一脉冲波;
确定单元302,用于依据每个所述音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点;
比对单元303,用于将样本序列和校验音频文件中的脉冲波进行相似度对比,得到每个所述校验音频文件中的最相似序列;其中,所述样本序列为样本音频中以脉冲波的起始采样点为起始而截取得到的采样点序列,所述样本音频为所述视频设备拍摄的音频文件中的任意一个;所述校验音频文件包括所述视频设备拍摄的音频文件中除所述样本音频以外的音频文件;
第一计算单元304,用于依据每个所述校验音频文件中的最相似序列的位置,计算得到每个所述校验音频文件中的最相似序列的参照位置,其中,所述最相似序列的参照位置以所述样本音频中的样本序列为对齐参照。
本实施例中各个单元的具体工作过程可参见对应图1的方法实施例的内容,此处不再赘述。
可选地,本申请另一实施例中,所述多媒体文件的同步装置还包括:
第二计算单元,用于依据所述每个所述校验音频文件中的最相似序列的参照位置,计算得到每个所述校验音频文件的同步视频帧位置。
可选地,本申请另一实施例中,所述第二计算单元,包括:
第一计算子单元,用于将每个所述校验音频文件中的最相似序列的参照位置,与帧长相乘,得到每个所述校验音频文件中的最相似序列中起始采样点的位置;
第二计算子单元,用于将每个所述校验音频文件中的最相似序列中起始采样点的位置,除以采样率,得到每个所述校验音频文件的同步时间点;
第三计算子单元,用于将每个所述校验音频文件的同步时间点,与视频的帧率做乘,得到每个所述校验音频文件的同步视频帧位置。
本申请上述实施例中的单元的具体过程可参见对应图2的方法实施例的内容,此处不再赘述。
可选地,本申请另一实施例中,所述多媒体文件的同步装置还包括:
处理单元,用于降低每个所述音频文件的位深,得到处理后的音频文件;
其中,所述确定单元执行依据每个所述音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点时,用于依据每个所述处理后的音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点。
本实施例中各个单元的具体工作过程可参见对应图1的方法实施例的可选实施例内容,此处不再赘述。
本申请另一实施例还公开了一种多媒体文件的同步装置,参见图4,包括:处理器401和存储器402,其中;
存储器402用于存储计算机可读程序;
处理器401执行所述存储器存储的程序时,用于获取由多个视频设备同步拍摄的音频文件;其中,每个所述音频文件均包括同一脉冲波;依据每个所述音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点;将样本序列和校验音频文件中的脉冲波进行相似度对比,得到每个所述校验音频文件中的最相似序列;其中,所述样本序列为样本音频中以脉冲波的起始采样点为起始而截取得到的采样点序列,所述样本音频为所述视频设备拍摄的音频文件中的任意一个;所述校验音频文件包括所述视频设备拍摄的音频文件中除所述样本音频以外的音频文件;依据每个所述校验音频文件中的最相似序列的位置,计算得到每个所述校验音频文件中的最相似序列的参照位置,其中,所述最相似序列的参照位置以所述样本音频中的样本序列为对齐参照。
可选地,本申请另一实施例中,所述处理器还用于:依据所述每个所述校验音频文件中的最相似序列的参照位置,计算得到每个所述校验音频文件的同步视频帧位置。
可选地,本申请另一实施例中,所述处理器执行依据所述每个所述校验音频文件中的最相似序列的参照位置,计算得到每个所述校验音频文件的同步视频帧位置,用于:将每个所述校验音频文件中的最相似序列的参照位置,与帧长相乘,得到每个所述校验音频文件中的最相似序列中起始采样点的位置;将每个所述校验音频文件中的最相似序列中起始采样点的位置,除以采样率,得到每个所述校验音频文件的同步时间点;将每个所述校验音频文件的同步时间点,与视频的帧率做乘,得到每个所述校验音频文件的同步视频帧位置。
可选地,本申请另一实施例中,所述处理器还用于:降低每个所述音频文件的位深,得到处理后的音频文件;
其中,所述处理器执行依据每个所述音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点,用于:依据每个所述处理后的音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点。
本申请上述实施例中的单元的具体过程,可参见对应方法实施例的内容,此处不再赘述。
专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种多媒体文件的同步方法,其特征在于,包括:
获取由多个视频设备同步拍摄的音频文件;其中,每个所述音频文件均包括同一脉冲波,所述同一脉冲波位于每个所述音频文件的起始位置;
依据每个所述音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点;
将样本序列和校验音频文件中的脉冲波进行相似度对比,得到每个所述校验音频文件中的最相似序列;其中,所述样本序列为样本音频中以脉冲波的起始采样点为起始而截取得到的采样点序列,所述样本音频为所述视频设备拍摄的音频文件中的任意一个;所述校验音频文件包括所述视频设备拍摄的音频文件中除所述样本音频以外的音频文件;
依据每个所述校验音频文件中的最相似序列的位置,计算得到每个所述校验音频文件中的最相似序列的参照位置,其中,所述最相似序列的参照位置以所述样本音频中的样本序列为对齐参照。
2.根据权利要求1所述的方法,其特征在于,还包括:
依据所述每个所述校验音频文件中的最相似序列的参照位置,计算得到每个所述校验音频文件的同步视频帧位置。
3.根据权利要求2所述的方法,其特征在于,所述依据所述每个所述校验音频文件中的最相似序列的参照位置,计算得到每个所述校验音频文件的同步视频帧位置,包括:
将每个所述校验音频文件中的最相似序列的参照位置,与帧长相乘,得到每个所述校验音频文件中的最相似序列中起始采样点的位置;
将每个所述校验音频文件中的最相似序列中起始采样点的位置,除以采样率,得到每个所述校验音频文件的同步时间点;
将每个所述校验音频文件的同步时间点,与视频的帧率做乘,得到每个所述校验音频文件的同步视频帧位置。
4.根据权利要求1-3中任意一项所述的方法,其特征在于,还包括:
降低每个所述音频文件的位深,得到处理后的音频文件;
其中,所述依据每个所述音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点,包括:依据每个所述处理后的音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点。
5.一种多媒体文件的同步装置,其特征在于,包括:
获取单元,用于获取由多个视频设备同步拍摄的音频文件;其中,每个所述音频文件均包括同一脉冲波,所述同一脉冲波位于每个所述音频文件的起始位置;
确定单元,用于依据每个所述音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点;
比对单元,用于将样本序列和校验音频文件中的脉冲波进行相似度对比,得到每个所述校验音频文件中的最相似序列;其中,所述样本序列为样本音频中以脉冲波的起始采样点为起始而截取得到的采样点序列,所述样本音频为所述视频设备拍摄的音频文件中的任意一个;所述校验音频文件包括所述视频设备拍摄的音频文件中除所述样本音频以外的音频文件;
第一计算单元,用于依据每个所述校验音频文件中的最相似序列的位置,计算得到每个所述校验音频文件中的最相似序列的参照位置,其中,所述最相似序列的参照位置以所述样本音频中的样本序列为对齐参照。
6.根据权利要求5所述的装置,其特征在于,还包括:
第二计算单元,用于依据所述每个所述校验音频文件中的最相似序列的参照位置,计算得到每个所述校验音频文件的同步视频帧位置。
7.根据权利要求6所述的装置,其特征在于,所述第二计算单元,包括:
第一计算子单元,用于将每个所述校验音频文件中的最相似序列的参照位置,与帧长相乘,得到每个所述校验音频文件中的最相似序列中起始采样点的位置;
第二计算子单元,用于将每个所述校验音频文件中的最相似序列中起始采样点的位置,除以采样率,得到每个所述校验音频文件的同步时间点;
第三计算子单元,用于将每个所述校验音频文件的同步时间点,与视频的帧率做乘,得到每个所述校验音频文件的同步视频帧位置。
8.根据权利要求5-7中任意一项所述的装置,其特征在于,还包括:
处理单元,用于降低每个所述音频文件的位深,得到处理后的音频文件;
其中,所述确定单元执行依据每个所述音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点时,用于依据每个所述处理后的音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点。
9.一种多媒体文件的同步装置,其特征在于,包括:处理器和存储器,其中;
所述存储器用于存储计算机可读程序;
所述处理器执行所述存储器存储的程序时,用于获取由多个视频设备同步拍摄的音频文件;其中,每个所述音频文件均包括同一脉冲波,所述同一脉冲波位于每个所述音频文件的起始位置;依据每个所述音频文件中音频帧的MFCC特征值,确定每个所述音频文件中的脉冲波的起始采样点;将样本序列和校验音频文件中的脉冲波进行相似度对比,得到每个所述校验音频文件中的最相似序列;其中,所述样本序列为样本音频中以脉冲波的起始采样点为起始而截取得到的采样点序列,所述样本音频为所述视频设备拍摄的音频文件中的任意一个;所述校验音频文件包括所述视频设备拍摄的音频文件中除所述样本音频以外的音频文件;依据每个所述校验音频文件中的最相似序列的位置,计算得到每个所述校验音频文件中的最相似序列的参照位置,其中,所述最相似序列的参照位置以所述样本音频中的样本序列为对齐参照。
10.根据权利要求9所述的装置,其特征在于,所述处理器还用于:依据所述每个所述校验音频文件中的最相似序列的参照位置,计算得到每个所述校验音频文件的同步视频帧位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810546057.XA CN108769559B (zh) | 2018-05-25 | 2018-05-25 | 多媒体文件的同步方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810546057.XA CN108769559B (zh) | 2018-05-25 | 2018-05-25 | 多媒体文件的同步方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108769559A CN108769559A (zh) | 2018-11-06 |
CN108769559B true CN108769559B (zh) | 2020-12-01 |
Family
ID=64001052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810546057.XA Active CN108769559B (zh) | 2018-05-25 | 2018-05-25 | 多媒体文件的同步方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108769559B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102056026A (zh) * | 2009-11-06 | 2011-05-11 | 中国移动通信集团设计院有限公司 | 音视频同步检测方法及其系统、语音检测方法及其系统 |
CN103297674A (zh) * | 2012-02-27 | 2013-09-11 | 索尼公司 | 信号处理装置、系统和方法,程序,电子器件 |
CN104205859A (zh) * | 2012-04-05 | 2014-12-10 | 汤姆逊许可公司 | 多媒体流的同步 |
CN104301775A (zh) * | 2014-09-28 | 2015-01-21 | 四川长虹电器股份有限公司 | 确认不同节目源之间时间偏移的方法 |
CN105684085A (zh) * | 2013-10-21 | 2016-06-15 | 索尼公司 | 信息处理设备、方法及程序 |
CN105765987A (zh) * | 2013-09-20 | 2016-07-13 | 皇家Kpn公司 | 在媒体流之间使时间线信息相互关联 |
KR20180028588A (ko) * | 2016-09-08 | 2018-03-19 | 주식회사 이타기술 | 입력 시점이 다른 동영상 데이터의 장면기반 핑거프린트를 이용한 적응적 프레임 동기화 방법 및 장치 |
CN108021675A (zh) * | 2017-12-07 | 2018-05-11 | 北京慧听科技有限公司 | 一种多设备录音的自动切分对齐方法 |
-
2018
- 2018-05-25 CN CN201810546057.XA patent/CN108769559B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102056026A (zh) * | 2009-11-06 | 2011-05-11 | 中国移动通信集团设计院有限公司 | 音视频同步检测方法及其系统、语音检测方法及其系统 |
CN103297674A (zh) * | 2012-02-27 | 2013-09-11 | 索尼公司 | 信号处理装置、系统和方法,程序,电子器件 |
CN104205859A (zh) * | 2012-04-05 | 2014-12-10 | 汤姆逊许可公司 | 多媒体流的同步 |
CN105765987A (zh) * | 2013-09-20 | 2016-07-13 | 皇家Kpn公司 | 在媒体流之间使时间线信息相互关联 |
CN105684085A (zh) * | 2013-10-21 | 2016-06-15 | 索尼公司 | 信息处理设备、方法及程序 |
CN104301775A (zh) * | 2014-09-28 | 2015-01-21 | 四川长虹电器股份有限公司 | 确认不同节目源之间时间偏移的方法 |
KR20180028588A (ko) * | 2016-09-08 | 2018-03-19 | 주식회사 이타기술 | 입력 시점이 다른 동영상 데이터의 장면기반 핑거프린트를 이용한 적응적 프레임 동기화 방법 및 장치 |
CN108021675A (zh) * | 2017-12-07 | 2018-05-11 | 北京慧听科技有限公司 | 一种多设备录音的自动切分对齐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108769559A (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108924617B (zh) | 同步视频数据和音频数据的方法、存储介质和电子设备 | |
EP1922720B1 (en) | System and method for synchronizing sound and manually transcribed text | |
JP6806737B2 (ja) | 同期装置、同期方法及び同期プログラム | |
CN112154669B (zh) | 基于系统时钟的视频流帧时间戳的相关 | |
CN106531167B (zh) | 一种语音信息的处理方法及装置 | |
CA2107727C (en) | Synchronous compression and reconstruction system | |
CN107277594B (zh) | 一种视音频与弹幕同步方法及装置 | |
CA2432770A1 (en) | Synchronization of camera images in camera-based touch system to enhance position determination of fast moving objects | |
EP3089471A1 (en) | Video smoothing method and device | |
CN113722543A (zh) | 一种视频相似性比对方法、系统及设备 | |
KR100847534B1 (ko) | 비디오 프레임의 렌더링 지속시간 결정 장치 및 방법 | |
CN110245374B (zh) | 一种工艺时序间隔分析方法、系统、装置和存储介质 | |
CN109144858B (zh) | 流畅度检测方法、装置、计算设备及存储介质 | |
EP2881944B1 (en) | Audio signal processing apparatus | |
CN111698530A (zh) | 视频传输方法、装置、设备及计算机可读存储介质 | |
WO2020228107A1 (zh) | 一种音频修复方法、设备及可读存储介质 | |
WO2017080241A1 (zh) | 延时摄影方法和装置 | |
US7274864B2 (en) | Method and device for digital video capture | |
CN108769559B (zh) | 多媒体文件的同步方法及装置 | |
CN109640141B (zh) | 一种音频时间戳的校正方法、校正装置及音视频终端 | |
Six et al. | Synchronizing multimodal recordings using audio-to-audio alignment: An application of acoustic fingerprinting to facilitate music interaction research | |
CN112733667A (zh) | 基于人脸识别的人脸对齐方法及装置 | |
CN109275009A (zh) | 一种控制音频与文本同步的方法及装置 | |
CN110908887B (zh) | 一种自动化测试应用程序响应速度的方法及系统 | |
CN109986552B (zh) | 机器人动作控制方法、智能终端及具有存储功能的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |