CN103167342B - 一种音视频同步处理装置及方法 - Google Patents

一种音视频同步处理装置及方法 Download PDF

Info

Publication number
CN103167342B
CN103167342B CN201310119089.9A CN201310119089A CN103167342B CN 103167342 B CN103167342 B CN 103167342B CN 201310119089 A CN201310119089 A CN 201310119089A CN 103167342 B CN103167342 B CN 103167342B
Authority
CN
China
Prior art keywords
sequence
audio
video
frames
frame sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310119089.9A
Other languages
English (en)
Other versions
CN103167342A (zh
Inventor
武悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TVMining Beijing Media Technology Co Ltd
Original Assignee
TVMining Beijing Media Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVMining Beijing Media Technology Co Ltd filed Critical TVMining Beijing Media Technology Co Ltd
Priority to CN201310119089.9A priority Critical patent/CN103167342B/zh
Publication of CN103167342A publication Critical patent/CN103167342A/zh
Application granted granted Critical
Publication of CN103167342B publication Critical patent/CN103167342B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明提供一种音视频同步处理装置,包括:解封装装置,用于将不同的音视频文件解析为相应的音频帧序列和视频帧序列;封装装置,用于通过获取前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列的时间戳之间的差值,调整所述前一顺序的音频帧序列和视频帧序列的时间戳和后一顺序的音频帧序列和视频帧序列的时间戳,使得所述前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列同步,并调整后的音频帧序列和视频帧序列进行封装。本发明还提供一种音视频同步处理方法。

Description

一种音视频同步处理装置及方法
技术领域:
本发明涉及音视频文件处理技术领域,尤其涉及一种音视频同步处理装置及方法。
技术背景:
在将多个视频文件合并时,由于视频帧与音频帧之间固有的时长差的存在,某一文件的结尾处和下一文件的开始处会发生音频帧相对提前或延后的现象,这将直接导致视频在播放时发生音画不同步。而且这种“对不齐”的现象会产生累积效应,合并的文件越多,发生音画不同步的现象就越明显。
也就是说,在音视频文件处理中,经常需要从若干个不同格式的音视频文件中各截取一段或几段,并重新拼合成新的某种格式的音视频文件。因此,在截取音视频片段时,在截取出的片段的头部或尾部,音频帧和视频帧之间存在时间差。这样,在若干片段拼合后,累积的音视频之间的时间差会更明显,造成非常明显的音视频不同步。
如图1所示,两个片段拼合后,第二个片段的音频被向前移动了大约一个音频帧的时长。如果对多个片段进行合并,后面的片段的音视频不同步的情况将会更加明显。本发明正是要解决音视频片段在拼合时产生的音视频不同步的问题。
发明内容:
本发明的范围只由后附权利要求书所规定,在任何程度上都不受这一节发明内容的陈述所限。
鉴于现有技术中存在的问题,本发明提供一种音视频同步处理装置,包括:解封装装置,用于将不同的音视频文件解析为相应的音频帧序列和视频帧序列;封装装置,用于通过获取前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列的时间戳之间的差值,调整所述前一顺序的音频帧序列和视频帧序列的时间戳和后一顺序的音频帧序列和视频帧序列的时间戳,使得所述前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列同步,并调整后的音频帧序列和视频帧序列进行封装。
优选地,所述封装装置包括时间戳调节单元,所述时间戳调节单元根据所述前一顺序的音频帧序列和视频帧序列与所述后一顺序的音频帧序列和视频帧序列的时间戳之间的差值计算所要插入或删除的静音帧数量。
优选地,所述时间戳调节单元在拼合所述前一顺序的音频帧序列和视频帧序列与所述后一顺序的音频帧序列和视频帧序列时,用以下公式计算并取整所要插入或删除的静音帧数量:【(TVn−TAn)−(TVo−TAo)】/TSa,其中,TVn为后一序列的第一视频帧在直接拼合后的时间戳,TAn为后一序列的第一音频帧在直接拼合后的时间戳,TVo为后一序列的第一视频帧在拼合前的原始时间戳,TAo为后一序列的第一音频帧在拼合前的原始时间戳,TSa为单个音频帧的时长。
优选地,所述时间戳调节单元在前一次计算音频帧调整的数量后,保存得到的整数与计算值的差值Z;并在后一次计算出的音频帧调整的数量上加上差值Z后再取整。
优选地,音视频数据解码装置,用于将所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将所述音频帧序列中的音频帧还原为PCM格式的音频数据;编码装置,通过对所述RAW格式的视频数据和所述PCM格式的音频数据进行编码,获得经重新编码后的视频帧序列和经重新编码后的音频帧序列。
本发明还提供一种音视频同步处理方法,包括:解封装步骤,将不同的音视频文件解析为相应的音频帧序列和视频帧序列;封装步骤,通过获取前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列的时间戳之间的差值,调整所述前一顺序的音频帧序列和视频帧序列的时间戳和后一顺序的音频帧序列和视频帧序列的时间戳,使得所述前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列同步,并调整后的音频帧序列和视频帧序列进行封装。
优选地,在所述封装步骤中,根据所述前一顺序的音频帧序列和视频帧序列与所述后一顺序的音频帧序列和视频帧序列的时间戳之间的差值计算所要插入或删除的静音帧数量。
优选地,在所述封装步骤中,在拼合所述前一顺序的音频帧序列和视频帧序列与所述后一顺序的音频帧序列和视频帧序列时,用以下公式计算并取整所要插入或删除的静音帧数量:【(TVn−TAn)−(TVo−TAo)】/TSa,其中,TVn为后一序列的第一视频帧在直接拼合后的时间戳,TAn为后一序列的第一音频帧在直接拼合后的时间戳,TVo为后一序列的第一视频帧在拼合前的原始时间戳,TAo为后一序列的第一音频帧在拼合前的原始时间戳,TSa为单个音频帧的时长。
优选地,在所述封装步骤中,在前一次计算音频帧调整的数量后,保存得到的整数与计算值的差值Z;并在后一次计算出的音频帧调整的数量上加上差值Z后再取整。
优选地,音视频数据解码步骤,将所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将所述音频帧序列中的音频帧还原为PCM格式的音频数据;
编码步骤,通过对所述RAW格式的视频数据和所述PCM格式的音频数据进行编码,获得经重新编码后的视频帧序列和经重新编码后的音频帧序列。
本发明技术方案的处理是通过在两个视频片段之间插入或删除一个或多个静音帧,使得第二个片段中音视频之间的时间差大大减小。将新生成的时间戳与原时间戳进行比较,当差值大于一个音频帧的时长时,就在其间插入一个或两个静音帧,当差值小于一个音频帧的时长时,就删除一个或两个音频帧。插入或删除的数量根据差值的大小而定。从而能够保证音频帧与视频帧在合并之后,它们之间的时间戳的差与合并之前的对应值大致相等,即两个差值的间隔小于一个音频帧的时长(这种区别对于人耳来说是分辨不出来的)。这样就将音视频之间的时间差控制在很低的水平,可以达到用户分辨不出有时间差存在的效果。
附图说明
图1为现有技术中两个视频片段拼合情况的示意图;
图2为本发明实施方式涉及的多个视频文件合并处理装置的结构框图;
图3为本发明实施方式涉及的多个视频文件合并处理装置的封装模块的结构框图;
图4为本发明实施方式涉及的音视频文件的合并处理过程的流程图;
图5为本发明实施方式涉及的对视频帧序列和音频帧序列进行封装的步骤S15的流程图;
图6为进行同步调整后而合并的视频帧序列和音频帧序列;
图7为图5中对第一个音视频序列的头部进行音频帧调整处理的步骤S152的流程;
图8为图5中对两段音视频序列进行拼合时的步骤S157的处理流程。
具体实施方式
下面根据附图所示实施方式阐述本项发明。本发明实施方式所涉及的处理装置用于将多个音视频文件进行截取和拼合,形成一个新的音视频文件。
图2显示了本发明实施方式涉及的多个视频文件合并处理装置的结构框图。如图2所示,上述多个视频文件合并处理装置包括音视频数据接收模块1、解封装模块2、音视频数据解码模块3、编码模块4、封装模块5、存储模块6和数据总线7。上述音视频数据接收模块1、解封装模块2、音视频数据解码模块3、编码模块4、封装模块5和存储模块6通过数据总线7连接。
上述音视频数据接收模块1用于接收需要进行合并的具有不同音视频数据(例如音视频文件1和音视频文件2),并将所接收的上述音视频数据输送至上述解封装模块2进行相应的解封装。上述解封装模块2从上述音视频数据接收模块1接收到上述音视频数据后,根据所收到的上述音视频数据的相应文件格式进行解封装。在上述解封装过程中,上述解封装模块2将不同的音视频文件分别解释为各自相应的视频帧序列和音频帧序列。然后,上述解封装模块2将解封装后获得的上述视频帧序列和音频帧序列输送至上述音视频数据解码模块3进行相应的解码。上述音视频数据解码模块3从上述解封装模块2接收到上述被解析为各自相应的视频帧序列和音频帧序列后,根据所收到的视频帧序列和音频帧序列的相应编码格式进行解码。在上述解码过程中,上述音视频数据解码模块3分别对上述视频帧序列和音频帧序列进行解码,将上述视频帧序列中的视频帧还原为RAW格式的视频数据,将上述音频帧序列中的音频帧还原为PCM格式的音频数据,并将上述RAW格式的视频数据和PCM格式的音频数据存储存在存储模块6中,直至完成对所有的视频帧序列和音频帧序列的解码。上述编码模块4从上述存储模块6中获取所存储的RAW格式的视频数据和PCM格式的音频数据,并根据用户的要求对音频声道数、音频采样率、音频码率、视频帧率、视频码率、视频分辨率、视频帧制(例如RGB、YUV、YV12)等相关参数进行转换,分别将RAW格式的视频数据和PCM格式的音频数据进行编码、压缩,形成新的视频帧序列和新的音频帧序列并储存在存储模块6中。上述封装模块5从上述存储模块6中获取新的视频帧序列和新的音频帧序列,重新调整上述新的视频帧序列和新的音频帧序列的时间戳,然后将调整完毕时间戳的新的视频帧序列和新的音频帧序列进行合并,将合并后的新的视频帧序列和新的音频帧序列根据用户所要求的文件格式进行封装,输出封装后的音视频文件。
图3为本发明实施方式涉及的多个视频文件合并处理装置的封装模块5的结构框图。如图3所示,上述封装模块5包括时间戳调节单元51、封装格式选择单元52和数个封装单元53、54、55……。其中,上述数个封装单元53、54、55……具有不同的封装格式,可以对应于不同的封装格式的要求进行封装。上述时间戳调节单元51从上述存储模块6中获取上述新的视频帧序列和新的音频帧序列,并获取新的视频帧序列和新的音频帧序列的数据信息中第一帧和最后一帧的时间戳和时长。时间戳标记了每一个视频或音频帧的起始时间,时长表示每一个视频或音频帧的持续时间。
同时,上述时间戳调节单元51用第一视频帧的时间戳与第一音频帧的时间戳进行比较,计算出视频起始时间与音频起始时间之差。如果视频起始时间早于音频起始时间,则求出超过的时间相当于几个音频帧的时长。反之,如果音频起始时间早于视频起始时间,则求出超过的时间相当于几个音频帧的时长。如果视频起始时间早于音频起始时间,上述时间戳调节单元51根据计算的结果在音频帧序列的起始位置插入相应个数的静音帧。反之,则删除音频帧序列的起始位置的相应个数的音频帧。即,上述时间戳调节单元51对音频帧起始位置进行插入静音帧或删除现有帧的音频帧调整操作。
音频帧调整操作完成后,上述时间戳调节单元51对该视频和音频帧序列的时间戳进行重排,并将重排后的最后一个视频帧和最后一个音频帧的时间戳和时长存储至存储模块6中。
然后,上述时间戳调节单元51计算出前一顺序的视频序列的最后一帧与需要合并的后一顺序的视频序列的第一帧的时间戳差值以及前一顺序的音频序列的最后一帧与后一顺序的音频序列的第一帧的时间戳差值。与上述判断类似地,上述时间戳调节单元51根据两个差值之间的差与音频帧时长的比值,判断应插入静音帧或删除现有音频帧以及插入或删除帧的数量。上述时间戳调节单元51根据判断结果进行相应的音频帧调整操作。音频帧调整操作完成后,上述时间戳调节单元51将后一顺序的音频帧序列的音频帧和视频帧序列的视频帧分别接续前一顺序的音频帧序列和视频帧序列的时间戳进行重排,将两段音视频序列合并为一个序列。
针对后续每段音视频序列重复上述音频帧调整操作和合并操作,直到所有音视频序列都被合并到一个序列中。当所有的视频帧序列和音频帧序列的合并完成后,上述时间戳调节单元51将合并后的视频帧序列和音频帧序列存储至存储模块6中。
上述封装格式选择单元52从上述存储模块6中获取上述音视频文件封装格式的相关参数、上述视频帧序列和音频帧序列并根据上述音视频文件封装格式的相关参数选择相应的封装单元(即封装单元53、54、55……中之一)对上述视频帧序列和音频帧序列进行封装,获得调节后的音视频文件。
图4为本发明实施方式涉及的音视频文件的合并处理过程的流程图。下面,参照图4说明在本实施方式涉及的音视频文件的合并处理过程。
首先,输入不同音视频文件(例如音视频文件1和音视频文件2),上述音视频数据接收模块1接收上述不同的音视频文件数据并将其输送至上述解封装模块2(步骤S11)。上述解封装模块2一接收到上述不同的音视频文件数据,就分别选择相应的解封装单元对上述不同的音视频文件数据逐一进行解封装,将上述不同的音视频文件数据各自解析为视频帧序列和音频帧序列,并将其输送至上述音视频数据解码模块3(步骤S12)。
上述音视频数据解码模块3接收上述解封装后的视频帧序列和音频帧序列后,针对上述解封装后的视频帧和音频帧的编码格式,分别选择相应的解码器进行解码,将上述视频帧序列中的视频帧还原为RAW格式数据,将上述音频帧序列中的音频帧还原为PCM格式数据,并将上述RAW格式数据和PCM格式数据暂存在上述存储模块6中(步骤S13)。
上述编码模块4从上述存储模块6中获取上述被还原后的RAW格式数据和PCM格式数据,并根据用户的指令对音频声道数、音频采样率、音频码率、视频帧率、视频码率、视频分辨率、视频帧制式等参数进行相应地转换,并根据用户对编码格式的要求选择相应的编码器进行编码,形成新的音频帧序列和新的视频帧序列并暂存在上述存储模块6中(步骤S14)。
上述封装模块5从上述存储模块6中获取新的音频帧序列和视频帧序列,并对所获取的前一顺序的新音频帧序列和视频帧序列以及后一顺序的新音频帧序列和视频帧序列的时间戳进行相应的调整,使得前一顺序的新音频帧序列和视频帧序列与后一顺序的新音频帧序列和视频帧序列之间同步,并将经调整后的各个新的音频帧序列和新的视频帧序列进行合并,以及将所获得的合并后的视频帧序列和音频帧序列进行封装,形成新的音视频文件(步骤S15)。
图5为本发明实施方式涉及的对视频帧序列和音频帧序列进行封装的步骤S15的流程图。图6为进行同步调整后而合并的视频帧序列和音频帧序列。下面,参照图5和图6说明在本实施方式涉及的对视频帧序列和音频帧序列进行封装处理过程。
上述时间戳调节单元51从存储模块6中获取上述前一顺序的新视频帧序列和新音频帧序列以及上述新视频帧序列和新音频帧序列的第一个和最后一个音频帧和视频帧的时间戳和时长(步骤S151)。然后,上述时间戳调节单元51对获取的前一顺序的新视频帧序列和音频帧序列进行音频帧调整处理,并对其进行时间戳重排,重排后的时间戳从零时开始(步骤S152)。接着,上述时间戳调节单元51获取上述重排后的前一顺序的新视频帧序列和音频帧序列的数据信息中最后一个视频帧和音频帧的时间戳和时长(原时间戳和时长),将原时间戳和时长存入存储模块6(步骤S153)。当上述时间戳调节单元51从上述存储模块6中获取后一顺序的新视频帧序列和音频帧序列时,同时获取其最后一个视频帧和音频帧的新的时间戳和时长(新时间戳和时长)(步骤S154)。上述时间戳调节单元51根据以上原时间戳和时长以及新时间戳和时长的数据进行计算,获得原时间戳和新时间戳之间的差值(步骤S155),并据此调节前一顺序的新视频帧序列和音频帧序列的数据信息和后一顺序的新视频帧序列和音频帧序列之间的同步(步骤S156)。
然后,上述时间戳调节单元51将前一顺序的新视频帧序列和音频帧序列的数据信息与后一顺序新的视频帧序列和音频帧序列的数据信息进行拼接,形成合并后的视频序列和音频序列,并将上述合并后的视频序列和音频序列存在存储模块6中(步骤S157)。上述时间戳调节单元51判断在上述后一顺序的新视频帧序列和音频帧序列之后是否还存在需要合并的下一个新的视频帧序列和音频帧序列(步骤S158)。如果还存在需要合并的新的视频帧序列和新的音频帧序列(步骤S158:是)。上述时间戳调节单元51从上述存储模块6中获取下一个新的视频帧序列和新的音频帧序列,并回到步骤S153。
如果不存在需要合并的下一个新的视频帧序列和新的音频帧序列(步骤S158:否),上述封装格式选择单元52从上述存储模块6中获取进行了同步调整后的视频帧序列和音频帧序列(步骤S159)。上述封装格式选择单元52基于原音视频文件的封装格式或用户指定的封装格式选择相应的封装单元对上述进行了同步调整后的视频帧序列和音频帧序列进行重新封装(步骤S160),形成新的音视频文件,并输出新的音视频文件(步骤S161)。
图7为图5中对第一个音视频序列的头部进行音频帧调整处理的步骤S152的流程。如图7所示,上述时间戳调节单元51获取前一顺序的新视频帧序列和音频帧序列的第一个和最后一个音频帧和视频帧的时间戳和时长并存入存储模块6。假定第一音频帧的时间戳为TA1,第一视频帧的时间戳为TV1,单个视频帧的时长为TSv,单个音频帧的时长为TSa,帧的时间戳即表示该帧的起始时间。上述时间戳调节单元51判断TA1是否等于TV1(步骤S171)。如果TA1等于TV1(步骤S171:是),说明第一音频帧和第一视频帧是同时开始的,就不必进行音频帧的调整,直接结束音频帧处理。如果TA1不等于TV1(步骤S171:否),音频帧控制单元31计算出(TV1-TA1)/TSa的数值,该数值表示了视频头部的视频和音频的时间差相当于多少帧音频帧的时长。由于所得的帧数通常不是整数,可以采取四舍五入或者直接取整数部分的方法换算为整数(步骤S172)。上述时间戳调节单元51判断所得的帧数是否为零(步骤S173)。如果为零(步骤S173:是),则不必进行音频帧的调整,直接结束音频帧调整处理。如果不为零(步骤S173:否),则继续判断该帧数是否为正值(步骤S174)。如果该帧数为正值(步骤S174:是),则上述时间戳调节单元51在第一音频帧之前插入所述帧数的静音帧(步骤S175)。如果该帧数为负值(步骤S174:否),则上述时间戳调节单元51将该音频帧序列最前面的所述数值个音频帧删除(步骤S176)。在步骤S175和步骤S176完成后,上述时间戳调节单元51对该音频序列和视频序列的时间戳从零开始进行重排(步骤S177)。
图8为图5中对两段音视频序列进行拼合时的步骤S157的处理流程。如图8所示,上述时间戳调节单元51从上述存储模块6中获取后一顺序的新视频帧序列和音频帧序列,同时获取上述序列的第一音频帧和第一视频帧的时间戳(步骤S181)。在此,假定该后一序列的第一音频帧的原始时间戳为TAo,第一视频帧的原始时间戳为TVo。音频帧控制单元31从存储模块6中提取步骤S153中存入的前一顺序的新音视频序列的最后一个音频帧和视频帧的时间戳(步骤S182)。上述时间戳调节单元51计算应该如何进行帧调整操作。时间戳调节单元51首先计算后一音视频帧序列的第一视频帧与第一音频帧的原始时间戳的差值TVo−TAo。然后,计算如果不进行帧调整而是直接拼合时,后一音视频帧序列的第一视频帧与第一音频帧的直接拼合后的时间戳TVn和TAn。最后,计算【(TVn−TAn)−(TVo−TAo)】/TSa的值,该值表示了第一音频帧在直接拼合后相对于第一视频帧被移动的时间相当于多少个音频帧的时长,也就是后一音视频序列音视频不同步的时间相当于多少个音频帧的时长。直接拼合后的第一视频帧和音频帧的时间戳TVn和TAn可以由步骤S182中提取的前一音视频序列的最后一个视频帧和音频帧的时间戳计算出来。比如,前一序列最后一个视频帧的时间戳为TVn-1,最后一个音频帧的时间戳为TAn-1,每个视频帧时长为TSv,每个音频帧时长为TSa;则直接拼合后的后一序列第一视频帧的时间戳TVn= TVn-1+TSv,后一序列第一音频帧的时间戳TAn= TAn-1+TSa(步骤S183)。
与步骤S172同样,可以采取四舍五入或者直接取整数部分的方法将该数值换算为整数。后续处理流程S184-S188与步骤S173-S177基本相同,在此对同样的流程不再重复说明,仅就不同部分进行说明。在步骤S186,与步骤S175的不同在于是在两个音视频序列的中间插入相应数值的静音帧。在步骤S187,与步骤S176不同的在于在两个音视频序列的中间部分删除相应数值的音频帧。被删除的音频帧可以按如下规则选择:如果帧数的绝对值为偶数X,则删除前一音视频序列的最后X/2个音频帧和后一音视频序列的前X/2个音频帧。如果帧数的绝对值为奇数Y,则先删除前一音视频序列的最后(Y-1)/2个音频帧和后一音视频序列的前(Y-1)/2个音频帧,然后指定删除前一音视频序列的最后一个音频帧或后一音视频序列的第一个音频帧。已可以由程序随机决定删除以上两帧中的一帧。在此,也可以设置应用程序接口,接受用户输入的设定,用户可以利用该接口自由设定删除音频帧的规则。
为了更大程度的减小音画不同步的情况还可以对以上的处理流程做如下改进:在步骤S152中,将步骤S172的取整后的余数或四舍五入的差值Z存入存储模块6,差值Z为计算所得的帧数减去取整后的帧数。在步骤S154的步骤S183中,使用差值Z作为校正值。步骤S183的计算方法变为【(TVn−TAn)−(TVo−TAo)】/TSa +Z。这样,在拼合每段视频时,都参照之前累积的误差进行计算,可以最大程度的避免由于帧数取整而产生的误差累积起来。后续的每个音视频序列拼合时差值Z都会被更新,并被用于下一个拼合时的校正。
本发明的技术方案并不限于以上,也可以做如下修改:
通常情况下,在对视频进行截取的时候,第一段视频的头部的视频帧和音频帧之间的时差都不会超过一个音频帧的时长,因此在多数情况下不必进行步骤S171-S176的处理,直接在步骤S177进行时间戳重排即可。
在很多情况下,从视频中截取片段是先截取整帧的视频帧,截取音频帧时将时间上与截取的视频帧不能对齐的音频帧全部删除,也就是在时间上跨越截取边界的音频帧全部被删除,这样在合并时就没有删除音频帧的必要。此时,本发明技术方案也可以改成在各音视频序列合并时不计算是否删除音频帧,只计算是否需要插入静音帧。由此可以简化判断流程。
另外,本发明的装置和方法还可以包括视频截取单元和视频截取的方法。视频截取中对边界处的音频帧的处理与上述音频帧调整中的处理方法相对应。比如,如上所述,截取时将在时间上跨越截取边界的音频帧全部删除,这样在合并时就没有删除音频帧的必要,相应地,音频帧调整时只需要计算是否需要插入静音帧。也可以在截取时保留所有的跨边界音频帧,音频帧调整时需要计算是否需要插入静音帧或删除现有的音频帧。这样,可以以更简化的装置和处理流程实现音频帧调整操作,使整个系统更有效率。

Claims (4)

1.一种音视频同步处理装置,包括:
解封装装置,用于将不同的音视频文件解析为相应的音频帧序列和视频帧序列;
封装装置,用于通过获取前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列的时间戳之间的差值,调整所述前一顺序的音频帧序列和视频帧序列的时间戳和后一顺序的音频帧序列和视频帧序列的时间戳,使得所述前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列同步,并对调整后的音频帧序列和视频帧序列进行封装;其中,
所述封装装置包括时间戳调节单元,所述时间戳调节单元根据所述前一顺序的音频帧序列和视频帧序列与所述后一顺序的音频帧序列和视频帧序列直接拼合后的所述后一顺序的音频帧序列和视频帧序列不同步的时间相当于多少个音频帧的时长进行在两个音频帧序列的中间插入一定数量的静音帧或删除一定数量的音频帧的操作,用以下公式计算并取整所要插入的静音帧数量或所要删除的音频帧数量:【(TVn−TAn)−(TVo−TAo)】/TSa,TVn为后一序列的第一视频帧在直接拼合后的时间戳,TAn为后一序列的第一音频帧在直接拼合后的时间戳,TVo为后一序列的第一视频帧在拼合前的原始时间戳,TAo为后一序列的第一音频帧在拼合前的原始时间戳,TSa为单个音频帧的时长;
所述时间戳调节单元在前一次计算音频帧调整的数量后,保存得到的整数与计算值的差值Z;并在后一次计算出的音频帧调整的数量上加上差值Z后再取整。
2.根据权利要求1所述的装置,还包括:
音视频数据解码装置,用于将所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将所述音频帧序列中的音频帧还原为PCM格式的音频数据;
编码装置,通过对所述RAW格式的视频数据和所述PCM格式的音频数据进行编码,获得经重新编码后的视频帧序列和经重新编码后的音频帧序列。
3.一种音视频同步处理方法,包括:
解封装步骤,将不同的音视频文件解析为相应的音频帧序列和视频帧序列;
封装步骤,通过获取前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列的时间戳之间的差值,调整所述前一顺序的音频帧序列和视频帧序列的时间戳和后一顺序的音频帧序列和视频帧序列的时间戳,使得所述前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列同步,并将调整后的音频帧序列和视频帧序列进行封装;其中,
在所述封装步骤中,根据所述前一顺序的音频帧序列和视频帧序列与所述后一顺序的音频帧序列和视频帧序列直接拼合后的所述后一顺序的音频帧序列和视频帧序列不同步的时间相当于多少个音频帧的时长进行在两个音频帧序列的中间插入一定数量的静音帧或删除一定数量的音频帧的操作,用以下公式计算并取整所要插入的静音帧数量或所要删除的音频帧数量:【(TVn−TAn)−(TVo−TAo)】/TSa,TVn为后一序列的第一视频帧在直接拼合后的时间戳,TAn为后一序列的第一音频帧在直接拼合后的时间戳,TVo为后一序列的第一视频帧在拼合前的原始时间戳,TAo为后一序列的第一音频帧在拼合前的原始时间戳,TSa为单个音频帧的时长;
在所述封装步骤中,在前一次计算音频帧调整的数量后,保存得到的整数与计算值的差值Z;并在后一次计算出的音频帧调整的数量上加上差值Z后再取整。
4.根据权利要求3所述的方法,还包括:
音视频数据解码步骤,将所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将所述音频帧序列中的音频帧还原为PCM格式的音频数据;
编码步骤,通过对所述RAW格式的视频数据和所述PCM格式的音频数据进行编码,获得经重新编码后的视频帧序列和经重新编码后的音频帧序列。
CN201310119089.9A 2013-03-29 2013-04-08 一种音视频同步处理装置及方法 Expired - Fee Related CN103167342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310119089.9A CN103167342B (zh) 2013-03-29 2013-04-08 一种音视频同步处理装置及方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201310106968 2013-03-29
CN201310106968.8 2013-03-29
CN2013101069688 2013-03-29
CN201310119089.9A CN103167342B (zh) 2013-03-29 2013-04-08 一种音视频同步处理装置及方法

Publications (2)

Publication Number Publication Date
CN103167342A CN103167342A (zh) 2013-06-19
CN103167342B true CN103167342B (zh) 2016-07-13

Family

ID=48590033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310119089.9A Expired - Fee Related CN103167342B (zh) 2013-03-29 2013-04-08 一种音视频同步处理装置及方法

Country Status (1)

Country Link
CN (1) CN103167342B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105280205B (zh) * 2014-05-30 2018-03-16 深圳锐取信息技术股份有限公司 非线性编辑软件音视频同步处理方法及装置
CN106231226B (zh) * 2015-09-21 2020-03-20 天津远度科技有限公司 影音合成方法、装置及系统
CN106612452B (zh) * 2015-10-22 2019-12-13 深圳市中兴微电子技术有限公司 机顶盒音视频同步的方法及装置
CN106658065B (zh) * 2015-10-30 2021-10-22 中兴通讯股份有限公司 音视频同步方法、装置及系统
CN105592321A (zh) * 2015-12-18 2016-05-18 无锡天脉聚源传媒科技有限公司 一种视频剪辑的方法和装置
CN105611401B (zh) * 2015-12-18 2018-08-24 无锡天脉聚源传媒科技有限公司 一种视频剪辑的方法和装置
CN105681889A (zh) * 2015-12-31 2016-06-15 中科创达软件股份有限公司 一种Audio播放时延的确定方法
CN105657447A (zh) * 2016-01-06 2016-06-08 无锡天脉聚源传媒科技有限公司 一种视频合并方法及装置
KR101833942B1 (ko) * 2017-01-05 2018-03-05 네이버 주식회사 실시간 영상 합성을 위한 트랜스코더
CN109327724B (zh) * 2017-08-01 2021-08-31 成都鼎桥通信技术有限公司 音视频同步播放方法和装置
CN107371053B (zh) * 2017-08-31 2020-10-23 北京鹏润鸿途科技股份有限公司 音频视频流对比分析方法及装置
CN108540732B (zh) * 2018-05-07 2020-09-04 广州酷狗计算机科技有限公司 合成视频的方法和装置
CN109089130B (zh) * 2018-09-18 2020-05-22 网宿科技股份有限公司 一种调整直播视频的时间戳的方法和装置
CN109348247B (zh) * 2018-11-23 2021-03-30 广州酷狗计算机科技有限公司 确定音视频播放时间戳的方法、装置及存储介质
CN111182315A (zh) * 2019-10-18 2020-05-19 腾讯科技(深圳)有限公司 一种多媒体文件拼接方法、装置、设备及介质
CN111416994B (zh) * 2020-03-27 2022-08-12 上海依图网络科技有限公司 视频流和跟踪信息的同步呈现的方法、装置及电子设备
CN111464864B (zh) * 2020-04-02 2022-12-06 Oppo广东移动通信有限公司 倒序视频获取方法、装置、电子设备以及存储介质
CN111464256A (zh) * 2020-04-14 2020-07-28 北京百度网讯科技有限公司 时间戳的校正方法、装置、电子设备和存储介质
CN111757158A (zh) * 2020-06-29 2020-10-09 北京百度网讯科技有限公司 音视频同步播放方法、装置、设备和存储介质
CN111741376B (zh) * 2020-07-31 2020-12-01 南斗六星系统集成有限公司 一种多媒体文件拼接音视频唇音同步的方法
CN112188259B (zh) * 2020-09-29 2022-09-23 北京达佳互联信息技术有限公司 用于音视频同步测试和校正的方法、装置及电子设备
CN113259738B (zh) * 2021-05-08 2022-07-29 广州市奥威亚电子科技有限公司 音视频同步的方法、装置、电子设备及存储介质
CN114945075B (zh) * 2022-07-26 2022-11-04 中广智诚科技(天津)有限公司 一种视频内容同步新配音音频内容的方法及装置
CN115720278A (zh) * 2022-11-03 2023-02-28 深圳创维-Rgb电子有限公司 声音与画面的同步处理方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1344106A (zh) * 2000-09-15 2002-04-10 北京算通数字技术研究中心有限公司 基于mpeg-2码流的非线性编辑系统编辑方法
CN101374231A (zh) * 2007-04-30 2009-02-25 Vixs系统公司 合并多个视频流的系统以及相应使用的方法
CN101753946A (zh) * 2009-12-22 2010-06-23 北京中星微电子有限公司 一种视频文件和音频文件的合并方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1344106A (zh) * 2000-09-15 2002-04-10 北京算通数字技术研究中心有限公司 基于mpeg-2码流的非线性编辑系统编辑方法
CN101374231A (zh) * 2007-04-30 2009-02-25 Vixs系统公司 合并多个视频流的系统以及相应使用的方法
CN101753946A (zh) * 2009-12-22 2010-06-23 北京中星微电子有限公司 一种视频文件和音频文件的合并方法及系统

Also Published As

Publication number Publication date
CN103167342A (zh) 2013-06-19

Similar Documents

Publication Publication Date Title
CN103167342B (zh) 一种音视频同步处理装置及方法
CN103200425B (zh) 一种多媒体处理装置及方法
US8285106B2 (en) Information processing apparatus
US9426479B2 (en) Preserving captioning through video transcoding
JP5400575B2 (ja) 可変長パケットの送信装置、受信装置及びプログラム
US8509301B2 (en) Audio and video synchronizing method in transcoding system
KR100308704B1 (ko) 다중화 데이터 생성 장치, 부호화 데이터 재생 장치, 클럭 변환 장치, 다중화 데이터 생성 방법, 부호화 데이터 재생 방법 및 클럭 변환 방법
EP3105938B1 (en) Embedding encoded audio into transport stream for perfect splicing
CN107667400B (zh) 片段对准的音频编码
US20100039558A1 (en) Real time high definition caption correction
US20170373779A1 (en) Transmitting system, multiplexing apparatus, and leap second correction method
US8724968B2 (en) Embedded ancillary data processing method and system with program duration alteration
EP2039147A2 (en) Systems and methods of generating encapsulated mpeg program streams
KR20130128101A (ko) 3dtv 다중화 방법 및 그 장치
CN110087116A (zh) 多码率直播视频流剪辑方法、装置、终端及存储介质
JP6957186B2 (ja) 情報処理装置、情報処理方法、プログラム、および記録媒体製造方法
KR100864009B1 (ko) 오디오/비디오 동기화 방법
US11496795B2 (en) System for jitter recovery from a transcoder
JP7530751B2 (ja) 多重信号変換装置及びそのプログラム、並びに、受信機
WO2017014054A1 (ja) 送信装置、および送信方法、受信装置、および受信方法、並びにプログラム
CN113873275B (zh) 一种视频媒体数据的传输方法及装置
JP3944845B2 (ja) 情報処理装置および方法、記録媒体、並びにプログラム
US20240233740A9 (en) Decoding method and apparatus, and computer readable storage medium
US8275246B2 (en) Digital content reproducing and storing apparatus, digital content reproducing and storing method, digital content storing apparatus, digital content reproducing apparatus, and computer readable medium storing digital content reproducing and storing program
JP4007575B2 (ja) 画像・音声ビットストリーム分割装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Audio and video synchronous processing device and method

Effective date of registration: 20170401

Granted publication date: 20160713

Pledgee: Silicon Valley Bank Co., Ltd.

Pledgor: TVMining (Beijing) Media Technology Co., Ltd.

Registration number: 2017310000019

PE01 Entry into force of the registration of the contract for pledge of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160713

Termination date: 20210408

CF01 Termination of patent right due to non-payment of annual fee