CN103167342A

CN103167342A - 一种音视频同步处理装置及方法

Info

Publication number: CN103167342A
Application number: CN2013101190899A
Authority: CN
Inventors: 武悦
Original assignee: TVMining Beijing Media Technology Co Ltd
Current assignee: TVMining Beijing Media Technology Co Ltd
Priority date: 2013-03-29
Filing date: 2013-04-08
Publication date: 2013-06-19
Anticipated expiration: 2033-04-08
Also published as: CN103167342B

Abstract

本发明提供一种音视频同步处理装置，包括：解封装装置，用于将不同的音视频文件解析为相应的音频帧序列和视频帧序列；封装装置，用于通过获取前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列的时间戳之间的差值，调整所述前一顺序的音频帧序列和视频帧序列的时间戳和后一顺序的音频帧序列和视频帧序列的时间戳，使得所述前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列同步，并调整后的音频帧序列和视频帧序列进行封装。本发明还提供一种音视频同步处理方法。

Description

一种音视频同步处理装置及方法

技术领域：

本发明涉及音视频文件处理技术领域，尤其涉及一种音视频同步处理装置及方法。

技术背景：

在将多个视频文件合并时，由于视频帧与音频帧之间固有的时长差的存在，某一文件的结尾处和下一文件的开始处会发生音频帧相对提前或延后的现象，这将直接导致视频在播放时发生音画不同步。而且这种“对不齐”的现象会产生累积效应，合并的文件越多，发生音画不同步的现象就越明显。

也就是说，在音视频文件处理中，经常需要从若干个不同格式的音视频文件中各截取一段或几段，并重新拼合成新的某种格式的音视频文件。因此，在截取音视频片段时，在截取出的片段的头部或尾部，音频帧和视频帧之间存在时间差。这样，在若干片段拼合后，累积的音视频之间的时间差会更明显，造成非常明显的音视频不同步。

如图1所示，两个片段拼合后，第二个片段的音频被向前移动了大约一个音频帧的时长。如果对多个片段进行合并，后面的片段的音视频不同步的情况将会更加明显。本发明正是要解决音视频片段在拼合时产生的音视频不同步的问题。

发明内容：

本发明的范围只由后附权利要求书所规定，在任何程度上都不受这一节发明内容的陈述所限。

鉴于现有技术中存在的问题，本发明提供一种音视频同步处理装置，包括：解封装装置，用于将不同的音视频文件解析为相应的音频帧序列和视频帧序列；封装装置，用于通过获取前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列的时间戳之间的差值，调整所述前一顺序的音频帧序列和视频帧序列的时间戳和后一顺序的音频帧序列和视频帧序列的时间戳，使得所述前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列同步，并调整后的音频帧序列和视频帧序列进行封装。

优选地，所述封装装置包括时间戳调节单元，所述时间戳调节单元根据所述前一顺序的音频帧序列和视频帧序列与所述后一顺序的音频帧序列和视频帧序列的时间戳之间的差值计算所要插入或删除的静音帧数量。

优选地，所述时间戳调节单元在拼合所述前一顺序的音频帧序列和视频帧序列与所述后一顺序的音频帧序列和视频帧序列时，用以下公式计算并取整所要插入或删除的静音帧数量：【(TV_n?TA_n)?(TV_o?TA_o)】/TSa，其中，TV_n为后一序列的第一视频帧在直接拼合后的时间戳，TA_n为后一序列的第一音频帧在直接拼合后的时间戳，TV_o为后一序列的第一视频帧在拼合前的原始时间戳，TA_o为后一序列的第一音频帧在拼合前的原始时间戳，TSa为单个音频帧的时长。

优选地，所述时间戳调节单元在前一次计算音频帧调整的数量后，保存得到的整数与计算值的差值Z；并在后一次计算出的音频帧调整的数量上加上差值Z后再取整。

优选地，音视频数据解码装置，用于将所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将所述音频帧序列中的音频帧还原为PCM格式的音频数据；编码装置，通过对所述RAW格式的视频数据和所述PCM格式的音频数据进行编码，获得经重新编码后的视频帧序列和经重新编码后的音频帧序列。

本发明还提供一种音视频同步处理方法，包括:解封装步骤，将不同的音视频文件解析为相应的音频帧序列和视频帧序列；封装步骤，通过获取前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列的时间戳之间的差值，调整所述前一顺序的音频帧序列和视频帧序列的时间戳和后一顺序的音频帧序列和视频帧序列的时间戳，使得所述前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列同步，并调整后的音频帧序列和视频帧序列进行封装。

优选地，在所述封装步骤中，根据所述前一顺序的音频帧序列和视频帧序列与所述后一顺序的音频帧序列和视频帧序列的时间戳之间的差值计算所要插入或删除的静音帧数量。

优选地，在所述封装步骤中，在拼合所述前一顺序的音频帧序列和视频帧序列与所述后一顺序的音频帧序列和视频帧序列时，用以下公式计算并取整所要插入或删除的静音帧数量：【(TV_n?TA_n)?(TV_o?TA_o)】/TSa，其中，TV_n为后一序列的第一视频帧在直接拼合后的时间戳，TA_n为后一序列的第一音频帧在直接拼合后的时间戳，TV_o为后一序列的第一视频帧在拼合前的原始时间戳，TA_o为后一序列的第一音频帧在拼合前的原始时间戳，TSa为单个音频帧的时长。

优选地，在所述封装步骤中，在前一次计算音频帧调整的数量后，保存得到的整数与计算值的差值Z；并在后一次计算出的音频帧调整的数量上加上差值Z后再取整。

优选地，音视频数据解码步骤，将所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将所述音频帧序列中的音频帧还原为PCM格式的音频数据；

编码步骤，通过对所述RAW格式的视频数据和所述PCM格式的音频数据进行编码，获得经重新编码后的视频帧序列和经重新编码后的音频帧序列。

本发明技术方案的处理是通过在两个视频片段之间插入或删除一个或多个静音帧，使得第二个片段中音视频之间的时间差大大减小。将新生成的时间戳与原时间戳进行比较，当差值大于一个音频帧的时长时，就在其间插入一个或两个静音帧，当差值小于一个音频帧的时长时，就删除一个或两个音频帧。插入或删除的数量根据差值的大小而定。从而能够保证音频帧与视频帧在合并之后，它们之间的时间戳的差与合并之前的对应值大致相等，即两个差值的间隔小于一个音频帧的时长（这种区别对于人耳来说是分辨不出来的）。这样就将音视频之间的时间差控制在很低的水平，可以达到用户分辨不出有时间差存在的效果。

附图说明

图1为现有技术中两个视频片段拼合情况的示意图；

图2为本发明实施方式涉及的多个视频文件合并处理装置的结构框图；

图3为本发明实施方式涉及的多个视频文件合并处理装置的封装模块的结构框图；

图4为本发明实施方式涉及的音视频文件的合并处理过程的流程图；

图5为本发明实施方式涉及的对视频帧序列和音频帧序列进行封装的步骤S15的流程图；

图6为进行同步调整后而合并的视频帧序列和音频帧序列；

图7为图5中对第一个音视频序列的头部进行音频帧调整处理的步骤S152的流程；

图8为图5中对两段音视频序列进行拼合时的步骤S157的处理流程。

具体实施方式

下面根据附图所示实施方式阐述本项发明。本发明实施方式所涉及的处理装置用于将多个音视频文件进行截取和拼合，形成一个新的音视频文件。

图2显示了本发明实施方式涉及的多个视频文件合并处理装置的结构框图。如图2所示，上述多个视频文件合并处理装置包括音视频数据接收模块1、解封装模块2、音视频数据解码模块3、编码模块4、封装模块5、存储模块6和数据总线7。上述音视频数据接收模块1、解封装模块2、音视频数据解码模块3、编码模块4、封装模块5和存储模块6通过数据总线7连接。

上述音视频数据接收模块1用于接收需要进行合并的具有不同音视频数据（例如音视频文件1和音视频文件2），并将所接收的上述音视频数据输送至上述解封装模块2进行相应的解封装。上述解封装模块2从上述音视频数据接收模块1接收到上述音视频数据后，根据所收到的上述音视频数据的相应文件格式进行解封装。在上述解封装过程中，上述解封装模块2将不同的音视频文件分别解释为各自相应的视频帧序列和音频帧序列。然后，上述解封装模块2将解封装后获得的上述视频帧序列和音频帧序列输送至上述音视频数据解码模块3进行相应的解码。上述音视频数据解码模块3从上述解封装模块2接收到上述被解析为各自相应的视频帧序列和音频帧序列后，根据所收到的视频帧序列和音频帧序列的相应编码格式进行解码。在上述解码过程中，上述音视频数据解码模块3分别对上述视频帧序列和音频帧序列进行解码，将上述视频帧序列中的视频帧还原为RAW格式的视频数据，将上述音频帧序列中的音频帧还原为PCM格式的音频数据，并将上述RAW格式的视频数据和PCM格式的音频数据存储存在存储模块6中，直至完成对所有的视频帧序列和音频帧序列的解码。上述编码模块4从上述存储模块6中获取所存储的RAW格式的视频数据和PCM格式的音频数据，并根据用户的要求对音频声道数、音频采样率、音频码率、视频帧率、视频码率、视频分辨率、视频帧制（例如RGB、YUV、YV12）等相关参数进行转换，分别将RAW格式的视频数据和PCM格式的音频数据进行编码、压缩，形成新的视频帧序列和新的音频帧序列并储存在存储模块6中。上述封装模块5从上述存储模块6中获取新的视频帧序列和新的音频帧序列，重新调整上述新的视频帧序列和新的音频帧序列的时间戳，然后将调整完毕时间戳的新的视频帧序列和新的音频帧序列进行合并，将合并后的新的视频帧序列和新的音频帧序列根据用户所要求的文件格式进行封装，输出封装后的音视频文件。

图3为本发明实施方式涉及的多个视频文件合并处理装置的封装模块5的结构框图。如图3所示，上述封装模块5包括时间戳调节单元51、封装格式选择单元52和数个封装单元53、54、55……。其中，上述数个封装单元53、54、55……具有不同的封装格式，可以对应于不同的封装格式的要求进行封装。上述时间戳调节单元51从上述存储模块6中获取上述新的视频帧序列和新的音频帧序列，并获取新的视频帧序列和新的音频帧序列的数据信息中第一帧和最后一帧的时间戳和时长。时间戳标记了每一个视频或音频帧的起始时间，时长表示每一个视频或音频帧的持续时间。

同时，上述时间戳调节单元51用第一视频帧的时间戳与第一音频帧的时间戳进行比较，计算出视频起始时间与音频起始时间之差。如果视频起始时间早于音频起始时间，则求出超过的时间相当于几个音频帧的时长。反之，如果音频起始时间早于视频起始时间，则求出超过的时间相当于几个音频帧的时长。如果视频起始时间早于音频起始时间，上述时间戳调节单元51根据计算的结果在音频帧序列的起始位置插入相应个数的静音帧。反之，则删除音频帧序列的起始位置的相应个数的音频帧。即，上述时间戳调节单元51对音频帧起始位置进行插入静音帧或删除现有帧的音频帧调整操作。

音频帧调整操作完成后，上述时间戳调节单元51对该视频和音频帧序列的时间戳进行重排，并将重排后的最后一个视频帧和最后一个音频帧的时间戳和时长存储至存储模块6中。

然后，上述时间戳调节单元51计算出前一顺序的视频序列的最后一帧与需要合并的后一顺序的视频序列的第一帧的时间戳差值以及前一顺序的音频序列的最后一帧与后一顺序的音频序列的第一帧的时间戳差值。与上述判断类似地，上述时间戳调节单元51根据两个差值之间的差与音频帧时长的比值，判断应插入静音帧或删除现有音频帧以及插入或删除帧的数量。上述时间戳调节单元51根据判断结果进行相应的音频帧调整操作。音频帧调整操作完成后，上述时间戳调节单元51将后一顺序的音频帧序列的音频帧和视频帧序列的视频帧分别接续前一顺序的音频帧序列和视频帧序列的时间戳进行重排，将两段音视频序列合并为一个序列。

针对后续每段音视频序列重复上述音频帧调整操作和合并操作，直到所有音视频序列都被合并到一个序列中。当所有的视频帧序列和音频帧序列的合并完成后，上述时间戳调节单元51将合并后的视频帧序列和音频帧序列存储至存储模块6中。

上述封装格式选择单元52从上述存储模块6中获取上述音视频文件封装格式的相关参数、上述视频帧序列和音频帧序列并根据上述音视频文件封装格式的相关参数选择相应的封装单元（即封装单元53、54、55……中之一）对上述视频帧序列和音频帧序列进行封装，获得调节后的音视频文件。

图4为本发明实施方式涉及的音视频文件的合并处理过程的流程图。下面，参照图4说明在本实施方式涉及的音视频文件的合并处理过程。

首先，输入不同音视频文件（例如音视频文件1和音视频文件2），上述音视频数据接收模块1接收上述不同的音视频文件数据并将其输送至上述解封装模块2（步骤S11）。上述解封装模块2一接收到上述不同的音视频文件数据，就分别选择相应的解封装单元对上述不同的音视频文件数据逐一进行解封装，将上述不同的音视频文件数据各自解析为视频帧序列和音频帧序列，并将其输送至上述音视频数据解码模块3（步骤S12）。

上述音视频数据解码模块3接收上述解封装后的视频帧序列和音频帧序列后，针对上述解封装后的视频帧和音频帧的编码格式，分别选择相应的解码器进行解码，将上述视频帧序列中的视频帧还原为RAW格式数据，将上述音频帧序列中的音频帧还原为PCM格式数据，并将上述RAW格式数据和PCM格式数据暂存在上述存储模块6中（步骤S13）。

上述编码模块4从上述存储模块6中获取上述被还原后的RAW格式数据和PCM格式数据，并根据用户的指令对音频声道数、音频采样率、音频码率、视频帧率、视频码率、视频分辨率、视频帧制式等参数进行相应地转换，并根据用户对编码格式的要求选择相应的编码器进行编码，形成新的音频帧序列和新的视频帧序列并暂存在上述存储模块6中（步骤S14）。

上述封装模块5从上述存储模块6中获取新的音频帧序列和视频帧序列，并对所获取的前一顺序的新音频帧序列和视频帧序列以及后一顺序的新音频帧序列和视频帧序列的时间戳进行相应的调整，使得前一顺序的新音频帧序列和视频帧序列与后一顺序的新音频帧序列和视频帧序列之间同步，并将经调整后的各个新的音频帧序列和新的视频帧序列进行合并，以及将所获得的合并后的视频帧序列和音频帧序列进行封装，形成新的音视频文件（步骤S15）。

图5为本发明实施方式涉及的对视频帧序列和音频帧序列进行封装的步骤S15的流程图。图6为进行同步调整后而合并的视频帧序列和音频帧序列。下面，参照图5和图6说明在本实施方式涉及的对视频帧序列和音频帧序列进行封装处理过程。

上述时间戳调节单元51从存储模块6中获取上述前一顺序的新视频帧序列和新音频帧序列以及上述新视频帧序列和新音频帧序列的第一个和最后一个音频帧和视频帧的时间戳和时长（步骤S151）。然后，上述时间戳调节单元51对获取的前一顺序的新视频帧序列和音频帧序列进行音频帧调整处理，并对其进行时间戳重排，重排后的时间戳从零时开始（步骤S152）。接着，上述时间戳调节单元51获取上述重排后的前一顺序的新视频帧序列和音频帧序列的数据信息中最后一个视频帧和音频帧的时间戳和时长（原时间戳和时长），将原时间戳和时长存入存储模块6（步骤S153）。当上述时间戳调节单元51从上述存储模块6中获取后一顺序的新视频帧序列和音频帧序列时，同时获取其最后一个视频帧和音频帧的新的时间戳和时长（新时间戳和时长）（步骤S154）。上述时间戳调节单元51根据以上原时间戳和时长以及新时间戳和时长的数据进行计算，获得原时间戳和新时间戳之间的差值（步骤S155），并据此调节前一顺序的新视频帧序列和音频帧序列的数据信息和后一顺序的新视频帧序列和音频帧序列之间的同步（步骤S156）。

然后，上述时间戳调节单元51将前一顺序的新视频帧序列和音频帧序列的数据信息与后一顺序新的视频帧序列和音频帧序列的数据信息进行拼接，形成合并后的视频序列和音频序列，并将上述合并后的视频序列和音频序列存在存储模块6中（步骤S157）。上述时间戳调节单元51判断在上述后一顺序的新视频帧序列和音频帧序列之后是否还存在需要合并的下一个新的视频帧序列和音频帧序列（步骤S158）。如果还存在需要合并的新的视频帧序列和新的音频帧序列（步骤S158：是）。上述时间戳调节单元51从上述存储模块6中获取下一个新的视频帧序列和新的音频帧序列，并回到步骤S153。

如果不存在需要合并的下一个新的视频帧序列和新的音频帧序列（步骤S158：否），上述封装格式选择单元52从上述存储模块6中获取进行了同步调整后的视频帧序列和音频帧序列（步骤S159）。上述封装格式选择单元52基于原音视频文件的封装格式或用户指定的封装格式选择相应的封装单元对上述进行了同步调整后的视频帧序列和音频帧序列进行重新封装（步骤S160），形成新的音视频文件，并输出新的音视频文件（步骤S161）。

图7为图5中对第一个音视频序列的头部进行音频帧调整处理的步骤S152的流程。如图7所示，上述时间戳调节单元51获取前一顺序的新视频帧序列和音频帧序列的第一个和最后一个音频帧和视频帧的时间戳和时长并存入存储模块6。假定第一音频帧的时间戳为TA₁，第一视频帧的时间戳为TV₁，单个视频帧的时长为TSv，单个音频帧的时长为TSa，帧的时间戳即表示该帧的起始时间。上述时间戳调节单元51判断TA₁是否等于TV₁（步骤S171）。如果TA₁等于TV₁（步骤S171：是），说明第一音频帧和第一视频帧是同时开始的，就不必进行音频帧的调整，直接结束音频帧处理。如果TA₁不等于TV₁（步骤S171：否），音频帧控制单元31计算出(TV₁-TA₁)/TSa的数值，该数值表示了视频头部的视频和音频的时间差相当于多少帧音频帧的时长。由于所得的帧数通常不是整数，可以采取四舍五入或者直接取整数部分的方法换算为整数（步骤S172）。上述时间戳调节单元51判断所得的帧数是否为零（步骤S173）。如果为零（步骤S173：是），则不必进行音频帧的调整，直接结束音频帧调整处理。如果不为零（步骤S173：否），则继续判断该帧数是否为正值（步骤S174）。如果该帧数为正值（步骤S174：是），则上述时间戳调节单元51在第一音频帧之前插入所述帧数的静音帧（步骤S175）。如果该帧数为负值（步骤S174：否），则上述时间戳调节单元51将该音频帧序列最前面的所述数值个音频帧删除（步骤S176）。在步骤S175和步骤S176完成后，上述时间戳调节单元51对该音频序列和视频序列的时间戳从零开始进行重排（步骤S177）。

图8为图5中对两段音视频序列进行拼合时的步骤S157的处理流程。如图8所示，上述时间戳调节单元51从上述存储模块6中获取后一顺序的新视频帧序列和音频帧序列，同时获取上述序列的第一音频帧和第一视频帧的时间戳（步骤S181）。在此，假定该后一序列的第一音频帧的原始时间戳为TA_o，第一视频帧的原始时间戳为TV_o。音频帧控制单元31从存储模块6中提取步骤S153中存入的前一顺序的新音视频序列的最后一个音频帧和视频帧的时间戳（步骤S182）。上述时间戳调节单元51计算应该如何进行帧调整操作。时间戳调节单元51首先计算后一音视频帧序列的第一视频帧与第一音频帧的原始时间戳的差值TV_o?TA_o。然后，计算如果不进行帧调整而是直接拼合时，后一音视频帧序列的第一视频帧与第一音频帧的直接拼合后的时间戳TV_n和TA_n。最后，计算【(TV_n?TA_n)?(TV_o?TA_o)】/TSa的值，该值表示了第一音频帧在直接拼合后相对于第一视频帧被移动的时间相当于多少个音频帧的时长，也就是后一音视频序列音视频不同步的时间相当于多少个音频帧的时长。直接拼合后的第一视频帧和音频帧的时间戳TV_n和TA_n可以由步骤S182中提取的前一音视频序列的最后一个视频帧和音频帧的时间戳计算出来。比如，前一序列最后一个视频帧的时间戳为TV_n-1，最后一个音频帧的时间戳为TA_n-1，每个视频帧时长为TSv，每个音频帧时长为TSa；则直接拼合后的后一序列第一视频帧的时间戳TV_n= TV_n-1+TSv，后一序列第一音频帧的时间戳TA_n= TA_n-1+TSa（步骤S183）。

与步骤S172同样，可以采取四舍五入或者直接取整数部分的方法将该数值换算为整数。后续处理流程S184-S188与步骤S173-S177基本相同，在此对同样的流程不再重复说明，仅就不同部分进行说明。在步骤S186，与步骤S175的不同在于是在两个音视频序列的中间插入相应数值的静音帧。在步骤S187，与步骤S176不同的在于在两个音视频序列的中间部分删除相应数值的音频帧。被删除的音频帧可以按如下规则选择：如果帧数的绝对值为偶数X，则删除前一音视频序列的最后X/2个音频帧和后一音视频序列的前X/2个音频帧。如果帧数的绝对值为奇数Y，则先删除前一音视频序列的最后（Y-1）/2个音频帧和后一音视频序列的前(Y-1)/2个音频帧，然后指定删除前一音视频序列的最后一个音频帧或后一音视频序列的第一个音频帧。已可以由程序随机决定删除以上两帧中的一帧。在此，也可以设置应用程序接口，接受用户输入的设定，用户可以利用该接口自由设定删除音频帧的规则。

为了更大程度的减小音画不同步的情况还可以对以上的处理流程做如下改进：在步骤S152中，将步骤S172的取整后的余数或四舍五入的差值Z存入存储模块6，差值Z为计算所得的帧数减去取整后的帧数。在步骤S154的步骤S183中，使用差值Z作为校正值。步骤S183的计算方法变为【(TV_n?TA_n)?(TV_o?TA_o)】/TSa +Z。这样，在拼合每段视频时，都参照之前累积的误差进行计算，可以最大程度的避免由于帧数取整而产生的误差累积起来。后续的每个音视频序列拼合时差值Z都会被更新，并被用于下一个拼合时的校正。

本发明的技术方案并不限于以上，也可以做如下修改：

通常情况下，在对视频进行截取的时候，第一段视频的头部的视频帧和音频帧之间的时差都不会超过一个音频帧的时长，因此在多数情况下不必进行步骤S171-S176的处理，直接在步骤S177进行时间戳重排即可。

在很多情况下，从视频中截取片段是先截取整帧的视频帧，截取音频帧时将时间上与截取的视频帧不能对齐的音频帧全部删除，也就是在时间上跨越截取边界的音频帧全部被删除，这样在合并时就没有删除音频帧的必要。此时，本发明技术方案也可以改成在各音视频序列合并时不计算是否删除音频帧，只计算是否需要插入静音帧。由此可以简化判断流程。

另外，本发明的装置和方法还可以包括视频截取单元和视频截取的方法。视频截取中对边界处的音频帧的处理与上述音频帧调整中的处理方法相对应。比如，如上所述，截取时将在时间上跨越截取边界的音频帧全部删除，这样在合并时就没有删除音频帧的必要，相应地，音频帧调整时只需要计算是否需要插入静音帧。也可以在截取时保留所有的跨边界音频帧，音频帧调整时需要计算是否需要插入静音帧或删除现有的音频帧。这样，可以以更简化的装置和处理流程实现音频帧调整操作，使整个系统更有效率。

Claims

1.一种音视频同步处理装置，包括：

解封装装置，用于将不同的音视频文件解析为相应的音频帧序列和视频帧序列；

封装装置，用于通过获取前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列的时间戳之间的差值，调整所述前一顺序的音频帧序列和视频帧序列的时间戳和后一顺序的音频帧序列和视频帧序列的时间戳，使得所述前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列同步，并调整后的音频帧序列和视频帧序列进行封装。

2.根据权利要求1所述的装置，其特征在于：

所述封装装置包括时间戳调节单元，所述时间戳调节单元根据所述前一顺序的音频帧序列和视频帧序列与所述后一顺序的音频帧序列和视频帧序列的时间戳之间的差值计算所要插入或删除的静音帧数量。

3.根据权利要求2所述的装置，其特征在于：

所述时间戳调节单元在拼合所述前一顺序的音频帧序列和视频帧序列与所述后一顺序的音频帧序列和视频帧序列时，用以下公式计算并取整所要插入或删除的静音帧数量：【(TV_n?TA_n)?(TV_o?TA_o)】/TSa，

其中，TV_n为后一序列的第一视频帧在直接拼合后的时间戳，TA_n为后一序列的第一音频帧在直接拼合后的时间戳，TV_o为后一序列的第一视频帧在拼合前的原始时间戳，TA_o为后一序列的第一音频帧在拼合前的原始时间戳，TSa为单个音频帧的时长。

4.根据权利要求3所述的装置，其特征在于：

所述时间戳调节单元在前一次计算音频帧调整的数量后，保存得到的整数与计算值的差值Z；并在后一次计算出的音频帧调整的数量上加上差值Z后再取整。

5.根据权利要求1～4任一所述的装置，还包括：

音视频数据解码装置，用于将所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将所述音频帧序列中的音频帧还原为PCM格式的音频数据；

编码装置，通过对所述RAW格式的视频数据和所述PCM格式的音频数据进行编码，获得经重新编码后的视频帧序列和经重新编码后的音频帧序列。

6.一种音视频同步处理方法，包括:

解封装步骤，将不同的音视频文件解析为相应的音频帧序列和视频帧序列；

封装步骤，通过获取前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列的时间戳之间的差值，调整所述前一顺序的音频帧序列和视频帧序列的时间戳和后一顺序的音频帧序列和视频帧序列的时间戳，使得所述前一顺序的音频帧序列和视频帧序列与后一顺序的音频帧序列和视频帧序列同步，并调整后的音频帧序列和视频帧序列进行封装。

7.根据权利要求6所述的方法，其特征在于：

在所述封装步骤中，根据所述前一顺序的音频帧序列和视频帧序列与所述后一顺序的音频帧序列和视频帧序列的时间戳之间的差值计算所要插入或删除的静音帧数量。

8.根据权利要求7所述的方法，其特征在于：

在所述封装步骤中，在拼合所述前一顺序的音频帧序列和视频帧序列与所述后一顺序的音频帧序列和视频帧序列时，用以下公式计算并取整所要插入或删除的静音帧数量：【(TV_n?TA_n)?(TV_o?TA_o)】/TSa，

9.根据权利要求8所述的方法，其特征在于：

在所述封装步骤中，在前一次计算音频帧调整的数量后，保存得到的整数与计算值的差值Z；并在后一次计算出的音频帧调整的数量上加上差值Z后再取整。

10.根据权利要求6～9任一所述的方法，还包括：

音视频数据解码步骤，将所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将所述音频帧序列中的音频帧还原为PCM格式的音频数据；