CN103200425B - 一种多媒体处理装置及方法 - Google Patents

一种多媒体处理装置及方法 Download PDF

Info

Publication number
CN103200425B
CN103200425B CN201310119156.7A CN201310119156A CN103200425B CN 103200425 B CN103200425 B CN 103200425B CN 201310119156 A CN201310119156 A CN 201310119156A CN 103200425 B CN103200425 B CN 103200425B
Authority
CN
China
Prior art keywords
video
sequence
audio
frames
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310119156.7A
Other languages
English (en)
Other versions
CN103200425A (zh
Inventor
武悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TVMining Beijing Media Technology Co Ltd
Original Assignee
TVMining Beijing Media Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVMining Beijing Media Technology Co Ltd filed Critical TVMining Beijing Media Technology Co Ltd
Priority to CN201310119156.7A priority Critical patent/CN103200425B/zh
Publication of CN103200425A publication Critical patent/CN103200425A/zh
Application granted granted Critical
Publication of CN103200425B publication Critical patent/CN103200425B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供一种对多个不同文件格式的音视频文件进行合并的处理装置,包括:解封装装置,用于将不同文件格式的音视频文件解析为相应的音频帧序列和视频帧序列;音视频数据解码装置,用于将所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将所述音频帧序列中的音频帧还原为PCM格式的音频数据;编码装置,通过对所述RAW格式的视频数据和所述PCM格式的音频数据进行编码,获得经重新编码后的视频帧序列和经重新编码后的音频帧序列;封装装置,用于对所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列进行封装。本发明还提供一种对多个不同文件格式的音视频文件进行合并的处理方法。

Description

一种多媒体处理装置及方法
技术领域:
本发明涉及一种多媒体处理装置及方法,尤其是涉及对多个具有不同文件格式的音视频文件进行合并的装置及其方法。
背景技术:
在生活中,经常会在一个视频文件中插入另一个视频文件,比如插播广告等,这样就会涉及要将多个视频文件分别进行剪辑并最终合并为一个视频文件。
比如,中国专利申请No.200810093168.6中公开了一种合并多个视频流的系统以及其使用方法,其通过调节第二视频流的多个时间戳形成调整后的第二视频流,然后将调整后的第二视频流并接到第一视频流的末端。其中,当两个视频流的视频帧速率、视频分辨率、音频采样率和音频比特率不相等时,通过转换速率或编码器来调节这些视频流中的其中一个的视频帧速率、视频分辨率、音频采样率和音频比特率,使得它们相等。
然而,当存在多个具有不同的文件格式的音视频文件(例如AVI格式、RM格式和WMV格式)以及这些音视频文件中的视频帧序列编码方式不同或音频帧序列编码方式不同时,中国专利申请No.200810093168.6在合并这些音视频文件时,无法使得不同文件格式的音视频文件之间的平滑过渡,从而影响用户在视觉上和听觉上的体验。
发明内容:
为了解决上述技术问题,本发明提供了一种对多个不同文件格式的音视频文件进行合并的处理装置,包括:解封装装置,用于将不同文件格式的音视频文件解析为相应的音频帧序列和视频帧序列;音视频数据解码装置,用于将所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将所述音频帧序列中的音频帧还原为PCM格式的音频数据;编码装置,通过对所述RAW格式的视频数据和所述PCM格式的音频数据进行编码,获得经重新编码后的视频帧序列和经重新编码后的音频帧序列;封装装置,用于对所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列进行封装。
优选地,所述解封装装置具有音视频文件格式判断单元、解封装选择单元和数个不同格式的解封装单元;其中,所述音视频文件格式判断单元用于对所要解封装的所述音视频文件的格式进行判断;所述解封装选择单元根据所述音视频文件格式判断单元对所述音视频文件的格式的判断结果选择相应格式的所述解封装单元;所述解封装单元用于将相应格式的音视频文件解析为所述音频帧序列和所述视频帧序列。
优选地,所述音视频数据解码装置具有编码格式判断单元、解码器选择单元和数个不同格式的解码器;其中,所述编码格式判断单元,用于判断所述视频帧序列和所述音频帧序列的编码格式;所述解码器选择单元,基于所述编码格式的判断结果,选择相对应的所述解码器对所述视频帧序列和所述音频帧序列进行解码;所述解码器,用于将具有相应的编码格式的所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将具有相应的编码格式的所述音频帧序列中的音频帧还原为PCM格式的音频数据。
优选地,所述编码装置具有编码指令接收单元、编码器选择单元和数个不同格式的编码器;其中,所述编码指令接收单元,用于接收用户对编码格式要求的指令;所述编码器选择单元,根据所述编码格式要求的指令选择具有相应的编码格式的所述编码器;所述编码器,用所述相应的编码格式对所述RAW格式的视频数据和所述PCM格式的音频数据进行编码,获得所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列。
优选地,所述编码器能够基于用户对相关参数的要求将所述RAW格式的视频数据和所述PCM格式的音频数据中对应的参数按所述相关参数的要求进行转换,然后对经相关参数转换后的所述RAW格式的视频数据和所述PCM格式的音频数据进行编码,获得所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列。
优选地,所述相关参数包括音频声道数、音频采样率、音频码率、视频帧率、视频码率、视频分辨率和视频帧制中的一项或多项。
优选地,所述封装装置包括时间戳调节单元、封装格式指令接收单元、封装格式选择单元和数个不同格式的封装单元;其中,所述时间戳调节单元用于调节所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列中的时间戳,使得各个所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列同步;所述封装格式指令接收单元,用于接收用户对封装格式要求的指令;所述封装格式选择单元,基于所述封装格式要求选择具有相应封装格式的所述封装单元;所述封装单元,用所述相应封装格式对所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列进行封装。
优选地,所述处理装置还包括存储单元,所述存储单元能够用于储存所述RAW格式的视频数据和所述PCM格式的音频数据、所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列以及所述时间戳的数据信息。
本发明还提供一种对多个不同文件格式的音视频文件进行合并的处理方法,包括:解封装步骤,将不同文件格式的音视频文件解析为相应的音频帧序列和视频帧序列;解码步骤,将所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将所述音频帧序列中的音频帧还原为PCM格式的音频数据;编码步骤,对所述RAW格式的视频数据和所述PCM格式的音频数据进行编码,获得经重新编码后的视频帧序列和经重新编码后的音频帧序列;封装步骤,对所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列进行封装。
优选地,所述解封装步骤还包括:文件格式判断步骤,对所要解封装的所述音视频文件的格式进行判断;解封装单元选择步骤,根据对所述音视频文件的格式的判断结果选择相应格式的解封装单元;音视频文件解析步骤,将相应格式的音视频文件解析为所述音频帧序列和所述视频帧序列。
优选地,所述解码步骤还包括:编码格式判断步骤,判断所述视频帧序列和所述音频帧序列的编码格式;解码器选择步骤,基于所述编码格式的判断结果,选择相对应的解码器对所述视频帧序列和所述音频帧序列进行解码;数据还原步骤,将具有相应的编码格式的所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将具有相应的编码格式的所述音频帧序列中的音频帧还原为PCM格式的音频数据。
优选地,所述编码步骤还包括:编码指令接收步骤,用于接收用户对编码格式要求的指令;编码器选择步骤,根据所述编码格式要求的指令选择具有相应的编码格式的编码器;重新编码步骤,用所述相应的编码格式对所述RAW格式的视频数据和所述PCM格式的音频数据进行编码,获得所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列。
优选地,所述编码步骤还包括:参数转换步骤,基于用户对相关参数的要求将所述RAW格式的视频数据和所述PCM格式的音频数据中对应的参数按所述相关参数的要求进行转换。
优选地,所述相关参数包括音频声道数、音频采样率、音频码率、视频帧率、视频码率、视频分辨率和视频帧制中的一项或多项。
优选地,所述封装步骤包括:时间戳调节步骤,调节所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列中的时间戳,使得各个所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列同步;封装格式指令接收步骤,接收用户对封装格式要求的指令;封装格式选择步骤,基于所述封装格式要求选择具有相应封装格式的封装单元;重封装步骤,用所述相应封装格式对所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列进行封装。
优选地,所述解码步骤还包括:储存所述RAW格式的视频数据和所述PCM格式的音频数据的步骤;所述编码步骤还包括:储存所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列的步骤;所述封装步骤还包括:储存所述时间戳的数据信息的步骤。
本发明的上述技术方案能解决现有技术中将多个具有不同文件格式的音视频文件进行合并时无法实现平多个音视频文件之间的平滑过渡问题。同时,本发明的技术方案简化了对这些格式不同、视频帧序列编码方式不同、或者音频帧序列编码方式不同的多个音视频的文件进行合并的复杂程度,并能大批量地进行这种合并处理,从而能够提高了这种合并处理的效率和降低了相应的处理成本。
附图说明:
图1为本发明实施方式涉及的多媒体处理装置的结构框图;
图2为本发明实施方式涉及的多媒体处理装置的解封装模块的结构框图;
图3为本发明实施方式涉及的多媒体处理装置的音视频数据解码模块的结构框图;
图4为本发明实施方式涉及的多媒体处理装置的编码模块的结构框图;
图5为本发明实施方式涉及的多媒体处理装置的封装模块的结构框图;
图6为本发明实施方式涉及的不同文件格式的音视频文件的合并处理过程的流程图;
图7为图6所示的步骤S12的处理过程的流程图;
图8为图6所示的步骤S13的处理过程的流程图;
图9为图6所示的步骤S14的处理过程的流程图;
图10为图6所示的步骤S15的处理过程的流程图。
具体实施方式:
下面根据附图所示实施方式阐述本项发明。本发明实施方式所涉及的多媒体处理装置可以根据用户的要求将具有不同文件格式的多个音视频文件进行合并,形成一个具有一致的音频声道、音频采样率、音频码率、视频帧率、视频码率、视频分辨率以及视频帧制等的同一文件格式的音视频文件。
图1显示了本发明实施方式涉及的多媒体处理装置的结构框图。如图1所示,上述多媒体处理装置包括音视频数据接收模块1、解封装模块2、音视频数据解码模块3、编码模块4和封装模块5。
上述音视频数据接收模块1用于接收需要进行合并的具有不同文件格式的音视频数据(例如采用AVI格式的音视频文件1、采用RM格式的音视频文件2和采用WMV格式的音视频文件3),并将所接收的上述音视频数据输送至上述解封装模块2进行相应的解封装。上述解封装模块2从上述音视频数据接收模块1接收到上述音视频数据后,根据所收到的上述音视频数据的相应文件格式进行解封装。在上述解封装过程中,上述解封装模块2将不同文件格式的音视频文件分别解释为各自相应的视频帧序列和音频帧序列。然后,上述解封装模块2将解封装后获得的上述视频帧序列和音频帧序列输送至上述音视频数据解码模块3进行相应的解码。上述音视频数据解码模块3从上述解封装模块2接收到上述被解析为各自相应的视频帧序列和音频帧序列后,根据所收到的视频帧序列和音频帧序列的相应编码格式进行解码。在上述解码过程中,上述音视频数据解码模块3分别对上述视频帧序列和音频帧序列进行解码,将上述视频帧序列中的视频帧还原为RAW格式的视频数据,将上述音频帧序列中的音频帧还原为PCM格式的音频数据,并将上述RAW格式的视频数据和PCM格式的音频数据暂存在存储单元36(参照图3)中,直至完成对所有的视频帧序列和音频帧序列的解码。上述编码模块4从上述存储单元36中获取所存储的RAW格式的视频数据和PCM格式的音频数据,并根据用户的要求对音频声道数、音频采样率、音频码率、视频帧率、视频码率、视频分辨率、视频帧制(例如RGB、YUV、YV12)等相关参数进行转换,分别将RAW格式的视频数据和PCM格式的音频数据进行编码、压缩,形成新的视频帧序列和新的音频帧序列并暂存在存储单元46(参照图4)中,从而将所有的视频编码方式和音频编码方式根据用户的需求进行统一。上述封装模块5从上述存储单元46中获取新的视频帧序列和新的音频帧序列,重新调整上述新的视频帧序列和新的音频帧序列的时间戳,然后将调整完毕时间戳的新的视频帧序列和新的音频帧序列进行合并,将合并后的新的视频帧序列和新的音频帧序列根据用户所要求的文件格式进行封装,输出封装后的音视频文件。
图2为本发明实施方式涉及的多媒体处理装置的解封装模块2的结构框图。如图2所示,上述解封装模块2包括音视频文件格式判断单元21、解封装选择单元22和数个解封装单元23、24、25……。其中,上述数个解封装单元23、24、25……具有不同的格式,可以对应于不同的文件格式进行解封装。上述音视频文件格式判断单元21可以判断来自上述音视频数据接收模块1所接收的音视频的文件格式,上述解封装选择单元22可以根据上述音视频文件格式判断单元21的判断结果(即音视频文件的格式)从解封装单元23、24、25……中选择相应的解封装单元对上述音视频文件进行解封装,上述相应的解封装单元(即上述解封装单元23、24、25……中之一)将所接收到的上述音视频文件解封为相应的视频帧序列和音频帧序列。例如,当需要合并的音视频文件的格式分别为AVI格式、RM格式和WMV格式时,上述音视频文件格式判断单元21对所接收的音视频文件的格式进行判断;如果上述音视频文件格式判断单元21判断所接收的音视频文件的格式为AVI格式时,上述解封装选择单元22选择与AVI格式相对应的解封装单元(比如解封装单元23)进行解封装;如果上述音视频文件格式判断单元21判断所接收的音视频文件的格式为RM格式时,上述解封装选择单元22选择与RM格式相对应的解封装单元(比如解封装单元24)进行解封装;如果上述音视频文件格式判断单元21判断所接收的音视频文件的格式为WMV格式时,上述解封装选择单元22选择与WMV格式相对应的解封装单元(比如解封装单元25)进行解封装。
图3为本发明实施方式涉及的多媒体处理装置的音视频数据解码模块3的结构框图。如图3所示,上述音视频数据解码模块3包括编码格式判断单元31、解码器选择单元32、数个的解码器33、34、35……和存储单元36。其中,上述数个的解码器33、34、35……具有不同的解码格式,可以对应于不同的解码要求进行解码。上述编码格式判断单元31可以判断来自上述解封装模块2所解封装的视频帧序列和音频帧序列的编码格式,上述解码器选择单元32可以根据上述编码格式判断单元31的判断结果(即上述视频帧序列和音频帧序列的编码格式)从解码器33、34、35……中选择相应的解码器对上述视频帧序列和音频帧序列进行解码,上述相应的解码器对所收到的上述视频帧序列和音频帧序列进行解码,将上述视频帧序列中的视频帧还原为RAW格式数据以及将上述音频帧序列中的音频帧还原为PCM格式数据,上述RAW格式数据和PCM格式数据被暂存在存储单元36中。例如,如果上述编码格式判断单元31判断上述视频帧序列的编码格式为Xvid和音频帧序列的编码格式为MP3时,上述解码器选择单元32选择与上述Xvid和MP3编码格式相对应的解码器进行解码,将解码后的RAW格式数据和PCM格式数据暂存存储单元36中;如果上述编码格式判断单元31判断上述视频帧序列编码格式为H.264和音频帧序列的编码格式为AAC时,上述解码器选择单元32选择与上述H.264和AAC编码格式相对应的解码器进行解码,将解码后的RAW格式数据和PCM格式数据暂存存储单元36中;如果上述编码格式判断单元31判断上述视频帧序列编码格式为H.264和音频帧序列的编码格式为MP3时,上述解码器选择单元32选择与上述H.264和MP3编码格式相对应的解码器进行解码,将解码后的RAW格式数据和PCM格式数据暂存存储单元36中。
图4为本发明实施方式涉及的多媒体处理装置的编码模块4的结构框图。如图4所示,上述编码模块4包括编码器选择单元41、数个编码器42、43、44……、指令接收单元45和存储单元46。上述编码器选择单元41可以从上述存储单元36中获取上述经解码后的RAW格式数据和PCM格式数据。上述指令接收单元45可以接受用户的指令并将上述指令输送给上述编码器选择单元41,其中上述指令可以包括编码格式、音频声道数、音频采样率、音频码率、视频帧率、视频码率、视频分辨率、视频帧制式等参数。上述编码器选择单元41可以根据上述指令接收单元45所接收的上述指令选择相应的编码器对上述经解码后的RAW格式数据和PCM格式数据进行编码,形成新的视频帧序列和新的音频帧序列,并将新的视频帧序列和新的音频帧序列暂存入上述存储单元46中。例如,上述编码器分析上述RAW格式数据文件和PCM格式数据文件的头结构,取得上述RAW格式数据文件和PCM格式数据文件中的音频声道数、音频采样率、音频码率、视频帧率、视频码率、视频分辨率、视频帧制式等参数,然后将上述音频声道数、音频采样率、音频码率、视频帧率、视频码率、视频分辨率、视频帧制式等参数转换为用户所指定的音频声道数、音频采样率、音频码率、视频帧率、视频码率、视频分辨率、视频帧制式等参数,然后根据用户对编码格式(例如视频编码格式MPEG-2、DIVX、XVID、AC-1、H.264、WMV、RV、RM、MPEG-4等和音频编码格式MP3、ACC、AC-3等)的要求形成新的视频帧序列和新的音频帧序列(即经重新编码后的视频帧序列和经重新编码后的音频帧序列),并将上述新的视频帧序列和新的音频帧序列存入上述存储单元46中。
图5为本发明实施方式涉及的多媒体处理装置的封装模块5的结构框图。如图5所示,上述封装模块5包括时间戳调节单元51、存储单元52、封装格式选择单元53、数个封装单元54、55、56……和指令接收单元57。其中,上述数个封装单元54、55、56……具有不同的封装格式,可以对应于不同的封装格式的要求进行封装。上述时间戳调节单元51从上述存储单元46中获取上述新的视频帧序列和新的音频帧序列,并获取上述新的视频帧序列和新的音频帧序列的数据信息中最后一个数据单元的时间戳和时长,将所获取的新的视频帧序列和新的音频帧序列以及其最后一个数据单元的时间戳和时长暂存入上述存储单元52中。当上述时间戳调节单元51从上述存储单元46中获取另一新的视频帧序列和新的音频帧序列时,从上述存储单元52中获取所存储的前一顺序新的视频帧序列和新的音频帧序列及其最后一个数据单元的时间戳和时长,并根据前一顺序新的视频帧序列和新的音频帧序列最后一个数据单元的时间戳和时长,调整当前顺序新的视频帧序列和新的音频帧序列每一个数据信息中每一个数据单元的时间戳,使得前一顺序新的视频帧序列和新的音频帧序列以及当前顺序新的视频帧序列和新的音频帧序列之间同步,以获得调整后的当前顺序新的视频帧序列和新的音频帧序列中每一个数据信息。然后,上述时间戳调节单元51将前一顺序新的视频帧序列和新的音频帧序列的数据信息与调整后的当前顺序新的视频帧序列和新的音频帧序列的数据信息进行拼接,以获得合并视频序列和音频序列的合并数据信息。
在本实施方式中,如果当需要合并三个或三个以上的不同文件格式的音视频文件时,上述时间戳调节单元51将上述合并后的视频序列和音频序列及其最后一个数据单元的时间戳和时长暂存在上述存储单元52中,当上述时间戳调节单元51从上述存储单元46中获取下一个新的视频帧序列和新的音频帧序列时,从上述存储单元52中获取所存储的上述合并后的视频序列和音频序列及其最后一个数据单元的时间戳和时长,并根据上述合并后的视频序列和音频序列及其最后一个数据单元的时间戳和时长,调整当前顺序新的视频帧序列和新的音频帧序列每一个数据信息中每一个数据单元的时间戳,使得上述合并后的视频序列和音频序列以及当前顺序新的视频帧序列和新的音频帧序列之间同步,以获得调整后的当前顺序新的视频帧序列和新的音频帧序列中每一个数据信息。然后,上述时间戳调节单元51将合并后的视频序列和音频序列的数据信息与调整后的当前顺序新的视频帧序列和新的音频帧序列的数据信息进行拼接,以获得再次合并视频序列和音频序列的合并数据信息,以此进行三个或三个以上的新的视频帧序列和新的音频帧序列的合并。
当所有的新的视频帧序列和新的音频帧序列的合并完成后,上述时间戳调节单元51将合并后的视频帧序列和音频帧序列输送至上述封装格式选择单元53。上述指令接收单元57接收用户对封装格式要求的指令。上述封装格式选择单元53根据上述指令接收单元57所接收到的指令选择相应的封装单元(即封装单元54、55、56……中之一)对上述合并后的视频帧序列和音频帧序列按用户所要求的封装格式(例如AVI、WMV、RM、RMVB、MOV、TS/PS、MKV等)进行封装,获得合并后的音视频文件。
在上述实施方式中,上述存储单元36、46、52可以是各自独立的存储单元,也可以是同一存储单元中的不同的存储区域。
图6为本发明实施方式涉及的不同文件格式的音视频文件的合并处理过程的流程图。下面,参照图6说明在本实施方式涉及的不同文件格式的音视频文件的合并处理过程。
首先,输入不同文件格式的音视频文件(例如音视频文件1、音视频文件2、音视频文件3),上述音视频数据接收模块1接收上述不同文件格式的音视频文件数据并将其输送至上述解封装模块2(步骤S11)。上述解封装模块2一接收到上述不同文件格式的音视频文件数据,就分别选择相应的解封装单元对上述不同文件格式的音视频文件数据逐一进行解封装,将上述不同文件格式的音视频文件数据各自解析为视频帧序列和音频帧序列,并将其输送至上述音视频数据解码模块3(步骤S12)。
上述音视频数据解码模块3接收上述解封装后的视频帧序列和音频帧序列后,针对上述解封装后的视频帧和音频帧的编码格式,选择相应的解码器进行解码,将上述视频帧序列中的视频帧还原为RAW格式数据,将上述音频帧序列中的音频帧还原为PCM格式数据,并将上述RAW格式数据和PCM格式数据暂存在上述存储单元36中(步骤S13)。
上述编码模块4从上述存储单元36中获取上述被还原后的RAW格式数据和PCM格式数据,并根据用户的指令对音频声道数、音频采样率、音频码率、视频帧率、视频码率、视频分辨率、视频帧制式等参数进行相应地转换,并根据用户对编码格式的要求选择相应的编码器进行编码,形成新的音频帧序列和新的视频帧序列并暂存在上述存储单元46中(步骤S14)。
上述封装模块5从上述存储单元46中获取新的音频帧序列和视频帧序列,并对所获取的新的音频帧序列和视频帧序列的时间戳进行相应的调整,使得新的音频帧序列和新的视频帧序列之间同步,以及使得前一顺序的新的音频帧序列和新的视频帧序列与后一顺序的新的音频帧序列和新的视频帧序列之间同步,并将经调整后的各个新的音频帧序列和新的视频帧序列进行合并,以及将所获得的合并后的视频帧序列和音频帧序列按用户所要求的文件格式进行封装,形成具有统一文件格式的新音视频文件(步骤S15)。
图7为本发明实施方式涉及的对不同文件格式的音视频文件的进行解封装的步骤S12的流程图。下面,参照图7说明在本实施方式涉及的不同文件格式的音视频文件进行解封装处理过程。
音视频文件格式判断单元21基于所接收的音视频文件数据判断所接收的音视频文件的文件格式,并将判断结果输送到解封装选择单元22(步骤121),上述解封装选择单元22基于上述判断结果选择相应的解封装单元(步骤122)。例如,上述音视频文件数据可以为AVI、WMV、RM、RMVB、MOV、TS/PS、MKV等文件格式,上述相应的解封装单元能够对上述相应的文件格式的音视频文件数据进行解封装。上述解封装单元(即解封装单元23、24、25……中之一)对上述音视频文件数据进行解封装,将上述音视频文件数据解析为视频帧序列和音频帧序列(步骤123)。
图8为本发明实施方式涉及的对不同编码格式的音视频数据进行解码的步骤S13的流程图。下面,参照图8说明在本实施方式涉及的不同编码格式的音视频数据进行解码处理过程。
编码格式判断单元31对解封装后的视频帧序列和音频帧序列的编码格式(例如MPEG-2、DIVX、XVID、AC-1、H.264、WMV、RV、RM、MPEG-4、MP3、ACC、AC-3等)进行判断,并将判断结果输送到解码器选择单元32(步骤131)。上述解码器选择单元32基于上述判断结果选择与上述编码格式相应的解码器进行解码(步骤132),上述解码器将上述视频帧序列中的视频帧还原为RAW格式数据,将上述音频帧序列中的音频帧还原为PCM格式数据,并将上述RAW格式数据和PCM格式数据暂存至存储单元36中(步骤133)。
图9为本发明实施方式涉及的对RAW格式数据和PCM格式数据进行编码的步骤S14的流程图。下面,参照图9说明在本实施方式涉及的对RAW格式数据和PCM格式数据进行编码处理过程。
编码器选择单元41从上述存储单元36中获取上述RAW格式数据和PCM格式数据(步骤S140)。编码器选择单元41判断指令接收单元45是否已接收用户的编码指令(步骤S141)。上述编码指令包括编码格式、音频声道数、音频采样率、音频码率、视频帧率、视频码率、视频分辨率、视频帧制式等参数。如果上述指令接收单元45未接收到用户的编码指令(步骤S141:否),则编码器选择单元41选择默认的编码器(步骤S142),然后进入到步骤S145。如果上述指令接收单元45已接收用户的编码指令(步骤S141:是),编码器选择单元41判断上述编码指令中是否包括编码格式(步骤S143)。如果上述编码指令中未指定编码格式(步骤S143:否),编码器选择单元41选择默认的编码器(步骤S142),然后进入到步骤S145。如果上述编码指令中包括编码格式(步骤S143:是),编码器选择单元41根据上述编码指令中对编码格式的指定选择相应的编码器(步骤S144)。在步骤145中,上述被选定的编码器判断上述编码指令是否包括音频声道数、音频采样率、音频码率、视频帧率、视频码率、视频分辨率、视频帧制式等相关参数中一项或多项参数。如果上述编码指令指定了上述相关参数中一项或多项参数(步骤145:是),上述被选定的编码器根据上述编码指令所指定的上述相关参数中一项或多项参数对上述所指定的参数进行转换(步骤S146)。如果上述编码指令未指定上述相关参数(步骤145:否),上述被选定的编码器根据上述编码指令所默认的参数对相关参数进行转换(步骤S147)。然后,上述相应的编码器对上述转换相关参数后所获的RAW格式数据和PCM格式数据进行编码,以获得新的视频帧序列和新的音频帧序列,并将所获得的新的视频帧序列和新的音频帧序列暂存在存储单元46中(步骤S148)。
图10A和图10B为本发明实施方式涉及的对所获得的新的视频帧序列和新的音频帧序列进行合并的步骤S15的流程图。下面,参照图10A和图10B说明在本实施方式涉及的对所获得的新的视频帧序列和新的音频帧序列进行合并处理过程。
时间戳调节单元51从上述存储单元46中获取上述新的视频帧序列和新的音频帧序列(步骤S151),并获取上述新的视频帧序列和新的音频帧序列的数据信息中最后一个数据单元的时间戳和时长,将所获取的新的视频帧序列和新的音频帧序列以及其最后一个数据单元的时间戳和时长暂存入上述存储单元52中(步骤S152)。当上述时间戳调节单元51从上述存储单元46中获取另一新的视频帧序列和新的音频帧序列时,调节另一新的视频帧序列和新的音频帧序列(即当前顺序的新的视频帧序列和新的音频帧序列)的时间戳(步骤S153)。具体而言,时间戳调节单元51从上述存储单元52中获取所存储的前一顺序新的视频帧序列和新的音频帧序列及其最后一个数据单元的时间戳和时长,并根据前一顺序新的视频帧序列和新的音频帧序列最后一个数据单元的时间戳和时长,调整当前顺序新的视频帧序列和新的音频帧序列每一个数据信息中每一个数据单元的时间戳,使得前一顺序新的视频帧序列和新的音频帧序列以及当前顺序新的视频帧序列和新的音频帧序列之间同步,以获得调整后的当前顺序新的视频帧序列和新的音频帧序列中每一个数据信息。然后,上述时间戳调节单元51将前一顺序新的视频帧序列和新的音频帧序列的数据信息与调整后的当前顺序新的视频帧序列和新的音频帧序列的数据信息进行拼接,以获得合并视频序列和音频序列的合并数据信息,形成合并后的视频序列和音频序列(步骤S154),并将上述合并后的视频序列和音频序列及其最后一个数据单元的时间戳和时长暂存在上述存储单元52中(步骤S155)。时间戳调节单元51判断在上述另一新的视频帧序列和新的音频帧序列之后是否还存在需要合并的下一个新的视频帧序列和新的音频帧序列(步骤S156)。如果还存在需要合并的新的视频帧序列和新的音频帧序列(步骤S156:是)。当上述时间戳调节单元51从上述存储单元46中获取下一个新的视频帧序列和新的音频帧序列(即当前顺序新的视频帧序列和新的音频帧序列)时,从上述存储单元52中获取所存储的上述合并后的视频序列和音频序列及其最后一个数据单元的时间戳和时长(步骤157),并根据上述合并后的视频序列和音频序列及其最后一个数据单元的时间戳和时长,调整当前顺序新的视频帧序列和新的音频帧序列每一个数据信息中每一个数据单元的时间戳(步骤158),使得上述合并后的视频序列和音频序列以及当前顺序新的视频帧序列和新的音频帧序列之间同步,以获得调整后的当前顺序新的视频帧序列和新的音频帧序列中每一个数据信息(步骤159)。然后,上述时间戳调节单元51将合并后的视频序列和音频序列的数据信息与调整后的当前顺序新的视频帧序列和新的音频帧序列的数据信息进行拼接,以获得再次合并视频序列和音频序列的合并数据信息(步骤160),将所获取的再次合并视频序列和音频序列以及其最后一个数据单元的时间戳和时长暂存入上述存储单元52中(步骤161),然后返回上述步骤S156。
如果不存在需要合并的下一个新的视频帧序列和新的音频帧序列(步骤S156:否),进入步骤162(图10B中标记A)。
在步骤162中,上述时间戳调节单元51将合并后的视频帧序列和音频帧序列输送至上述封装格式选择单元53。上述封装格式选择单元53判断指令接收单元57是否接收到用户对封装格式指定的指令(步骤163)。如果接收到用户对封装格式指定的指令(步骤163:是),上述封装格式选择单元53选择相应的封装单元对上述合并后的视频帧序列和音频帧序列进行封装(步骤164)。如果未接收到用户对封装格式指定的指令(步骤163:否),上述封装格式选择单元53选择默认的封装单元对上述合并后的视频帧序列和音频帧序列进行封装(步骤165)。输出合并后的新音视频文件(步骤166)。
应理解以上说明书中所描述的具体实施方式和实施例仅用于说明本发明而不用于限制本发明的范围。在阅读了本发明之后,本领域技术人员对本发明的各种等同形式的修改均落于本申请所附权利要求所限定的范围。

Claims (16)

1.一种对多个不同文件格式的音视频文件进行合并的处理装置,包括:
解封装装置,用于将不同文件格式的音视频文件解析为相应的音频帧序列和视频帧序列;
音视频数据解码装置,用于将所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将所述音频帧序列中的音频帧还原为PCM格式的音频数据;
编码装置,通过对所述RAW格式的视频数据和所述PCM格式的音频数据进行编码,获得经重新编码后的视频帧序列和经重新编码后的音频帧序列;
封装装置,用于对所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列进行封装;
其中,所述封装装置包括时间戳调节单元,所述时间戳调节单元根据编码装置处理后的前一顺序视频帧序列和音频帧序列最后一个数据单元的时间戳和时长,调整后一顺序的视频帧序列和音频帧序列每一个数据单元的时间戳,使前后顺序的视频帧序列和音频帧序列分别同步,然后对同步后的视频帧序列和音频帧序列进行拼接,得到合并的视频序列和音频序列。
2.根据权利要求1所述的处理装置,其特征在于:
所述解封装装置具有音视频文件格式判断单元、解封装选择单元和数个不同格式的解封装单元;其中,
所述音视频文件格式判断单元用于对所要解封装的所述音视频文件的格式进行判断;
所述解封装选择单元根据所述音视频文件格式判断单元对所述音视频文件的格式的判断结果选择相应格式的所述解封装单元;
所述解封装单元用于将相应格式的音视频文件解析为所述音频帧序列和所述视频帧序列。
3.根据权利要求2所述的处理装置,其特征在于:
所述音视频数据解码装置具有编码格式判断单元、解码器选择单元和数个不同格式的解码器;其中,
所述编码格式判断单元,用于判断所述视频帧序列和所述音频帧序列的编码格式;
所述解码器选择单元,基于所述编码格式的判断结果,选择相对应的所述解码器对所述视频帧序列和所述音频帧序列进行解码;
所述解码器,用于将具有相应的编码格式的所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将具有相应的编码格式的所述音频帧序列中的音频帧还原为PCM格式的音频数据。
4.根据权利要求3所述的处理装置,其特征在于:
所述编码装置具有编码指令接收单元、编码器选择单元和数个不同格式的编码器;其中,
所述编码指令接收单元,用于接收用户对编码格式要求的指令;
所述编码器选择单元,根据所述编码格式要求的指令选择具有相应的编码格式的所述编码器;
所述编码器,用所述相应的编码格式对所述RAW格式的视频数据和所述PCM格式的音频数据进行编码,获得所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列。
5.根据权利要求4所述的处理装置,其特征在于:
所述编码器能够基于用户对相关参数的要求将所述RAW格式的视频数据和所述PCM格式的音频数据中对应的参数按所述相关参数的要求进行转换,然后对经相关参数转换后的所述RAW格式的视频数据和所述PCM格式的音频数据进行编码,获得所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列。
6.根据权利要求5所述的处理装置,其特征在于:
所述相关参数包括音频声道数、音频采样率、音频码率、视频帧率、视频码率、视频分辨率和视频帧制中的一项或多项。
7.根据权利要求1~6中任意一项所述的处理装置,其特征在于:
所述封装装置包括封装格式指令接收单元、封装格式选择单元和数个不同格式的封装单元;其中,
所述封装格式指令接收单元,用于接收用户对封装格式要求的指令;
所述封装格式选择单元,基于所述封装格式要求选择具有相应封装格式的所述封装单元;
所述封装单元,用所述相应封装格式对所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列进行封装。
8.根据权利要求7所述的处理装置,其特征在于:
所述处理装置还包括存储单元,所述存储单元能够用于储存所述RAW格式的视频数据和所述PCM格式的音频数据、所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列以及所述时间戳的数据信息。
9.一种对多个不同文件格式的音视频文件进行合并的处理方法,包括:解封装步骤,将不同文件格式的音视频文件解析为相应的音频帧序列和视频帧序列;
解码步骤,将所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将所述音频帧序列中的音频帧还原为PCM格式的音频数据;
编码步骤,对所述RAW格式的视频数据和所述PCM格式的音频数据进行编码,获得经重新编码后的视频帧序列和经重新编码后的音频帧序列;
封装步骤,对所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列进行封装;
其中,所述封装装置包括时间戳调节单元,所述时间戳调节单元根据编码装置处理后的前一顺序视频帧序列和音频帧序列最后一个数据单元的时间戳和时长,调整后一顺序的视频帧序列和音频帧序列每一个数据单元的时间戳,使前后顺序的视频帧序列和音频帧序列分别同步,然后对同步后的视频帧序列和音频帧序列进行拼接,得到合并的视频序列和音频序列。
10.根据权利要求9所述的处理方法,其特征在于:
所述解封装步骤还包括:
文件格式判断步骤,对所要解封装的所述音视频文件的格式进行判断;
解封装单元选择步骤,根据对所述音视频文件的格式的判断结果选择相应格式的解封装单元;
音视频文件解析步骤,将相应格式的音视频文件解析为所述音频帧序列和所述视频帧序列。
11.根据权利要求10所述的处理方法,其特征在于:
所述解码步骤还包括:
编码格式判断步骤,判断所述视频帧序列和所述音频帧序列的编码格式;
解码器选择步骤,基于所述编码格式的判断结果,选择相对应的解码器对所述视频帧序列和所述音频帧序列进行解码;
数据还原步骤,将具有相应的编码格式的所述视频帧序列中的视频帧还原为RAW格式的视频数据以及将具有相应的编码格式的所述音频帧序列中的音频帧还原为PCM格式的音频数据。
12.根据权利要求11所述的处理方法,其特征在于:
所述编码步骤还包括:
编码指令接收步骤,用于接收用户对编码格式要求的指令;
编码器选择步骤,根据所述编码格式要求的指令选择具有相应的编码格式的编码器;
重新编码步骤,用所述相应的编码格式对所述RAW格式的视频数据和所述PCM格式的音频数据进行编码,获得所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列。
13.根据权利要求12所述的处理方法,其特征在于:
所述编码步骤还包括:参数转换步骤,基于用户对相关参数的要求将所述RAW格式的视频数据和所述PCM格式的音频数据中对应的参数按所述相关参数的要求进行转换。
14.根据权利要求13所述的处理方法,其特征在于:
所述相关参数包括音频声道数、音频采样率、音频码率、视频帧率、视频码率、视频分辨
率和视频帧制中的一项或多项。
15.根据权利要求9~14中任意一项所述的处理方法,其特征在于:
所述封装步骤包括:
封装格式指令接收步骤,接收用户对封装格式要求的指令;
封装格式选择步骤,基于所述封装格式要求选择具有相应封装格式的封装单元;
重封装步骤,用所述相应封装格式对所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列进行封装。
16.根据权利要求15所述的处理方法,其特征在于:
所述解码步骤还包括:储存所述RAW格式的视频数据和所述PCM格式的音频数据的步骤;
所述编码步骤还包括:储存所述经重新编码后的视频帧序列和所述经重新编码后的音频帧序列的步骤;
所述封装步骤还包括:储存所述时间戳的数据信息的步骤。
CN201310119156.7A 2013-03-29 2013-04-08 一种多媒体处理装置及方法 Expired - Fee Related CN103200425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310119156.7A CN103200425B (zh) 2013-03-29 2013-04-08 一种多媒体处理装置及方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201310107208 2013-03-29
CN201310107208.9 2013-03-29
CN2013101072089 2013-03-29
CN201310119156.7A CN103200425B (zh) 2013-03-29 2013-04-08 一种多媒体处理装置及方法

Publications (2)

Publication Number Publication Date
CN103200425A CN103200425A (zh) 2013-07-10
CN103200425B true CN103200425B (zh) 2016-04-06

Family

ID=48722765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310119156.7A Expired - Fee Related CN103200425B (zh) 2013-03-29 2013-04-08 一种多媒体处理装置及方法

Country Status (1)

Country Link
CN (1) CN103200425B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3588959A4 (en) * 2018-05-18 2020-01-22 Wangsu Science & Technology Co., Ltd. METHOD AND DEVICE FOR TRANSCODING FOR AN AUDIO / VIDEO stream

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104168435B (zh) * 2014-08-15 2018-01-12 北京彩云动力教育科技有限公司 一种音频文件批量合并和播放的方法及系统
CN104754366A (zh) 2015-03-03 2015-07-01 腾讯科技(深圳)有限公司 音视频文件直播方法、装置和系统
CN104778217B (zh) * 2015-03-20 2017-08-29 广东欧珀移动通信有限公司 一种歌曲拼接算法及装置
CN104780438A (zh) * 2015-03-20 2015-07-15 广东欧珀移动通信有限公司 一种视频与歌曲音频拼接的方法及装置
CN106469559B (zh) * 2015-08-19 2020-10-16 中兴通讯股份有限公司 语音数据的调整方法及装置
US10034026B2 (en) * 2016-04-22 2018-07-24 Akila Subramaniam Device for and method of enabling the processing of a video stream
CN107333164B (zh) * 2016-04-29 2020-05-15 北京学而思教育科技有限公司 一种图像数据处理方法及装置
CN106101797A (zh) * 2016-07-12 2016-11-09 青岛海信电器股份有限公司 一种屏幕录制方法及触摸电视
CN108184079A (zh) * 2017-12-29 2018-06-19 北京奇虎科技有限公司 一种多媒体文件的合并方法和装置
CN111479164A (zh) * 2019-01-23 2020-07-31 上海哔哩哔哩科技有限公司 硬件解码动态分辨率无缝切换方法、装置及存储介质
CN112511768B (zh) * 2020-11-27 2024-01-02 上海网达软件股份有限公司 多画面合成方法、装置、设备及存储介质
CN113613088A (zh) * 2021-08-02 2021-11-05 安徽文香科技有限公司 一种mp4文件的修复方法、装置、电子设备及可读存储介质
CN113873176B (zh) * 2021-10-27 2024-03-08 北京奇艺世纪科技有限公司 一种媒体文件合并方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11136642A (ja) * 1997-10-30 1999-05-21 Sony Corp 画像情報伝送方法および画像情報送受信装置
WO2003090200A1 (en) * 2002-04-19 2003-10-30 Radixs Pte Ltd System and method for use of multiple applications
CN101394469B (zh) * 2008-10-29 2011-04-06 北京创毅视讯科技有限公司 一种音视频同步方法、装置及一种数字电视芯片
TWI384459B (zh) * 2009-07-22 2013-02-01 Mstar Semiconductor Inc 音框檔頭之自動偵測方法
CN102263942A (zh) * 2010-05-31 2011-11-30 苏州闻道网络科技有限公司 一种分级视频转码装置和方法
CN102316276B (zh) * 2011-09-26 2013-06-19 成都索贝数码科技股份有限公司 一种信号切换矩阵系统
CN102724551A (zh) * 2012-06-13 2012-10-10 天脉聚源(北京)传媒科技有限公司 一种视频编码系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3588959A4 (en) * 2018-05-18 2020-01-22 Wangsu Science & Technology Co., Ltd. METHOD AND DEVICE FOR TRANSCODING FOR AN AUDIO / VIDEO stream

Also Published As

Publication number Publication date
CN103200425A (zh) 2013-07-10

Similar Documents

Publication Publication Date Title
CN103200425B (zh) 一种多媒体处理装置及方法
US20240203433A1 (en) Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder
US9667685B2 (en) Systems and methods for encoding and decoding
US8861927B2 (en) Digital media universal elementary stream
CN103686210A (zh) 实时音视频转码方法和系统
CN103139559B (zh) 多媒体信号传输方法和装置
EP3210206B1 (en) Encoding and decoding of audio signals
WO2013185515A1 (zh) 一种视频编码系统和方法
CN108122558B (zh) 一种latm aac音频流的实时转容实现方法及装置
KR101348969B1 (ko) 트랜스코딩 방법, 디바이스, 장치 및 시스템
CN109640162B (zh) 码流转换方法及系统
CN103237259A (zh) 一种视频声道处理装置及方法
CN102802021B (zh) 一种编辑多媒体数据的方法及装置
US20090043567A1 (en) Variable frame offset coding
WO2012034441A1 (zh) 实现可伸缩视频编码业务协同传输的方法及系统
CN102075818B (zh) Gsm手机iptv网络电视数据的处理方法
CN104780392A (zh) 一种视频文件的转码方法及装置
CN105657448A (zh) 一种编码视频流的转发方法、装置及系统
CA2816284C (en) Encoding and decoding a multimedia signal using syntax to generate a dynamically configured decoder
CN105376641A (zh) 一种将音视频文件流化的装置和方法
CN105122821A (zh) 服务器装置、内容提供方法以及计算机程序
CN102158917A (zh) 在不同的语音编码器系统之间的切换
US20240212697A1 (en) Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder
JP2006050387A (ja) データ再生方法、およびデータ再生装置
EP2676430A1 (en) Systems and methods for encoding, transmitting and decoding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Device and method of multimedia processing

Effective date of registration: 20170401

Granted publication date: 20160406

Pledgee: Silicon Valley Bank Co., Ltd.

Pledgor: TVMining (Beijing) Media Technology Co., Ltd.

Registration number: 2017310000019

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160406

Termination date: 20210408