CN101106723A

CN101106723A - 一种快速播放多媒体信息的系统和方法

Info

Publication number: CN101106723A
Application number: CN 200710118619
Authority: CN
Inventors: 张勤; 王晖; 王雨田; 李传珍
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2007-07-10
Filing date: 2007-07-10
Publication date: 2008-01-16
Anticipated expiration: 2027-07-10
Also published as: CN100536574C

Abstract

本发明公开了一种快速播放多媒体信息的系统和方法，包括：用于对音频信号快速解码的快速音频解码模块；用于所述快速音频解码模块对音频信号快速解码后的脉冲编码信号进行分段的时域音频分段模块；用于所述时域音频分段模块进行分段后对音频段进行排序处理的快进快退排序模块；用于所述快进快退排序模块进行排序处理后对音频段进行互相关判断和耦合删除处理的音频时域删除与耦合模块；用于对音频信号快速解码之前对多媒体信息的音频、视频进行分离的音视频分离模块。应用本发明，解决了多媒体信息快进、快退播放时不能实现高品质伴音的同步快速播放的问题。

Description

一种快速播放多媒体信息的系统和方法

技术领域

本发明涉及多媒体领域，尤其涉及一种快速播放多媒体信息的系统和方法。

背景技术

数字多媒体包含声音和视觉信号的数字媒体。通常播放器的工作是把媒体信息中的声音和视频信息分离，分别解码，并且同步播放。

随着各种新的编解码方案的提出，视频播放的质量越来越高，如MPEG-4，H.264等。从以前的普通电视到高清电视，随着视频播放质量的提高，人们对媒体信息中的音频播放质量也越来越重视。从早先的MEPG-1Layer3到后来的AAC等优秀的编码方案，音质的提高带给人们更高的享受。

下面着重介绍目前广泛使用的MEPG-2 AAC音频解码过程。

图1描述了MPEG-2 AAC音频解码的基本结构。解码器中包括了必选和可选的模块。图中数据的流向是从左至右，由上至下。解码器的任务是找出比特流中对量化音频频谱的描述，解出量化值和其他重建信息，恢复量化频谱，通过比特流里的可用模块对恢复的频谱处理，从而逼近输入比特流给出的实际信号频谱，最后将频谱值从频域变换到时域中去，其中增益控制模块是可选的。在重建初始化和频谱重建的定标之后，提供了一系列的可选模块对一段或者更多的频谱进行修正，使编码效率更高。对于每一个运作在频域的可选模块，默认的选项是“通过”，在任何情况下，当该项操作被省略时，其输入端的频谱信号不作修改地直接通过该模块。

比特流去格式化模块的输入是MPEG-2 AAC比特流。去格式化器将MPEG-2 AAC数据流的各部分分离成为对应各个模块的数据部分，并且提供给该模块与之有关的比特流信息。

比特流去格式化器的输出是：

无噪声编码频谱的分区信息；

无噪声编码的频谱；

M/S的判决信息(可选)；

预测器状态信息(可选)；

强度立体声控制信息和耦合声道控制信息(均可选)；

时域噪声整形(TNS)信息(可选)；

滤波器控制信息；

增益控制信息(可选)。

无噪声解码模块从比特流去格式化器取得信息，分析该信息，对霍夫曼码字解码，重建量化频谱以及霍夫曼编码和DPCM编码的比例因子。

无噪声解码模块的输入是：

无噪声编码频谱的分区信息；

无噪声编码的频谱。

无噪声解码模块的输出是：

比例因子的解码整型表示；

频谱的量化值。

反量化模块获得频谱的量化值，将整型值转化成非归一化的重建频谱。量化器是非均匀量化。

反量化模块的输入是：

频谱的量化值。

反量化模块的输出是：

非归一化的反量化频谱。

比例因子模块将比例因子的整型表示转化为真实值，与相应的非归一化反量化频谱相乘。

比例因子模块的输入是：

比例因子的整型表示；

非归一化的反量化频谱。

比例因子模块的输出是：

归一化的反量化频谱。

M/S模块在M/S判决信息的控制下，将频谱对从中间/旁边转化成为左/右，从而提高编码效率。

M/S模块的输入是：

M/S判决信息；

与成对声道相关的，归一化的反量化频谱。

M/S模块的输出是：

经过M/S解码的、与成对声道相关的、归一化的反量化频谱。

对于每个声道单独编码的归一化的反量化频谱，M/S模块不加处理，而是让它们直接通过不加修改。如果M/S模块不可用，所有的频谱都不加修改地直接通过。

预测模块是编码器中预测的逆过程。它将编码时预测模块去除的冗余重新引入，并由预测状态信息加以控制。该模块由一个二阶后向自适应预测器实现。

预测模块的输入是：

预测器状态信息；

归一化的反量化频谱。

预测模块的输出是：

使用预测器后的归一化的反量化频谱。

如果未使用预测，归一化的反量化频谱不加修改地直接通过。

强度立体声/耦合模块完成成对频谱的强度立体声解码。此外，在耦合控制信息的控制下，它将非独立切换耦合声道的有关信息加到该点的频谱之上。

强度立体声/耦合模块的输入是：

反量化频谱；

强度立体声控制信息和耦合控制信息。

强度立体声/耦合模块的输出是：

经过强度和耦合声道解码后的反量化频谱。

如果这个模块的任一部分被禁用，反量化频谱不加修改地直接通过该模块。强度立体声模块和M/S模块的安排使得对于给定的任何比例因子频段和一簇频谱对而言，M/S和强度立体声的操作是互斥的。

时域噪声整形(TNS)模块对编码噪声的精细时间结构加以控制。在编码器中，TNS将所处理的时域信号包络变平坦。对于解码器，在TNS信息的控制下，用相反的过程来恢复真实的时域包络。这种恢复是通过对部分频谱数据的滤波来完成。

TNS模块的输入是：

反量化的频谱；

TNS信息。

TNS模块的输出是：

反量化的频谱；

如果该模块被禁用，反量化频谱值不加修改地直接通过。

滤波器组模块为编码器中频率映射的相反过程，由滤波器组控制信息和可能存在的增益控制信息加以表示。滤波器组使用了改进离散余弦反变换(IMDCT)。如果没有使用增益控制模块，按window_sequence的取值不同，IMDCT的输入由1024线或128线的频谱系数构成；相反，如果使用了增益控制模块，滤波器组的输入则由四组256线或32线的频谱系数构成，其取决于window_sequence的值。

滤波器组模块的输入是：

反量化的频谱；

滤波器组的控制信息。

滤波器组模块的输出是：

重建的时域音频信号。

如果存在增益控制模块，它会在该模块输入端信号的4个频带上分别加上一个独立的时域增益控制(这4个频带是由编码器的增益控制模块的PQF滤波器组生成的)。然后，它将4个频带组合起来并通过增益控制模块重建时间波形。

增益控制模块的输入是：

重建的时域音频信号；

增益控制信息。

增益控制模块的输出是：

重建的时域音频信号；

如果增益控制模块没有激活，重建的时域音频信号直接从滤波器组通过，成为解码器的输出。该模块仅用于采样频率可分级(SSR)框架。

如上所述，MPEG-2 AAC解码器使用了大量的技术手段来保证正常速度的播放质量。然而，在数字多媒体的实际使用中，有很多时候需要快进、快退播放但又能完整反映媒体信息。研究表明，听者以两倍速度听教育材料两次比以正常速度听材料一次更有效，因此实现媒体信息的高品质快速播放在教育与学习中将得到广泛应用。媒体编辑的后期制作也可以用高品质快速播放功能加快编辑浏览速度，提高处理效率。高品质的快进、快退技术还可在多媒体邮件系统中加速信息的表达，以使接受者在较短时间内获得更多信息。除此之外，高质量的快进、快退技术还可应用到媒体信息检索中，便于检索者快速准确的查找出有用信息。

对于视频快速播放，现有的方法是加快帧的播放速度。通常是采用均匀跳帧解码的方式。即假设要加快的速度为a，则在解码的时候每隔a-1个帧抽出一帧，组成新的视频流。这样产生的视频画面会有跳跃现象，运动连贯性降低。

对于音频播放，现有播放器采用如下方法：假设解码后的原始音频数据的采样频率是a，如果播放的时候单位时间内播放b*a个样值，则播放速度就会提高到以前的b倍。但是如果单纯采用提高声音数据的抽样频率的方法，由于播放速度高于默认采样速度，这时候声音会变得尖锐，失去了原有的音色。如果播放速度较快，会完全听不清内容。

综上所述，对于现在得到普遍应用的视频音频播放器系统，还没有专门针对高品质快速播放功能提出灵活有效的解决方案，如何设计一个兼容现有播放器结构，同时具有高品质快速播放功能的多媒体播放器，已成为需要解决的问题。

发明内容

分析现有的播放器解码结构，之所以无法胜任高品质快速播放的要求，主要有两个原因：其一是没有考虑到快速播放功能的重要性；其二是音频快速播放处理手段不足。由于对高品质快速播放功能的重要性认识不足，现有播放器在设计之初没有为高品质快速播放作出考虑，从而没有设计相应的体系结构。大多数播放器快速播放的时候只是简单的加快声音样值播放速度，或干脆不播放声音，造成快进的时候无法有效获得声音信息。使用者在快进的时候通常是为了浏览整个多媒体信息，如果没有高品质快进功能的解码器，没有好的快进效果，将减少使用者的信息获取量。如上述AAC解码的介绍，它在正常速度下有着很高的音质，但快进的时候，就无法得到令人满意的效果。

本发明依据上述原因，扩展了现有播放器体系结构，在兼容现有功能的同时，加入了不损失品质的快速音频播放能力，并提供了与视频信号同步的方法，从而获得高品质的快速播放效果。

本发明所要解决的技术问题是提供一种快速播放多媒体信息的系统和方法，解决多媒体信息快进、快退播放时不能实现高品质伴音的同步快速播放的问题。

为了解决上述技术问题，本发明提供了一种快速播放多媒体信息的方法，包括以下步骤：

a、对音频进行快速解码；

b、对所述音频分段；

c、对所述音频进行互相关判断和耦合删除处理。

进一步地，上述方法还可包括以下步骤：

d、对所述音频排序；

e、通过音频序号标志位所在的时刻确定相应的视频帧所在时刻，并抽出该视频帧；

f、将音频、视频同步并控制播放速度。

进一步地，上述方法还可包括，在所述步骤a之前，对所述音频、视频进行分离。

进一步地，上述方法还可包括，所述步骤d中，对所述音频排序包括快进排序、快退排序，其中所述快退排序是将前后所述音频序号颠倒。

进一步地，上述方法还可包括，所述步骤d中，包括以下步骤：

d1、选择所述音频的叠加点；

d2、叠加所述音频。

进一步地，上述方法还可包括，所述步骤d1中，采用互相关计算所述音频叠加点，以互相关最大的点为起点。

进一步地，上述方法还可包括，所述步骤d2中，叠加所述音频时采用加权函数实现所述音频过渡段的平滑连接，该加权函数是斜坡函数。

进一步地，上述方法还可包括，所述步骤e中，所述音频序号标志位是所述音频的中点。

进一步地，上述方法还可包括，所述步骤f中，通过比较所述音频和所述视频帧的序号，将所述音频与所述视频信息同步播放。

本发明还提供了一种快速播放多媒体信息的系统，包括：

快速音频解码模块，用于对音频信号快速解码；

时域音频分段模块，用于所述快速音频解码模块对音频信号快速解码后的脉冲编码信号进行分段；

快进快退排序模块，用于所述时域音频分段模块进行分段后对音频段进行排序处理；

音频时域删除与耦合模块，用于所述快进快退排序模块进行排序处理后对音频段进行互相关判断和耦合删除处理；

音视频分离模块，用于对音频信号快速解码之前对多媒体信息的音频、视频进行分离。

进一步地，上述系统还可包括，跳帧视频解码模块，用于对视频跳帧解码；

音视频同步与播放速度控制模块，用于接收用户给定的播放速度参数，控制音频、视频信号的压缩程度，并使加速后的音频和视频信号同步；

音频播放模块，用于播放处理后的音频数据；

视频播放模块，用于播放跳帧视频。

进一步地，上述系统还可包括，所述音视频同步与播放速度控制模块中包括：

音视频同步模块，用于比较音频和视频帧的序号，同步播放音频与视频信息。

与现有技术相比，由于本发明采用了一种快速播放多媒体信息的系统和方法，解决了多媒体信息快进、快退播放时不能实现高品质伴音的同步快速播放的问题。

附图说明

图1是MPEG-2 AAC音频解码的流程图；

图2是本发明具体实施方式的一种快速播放多媒体信息方法的流程图；

图3是本发明具体实施方式的一种快速播放多媒体信息的系统的结构示意图；

图4是本发明具体实施方式利用音频时域删除与耦合算法进行第一轮语音操作的示意图；

图5是本发明具体实施方式的跳帧视频解码的示意图；

图6是本发明具体实施方式的视频实施流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作详细说明。

在快速播放多媒体信息的系统中，包含音频部分、视频部分和音视频同步与播放速度控制部分。

音频部分，包含快速音频解码、时域音频分段、快进快退排序、音频时域删除与耦合。

快速音频解码：

一般在视频文件中，音频部分都是经过压缩的。如果要对它进行处理需要对它进行解码。常用的解码方法如AC3，DTS等解码完毕都是直接播放。在本系统中，由于还要进行后续处理，因此解码速度需要加快，以便给后续操作留有提前量。

时域音频分段：

解码后的音频以脉冲调制编码的形式存在。要对音频数据进行时域删除与耦合处理，首先要对音频数据进行分段。分段长度不宜太长。对于音频时域删除与耦合处理，由于固定了叠加长度，则在每一段中，有些数据处理不到。若分段过长，则可能有些信息会未经处理直接播放，破坏了最终合成音频的音质一致性。分段长度也不能太短。由于叠加过程中，会判断前后两段之间的互相关性，若分段太短，则对互相关判断不利。

快进快退排序：

在快速播放中，不仅有正向的快速播放，还可能有后退的快速播放。逆序快速播放在现有的各种播放器上均无实现的功能，但在编辑和快速浏览中有着重要的作用。

实现逆序快速播放的关键是对音频段进行排序。由于采用互相关作为选择叠加点的标准，在音频分段完成后，前后两段之间进行耦合叠加前，要对两段音频进行互相关判断，找出互相关性最大的一点作为叠加的起始点。在逆序快速播放中，叠加的先后顺序和互相关搜索方向改变，但在各段内部还是顺序播放。这依赖于对音频段的索引编号的改变。一个简单的方法是，将前后序号颠倒，使得音频段的顺序改变，然后采用常规方法进行时域删除与耦合处理。

音频时域删除与耦合：

在音频时域删除与耦合算法中，最后的步骤是在找出各段之间互相关性最大的点之后，以此为起点队两段音频进行叠加，从而缩短总体长度，表现出加快播放速度的效果。在叠加时采用加权函数来实现过渡段的平滑连接。这里采用简单的斜坡函数，只要采样率足够大，如在正常录音采样率8kHz下，就可达到较好的效果。但对于低码率的音频数据，还需要采取其他的窗函数或者处理手段来平滑两段语音。

音频时域删除与耦合算法，是一种在语音信号处理领域被广泛运用的算法。这种算法利用将同一语音的不同的输入段之间进行首尾叠加耦合的方法，实现对语音段时间长度的调整。它采用互相关作为选择叠加点的标准。在叠加时采用加权函数来实现过渡段的平滑连接。针对这一原理在不同的应用领域中的实际运用，音频时域删除与耦合算法之所以受到重视，主要是因为：它实现起来比较简单，同时，这种算法的质量较好而计算量又适中，所以有了很大的发展。

在本发明具体实施方式中，在综合出新的信号时采用了固定的叠加长度，而普通算法的这个叠加长度是可变的。这种方法的一大贡献在于，在选择叠加位置时，可以采用预测的方法，不需要每次都去进行位置的计算，从而降低了计算资源消耗。图4是本发明具体实施方式利用音频时域删除与耦合算法进行第一轮语音操作的示意图。

视频部分，包含跳帧视频解码。

跳帧视频解码：

为了达到快速播放的目的，同样需要对视频进行快速解码。为了降低计算资源消耗，可以依据播放速度的不同，进行不同程度的跳帧解码。

图5是本发明具体实施方式的跳帧视频解码的示意图。

在对音频段进行排序的时候，得到原始多媒体信息中每帧视频对应的音频段标志位所在时刻。当音频信息经过压缩后，音频段标志位之间的时间间隔变小，从而使对应的视频帧时间间隔变小。正常情况下，视频是以每秒24帧的速度播放。即每帧间隔1/24秒。由于此时与音频对应的视频帧间隔已经变小，可以每隔1/24秒的长度取出附近最接近的一帧，并组成新的快进视频进行播放。

音视频同步与播放速度控制部分：

由于视频与音频都进行了加快速度的播放，两者之间的同步匹配就成了影响最终效果的重要因素。当音频分段完毕并进行排序后，音视频同步与播放速度控制模块控制音频时域删除与耦合模块对音频段进行互相关计算和匹配耦合，缩短总体长度，使之形成符合用户的指令的快速播放音频。

由于音频段都有相应的编号，并且压缩后每段的长度互不相同，可以根据正常状态下音频段和视频帧之间的对应关系，形成加速后的音频与视频关系，并据此将音频和视频同步。视频帧依据同步控制命令以与音频播放速度相适应的速度进行播放，从而最终达到总体的快速播放。

针对上述思路，对本发明进行更详细的具体实施方式的描述：

首先进行音频实施方案，同时进行视频实施方案，最后进行音视频同步与播放速度控制方案。

音频实施方案：

整个算法首先将语音段中的前W个数值取出来，直接存入到输出序列中；然后根据Sa的值取出下一段语音，也就是从第Sa个点开始取，一直取W个点；然后将这W个点中的前Wov个点与输出序列的最后Wov个点进行比较，比较它们之间的一致性；记录比较的情况，然后整个分析窗口(即：截取W个点的窗口)向后移动一个样值，再将新的序列中的前Wov个点与输出序列中的后Wov个点进行比较，同时记录下比较结果；这样依次做Kmax次，然后取出比较结果中最一致的那种情况；将这种情况下，所截取的语音序列的前Wov个点与输出序列的最后Wov个点按某种方式进行叠加，然后再将W个点的窗口中剩余的Ss个点存入到输出序列中去；至此完成了一轮语音操作。下一轮语音段处理，与上面基本相同，只不过从输入序列中截取的语音段不是从原先的起点开始而是在原先的起点的基础上向后延时Sa个点。

x^m[n]表示第m段语音信号，x[n]表示原始信号的序列，两者的关系可以用下面的等式表示：

x_{m} [n] = \{\begin{matrix} x [mSa + k_{m} + n] for & n = 0 \cdot \cdot \cdot W - 1 \\ 0 & otherwise \end{matrix}

km是第m个分析窗口的移动量，km值的变化范围是0至Kmax；对于每一个分析窗口，km值取遍这些值，同时比较每次语音段的前Wov个点与输出序列中的最后Wov个点的一致性；取出其中一致性最好的那个语音段将其前Wov个点叠加到输出序列中去。例如叠加时所用的窗口用b(n)表示，输出序列用y[n]表示，那么

y [mSs + n] = \{\begin{matrix} b [n] y [mSs + n] + (1 - b [n]) x_{m} [n] & n = 0 \cdot \cdot \cdot Wov - 1 \\ x_{m} [n] & n = Wov \cdot \cdot \cdot W \end{matrix}

每执行一次叠加，输入信号的起始点增加Sa，输出信号长度增长Ss，可见一个足够长的语音信号的压缩比可近似为Ss/Sa。调整两者的长度即可得到不同的播放速度。

b(n)的选择应使得输入与输出序列之间实现平滑的连接，这里采用简单的斜坡函数，只要采样率足够大，就可达到较好的语音效果。

下面是km值的确定方法：采用互相关系数表示一致性程度。

k_{m} = \max_{0 \leq k \leq K \max} R_{xy}^{m} [k] = \frac{r_{xy}^{m} [k]}{\sqrt{r_{xx}^{m} [k] r_{yy}^{m}}} = \frac{Σ_{n = 0}^{Wov - 1} x [mSa + k + n] y [mSs + n]}{\sqrt{Σ_{n = 0}^{Wov - 1} x^{2} [mSa + k + n] Σ_{n = 0}^{Wov - 1} y^{2} [mSs + n]}}

对于km的求取是降低时间复杂度的重要一步。实际上，不需要每轮处理数据时都去计算一遍km，计算一遍km会花去不少时间。假定在任何一点，最多有两个窗口会在这点上重叠。现在考虑第m个窗口，从输出端的最后Wov个点可以看出，它其实就是输入序列中的某些点：

y[mSs+n]＝y[(m-1)Ss+(Ss+n)]＝x[(m-1)Sa+k_m-1+(Ss+n)]＝x[mSa+t_m+n]

其中：t_m＝k_m-1+(Ss-Sa)

从上面几个等式可以看出：如果0≤tm≤Kmax。那么，不需要计算km的值，只需要将km的值直接取为tm就可以了，而如果tm的值超出了上面的这个范围，就必须按照前面的计算方法进行计算。对于采用互相关法求km，作如下改动：因式中只是比较关系，只需要比较(r_xy ^m[k])²就可以了，这样就避免了开方这一复杂的运算。同时，由于对所有的k值，r_yy ^m[k]都是一样的，所以比较时不需要去考虑r_yy ^m[k]，因此对于每一个k值，只要最后比较(r_xy ^m[k])²/r_xx ^m[k]即可。

视频实施方案：

本发明的视频实施方案主要基于MPEG2。在标准MPEG2中，系统、视频和音频都有一个时间模式，它的端到端延迟——从信号进入解码器到信号从解码器输出——是一个常数，它包括下面一些延时：解码缓冲，解码和显示。作为此时间模式的一部分，所有视频图像和音频采样仅被显示一次，除非有意被编成反码。系统流编码包含的时间信息可以保证实现具有恒定端到端延迟常数的系统。

所有的时序被定义为共同的系统时钟，被作为系统时序时钟。在程序流中这个时钟与视频或音频采样时钟之间有一个严格的特定比率，或者稍有区别但仍足以提供精确的端到端时序和时钟恢复。程序流与系统时序时钟的同步是通过显示时间标签(PTS)来完成的。

MPEG-2的编码图像被分为三类，分别称为I帧，P帧和B帧。

I帧图像采用帧内编码方式，即只利用了单帧图像内的空间相关性，而没有利用时间相关性。P帧和B帧图像采用帧间编码方式，即同时利用了空间和时间上的相关性。P帧图像只采用前向时间预测，可以提高压缩效率和图像质量。P帧图像中可以包含帧内编码的部分，即P帧中的每一个宏块可以是前向预测，也可以是帧内编码。B帧图像采用双向时间预测，可以大大提高压缩倍数。

在本发明中，由于播放速度可能不是整数倍，因此常规的快速解码手段并不合适。考虑到在图像组(GOP)结构中除了I帧和P帧以外，还可能出现B帧，因此，单纯的平均抽帧方法也不合适，因为B帧的解码需要靠P帧的参考。图6描述了本发明具体实施方式的具体视频实施流程：

在标准解码和显示模块之间加入帧缓冲和帧选择器；MPEG2视频流在快速解码模块里被解成标准视频帧序列，送入帧缓冲。帧选择器根据音频段与视频帧之间的对应关系，找出与压缩后的音频信号标志位序列对应的视频帧序列输出显示。

音视频同步与播放速度控制方案：

在快进快退排序模块中，由于已经对音频段进行了排序编号，通过音频段的长度，以及采样速率，可以得到每段音频在总体时间中所在的时刻；因此可以得到与每个音频段对应的视频段位置信息；在音频快进压缩的过程中，可以保留每段音频的编号。

具体方法是：由于每段音频长度为W，叠加长度为Wov，并且规定了Wov小于W，则每段音频中，总有一部分未被处理；一般情况下，Wov长度的选择总是小于W/2，因此不妨把每段音频W/2的那个点作为标志位，来确定该段的序号；音频压缩完成后，由于编号没有改变，可以找到与之对应的视频帧；通过跳帧解码的方式，解压出该帧；最后播放时，同步模块通过比较音频和视频帧的序号，就可以同步播放音频与视频信息。

以上所述仅为本发明的示意具体实施方式，应当知道这可以有许多变型，这种变型不被认为是脱离本发明的示意具体实施方式的精神和范围，并且所有这样的本领域普通技术人员显而易见的变型被包含在所附权利要求的范围之内。

Claims

1.一种快速播放多媒体信息的方法，包括以下步骤：

a、对音频进行快速解码；

b、对所述音频分段；

c、对所述音频进行互相关判断和耦合删除处理。

2.如权利要求1所述的方法，其特征在于，还包括以下步骤：

d、对所述音频排序；

f、将音频、视频同步并控制播放速度。

3.如权利要求1所述的方法，其特征在于，在所述步骤a之前，对所述音频、视频进行分离。

4.如权利要求2所述的方法，其特征在于，所述步骤d中，对所述音频排序包括快进排序、快退排序，其中所述快退排序是将前后所述音频序号颠倒。

5.如权利要求4所述的方法，其特征在于，所述步骤d中，包括以下步骤：

d1、选择所述音频的叠加点；

d2、叠加所述音频。

6.如权利要求5所述的方法，其特征在于，所述步骤d1中，采用互相关计算所述音频叠加点，以互相关最大的点为起点。

7.如权利要求5所述的方法，其特征在于，所述步骤d2中，叠加所述音频时采用加权函数实现所述音频过渡段的平滑连接，该加权函数是斜坡函数。

8.如权利要求2所述的方法，其特征在于，所述步骤e中，所述音频序号标志位是所述音频的中点。

9.如权利要求2所述的方法，其特征在于，所述步骤f中，通过比较所述音频和所述视频帧的序号，将所述音频与所述视频信息同步播放。

10.一种快速播放多媒体信息的系统，其特征在于，包括：

快速音频解码模块，用于对音频信号快速解码；

11.如权利要求10所述的系统，其特征在于，还包括：

跳帧视频解码模块，用于对视频跳帧解码；

音频播放模块，用于播放处理后的音频数据；

视频播放模块，用于播放跳帧视频。

12.如权利要求11所述的系统，其特征在于，所述音视频同步与播放速度控制模块中包括：