CN101136234B

CN101136234B - 用以估计音频文件的音频长度的方法及装置

Info

Publication number: CN101136234B
Application number: CN200610125699XA
Authority: CN
Inventors: 洪宪忠; 蔡宪明
Original assignee: Quanta Computer Inc
Current assignee: Quanta Computer Inc
Priority date: 2006-08-31
Filing date: 2006-08-31
Publication date: 2010-06-23
Anticipated expiration: 2026-08-31
Also published as: CN101136234A

Abstract

本发明提供一种音频播放器中估计音频长度的方法。本发明首先根据该音频文件中数个音频帧的平均位率，产生一预测音频长度，并以此预测音频长度初始化一可调音频长度。在该音频文件的每个音频帧被播放过程中，本发明持续根据该音频文件已被播放的部份计算一新的参考音频长度。若最新音频帧的参考音频长度与前一个音频帧的参考音频长度的差异小于一阈值，则本发明根据最新参考音频长度校正可调音频长度。然后，依该音频文件已被播放的部分相对于整个音频文件的数据量的比例，在可调音频长度和参考音频长度间取比重得到估计音频长度。

Description

用以估计音频文件的音频长度的方法及装置

技术领域

本发明涉及一种应用在音频播放器中的方法及装置。并且特别地，本发明涉及一种用以估计音频文件的音频长度的方法及装置。

背景技术

一般的音频播放器(Audio player)都设有搜寻(Seek)的功能。一般而言，音频播放器的搜寻功能显示一搜寻条(Seek Bar)表示此音频文件的音频长度，并且在其上加以注记目前已播放时间；使用者可点选此搜寻条的任意点以指定播放的时间点；在使用者点选搜寻条之后，音频播放器将会计算该点选位置与整个搜寻条的比例，并且乘上目前音频文件的音频长度，计算出使用者欲播放的时间点，进而找出使用者欲播放的音频帧位置。因此，音频播放器搜寻前必须取得音频文件的估计音频长度，且该估计音频长度误差不可过大。若该估计音频长度误差过大，则可能会造成搜寻到的音频帧不符合使用者预期的时间点，甚至无法搜寻到对应的音频帧。

目前音频文件的压缩格式主要可分为两种：固定位率(Cons tant bit rate)和可变位率(Variable bit rate)。以固定位率压缩的音频文件采用固定的数据量来储存固定时间的音频数据，因此，采用固定位率的音频文件的音频长度很容易估计。以可变位率压缩的音频文件，为了维持音频的品质，会根据音频数据本身的特性来调整储存时的位率，因此，每一笔固定时间的音频数据的数据量可能都不相同。因此采用可变位率的音频文件的音频长度较不容易估计。

为解决音频长度难以估计的问题，某些采用可变位率压缩的音频文件会利用一些卷标(例如，ID3与VBRI/Xing Header)预先将音频长度相关信息储存在音频文件中。然而，并非所有的音频文件都有提供相关的信息。在播放不包含音频长度相关信息的音频文件时，一音频播放器必须自行计算该音频文件的音频长度。最准确的计算音频长度的方法是读取整个音频文件并且分析计算所有音频帧的个数，进而取得音频长度。由于读取并分析整个音频文件需要大量的时间和系统资源，该方法运用于资源限制的嵌入式系统并不实际。

目前主要的音频长度估计法也可分为两类：预先估计(Predictiveestimation)和实时估计(Real-time estimation)。预先估计法是在开始播放一音频文件前，由该音频文件中选取几个音频帧，并且以该等被挑选的音频帧的平均位率来估计即将被播放的音频文件的音频长度；在该音频文件开始被播放后，音频播放器即固定显示一开始估算出的音频长度，不再计算或调整。预先估计法的好处是容易实作，缺点则是估计结果不准确。由于被挑选出的音频帧的平均位率与整个音频文件的平均位率不尽相同，用预先估计法算出的音频长度可能和该音频文件的实际音频长度差异很大。

实时估计法是在一音频文件被播放的过程中持续统计已播放过的部份的平均位率，并根据此平均位率不断更新显示出的音频长度。实时估计法的好处是随着播放的音频帧增加，估计的音频长度会趋近正确的音频长度，缺点则是刚开始播放时估计出的音频长度可能和正确的音频长度差异很大。比方说，若某一音频文件的前几个音频帧的平均位率较低，则实时估计法一开始估计出的音频长度就会远大于正确音频长度；该估计音频长度后来才会慢慢收敛至该音频文件的正确音频长度。

由上述说明可知，现行的预先估计法与实时估计法都有各自的缺点，皆非理想的音频长度估计方式。

发明内容

本发明的主要目的是提供一个方法让音频播放器能够在搜寻前可估计一个较精准的音频长度。本方法结合上述预先估计法与实时估计法，在一音频文件刚开始被播放时，提供预先估计法所估计的音频长度，之后随拨放过程调整至实时估计法所估计的音频长度。

由文件系统可得知该音频文件总数据量为S_total字节(不包含额外的标签)。首先，本发明使用预先估计法事先算出一预测估计长度L₀。然后，当本发明的音频播放器已播放至第i个音频帧(假设N为该音频文件的所有音频帧个数，i为范围在1到N之间的整数指针)，已播放的数据量可累计为S_played(i)，已播放的音频长度时间累计为T_played(i)。本发明的主要目的即根据上述数据计算在第i个音频帧时的估计音频长度L_E(i)(Estimated Audio Length)。

根据本发明的一较佳具体实施例的估计方法，在该音频文件播放前，使用预先估计法计算得出一预测音频长度L₀，并令初始可调音频长度L_A(0)等于L₀。然后，在第i个音频帧被播放完毕后，执行一程序。首先，该程序使用实时估计法，根据S_total、S_played(i)与T_played(i)计算一第i个音频帧的参考音频长度L_R(i)。接着根据L_R(i)和L_R(i-1)计算第i个音频帧的变化比例R(i)，确认R(i)是否小于一预设的阈值(threshold)判断L_R(i)是否稳定。若稳定，则参考L_R(i)及L_A(i-1)计算第i个音频帧的可调音频长度L_A(i)；若否，则维持L_A(i)＝L_A(i-1)。最后，根据L_A(i)与L_R(i)，以音频文件的已播放部份相对整个音频文件的比例S_played(i)/S_total为比重，产生一第i个音频帧的估计音频长度L_E(i)，以供查询时回传与输出。

根据本发明的另一较佳具体实施例的估计装置，包含一处理器与一内存。内存用以储存软件程序代码，音频文件，以及暂存音频长度数据。处理器执行存放在内存的软件程序代码，该软件程序代码执行步骤，包含使用预先估计法计算一预测音频长度L₀，再使用如前所述的实时估计法在每个音频帧产生一估计音频长度L_E，最后将估计音频长度存回内存，以供搜寻查询时回传与输出。

关于本发明的优点与精神可以藉由以下的发明详述及附图得到进一步的了解。

附图说明

图1示出了根据本发明在文件播放前应用预先估计法计算预测音频长度的方法流程图。

图2示出了根据本发明在第i个音频帧播放时计算估计音频长度的方法流程图。

图3A示出了一可变位率音频文件随所播放的音频帧增加，比较预先估计法、实时估计法、与本发明的计算音频长度结果的一具体实施例。

图3B表示本发明的方法在图3A实施例中个别音频帧的变化比例值。

图4示出了根据本发明在文件播放前根据文件头信息直接取得预测音频长度的方法流程图。

图5示出了根据本发明在文件播放前根据音频文件大小直接计算预测音频长度的流程图方法。

图6示出了根据本发明的估计装置的方块图。

附图符号说明

100-110：流程步骤 200-230：流程步骤

400-410：流程步骤 500-510：流程步骤

60：估计装置 62：处理器

63：内存

具体实施方式

图1示出了根据本发明在文件播放前应用预先估计法计算预测音频长度L₀的方法流程图。步骤100使用先前技术中的预先估计法计算一预测音频长度L₀。在实际应用中，首先，步骤101由该N个音频帧中选择至少一个音频帧做为一取样音频帧；然后，步骤102计算所有取样音频帧的平均位率；步骤103将该音频文件的总数据量S_total除以步骤102得出的平均位率，得到预测音频长度L₀。最后，步骤110设定一可调音频长度L_A(0)等于L₀。

图2示出了根据本发明在第i个音频帧播放时计算估计音频长度L_E(i)的方法流程图。该估计方法在该音频文件的第i个音频帧被播放时执行一程序。在步骤200，该估计方法使用实时估计法计算第i个音频帧的参考音频长度L_R(i)。在实际应用中，根据本发明的方法及装置是由第一方程式计算L_R(i)，该第一方程式可表示如下：

L_R(i)＝[S_total/S_played(i)]*T_played(i)，.........(式一)

其中，S_total为该音频文件的总数据量、S_played(i)表示该音频文件的第一个音频帧至第i个音频帧的数据量总和，T_played(i)表示该音频文件开始被播放的时间与该第i个音频帧被播放完毕的时间之间的时间间隔。

步骤210根据第二方程式计算第i个音频帧的变化比例R(i)，并根据此变化比例是否小于一预设的阈值(threshold)判断L_R(i)是否已稳定。该第二方程式可表示如下：

R(i)＝abs[L_R(i)-L_R(i-1)]/L_R(i)，.........(式二)

其中，L_R(0)被设为零。

该变化比例R(i)用以表示第i个音频帧的参考音频长度L_R(i)相较于第(i-1)个音频帧的参考音频长度L_R(i-1)的变化程度。若R(i)太大，即表示该音频文件的平均位率尚未稳定，或者是该第i个音频帧的位率相较于之前其它的音频帧的位率有大幅变化。阈值可根据实验结果决定。

若步骤210的判断结果为是，则表示该音频文件的平均位率已趋于稳定。步骤211是根据一第三方程式计算该第i个音频帧的可调音频长度L_A(i)，该第三方程式可表示如下：

L_A(i)＝L_A(i-1)*(1-P)+L_R(i)*P，.........(式三)

其中，P为一预设的常数，0＜P＜1，此常数可根据实验结果决定。

如式三所示，当该音频文件的平均位率已趋于稳定时，本发明的估计方法以固定比例的L_A(i-1)和该最新的参考音频长度L_R(i)组合出第i个音频帧的可调音频长度L_A(i)，将使L_A(i)逐步趋近稳定后的参考音频长度。

若步骤210的判断结果为否，则步骤212根据一第四方程式计算该第i个音频帧的可调音频长度L_A(i)，该第四方程式可表示如下：

L_A(i)＝L_A(i-1)。.........(式四)

如式四所示，因该音频文件的平均位率尚未稳定，根据本发明的估计方法并不立即根据最新的参考音频长度L_R(i)调整L_A(i)，而是保持L_A(i)与前一个可调音频长度L_A(i-1)相等。藉此，可避免该等可调音频长度随着瞬时的位率产生大幅变化。

在实际情况中，某些音频文件的最后几个音频帧是不包含任何音频数据的空白音频帧。这些空白音频帧的位率远小于平均的位率，导致平均位率瞬间下降，因此造成参考音频长度L_R(i)瞬间上升，然而可调音频长度L_A(i)并不会立刻跟着参考音频长度L_R(i)上升。此现象导致拨放到最后一个音频帧时，可调音频长度L_A(i)和正确音频长度不相等。根据本发明的估计方法是以步骤220解决上述问题。

步骤220根据一第五方程式计算最后将被音频播放器显示第i个音频帧的估计音频长度(L_E(i)，该第五方程式可表示如下：

L_E(i)＝L_A(i)*(1-W)+L_R(i)*W，.........(式五)

其中，W＝[S_played(i)/S_total]，亦即已被播放的部份相对于整个音频文件的数据量的比例。

经式五计算出的第N估计音频长度L_E(N)必定会等同于L_R(N)，也就是确保第N估计音频长度收敛在该音频文件的正确音频长度。

最后，步骤230储存步骤220中计算得出的第i估计音频长度(L_E(i))，以供搜寻功能查询时回传与输出。

图3A示出了一可变位率音频文件随所播放的音频帧增加，比较预先估计法(L₀)、实时估计法(L_R)、与本发明(L_E)的计算音频长度结果的一范例。在图3A中，预先估计法所计算的结果L₀，与正确音频长度有误差；而实时估计法计算出来的结果L_R，在刚开始播放时误差极大。因此，本发明的方法可以估计一较稳定且越来越准确的音频长度。图3B表示本发明的方法在图3A实施例中第i音频帧的变化比例R(i)值。在图3B中，若R(i)值大于阈值(如：0.00003)，表示该音频帧的平均位率尚未稳定。

图4示出了根据本发明在文件播放前根据文件头信息(File HeaderInformation)直接取得预测音频长度L₀的方法流程图。相较于图1的方法，本发明的方法在开始执行所有程序前增加下列步骤。首先，在步骤400判断该音频文件的文件头信息是否有具备该音频文件音频长度的相关信息(例如，ID3或VBRI/Xing Header信息)。若是，则执行步骤401，直接取得预测音频长度L₀；若否，则执行步骤100，使用图1的预先估计法取得音频长度L₀。

图5示出了根据本发明在文件播放前根据音频文件大小直接计算预测音频长度L₀的流程图方法。相较于图1的方法，本发明的方法也是在开始执行所有程序前增加下列步骤。首先，步骤500判断该音频文件的总数据量S_total是否小于一总量阈值。若是，则执行步骤401，直接读取并分析计算该音频文件中的所有音频帧总数，计算取得音频长度信息L₀；若否，则执行步骤100，使用图1的预先估计法。由于本实施例已直接取得准确音频长度，本发明不须在每个音频帧使用实时估计法计算估计音频长度。

图6示出了根据本发明的估计装置的方块图。估计装置60包含一处理器62与一内存63。内存63用以储存软件程序代码，音频文件，以及暂存音频长度数据。处理器62执行存放在内存63的软件程序代码，该软件程序代码包含下列步骤：

(1)在播放音频文件前，计算预测音频长度L₀，并设定初始可调音频长度L_A(0)等于预测音频长度L₀；

(2)在播放该音频文件第i个音频帧时，执行下列子步骤：

(2a)计算该音频帧的参考音频长度L_R(i)；

(2b)根据L_R(i)和L_R(i-1)计算该音频帧的变化比例R(i)，并确认R(i)小于一阈值；若是，则执行子步骤(2c)；若否，则执行子步骤(2d)；

(2c)根据L_A(i-1)和L_R(i)计算该音频帧的可调音频长度L_A(i)，并执行子步骤(2e)；

(2d)设定该音频帧的可调音频长度L_A(i)等于L_A(i-1)，并执行子步骤(2e)；

(2e)根据L_A(i)L_R(i)已播放的累计数据量S_played(i)以及该音频文件总数据量S_total，计算该音频帧的估计音频长度L_E(i)；

(2f)储存该音频帧的估计音频长度L_E(i)在内存63，待搜寻功能查询时回传与输出。

值得注意的是，处理器62所执行的软件程序代码的步骤(1)可使用预先估计法计算预测音频长度L₀，预先估计法包含下列子步骤：

(1a)在该音频文件中选取多个音频帧；

(1b)计算所选取多个音频帧的平均位率；

(1c)将该音频文件的总数据量S_total除平均位率，可得到预测音频长度L₀。

在实际应用中，处理器62所执行的软件程序代码的步骤(1)可再根据文件头信息直接取得预测音频长度L₀，本方法包含下列子步骤：

(3a)确认音频文件文件头信息包含音频长度相关信息；若是，则执行子步骤(3b)；若否，则执行预先估计法的子步骤(1a)、(1b)、与(1c)；

(3b)直接取得预测音频长度L₀。

在实际应用中，处理器62所执行的软件程序代码的步骤(1)可再根据音频文件大小直接计算预测音频长度L₀，本方法包含下列子步骤：

(4a)确认该音频文件的总数据量S_total小于一总量阈值；若是，则执行子步骤(4b)；若否，则执行预先估计法的子步骤(1a)、(1b)、与(1c)；

(4b)直接读取并分析计算该音频文件中的所有音频帧总数，以取得音频长度信息L₀。

根据本发明的方法及装置可适用于各种利用音频帧方式编码的音频文件，并可在一音频文件播放的过程中提供稳定且愈来愈准确的估计音频长度，减少音频播放器搜寻到非使用者指定的时间点所对应的音频帧或搜寻不到使用者指定的时间点所对应的音频帧的机率。

藉由以上较佳具体实施例的详述，是希望能更加清楚描述本发明的特征与精神，而并非以上述所揭露的较佳具体实施例来对本发明的范畴加以限制。相反地，其目的是希望能涵盖各种改变及具相等性的安排在本发明所欲申请的专利范围的范畴内。

Claims

1.一种用以估计一音频文件的一音频长度的方法，该音频文件包含N个音频帧，N为一自然数，i为一范围在1到N之间的整数索引，该方法包含下列步骤：

(1)在该音频文件被播放前，计算一预测音频长度L₀，并设定一初始可调音频长度L_A(0)等于该预测音频长度L₀；以及

(2)在该音频文件中的第i个音频帧被播放时，执行下列子步骤：

(2a)计算该第i个音频帧的一参考音频长度L_R(i)；

(2b)根据L_R(i)和L_R(i-1)计算该第i个音频帧的一变化比例R(i)，并确认R(i)是否小于一阈值；若是，则执行子步骤(2c)；若否，则执行子步骤(2d)；

(2c)根据该音频文件中的第(i-1)个音频帧的一第(i-1)可调音频长度L_A(i-1)与L_R(i)，计算该第i个音频帧的一第i可调音频长度L_A(i)，并执行子步骤(2e)；

(2d)设定该第i个音频帧的一可调音频长度L_A(i)等于该音频文件中的第(i-1)个音频帧的一第(i-1)可调音频长度L_A(i-1)，并执行子步骤(2e)；

(2e)根据L_A(i)、L_R(i)、一已播放的累计数据量S_played(i)以及该音频文件的一总数据量S_total，计算该第i个音频帧的估计音频长度L_E(i)；以及

(2f)储存该第i个音频帧的估计音频长度L_E(i)。

2.如权利要求1所述的方法，其中，步骤(1)使用一预先估计法计算该预测音频长度L₀，该预先估计法包含下列子步骤：

(1a)在该音频文件中选取多个音频帧；

(1b)计算该多个被选取的音频帧的一平均位率；以及

(1c)将该音频文件的该总数据量S_total除该平均位率，以得到该预测音频长度L₀。

3.如权利要求2所述的方法，其中，步骤(1)进一步包含下列子步骤：

(3a)确认该音频文件的一文件头信息中是否包含一音频长度相关信息；若是，则执行子步骤(3b)；若否，则执行该预先估计法的子步骤(1a)、(1b)、与(1c)；以及

(3b)由该音频长度相关信息取得该预测音频长度L₀。

4.如权利要求2所述的方法，其中，步骤(1)进一步包含下列子步骤：

(4a)确认该音频文件的该总数据量S_total是否小于一总量阈值；若是，则执行子步骤(4b)；若否，则执行该预先估计法的子步骤(1a)、(1b)、与(1c)；以及

(4b)读取并分析该音频文件中的所有音频帧，以取得该音频长度信息L₀。

5.如权利要求1所述的方法，其中，子步骤(2a)根据一第一方程式计算该第i个音频帧的该参考音频长度L_R(i)，该第一方程式表示如下：

L_R(i)＝[S_total/S_played(i)]*T_played(i)，

其中，T_played(i)表示音频文件开始被播放的时间与该第i个音频帧被播放完毕的时间之间的时间间隔。

6.如权利要求1所述的方法，其中，子步骤(2b)根据一第二方程式计算该第i个音频帧的该变化比例R(i)，该第二方程式表示如下：

R(i)＝abs[L_R(i)-L_R(i-1)]/L_R(i)。

7.如权利要求1所述的方法，其中，子步骤(2c)根据一第三方程式计算该第i个音频帧的该可调音频长度L_A(i)，该第三方程式表示如下：

L_A(i)＝L_A(i-1)*(1-P)+L_R(i)*P，

其中，P为一预设的常数。

8.如权利要求1所述的方法，其中，子步骤(2e)根据一第五方程式计算该第i个音频帧的该估计音频长度L_E(i)，该第五方程式表示如下：

L_E(i)＝L_A(i)*(1-W)+L_R(i)*W，其中W＝[S_played(i)/S_total]。