CN101256775B

CN101256775B - 一种mp3位串排列方法与装置

Info

Publication number: CN101256775B
Application number: CN2008100179158A
Authority: CN
Inventors: 廖崇伯; 陈淮琰
Original assignee: Inventec Besta Xian Co Ltd
Current assignee: Inventec Besta Xian Co Ltd
Priority date: 2008-04-09
Filing date: 2008-04-09
Publication date: 2011-04-20
Anticipated expiration: 2028-04-09
Also published as: CN101256775A

Abstract

本发明涉及一种MP3位串的排列方法与装置，该方法包括以下步骤：1)接收包含复数个编码音框的MP3音讯文件；2)获取步骤1)所接收的MP3音讯文件中的每一个编码音框所对应的主数据起始参数；3)删除步骤2)最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框；4)重新编排步骤3)最终获得的MP3音讯文件的编码音框，并依序更新每一个编码音框所对应的主数据起始参数。本发明所提供的MP3位串排列方法与装置，能有效解决原始语音文件转换为MP3语音文件时，前后两部分所产生的一小段多余的静音的问题；且能够将文件转换后的MP3语音文件的文件大大缩小，节省了储存MP3语音文件所需的内存空间。

Description

一种MP3位串排列方法与装置

技术领域

本发明涉及一种语音文件编码的排列方法与装置，特别是一种MP3位串的排列方法与装置。

背景技术

MPEG-1 Audio Layer 3简称为MP3，是目前市面上所流行的一种数字音频编码与压缩格式。MP3的文件格式大幅度地降低了音频数据的数据量，而对于大多数用户的听觉感受来说，播放的音质与最初不经压缩的音频相比，并没有明显的下降。因此，市场上许多音乐、语音文件皆采用MP3的编码与压缩格式。

市面上大多数的电子辞典，皆具备发音的功能。一般电子辞典也会将语音文件储存为MP3格式，不仅符合市场趋势，也节省储存语音文件所需的记忆空间。举例说明，将中文语音音素(2220个文件)储存为MP3格式的文件(位率：24K，取样频率：22050Hz)，约需花费3.58MB(3,756,523字节)的记忆空间。

然而，将发音的原始语音波形编码为MP3格式后，转换后的MP3语音文件会产生些许问题。参见图1、2，由图中可发现，原始的语音文件(wave格式文件，取样频率：44100HZ)，转换为MP3编码格式的文件后，在语音波形前后两个部分(图2中划圈处)分别产生了一小段的静音。如此，将使得文字转语音播放时，MP3语音文件所多出的静音部分将造成听觉上的不流畅，会给将来语音文件的后处理工作带来困难。

发明内容

为了解决背景技术中存在的上述技术问题，本发明提供了一种MP3位串排列方法与装置，能有效解决原始语音文件转换为MP3语音文件时，前后两部分所产生的一小段多余的静音的问题；且能够将文件转换后的MP3语音文件的文件大大缩小，从而节省了储存MP3语音文件所需的内存空间。

本发明的技术解决方案是：本发明是一种MP3位串排列方法，其特殊之处在于，该方法包括以下步骤：

1)、接收包含复数个编码音框的MP3音讯数据；

2)、获取出步骤1)所接收的MP3音讯数据中的每一个编码音框所对应的主数据起始参数。

3)、删除步骤2)最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框。

4)、重新编排步骤3)最终获得的MP3音讯文件的编码音框，并依序更新每一个编码音框所对应的主数据起始参数。

上述编码音框包括文件头、附属信息及主要信息。

上述编码音框还包括有错误侦测码或剩余位空间。

上述步骤3)中删除最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框，是删除第一个编码音框与最后一个编码音框的文件头、附属信息及主要信息。

一种MP3位串排列装置，其特殊之处在于：该装置包括：接收包含复数个编码音框的MP3音讯文件的接收模块，获取出每一个编码音框所对应的主数据起始参数(main_databegin)的获取模块，删除MP3音讯文件的第一个编码音框与最后一个编码音框的删除模块，重新编排编码音框、并依序更新每一个编码音框所对应的主数据起始参数的编排模块，获取模块一端与接收模块相接，另一端通过删除模块与编排模块相接。

由于本发明所提供的MP3位串排列方法与装置，有效解决了原始语音文件转换为MP3文件时，前后两部分所产生的一小段多余静音的问题，降低了MP3文件储存的内存空间，而位率与取样频率依旧不变，能保持语音质量，也利于未来要加上的后处理如平滑处理、韵律调整等。

附图说明

图1是发音语音文件的原始波形图；

图2是原始语音文件编码为MP3格式的波形图；

图3是本发明MP3位串示意图；

图4是本发明MP3位串排列方法流程图；

图5是使用本发明的MP3位串排列方法处理后的MP3位串示意图；

图6是使用本发明的MP3位串排列方法处理后的MP3格式波形图；

图7是「无敌科技」四个字编码成MP3格式的波形图；

图8是使用本发明的MP3位串排列方法处理图7后的波形图；

图9是本发明的MP3位串排列装置结构示意图框图。

具体实施方式

参见图3，MP3位串示意图：每一个MP3格式的编码音框，也可称为MP3位串格式，共可分为三个部分，分别为文件头(header)10、附属信息(side information)20以及主要信息(main data)30。文件头10共有32位，在第16个位会记录是否有使用错误侦测码(CRC)，如果第16个位记录为0代表没有使用错误侦测码(without error protection)；第16个位记录为1代表有使用错误侦测码(with error protection)。因此，每一个编码音框还包含一错误侦测码(图中未示)。若有使用错误侦测码，将可避免因为文件头10出现错误而无法正确译码的问题产生，而其中错误侦测码为16位。

附属信息20在单声道时为136位，为双声道时则为256位。主要信息30存放着比例因子(scale factor)和经过量化、位分配，以及无失真的霍夫曼编码(Huffman Encoding)之后的声音讯号，也就是说，经过MP3格式编码过后的声音讯号储存于主要信息30中。

每一个编码音框具有相应的主数据起始参数22。由于每个编码音框所包含的声音特性不一定相同，为了维持一定的声音质量，每个编码框所利用的编码位数也不尽相同。于是MP3编码格式使用了一种位储藏处(bit reservoir)机制来作调整。利用位储藏处机制，当某个音框的实际编码位少于位预算，编码器可将多出来的位预算储存到位储藏处。反之，当某个音框编码后所需位超出允许位数，则可利用位储藏处对先前的编码音框借位来储存。因此，每一个编码音框还可包含剩余位空间40，可用来储存其它编码音框的主要信息30。

而每一个编码框都有一个9位的主数据起始参数(main_data-begin)22，存放在每个编码音框的附属信息20的前9个位，用来记录每个编码音框的主要信息30的开始位置。这样，即可动态的决定每个编码音框的主要信息30的起始位置。

每个编码音框的文件头10之间的距离相同，这表示文件头10是在位串流上的固定位置。但是，每个编码音框的主要信息30部分却不一定在固定的位置上。例如，针对第2编码音框的主要信息30部分，由于第1编码音框有未用完的位空间，即所谓的剩余位空间40，利用上述的位储藏机制，将第2编码音框的主数据起始参数22指向第1编码音框的剩余位空间40继续使用，也就是将第1编码音框的剩余位空间40，用来储存第2编码音框的主要信息30的一部分。同时，第2编码音框的主数据起始参数22也纪录了第2编码音框的主要信息30的起始位置，而尚未储存的第2编码音框的主要信息30，继续存放于第2编码音框本身具有的主要信息30区，直到第2编码音框编码完后，再将其未用完的剩余位空间40留给下一个编码音框使用，依此类推。

参见图4，本发明的MP3位串排列方法包括以下步骤：

步骤S10：接收包含复数个编码音框的MP3音讯文件；如同其它格式的音讯文件，MP3格式的音讯文件同样由复数个音框所组成。

每一个MP3格式的编码音框，也可称为MP3位串格式，共可分为三个部分，分别为文件头(header)10、附属信息(side information)20以及主要信息(main data)30。文件头10共有32位，在第16个位会记录是否有使用错误侦测码(CRC)，如果第16个位记录为0代表没有使用错误侦测码(without error protection)；第16个位记录为1代表有使用错误侦测码(witherror protection)。因此，每一个编码音框还包含一错误侦测码(图中未示)。若有使用错误侦测码，将可避免因为文件头10出现错误而无法正确译码的问题产生，而其中错误侦测码为16位。

步骤S20：获取出步骤S10所接收的MP3音讯文件中的每一个编码音框所对应的主数据起始参数(main_data_begin)。

而每一个编码框都有一个9位的主数据起始参数(main_data_begin)22，存放在每个编码音框的附属信息20的前9个位，用来记录每个编码音框的主要信息30的开始位置。这样，即可动态的决定每个编码音框的主要信息30的起始位置。

每个编码音框的文件头10之间的距离相同，这表示文件头10是在位串流上的固定位置。但是，每个编码音框的主要信息30部分却不一定在固定的位置上。例如，针对第2编码音框的主要信息30部分，由于第1编码音框有未用完的位空间，即所谓的剩余位空间40，利用上述的位储藏处机制，将第2编码音框的主数据起始参数22指向第1编码音框的剩余位空间40继续使用，也就是将第1编码音框的剩余位空间40，用来储存第2编码音框的主要信息30的一部分。同时，第2编码音框的主数据起始参数22也纪录了第2编码音框的主要信息30的起始位置，而尚未储存的第2编码音框的主要信息30，继续存放于第2编码音框本身具有的主要信息30区，直到第2编码音框编码完后，再将其未用完的剩余位空间40留给下一个编码音框使用，依此类推。

步骤S30：删除步骤S20最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框。

由于，发现将原始的语音文件转换为MP3编码格式的文件后，转换后的MP3音讯文件的前后两部分各会出现一小段静音。为了解决静音所产生的问题，将步骤S10所接收的MP3音讯文件的复数个编码音框中，删除掉第一个编码音框与最后一个编码音框。因为，第一个编码音框与最后一个编码音框的主要信息30内容产生前后多余静音部份，所以删除掉第一个编码音框与最后一个编码音框，并不会对原本语音文件的活动语音(active voice)部份产生太大的影响。

删除第一个编码音框与最后一个编码音框，是删除第一个编码音框与最后一个编码音框的文件头10、附属信息20及主要信息30，并不会删除剩余位空间40。加上于MP3编码中，第1编码音框的主要信息30可以在其档头10之前(第1编码音框之main_data_begin＞0)。因此，本发明利用此特性，将第1编码音框删除后，并不会少了第1编码框的余位空间40，而造成储存位数目不够的问题，同时也能通过第1编码音框的主数据起始参数22，而找到第1编码音框的主要信息30的起始位置。

步骤S40：重新编排步骤S30最终获得的MP3音讯文件的编码音框，并依序更新每一个编码音框所对应的主数据起始参数。

参见图5，图5中将图3中的第1编码音框与第5编码音框删除。在删除第一个编码音框与最后一个编码音框之后，重新编排图2中的编码音框，原本第2编码音框重新编排成为第1编码音框；原本第3编码音框重新编排成为第2编码音框，以此类推。而且，所有的主数据起始参数22也依序更新。

经过上述步骤，即通过发明的MP3位串排列方法，不仅可解决传统技术所产的静音问题，也由于删除第一个编码音框与最后一个编码音框，而降低了MP3文件储存的内存空间，而位率与取样频率依旧不变，能保持语音质量。

如前所述，中文语音音素(2220个文件)储存为MP3格式的文件，约需花费3.58MB(3,756,523字节)的记忆空间，但通过本发明的MP3位串排列方法转换后，内存储存空间降为2.87MB(3,017,613字节)，只花费原来的80.79％，将可节省19.21％的内存储存空间，可有效降低内存成本。且删除前后所产生的静音，会与原始语音文件较为接近，如此在文字转语音时，整体听觉上不会因为多余的静音而觉得不流畅，也利于未来要加上的后处理如平滑处理、韵律调整等。

参见图6：为使用本发明的MP3位串排列方法处理后的MP3格式的波形图。将图5与现有技术的图1及图2作比较，可以清楚发现图5中通过本发明提出的MP3位串排列方法处理后的MP3格式的波形，已删除掉了图2中所存在的静音部份1、2，并且在活动语音部分波形变化不大，且经过本发明的MP3位串排列方法处理后的MP3文件大小由1.37KB(1,411字节)降低为1.17KB(1,199字节)，节省了MP3文件的存储内存空间。

参见图7，由图中可以看出每个字(活动语音波形)的前后，皆多出一小段的静音部份，会造成整段语音的播放像是单字逐一播放，而显得语音播放不流畅。

参见图8，从其中可以看出已删除掉图7中的静音部份3、4、5、6、7，且有声部分波形大致上不变，删除图7中的静音部分3、4、5、6、7后整段语音听起来较为平顺。

此外图7中的MP3文件大小为6.77KB(6,942字节)，而图8中的MP3文件大小为6.34KB(6,502字节)。由此可见，通过本发明提出的MP3位串排列方法处理后的MP3文件，其文件大小也缩小了，降低了所需的内存空间，节省资源成本。

参见图9：本发明的MP3位串排列装置，其包括：接收模块50、获取模块60、删除模块70及编排模块80。

接收模块50接收MP3音讯文件，且MP3音讯文件包含复数个编码音框。所述编码音框包含文件头、附属信息及主要信息；此外，所述编码音框还可以包含错误侦测码或剩余位空间，其中剩余位空间用以储存其它编码音框的主要信息。

获取模块60获取出每一个编码音框所对应的主数据起始参数。其中，主数据起始参数用来记录编码音框的主要信息的起始位置。

删除模块70删除编码音框中的第一个编码音框与最后一个编码音框，且删除模块70是删除第一个编码音框与最后一个编码音框的文件头、附属信息及主要信息，并不会删除剩余位空间。

编排模块80重新编排通过删除模块70所删除后的编码音框，并依序更新每一个编码音框所对应的主数据起始参数。通过编排模块80重新编排后的MP3音讯文件，删除了原MP3音讯文件中的静音部分，且文件大小较原来的MP3音讯文件缩小，达到播放更流畅与节省内存空间的优点。

Claims

1.一种MP3位串排列方法，其特征在于：该方法包括以下步骤：

1)、接收包含复数个编码音框的MP3音讯文件；

2)、获取出步骤1)所接收的MP3音讯文件中的每一个编码音框所对应的主数据起始参数；

3)、删除步骤2)最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框；

4)、依步骤3)最终获得的MP3音讯文件的编码音框顺序对编码音框重新排序，并依序更新每一个编码音框所对应的主数据起始参数。

2.根据权利要求1所述的MP3位串排列方法，其特征在于：所述编码音框包括文件头、附属信息及主要信息。

3.根据权利要求2所述的MP3位串排列方法，其特征在于：所述编码音框还包括有错误侦测码或剩余位空间。

4.根据权利要求3所述的MP3位串排列方法，其特征在于：所述步骤3)中删除最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框，是删除第一个编码音框与最后一个编码音框的文件头、附属信息及主要信息。

5.一种MP3位串排列装置，其特征在于：该装置包括：接收包含复数个编码音框的MP3音讯文件的接收模块，获取出每一个编码音框所对应的主数据起始参数的获取模块，删除MP3音讯文件的第一个编码音框与最后一个编码音框的删除模块，依删除模块获得的MP3音讯文件的编码音框顺序对编码音框重新排序、并依序更新每一个编码音框所对应的主数据起始参数的编排模块，所述获取模块一端与所述接收模块相接，另一端通过所述删除模块与编排模块相接。