CN101256775B - 一种mp3位串排列方法与装置 - Google Patents
一种mp3位串排列方法与装置 Download PDFInfo
- Publication number
- CN101256775B CN101256775B CN2008100179158A CN200810017915A CN101256775B CN 101256775 B CN101256775 B CN 101256775B CN 2008100179158 A CN2008100179158 A CN 2008100179158A CN 200810017915 A CN200810017915 A CN 200810017915A CN 101256775 B CN101256775 B CN 101256775B
- Authority
- CN
- China
- Prior art keywords
- sound frame
- coding sound
- coding
- file
- bit string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Radio Relay Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明涉及一种MP3位串的排列方法与装置,该方法包括以下步骤:1)接收包含复数个编码音框的MP3音讯文件;2)获取步骤1)所接收的MP3音讯文件中的每一个编码音框所对应的主数据起始参数;3)删除步骤2)最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框;4)重新编排步骤3)最终获得的MP3音讯文件的编码音框,并依序更新每一个编码音框所对应的主数据起始参数。本发明所提供的MP3位串排列方法与装置,能有效解决原始语音文件转换为MP3语音文件时,前后两部分所产生的一小段多余的静音的问题;且能够将文件转换后的MP3语音文件的文件大大缩小,节省了储存MP3语音文件所需的内存空间。
Description
技术领域
本发明涉及一种语音文件编码的排列方法与装置,特别是一种MP3位串的排列方法与装置。
背景技术
MPEG-1 Audio Layer 3简称为MP3,是目前市面上所流行的一种数字音频编码与压缩格式。MP3的文件格式大幅度地降低了音频数据的数据量,而对于大多数用户的听觉感受来说,播放的音质与最初不经压缩的音频相比,并没有明显的下降。因此,市场上许多音乐、语音文件皆采用MP3的编码与压缩格式。
市面上大多数的电子辞典,皆具备发音的功能。一般电子辞典也会将语音文件储存为MP3格式,不仅符合市场趋势,也节省储存语音文件所需的记忆空间。举例说明,将中文语音音素(2220个文件)储存为MP3格式的文件(位率:24K,取样频率:22050Hz),约需花费3.58MB(3,756,523字节)的记忆空间。
然而,将发音的原始语音波形编码为MP3格式后,转换后的MP3语音文件会产生些许问题。参见图1、2,由图中可发现,原始的语音文件(wave格式文件,取样频率:44100HZ),转换为MP3编码格式的文件后,在语音波形前后两个部分(图2中划圈处)分别产生了一小段的静音。如此,将使得文字转语音播放时,MP3语音文件所多出的静音部分将造成听觉上的不流畅,会给将来语音文件的后处理工作带来困难。
发明内容
为了解决背景技术中存在的上述技术问题,本发明提供了一种MP3位串排列方法与装置,能有效解决原始语音文件转换为MP3语音文件时,前后两部分所产生的一小段多余的静音的问题;且能够将文件转换后的MP3语音文件的文件大大缩小,从而节省了储存MP3语音文件所需的内存空间。
本发明的技术解决方案是:本发明是一种MP3位串排列方法,其特殊之处在于,该方法包括以下步骤:
1)、接收包含复数个编码音框的MP3音讯数据;
2)、获取出步骤1)所接收的MP3音讯数据中的每一个编码音框所对应的主数据起始参数。
3)、删除步骤2)最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框。
4)、重新编排步骤3)最终获得的MP3音讯文件的编码音框,并依序更新每一个编码音框所对应的主数据起始参数。
上述编码音框包括文件头、附属信息及主要信息。
上述编码音框还包括有错误侦测码或剩余位空间。
上述步骤3)中删除最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框,是删除第一个编码音框与最后一个编码音框的文件头、附属信息及主要信息。
一种MP3位串排列装置,其特殊之处在于:该装置包括:接收包含复数个编码音框的MP3音讯文件的接收模块,获取出每一个编码音框所对应的主数据起始参数(main_databegin)的获取模块,删除MP3音讯文件的第一个编码音框与最后一个编码音框的删除模块,重新编排编码音框、并依序更新每一个编码音框所对应的主数据起始参数的编排模块,获取模块一端与接收模块相接,另一端通过删除模块与编排模块相接。
由于本发明所提供的MP3位串排列方法与装置,有效解决了原始语音文件转换为MP3文件时,前后两部分所产生的一小段多余静音的问题,降低了MP3文件储存的内存空间,而位率与取样频率依旧不变,能保持语音质量,也利于未来要加上的后处理如平滑处理、韵律调整等。
附图说明
图1是发音语音文件的原始波形图;
图2是原始语音文件编码为MP3格式的波形图;
图3是本发明MP3位串示意图;
图4是本发明MP3位串排列方法流程图;
图5是使用本发明的MP3位串排列方法处理后的MP3位串示意图;
图6是使用本发明的MP3位串排列方法处理后的MP3格式波形图;
图7是「无敌科技」四个字编码成MP3格式的波形图;
图8是使用本发明的MP3位串排列方法处理图7后的波形图;
图9是本发明的MP3位串排列装置结构示意图框图。
具体实施方式
参见图3,MP3位串示意图:每一个MP3格式的编码音框,也可称为MP3位串格式,共可分为三个部分,分别为文件头(header)10、附属信息(side information)20以及主要信息(main data)30。文件头10共有32位,在第16个位会记录是否有使用错误侦测码(CRC),如果第16个位记录为0代表没有使用错误侦测码(without error protection);第16个位记录为1代表有使用错误侦测码(with error protection)。因此,每一个编码音框还包含一错误侦测码(图中未示)。若有使用错误侦测码,将可避免因为文件头10出现错误而无法正确译码的问题产生,而其中错误侦测码为16位。
附属信息20在单声道时为136位,为双声道时则为256位。主要信息30存放着比例因子(scale factor)和经过量化、位分配,以及无失真的霍夫曼编码(Huffman Encoding)之后的声音讯号,也就是说,经过MP3格式编码过后的声音讯号储存于主要信息30中。
每一个编码音框具有相应的主数据起始参数22。由于每个编码音框所包含的声音特性不一定相同,为了维持一定的声音质量,每个编码框所利用的编码位数也不尽相同。于是MP3编码格式使用了一种位储藏处(bit reservoir)机制来作调整。利用位储藏处机制,当某个音框的实际编码位少于位预算,编码器可将多出来的位预算储存到位储藏处。反之,当某个音框编码后所需位超出允许位数,则可利用位储藏处对先前的编码音框借位来储存。因此,每一个编码音框还可包含剩余位空间40,可用来储存其它编码音框的主要信息30。
而每一个编码框都有一个9位的主数据起始参数(main_data-begin)22,存放在每个编码音框的附属信息20的前9个位,用来记录每个编码音框的主要信息30的开始位置。这样,即可动态的决定每个编码音框的主要信息30的起始位置。
每个编码音框的文件头10之间的距离相同,这表示文件头10是在位串流上的固定位置。但是,每个编码音框的主要信息30部分却不一定在固定的位置上。例如,针对第2编码音框的主要信息30部分,由于第1编码音框有未用完的位空间,即所谓的剩余位空间40,利用上述的位储藏机制,将第2编码音框的主数据起始参数22指向第1编码音框的剩余位空间40继续使用,也就是将第1编码音框的剩余位空间40,用来储存第2编码音框的主要信息30的一部分。同时,第2编码音框的主数据起始参数22也纪录了第2编码音框的主要信息30的起始位置,而尚未储存的第2编码音框的主要信息30,继续存放于第2编码音框本身具有的主要信息30区,直到第2编码音框编码完后,再将其未用完的剩余位空间40留给下一个编码音框使用,依此类推。
参见图4,本发明的MP3位串排列方法包括以下步骤:
步骤S10:接收包含复数个编码音框的MP3音讯文件;如同其它格式的音讯文件,MP3格式的音讯文件同样由复数个音框所组成。
每一个MP3格式的编码音框,也可称为MP3位串格式,共可分为三个部分,分别为文件头(header)10、附属信息(side information)20以及主要信息(main data)30。文件头10共有32位,在第16个位会记录是否有使用错误侦测码(CRC),如果第16个位记录为0代表没有使用错误侦测码(without error protection);第16个位记录为1代表有使用错误侦测码(witherror protection)。因此,每一个编码音框还包含一错误侦测码(图中未示)。若有使用错误侦测码,将可避免因为文件头10出现错误而无法正确译码的问题产生,而其中错误侦测码为16位。
附属信息20在单声道时为136位,为双声道时则为256位。主要信息30存放着比例因子(scale factor)和经过量化、位分配,以及无失真的霍夫曼编码(Huffman Encoding)之后的声音讯号,也就是说,经过MP3格式编码过后的声音讯号储存于主要信息30中。
步骤S20:获取出步骤S10所接收的MP3音讯文件中的每一个编码音框所对应的主数据起始参数(main_data_begin)。
每一个编码音框具有相应的主数据起始参数22。由于每个编码音框所包含的声音特性不一定相同,为了维持一定的声音质量,每个编码框所利用的编码位数也不尽相同。于是MP3编码格式使用了一种位储藏处(bit reservoir)机制来作调整。利用位储藏处机制,当某个音框的实际编码位少于位预算,编码器可将多出来的位预算储存到位储藏处。反之,当某个音框编码后所需位超出允许位数,则可利用位储藏处对先前的编码音框借位来储存。因此,每一个编码音框还可包含剩余位空间40,可用来储存其它编码音框的主要信息30。
而每一个编码框都有一个9位的主数据起始参数(main_data_begin)22,存放在每个编码音框的附属信息20的前9个位,用来记录每个编码音框的主要信息30的开始位置。这样,即可动态的决定每个编码音框的主要信息30的起始位置。
每个编码音框的文件头10之间的距离相同,这表示文件头10是在位串流上的固定位置。但是,每个编码音框的主要信息30部分却不一定在固定的位置上。例如,针对第2编码音框的主要信息30部分,由于第1编码音框有未用完的位空间,即所谓的剩余位空间40,利用上述的位储藏处机制,将第2编码音框的主数据起始参数22指向第1编码音框的剩余位空间40继续使用,也就是将第1编码音框的剩余位空间40,用来储存第2编码音框的主要信息30的一部分。同时,第2编码音框的主数据起始参数22也纪录了第2编码音框的主要信息30的起始位置,而尚未储存的第2编码音框的主要信息30,继续存放于第2编码音框本身具有的主要信息30区,直到第2编码音框编码完后,再将其未用完的剩余位空间40留给下一个编码音框使用,依此类推。
步骤S30:删除步骤S20最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框。
由于,发现将原始的语音文件转换为MP3编码格式的文件后,转换后的MP3音讯文件的前后两部分各会出现一小段静音。为了解决静音所产生的问题,将步骤S10所接收的MP3音讯文件的复数个编码音框中,删除掉第一个编码音框与最后一个编码音框。因为,第一个编码音框与最后一个编码音框的主要信息30内容产生前后多余静音部份,所以删除掉第一个编码音框与最后一个编码音框,并不会对原本语音文件的活动语音(active voice)部份产生太大的影响。
删除第一个编码音框与最后一个编码音框,是删除第一个编码音框与最后一个编码音框的文件头10、附属信息20及主要信息30,并不会删除剩余位空间40。加上于MP3编码中,第1编码音框的主要信息30可以在其档头10之前(第1编码音框之main_data_begin>0)。因此,本发明利用此特性,将第1编码音框删除后,并不会少了第1编码框的余位空间40,而造成储存位数目不够的问题,同时也能通过第1编码音框的主数据起始参数22,而找到第1编码音框的主要信息30的起始位置。
步骤S40:重新编排步骤S30最终获得的MP3音讯文件的编码音框,并依序更新每一个编码音框所对应的主数据起始参数。
参见图5,图5中将图3中的第1编码音框与第5编码音框删除。在删除第一个编码音框与最后一个编码音框之后,重新编排图2中的编码音框,原本第2编码音框重新编排成为第1编码音框;原本第3编码音框重新编排成为第2编码音框,以此类推。而且,所有的主数据起始参数22也依序更新。
经过上述步骤,即通过发明的MP3位串排列方法,不仅可解决传统技术所产的静音问题,也由于删除第一个编码音框与最后一个编码音框,而降低了MP3文件储存的内存空间,而位率与取样频率依旧不变,能保持语音质量。
如前所述,中文语音音素(2220个文件)储存为MP3格式的文件,约需花费3.58MB(3,756,523字节)的记忆空间,但通过本发明的MP3位串排列方法转换后,内存储存空间降为2.87MB(3,017,613字节),只花费原来的80.79%,将可节省19.21%的内存储存空间,可有效降低内存成本。且删除前后所产生的静音,会与原始语音文件较为接近,如此在文字转语音时,整体听觉上不会因为多余的静音而觉得不流畅,也利于未来要加上的后处理如平滑处理、韵律调整等。
参见图6:为使用本发明的MP3位串排列方法处理后的MP3格式的波形图。将图5与现有技术的图1及图2作比较,可以清楚发现图5中通过本发明提出的MP3位串排列方法处理后的MP3格式的波形,已删除掉了图2中所存在的静音部份1、2,并且在活动语音部分波形变化不大,且经过本发明的MP3位串排列方法处理后的MP3文件大小由1.37KB(1,411字节)降低为1.17KB(1,199字节),节省了MP3文件的存储内存空间。
参见图7,由图中可以看出每个字(活动语音波形)的前后,皆多出一小段的静音部份,会造成整段语音的播放像是单字逐一播放,而显得语音播放不流畅。
参见图8,从其中可以看出已删除掉图7中的静音部份3、4、5、6、7,且有声部分波形大致上不变,删除图7中的静音部分3、4、5、6、7后整段语音听起来较为平顺。
此外图7中的MP3文件大小为6.77KB(6,942字节),而图8中的MP3文件大小为6.34KB(6,502字节)。由此可见,通过本发明提出的MP3位串排列方法处理后的MP3文件,其文件大小也缩小了,降低了所需的内存空间,节省资源成本。
参见图9:本发明的MP3位串排列装置,其包括:接收模块50、获取模块60、删除模块70及编排模块80。
接收模块50接收MP3音讯文件,且MP3音讯文件包含复数个编码音框。所述编码音框包含文件头、附属信息及主要信息;此外,所述编码音框还可以包含错误侦测码或剩余位空间,其中剩余位空间用以储存其它编码音框的主要信息。
获取模块60获取出每一个编码音框所对应的主数据起始参数。其中,主数据起始参数用来记录编码音框的主要信息的起始位置。
删除模块70删除编码音框中的第一个编码音框与最后一个编码音框,且删除模块70是删除第一个编码音框与最后一个编码音框的文件头、附属信息及主要信息,并不会删除剩余位空间。
编排模块80重新编排通过删除模块70所删除后的编码音框,并依序更新每一个编码音框所对应的主数据起始参数。通过编排模块80重新编排后的MP3音讯文件,删除了原MP3音讯文件中的静音部分,且文件大小较原来的MP3音讯文件缩小,达到播放更流畅与节省内存空间的优点。
Claims (5)
1.一种MP3位串排列方法,其特征在于:该方法包括以下步骤:
1)、接收包含复数个编码音框的MP3音讯文件;
2)、获取出步骤1)所接收的MP3音讯文件中的每一个编码音框所对应的主数据起始参数;
3)、删除步骤2)最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框;
4)、依步骤3)最终获得的MP3音讯文件的编码音框顺序对编码音框重新排序,并依序更新每一个编码音框所对应的主数据起始参数。
2.根据权利要求1所述的MP3位串排列方法,其特征在于:所述编码音框包括文件头、附属信息及主要信息。
3.根据权利要求2所述的MP3位串排列方法,其特征在于:所述编码音框还包括有错误侦测码或剩余位空间。
4.根据权利要求3所述的MP3位串排列方法,其特征在于:所述步骤3)中删除最终获得的MP3音讯文件中的第一个编码音框与最后一个编码音框,是删除第一个编码音框与最后一个编码音框的文件头、附属信息及主要信息。
5.一种MP3位串排列装置,其特征在于:该装置包括:接收包含复数个编码音框的MP3音讯文件的接收模块,获取出每一个编码音框所对应的主数据起始参数的获取模块,删除MP3音讯文件的第一个编码音框与最后一个编码音框的删除模块,依删除模块获得的MP3音讯文件的编码音框顺序对编码音框重新排序、并依序更新每一个编码音框所对应的主数据起始参数的编排模块,所述获取模块一端与所述接收模块相接,另一端通过所述删除模块与编排模块相接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100179158A CN101256775B (zh) | 2008-04-09 | 2008-04-09 | 一种mp3位串排列方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100179158A CN101256775B (zh) | 2008-04-09 | 2008-04-09 | 一种mp3位串排列方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101256775A CN101256775A (zh) | 2008-09-03 |
CN101256775B true CN101256775B (zh) | 2011-04-20 |
Family
ID=39891531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008100179158A Expired - Fee Related CN101256775B (zh) | 2008-04-09 | 2008-04-09 | 一种mp3位串排列方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101256775B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101692343B (zh) * | 2009-09-21 | 2011-07-27 | 福州思迈特数码科技有限公司 | 在mp3文件中隐藏个人数据流的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004109931A1 (en) * | 2003-06-04 | 2004-12-16 | Jurgen Van Gucht | A method and system to compress and to decompress data |
CN1589468A (zh) * | 2001-11-17 | 2005-03-02 | 汤姆森许可贸易公司 | 确定数据帧是否包含已编码附加数据的方法和设备 |
EP1881485A1 (en) * | 2006-07-18 | 2008-01-23 | Deutsche Thomson-Brandt Gmbh | Audio bitstream data structure arrangement of a lossy encoded signal together with lossless encoded extension data for said signal |
-
2008
- 2008-04-09 CN CN2008100179158A patent/CN101256775B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1589468A (zh) * | 2001-11-17 | 2005-03-02 | 汤姆森许可贸易公司 | 确定数据帧是否包含已编码附加数据的方法和设备 |
WO2004109931A1 (en) * | 2003-06-04 | 2004-12-16 | Jurgen Van Gucht | A method and system to compress and to decompress data |
EP1881485A1 (en) * | 2006-07-18 | 2008-01-23 | Deutsche Thomson-Brandt Gmbh | Audio bitstream data structure arrangement of a lossy encoded signal together with lossless encoded extension data for said signal |
Also Published As
Publication number | Publication date |
---|---|
CN101256775A (zh) | 2008-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8725520B2 (en) | Power efficient batch-frame audio decoding apparatus, system and method | |
CN101204015B (zh) | 一起提供运动信号和声音信号的方法和装置 | |
CN111314335B (zh) | 数据传输方法、装置、终端、存储介质和系统 | |
US8880404B2 (en) | Devices for adaptively encoding and decoding a watermarked signal | |
CN102014262A (zh) | 一种硬盘录像机、多媒体格式转换的系统及方法 | |
CN105551512A (zh) | 音频格式转换方法和装置 | |
CN100435486C (zh) | 音频编码及解码的方法及其装置 | |
CN1212601C (zh) | 一种嵌入式语音合成方法及系统 | |
CN100489965C (zh) | 音频编码系统 | |
WO2005109403A1 (en) | Audio bitstream format in which the bitstream syntax is described by an ordered transveral of a tree hierarchy data structure | |
WO2002086894A1 (en) | Trick play for mp3 | |
CN103237259A (zh) | 一种视频声道处理装置及方法 | |
US8615153B2 (en) | Multi-media data editing system, method and electronic device using same | |
CN105869647B (zh) | 一种智能手机原生dsd音频解码方法、系统及智能手机 | |
CN101256775B (zh) | 一种mp3位串排列方法与装置 | |
CN1192502C (zh) | 无需译码的数字信号压缩方法和装置 | |
CN101645967B (zh) | 一种以自定义格式处理多媒体数据的移动终端及实现方法 | |
CN105047200A (zh) | 一种基于fpga的flac硬件解码器及解码方法 | |
TWI273562B (en) | Decoding method and apparatus for MP3 decoder | |
CN103531224A (zh) | 应用于嵌入式系统平台的简易语音播放方法 | |
JP4603429B2 (ja) | クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体 | |
CN102169708A (zh) | 一种音视频播放系统、方法、移动终端和播放器 | |
US20050197830A1 (en) | Method for calculating a frame in audio decoding | |
CN100386799C (zh) | 音频译码的语音帧计算方法 | |
US6980957B1 (en) | Audio transmission system with reduced bandwidth consumption |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110420 Termination date: 20140409 |