JP4454664B2 - オーディオ符号化装置及びオーディオ符号化方法 - Google Patents
オーディオ符号化装置及びオーディオ符号化方法 Download PDFInfo
- Publication number
- JP4454664B2 JP4454664B2 JP2007534206A JP2007534206A JP4454664B2 JP 4454664 B2 JP4454664 B2 JP 4454664B2 JP 2007534206 A JP2007534206 A JP 2007534206A JP 2007534206 A JP2007534206 A JP 2007534206A JP 4454664 B2 JP4454664 B2 JP 4454664B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- bits
- divisions
- block length
- bit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Description
・時間領域のオーディオ信号を周波数領域へ変換する。
・周波数軸上の信号を人間の聴覚の周波数分解能に対応する周波数帯域で区切る。
・人間の聴覚特性を利用して、各周波数帯域で符号化に必要な最適な情報量を計算する。
・各周波数帯域に割り振られた情報量にしたがい、周波数軸上の信号を量子化する。
音響分析部101は、入力信号をFFT(Fast Fourier Transform)分析によりFFTスペクトルを求め、FFTスペクトルから知覚エントロピーを求めて、ブロック長選択部102へ送信する。知覚エントロピーとは、量子化するのに必要なビット数を表すパラメータである。
図13はビットリザーバの動作概念を示す図である。図中のグラフG1は、横軸がフレーム、縦軸が量子化ビット数であり、各フレームで使用した量子化ビット数を表している。また、グラフG2は、横軸がフレーム、縦軸がリザーブビット数であり、各フレームが量子化された際に、そのときビットリザーバに存在する余剰ビット数を表している。
フレームの量子化時に、必要な量子化ビット数が平均量子化ビット数を下回る場合は、下回った分のビット数は余剰ビット数として蓄積される。また、必要な量子化ビット数が平均量子化ビット数を上回る場合、上回った分のビット数に対しては、蓄積しておいた余剰ビット数が使用される。
フレーム4の量子化ビット数は120であり、平均量子化ビット数を20上回る。このような場合、超過した20はフレーム3のときに蓄積されていた余剰ビット数50から使用される。したがって、このときの余剰ビット数は30(=50−20)となる。以降同様にして、フレームに割り当てられるビット数の増減の吸収を行って可変ビットレート制御が行われる。
これにより、低ビットレート条件でサービスを行う地上波ディジタル放送などの分野で、従来のAACエンコーダによるオーディオ信号の符号化処理を行うと、入力信号に応じて正確にSHORTブロックを選択して符号化しているにもかかわらず、大きな音質劣化が生じてしまうといった問題があった。
上記の知覚エントロピーPEと余剰ビット数との関係を考慮して、プリエコー及びビット不足から生じる音質劣化を抑制する符号化ブロック長となるように、フレーム分割数決定部13では、知覚エントロピーPEと余剰ビット数との組み合わせに応じて分割数Nを求めるための変換マップを有している。
以上説明したように、オーディオ符号化装置10では、知覚エントロピーPEと余剰ビット数との組み合わせにもとづいて、オーディオ信号の1フレームを、1からNまでN分割するための分割数を求め、求めた分割数で1フレームを分割し、分割されたブロック長単位でオーディオ信号のMDCTを行ってMDCT係数を求め、分割されたブロック長単位でMDCT係数の量子化を行う構成とした。
音響分析部21では、人間の聴覚特性にもとづいて、知覚エントロピーPEを求め、フレーム分割数決定部23へ出力する。
符号化ビット数監視部22は、現フレームで使用可能な余剰ビット数Available_bitを求めて、フレーム分割数決定部23へ出力する。Available_bitは以下の式(1)を用いて求められる。
average_bitは、符号化の際にあらかじめ設定される平均量子化ビット数であり、Reserve_bitは、ビットリザーバに蓄積されているビット数であって、次式で求められる。
quant_bitは、前フレームでの量子化後の符号化ビット数、Prev_Reserve_bitは、前フレームでのReserve_bitであり、Reserve_bitは平均ビット数に対する量子化ビット数の現フレームでの過不足分で表される。
average_bit=(bitrate×frame_length)/freq ・・・(3)
bitrateは、符号化ビットレート[bps]、frame_lengthはフレーム長[1024サンプル]、freqは入力信号のサンプリング周波数[Hz]である。
フレーム分割数決定部23は、音響分析部21で求めた知覚エントロピーPEと、符号化ビット数監視部22で求めたAvailable_bitに応じて、分割数N(Block_Num)を決定し、直交変換部24へ出力する。
直交変換部24は、Block_Num=1の場合にはLONGブロックとして入力信号1024点のMDCT変換により、MDCT係数(MDCT_LONG)を求める(第1の直交変換係数=(MDCT_LONG))。
図では例えば、最小ブロック長#6の近傍に、アタック音のような変化の大きな信号が含まれる場合には、最小ブロック長#6近傍のブロック長ができるだけ短くなるように、グループ化の境界を設定している。このように、信号変化点の近傍のブロック長ができるだけ短くなるように、グループ化の境界を設定することで、プリエコーの低減化をさらに図ることが可能になる。
量子化部25は、Block_Num=1の場合には、MDCT係数(MDCT_LONG)を量子化する。すなわち、1フレーム単位のMDCT係数を量子化して量子化値を求める。
1<Block_Num<8の場合には、グループ化された各SHORTブロックMDCT係数(MDCT_SHORT)を、グループ化単位に量子化して量子化値を求める。
そして、スペクトル量子化値をビットストリーム生成部26へ出力する。
ビットストリーム生成部26は、量子化部15で求められた量子化値を送信フォーマットに乗せて、ビットストリームを生成し、伝送路を通じて送信する。
次にオーディオ符号化装置10、20の適用分野について説明する。オーディオ符号化装置10、20は、例えば、1セグディジタルラジオ放送システムや楽音ダウンロードサービスシステムなどに適用可能である。
上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。
11 音響分析部
12 符号化ビット数監視部
13 フレーム分割数決定部
14 直交変換部
15 量子化部
16 ビットストリーム生成部
PE 知覚エントロピー
Claims (4)
- オーディオ信号の符号化を行うオーディオ符号化装置において、
前記オーディオ信号を分析して、量子化するのに必要なビット数を表すパラメータである知覚エントロピーを求める音響分析部と、
前記オーディオ信号を符号化した際の符号化ビット数を監視して、現フレームで使用可能なビット数である余剰ビット数を求める符号化ビット数監視部と、
前記知覚エントロピーと前記余剰ビット数との組み合わせにもとづいて、プリエコー及びビット不足から生じる音質劣化を抑制する符号化ブロック長となるように、前記オーディオ信号の1フレームを分割する分割数を決定するフレーム分割数決定部と、
前記分割数をNとした際に、N=1の場合は、1フレーム単位で直交変換を行って第1の直交変換係数を求め、最大分割数をNmaxとした際に、N=Nmaxの場合は、前記最大分割数で1フレームを分割し、最大分割されたブロック長単位で前記オーディオ信号の直交変換を行って第2の直交変換係数を求め、1<N<Nmaxの場合は、前記最大分割数で1フレームを分割して前記第2の直交変換係数を求め、分割数Nで前記第2の直交変換係数をグループ化する直交変換部と、
N=1の場合は、前記第1の直交変換係数を1フレーム単位で量子化し、N=Nmaxの場合は、前記第2の直交変換係数を最大分割されたブロック長単位で量子化し、1<N<Nmaxの場合は、前記第2の直交変換係数をグループ化単位で量子化する量子化部と、
を備え、
前記直交変換部は、前記オーディオ信号の変化点近傍のブロック長が短くなるようにグループ化の境界を設定する、
ことを特徴とするオーディオ符号化装置。 - 前記フレーム分割数決定部は、前記知覚エントロピーが大きい値をとる場合は、プリエコーによる音質劣化を抑制するために前記分割数を多くしてブロック長が小さくなるように、前記余剰ビット数が少ない場合は、ビット不足から生じる音質劣化を抑制するために前記分割数を少なくしてブロック長が大きくなるように、前記知覚エントロピーと前記余剰ビット数に対する前記分割数の関係を定めた変換マップを有することを特徴とする請求項1記載のオーディオ符号化装置。
- オーディオ信号の符号化を行うオーディオ符号化方法において、
前記オーディオ信号を分析して、量子化するのに必要なビット数を表すパラメータである知覚エントロピーを求め、
前記オーディオ信号を符号化した際の符号化ビット数を監視して、現フレームで使用可能なビット数である余剰ビット数を求め、
前記知覚エントロピーと前記余剰ビット数との組み合わせにもとづいて、プリエコー及びビット不足から生じる音質劣化を抑制する符号化ブロック長となるように、前記オーディオ信号の1フレームを分割する分割数を決定し、
前記分割数をNとした際に、N=1の場合は、1フレーム単位で直交変換を行って第1の直交変換係数を求め、
最大分割数をNmaxとした際に、N=Nmaxの場合は、前記最大分割数で1フレームを分割し、最大分割されたブロック長単位で前記オーディオ信号の直交変換を行って第2の直交変換係数を求め、
1<N<Nmaxの場合は、前記最大分割数で1フレームを分割して前記第2の直交変換係数を求め、分割数Nで前記第2の直交変換係数をグループ化し、
N=1の場合は、前記第1の直交変換係数を1フレーム単位で量子化し、
N=Nmaxの場合は、前記第2の直交変換係数を最大分割されたブロック長単位で量子化し、
1<N<Nmaxの場合は、前記第2の直交変換係数をグループ化単位で量子化し、
前記グループ化の境界は、前記オーディオ信号の変化点近傍のブロック長が短くなるように設定する、
ことを特徴とするオーディオ符号化方法。 - 前記知覚エントロピーが大きい値をとる場合は、プリエコーによる音質劣化を抑制するために前記分割数を多くしてブロック長が小さくなるように、前記余剰ビット数が少ない場合は、ビット不足から生じる音質劣化を抑制するために前記分割数を少なくしてブロック長が大きくなるように、前記知覚エントロピーと前記余剰ビット数に対する前記分割数の関係を定めることを特徴とする請求項3記載のオーディオ符号化方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2005/016271 WO2007029304A1 (ja) | 2005-09-05 | 2005-09-05 | オーディオ符号化装置及びオーディオ符号化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2007029304A1 JPWO2007029304A1 (ja) | 2009-03-12 |
JP4454664B2 true JP4454664B2 (ja) | 2010-04-21 |
Family
ID=37835441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007534206A Expired - Fee Related JP4454664B2 (ja) | 2005-09-05 | 2005-09-05 | オーディオ符号化装置及びオーディオ符号化方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7930185B2 (ja) |
EP (1) | EP1933305B1 (ja) |
JP (1) | JP4454664B2 (ja) |
KR (1) | KR100979624B1 (ja) |
WO (1) | WO2007029304A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5182792B2 (ja) * | 2007-10-07 | 2013-04-17 | アルパイン株式会社 | マルチコアプロセッサ制御方法及び装置 |
US20090144054A1 (en) * | 2007-11-30 | 2009-06-04 | Kabushiki Kaisha Toshiba | Embedded system to perform frame switching |
US8700410B2 (en) * | 2009-06-18 | 2014-04-15 | Texas Instruments Incorporated | Method and system for lossless value-location encoding |
JP5287546B2 (ja) * | 2009-06-29 | 2013-09-11 | 富士通株式会社 | 情報処理装置およびプログラム |
JP6039678B2 (ja) * | 2011-10-27 | 2016-12-07 | エルジー エレクトロニクス インコーポレイティド | 音声信号符号化方法及び復号化方法とこれを利用する装置 |
CN103325373A (zh) | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 用于传送和接收音频信号的方法和设备 |
WO2013151004A1 (ja) * | 2012-04-02 | 2013-10-10 | 日本電信電話株式会社 | 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体 |
WO2013187498A1 (ja) * | 2012-06-15 | 2013-12-19 | 日本電信電話株式会社 | 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体 |
JP6146686B2 (ja) * | 2015-09-15 | 2017-06-14 | カシオ計算機株式会社 | データ構造、データ格納装置、データ取り出し装置および電子楽器 |
US10210854B2 (en) * | 2015-09-15 | 2019-02-19 | Casio Computer Co., Ltd. | Waveform data structure, waveform data storage device, waveform data storing method, waveform data extracting device, waveform data extracting method and electronic musical instrument |
CN117746872A (zh) * | 2022-09-15 | 2024-03-22 | 抖音视界有限公司 | 音频编码方法、装置、设备及存储介质 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62139089A (ja) * | 1985-12-13 | 1987-06-22 | Nippon Telegr & Teleph Corp <Ntt> | ベクトル量子化方式 |
JP3010637B2 (ja) * | 1989-07-29 | 2000-02-21 | ソニー株式会社 | 量子化装置及び量子化方法 |
CN1062963C (zh) | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
EP0559348A3 (en) * | 1992-03-02 | 1993-11-03 | AT&T Corp. | Rate control loop processor for perceptual encoder/decoder |
JP3252005B2 (ja) | 1993-03-08 | 2002-01-28 | パイオニア株式会社 | 適応ブロック長変換符号化のブロック長選択装置 |
JPH09232964A (ja) * | 1996-02-20 | 1997-09-05 | Nippon Steel Corp | ブロック長可変型変換符号化装置および過渡状態検出装置 |
JP4499197B2 (ja) | 1997-07-03 | 2010-07-07 | ソニー株式会社 | ディジタル信号符号化装置及び方法、復号化装置及び方法、並びに伝送方法 |
US6499010B1 (en) * | 2000-01-04 | 2002-12-24 | Agere Systems Inc. | Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency |
WO2002056297A1 (en) * | 2001-01-11 | 2002-07-18 | Sasken Communication Technologies Limited | Adaptive-block-length audio coder |
JP4062971B2 (ja) * | 2002-05-27 | 2008-03-19 | 松下電器産業株式会社 | オーディオ信号符号化方法 |
JP2005003835A (ja) | 2003-06-11 | 2005-01-06 | Canon Inc | オーディオ信号符号化装置、オーディオ信号符号化方法、及びプログラム |
WO2005004113A1 (ja) * | 2003-06-30 | 2005-01-13 | Fujitsu Limited | オーディオ符号化装置 |
SG120118A1 (en) * | 2003-09-15 | 2006-03-28 | St Microelectronics Asia | A device and process for encoding audio data |
JP2005165056A (ja) * | 2003-12-03 | 2005-06-23 | Canon Inc | オーディオ信号符号化装置及び方法 |
US7627481B1 (en) * | 2005-04-19 | 2009-12-01 | Apple Inc. | Adapting masking thresholds for encoding a low frequency transient signal in audio data |
-
2005
- 2005-09-05 EP EP05776793A patent/EP1933305B1/en not_active Expired - Fee Related
- 2005-09-05 WO PCT/JP2005/016271 patent/WO2007029304A1/ja active Application Filing
- 2005-09-05 JP JP2007534206A patent/JP4454664B2/ja not_active Expired - Fee Related
- 2005-09-05 KR KR1020087004552A patent/KR100979624B1/ko active IP Right Grant
-
2008
- 2008-03-03 US US12/073,276 patent/US7930185B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR100979624B1 (ko) | 2010-09-01 |
EP1933305B1 (en) | 2011-12-21 |
KR20080032240A (ko) | 2008-04-14 |
WO2007029304A1 (ja) | 2007-03-15 |
EP1933305A1 (en) | 2008-06-18 |
US7930185B2 (en) | 2011-04-19 |
US20080154589A1 (en) | 2008-06-26 |
EP1933305A4 (en) | 2009-08-26 |
JPWO2007029304A1 (ja) | 2009-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4454664B2 (ja) | オーディオ符号化装置及びオーディオ符号化方法 | |
US7277849B2 (en) | Efficiency improvements in scalable audio coding | |
JP6592148B2 (ja) | 高周波数の再構成方法を使用するコーディング・システムの性能拡大方法 | |
US8612219B2 (en) | SBR encoder with high frequency parameter bit estimating and limiting | |
US7761290B2 (en) | Flexible frequency and time partitioning in perceptual transform coding of audio | |
US6122618A (en) | Scalable audio coding/decoding method and apparatus | |
CN110706715B (zh) | 信号编码和解码的方法和设备 | |
KR100908117B1 (ko) | 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치 | |
US20070078646A1 (en) | Method and apparatus to encode/decode audio signal | |
JP4021124B2 (ja) | デジタル音響信号符号化装置、方法及び記録媒体 | |
US7466245B2 (en) | Digital signal processing apparatus, digital signal processing method, digital signal processing program, digital signal reproduction apparatus and digital signal reproduction method | |
EP1187101B1 (en) | Method and apparatus for preclassification of audio material in digital audio compression applications | |
JP2008158301A (ja) | 信号処理装置、信号処理方法、再生装置、再生方法、電子機器 | |
KR100908116B1 (ko) | 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치 | |
JP2008158300A (ja) | 信号処理装置、信号処理方法、再生装置、再生方法、電子機器 | |
JP4530567B2 (ja) | デジタルオーディオ復号装置 | |
KR20050040441A (ko) | 스케일러블 오디오 복/부호화 방법 및 장치 | |
JP2008158302A (ja) | 信号処理装置、信号処理方法、再生装置、再生方法、電子機器 | |
Ravelli et al. | A perceptually enhanced scalable-to-lossless audio coding scheme and a trellis-based approach for its optimization | |
Noll | Wideband Audio | |
Lai et al. | A NMR Optimized Bitrate Transcoder for MPEG-2/4 LC-AAC |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100202 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130212 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4454664 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140212 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |