JP5446258B2 - オーディオ符号化装置 - Google Patents
オーディオ符号化装置 Download PDFInfo
- Publication number
- JP5446258B2 JP5446258B2 JP2008335027A JP2008335027A JP5446258B2 JP 5446258 B2 JP5446258 B2 JP 5446258B2 JP 2008335027 A JP2008335027 A JP 2008335027A JP 2008335027 A JP2008335027 A JP 2008335027A JP 5446258 B2 JP5446258 B2 JP 5446258B2
- Authority
- JP
- Japan
- Prior art keywords
- channel
- bit
- bits
- encoding
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000003044 adaptive effect Effects 0.000 claims abstract description 40
- 230000005236 sound signal Effects 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims description 20
- 238000013139 quantization Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 10
- 230000000873 masking effect Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
PE値算出部1401は、チャネル1信号からチャネルN信号までのマルチチャネルの入力信号から、各チャネル信号の知覚エントロピー値PE(1)〜PE(N)を算出する(図15のステップS1501)。
例えば図18に示されるように、チャネル2では、PE値により推定された配分ビット数のほうが、実際の符号化において必要なビット数(=量子化誤差が許容量子化誤差(マスキングパワー)以下になるビット数)よりも多い。これに対して、チャネルNでは、実際の符号化において必要なビット数のほうが、PE値により推定された配分ビット数よりも多い。この場合、チャネル2では、ビット数が多く配分されすぎてしまうのに対して、チャネルNでは、ビット不足により量子化誤差が増大し音質が劣化してしまう。
開示する技術が解決しようとする課題は、ビット不足による量子化誤差の増大を抑制することにある。
適応ビット配分制御部は、各チャネルのオーディオ信号に割り当てる符号化ビット数を、各チャネルのオーディオ信号の知覚エントロピーに応じて適応的に制御する。
チャネル符号化部は、適応ビット配分制御部で割り当てられた適応配分ビット数と、固定ビット配分制御部で割り当てられた固定配分ビット数とに基づいて、各チャネルのオーディオ信号を符号化する。
図1は、第1の実施形態の構成図、図2はその動作を示す動作フローチャートである。
PE値算出部101は、チャネル1信号からチャネルN信号までのマルチチャネルの入力信号から、各チャネル信号の知覚エントロピー値PE(1)〜PE(N)を算出する(図2のステップS201)。
E(N)に応じて、適応配分ビット割当aBit(1)〜aBit(N)を決定する(図2のステップS202)。
ビット配分決定部104は、適応配分ビット割当と固定配分ビット割当を統合して、#1〜#Nのチャネル符号化部105における最終配分ビット割当Bit(1)〜Bit(N)を決定する(図2のステップS204)。
第1の実施形態では、PE値より推定された適応配分ビット数に対して、チャネル毎に予め設定した固定配分比による固定配分ビット数が併用される。前者は、マルチチャネルの入力信号に依存し、後者は、入力信号に依存しない。
このときの固定配分比は、チャネル配置の主観的な音質の影響度に基づいて決定することができる。これは、入力信号の変動には依存しないパラメータである。
まず、ビットリザーバ106は、多重化部108から出力されるビットストリームより、前フレーム以前に#1〜#Nのチャネルビットリザーバ107にて蓄積されたビットを合算してリザーブする。そして、ビットリザーバ106は、現フレームにおいて、事前に設定した配分比を用いて、上述の合算したリザーブビットを、#1〜#Nのチャネルビットリザーバ107に、チャネル毎の蓄積ビットとして配分する。
まず、#1〜#Nのチャネルビットリザーバ107はそれぞれ、#1〜#Nのチャネル符号化部105に対して、符号化を指示する(図5のステップS501)。この結果、#1〜#Nのチャネル符号化部105はそれぞれ、チャネル1信号からチャネルN信号までの各入力信号を、ビット配分決定部104によって配分された各ビット割当Bit(1)〜Bit(N)にて符号化する。この場合の符号化方式としては、例えばAAC方式が採用される。
C (Encoder)のC.1 Psychoacoustic Model として公開されている方法を用いることができる。
チャネル符号化部105、多重化部108、ビットリザーバ106、及びチャネルビットリザーバ107の動作も、図1に示される第1の実施形態の場合と同様である。
例えば、5.1チャネルのようなチャネル構成では、前方に配置されるチャネルが人間の聴覚的に重要になる。このような場合には、前方チャネルのビット配分比を大きくすることで、人間の聴覚特性に合わせたビット配分が実施され主観的な音質を高めることが可能となる。
量子化ステップ決定部1101は、T/F変換部801にて得られるスペクトルspec(n,f)と、聴覚分析部802にて得られるマスクパワーmask_pow(n,f)を用いて、各帯域の量子化ステップquant_step(f)を決定する。即ち、下記数7式に示される通りである。
波数スペクトルspec(n,f)を符号化する。この結果、量子化部1102は、符号データquant_code(n,f)を生成して出力する。
102 適応ビット配分制御部
103 固定ビット配分制御部
104 ビット配分決定部
105、1403 チャネルi符号化部
106 ビットリザーバ
107 チャネルiビットリザーバ
108、1404 多重化部
801 T/F変換部
802 聴覚分析部
901 遅延付加部
1402 ビット配分制御部
Claims (4)
- 複数チャネルのオーディオ信号を符号化するオーディオ符号化装置において、
各チャネルのオーディオ信号に割り当てる符号化ビット数を、該各チャネルのオーディオ信号の知覚エントロピーに応じて適応的に制御する適応ビット配分制御部と、
前記各チャネルのオーディオ信号に割り当てる符号化ビット数を、予め定められた配分で固定的に制御する固定ビット配分制御部と、
前記適応ビット配分制御部で割り当てられた適応配分ビット数と、前記固定ビット配分制御部で割り当てられた固定配分ビット数とに基づいて、前記各チャネルのオーディオ信号を符号化するチャネル符号化部と、
前記各チャネルのオーディオ信号に割り当てられた符号化ビット数より、符号化に必要な符号化ビット数が少ない場合に、その差分となるビット数を各チャネルの余剰ビット数として蓄積し、前記複数チャネルの余剰ビット数を合算した総余剰ビット数を各チャネルに配分し、前記各チャネルのオーディオ信号に割り当てられた符号化ビット数が、前記符号化に必要なビット数よりも少ない場合に、各チャネルに配分された余剰ビット数を割り当てるビットリザーバ部と、
を含むことを特徴とするオーディオ符号化装置。 - 前記固定ビット配分制御部は、前記各チャネルのオーディオ信号に割り当てる符号化ビット数の配分を、前記各チャネルのチャネル配置の聴覚的な重みに基づいて決定する、
ことを特徴とする請求項1に記載のオーディオ符号化装置。 - 前記適応ビット配分制御部は、前記各チャネルのオーディオ信号の過去フレームにおいて算出した知覚エントロピーに応じて、現フレームにおける前記各チャネルのオーディオ信号に割り当てる符号化ビット数を適応的に制御する、
ことを特徴とする請求項1又は2の何れか1項に記載のオーディオ符号化装置。 - 複数チャネルのオーディオ信号を符号化するオーディオ符号化方法において、
各チャネルのオーディオ信号に割り当てる符号化ビット数を、該各チャネルのオーディオ信号の知覚エントロピーに応じて適応的に制御する適応ビット配分制御ステップと、
前記各チャネルのオーディオ信号に割り当てる符号化ビット数を、予め定められた配分で固定的に制御する固定ビット配分制御ステップと、
前記適応ビット配分制御ステップで割り当てられた適応配分ビット数と、前記固定ビット配分制御ステップで割り当てられた固定配分ビット数とに基づいて、前記各チャネルのオーディオ信号を符号化するチャネル符号化ステップと、
前記各チャネルのオーディオ信号に割り当てられた符号化ビット数より、符号化に必要な符号化ビット数が少ない場合に、その差分となるビット数を各チャネルの余剰ビット数として蓄積し、前記複数チャネルの余剰ビット数を合算した総余剰ビット数を各チャネルに配分し、前記各チャネルのオーディオ信号に割り当てられた符号化ビット数が、前記符号化に必要なビット数よりも少ない場合に、各チャネルに配分された余剰ビット数を割り当てるビットリザーバステップと、
を含むことを特徴とするオーディオ符号化方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008335027A JP5446258B2 (ja) | 2008-12-26 | 2008-12-26 | オーディオ符号化装置 |
US12/634,862 US20100169080A1 (en) | 2008-12-26 | 2009-12-10 | Audio encoding apparatus |
EP09179879A EP2202724B1 (en) | 2008-12-26 | 2009-12-18 | Audio encoding apparatus and method |
AT09179879T ATE529855T1 (de) | 2008-12-26 | 2009-12-18 | Audiocodierungsvorrichtung und -verfahren |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008335027A JP5446258B2 (ja) | 2008-12-26 | 2008-12-26 | オーディオ符号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010156837A JP2010156837A (ja) | 2010-07-15 |
JP5446258B2 true JP5446258B2 (ja) | 2014-03-19 |
Family
ID=41809282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008335027A Expired - Fee Related JP5446258B2 (ja) | 2008-12-26 | 2008-12-26 | オーディオ符号化装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20100169080A1 (ja) |
EP (1) | EP2202724B1 (ja) |
JP (1) | JP5446258B2 (ja) |
AT (1) | ATE529855T1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5609591B2 (ja) * | 2010-11-30 | 2014-10-22 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
JP5704018B2 (ja) | 2011-08-05 | 2015-04-22 | 富士通セミコンダクター株式会社 | オーディオ信号符号化方法および装置 |
JP5782921B2 (ja) * | 2011-08-26 | 2015-09-24 | 富士通株式会社 | 符号化装置、符号化方法および符号化プログラム |
TWI505262B (zh) | 2012-05-15 | 2015-10-21 | Dolby Int Ab | 具多重子流之多通道音頻信號的有效編碼與解碼 |
EP2898506B1 (en) | 2012-09-21 | 2018-01-17 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
US9336791B2 (en) * | 2013-01-24 | 2016-05-10 | Google Inc. | Rearrangement and rate allocation for compressing multichannel audio |
EP3014609B1 (en) | 2013-06-27 | 2017-09-27 | Dolby Laboratories Licensing Corporation | Bitstream syntax for spatial voice coding |
US20150025894A1 (en) * | 2013-07-16 | 2015-01-22 | Electronics And Telecommunications Research Institute | Method for encoding and decoding of multi channel audio signal, encoder and decoder |
JP6235725B2 (ja) * | 2014-01-13 | 2017-11-22 | ノキア テクノロジーズ オサケユイチア | マルチ・チャンネル・オーディオ信号分類器 |
US10573324B2 (en) | 2016-02-24 | 2020-02-25 | Dolby International Ab | Method and system for bit reservoir control in case of varying metadata |
WO2017144246A1 (en) * | 2016-02-24 | 2017-08-31 | Dolby International Ab | Method and system for bit reservoir control in case of varying metadata |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5109417A (en) * | 1989-01-27 | 1992-04-28 | Dolby Laboratories Licensing Corporation | Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio |
US5488665A (en) * | 1993-11-23 | 1996-01-30 | At&T Corp. | Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels |
TW295747B (ja) * | 1994-06-13 | 1997-01-11 | Sony Co Ltd | |
EP0721257B1 (en) * | 1995-01-09 | 2005-03-30 | Daewoo Electronics Corporation | Bit allocation for multichannel audio coder based on perceptual entropy |
JPH09325797A (ja) * | 1996-06-06 | 1997-12-16 | Sony Cinema Prod Corp | マルチチャンネルオーディオデータの符号化方法及びその符号化装置 |
JP3328532B2 (ja) * | 1997-01-22 | 2002-09-24 | シャープ株式会社 | デジタルデータの符号化方法 |
EP0966109B1 (en) * | 1998-06-15 | 2005-04-27 | Matsushita Electric Industrial Co., Ltd. | Audio coding method and audio coding apparatus |
JP3466507B2 (ja) * | 1998-06-15 | 2003-11-10 | 松下電器産業株式会社 | 音声符号化方式、音声符号化装置、及びデータ記録媒体 |
JP2001077698A (ja) | 1999-09-08 | 2001-03-23 | Matsushita Electric Ind Co Ltd | オーディオ符号化アプリケーションに対するブロックサイズ決定方法 |
WO2001028222A2 (en) * | 1999-10-12 | 2001-04-19 | Perception Digital Technology (Bvi) Limited | Digital multimedia jukebox |
JP4021124B2 (ja) * | 2000-05-30 | 2007-12-12 | 株式会社リコー | デジタル音響信号符号化装置、方法及び記録媒体 |
SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
JP2004021153A (ja) | 2002-06-20 | 2004-01-22 | Toshiba Corp | オーディオ信号符号化装置 |
JP2004309921A (ja) * | 2003-04-09 | 2004-11-04 | Sony Corp | 符号化装置、符号化方法及びプログラム |
JP4212591B2 (ja) * | 2003-06-30 | 2009-01-21 | 富士通株式会社 | オーディオ符号化装置 |
JP4639073B2 (ja) * | 2004-11-18 | 2011-02-23 | キヤノン株式会社 | オーディオ信号符号化装置および方法 |
WO2006054583A1 (ja) * | 2004-11-18 | 2006-05-26 | Canon Kabushiki Kaisha | オーディオ信号符号化装置および方法 |
JP2006345063A (ja) * | 2005-06-07 | 2006-12-21 | Oki Electric Ind Co Ltd | 量子化装置、符号化装置、量子化方法および符号化方法 |
JP4810335B2 (ja) * | 2006-07-06 | 2011-11-09 | 株式会社東芝 | 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置 |
-
2008
- 2008-12-26 JP JP2008335027A patent/JP5446258B2/ja not_active Expired - Fee Related
-
2009
- 2009-12-10 US US12/634,862 patent/US20100169080A1/en not_active Abandoned
- 2009-12-18 EP EP09179879A patent/EP2202724B1/en not_active Not-in-force
- 2009-12-18 AT AT09179879T patent/ATE529855T1/de not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
US20100169080A1 (en) | 2010-07-01 |
EP2202724B1 (en) | 2011-10-19 |
EP2202724A1 (en) | 2010-06-30 |
ATE529855T1 (de) | 2011-11-15 |
JP2010156837A (ja) | 2010-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5446258B2 (ja) | オーディオ符号化装置 | |
JP7010885B2 (ja) | 音声または音響符号化装置、音声または音響復号装置、音声または音響符号化方法及び音声または音響復号方法 | |
TWI505262B (zh) | 具多重子流之多通道音頻信號的有效編碼與解碼 | |
JP6474845B2 (ja) | 軽減された計算量の変換器snr計算 | |
US9530422B2 (en) | Bitstream syntax for spatial voice coding | |
JP4454664B2 (ja) | オーディオ符号化装置及びオーディオ符号化方法 | |
JP2004522198A (ja) | 音声符号化方法 | |
EP0967593A1 (en) | Audio coding and quantization method | |
US20120307677A1 (en) | Transmitting Data in a Communication System | |
US8644526B2 (en) | Audio signal decoding device and balance adjustment method for audio signal decoding device | |
JP5609591B2 (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム | |
EP1366626B1 (en) | Video and audio transcoder | |
JP2004309921A (ja) | 符号化装置、符号化方法及びプログラム | |
US20070198256A1 (en) | Method for middle/side stereo encoding and audio encoder using the same | |
KR20070037771A (ko) | 오디오 부호화 시스템 | |
JP2007004050A (ja) | ステレオ信号の符号化装置及び符号化プログラム | |
JP2002014696A (ja) | 制御装置及び制御方法 | |
KR20050054745A (ko) | 오디오 신호를 부호화하는 장치 및 방법 | |
JP2009103974A (ja) | マスキングレベル算出装置、符号化装置、マスキングレベル算出方法およびマスキングレベル算出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110907 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120918 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121002 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130604 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5446258 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |