JP2010156837A - オーディオ符号化装置 - Google Patents

オーディオ符号化装置 Download PDF

Info

Publication number
JP2010156837A
JP2010156837A JP2008335027A JP2008335027A JP2010156837A JP 2010156837 A JP2010156837 A JP 2010156837A JP 2008335027 A JP2008335027 A JP 2008335027A JP 2008335027 A JP2008335027 A JP 2008335027A JP 2010156837 A JP2010156837 A JP 2010156837A
Authority
JP
Japan
Prior art keywords
channel
bit
encoding
bits
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008335027A
Other languages
English (en)
Other versions
JP5446258B2 (ja
Inventor
Yoshiteru Tsuchinaga
義照 土永
Miyuki Shirakawa
美由紀 白川
Masanao Suzuki
政直 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008335027A priority Critical patent/JP5446258B2/ja
Priority to US12/634,862 priority patent/US20100169080A1/en
Priority to EP09179879A priority patent/EP2202724B1/en
Priority to AT09179879T priority patent/ATE529855T1/de
Publication of JP2010156837A publication Critical patent/JP2010156837A/ja
Application granted granted Critical
Publication of JP5446258B2 publication Critical patent/JP5446258B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】シリコンオーディオやDVDなどの蓄積メディア分野、地上デジタル放送などの放送分野で用いられるオーディオ符号化技術に関し、ビット不足による量子化誤差の増大を抑制する。
【解決手段】適応ビット配分制御部102は、各チャネルのオーディオ信号に割り当てる符号化ビット数を、各チャネルのオーディオ信号の知覚エントロピーに応じて適応的に制御する。固定ビット配分制御部103は、各チャネルのオーディオ信号に割り当てる符号化ビット数を、予め定められた配分で固定的に制御する。ビット配分決定部104がこれらの配分ビットを統合し、各チャネル符号化部105において、適応ビット配分制御部で割り当てられた適応配分ビット数と、固定ビット配分制御部で割り当てられた固定配分ビット数とに基づいて、各チャネルのオーディオ信号が符号化される。
【選択図】図1

Description

開示する技術は、シリコンオーディオやDVDなどの蓄積メディア分野、地上デジタル放送などの放送分野で用いられるオーディオ符号化技術に関する。開示する技術は、コンテンツ変換装置や動画像IP伝送装置の音声処理部などに利用することができる。
アナログ放送から地上デジタル放送への移行、有線、無線網のブロードバンド化、端末の高性能化に伴い、限られた通信リソースの中でオーディオやビデオを高品質に符号化する技術が必要とされている。
このうち、インターネットや地上デジタル放送等での映像配信サービスにおいて、従来のステレオよりも臨場感に優れた5.1チャネル音声のコンテンツが増加しており、5.1チャネル音声を高音質に圧縮できるオーディオ符号化技術への需要が高まっている。
国際標準化団体ISO/IEC(International Organization for Standardization/International Electrotechnical Commission)では、マルチメディア専門家グループであるMPEG(Moving Picture Experts Group)において、5.1チャネル音声に対応したオーディオ符号化方式としてMPEG−2 AAC(以下、「AAC」という)が標準化された。AACは、日本の地上/衛星/IPデジタル放送規格などに採用されている。ただし、ISO/IECではAACのデータ形式とデコード方式のみを規格化し、符号化方式を規定していない。このため、より高音質な音声符号化方式が求められている。
5.1チャネル音声は、映画やDVDでも採用されている。そして、5.1チャネル音声は、図13(b)に示されるように、前方3チャネル(センター、左、右)、後方2チャネル(サラウンド左、右)、及び低域効果用の1チャネル(0.1チャネルと表記される)の、計6チャネルで再生が行われる。このため、従来のステレオに比べて、音の広がりや重低音の表現力が優れている。
一般的には、図13(a)に示されるように、マルチチャネルの入力信号に対して、エンコーダ(符号器)1301が符号化を行って、符号化データである圧縮符号が生成される。この圧縮符号は、例えば上述の320kbpsというように、一定の伝送速度を有している。この圧縮符号が通信路を伝送された後に端末装置にて受信される。そして、この圧縮符号は、デコーダ(復号器)1302に復号され、マルチチャネル信号が再生される。このときに、エンコーダ1301がいかに効率的な符号化を行って一定の伝送速度の圧縮符号を生成するかが、受信音声の音質を大きく左右する。
例えば日本のデジタル放送などでは、5.1チャネル音声に対して320kbps(キロビット/秒)程度の低いビットレートで原音に近い音質を実現することが求められる。即ち、1チャネルあたりの情報量が少なくなる。このため、各チャネルの情報量を固定値とすると、符号化に多くの情報量が必要なチャネルでは音質が劣化し、逆に少ない情報量で十分なチャネルでは情報量が無駄に使用されることになる。従って、入力信号の性質に応じて各チャネルの情報量を決定する技術が必要となる。
このような課題に対して、聴覚特性を考慮して入力音の知覚エントロピー(又は複雑度)と呼ばれる物理量を算出し、その知覚エントロピーに基づいて各チャネルの情報量を決定する従来技術が知られている。
図14は上記従来技術の構成を示す図、図15はその動作を示す動作フローチャートである。
PE値算出部1401は、チャネル1信号からチャネルN信号までのマルチチャネルの入力信号から、各チャネル信号の知覚エントロピー値PE(1)〜PE(N)を算出する(図15のステップS1501)。
ビット配分制御部1402は、各チャネル信号の知覚エントロピー値PE(1)〜PE(N)に応じて、#1〜#Nのチャネル符号化部1403におけるビット割当Bit(1)〜Bit(N)を決定する(図15のステップS1502)。
#1〜#Nのチャネル符号化部1403は、割り当てられたビット割当Bit(1)〜Bit(N)で、チャネル1信号〜チャネルN信号をそれぞれ符号化する(図15の#1〜#NのステップS1503)。
多重化部1404は、#1〜#Nのチャネル符号化部1403から出力される各チャネルの圧縮符号を多重化し、ビットストリームとして伝送路に出力する(図15のステップS1504)。
知覚エントロピー(PE:Perceptual Entropy)とは、図16(a)に示されるように、入力されたオーディオ信号に含まれる人間の耳には聞こえない音のエネルギーレベルであるマスキングパワーと、オーディオ信号の入力信号パワーの間のエネルギー差を表す物理量である。マスキングパワーは、信号を符号化する場合における許容量子化誤差に対応していることが知られている。そして、PE値は、図16(b)に例示されるように、打楽器音のような信号レベルが急激に変化するアタック音が存在する区間において、大きくなる傾向がある。即ち、PE値が大きい区間では、入力信号パワーとマスキングパワー=許容量子化誤差との差が大きくなるため、より多くの情報量が必要であることを示している。
そこで、図14に示される従来技術では、知覚エントロピーが大きいチャネルには、多くの情報量が必要と判定されて符号化のための情報量が多く割り当てられ、知覚エントロピーが小さいチャネルには、割り当てる情報量が少なくされることにより、合計の情報量を変えずに音質を向上させる。
図17は、図14に示される従来技術においてビット配分制御部1402が実行するビット配分制御の動作説明図である。この図は、説明の簡単化のため、入力信号が3チャネルである場合の例を示している。マルチチャネル全体の使用可能ビット数が、1フレーム(frame)あたり1000ビット(bit)であったとする。そして、各チャネル信号の知覚エントロピー値PE(1)、PE(2)、PE(3)がそれぞれ、30、50、20であったとする。この結果、図14に示される#1〜#N=#3のチャネル符号化部1403におけるビット割当Bit(1)〜Bit(N)=Bit(3)は、上記各PE値の比で決定され、それぞれ300ビット、500ビット、200ビットとされる。
上記従来技術に関連して、下記の特許文献が開示されている。
特表2004−514180号公報 特開2001−343997号公報 特開2004−21153号公報 特開2001−77698号公報
しかし、知覚エントロピーを用いた従来のビット配分制御技術では、PE値によって推定されるビット数と実際に必要なビット数の間には推定誤差が発生する。
例えば図18に示されるように、チャネル2では、PE値により推定された配分ビット数のほうが、実際の符号化において必要なビット数(=量子化誤差が許容量子化誤差(マスキングパワー)以下になるビット数)よりも多い。これに対して、チャネルNでは、実際の符号化において必要なビット数のほうが、PE値により推定された配分ビット数よりも多い。この場合、チャネル2では、ビット数が多く配分されすぎてしまうのに対して、チャネルNでは、ビット不足により量子化誤差が増大し音質が劣化してしまう。
この傾向は、特に低レート条件(使用できるビット数が少ない)において顕著であり、劣化チャネルの位置によっては劣化が知覚されやすくなるという問題点を有していた。
開示する技術が解決しようとする課題は、ビット不足による量子化誤差の増大を抑制することにある。
開示する技術の態様は、複数チャネルのオーディオ信号を符号化するオーディオ符号化装置又は方法を前提とする。
適応ビット配分制御部は、各チャネルのオーディオ信号に割り当てる符号化ビット数を、各チャネルのオーディオ信号の知覚エントロピーに応じて適応的に制御する。
固定ビット配分制御部は、各チャネルのオーディオ信号に割り当てる符号化ビット数を、予め定められた配分で固定的に制御する。
チャネル符号化部は、適応ビット配分制御部で割り当てられた適応配分ビット数と、固定ビット配分制御部で割り当てられた固定配分ビット数とに基づいて、各チャネルのオーディオ信号を符号化する。
開示した技術によれば、5.1チャネルオーディオ信号等の複数チャネル入力信号に対する符号化において、入力信号に依存した適応ビット配分制御に加え、入力信号に依存しない固定ビット配分制御を併用することにより、固定的に(常時)使用可能なビットを保証することが可能となる。
また、適応ビット配分+固定ビット配分においてもなおビット不足が生じた場合には、ビットリザーバ部より不足ビット数を補充でき、逆に余ったビット数はビットリザーバ部に蓄積して以降の符号化に流用することが可能となる。
このようにして、従来の知覚エントロピー値のみによる適応ビット配分に比べ、推定誤差によるビット不足を抑制し、マルチチャネル入力信号に対して最適なビット配分が可能となるため、安定した音質を実現することが可能となる。
以下、実施形態について詳細に説明する。
図1は、第1の実施形態の構成図、図2はその動作を示す動作フローチャートである。
PE値算出部101は、チャネル1信号からチャネルN信号までのマルチチャネルの入力信号から、各チャネル信号の知覚エントロピー値PE(1)〜PE(N)を算出する(図2のステップS201)。
適応ビット配分制御部102は、各チャネル信号の知覚エントロピー値PE(1)〜P
E(N)に応じて、適応配分ビット割当aBit(1)〜aBit(N)を決定する(図2のステップS202)。
固定ビット配分制御部103は、予め設定した固定配分比により固定配分ビット割当fBit(1)〜fBit(N)を決定する(図2のステップS203)。
ビット配分決定部104は、適応配分ビット割当と固定配分ビット割当を統合して、#1〜#Nのチャネル符号化部105における最終配分ビット割当Bit(1)〜Bit(N)を決定する(図2のステップS204)。
一方、#1〜#Nのチャネルビットリザーバ107は、#1〜#Nのチャネル符号化部105における不足ビット数を補償する。ビットリザーバ106は、多重化部108でのビットストリームの生成結果に基づいて、チャネルビットリザーバ107に余剰ビットを供給する。ビットリザーバ106及びチャネルビットリザーバ107の更に具体的な動作については後述する。
図3は、第1の実施形態におけるビット配分制御の効果説明図である。
第1の実施形態では、PE値より推定された適応配分ビット数に対して、チャネル毎に予め設定した固定配分比による固定配分ビット数が併用される。前者は、マルチチャネルの入力信号に依存し、後者は、入力信号に依存しない。
このように、第1の実施形態では、各チャネルにおいて入力に依存せず、固定的に常時使用可能なビットが保証される。これにより、PE値による推定誤差が補償される。
このときの固定配分比は、チャネル配置の主観的な音質の影響度に基づいて決定することができる。これは、入力信号の変動には依存しないパラメータである。
図4は、第1の実施形態におけるビット配分制御の動作説明図、図5は、その動作を示す動作フローチャートである。図4では、説明の簡単化のため、入力信号が3チャネルである場合の例が示されている。
マルチチャネル全体の使用可能ビット数が、1フレーム(frame)あたり1000ビット(bit)であったとする。そして、適応配分用ビットとして600ビットが割り当てられ、固定配分用ビットとして400ビットが割り当てられるとする。
今、各チャネル信号の知覚エントロピー値PE(1)、PE(2)、PE(3)がそれぞれ、30、50、20であったとする。この結果、適応ビット配分制御部102が決定する適応配分ビット割当aBit(1)〜aBit(3)は、適応配分用ビット600ビットから上記各PE値の比で各配分が決定され、それぞれ120ビット、300ビット、180ビットとされる。
一方、固定ビット配分制御部103が決定する固定配分ビット割当fBit(1)〜fBit(N)は、チャネル毎に予め設定した固定配分比「チャネル1=1対チャネル2=1対チャネル3=2」で各配分が決定され、それぞれ100ビット、100ビット、200ビットとされる。
この結果、ビット配分決定部104が最終的に決定する#1〜#3のチャネル符号化部105におけるビット割当Bit(1)〜Bit(3)は、各チャネル毎の適応配分ビット割当と固定配分ビット割当が加算されることにより算出される。即ち、#1〜#3のチャネル符号化部105におけるビット割当Bit(1)〜Bit(3)は、それぞれ220ビット、400ビット、380ビットとされる。
図5は、図1のビットリザーバ106及びチャネルビットリザーバ107によって実現されるビット補充制御の動作を示す動作フローチャートであり、図6は、その動作説明図である。
まず、ビットリザーバ106は、多重化部108から出力されるビットストリームより、前フレーム以前に#1〜#Nのチャネルビットリザーバ107にて蓄積されたビットを合算してリザーブする。そして、ビットリザーバ106は、現フレームにおいて、事前に設定した配分比を用いて、上述の合算したリザーブビットを、#1〜#Nのチャネルビットリザーバ107に、チャネル毎の蓄積ビットとして配分する。
#1〜#Nのチャネルビットリザーバ107及びビットリザーバ106は、図5の動作フローチャートで示される動作を実行する。
まず、#1〜#Nのチャネルビットリザーバ107はそれぞれ、#1〜#Nのチャネル符号化部105に対して、符号化を指示する(図5のステップS501)。この結果、#1〜#Nのチャネル符号化部105はそれぞれ、チャネル1信号からチャネルN信号までの各入力信号を、ビット配分決定部104によって配分された各ビット割当Bit(1)〜Bit(N)にて符号化する。この場合の符号化方式としては、例えばAAC方式が採用される。
次に、#1〜#Nのチャネルビットリザーバ107は、#1〜#Nのチャネル符号化部105において各々、符号化に必要とされたビット数が上記割当てビットよりも大きいか否か、即ちビット不足が生じたか否かを判定する(図5のステップS502)。
ビット不足が生じておらずステップS502の判定がNOとなったチャネルビットリザーバ107は、余剰ビット=(割当てビット−必要ビット)をビットリザーバ106に通知する。この結果、ビットリザーバ106は、上記余剰ビットを蓄積ビットに累算して、現フレームのそのチャネルに対する処理を終了する(図5のステップS503)。
一方、ビット不足が生じてステップS502の判定がYESとなったチャネルビットリザーバ107は、そのビット不足分を補充可能であるか否かを判定する。即ち、チャネルビットリザーバ107は、(必要ビット−割当てビット)が、そのチャネルビットリザーバ107における蓄積ビット以下であるか否かを判定する(図5のステップS504)。
ビット補充が可能でステップS504の判定がYESなら、そのチャネルビットリザーバ107での割当てビット=必要ビットとすると共に、補充したビット分(必要ビット−割当ビット)を蓄積ビットから減算して、そのチャネルでの新たな蓄積ビットの値とする(図5のステップS505)。これにより、そのチャネルビットリザーバ107に対応するチャネル符号化部105において、新たな割当てビットでの符号化が行われることになる。
一方、ビット補充が不可能でステップS504の判定がNOなら、そのチャネルビットリザーバ107に対応するチャネル符号化部105に対して、量子化ステップ数を、量子化の結果必要となる必要ビットが割当てビット以下になるように変更して、誤差を許容した再度の符号化を指示する(図5のステップS506)。
以上のビットリザーブ制御により、図6に示されるように、図1の固定ビット配分制御部103、適応ビット配分制御部102、及びビット配分決定部104によるビット配分によってしてもなお生じるビット不足分を、各チャネルビットリザーバ107から補充することができる。
図7は、第1の実施形態による音質改善の効果を示した図である。この結果は、5.1チャネル48KHzサンプリングの10種類の入力音源に対するものである。第1の実施形態により、ODG値で、音源によって最大で+0.5ポイント以上、平均で+0.13ポイントの改善が得られた。これにより、様々な音源に対する全体的な性能改善が期待できる。主観的にも局所的な音質劣化が抑制され、安定した音質が得られた。ODG(Objective Difference Grade:主観的劣化度合)は、国際標準規格ITU−R勧告BS.1387−1で規定のPEAQ(Perceptual Evaluation of Audio Quality)法による測定値である。この測定方式では、原音信号に対する復号信号(デコード信号)の符号化による誤差歪み(=音質)を、聴覚特性に基づいて客観的に測定し0〜4値のODG値が出力される。ODG値が0に近いほど音質が良いことを示している。
図8は、第2の実施形態の構成図である。この構成は、図1に示される第1の実施形態の構成を更に詳細化したものである。図8において、図1と同じ部分には同じ番号が付されている。
図8において、T/F変換部801は、入力信号をフレーム毎に分割した信号Input(n,t)を、周波数領域(=周波数スペクトル)信号spec(n,f)に変換する。ここで、nはチャネル(n=1〜N)であり、tは時間サンプル(t=0〜T)であり、fは周波数サンプル(f=0〜F)である。
聴覚分析部802は、T/F変換部801から出力される周波数領域信号spec(n,f)からスペクトルパワーspec_pow(n,f)を算出する。また、聴覚分析部802は、人間の聴覚特性に基づいて、上記スペクトルパワーspec_pow(n,f)から人間の耳には知覚されない電力値であるマスキングパワーmask_pow(n,f)を周波数サンプル毎に算出する。そして、聴覚分析部802は、算出したスペクトルパワーspec_pow(n,f)とマスキングパワーmask_pow(n,f)を、PE値算出部101へ出力する。
PE値算出部101は、各チャネルのスペクトルパワーspec_pow(n,f)とマスキングパワーmask_pow(n,f)から、各チャネル信号の知覚エントロピー値PE(1)〜PE(N)を算出する。PE値の算出処理は例えば、国際標準規格であるMPEG−2 AAC ISO/IEC 13818−7:2006(E)のAnnex
C (Encoder)のC.1 Psychoacoustic Model として公開されている方法を用いることができる。
適応ビット配分制御部102、固定ビット配分制御部103、及びビット配分決定部104の動作は、図1に示される第1の実施形態の場合と同様である。
チャネル符号化部105、多重化部108、ビットリザーバ106、及びチャネルビットリザーバ107の動作も、図1に示される第1の実施形態の場合と同様である。
図9は、第3の実施形態の構成図である。この構成は、図8に示される第2の実施形態の構成をベースにした別の実施形態である。図9において、図1及び図8と同じ部分には同じ番号が付されている。
本実施形態では、現フレームで、T/F変換部801、聴覚分析部802、及びPE値算出部101での各チャネルの実行結果を遅延付加部803で遅延させて得られる過去フレームの知覚エントロピー値PE(1)〜PE(N)が、適応ビット配分制御部102に入力される。この結果、現フレームでのビット配分制御動作において、T/F変換部801、聴覚分析部802、及びPE値算出部101での各処理が実行される前に、各チャネルのビット配分を決定できるという利点を有する。これにより、上記各部801、802、及び101を含めて各チャネルの並列処理が可能となり、チャネル数増大に伴う符号化処理の負荷増大を分散させることができる。従って、複数のCPUを使った並列処理に適した構成を実現することができる。
上述の第2及び第3の実施形態(図8、図9)の動作の詳細について、以下に説明する。なお、第2の実施形態と第3の実施形態は、過去のフレームの知覚エントロピー値を使用するか否かの違いだけのため、以下の動作は2つの実施形態に共通の動作である。
まず、図8又は図9の適応ビット配分制御部102は、1フレームでの使用可能ビットallowed_bitと適応/固定配分比AdFx_RATE(0.0〜1.0)から、適応ビット配分用のビット数adaptive_bitを算出する。
次に、適応ビット配分制御部102は、数1式の結果を用いて、各チャネルの知覚エントロピー値PE(n)に応じて、下記数2式に基づいて、適応配分ビットaBit(n)を求める。
ここで、PE_Totalは、各PE(n)値の全チャネルでの総和である。各チャネルのaBit(n)は、適応ビット配分用のビット数adaptive_bitを各チャネルのPE(n)とPE_Totalとの比で配分したビット配分値である。
次に、固定ビット配分制御部103は、下記数3式に基づいて、固定配分用のビット数fixed_bitを求める。
更に、図8又は図9の固定ビット配分制御部103は、事前に設定した固定配分比fix_RATE(n)を用いて各チャネルの固定配分ビットfBit(n)を、下記数4式により算出する。
ここで、fix_RATE(n)の全チャネルの総和は1である。なお、固定配分比fix_RATE(n)は等配分比でなくてもよく、チャネル間で異なる比を用いてもよい。
例えば、5.1チャネルのようなチャネル構成では、前方に配置されるチャネルが人間の聴覚的に重要になる。このような場合には、前方チャネルのビット配分比を大きくすることで、人間の聴覚特性に合わせたビット配分が実施され主観的な音質を高めることが可能となる。
上述の1フレームでの使用可能ビットallowed_bitと、適応ビット配分用のビット数adaptive_bit、固定配分用のビット数fixed_bitと、適応/固定配分比AdFx_RATEとの関係は、図10に示される通りである。
次に、図8又は図9のビット配分決定部104は、適応ビット配分制御部102が算出した適応配分ビットaBit(n)と、固定ビット配分制御部103が算出した固定配分ビットfBit(n)を加算し、各チャネル毎のビット割当Bit(n)を算出する。即ち、下記数5式に示される通りである。
次に、図8又は図9のビットリザーバ106は、事前に設定した配分比rsv_RATE(n)を用いて、ビットリザーバ106に蓄積しているリザーブビットresv_bit_allを各チャネルのチャネルビットリザーバresv_bit(n)に配分する。即ち、下記数6式に示される通りである。
上記配分ビット数は、固定配分比fix_RATE(n)の場合と同様の理由で、等配分比でなくてもよく、チャネル間で異なる比を用いてもよい。
図11は、図8又は図9の各チャネル符号化部105の構成を示す図である。この構成は、各チャネルnで独立して以下の処理を実行する。
量子化ステップ決定部1101は、T/F変換部801にて得られるスペクトルspec(n,f)と、聴覚分析部802にて得られるマスクパワーmask_pow(n,f)を用いて、各帯域の量子化ステップquant_step(f)を決定する。即ち、下記数7式に示される通りである。
ここで、F( )は、任意の量子化ステップ算出関数である。この関数は、spec(n,f)を量子化した際の量子化誤差パワーがマスキングパワーmask_pow(n,f)を超えないような量子化ステップquant_step(f)を、各周波数別に算出するものである。
次に、量子化部1102は、量子化ステップ決定部1101で決定された各帯域の量子化ステップquant_step(f)に基づいて、T/F変換部801にて得られる周
波数スペクトルspec(n,f)を符号化する。この結果、量子化部1102は、符号データquant_code(n,f)を生成して出力する。
符号長(符号ビット)算出部1103は、上記符号データquant_code(n,f)の合計ビット長quant_bit(n)(=符号化ビット数)を、下記数8式に基づいて算出する。
ここで、LEN( )は、符号データのビット長さ算出関数である。符号化方法としてはたとえばハフマン符号化が使用できる。
図12は、図8又は図9のビットリザーバ106及びチャネルビットリザーバ107によって実現されるビット補充制御の動作を示す動作フローチャートである。この図の各ステップにおいて、「′」を除いたステップ番号は、図5に示されるものと同じである。即ち、図12の動作フローチャートの各ステップの処理は、図5の動作フローチャートの各ステップの処理を更に具体的に表したものである。
まず、#1〜#Nのチャネルビットリザーバ107はそれぞれ、上述した図11に示される#1〜#Nのチャネル符号化部105に対して、符号化を指示する(図12のステップS501′)。この結果、#1〜#Nのチャネル符号化部105はそれぞれ、チャネル1信号からチャネルN信号までの各入力信号を、ビット配分決定部104によって配分された各ビット割当Bit(1)〜Bit(N)にて符号化する。
次に、#1〜#Nのチャネルビットリザーバ107は、#1〜#Nのチャネル符号化部105において各々、符号化に必要とされたビット数quant_bit(n)が上記割当てビットBit(n)よりも大きいか否か、即ちビット不足が生じたか否かを判定する(図12のステップS502′)。
ビット不足が生じておらずステップS502′の判定がNOとなったチャネルビットリザーバ107は、余剰ビットresv_bit(n)=Bit(n)−quant_bit(n)をビットリザーバ106に通知する。この結果、ビットリザーバ106は、上記余剰ビットresv_bit(n)を蓄積ビットに累算して、現フレームのそのチャネルに対する処理を終了する(図12のステップS503′)。
一方、ビット不足が生じてステップS502′の判定がYESとなったチャネルビットリザーバ107は、そのビット不足分を補充可能であるか否かを判定する。即ち、チャネルビットリザーバ107は、(quant_bit(n)−Bit(n))が、そのチャネルビットリザーバ107における蓄積ビットresv_bit(n)以下であるか否かを判定する(図12のステップS504′)。
ビット補充が可能でステップS504′の判定がYESなら、そのチャネルビットリザーバ107での割当てビットBit(n)=quant_bit(n)とする。これと共に、補充したビット分(quant_bit(n)−Bit(n))を蓄積ビットresv_bit(n)から減算し、そのチャネルでの新たな蓄積ビットresv_bit(n)とする(図12のステップS505′)。
一方、ビット補充が不可能でステップS504′の判定がNOなら、そのチャネルビットリザーバ107に対応するチャネル符号化部105内の量子化ステップ決定部1101(図11)に対して、次のような処理が行われる。即ち、量子化ステップ数quant_step(n,f)について、量子化の結果必要となる必要ビットquant_bit(n)が割当てビットBit(n)以下になるように変更される(図12のステップS506′)。これにより、図11の量子化部1102にて、再度の符号化が実行される。
最後に、ビットリザーバ106は、次フレーム用に、下記数9式に示されるように、各チャネルビットリザーバ107の蓄積ビットresv_bit(n)の総和resv_bit_allを算出し、ビットリザーバ106内に蓄積する。
以上のようにして、従来の知覚エントロピー値のみによる適応ビット配分に比べ、推定誤差によるビット不足を抑制し、マルチチャネル入力信号に対して最適なビット配分が可能となるため、安定した音質を実現することが可能となる。
第1の実施形態の構成図である。 第1の実施形態の動作を示す動作フローチャートである。 第1の実施形態におけるビット配分制御の効果説明図である。 第1の実施形態におけるビット配分制御の動作説明図である。 ビットリザーバ106及びチャネルビットリザーバ107によって実現されるビット補充制御の動作を示す動作フローチャートである。 ビットリザーバ106及びチャネルビットリザーバ107によって実現されるビット補充制御の動作説明図である。 第1の実施形態による音質改善の効果を示した図である。 第2の実施形態の構成図である。 第3の実施形態の構成図である。 ビット配分の関係図である。 チャネル符号化部105の構成を示す図である。 ビットリザーバ106及びチャネルビットリザーバ107によって実現されるビット補充制御の動作を示す動作フローチャートである。 5.1チャネル音声の符号化/復号の説明図である。 知覚エントロピーに基づいて各チャネルの情報量を決定する従来技術の構成図である。 知覚エントロピーに基づいて各チャネルの情報量を決定する従来技術の動作を示す動作フローチャートである。 知覚エントロピーの説明図である。 従来技術におけるビット配分制御の動作説明図である。 従来技術の問題点の説明図である。
符号の説明
101、1401 PE値算出部
102 適応ビット配分制御部
103 固定ビット配分制御部
104 ビット配分決定部
105、1403 チャネルi符号化部
106 ビットリザーバ
107 チャネルiビットリザーバ
108、1404 多重化部
801 T/F変換部
802 聴覚分析部
901 遅延付加部
1402 ビット配分制御部

Claims (6)

  1. 複数チャネルのオーディオ信号を符号化するオーディオ符号化装置において、
    各チャネルのオーディオ信号に割り当てる符号化ビット数を、該各チャネルのオーディオ信号の知覚エントロピーに応じて適応的に制御する適応ビット配分制御部と、
    前記各チャネルのオーディオ信号に割り当てる符号化ビット数を、予め定められた配分で固定的に制御する固定ビット配分制御部と、
    前記適応ビット配分制御部で割り当てられた適応配分ビット数と、前記固定ビット配分制御部で割り当てられた固定配分ビット数とに基づいて、前記各チャネルのオーディオ信号を符号化するチャネル符号化部と、
    を含むことを特徴とするオーディオ符号化装置。
  2. 前記チャネル符号化部にて割り当てられた符号化ビット数より、符号化に必要な符号化ビット数が少ない場合に、その差分となるビット数を余剰ビット数として蓄積し、前記チャネル符号化部に割り当てられた符号化ビット数が、前記符号化に必要なビット数よりも少ない場合に、前記余剰ビット数を割り当てるビットリザーバ部を更に含む、
    ことを特徴とする請求項1に記載のオーディオ符号化装置。
  3. 前記固定ビット配分制御部は、前記各チャネルのオーディオ信号に割り当てる符号化ビット数の配分を、前記各チャネルのチャネル配置の聴覚的な重みに基づいて決定する、
    ことを特徴とする請求項1又は2の何れか1項に記載のオーディオ符号化装置。
  4. 前記適応ビット配分制御部は、前記各チャネルのオーディオ信号の過去フレームにおいて算出した知覚エントロピーに応じて、現フレームにおけるて前記各チャネルのオーディオ信号に割り当てる符号化ビット数を適応的に制御する、
    ことを特徴とする請求項1乃至3の何れか1項に記載のオーディオ符号化装置。
  5. 複数チャネルのオーディオ信号を符号化するオーディオ符号化方法において、
    各チャネルのオーディオ信号に割り当てる符号化ビット数を、該各チャネルのオーディオ信号の知覚エントロピーに応じて適応的に制御する適応ビット配分制御ステップと、
    前記各チャネルのオーディオ信号に割り当てる符号化ビット数を、予め定められた配分で固定的に制御する固定ビット配分制御ステップと、
    前記適応ビット配分制御ステップで割り当てられた適応配分ビット数と、前記固定ビット配分制御ステップで割り当てられた固定配分ビット数とに基づいて、前記各チャネルのオーディオ信号を符号化するチャネル符号化ステップと、
    を含むことを特徴とするオーディオ符号化方法。
  6. 前記チャネル符号化ステップにて割り当てられた符号化ビット数より、符号化に必要な符号化ビット数が少ない場合に、その差分となるビット数を余剰ビット数として蓄積し、前記チャネル符号化部に割り当てられた符号化ビット数が、前記符号化に必要なビット数よりも少ない場合に、前記余剰ビット数を割り当てるビットリザーバステップを更に含む、
    ことを特徴とする請求項5に記載のオーディオ符号化方法。
JP2008335027A 2008-12-26 2008-12-26 オーディオ符号化装置 Expired - Fee Related JP5446258B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2008335027A JP5446258B2 (ja) 2008-12-26 2008-12-26 オーディオ符号化装置
US12/634,862 US20100169080A1 (en) 2008-12-26 2009-12-10 Audio encoding apparatus
EP09179879A EP2202724B1 (en) 2008-12-26 2009-12-18 Audio encoding apparatus and method
AT09179879T ATE529855T1 (de) 2008-12-26 2009-12-18 Audiocodierungsvorrichtung und -verfahren

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008335027A JP5446258B2 (ja) 2008-12-26 2008-12-26 オーディオ符号化装置

Publications (2)

Publication Number Publication Date
JP2010156837A true JP2010156837A (ja) 2010-07-15
JP5446258B2 JP5446258B2 (ja) 2014-03-19

Family

ID=41809282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008335027A Expired - Fee Related JP5446258B2 (ja) 2008-12-26 2008-12-26 オーディオ符号化装置

Country Status (4)

Country Link
US (1) US20100169080A1 (ja)
EP (1) EP2202724B1 (ja)
JP (1) JP5446258B2 (ja)
AT (1) ATE529855T1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013037111A (ja) * 2011-08-05 2013-02-21 Fujitsu Semiconductor Ltd オーディオ信号符号化方法および装置
JP2013045067A (ja) * 2011-08-26 2013-03-04 Fujitsu Ltd 符号化装置、符号化方法および符号化プログラム
JP2015520872A (ja) * 2012-05-15 2015-07-23 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数サブストリームをもつマルチチャネル・オーディオ信号の効率的なエンコードおよびデコード
CN104937661A (zh) * 2013-01-24 2015-09-23 谷歌公司 压缩多声道音频的重排和比特率分配
JP2017503214A (ja) * 2014-01-13 2017-01-26 ノキア テクノロジーズ オサケユイチア マルチ・チャンネル・オーディオ信号分類器

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5609591B2 (ja) * 2010-11-30 2014-10-22 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
EP2898506B1 (en) 2012-09-21 2018-01-17 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
WO2014210284A1 (en) 2013-06-27 2014-12-31 Dolby Laboratories Licensing Corporation Bitstream syntax for spatial voice coding
US20150025894A1 (en) * 2013-07-16 2015-01-22 Electronics And Telecommunications Research Institute Method for encoding and decoding of multi channel audio signal, encoder and decoder
WO2017144246A1 (en) * 2016-02-24 2017-08-31 Dolby International Ab Method and system for bit reservoir control in case of varying metadata
US10573324B2 (en) 2016-02-24 2020-02-25 Dolby International Ab Method and system for bit reservoir control in case of varying metadata

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08204574A (ja) * 1995-01-09 1996-08-09 Daewoo Electron Co Ltd 適応的符号化システム
JPH09325797A (ja) * 1996-06-06 1997-12-16 Sony Cinema Prod Corp マルチチャンネルオーディオデータの符号化方法及びその符号化装置
JP2000078018A (ja) * 1998-06-15 2000-03-14 Matsushita Electric Ind Co Ltd 音声符号化方式、音声符号化装置、及びデ―タ記録媒体
JP2004309921A (ja) * 2003-04-09 2004-11-04 Sony Corp 符号化装置、符号化方法及びプログラム
JP2006145782A (ja) * 2004-11-18 2006-06-08 Canon Inc オーディオ信号符号化装置および方法
JP2006345063A (ja) * 2005-06-07 2006-12-21 Oki Electric Ind Co Ltd 量子化装置、符号化装置、量子化方法および符号化方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5109417A (en) * 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
TW295747B (ja) * 1994-06-13 1997-01-11 Sony Co Ltd
JP3328532B2 (ja) * 1997-01-22 2002-09-24 シャープ株式会社 デジタルデータの符号化方法
EP0966109B1 (en) * 1998-06-15 2005-04-27 Matsushita Electric Industrial Co., Ltd. Audio coding method and audio coding apparatus
JP2001077698A (ja) 1999-09-08 2001-03-23 Matsushita Electric Ind Co Ltd オーディオ符号化アプリケーションに対するブロックサイズ決定方法
US7548851B1 (en) * 1999-10-12 2009-06-16 Jack Lau Digital multimedia jukebox
JP4021124B2 (ja) 2000-05-30 2007-12-12 株式会社リコー デジタル音響信号符号化装置、方法及び記録媒体
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
JP2004021153A (ja) 2002-06-20 2004-01-22 Toshiba Corp オーディオ信号符号化装置
WO2005004113A1 (ja) * 2003-06-30 2005-01-13 Fujitsu Limited オーディオ符号化装置
WO2006054583A1 (ja) * 2004-11-18 2006-05-26 Canon Kabushiki Kaisha オーディオ信号符号化装置および方法
JP4810335B2 (ja) * 2006-07-06 2011-11-09 株式会社東芝 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08204574A (ja) * 1995-01-09 1996-08-09 Daewoo Electron Co Ltd 適応的符号化システム
JPH09325797A (ja) * 1996-06-06 1997-12-16 Sony Cinema Prod Corp マルチチャンネルオーディオデータの符号化方法及びその符号化装置
JP2000078018A (ja) * 1998-06-15 2000-03-14 Matsushita Electric Ind Co Ltd 音声符号化方式、音声符号化装置、及びデ―タ記録媒体
JP2004309921A (ja) * 2003-04-09 2004-11-04 Sony Corp 符号化装置、符号化方法及びプログラム
JP2006145782A (ja) * 2004-11-18 2006-06-08 Canon Inc オーディオ信号符号化装置および方法
JP2006345063A (ja) * 2005-06-07 2006-12-21 Oki Electric Ind Co Ltd 量子化装置、符号化装置、量子化方法および符号化方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013037111A (ja) * 2011-08-05 2013-02-21 Fujitsu Semiconductor Ltd オーディオ信号符号化方法および装置
US9224401B2 (en) 2011-08-05 2015-12-29 Socionext Inc. Audio signal encoding method and device
JP2013045067A (ja) * 2011-08-26 2013-03-04 Fujitsu Ltd 符号化装置、符号化方法および符号化プログラム
JP2015520872A (ja) * 2012-05-15 2015-07-23 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数サブストリームをもつマルチチャネル・オーディオ信号の効率的なエンコードおよびデコード
US9779738B2 (en) 2012-05-15 2017-10-03 Dolby Laboratories Licensing Corporation Efficient encoding and decoding of multi-channel audio signal with multiple substreams
CN104937661A (zh) * 2013-01-24 2015-09-23 谷歌公司 压缩多声道音频的重排和比特率分配
JP2016509697A (ja) * 2013-01-24 2016-03-31 グーグル インコーポレイテッド 多重チャンネルオーディオを圧縮するための再編成とレート割り当て
JP2017503214A (ja) * 2014-01-13 2017-01-26 ノキア テクノロジーズ オサケユイチア マルチ・チャンネル・オーディオ信号分類器

Also Published As

Publication number Publication date
US20100169080A1 (en) 2010-07-01
EP2202724A1 (en) 2010-06-30
EP2202724B1 (en) 2011-10-19
JP5446258B2 (ja) 2014-03-19
ATE529855T1 (de) 2011-11-15

Similar Documents

Publication Publication Date Title
JP5446258B2 (ja) オーディオ符号化装置
JP7010885B2 (ja) 音声または音響符号化装置、音声または音響復号装置、音声または音響符号化方法及び音声または音響復号方法
TWI505262B (zh) 具多重子流之多通道音頻信號的有效編碼與解碼
JP6474845B2 (ja) 軽減された計算量の変換器snr計算
TWI446338B (zh) 可擴縮音訊處理方法及裝置
JP2004522198A (ja) 音声符号化方法
US9530422B2 (en) Bitstream syntax for spatial voice coding
KR100979624B1 (ko) 오디오 부호화 장치 및 오디오 부호화 방법
US20100054347A1 (en) Device and method for generating a signal to be transmitted or a signal to be decoded
JP5609591B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
EP1366626B1 (en) Video and audio transcoder
US8644526B2 (en) Audio signal decoding device and balance adjustment method for audio signal decoding device
JP2004309921A (ja) 符号化装置、符号化方法及びプログラム
US20070198256A1 (en) Method for middle/side stereo encoding and audio encoder using the same
JP2007004050A (ja) ステレオ信号の符号化装置及び符号化プログラム
JP2002014696A (ja) 制御装置及び制御方法
JP2004004554A (ja) オーディオ符号化器とその符号化処理プログラム
JP2009103974A (ja) マスキングレベル算出装置、符号化装置、マスキングレベル算出方法およびマスキングレベル算出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131216

R150 Certificate of patent or registration of utility model

Ref document number: 5446258

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees