JP2008065162A - オーディオ符号化装置 - Google Patents

オーディオ符号化装置 Download PDF

Info

Publication number
JP2008065162A
JP2008065162A JP2006244578A JP2006244578A JP2008065162A JP 2008065162 A JP2008065162 A JP 2008065162A JP 2006244578 A JP2006244578 A JP 2006244578A JP 2006244578 A JP2006244578 A JP 2006244578A JP 2008065162 A JP2008065162 A JP 2008065162A
Authority
JP
Japan
Prior art keywords
code amount
quantization
step size
unit
global gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006244578A
Other languages
English (en)
Other versions
JP5224666B2 (ja
Inventor
Shiyouko Osada
将高 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006244578A priority Critical patent/JP5224666B2/ja
Priority to US11/647,972 priority patent/US20080065376A1/en
Publication of JP2008065162A publication Critical patent/JP2008065162A/ja
Application granted granted Critical
Publication of JP5224666B2 publication Critical patent/JP5224666B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】量子化ステップサイズの探索回数を削減して平均処理量を軽減するとともに、探索精度を向上させたオーディオ符号化装置を提供する。
【解決手段】適応収束処理Aとして、量子化ステップサイズを操作するためのグローバルゲインを求め、この求めたグローバルゲインに基づいて周波数スペクトルを量子化し、この量子化によって得た量子化データの発生符号量を求める。そしてこの発生符号量をターゲット符号量と比較して所定の条件を満たさない場合には、再び、適応収束処理Aを実施するが、それに際して、グローバルゲインを1だけ変化させた時の発生符号量変化量αを求め、これに基づいて前回の適応収束処理Aで用いてグローバルゲインを補正し、これを用いて適応収束処理Aを実施するようにしたものである。
【選択図】 図3

Description

この発明は、音声信号を符号化するオーディオ符号化装置に関する。
オーディオデータを符号化する場合、オーディオ符号化装置は、ターゲットビットレートを満たすように量子化ステップサイズを決定しており、2分探索によって最適な量子化ステップサイズを求めることがAAC(Advanced Audio Coding)で用いられているが、これ以外にも、例えば、1回目の量子化ステップサイズを予測により求めて、量子化・ビットカウントを実行し、そして、ターゲットビットレートを満たしていれば、符号化を終了する。一方、ターゲットビットレートを満たしていなければ、2回目の予測を実行する技術も開示されている。
そして、この技術では、1回目の符号量とターゲットビットレートとの差分がN以上なら、符号量が1回目より少なくなるように、2回目の量子化ステップサイズの予測を行い、一方、上記差分がN以内なら、1回目の量子化ステップを1ステップだけ更新した2回目の量子化ステップサイズの予測を行うようにしている(特許文献1参照)。
なお、特許文献1の手法は、差分閾値Nが小さい場合、収束速度は予測の精度に依存するが、予測方法を示していない。また、特許文献1の手法では、上記いずれの場合においても、差分閾値N以上で予測によってターゲットを満たした場合、ターゲット付近で予測が終了しているとは限らないという問題があった。
特許第2655063号公報。
従来のオーディオ符号化装置では、量子化ステップサイズの探索にかかる平均処理量が多く、またターゲット付近で探索が終了しているとは限らないという問題があった。
この発明は上記の問題を解決すべくなされたもので、量子化ステップサイズの探索回数を削減して平均処理量を軽減するとともに、探索精度を向上させたオーディオ符号化装置を提供することを目的とする。
上記の目的を達成するために、この発明は、オーディオ信号を時間領域の信号から周波数領域の周波数スペクトラムに変換する変換手段と、周波数スペクトラムに基づいてターゲット符号量を求める第1検出手段と、周波数スペクトラムに基づいてスケールファクタを求める第2検出手段と、量子化手段と、第3検出手段と、補正手段とを備え、これらがループを形成してループ制御を行うループ制御手段とを具備し、量子化手段は、補正手段で補正された量子化ステップサイズとスケールファクタとに基づいて、周波数スペクトラムを量子化して量子化データを得て、第3検出手段は、ループ制御毎に量子化手段によって得られる量子化データに基づいて、このデータの符号量の変化量を求め、補正手段は、第3検出手段が求めた変化量とターゲット符号量とに基づいて、量子化手段で用いる量子化ステップサイズを補正するように構成した。
以上述べたように、この発明では、ループ制御毎に量子化手段によって得られる量子化データに基づいて、このデータの符号量の変化量を求め、この求めた変化量とターゲット符号量とに基づいて、量子化手段で用いる量子化ステップサイズを補正するようにしている。
したがって、この発明によれば、量子化データの符号量の変化量に応じて量子化ステップサイズを可変して量子化が行えるので、量子化ステップサイズの探索回数を削減して平均処理量を軽減するとともに、探索精度を向上させることが可能なオーディオ符号化装置を提供できる。
以下、図面を参照して、この発明の一実施形態について説明する。
図1は、この発明の一実施形態に係わるオーディオ符号化装置の構成を示すものである。この例では、AAC(Advanced Audio Coding)エンコーダを例に挙げて説明する。このオーディオ符号化装置は、ブロック切替判定部10と、時間/周波数変換部20と、許容誤差算出部30と、レート制御部40と、スケールファクタ決定部50と、量子化制御部60と、フォーマット部70とを備えている。
ブロック切替判定部10は、入力されたPCM信号(オーディオ信号)の信号特性を検出し、この特性に基づいて、ロングブロックか、あるいはショートブロックを選択する判定を行う。一般的には、アタック音などの過渡的な信号の場合にショートブロックを選択するが、ここでは特に限定しない。この判定結果は、時間/周波数変換部20、許容誤差算出部30、レート制御部40およびフォーマット部70に出力される。
時間/周波数変換部20は、ブロック切替判定部10の判定結果にしたがったブロックで、入力されたPCM信号を時間領域の信号から周波数領域の信号に変換して、上記PCM信号の周波数スペクトルを得る。この周波数スペクトルは、許容誤差算出部30、レート制御部40、スケールファクタ決定部50および量子化制御部60に出力される。
許容誤差算出部30は、心理聴覚モデルに基づいて、上記周波数スペクトルについて、周波数帯域毎に許容される量子化誤差(以下、許容量子化誤差と称する)を算出する。許容される量子化誤差とは、マスキング効果によって聴き手に知覚されにくい範囲の量子化誤差を意味するものであって、これに基づく量子化により、品質を落とさずに符号化ビット数を節約することができる。
レート制御部40は、ブロック切替判定部10で選択したブロック形状と、時間/周波数変換部20で求めた周波数スペクトルに基づいて、現フレームのターゲット符号量(target)を算出する。このターゲット符号量(target)は、量子化制御部60に出力される。
スケールファクタ決定部50は、時間/周波数変換部20で求めた周波数スペクトルの各周波数帯域について、許容誤差算出部30で求めた許容量子化誤差を満たすスケールファクタ(scale_factor[sfb])を算出する。この算出方法は、種々の方法が考えられるが、特に限定されない。
量子化制御部60は、スケールファクタ決定部50で求めたスケールファクタと、レート制御部40で求めたターゲット符号量とに基づいて、時間/周波数変換部20で求めた周波数スペクトルを量子化し、量子化データを得る。量子化制御部60の処理の詳細については、後述する。
フォーマット部70は、量子化制御部60で得た量子化データを、ブロック切替判定部10で選択したブロック形状に基づく規定のシンタックスに従って、符号化情報に変換してこれを一時的に格納し、出力する。
次に、図2および図3を参照して、量子化制御部60の処理の詳細について説明する。図2に、量子化制御部60の構成例を示す。また図3は、図2に示した構成により、量子化制御部60が量子化データを得るまでの処理(量子化制御)を示したフローチャートであって、この処理はフレーム毎に実施する。
まず、ステップ3aでは、量子化ループ制御部64において、初期設定として、ループ回数を示すパラメータnum_loopに初期値「1」を設定し、ステップ3bに移行する。
ステップ3bでは、グローバルゲイン稼動範囲限定部61が、時間/周波数変換部20が出力する周波数スペクトルと、スケールファクタ決定部50で決定したスケールファクタ(scale_factor[sfb])とに基づいて、全帯域共通の量子化ステップを操作するパラメータであるグローバルゲインの稼動範囲(Gmin、Gmax)を限定する。この稼働範囲(Gmin、Gmax)は、グローバルゲイン決定部62および2分探索範囲決定部68に通知される。
より詳細に説明すると、グローバルゲイン稼動範囲限定部61は、上記スケールファクタ(scale_factor[sfb])をAAC符号化における量子化の定義式(下式(1))に代入する。
Figure 2008065162
この式(1)は、変形すると、下式(2)で示すことができる。
Figure 2008065162
この式(2)において、以下の項のフレーム中最大値を求める。ここで、mdct_lineとscale_factor[sfb]は既に決まっている。
Figure 2008065162
そして、上記の項の求まった最大値を下式(3)のようにAmaxとする。
Figure 2008065162
ここで、AACのハフマン符号テーブルのレンジは、0 〜 8191なので、量子化値は下式(4)を満たす必要がある。
Figure 2008065162
量子化値が0、8191となるようなグローバルゲインをそれぞれGmin、Gmaxとして計算を進めると、下式(5)が得られる。
Figure 2008065162
つまり、グローバルゲインの可動範囲は下式(6)によって制限されることになるため、グローバルゲイン稼動範囲限定部61は、この範囲を求めて、グローバルゲインの可動範囲とする。
Figure 2008065162
AACの規格としてのグローバルゲインの可動範囲は、255のレンジがあるので、上式(6)によって探索範囲が3分の1以下に絞られる効果があり、量子化制御の処理量削減が可能となる。後続の量子化制御においては、以上のようにして、グローバルゲイン稼動範囲限定部61が求めた式(6)範囲内で、グローバルゲイン探索が行われる。
ステップ3cでは、グローバルゲイン決定部62が、初期値テーブル、または予測情報に基づいて、グローバルゲイン稼動範囲限定部61が限定した稼働範囲でグローバルゲインを決定し、これを量子化・ビットカウント部63に出力する。なお、初期値テーブルには、前フレームのグローバルゲインを予め保持している。すなわち、1回目の量子化ループでは、前回のループによる予測情報がないため、グローバルゲイン決定部62は、初期値として前フレームのグローバルゲインを設定する。
一方、2回目以降のループにおいてグローバルゲイン決定部62は、後述する適応収束処理Aで求めたグローバルゲイン変更量(Δg)を用いて、下式(7)によって算出した値を、グローバルゲインとする。ここで、prev_global_gainは、前回ループでのグローバルゲインである。
Figure 2008065162
ステップ3dでは、量子化・ビットカウント部63が、ステップ3cでグローバルゲイン決定部62が求めたグローバルゲインと、スケールファクタ決定部50で決定したスケールファクタ(scale_factor[sfb])とに基づいて量子化ステップサイズを決定し、これに基づいて、時間/周波数変換部20が出力する周波数スペクトルを、量子化およびハフマン符号化するとともに、発生符号量のビットカウントを行って、発生符号量(cur_bits)を求める。これによって得られた量子化データおよび発生符号量(cur_bits)と、ステップ3cでグローバルゲイン決定部62が求めたグローバルゲインが量子化ループ制御部64に出力される。
ステップ3eでは、量子化ループ制御部64が、ステップ3dで量子化・ビットカウント部63が求めた発生符号量(cur_bits)基づいて、量子化制御の収束条件を満たしているか否かの判定を行う。すなわち、量子化ループ制御部64は、まずステップ3dで求めた発生符号量(cur_bits)と、レート制御部40で求めたターゲット符号量(target)の差分(sub_bits)を求め、そしてこれと予め設定した閾値(TH_BITS)と比較して、下式(8)を満たすか否かを判定する。
Figure 2008065162
ここで、上式(8)を満たす場合には、所望の発生符号量を実現したものとみなして、量子化・ビットカウント部63から出力された量子化データを、フォーマット部70に出力し、当該処理(量子化制御)を終了する。
一方、上式(8)を満たさない場合、すなわち量子化制御の収束条件を満たさない場合には、ステップ3fに移行する。なお、従来は、下式に示すように、cur_bitsが必ずtarget以下となるよう制御していた。
Figure 2008065162
これに対して、量子化ループ制御部64は、収束条件にマージンを持たせたルーズな制御を行うので、ビットリザーバがアンダーフローしなければ、上式(8)のように、cur_bits>targetの場合でも収束させることができ、音質を維持しつつ収束に要する時間を短縮できる。
ステップ3fでは、量子化ループ制御部64が、ループ回数(num_loop)に応じて、信号特性に応じた適応的なグローバルゲイン予測を行う適応収束処理Aを行うか、最大処理量を保証するために、2分探探索によるグローバルゲイン予測を行う最大ループ数保障処理Bを行うかの判定する。なお、この判定後、ループ回数(num_loop)を1だけインクリメントする。
すなわち、量子化ループ制御部64は、ループ回数(num_loop)が規定値(TH_LOOP)以下の場合は、適応収束処理Aを行うために、量子化・ビットカウント部63から与えられたグローバルゲインと、ターゲット符号量(target)の差分(sub_bits)と、量子化・ビットカウント部63から与えられた発生符号量(cur_bits)を予測情報更新部65に出力し、ステップ3gに移行する。
一方、ループ回数(num_loop)が規定値(TH_LOOP)を越える場合には、量子化ループ制御部64は、最大ループ数保障処理Bによって強制的に一定回数以内で収束させるために、2分探索範囲決定部68に探索範囲の決定を行うように指示し、ステップ3kを行う。
なお、越えたのが初めての場合には、上記指示だけを行う。一方、越えたのが2回目以降の場合には、量子化・ビットカウント部63から量子化ループ制御部64に、後述する最大ループ数保障処理B(2分探索)により得られた発生符号量とグローバルゲインが出力されることになるので、最大ループ数保障処理Bに必要となる上記発生符号量とグローバルゲインを2分探索範囲決定部68に出力する。
ステップ3gでは、予測情報更新部65が、過去のループでのグローバルゲインを保持するとともに、過去のループでの発生符号量(cur_bits)を発生符号量(prev_bits)として保持しており、これらと、量子化ループ制御部64から与えられたグローバルゲインおよび発生符号量(cur_bits)とに基づいて、グローバルゲインを1だけ変化させた時の発生符号量変化量αを求める。
下式(9)は、発生符号量変化量αを求めるための式の一例である。この例では、予測情報更新部65が、前回ループのグローバルゲインと今回ループのグローバルゲインとの差分Δgと、前回ループの発生符号量(prev_bits)と、今回ループの発生符号量(cur_bits)とに基づいて、発生符号量変化量αを求める。
Figure 2008065162
このように直前のループの結果ではなく、さらに前のループの結果を用いるようにしてもよいし、複数の過去のループの結果を用いるようにしてもよい。また、1回目のループにおいては、prev_bitsが不定なので、αの初期値は式(9)によらず、規定の初期値、例えば130ビットに設定してもよい。これは一般音源で符号化した際の経験的な値であるが、初期値の範囲を限定するものではない。
そして、発生符号量変化量αを求めた後は、予測情報更新部65は、この発生符号量変化量αと、量子化ループ制御部64から与えられた差分(sub_bits)と、今回ループの発生符号量(cur_bits)と、前回のループでの発生符号量(prev_bits)と、今回ループのグローバルゲインを選択部66に出力する。この出力後、予測情報更新部65は、次回のループに備えて、今回ループの発生符号量(cur_bits)を、前回のループでの発生符号量(prev_bits)として保持する。グローバルゲインについても同様である。
ステップ3hでは、選択部66が、予測情報更新部65から与えられた今回ループのグローバルゲインを保持するとともに、この時点までに保持しておいた前回ループのグローバルゲインを、前回ループのグローバルゲインとして保持し直す。そして選択部66は、予測情報更新部65から与えられた、前回ループでの発生符号量(prev_bits)と、今回ループでの発生符号量(cur_bits)と、ターゲット符号量とに基づいて、次回ループでのグローバルゲイン変更量予測を予測部67aで行うか、または予測部67bで行うかの選択を行う。
具体的には、選択部66が、今回ループでの発生符号量(cur_bits)が、前回ループでの発生符号量(prev_bits)からターゲット符号量を跨ぐような値になったか否かで判定し、そして、跨がない場合には、ステップ3iに移行し、一方、跨ぐ場合には、ステップ3jに移行する。例えば、図4に示すように、初回のループでは発生符号量がターゲット符号量より少なく、2回目では多い場合、またはその逆の場合に、ステップ3jに移行する。
また跨ぐ場合には、この時点で保持している今回ループのグローバルゲインと前回ループのグローバルゲインとが、ターゲットを挟む両端点(cur_bits, prev_bits)を得るのに用いた量子化ステップサイズの基となるグローバルゲインであるため、上記グローバルゲインのうち、小さい方をGmin´、大きい方をGmax´として、2分探索範囲決定部68に出力する。なお、この時点までに、すでに(Gmin´,Gmax´)を2分探索範囲決定部68に出力している場合には、今回求めた(Gmin´,Gmax´)が2分探索範囲決定部68にて採用される。
ステップ3iでは、選択部66が、予測部67aに対して、予測情報更新部65から与えられた発生符号量変化量αと差分(sub_bits)とを予測部67aに出力する。これにより予測部67aは、下式(10)にしたがって、次回ループでのグローバルゲイン変更量(Δg)を求める。このグローバルゲイン変更量(Δg)は、予測情報として、グローバルゲイン決定部62に出力される。
Figure 2008065162
ステップ3jでは、選択部66が、予測部67bに対して、予測情報更新部65から与えられた発生符号量変化量αと差分(sub_bits)とを予測部67aに出力する。これにより予測部67bは、上式(10)にしたがって、グローバルゲイン変更量(Δg)を求める。予測部67bは、前回ループのグローバルゲイン変更量(Δprev_g)を保持しており、さらにこれを用いた下式(11)により、次回ループでのグローバルゲイン変更量(Δg)を求める。そしてこれを予測情報として、グローバルゲイン決定部62に出力する。
Figure 2008065162
すなわち、選択部66が予測部67bを選択する場合、今回ループでの発生符号量(cur_bits)が、前回ループでの発生符号量(prev_bits)からターゲット符号量を跨ぐような値になっているため、上式(11)の処理により、グローバルゲインの次回ループでの変化量が最大でも2分探索による場合と同じになり、量子化制御の発散が防止できる。
以上のようにして、予測部67aあるいは67bにて予測されたΔgを用いて、再びステップ3cに戻り、次回ループのグローバルゲインが決定される。なお、予測部67a、67bのどちらでも、今回ループでの発生符号量(cur_bits)がターゲット符号量より大きい場合には、Δgは正の値となり、逆に今回ループでの発生符号量(cur_bits)がターゲット符号量より小さい場合には、Δgは負の値となる。すなわち、ターゲット符号量に近づける方向に発生符号量が変化するような符号を持つ。
一方、ステップ3kでは、ステップ3fにて量子化ループ制御部64から探索範囲の決定を行うように指示された2分探索範囲決定部68が、後続の2分探索をより効率的に行うため、ステップ3bで求めたグローバルゲイン稼動範囲(Gmin、Gmax)にさらに制限を加える。式(6)によれば、グローバルゲインの稼動範囲は、74に限定されているが、この条件で2分探索を行うと、収束までに7回の探索が必要となる。
ここで、下式(12)のようにグローバルゲインの可動範囲を64まで限定すれば、収束までにかかる探索回数が6回となり、ループ数をさらに減らすことができる。下式(12)のように制限した場合、高精度の量子化ステップサイズが探索範囲から除外されてしまうが、本発明者による音質評価によれば、符号化音の音質劣化は認められなかった。ここで、2分探索範囲決定部68は、Gmin=Gmin+10と更新する。
Figure 2008065162
そして、ステップ3kにおいて2分探索範囲決定部68は、ステップ3hで与えられた(Gmin´,Gmax´)がある場合には、これを用いて、下式(13)にしたがって、さらにグローバルゲインの稼動範囲を制限する。そして、2分探索範囲決定部68は、この制限したグローバルゲインの稼動範囲を2分探索部69に通知する。
Figure 2008065162
ステップ3lでは、2分探索部69が、2分探索範囲決定部68から通知されるグローバルゲインの稼動範囲を端点とした2分探索を行って、グローバルゲインを決定する。これにより最大6回でターゲット符号量を満たすグローバルゲインを見つけることができ、異常なループ回数増加を回避することができる。
このようにして決定されたグローバルゲインは、グローバルゲイン決定部62を通じて量子化・ビットカウント部63に出力される。これに対して、量子化・ビットカウント部63は、2分探索部69が求めたグローバルゲインと、スケールファクタ決定部50で決定したスケールファクタ(scale_factor[sfb])とに基づいて量子化ステップサイズを決定し、これに基づいて、時間/周波数変換部20が出力する周波数スペクトルを、量子化およびハフマン符号化するとともに、発生符号量のビットカウントを行って、発生符号量(cur_bits)を求める。
これによって得られた量子化データおよび発生符号量(cur_bits)と、上記グローバルゲインが量子化ループ制御部64に出力される。量子化ループ制御部64は、量子化・ビットカウント部63が求めた発生符号量(cur_bits)基づいて、式(8)を満たすことを確認すると、量子化・ビットカウント部63から出力された量子化データを、フォーマット部70に出力し、当該処理(量子化制御)を終了する。
また式(8)を満たすことが確認できない場合には、再び2分探索を実施するために、今回ループで求めた発生符号量とグローバルゲインを2分探索範囲決定部68に出力する。これに対して2分探索範囲決定部68は、前回ループのグローバルゲインと、今回ループのグローバルゲインとに基づいて、2分探索の範囲を決定し、これを2分探索部69に通知して、2分探索を実施する。
以上のように、上記構成のオーディオ符号化装置では、適応収束処理Aとして、量子化ステップサイズを操作するためのグローバルゲインを求め、この求めたグローバルゲインに基づいて周波数スペクトルを量子化し、この量子化によって得た量子化データの発生符号量を求める。そしてこの発生符号量をターゲット符号量と比較して所定の条件を満たさない場合には、再び、適応収束処理Aを実施するが、それに際して、グローバルゲインを1だけ変化させた時の発生符号量変化量αを求め、これに基づいて前回の適応収束処理Aで用いてグローバルゲインを補正し、これを用いて適応収束処理Aを実施するようにしている。
したがって、上記構成のオーディオ符号化装置によれば、グローバルゲインを1だけ変化させた時の発生符号量変化量αを求めて、これに基づいて量子化に用いるグローバルゲインを補正するようにしているので、量子化ステップサイズの探索回数を削減して平均処理量を軽減するとともに、探索精度を向上させることができる。
また上記実施の形態では、適応収束処理Aを繰り返すうちに、ターゲット符号量と発生符号量の大小関係が逆転した場合には、上記発生符号量変化量αに基づく補正値(Δg)と、前回ループの2分探索に基づく補正値(Δprev_g/2)のうち、小さい方の値に基づいて、グローバルゲインを補正し、これを用いて適応収束処理Aを実施するようにしている。したがって、上記構成のオーディオ符号化装置によれば、グローバルゲインの次回ループでの変化量が最大でも2分探索による場合と同じになり、量子化制御の発散が防止できる。
さらに上記実施の形態では、適応収束処理Aを所定回数だけ繰り返しても収束しない場合には、よりグローバルゲインの稼働範囲に制限を加えた2分探索(最大ループ数保障処理B)を実施して、最大ループ数内で収束するようにしているので、ループ回数が異常に増大することを防止できる。
なお、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
その一例として例えば、上記実施の形態では、発生符号量変化量αは、符号変化量に基づいて適応的に更新するようにしたが、これに代わって例えば、量子化値のピークに基づいて適応的に更新するようにしてもよい。また上記量子化値の複数ループの平均値に基づいて適応的に更新するようにしてもよい。さらには、上記量子化値のばらつき(sfmや分散など)に基づいて適応的に更新するようにしてもよい。
そしてまた、発生符号量変化量αは、量子化前の係数のばらつき(sfmや分散など)に基づいて適応的に更新するようにしてもよい。さらにまた、量子化値が0である割合に基づいて適応的に更新するようにしてもよい。
さらにまた、上記実施の形態では、量子化ステップサイズを決定するパラメータであるグローバルゲインをループ制御するようにしたが、量子化ステップサイズ自体をループ制御するようにしてもよい。この場合、例えば選択部66が前回ループと今回ループのグローバルゲインを保持する代わりに、前回ループと今回ループの量子化ステップサイズを保持し、これをステップ3hにて2分探索範囲決定部68に通知する。これに対して2分探索範囲決定部68は、通知された前回ループと今回ループの量子化ステップサイズに基づいて、2分探索の範囲を限定し、この結果に基づいて、2分探索部69が2分探索を行う。
その他、この発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。
この発明に係わるオーディオ符号化装置の一実施形態の構成を示す回路ブロック図。 図1に示したオーディオ符号化装置の量子化制御部の構成を示す回路ブロック図。 図1に示したオーディオ符号化装置の量子化制御部の動作を説明するためのフローチャート。 図3に示した適応収束処理Aを繰り返すうちに、ターゲット符号量と発生符号量の大小関係が逆転する様子を説明するための図。
符号の説明
10…ブロック切替判定部、20…時間/周波数変換部、30…許容誤差算出部、40…レート制御部、50…スケールファクタ決定部、60…量子化制御部、61…グローバルゲイン稼動範囲限定部、62…グローバルゲイン決定部、63…量子化・ビットカウント部、64…量子化ループ制御部、65…予測情報更新部、66…選択部、67a…予測部、67b…予測部、68…2分探索範囲決定部、69…2分探索部、70…フォーマット部。

Claims (5)

  1. オーディオ信号を時間領域の信号から周波数領域の周波数スペクトラムに変換する変換手段と、
    前記周波数スペクトラムに基づいてターゲット符号量を求める第1検出手段と、
    前記周波数スペクトラムに基づいてスケールファクタを求める第2検出手段と、
    量子化手段と、第3検出手段と、補正手段とを備え、これらがループを形成してループ制御を行うループ制御手段とを具備し、
    前記量子化手段は、前記補正手段で補正された量子化ステップサイズと前記スケールファクタとに基づいて、前記周波数スペクトラムを量子化して前記量子化データを得て、
    前記第3検出手段は、前記ループ制御毎に前記量子化手段によって得られる量子化データに基づいて、このデータの符号量の変化量を求め、
    前記補正手段は、前記第3検出手段が求めた変化量と前記ターゲット符号量とに基づいて、前記量子化手段で用いる量子化ステップサイズを補正することを特徴とするオーディオ符号化装置。
  2. さらに、前記ループ制御毎に、前記量子化データの符号量と前記ターゲット符号量の大小関係を検出する第4検出手段を備え、
    前記補正手段は、前記大小関係が逆転した場合に、この逆転の基となったループ制御で用いた量子化ステップサイズの補正値の2分値と、前記第3検出手段が求めた変化量と前記ターゲット符号量とに基づく補正値とのうち、その大きさが小さい方の値に基づいて、前記量子化手段で用いる量子化ステップサイズを補正することを特徴とする請求項1に記載のオーディオ符号化装置。
  3. さらに、前記ループ制御毎に、前記量子化データの符号量と前記ターゲット符号量の大小関係を検出する第4検出手段と、
    前記大小関係が逆転する前の量子化データを求めるのに用いた量子化ステップサイズと、前記大小関係が逆転した後の量子化データを求めるのに用いた量子化ステップサイズとを記憶する記憶手段と、
    前記ループ制御の実施回数を検出する第5検出手段とを備え、
    前記実施回数が予め設定した値を超えた場合に、前記記憶手段が記憶する量子化ステップサイズに基づく値を両端点とした2分探索により、量子化ステップサイズを決定する2分探索手段とを備えることを特徴とする請求項1に記載のオーディオ符号化装置。
  4. さらに、前記ターゲット符号量と前記量子化データの符号量との差を求める第6検出手段を備え、
    前記ループ制御手段は、前記差が予め設定した値よりも大きい場合に、前記ループ制御を実施し、一方、前記差が予め設定した値以下の場合には、前記ループ制御を終了することを特徴とする請求項1に記載のオーディオ符号化装置。
  5. さらに、前記周波数スペクトラムと前記スケールファクタとに基づいて、前記量子化ステップサイズの稼働範囲を限定する限定手段を備え、
    前記補正手段は、前記限定手段が限定した可動範囲内で、前記量子化ステップサイズを補正することを特徴とする請求項1に記載のオーディオ符号化装置。
JP2006244578A 2006-09-08 2006-09-08 オーディオ符号化装置 Expired - Fee Related JP5224666B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006244578A JP5224666B2 (ja) 2006-09-08 2006-09-08 オーディオ符号化装置
US11/647,972 US20080065376A1 (en) 2006-09-08 2007-01-02 Audio encoder

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006244578A JP5224666B2 (ja) 2006-09-08 2006-09-08 オーディオ符号化装置

Publications (2)

Publication Number Publication Date
JP2008065162A true JP2008065162A (ja) 2008-03-21
JP5224666B2 JP5224666B2 (ja) 2013-07-03

Family

ID=39170860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006244578A Expired - Fee Related JP5224666B2 (ja) 2006-09-08 2006-09-08 オーディオ符号化装置

Country Status (2)

Country Link
US (1) US20080065376A1 (ja)
JP (1) JP5224666B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010281965A (ja) * 2009-06-03 2010-12-16 Sony Corp 量子化装置、再生装置、量子化方法およびプログラム
JP2012519309A (ja) * 2009-03-04 2012-08-23 コア ロジック,インコーポレイテッド オーディオ符号化のための量子化
JP2013167852A (ja) * 2012-02-17 2013-08-29 Fujitsu Semiconductor Ltd オーディオ信号符号化装置およびオーディオ信号符号化方法
WO2013146895A1 (ja) * 2012-03-28 2013-10-03 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
WO2013187498A1 (ja) * 2012-06-15 2013-12-19 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101661917B1 (ko) 2012-05-30 2016-10-05 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 프로그램 및 기록 매체
CN108364657B (zh) 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
CN105225666B (zh) * 2014-06-25 2016-12-28 华为技术有限公司 处理丢失帧的方法和装置
CN112085189B (zh) * 2019-06-12 2024-03-29 上海寒武纪信息科技有限公司 一种神经网络的量化参数确定方法及相关产品
CN111951815B (zh) * 2020-08-08 2023-10-10 北京百瑞互联技术有限公司 一种优化lc3编码器的量化全局增益序号搜索方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306095A (ja) * 2000-04-18 2001-11-02 Mitsubishi Electric Corp オーディオ符号化装置及びオーディオ符号化方法
JP2002311993A (ja) * 2001-04-17 2002-10-25 Mitsubishi Electric Corp オーディオ符号化装置
JP2003101418A (ja) * 2001-09-26 2003-04-04 Tokai Univ 量子化ステップパラメータ初期値決定装置および量子化ステップパラメータ初期値決定方法、並びに量子化ステップパラメータ初期値決定プログラム
JP2004021153A (ja) * 2002-06-20 2004-01-22 Toshiba Corp オーディオ信号符号化装置
JP2006145782A (ja) * 2004-11-18 2006-06-08 Canon Inc オーディオ信号符号化装置および方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3784993B2 (ja) * 1998-06-26 2006-06-14 株式会社リコー 音響信号の符号化・量子化方法
US6678648B1 (en) * 2000-06-14 2004-01-13 Intervideo, Inc. Fast loop iteration and bitstream formatting method for MPEG audio encoding
US6950794B1 (en) * 2001-11-20 2005-09-27 Cirrus Logic, Inc. Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US20040002859A1 (en) * 2002-06-26 2004-01-01 Chi-Min Liu Method and architecture of digital conding for transmitting and packing audio signals
US20040230425A1 (en) * 2003-05-16 2004-11-18 Divio, Inc. Rate control for coding audio frames

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306095A (ja) * 2000-04-18 2001-11-02 Mitsubishi Electric Corp オーディオ符号化装置及びオーディオ符号化方法
JP2002311993A (ja) * 2001-04-17 2002-10-25 Mitsubishi Electric Corp オーディオ符号化装置
JP2003101418A (ja) * 2001-09-26 2003-04-04 Tokai Univ 量子化ステップパラメータ初期値決定装置および量子化ステップパラメータ初期値決定方法、並びに量子化ステップパラメータ初期値決定プログラム
JP2004021153A (ja) * 2002-06-20 2004-01-22 Toshiba Corp オーディオ信号符号化装置
JP2006145782A (ja) * 2004-11-18 2006-06-08 Canon Inc オーディオ信号符号化装置および方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012519309A (ja) * 2009-03-04 2012-08-23 コア ロジック,インコーポレイテッド オーディオ符号化のための量子化
US8600764B2 (en) 2009-03-04 2013-12-03 Core Logic Inc. Determining an initial common scale factor for audio encoding based upon spectral differences between frames
JP2010281965A (ja) * 2009-06-03 2010-12-16 Sony Corp 量子化装置、再生装置、量子化方法およびプログラム
JP2013167852A (ja) * 2012-02-17 2013-08-29 Fujitsu Semiconductor Ltd オーディオ信号符号化装置およびオーディオ信号符号化方法
US9384744B2 (en) 2012-02-17 2016-07-05 Socionext Inc. Audio signal coding device and audio signal coding method
WO2013146895A1 (ja) * 2012-03-28 2013-10-03 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
JP5635213B2 (ja) * 2012-03-28 2014-12-03 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
WO2013187498A1 (ja) * 2012-06-15 2013-12-19 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
JP5734519B2 (ja) * 2012-06-15 2015-06-17 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体

Also Published As

Publication number Publication date
JP5224666B2 (ja) 2013-07-03
US20080065376A1 (en) 2008-03-13

Similar Documents

Publication Publication Date Title
JP5224666B2 (ja) オーディオ符号化装置
JP4548348B2 (ja) 音声符号化装置及び音声符号化方法
AU2018260836B2 (en) Encoder, decoder, system and methods for encoding and decoding
KR102072365B1 (ko) 고급 양자화기
JP6698897B2 (ja) スペクトルピーク位置の符号化及び復号化
EP2012306A1 (en) Encoding method and encoding device
US10756755B2 (en) Adaptive audio codec system, method and article
KR20210125534A (ko) 전 프레임 손실 은닉 및 부분 프레임 손실 은닉을 포함하는 lc3 은닉을 위한 디코더 및 디코딩 방법
US11315583B2 (en) Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US7974848B2 (en) Method and apparatus for encoding audio data
JP2010145593A (ja) 情報符号化装置
JP2009031675A (ja) 信号処理装置及び方法、並びにプログラム
US20190348055A1 (en) Audio paramenter quantization
JP7005036B2 (ja) 適応オーディオコーデックシステム、方法および媒体
JP4273062B2 (ja) 符号化方法、符号化装置、復号化方法及び復号化装置
JP2000347679A (ja) オーディオ符号化装置及びオーディオ符号化方法
JP3630082B2 (ja) オーディオ信号符号化方法及びその装置
JP6629256B2 (ja) 符号化装置、方法及びプログラム
JP2007017659A (ja) オーディオ符号化方法及び装置
JP6079230B2 (ja) 付加情報挿入装置、付加情報挿入方法、付加情報挿入プログラム、付加情報抽出装置、付加情報抽出方法、及び付加情報抽出プログラム
US8818818B2 (en) Audio encoding device, method, and program which controls the number of time groups in a frame using three successive time group energies
JP2008203739A (ja) オーディオビットレート変換方法および装置
JP4775026B2 (ja) 符号本選択方法及び符号本選択装置
JP2005316130A (ja) 音声符号化装置および音声符号化方法
JP4689616B2 (ja) 音声データ圧縮システム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120529

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130312

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160322

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees