JP4212591B2 - オーディオ符号化装置 - Google Patents

オーディオ符号化装置 Download PDF

Info

Publication number
JP4212591B2
JP4212591B2 JP2005503376A JP2005503376A JP4212591B2 JP 4212591 B2 JP4212591 B2 JP 4212591B2 JP 2005503376 A JP2005503376 A JP 2005503376A JP 2005503376 A JP2005503376 A JP 2005503376A JP 4212591 B2 JP4212591 B2 JP 4212591B2
Authority
JP
Japan
Prior art keywords
quantization
scale factor
step size
subband
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005503376A
Other languages
English (en)
Other versions
JPWO2005004113A1 (ja
Inventor
公彰 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2005004113A1 publication Critical patent/JPWO2005004113A1/ja
Application granted granted Critical
Publication of JP4212591B2 publication Critical patent/JP4212591B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Description

本発明は、オーディオ符号化装置に関し、特に音声信号の情報を圧縮して符号化を行うオーディオ符号化装置に関する。
移動体通信やCDなどでは、音声のディジタル処理が行われ、ディジタル化された音声信号は、ユーザにとっても身近な存在となっている。ディジタル音声信号を効率よく圧縮・伝送するためには、高能率符号化が行われており、音声圧縮のアルゴリズムは、MPEG(Moving Picture Expert Group)で標準規格化されている。
MPEGの音声圧縮アルゴリズムの代表的なものには、MP3(MPEG1−Audio layer3)やMPEG2−AAC(Advanced Audio Codec)がある。MP3は、モノラルまたは2チャネルの音声信号を符号化の対照とするMPEG−1オーディオのレイヤ3の圧縮方式であり(レイヤ3方式は、レイヤ1、2の圧縮方式よりも高品質で高圧縮率)、インターネット上の音楽配信などに広く使用されている。
また、MPEG2−AACは、MPEG−1オーディオとの互換性を排除し、マルチチャネルの音声信号を符号化の対照として、より高音質・高圧縮率を達成した圧縮規格である。MPEG2−AACは、携帯電話を使った音楽配信に向いており、またディジタル(衛星・地上波)放送などに採用されることが検討されている。
MP3及びMPEG2−AACの符号化アルゴリズムでは、いずれの場合も、入力したPCM(Pulse Code Modulation)信号をフレーム単位で切り出して空間変換を施し、変換係数を量子化した後に符号化を行なってビットストリームを生成する、という共通のアルゴリズムが使用されている。
一方、従来の技術として、量子化歪み及び符号量の適切な値が得られるまで、スケジューリング係数及び量子化ステップの更新処理を行うオーディオ符号化技術が提案されている(例えば、特許文献1参照)。
特開2000−347679号公報(段落番号〔0059〕〜〔0085〕,第1図)
上記のようなMP3及びMPEG2−AACの符号化アルゴリズムは、高音質で、最も情報量を減らすことができるように、人間の聴覚特性を考慮しながら、量子化時の量子化ステップサイズ(スケールファクタ)を算出している。しかし、その演算量は非常に大きなものであり、演算効率が悪いため、低コストで演算量の少ない、リアルタイムエンコーダの実現が強く望まれている。
また、従来技術(特開2000−347679号公報)でも演算量の削減を目的としているが、スケジューリング係数及び量子化ステップを更新しながらの反復処理を行って、目標符号量に収束させる制御なので、収束時間の大幅な短縮化とはならず、演算量削減のための最良な技術とはいえない。
本発明はこのような点に鑑みてなされたものであり、人間の聴覚特性に応じて行われる、変換係数の量子化演算に対し、演算量の大幅な削減を可能にしたオーディオ符号化装置を提供することを目的とする。
本発明では上記課題を解決するために、図1に示すような、音声信号の符号化を行うオーディオ符号化装置10において、音声信号のサンプル値に空間変換を施して変換係数を算出する空間変換部11と、変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズqを近似的に算出する量子化ステップサイズ演算部12と、量子化ステップサイズqにもとづき、変換係数を量子化して量子化値Iを求める量子化部13と、量子化ステップサイズqから、フレーム全体のオフセット値であるコモンスケールファクタcsfと、サブバンド毎のスケールファクタsfとを求めるスケールファクタ算出部14と、量子化値I、コモンスケールファクタcsf、スケールファクタsfの少なくとも1つを符号化する符号化部15と、を有することを特徴とするオーディオ符号化装置10が提供される。
ここで、空間変換部11は、音声信号のサンプル値に空間変換を施して変換係数を算出する。量子化ステップサイズ演算部12は、変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズqを近似的に算出する。量子化部13は、量子化ステップサイズqにもとづき、変換係数を量子化して量子化値Iを求める。スケールファクタ算出部14は、量子化ステップサイズqから、フレーム全体のオフセット値であるコモンスケールファクタcsfと、サブバンド毎のスケールファクタsfとを求める。符号化部15は、量子化値I、コモンスケールファクタcsf、スケールファクタsfの少なくとも1つを符号化する。
本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。
図1は、本発明のオーディオ符号化装置の原理図である。
図2は、フレームの概念を示す図である。
図3は、変換係数とサブバンドのイメージを示す図である。
図4は、フレームに対するコモンスケールファクタ/スケールファクタの対応関係を示す図である。
図5は、量子化の概念を示す図である。
図6は、可聴限界グラフを示す図である。
図7は、マスキングパワーしきい値を示す図である。
図8は、量子化/符号化のフローチャートを示す図である。
図9は、量子化/符号化のフローチャートを示す図である。
図10は、平均量子化ノイズを説明するための図である。
図11は、AとXaの関係を示す図である
図12は、補正係数の算出概念を示す図である。
図13は、本発明の全体動作を示すフローチャートである。
図14は、本発明の全体動作を示すフローチャートである。
図15は、MPEG2−AACエンコーダの構成を示す図である。
以下、本発明の実施の形態を図面を参照して説明する。図1は本発明のオーディオ符号化装置の原理図である。オーディオ符号化装置10は、音声信号の情報を圧縮して符号化を行う装置(エンコーダ)である。
空間変換部11は、音声信号のサンプル値に空間変換であるMDCT(Modified Discrete Cosine Transform)を施して変換係数を算出する。量子化ステップサイズ演算部12は、変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出する。そして、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズqを近似的に算出する。
量子化部13は、近似的に算出した量子化ステップサイズqにもとづき、変換係数を量子化して量子化値Iを求める。スケールファクタ算出部14は、量子化ステップサイズqから、フレーム全体のオフセット値であるコモンスケールファクタcsfと、サブバンド毎のスケールファクタsfとを求める。符号化部15は、量子化値I、コモンスケールファクタcsf、スケールファクタsfの少なくとも1つを符号化する。符号化の種類としては、例えば、出現率の高いものには短い符号を、出現率の低いものには長い符号を割り当てるハフマン符号化を行う。なお、本発明に関する量子化ノイズの推定算出や量子化ステップサイズの近似算出などの動作については図10以降で詳しく説明する。
次に本発明に関係する音声情報圧縮の基本的な概念と、従来のエンコーダの量子化手順を示しながら、本発明が解決すべき問題点について詳しく説明する。従来のエンコーダとしては、MPEG2−AACのエンコーダを対象にする(MP3及びMPEG2−AACにおける量子化の方法は、ISO(International Organization for Standardization)の規格書、例えば、MP3はISO/IEC11172−3、MPEG2−AACはISO/IEC13818−7に記載されている)。
MPEG2−AAC(以下、単にAACとも呼ぶ)のエンコーダでは、まずPCM信号をフレーム単位で切り出して、PCM信号に空間変換としてMDCTを施し、PCMの時間軸上における電力を、空間(周波数)軸上における電力の表現に変換する。
そして、MDCTの演算結果であるMDCT変換係数(以下、単に変換係数)に、人間の聴覚特性に合わせた量子化処理を施し、その後に、ハフマン符号化を行なって、ビットストリームを生成して伝送路上から出力する。
ここで、AACにおいて、変換係数を量子化する式は、以下の式(1)で定義されている(MP3も同じ式である)。
Figure 0004212591
ただし、Iは量子化値、Xは量子化対象のMDCTの変換係数、qは量子化ステップサイズである。なお、“floor”は、C言語の関数表記であり、小数点以下切捨てを意味する。また、ABとは、Aのことである。
一方、量子化ステップサイズqは、以下の式(2)で定義される。
Figure 0004212591
ただし、scalefactor(スケールファクタ)は、サブバンド毎のスケールファクタ値であり、common_scalefactor(コモンスケールファクタ)は、1つのフレーム全体の量子化ステップサイズのオフセット値である。
ここで、フレームとは符号化処理の単位であり、AACでは、2048個のPCMのサンプル値にMDCTを施して得られる1024個の変換係数を1フレームとする。
図2はフレームの概念を示す図である。アナログ音声をディジタル化して、2048個のPCMサンプル値を得た後に、これらサンプル値にMDCTを施して、1024個の変換係数を1フレームとする。
一方、サブバンドとは、1024個の変換係数を、50個程度にグループ分けした帯域のことである。各帯域には、少なくて1個、最も多くて96個の変換係数が含まれ、聴覚特性にもとづき、高帯域になるにしたがって、括る変換係数の数を増やしている。
図3は変換係数とサブバンドのイメージを示す図である。縦軸はレベル、横軸は周波数である。1024個の変換係数は、周波数軸上、サブバンドsb0〜sb49の50個の各帯域にグループ分けされている。図からわかるように、帯域の低い側では、1つのサブバンド内の変換係数の個数は少なく(サブバンドの帯域幅が狭く)、帯域の高い側では、1つのサブバンド内の変換係数の個数は多く(サブバンドの帯域幅が広く)なっている。
これは、人間の聴覚特性として、低帯域(低音)側は、周波数の差を敏感に感じることができるが(例えば、図の場合、変換係数x1、x2に対応する音の違いは感知できるということ)、高帯域(高音)側は、周波数の差を敏感に感じることができずに、同じ音のように感じてしまうという理由からである(すなわち、人間の聴覚は、低周波の音の方が周波数分解能が高いということである)。
このため、周波数の違いを敏感に感じることができる低い帯域側の信号に対しては、細かいサブバンドで分けるようにし、周波数の違いを感じることが鈍感な高い帯域側の信号に対しては、サブバンドを広くとるようにすることで、人間の聴覚特性に合わせたサブバンドのグループ分けを行っている。
図4はフレームに対するコモンスケールファクタ/スケールファクタの対応関係を示す図である。コモンスケールファクタcsf及びスケールファクタsf0〜sf49を、図3に対応させた様子を示しており、1フレームのサブバンドsb0〜sb49全体で1つのコモンスケールファクタcsfが存在する。また、サブバンドsb0〜sb49のそれぞれに対応したスケールファクタsf0〜sf49(全部で50個)が存在することになる。
したがって、式(2)から例えば、サブバンドsb0の量子化ステップサイズq[sb0]は、q[sb0]=(スケールファクタsf0)−(コモンスケールファクタcsf)で求まり、サブバンドsb1の量子化ステップサイズq[sb1]は、q[sb1]=(スケールファクタsf1)−(コモンスケールファクタcsf)で求まる(以下、同様)。
図5は量子化の概念を示す図である。ある変換係数mのレベル(大きさ)をXとする。変換係数mに量子化を施すということは、式(1)からわかるように、単純化すれば、Xを量子化ステップサイズqで割って余りを捨てている割り算を行うことを意味している(∵I≒|X|÷2q/4)。
図はこの量子化の様子を示すものであり、大きさXの変換係数mを、量子化ステップサイズとして2q/4で割って、余りを捨てた結果が2*2q/4となっている。したがって、この割り算の商(2*2q/4)が変換係数mの量子化値となる。
簡単な例でいえば、量子化ステップサイズが10として、Xを10で割ったときの商が9.6だったとすると、Xを量子化ステップサイズ10で量子化した際の量子化値は9となる。
図5で示した内容からわかるように、量子化の誤差を小さくして、音声品質の向上を図るためには、量子化ステップサイズ(図で示すステップ幅)が、量子化対象の信号に対して、適切な値であることが重要である。また、この量子化ステップサイズは、上述のようにスケールファクタとコモンスケールファクタから算出されるものである。
すなわち、量子化及び符号化の処理として、最も音質に影響を与える重要な箇所は、各サブバンドのスケールファクタと、フレームのコモンスケールファクタとの最適値を決定することであるといえる。この2種類のスケールファクタの最適値が決定してしまえば、その後は式(2)からサブバンド毎の量子化ステップサイズがわかり、これを式(1)の量子化式に代入することで(サブバンドsb内の各変換係数の値を、サブバンドsb対応の量子化ステップサイズで割り算することで)、変換係数を量子化した値が求まる。
そして、量子化値をインデックスとしたハフマンテーブルでハフマンコードに符号化して伝送路上へ送信することになる。ところが、ここで問題となるのが、ISOで規定されている方法では、スケールファクタとコモンスケールファクタの最適値を決定するためには、多大な演算量を必要としているということである。
以降演算量が多大となる従来の処理について説明する。スケールファクタとコモンスケールファクタを決定する際には、人間の聴覚特性の1つであるマスキングパワーしきい値にもとづいて決定される。マスキングパワーしきい値とは、人間が聞こえる最小の音圧値のことである。
図6は可聴限界グラフを示す図である。可聴限界グラフGの縦軸は音圧(dB)、横軸は周波数(Hz)である。人間の可聴範囲(20〜20,000Hz)における聴覚の感度は、均一ではなく周波数によって違っており、3〜4kHzをピークに低域と高域の感度が急激に落ち込む。このことは、低い周波数及び高い周波数側の音は、音量を大きくしないとよく聞こえないということである。
図のグラフGは、斜線部分が可聴範囲である。低域側または高域側では、音圧(音量)が高くないと聞こえにくく、3〜4kHzでは、音圧が小さくてもよく聞こえることがわかる(老人の場合では、可聴範囲の領域が狭くなってくる)。マスキングパワーしきい値は、この可聴限界グラフGにもとづいて、ある周波数fではレベルL以下は聞こえないといったしきい値を、フーリエ変換(FFT:Fast Fourier Transform)の演算によって求めたものである。
図7はマスキングパワーしきい値を示す図である。縦軸はしきい値のパワーであり、横軸は周波数である。1フレームの周波数帯域は、サブバンドsb0〜sb49でグループ分けされており、サブバンド毎に求められたマスキングパワーしきい値が示されている。
ここで、サブバンドsb0のマスキングパワーしきい値はM0となっている。これは、サブバンドsb0の帯域においては、パワーM0以下の信号(音)は、聞こえづらいということである。このため、信号処理を行う上では、しきい値M0以下の信号はノイズとみなしてよい(これにより、マスキングパワーしきい値は許容ノイズしきい値とも呼ばれる)。
したがって、量子化処理を行う場合では、すべてのサブバンドに対し、サブバンド毎の量子化誤差(量子化誤差のパワー)が、それぞれのサブバンドに対応するマスキングパワーしきい値以下になるような量子化を施せばよいことがわかる。
このことは、サブバンドsb0についていえば、マスキングパワーしきい値M0よりも量子化誤差パワーが小さくなるような、スケールファクタ及びコモンスケールファクタを決定すればよいということである。
一方、サブバンドsb0のマスキングパワーしきい値M0とサブバンドsb1のマスキングパワーしきい値M1とを比較すると、M0>M1である。このように、許容できるノイズの大きさはサブバンド毎に異なっている。
したがって、サブバンドsb0では、サブバンドsb1よりも許容できるノイズレベルが大きいので、サブバンドsb1よりも量子化誤差は大きくてよい(サブバンドsb0は、サブバンドsb1よりも粗く量子化してよい)。
また、サブバンドsb1は、サブバンドsb0よりも許容できるノイズレベルが小さいので、サブバンドsb0よりも量子化誤差は小さくする必要がある(サブバンドsb1は、サブバンドsb0よりも細かく量子化する)。
なお、図に示す1フレーム中、サブバンドsb4のマスキングパワーしきい値が一番小さく、サブバンドsb49のマスキングパワーしきい値が一番高い値だとすると、サブバンドsb4は、許容できるノイズレベルが小さく、聴覚に最も敏感な箇所ということになるため、1フレーム中の量子化誤差が最も小さくなるように量子化しないと、音質劣化が感知されてしまう。また、サブバンドsb49は、許容できるノイズレベルが大きく、1フレーム中、最も粗く量子化してよい。
このように、各サブバンドに対するスケールファクタ及びフレームのコモンスケールファクタを決める際には、上記のようなマスキングパワーしきい値との兼ね合いを見ていくことになるが、この他に、符号化に必要なビットレートは決められているので、使用可能な全体のビット数も満たすようにしなければならない(例えば、128kbpsの符号化レートというように、符号化のビットレートはあらかじめ決められているので、そのビットレートから設定される情報量(ビット量)を守る必要がある)。
なお、AACでは、フレーム間のビット数を適応的に可変できるように、ビットリザーバという一時的なビット貯蔵庫をもっている。符号化に使用可能なビット数は、設定されたビットレートと、聴覚モデルの聴覚エントロピーと、ビットリザーバにあるビット量とから算出される(聴覚エントロピーとは、フレームの入力音声信号をFFTした周波数スペクトルから求められるもので、リスナーが雑音を知覚することがないように、そのフレームを量子化するのに必要な総ビット数とみなしてよい。例えば、広い帯域に渡ってスペクトルが延びるインパルス音やホワイトノイズなどでは大きな値を示し、このような場合には、符号化ビットが多く必要であると判断される)。
このように、2種類のスケールファクタを求めるには、マスキングパワーしきい値及び符号化使用可能ビット数の両方を満たすように決定することになるが、ISOによる従来の技術では、2種類のスケールファクタを1つずつ更新しながら量子化と逆量子化を繰り返す反復処理を行って求めている。
従来処理の流れについて記すと、まず最初に、コモンスケールファクタ及びスケールファクタに初期値を設定する。そして、初期値を設定したコモンスケールファクタ及びスケールファクタで、変換係数を量子化してみる。そして、量子化値を逆量子化してから、量子化誤差を求める(量子化誤差は、量子化する前の値(変換係数の値)と、逆量子化値の差分値のことである)。
その後、サブバンド内の最大の量子化誤差とマスキングパワーしきい値とを比較して、量子化誤差パワーがマスキングパワーしきい値よりも大きければ、スケールファクタをカウントアップして次のスケールファクタで再び、量子化→逆量子化→ノイズパワー評価を行う。また、サブバンド内の量子化誤差パワーの最大値がマスキングパワーしきい値よりも小さければ、次のサブバンドへ移る。
このようにして、すべてのサブバンドに対して、量子化誤差がマスキングパワーしきい値よりも小さくなった後に(この時点でスケールファクタはすべて算出されている)、ハフマン符号化してビット量を換算し、そのビット量が符号化レートで設定される所定のビット量以下であるか否かを判断する。
このとき、換算ビット量が所定ビット量よりも小さければ終了できるが、所定ビット量を超えてしまう場合には、コモンスケールファクタを1つカウントアップして、最初に戻り、1つカウントアップしたコモンスケールファクタとスケールファクタの初期値とから、あらためて量子化、逆量子化を行って、再び量子化誤差とマスキングパワーしきい値との評価演算を行っていく。
図8、図9は量子化/符号化のフローチャートを示す図である。上記の従来の反復処理による動作をフローチャートで示している。
〔S1〕common_scalefactorの初期値を算出する。なお、AACの規格書には、初期値の算出式として以下の式(3)が定義されている。ただし、Xmaxは、フレーム内の変換係数の最大値である。
Figure 0004212591
〔S2〕処理対象のサブバンドを示す変数sbを初期化する(sb=0)。
〔S3〕scalefactor[sb]を初期化(scalefactor[sb]=0)する。
〔S4〕量子化処理対象のMDCTの変換係数を表す変数iを初期化する。
〔S5〕変換係数X[i]を量子化する。量子化の式は以下の式(4a)、(4b)である(式(1)、(2)に変数要素[i]を入れただけである)。QX[i]は量子化値を表す。
Figure 0004212591
〔S6〕量子化した変換係数を逆量子化する。逆量子化の式は、以下の式(5)である。X−1[i]は逆量子化値を表す。
Figure 0004212591
〔S7〕変換係数の量子化および逆量子化による量子化誤差パワー(ノイズパワー)N[i]を以下の式(6)で算出する。
Figure 0004212591
〔S8〕サブバンド内のすべての変換係数の処理が完了したか否かを判断する。
完了していればステップS10へいき、完了してなければステップS9へいく。
〔S9〕変数iを更新し、ステップS5へ戻る。
〔S10〕サブバンド内の量子化誤差パワーの最大値MaxNを求める。
〔S11〕量子化誤差パワーの最大値MaxNと、聴覚モデルのマスキングパワーしきい値M[sb]とを比較する。MaxN<M[sb]である場合(ノイズの最大値がマスキングパワーしきい値を下回っている場合)、該当サブバンドの量子化はとりあえず完了としてステップS13へいき、そうでなければもっと細かく量子化する必要があるということでステップS12へいく。
〔S12〕scalefactor[sb]を更新し、ステップS4からやり直す。
〔S13〕すべてのサブバンドの処理が完了したか否かを判断する。完了していればステップS15へいき、完了してなければステップS14へいく。
〔S14〕サブバンドを示す変数sbを更新して、ステップS3へ戻る。
〔S15〕すべての変換係数の量子化が完了したので、量子化値をもとにハフマン符号化を行う。
〔S16〕ハフマン符号化値から、消費するビット数を算出する。
〔S17〕消費ビット数があらかじめ決められた許容ビット数に収まっているか否かを判断する。収まっているならば量子化/符号化処理を終了し、そうでなければステップS18へいく。
〔S18〕common_scalefactorを更新して、ステップS2からやり直す。
以上説明したように、従来の技術では、処理を完了させるために、1つの変換係数に関して、最適な量子化ステップサイズ値(2つのスケールファクタ値)を探すために、総当りで何度も何度も量子化と逆量子化処理及び符号化処理を行なう必要があった。このため、演算処理量が非常に大きくなり、また処理が収束せずに無限ループに入ってしまう場合もあり(このようなことが起きたときには、許容値を緩める処理が起動される)、演算効率が非常に悪いものであった。本発明ではこのような問題点を解決し、演算量を削減して演算効率の向上を実現したオーディオ符号化装置を提供するものである。
次に本発明の量子化ステップサイズ演算部12で行われる、量子化ノイズの推定算出及び量子化ステップサイズの近似算出について詳しく説明する。本発明では、低演算量のエンコーダを実現するために、2種類のスケールファクタの算出を、一回の演算で近似する。
まず、量子化値Iを求める上述の式(1)の量子化式を以下のように変形する(式中、floorの記号は省略)。なお、Xaは各サブバンド内の変換係数の代表値とする。例えば、該当サブバンド内に含まれる複数の変換係数の平均値を代表値としてもよいし、該当サブバンド内に含まれる複数の変換係数の中の最大値を代表値としてもよい。また、量子化ステップサイズをqとおく。
Figure 0004212591
ここで、式(7)中の|Xa|(3/4)に対して、|Xa|(3/4)=Aとすると、以下の式(8)となる。
Figure 0004212591
式(8)から、Aは2(3q/16)の割り算(=A/2(3q/16))であるから、Aは2(3q/16)で量子化されているということであり、この割り算の分母(=2(3q/16))が量子化精度に影響を与えるパラメータとなっている(Aを丸める際の幅、すなわち、量子化ステップサイズである)。そして、この分母を2で割って平均すると以下の式(9)となる。
Figure 0004212591
この式(9)は、Aの量子化ノイズを平均した値(平均量子化ノイズ)を表している。図10は平均量子化ノイズを説明するための図である。例えば、量子化ステップサイズである2(3q/16)に対して、Aの値(大きさ)が図に示すような位置にあるとする。このとき、間隔bが、Aを量子化ステップサイズ2(3q/1 6)で量子化した際の量子化ノイズ(量子化誤差)となる。
AがちょうどP1の位置にあれば、Aは2(3q/16)で割り切れるということなので、間隔bはゼロであり、量子化ノイズは最小値0になる。また、AがP2の位置にあれば、間隔bは2(3q/16)となって、このときは量子化ノイズは最大値の2(3q/16)になる。
量子化ノイズは、0〜2(3q/16)で一様に分布すると考える。したがって、2(3q/16)を2で割る式(9)は、この分布の平均値(分布の真ん中の値)をAの平均量子化ノイズとすることを意味している。
このように、Aの平均の量子化ノイズは式(9)として求まるが、実際に必要なものは、Xaの量子化ノイズである。ここで、AとXaの関係が、もし線形であったならば(A=k*|Xa|)、式(9)で求めたAの平均量子化ノイズを、Xaの平均量子化ノイズとしてよい。
しかし、実際はA=|Xa|(3/4)であって、Xaに3/4の累乗がかかっているので、AとXaの関係は非線形の関係にあり(Xaは非線形圧縮信号である)、式(9)をそのままXaの平均量子化ノイズとすることはできない。
図11はAとXaの関係を示す図である。縦軸にA、横軸にXaをとり、A=Xa(3/4)の指数関数のグラフを示している。Aを等間隔に区切ったA1、A2、・・・に対応するXaをXa1、Xa2、・・・とすると、Xa1、Xa2、・・・のそれぞれの間隔は、等間隔ではなく広がってくることがわかる。
Xaの量子化は、Xaの振幅に応じて量子化ステップサイズも可変にする非線形量子化であって、Xaの量子化ノイズを求める場合にも、Xaの振幅に応じて、量子化ステップサイズである2(3q/16)を補正する必要がでてくる。補正係数(非線形圧縮係数)をrとすると、補正係数rは以下の式(10)となる。
Figure 0004212591
図12は補正係数rの算出概念を示す図である。Aの量子化ステップサイズ2(3q/16)による量子化に対し、A=|Xa|(3/4)なのでAをX伸張させる場合を考える。AをXに伸張させるには、伸張の比率rを2(3q/16)に乗算する必要がある。r=X/Aであって、式(10)のように求まることがわかる。
例えば、7の2による量子化に対して、7を10.5に伸張させた場合の量子化ステップサイズを求めると、比率rは1.5(=10.5/7)なので、2に1.5を掛けた3が、7を10.5に伸張させた場合の量子化ステップサイズになる。
したがって以上の説明により、|Xa|の平均量子化ノイズは、式(9)のAの平均量子化ノイズ(量子化ノイズ概算値)に式(10)の補正係数rを乗算したものとなり、以下の式(11)となる。
Figure 0004212591
式(11)は要するに、|Xa|(3/4)の2(3q/16)による量子化、すなわち{|Xa|(3/4)}÷2(3q/16)という割り算に対して、この割り算の分母の2(3q/16)を2で割って、それに補正係数rを乗算したものである。
次にXaの平均量子化ノイズを用いて量子化ステップサイズqを求めるが、Xaの平均量子化ノイズは1つのサブバンドに対応するものであって、この平均量子化ノイズが該当サブバンドのマスキングパワーしきい値Mを超えないようなqを決定すればよいことになる。すなわち、マスキングパワーしきい値Mを振幅に直したもの(平方根をとったもの)と、式(11)との等号をとってqを算出する。
Figure 0004212591
式(12)を以下のように展開していくと、各サブバンドの量子化ステップサイズqは式(13c)となる。
Figure 0004212591
なお、上記では、量子化ノイズの平均値から量子化ステップサイズを近似的に算出したが、量子化ノイズの最大値から求めてもよい。この場合、Aの最大量子化ノイズは2(3q/16)であり、これに補正係数rを掛けて、|Xa|の最大量子化ノイズは式(14)となる。
Figure 0004212591
このときの量子化ステップサイズqは、上記と同様にして、マスキングパワーしきい値Mを振幅に直したものと式(14)とを等しいとおいて計算すると、式(15)となる。
Figure 0004212591
なお、上記の平均量子化ノイズは2(3q/16)を2で割ったもの、最大量子化ノイズは2(3q/16)を2で割ったものとみなせるので、2(3q/16)を2で割ったものを量子化ノイズの一般値とすると、量子化ステップサイズは式(16)と書くことができる。n=0、1、2、・・・であり、n=0の場合が最大量子化ノイズとマスキングパワーしきい値とを評価したときのqであり、n=1の場合が平均量子化ノイズとマスキングパワーしきい値とを評価したときのqである。
Figure 0004212591
そして、量子化部13では、このように近似的に求めた量子化ステップサイズqを、式(1)に代入することで、個々の変換係数Xにおける量子化値を算出する。その後、量子化値は、符号化部15でハフマン符号化されて送信される。
また、デコーダ側に送信する情報は、量子化値だけでなく、コモンスケールファクタ及びスケールファクタの値も送信することになっている。したがって、量子化ステップサイズqからコモンスケールファクタ及びスケールファクタを求める必要がある。
従来では、コモンスケールファクタを算出する場合は式(3)を使用していたが、本発明では1フレームのすべてのサブバンドに対応する複数の量子化ステップサイズの中の最大の量子化ステップサイズを、コモンスケールファクタと設定する(すなわち、近似的に算出した、サブバンド毎の量子化ステップサイズの最大値をコモンスケールファクタとする)。また、各サブバンドのスケールファクタは式(2)を変形して以下の式(17)から算出される。式中のmax.qは量子化ステップサイズ最大値を表す。
Figure 0004212591
このように、量子化ステップサイズqからコモンスケールファクタ及びスケールファクタを求める。符号化部15では、これらをハフマン符号化して、コモンスケールファクタ及びスケールファクタもデコーダ側に送信する。
なお、コモンスケールファクタを量子化ステップサイズの最大値としたのは、スケールファクタ値の符号化に要するビット数をできるだけ小さくして、符号化部15での符号化効率を上げるためである。
次に本発明の動作をフローチャートを用いて説明する。図13、図14は本発明の全体動作を示すフローチャートである。
〔S21〕空間変換部11は、PCMサンプル値にMDCTを施し、変換係数を算出する。
〔S22〕量子化ステップサイズ演算部12は、サブバンド毎に変換係数の代表値を求める(空間変換部11でこの処理を行ってもよい)。
〔S23〕量子化ステップサイズ演算部12は、式(13c)を用いて、該当サブバンドの量子化ステップサイズqを算出する。
〔S24〕量子化ステップサイズ演算部12は、1フレーム中のすべてのサブバンドに対する量子化ステップサイズを求めたか否かを判断する。すべて求めた場合はステップS25へいき、そうでなければステップS23へ戻る。
〔S25〕スケールファクタ算出部14は、量子化ステップサイズの最大値をコモンスケールファクタと設定する。
〔S26〕スケールファクタ算出部14は、式(17)からサブバンド毎のスケールファクタを算出する。
〔S27〕量子化対象のサブバンドを示す変数sbを初期化する(sb=0)。
〔S28〕量子化部13は、サブバンド毎に求めた量子化ステップサイズで、式(1)を用いて、サブバンド内の変換係数を量子化する。
〔S29〕符号化部15は、量子化値、コモンスケールファクタ、スケールファクタをハフマン符号化し、現在のサブバンドまでの消費ビット数を算出する。
〔S30〕符号化部15は、消費ビット数(量子化値、コモンスケールファクタ、スケールファクタのそれぞれに対する符号化割り当てビット)があらかじめ決められた許容ビット数を超えているか否かを判断する。超えていればステップS31へいき、超えていなければステップS32へいく。
〔S31〕処理対象のサブバンドのビットを加算することで、許容ビット数がオーバすることになったので、符号化部15は、該当サブバンドを符号化対象から外す(符号化処理を停止する)。
〔S32〕符号化部15は、すべてのサブバンドの処理を行ったか否かを判断する。すべて行った場合は終了し、そうでなければステップS33へいく。
〔S33〕サブバンドを示す変数sbを更新して、ステップS28へ戻る。
以上説明したように、本発明によれば、各変換係数につき1回の量子化処理を行うだけですみ、また逆量子化を行っての量子化誤差パワー算出処理なども不要となるため、大幅に演算量が削減できることになる。
また、上記のフローチャートからわかるように、低いサブバンドから、次々とより高いサブバンドに対して処理を行って、許容ビット数をオーバするところで処理を止めている。許容ビット数は、ビットリザーバにあるビット数と設定ビットレートを加算したものとし、聴覚エントロピーなどは必ずしも算出する必要がない。
このため、本発明は周波数特性が広いフレームについては、多くビットをアサインし、狭いフレームについては、少なくビットをアサインする動作となる。すなわち、聴覚エントロピーの大小にしたがって自動的に必要なビット数をアサインする結果となり、処理の簡素化が実現でき、プログラムメモリ量や演算量をより削減することが可能になる。
ここで、従来と本発明との演算速度の違いについて説明する。従来の音声圧縮のアルゴリズムで、リアルタイムエンコーダを実現する場合には、組み込み型のプロセッサの処理能力として3GHz程度のクロックが必要である。一方、本発明のアルゴリズムでは、60MHz程度のクロックでリアルタイムエンコーダを実現することができ、1/50以下に演算量を削減した測定結果を得た。
次に本発明のオーディオ符号化装置10を適用したMPEG2−AACエンコーダについて説明する。図15は本発明を適用したMPEG2−AACエンコーダの構成を示す図である。MPEG2−AACエンコーダ20は、心理聴覚分析部21、ゲインコントローラ22、フィルタバンク23、TNS(Temporal Noise Shaping)24、インテンシティ/カップリング部25、予測部26、M/S(Middle/Side)27、量子化/符号化部10a、ビットリザーバ28、ビットストリーム生成部29から構成される。量子化/符号化部10aは、図1で示した量子化部13、スケールファクタ算出部14、符号化部15の構成要素を含んでいる。
なお、AACアルゴリズムには、複雑度・構造に応じて3つのプロファイルが用意されており、ここでは最も高音質の得られるMainプロファイルの処理を中心に説明する。
入力されたオーディオ信号は、所定のサンプル数毎にブロック化され、それを1フレームとして処理される。心理聴覚分析部21は、入力フレームをフーリエ変換して周波数スペクトルを求め、それを元に聴覚のマスキングを計算し、マスキングパワーしきい値と、そのフレームに対する聴覚エントロピーのパラメータを求める。
ゲインコントローラ22は、3つのプロファイルのSSR(Scalable Sampling Rate)のみで使用されるツールであり、入力時間信号を帯域分割フィルタで4分割して、最も低いバンド以外の信号のゲインをコントロールする。
フィルタバンク23は、MDCT部に該当し、入力時間信号にMDCTを施して変換係数を算出する。TNS24は、変換係数を時間軸上の信号であるかのように見立てて線形予測を行い、変換係数に対して予測フィルタリングを行う。この処理により、デコーダ側で逆MDCTして得られる波形に含まれる量子化ノイズは、信号レベルの大きなところに集まるようになる。なお、ゲインコントローラ22、TNS24は、特に打楽器などの切れのよい音を効率よく符号化するために用いられるツールである。
インテンシティ/カップリング部25及びM/S27は、2チャンネル以上のチャネル構成の場合に、チャネル間の相関を利用して符号化効率を上げるツールである(ステレオのオーディオ信号を効率よく符号化するために用いられるツールである)。
インテンシティステレオは、左(L)と右(R)のチャネル信号の和信号とパワーの比を符号化する。カップリングは、背景音の中に定位させたい音をカップリングチャネルとして符号化する。M/S27は、左(L)チャネルと右(R)チャネルの信号の符号化、またはそれぞれの和(L+R)と差(L−R)の信号の符号化のいずれかをサブバンド毎に選択して行う。
予測部26は、Mainプロファイルだけで使用される。変換係数1つ毎に、過去2フレームにおける量子化された変換係数から現在の変換係数の値を予測し、その予測残差を求める。特に入力信号が定常的である場合、非常に大きな予測ゲインが得られ、変換係数の電力(分散)が小さくなる。同じ量子化雑音電力が許容されるならば、量子化対象の分散が小さい方が必要なビット数を少なくできるので、圧縮する際に有利となる。
上記の各ツールで処理された変換係数は、本発明の主要部である量子化/符号化部10aに入力される。量子化/符号化部10aでは、サブバンド毎にグループ分けした変換係数に対して、1回の演算で高速に量子化/符号化を行う。詳細動作は上述したので説明は省略する(量子化/符号化部10aに相当する従来のAACエンコーダの構成部分は、Iteration Loopsと呼ばれ反復処理を行うブロックで構成されている。従来の量子化・ハフマン符号化の処理は反復ループで行われ、実際に生成される符号量がフレームに割当てられたビット数を下回るまで繰返される効率の悪いものであった)。
ビットリザーバ28は、ハフマン符号化する際に、フレームの割り当てビット数を適応的に可変するためのビットをバッファリングしておくものである。ビットリザーバ28によって擬似的な可変ビットレートを設定することができる。ビットストリーム生成部29は各ツールからの符号化データをまとめて1つのAACビットストリームとして伝送路から出力する。
このように、本発明によれば、マスキングパワーしきい値を下回るスケールファクタを算出するために従来のような試行錯誤をする必要がなく、1回の演算で近似できるために、演算量を大幅に削減することが可能になる。また、演算負荷を軽減できることから装置の小型化、低コスト化も可能になる。なお、上記では、本発明をMPEG2−AACエンコーダに適用した例を示したが、これ以外にもMPEG4−AACエンコーダやMP3エンコーダ、またはその他の音声符号化エンコーダに対して幅広く本発明を適用することが可能である。
以上説明したように、本発明のオーディオ符号化装置は、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズを近似的に算出する。そして、量子化ステップサイズにもとづき、変換係数を量子化して量子化値を求め、コモンスケールファクタ及びスケールファクタを求めて、これらを符号化する構成とした。これにより、人間の聴覚特性に応じて行われる、変換係数の量子化演算に対して、演算量の大幅な削減を実現することができ、演算効率の向上を図ることが可能になる。
上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

Claims (15)

  1. 音声信号の符号化を行うオーディオ符号化装置において、
    音声信号のサンプル値に空間変換を施して変換係数を算出する空間変換部と、
    変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズを近似的に算出する量子化ステップサイズ演算部と、
    量子化ステップサイズにもとづき、変換係数を量子化して量子化値を求める量子化部と、
    量子化ステップサイズから、フレーム全体のオフセット値であるコモンスケールファクタと、サブバンド毎のスケールファクタとを求めるスケールファクタ算出部と、
    量子化値、コモンスケールファクタ、スケールファクタの少なくとも1つを符号化する符号化部と、
    を有することを特徴とするオーディオ符号化装置。
  2. 前記量子化ステップサイズ演算部は、変換係数の代表値の量子化ノイズ概算値を求めた後に、量子化ノイズ概算値に補正係数を乗算して、非線形圧縮に対応した量子化ノイズを推定算出することを特徴とする請求の範囲第1項記載のオーディオ符号化装置。
  3. 前記量子化ステップサイズ演算部は、変換係数の代表値をXa、量子化ステップサイズをqとした場合の量子化式
    |Xa|(3/4)*2(−3q/16)−0.0946
    に対して、|Xa|(3/4)の量子化ノイズ概算値Naを
    Na=2(3q/16)/2 (n=0、1、2、・・・)
    によって求め、
    補正係数rを
    r=|Xa|/|Xa|(3/4)=|Xa|(1/4)
    によって求めて、量子化ノイズNを
    N=Na*r=2((3q/16)−n)*|Xa|(1/4)
    で算出することを特徴とする請求の範囲第2項記載のオーディオ符号化装置。
  4. 前記量子化ステップサイズ演算部は、マスキングパワーしきい値をM、変換係数の代表値をXaとした場合に、
    q=[log{M(1/2)*|Xa|(−1/4)}+n]*16/3
    (n=0、1、2、・・・)
    の式から量子化ステップサイズqを近似的に算出することを特徴とする請求の範囲第1項記載のオーディオ符号化装置。
  5. 前記スケールファクタ算出部は、各サブバンドの量子化ステップサイズの最大値をコモンスケールファクタと設定し、コモンスケールファクタから量子化ステップサイズを減算して、サブバンド毎のスケールファクタを求めることを特徴とする請求の範囲第1項記載のオーディオ符号化装置。
  6. 前記符号化部は、低い帯域のサブバンドから符号化を行って符号化に使用した消費ビット数を算出し、消費ビット数が許容ビット数を上回る場合は、上回る手前のサブバンドで符号化処理を完了し、下回っている場合は継続して次のサブバンドの符号化処理を行うことを特徴とする請求の範囲第1項記載のオーディオ符号化装置。
  7. マルチチャネル対応の音声信号の符号化を行うMPEG−AACエンコーダにおいて、
    音声信号のサンプル値を、フーリエ変換を用いて分析して、マスキングパワーしきい値を算出する心理聴覚分析部と、
    音声信号のサンプル値にMDCTを施して、変換係数を算出するMDCT部と、
    変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズを近似的に算出する量子化ステップサイズ演算部と、量子化ステップサイズにもとづき、変換係数を量子化して量子化値を求める量子化部と、量子化ステップサイズから、フレーム全体のオフセット値であるコモンスケールファクタと、サブバンド毎のスケールファクタとを求めるスケールファクタ算出部と、量子化値、コモンスケールファクタ、スケールファクタの少なくとも1つをハフマン符号化する符号化部と、から構成される量子化/符号化制御部と、
    ハフマン符号化する際に、フレームの割り当てビット数を適応的に可変するためのビットをバッファリングしておくビットリザーバと、
    を有することを特徴とするMPEG−AACエンコーダ。
  8. 前記量子化ステップサイズ演算部は、変換係数の代表値の量子化ノイズ概算値を求めた後に、量子化ノイズ概算値に補正係数を乗算して、非線形圧縮に対応した量子化ノイズを推定算出することを特徴とする請求の範囲第7項記載のMPEG−AACエンコーダ。
  9. 前記量子化ステップサイズ演算部は、変換係数の代表値をXa、量子化ステップサイズをqとした場合の量子化式
    |Xa|(3/4)*2(−3q/16)−0.0946
    に対して、|Xa|(3/4)の量子化ノイズ概算値Naを
    Na=2(3q/16)/2 (n=0、1、2、・・・)
    によって求め、
    補正係数rを
    r=|Xa|/|Xa|(3/4)=|Xa|(1/4)
    によって求めて、量子化ノイズNを
    N=Na*r=2((3q/16)−n)*|Xa|(1/4)
    で算出することを特徴とする請求の範囲第8項記載のMPEG−AACエンコーダ。
  10. 前記量子化ステップサイズ演算部は、マスキングパワーしきい値をM、変換係数の代表値をXaとした場合に、
    q=[log{M(1/2)*|Xa|(−1/4)}+n]*16/3
    (n=0、1、2、・・・)
    の式から量子化ステップサイズqを近似的に算出することを特徴とする請求の範囲第7項記載のMPEG−AACエンコーダ。
  11. 前記スケールファクタ算出部は、各サブバンドの量子化ステップサイズの最大値をコモンスケールファクタと設定し、コモンスケールファクタから量子化ステップサイズを減算して、サブバンド毎のスケールファクタを求めることを特徴とする請求の範囲第7項記載のMPEG−AACエンコーダ。
  12. 前記符号化部は、低い帯域のサブバンドから符号化を行って符号化に使用した消費ビット数を算出し、前記ビットリザーバにあるビット数と、設定ビットレートとを加算した値である許容ビット数に対して、消費ビット数が上回る場合は、上回る手前のサブバンドで符号化処理を完了し、下回っている場合は、継続して次のサブバンドの符号化処理を行うことを特徴とする請求の範囲第7項記載のMPEG−AACエンコーダ。
  13. 音声信号の量子化処理に対して、量子化ステップサイズを決めるパラメータであるコモンスケールファクタ及びスケールファクタを算出するスケールファクタ算出方法において、
    音声信号のサンプル値に空間変換を施して変換係数を算出し、
    変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、
    聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズを近似的に算出し、
    各サブバンドの量子化ステップサイズの最大値を、フレーム全体のオフセット値であるコモンスケールファクタと設定し、
    コモンスケールファクタから量子化ステップサイズを減算して、サブバンド毎のスケールファクタを算出することを特徴とするスケールファクタ算出方法。
  14. 変換係数の代表値をXa、量子化ステップサイズをqとした場合の量子化式
    |Xa|(3/4)*2(−3q/16)−0.0946
    に対して、|Xa|(3/4)の量子化ノイズ概算値Naを
    Na=2(3q/16)/2 (n=0、1、2、・・・)
    によって求め、
    補正係数rを
    r=|Xa|/|Xa|(3/4)=|Xa|(1/4)
    によって求めて、量子化ノイズNを
    N=Na*r=2((3q/16)−n)*|Xa|(1/4)
    で算出することを特徴とする請求の範囲第13項記載のスケールファクタ算出方法。
  15. マスキングパワーしきい値をM、変換係数の代表値をXaとした場合に、
    q=[log{M(1/2)*|Xa|(−1/4)}+n]*16/3
    (n=0、1、2、・・・)
    の式から量子化ステップサイズqを近似的に算出することを特徴とする請求の範囲第13項記載のスケールファクタ算出方法。
JP2005503376A 2003-06-30 2003-06-30 オーディオ符号化装置 Expired - Fee Related JP4212591B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2003/008329 WO2005004113A1 (ja) 2003-06-30 2003-06-30 オーディオ符号化装置

Publications (2)

Publication Number Publication Date
JPWO2005004113A1 JPWO2005004113A1 (ja) 2006-08-17
JP4212591B2 true JP4212591B2 (ja) 2009-01-21

Family

ID=33562077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005503376A Expired - Fee Related JP4212591B2 (ja) 2003-06-30 2003-06-30 オーディオ符号化装置

Country Status (3)

Country Link
US (1) US7613603B2 (ja)
JP (1) JP4212591B2 (ja)
WO (1) WO2005004113A1 (ja)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004009955B3 (de) * 2004-03-01 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
KR100682890B1 (ko) * 2004-09-08 2007-02-15 삼성전자주식회사 비트량 고속제어가 가능한 오디오 부호화 방법 및 장치
US8082156B2 (en) * 2005-01-11 2011-12-20 Nec Corporation Audio encoding device, audio encoding method, and audio encoding program for encoding a wide-band audio signal
WO2006107833A1 (en) 2005-04-01 2006-10-12 Qualcomm Incorporated Method and apparatus for vector quantizing of a spectral envelope representation
US9043214B2 (en) 2005-04-22 2015-05-26 Qualcomm Incorporated Systems, methods, and apparatus for gain factor attenuation
WO2007011157A1 (en) * 2005-07-19 2007-01-25 Electronics And Telecommunications Research Institute Virtual source location information based channel level difference quantization and dequantization method
CN100539437C (zh) * 2005-07-29 2009-09-09 上海杰得微电子有限公司 一种音频编解码器的实现方法
CN1909066B (zh) * 2005-08-03 2011-02-09 昆山杰得微电子有限公司 音频编码码量控制和调整的方法
WO2007029304A1 (ja) * 2005-09-05 2007-03-15 Fujitsu Limited オーディオ符号化装置及びオーディオ符号化方法
US8090587B2 (en) 2005-09-27 2012-01-03 Lg Electronics Inc. Method and apparatus for encoding/decoding multi-channel audio signal
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
JP4548348B2 (ja) * 2006-01-18 2010-09-22 カシオ計算機株式会社 音声符号化装置及び音声符号化方法
FR2898443A1 (fr) * 2006-03-13 2007-09-14 France Telecom Procede de codage d'un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d'ordinateur correspondants
JP2007293118A (ja) * 2006-04-26 2007-11-08 Sony Corp 符号化方法および符号化装置
US8706507B2 (en) * 2006-08-15 2014-04-22 Dolby Laboratories Licensing Corporation Arbitrary shaping of temporal noise envelope without side-information utilizing unchanged quantization
WO2008046492A1 (en) * 2006-10-20 2008-04-24 Dolby Sweden Ab Apparatus and method for encoding an information signal
CN101192410B (zh) 2006-12-01 2010-05-19 华为技术有限公司 一种在编解码中调整量化质量的方法和装置
US11217237B2 (en) 2008-04-14 2022-01-04 Staton Techiya, Llc Method and device for voice operated control
US8611560B2 (en) 2007-04-13 2013-12-17 Navisense Method and device for voice operated control
US8625819B2 (en) 2007-04-13 2014-01-07 Personics Holdings, Inc Method and device for voice operated control
US11317202B2 (en) 2007-04-13 2022-04-26 Staton Techiya, Llc Method and device for voice operated control
TWI374671B (en) * 2007-07-31 2012-10-11 Realtek Semiconductor Corp Audio encoding method with function of accelerating a quantization iterative loop process
ATE535904T1 (de) * 2007-08-27 2011-12-15 Ericsson Telefon Ab L M Verbesserte transformationskodierung von sprach- und audiosignalen
KR101435411B1 (ko) * 2007-09-28 2014-08-28 삼성전자주식회사 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
US8219409B2 (en) * 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
KR101599875B1 (ko) * 2008-04-17 2016-03-14 삼성전자주식회사 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 부호화 방법 및 장치, 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 복호화 방법 및 장치
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
KR20090110242A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 신호를 처리하는 방법 및 장치
EP2277293B1 (en) * 2008-05-23 2018-04-25 Telefonaktiebolaget LM Ericsson (publ) Method for moving quantization noise introduced in fixed-point calculation of fast fourier transforms
JP5224219B2 (ja) 2008-06-26 2013-07-03 独立行政法人科学技術振興機構 オーディオ信号圧縮装置、オーディオ信号圧縮方法、オーディオ信号復号装置及びオーディオ信号復号方法
ES2422412T3 (es) 2008-07-11 2013-09-11 Fraunhofer Ges Forschung Codificador de audio, procedimiento para la codificación de audio y programa de ordenador
US9129291B2 (en) 2008-09-22 2015-09-08 Personics Holdings, Llc Personalized sound management and method
JP5446258B2 (ja) * 2008-12-26 2014-03-19 富士通株式会社 オーディオ符号化装置
KR101078378B1 (ko) * 2009-03-04 2011-10-31 주식회사 코아로직 오디오 부호화기의 양자화 방법 및 장치
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8606571B1 (en) * 2010-04-19 2013-12-10 Audience, Inc. Spatial selectivity noise reduction tradeoff for multi-microphone systems
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
WO2012069886A1 (en) * 2010-11-26 2012-05-31 Nokia Corporation Coding of strings
CN102479514B (zh) * 2010-11-29 2014-02-19 华为终端有限公司 一种编码方法、解码方法、装置和系统
CN103370705B (zh) * 2011-01-05 2018-01-02 谷歌公司 用于便利文本输入的方法和系统
RU2585990C2 (ru) * 2011-04-20 2016-06-10 Панасоник Интеллекчуал Проперти Корпорэйшн оф Америка Устройство и способ для выполнения кодирования методом хаффмана
WO2012150482A1 (en) * 2011-05-04 2012-11-08 Nokia Corporation Encoding of stereophonic signals
WO2012152764A1 (en) * 2011-05-09 2012-11-15 Dolby International Ab Method and encoder for processing a digital stereo audio signal
US20130132100A1 (en) * 2011-10-28 2013-05-23 Electronics And Telecommunications Research Institute Apparatus and method for codec signal in a communication system
JP5786044B2 (ja) * 2012-02-07 2015-09-30 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
JP5800920B2 (ja) * 2012-02-07 2015-10-28 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
US8401863B1 (en) * 2012-04-25 2013-03-19 Dolby Laboratories Licensing Corporation Audio encoding and decoding with conditional quantizers
WO2013187498A1 (ja) * 2012-06-15 2013-12-19 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
US9270244B2 (en) 2013-03-13 2016-02-23 Personics Holdings, Llc System and method to detect close voice sources and automatically enhance situation awareness
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US9271077B2 (en) 2013-12-17 2016-02-23 Personics Holdings, Llc Method and system for directional enhancement of sound using small microphone arrays
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
DE112016000287T5 (de) 2015-01-07 2017-10-05 Knowles Electronics, Llc Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung
US11227615B2 (en) * 2017-09-08 2022-01-18 Sony Corporation Sound processing apparatus and sound processing method
US10405082B2 (en) 2017-10-23 2019-09-03 Staton Techiya, Llc Automatic keyword pass-through system
US11496152B2 (en) 2018-08-08 2022-11-08 Sony Corporation Decoding device, decoding method, and program
CN113360124B (zh) * 2020-03-05 2023-07-18 Oppo广东移动通信有限公司 音频输入输出控制方法和装置、电子设备、可读存储介质
CN117093182B (zh) * 2023-10-10 2024-04-02 荣耀终端有限公司 一种音频播放方法、电子设备和计算机可读存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3134363B2 (ja) * 1991-07-16 2001-02-13 ソニー株式会社 量子化方法
EP0559348A3 (en) 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
JP2000347679A (ja) 1999-06-07 2000-12-15 Mitsubishi Electric Corp オーディオ符号化装置及びオーディオ符号化方法
DE10010849C1 (de) * 2000-03-06 2001-06-21 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Analysieren eines Analyse-Zeitsignals
US6778953B1 (en) * 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
JP3630082B2 (ja) * 2000-07-06 2005-03-16 日本ビクター株式会社 オーディオ信号符号化方法及びその装置
US7062445B2 (en) * 2001-01-26 2006-06-13 Microsoft Corporation Quantization loop with heuristic approach
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US20040002859A1 (en) * 2002-06-26 2004-01-01 Chi-Min Liu Method and architecture of digital conding for transmitting and packing audio signals

Also Published As

Publication number Publication date
US7613603B2 (en) 2009-11-03
WO2005004113A1 (ja) 2005-01-13
US20060074693A1 (en) 2006-04-06
JPWO2005004113A1 (ja) 2006-08-17

Similar Documents

Publication Publication Date Title
JP4212591B2 (ja) オーディオ符号化装置
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
KR100986924B1 (ko) 정보 신호 인코딩
US7930171B2 (en) Multi-channel audio encoding/decoding with parametric compression/decompression and weight factors
KR101019678B1 (ko) 저비트율 오디오 코딩
CN1918632B (zh) 音频编码
US8032371B2 (en) Determining scale factor values in encoding audio data with AAC
EP2490215A2 (en) Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same
US20040162720A1 (en) Audio data encoding apparatus and method
CN1918630B (zh) 量化信息信号的方法和设备
KR20070070189A (ko) 음성 부호화 장치 및 음성 부호화 방법
US7003449B1 (en) Method of encoding an audio signal using a quality value for bit allocation
US10762912B2 (en) Estimating noise in an audio signal in the LOG2-domain
CN1918631B (zh) 音频编码设备、方法和音频解码设备、方法
JP5609591B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
KR20030068716A (ko) 웨이브렛 패킷 변환을 이용한 오디오 압축 방법 및 그시스템
JP3639216B2 (ja) 音響信号符号化装置
US20050254586A1 (en) Method of and apparatus for encoding/decoding digital signal using linear quantization by sections
US7668715B1 (en) Methods for selecting an initial quantization step size in audio encoders and systems using the same
JP2002149197A (ja) デジタルオーディオ圧縮アプリケーションにおいてオーディオ材料を事前に分類する方法および装置
JP2000151413A (ja) オーディオ符号化における適応ダイナミック可変ビット割り当て方法
KR100640833B1 (ko) 디지털 오디오의 부호화 방법
KR970006827B1 (ko) 오디오신호 부호화장치
KR970006825B1 (ko) 오디오신호 부호화장치

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081028

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081028

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131107

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees