JP5205373B2 - 動的可変ワーピング特性を有するオーディオエンコーダ、オーディオデコーダ及びオーディオプロセッサ - Google Patents

動的可変ワーピング特性を有するオーディオエンコーダ、オーディオデコーダ及びオーディオプロセッサ Download PDF

Info

Publication number
JP5205373B2
JP5205373B2 JP2009516921A JP2009516921A JP5205373B2 JP 5205373 B2 JP5205373 B2 JP 5205373B2 JP 2009516921 A JP2009516921 A JP 2009516921A JP 2009516921 A JP2009516921 A JP 2009516921A JP 5205373 B2 JP5205373 B2 JP 5205373B2
Authority
JP
Japan
Prior art keywords
warp
audio
filter
encoding
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009516921A
Other languages
English (en)
Other versions
JP2009541802A (ja
Inventor
ヘーレ ユルゲン
グリル ベルンハート
ムルトルス マルクス
バイヤー ステファン
クレーマー ウルリッヒ
ヒルシュフェルド イエンス
ヴァブニック ステファン
シューラー ゲラルド
Original Assignee
フラウンホーファーゲゼルシャフト・ツア・フェルデルング・デア・アンゲバンテン・フォルシュング・エー・ファウ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP06013604A external-priority patent/EP1873754B1/en
Priority claimed from US11/428,297 external-priority patent/US7873511B2/en
Application filed by フラウンホーファーゲゼルシャフト・ツア・フェルデルング・デア・アンゲバンテン・フォルシュング・エー・ファウ filed Critical フラウンホーファーゲゼルシャフト・ツア・フェルデルング・デア・アンゲバンテン・フォルシュング・エー・ファウ
Publication of JP2009541802A publication Critical patent/JP2009541802A/ja
Application granted granted Critical
Publication of JP5205373B2 publication Critical patent/JP5205373B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Description

本発明は、ワープフィルタを用いたオーディオ処理に関し、特に、多目的オーディオ符号化に関する。
低ビットレートのオーディオ及び音声符号化技術分野では、そのような信号の低ビットレート符号化を所与のビットレートにおいて自覚的最大限の品質で実現するために、幾つかの異なる符号化技法が、従来から用いられてきた。一般的な音楽/音響信号用のコーダは、知覚モデル(「知覚オーディオ符号化」)によって、入力信号から推定されるマスキングしきい値曲線により、量子化誤差のスペクトル的(及び時間的)形状を整形することによって、自覚的品質を最適化することを目的としている。他方、極めて低いビットレートでの音声の符号化は、それが、人の音声の生成モデルに基づく場合、即ち、線形予測符号化(LPC)を用いて、残留励振信号の効率的な符号化と共に、人の声道の共振効果をモデル化する場合、極めて効率的に機能することが分かっている。
これら2つの異なる取り組み方法の結果、一般的なオーディオコーダ(MPEG−1レイヤ3又はMPEG−2/4高度オーディオ符号化(AAC)等)は、通常、極めて低いデータレートの音声信号に対しては、音声源モデルの利用が欠如しているために、専用のLPCに基づく音声コーダと同様には機能しない。逆に、LPCに基づく音声コーダは、通常、マスキングしきい値曲線により符号化歪みのスペクトル包絡線を柔軟に形成できないことから、一般的な音楽信号に適用された場合、納得のいく結果が、実現されない。
本発明の目的は、LPCに基づく符号化及び知覚オーディオ符号化双方の利点を組み合わせて単一の枠組みにし、こうして一般的なオーディオ及び音声信号双方にとって効率的な統一オーディオ符号化を記述する概念を提供することである。
以下の章では、オーディオ及び音声信号の効率的な符号化のために提案されている一連の該当する技術について述べる。
知覚オーディオ符号化(図9)
従来、知覚オーディオコーダは、フィルタバンクに基づく取り組み方法を用いて、効率的にオーディオ信号を符号化し、マスキング曲線の推定により量子化歪みを整形している。
図9は、モノラル知覚符号化システムの基本的なブロック図を示す。分析フィルタバンクが、時間領域サンプルを下位標本化スペクトル成分にマッピングするために用いられる。
スペクトル成分の数に依存して、本システムはサブバンドコーダ(少数のサブバンド、例えば、32)又はフィルタバンクに基づくコーダ(多数の周波数ライン、例えば、512)とも称する。知覚(「心理音響学的」)モデルは、実際の時間依存マスキングしきい値を推定するために用いられる。スペクトル(「サブバンド」又は「周波数ドメイン」)成分は、量子化雑音が実際の送信信号の下に隠され、復号後、知覚できないように量子化及び符号化される。このことは、時間及び周波数についてのスペクトル値の量子化の細分性を変えることによって実現される。
完全にフィルタバンクに基づく知覚符号化概念に対する他の選択肢として、前置/後置フィルタ処理方法に基づく符号化が、図10に示すように、かなり最近になって提案されている。
[Edl00]では、知覚オーディオコーダが提案されているが、これは周波数についてのスペクトル係数の可変量子化よりもむしろ、いわゆる前置フィルタを用いることによって、散布量低減(即ち、知覚的判断基準による雑音整形)及び冗長性低減(即ち、数学的によりコンパクトな情報表現の取得)の態様を分離する。この原理について以下に説明する。入力信号を知覚モデルによって分析し、周波数についてマスキングしきい値曲線の推定値を演算する。マスキングしきい値は、その周波数応答の大きさが、マスキングしきい値に反比例するように、一連の前置フィルタ係数に変換する。前置フィルタ動作は、出力信号を生成する入力信号にこの一連の係数を適用するが、この場合、全ての周波数成分はそれらの知覚的重要性に従って表される(「知覚白色化」)。この信号は、「白色」量子化歪みを生成するオーディオコーダ、即ち、如何なる知覚雑音整形も適用しない任意の種類のオーディオコーダによって引き続き符号化される。従って、オーディオ信号の送信/記憶には、コーダのビットストリーム及び符号化版の前置フィルタ処理係数の双方が含まれる。デコーダでは、コーダビットストリームは中間オーディオ信号に復号され、そして、これは、送信されたフィルタ係数に基づき後置フィルタ処理動作を受ける。後置フィルタは、前置フィルタと対比して逆フィルタ処理を実施することから、マスキング曲線に基づき、スペクトル重み付けをその入力信号に適用する。このように、スペクトル的に一様な(「白色」)符号化雑音は、意図したようにデコーダ出力において知覚的に整形されて現れる。
そのような方式では、知覚雑音整形がスペクトル係数の周波数依存の量子化よりもむしろ前置/後置フィルタ処理ステップを介して実現されることから、この概念は、フィルタバンクに基づくオーディオコーダよりもむしろ前置フィルタ処理済みオーディオ信号を表すための非フィルタバンクに基づく符号化メカニズムを含むように一般化し得る。[Sch02]では、このことが、予測及びエントロピ符号化段を用いて、時間領域符号化カーネルについて示されている。
[Edl00] エドラ(B.Edler)、シューラ(G.Schuller)、「心理音響学的前置及び後置フィルタを用いたオーディオ符号化」、ICASSP2000、第2巻、2000年6月5−9日、II881−II884頁、第2巻
[Sch02] シューラ、ユ(B.Yu)、ハン(D.Huang)、及びエドラ(B.Edler)、「適応可能前置及び後置フィルタ及び無損失圧縮を用いた知覚オーディオ符号化」、音声及びオーディオ処理に関するIEEE会報、2002年9月、379−390頁
前置/後置フィルタ処理技法を用いることによって適切なスペクトル雑音整形を可能にするために、前置/後置フィルタの周波数解像度を人の聴覚系のそれに適応させることが重要である。理想的には、周波数解像度は、BARK又はERB周波数スケール等の公知の知覚周波数スケールに従う[Zwi]。このことは特に、前置/後置フィルタモデルの次数、従って、関連する計算の複雑さ及び付加情報送信速度を最小にする目的にとって望ましい。
前置/後置フィルタ周波数解像度の適合は、公知の周波数ワープ概念によって実現し得る[KHL97]。本質的に、フィルタ構造内における単位遅延は、(一次以上の次数の)全通過フィルタによって置き換えられ、これによってフィルタの周波数応答に不均一な変形(「ワープ」)が生じる。一次全通過フィルタ(例えば、(z-1−λ)/(1−λz-1))を用いても、知覚周波数スケールのかなり正確な近似が、全通過係数を適切に選択することによって可能であることが分かっている[SA99]。従ってほとんどの公知のシステムは、周波数ワープのために、高次の全通過フィルタを利用しない。一次全通過フィルタは、単一のスカラーパラメータ(「ワープ係数」−1<λ<1と称する)によって完全に決定されることから、これにより、周波数スケールの変形が求められる。例えばワープ係数λ=0の場合、変形は効力がない。即ち、フィルタは正規の周波数スケールで動作する。選択されるワープ係数が大きくなればなるほど、周波数解像度は、(知覚周波数スケールを近似する必要があるため)スペクトルの低周波数部分に集中し、スペクトルの高周波数部分からなくなる。このことは、正及び負のワープ係数双方について、図5に示す。
ワープ前置/後置フィルタを用いて、オーディオコーダは通常、48kHz又は44.1kHz等の共通のサンプリングレートで、8と20との間のフィルタ次数を用いる[WSKH05]。
ワープフィルタ処理の他の幾つかの用途について、例えば、空間インパルス応答のモデル化[HKS00]について、また、オーディオ信号における雑音成分のパラメトリックモデル化について(等価な名称のラゲール(Laguerre)/カウツ(Kauz)フィルタ処理の下で)述べた[SOB03]。
[Zwi] ツビッカー(Zwicker,E.)及びファストル(H.Fastl)、「心理音響学、事実とモデル」、Springer Verlag、ベルリン
[KHL97] カルヤライネン(M.Karjalainen)、ハルマ(A. Harma)、ライン(U.K.Laine)、「実現可能なワープIIRフィルタ及びそれらの特性」、IEEE ICASSP、1997年、2205−2208頁、第3巻
[SA99] スミス(J.O.Smith)、アベル(J.S.Abel)、「BARK及びERB双線形変換」、音声及びオーディオ処理に関するIEEE会報、第7巻、1999年11月6日発行、697−708頁
[HKS00] ハルマ(Harma,Aki)、カルヤライネン(Karjalainen、Matti)、サビオヤ(Savioja、Lauri)、バリマキ(Valimaki、Vesa)、ライン(Laine、UntoK)、フオパニミ(Huopaniemi、Jyri)、「オーディオ用途のための周波数・ワープ信号処理」、AESの機関紙、第48巻、No.11、1011−1031頁、2000年11月
[SOB03] シュイヤース(E.Schuijers)、オーメン(W.Oomen)、ブリンカ(B.denBrinker)、ブリーバート(J.Breebaart)、「高品質オーディオのためのパラメトリック符号化の進展」、第114回会議、アムステルダム、オランダ、2003年、予稿5852
[WSKH05] ワブニック(S.Wabnik)、シューラ(G.Schuller)、クレイマー(U.Kramer)、ヒルシュフェルト(J.Hirschfeld)、「低遅延オーディオ符号化における周波数ワーピング」、音響、音声、及び信号処理に関するIEEE国際会議、2005年3月18−23日、フィラデルフィア、PA、米国
LPCに基づく音声符号化
従来、効率的な音声符号化は、線形予測符号化(LPC)に基づき、残留励振信号の効率的な符号化と共に人の声道の共振効果をモデル化していた[VM06]。LPC及び励振パラメータ双方は、エンコーダからデコーダに送られる。この原理は、以下の図(エンコーダ及びデコーダ)に示す。
これまで多くの方法が、多重パルス励振(MPE)、正規パルス励振(RPE)、及びコード励振線形予測(CELP)等の、残留(励振)信号の効率的で且つ知覚的に納得する表現に関して提案されている。
線形予測符号化では、過去の観察の線形の組合せとして或る数の過去の値の観察に基づき、数列の現サンプル値の推定値の生成を試みる。入力信号の冗長性を低減するために、エンコーダLPCフィルタはそのスペクトル包絡線の入力信号を「白色化する」。即ち、その周波数応答は信号のスペクトル包絡線の逆のモデルである。反対に、デコーダLPCフィルタの周波数応答は信号のスペクトル包絡線のモデルである。具体的には、公知の自己回帰(AR)線形予測分析は、全極近似によって信号のスペクトル包絡線をモデル化することが知られている。
通常、狭帯域音声コーダ(即ち、サンプリングレート8kHzの音声コーダ)は、8と12の間の次数を有するLPCフィルタを用いる。LPCフィルタの性質により、均一な周波数解像度が全周波数範囲に渡って有効である。これは知覚周波数スケールに対応しない。
ワープLPC符号化
不均一な周波数感度は、ワープ技法によって提示されるが、それが音声符号化に対しても利点を提供し得ることを留意して、正規のLPC分析をワープ予測分析によって置き換える提案がなされてきている。具体的には、[TML94]は、時間と共に変化する入力信号に基づきサンプル毎に更新されるケプストラム係数c(m)によって、音声スペクトル包絡線をモデル化する音声コーダを提示する。モデルの周波数スケールは、通常の単位遅延の代わりに、第1次全通過フィルタを用いることによって知覚MELスケール[Zwi]を近似するように構成されている。ワープ係数の固定値0.31はコーダサンプリングレート8kHzで用いられる。このアプローチは更に、[KTK95]における励振信号を表すためのCELP符号化コアを含むように、これもまた、コーダサンプリングレート8kHzでワープ係数に固定値0.31を用いて開発されている。
本著者は、提案した方式の良好な性能を主張するが、最先端技術の音声符号化は、ワープ予測符号化技法を採用しなかった。
ワープLPCとCELP符号化の他の組合せが知られており、例えばワープ係数0.723がサンプリングレート44.1kHzで用いられる[HLM99]が知られている。
[TMK94] トクダ(K.Tokuda)、マツムラ(H.Matsumura)、コバヤシ(T.Kobayashi)及びイマイ(S.Imai)、「適応可能なメルケプストラム分析に基づく音声符号化」、会報IEEE ICASSP94、197−200頁、1994年4月
[KTK95] コイシダ(K.Koishida)、トクダ(K.Tokuda)、コバヤシ(T.Kobayashi)及びイマイ(S.Imai)、「メルケプストラム分析に基づくCELP符号化」、会報IEEE ICASSP95、33−36頁、1995年
[HLM99] ハルマ(Aki Harma)、ライン(Unto K.Laine)、カルヤライネン(Matti Karjalainen)、「広帯域オーディオ符号化のためのワープ低遅延CELP」、第17回国際AES会議、フローレンス、イタリア、1999年
[VM06] ベアリ(PeterVary)、マーティン(RainerMartin)、「デジタル音声伝送:高度化、符号化及び誤り隠匿」、発行元:John Wiley&Sons社、2006年、ISBN0−471−56018−9
一般化ワープLPC符号化
ワープ周波数スケールに音声符号化を実施する考え方は、その後数年に渡って更に発展した。具体的には、知覚周波数スケールによるスペクトル分析の完全に従来のワープ処理は、音声信号を符号化するための最大限の品質を実現するのに適切でないかもしれないことが着目された。従って、メル一般化ケプストラム分析は、[KTK96]において提案されたが、これによって、以前提案されたメルケプストラム分析(完全なワープ周波数スケールの場合)とケプストラム分析との間のスペクトルモデルの特性と、従来のLPCモデル(均一な周波数スケールの場合)及び信号のスペクトル包絡線の全極モデルの特性と、が次第に弱まる。具体的には、提示された一般化分析はこれらの特性を制御する2つのパラメータを有する。
●パラメータγ、−1≦γ≦0、は、ケプストラムタイプの分析とLPCタイプの分析との間で連続的に次第に弱まるが、ここで、γ=0はケプストラムタイプ分析に対応し、γ=−1はLPCタイプ分析に対応する。
●パラメータα、|α|<1、は、ワープ係数である。α=0の値は完全に均一な周波数スケール(標準LPCと同様)に対応し、値α=0.31は完全な知覚周波数ワープに対応する。
同じ概念が、[KHT98]において、広帯域音声の符号化に適用された(サンプリングレート16kHz)。尚、そのような一般化分析の動作点(γ;α)は、事前に選択され、時間の経過により変化しない。
[KTK96] コイシダ(K.Koishida)、トクダ(K.Tokuda)、コバヤシ(T.Kobayashi)、及びイマイ(S.Imai)、「メル一般化ケプストラム分析に基づくCELP符号化システム」、会報、ICSLP’96、318−321頁、1996年
[KHT98] コイシダ(K.Koishida)、ヒラバヤシ(G.Hirabayashi)、トクダ(K.Tokuda)、及びコバヤシ(T.Kobayashi)、「メル一般化ケプストラム分析に基づく16kbit/sでの広帯域CELP音声コーダ」、会報、IEEE ICASSP’98、161−164頁、1998年
符号化フィルタ及び2つの交互符号化カーネル双方が含まれる構造については、文献(「WB−AMR+コーダ」[BLS05])に以前記載されている。ワープフィルタを用いるという考え方や時間と共に変化するワープ特性を有するフィルタを用いるという考え方さえ、全く存在しない。
[BLS05] べセット(B.Bessette)、レフェブレ(R.Lefebvre)、サラミ(R.Salami)、「ハイブリッドACELP/TCX技法を用いた汎用音声/オーディオ符号化」、会報、IEEE ICASSP2005、301−304頁、2005年
それら全ての従来技術による技法の不利な点は、これらが全て特定のオーディオ符号化アルゴリズム専用であることである。ワープフィルタを用いる音声コーダは、いずれも音声信号に対して最適に構成されるが、音楽信号等の一般的なオーディオ信号の符号化になると、妥協が行われる。
他方、一般的なオーディオコーダは、マスキングしきい値未満に量子化雑音を完全に隠すように最適化される。即ち、散布量低減を実施するように最適に構成される。この目的のために、これらは人間の聴取メカニズムの不均一な周波数解像度を明らかにする機能を有する。しかしながら、これらは、一般的なオーディオエンコーダであるため、例えば、音声コーダから既知の極めて低いビットレートを得る理由である特定の種類の信号パターンに関する任意の事前の知識を具体的に利用することはできない。
更に、多くの音声コーダは、固定及び可変コードブックを用いる時間領域エンコーダであり、一方、ほとんどの一般的なオーディオコーダは、周波数の目安であるマスキングしきい値問題のため、フィルタバンクを用いたエンコーダであり、このため、時間領域に基づく一般的なオーディオエンコーダも存在するが、両コーダを単一の符号化/復号化フレームに効率的に導入するのはかなり問題である。
本発明の目的は、特定の信号パターンばかりでなく、一般的なオーディオ信号に対しても高い品質及び低ビットレートを提供する改善された汎用符号化概念を提供することである。
本発明の第1態様によれば、この目的は、オーディオ信号を符号化するためのオーディオエンコーダによって実現される。本オーディオエンコーダには、前置フィルタ処理済みオーディオ信号を生成するための前置フィルタが含まれる。前置フィルタは可変ワープ特性を有し、ワープ特性は時間と共に変化する制御信号に応じて制御可能であり、制御信号は小さい又はワープの無い特性又は比較的高いワープ特性を示す。また、本オーディオエンコーダには、時間と共に変化する制御信号を提供するためのコントローラが含まれる。時間と共に変化する制御信号はオーディオ信号に依存する。更に、本オーディオエンコーダには、前置フィルタ処理済みオーディオ信号を処理して、符号化オーディオ信号を得るための制御可能な符号化プロセッサが含まれる。符号化プロセッサは、特定の信号パターンに適合されている第1符号化アルゴリズムに基づき、又は、一般的なオーディオ信号の符号化に適する第2の異なる符号化アルゴリズムに基づき、前置フィルタ処理済みオーディオ信号を処理するように構成されている。
好適には、符号化プロセッサは、比較的高いワープ特性を用いてフィルタ処理されるオーディオ信号部分が第2符号化アルゴリズムを用いて処理され符号化信号を取得するように、また、小さい又はワープの無い特性を用いてフィルタ処理されるオーディオ信号が第1符号化アルゴリズムを用いて処理されるように、コントローラによって制御されるべく構成されている。
本発明の更なる態様によれば、この目的は、符号化オーディオ信号を復号するためのオーディオデコーダによって実現される。符号化オーディオ信号は、特定の信号パターンに適合されている第1符号化アルゴリズムに基づき符号化された第1部分を有し、また、一般的なオーディオ信号の符号化に適する第2の異なる符号化アルゴリズムに基づき符号化された第2部分を有する。本オーディオデコーダには、第1部分又は第2部分の根底にある符号化アルゴリズムを検出するための検出器と、検出器に応答して、第1符号化アルゴリズムを用いて第1部分を復号し、第1復号化時間部分を得るための、また、第2符号化アルゴリズムを用いて、第2部分を復号し、第2復号化時間部分を得るための復号化プロセッサと、が含まれる。更に、本オーディオデコーダには、小さい又はワープの無い特性を有する第1状態と、比較的高いワープ特性を有する第2状態との間で制御可能な可変ワープ特性を有する後置フィルタが含まれる。
好適には、後置フィルタは、第1復号化時間部分が小さい又はワープの無い特性を用いてフィルタ処理され、また、第2復号化時間部分が比較的高いワープ特性を用いてフィルタ処理されるように、制御される。
本発明の更なる態様によれば、この目的は、オーディオ信号を処理するためのオーディオプロセッサによって実現される。本オーディオプロセッサには、フィルタ処理済みオーディオ信号を生成するためのフィルタが含まれる。本フィルタは可変ワープ特性を有し、ワープ特性は時間と共に変化する制御信号に応じて制御可能であり、制御信号は小さいもしくはワープの無い特性又は比較的高いワープ特性を示す。本オーディオプロセッサには、更に、時間と共に変化する制御信号を提供するためのコントローラが含まれ、時間と共に変化する制御信号はオーディオ信号に依存する。
本発明の更なる態様は、符号化処理、復号化処理、及びオーディオ処理の対応する方法並びに関連するコンピュータプログラム及び符号化オーディオ信号に関する。
本発明は、オーディオエンコーダ側の可変ワープ特性を有する前置フィルタが、異なる符号化アルゴリズムを単一のエンコーダフレームに一体化するための重要な特徴であるという知見に基づく。これら2つの異なる符号化アルゴリズムは互いに異なる。第1符号化アルゴリズムは音声信号等の特定の信号パターンに適合されているが、他の任意の特に高調波パターン、ピッチ・パターン又は過渡的なパターンが選択肢であり、一方、第2符号化アルゴリズムは一般的なオーディオ信号の符号化に適する。エンコーダ側の前置フィルタ又はデコーダ側の後置フィルタを用いると、単一のエンコーダ/デコーダ枠組み内において、信号特有の符号化モジュール及び一般的な符号化モジュールを一体化することが可能になる。
一般的に、一般的なオーディオエンコーダモジュール又は信号特有のエンコーダモジュール用の入力は、より高くもしくは低く又は同程度にワープすることができる。このことは、特定の信号及びエンコーダモジュールの具体例に依存する。従って、どのワープフィルタ特性がどの符号化モジュールに属するかという相互関係について信号伝達し得る。幾つかの場合、結果的に、より強いワープ特性は一般的なオーディオコーダに属し、より軽微な又はワープの無い特性は信号専用のモジュールに属し得る。この状況は、幾つかの実施形態では、固定的に設定されたり、或る信号部分に対してエンコーダモジュールに動的に信号伝達する結果であったりする。
特定の信号パターンに適合されている符号化アルゴリズムは、通常、散布量を低減するためにマスキングしきい値を用いることに過度に依拠しないが、この符号化アルゴリズムは必ずしも、何らかのワープ前処理又は「柔軟な」ワープ前処理だけを必要とするとは限らない。これが意味することは、特定の信号パターンに適合されている第1符号化アルゴリズムが利点として特定の信号パターンに関する事前の知識を用いるが、マスキングしきい値にそれほど依拠せず、従って人の聴取メカニズムの不均一な周波数解像度にアプローチする必要がないことである。人の聴取メカニズムの不均一な周波数解像度は、周波数スケールに沿って異なる帯域幅を有するスケール係数帯域によって反映される。この不均一な周波数スケールはBARK又はERBスケールとしても知られている。
不均一な周波数解像度を用いた処理及び雑音整形は、符号化アルゴリズムが、マスキングしきい値の概念を利用することによる散布量低減に過度に依拠する場合にのみ必要であるが、特定の信号パターンに適合され、また、事前の知識を用いて、そのような特定の信号パターンを極めて効率的に処理する特定の符号化アルゴリズムに対しては必要ではない。実際、いずれの不均一な周波数ワープ処理も、そのような特定の信号パターンに適合された符号化アルゴリズムの効率にとって有害なことがあるが、これは、第1符号化アルゴリズムが、特定の信号パターンに対して極端に最適化されているという事実により、そのようなワープ処理が、第1符号化アルゴリズムの符号化効率を大きく低下させ得る特定の信号パターンに影響を与えるためである。
これとは反対に、マスキングしきい値から最適な恩典を引き出し得るように、人の聴取メカニズムの不均一な周波数解像度を説明する何らかの対策が採られる場合、第2符号化アルゴリズムは許容可能なオーディオ品質と共に許容可能な出力ビットレートだけを生成し得る。
オーディオ信号には、一般的なオーディオ、即ち、この特定の信号パターンを有さない又はこの特定の信号パターンをわずかな程度にのみ有する信号を伴う特定の信号パターンを含み得ることから、本発明による前置フィルタは、特定の信号パターンを有さない信号部分がある場合、強いワープ処理だけを行い、他方、特定の信号パターンを有さない信号の場合、全くワープの無い又は小さいワープ特性だけが適用される。
特に、第1符号化アルゴリズムが線形予測符号化に依拠するいずれかの符号化アルゴリズムであり、また第2符号化アルゴリズムが前置フィルタ/後置フィルタ構成に基づく一般的なオーディオコーダである場合、前置フィルタは同じフィルタを用いて異なるタスクを実施し得る。オーディオ信号が特定の信号パターンを有する場合、前置フィルタは、第1符号化アルゴリズムが残留信号又はLPC励振信号の符号化だけに関係するように、LPC分析フィルタとして機能する。
特定の信号パターンを有さない信号部分がある場合、前置フィルタは、強ワープ特性を有するように、また、好適には、心理音響マスキングしきい値に基づきLPCフィルタ処理を実施するように制御され、これによって、前置フィルタ処理済み出力信号は周波数ワープフィルタによってフィルタ処理され、また、心理音響学的により重要なスペクトル部分が心理音響学的により重要でないスペクトル部分に対して増幅される。そして、直送式量子化器を用い得るが、一般的に言えば符号化時の量子化はワープフィルタの出力における周波数範囲全体に符号化雑音を不均一に分散する必要なく、行うことができる。量子化雑音の雑音整形は、デコーダ側の時間と共に変化するワープフィルタで得られる後置フィルタ処理動作によって自動的に行われるが、このワープフィルタはワープ特性についてはエンコーダ側前置フィルタと同一であり、また、このフィルタがデコーダ側の前置フィルタに対して逆であるという事実により、雑音整形処理を自動的に生成して、高い音声品質を維持しつつ、最大の散布量低減を得る。
引き続き、本発明の好適な実施形態について、添付図を参照して説明する。
好適なオーディオエンコーダのブロック図である。 好適なオーディオデコーダのブロック図である。 符号化済みオーディオ信号の概略図である。 図3aの第1及び/又は第2時間部分用の付加情報の概略図である。 本発明の用途に適する従来技術によるFIR前置フィルタ又は後置フィルタを示す図である。 ワープ係数に依存するフィルタのワープ特性を示す図。 時間と共に変化するワープ特性を有する線形フィルタ及びコントローラを有する本発明によるオーディオプロセッサを示す図である。 本発明によるオーディオエンコーダの好適な実施形態を示す図である。 本発明によるオーディオデコーダの好適な実施形態を示す図である。 エンコーダ及びデコーダを有する従来技術によるフィルタバンクに基づく符号化アルゴリズムを示す図である。 エンコーダ及びデコーダを有する従来技術による前置/後置フィルタを用いたオーディオ符号化アルゴリズムを示す図である。 エンコーダ及びデコーダを有する従来技術によるLPC符号化アルゴリズムを示す図である。
本発明の好適な実施形態が提供する画一的な方法は、一般的なオーディオ信号及び音声信号双方の符号化を行う方法であり、この符号化を、少なくとも双方のタイプの信号に対して既知の最良の符号化方式の性能に匹敵する性能で行う方法である。それは、以下の要件に基づく。
●一般的なオーディオ信号の符号化の場合、マスキングしきい値曲線により(「知覚オーディオ符号化」の考え方により)、符号化雑音スペクトル包絡線を整形することが不可欠であり、従って知覚的ワープ周波数スケールが望ましい。それにもかかわらず、均一な周波数解像度が、知覚的ワープのそれより良く機能する或る(例えば、高調波)オーディオ信号が存在するが、これは、前者がそれら個々のスペクトル微細構造をより良く分解できるためである。
●音声信号の符号化の場合、最先端技術の符号化性能は正規の(非ワープ)線形予測によって実現できる。ある量のワーピンブが符号化性能を改善する或る音声信号が存在することがある。
本発明の考え方によれば、このジレンマはエンコーダフィルタが含まれる符号化システムによって解決され、このエンコーダフィルタは、音楽信号の符号化に一般的に好ましい完全なワープ動作と、音声信号の符号化に一般的に好ましい非ワープ動作との間で、その特性を円滑に次第に弱め得る。具体的には、提案した本発明によるアプローチには、時間と共に変化するワープ係数を有する線形フィルタが含まれる。このフィルタは、所望のワープ係数を受信し、それに応じてフィルタ動作を修正する特別な入力によって制御される。
そのようなフィルタの動作によって、フィルタは、制御入力に依存して、マスキング曲線のモデル(音楽の符号化用の後置フィルタ、λ=λ0でのワーピング有り)として、且つ、信号のスペクトル包絡線のモデル(音声の符号化用の逆LPCフィルタ、λ=0でワーピング無し)として機能し得る。本発明によるフィルタが、更に、中間ワープ係数0≦λ≦λ0の連続帯を処理するために備えられた場合、更にもっと柔軟な中間の特性が可能である。
当然、逆デコーダフィルタ処理メカニズムには、同様に、即ち、線形デコーダフィルタには、時間と共に変化するワープ係数が備えられ、知覚前置フィルタ並びにLPCフィルタとして機能し得る。
良好な振舞いのフィルタ処理済み信号を生成して引き続き符号化するためには、ワープ係数の2つの異なる値の間で瞬時に切り替えずに、時間に対してワープ係数のソフトな移行を適用することが望ましい。一例として、非ワープ動作と完全に知覚的ワープ動作との間の128サンプルの移行により、出力信号の望ましくない不連続が回避される。
可変ワーピングのそのようなフィルタを用いて、次の様に、最適な音声及びオーディオ符号化品質の双方を実現する組み合わせ式の音声/オーディオコーダを構築することが可能である(図7又は8参照)。
●用いられる符号化モード(「音声モード」又は「音楽モード」)に関する判断は、別個のモジュールにおいて、入力信号の分析を実行することによって実施され、また、音声信号を音楽から区別するための既知の技法に基づき得る。その結果、判断モジュールは、符号化モード/及びフィルタ用の関連する最適なワープ係数に関する判断を生成する。更に、この判断に依存して、選択された符号化モードにおいて入力信号に適する一連の適切なフィルタ係数が決定される。即ち、音声の符号化の場合、LPC分析が(ワーピング無し又は低ワープ係数で)実施され、これに対して音楽の符号化の場合、マスキング曲線が推定され、またその逆数がワープスペクトル係数に変換される。
●時間と共に変化するワープ特性のフィルタは、共通のエンコーダ/デコーダフィルタとして用いられ、符号化モード判断/ワープ係数及び判断モジュールによって生成された一連のフィルタ係数に依存して、信号に適用される。
●フィルタ処理段の出力信号は、符号化モードに依存して、音声符号化カーネル(例えば、CELPコーダ)又は汎用オーディオコーダカーネル(例えば、フィルタバンク/サブバンドコーダ又は予測オーディオコーダ)のいずれかによって、又は双方によって、符号化される。
●送信/記憶される情報には、符号化モード判断(即ち、ワープ係数の表示)、或る符号化形態のフィルタ係数、及び音声/励振及び汎用オーディオコーダによって配信される情報が含まれる。
対応するデコーダはそれに応じて動作する。これは、送信された情報を受信し、符号化モード情報により音声及び汎用オーディオ部分を復号し、それらを組み合わせて(例えば、それらを加算することによって)単一の中間信号にし、符号化モード/ワープ係数及びフィルタ係数を用いて、この中間信号をフィルタ処理して、最終的な出力信号を形成する。
引き続き、図1を参照して、本発明によるオーディオエンコーダの好適な実施形態について述べる。図1のオーディオエンコーダは、ライン10のオーディオ信号入力を符号化するように動作する。オーディオ信号は、ライン14に出現する前置フィルタ処理済みオーディオ信号を生成するための前置フィルタ12に入力される。前置フィルタは可変ワープ特性を有し、このワープ特性はライン16上の時間と共に変化する制御信号に応じて制御可能である。制御信号は、小さいワープ特性を示すか、ワープ特性を示さないか、又は比較的高いワープ特性を示す。従って、時間と共に変化するワープ制御信号は、強ワープの場合「1」又はワープ特性が無い場合「0」等の2つの異なる状態を有する信号であってよい。ワープ適用の目指す目標は、BARKスケールに類似した前置フィルタの周波数解像度を得ることである。しかしながら、信号/ワープ特性設定値の異なる状態も可能である。
更に、本発明によるオーディオエンコーダには、時間と共に変化する制御信号を提供するためのコントローラ18が含まれ、この場合、時間と共に変化する制御信号は、図1においてライン20によって示すように、オーディオ信号に依存する。更に、本発明によるオーディオエンコーダには、前置フィルタ処理済みオーディオ信号を処理して、ライン24において符号化オーディオ信号出力を得るための制御可能な符号化プロセッサ22が含まれる。特に、符号化プロセッサ22は、特定の信号パターンに対して適合されている第1符号化アルゴリズムに基づき、又は一般的なオーディオ信号の符号化に適する第2の異なる符号化アルゴリズムに基づき、前置フィルタ処理済みオーディオ信号を処理するように構成されている。特に、符号化プロセッサ22は、好適には、ライン26上の別個のエンコーダ制御信号を介して、コントローラ18によって制御されるように構成され、これにより、比較的高いワープ係数を用いてフィルタ処理されるオーディオ信号部分は第2符号化アルゴリズムを用いて処理され、このオーディオ信号部分用の符号化信号が得られ、ワープ特性を用いず又は小さいワープ特性のみを用いてフィルタ処理されるオーディオ信号部分は第1符号化アルゴリズムを用いて処理される。
従って、制御ライン26上の信号用の制御表28に示すように、オーディオ信号を処理する際の幾つかの状況では、ワープが実施されないか又は小さいワープのみがフィルタによって実施され、信号が第1符号化アルゴリズムに基づきフィルタ処理される。一方、強い及び好適には知覚的にフルスケールのワープが、前置フィルタによって適用される場合、時間部分は一般的なオーディオ信号用の第2符号化アルゴリズムを用いて処理される。これは、好適には、心理音響マスキングしきい値未満に量子化雑音を隠す処理に基づく。当然、本発明は、信号特有のパターンを有するオーディオ信号の他の部分では高いワープ特性が適用され、一方、特定の信号パターンを有さない更に他の部分では小さい又はワープの無い特性が用いられる場合も網羅する。このことは、例えば、合成エンコーダ判断による分析又は当分野において既知のいずれか他のアルゴリズムによって決定できる。しかしながら、エンコーダモジュール制御は送信されたワープ係数に依存して固定的に設定したり、又はワープ係数は送信されたコーダモジュール表示から導出したりできる。更に、両情報項目は、付加情報として、即ち、コーダモジュール及びワープ係数として送信し得る。
図2は、ライン30における符号化オーディオ信号入力を復号するための本発明によるデコーダを示す。符号化オーディオ信号は、特定の信号パターンに適合されている第1符号化アルゴリズムに基づき符号化された第1部分を有し、また、一般的なオーディオ信号の符号化に適する、第1符号化アルゴリズムとは異なる第2符号化アルゴリズムに基づき符号化された第2部分を有する。特に、本発明によるデコーダには、第1又は第2部分の根底にある符号化アルゴリズムを検出するための検出器32が含まれる。この検出は、破線34によって示すように、符号化オーディオ信号から付加情報を抽出することによって行うことができ、及び/又は破線38によって示すように、復号化プロセッサ36に入るビットストリームを調べることによって行い得る。復号化プロセッサ36は、制御ライン40によって示すように、第1及び第2部分双方に対して、正しい符号化アルゴリズムが選択されるように検出器に応答して復号を行うためのものである。
好適には、復号化プロセッサは、第1符号化アルゴリズムを用いて第1時間部分を復号するように、また、第2符号化アルゴリズムを用いて第2時間部を復号するように動作し、これにより、第1及び第2の復号化時間部分が、ライン42上で出力される。ライン42は、可変ワープ特性を有する後置フィルタ44にその入力を伝達する。特に、後置フィルタ44は、この後置フィルタが、第1状態においてわずかな又はワープの無い特性を有し、また、第2状態において高いワープ特性を有するように、ライン46上の時間と共に変化するワープ制御信号を用いて制御可能である。
好適には、後置フィルタ44は、第1符号化アルゴリズムを用いて復号された第1時間部分が小さい又はワープの無い特性を用いてフィルタ処理されるように、また、復号化オーディオ信号の第2時間部分が比較的強いワープ特性を用いてフィルタ処理されるように、制御され、これにより、オーディオデコーダ出力信号がライン48において得られる。
図1及び図2を見ると、第1符号化アルゴリズムは、符号化プロセッサ22において行われるエンコーダ関連のステップ及び復号化プロセッサ36において実現される対応するデコーダ関連のステップを決定する。更に、第2符号化アルゴリズムは、符号化プロセッサに用いられるエンコーダ関連の第2符号化アルゴリズムステップ及び復号化プロセッサ36に用いられる対応する第2符号化アルゴリズム関連の復号ステップを決定する。
更に、前置フィルタ12及び後置フィルタ44は、一般的に、互いに対して逆である。それらのフィルタのワープ特性は、後置フィルタが、前置フィルタと同じワープ特性を有するように、又は10パーセントの許容誤差範囲内で少なくとも同様なワープ特性を有するように、制御される。
当然、前置フィルタが、例えば、特定の信号パターンを有する信号が存在するということによりワープされない場合、後置フィルタもまた、ワープフィルタである必要はない。
しかしながら、前置フィルタ12並びに後置フィルタ44は、後で略述するように、第1符号化アルゴリズム又は第2符号化アルゴリズムに関連して要求されるいずれか他の前置フィルタ又は後置フィルタ動作を実現し得る。
図3aは、図1のライン24上で得られ、また、図2のライン30上に存在し得る符号化オーディオ信号の例を示す。特に、符号化オーディオ信号には、50に略述されるように第1符号化アルゴリズムによって生成された符号化形式の第1時間部分、及び第1部分用の対応する付加情報52が含まれる。更に、ビットストリームには、54に示すように符号化形式の第2時間部分及び第2時間部分用の付加情報56が含まれる。ここで図3aの項目の順番は変わり得ることに留意されたい。更に、付加情報は必ずしも主情報50と54との間で多重化する必要はない。それらの信号は外的要件又は実施例によって要求される別個の信号源から入力することもできる。
図3bは、図3aの52及び56に用い得るワープ係数及びエンコーダモードを明示的に信号伝達するための本発明の明示的信号伝達実施形態用の付加情報を示す。このことを図3bの付加情報ストリームの下に示す。従って、付加情報には付加情報が属する部分の根底にある第1又は第2符号化アルゴリズムを明示的に信号伝達する符号化モード表示を含み得る。
更に、ワープ係数を信号伝達し得る。ワープ係数の信号伝達は、システム全体が2つの異なるワープ特性だけを用い得る場合、即ち、第1の可能性としてワープの無い特性及び第2の可能性として知覚的にフルスケールのワープ特性を用い得る場合、必要ではない。この場合ワープ係数は固定することができ、必ずしも送信する必要はない。
好適な実施形態では、絶対値又は異なる符号化値等によるワープ係数の明示的信号伝達が用いられるように、ワープ係数はこれらの2つの極端な値より多い値を有することができる。
更に、前置フィルタはワープを実現するばかりでなく、第1符号化アルゴリズム及び第2符号化アルゴリズムによって要求されるタスクも実現することが好ましく、これによって第1及び第2符号化アルゴリズムの機能は更に効率的になる。
第1符号化アルゴリズムがLPCに基づくの符号化アルゴリズムである場合、前置フィルタはLPC分析フィルタの機能も実施し、デコーダ側の後置フィルタはLPC合成フィルタの機能を実施する。
第2符号化アルゴリズムが特定の雑音整形機能を有さない一般的なオーディオエンコーダである場合、前置フィルタは好適にはLPCフィルタであり、これはオーディオ信号の前置フィルタ処理を行い、これにより、前置フィルタ処理後、心理音響学的にもっと重要な部分が心理音響学的により重要でない部分に対して増幅される。デコーダ側では、後置フィルタは、前置フィルタ処理前の状況と同様な状況を再度生成するためのフィルタ、即ち、より重要な部分に対してより重要でない部分を増幅する逆フィルタとして実現され、これにより、後置フィルタ処理後の信号は符号化誤りを除きエンコーダに入力された元のオーディオ信号と同じになる。
上述した前置フィルタ用のフィルタ係数は、好適には、エンコーダからデコーダに付加情報を介しても送信される。
通常、前置フィルタ並びに後置フィルタは、ワープFIRフィルタとして実現され(その構造を図4に示す)、あるいは、ワープIIRデジタルフィルタとして実現される。図4のフィルタについては、[KHL97]に詳述されている。ワープIIRフィルタの例もまた、[KHL97]に示されている。それら全てのデジタルフィルタが共通に有することは、それらが、ワープ遅延要素60及びβ0,β1,β2,、、によって示された重み付け係数又は重み付け要素を有することである。フィルタ構造は、非ワープフィルタ構造の遅延要素(ここには図示せず)が、図4のフィルタ構造の両側に示すように、一次全通過フィルタD(z)等の全通過フィルタによって置き換えられる場合、ワープフィルタに変換される。左側の構造の計算上効率的な実施例を図4の右側に示すが、ここでは、ワープ係数λの明示的な用途及びその実施例を示す。
従って、図4の右側のフィルタ構造は、前置フィルタ内において並びに後置フィルタ内において簡単に実現し得るが、この場合、ワープ係数はパラメータλによって制御され、一方、フィルタ特性、即ち、より重要な部分を心理音響学的に増幅/減衰するためのLPC分析/合成又は前置フィルタ処理又は後置フィルタ処理のフィルタ係数は、重み付けパラメータβ0,β1,β2,、、を適切な値に設定することによって制御される。
図5は、−0.8と+0.8との間のλsの場合におけるワープ係数λへの周波数・ワープ特性の依存性を示す。λを0.0に設定した場合、ワープは全く得られない。心理音響学的にフルスケールのワープは、λを0.3と0.4との間に設定することによって得られる。一般的に、最適なワープ係数は選択されたサンプリングレートに依存し、32と48kHzとの間のサンプリングレートの場合、約0.3と0.4との間の値を有する。ワープフィルタを用いることによって、こうして得られた不均一な周波数解像度は、BARK又はERBスケールと同じである。実質的により強いワープ特性は実現し得るが、それらは、或る状況においてのみ有用であり、これは、それらのより高いワープ係数は有用であるとコントローラが判断した場合に起こり得る。
従って、エンコーダ側の前置フィルタは、好適には、低周波数範囲における周波数解像度を増大し、また、高周波数範囲における周波数解像度を減少させる正のワープ係数λを有する。このため、デコーダ側の後置フィルタも正のワープ係数を有する。従って、好適な本発明による時間と共に変化するワープフィルタは、オーディオプロセッサの一部として、図6の70に示す。本発明によるフィルタは好適には線形フィルタであり、これは、心理音響学的により重要な部分/あまり重要でない部分を増幅又は減衰するためのフィルタ処理用の前置フィルタ又は後置フィルタとして実現されるか、又は、システムの制御信号に応じてLPC分析/合成フィルタとして実現される。この時点で、ワープフィルタは線形フィルタであり、フィルタに入力された正弦波等の成分の周波数を変えないことに留意されたい。しかしながら、ワープ前のフィルタが低域通過フィルタであると仮定した場合、図5の図は以下に述べる様に解釈しなければならない。
本例の正弦波が正規化された元の周波数0.6を有する場合、フィルタは、0.0に等しいワープ係数の場合、この非ワープフィルタのフィルタインパルス応答によって定義される位相及び振幅重み付けを適用する。
ワープ係数0.8がこの低域通過フィルタに設定される(この時点でフィルタはワープフィルタになる)場合、正規化された周波数0.6を有する正弦波はフィルタ処理され、これにより、その出力は、非ワープフィルタが図5の正規化された周波数0.97の場合に有する位相及び振幅重み付けによって加重される。このフィルタは線形フィルタであることから、正弦波の周波数は変わらない。
状況に依存するが、フィルタ70だけがワープされる場合、ワープ係数、又は一般的に、ワープ制御16又は46を適用しなければならない。フィルタ係数βiはマスキングしきい値から導出される。これらのフィルタ係数は、前置もしくは後置フィルタ係数、又はLPC分析/合成フィルタ係数、又は第1又は第2符号化アルゴリズムのいずれかに関連して有用ないずれか他のフィルタ係数であってよい。
従って、本発明に基づくオーディオプロセッサには、可変ワープ特性を有するフィルタに加えて、図1のコントローラ18、即ち、図2の符号化アルゴリズム検出器32として、又は、音声入力10/42の特定の信号パターンを見つける一般的なオーディオ入力信号分析器として、実現されたコントローラが含まれ、これにより、オーディオ入力の時間適合可変ワープ処理、符号化又は復号化オーディオ入力を得ることができるように、特定の信号パターンに適合する或るワープ特性を設定できる。好適には、前置フィルタ係数及び後置フィルタ係数は同じである。
そして、フィルタ70及びコントローラ74を含む図6に示すオーディオプロセッサの出力は、何らかの目的のために記憶するか、又は、符号化プロセッサ22によって、もしくは、オーディオプロセッサがデコーダ側にある場合、オーディオ再生装置によって処理するか、又はいずれか他の信号処理アルゴリズムによって処理し得る。
引き続き、図7及び8について述べるが、これらは本発明によるエンコーダ(図7)及び本発明によるデコーダ(図8)の好適な実施形態を示す。これら装置の機能は図1や図2の装置と同様である。特に、図7は、第1符号化アルゴリズムが音声・コーダの様な符号化アルゴリズムであり、また、特定の信号パターンがオーディオ入力10の音声パターンである場合の実施形態を示す。第2符号化アルゴリズム22bは、図9に関連して示し述べるように、直送式フィルタバンクに基づくオーディオコーダ等の汎用オーディオコーダか、又は、図10に示す前置フィルタ/後置フィルタオーディオ符号化アルゴリズムである。
第1符号化アルゴリズムは、図11の音声符号化システムに対応し、これは、LPC分析/合成フィルタ1100及び1102に加えて、更に、残留/励振コーダ1104及び対応する励振デコーダ1106を含む。本実施形態において、図7の時間と共に変化するワープフィルタ12はLPCフィルタ1100と同じ機能を有し、図11のブロック1108に実現されたLPC分析はコントローラ18において実現される。
残留/励振コーダ1104は、図7の残留/励振コーダカーネル22aに対応する。同様に、励振デコーダ1106は、図8の残留/励振デコーダ36aに対応し、時間と共に変化するワープフィルタ44は、第1時間部を第1符号化アルゴリズムに基づき符号化するための逆LPCフィルタ1102の機能を有する。
LPC分析ブロック1108によって生成されたLPCフィルタ係数は、第1時間部分用の図7の90に示したフィルタ係数に対応し、図11のブロック1102に入力されるLPCフィルタ係数は、図8のライン92上のフィルタ係数に対応する。更に、図7のエンコーダにはエンコーダ出力インターフェイス94が含まれ、これは、ビットストリーム多重化装置として実現し得るが、これは、送信及び/又は記憶に適するデータストリームを生成する他の何らかの装置としても実現し得る。それに応じて、図8のデコーダには入力インターフェイス96が含まれ、これは、図3aに関連して述べたように、特定の時間部分情報を多重分離するための、また、図3bに示すように、要求される付加情報を抽出するためのビットストリーム多重分離装置として実現し得る。
図7の実施形態において、符号化カーネル22a、22b双方は、共通の入力96を有し、ライン97a及び97bを介してコントローラ18によって制御される。この制御により、或る時刻に、確実にエンコーダカーネル22a、22b双方の内の1つだけが主情報及び付加情報を出力インターフェイスに出力する。他の選択肢として、双方の符号化カーネルは完全に同時に機能することもでき、また、エンコーダコントローラ18により符号化カーネルの出力だけが確実にビットストリームに入力されるが、これは符号化モード情報によって示され、一方、他方のエンコーダ出力は廃棄される。
また、他の選択肢として、双方のデコーダは並列に動作でき、そしてその出力は加算し得る。この場合、エンコーダ側前置フィルタ及びデコーダ側後置フィルタに対して、中間ワープ特性を用いることが好ましい。更に、本実施形態は、例えば、第1符号化アルゴリズムによって、或る周波数範囲等の信号の音声部分、又は、一般的に、信号部分を処理し、また、信号の残りを第2の一般的な符号化アルゴリズムによって処理する。そして、双方のコーダの出力はエンコーダからデコーダ側に送信される。デコーダ側の組合せにより、信号は、後置フィルタ処理される前に、確実に再結合される。
任意の種類の特定の制御は、確実に、出力符号化オーディオ信号24が図3に示すように一連の第1及び第2部分又は音声部分及び一般的なオーディオ部分等の正しい組合せの信号部分を有する限り、実現し得る。
デコーダ側では、符号化モード情報は正しい復号アルゴリズムを用いて時間部分を復号するために用いられ、これにより時間をずらしたパターンの第1部分及び第2部分はデコーダカーネル36a及び36bの出力において得られ、そしてこれらは単一の時間領域信号に多重化されるが、このことは加算器符号36cを用いて概略的に図示している。そして要素36cの出力には時間領域オーディオ信号があり、これは復号されたオーディオ信号が得られるように後置フィルタ処理するだけでよい。
図面の簡単な説明の章の後の概要において述べたように、図7のエンコーダ並びに図8のデコーダには、双方共、補間器100又は102を含み得るが、これにより、少なくとも2つのサンプル、好適には、50を超えるサンプル、また100を超えるサンプルをも含む或る時間部分を介した円滑な移行が実現可能である。これによって、ワープ係数及びフィルタ係数の急激な変化に起因し得る符号化アーティファクトが確実に回避される。しかしながら、後置フィルタ並びに前置フィルタは時間領域において完全に動作することから、ブロックに基づく特定の実施例に関連した問題はない。従って、再度図4を考慮すると、サンプル毎にβ0,β1,β2,、、及びλの値は、例えば、完全なワープ状態からワープが全くない他の状態への移行が可能なように変更できる。補間パラメータを送信し、これによりデコーダ側の補間器を節約し得るが、補間値を送信せずに補間前の値を送信すれば、後者の選択に必要な付加情報ビットが少なくてよいので、好ましい。
更に、既に上述したように、図7に示す汎用オーディオコーダカーネル22bは、図10のコーダ1000と同じであってよい。この状況では、前置フィルタ12は、図10の前置フィルタ1002の機能も実施する。そして、図10の知覚モデル1004は、図7のコントローラ18内において実現される。知覚モデル1004によって生成されたフィルタ係数は、第2符号化アルゴリズムがオンである時間部分に対する図7のライン90上のフィルタ係数に対応する。
同様に、図10のデコーダ1006は、図8の汎用オーディオデコーダカーネル36bによって実現され、後置フィルタ1008は、図8の時間と共に変化するワープフィルタ44によって実現される。知覚モデルによって生成され好適には符号化されたフィルタ係数は、デコーダ側において、ライン92上で受信され、図10の後置フィルタ1008に入る「フィルタ係数」と記したラインは、第2符号化アルゴリズム時間部分用の図8のライン92に対応する。
しかしながら、オーディオ品質及びビットレートにより双方共完全ではない図10及び11に基づく2つの並列動作エンコーダと比較して、本発明によるエンコーダ装置及び本発明のデコーダ装置は、単一であるが制御可能なフィルタだけを用いており、また、入力オーディオ信号の区別を行い、オーディオ信号の時間部分が特定のパターンを有するか又は単に一般的なオーディオ信号であるかどうか決定する。
コントローラ18内のオーディオ分析器に関しては、様々な異なる実施例を用いて、オーディオ信号の一部が特定の信号パターンを有する部分であるかどうか、又はこの部分がこの特定の信号パターンを有さず、従って、一般的なオーディオ符号化アルゴリズムを用いて処理しなければならないかどうか決定し得る。特定の信号パターンが音声信号である好適な実施形態について議論してきたが、高調波信号用、雑音信号用、音調信号用、パルス列のような信号等のための符号化アルゴリズムなど、そのような信号特有の第1符号化アルゴリズムを用いて、他の信号特有のパターンを決定し符号化できる。
直送式検出器は、合成検出器による分析であり、これは、例えば異なるワープ検出器と共に、異なる符号化アルゴリズムを試みて、最良のフィルタ係数及び最良の符号化アルゴリズムと共に最良のワープ係数を見つけようとする。合成検出器によるそのような分析は演算処理的にかなり高価になる場合がある。このことは、エンコーダの数が少なくデコーダの数が多い状況では、その場合デコーダは極めて単純であってよいことから、問題ではない。これは、エンコーダだけがこの複雑な計算タスクを実施し、一方、デコーダは送信された付加情報を単に用いればよいという事実による。
他の信号検出器は、直送式パターン分析アルゴリズムに基づくが、これらは、整合度合いが或るしきい値を超える場合、オーディオ信号内の特定の信号パターンを捜し、肯定的な結果を信号伝達する。そのような検出器に関する更なる情報は、[BLS05]に与えられている。
更に、本発明の方法に対する何らかの実施要件に応じて、本発明の方法は、ハードウェア又はソフトウェアで具体化し得る。この具体化は、プログラム可能なコンピュータシステムと協働し得るデジタル記憶媒体、特に、電子的に可読の制御信号を記憶したディスク又はCDを用いて実施することが可能であり、これにより本発明の方法が実行される。従って、一般的に、本発明は、プログラムコードが機械読み取り可能な担体に記憶されたコンピュータプログラム製品であり、このプログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されると、本発明による方法の内の少なくとも1つを実施するように構成されている。従って、言い換えると、本発明による方法は、コンピュータプログラムがコンピュータ上で実行されると本発明の方法を実施するためのプログラムコードを有するコンピュータプログラムである。
上述した実施形態は、本発明の原理を単に例示するものである。本明細書に述べた構成及び詳細の変更点は、当業者には、明らかであると思われる。従って、以下に述べる特許請求項の範囲によってのみ限定されるものであり、本明細書の実施形態の記述及び説明により提示された特定の細目によって限定されないものとする。

Claims (49)

  1. オーディオ信号を符号化するためのオーディオエンコーダであって、
    前置フィルタ処理済みオーディオ信号を生成するための、可変ワープ特性を有する前置フィルタであって、前記可変ワープ特性は時間変化する制御信号に応じて制御され、前記制御信号は小さいワープ又はワープの無い特性又は相対的に高いワープ特性を示す前置フィルタと、
    前記時間変化する制御信号を提供するためのコントローラであって、前記時間変化する制御信号は前記オーディオ信号に依存するコントローラと、
    前記前置フィルタ処理済みオーディオ信号を処理して符号化オーディオ信号を得るための、制御される符号化プロセッサであって、所定の信号パターンに適合する第1符号化アルゴリズムに基づき、又は一般的なオーディオ信号の符号化に適した、前記第1の符号化アルゴリズムとは異なる第2の符号化アルゴリズムに基づき、前記前置フィルタ処理済みオーディオ信号を処理する符号化プロセッサと
    を備えるオーディオエンコーダ。
  2. 請求項1に記載のオーディオエンコーダであって、前記符号化プロセッサは、前記第1符号化アルゴリズムとして少なくとも音声符号化アルゴリズムの一部を用いる
    ことを特徴とするオーディオエンコーダ。
  3. 請求項1に記載のオーディオエンコーダであって、前記符号化プロセッサは、前記第1符号化アルゴリズムの一部として残留/励振符号化アルゴリズムを用い、前記残留/励振符号化アルゴリズムは、符号励振線形予測(CELP)符号化アルゴリズム、多重パルス励振(MPE)符号化アルゴリズム、又は正規パルス励振(RPE)符号化アルゴリズムを含む
    ことを特徴とするオーディオエンコーダ。
  4. 請求項1に記載のオーディオエンコーダであって、前記符号化プロセッサは、フィルタバンクを用いた符合化アルゴリズム又は時間領域に基づく符号化アルゴリズムを前記第2符号化アルゴリズムとして用いるように構成されているオーディオエンコーダ。
  5. 請求項1に記載のオーディオエンコーダであって、マスキングしきい値に関する情報を提供するための心理音響モジュールを更に備え、
    前記前置フィルタは、前記前置フィルタ処理済みオーディオ信号において、心理音響学的に重要な部分が心理音響学的に重要でない部分よりも増幅されるように、前記マスキングしきい値に基づきフィルタ処理を実行する
    ことを特徴とするオーディオエンコーダ。
  6. 請求項5に記載のオーディオエンコーダであって、前記前置フィルタは制御されるワープ係数を有する線形フィルタであり、前記制御されるワープ係数は前記時間変化する制御信号によって決定され、
    フィルタ係数は前記マスキングしきい値に基づく分析によって決定される
    ことを特徴とするオーディオエンコーダ。
  7. 請求項1に記載のオーディオエンコーダであって、前記第1符号化アルゴリズムは残留又は励振符号化処理を含み、前記第2符号化アルゴリズムは一般的な音声符号化処理を含む
    ことを特徴とするオーディオエンコーダ。
  8. 請求項1に記載のオーディオエンコーダであって、
    前記符合化プロセッサは、前記第1符号化アルゴリズムを前記オーディオ信号に適用するための第1符号化カーネルと、前記第2符号化アルゴリズムを前記オーディオ信号に適用するための第2符号化カーネルとを含み、
    前記第1符号化カーネルおよび前記第2符号化カーネルは、それぞれ、前記前置フィルタの出力に接続された共通の入力と、独立した出力とを有し、
    前記オーディオエンコーダは前記符号化オーディオ信号を出力するための出力段を更に備え、
    前記コントローラは、ある期間動作状態となる前記コントローラによって指定された符号化カーネルの出力を前記出力段に接続するためにのみ動作する
    ことを特徴とするオーディオエンコーダ。
  9. 請求項1に記載のオーディオエンコーダであって、
    前記符号化プロセッサは、前記第1符号化アルゴリズムを前記オーディオ信号に適用するための第1符号化カーネルと、前記第2符号化アルゴリズムを前記オーディオ信号に適用するための第2符号化カーネルとを含み、
    前記第1符号化カーネルおよび前記第2符号化カーネルは、それぞれ、前記前置フィルタの出力に接続された共通の入力と、独立した出力とを有し、
    前記コントローラは、符号化モード表示によって選択された符号化カーネルを起動するとともに前記符号化モード表示によって選択されなかった符号化カーネルを停止し、又は前記オーディオ信号の同じ期間の異なる部分に対して前記第1符号化カーネルおよび前記第2符号化カーネルをそれぞれ起動する
    ことを特徴とするオーディオエンコーダ。
  10. 請求項1に記載のオーディオエンコーダであって、更に、前記時間変化する制御信号を、又は前記時間変化する制御信号から量子化もしくは符号化によって導出された信号を、前記符号化オーディオ信号への付加情報として出力するための出力段を備える
    ことを特徴とするオーディオエンコーダ。
  11. 請求項6に記載のオーディオエンコーダであって、更に、前記マスキングしきい値に関する情報を前記符号化オーディオ信号への付加情報として出力するための出力段を備える
    ことを特徴とするオーディオエンコーダ。
  12. 請求項6に記載のオーディオエンコーダであって、前記符号化プロセッサは、前記第2符号化アルゴリズムを適用する場合、一様なスペクトル分布を有する量子化雑音を導入する量子化特性を有する量子化器を用いて、前記前置フィルタ処理済みオーディオ信号を量子化する
    ことを特徴とするオーディオエンコーダ。
  13. 請求項12に記載のオーディオエンコーダであって、前記符号化プロセッサは、前記第2符号化アルゴリズムを適用する場合、前置フィルタ処理済み時間領域サンプル、又は副帯域サンプル、周波数係数、又は前記前置フィルタ処理済みオーディオ信号から導出された残留サンプルを量子化する
    ことを特徴とするオーディオエンコーダ。
  14. 請求項1に記載のオーディオエンコーダであって、前記コントローラは、前記前置フィルタの小さいワープ特性又はワープの無い特性に比べて相対的に高いワープ特性に対して、ワープ動作が、低周波数域の周波数解像度を増大し高周波数域の周波数解像度を減少させるように、前記時間変化する制御信号を提供する
    ことを特徴とするオーディオエンコーダ。
  15. 請求項1に記載のオーディオエンコーダであって、前記コントローラは、前記オーディオ信号を分析して前記時間変化する制御信号を決定するオーディオ信号分析器を有する
    ことを特徴とするオーディオエンコーダ。
  16. 請求項1に記載のオーディオエンコーダであって、前記コントローラは、ワープの無い又はワープが極めて小さい特性を示す第1の極端な状態及び最大ワープ特性を示す第2の極端な状態に加えて、前記第1および第2の極端な状態間のワープ特性を示すゼロ、1つ又は複数の中間状態を有する、時間変化する制御信号を生成する
    ことを特徴とするオーディオエンコーダ。
  17. 請求項1に記載のオーディオエンコーダであって、補間器を更に備え、
    当該補間器は、前記ワープ特性が、少なくとも2つの時間領域サンプルを有する減衰期間に渡って、前記時間変化する制御信号が伝達される2つのワープ状態間において減衰するように、前記前置フィルタを制御する
    ことを特徴とするオーディオエンコーダ。
  18. 請求項17に記載のオーディオエンコーダであって、前記減衰期間は、ワープが無い又は小さいワープを生じさせるフィルタ特性と、BARK又はERBスケールと同様なワープ周波数解像度になるような相対的に高いワープを生じさせるフィルタ特性との間において、少なくとも50の時間領域サンプルを含む
    ことを特徴とするオーディオエンコーダ。
  19. 請求項17に記載のオーディオエンコーダであって、前記補間器は、前記減衰期間において前記時間変化する制御信号によって示される2つのワープ特性間のワープ特性を生じさせるワープ係数を用いる
    ように動作するオーディオエンコーダ。
  20. 請求項1に記載のオーディオエンコーダであって、前記前置フィルタは、ワープFIR又はワープIIR構造を有するデジタルフィルタであって、前記構造は遅延素子を含み前記遅延素子が1次又は高次の全通過フィルタ特性を有するように形成される
    ことを特徴とするオーディオエンコーダ。
  21. 請求項20に記載のオーディオエンコーダであって、前記全通過フィルタ特性は、以下のフィルタ特性
    (z -1 −λ)/(1−λz -1
    に基づくものであり、上式において、 -1 は時間離散ドメインの遅延を示し、λは、「1」に近いほど強いワープ特性を示し、「0」に近いほど小さいワープ特性を示すワープ係数である
    ことを特徴とするオーディオエンコーダ。
  22. 請求項20に記載のオーディオエンコーダであって、前記FIR又はIIR構造は、更に重み付け手段を備え、
    各重み付け手段は対応する重み付け係数を有し、
    前記重み付け係数は前記前置フィルタ用の前記フィルタ係数によって決定され、
    前記フィルタ係数は、LPC分析もしくは合成フィルタ係数又はマスキングしきい値により決定される分析もしくは合成フィルタ係数を含む
    ことを特徴とするオーディオエンコーダ。
  23. 請求項20に記載のオーディオエンコーダであって、前記前置フィルタは、6と30との間のフィルタ次数を有する
    ことを特徴とするオーディオエンコーダ。
  24. 請求項1に記載のオーディオエンコーダであって、前記符号化プロセッサは、前記相対的に高いワープ特性を用いてフィルタ処理されるオーディオ信号部分が前記第2符号化アルゴリズムを用いて処理され前記符号化オーディオ信号が得られるように、また、前記小さい又はワープの無い特性を用いてフィルタ処理されるオーディオ信号が前記第1符号化アルゴリズムを用いて処理されるように、前記コントローラによって制御される
    ことを特徴とするオーディオエンコーダ。
  25. 符号化オーディオ信号を復号するためのオーディオデコーダであって、前記符号化オーディオ信号は、所定の信号パターンに適合する第1符号化アルゴリズムに基づき符号化された第1部分と、一般的なオーディオ信号の符号化に適する、前記第1符号化アルゴリズムとは異なる第2符号化アルゴリズムに基づき符号化された第2部分とを有し、
    前記オーディオデコーダは、
    前記第1部分又は前記第2部分の根底にある符号化アルゴリズムを検出する検出器と、
    前記検出器に応答して、前記第1符号化アルゴリズムを用いて前記第1部分を復号し第1復号化時間部分を得、前記第2符号化アルゴリズムを用いて前記第2部分を復号して第2復号化時間部分を得る復号プロセッサと、
    小さい又はワープの無い特性を有する第1状態と比較的高いワープ特性を有する第2状態との間で制御される可変ワープ特性を有する後置フィルタと
    を備え、
    前記後置フィルタは、前記小さい又はワープの無い特性を用いて、前記第1復号化時間部分がフィルタ処理されるように、且つ比較的高いワープ特性を用いて、前記第2復号化時間部分がフィルタ処理されるように、制御される
    ことを特徴とするオーディオデコーダ。
  26. 請求項25に記載のオーディオデコーダであって、前記後置フィルタは、後置フィルタ処理中、前記ワープ特性が、ワープ強度に対して10パーセントの許容範囲内において前置フィルタ処理中に用いられるワープ特性と同一となるように設定される
    ことを特徴とするオーディオデコーダ。
  27. 請求項25に記載のオーディオデコーダであって、前記符号化オーディオ信号は、符号化モード指標又はワープ係数情報を含み、
    前記検出器は、前記符号化オーディオ信号から前記符号化モード又はワープ係数に関する情報を抽出し、
    前記復号化プロセッサ又は後置フィルタは、前記抽出された情報を用いて制御される
    ことを特徴とするオーディオデコーダ。
  28. 請求項27に記載のオーディオデコーダであって、前記抽出された情報から導出され、前記後置フィルタを制御するために用いられるワープ係数は正の符号を有する
    ことを特徴とするオーディオデコーダ。
  29. 請求項25に記載のオーディオデコーダであって、前記符号化オーディオ信号には、更に、前記符号化オーディオ信号の根底にある元の信号のマスキングしきい値に依存するフィルタ係数に関する情報が含まれ、
    前記検出器は前記符号化オーディオ信号から前記フィルタ係数に関する前記情報を抽出し、
    前記後置フィルタは、後置フィルタ処理済み信号が後置フィルタ処理前の前記信号よりも元の信号に類似するように、前記フィルタ係数に関する前記抽出された情報に基づき制御される
    ことを特徴とするオーディオデコーダ。
  30. 請求項25に記載のオーディオデコーダであって、前記復号化プロセッサは、前記第1符号化アルゴリズムとして音声符号化アルゴリズムを用いる
    ことを特徴とするオーディオデコーダ。
  31. 請求項25に記載のオーディオデコーダであって、前記復号化プロセッサは、残留/励振復号化アルゴリズムを前記第1符号化アルゴリズムとして用いる
    ことを特徴とするオーディオデコーダ。
  32. 請求項25に記載のオーディオデコーダであって、前記残留/励振復号化アルゴリズムには、前記第1符号化アルゴリズムの一部として、符号励振線形予測(CELP)符号化アルゴリズム、多重パルス励振(MPE)符号化アルゴリズム、又は正規パルス励振(RPE)符号化アルゴリズムを含む前記残留/励振符号化アルゴリズムが含まれる
    ことを特徴とするオーディオデコーダ。
  33. 請求項25に記載のオーディオデコーダであって、前記復号プロセッサは、前記第2符号化アルゴリズムとして、フィルタバンクを用いた複合化アルゴリズム、変換に基づく復号化アルゴリズム、又は時間領域に基づく復号化アルゴリズムを用いる
    ことを特徴とするオーディオデコーダ。
  34. 請求項25に記載のオーディオデコーダであって、前記復号プロセッサは、
    前記第1符号化アルゴリズムを前記符号化オーディオ信号に適用するための第1符号化カーネルと、第2符号化アルゴリズムを前記符号化オーディオ信号に適用するための第2符号化カーネルとを含み、
    前記第1符号化カーネルおよび前記第2符号化カーネルは、それぞれ出力を有し、各出力は結合器に接続され、前記結合器は前記後置フィルタの入力に接続された出力を有し、
    前記第1および第2の符号化カーネルは、選択された符号化アルゴリズムによって出力された復号化時間部分だけが前記結合器及び前記後置フィルタに転送されるように、又は前記オーディオ信号の同じ時間部分の異なる部分が、それぞれ異なる符号化カーネルによって、前記結合器が前記異なる部分の復号された表現を組み合わせることにより処理されるように、制御される
    ことを特徴とするオーディオデコーダ。
  35. 請求項25に記載のオーディオデコーダであって、前記復号プロセッサは、前記第2符号化アルゴリズムを適用する場合、一様なスペクトル分布を有する量子化雑音を導入する量子化特性を有する量子化器を用いて量子化されたオーディオ信号を逆量子化する
    ことを特徴とするオーディオデコーダ。
  36. 請求項25に記載のオーディオデコーダであって、前記復号プロセッサは、前記第2符号化アルゴリズムを適用する場合、量子化された時間領域サンプル、量子化されたサブバンドサンプル、量子化された周波数係数又は量子化された残留サンプルを逆量子化するように動作することを特徴とするオーディオデコーダ。
  37. 請求項25に記載のオーディオデコーダであって、前記検出器は、小さい又はワープの無い特性を有する後置フィルタのフィルタ出力信号と比べて相対的に高いワープ特性に関して、ワープフィルタ出力信号が、高周波数範囲において低周波数解像度を有するように、低周波数範囲において高周波数解像度を有するように、時間と共に変化する後置フィルタ制御信号を提供する
    ことを特徴とするオーディオデコーダ。
  38. 請求項25に記載のオーディオデコーダであって、更に、前記ワープ特性が、少なくとも2つの時間領域サンプルを有する減衰時間に渡って、2つのワープ状態間で減衰するように前記後置フィルタを制御する補間器を備える
    ことを特徴とするオーディオデコーダ。
  39. 請求項25に記載のオーディオデコーダであって、前記後置フィルタはワープFIR又はワープIIR構造を有するデジタルフィルタであり、前記構造には遅延素子が含まれ、元気遅延素子は1次又は高次の全通過フィルタ特性を有するように形成される
    ことを特徴とするオーディオデコーダ。
  40. 請求項25に記載のオーディオデコーダであって、
    前記全通過フィルタ特性は以下のフィルタ特性
    (z -1 −λ)/(1−λz -1
    に基づくものであり、上式において、 -1 は時間離散ドメインの遅延を示し、λは、「1」に近いほどより強いワープ特性を示し、「0」に近いほどより小さいワープ特性を示すワープ係数である
    ことを特徴とするオーディオデコーダ。
  41. 請求項25に記載のオーディオデコーダであって、前記ワープFIR又はワープIIR構造は更に重み付け手段を備え、各重み付け手段は対応する重み付け係数を有し、
    前記重み付け係数は前記前置フィルタ用の前記フィルタ係数によって決定され、前記フィルタ係数は、LPC分析もしくは合成フィルタ係数又はマスキングしきい値により決定される、分析もしくは合成フィルタ係数を含む
    ことを特徴とするオーディオデコーダ。
  42. 請求項25に記載のオーディオデコーダであって、前記後置フィルタは、前記第1の復号された時間部分が前記小さい又はワープの無い特性を用いてフィルタ処理され、前記第2の復号された時間部分が前記相対的に高いワープ特性を用いてフィルタ処理される
    ことを特徴とするオーディオデコーダ。
  43. オーディオ信号を符号化する方法であって、
    前置フィルタ処理済みオーディオ信号を生成するステップであって、前記前置フィルタは可変ワープ特性を有し、前記ワープ特性は時間変化する制御信号に応じて制御され、前記制御信号は小さい又はワープの無い特性又は相対的に高いワープ特性を示す、ステップと、
    前記オーディオ信号に依存する、前記時間変化する制御信号を提供するステップと、
    所定の信号パターンに適合する第1符号化アルゴリズムに基づき、又は一般的なオーディオ信号の符号化に適した、前記第1符号化アルゴリズムとは異なる第2の符号化アルゴリズムに基づき、前記前置フィルタ処理済みオーディオ信号を処理して、符号化オーディオ信号を得るステップと
    を有する方法。
  44. 符号化オーディオ信号を復号する方法であって、前記符号化オーディオ信号は、所定の信号パターンに適合する第1符号化アルゴリズムに基づき符号化された第1部分と、一般的なオーディオ信号の符号化に適した、前記第1符号化アルゴリズとは異なる第2符号化アルゴリズムに基づき符号化された第2部分とを有し、
    前記方法は、
    前記第1部分又は第2部分の根底にある符号化アルゴリズムを検出するステップと、
    前記検出ステップに応じて、前記第1符号化アルゴリズムを用いて前記第1部分を復号して、第1の復号された時間部分を取得し、前記第2符号化アルゴリズムを用いて前記第2部分を復号して、第2の復号された時間部分を取得するステップと、
    小さい又はワープの無い特性を有する第1状態と相対的に高いワープ特性を有する第2状態との間で制御される可変ワープ特性を用いて、後置フィルタ処理を行うステップと
    を有し、
    前記後置フィルタ処理を行うステップは、前記小さい又はワープの無い特性を用いて、前記第1復号化時間部分がフィルタ処理されるように、且つ比較的高いワープ特性を用いて、前記第2復号化時間部分がフィルタ処理されるように、実行される
    ことを特徴とする方法。
  45. オーディオ信号を処理するためのオーディオプロセッサであって、
    フィルタ処理済みオーディオ信号を生成するためのフィルタであって、前記フィルタは、可変ワープ特性を有し、前記ワープ特性は時間変化する制御信号に応じて制御され、前記制御信号は小さいもしくはワープの無い特性又は相対的に高いワープ特性を示し、前記制御信号に基づいた線形フィルタであり、心理音響的に相対的に重要または重要でない部分を増幅または減衰させるフィルタ処理を行う前置フィルタまたは後置フィルタとして実装され、またはLPC分析もしくは合成フィルタとして実装されるフィルタと
    前記オーディオ信号に依存する前記時間変化する制御信号を提供するためのコントローラと
    を備えるオーディオプロセッサ。
  46. オーディオ信号を処理する方法であって、
    フィルタを用いて、フィルタ処理済みオーディオ信号を生成するステップであって、前記フィルタは、可変ワープ特性を有し、前記ワープ特性は時間変化する制御信号に応じて制御され、前記制御信号は小さいもしくはワープの無い特性又は相対的に高いワープ特性を示し、前記制御信号に基づいた線形フィルタであり、心理音響的に相対的に重要または重要でない部分を増幅または減衰させるフィルタ処理を行う前置フィルタまたは後置フィルタとして実装され、またはLPC分析もしくは合成フィルタとして実装されるフィルタであるステップと、
    前記オーディオ信号に依存する前記時間と共に変化する制御信号を提供するステップと
    を有する方法。
  47. コンピュータに、
    前置フィルタ処理済みオーディオ信号を生成するステップであって、前記前置フィルタは可変ワープ特性を有し、前記ワープ特性は時間変化する制御信号に応じて制御され、前記制御信号は小さい又はワープの無い特性又は相対的に高いワープ特性を示す、ステップと、
    前記オーディオ信号に依存する、前記時間変化する制御信号を提供するステップと、
    所定の信号パターンに適合する第1符号化アルゴリズムに基づき、又は一般的なオーディオ信号の符号化に適した、前記第1符号化アルゴリズムとは異なる第2の符号化アルゴリズムに基づき、前記前置フィルタ処理済みオーディオ信号を処理して、符号化オーディオ信号を得るステップと
    を実行させるためのプログラム。
  48. コンピュータに、
    前記所定の信号パターンに適合する第1符号化アルゴリズムに基づき符号化された第1部分と、一般的なオーディオ信号の符号化に適した、前記第1符号化アルゴリズとは異なる第2符号化アルゴリズムに基づき符号化された第2部分とを有する符号化オーディオ信号を復号させるためのプログラムであって、
    前記第1部分又は第2部分の根底にある符号化アルゴリズムを検出するステップと、
    前記検出ステップに応じて、前記第1符号化アルゴリズムを用いて前記第1部分を復号して、第1の復号された時間部分を取得し、前記第2符号化アルゴリズムを用いて前記第2部分を復号して、第2の復号された時間部分を取得するステップと、
    小さい又はワープの無い特性を有する第1状態と相対的に高いワープ特性を有する第2状態との間で制御される可変ワープ特性を用いて、後置フィルタ処理を行うステップと
    を実行させるためのプログラムであって、
    前記後置フィルタ処理を行うステップは、前記小さい又はワープの無い特性を用いて、前記第1復号化時間部分がフィルタ処理されるように、且つ比較的高いワープ特性を用いて、前記第2復号化時間部分がフィルタ処理されるように、実行される
    ことを特徴とするプログラム。
  49. コンピュータに、
    フィルタを用いて、フィルタ処理済みオーディオ信号を生成するステップであって、前記フィルタは、可変ワープ特性を有し、前記ワープ特性は時間変化する制御信号に応じて制御され、前記制御信号は小さいもしくはワープの無い特性又は相対的に高いワープ特性を示し、前記制御信号に基づいた線形フィルタであり、心理音響的に相対的に重要または重要でない部分を増幅または減衰させるフィルタ処理を行う前置フィルタまたは後置フィルタとして実装され、またはLPC分析もしくは合成フィルタとして実装されるフィルタであるステップと、
    前記オーディオ信号に依存する前記時間と共に変化する制御信号を提供するステップと
    を実行させるためのプログラム。
JP2009516921A 2006-06-30 2007-05-16 動的可変ワーピング特性を有するオーディオエンコーダ、オーディオデコーダ及びオーディオプロセッサ Active JP5205373B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP06013604A EP1873754B1 (en) 2006-06-30 2006-06-30 Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US11/428,297 US7873511B2 (en) 2006-06-30 2006-06-30 Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
EP06013604.1 2006-06-30
US11/428,297 2006-06-30
PCT/EP2007/004401 WO2008000316A1 (en) 2006-06-30 2007-05-16 Audio encoder, audio decoder and audio processor having a dynamically variable harping characteristic

Publications (2)

Publication Number Publication Date
JP2009541802A JP2009541802A (ja) 2009-11-26
JP5205373B2 true JP5205373B2 (ja) 2013-06-05

Family

ID=38509999

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009516921A Active JP5205373B2 (ja) 2006-06-30 2007-05-16 動的可変ワーピング特性を有するオーディオエンコーダ、オーディオデコーダ及びオーディオプロセッサ

Country Status (17)

Country Link
EP (1) EP2038879B1 (ja)
JP (1) JP5205373B2 (ja)
KR (1) KR101145578B1 (ja)
AR (1) AR061696A1 (ja)
AU (2) AU2007264175B2 (ja)
BR (1) BRPI0712625B1 (ja)
CA (1) CA2656423C (ja)
ES (1) ES2559307T3 (ja)
HK (1) HK1128811A1 (ja)
IL (1) IL195983A (ja)
MX (1) MX2008016163A (ja)
MY (1) MY142675A (ja)
NO (1) NO340436B1 (ja)
PL (1) PL2038879T3 (ja)
RU (1) RU2418322C2 (ja)
TW (1) TWI348683B (ja)
WO (1) WO2008000316A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2410522B1 (en) * 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, method for encoding an audio signal and computer program
FR2949582B1 (fr) * 2009-09-02 2011-08-26 Alcatel Lucent Procede pour rendre un signal musical compatible avec un codec a transmission discontinue ; et dispositif pour la mise en ?uvre de ce procede
JP5992427B2 (ja) * 2010-11-10 2016-09-14 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 信号におけるピッチおよび/または基本周波数に関するパターンを推定する方法および装置
WO2012072278A1 (en) * 2010-12-03 2012-06-07 Telefonaktiebolaget L M Ericsson (Publ) Source signal adaptive frame aggregation
TWI665659B (zh) * 2010-12-03 2019-07-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
KR20150032614A (ko) * 2012-06-04 2015-03-27 삼성전자주식회사 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
TWI517142B (zh) * 2012-07-02 2016-01-11 Sony Corp Audio decoding apparatus and method, audio coding apparatus and method, and program
WO2014096236A2 (en) * 2012-12-19 2014-06-26 Dolby International Ab Signal adaptive fir/iir predictors for minimizing entropy
CN108365827B (zh) * 2013-04-29 2021-10-26 杜比实验室特许公司 具有动态阈值的频带压缩
CN104934034B (zh) 2014-03-19 2016-11-16 华为技术有限公司 用于信号处理的方法和装置
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
RU2628459C1 (ru) * 2016-10-13 2017-08-17 Общество с ограниченной ответственностью "Силовая электроника" Способ декодирования LDPC-кодов и устройство для его осуществления
WO2020086623A1 (en) * 2018-10-22 2020-04-30 Zeev Neumeier Hearing aid

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
JP2000322095A (ja) * 1999-05-13 2000-11-24 Mitsubishi Electric Corp 音声復号装置
US7110953B1 (en) * 2000-06-02 2006-09-19 Agere Systems Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7587254B2 (en) 2004-04-23 2009-09-08 Nokia Corporation Dynamic range control and equalization of digital audio using warped processing

Also Published As

Publication number Publication date
AU2007264175B2 (en) 2011-03-03
NO20090400L (no) 2009-01-27
KR20090025304A (ko) 2009-03-10
KR101145578B1 (ko) 2012-05-16
EP2038879B1 (en) 2015-11-04
WO2008000316A1 (en) 2008-01-03
RU2009103010A (ru) 2010-08-10
PL2038879T3 (pl) 2016-04-29
BRPI0712625A2 (pt) 2012-10-16
AU2011200461B2 (en) 2011-11-10
ES2559307T3 (es) 2016-02-11
AU2011200461A1 (en) 2011-02-24
MY142675A (en) 2010-12-15
IL195983A0 (en) 2009-09-01
RU2418322C2 (ru) 2011-05-10
CA2656423A1 (en) 2008-01-03
EP2038879A1 (en) 2009-03-25
CA2656423C (en) 2013-12-17
TW200809771A (en) 2008-02-16
NO340436B1 (no) 2017-04-24
WO2008000316A8 (en) 2009-02-26
HK1128811A1 (zh) 2009-11-06
BRPI0712625B1 (pt) 2023-10-10
JP2009541802A (ja) 2009-11-26
IL195983A (en) 2012-01-31
AR061696A1 (es) 2008-09-17
TWI348683B (en) 2011-09-11
AU2007264175A1 (en) 2008-01-03
MX2008016163A (es) 2009-02-04

Similar Documents

Publication Publication Date Title
JP5205373B2 (ja) 動的可変ワーピング特性を有するオーディオエンコーダ、オーディオデコーダ及びオーディオプロセッサ
US7873511B2 (en) Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8682652B2 (en) Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
CA2691993C (en) Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
RU2485606C2 (ru) Схема кодирования/декодирования аудио сигналов с низким битрейтом с применением каскадных переключений
RU2483364C2 (ru) Схема аудиокодирования/декодирования с переключением байпас
US8804970B2 (en) Low bitrate audio encoding/decoding scheme with common preprocessing
JP5551693B2 (ja) エイリアシングスイッチスキームを用いてオーディオ信号を符号化/復号化するための装置および方法
KR101224560B1 (ko) 인코드된 오디오 신호를 디코딩하는 장치 및 방법
MX2011003824A (es) Esquema de codificacion/decodificacion de audio conmutado de resolucion multiple.
EP1873754B1 (en) Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120126

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120127

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120110

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120203

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120227

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130218

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5205373

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160222

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250