JP2007515677A - 最適化された複合的符号化方法 - Google Patents

最適化された複合的符号化方法 Download PDF

Info

Publication number
JP2007515677A
JP2007515677A JP2006543574A JP2006543574A JP2007515677A JP 2007515677 A JP2007515677 A JP 2007515677A JP 2006543574 A JP2006543574 A JP 2006543574A JP 2006543574 A JP2006543574 A JP 2006543574A JP 2007515677 A JP2007515677 A JP 2007515677A
Authority
JP
Japan
Prior art keywords
encoder
bit rate
functional unit
encoders
functional units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006543574A
Other languages
English (en)
Other versions
JP4879748B2 (ja
Inventor
ダヴィド・ヴィレット
クロード・ランブラン
アブデラティフ・ベンジェロン・トゥイミ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of JP2007515677A publication Critical patent/JP2007515677A/ja
Application granted granted Critical
Publication of JP4879748B2 publication Critical patent/JP4879748B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Amplifiers (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Separation By Low-Temperature Treatments (AREA)

Abstract

本発明は、マルチメディア信号(オーディオまたはビデオ)のようなデジタル信号の圧縮符号化に関するものであると共に、更に特に、それぞれ一連の機能ブロックを含むいくらかの符号器が並列状態で入力信号を受信する複合的符号化方法に関するものである。本発明によれば、a)各ブロックの実行された1つ、またはいくつかの機能と一緒に、各符号器を形成する機能ブロック(BF10,...,BFnN)が識別され、b)様々な符号器に共通である機能が列挙されると共に、c)前記共通の機能が、少なくとも1つの同じ計算モジュール(BF1CC,...,BFnCC)の中の少なくとも全ての符号器の一部分に関して、決定的に実行される。

Description

本発明は、オーディオ(音声及び/または音)信号、またはビデオ信号のようなマルチメディア信号を送信するか、もしくは記憶する応用システムにおけるデジタル信号の符号化及び復号化に関する。
移動性、及び連続性を提供するために、現代の、そして革新的なマルチメディア通信サービスは、多種多様な状況の下で機能しなければならない。マルチメディア通信セクタの発展過程、そしてネットワーク、アクセスポイント、及び端末の異種の性質は、圧縮フォーマットの増設を発生させた。
本発明は、デジタル信号、またはデジタル信号の一部分が、2つ以上の符号化技術を用いて符号化されるときに使用される“複合的符号化(multiple coding)”技術の最適化に関するものである。複合的符号化は、同時に発生する(単一経路において実行される)か、もしくは非同時に発生する可能性がある。その処理は、同じ信号に、もしくは同じ信号から得られた(例えば、異なる帯域幅を備える)異なるバージョンに適用され得る。従って、“複合的符号化”は、各符号器が、前の符号器によって圧縮された信号の復号化から得られたバージョンを圧縮する“トランスコーディング(transcoding)”と区別される。
複合的符号化の1つの例は、2つ以上のフォーマットに同じ内容を符号化することであると共に、その次に、同じ符号化フォーマットをサポートしない端末にそれを送信することである。リアルタイムの同報通信の場合は、その処理は、同時に実行されなければならない。データベースに対するアクセスの場合は、符号化は、順々に、そして“オフラインで”実行されるであろう。これらの例において、複合的符号化は、複数の符号器(または、場合により、複数のビットレート、または同じ符号器の複数のモード)を使用して異なるフォーマットによって同じ信号を符号化するために使用され、各符号器は、その他の符号器とは独立して動作する。
複合的符号化の別の使用は、信号セグメントを符号化するために複数の符号器が参加すると共に、そのセグメントを符号化するために、最終的にその符号器の内の1つだけが選択される符号化構造において見られる。その符号器は、セグメントを処理した後で、またはもっと後で(遅延判定)、選択され得る。この種類の構造は、“マルチモード符号化(multimode coding)”構造(符号化“モード”の選択を参照)として以下で言及される。これらのマルチモード符号化構造において、“共通部分”を共用する複数の符号器は、同じ信号部分を符号化する。使用される符号化技術は、1つの符号化構造と異なる可能性があるか、もしくは、1つの符号化構造から生じる可能性がある。しかしながら、“無記憶(memoryless)”技術の場合を除いて、それらは、完全には独立していないことになる。再帰的処理を使用する符号化技術の(ルーチン)状況において、所定の信号セグメントの処理は、過去にその信号がどのように符号化されたかによって変わる。従って、符号器が、そのメモリ内の別の符号器からの出力に考慮しなければならないとき、いくらかの符号器の相互依存性がある。
“複合的符号化”の概念、及びそのような手法を使用するための条件が、上記で参照された様々な状況において導入された。しかしながら、実現の複雑さは、克服できないと証明される可能性がある。
例えば、アクセス状況、ネットワーク、及び異なるクライアントの端末に適応した異なるフォーマットによって同じコンテンツを同報通信するコンテンツサーバの状況においては、要求されるフォーマットの数が増加するので、この動作は非常に複雑になる。リアルタイムの同報通信の場合は、様々なフォーマットが並列に符号化されるので、システムの資源によって、制限が急速に課される。
上記で参照された第2の使用は、分析された各信号部分に関して、一組の符号器の中から1つの符号器を選択するマルチモード符号化の応用システムに関するものである。選択は、基準の定義を必要とし、より通常の基準は、ビットレート/ひずみのトレードオフを最適化することを目指す。信号は連続する時間セグメントに関して分析され、複数の符号化が各セグメントにおいて見積もられる。所定の品質のための最も低いビットレートを有する符号化、または所定のビットレートのための最上品質を有する符号化が、その場合に選択される。ビットレート、及びひずみのトレードオフ以外の制限が使用され得る点に注意が必要である。
そのような構造において、その符号化は、一般的に、関係のあるセグメントに関して信号を分析することによって、演繹的に選択される(信号の特性に基づいた選択)。しかしながら、この選択の目的のための信号の強い分類を生成することの難しさは、全てのモードを符号化した後の最高モードの後天的な選択の提案を導いたが、しかしこれは、高い複雑さを犠牲にして実行される。
上述の2つのアプローチを結合する中間の方法が、計算コストを減少させる目的で提案された。しかしながら、そのような方法は最適条件より少なく、そして全てのモードを調査するより悪い性能を提供する。全てのモード、またはモードの主要部分を調査することは、例えば、潜在的に非常に複合的であると共に、容易にリアルタイム符号化と演繹的に互換性がない、複合的符号化の応用システムを構成する。
現在、大部分の複合的符号化、及びトランスコーディングの動作は、フォーマットの間の相互関係、及びフォーマットとそのコンテンツとの間の相互関係を無視する。少数のマルチモード符号化技術が提案されたが、しかし、一般的に、使用するモードに関する決定は、例えば、分類による信号に関して(SMV符号器“選択可能モードボコーダ(selectable mode vocoder)”などの場合)、またはネットワークの状況の関数として(例えば、適応マルチレート(AMR:adaptive multirate)符号器などの場合)、演繹的に実行される。
様々な選択モードは、以下の文書において説明されると共に、特に信号源によって制御された決定、及びネットワークによって制御された決定が説明される。
「“An overview of variable rate speech coding for cellular networks”, Gersho, A.; Paksoy, E.; Wireless Communications, 1992. Conference Proceedings, 1992 IEEE International Conference on Selected Topics, 25-26 June 1992 Page(s):172-175」
「“A variable rate speech coding algorithm for cellular networks”, Paksoy, E.; Gersho, A.; Speech Coding for Telecommunications, 1993. Proceedings, IEEE Workshop 1993, Page(s):109-110」
「“Variable rate speech coding for multiple access wireless networks”, Paksoy E.; Gersho A.; Proceedings, 7th Mediterranean Electrotechnical Conference, 12-14 April 1994 Page(s):47-50 vol.1」
信号源によって制御された決定の場合は、演繹的決定は、入力信号の分類に基づいて実行される。入力信号を分類する多くの方法がある。
ネットワークによって制御された決定の場合、ビットレートが、信号源によって選択されるより、むしろ外部のモジュールによって選択されるマルチモード符号器を提供することは、更に簡単である。最もシンプルな方法は、それぞれ固定ビットレートであるが、異なる符号器は異なるビットレートを有する符号器の系列を生成すると共に、必要とされる現在のモードを獲得するために、それらのビットレートの間でビットレートを切り替えることである。
特に、以下の文書を参照すると、使用されるべきモードの演繹的な選択のために、複数の基準を結合することに関する研究が同様に行われた。
「“Variable-rate for the basic speech service in UMTS” Berruto, E.; Sereno, D.; Vehicular Technology Conference, 1993 IEEE 43rd, 18-20 May 1993 Page(s):520-523」
「“A VR-CELP codec implementation for CDMA mobile communications” Cellario, L.; Sereno, D.; Giani, M.; Blocher, P.; Hellwig, K.; Acoustics, Speech, and Signal Processing, 1994, ICASSP-94, 1994 IEEE International Conference, Volume: 1 , 19-22 April 1994 Page(s):I/281-I/284 vol.1」
演繹的な符号化モード選択を使用する全てのマルチモード符号化アルゴリズムは、特に演繹的分類の強さに関する問題に関連する同じ欠点に苦しむ。
この理由のために、例えば、以下の文書において、符号化モードに関する後天的な決定を用いる技術が提案された。
「“Finite state CEIJP for variable rate speech coding” Vaseghi, S.V.; Acoustics, Speech, and Signal Processing, 1990, ICASSP-90, 1990 International Conference, 3-6 April 1990 Page(s):37-40 vol.1」
符号器は、客観的な品質測定を最適化することによって、異なるモードの間でモードを切り替えることができ、その結果として、入力信号の特性、対象信号対量子化雑音比(signal-to-quantization noise ratio:SQNR)、及び符号器の現在の状態の関数として、後天的に決定が実行される。この種類の符号化方式は、品質を改良する。しかしながら、異なる符号化が並列に実行されると共に、従って、その結果生じるこの種類のシステムの複雑さは法外である。
以下の文書において、演繹的決定とクローズドループの改良点とを結合する他の技術が提案された。
「“Multimode variable bit rate speech coding: an efficient paradigm for high-quality low-rate representation of speech signal” Das, A.; DeJaco, A.; Manjunath, S.; Ananthapadmanabhan, A.; Huang, J.; Choy, E.; Acoustics, Speech, and Signal Processing, 1999. ICASSP '99 Proceedings, 1999 IEEE International Conference, Volume: 4, 15-19 March 1999 Page(s):2307-2310 vol.4」
提案されたシステムは、信号の特性の関数としてのモードの第1の選択(開ループ選択)を実行する。この決定は、分類によって実行され得る。その場合に、もし選択されたモードの性能が満足なものではない場合、エラー測定に基づいて、更に高いビットレートモードが適用されると共に、その動作が繰り返される(閉ループ決定)。
同様の手法が、以下文書において説明される。
「*“Variable rate speech coding for UMTS” Cellario, L.; Sereno, D.; Speech Coding for Telecommunications, 1993. Proceedings, IEEE Workshop, 1993 Page(s):1-2」
「“Phonetically-based vector excitation coding of speech at 3.6 kbps” Wang, S.; Gersho, A.; Acoustics, Speech, and Signal Processing, 1989. ICASSP-89 1989 International Conference, 23-26 May 1989 Page(s): 49-52 vol.1」
「*“A modified CS-ACELP algorithm for variable-rate speech coding robust in noisy environments” Beritelli, F.; IEEE Signal Processing Letters, Volume: 6 Issue: 2, February 1999 Page(s): 31-34」
開ループの第1の選択は、入力信号の分類(音声の、もしくは、有声/無声の分類)の後で実行され、その後で下記のいずれかに関して閉ループ決定が実行される。
・完全な符号器に関して(その場合には、全スピーチセグメントが再び符号化される)。
または、
・上記のアスタリスク(*)が最初に付与された参照文献のように、符号化の一部分に関して(その場合には、使用されるべき辞書が閉ループ処理によって選択される)。
上記を参照する研究の全ては、複合的符号化を回避するか、もしくは並列に使用されるべき符号器の数を削減する、演繹的選択または事前選択の全体的使用、あるいは部分的使用によって、最適モード選択の複雑さの問題を解決することを模索する。
しかしながら、符号化の複雑さを減少させる従来技術は、過去に提案されなかった。
本発明は、この状況を改善することを模索する。
この目的を実行するために、それぞれが一連の機能ユニットを備える複数の符号器に対して、入力信号が、各符号器による前記入力信号の圧縮符号化を目的として並列に供給される複合的圧縮符号化方法を提案する。
本発明の方法は、以下の準備段階を含む。
a)各符号器を構成する機能ユニット、及び各機能ユニットにより実行される1つ以上の機能を特定する段階。
b)1つの符号器から別の符号器まで共通する機能を選出する段階。
c)共通の計算モジュール内の少なくともいくつかの符号器に関して、前記共通する機能を最終的に実行する段階。
本発明の有利な実施例において、上述の段階は、これを実行するためのプログラム命令を含むソフトウェア製品によって実行される。この点に関して、本発明は、同様に、特にコンピュータ、または移動端末機内のプロセッサユニットのメモリ内、もしくは前記プロセッサユニットの読み取り機と協同するように構成される取り外し可能なメモリ媒体内に記憶されるように構成される上述の種類のソフトウェア製品を対象にする。
本発明は、同様に、本発明の方法を実行すると共に、前掲の種類のソフトウェア製品の命令を記憶するように構成されるメモリを備えるための圧縮符号化補助システムを対象にする。
本発明の他の特徴、及び利点は、以下の詳細な記述を読むと共に、添付された図面を検討すると明白になる。
まず図1aを参照すると、それは、それぞれ入力信号“s”を受信すると共に、並列状態にある複数の符号器“C0、C1、...CN”を表す。各符号器は、連続する符号化段階を実行すると共に、最終的に符号化されたビットストリーム“BS0、BS1、...BSN”を供給するための機能ユニット“BF1”から機能ユニット“BFn”を備える。マルチモード符号化の応用システムにおいて、符号器“C0”から符号器“CN”までの出力は、最適モード選択モジュール“MM”に接続されていると共に、最適符号器から先に送られるのは、ビットストリーム“BS”である(図1aにおける点線の矢印)。
簡単化のために、図1aの例における全ての符号器は、同じ数の機能ユニットを備えているが、しかし、実際上、全ての符号器において、全てのこれらの機能ユニットが必ずしも提供されるとは限らないということが理解されなければならない。
いくつかの機能ユニット“BFi”は、1つのモード(または、符号器)から別のものまで、多くの場合同じである。別のものは、量子化される層のレベルだけが異なる。同様のモデルを利用するか、もしくは物理的に信号と連結されたパラメータを計算する同じ符号化系列から提供される符号器を使用する場合、同様に、使用可能な関係が存在する。
本発明は、複合的符号化動作の複雑さを削減するために、これらの関係を活用することを目的とする。
本発明は、第一に各々の符号器を構成する機能ユニットを識別することを提案する。符号器の間の技術的な類似は、その場合に、機能が同等であるか、もしくは類似している機能ユニットを考察することによって活用される。各々のそれらのユニットに関して、本発明は、以下のことを提案する。
・“共通の”動作を定義すると共に、全ての符号器のために、それらを1度だけ実行すること。
及び、
・各符号器に特有であると共に、特に前述の共通計算の結果を用いる計算方法を使用すること。
これらの計算方法は、完全な符号化によって生成された結果と異なるかもしれない結果を生成する。その場合に、目的は、実際には、特に共通計算によって供給された利用可能な情報を活用することによって処理を加速することである。計算を加速するためのこのような方法は、トランスコーディング動作の複雑さを削減するための技術(例えば、“知的なトランスコーディング”として知られている技術)において使用される。
図1bは、提案された解決法を示す。本例において、前掲の“共通”動作は、獲得された結果を、少なくともいくつかの符号器に対して、もしくは好ましくは全ての符号器に対して再分配する独立モジュール“MI”内において、少なくともいくつかの符号器のために、及び好ましくは全ての符号器のために、1度だけ実行される。従って、それは、符号器“CO”から符号器“CN”までの少なくともいくつかの符号器の間で、獲得された結果を共用すること(これは“相互化(mutualization)”として以下で言及される)の問題である。上記で定義されたように、前述の種類の独立モジュール“MI”は、複合的圧縮符号化補助システムの一部を形成することができる。
有利な変形においては、外部の計算モジュール“MI”を使用するよりむしろ、同じ符号器または複数の個別の符号器における現行の1つの機能ユニット、または複数の機能ユニット“BF1”から機能ユニット“BFn”が使用されると共に、1つの符号器、または複数の符号器は、後述される基準に従って選択される。
本発明は、当然ながら関係のある機能ユニットの役割に従って異なる可能性がある複数の方法を使用することができる。
第1の方法は、他の全てのモードに関するパラメータ検索に集中するために、最も低いビットレートを有する符号器のパラメータを使用する。
第2の方法は、最も高いビットレートを有する符号器のパラメータを使用すると共に、その場合に、次第に最も低いビットレートを有する符号器まで等級を下げる。
もちろん、もし優先権が特別な符号器に与えられるべきである場合、その符号器を使用して信号セグメントを符号化することが可能であると共に、その場合に、前述の2つの方法を適用することによって、更に高いビットレートの符号器、及び更に低いビットレートの符号器を得ることが可能である。
もちろん、ビットレート以外の基準が、検索を制御するために使用され得る。例えば、いくらかの機能ユニットに関して、そのパラメータが効率的な抽出(または分析)、及び/または他の符号器の同様のパラメータの符号化に最もよく適している符号器に優先権が与えられ得ると共に、有効性が、複雑さ、または品質、または2つの間のトレードオフに従って判断される。
符号器内に存在しないが、しかし全ての符号器に関係する機能ユニットのパラメータの更に効率的な符号化を可能にする独立符号化モジュールが、同様に作成され得る。
様々な実現方法は、マルチモード符号化の場合に特に有益である。図1cで示されるこの状況において、本発明は、ビットストリーム“BS”を転送する前に例えば最後のモジュール“MM”により最後の段階において実行される符号器の後天的な選択に先行する計算の複雑さを削減する。
マルチモード符号化のこの特別な場合において、図1cにおいて示される本発明の変形は、各符号化段階の後に(従って、相互に競争すると共に、選択されたブロック“BFicc”に関して生じる結果が後で使用されることになる機能ユニット“BFi1”から機能ユニット“BFiN”の後に)部分的選択モジュール“MSPi”(ここで、i=1、2、...、N)を導入する。このように、異なるモードの類似は、各機能ユニットの計算を加速するために活用される。この場合、必ずしも全ての符号化方式が、必ずしも評価されるとは限らないであろう。
上記で示された機能ユニット内の分割に基づくマルチモード構造の更に洗練された変形が、次に図1dを参照して説明される。図1dのマルチモード構造は、格子(trellis)を通過し得る複数の経路を提供する“格子”構造である。実際、図1dは、格子を通過し得る全ての経路を示すと共に、従ってツリー形状を有する。格子の各経路は、機能ユニットの動作モードの組み合わせによって定義されると共に、各機能ユニットは、次の機能ユニットの存在し得る複数の変形に信号を供給する。
このように、各符号化モードは、機能ユニットの動作モードの組み合わせから得られると共に、機能ユニット1は、“N”動作モードを有しており、機能ユニット2は、“N”動作モードを有しており、ユニットPまで同様に動作モードを有している。“NN”の組み合わせ=“N×N×...×N”の可能な組み合わせは、従って、端から端までで“NN”モードを有する完全なマルチモード符号器を定義している“NN”ブランチを有する格子によって表される。格子のいくつかのブランチは、削減されたブランチ数を有するツリーを定義するために、演繹的に消去され得る。この構造の第1の特別な特徴は、所定の機能ユニットに関して、前の機能ユニットの各出力に関する共通の計算モジュールを提供することである。これらの共通の計算モジュールは、同じ動作を実行するが、信号が異なる前のユニットから来るので、異なる信号に関して同じ動作を実行する。同じレベルの共通の計算モジュールは、有利に相互化される(mutualized)と共に、次のモジュールによって使用できる所定のモジュールからの結果は、それらの次のモジュールに供給される。第二に、各機能ユニットの処理の後に続く部分的選択処理は、有利に、選択された基準に対して最も低い性能を提供するブランチの除去を可能にする。このように、評価されるべき格子のブランチ数は、削減され得る。
このマルチモード格子構造の1つの有利な応用システムは、以下のとおりである。
もし機能ユニットが、ビットレートに特有のそれぞれのパラメータを使用して、それぞれの異なるビットレートで動作する傾向がある場合、所定の機能ユニットに関して、符号化の前後関係によれば、選択された格子の経路は、最も低いビットレートの機能ユニットを通過する経路であるか、または最も高いビットレートの機能ユニットを通過する経路であると共に、最も低い(または最も高い)ビットレートを有する機能ユニットから得られた結果は、最も高い(または個々に最も低い)ビットレートを有する符号器に至るまで、少なくともいくつかの他の機能ユニットに関する集中的なパラメータ検索を通じて、少なくともいくつかの他の機能ユニットのビットレートに適合させられる。
代りに、所定のビットレートの機能ユニットが選択されると共に、その機能ユニットに特有の少なくともいくつかのパラメータは、集中的な検索によって最も高いビットレートで動作することができる符号器に至るまで、そして集中的な検索によって最も低いビットレートで動作することができる符号器に至るまで、次第に適合させられる。
これは、一般的に複合的符号化と関係がある複雑さを削減する。
本発明は、マルチメディアコンテンツの複合的符号化を使用するあらゆる圧縮技術に適用される。オーディオ(発話、及び音)圧縮の分野における3つの実施例が、以下で説明される。最初の2つの実施例は、以下の参照文書が関係する変形符号器の系列に関するものである。
「“Perceptual Coding of Digital Audio”, Painter, T.; Spanias, A.; Proceedings of the IEEE, Vol. 88, No 4, April 2000」
第3の実施例は、以下の参照文書が関係するCELP符号器に関するものである。
「“Code Excited Linear Prediction (CELP) : High quality speech at very low bit rates” Schroeder M.R.; Atal B.S.; Acoustics, Speech, and Signal Processing, 1985. Proceedings. 1985 IEEE International Conference, Page(s): 937-940」
これらの2つの符号化系列の主な特性の要約が最初に与えられる。
「*変換、またはサブバンド符号器」
これらの符号器は、心理的音響の基準に基づいていると共に、一組の係数を獲得するために、時間領域で信号のブロックを変換する。それらの変換は、時間−周波数タイプ(time-frequency type)の変換であり、最も広く使用されている変換の内の1つは、修正離散コサイン変換(modified discrete cosine transform:MDCT)である。それらの係数が量子化される前に、アルゴリズムは、できる限り量子化雑音が聞き取れないようにビットを割り当てる。ビット割り当て、及び係数量子化は、考察されたスペクトルの各ラインに関して、その周波数における音が聞き取れるために必要な振幅を表すマスキングしきい値を評価するために使用される、心理的音響モデルから獲得されたマスキング曲線を使用する。図2は、周波数領域の符号器の構成図である。機能ユニットの形式におけるその構造が明らかに示される点に注意が必要である。図2を参照すると、主要な機能ユニットは、以下のユニットである。
・入力デジタルオーディオ信号“s”に関する時間/周波数変換を実行するためのユニット21。
・変換された信号から知覚モデルを決定するためのユニット22。
・概念モデルに関して動作する量子化及び符号化ユニット23。
及び、
・コード化されたオーディオストリーム“Stc”を獲得するために、ビットストリームをフォーマットするためのユニット24。
「*合成符号器による分析(CELP符号化)」
合成タイプによる分析器の符号器において、符号器は、符号化されるべき信号を作っているパラメータを抽出するために、復元された信号の合成モデルを使用する。それらの信号は、8キロヘルツ(kHz)(300〜3400ヘルツ(Hz)の電話帯域)の周波数で、もしくは、更に高い周波数で、例えば広げられた帯域符号化(broadened band coding)(50[Hz]から7[kHz]までの帯域幅)のための16[kHz]で、サンプリング(標本化)され得る。応用システム、及び必要とされた品質に応じて、圧縮比は、1から16まで変化する。これらの符号器は、電話帯域における2キロビットパーセコンド(kbps)から16[kbps]までのビットレート、及び広げられた帯域における6[kbps]から32[kbps]までのビットレートで動作する。図3は、最も広く現在使用される合成符号器による分析器であるCELPデジタル符号器の主要な機能ユニットを示す。スピーチ信号“s”は、サンプリングされると共に、Lサンプルを含む一連のフレームに変換される。各フレームは、ディレクトリ(辞書とも呼ばれる)から抽出されると共に、利得を掛けられた波形を、適切な時期に変化する2つのフィルタを介してフィルタ処理することによって合成される。固定励振辞書(fixed excitation dictionary)は、Lサンプルの波形の有限集合である。第1のフィルタは、長期間予測(long-term prediction:LTP)フィルタである。LTP分析は、有声音の周期的な性質を活用する、この長期予測変数のパラメータを評価すると共に、調和成分が、適応辞書の形(ユニット32)でモデル化される。第2のフィルタは、短期間予測フィルタである。線形予測符号化(Linear prediction coding:LPC)分析法は、声道の伝達関数、及び信号のスペクトルのエンベロープの特性を表す短期間予測パラメータを獲得するために使用される。革新シーケンスを決定するために使用される方法は、合成法による分析であると共に、それは、以下のように、“符号器において、固定励振辞書から提供される多数の革新シーケンスは、LPCフィルタ(図3における機能ユニット34の合成フィルタ)によってフィルタ処理される”、と要約され得る。適応励振は、前もって同様の方法で獲得された。選択された波形は、一般的にCELP基準として知られている知覚による加重基準(機能ユニット36)と対照して判断されたとき、最も原信号に近い合成信号を生成する(機能ユニット35のレベルでエラーを最小化する)波形である。
図3のCELP符号器の構成図において、有声音の基本周波数(“ピッチ(pitch)”)は、機能ユニット31におけるLPC分析に起因する信号から抽出されると共に、それ以降、調和(harmonic)励振、もしくは適応励振(E.A.)と呼ばれる、機能ユニット32において抽出されるべき成分の長期間の相関を可能にする。最終的に、残りの信号は、通常、全ての位置が、固定励振(E.F.)ディレクトリと呼ばれる機能ユニット33におけるディレクトリに事前に定義される少しのパルスによってモデル化される。
復号化は、符号化よりずっと複雑ではない。復号器は、逆多重化後に、符号器によって生成されたビットストリームから、各パラメータの量子化インデックスを獲得し得る。信号は、その場合に、パラメータを復号化すると共に、合成モデルを適用することによって復元され得る。
図2において示されたタイプの変換符号器を発端に、前記の3つの実施例が以下で示される。
「*第1の実施例:“TDAC”符号器への応用」
第1の実施例は、特に米国特許出願公開第2001/027393号明細書において示された“TDAC”知覚の周波数領域符号器に関するものである。TDAC符号器は、16[kHz](広げられた帯域信号)でサンプリングされたデジタルオーディオ信号を符号化するために使用される。図4aは、この符号器の主要な機能ユニットを示す。オーディオ信号“x(n)”は、7[kHz]に帯域制限されると共に、16[kHz]でサンプリングされて、320サンプル(20[ms])のフレームに分割される。修正離散コサイン変換(MDCT)が、50[%]のオーバラップによって640サンプルを含む入力信号のフレームに適用されると共に、従ってMDCT分析は20[ms]毎にリフレッシュされる(機能ユニット41)。スペクトルは、最後の31個の係数をゼロに設定する(最初の289個の係数のみがゼロでない)ことによって、7225[Hz]に制限される。マスキング曲線は、このスペクトルから決定される(機能ユニット42)と共に、全てのマスクされた係数はゼロに設定される。そのスペクトルは、同等でない幅の32個の帯域に分割される。あらゆるマスクされた帯域は、信号の変換された係数の関数として決定される。倍率を獲得するために、MDCT係数のエネルギーは、スペクトルの各帯域に関して計算される。量子化された信号のスペクトル包絡線を構成する32個の倍率は、(機能ユニット43において)エントロピー符号化によって符号化されると共に、最終的に符号化されたフレーム“S”で送信される。
(機能ユニット44における)動的なビット割り当ては、スペクトル包絡線の復号化されると共に逆量子化されたバージョンから計算された、各帯域に関するマスキング曲線に基づいている(機能ユニット42)。これは、符号器及び復号器によるビット割り当てを互換性がある状態にする。各帯域における正規化されたMDCT係数は、その場合に、タイプII順列コードの組み合わせから構成される大きさで交互配置された(size-interleaved)辞書を使用して、ベクトル量子化によって(機能ユニット45において)量子化される。最終的に、図4bを参照すると、調性に関する情報(ここでは、1ビット“B”に符号化される)と有声に関する情報(ここでは、1ビット“B”に符号化される)、スペクトル包絡線“e(i)”、及び符号化された係数“y(j)”は、(機能ユニット46において:図4a参照)フレーム内に多重化されて送信される。
この符号器は、いくつかのビットレートで動作することができると共に、従って、マルチビットレート(multiple bit rate:複合的ビットレート)符号器、例えば16[kbps]、24[kbps]、そして32[kbps]のビットレートを提供する符号器を生成することが提案される。この符号化方式において、以下の機能ユニットは、様々なモードの間で共同利用され得る。
・MDCT(機能ユニット41)。
・有声の検出(機能ユニット47、図4a)、及び調性の検出(機能ユニット48、図4a)。
・スペクトル包絡線の計算、量子化、及びンエントロピー符号化(機能ユニット43)。及び、
・係数によるマスキング曲線係数の計算、及び各帯域に関するマスキング曲線の計算(機能ユニット42)。
これらのユニットは、符号化処理によって実行された処理の複雑さの61.5[%]を占める。異なるビットレートに対応する複数のビットストリームを生成する場合、それらの因数分解は、従って、複雑さを削減することに関する主要な関心事である。
上述の機能ユニットから提供される結果は、既に、有声、調性、及び符号化されたスペクトル包絡線に関する情報を伝送するビットを備える全ての出力ビットストリームに共通の第1の部分をもたらす。
この実施例の第1の変形において、考察されたビットレートの各々と対応する出力ビットストリームの各々に関して、ビット割り当て、及び量子化動作を実行することが可能である。これらの2つの動作は、TDAC符号器において通常実行されるのと正確に同じ方法で実行される。
更に進歩した変形である、図5に示されたこの実施例の第2の変形において、(前掲の米国特許出願公開第2001/027393号明細書において説明されたように、)更に複雑さを削減すると共に、特定の動作、特に以下の動作を相互化するために、“知的な”トランスコーディング技術が使用され得る。
・ビット割り当て(機能ユニット44)。
及び、
・係数量子化(機能ユニット45_i、以下を参照)。
図5において、(“相互化される”(mutualized))符号器の間で共用される機能ユニット41、機能ユニット42、機能ユニット47、機能ユニット48、機能ユニット43、及び機能ユニット44は、図4aで示された1つのTDAC符号器の機能ユニットと同じ照合番号を有している。特に、ビット割り当て機能ユニット44は、複数の経路において使用されると共に、割り当てられたビットの数は、各符号器が実行する変換量子化(transquantization)(機能ユニット45_1,...,45_(K−2),45_(K−1)”、以下参照)のために調整される。更に、これらの変換量子化は、選択されたインデックス0の符号器(ここで示された例における最も低いビットレートを有する符号器)のための量子化機能ユニット45_0によって獲得された結果を利用することに注意する必要がある。それらは、全て、同じ有声及び調性に関する情報と、同じ符号化されたスペクトル包絡線を使用するけれども、最終的に、実際の相互関係なしで動作する符号器の唯一の機能ユニットは、多重化機能ユニット46_0,46_1,...,46_(K−2),46_(K−1)である。この点に関しては、多重化の部分的な相互化が再度実行され得ると言えば十分である。
ビット割り当て及び量子化機能ユニットに関して使用される方法は、“K−1”個の他のビットストリーム(k)(1≦k<K)に関して対応する2つの機能ユニットの動作を加速するために、最も低いビットレート“D”においてビットストリーム(0)に関して獲得されたビット割り当て及び量子化機能ユニットから提供される結果を、活用することにある。各ビットストリームに関して(そのユニットに関する因数分解なしで)ビット割り当て機能ユニットを使用するが、しかしいくらかの次の量子化動作を相互化するマルチビットレート符号化方式が、同様に考察され得る。
上述された複合的符号化技術は、一般的に、ネットワークのノードにおいて、符号化されたオーディオストリームのビットレートを削減するために、知的なトランスコーディングに有利に基づいている。
ビットストリームk(0≦k<K)は、以下の増加するビットレート順序(D<D<...<DK−1)に分類される。従って、ビットストリーム0は、最も低いビットレートに対応する。
「*ビット割り当て」
TDAC符号器におけるビット割り当ては、2つの段階によって実行される。第一に、好ましくは下記数1式を用いて、各帯域に割り当てるべきビットの数が計算される。
Figure 2007515677
ここで、
Figure 2007515677
は、定数であり、Bは、利用可能なビットの総数であり、Mは、帯域の数であり、“e(i)”は、帯域iを横断するスペクトル包絡線の復号化されると共に、逆量子化された値であり、そして“S(i)”は、その帯域に関するマスキングしきい値である。
獲得された各々の値は、最も近い自然整数(natural integer)に四捨五入される。もし割り当てられた全ビットレートが利用可能なビットレートに必ずしも等しくない場合、第2の段階が、好ましくは、知覚の基準に基づく一連の反復動作を用いて、帯域にビットを追加するか、または帯域からビットを除去する調整を実行する。
従って、もし分配されたビットの総数が利用可能なビットの総数より少ない場合、最初の帯域割り当てと、最後の帯域割り当てとの間の“noise-to-mask”比率(noise-to-mask ratio)の変化によって判断された最も大きい知覚の向上を見せる帯域にビットが追加される。ビットレートは、最も大きい変化を示す帯域に関して増加される。分配されたビットの総数が利用可能なビットの総数より多い反対の状況においては、帯域からのビットの抽出は、前述の手続きの2つの部分から成る。
TDAC符号器に対応するマルチビットレート符号化方式においては、ビットの割り当てのための特定の動作を因数分解することが可能である。従って、前述の方程式を使用する決定の第1の段階が、最も低いビットレート“D”に基づいて、一度だけ実行され得る。ビットを追加することによる調整の段階は、その場合に連続して実行され得る。一度分配されたビットの総数が、ビットストリームk(k=1、2...、K−1)のビットレートに対応する数に達すれば、現在の配分は、そのビットストリームの各帯域に関する正規化された係数ベクトルを量子化するために使用されるものであると考察される。
「*係数量子化」
係数量子化のために、TDAC符号器は、タイプII順列コードの組み合わせから構成される大きさで交互配置された辞書(size-interleaved dictionary)を利用するベクトル量子化を使用する。この種類の量子化は、帯域を横断するMDCT係数の各々のベクトルに適用される。この種類のベクトルは、前もって、その帯域を横断するスペクトル包絡線の逆量子化された値を用いて正規化される。以下の表記法が使用される。
・C(b,d)は、ビット数b、及び次元dに対応する辞書である。
・N(b,d)は、その辞書における要素の数である。
・CL(b,d)は、そのリーダー(leader)のセットである。
そして、
・NL(b,d)は、リーダーの数である。
フレームの各帯域iに関する量子化の結果は、ビットストリームで送信される符号語“m”である。それは、以下の情報から計算された辞書における量子化されたベクトルのインデックスを表す。
・現在のリーダーである
Figure 2007515677
に最も近い量子化されたリーダーベクトルである
Figure 2007515677
の辞書C(b,d)のリーダーのセットCL(b,d)の中の数“L”。
・リーダーである
Figure 2007515677
の階層における“Y(i)”の階級“r”。
・“Y(i)”(または、
Figure 2007515677
)に適用されるべき符号“sign(i)”の組み合わせ。
以下の表記法が使用される。
・“Y(i)”は、帯域iの正規化された係数の絶対値のベクトルである。
・“sign(i)”は、帯域iの正規化された係数の符号のベクトルである。

Figure 2007515677
は、減少する順序(対応する順列は、表示された“perm(i)”である)でその要素を並べることによって獲得された前掲のベクトル“Y(i)”のリーダーベクトルである。
・“Y(i)”は、“Y(i)”(または、辞書“C(b,d)”における「“Y(i)”の最も近い仲間」)の量子化されたベクトルである。
以下で、指数kを有する表記法“α(k)”は、符号器のビットストリームkを獲得するために実行される処理において使用されるパラメータを表す。この指数がないパラメータは、最終的にビットストリーム0に関して計算される。それらは、関係のあるビットレート(または、モード)から独立している。
上記で参照される辞書の“交互配置”特性は、同様に
Figure 2007515677
と共に、以下の式
Figure 2007515677
のように表される。
Figure 2007515677
は、
Figure 2007515677
における
Figure 2007515677
の補数である。
その基数は、
Figure 2007515677
に等しい。
ビットストリームkの各々に関する帯域iの係数のベクトルの量子化の結果である符号語
Figure 2007515677
(ここで、O≦k<Kである)は、以下のように獲得される。
・ビットストリームk=0に関して、通常通りの量子化動作が、TDAC符号器において通常に実行される。それは、符号語
Figure 2007515677
を構成するために使用されるパラメータ
Figure 2007515677

Figure 2007515677
、及び
Figure 2007515677
を生成する。
ベクトル
Figure 2007515677
、及び“sign(i)”は、このステップにおいて同様に決定される。
それらは、他のビットストリームに関する次のステップにおいてもし必要な場合に使用されるべき、対応する順列“perm(i)”と共に、メモリに格納される。
・ビットストリーム“1≦k<K”に関して、k=1からk=K−1まで、好ましくは以下のステップを使用する付加的アプローチが採用される。
もし
Figure 2007515677
である場合、その場合には以下のようになる。
1.帯域iを横断する、ビットストリームkのフレームの符号語は、ビットストリーム(k−1)のフレームの符号語と同じである:
Figure 2007515677
もしそうでなければ、すなわち、もし
Figure 2007515677
の場合には以下のようになる。
2.
Figure 2007515677
のリーダー
Figure 2007515677
は、
Figure 2007515677
の最も近い仲間を検索される。
3.ステップ2の結果を与えられて、
Figure 2007515677
における
Figure 2007515677
の最も近い仲間を把握し、
Figure 2007515677
内の
Figure 2007515677
の最も近い仲間が、
Figure 2007515677
内にあるか(これは、以下で説明される“Flag=0”の状況である)、または
Figure 2007515677
内にあるか(これは、以下で説明される“Flag=1”の状況である)を決定するために、テストが実行される。
4.もしFlag=0(最も近い
Figure 2007515677
内の
Figure 2007515677
のリーダーが、同様に、
Figure 2007515677
内のそれの最も近い仲間である)の場合、その場合に、
Figure 2007515677
である。
もしFlag=1(ステップ2において発見された
Figure 2007515677
内の
Figure 2007515677
に最も近いリーダーが、同様に、
Figure 2007515677
内のそれの最も近い仲間である)場合、
Figure 2007515677
をその数にさせ(ここで、
Figure 2007515677
である)、そして以下のステップが実行される。
a.例えば、perm(i)を使用する“Schalkwijk”アルゴリズムを利用して、
Figure 2007515677
(リーダーである
Figure 2007515677
の階層における新しい量子化されたベクトルY(i))の階級
Figure 2007515677
を検索する。
b.“sign(i)”、及び“perm(i)”を使用して、
Figure 2007515677
を決定する。
c.
Figure 2007515677

Figure 2007515677
、及び
Figure 2007515677
から、符号語
Figure 2007515677
を決定する。
「*第2の実施例:MPEG−1レイヤI&II変換符号器への適用」
図6aで示されるMPEG−1レイヤI&II符号器は、入力オーディオ信号sに時間/周波数変換を適用するために、32個の均一のサブバンドを有するフィルタのバンクを使用する(図6a、及び図7における機能ユニット61)。各サブバンドの出力サンプルは、量子化される(機能ユニット62)前に、グループ化されて、そして共通の倍率(機能ユニット67によって決定される)によって正規化される。各サブバンドに関して使用される均一スカラー量子化器(uniform scalar quantizer)のレベルの数は、ビットの配分を決定するために、量子化雑音を可能な限り微小なものとする心理的音響モデル(機能ユニット64)を使用する、(機能ユニット63によって実行される)動的なビット割り当て手続きの結果である。標準において提案されたヒアリングモデルは、高速フーリエ変換(FFT)を時間領域の入力信号に適用する(機能ユニット65)ことによって獲得されたスペクトルの推定に基づいている。図6bを参照すると、図6aにおける機能ユニット66によって多重化された、最後に送信されるフレームsは、ヘッダフィールドHの後に、主要な情報を表す、量子化されたサブバンドESBの全てのサンプルと、倍率F及びビット割り当て因子Aから構成される、復号化動作のために使用される補足的な情報とを含む。
この符号化方式からスタートして、本発明の1つの応用システムにおいて、マルチビットレート符号器は、以下の機能ユニットを共同利用することによって構成され得る(図7を参照)。
・分析フィルタのバンクのユニット61。
・倍率の決定のユニット67。
・FFT計算のユニット65。
そして、
・心理的音響モデルを使用するマスキングしきい値決定のユニット64。
機能ユニット64、及び機能ユニット65は、前々から、ビット割り当て手続き(図7における機能ユニット70)のために使用される“signal-to-mask”比率(図6a、及び図7における矢印SMR)を供給する。
図7において示される実施例においては、ビット割り当てのために使用される手続きを、それにいくらかの修正を加えて共同利用することによって、活用することが可能である(図7におけるビット割り当て機能ユニット70)。量子化機能ユニット62_0〜62_(K−1)だけが、その場合に、ビットレートD(0≦k<K−1)に対応する各ビットストリームに特有である。同じことが、多重化ユニット66_0〜66_(K−1)にも当てはまる。
「*ビット割り当て」
MPEG−1レイヤI&II符号器において、ビット割り当ては、以下のとおりに、好ましくは対話型ステップの連続によって実行される。
ステップ0:サブバンドi(0≦i<M)の各々に関して、ビットの数bをゼロに初期化する。
ステップ1:サブバンドNMR(i)=SMR(i)−SNR(b)の各々を横断するひずみ関数NMR(i)(“noise-to-mask”比率)を更新する。ここで、SNR(b)は、多数のビットbを有する量子化器に対応する信号対雑音比(signal-to-noise ratio)であり、そしてSMR(i)は、心理的音響モデルによって供給された“signal-to-mask”比率である。
ステップ2:サブバンドiのビットの数
Figure 2007515677
をインクリメントすると共に、この歪みは、最大値で
Figure 2007515677
であり、ここで、εは、一般的に1に等しいと考えられる帯域に基づいて、正の整数値である。
ステップ1及びステップ2は、使用中のビットレートに対応する利用可能なビットの総数が分配されるまで繰り返される。これの結果は、ビット配分ベクトル(b,b,...,bM−1)である。
複合的ビットレート符号化方式において、特に、これらのステップは、いくらかの他の修正を加えることによって、共同利用される。
・機能ユニットの出力は、Kビット配分ベクトル
Figure 2007515677
(0≦k<K−1)から構成されると共に、ベクトル
Figure 2007515677
は、ステップ1、及びステップ2の反復において、ビットストリームkのビットレートDに対応する利用可能なビットの総数が分配されたときに獲得される。
・ステップ1、及びステップ2の反復は、最も高いビットレートDK−1に対応する利用可能なビットの総数が完全に分配されたときに停止される(ビットストリームはビットレートが増加する順である)。
ビット配分ベクトルが、k=0からk=K−1まで連続して獲得される点に注意が必要である。従って、ビット割り当て機能ユニットのK個の出力は、所定のビットレートのビットストリームの各々のための量子化機能ユニットに供給される。
「*第3の実施例:CELP符号器への適用」
最後の実施例は、3GPP標準に適合する電話帯域スピーチ符号器である、後天的な決定の3GPPのNB−AMR(Narrow-Band Adaptive Multi-Rate:狭帯域適応マルチレート)符号器を使用したマルチモードスピーチ(multimode speech)の符号化に関係する。この符号器は、その理論が簡潔に上述される有名なCELP符号器の系列に属していると共に、全て代数的な符号励振線形予測(ACELP:algebraic code excited linear prediction)技術に基づく、12.2[kbps]から4.75[kbps]までの8つのモード(または、ビットレート)を有する。図8は、機能ユニットの形態で、この符号器の符号化方式を示す。この構造は、4つNB−AMRモード(7.4;6.7;5.9;5.15)に基づく後天的な決定のマルチモード符号器を生成するために活用された。
第1の変形においては、同じ機能ユニットの相互化のみが活用される(4つの符号化の結果は、その場合に、並列状態にある4つの符号化の結果と同じである)。
第2の変形においては、その複雑さは、更に削減される。特定のモードに関して、同じではない機能ユニットの計算は、別のモードの計算、もしくは共通の処理モジュールの計算を活用することによって加速される(以下を参照)。このような方法で相互化される4つの符号化による結果は、その場合に、並列状態にある4つの符号化の結果とは異なる。
更なる変形において、これらの4つのモードの機能ユニットは、図1dを参照して上述されたマルチモードトレリス符号化のために使用される。
3GPPのNB−AMR符号器の4つのモード(7.4;6.7;5.9;5.15)は、以下で簡潔に説明される。
3GPPのNB−AMR符号器は、3.4[kHz]に帯域制限され、8[kHz]でサンプリングされると共に、20[ms]のフレームに分割された(160個のサンプル)スピーチ信号に関して動作する。各フレームは、2つずつ10[ms]の“スーパーサブフレーム”(80個のサンプル)にグループ化された、4つの5[ms]サブフレーム(40個のサンプル)を含む。全てのモードに関して、パラメータのモデル化、及び/または量子化に関する変形を伴ってはいるが、同じ種類のパラメータが信号から抽出される。NB−AMR符号器においては、5種類のパラメータが、分析されて、符号化される。線スペクトルペア(line spectral pair:LSP)パラメータは、12.2のモード(従って、スーパーサブフレーム毎に1度)を除いて、全てのモードに関して、1フレーム毎に1度処理される。他のパラメータ(特に、LTP遅延、適応励振利得(adaptive excitation gain)、固定励振(fixed excitation)、及び固定励振利得(fixed excitation gain)は、1サブフレーム毎に1度処理される。
ここで考察された4つのモード(7.4;6.7;5.9;5.15)は、主にそれらのパラメータの量子化に関して異なる。これらの4つのモードのビット割り当ては、以下の表1に要約される。
Figure 2007515677
NB−AMR符号器のこれらの4つのモード(7.4;6.7;5.9;5.15)は、正確に同じモジュール、例えば前処理モジュール、線形予測係数分析モジュール、及び加重信号計算モジュールを使用する。信号の前処理は、オーバフローを妨げるために、入力信号の2つに分割された部分と結合されたDC成分を消去するための80[Hz]のカットオフ周波数による高域通過フィルタ処理である。LPC分析は、ウィンドウイングサブモジュール(windowing submodule)、自己相関計算サブモジュール、“Levinson-Durbin”のアルゴリズム実装サブモジュール、“A(z)→LSP”変換サブモジュール、過去のフレームのLSPと現在のフレームのLSPと間の補間によって、各サブフレームに関する非量子化パラメータLSP(i=0,...,3)を計算するためのサブモジュール、及び逆の“LSP→A(z)”変換サブモジュールを含む。
加重スピーチ信号を計算することは、知覚の加重フィルタ(W(z)=A(z/γ)/A(z/γ))によってフィルタ処理することであり、ここで、A(z)は、インデックスのサブフレームの非量子化フィルタであると共に、γ=0.94、そしてγ=0.6である。
他の機能ユニットは、モードの内の3つ(7.4;6.7;5.9)だけに関して、同じである。例えば、これらの3つのモードのために、加重信号に関する開ループLTP遅延検索が、1スーパーサブフレーム毎に1度実行される。しかしながら、5.15のモードに関して、それは1フレーム毎に1度だけ実行される。
同様に、もし4つのモードが、正規化された周波数領域において、LSPパラメータの抑制された平均、及びデカルト積(Cartesian product)の一次予測加重ベクトルのMA(移動平均:moving average)量子化を使用した場合、5.15[kbps]モードのLSPパラメータは、23ビットに量子化されると共に、他の3つのモードのLSPパラメータは26ビットに量子化される。正規化された周波数領域への変換の後で、LSPパラメータのデカルト積毎の“split VQ”ベクトル量子化は、10個のLSPパラメータを、それぞれ大きさ3、大きさ3、及び大きさ4の3つのサブベクトルに分割する。最初の3つのLSPから成る第1のサブベクトルは、4つのモードに関して、同じ辞書を使用して8ビットに量子化される。次の3つのLSPから成る第2のサブベクトルは、3つの高ビットレートモードに関しては、大きさ512(9ビット)の辞書を使用して量子化されると共に、5.15のモードに関しては、その辞書の半分(2つで1つのベクトル)を使用して量子化される。最後の4つのLSPから成る第3の、そして最後のサブベクトルは、3つの高ビットレートモードに関しては、大きさ512(9ビット)の辞書を使用して量子化されると共に、より低いビットレートモードに関しては、大きさ128(7ビット)の辞書を使用して量子化される。4つのモードに関して、正規化された周波数領域への変換、二次の誤差基準(誤差規範)の重みの計算、及び量子化されるべきLSP剰余の移動平均(MA)予測は、正確に同じである。LSPを量子化するために3つの高ビットレートモードが同じ辞書を使用するので、同じベクトル量子化モジュールに加えて、過去のフレームの量子化されたLSPと現在のフレームの量子化されたLSPとの間の補間によって、各サブフレームに関して量子化されたLSP の計算(i=0,...,3)、そして最終的に逆変換“LSP →A (z)”と同様に、それらは(正規化された周波数領域からコサイン領域まで戻すために)逆変換を共用することができる。
適応励振、及び固定励振閉ループ検索は、連続して実行されると共に、加重合成フィルタのインパルス応答と、そして対象信号の事前計算を必要とする。加重合成フィルタのインパルス応答(A(z/γ)/[A (z)A(z/γ)])は、3つの高ビットレートモード(7.4;6.7;5.9)に関して、正確に同じである。各サブフレームに関して、適応励振に関する対象信号の計算は、(モードとは無関係に)加重信号、(3つのモードに関して正確に同じである)量子化されたフィルタ“A (z)”、及び(最初のサブフレームを除いた各サブフレームに関して異なる)サブフレームの過去によって変わる。各サブフレームに関して、固定励振に関する対象信号は、先行する対象信号から、そのサブフレームのフィルタ処理された適応励振の寄与部分(それは、最初の3つのモードの最初のサブフレームを除いて、1つのモードと他のモードとの間で異なる)を減じることによって獲得される。
3冊の適応辞書が、使用される。7.4;6.7;5.9のモードの偶数のサブフレーム(i=0及び2)に関して使用されると共に、5.15のモードの最初のサブフレームに関して使用される第1の辞書は、範囲[19+1/3,84+2/3]においては1/3分解能の、そして範囲[85,143]において完全な分解能の、256個の断片的な絶対遅延を備えている。この絶対遅延辞書を検索することは、開ループモードにおいて発見される遅延(5.15のモードに関しては±5の間隔、他のモードに関しては±3の間隔)の周辺に集中させられる。7.4;6.7;5.9のモードの最初のサブフレームに関して、対象信号及び開ループ遅延は同じであり、閉ループ検索の結果も同様に同じである。他の2つの辞書は、差動式タイプの辞書であると共に、現在の遅延と、先行するサブフレームの断片的な遅延に最も近い全体の遅延Ti−1との間の差異を符号化するために使用される。7.4のモードの奇数のサブフレームに関して使用される5ビットの第1の差動式辞書は、範囲[Ti−1−5+2/3,Ti−1+4+2/3]においては、全体の遅延Ti−1に関する1/3分解能の辞書である。第1の差動式辞書に含まれる4ビットの第2の差動式辞書は、6.7そして5.9のモードの奇数のサブフレームに関して、そして5.15のモードの最後の3つのサブフレームに関して使用される。この第2の辞書は、範囲[Ti−1−5,Ti−1+4]においては、全体の遅延Ti−1に関する完全な分解能の辞書であり、更に、範囲[Ti−1−1+2/3,Ti−1+2/3]においては、1/3の分解能の辞書である。
固定辞書は、有名なACELP辞書の系列に属している。ACELPディレクトリの構造は、交互配置された単一パルス順列(ISPP:interleaved single-pulse permutation)思想に基づいていると共に、それはL個の位置のセットをK個の交互配置されたトラックに分割することであり、N個のパルスが特定の事前に定義されたトラックに配置される。表2aで示されたように、7.4のモード、6.7のモード、5.9のモード、及び5.15のモードは、サブフレームの40個のサンプルを5個の交互配置された長さ8のトラックに分割するという同じ分割を使用する。7.4のモード、6.7のモード、そして5.9のモードに関して、表2bは、辞書のビットレート、パルスの数、及びトラックにおけるそれらの配分を示す。9ビットを有するACELP辞書の5.15のモードの2つのパルスの配分は、更に抑制される。
Figure 2007515677
Figure 2007515677
適応励振利得、及び固定励磁利得は、CELP基準を最小限にする共同のベクトル量子化(固定励振利得には、MA予測も適用される)によって、7ビットまたは6ビットに量子化される。
「*同じ機能ユニットの相互化のみを活用する後天的な決定によるマルチモード符号化」
以下で示された機能ユニットを共同利用する後天的な決定のマルチモード符号器は、上述の符号化方式に基づくことができる。
図8を参照すると、4つのモードに関して、以下の処理が共通に実行される。
・前処理(機能ユニット81)。
・線形予測係数の分析(自己相関のウィンドウイング(windowing)及び計算(機能ユニット82)、“Levinson-Durbin”のアルゴリズムの実行(機能ユニット83)、“A(z)→LSP”変換の実行(機能ユニット84)、LSP補間及び逆変換(機能ユニット862))。
・加重入力信号の計算(機能ユニット87)。
・(機能ユニット85における)LSPパラメータの正規化された周波数領域への変換、LSPのベクトル量子化に関する二次の誤差基準(誤差規範)の重みの計算、LSP剰余のMA予測、最初の3つのLSPのベクトル量子化。
従って、全てのこれらのユニットに関する累積的な複雑さは4で割られる。
高い方の3つのビットレートモード(7.4、6.7、及び5.9)に関して、以下の処理が実行される。
・(図8の機能ユニット85における)(1フレーム毎に1度の)最後の7個のLSPのベクトル量子化。
・(1フレーム毎に2度の)開ループLTP遅延検索(機能ユニット88)。
・量子化LSP補間(機能ユニット861)、及び(各サブフレームに関する)フィルタA への逆変換。
そして、
・(各サブフレームに関する)加重合成フィルタのインパルス応答の計算(機能ユニット89)。
これらのユニットに関して、それらの計算は2回だけで、もはや4回実行されず、1回は高い方の3つのビットレートモードに関して実行され、1回は低いビットレートモードに関して実行される。従って、それらの複雑さは2で割られる。
高い方の3つのビットレートモードにおいては、同様に、最初のサブフレームに関して、閉ループLTP検索(機能ユニット881)と共に、固定励振に関するの対象信号の計算(図8における機能ユニット91)、及び適応励振に関する対象信号の計算(機能ユニット90)を相互化することが可能である。最初のサブフレームに関する動作の相互化が、後天的な決定のマルチモードタイプの複合的符号化の状況においてのみ、同じ結果を生成する点に注意が必要である。複合的符号化の一般的な状況において、最初のサブフレームの過去は、ビットレートに従って異なり、他の3つのサブフレームに関して、これらの動作は、一般的に、この場合には異なる結果を生成する。
「*進化した後天的な決定のマルチモード符号化」
同一でない機能ユニットは、別のモードの機能ユニット、または共通の処理モジュールを活用することによって加速され得る。(品質、及び/または複雑さに関する)応用システムの制限に応じて、異なる変形が使用され得る。いくつかの例が、以下で説明される。それは、同様に、CELP符号器の間の知的なトランスコーディング技術に依存することが可能である。
「*第2のLSPサブベクトルのベクトル量子化」
TDAC符号器の実施例と同様に、特定の辞書を交互配置することは、計算を加速し得る。従って、5.15のモードの第2のLSPのサブベクトルの辞書が、他の3つのモードの辞書に含まれるので、従って、4つのモードによるそのサブベクトルYの量子化が有利に結合され得る。
ステップ1:(大きな辞書の半分に対応する)最も小さな辞書における最も近い仲間Yを検索する。
・5.15に関して、YはYを量子化する。
ステップ2:大きな辞書における片割れ(すなわち、辞書のもう一方の半分)における最も近い仲間Yを検索する。
ステップ3:9ビット辞書におけるYの最も近い仲間が、Y(“Flag=0”)であるか、またはY(“Flag=1”)であるかどうかを検査する。
・“Flag=0”:Yが、同様に、7.4のモード、6.7のモード、及び5.9のモードに関して、Yを量子化する。
・“Flag=1”:Yが、7.4のモード、6.7のモード、及び5.9のモードに関して、Yを量子化する。
この実施例は、同じ結果を非最適化マルチモード符号化に与える。もし量子化の複雑さが更に削減されるべきである場合、我々は、ステップ1で停止すると共に、もしそのベクトルがYに十分に近いと思われるならば、Yを高ビットレートモードに関する量子化されたベクトルとみなすことができる。この単純化は、従って、徹底的な検索と異なる結果を生成することができる。
「*開ループLTP検索の加速性」
5.15のモードの開ループLTP遅延検索は、検索結果を他のモードに関して使用することができる。もし2つのスーパーサブフレームに関して発見された2つの開ループ遅延が、差分符号化を可能にするのに十分に近い場合、5.15のモードの開ループ検索は実行されない。より高いモードの結果が、その代りに使用される。もしそうでなければ、それらのオプションは、以下のようになる。
・標準の検索を実行すること。
または、
・フレーム全体に対する開ループ検索を、より高いモードによって発見された2つの開ループ遅延の周辺に集中させること。
逆に、5.15のモードの開ループ遅延検索(open loop delay search)は、同様に、最初に実行され得ると共に、2つのより高いモードの開ループ遅延検索は、5.15のモードによって決定された値の周辺に集中させられる。
図1dに示される3番目の、そして更に進化した実施例において、機能ユニットの多くの組み合わせを可能にするマルチモードトレリス符号器が生成されると共に、各機能ユニットは、少なくとも2つの動作モード(または、ビットレート)を備える。この新しい符号器は、前掲のNB−AMR符号器の4ビットレート(5.15;5.90;6.70;7.40)から構成される。この符号器において、4つの機能ユニットは、LPC機能ユニット、LTP機能ユニット、固定励振機能ユニット、及び利得機能ユニットとして区別される。上記の表1を参照すると、以下の表3aは、これらの機能ユニットの各々に関して、そのビットレートの数、及びそのビットレートを要約する。
Figure 2007515677
従って、P=4の機能ユニット、及び2×3×4×2=48通りの可能な組み合わせがある。特にこの実施例においては、機能ユニット2の高ビットレート(LTPビットレートが26ビット/フレーム)は考察されない。もちろん、他の選択が可能である。
このような方法で獲得されたマルチビットレート符号器は、32個の可能なモードと共に、ビットレートに関する高い精度を備えている(表3bを参照)。しかしながら、その結果生じる符号器は、前掲のNB−AMR符号器と相互作用することができない。表3bにおいて、NB−AMR符号器の5.15のビットレート、5.90のビットレート、及び6.70のビットレートに対応するモードが太字(ボールド体)で表されると共に、機能ユニットLTPの最も高いビットレートの除外は、7.40のビットレートを消去する。
Figure 2007515677
この符号器は、32個の可能なビットレートを有すると共に、使用されるモードを識別するために5ビットが必要である。前の変形と同様に、機能ユニットは、相互化される。異なる符号化方法が、異なる機能ユニットに適用される。
例えば、LSP量子化を含む機能ユニット1に関しては、上述のように、そして以下のように、優先権が低ビットレートに対して与えられる。
・この機能ユニットと関連付けられた2つのビットレートに関して、最初の3つのLSPで構成される第1のサブベクトルは、同じ辞書を使用して8ビットに量子化される。
・次の3つのLSPで構成される第2のサブベクトルは、最も低いビットレートを有する辞書を使用して8ビットに量子化される。その辞書は、より高いビットレートの辞書の半分に対応すると共に、3つのLSPと、辞書において選択された要素との間の距離が特定のしきい値を越える場合に限り、検索が辞書のもう一方の半分で実行される。
・最後の4つのLSPで構成される第3の、そして最後のサブベクトルは、大きさ512(9ビット)の辞書、及び大きさ128(7ビット)の辞書を用いて量子化される。
一方、上述のように、第2の変形(進化した後天的な決定によるマルチモード符号化に対応する)においては、機能ユニット2に関して、高いビットレートに優先権(LTP遅延)を与えるように、選択が実行される。NB−AMR符号器において、開ループLTP遅延検索(open loop LTP delay search)は、24ビットのLTP遅延に関して、1フレーム毎に2度実行されると共に、20ビットのLTP遅延に関して、1フレーム毎に1度だけ実行される。その目的は、この機能ユニットに関して、高ビットレートに優先権を与えることである。従って、開ループLTP遅延計算は、以下の方法で実行される。
・2つの開ループ遅延が、2つのスーパーサブフレーム(supersubframe)に関して計算される。もし、差動符号化を可能にするほど、それらが十分に近い場合、開ループ検索は、全体のフレームでは実行されない。2つのスーパーサブフレームに関する結果が、その代りとして使用される。
・もしそれらが十分に近くない場合、開ループ検索が、前もって発見された2つの開ループ遅延の周辺に集中して、フレーム全体に渡って実行される。複雑さを削減する変形は、それらの内の第1の開ループ遅延のみを保持する。
特定の機能ユニットの後で検討されるべき組み合わせの数を削減するために、部分的選択をすることが可能である。例えば、機能ユニット1(LPC)の後で、もし23ビットモードの性能が十分に近い場合、26ビットを有する組み合わせがこのブロックで消去され得るか、もしくはその性能があまりにも26ビットモードと比べると低下する場合、23ビットモードが消去され得る。
従って、本発明は、相互化すると共に、様々な符号器によって実行される計算を加速することによって、複合的符号化の複雑さの問題に対する効果的な解決法を与え得る。従って、符号化構造は、実行される処理動作を説明する機能ユニットを用いて描写されることができる。複合的符号化に使用される、異なる形の符号化の機能ユニットは、本発明が活用する強い関係を有している。異なる符号化が同じ構造の異なるモードに対応するとき、それらの関係は特に強い。
最終的に、複雑さの観点から本発明が柔軟であることに注意が必要である。演繹的に複合的符号化の最大の複雑さを決定すると共に、検討された符号器の数を、複雑さの関数として適応させることが、実際可能である。
並列に配置された複数の符号器を示す本発明の応用システムの状況の図である。 並列に配置された複数の符号器の間で共用される機能ユニットを備えた本発明の応用システムの図である。 マルチモード符号化において共用される機能ユニットを備えた本発明の応用システムの図である。 マルチモードトレリス符号化に対する本発明の応用システムの図である。 知覚の周波数領域符号器のメイン機能ユニットの図である。 合成符号器による分析器のメイン機能ユニットの図である。 TDAC符号器のメイン機能ユニットの図である。 図4aの符号器によって符号化されたビットストリームのフォーマットの図である。 並列状態の複数のTDAC符号器に適用された本発明の有利な実施例の図である。 MPEG−1(レイヤI、及びレイヤII)符号器のメイン機能ユニットの図である。 図6aの符号器によって符号化されたビットストリームのフォーマットの図である。 並列状態に配置された複数のMPEG−1(レイヤI、及びレイヤII)符号器に適用された本発明の有利な実施例の図である。 3GPP標準に適合する合成符号器によるNB−AMR分析器の機能ユニットを更に詳細に示す図である。
符号の説明
C0、C1、...CN 符号器
BS0、BS1、...BSN 符号化されたビットストリーム
BF1〜BFn 機能ユニット
C0〜CN 符号器
MM 最適モード選択モジュール
BFi 機能ユニット
MI 独立モジュール
BFicc 選択されたブロック
BFi1〜BFiN 機能ユニット
MSPi 部分的選択モジュール
21 機能ユニット(時間/周波数変換)
22 機能ユニット(知覚モデルの決定)
23 機能ユニット(量子化及び符号化)
24 機能ユニット(ビットストリームのフォーマット)
31 機能ユニット(LPC分析)
32 機能ユニット(適応励振辞書)
33 機能ユニット(固定励振辞書)
34 機能ユニット(合成フィルタ)
35 機能ユニット(エラーの最小化)
36 機能ユニット(CELP基準/知覚による加重基準)
41 機能ユニット(MDCT)
42 機能ユニット(マスキング曲線)
43 機能ユニット(スペクトル包絡線の符号化)
44 機能ユニット(動的なビット割り当て)
45 機能ユニット(係数のベクトル量子化)
46 機能ユニット(多重化)
47 機能ユニット(有声の検出)
48 機能ユニット(調性の検出)
有声に関する情報
調性に関する情報
(i) スペクトル包絡線
(j) 符号化されたMDCT係数
45_0 量子化0
45_1 機能ユニット(変換量子化1)
45_(K−2) 機能ユニット(変換量子化K−2)
45_(K−1) 機能ユニット(変換量子化K−1)
46_0,46_1,...,46_(K−2),46_(K−1) 機能ユニット(多重化)
61 機能ユニット(分析フィルタバンク)
62 機能ユニット(量子化)
63 機能ユニット(ビット割り当て)
64 機能ユニット(心理的音響モデル)
65 機能ユニット(高速フーリエ変換)
66 機能ユニット(多重化)
67 機能ユニット(倍率決定)
62_0 機能ユニット(量子化0)
62_(K−2) 機能ユニット(量子化K−2)
62_(K−1) 機能ユニット(量子化K−1)
66_0 機能ユニット(多重化)
66_(K−2) 機能ユニット(多重化)
66_(K−1) 機能ユニット(多重化)
70 機能ユニット(ビット割り当て)
81 機能ユニット(前処理)
82 機能ユニット(自己相関のウィンドウイング及び計算)
83 機能ユニット(“Levinson-Durbin”のアルゴリズム)
84 機能ユニット(“A(z)→LSP”変換)
85 機能ユニット(LSPのベクトル量子化)
861 機能ユニット(量子化LSP補間)
862 機能ユニット(LSP補間及び逆変換)
87 機能ユニット(加重入力信号の計算)
88 機能ユニット(開ループLTP遅延検索)
881 機能ユニット(閉ループLTP検索)
89 機能ユニット(インパルス応答の計算)
90 機能ユニット(適応励振に関する対象信号の計算)
91 機能ユニット(固定励振に関する対象信号の計算)



Claims (26)

  1. それぞれが一連の機能ユニットを備える複数の符号器に対して、入力信号が、各符号器による前記入力信号の圧縮符号化を目的として並列に供給される複合的圧縮符号化方法であって、
    前記方法が、
    a)各符号器を構成する機能ユニット、及び各機能ユニットにより実行される1つ以上の機能を特定する段階と、
    b)1つの符号器から別の符号器まで共通する機能を選出する段階と、
    c)共通の計算モジュール内の少なくともいくつかの符号器に関して、前記共通する機能を最終的に実行する段階という準備段階を含む
    ことを特徴とする複合的圧縮符号化方法。
  2. 前記計算モジュールが、前記符号器の内の1つにおける1つ以上の機能ユニットから構成される
    ことを特徴とする請求項1に記載の方法。
  3. 前記段階c)において実行される各機能のために、前記複数の符号器から選択される符号器の少なくとも1つの機能ユニットが使用されると共に、
    前記選択される符号器の機能ユニットが、複雑さと符号化品質との間で最高の基準を立証する他の符号器による効率的な符号化のために、部分的な結果を他の符号器に配信するように構成される
    ことを特徴とする請求項2に記載の方法。
  4. 前記符号器が、それぞれの異なるビットレートで動作する傾向があり、
    前記選択される符号器が、最も低いビットレートを有する符号器であると共に、
    前記段階c)において選択された符号器に特有のパラメータによる機能の実行後に得られた結果が、最も高いビットレートを有する符号器に至るまで、少なくともいくつかの他のモードに関する集中的なパラメータ検索によって、少なくともいくつかの他の符号器のビットレートに適合させられる
    ことを特徴とする請求項3に記載の方法。
  5. 前記符号器が、それぞれの異なるビットレートで動作するように構成され、
    前記選択される符号器が、最も高いビットレートを有する符号器であると共に、
    前記段階c)において選択された符号器に特有のパラメータによる機能の実行後に得られた結果が、最も高いビットレートを有する符号器に至るまで、少なくともいくつかの他のモードに関する集中的なパラメータ検索によって、少なくともいくつかの他の符号器のビットレートに適合させられる
    ことを特徴とする請求項3に記載の方法。
  6. 所定のビットレートで動作する符号器の機能ユニットが、そのビットレートのための計算モジュールとして使用されると共に、
    その符号器に特有の少なくともいくつかのパラメータが、集中的な検索によって最も高いビットレートを有する符号器に至るまで、そして集中的な検索によって最も低いビットレートを有する符号器に至るまで、次第に適合させられる
    ことを特徴とする、請求項5と結合された請求項4に記載の方法。
  7. 様々な符号器の機能ユニットが、格子内に存在し得る複数の経路を有する格子状に配置され、
    前記格子内の各経路が、前記機能ユニットの動作モードの組み合わせによって定義されると共に、
    各機能ユニットが、次の機能ユニットの存在し得る複数の変形に信号を供給する
    ことを特徴とする請求項1に記載の方法。
  8. 1つ以上の機能ユニットによって実行される各符号化段階の後に、部分的選択モジュールが提供されると共に、
    前記部分的選択モジュールが、次の符号化段階のために、それらの機能ユニットの1つ以上によって供給された結果を選択することが可能である
    ことを特徴とする請求項7に記載の方法。
  9. 前記機能ユニットが、前記ビットレートに特有のそれぞれのパラメータを使用して、それぞれの異なるビットレートで動作する傾向があり、
    所定の機能ユニットに関して、前記格子内で選択された経路は最も低いビットレートの機能ユニットを通過する経路であると共に、
    前記最も低いビットレートの機能ユニットから得られた結果が、最も高いビットレートを有する符号器に至るまで、少なくともいくつかの他の機能ユニットに関する集中的なパラメータ検索によって、少なくともいくつかの他の機能ユニットのビットレートに適合させられる
    ことを特徴とする請求項7に記載の方法。
  10. 前記機能ユニットが、前記ビットレートに特有のそれぞれのパラメータを使用して、それぞれの異なるビットレートで動作する傾向があり、
    所定の機能ユニットに関して、前記格子内で選択された経路は最も高いビットレートの機能ユニットを通過する経路であると共に、
    前記最も高いビットレートの機能ユニットから得られた結果が、最も低いビットレートを有する符号器に至るまで、少なくともいくつかの他の機能ユニットに関する集中的なパラメータ検索によって、少なくともいくつかの他の機能ユニットのビットレートに適合させられる
    ことを特徴とする請求項7に記載の方法。
  11. 前記符号器の機能ユニットのパラメータと関連付けられた所定のビットレートに関して、前記所定のビットレートで動作する機能ユニットが、計算モジュールとして使用されると共に、
    その機能ユニットに特有の少なくともいくつかのパラメータが、集中的な検索によって最も高いビットレートで動作することができる符号器に至るまで、そして集中的な検索によって最も低いビットレートで動作することができる符号器に至るまで、次第に適合させられる
    ことを特徴とする、請求項10と結合された請求項9に記載の方法。
  12. 前記計算モジュールが、前記符号器から独立していると共に、前記段階c)において得られた結果を全ての符号器に再分配するように構成される
    ことを特徴とする請求項1に記載の方法。
  13. 独立モジュールと、前記符号器の内の少なくとも1つにおける1つの機能ユニットまたは複数の機能ユニットとが、前記段階c)において得られた結果をお互いに交換するように構成されると共に、
    前記計算モジュールが、異なる符号器の機能ユニットの間の適応トランスコーディングを実行するように構成される
    ことを特徴とする、請求項2と結合された請求項12に記載の方法。
  14. 独立モジュールが、少なくとも部分的符号化機能ユニット、及び適応トランスコーディング機能ユニットを含む
    ことを特徴とする請求項12、または請求項13のいずれか一項に記載の方法。
  15. 並列の符号器が、マルチモード符号化を処理するように構成されると共に、
    前記符号器の内の1つを選択することが可能である後天的選択モジュールが提供される
    ことを特徴とする請求項1から請求項14のいずれか一項に記載の方法。
  16. 1つ以上の機能ユニットによって実行される各符号化段階の後に、前記符号器から独立していると共に、1つ以上の符号器を選択することが可能である部分的選択モジュールが供給される
    ことを特徴とする請求項15に記載の方法。
  17. 前記符号器が、変換タイプの符号器であり、
    前記計算モジュールが、全ての符号器の間で共有されたビット割り当て機能ユニットを備えると共に、
    特にそのビットレートの関数として1つの符号器に関して実行される各ビット割り当て処理の後に、その符号器に対する適応処理が続いている
    ことを特徴とする請求項1から請求項16のいずれか一項に記載の方法。
  18. その結果が全ての符号器に供給される量子化段階を更に含む、
    ことを特徴とする請求項17に記載の方法。
  19. 全ての符号器に共通の段階を更に含み、前記共通の段階が、
    ・時間−周波数(MDCT)変換段階と、
    ・入力信号における有声の検出段階と、
    ・調性の検出段階と、
    ・マスキング曲線の決定段階と、
    ・スペクトル包絡線の符号化段階と
    を含むことを特徴とする請求項18に記載の方法。
  20. 前記符号器がサブバンド(MPEG−1)符号化を実行すると共に、
    全ての符号器に共通の段階を更に含み、前記共通の段階が、
    ・分析フィルタのバンクの適用段階と、
    ・倍率の決定段階と、
    ・スペクトルの変換(FFT)計算段階と、
    ・心理的音響のモデルに基づくマスキングしきい値の決定段階と
    を含むことを特徴とする請求項17に記載の方法。
  21. 前記符号器が、合成(CELP)タイプによる分析の符号器であると共に、
    全ての符号器に共通の段階を更に含み、前記共通の段階が、
    ・前処理段階と、
    ・線形予測係数分析段階と、
    ・加重入力信号計算段階と、
    ・少なくともいくつかのパラメータに関する量子化段階と
    を含むことを特徴とする請求項1から請求項16のいずれか一項に記載の方法。
  22. 前記部分的選択モジュールが、短期(LPC)パラメータに関する分割ベクトル量子化段階の後で使用される
    ことを特徴とする、請求項16と結合された請求項21に記載の方法。
  23. 前記部分的選択モジュールが、共有された開ループの長期(LTP)パラメータ検索段階の後で使用される
    ことを特徴とする、請求項16と結合された請求項21に記載の方法。
  24. 特にコンピュータ、または移動端末機内のプロセッサユニットのメモリ内、もしくは前記プロセッサユニットの読み取り機と協同するように構成される取り外し可能なメモリ媒体内に記憶されるように構成されるソフトウェア製品であって、
    請求項1から請求項23のいずれか一項に記載のトランスコーディング方法を実行するための命令を備える
    ことを特徴とするソフトウェア製品。
  25. それぞれが一連の機能ユニットを備える複数の符号器に対して、入力信号が、各符号器による前記入力信号の圧縮符号化の目的のために並列に供給される複合的圧縮符号化を支援するためのシステムであって、
    請求項24に記載のソフトウェア製品の命令を記憶するように構成されるメモリを備える
    ことを特徴とするシステム。
  26. 請求項12から請求項16、そして請求項22及び請求項23のいずれか一項に記載の方法を実行するための独立計算モジュール(MI)を備える
    ことを特徴とする請求項25に記載のシステム。


JP2006543574A 2003-12-10 2004-11-24 最適化された複合的符号化方法 Expired - Fee Related JP4879748B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0314490A FR2867649A1 (fr) 2003-12-10 2003-12-10 Procede de codage multiple optimise
FR0314490 2003-12-10
PCT/FR2004/003009 WO2005066938A1 (fr) 2003-12-10 2004-11-24 Procede de codage multiple optimise

Publications (2)

Publication Number Publication Date
JP2007515677A true JP2007515677A (ja) 2007-06-14
JP4879748B2 JP4879748B2 (ja) 2012-02-22

Family

ID=34746281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006543574A Expired - Fee Related JP4879748B2 (ja) 2003-12-10 2004-11-24 最適化された複合的符号化方法

Country Status (12)

Country Link
US (1) US7792679B2 (ja)
EP (1) EP1692689B1 (ja)
JP (1) JP4879748B2 (ja)
KR (1) KR101175651B1 (ja)
CN (1) CN1890714B (ja)
AT (1) ATE442646T1 (ja)
DE (1) DE602004023115D1 (ja)
ES (1) ES2333020T3 (ja)
FR (1) FR2867649A1 (ja)
PL (1) PL1692689T3 (ja)
WO (1) WO2005066938A1 (ja)
ZA (1) ZA200604623B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014123865A (ja) * 2012-12-21 2014-07-03 Xacti Corp 画像処理装置及び撮像装置
JP2014206747A (ja) * 2009-04-28 2014-10-30 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ダウンミックス信号表現に基づいたアップミックス信号表現の供給のための一つ以上の調整されたパラメータを供給するための装置、オブジェクト関連のパラメトリック情報を用いたオーディオ信号デコーダ、オーディオ信号トランスコーダ、オーディオ信号エンコーダ、オーディオビットストリーム、方法およびコンピュータ・プログラム

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
EP2089882A4 (en) 2006-10-19 2010-12-08 Lg Electronics Inc Coding method and apparatus and decoding method and apparatus
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
KR101403340B1 (ko) * 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치
CN102089810B (zh) * 2008-07-10 2013-05-08 沃伊斯亚吉公司 多基准线性预测系数滤波器量化和逆量化设备及方法
FR2936898A1 (fr) * 2008-10-08 2010-04-09 France Telecom Codage a echantillonnage critique avec codeur predictif
US9947340B2 (en) 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
GB0822537D0 (en) 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
KR101747917B1 (ko) 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
CN102394658A (zh) * 2011-10-16 2012-03-28 西南科技大学 一种面向机械振动信号的复合压缩方法
US9386267B1 (en) * 2012-02-14 2016-07-05 Arris Enterprises, Inc. Cooperative transcoding to multiple streams
US9549178B2 (en) 2012-12-26 2017-01-17 Verizon Patent And Licensing Inc. Segmenting and transcoding of video and/or audio data
WO2015012514A1 (ko) * 2013-07-26 2015-01-29 경희대학교 산학협력단 서로 다른 다계층 비디오 코덱의 통합 부호화/복호화 방법 및 장치
KR101595397B1 (ko) * 2013-07-26 2016-02-29 경희대학교 산학협력단 서로 다른 다계층 비디오 코덱의 통합 부호화/복호화 방법 및 장치
CN104572751A (zh) * 2013-10-24 2015-04-29 携程计算机技术(上海)有限公司 呼叫中心录音文件的压缩存储方法及系统
SE538512C2 (sv) 2014-11-26 2016-08-30 Kelicomp Ab Improved compression and encryption of a file
SE544304C2 (en) * 2015-04-17 2022-03-29 URAEUS Communication Systems AB Improved compression and encryption of a file
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10872596B2 (en) 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US11587548B2 (en) * 2020-06-12 2023-02-21 Baidu Usa Llc Text-driven video synthesis with phonetic dictionary
US11514634B2 (en) 2020-06-12 2022-11-29 Baidu Usa Llc Personalized speech-to-video with three-dimensional (3D) skeleton regularization and expressive body poses

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07170194A (ja) * 1993-12-16 1995-07-04 Sharp Corp データ符号化装置
JPH1130997A (ja) * 1997-07-11 1999-02-02 Nec Corp 音声符号化復号装置
JP2000165864A (ja) * 1998-09-09 2000-06-16 Nippon Telegr & Teleph Corp <Ntt> 画質調整方法及びその方法を使用した映像通信装置及びその方法を記録した記録媒体
JP2000287213A (ja) * 1999-03-31 2000-10-13 Victor Co Of Japan Ltd 動画像符号化装置
US6141638A (en) * 1998-05-28 2000-10-31 Motorola, Inc. Method and apparatus for coding an information signal
JP2001202097A (ja) * 1999-12-08 2001-07-27 Fr Telecom 符号化二進オーディオ処理方法
WO2002033697A2 (en) * 2000-10-18 2002-04-25 Nokia Corporation Apparatus for bandwidth expansion of a speech signal
US6526140B1 (en) * 1999-11-03 2003-02-25 Tellabs Operations, Inc. Consolidated voice activity detection and noise estimation
JP2003513296A (ja) * 1999-09-22 2003-04-08 コネクサント システムズ, インコーポレイテッド マルチモードの音声符号器
JP2003195893A (ja) * 2001-12-26 2003-07-09 Toshiba Corp 音声再生装置及び音声再生方法
JP2004509366A (ja) * 2000-09-15 2004-03-25 テレフオンアクチーボラゲツト エル エム エリクソン 複数チャネル信号の符号化及び復号化
JP2004208280A (ja) * 2002-12-09 2004-07-22 Hitachi Ltd 符号化装置および符号化方法

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0398318A (ja) * 1989-09-11 1991-04-23 Fujitsu Ltd 音声符号化方式
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5987506A (en) * 1996-11-22 1999-11-16 Mangosoft Corporation Remote access and geographically distributed computers in a globally addressable storage environment
US6249758B1 (en) * 1998-06-30 2001-06-19 Nortel Networks Limited Apparatus and method for coding speech signals by making use of voice/unvoiced characteristics of the speech signals
US6173257B1 (en) * 1998-08-24 2001-01-09 Conexant Systems, Inc Completed fixed codebook for speech encoder
US6192335B1 (en) * 1998-09-01 2001-02-20 Telefonaktieboiaget Lm Ericsson (Publ) Adaptive combining of multi-mode coding for voiced speech and noise-like signals
SE521225C2 (sv) * 1998-09-16 2003-10-14 Ericsson Telefon Ab L M Förfarande och anordning för CELP-kodning/avkodning
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6260009B1 (en) * 1999-02-12 2001-07-10 Qualcomm Incorporated CELP-based to CELP-based vocoder packet translation
US6640209B1 (en) * 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
DE19911179C1 (de) * 1999-03-12 2000-11-02 Deutsche Telekom Mobil Verfahren zur Adaption der Betriebsart eines Multi-Mode-Codecs an sich verändernde Funkbedingungen in einem CDMA-Mobilfunknetz
US6532593B1 (en) * 1999-08-17 2003-03-11 General Instrument Corporation Transcoding for consumer set-top storage application
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
US6581032B1 (en) * 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals
JP3549788B2 (ja) * 1999-11-05 2004-08-04 三菱電機株式会社 多段符号化方法、多段復号方法、多段符号化装置、多段復号装置およびこれらを用いた情報伝送システム
US7167828B2 (en) * 2000-01-11 2007-01-23 Matsushita Electric Industrial Co., Ltd. Multimode speech coding apparatus and decoding apparatus
SE519976C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
JP2002202799A (ja) * 2000-10-30 2002-07-19 Fujitsu Ltd 音声符号変換装置
EP2627008A3 (en) * 2000-12-29 2013-09-11 Intel Mobile Communications GmbH Channel codec processor configurable for multiple wireless communications standards
US6614370B2 (en) * 2001-01-26 2003-09-02 Oded Gottesman Redundant compression techniques for transmitting data over degraded communication links and/or storing data on media subject to degradation
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
EP1292036B1 (en) * 2001-08-23 2012-08-01 Nippon Telegraph And Telephone Corporation Digital signal decoding methods and apparatuses
JP2003125406A (ja) * 2001-09-25 2003-04-25 Hewlett Packard Co <Hp> 有向性非周期グラフに基づくビデオ符号化のモード選択最適化方法およびシステム
US7095343B2 (en) * 2001-10-09 2006-08-22 Trustees Of Princeton University code compression algorithms and architectures for embedded systems
US6829579B2 (en) * 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes
US7254533B1 (en) * 2002-10-17 2007-08-07 Dilithium Networks Pty Ltd. Method and apparatus for a thin CELP voice codec
US7133521B2 (en) * 2002-10-25 2006-11-07 Dilithium Networks Pty Ltd. Method and apparatus for DTMF detection and voice mixing in the CELP parameter domain
US7023880B2 (en) * 2002-10-28 2006-04-04 Qualcomm Incorporated Re-formatting variable-rate vocoder frames for inter-system transmissions
EP1579427A4 (en) * 2003-01-09 2007-05-16 Dilithium Networks Pty Ltd METHOD AND APPARATUS FOR IMPROVING THE QUALITY OF VOICE TRANSCODING
KR100554164B1 (ko) * 2003-07-11 2006-02-22 학교법인연세대학교 서로 다른 celp 방식의 음성 코덱 간의 상호부호화장치 및 그 방법
US7469209B2 (en) * 2003-08-14 2008-12-23 Dilithium Networks Pty Ltd. Method and apparatus for frame classification and rate determination in voice transcoders for telecommunications
US7305055B1 (en) * 2003-08-18 2007-12-04 Qualcomm Incorporated Search-efficient MIMO trellis decoder
US7433815B2 (en) * 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
US7170988B2 (en) * 2003-10-27 2007-01-30 Motorola, Inc. Method and apparatus for network communication
FR2867648A1 (fr) * 2003-12-10 2005-09-16 France Telecom Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques
US20050258983A1 (en) * 2004-05-11 2005-11-24 Dilithium Holdings Pty Ltd. (An Australian Corporation) Method and apparatus for voice trans-rating in multi-rate voice coders for telecommunications

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07170194A (ja) * 1993-12-16 1995-07-04 Sharp Corp データ符号化装置
JPH1130997A (ja) * 1997-07-11 1999-02-02 Nec Corp 音声符号化復号装置
US6141638A (en) * 1998-05-28 2000-10-31 Motorola, Inc. Method and apparatus for coding an information signal
JP2000165864A (ja) * 1998-09-09 2000-06-16 Nippon Telegr & Teleph Corp <Ntt> 画質調整方法及びその方法を使用した映像通信装置及びその方法を記録した記録媒体
JP2000287213A (ja) * 1999-03-31 2000-10-13 Victor Co Of Japan Ltd 動画像符号化装置
JP2003513296A (ja) * 1999-09-22 2003-04-08 コネクサント システムズ, インコーポレイテッド マルチモードの音声符号器
US6526140B1 (en) * 1999-11-03 2003-02-25 Tellabs Operations, Inc. Consolidated voice activity detection and noise estimation
JP2001202097A (ja) * 1999-12-08 2001-07-27 Fr Telecom 符号化二進オーディオ処理方法
JP2004509366A (ja) * 2000-09-15 2004-03-25 テレフオンアクチーボラゲツト エル エム エリクソン 複数チャネル信号の符号化及び復号化
WO2002033697A2 (en) * 2000-10-18 2002-04-25 Nokia Corporation Apparatus for bandwidth expansion of a speech signal
JP2003195893A (ja) * 2001-12-26 2003-07-09 Toshiba Corp 音声再生装置及び音声再生方法
JP2004208280A (ja) * 2002-12-09 2004-07-22 Hitachi Ltd 符号化装置および符号化方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014206747A (ja) * 2009-04-28 2014-10-30 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ダウンミックス信号表現に基づいたアップミックス信号表現の供給のための一つ以上の調整されたパラメータを供給するための装置、オブジェクト関連のパラメトリック情報を用いたオーディオ信号デコーダ、オーディオ信号トランスコーダ、オーディオ信号エンコーダ、オーディオビットストリーム、方法およびコンピュータ・プログラム
JP2014123865A (ja) * 2012-12-21 2014-07-03 Xacti Corp 画像処理装置及び撮像装置

Also Published As

Publication number Publication date
PL1692689T3 (pl) 2010-02-26
CN1890714B (zh) 2010-12-29
US7792679B2 (en) 2010-09-07
ATE442646T1 (de) 2009-09-15
FR2867649A1 (fr) 2005-09-16
KR20060131782A (ko) 2006-12-20
DE602004023115D1 (de) 2009-10-22
CN1890714A (zh) 2007-01-03
JP4879748B2 (ja) 2012-02-22
ES2333020T3 (es) 2010-02-16
EP1692689B1 (fr) 2009-09-09
ZA200604623B (en) 2007-11-28
US20070150271A1 (en) 2007-06-28
EP1692689A1 (fr) 2006-08-23
KR101175651B1 (ko) 2012-08-21
WO2005066938A1 (fr) 2005-07-21

Similar Documents

Publication Publication Date Title
JP4879748B2 (ja) 最適化された複合的符号化方法
EP2255358B1 (en) Scalable speech and audio encoding using combinatorial encoding of mdct spectrum
KR101139172B1 (ko) 스케일러블 음성 및 오디오 코덱들에서 양자화된 mdct 스펙트럼에 대한 코드북 인덱스들의 인코딩/디코딩을 위한 기술
RU2485606C2 (ru) Схема кодирования/декодирования аудио сигналов с низким битрейтом с применением каскадных переключений
US7876966B2 (en) Switching between coding schemes
RU2326450C2 (ru) Способ и устройство для векторного квантования с надежным предсказанием параметров линейного предсказания в кодировании речи с переменной битовой скоростью
JP3134817B2 (ja) 音声符号化復号装置
US6385576B2 (en) Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
KR20020077389A (ko) 광대역 신호의 코딩을 위한 대수적 코드북에서의 펄스위치 및 부호의 인덱싱
KR20080101873A (ko) 부호화/복호화 장치 및 방법
KR20080011216A (ko) 오디오 코덱 포스트 필터의 컴퓨터 구현 방법
JP5629319B2 (ja) スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法
US6768978B2 (en) Speech coding/decoding method and apparatus
JP2000132194A (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP2000132193A (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4578145B2 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
JPH09244698A (ja) 音声符号/復号化方式及び装置
Mikhael et al. A new linear predictor employing vector quantization in nonorthogonal domains for high quality speech coding
KR19980036961A (ko) 음성 부호화 및 복호화 장치와 그 방법
KR20080034817A (ko) 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110111

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110413

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111101

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111130

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees