JP2014502366A - 低ビットレート信号コーダおよびデコーダ - Google Patents

低ビットレート信号コーダおよびデコーダ Download PDF

Info

Publication number
JP2014502366A
JP2014502366A JP2013536900A JP2013536900A JP2014502366A JP 2014502366 A JP2014502366 A JP 2014502366A JP 2013536900 A JP2013536900 A JP 2013536900A JP 2013536900 A JP2013536900 A JP 2013536900A JP 2014502366 A JP2014502366 A JP 2014502366A
Authority
JP
Japan
Prior art keywords
model
data
parameters
frame
complete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013536900A
Other languages
English (en)
Other versions
JP5815723B2 (ja
JP2014502366A5 (ja
Inventor
イェン,アントン
ゴロドニツキ,イリナ
Original Assignee
イェン,アントン
ゴロドニツキ,イリナ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イェン,アントン, ゴロドニツキ,イリナ filed Critical イェン,アントン
Publication of JP2014502366A publication Critical patent/JP2014502366A/ja
Publication of JP2014502366A5 publication Critical patent/JP2014502366A5/ja
Application granted granted Critical
Publication of JP5815723B2 publication Critical patent/JP5815723B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

改善された混合型発振器−外部励起モデル、ならびに、モデルパラメータを推定するための、モデル品質を評価するための、および当技術分野で知られている方法をと組み合わせるための方法を開示する。既存の発振器に優る改善により、モデルが、入力として、収集されたデータ中の最も最近の点を除くすべてを受信することができるようになる。モデル安定性は、最適なモデルパラメータからデコーダにとって利用不可能なデータ復元することを含むプロセスによって、および安定した復元モデル出力を選択するための指標を使用することによって達成される。本発明は、デジタル化された音声、オーディオおよび画像データを含むデジタル信号の超低ビットレートコーディング/圧縮および復号化/復元のために、ならびに、信号の分析、検出および分類に対して効果的である。リアルタイムで動作を実行することができ、ユーザ指定の圧縮レベルでパラメータ化を達成することができる。
【選択図】図1

Description

関連出願の相互参照
本PCT特許出願は、2010年10月29日付けで出願され、「Very Low Bit Rate Signal Coder and Decoder」と題する米国特許出願第12/915,989号の優先権の利益を主張する。この関連する特許出願の内容は、その主題が本明細書と矛盾しない、または本明細書を制限していない限り、参照により本明細書に組み込まれる。
シーケンスリスト、表、またはコンピュータリスト付録の参照
適用なし
著作権情報
この特許書類の開示の一部分は、著作権の保護を受けている資料を含む。この著作権の保有者は、この特許文書または特許開示のいずれかによるファクシミリ複製に対して、それが特許商標庁の特許ファイルまたは記録内に見られるとき、異議がないが、そうでなければ、著作権のすべての権利を留保する。
本発明の1つまたは複数の実施形態は、一般に、信号モデル化およびデータモデル化、圧縮/復元(可逆および非可逆)、コーディング/復号化、ならびに検出および分類のような分析の分野に関する。より詳細には、本発明の1つまたは複数の実施形態は、励起モデルと、励起モデルに基づいて新しい信号モデルを取得するためのシステムとに関する。
以下の背景情報は、従来技術の特定の態様の例(限定はしないが、たとえば、手法、事実または共通の知識)を提示し得、それらは、従来技術の追加の態様に関して読者をさらに教育するために役立つことが予想されるが、本発明または本発明の任意の実施形態を、本明細書に記載または暗示される、あるいは本明細書に基づいて推測されるあらゆる態様に限定するものと解釈すべきではない。
以下は、従来技術における特定の態様の一例であり、それは、従来技術の追加の態様に関して読者をさらに教育するために役立つことが予想されるが、本発明または本発明の任意の実施形態を、本明細書に記載または暗示される、あるいは本明細書に基づいて推測されるあらゆる態様に限定するものと解釈すべきではない。教育的バックグラウンドとして、認識するために一般的に有用な従来技術の一態様は、信号分析および信号モデル化における1つの目的が可能な限り少数のパラメータを用いて可能な限り効率的に情報を表すことである。たとえば、これは、信号検出および信号分類において有用である。圧縮と呼ばれることもある信号コーディングは、記憶または通信される、典型的にはビットで表されるパラメータの数を最小限に抑え、それにより、情報を記憶し、配信し、送信する効率を高めるという同様の目的を有する。ソースシーケンスをモデルパラメータのセット(すなわち1セットのモデルパラメータ)に変換するプロセスは符号化と呼ばれ、復元するプロセスは、復号化と呼ばれる。したがって、信号モデル化または信号コーディングのいずれかに、同じ方法を適用することができる。しかしながら、コーダは、第2のプロセス、そのコード化パラメータから信号を再構成するデコーダと組み合わせて使用されると仮定される。それゆえに、方法論的に見ると、コーディングは、そのプロセスの一部としてモデル化を包含する技法として見なすことができる。
一般に符号化では、入力信号は、フレーム、セクションまたはイベントとしばしば呼ばれるインターバルに分割される。各フレームをウィンドウ化および/またはフィルタ処理、場合によっては他の動作によって変換して、ウィンドウ化された/フィルタ処理された/変換されたフレームを取得することができる。標準的な発振器モデルは、現在のデータフレームを、遅延またはポインタとそれらに関連する重み係数とで構成されるパラメータの小さいセットに変換する。ポインタは、以前の収集されたデータフレームの復元されたバージョンを含むバッファ中の固定長ブロックを参照する。フレームの復元は、そのモデルパラメータが推定されると行われ、復元されたフレームはメモリ中に保存され、入力シーケンスの復元されたバージョンを表す履歴データのシーケンスが生成される。これらの履歴データのブロックは、それらの重み付け和が現在のデータフレームに「ベストマッチ」を提供するように選定され、ここで、「ベストマッチ」とは、多くの典型的な適用例において、現在のフレームとそのモデルとの間の平均2乗誤差を最小限に抑えるものと定義され得る。このようにして、入力信号は、マッチデータブロックの重みに関連するマッチロケーションおよび乗算係数を示す整数アドレスコードのセットによって交換される。
以下は、従来技術における特定の態様の一例であり、それは、従来技術の追加の態様に関して読者をさらに教育するために役立つことが予想されるが、本発明または本発明の任意の実施形態を、本明細書に記載または暗示される、あるいは本明細書に基づいて推測されるあらゆる態様に限定するものと解釈すべきではない。教育的バックグラウンドとして、認識するために一般的に有用な従来技術の別の態様は、現在のフレーム中のデータがそのフレームについてのモデルパラメータを導出することに関与しないという点で、自励モデル、たとえば、自励ボコーダ(SEV)とも呼ばれる古典的な発振器の1つの限定は、それらがデータの予めモデル化されたフレームとモデル化されている現在のフレームとの間になる描写である。この手法は、少なくとも1つのフレーム長を超える時間スケール上で再生成するモデル化ソースパターンについてうまく動作する。したがって、従来の発振器は、データ中の長いスケール構造をモデル化するための方法であると見なすことができる。
以下は、従来技術における特定の態様の一例であり、それは、従来技術の追加の態様に関して読者をさらに教育するために役立つことが予想されるが、本発明または本発明の任意の実施形態を、本明細書に記載または暗示される、あるいは本明細書に基づいて推測されるあらゆる態様に限定するものと解釈すべきではない。教育的バックグラウンドとして、認識するために一般的に有用な従来技術の別態様は、典型的な最新のコーダが、ソースパターン中の異なるスケールを符号化するために複数のモデルを採用することができるということである。たとえば、モバイル電気通信において使用されるコーデックの適応型マルチレート(AMR:Adaptive Multi−Rate)ファミリーは、一般に、3つのモデルを組み合わせて、すなわち、第1に短いスケールパターンをモデル化するための線形予測子(LP)を、続いて、中程度〜長いスケール構造を符号化することができる改善されたSEV様のモデルである「適応型コードブック」(AC:adaptive codebook)を、最後に、初めの2つのモデルが適用された後に残る残差を符号化する第3のモデルを利用する。AMRにおけるACモデルは、現在の入力フレームからのデータのいくつかの限定されたセクションを、そのデータをモデル化するために使用することができるようにすることによって、従来のSEVを改善する。これにより、ACを用いてモデル化することができる構造の範囲が、中程度〜長いスケール構造に拡張することができる。しかしながら、この改善では、依然として、すべてのソーススケールのモデル化が可能になるわけではなく、それゆえ、AMRにおけるACより前にLPが使用される。
現在の技術において信号をモデル化するときに、データを異なるスケールまたは成分に分離し、それらのコンポーネントを個々にモデル化することが一般的である。周波数帯域、ウェーブレットまたは他のタイプの波形に入力を分割することができ、それにより、これらの成分を別々にコーディングし、各フレームについての複数のパラメータのセットを生成することができる。再び音声コーディングを参照すると、これの別の例は、各帯域の有声/無声特性に基づいて入力信号を周波数帯域に分け、個々の帯域を別々に符号化するマルチバンド励起と呼ばれるコーダのファミリー(MBE、IMBEおよびAMBE)である。
複数のモデルまたは成分の形態で単一のフレームをコーディングすることは、典型的には各々に固定コーディングバジェットが割り当てられた、コーディングパラメータの対応する複数のセットによって、フレームが表されることを意味する。比較可能なモデル化品質を、より小さい単一のパラメータのセットを用いて達成することができる場合には、複数のパラメータのセットを用いて信号を符号化することは効率的ではないことがある。情報を抽出するためにパラメータの小さいセットで効率的に信号を表し、送信レートを最大にし、記憶システム中のメモリを最小限に抑えるためのニーズは、より効率的なコーディング技術のあらゆる開発に動機を与える。
上記に鑑みると、これらの従来の技法は完全ではなく、より最適な手法の余地が残っていることは明らかである。
本発明は、同様の参照番号が類似の要素を指す添付の図面の各図に、例として示されるが、限定として示されるものではない。
本発明の一実施形態による、COMPLETEベースの分析/コーディングシステムの3つの基本的な構成要素を示す例示的なブロック図である。
COMPLETEモデル()のパラメータを推定するための必須の分析構成要素の例示的なブロック図であり、コード生成モジュール170の基本ブロックがより詳細に示されている。
本発明の一実施形態による、受信したCOMPLETEパラメータから信号を復元するCOMPLETEシンセサイザ/デコーダの例示的なブロック図である。
本発明の一実施形態による、一般的なマルチモードCOMPLETE/KAMシステムの構成要素を示す例示的なブロック図である。
本発明の一実施形態による、マルチモードCOMPLETE/PACT実装を利用する音声分析(符号化)システムの一例を示す例示的なブロック図である。
適切に構成または設計されたときに、本発明を実施することができるコンピュータシステムとして機能することができる典型的なコンピュータシステムを示す図である。
特に示されていない限り、各図における図解は、必ずしも一定の縮尺で描かれているわけではない。
本発明の実施形態は、詳細な図および本明細書に記載される説明を参照すると、最もよく理解される。
各図を参照して、本発明の実施形態について以下に説明する。ただし、本発明は、これらの限定された実施形態には限定されないので、当業者には、これらの各図に関して本明細書に提供される詳細な記載は説明を目的とするものであることが容易に理解されるであろう。たとえば、本発明の教示に照らすと、特定の適用例のニーズに応じて、以下に説明し、図示される実施形態における特定の実装の選定に含まれない、本明細書に記載される任意の所与の詳細の機能を実装するための多数の代替物および好適な手法が、当業者には認識されるであろうことを理解されたい。すなわち、多すぎて列挙できないが、すべてが本発明の範囲にあてはまる本発明の多数の修正形態および変形形態が存在する。また、適切な場合には、単数形の単語は、複数形として解釈すべきであり、その逆も同様であり、男性詞は女性詞として解釈すべきであり、その逆も同様であり、代替実施形態は、両者が相いれないものであることを必ずしも示唆するものではない。
さらに、本明細書に記載される特定の方法、化合物、材料、製造技法、使用法およびに適用例は変動し得るので、本発明はこれらには限定されないことを理解されたい。また、本明細書で使用する用語は、特定の実施形態について説明することのみを目的として使用され、本発明の範囲を限定することを目的とするものではないことを理解されたい。本出願明細書で使用するとき、また、添付の特許請求の範囲では、単数形「a」、「an」および「the」は、文脈中に別段の記載が明記されていない限り、複数形を含む。したがって、たとえば、「1つの要素(an element)」という記載は、1つまたは複数の要素を指し、当業者に知られている当該要素の等価物を含む。同様に、別の例では、「1つのステップ(a step)」または「1つの手段(a means)」という記載は、1つまたは複数のステップまたは手段を指し、サブステップおよび従属する手段を含み得る。使用されるすべての論理積は、可能な最も多くの包含的な意味で理解されるべきであり。したがって、単語「または」は、文脈中に別段の記載が明記されていない限り、論理「排他的論理和」の定義ではなく、論理「論理和」の定義を有するものとして理解すべきである。また、本明細書に記載する構造は、そのような構造の機能的等価物を指すように理解されたい。近似を表すと解釈され得る言語は、文脈中に別段の記載が明記されていない限り、そのように理解すべきである。
別段の規定がない限り、本明細書で使用するすべての技術用語および科学用語は、本発明が属する分野の通常の知識を有する者によって通常理解される意味と同じ意味を有する。本発明の実施または試験において、本明細書に記載するものに類似する、またはそれらと等価の任意の方法、技法、デバイスまたは材料を使用することができるが、好適な方法、技法、デバイスおよび材料について説明する。また、本明細書に説明する構造は、そのような構造の機能的等価物を指すものと理解されたい。次に、本発明について、添付の図面に示すような実施形態を参照して詳細に説明する。
本開示を読むことにより、他の変形形態および修正形態が当業者には明らかになるであろう。そのような変形態様および修正態様は、従来技術においてすでに知られている、あるいは本明細書に既に記載された特徴の代わりに、またはそれに加えて、使用されることができる等価な特徴および他の特徴を含むことができる。
本出願では、特徴の特定の組合せに特許請求の範囲を策定するが、本発明の開示の範囲はまた、任意の請求項で現在特許請求するものと同じ発明に関するか否か、本発明が緩和するものと同じように技術的問題のうちのいずれかまたはすべてを緩和するか否かにかかわらず、明示的にまたは暗黙的に本明細書に開示された特徴の任意の新規の特徴または任意の新規の組合せ、あるいはその任意の概念を含むことを理解されたい。
また、別個の実施形態のコンテキストにおいて説明する特徴は、単一の実施形態を組み合わせて提供される。逆に、単一の実施形態のコンテキストで説明される様々な特徴はまた、簡潔のために、別々に、あるいは任意の好適なサブコンビネーションで提供することができる。出願人は、ここで、本出願または本出願から派生する任意のさらなる出願の新しい請求項は、審査過程中に、そのような特徴および/またはそのような特徴の組合せを策定し得ることに言及する。
「1つの実施形態」、「一実施形態」、「例示的な実施形態」、「様々な実施形態」などという記載は、そのように記載される本発明の(1つまたは複数の)実施形態は特定の特徴、構造または特性を含み得るが、あらゆる実施形態は特定の特徴、構造または特性を必ずしも含むとは限らないことを示し得る。さらに、繰り返して使用される「1つの実施形態では」、または、「例示的な実施形態では」という語句は、同じ実施形態を指すこともあるが、必ずしも同じ実施形態を指すとは限らない。
当業者にはよく知られているように、市販の実装任意のシステム、詳細には、本発明の実施形態の最適な製造のために設計するときには、一般に、多くの慎重な考慮および妥協を行われなければならない。特定の適用例のニーズにしたがって、本発明の趣旨および教示による市販の実装を構成することができ、それにより、特定の適用例のニーズに対処する所望の実装を達成するために、当業者によって、当業者の平均的な技能および既知の教示を使用して、任意の記載した本発明の実施形態に関する教示の任意の(1つまたは複数の)態様、(1つまたは複数の)特徴、(1つまたは複数の)機能、(1つまたは複数の)結果、(1つまたは複数の)構成要素、(1つまたは複数の)手法または(1つまたは複数の)ステップを、好適に、省略する、含む、適合する、混合する、一致することができ、あるいは、改善および/または最適することができる。
「コンピュータ」とは、構造化された入力を受け付け、規定されたルールにしたがって構造化された入力を処理し、処理の結果を出力として生成することが可能な1つまたは複数の装置および/または1つまたは複数のシステムを指し得る。コンピュータの例には、コンピュータ;定置型コンピュータおよび/またはポータブルコンピュータ;並列および/または非並列に動作することができる単一のプロセッサ、複数のプロセッサまたはマルチコアプロセッサを有するコンピュータ;汎用コンピュータ;スーパーコンピュータ;メインフレーム;超ミニコンピュータ;ミニコンピュータ;ワークステーション;マイクロコンピュータ;サーバ;クライアント;対話型テレビジョン;ウェブ器具;インターネットアクセスを備える電気通信デバイス;コンピュータおよびインタラクティブテレビジョンのハイブリッド組合せ;ポータブルコンピュータ;タブレットパーソナルコンピュータ(PC);携帯情報端末(PDA);ポータブル電話;たとえば、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け命令セットプロセッサ(ASIP)、1つのチップ、複数のチップ、システムオンチップまたはチップセットなど、コンピュータおよび/またはソフトウェアをエミュレートする特定用途向けハードウェア;データ収集デバイス;光コンピュータ;量子コンピュータ;生物学的なコンピュータ;ならびに、一般に、データを受け付け、1つまたは複数の記憶されたソフトウェアプログラムにしたがってデータを処理し、結果を生成することができ、典型的には、入力ユニット、出力ユニット、記憶ユニット、演算ユニット、論理ユニットおよび制御ユニットを含み得る装置が含まれ得る。
「ソフトウェア」とは、コンピュータを動作させるための規定されたルールを指し得る。ソフトウェアの例には、1つまたは複数のコンピュータ可読言語におけるコードセグメント;グラフィカルおよび/またはテキスト命令;アプレット;プリコンパイルされたコード;解釈されたコード;コンパイルされたコード;およびコンピュータプログラムが含まれ得る。
「コンピュータ可読媒体」とは、コンピュータがアクセス可能なデータを記憶するために使用される任意の記憶デバイスを指し得る。コンピュータ可読媒体の例には、磁気ハードディスク;フロッピー(登録商標)ディスク;CD−ROMおよびDVDなどの光ディスク;磁気テープ;フラッシュメモリ;メモリチップ;ならびに/あるいはその上に機械可読命令を記憶することができる他のタイプの媒体が含まれ得る。
「コンピュータシステム」とは、各コンピュータが、コンピュータまたはその構成要素のうちの1つまたは複数を動作させるためのソフトウェアを実施するコンピュータ可読媒体を含み得る1つまたは複数のコンピュータを有するシステムを指し得る。コンピュータシステムの例には、ネットワークによってリンクされるコンピュータシステムを介して情報処理するための分散型コンピュータシステム;コンピュータシステムの間で情報を送受信するために、ネットワークを介して1つに接続された2つ以上のコンピュータシステム;単一のコンピュータ内に2つ以上のプロセッサを含むコンピュータシステム;ならびにデータを受け付け、1つまたは複数の記憶されたソフトウェアプログラムにしたがってデータを処理し、結果を生成し、典型的には入力ユニット、出力ユニット、記憶ユニット、演算ユニット、論理ユニットおよび制御ユニットを含み得る1つまたは複数の装置および/または1つまたは複数のシステムが含まれ得る。
「ネットワーク」は、通信機能によって接続され得る複数のコンピュータおよび関連するデバイスを指し得る。ネットワークは、ケーブルのような永続的接続、あるいは電話または他の通信リンクを通じて行われるような一時的接続を含み得る。ネットワークは、ハードワイヤード接続(たとえば、同軸ケーブル、ツイストペア、光ファイバー、導波路など)、および/またはワイヤレス接続(たとえば、無線周波波形、自由空間光波形、音響波形など)をさらに含み得る。ネットワークの例には、Internetなどのインターネット;イントラネット;ローカルエリアネットワーク(LAN);ワイドエリアネットワーク(WAN);ならびにインターネットおよびイントラネットなどのネットワークの組合せが含まれ得る。
例示的なネットワークは、インターネットプロトコル(IP)、非同期転送モード(ATM)、および/または同期光ネットワーク(SONET)、ユーザデータグラムプロトコル(UDP)、IEEE 802.xなどのような複数のプロトコルのうちのいずれかを用いて動作することができる。
本発明の実施形態は、本明細書に開示する動作を実行するため装置を含むことができる。装置は、所望の目的のために特別に構築してもよく、あるいは、デバイスに記憶されたプログラムによって選択的にアクティブ化または再構成される汎用デバイスを備えてもよい。
また、本発明の実施形態は、ハードウェア、ファームウェア、およびソフトウェアのうちの1つ、またはそれらの組合せにおいて実装され得る。本発明の実施形態は、機械可読媒体に記憶された命令として実装してもよく、当該命令は、本明細書に記載する動作を実行するためにコンピューティングプラットフォームによって読み取り、実行することができる。
以下の説明および特許請求の範囲において、「コンピュータプログラム媒体」および「コンピュータ可読媒体」という用語は、一般に、取外し可能な記憶ドライブ、ハードディスクドライブ中にインストールされたハードディスクなどのような媒体を指すために使用され得る。これらのコンピュータプログラム製品は、コンピュータシステムにソフトウェアを提供することができる。本発明の実施形態は、そのようなコンピュータプログラム製品を対象とすることができる。
本明細書では、全般的に、アルゴリズムは、所望の結果につながる行為または動作の自己矛盾のないシーケンスであると見なされる。これらは、物理量の物理的操作を含む。通常、これらの量は、記憶される、転送される、組み合わせられる、比較される、また場合によっては操作されることが可能な電気信号または磁気信号の形態をとるが、必ずしもそのような形態をとるわけではない。主に一般的な用法という理由で、これらの信号を、ビット、値、エレメント、シンボル、キャラクタ、ターム、ナンバーなどを呼ぶことが好都合である場合があるということが分かった。ただし、これらの用語および同様の用語のすべては、適切な物理量に関連すべきであり、これらの量に適用された好都合なラベルにすぎないということを理解されたい。
別段に明記されていない限り、以下の説明および特許請求の範囲から明らかであるように、明細書記載全体にわたって、「計算すること」、「算出すること」、「判断すること」などのような用語を利用して、コンピューティングシステムのレジスタおよび/またはメモリ内の電子量のような物理量として表されるデータを操作する、ならびに/あるいはそのようなデータをコンピューティングシステムのメモリ、レジスタ、あるいは他のそのような情報記憶デバイス、トランスミッションデバイスまたはディスプレイデバイス内の物理量として同様に表される他のデータには変換する、コンピュータまたはコンピューティングシステム、あるいは同様の電子コンピューティングデバイスの行為および/またはプロセスを指すことを理解されたい。同様に、「プロセッサ」という用語は、レジスタおよび/またはメモリからの電子データを処理して、その電子データをレジスタおよび/またはメモリに記憶され得る他の電子データに変換するための任意のデバイスまたはデバイスの一部分を指し得る。「コンピューティングプラットフォーム」は、1つまたは複数のプロセッサを備えることができる。
非一時的コンピュータ可読媒体は、ハードドライブ、コンパクトディスク、フラッシュメモリ、揮発性メモリ、ランダムアクセスメモリ、磁気メモリ、光学メモリ、半導体ベースのメモリ、相変化メモリ、光学メモリ、周期的にリフレッシュされるメモリなどを含むが、これらに限定されるものではない。ただし、非一時的コンピュータ可読媒体は、本質的に、純粋な一時的信号を含まない。
効率の観点において、いくつかの本発明の実施形態は、コーディング部が等しく信号およびデータのモデル化および分析に適用可能である理解のもとで、本明細書では、コーダ/デコーダと呼ばれる。さらに、圧縮という用語は、しばしば、ソース発展における任意の既存のパターンがモデルフォームでではなく統計的に処理される離散無記憶情報源をコーディングすることに関連付けられる。本発明のいくつかの実施形態は、データシーケンスが何らかの定量化可能なルールに発展するタイプのコーディングに関して少なくとも有用であり、より詳細には、モデル、すなわち、このルールの閉じられたフォーム表現を取得することに有用である。
本発明の実用的な実施形態は、現在の技術における符号化のために使用されるパラメータの複数のセットを可能な限り多く交換するように、1つの節約的なモデルを使用して、可能な限り多くの信号情報をモデル化/符号化することである。多くの実用的な実施形態は、可能な限り高い忠実度で情報を復号して戻す。多くの実用的な実施形態では、完全発振器+外部励起(COMPLETE:Complete Oscillator Plus External Excitation)と呼ばれるモデル化法は、データ中のソースパターンならびにランダム特徴におけるすべてのスケールについて同時に考慮し、したがって、多くの場合、ユーザが、既存の技術において使用される複数のモデルの代わりに単一の高効率なモデルを適用することができるようになるという点で、現在のモデルを改善する。多くの実用的な実施形態では、COMPLETEは、以下のように標準的な発振器モデルを改善する。また、以前の収集されたフレームを使用することに加えて、そのフレームをモデル化する際に、最後の点を除く現在の入力フレーム中のすべてのデータを使用することができるようになる。モデル中で入力フレームを使用するときに解決されなければならない重要な課題は、これらのデータは、フレームを復元するためにデコーダには利用可能ではないということである。一般に、AMRにおけるACを含む現在の技術では、デコーダは、これらの利用不可能なデータを、先行するフレームからのデータと交換する。これは、音声を含む多くのタイプの信号において、隣接するフレーム間のデータにおける矛盾は重大であることがあるので、最適ではないことがある。多くの実用的な本発明の実施形態は、導出されたモデルパラメータから点ごとにデコーダにおいて利用不可能なデータを再構成することによって、この態様を改善する。以前のフレームからのデータを代入するのではなく、データを再構成することにより、現在の技術と比較して復号された信号の精度が改善され、それにより、次に、発振器の安定性が改善され、さらに、本発明は、現在のフレームからの新規の最大範囲のデータを使用することができるようになる。それにもかかわらず、本発明によって可能にされるように、利用不可能なデータを推定する精度が改善された場合でも、再構成されたフレームは、モデル化された信号に等しくならないことがある。復元されたものとモデル化された入力信号との間の矛盾は、各後続のフレームがモデル化される場合に蓄積され、最終的には、モデルの不安定性につながり得る。本発明によって提供されるように、現在の入力からのデータポイントの最大数を、その入力をモデル化するために使用することが可能になり、入力されたコンテンツ全体をそのようなモデルを用いて符号化することができるとき、モデルの不安定性につながる矛盾が、急激に大きくなり、モデルが急速に不安定になる。これは、本発明の多くの実用的な実施形態において解決される1つの課題であり、モデル推定プロセス中に複数の候補再構成フレームを評価することによって、モデルの安定性が保証される。標準的なモデルフィッティング法は、他の機能のなかでもとりわけモデルの安定性を保証する複数の評価指標(evaluation metric)を組み込むための実施形態に拡張される。さらにまた、安定したモデルを推定することを可能にする、本発明のこの実施形態におけるそのような方法の使用により、以前のモデル化されたフレームとは別個である励起を含むために、「自励型」モデル構造を拡張する実施形態を可能にする。外部励起と呼ばれるこれらの励起を組み込むことにより、データ中の非反復的な特徴をモデル化することができるようになり、それにより、さらに、本発明の現在の実施形態のモデル化能力が拡張する。
多くの実用的な実施形態において、COMPLETEモデルは、様々な既存の短スケールモデルと長スケールモデルとの組合せと等しくはない。むしろ、得られたCOMPLETE表現は、任意の既存のモデルとは別のものである。さらに、信号構造全体を一度に包括的にキャプチャするためにCOMPLETEを使用すると、既存の技術において別個の短スケールモデルおよび長スケールモデルに必要なパラメータの総数よりもはるかに少ないパラメータを用いて、非常に節約的なモデルがもたらされる。このように効率的であるので、広範囲の様々な信号クラスを、本発明による高い精度で、いくつかは2モデルターム程度でモデル化することができる。COMPLETEの多くの実用的な実施形態は、雑音と非定常特徴とを含み得る信号の非可逆符号化に関する。さらに、いくつかの本発明の実施形態は、連続的に規定された動的ルールにしたがって発展する完全な決定性ソースについてのロスレスコーディングを提供することができる。多くの信号クラスは、スケールパターンと長スケールパターンとを含んでいることに留意されたい。
発振器は、定義上、収集されたデータの構造における冗長性を使用してモデルを展開する。したがって、発振器は、一般に、収集されたデータパターンにおいては十分に規定されていない、分離イベント、不連続性および雑音様の特徴など、過渡的特徴をモデル化するにはあまり適していないと考えられる。音声は、半振動エネルギーと雑音様エネルギーとの比が急激に変化し得る高速変化信号の1つの例である。多くの実用的な実施形態において、COMPLETEモデルは、典型的な発振器については好ましくないと考えられるいくつかのそのような状態に対してたとえば、有色雑音および特定の過渡信号の存在ではロバスト(堅牢)であり得、COMPLETEのロバスト性の度合いは、COMPLETEモデルの特定の選定された機能形式の複雑度と、外部励振ベクトルの特定の実施形態とによって判断される。それにもかかわらず、COMPLETEの性能は、そのような好適ではない状態が顕著なときに低下することがある。性能ロスの可能性は、ある特定のレベルの性能を満たされなければならない適用例では望ましくない。本発明の多くの実用的な実施形態は、COMPLETEベースのコーダの所望のレベルの性能を達成すること、または当技術分野で知られている方法(KAM)のコーディング効率を改善することを目的として、COMPLETEをKAMと組み合わせるシステムを構成する。本発明の本実施形態によるそのようなマルチモードCOMPLETE/KAMシステムの別の効用は、COMPLETEの初期化を行うことである。
多くの実用的な実施形態では、上記の原理を適用するイノベーションは、データ履歴から導出された情報の混合と、現在の入力からのデータの最大因果範囲、データ履歴以外のソースからシステムによって導出された追加情報と、所定の波形の辞書とを含むようにモデル参照の範囲を拡張する改善された励起モデル;最適モデルを選択し、モデルの安定性を確保することを目的として、複数の指標(metric)といくつかの様々なタイプのモデル出力とを採用することができるようなモデルを推定するための革新的方法;利用不可能な参照データから導出されたモデルパラメータを使用して、その参照データを再構成する信号を復号するための改善された方法;COMPLETEを初期化し、COMPLETEおよび/または既存のコーディング/圧縮方法の効率を向上させるために使用され得る当技術分野で知られている方法を用いて、本発明の少なくともいくつかの実施形態を組み合わせるための方法およびシステム;ならびに、次に詳述するような、これらのイノベーションから実現される例示的な音声コーダ/デコーダを包含する。
多くの実用的な実施形態では、入力フレームをモデル化し、符号化するための方法は、モデル参照の改善された範囲を使用する。再構成された以前のモデル化されたフレームの典型的な使用に加えて、いくつかのケースでは、現在のフレームからのデータの一部と、最後の点を除く現在の入力フレームからのすべてのデータとが、内部励起入力として使用される。これにより、ソース中の短スケールモデルおよび長スケールパターンを、1つの包括的なソースモデルによって符号化することができるようになる。さらに、典型的には発振器モデルで使用される内部励起に加えて、予め収集されたフレームの一部ではない外部励起が、可能なモデル参照として含まれる。外部励振ベクトルにより、データ中の非構造化特徴ならびに最近出現した構造をモデル化することができるようになる。また、外部励起は、COMPLETEモデルを初期化するためにも使用することができる。内部参照と外部参照とを組み合わせると、単一の節約的なコードとマルチスケールパターンならびに非構造化特徴を含んでいる複素信号とを用いてモデル化することができるようになる。
多くの実用的な実施形態では、一般に、そのような完全な発振器モデルのパラメータを推定し、モデル推定(評価ステージ)中にも復号化中にも点ごとに利用不可能なモデル参照を再構成する革新的プロセスを使用するパラメータから信号を復元する(復号する)ための方法が提供される。
多くの実用的な実施形態では、COMPLETEモデルの品質を評価するための革新的な方法は、特定の適用例に合わせた最良のモデルを推定するために使用され得る指標選択肢の範囲を拡張する。さらに、複数の指標を使用して単一のモデルを評価ためのマルチステッププロセスが提供される。さらに、指標の拡張された範囲は、現在の入力フレームからのデータを使用することなく、モデルパラメータから復元される出力を含む様々なモデル出力に適用される。この改善の重要な側面は、そのような回復されたフレームが、そのパラメータを推定するために使用されるフレームモデルと等しくないことがあるいう事実に由来する。評価において使用される復元されたモデル出力は、フレーム全体のCOMPLETEモデルの安定性を確保するために役立つ。
多くの実用的な実施形態では、COMPLETE動作を初期化するために当技術分野で知られている方法(KAM(known in the art method))を使用する方法が提供される。
多くの実用的な実施形態では、個々のフレームを符号化することを目的として、COMPLETEとKAMとから選択するための、ならびに/あるいはCOMPLETEを1つまたは複数のKAMモデルと組み合わせるための方法およびシステムが提供される。そのような選択を実装する様々なシステムは、COMPLETE候補モデルの性能を評価するために使用される方法を拡張することによって開発される。
少なくとも1つの実施形態では、マルチモードCOMPLETE/KAMシステムに基づいて、音声コーディング/復号化のための方法およびシステムが提供される。
モードl:COMPLETEコーダ/デコーダシステム
図1に、本発明の一実施形態による、COMPLETEベースの分析/コーディングシステムの3つの基本的な構成要素を示す例示的なブロック図を示す。図1は、完全発振器+外部励起(COMPLETE)ベースの符号化システム10の基本ブロックの図を示す。COMPLETE10は、Lサンプル入力フレームを構築し、たとえば、ウィンドウ化およびフィルタ処理によって入力を変換することができるプリプロセッサ120を含み得る。また、前処理動作は、アナログ入力をデジタル信号に変換することができユニット90において実行される任意選択のアナログサンプリングを含むことができる。COMPLETE10は、メインCOMPLETEコード生成モジュールであるCOMPLETEジェネレータモジュール170と、導出されたコードパラメータを構成/記憶/送信することができ、これらのパラメータを分析/変換することもできるポストプロセッサ160とをさらに含むことができる。入力は、時間的に発展する信号、または2D画像から抽出されたデータシーケンスのような空間ベクトルとすることができる。図1の前処理モジュールには、デジタル入力またはアナログ入力を供給することができる。アナログ入力は、最初にユニット90でサンプリングしてからプリプロセッサ120にパスされ得、デジタル信号入力は、プリプロセッサ120によって直接的に受信され得る。
プリプロセッサ120は、式X=[x(n−L+l),・・・,x(n)]にしたがって、入力信号のL個のサンプルを含むフレームXを出力することができ、ただし、x(n―L+l)は、フレーム中の第1のデータポイントを指し、x(n)は、フレーム中の最後のデータポイントを指す。下付き文字「k」は、フレームが収集された順序を指す。説明全体にわたって、下付き文字「k」は、モデル化されている現在のフレームXを示し、下付き「k−s」は、「s」が整数値である場合、現在のフレームより前に収集された「s」個のフレームを指す。また、プリプロセッサ120は、本出願に適した既知の方法を使用して、入力フレームをフィルタ処理する、ウィンドウ化する、または場合によっては変換することができる。さらに、先行フレームXk−1からのデータの何らかの部分がプリプロセッサ120に保持され、現在のフレームXの一部を形成するために使用された場合、重複するフレームXが生成されることがある。
図2に、COMPLETEモデル(式1)のパラメータを推定するための必須の分析構成要素の例示的なブロック図を示し、コード生成モジュール170の基本ブロックがより詳細に示されている。図2に示すように、COMPLETEジェネレータモジュール170は、記憶ユニット110と、参照バッファ(RB)130と、モデル推定器/評価器140と、信号シンセサイザ(デコーダ)150とを含むことができる。ユニット140は、このモードで詳細に記載されている参照ベクトルの関数として入力フレームXをモデル化する。参照ベクトルは、記憶ユニット110およびプリプロセッサ120から入力を受信し、構成する参照バッファ(RB)130から、ユニット140に供給される。記憶ユニット110は、受信した信号の何らかの形態の履歴と、いくつかの実施形態では、以下で定義する外部参照ベクトルとを記憶することができる。
1.参照記憶ユニット110および参照バッファユニット130
図2の記憶ユニット110は、現在のフレームをモデル化するために使用され得る参照情報を記憶する。ユニット110が記憶することができる情報の1つのタイプは、現在のフレームXより前に受信された入力から導出されたデータ履歴である。そのような履歴値は、COMPLETEのための参照データの一部を提供することができる。図2に示す好ましい実施形態では、記憶ユニット110は、復元された以前の入力フレーム[Yk−p,・・・,Yk−1]を蓄積し、s=(l,...,p)であるYk−sは、入力フレームXk−sの復元された値を示し、前述のように、下付き文字「k−s」はフレームが収集された順序を示す。110に記憶されたYk−sは各々、デコーダ150によって、以下により詳しく記載する方法を使用して、対応するフレーム「k−s」についての導出されたCOMPLETEパラメータから合成される。他の実施形態では、記憶ユニット110は、プリプロセッサ120において上述したように任意選択で変換される何らかの形式の実際の以前の入力を記憶することができる。重複フレームが使用される場合、適切に重み付けされた実際の/復元された重複フレームを、110において組み合わせて、重複内の実際の/復元された入力シーケンスを再生することができる。
ユニット110に記憶することができる別の種類の参照は、予め収集されたフレームから導出された「内部」励起と区別するために、「外部参照」または「外部励起」と呼ばれる。いくつかの実施形態では、外部参照[E,・・・,E]は、予め定義された波形のセットとすることができ、基本的な例は、様々な周波数のユニット振幅シヌソイドのセットとなり、これらの波形、あるいはこれらの波形を合成することができるパラメータを、システム動作の開始より前にユニット110に入れることができる。そのような波形の選定および数は、典型的には、手元のアプリケーションとハードウェア制約とによって規定される。他の実施形態では、外部参照は、システム10のユニットのうちのいくつかにおいてその動作中に推測され得る。それらの基本的な機能は、データ履歴を使用してもうまくモデル化されないことがある入力データ中の情報を推測し、この情報を、追加の参照の形態でモデルが利用可能にすることができるようにすることである。推測された励起は、推測された励起波形を再構成するためにデコーダによって使用され得るパラメータのセットとして、システム10によって符号化される。たとえば、プリプロセッサ120は、現在のフレームX中の雑音様のエネルギーを測定するパラメータを推定し、外部励起を生成するためにそれらのパラメータを使用することができる。そのような推定は、当技術分野で知られている方法を使用して行うことができる。たとえば、いくつかの音声コーダは、入力中の雑音様のエネルギーのパラメータを推定するためにフーリエ変換ベースの方法を使用する。別の例として、140または150は、入力Xとその再構成されたバージョンYとの間の残差R=X−Yを計算し、その残差に基づいて外部励起を生成することができる。推定されたモデルの出力を使用して140または150において外部励起を推測するとき、いくつかの実施形態は、現在のデータフレームについての新しいモデルを推定するために、既存の参照ベクトルに加えて、推測された外部励起を使用することができる。さらに、いくつかの実施形態オプションは、アプリオリに定義された外部参照と推測された外部参照の両方のタイプの外部励起を採用することができる。
外部参照を使用してフレームコンテンツの少なくとも一部を再構成しなければならないとき、それは、フレームが、パルス様または雑音様のエネルギーのようなランダムイベントを含んでいるからである。代替的には、利用可能な信号履歴は、たとえば、COMPLETEシステム動作の初期化中に、COMPLEXソースパターン情報ついて十分には含んでいないからである。さらに、ソース構造自体における変化が別の理由であることがあり、その場合、履歴データは、すべての新しいソース特徴を有しているというわけではない。後者の2つの場合、外部参照によってモデル化されるコンテンツは、ソース構造の一部であり、好ましい実施形態では、そのコンテンツはデータ履歴に組み込まれる。この場合、ユニット110は、すべての使用される内部参照および外部参照から再構成されたYフレームを記憶することができる。ユニット110が、そのモデル中に含まれる内部参照のみから再構成される入力のバージョンを記憶することができ、そのバージョンは、過去のソースパターンに純粋に基づくソースモデルに対応する他の実施形態が可能である。さらに、他の実施形態では、ユニット110は、そのモデル中に含まれる内部参照と含まれた外部参照の一部のみとから再構成された入力のバージョンを記憶することができる。たとえば、推測されたものではなく、アプリオリに定義された外部参照のみを使用することができる。これらのオプションからの選定は特定の適用例に左右され、上述の実施形態の多くの実装は、基本原理に基づいて設計することができる。
一般に、記憶ユニット110は、固定長記憶容量を有する。ソースパターンの1つのサイクルには、COMPLETEを用いてソースパターン全体をモデル化することが必要であり、より多くのサイクルを使用すると、非理想環境中で動作するときのロバスト性が提供される。したがって、ユニット110の選定された記憶容量は、特定の適用例に左右されるが、たとえば、ハードウェア制限のような他の考慮事項によって抑制されることもある。新しいフレームYがユニット110に入れられるたびに最も古い内部参照フレームを削除することによって、記憶ユニット110のサイズを指定された容量に維持することができる。外部参照ベクトルを更新するために、同様のストラテジをいくつかの実施形態で使用してもよい。
ユニット130は、ユニット110からの参照情報と、図2ではプリプロセッサ120から受信される現在のフレームXの最も最近の点を除くすべて、すなわち、L−l個の点Xk(n−1)=[(n−L+l),・・・,x(n−l)]とを組み合わせて配置する。この情報は、図2でRBと標示された参照バッファに配置され、ユニット140および150によってアクセスされる。図2に示す実施形態では、RB中のベクトルは、ユニット110によって供給されることも、あるいは、適切に場合は、ユニット130に供給されるより前に、110中のそれらの対応するパラメータから合成されることもある外部参照波形[E,・・・,E]から始まり、次に、上述したようにデータ履歴から導出される[Yk−p,・・・,Yk−l]、最後に、最も最近のL−lデータポイントXk(n−1)と、連続的に配置される。RBの異なる部分がシステム10の様々なユニットによって矛盾なくインデックス付けされる限り、無限数の他のバッファ構成をRBのために使用することができる。RB中に[x(n−L+1),・・・,x(n−1)]個の点を含めることにより、入力フレームをモデル化するために利用可能な最短スケール構造が作成される。これは、既存の発振器からCOMPLETEを識別する1つの側面である。外部参照[E,・・・,E]を含めることにより、履歴には含まれていないデータの一部をモデル化することができるようになる。外部参照を使用した改善されたデータ駆動型発振器の組合せは、それは、1つの節約的なコードのセットを用いて、構造化データおよび非構造化データ全体をモデル化することを可能にする別の新規の態様である。
いくつかの実施形態では、記憶ユニット110は、システムがその動作を開始するときには履歴データのフレームを含んでおらず、いくつかの実施形態では、ソースパターンが著しく変化するときは常に、そのようなデータを消去することもできる。そのような場合、COMPLETEシステム10は、アプリオリに与えられた外部参照を使用して、および/または最も最近の点を除くすべてを使用して、現在の入力XからのL−l個のデータポイント[x(n−L+1),・・・,x(n−1)]を使用して、記憶ユニット110中のデータ履歴を生成し始めることができる。フルLポイント参照ブロックは、この場合、追加点をもつL−1個の入力点を増補することによって現在の入力から生成されることができ、追加点は、既存の点のうちの1つを反復することによって、たとえば、[x(n−L+1),x(n−L+1),・・・,x(n−1)」を作成すること、あるいは、知られている外挿方法を使用していくつかの既存の点から追加点を外挿することのいずれかによって、ユニット130中で作成することができる。代替実施形態は、代わりに、L−1個の点[x(n−L+1),・・・,x(n−1)]と、それに応じてサイズ決定された外部参照のベクトルを参照として使用して、入力のL−1個の点[x(n−L+2),・・・,x(n)]をモデル化することができる。フルLポイント参照ブロックは、次いで、復元されたフレーム中のいくつかのデータポイントを反復すること、あるいは、復元されたフレーム中の点のうちの一部からのデータポイントを外挿することのいずれかによって、そのようなモデルのL−1ポイント出力から生成することができる。そのようなLポイント参照ブロックが作成されると、Lポイント参照ブロックをユニット110中に記憶し、後続のフレームをモデル化するための参照として使用することができる。その点から、システムは、以下に記載する標準的な実施形態を使用して、データ履歴を生成することができる。データ履歴を生成するための別のオプションは、ユニット110中の必要なデータ履歴基準の少なくとも一部またはすべてを作成するために、当技術分野で知られている方法(KAM)を使用することである。そのような手段を実装するシステムについて、モード2でより詳しく説明する。
記憶ユニット110とプリプロセッサ120とバッファ130とを物理的に別個の構成要素として実装する必要はないが、上述の動作をエミュレートするために適切なソフトウェアまたはハードウェアを介してすべての情報にアクセスすることができる限り、任意に複数の構成要素にわたって分割しても、あるいは単一のソフトウェア構成要素またはハードウェア構成要素中に実装してもよいことを理解されたい。
ユニット110、120および130中のデータシーケンスは、入力データのすべての種類の変換バージョン、フィルタ処理バージョン、ウィンドウ化バージョン、近似バージョンを参照することができることを理解されたい。その上、記憶ユニット110、プリプロセッサ120およびバッファ130中のシーケンスは、ウェーブレット成分など、入力信号のいくつかの未加工バージョン/変換バージョン/近似バージョンの何らかの成分を参照することができる。
2.COMPLETE推定器/評価器140
推定器/評価器ユニット140は、COMPLETEモデル推定機能を実行する。以下の説明は、バッファRB中のシーケンス中に参照が配置される図2に示した実施形態を参照する。モデル推定のプロセスは、130のRB中のN長−Lブロック(Bd(i),i=1,・・・,N}のセットを識別し、それにより、入力フレームXが{Bd(i)}の何らかの特定の関数としてモデル化される。
=G(Bd(i)),i=1,・・・,N (1)
ただし、
Gは、線形または非線形の特定の関数形式を示し、
Nは、が式(1)において使用されるBd(i)ブロックの数であり、
iは、1番目のデータブロックBを特定するインデックスであり、
d(i)は、i番目「タップ」と呼ばれるi番目のブロックであり、RBのエントリd(i)から始まる130中のRBから引き出される。ここで、
d(i)は、i番目の遅延をしめし(便宜上、dと記載されることもある)、ブロックBd(i)中の第1の要素であるRB130中のエントリに対する指針である。可能な遅延値の範囲は、整数セット1≦d≦max、max=m−L+1であり、ただし、mはRB中の点の総数である。
式(1)によって定義されたCOMPLETEモデルは、短スケールパターンおよび長スケールパターン、ならびに入力中の非構造化成分を同時に考慮する。遅延{d}のセットは、RB130中の適切なブロック{Bd(i)}を識別するための手段を提供する。関数Gに固有である遅延の値{d}および任意の変数の値を推定するためのモデル推定量。Gで表される関数形式は、典型的には手元の特定のアプリケーションに合わせられ、非線形であってもよい。しかしながら、多くのアプリケーションでは、多くのタイプの信号を高い精度でモデル化するためには、数タップを含んでいる線形COMPLETEで十分である。このため、本発明の現在の実施形態のより適切な特徴をより簡単に説明するために、現在のモードに関する以下の説明は、線形COMPLETEに重点をおくが、本発明のいくつかの実施形態では、非線形COMPLETEが想定される。
線形COMPLETEは、Xをブロック{Bd(i)}の線形結合として表す。
Figure 2014502366
ただし、
N、d、Bd(i)は、上記式(1)に定義されており、
は、対応するブロックBd(i)の相対スケーリング(重み)である。
式(2)で推定する必要があるパラメータは、{a}と{d}とのセット(i=1,・・・,N)と、項数Nとを含む。COMPLETEの効率を理由に、多くの信号クラスを、N=2の線形COMPLETEモデルを用いて正確に符号化することができることを留意されたい。高度に複雑な信号の場合であっても、N=4で十分とすることができる。さらに、Nの選定は、所与の適用例について知られていることが多い。このような場合、式(2)の推定モデルを推定することは、パラメータセット{a,d}だけを推定することに低減する。パラメータ{a,d}を推定するためのいくつかの方法について以下に記載する。モデルタームの数Nも推定しなければならない場合、以下に提供される同じ方法を、Nの様々な値についてパラメータセット{adi}を推定するために使用することができ、タームNの最適数を選択するために、当技術分野で知られている方法、たとえば、赤池情報量規準を採用することができる。式(1)の非線形COMPLETEに対する上述の方法の適応については、セクション2の最後に提供する。
2a.COMPLETEパラメータの推定
データにパラ指標モデルを適合させるためのいくつかの知られている方法のうちの1つを適応させることによって、パラメータ{a,d}をCOMPLETE推定器/評価器140中で推定することができる。ここで説明する実施形態は、一般に、2つの基本的なプロシージャを実行する。第1のプロシージャは、多数の候補モデルを生成する。次いで、その結果を第2のプロシージャにパスし、予め選択された指標(測定基準)を使用して推定候補モデルの性能を評価すると、「最もよく機能する」モデルが分かる。「最もよく機能する」モデルとは、プリセットされたクリテリア(基準)によって測定される最良の結果を提供するモデルとして定義される。各プロシージャのいくつかの実施形態について以下に説明する。これらの説明は例を提供するものであり、COMPLETEとそのパラメータとを推定するための手段を網羅するものではないことを理解されたい。基本原理に基づく他の方法を使用することは、本発明における特許請求の範囲をいかなる方法でも減少させるべきものではない。
第1のプロシージャ−複数の候補モデルを生成する
ここで提供される候補モデルを生成するため方法は、3つの基本ステップを実行する。第1のステップは、1つまたは複数の候補遅延{d }を選ぶ。ここで、t=1,・・・,Dであり、D<Nであり、上付き文字は、これが考えられる候補値であることを示すために使用され、RB130から対応する遅延タップ{B (t)}を取り出す。第2のステップは、係数{a }に対応する{B (t)}を計算する。これは、知られている手段により代数学上の最小2乗の問題を解くことによって行うことができる。
[a ,・・・,a ]’=inv[B d(t)]X’ (3)
ただし、
[B d(t)]は、列が130から選択されるブロックB d(t)である行列であり、
inv[B d(t)]は、知られている方法、たとえば、特異値分解法を使用して計算される[B d(t)]行列の擬逆元であり、
[a ,・・・,a ]’は、係数{a }で構成される列ベクトルであり、
X’は、入力Xの要素で構成される列ベクトルである。
多数の候補パラメータセット{a を作成するために、上記の2つのステップを繰り返し、ここで、下付き文字j=1,・・・,Jは、特定の候補セットをインデックス付けするために使用され、そのようなセットが各々、第1のステップで選択された{d }の特定の選定のために導出される。追加のステップとして、所与の適用例に適している場合、以下に記載する手段によって、COMPLETEパラメータを量子化することができる。第3のステップは、各候補セット{a ,d について、後で詳細に定義するCOMPLETEモデル出力を計算する。
特にステップ1および3について、複数の実装のオプションが存在する。ステップ1(およびステップ2と対応する調整)のいくつかの実装について次に説明する。それに続いて、ステップ3で使用する「モデル出力」を測定するためのオプションについては、モデル評価セクションにおいて説明する。
候補パラメータセット{d を生成するための方法
候補パラメータセットを生成するための3つの方法について以下に説明するが、これらの方法は、候補遅延セットを生成するために全数探索、逐次探索および制約付き探索を対応して使用することができる。すべての3つの方法は、範囲[1 max]から構築される整数セットDから遅延値を引き出す。〔1 max〕セット中のいくつかの値は有意な遅延を提供するものではなく、Dの一部として含まれる必要もない。詳細には、〔Yk−p,・・・,Yk−1〕で構成されるシーケンス中のすべての点は、典型的には、意味のある参照を提供し、したがって、典型的には、これらの点のBd(i)個のブロックをインデックス付けする遅延がDに含まれる。一方、2つの外部参照、たとえばEとΕi+1、または外部参照EとYk−pにわたるブロックBd(i)は、典型的には、意味のある参照を提供せず、したがって、それらのブロックをインデックス付けする遅延がDには含まれない。
全数探索法は、DからN個の遅延の組合せを選択し、次いで、上記式3を解くことによって、組合せごとに対応する係数{al^,a2^,・・,aN^}を計算する。全数探索法は、最初に、遅延のすべての実現可能なセットと、対応する係数値とを生成し、次いで、最良のモデル結果を生じる最適なパラメータセットを識別するために、すべての得られた候補モデルからの結果を評価することができる。代替的には、実現可能なパラメータのセットを、グループのセットで生成し、評価することができる。進化的プログラミングなど、多くの既存の知的探索法の1つを使用して全数探索を実装することができる。3つの探索法のなかでも、全数探索法は、最適モデルに最も近接したものを生じることができるが、3つ以上の遅延を含んでいるCOMPLETEモデルを推定するときには、計算コストが高くなることがある。
別の方法は、各ステップが最良のパラメータ値のサブセットを発見する反復的プロセスを使用する逐次探索手法である。たとえば、一度に1つの遅延について考える逐次探索は、以下のように実装される。最初に、セットDから選択されるdl^のすべての可能な値についての候補モデル結果と、式3を解くことによって発見されるそれらの対応する係数al^とを評価することによって、式(2)の1遅延COMPLETE、すなわち、Xk=al Bd^(l)についての最適遅延値dl*を求める。次の反復では、dl*値は第1の反復で求められた最適値に固定され続け、Dから候補d2^値を選択する、すべての候補2遅延COMPLETEを評価することによって最適なd2*値を求める。前述のように式3を解くことによって、遅延{dl*、d2^}の候補セットに対応する係数{al^、a2^}を計算する。第1の反復の後、dl*の値は固定されるが、係数alの値は後続の各反復において固定されず、再計算しなければならないことを留意されたい。すべてのCOMPLETEパラメータについての最適値を取得するまで、プロセスを繰り返す。逐次探索法は、全数探索よりも大幅に低い複雑度で、ほぼ最適な結果を生じることができる。
第3の方法は、前述の2つの方法の特定の態様を組み合わせることができる制約付き探索である。最初に、「シード」推定値{d1^,d2^,・・・,dN^}を生じるために、上述したように逐次探索を実行する。次いで、この推定値は、それらをシードの周辺の範囲di^−μ≦di^≦di^+μ,i=1,・・・,Nに抑制することによって候補遅延を選択するためのベースラインとして働き、ここで、μは、各di^の周辺の点の数を示し、その値は所望の探索複雑度に応じて設定される。上述の全数探索プロシージャをこの制約付き候補遅延範囲内で使用して、候補パラメータの新しいセットを生成し、最良のモデル結果を生じるパラメータ値を識別するために対応するモデル結果を評価する。この方法の性能は、典型的には、最初の2つの方法の性能の中間となる。
パラメータ生成法に関する上述の説明は、RB130に含まれるすべてのタイプの基準に等しく対処する。Xをモデル化する際に、RB中の参照波形のサブセットを他のサブセットよりも優先的に選定することができる場合、代替実施形態を使用することができる。たとえば、いくつかの実施形態では、以前の収集された履歴よりも、最新のデータ履歴が好ましいことがある。別の例では、外部参照[E,・・・,E]よりも、「内部」基準[Yk−p,・・・,Yk−l]が好ましいことがある。以下に説明する特定の基準の優先的処理を、モデル評価および選択プロセスの一部として実装してもよい。この目的ために、上述のパラメータ生成法を修正することもでき、典型的には、モデル評価および選択中に採用され得る任意の優先的処理に加えて、これらの修正を実装することができる。たとえば、所望の選択を反映するために候補セット{a 、d がソートされる場合、上記の方法を修正することができる。たとえば、最も最近のデータ履歴に依存するモデルが好ましいとき、候補パラメータセットを、各セット中の最も小さい遅延の減少値の順序にソートすることができ、それにより、最初に、(最大遅延によってインデックス付けされた)最も最近のデータ履歴を参照するモデルを、候補モデル評価/選択プロセス中に評価することができる。次いで、所望の性能クリテリアを満たす第1のモデルが発見されたときに、候補モデル評価/選択プロセスを終了することができる。単独でまたは前のストラテジと併せて使用することができる別のストラテジは、最も好ましい参照に対応し、最初にこのサブセットを評価する候補パラメータセットのサブセットのみを生成することである。第1のストラテジの場合と同様に、第1のサブセットから所望の性能クリテリアを満たすモデルが発見された場合、候補モデル評価/選択プロセスを終了することができる。そうでない場合、次に、あまり好ましくない参照を含む候補セットを作成し、それを評価することができる。より進歩的な実施形態は、選定が標準以下の結果につながるときでも、モデル中の特定の参照のほうをユーザが好むようにすることができる複雑なトレードオフクリテリアを含み得る。たとえば、いくつかの実施形態では、「内部」基準[Yk−p,・・・,Yk−l]のみに依存するモデルについて、そのようなモデルが好ましい場合には、パフォーマンスにおける所定の損失が起こり得る。一般に、他の参照よりもRB130中のいくつかの参照のほうがが好ましい多くの実装を基本原理を使用して設計することができ、そのような設計の採用は、本発明における特許請求の範囲をいかなる方法でも減少させるべきものではない。
第2のプロシージャ−候補モデルを評価する
上述の第1のプロシージャは、式(2)にしたがって導出されたパラメータ化された候補モデルのセットを出力する。次に、これらの候補モデルの品質を評価することを目的として、推定器/評価器140により使用され得る様々な方法の適応について説明する。典型的には、式によってモデルが定義されると、この式を使用してその出力を計算する。詳細には、式(2)の場合、t=1,・・・,D,D≦Nであるj番目の候補パラメータ{a ,d の場合をここでは仮定すると、標準的なモデル出力は、X (j)=Σ (i)と定義され、他の表記は、上記に規定したもの同じである。典型的には、そのような標準的な出力X (j)は、モデル品質を評価するために使用される。この点についての共通の測度は、j番目の候補パラメータセット{a、dの場合を仮定すると、平均2乗誤差(MSE)である。
Figure 2014502366
最良の候補モデルは、この場合、MSEを最小限に抑えるモデルと識別される。一般に、モデル出力の統計ロパティ、時間プロパティおよび周波数領域プロパティを分析するために、MSEの代わりに多数の指標を代入することができる。特定の適用例のニーズによって、指標の選定を判断することができる。本発明は、限定はしないが、当技術分野で既存の任意指標、あるいは、候補COMPLETEモデルの品質を評価することを目的として、個々にまたは他の知られている指標と併せて、基本的な知られている原理に基づいて設計された任意の指標のいずれかの使用を包含する。いくつかのそのような指標については、このセクションで後述する。
候補モデルの品質を評価するための様々な指標オプションを利用することに加えて、次に、上記で定義した標準X 以外のモデル出力を使用するいくつかの実施形態について説明する。図2に示した実施形態を含むいくつかの実施形態では、ユニット140によって供給されたパラメータからシンセサイザ150中で合成されるY である第2のモデル出力は、モデル評価/選択プロセスの一部として使用され、ユニット110中でデータ履歴参照を作成する際にも使用される。ここでの重要な観測は、入力フレーム中で再構成されたデータからY を導出することができるが、X は実際の入力Xを参照するので、合成されたY は、COMPLETEの場合、所与のパラメータセットについての推定されたX に等しくないことがあることである。さらに、推定値X も推定値Y も、正確なモデルパラメータではなく近似パラメータ、たとえば、量子化されたパラメータ(量子化は以下に説明する手段によって行われる)を使用して計算することができる。したがって、提供された実施形態では、モデル推定値X のすべての例が、近似パラメータ、たとえば、量子化パラメータを用いて式(2)を使用して計算された推定値X^^ と交換される場合、あるいは代替的には、正確なモデルパラメータまたは近似モデルパラメータのいずれかから合成された推定値Y と交換される場合、式(4)中のMSEのような閉じられたフォームモデルを評価するために使用される既存の指標を修正することができる。実際には、合成されたY を用いた特定の指標とX を用いた他の指標とを使用することはより有意義であり、手元のアプリケーションによって選定を判断する。たとえば、音声に関するアプリケーションでは、X の知覚的特性ではなく、合成された出力Y の知覚的特性を最適化することが望ましいことが多い。Y に基づくモデル評価は、最良の出力を選択するために様々な入力から合成されるシステム出力を比較する合成による分析(analysis−by−synthesis)技法に関係すると見なすことができることを留意されたい。しかしながら、多くの実施形態においてCOMPLETEモデル選択プロセスで使用される合成された出力に基づく指標は、典型的にX またはX^^ には関する他の指標に結合され、したがって、COMPLETEモデル推定プロシージャ全体は、マルチステップ評価プロセスを含む。非限定的な例では、2つの指標を使用する実施形態は、最初に、式(4)によって求められた最小MSE基準にしたがって、q個の最良の候補モデルを連続的に生成し、次いで、シンセサイザ(デコーダ)150において、これらのq個の最良の候補モデルの量子化パラメータからq個の出力Y を合成し、q個の合成された出力を推定器/評価器ユニット140にパスすることができ、次いで、第2の指標、たとえば、以下の式(7)で求められるPWE知覚指標を使用してq個の合成された出力を評価する。本発明の現在の実施形態のモード3は、複数の評価指標を利用する音声コーダの特定のケースを提供する。複数の指標に基づく評価プロシージャの設計は、実用的なアプリケーションにそのプロシージャを適応させるだけでなく、プロシージャが採用する基準の拡張された範囲についてCOMPLETEモデルの安定性を確保するために使用されるCOMPLETEの一部である。次に、Y を評価する例について書かれたいくつかの指標の非限定的な例を与えるが、上述のように、所与のアプリケーションによって正しいとされた場合、COMPLETE品質を評価するために、これらおよび他の指標をX またはX^^ とともに代替的に利用してもよい。
信号対雑音比:最小信号対雑音比(SNR)は、最適モデルを選択するために使用される共通の基準である。Y の場合、SNRは、下記のように計算することができる。
Figure 2014502366
ここで、jは、候補パラメータセット{a ,d }のインデックスを示す。
ログスペクトル距離:ログスペクトル距離(LSD)は、モデル結果のスペクトルプロパティを評価するための別の共通の指標であり得る。LSDは、下記のように計算することができる。
Figure 2014502366
ここで、
fsは、サンプリング周波数であり、
Fは、フーリエ変換を示し、
fは、[0、fs]に及ぶ対象範囲の周波数ビンであり、
jは、候補パラメータセット{a 、d のインデックスである。
音声の知覚品質を評価するための共通の指標は、知覚的に重み付けされた誤差(PWE)である。知覚品質は、PWEを最小限に抑えることによって最適化される。
Figure 2014502366
ただし、
fs,F[.]およびjは、式(6)において上記で定義されており、
|.|は、絶対値スペクトルを示し、
W(z)は、下記のように求められる重み付けフィルタである。
Figure 2014502366
ただし、Zは、Z変換を示し、係数bは、線形予測モデルのミスフィット誤差を最小限に抑えることによって計算される。
Figure 2014502366
ただし、X(u)=[x(n−u−L+1),・・・,x(n−u−1)]は、現在のフレームの最後の点に対して遅延u−1を有するL長データシーケンスを示す。
ここで説明する方法は、前記モデル評価を実行するための包括的または網羅的な手段を提供するものとして解釈すべきではない。基本原理に基づいて他の方法を使用することは、本発明における特許請求の範囲をいかなる方法でも減少させるべきものではない。
モデルパラメータを、140または150におけるそれらの推定のプロセスにおいて量子化しても、その後、160における後処理中に量子化してもよい。量子化は、係数{ai}のベクトル量子化、遅延{di}のスカラー量子化、およびそのすべての導関数を含むがこれらに限られない既存の技術のうちの任意の数の方法を使用して実装することができる。
推定器/評価器140において実行される評価の結果は、最良のモデル結果を生じるパラメータセット{a 、d である。また、最適モデルが推測された外部参照を利用する場合、これらの参照を再構成するために必要なパラメータはユニット140からの出力コードの一部になる。したがって、入力フレームのCOMPLETEコードは、モデルパラメータ、適用可能な場合には、外部参照のパラメータを含むことができる。最終コードを推定器/評価器140から、シンセサイザ150に、また、記憶および/または送信のためにポストプロセッサ160に出力することができる。図2に示されている実施形態によれば、最適な回復フレームYの所望のフォームは、モデル推定プロセスでセーブされなかった場合、供給されたパラメータからユニット150において合成され、記憶ユニット110に出力される。ユニット160は、さらに、手元のアプリケーションに適した手段によって記憶する/送信する前に、COMPLETEコードを処理または変換することができる。たとえば、パラメータは、140において量子化されなかった場合、上述のような既存の技術の方法を使用して、パラメータをポストプロセッサ160において量子化することができる。
上述の分析ステップを、簡単な方法で、Bd(i)の線形関数と非線形関数の重み付け和とで構成される任意の非線形モデルに移すことができる。さらに、一般非線形関数は、Bd(i)ブロック自体の重み付け和と、何らかのパワーまで上げたBd(i)ブロックの要素とで構成される打ち切り多項式展開によって近似され得る。上述の分析方法は、以下のように、非線形モデルのそのような多項式展開を推定するように適応させることができる。遅延dは、前述のように、参照バッファ130においてデータブロックをインデックス付けすることができる。データB d(i)のブロックは、上述のように選択された遅延値について取り出され、新しいブロック{B term(c)}のセットを計算するために使用される。ここで、各B term(c)は、多項式展開のc番目の項に対応する。ブロック{B term(c)}を計算した後、多項式展開におけるそれらの対応する重みは、線形COMPLETEの場合には、は、式3において{B term(c)}を{B (i)}に代入することによって、係数{a }と同様に計算される。残りの分析は、上述の線形COMPLETEについて説明したように進めることができる。
3.シンセサイザ150およびデコーダ250における信号の復号化
図3に、本発明の一実施形態による、受信したCOMPLETEパラメータから信号を復元するCOMPLETEシンセサイザ/デコーダの例示的なブロック図を示す。復号化とは、図2のシンセサイザ150において、また、図3のユニット250において実行される動作を指す。シンセサイザ(デコーダ)150/250は、元の入力フレームを供給されたパラメータから何らかの精度まで復元する。図2のシンセサイザ150の場合、合成されたパラメータは、推定器/評価器140から入力さら、図3のスタンドアロン復号システムの場合、パラメータは、送信されたコード/記憶されたコードから取得される。
図3に記載されたデコーダの実施形態では、信号は、150において合成された方法で、ユニット250において復元される。図3に示す実施形態では、ユニット210は、復元された「信号履歴」[Yk−p,・・・,Yk−1]を、また、任意のアプリオリに定義された外部参照(それらの実際の波形か、それらの生成のために必要なパラメータ)を記憶し、配置する。210における配置は、図2のユニット130中のこれらの参照の配置をミラーリングする。また、推測された外部参照を生成するために必要なパラメータがある場合には、図3のデコーダに送信/記憶されたコードの一部として供給され、これらの外部参照波形を生成するために使用される。ユニット150/250に供給されたコード中の遅延{d}のいずれも、現在のデータフレーム中の点のうちのいずれかをインデックス付けしない場合、現在のフレームYは、フレームXに関する上記式(2)によって求められたモデル推定値の計算と同様に、供給されたパラメータセットから復元される。つまり、
Figure 2014502366
そうでない場合、少なくとも1つの遅延が現在の入力フレーム中のデータをインデックス付けする場合、シンセサイザ150/250は、現在のフレームの最も早い点から始まって、フレームの最後に向かってポイントごとにYのエントリを合成し、各点は以下のように推定される。
Figure 2014502366
ただし、b(d(i)+s−1)は、(d(i)+s−1)≦maxの場合には既存の参照中の点を、またはそうでない場合には、現在のy(s)より前に合成された現在のフレームの要素を参照し、150/250がアクセスするそれぞれのバッファ中に保持される。
モード2:COMPLETEを従来技術の方法と組み合わせること
図4に、本発明の一実施形態による、一般的なマルチモードCOMPLETE/KAMシステムの構成要素を示す例示的なブロック図を示す。図4は、ハイブリッドマルチモードCOMPLETE/KAMシステム400の一般的な構造を示し、このシステム400は、COMPLETEユニット10、10、10、および従来技術の様々な方法(KAM)405、405、・・・、405n、ならびにそれらの組合せの様々な形態の中から選定することによって、入力フレームを符号化し、その様々なブロックおよびユニットは、ハードウェア、ソフトウェアまたはそれらの組合せにおいて実装され得る。システム400の実施形態は、2つの実用的な機能、1)COMPLETEの初期化、2)KAMの性能、あるいは代替的には、COMPLETE自体が所望のレベルの性能を提供しない適用例ではCOMPLETEの性能を改善することを提供することができる。発明の概要において論じたように、非構造化エネルギー中の有意な立上り、不連続性、および信号において進行中のパターンが進化するスケールに対して短い時間スケールで生じる過渡信号など、入力信号におけるパターンブレークイベントは、COMPLETE性能に悪影響を及ぼすことがある。そのような場合、KAMまたはCOMPLETEが単独で提供することができるものを上回るように性能全体を向上させるために、信号のいくつかの部分を符号化するためにKAM405を使用することができ、他の部分を符号化するためにCOMPLETEを使用することができる。
図4のCOMPLETE/KAMシステム400は、入力信号Xを分析し、Xをモデル化するためにはCOMPLETE10、KAM405、またはCOMPLETE10/KAM405の組合せのどれを使用すべきかを選択することができるプリセレクタ410と、プリセレクタ410および/またはポストセレクタ430によりアクティブ化することができる、様々なCOMPLETES10およびKAM405モデル推定ユニットの集合を含むことができるCOMPLETE/KAM符号化モジュール415と、COMPLETES10によって、必要な場合には、COMPLETE/KAMモジュール415の(1つまたは複数の)KAM405ユニットがアクセスすることができる復元された以前の入力フレーム[Yk−p,・・・,Yk−1]を含む記憶ユニット420と、最終的に選択された「最良の」モデルから記憶装置420およびポストプロセッサ440に関係する出力をルーティングし、任意選択で、COMPLETE/KAMモジュール415から供給された候補モデルの出力を評価することができるポストセレクタ430と、ポストプロセッサ440とを含むことができる。
モード2の場合、マルチモードCOMPLETE/KAMシステムの入力フレームを生成するプリセレクタ410におけるデータ前処理機能は、モード1に記載した図1のプリプロセッサ120における前処理機能に類似し、したがって、この構成要素および関連する前処理ステップについての説明は、モード2については繰り返さない。同様に、図4のポストプロセッサユニット440における機能は、ポストプロセッサ440が、それらのモデル識別子コードと一緒に最終モデルのパラメータをパッケージングするための追加の機能を実行することができる点を除いて、モード1におけるポストプロセッサ160の機能と同様に実装することができる(図1参照)。モデル識別子コードは、モデルパラメータとともに、ポストセレクタ430によって440に供給され、現在のフレームを符号化するためにどのモデルまたはモデルの組合せが使用されたかを特定するために所与のシステムが必要とする最小ビット数で構成される。
プリセレクタ410およびポストセレクタ430、ならびに図4のCOMPLETE/KAMモジュール415は、COMPLETE/KAMシステムの様々な実施形態のためのメインブロックを提供する。COMPLETE/KAMシステムの3つの基本的な実装の実施形態は、ユニット410および430、ならびにCOMPLETE/KAMモジュール415によって実行される動作の記載の後に記載する。
その動作の一部として、プリセレクタ410は、COMPLETE/KAMモジュール415中のCOMPLETE10および/またはKAM405のセットを選択することができる。いくつかの実施形態では、プリセレクタ410の実装は、わずか2つのモデルから、単一のCOMPLETE10および単一の実装されたKAM405を選択する単純なデマルチプレクサとすることができ、任意選択で、両者の組合せを選択してもよい。代替的には、プリセレクタ410は、入力信号Xの性質に基づいてCOMPLETE/KAMモジュール415における方法を選択する高性能プロセスを実行することができる。そのような選択プロセスは、信号の統計プロパティおよび/または決定プロパティを反映する入力Xのパラメータを計算することと、これらのプロパティを分析することと、次いで、複数のCOMPLETE10〜10とKAM405〜405の組合せを選択してXをモデル化するために、分析結果を使用することとを含むことができる。所与のアプリケーションに何が適しているかに応じて、入力Xの計算されたパラメータは、従来の方法を使用して取得することができる任意の数の信号の統計プロパティ、時間プロパティ、周波数プロパティおよび時間周波数プロパティを反映することができる。計算されたパラメータ値は、プリセットベースライン/しきい値、または他の所定の指標に関して分析することができる。
プリセレクタ410を使用することができる1つの機能は、「パターンブレーク」イベントを検出するための機能である。これらの実施形態の場合、プリセレクタ410は、知られている方法を使用して、現在のフレームおよび先行するフレームXにわたる特定のパラメータの一貫性を分析することができる。たとえば、プリセレクタ410は、X中の確定エネルギーの分布を、いくつかの先行する入力フレーム[Xk−p,・・・,Xk−1]中の確定エネルギーの分布と比較することができる。分布は、たとえば、基本周波数(音声コーディングではピッチ周期と呼ばれる)と、フレーム中の準周期的エネルギー(V)と雑音様のエネルギー(U)の比率を明らかにすることができる他のパラメータとを計算することによって測定することができる。これらのパラメータは、当技術分野で知られている方法を使用して推定することができる。たとえば、いくつかの音声コーダは、各フレームについて有声/無声判断を行うために、高速フーリエ変換(FFT)のようなフーリエ変換(FT)ベースの方法を使用して、UパラメータおよびVパラメータを計算する。準周期的エネルギーについての計算されたパラメータV(t,w)および雑音様のエネルギーについての計算されたパラメータU(t,w)は、時間(t)と周波数(w)との関数である。また、これらのパラメータを計算するための他の知られている方法を使用してもよい。この例では、先行するフレーム中のこれらの量の分布に対する所与のフレーム中の時間および周波数における準周期的エネルギーおよび雑音様エネルギーの計算された分布は、プリセレクタ410によりCOMPLETE10およびKAM405を選択することができるか、また、いくつのCOMPLETE10およびKAM405が選択されるかを制御することができる。所望の品質の出力を考慮に入れると、複数の知られている方法でも同様にそのような制御プロセスを実装することができる。たとえば、準周期的エネルギーVおよび雑音様エネルギーUの分布を、複数の範囲またはビンに区分することができ、COMPLETEおよび/またはKAMの具体的な選定を各ビンに割り当てることができる。
また、プリセレクタ410は、外部リソースから、制御コマンドを受信することができ、制御コマンドは、プリセレクタ410において設定を修正することができ、あるいは代替的には、決定論理の一部として制御コマンドをプリセレクタ410に組み込んでもよい。たとえば、いつ「パターンブレークイベント」が生じたかは、COMPLETE/KAMシステムの外部から知ることができ、そのような場合には、外部コマンドは、この情報をプリセレクタ410に供給することができ、したがって、プリセレクタ410は、そのような分析を実行することから解放される。
上述のように、図4のCOMPLETE/KAMモジュール415は、1つまたは複数のCOMPLETE10およびKAM405推定器の集合を含んでいる。COMPLETE/KAMモジュール415中の各COMPLETE10は、COMPLETEの異なる機能形式を推定する。たとえば、COMPLETE/KAMモジュール415は、4つのCOMPLETEユニットの集合を含むことができ、個々のユニットは各々、1〜4の範囲の特定の数の遅延を用いて線形COMPLETEを推定する。COMPLETE10またはKAM405は各々、プリセレクタ410、ポストセレクタ430からの入力、あるいはCOMPLETE/KAMモジュール415内の別のCOMPLETE10またはKAM405からの入力のいずれかによって「on」されるまで、非アクティブのままでいると見なすことができる。したがって、COMPLETEおよびKAMユニットは、「on」することができ、個々に、あるいは様々な組合せで、つまり、直列の組合せ、並列の組合せ、または直列の組合せと並列の組合せとの混合で提供された入力に適用することができる。「直列の」組合せでは、第1の選択されたユニットがXを符号化し、次のユニットが、第1のユニットなどの残差出力を符号化し、最終結果は、たとえば、直列モデルとなる(COMPLETE10+KAM405+・・・KAM405)。「並列の」組合せでは、第1の選択されたユニットは、Xの一部を符号化し、次のユニットがXの他の部分を符号化し、以下同様である。さらに、これらの記載した手法は、COMとKAMとの任意の組合せを生成するために、互いに連携して使用することができる。
KAM405ユニットは、知られている方法を使用してそれらのそれぞれのモデルを推定することができる。図4のCOMPLETE10ユニットの場合、上述したCOMPLETE推定器/評価器140とCOMPLETE10のシンセサイザ150とに関しては、以下を除いて、同じ実装を使用することができる(図2参照)。COMPLETE評価器/推定器140について上述した候補モデル品質の評価は、モード2では、COMPLETE/KAMモジュールのモデル推定ユニット415とポストセレクタ430とで分割することができる。プロセスのこの部分を分割することができる方法は、特定のCOMPLETE/KAMシステム実装の選定に依存することがあり、いくつかの選定について、以下に詳述する。ただし、COMPLETE/KAMモジュール415とポストセレクタ430とでモデル評価機能をどのように分けることができるかにかかわらず、プロセス全体および所与の方法の最適モデルを選択するために候補モデルを評価するために使用される指標は、ユニット140について使用されたプロセスおよび指標と同様である。さらに、いくつかの実施形態では、候補モデル出力は、それぞれのCOMPLETEまたはKAM推定ユニット内で合成されることに留意されたい。代替実施形態は、実施形態のいくつかについて、これらのモデル出力を合成するためにCOMPLETE/KAMモジュール415内のまたはその外側の他の構成要素を使用することができる。
図4に示したCOMPLETE/KAMモジュール415中の別個のCOMPLETE10およびKAM405は、記載を明瞭にするために、厳密には、異なる形態のCOMPLETE10およびKAMを表すために使用されることを理解されたい。いくつかのモデルタイプの推定は、単一のユニット内で達成することがき、あるいは何らかの方法でいくつかのユニットにわたって分割することができ、そのような場合には、所望のモデルに適した特定のタームを選択するためにソフトウェアまたはハードウェアが使用される。たとえば、4つの線形COMPLETEを推定するために、各々が1〜4の範囲の異なる数の遅延を有する4つの別個のユニットを使用する代わりに、COMPLETE/KAMモジュール415は、最高4つの遅延を可能にする単一のCOMPLETEユニットを有することができ、モデル推定プロセス中に遅延の所望の数を選定する。
COMPLETE/KAMモジュール415におけるモデル推定プロセスが完了すると、さらなる処理のために、モデル化結果をポストセレクタ430に供給することができる。図4に示すように、ポストセレクタ430は、COMPLETE/KAMモジュール415から結果を受信することができ、供給された結果を査定することもある。COMPLETE/KAMシステム400の特定の論理構造の選定は、いくつの処理がポストセレクタ430において実行されるかを制御する(いくつかの利用可能な論理構造は以下に記載する)。特定の実装形態は、記載した処理ステップのすべてまたは一部を組み込むことができる、あるいはそれらを1つも組み込むことができないことを理解したうえで、ポストセレクタ430が実行することができる機能の完全セットについて以下に記載する。
ポストセレクタ430において実行することができる1つの機能は、COMPLETE/KAMモジュール415から受信した分析結果の評価である。2つのタイプの評価を実行することができる。第1のタイプはモデル品質を評価し、このタイプの評価を使用して、単一のモデル化法から取得された様々な候補モデルの中から選択するのを補助することができる。評価の第2のタイプを使用して、COMPLETE/KAMモジュール415において異なるCOMPLETE10および/またはKAM405から取得された結果の中から選定することができる。評価の第1のタイプは、モード1でCOMPLETE推定器/評価器140について記載したモデル品質を評価するための方法を使用して、ポストセレクタ430において実装することができる。第2のタイプは、モード1におけるCOMPLETE推定器/評価器140と同じモデル品質を評価する方法を使用して実装することができるが、モデル品質に関するもの以外の性能尺度も含むことができる。例は、所与のパラメータセットを符号化するために必要なビット数に関するコーディング効率、計算量、環境雑音に対するモデルロバスト性、量子化ロバスト性、および当技術分野で知られており、手元の特定のアプリケーションに好適である他の性能指標を含む。すべてのこれらの知られている測度は、従来の方法を使用して計算することができる。さらに、複数の性能指標は、互いに連携してモデル品質に関係する測度とともに使用することができ、そのような場合には、評価は、典型的には、複数の指標に基づく性能トレードオフを含む。一例は、モデル品質とコーディング効率との間のトレードオフに関わる選択基準である。
評価結果は、ポストセレクタ430において行われる決定プロセスを制御することができる。1つの実装オプションは、ポストセレクタ430が、いくつかのプリセットクリテリアにしたがって最も良好なモデルを常に選択することであり、このモデルは、分析の最終結果として取られ、そのような場合には、ポストセレクタ430は、ポストプロセッサ440にモデル識別子コードとともに選択されたモデルパラメータを出力し、利用可能に場合には、選択された最適モデルのパラメータから復元された最終Yフレームを記憶装置420に出力する。最終Yが利用可能でない場合、ポストセレクタ430は、このYを合成し、それをユニット420に出力するように、COMPLETE/KAMモジュール415に命令する。代替的には、いくつかの実装オプションでは、ポストセレクタ430は、COMPLETE/KAMモジュール415においてモデル推定プロセスを続けることを選ぶことができる。モデル推定プロセスの新しい反復を開始するために、ポストセレクタ430は、COMPLETE/KAMモジュール415において、選択されたモデル推定ユニットをオンにし、任意の必要な入力をそれらに供給する。ポストセレクタ430を介して415中のユニットに供給されたデータフレームは、Xから導出された何らかの形態のデータを含むことができ、あるいは代替的には、この入力は、前の反復から取得することができ、たとえば、前の反復から取得された残差誤差である。これらのモデル推定ステップは、ポストセレクタ430が最終モデルを選び、選択されたモデルパラメータをモデル識別子コードとともにユニット440に出力し、また、直前に記載したように、選択されたモデルによって回復されるYフレームをユニットに420に出力することによってモデル推定プロセスを終了するまで、反復して繰り返すことができる。
COMPLETE/KAMシステム400について、プリセレクタ410、COMPLETE/KAMモジュール415およびポストプロセッサ430において実行される様々な機能を異なる論理シーケンスで組み合わせることができる3つの基本論理構造が存在する。これらの実施形態は、先決定(DF:Decision−First)実施形態、後決定(DL:Decision−Later)実施形態、および混合決定(MD:Mixed−Decision)実施形態と呼ばれることがある。音声コーダのためのMD実施形態の具体的な例は、モード3に示す。
先決定(DF):DF実施形態は、図4のプリセレクタ410において、モデルの選定に関するすべての決定を行い、COMPLETE、KAM、あるいはCOMPLETEおよび/またはKAMの組合せとすることができる所与のフレームXを符号化するための1つの特定の方法を選択する。DF実施形態の基本的な例は、基本的なCOMPLETE/KAMシステムが1つのCOMPLETEと1つのKAMとで構成されるCOMPLETE初期化のためのシステムである。この場合、ユニット410は、システム動作の開始時に(かつ、再初期化を必要とするイベントの後に)KAMを選択する単純なスイッチセットであり、その後、COMPLETE動作をイネーブルするために十分な信号履歴[Yk−p,・・・,Yk−1]をユニット420において生成する。これが行われた後、COMPLETEを選択するようにプリセレクタ410を設定することができる。COMPLETE10〜10およびKAM405〜405の複数の選定の中から選択することができるより複雑なDF実装を取得することができ、かかるDF実装は、プリセレクタ410に関する記載で上述したような入力Xの分析を採用する。
後決定(DL):DL実施形態は、プリセレクタ410ではなくポストセレクタ430において、1つまたは複数のモデルの選定に関するすべての決定を行う。DLストラテジにより、いくつかの可能な実施形態を可能になる。最も基本的なDLストラテジは、COMPLETE/KAM415において、すべての利用可能な方法オプションについての候補モデルを計算し、次いで、ポストセレクタ430は、モデル品質と、ポストセレクタ430について上述した他の性能尺度とを査定するための1つまたは複数の評価指標を使用して、それらのそれぞれの最良のモデルから取得された結果を比較することによって、すべての方法オプションの中から選択する。このストラテジは、たとえば、クリテリアの何らかの所定のセットにしたがって最も良好な実行モデルを選定することが目的であるときに使用することができる。より複雑なDLストラテジは、各ステップが、COMPLETE/KAM415において複数の候補モデルを生成することと、所望の性能が得られるまで、ポストセレクタ430においてこれらのモデルからの結果を評価することとを含む、いくつかの反復的ステップで構成することができる。たとえば、評価クリテリアがトレードオフを、たとえば、モデル品質についてのプリセット要件を満たしつつ、またはそれを上回りつつ、最低ビットレートを提供するCOMPLETE/KAMモデルを発見するための基準を含んでいるときに、このDLストラテジを使用することができる。この例では、最初に、上記方法を使用して、最低ビットレートを提供するモデルを発見することができ、その出力品質が所望の要件を満たしていない場合、所望の品質のモデルに達するまで次の最低ビットレートモデルについてこのプロセスが繰り返される。
反復的なDL実施形態は、知られている決定プロトコルに基づいて、より複雑な論理を組み込むことができる。たとえば、1つの反復的なステップによる結果を評価し、その結果に基づいて、次の反復のために、前のステップにおいて使用されたセットから、まったく異なるCOMPLETE10またはKAM405のセットをポストセレクタ430によって選定することができる。たとえば、ポストセレクタ430は、所与の反復の評価の結果に基づいて、使用する方法を、COMPLETE10からKAM405に切り替えてもよい。さらに、ポストセレクタ430は、元の入力フレームXから導出された信号について推定すべき、あるいは代替的には、前の反復のうちの1つにおいて評価されたモデルから取得された残差誤差について推定すべき新しいモデルを指示することができる。所定の数の反復が完了すると、反復プロセスは終了することができる。代替的には、ポストセレクタ430は、プリセットされたクリテリアを満たすモデルを発見すると、反復を終了すると決定することができる。
混合決定(MD):MD実施形態は、DFストラテジの属性とDLストラテジの属性とを組み合わせるために、プリセレクタ410とポストセレクタ430の両方を使用することができる。MD実施形態では、プリセレクタ410は、DF実施形態において行われる単一の方法を指定するのではなく、各フレームについて評価すべき可能な方法のセットを選択することができる。ユニット430は、選定されたモデルが評価された後、選定されたモデルの中からさらなる選択を行うことができる。したがって、410を使用して、所与のフレームについて考察する必要があるCOMPLETE/KAMモジュール415において、COMPLETE10およびKAM405の選定を絞り込むことができる。同時に、しかるべき場合には、ポストセレクタ430は、選定されたモデルを評価した後にこの判断を変更し、プリセレクタ410によって最初には選択されない別のモデルを選定することができる。
上述のストラテジは、様々な方法でCOMPLETEとKAMとを組み合わせる、可能な実施形態の無限セットを展開する少数の基本的なシステム実装オプションを表すことを理解されたい。
復号化
すべてのCOMPLETE/KAM実施形態では、デコーダは、受信したモデル識別子コードを評価し、それに応じて、Xを符号化するために使用される方法に対応する方法を使用して、出力信号Yを再構成する。コーダによって使用されるそのような方法は、COMPLETEまたはKAMでも、あるいはCOMPLETEおよび/またはKAMの組合せでもよい。KAMによって符号化された信号の各部分は、そのKAMのための知られている復号方法を使用して復号される。COMPLETEによって符号化された信号の各部分は、モード1に記載した対応するCOMPLETE復号方法を使用して復号される。復元されたフレームは、コーダ側の記憶装置420中の復元されたフレームの蓄積をミラーリングする方法で、デコーダの記憶ユニットに蓄積され、必要に応じて、将来のフレームを復元する際に使用される。
モード3:音声コーダ/デコーダ
モード3は、モード1およびモード2で論じた実施形態のいくつかの具体的な例を提供する。図5に、本発明の一実施形態による、マルチモードCOMPLETE/PACT実装を利用する音声分析(符号化)システムの一例を示す例示的なブロック図を示す。図5は、現代のコーデックのビットレートに匹敵するビットレートでトール品質音声を生成することが可能であり、本発明のモード2に記載した混合COMPLETE/KAMストラテジを使用して実装される音声コーダ50の必須の部分のブロック図を示している。重要なポイントのうちのいくつかをより簡単に示すことができるように、モード3は、COMPLETEモデルの完全発振器(COM:Complete Oscillator)部分を使用する。モデルのCOM部分は、データ履歴および現在のフレームからのみ導出された参照を使用し、外部参照を使用しない。記載を簡単にするために、モード3に使用されるモデルをCOMと呼ぶ。図5の音声コーダは、プリプロセッサモジュール500と、初期化プロセスを制御するプリセレクタユニット510と、1つのCOM推定ユニット525および1つのKAM推定ユニット535を含むCOM/PACT符号化モジュール515とを含み、以下に詳述するパルス型自己回帰コンペンセータ(PACT:Pulsed Autoregressive Compensator)法を実装する。音声コーダ50は、COM525がアクセスすることができる復元された以前の入力[Yk−p,・・・,Yk−i]を含む記憶ユニット520と、標準(非初期化)モードでモデル選択プロセスを制御し、以下に記載する関連情報をユニット520およびポストプロセッサ540にルーティングすることによって「最良の」モデルが発見された後に出力プロセスを開始するポストセレクタ530とをさらに含むことができる。ポストプロセッサ540は、モード2に記載した図4のポストプロセッサ440と同様に動作し、したがって、その説明は省略する。
図5のプリプロセッサ500は、モード1について上述した前処理モジュール120について記載されているが(図1を参照)、音声コーディングアプリケーションに適応した同じ一般的な方法を使用して入力データを処理する。入力データは、アナログの場合にはサンプリングされ、既存の技術によるウィンドウのうちの1つを使用してフレームを生成するためにウィンドウ化され、一般的な選定は、ハミングウィンドウ、ハンウィンドウまたはカイザーウィンドウである。データポイントの何らかの固定数だけそれらの先行する入力フレームと重複する入力データのフレームを生成するために、ウィンドウ化演算を適用されることができる。典型的には、フレームはまた、多くの知られている方法のうちの1つを使用して、雑音を除去するためにフィルタ処理される。音声コーディングでは、5ミリ秒(ms)から40msに及ぶウィンドウが一般的である。いくつかの実施形態では、モード3は20msの三角ウィンドウと、50%フレーム重複とを使用する。生成されたフレームは各々、プリプロセッサ530によってプリセレクタ510に出力することができる。
プリセレクタ510は、COM525またはPACT535のいずれかに現在の入力フレームを供給し、COM/PACTモジュール515においてどのモデルが最初に使用されるかを制御する。プリセレクタ510における動作は、いくつかの違いはあるが、モード2でのプリセレクタ410における初期化プロセスのために提供された概略的な説明に従う。詳細には、プリセレクタ510は、動作の開始時に、または入力信号中のブレークを検出した後に、「初期化」モードに切り替わる。所与の実装では、ユニット510は、1つのピッチ周期の最大時間帯であることが予想されるものをキャプチャするために、十分なフレームがユニット520に蓄積されるまで「初期化」モードのままでいる。たとえば、標準的なアメリカ英語で話されたコーディング音声では、典型的には、ユニット520において、フレーム中の32msの連続音声をキャプチャすることで十分である。モード1に記載する他の問題は、記憶ユニット520に蓄積された複数のフレームも影響を及ぼすことがある。蓄積が完了した後、ユニット510を「標準」モードに切り替えることができる。「初期化」モードである間、ユニット510は、このフレームのモデル化を開始するために、現在の入力フレームにそれを入力することによって、モジュール515中のPACTユニット535をアクティブ化することができる。「標準」モードで間、プリセレクタ510は、受信されたフレームをCOM525に入力することによって、COM/PACTモジュール515中のCOMユニット525をアクティブ化する。
いくつかの実施形態では、図5のCOM/PACTモジュール515は、式(2)に示した形態の線形4遅延COMを推定するCOM525と、以下に記載する自己回帰線形予測子モデルを推定するPACT535とを含むことができる。提示された実施形態では、8次自己回帰線形予測子モデルが使用される。代替実施形態は、異なる数の遅延およびCOMの非線形関数形式、ならびに異なる次数のPACT535およびPACTではないKAMをもつCOM525を使用することができる。COM525において、モード1に上述した一般的なCOM推定プロシージャの以下の実施形態を使用してCOMの推定を実行する。最初に、以下に記載するように量子化されるすべての可能なパラメータのセットについて、候補モデル出力{Y [COM],j=1,・・・,J}のセットを計算する。上述の説明と同じように、上付き文字^は、ここでは、候補値を示すために使用され、表記法[ ]は、所与の変数を計算するために使用される方法を示し、下付き文字jは、個々の候補パラメータセットを示すために使用されるインデックスである。次いで、前述の式(7)の知覚的に重み付けされた誤差(PWE)指標を使用して、各候補モデルY [COM]の品質を評価することができ、最小PWEをもたらすパラメータ値を、最適モデルを提供するものとして識別し、これらのパラメータを、対応する出力Y[COM]とともにポストセレクタ530に供給する。
以下のように、PACT535においてPACTモデルの推定を実行することができる。いくつかの実施形態では、下記の式にしたがって、8次自己回帰線形予測子モデルを求める。
Figure 2014502366
ここで、Xは、前述のように、何らかのL長入力シーケンスを示し、X(z)は、遅延zであるデータのL長ブロックであり、それは、ブロックがX中の最後の点の前のz個のサンプルを開始することを意味し、Eは、予測誤差として知られているモデル化誤差であり、bは、たとえば、レビンソン−ダービンアルゴリズムまたは従来技術にしたがった何らかの他の方法を使用してEを最小限に抑えることによって発見される係数を表す。入力は、式(9)にしたがって推定されたパラメータから再生成され、ただし、Eは、通常、式(10)に示すように近似される。Rで示される近似は、以下の通り、ディラックのデルタ関数によって表されるスケーリングされた時間シフトパルスの組合せとして計算される。
Figure 2014502366
ここで、δp(v)は、現在のフレーム内の点p(v)で振幅1であり、その他の場合には0であるディラックのデルタ関数を示し、
p(v)は、現在のフレーム内のパルスvの位置を示し、
は、パルスvの利得を示し、
Pは、近似において使用されるパルス数であり、所与の実施形態ではP=8である。
PACTモデルの候補パラメータセットは、パルス位置{p}と係数{c}とで構成され、複数の方法を使用して生成することができる。このモードにおいてCOMパラメータを生成するために採用される1つのオプションは、同じ方法を適応させることである。この場合、遅延{d}と同じ方法でパルス位置{p}を選定することができ、式(3)の{a}と同じ方法で係数{c}を計算することができる。また、本発明おける特許請求の範囲を減少させることなく、他の基本的なパラメータ生成法を使用することができる。また、たとえば、以下に記載するように、PACTモデルパラメータを量子化されることができ、上述の候補COMの評価と同じ指標を使用して候補PACTモデルの品質を評価することができる。具体的には、候補PACTモデルからの合成結果を表す{Y [PACT],j=,・・・,T}を発見し、それを使用してPWEを計算する。最適モデルを提供するように、最小PWEをもたらすパラメータ値を選択される。
COMモデルおよびPACTモデルのパラメータは、COM/PACTモジュール515中のそれぞれのユニットにおいて量子化することができる。以下の実施形態は、8kHzレートで入力がサンプリングされる狭帯域音声コーダを仮定する。この場合、20msの入力フレームは、COMについての256個の可能な遅延値とPACTモデルについての160個のパルス位置とに変換する160個のデータポイント(L=160)を含むことができ、値のセットはいずれも正の整数である。両セットは、8ビットを使用して直接的に量子化することができる。使用するビット数を低減するために、モード3のこの実施形態は、遅延およびパルスロケーションをインターリーブされたサブセットに区分する以下の知られている方法を使用することができる。
遅延は、64個のエントリを含むサブセットに区分することができ、各サブセット内の個々の位置は6ビットを使用して表される。PACTパルスロケーションは32個のエントリを含むサブセットに区分され、各グルーピング内の個々の位置は5ビットを使用して表される。COM係数{a}は、知られているベクトル量子化法の1つを使用して、12ビットに量子化される。したがって、この実施形態のCOMコードにおいて使用される総ビット数は、(6*4)+12=36ビット/フレームである。PACT線形予測子モデルの係数は、当技術分野に標準的であるように、線スペクトル周波数に変換することができ、知られている分割ベクトル量子化法を使用して量子化することができる。次いで、結果を、各々4つの周波数の2つのサブベクトルに分け、11ビットを使用して各サブベクトルを符号化し、その結果、合計11+11=22ビットが係数を表すことになる。PACTモデルにおけるパルスの重みは、知られているベクトル量子化法のうちの1つを使用して13ビットに量子化され、その方法は、COM係数を量子化するために使用される方法と同じ方法とすることができる。この例でPACTを表すために使用される総ビット数は、22+(5*8)+13=75ビット/フレームである。
コーダの動作モードは、ポストセレクタ530において実行される機能のシーケンスを制御する。「初期化」モードでは、システム50が進行して次のフレームを処理している間に、ポストセレクタ530は、最適なPACTモデルについての量子化パラメータセットを受信し、以下に記載するコードを出力するプロセスを開始する。「標準」モードでは、ポストセレクタ530は、最良の候補COMモデルから得られた合成出力Y[COM]を、対応する量子化パラメータセットとともにモジュール515から受信し、Y[COM]を使用して、式(5)で求められる信号対雑音比(SNR)指標を計算する。上付き文字*は、所与の変数が得られる最適モデルを示す。SNR[COM]が何らかの所定の量(たとえば、本実施形態では、1dBを使用する)よりも小さい場合、信号の冗長性は不十分であり、フレームを符号化するためにPACTモデルを使用しなければならないことを示すものとして解釈される。この場合、ポストセレクタ530は、プリセレクタ510に、PACT推定を開始するCOM/PACTモジュール515中のPACTユニットにXを入力するようにプロンプトを出す。そうでない場合、ポストセレクタ530は、PACT推定を開始するCOM/PACTモジュール515中のPACTユニットに残差誤差E=X−Y[COM]を供給する。
入力Xまたは残差誤差成分Eのいずれかを含むフレームをPACT535が受信した後、第2のモデル推定が実行され、既述の方法と同様に、PACTモデルを推定し、いずれの場合の受信フレームもモデル化すべき入力として処理される。現在の反復において最適な「PACTを発見された後、入力Xkがモデル化された場合には対応する合成出力Y[PACT]が、あるいは残差誤差Ekがモデル化された場合にはY[COM+PACT]が、PACT535によって、対応する量子化パラメータセットとともにポストセレクタ530に供給され、式(6)によって求められるLogスペクトル距離(LSD)指標を計算するために使用される。入力Xが第2の反復においてモデル化される場合には、ポストセレクタ530は、以下に記載するコードを出力するプロセスを開始し、システムが進行して、次のフレームを処理する。他の場合は、両方の合成出力Y[COM]とY[COM+PACT]について、LSD指標が計算される。2つ合成出力の差が何らかのしきい値よりも小さい場合、たとえば、この実施形態ではLSD〔COM〕−LSD[COM*+PACT]<0.5dBが使用される場合、COM525が最終モデルとして選定され、そうでない場合には、PACT535が選定される。いずれの場合においても、ポストセレクタ530は、以下で説明するように、コードを出力することのプロセスを開始し、システムが進行して、次のフレームXk+1を処理する。
ポストセレクタ530においてコードを出力するプロセスは、選定されたパラメータとモデル識別子コードとをポストプロセッサ540に供給することで構成される。さらに、出力プロセスの一部として、ポストセレクタ530は、典型的にはモデル識別のプロセスで計算された、選定されたパラメータから合成された信号を記憶装置520に供給し、そうでない場合、ポストセレクタ530は、その計算を開始することができる。
記載した基本的な実施形態は、平均9.77キロビット/秒(kbps)の無雑音試験条件でトール品質音声を生成する。このコーダの全体的性能は、ビットレートと知覚品質の両方に関して、最新技術G.729と最高品質モードで動作するAMRコーダとの中間である。現在のモードにおいて使用される基本的な実施形態は、簡単かつ明瞭に提示するために選択された例である。また、上記で指定されたパラメータに対する変更は、限定されずに、本発明によって網羅される。さらに、モード1およびモード2に記載した原理に基づいて様々な最適化オプションを実装することによって、本明細書に記載したベースラインから、コーダ性能を向上させることができる。
デコーダにおける音声復元
モード3の場合、音声フレームは、上述のモード1およびモード2の復号方法を使用してデコーダにおいて再構成される。
本発明の教示に照らして本発明の教示によれば、当業者には、上記ステップおよび/またはシステムモジュールのいずれかを適切に交換する、並べ替える、および除去さすることができ、特定の適用例のニーズに応じて、追加のステップおよび/またはシステムモジュールを付け加えることができること、ならびに、上記実施形態のシステムは、多種多様な好適なプロセスおよびシステムモジュールのいずれかを使用して実装することができ、特定のコンピュータハードウェア、ソフトウェア、ミドルウェア、ファームウェア、マイクロコードなどに限定されるものではないことが容易に認識されるであろう。コンピューティングマシン上で本出願に記載した任意の方法ステップを実行することができる場合、典型的なコンピュータシステムは、適切に構成または設計されたときに、本発明のそれらの態様を実施することができるコンピュータシステムとして機能することができる。
図6に、適切に構成または設計されたときに、本発明を実施することができるコンピュータシステムとして機能することができる典型的なコンピュータシステムを示す。コンピュータシステム600は、主記憶装置606(典型的には、ランダムアクセスメモリまたはRAM)を含む記憶デバイスと1次記憶装置604(典型的には読取り専用メモリまたはROM)とに結合された任意の数のプロセッサ602(中央処理ユニットまたはCPUとも呼ばれる)を含む。CPU602は、(たとえば、埋込み型RAM/ROMを備える)マイクロコントローラと、プログラマブルデバイス(たとえば、RISCまたはSISCベースの、あるいはCPLDおよびFPGA)およびゲートアレイASICまたは汎用マイクロプロセッサのような非プログラマブルデバイスなどのマイクロプロセッサを含む様々なタイプのものとすることができる。よく知られているように、1次記憶装置604は、データおよび命令をCPUに短方向で転送するよう働き、1次記憶装置606は、典型的にはデータおよび命令を双方向で転送するために使用される。これらの1次記憶デバイス両方とも、上述したもののような任意の好適な非一時的コンピュータ可読媒体を含み得る。また、CPU602に大容量記憶デバイス608を双方向に結合することができ、大容量記憶デバイス608は、追加のデータ記憶容量を提供して、上述の非一時的コンピュータ可読媒体のうちのいずれかを含み得る。大容量記憶デバイス608は、プログラム、データなどを記憶するために使用されることができ、典型的には、ハードディスクのような2次記憶媒体である。大容量記憶デバイス608内に保持される情報は、適切な場合には、標準的な方法で、仮想メモリとしての1次記憶装置606の一部として組み込むことができることが理解されよう。また、CD−ROM614のような特定の大容量記憶デバイスは、単方向でデータをCPUにパスすることができる。
また、CPU602は、ビデオモニタ、トラックボール、マウス、キーボード、マイクロフォン、タッチセンシティブディスプレイ、トランスデューサカードリーダ、磁気テープ読取り装置または紙テープ読取り装置、タブレット、スタイラス、ボイス認識装置または手書き認識装置、あるいはもちろん、他のコンピュータのような他のよく知られている入力デバイスなど、1つまたは複数の入出力デバイスに接続するインターフェース610に結合することができる。最後に、CPU602は、任意選択で、612に全般的に示すような外部接続を使用して、データベースまたはコンピュータまたは電気通信またはインターネットネットワークのような外部デバイスに結合することができ、612は、好適な従来の技術を使用して、ハードワイヤードまたはワイヤレス通信リンクとして実装することができる。そのような接続を用いると、CPUは、本発明の教示において説明した方法ステップを実行する過程において、ネットワークから情報を受信することができ、またはネットワークに情報を出力することができることが企図される。
任意の添付の要約書および図面を含めて、本明細書に開示したすべての特徴は、
別段に明記されていない限り、同じ目的または等価の目的または同様の目的を果たす代替的特徴によって交換することができる。したがって、別段に明記されていない限り、開示した特徴は各々、包括的な一連の同等の特徴または同様の特徴の1つの例に過ぎない。
本発明の1つの実施形態を十分に説明したので、当業者には、本発明による信号コーディングおよび復号化の他の等価の方法または代替的な方法が明らかであろう。本発明を例として上述してきたが、開示した特定の実施形態は、本発明を開示した特定の形態に限定することを目的とするものではない。したがって、本発明は、添付の特許請求の範囲の趣旨および範囲内となるすべての修正形態、均等形態、代替形態を網羅するものである。
本出願のクレーム要素およびステップは、読みやすさと理解とを単に補助するために番号が付された、および/または符号が付されたものである。任意のそのような番号および符号自体は、特許請求の範囲の要素および/またはステップの順序を示すことを意図するものではなく、また、そのように解釈すべきではない。

Claims (19)

  1. 実行可能プログラムがその上に記憶された非一時的なコンピュータ読取可能記憶媒体であって、データ信号を分析し、モデル化するための前記プログラムが、プロセッサに対し、
    データフレームを生成するために前記データ信号を前処理するステップであって、前記前処理するステップが、前記データ信号をサンプリングすること、前記データ信号を変換すること、前記データ信号を平滑化すること、ならびに、前記データ信号を、別個の入力としてモデル化すべき1つまたは複数の成分に分解することが可能である、前処理するステップと、
    モデルパラメータを決定するために、前記データフレームを、参照バッファから引き出される波形の固定長ブロックの組合せとしてモデル化するステップであって、前記参照バッファが、現在のフレームの最も最近のデータポイントを除くすべてを備える、モデル化するステップと、
    最適モデルを選択するために、複数のモデルの品質を評価するステップと、
    計算された前記モデルパラメータを処理するステップであって、前記処理するステップが、前記データ信号を記憶し、送信し、分析し、分類することが可能である、処理するステップと
    を含む方法を実行するように命令する、非一時的なコンピュータ読取可能記憶媒体。
  2. 前記現在のデータフレームを参照することなく、前記最適モデルのパラメータから復元された前記波形、
    前記最適モデルのパラメータのサブセットから復元された前記波形、
    すべての利用可能なデータを使用して前記最適モデルから推定された出力、および
    モデル化されている前記データフレーム
    のうちの少なくとも1つを記憶し、それらを将来の計算のために利用可能にするステップをさらに含む、請求項1に記載の方法。
  3. 前記参照バッファが、
    予めモデル化されたデータ、および/または
    予めモデル化されたデータの前記モデルパラメータから復元されたフレーム
    のうちの少なくとも1つから導出された追加の参照を備える、請求項2に記載の方法。
  4. 前記参照バッファが、記憶された波形自体の辞書またはそれらのパラメータから取り出され、および/または現在のデータフレームから導出される2つの手段のうちの少なくとも1つ手段によって導出された追加の参照をさらに備える、請求項3に記載の方法。
  5. モデル品質の前記評価が1つまたは複数の指標を使用し、前記指標が、参照するすべての前記利用可能なデータポイントを使用して計算されたモデル出力、ならびに前記入力フレームについての復元された値を使用して合成されたモデル出力のうちの1つまたは複数の関数であり、前記合成が、評価される前記モデルの実際のパラメータまたは近似パラメータを使用する、請求項1に記載の方法。
  6. 前記モデルパラメータを変換する、および/または量子化するステップをさらに含む、請求項1に記載の方法。
  7. 実行可能プログラムがその上に記憶された非一時的なコンピュータ読取可能記憶媒体であって、モデルパラメータからデータフレームを復号するための前記プログラムが、プロセッサに対し、
    前記データフレームを符号化するために使用されるパラメータを含むコードを収集するステップと、
    参照波形を合成するためのパラメータを前記コードが含んでいるかどうかを判断し、含んでいる場合には、前記参照波形を合成するステップと、
    前記パラメータのいずれかが、復号される前記フレーム内に含まれているデータをインデックス付けするかどうかを判断するステップと、
    前記パラメータが、復号される前記フレームの外側に含まれているデータのみをインデックス付けするときに、前記データフレーム全体を一度に合成するステップであって、前記合成が、前記収集されたコード中の前記パラメータの値を使用して、エンコーダが使用する分析式を評価することによって実行される、前記データフレーム全体を一度に合成するステップと、
    パラメータが、復号される前記フレーム内に含まれている少なくとも1つのデータポイントをインデックス付けするときに、前記フレームの個々の点を逐次合成するステップであって、前記合成が、前記エンコーダによって使用されるパラメータ化された分析式中のブロックの代わりに、単一ポイントを代入することによって実行される、前記フレームの個々の点を逐次合成するステップと
    を含む方法を実行するように命令する、非一時的なコンピュータ読取可能記憶媒体。
  8. 実行可能プログラムがその上に記憶された非一時的なコンピュータ読取可能記憶媒体であって、データ信号を分析し、モデル化するため前記プログラムが、プロセッサに対し、
    前記データ信号を収集するステップと、
    データフレームを生成するために前記データ信号を前処理するステップであって、前記前処理するステップが、前記データ信号をサンプリングすること、前記データ信号を変換すること、前記データ信号を平滑化すること、ならびに、前記データ信号を、前記分析において別個の入力フレームとして処理すべき1つまたは複数の成分に分解することが可能である、前処理するステップと、
    複数のモデル化法の中から選択するステップであって、前記選択するステップが、入力信号のプロパティおよび前記モデル化された出力のプロパティを選択的に評価し、前記評価の結果に基づいて、前記モデル化法を指示することが可能である、選択するステップと、
    前記データフレームの一部または全部の特徴を、参照バッファから引き出される波形の固定長ブロックの組合せとして選択的にモデル化するステップと、
    前記データフレームの残りの特徴を選択的にモデル化するステップと、
    最適モデルを選択するために、複数の推定候補モデルの品質を評価するステップと、
    計算されたモデルパラメータを処理するステップであって、前記処理するステップが、前記データ信号を記憶するための手段、送信するための手段、分析するための手段、また分類するための手段を提供する、処理するステップと
    を含む方法を実行するように命令する、非一時的なコンピュータ読取可能記憶媒体。
  9. 前記現在のデータフレームを参照することなく、前記最適モデルのパラメータから復元された波形、
    前記最適モデルのパラメータのサブセットから復元された前記波形、
    すべての利用可能なデータを使用して前記最適モデルから推定された出力、および
    モデル化されている前記データフレーム
    のうちの少なくとも1つを記憶し、それらを将来の計算のために利用可能にするステップをさらに含む、請求項8に記載の方法。
  10. 前記データフレーム全体が、1つの方法のみを使用してモデル化される、請求項8に記載の方法。
  11. モデル品質の前記評価が、1つまたは複数の指標を使用し、前記指標が、参照するすべての前記利用可能なデータポイントを使用して計算されたモデル出力、ならびに前記入力フレームについて復元された値を使用して合成されたモデル出力うちの1つまたは複数の関数であり、前記合成が、評価される前記モデルの実際のパラメータまたは近似パラメータを使用する、請求項8に記載の方法。
  12. 前記モデルパラメータを変換する、および/または量子化するステップをさらに含む、請求項8に記載の方法。
  13. 記信号が、オーディオ信号を含む、請求項11に記載の方法。
  14. 前記データ信号が、2D画像から抽出されたシーケンスを含む、請求項11に記載の方法。
  15. 実行可能プログラムがその上に記憶された非一時的なコンピュータ読取可能記憶媒体であって、モデルパラメータからデータフレームを復号するための前記プログラムが、プロセッサに対し、
    前記データフレームを符号化するために使用されるパラメータを含むコードを収集するステップと、
    任意の参照波形を合成するためのパラメータを前記コードが含んでいるかどうかを判断し、前記参照波形を合成し、それを参照バッファに入れるステップと、
    前記コードから、前記データフレームを符号化する際に使用された特定の方法およびモデルを識別するステップと、
    前記コードを生成するために使用されるモデル化ステップを反転させることによって、前記受信したコードからデータフレームを合成するステップと、
    を含む方法を実行するように命令する、非一時的なコンピュータ読取可能記憶媒体。
  16. 処理デバイスによって実行されたとき、請求項1に記載の方法を実行するように構成された命令のセットを含む非一時的なコンピュータ読取可能記憶媒体を備えるコンピュータ実装システム。
  17. 処理デバイスによって実行されたとき、請求項7に記載の方法を実行するように構成された命令のセットを含む非一時的なコンピュータ読取可能記憶媒体を備えるコンピュータ実装システム。
  18. 処理デバイスによって実行されたとき、請求項8に記載の方法を実行するように構成された命令のセットを含む非一時的なコンピュータ読取可能記憶媒体を備えるコンピュータ実装システム。
  19. 処理デバイスによって実行されたとき、請求項15に記載の方法を実行するように構成された命令のセットを含む非一時的なコンピュータ読取可能記憶媒体を備えるコンピュータ実装システム。
JP2013536900A 2010-10-29 2011-10-28 低ビットレート信号コーダおよびデコーダ Expired - Fee Related JP5815723B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/915,989 US8620660B2 (en) 2010-10-29 2010-10-29 Very low bit rate signal coder and decoder
US12/915,989 2010-10-29
PCT/US2011/058479 WO2012058650A2 (en) 2010-10-29 2011-10-28 Low bit rate signal coder and decoder

Publications (3)

Publication Number Publication Date
JP2014502366A true JP2014502366A (ja) 2014-01-30
JP2014502366A5 JP2014502366A5 (ja) 2015-05-07
JP5815723B2 JP5815723B2 (ja) 2015-11-17

Family

ID=45994838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013536900A Expired - Fee Related JP5815723B2 (ja) 2010-10-29 2011-10-28 低ビットレート信号コーダおよびデコーダ

Country Status (11)

Country Link
US (3) US8620660B2 (ja)
EP (1) EP2633625A4 (ja)
JP (1) JP5815723B2 (ja)
KR (1) KR101505341B1 (ja)
CN (1) CN103348597B (ja)
AU (1) AU2011320141B2 (ja)
BR (1) BR112013010518A2 (ja)
IL (1) IL226045A (ja)
MX (1) MX337311B (ja)
RU (1) RU2565995C2 (ja)
WO (1) WO2012058650A2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8620660B2 (en) * 2010-10-29 2013-12-31 The United States Of America, As Represented By The Secretary Of The Navy Very low bit rate signal coder and decoder
EP2731377A4 (en) * 2012-03-02 2014-09-10 Huawei Tech Co Ltd METHOD AND DEVICE FOR IDENTIFYING AND OBTAINING AMBE CODING PERFORMANCE AND DECODING INFORMATION IN SDP
FR3023646A1 (fr) * 2014-07-11 2016-01-15 Orange Mise a jour des etats d'un post-traitement a une frequence d'echantillonnage variable selon la trame
US9456075B2 (en) * 2014-10-13 2016-09-27 Avaya Inc. Codec sequence detection
CN107113357B (zh) * 2014-12-23 2021-05-28 杜比实验室特许公司 与语音质量估计相关的改进方法和设备
US10542961B2 (en) 2015-06-15 2020-01-28 The Research Foundation For The State University Of New York System and method for infrasonic cardiac monitoring
RU2610285C1 (ru) * 2016-02-15 2017-02-08 федеральное государственное казенное военное образовательное учреждение высшего образования "Военная академия связи имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации Способ распознавания протоколов низкоскоростного кодирования
RU2667462C1 (ru) * 2017-10-24 2018-09-19 федеральное государственное казенное военное образовательное учреждение высшего образования "Военная академия связи имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации Способ распознавания протоколов низкоскоростного кодирования речи
CN110768680B (zh) * 2019-11-04 2024-03-29 重庆邮电大学 一种scl剪枝技术联合球型列表译码的方法及装置
CN116110409B (zh) * 2023-04-10 2023-06-20 南京信息工程大学 一种ASIP架构的大容量并行Codec2声码器系统及编解码方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002062899A (ja) * 2000-08-23 2002-02-28 Sony Corp データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
WO2007132750A1 (ja) * 2006-05-12 2007-11-22 Panasonic Corporation Lspベクトル量子化装置、lspベクトル逆量子化装置、およびこれらの方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1179803B (it) * 1984-10-30 1987-09-16 Cselt Centro Studi Lab Telecom Metodo e dispositivo per la correzione di errori causati da rumore di tipo impulsivo su segnali vocali codificati con bassa velocita di ci fra e trasmessi su canali di comunicazione radio
JP3343965B2 (ja) 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5717819A (en) * 1995-04-28 1998-02-10 Motorola, Inc. Methods and apparatus for encoding/decoding speech signals at low bit rates
US6014622A (en) 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
JP4121578B2 (ja) * 1996-10-18 2008-07-23 ソニー株式会社 音声分析方法、音声符号化方法および装置
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
JP2001507822A (ja) 1997-09-30 2001-06-12 シーメンス・アクチエンゲゼルシャフト スピーチ信号のエンコード方法
DE60001904T2 (de) * 1999-06-18 2004-05-19 Koninklijke Philips Electronics N.V. Audio-übertragungssystem mit verbesserter kodiereinrichtung
WO2001041451A1 (en) * 1999-11-29 2001-06-07 Sony Corporation Video/audio signal processing method and video/audio signal processing apparatus
SE517156C2 (sv) * 1999-12-28 2002-04-23 Global Ip Sound Ab System för överföring av ljud över paketförmedlade nät
DE60113034T2 (de) * 2000-06-20 2006-06-14 Koninkl Philips Electronics Nv Sinusoidale kodierung
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
JP3876781B2 (ja) * 2002-07-16 2007-02-07 ソニー株式会社 受信装置および受信方法、記録媒体、並びにプログラム
CN1846253B (zh) * 2003-09-05 2010-06-16 皇家飞利浦电子股份有限公司 低比特率音频编码
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
RU2260032C1 (ru) * 2004-04-13 2005-09-10 Глущенко Виктор Николаевич Способ разрушения водонефтяной ловушечной эмульсии
CA2596341C (en) * 2005-01-31 2013-12-03 Sonorit Aps Method for concatenating frames in communication system
DE602006016017D1 (de) * 2006-01-09 2010-09-16 Nokia Corp Steuerung der dekodierung binauraler audiosignale
JP5749462B2 (ja) * 2010-08-13 2015-07-15 株式会社Nttドコモ オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム
US8620660B2 (en) * 2010-10-29 2013-12-31 The United States Of America, As Represented By The Secretary Of The Navy Very low bit rate signal coder and decoder
US9275644B2 (en) * 2012-01-20 2016-03-01 Qualcomm Incorporated Devices for redundant frame coding and decoding

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002062899A (ja) * 2000-08-23 2002-02-28 Sony Corp データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
WO2007132750A1 (ja) * 2006-05-12 2007-11-22 Panasonic Corporation Lspベクトル量子化装置、lspベクトル逆量子化装置、およびこれらの方法

Also Published As

Publication number Publication date
US20120109653A1 (en) 2012-05-03
US10686465B2 (en) 2020-06-16
BR112013010518A2 (pt) 2016-08-02
KR101505341B1 (ko) 2015-03-23
KR20130086234A (ko) 2013-07-31
CN103348597A (zh) 2013-10-09
WO2012058650A3 (en) 2012-09-27
EP2633625A2 (en) 2013-09-04
IL226045A (en) 2016-05-31
JP5815723B2 (ja) 2015-11-17
MX2013004802A (es) 2014-05-09
US20180358981A1 (en) 2018-12-13
AU2011320141B2 (en) 2015-06-04
AU2011320141A1 (en) 2013-06-27
IL226045A0 (en) 2013-06-27
RU2013124363A (ru) 2014-12-10
CN103348597B (zh) 2017-01-18
EP2633625A4 (en) 2014-05-07
MX337311B (es) 2016-02-25
WO2012058650A2 (en) 2012-05-03
US20130214943A1 (en) 2013-08-22
US10084475B2 (en) 2018-09-25
US8620660B2 (en) 2013-12-31
RU2565995C2 (ru) 2015-10-20

Similar Documents

Publication Publication Date Title
JP5815723B2 (ja) 低ビットレート信号コーダおよびデコーダ
ES2433043T3 (es) Conmutación del modo de codificación ACELP a TCX
JP5719941B2 (ja) オーディオ信号の効率的なエンコーディング/デコーディング
KR102626320B1 (ko) 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
JP2011518345A (ja) スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
CN104969290A (zh) 用于对音频帧丢失隐藏进行控制的方法和设备
KR102593442B1 (ko) 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
JP2017156767A (ja) 低または中ビットレートに対する知覚品質に基づくオーディオ分類
CN105074820A (zh) 用于确定内插因数组的系统和方法
Vali et al. End-to-end optimized multi-stage vector quantization of spectral envelopes for speech and audio coding
EP0950238B1 (en) Speech coding and decoding system
Giacobello Sparsity in linear predictive coding of speech
Kassim et al. Compressive sensing based low bit rate speech encoder
RU2823081C1 (ru) Способы и система для кодирования на основе формы сигналов аудиосигналов с помощью порождающей модели
Ramadass et al. Textless NLP--Zero Resource Challenge with Low Resource Compute
JP2023175767A (ja) 1つ以上の畳み込みネットワークおよび/またはリカレントネットワークを使用したエンドツーエンドの敵対的ブラインド帯域幅拡張のための装置および方法
EP4046155A1 (en) Methods and system for waveform coding of audio signals with a generative model
Lupini Harmonic coding of speech at low bit rates
Merazka et al. Robust split vector quantization of LSP parameters at low bit rates
Purnhagen Very low bit rate parametric audio coding
Gibson et al. Source models and rate distortion bounds for speech
Raol et al. EFFICIENT VECTOR QUANTIZATION OF LSF PARAMETERS
Mikhael et al. A new linear predictor employing vector quantization in nonorthogonal domains for high quality speech coding
Merazka Codebook Design Using Simulated Annealing Algorithm for Vector Quantization of Line Spectrum Pairs

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141028

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150226

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20150226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150306

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20150323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150924

R150 Certificate of patent or registration of utility model

Ref document number: 5815723

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees