JP2012163981A - オーディオコーデックポストフィルタ - Google Patents

オーディオコーデックポストフィルタ Download PDF

Info

Publication number
JP2012163981A
JP2012163981A JP2012104721A JP2012104721A JP2012163981A JP 2012163981 A JP2012163981 A JP 2012163981A JP 2012104721 A JP2012104721 A JP 2012104721A JP 2012104721 A JP2012104721 A JP 2012104721A JP 2012163981 A JP2012163981 A JP 2012163981A
Authority
JP
Japan
Prior art keywords
coefficient
frame
band
frequency domain
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012104721A
Other languages
English (en)
Other versions
JP5688852B2 (ja
Inventor
Xiaoqin Sun
スン シャオチン
Tian Wang
ワン チィエン
A Khalil Hosam
エー.カリル ホサム
Kazuhito Koishida
コイシダ カズヒト
Wei-Ge Chen
チェン ウェイ−ゲ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2012163981A publication Critical patent/JP2012163981A/ja
Application granted granted Critical
Publication of JP5688852B2 publication Critical patent/JP5688852B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Stereophonic System (AREA)

Abstract

【課題】 再構築されたオーディオ信号を処理するための技法およびツールを提供する。
【解決手段】 再構築されたオーディオ信号は、周波数ドメイン内で少なくとも一部が計算されるフィルタリング係数を使用して、時間ドメイン内でフィルタリングされる。他の例として、再構築されたオーディオ信号をフィルタリングするためのフィルタリング係数のセットを生成することは、係数値のセットにおける1つまたは複数の山をクリッピングすることを含む。さらに他の例として、サブ帯域コーデックの場合、2つのサブ帯域の交差部分付近の周波数領域で、再構築された合成信号が拡張される。
【選択図】図7

Description

説明するツールおよび技法は、オーディオコーデックに関し、詳細には、復号された音声の後処理に関する。
デジタル無線電話網、インターネットを介したストリーミングオーディオ、およびインターネット電話の出現に伴い、音声のデジタル処理および配信はごく一般的なのものになってきている。技術者は、様々な技法を使用して、品質を維持しながらも音声を効率よく処理する。これらの技法を理解するためには、オーディオ情報がコンピュータ内でどのように表され、処理されるかを理解することが有用である。
(I.コンピュータ内でのオーディオ情報の表現)
コンピュータは、オーディオ情報を、オーディオを表す一連の数字として処理する。単一の数字は、特定の時点での振幅値である、オーディオサンプルを表している。いくつかの要因が、サンプルデプス(sample depth)およびサンプリングレートを含むオーディオの品質に影響を与える。
サンプルデプス(または精度)は、サンプルを表すために使用される数字の範囲を示す。通常、各サンプルについて可能な値が多いほど、振幅のより微妙な変動を表せることから、より品質の高い出力が得られる。8ビットのサンプルは、256の可能な値を有し、16ビットのサンプルは、65,536の可能な値を有する。
(通常1秒あたりのサンプル数として測定される)サンプリングレートも品質に影響を与える。サンプリングレートが高いほど、より多くの音の周波数を表すことができるため、品質も高い。一般的なサンプリングレートは、8,000、11,025、22,050、32,000、44,100、48,000、および96,000サンプル/秒(Hz)である。表1は、品質レベルの異なるオーディオのいくつかのフォーマット、ならびに対応するロー(raw)ビットレートコストを示している。
Figure 2012163981
表1に示されるように、高品質オーディオのコストは高ビットレートである。高品質オーディオ情報は、コンピュータの記憶領域および伝送容量を大量に消費する。多くのコンピュータおよびコンピュータネットワークには、ローデジタルオーディオを処理するためのリソースが欠如している。圧縮(エンコードまたは符号化とも呼ばれる)は、より低いビットレートの形に情報を変換することにより、オーディオ情報の記憶および伝送に要するコストを減少させる。圧縮には、可逆(品質には影響がない)と、不可逆(品質は影響を受けるが、後続の可逆圧縮からのビットレート低下はより劇的である)とが存在し得る。復元(デコードとも呼ばれる)は、オリジナル情報の再構築されたバージョンを圧縮形式から抽出する。コーデックとは、エンコーダ/デコーダシステムのことである。
(II.音声エンコーダおよびデコーダ)
オーディオ圧縮の目的の1つは、所与のビット量に対して最高の信号品質を提供するように、オーディオ信号をデジタル形式で表すことである。言い換えれば、この目的は、所与の品質レベルに対して、オーディオ信号を最も少ないビットで表すことである。いくつかのシナリオでは、伝送エラーに対する弾性、およびエンコード/伝送/デコードによる全体の遅延の制限などの、他の目的が適用される。
異なる種類のオーディオ信号は異なる特徴を有する。音楽は、広範囲の周波数および振幅によって特徴付けられ、しばしば複数のチャネルを含む。他方で、音声は、より狭い範囲の周波数および振幅によって特徴付けられ、一般に単一のチャネルを用いて表される。ある種のコーデックおよび処理技法は、音楽および一般オーディオ用に適合されており、他のコーデックおよび処理技法は、音声用に適合されている。
従来型音声コーデックの1つの種類は、線形予測(「LP:Linear Prediction」)を使用して圧縮を実現する。音声エンコードはいくつかの段階を含む。エンコーダは、サンプル値を、先行するサンプル値の線形組合せとして予測するために使用される、ある線形予測フィルタに関する係数を見つけ出し、これを量子化する。(「励起(excitation)」信号と表される)残余信号は、オリジナル信号における、フィルタリングによって正確に予測されない部分を示す。いくつかの段階では、異なる種類の音声が異なる特徴を有することから、音声コーデックは、(声帯の振動によって特徴付けられる)有声セグメント、無声セグメント、および無音セグメントに対して、異なる圧縮技法を使用する。有声セグメントは通常、残余ドメインにおいてさえも高度に繰り返される音声パターンを示す。有声セグメントでは、エンコーダは、現在の残余信号と以前の残余サイクルとを比較すること、および以前のサイクルを基準とする遅延またはラグ(lag)情報に関して現在の残余信号をエンコードすることによって、さらなる圧縮を実現する。エンコーダは、特別に設計されたコードブックを使用して、(線形予測および遅延情報からの)予測されエンコードされた表現と、オリジナル信号との間の他の不一致を処理する。
上述したように、音声コーデックは、多くの適用例にとって全体的に良好な性能を有するが、いくつかの欠点もある。例えば、不可逆コーデックは通常、音声信号中の冗長性を削減することによってビットレートを減少させ、その結果、デコードされた音声にノイズまたは他の望ましくない成果物を発生させる。したがってコーデックの中には、品質を向上させるために、デコードされた音声をフィルタリングするものがある。こうしたポストフィルタ(post-filter)には通常、2つの種類、すなわち、時間ドメインポストフィルタと周波数ドメインポストフィルタとがある。
コンピュータシステムにおいて音声信号を表現するための圧縮および復元の重要性を考えると、再構築された音声のポストフィルタリングが、魅力的な調査対象であることは驚くべきことではない。再構築された音声または他のオーディオの処理に関する従来技法の利点がどのようなものであれ、それらが、本明細書で説明する技法およびツールの利点を有することはない。
要約すると、詳細な説明は、オーディオコーデックに関する様々な技法およびツールを対象とし、具体的には、デコードされた音声のフィルタリングに関するツールおよび技法を対象とする。説明する諸実施形態は、以下のことを含む、説明する技法およびツールのうちの1つまたは複数を実装するが、これらに限定されるものではない。
一側面では、再構築されたオーディオ信号に適用するためのフィルタリング係数のセットが計算される。この計算は、1つまたは複数の周波数ドメイン計算の実行を含む。フィルタリングされたオーディオ信号は、そのフィルタリング係数のセットを使用して、時間ドメイン内の再構築されたオーディオ信号の少なくとも一部をフィルタリングすることによって生成される。
別の側面では、再構築されたオーディオ信号に適用するためのフィルタリング係数のセットが生成される。係数の生成は、1つまたは複数の山(peak)および1つまたは複数の谷(valley)を表す係数値のセットの処理を含む。係数値のセットの処理は、山または谷のうちの1つまたは複数のクリッピング(clipping)を含む。再構築されたオーディオ信号の少なくとも一部は、フィルタリング係数を使用してフィルタリングされる。
別の側面では、複数の再構築された周波数サブ帯域信号から合成された再構築された合成信号が受信される。サブ帯域信号は、第1の周波数帯域に関する再構築された第1の周波数サブ帯域信号と、第2の周波数帯域に関する再構築された第2の周波数サブ帯域信号とを含む。第1の周波数帯域と第2の周波数帯域との交差部分付近の周波数領域で、再構築された合成信号が選択的に拡張される。
様々な技法およびツールは、組み合わせて使用することもできるし、または独立に使用することもできる。
追加の特徴および利点は、添付の図面を参照しながら説明する様々な諸実施形態の以下の詳細な説明から明らかとなるであろう。
説明する諸実施形態のうちの1つまたは複数を実装可能な、好適なコンピューティング環境を示すブロック図である。 説明する諸実施形態のうちの1つまたは複数を実装可能な、ネットワーク環境を示すブロック図である。 サブ帯域エンコードに対して使用することができる1つの可能な周波数サブ帯域構造を示すグラフである。 説明する諸実施形態のうちの1つまたは複数と共に実装可能な、リアルタイム音声帯域エンコーダを示すブロック図である。 一実施例における、コードブックパラメータを決定するためのフロー図である。 説明する諸実施形態のうちの1つまたは複数と共に実装可能な、リアルタイム音声帯域デコーダを示すブロック図である。 いくつかの実施例において使用可能なポストフィルタリング係数を決定するための技法を示すフロー図である。
説明する諸実施形態は、エンコードおよび/またはデコードにおいてオーディオ情報を処理するための技法およびツールを対象とする。これらの技法を使用すると、リアルタイム音声コーデックなどの音声コーデックから導出される音声の品質が向上する。こうした向上は、様々な技法およびツールを別々に、または組み合わせて使用する結果として生じ得る。
こうした技法およびツールには、周波数ドメインにおいて設計または処理される係数を使用して、時間ドメイン内のデコードされたオーディオ信号に適用される、ポストフィルタを含めることができる。この技法には、こうしたフィルタ、または何らかの他の種類のポストフィルタにおいて使用するための、フィルタリング係数値のクリッピングまたは上限を定めることも含めることができる。
この技法には、周波数帯域への分割によってエネルギが減衰された可能性のある周波数領域で、デコードされたオーディオ信号の大きさを拡張する、ポストフィルタも含めることができる。一例として、フィルタは、隣接帯域の交差部分付近の周波数領域で、信号を拡張することができる。
様々な技法に関する動作について、特に提示のために順番に説明するが、この説明の仕方は、特定の順序で行う必要がない限り、動作順序の多少の並べ替えを含むことを理解されたい。例えば、順番に説明する動作を、場合によっては並べ替えるか、または同時に実行することができる。さらにわかりやすくするために、フローチャートでは、特定の技法を他の技法と共に使用することが可能な様々な方法を示していない場合がある。
特定のコンピューティング環境の機能およびオーディオコーデックの機能について以下で説明するが、ツールおよび技法のうちの1つまたは複数を、様々な異なるタイプのコンピューティング環境および/または様々な異なるタイプのコーデックと共に使用することができる。例えば、ポストフィルタ技法のうちの1つまたは複数を、適応差分パルス符号変調コーデック、変換コーデック、および/または他のタイプのコーデックなどの、CELP符号化モデルを使用しないコーデックと共に使用することが可能である。他の例として、ポストフィルタ技法のうちの1つまたは複数を、単一帯域コーデックまたはサブ帯域コーデックと共に使用することができる。他の例として、ポストフィルタ技法のうちの1つまたは複数を、複数帯域コーデックの単一帯域に、および/または、複数帯域コーデックの複数帯域の寄与信号(contribution)を含む合成信号またはエンコードされていない信号に適用することができる。
(I.コンピューティング環境)
図1は、説明する諸実施形態のうちの1つまたは複数を実装可能な、好適なコンピューティング環境(100)の一般化された例を示す図である。本発明は、様々な汎用コンピューティング環境または特定用途向けコンピューティング環境において実装可能であるため、このコンピューティング環境(100)は、本発明の使用または機能の範囲に関していかなる制限をも示唆することを意図するものではない。
図1を参照すると、コンピューティング環境(100)は、少なくとも1つの処理ユニット(110)およびメモリ(120)を含む。図1では、この最も基本的な構成(130)が破線内に含まれている。処理ユニット(110)は、コンピュータ実行可能命令を実行し、実プロセッサまたは仮想プロセッサとすることができる。マルチ処理システムでは、処理能力を上げるために、複数の処理ユニットがコンピュータ実行可能命令を実行する。メモリ(120)は、揮発性メモリ(例えば、レジスタ、キャッシュ、RAM)、不揮発性メモリ(例えば、ROM、EEPROM、フラッシュメモリ)、または、この2つの何らかの組合せとすることができる。メモリ(120)は、音声デコーダに関して本明細書で説明するポストフィルタリング技法のうちの1つまたは複数を実装するソフトウェア(180)を記憶する。
コンピューティング環境(100)は、追加の機能を有することができる。図1では、コンピューティング環境(100)は、ストレージ(140)、1つまたは複数の入力デバイス(150)、1つまたは複数の出力デバイス(160)、および1つまたは複数の通信接続(170)を含む。バス、コントローラ、またはネットワークなどの相互接続機構(図示せず)が、コンピューティング環境(100)のコンポーネントを相互接続する。通常、オペレーティングシステムソフトウェア(図示せず)は、コンピューティング環境(100)において実行される他のソフトウェアに動作環境を提供し、コンピューティング環境(100)のコンポーネントの動作を調整する。
ストレージ(140)は、取り外し可能または取り外し不可能なものとすることができ、ストレージ(140)としては、磁気ディスク、磁気テープもしくは磁気カセット、CD−ROM、CD−RW、DVD、または、情報を記憶するために使用可能であり、かつコンピューティング環境(100)内でアクセス可能な、任意の他の媒体を挙げることができる。ストレージ(140)は、ソフトウェア(180)に関する命令を記憶する。
1つまたは複数の入力デバイス(150)は、キーボード、マウス、ペン、もしくはトラックボールなどのタッチ入力デバイス、音声入力デバイス、スキャンデバイス、ネットワークアダプタ、または、コンピューティング環境(100)に入力を提供する他のデバイスとすることができる。オーディオの場合、1つまたは複数の入力デバイス(150)は、サウンドカード、マイクロフォン、または、アナログもしくはデジタル形式のオーディオ入力を受け入れる他のデバイス、あるいは、コンピューティング環境(100)にオーディオサンプルを提供するCD/DVDリーダとすることができる。1つまたは複数の出力デバイス(160)は、ディスプレイ、プリンタ、スピーカ、CD/DVDライタ、ネットワークアダプタ、または、コンピューティング環境(100)からの出力を提供する他のデバイスとすることができる。
1つまたは複数の通信接続(170)は、通信媒体を介した他のコンピューティングエンティティへの通信を可能にする。通信媒体は、コンピュータ実行可能命令、圧縮音声情報、または変調されたデータ信号内の他のデータなどの情報を搬送する。変調されたデータ信号とは、信号内の情報をエンコードするような方法で設定または変更された特徴のうちの1つまたは複数を有する信号である。例を挙げると、通信媒体には、電気、光、RF、赤外線、音波、または他の搬送波を用いて実施される有線技法または無線技法が含まれるが、これらに限定されるものではない。
本発明は、コンピュータ読み取り可能な媒体との一般的な関連において説明することができる。コンピュータ読み取り可能な媒体は、コンピューティング環境内でアクセス可能な任意の使用可能な媒体である。例を挙げると、コンピューティング環境(100)の場合、コンピュータ読み取り可能な媒体には、メモリ(120)、ストレージ(140)、通信媒体、および、これらのうちのいずれかの組合せが含まれるが、これらに限定されるものではない。
本発明は、コンピューティング環境内のターゲットとなる実プロセッサまたは仮想プロセッサ上で実行されている、プログラムモジュールに含まれるような、コンピュータ実行可能命令との一般的な関連において説明することができる。一般に、プログラムモジュールには、特定のタスクを実行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、ライブラリ、オブジェクト、クラス、コンポーネント、データ構造などが含まれる。プログラムモジュールの機能は、様々な実施形態において望ましいように、組み合わせてもよいし、様々なプログラムモジュール間で分離させてもよい。プログラムモジュールに関するコンピュータ実行可能命令は、ローカルコンピューティング環境または分散コンピューティング環境内で実行可能である。
詳細な説明では、提示のために、コンピューティング環境内でのコンピュータ動作を説明する際に、「決定する」、「生成する」、「調整する」、および「適用する」などの用語を使用する場合がある。これらの用語は、コンピュータによって実行される動作に関する高水準の抽象化であり、人間によって実行される動作と混同すべきではない。これらの用語に対応する実際のコンピュータ動作は、実装に応じて変化する。
(II.一般化されたネットワーク環境およびリアルタイム音声コーデック)
図2は、説明する諸実施形態のうちの1つまたは複数を実装可能な、一般化されたネットワーク環境(200)を示すブロック図である。ネットワーク(250)は、様々なエンコーダ側コンポーネントを、様々なデコーダ側コンポーネントから分離する。
エンコーダ側コンポーネントおよびデコーダ側コンポーネントの主な機能はそれぞれ、音声エンコードおよび音声デコードである。エンコーダ側では、入力バッファ(210)が音声入力(202)を受け入れて記憶する。音声エンコーダ(230)は、入力バッファ(210)から音声入力(202)を受け取り、音声入力(202)をエンコードする。
具体的には、フレームスプリッタ(212)が音声入力(202)のサンプルをフレームに分割する。一実施例では、フレームは均一に20msの長さであり、8kHz入力に対して160サンプル、16kHz入力に対して320サンプルである。他の実施例では、フレームが異なる持続時間を有する、不均一であるか重複している、かつ/または、入力(202)のサンプリングレートが異なる。フレームは、エンコードおよびデコードの様々な段階について、スーパーフレーム/フレーム、フレーム/サブフレーム、または他の構成を用いて編成可能である。
フレーム分類器(classifier)(214)は、信号のエネルギ、ゼロ交差レート、長期予測利得、利得差分、および/もしくは、サブフレームまたはフレーム全体に関する他の基準などの、1つまたは複数の基準に従ってフレームを分類する。この基準に基づいて、フレーム分類器(214)は、様々なフレームを、無音、無声、有声、および遷移(例えば、無声から有声への)などのクラスに分類する。加えて、フレームは、フレームに使用される冗長符号化があれば、その冗長符号化のタイプに従って分類することもできる。フレームクラスは、フレームをエンコードするために計算されることになるパラメータに影響を与える。加えて、フレームクラスは、より重要なフレームクラスおよびパラメータにより多くの解像度および損失弾性(loss resiliency)を与えるように、パラメータがエンコードされる際の解像度および損失弾性に影響を与える可能性がある。例えば、無音フレームは通常、かなり低いレートで符号化され、損失があった場合の秘匿(concealment)による回復が非常に簡単であって、損失に対する保護の必要がない場合もある。無声フレームは通常、やや高いレートで符号化され、損失があった場合の秘匿による回復が適度に簡単であり、損失に対してそれほど保護されない。有声フレームおよび遷移フレームは通常、フレームの複雑さと、遷移の有無とに応じて、より多くのビットを使用してエンコードされる。有声フレームおよび遷移フレームは、損失があった場合の回復も困難であるため、損失に対してかなり保護される。代替として、フレーム分類器(214)は、他のおよび/または追加のフレームクラスを使用してもよい。
入力音声信号は、CELPエンコードモデルなどのエンコードモデルを、フレームに関するサブ帯域情報に適用する前に、サブ帯域信号に分割することができる。これは、(QMF分析フィルタなどの)一連の1つまたは複数の分析フィルタバンク(216)を使用して、行うことが可能である。例えば、3帯域構造が使用される場合、低域通過フィルタを介して信号を渡すことによって、低周波数帯域を分割することができる。同様に、高域通過フィルタを介して信号を渡すことによって、高帯域を分割することができる。低域通過フィルタと高域通過フィルタとを直列に含めることが可能な帯域通過フィルタを介して信号を渡すことによって、中間帯域を分割することができる。代替として、他のタイプの、サブ帯域分割のためのフィルタ配置構成、および/またはフィルタリングのタイミング(例えば、フレーム分割の前など)を使用してもよい。信号の一部について1つの帯域のみがデコードされる場合、その信号の一部は、分析フィルタバンク(216)をバイパスすることができる。
帯域数nは、サンプリングレートによって決定することができる。例えば一実施例では、8kHzサンプリングレートに対して単一の帯域構造が使用される。16kHzおよび22.05kHzのサンプリングレートでは、図3に示されるように、3帯域構造が使用される。図3の3帯域構造では、低周波数帯域(310)は、全帯域幅Fの半分(0から0.5F)まで伸長している。帯域幅の他方の半分は、中間帯域(320)と高帯域(330)とに等しく分割されている。帯域の交差部分付近では、帯域に対する周波数応答が、通過レベルから停止レベルへと徐々に減少している。これは、交差部分に近づくに際しての両側での信号の減衰によって特徴付けられる。他の周波数帯域幅の分割も使用することができる。例えば、32kHzのサンプリングレートの場合、等しく間隔があけられた4帯域構造を使用することができる。
通常、信号エネルギは、高周波数領域に向かうにつれて減衰していくため、低周波数帯域は通常、音声信号にとって最も重要な帯域である。したがって、低周波数帯域は、しばしば他の帯域よりも多くのビットを使用してエンコードされる。サブ帯域構造は、単一帯域符号化構造に比べて柔軟性が高く、周波数帯域をまたがった量子化ノイズをより良く制御することができる。したがって、サブ帯域構造を使用することによって、知覚音声品質は大幅に向上すると考えられる。しかしながら、以下で説明するように、サブ帯域の分割は、隣接する帯域の交差部分付近の周波数領域において、信号のエネルギ損失を発生させる可能性がある。このエネルギ損失は、結果として生じるデコードされた音声信号の品質を低下させる可能性がある。
図2では、エンコードコンポーネント(232、234)によって示されるように、各サブ帯域が別々にエンコードされる。帯域エンコードコンポーネント(232、234)は別々のものとして示されているが、すべての帯域のエンコードは、単一のエンコーダを用いて実行されてもよいし、別々のエンコーダを用いてエンコードされてもよい。こうした帯域エンコードについては、図4を参照しながら以下でより詳細に説明する。代替として、コーデックは、単一帯域コーデックとして動作することができる。結果として生じるエンコードされた音声は、マルチプレクサ(「MUX」)(236)を介して、1つまたは複数のネットワーキング層(240)用のソフトウェアに提供される。1つまたは複数のネットワーキング層(240)は、ネットワーク(250)を介して伝送するために、エンコードされた音声を処理する。例えば、ネットワーク層ソフトウェアは、エンコードされた音声情報のフレームを、RTPプロトコルに従うパケットにパッケージングし、このパケットが、UDP、IP、および様々な物理層プロトコルを使用し、インターネットを介して中継される。代替として、他の、および/または追加のソフトウェアの層またはネットワーキングプロトコルが使用されてもよい。
ネットワーク(250)は、インターネットなどの広域のパケット交換ネットワークである。代替として、ネットワーク(250)は、ローカルエリアネットワークまたは他の種類のネットワークである場合もある。
デコーダ側では、1つまたは複数のネットワーキング層(260)用のソフトウェアが、伝送されたデータを受信して処理する。通常、1つまたは複数のデコーダ側のネットワーキング層(260)内の、ネットワーク、伝送、および高位層のプロトコル、ならびにソフトウェアは、エンコード側のネットワーキング層(240)内のネットワーク、伝送、および高位層のプロトコル、ならびにソフトウェアに対応する。1つまたは複数のネットワーキング層は、デマルチプレクサ(「DEMUX」)を介して、エンコードされた音声情報を音声デコーダ(270)に提供する。
デコーダ(270)は、帯域デコードコンポーネント(272、274)において示されるように、サブ帯域の各々を別々にデコードする。すべてのサブ帯域は、単一のデコーダによってデコードしてもよいし、別々の帯域デコーダによってデコードしてもよい。
その後、デコードされたサブ帯域は、(QMF合成フィルタなどの)一連の1つまたは複数の合成フィルタバンク(280)内で合成され、この合成フィルタバンク(280)が、デコードされた音声を出力する(292)。代替として、サブ帯域合成のための他のタイプのフィルタ配置構成が使用されてもよい。単一の帯域のみが存在する場合、デコードされた帯域は、フィルタバンク(280)をバイパスすることができる。複数の帯域が存在する場合、デコードされた音声出力(292)は、結果として生じる拡張音声出力(294)の品質を向上させるために、中間周波数拡張ポストフィルタ(284)を介して渡すことも可能である。中間周波数拡張ポストフィルタの実装については、以下でより詳細に説明する。
図6を参照しながら、1つの一般化されたリアルタイム音声帯域デコーダについて以下で説明するが、代替として、他の音声デコーダを使用することもできる。加えて、説明するツールおよび技法の一部またはすべては、音楽エンコーダおよび音楽デコーダ、または汎用オーディオエンコーダおよび汎用オーディオデコーダなどの、他のタイプのオーディオエンコーダおよびオーディオデコーダに対して使用することも可能である。
これらの主なエンコードおよびデコード機能は別として、こうしたコンポーネント群は、エンコードされた音声のレート、品質、および/または損失弾性を制御するために、情報を共有すること(図2の破線内に図示)も可能である。レートコントローラ(220)は、入力バッファ(210)内の現在の入力の複雑さ、エンコーダ(230)またはその他の場所における出力バッファのバッファ満杯度、所望の出力レート、現在のネットワーク帯域幅、ネットワーク輻輳/ノイズ状況、および/またはデコーダ損失レートなどの、様々な要素を考慮の対象とする。デコーダ(270)は、デコーダの損失レート情報をレートコントローラ(220)にフィードバックする。1つまたは複数のネットワーキング層(240、260)は、現在のネットワーク帯域幅および輻輳/ノイズ状況に関する情報を収集または推定し、この情報がレートコントローラ(220)にフィードバックされる。代替として、レートコントローラ(220)は、他の、および/または追加の要素を考慮の対象としてもよい。
レートコントローラ(220)は、音声のエンコードに伴うレート、品質、および/または損失弾性を変更するよう、音声エンコーダ(230)に指示する。エンコーダ(230)は、パラメータに関する量子化要素を調整すること、またはパラメータを表すエントロピコードの解像度を変更することによって、レートおよび品質を変更することができる。加えて、エンコーダは、冗長符号化のレートまたは種類を調整することによって、損失弾性を変更することもできる。したがって、エンコーダ(230)は、ネットワーク条件に応じて、主要なエンコード機能と損失弾性機能との間でのビット割り当て(allocation)を変更することができる。
図4は、説明する諸実施形態のうちの1つまたは複数と共に実装可能な、一般化された音声帯域エンコーダ(400)を示すブロック図である。帯域エンコーダ(400)は一般に、図2の帯域エンコードコンポーネント(232、234)のうちのいずれか1つに対応する。
信号が複数の帯域に分割される場合、帯域エンコーダ(400)は、フィルタバンク(または他のフィルタ)から帯域入力(402)を受け入れる。信号が複数の帯域に分割されない場合、帯域入力(402)は、帯域幅全体を表すサンプルを含む。帯域エンコーダは、エンコードされた帯域出力(492)を生成する。
信号が複数の帯域に分割される場合、ダウンサンプリングコンポーネント(420)は、各帯域でダウンサンプリングを実行することができる。一例として、サンプリングレートが16kHzに設定され、かつ各フレームの持続時間が20msの場合、各フレームは320サンプルを含む。ダウンサンプリングが実行されず、かつフレームが図3に示されるような3帯域構造に分割された場合、そのフレームでは、3倍のサンプル(すなわち、1帯域につき320サンプルなので合計960サンプル)が、エンコードおよびデコードされることになる。しかしながら、各帯域をダウンサンプリングすることができる。例えば、低周波数帯域(310)を、320サンプルから160サンプルにダウンサンプリングすることが可能であり、さらに、中間帯域(320)および高帯域(330)の各々を、320サンプルから80サンプルにダウンサンプリングすることが可能である。ここで、帯域(310、320、330)はそれぞれ、周波数領域の2分の1、4分の1、および4分の1にわたって伸長している。(この実装におけるダウンサンプリング(420)の程度は、帯域(310、320、330)の周波数領域に関して変化する。しかしながら、他の実装も可能である。後者の段階では、通常、信号エネルギは、周波数領域が高くなるほど減衰するため、通常、より高い帯域に対してより少ないビットが使用される。)したがって、これにより、フレームに対してエンコードおよびデコードされることになる合計320サンプルが提供される。
LP分析コンポーネント(430)は、線形予測係数(432)を算出する。一実施例では、LPフィルタは、8kHz入力に対しては10個の係数を使用し、16kHz入力に対しては16個の係数を使用し、LP分析コンポーネント(430)は、各帯域について、1フレームにつき1セットの線形予測係数を算出する。代替として、LP分析コンポーネント(430)は、異なる場所を中心とする2つのウィンドウそれぞれに対して、各帯域について1フレームにつき2セットの係数を算出するか、または、1帯域および1フレームのうちの少なくとも一方につき異なる数の係数を算出する。
LPC処理コンポーネント(435)は、線形予測係数(432)を受信して処理する。通常、LPC処理コンポーネント(435)は、より効率の良い量子化およびエンコードのために、LPC値を異なる表現に変換する。例えば、LPC処理コンポーネント(435)は、LPC値を線スペクトル対(LSP)表現に変換し、LSP値は、(ベクトル量子化などにより)量子化されエンコードされる。LSP値は、イントラ符号化することもできるし、他のLSP値から予測することもできる。LPC値に対しては、様々な表現、量子化技法、およびエンコード技法が可能である。LPC値は、パケット化および伝送のために、(任意の量子化パラメータおよび再構築に必要な他の情報と共に、)エンコードされた帯域出力(492)の一部として、何らかの形で提供される。その後エンコーダ(400)内で使用される場合、LPC処理コンポーネント(435)は、LPC値を再構築する。LPC処理コンポーネント(435)は、LPC係数の異なるセット間、またはフレームの異なるサブフレームに対して使用されるLPC係数間での遷移を平滑にするために、LPC値に対して、(LSP表現または他の表現と同等の)補間を実行することができる。
合成(または「短期予測」)フィルタ(440)は、再構築されたLPC値(438)を受け入れ、再構築されたLPC値(438)をフィルタに組み込む。合成フィルタ(440)は励起信号を受信し、オリジナル信号の近似を生成する。所与のフレームについて、合成フィルタ(440)は、予測開始に関する以前のフレームから、いくつかの再構築されたサンプル(例えば、10タップフィルタに対して10個)をバッファリングすることができる。
知覚重み付けコンポーネント(perceptual weighting component)(450、455)は、聴覚システムを量子化エラーに対して低感度にするための、音声信号のフォルマント構造を選択的に重視しないように、オリジナル信号と、合成フィルタ(440)のモデル化された出力とに知覚重み付けを適用する。知覚重み付けコンポーネント(450、455)は、マスキングなどの心理音響現象を活用する。一実施例では、知覚重み付けコンポーネント(450、455)は、LP分析コンポーネント(430)から受信したオリジナルLPC値(432)に基づいて、重み付けを適用する。代替として、知覚重み付けコンポーネント(450、455)は、他の、および/または追加の重み付けを適用してもよい。
知覚重み付けコンポーネント(450、455)に続いて、エンコーダ(400)は、知覚的に重み付けされたオリジナル信号と、知覚的に重み付けされた合成フィルタ(440)からの出力との差を計算して、差分信号(434)を生成する。代替として、エンコーダ(400)は、異なる技法を使用して音声パラメータを算出してもよい。
励起パラメータ化コンポーネント(460)は、知覚的に重み付けされたオリジナル信号と合成された信号との差を最小限にするという観点から(重み付けされた平均2乗誤差または他の基準の観点から)、適応コードブック指数、固定コードブック指数、および利得コードブック指数の最良の組合せを見つけようとする。多くのパラメータは、1サブフレームあたりで算出されるが、より一般的には、パラメータは、スーパーフレームあたり、フレームあたり、またはサブフレームあたりで算出することができる。前述したように、フレームまたはサブフレームの異なる帯域に関するパラメータは、異なる可能性がある。表2は、一実施例において、異なるフレームクラスに対する使用可能なパラメータのタイプを示している。
Figure 2012163981
図4では、励起パラメータ化コンポーネント(460)が、フレームをサブフレームに分割し、各サブフレームのコードブック指数および利得を適宜計算する。例えば、使用されるコードブックステージの数およびタイプ、ならびにコードブック指数の解像度は、エンコードモードによって最初に決定することが可能である。この場合、モードは、前述のレートコントロールコンポーネントによって指示される。特定のモードは、コードブックステージの数およびタイプ以外に、エンコードおよびデコードパラメータ、例えばコードブック指数の解像度を指示することもできる。各コードブックステージのパラメータは、ターゲット信号とそのコードブックステージの合成信号に対する寄与信号との間の誤差を最小化するようにパラメータを最適化することによって、決定される。(本明細書で使用される「最適化する」という用語は、パラメータスペースの全検索を実行することとは異なり、ひずみ低減、パラメータ検索時間、パラメータ検索の複雑さ、パラメータのビットレートなどの、適用可能な制約の下で、好適なソリューションを見つけることを意味する。同様に、「最小化する」という用語も、適用可能な制約の下で、好適なソリューションを見つけることに関するものと理解されたい。)例えば、最適化は、修正された平均2乗誤差技法を使用して実行可能である。各ステージのターゲット信号は、残余信号と、前のコードブックステージの合成信号に対する寄与信号が存在すれば、その寄与信号の合計との差である。代替として、他の最適化技法を使用してもよい。
図5は、一実施例に従ってコードブックパラメータを決定するための技法を示している。励起パラメータ化コンポーネント(460)は、潜在的にはレートコントローラなどの他のコンポーネントと共に、この技法を実行する。代替として、エンコーダ内の他のコンポーネントがこの技法を実行してもよい。
図5を参照すると、励起パラメータ化コンポーネント(460)は、有声フレームまたは遷移フレームにおける各サブフレームについて、現在のサブフレームに対して適応コードブックが使用できるかどうかを判定する(510)。(例えば、レートコントロールは、特定のフレームに対しては、適応コードブックが使用されないよう指示することができる。)適応コードブックが使用されない場合、適応コードブックスイッチは、使用される適応コードブックがないことを示すことになる(535)。例えば、これは、フレーム内で適応コードブックが使用されないことを示すフレームレベルに1ビットフラグを設定すること、フレームレベルに特定の符号化モードを指定すること、またはサブフレーム内で適応コードブックが使用されないことを示す各サブフレームについて1ビットフラグを設定することによって、実行可能である。
さらに図5を参照すると、適応コードブックが使用可能な場合、コンポーネント(460)は適応コードブックパラメータを決定する。それらのパラメータは、励起信号履歴の所望のセグメントを示す指数またはピッチ値、および所望のセグメントに適用するための利得を含む。図4および図5では、コンポーネント(460)が閉ループピッチ検索を実行する(520)。この検索は、図4のオプションの開ループピッチ検索コンポーネント(425)によって決定されたピッチで開始される。開ループピッチ検索コンポーネント(425)は、そのピッチを推定するために、重み付けコンポーネント(450)によって生成された重み付け信号を分析する。閉ループピッチ検索(520)は、この推定されたピッチで開始され、ターゲット信号と、励起信号履歴の指示されたセグメントから生成された重み付けされた合成信号との間の誤差を減らすために、ピッチ値を最適化する。適応コードブック利得値も最適化される(525)。適応コードブック利得値は、値のスケールを調整するために、ピッチ予測値(励起信号履歴の指示されたセグメントからの値)に適用するための乗数を示す。ピッチ予測値によって乗算された利得は、現在のフレームまたはサブフレームに関する励起信号に対する適応コードブックの寄与信号である。利得最適化(525)および閉ループピッチ検索(520)はそれぞれ、ターゲット信号と、適応コードブック寄与信号から重み付けされた合成信号との間の誤差を最小化する、利得値および指数値を生成する。
コンポーネント(460)が、適応コードブックが使用されると判定した場合(530)、適応コードブックパラメータは、ビットストリームに含められてシグナリングされる(540)。使用されない場合、上述したように、1ビットのサブフレームレベルフラグを設定することなどによって、サブフレームに対しては、適応コードブックが使用されないことが示される(535)。この判定(530)は、特定のサブフレームに関する適応コードブック寄与信号が、適応コードブックパラメータをシグナリングするために必要なビット数に値するだけの十分なものであるかどうかの判定を含めることができる。代替として、何らかの他の基準を判定に使用することもできる。さらに、図5では、判定後にシグナリングするように示されているが、代替として、フレームまたはスーパーフレームに対して技法が完了するまで、信号はバッチ処理される(batched)。
励起パラメータ化コンポーネント(460)は、パルスコードブックが使用されるかどうかも判定する(550)。パルスコードブックを使用するか否かは、現在のフレームの全体符号化モードの一部として示される。あるいは、パルスコードブックを使用するか否かは、他の方法で示されてもよいし、決定されてもよい。パルスコードブックとは、励起信号に寄与する1つまたは複数のパルスを指定するタイプの固定コードブックである。パルスコードブックパラメータは、指数およびサイン(sign)のペア群を含む(利得は正または負とすることができる)。各ペアは、パルスの位置を示す指数と、パルスの極性を示すサインとを伴う、励起信号に含まれるパルスを示す。パルスコードブック内に含まれ、かつ励起信号に寄与するために使用されるパルスの数は、符号化モードに応じて変更することができる。加えて、パルスの数は、適応コードブックが使用されているか否かに応じて変更することができる。
パルスコードブックが使用される場合、パルスコードブックパラメータは、指示されたパルスの寄与信号とターゲット信号との間の誤差を最小化するように最適化される(555)。適応コードブックが使用されない場合、ターゲット信号は重み付けされたオリジナル信号である。適応コードブックが使用される場合、ターゲット信号は、重み付けされたオリジナル信号と、重み付けされた合成信号に対する適応コードブックの寄与信号との差である。ある時点(図示せず)で、パルスコードブックパラメータは、ビットストリームに含められてシグナリングされる。
励起パラメータ化コンポーネント(460)は、任意のランダム固定コードブックステージが使用されるかどうかも判定する(565)。ランダムコードブックステージが存在すれば、ランダムコードブックステージの数は、現在のフレームの全体符号化モードの一部として示されるか、または、他の方法で決定することができる。ランダムコードブックとは、エンコードする値に関して予め定義された信号モデルを使用するタイプの固定コードブックである。コードブックパラメータには、信号モデルの指示されたセグメントに関する開始点と、正または負とすることができるサインとを含めることができる。指示されたセグメントの長さまたは領域は、通常固定されているため、通常はシグナリングされないが、代替として、指示されたセグメントの長さまたは範囲は、シグナリングされてもよい。利得は、励起信号に対するランダムコードブックの寄与信号を生成するために、指示されたセグメントの値と乗算される。
少なくとも1つのランダムコードブックステージが使用される場合、そのコードブックに関するコードブックステージパラメータは、ランダムコードブックステージの寄与信号とターゲット信号との間の誤差を最小化するように最適化される(570)。ターゲット信号は、重み付けされたオリジナル信号と、(存在すれば)重み付けされた合成信号に対する適応コードブックの寄与信号、(存在すれば)パルスコードブックの寄与信号、および(存在すれば)以前に決定されたランダムコードブックステージの寄与信号の合計との間の差である。ある時点(図示せず)で、ランダムコードブックパラメータは、ビットストリームに含められてシグナリングされる。
次いで、コンポーネント(460)は、別のランダムコードブックステージが使用されるかどうかを判定する(580)。使用される場合、次のランダムコードブックステージのパラメータが最適化され(570)、上述したようにシグナリングされる。これは、ランダムコードブックステージに関するすべてのパラメータが決定されるまで続行される。すべてのランダムコードブックステージは、モデルとは異なるセグメントを示し、異なる利得値を有することが多いが、同じ信号モデルを使用することができる。代替として、異なる信号モデルを異なるランダムコードブックステージに対して使用することもできる。
レートコントローラおよび/または他のコンポーネントによって決定されたように、各励起利得を独立に量子化するか、あるいは、複数の利得をまとめて量子化することができる。
本明細書では、様々なコードブックパラメータを最適化するために、特定の順序で説明してきたが、他の順序および最適化技法を使用することもできる。例えば、すべてのランダムコードブックを同時に最適化することができる。したがって、図5は異なるコードブックパラメータの順次計算を示しているが、別の方法では、(例えば、パラメータをまとめて変更すること、および、何らかの非線形最適化技法に従って結果を評価することによって、)複数の異なるコードブックパラメータがまとめて最適化される。加えて、コードブックの他の構成または他の励起信号パラメータも使用可能である。
この実施例における励起信号は、1つの適応コードブックステージの寄与信号、1つのパルスコードブックステージの寄与信号、および1つまたは複数のランダムコードブックステージの寄与信号の任意の合計である。代替として、図4のコンポーネント(460)は、励起信号に関する他の、および/または追加のパラメータを算出することもできる。
図4を参照すると、励起信号に関するコードブックパラメータは、シグナリングされるか、または別の方法で、(図4内の破線で囲まれた)ローカルデコーダ(465)および帯域出力(492)に提供される。したがって、各帯域について、エンコーダ出力(492)は、前述のLPC処理コンポーネント(435)からの出力、および励起パラメータ化コンポーネント(460)からの出力を含む。
出力(492)のビットレートは、部分的には、コードブックによって使用されるパラメータに依存し、エンコーダ(400)は、コードブック指数の異なるセット間で切り替えること、埋め込まれたコードを使用すること、または他の技法を使用することによって、ビットレートおよび/または品質を制御することができる。コードブックのタイプおよびステージの異なる組合せにより、異なるフレーム、帯域、および/またはサブフレームに対する異なるエンコードモードをもたらすことができる。例えば、無声フレームは、1つのみのランダムコードブックステージを使用することができる。適応コードブックおよびパルスコードブックは、低レートの有声フレームに対して使用することができる。高レートフレームは、1つの適応コードブックステージ、1つのパルスコードブックステージ、および1つまたは複数のランダムコードブックステージを使用して、エンコードすることができる。1つのフレームにおいて、すべてのサブ帯域に関するすべてのエンコードモードの組合せを、まとめて、モードセットと呼ぶことができる。異なるモードが異なる符号化ビットレートに対応する、各サンプリングレートについていくつかの予め定義されたモードセットが存在し得る。レートコントロールモジュールは、各フレームに関するモードセットを決定することもできるし、各フレームに関するモードセットに影響を与えることもできる。
さらに図4を参照すると、励起パラメータ化コンポーネント(460)の出力は、パラメータ化コンポーネント(460)によって使用されるコードブックに対応する、コードブック再構築コンポーネント(470、472、474、476)および利得適用コンポーネント(480、482、484、486)によって受信される。コードブックステージ(470、472、474、476)および対応する利得適用コンポーネント(480、482、484、486)は、コードブックの寄与信号を再構築する。それらの寄与信号が合計されて励起信号(490)が生成される。この励起信号(490)が合成フィルタ(440)によって受信される。ここで、励起信号(490)は、後続の線形予測の発生元である「予測」サンプルと共に使用される。励起信号の遅延部分も、後続の適応コードブックパラメータ(例えば、ピッチ寄与)を再構築するために適応コードブック再構築コンポーネント(470)によって、ならびに、後続の適応コードブックパラメータ(例えば、ピッチ指数およびピッチ利得値)を算出する際にパラメータ化コンポーネント(460)によって、励起履歴信号として使用される。
再度図2を参照すると、各帯域についての帯域出力は、他のパラメータと共にMUX(236)によって受け入れられる。こうした他のパラメータとしては、情報の中でもとりわけ、フレーム分類器(214)からのフレームクラス情報(222)およびフレームエンコードモードを挙げることができる。MUX(236)は、他のソフトウェアに渡すために、アプリケーション層パケットを構築するか、またはMUX(236)は、RTPなどのプロトコルに従ったパケットのペイロードにデータを入れる。MUXは、後続のパケットにおける転送エラー訂正のためのパラメータの選択的反復を可能にするように、パラメータをバッファリングすることができる。一実施例では、MUX(236)は、1つまたは複数の前のフレームのすべてまたは一部に関する転送エラー訂正情報と共に、主要エンコード音声情報を、1フレームにつき単一のパケットにパックする。
MUX(236)は、レートコントロールのために、現在のバッファの満杯度などのフィードバックを提供する。より一般的には、エンコーダ(230)の様々なコンポーネント(フレーム分類器(214)およびMUX(236)を含む)は、図2に示されたようなレートコントローラ(220)に情報を提供することができる。
図2のビットストリームDEMUX(276)は、エンコードされた音声情報を入力として受け入れ、パラメータを識別して処理するために、そのエンコードされた音声情報を解析する。パラメータには、フレームクラス、LPC値の何らかの表現、およびコードブックパラメータを含めることができる。フレームクラスは、所与のフレームについて、他のどのパラメータが存在するかを示すことができる。より一般的には、DEMUX(276)は、エンコーダ(230)によって使用されるプロトコルを使用し、エンコーダ(230)がパケットにパックするパラメータを抽出する。動的パケット交換ネットワークを介して受信されるパケットの場合、DEMUX(276)は、所与の期間に渡るパケットレートの短期変動を平滑にするためのジッタバッファを含む。あるケースでは、デコーダ(270)は、遅延、品質管理、欠落フレームの秘匿などをデコードに統合するように、バッファ遅延を制御し、バッファからパケットが読み出されるタイミングを管理する。他のケースでは、アプリケーション層コンポーネントがジッタバッファを管理し、ジッタバッファは、可変レートで満たされ、一定の、または比較的一定のレートで、デコーダ(270)によって消費されていく(depleted)。
DEMUX(276)は、所与のセグメントについて、1つの1次エンコードされたバージョンと、1つまたは複数の2次エラー訂正バーションとを含む複数バージョンのパラメータを受信することができる。エラー訂正が失敗した場合、デコーダ(270)は、パラメータの反復または正しく受信された情報に基づく推定などの、秘匿技法を使用する。
図6は、説明する諸実施形態のうちの1つまたは複数と共に実装可能な、一般化されたリアルタイム音声帯域デコーダ(600)を示すブロック図である。帯域デコーダ(600)は一般に、図2の帯域デコードコンポーネント(272、274)のうちのいずれか1つに対応する。
帯域デコーダ(600)は、(完全な帯域とすることもできるし、または複数のサブ帯域のうちの1つとすることもできる)帯域に関するエンコードされた音声情報(692)を入力として受け入れ、デコードおよびフィルタリングの後に、フィルタリングされた再構築された出力(604)を生成する。デコーダ(600)のコンポーネントは、エンコーダ(400)内のコンポーネントに対応するコンポーネントを有するが、知覚重み付け、励起処理ループ、およびレートコントロールに関するコンポーネントがないため、全体としてデコーダ(600)の方が単純である。
LPC処理コンポーネント(635)は、帯域エンコーダ(400)によって提供される形で、LPC値を表す情報(ならびに、任意の量子化パラメータおよび再構築に必要な他の情報)を受信する。LPC処理コンポーネント(635)は、以前にLPC値に適用された変換、量子化、エンコードなどの逆処理を使用して、LPC値(638)を再構築する。LPC処理コンポーネント(635)は、LPC係数の異なるセット間の遷移を平滑にするために、(LPC表現またはLSPなどの他の表現で)LPC値に対する補間を実行することもできる。
コードブックステージ(670、672、674、676)および利得適用コンポーネント(680、682、684、686)は、励起信号に使用される任意の対応するコードブックステージのパラメータをデコードし、使用される各コードブックステージの寄与信号を算出する。一般に、コードブックステージ(670、672、674、676)および利得コンポーネント(680、682、684、686)の構成および動作は、エンコーダ(400)におけるコードブックステージ(470、472、474、476)および利得コンポーネント(480、482、484、486)の構成および動作に対応する。使用されるコードブックステージの寄与信号が合計され、結果として生じる励起信号(690)が合成フィルタ(640)に送信される。励起信号(690)の遅延値は、励起信号の後続部分について適応コードブックの寄与信号を算出する際に、適応コードブック(670)によって、励起履歴としても使用される。
合成フィルタ(640)は、再構築されたLPC値(638)を受け入れ、その再構築されたLPC値(638)をフィルタに組み込む。合成フィルタ(640)は、処理するために、以前に再構築されたサンプルを記憶する。励起信号(690)は、オリジナル音声信号の近似を形成するために、合成フィルタを介して渡される。
再構築されたサブ帯域信号(602)も短期ポストフィルタ(694)に送信される。短期ポストフィルタは、フィルタリングされたサブ帯域出力(604)を生成する。短期ポストフィルタ(694)に関する係数を算出するためのいくつかの技法については、以下で説明する。適応ポストフィルタリングの場合、デコーダ(270)は、エンコードされた音声に関するパラメータ(例えば、LPC値)から係数を算出することができる。代替として、係数は、何らかの他の技法により提供されてもよい。
再度図2を参照すると、上述したように、複数のサブ帯域が存在する場合、各サブ帯域に関するサブ帯域出力が、音声出力(292)を形成するために、合成フィルタバンク(280)内で合成される。
図2〜図6に示された関係は、情報の概略的なフローを示し、わかりやすくするために他の関係は示されていない。実装および所望の圧縮のタイプに応じて、コンポーネントの追加、省略、複数のコンポーネントへの分割、他のコンポーネントとの組合せ、および/または同様のコンポーネントとの置換が可能である。例えば、図2に示された環境(200)では、レートコントローラ(220)を音声エンコーダ(230)と組み合わせることができる。追加され得るコンポーネントには、マルチメディアエンコードアプリケーション(またはマルチメディア再生アプリケーション)が含まれる。このマルチメディアエンコードアプリケーション(またはマルチメディア再生アプリケーション)は、音声エンコーダ(またはデコーダ)ならびに他のエンコーダ(またはデコーダ)を管理し、ネットワーク状態情報およびデコーダ状態情報を収集し、適応エラー訂正機能を実行する。代替実施形態では、異なる組合せおよび構成のコンポーネントが、本明細書で説明する技法を使用して、音声情報を処理する。
(III.ポストフィルタリング技法)
いくつかの実施形態では、デコーダまたは他のツールが、再構築された音声などの再構築されたオーディオがデコードされた後に、短期ポストフィルタをこのようなデコードされた再構築されたオーディオに適用する。こうしたフィルタは、再構築された音声の知覚品質を向上させることができる。
ポストフィルタは通常、時間ドメインポストフィルタまたは周波数ドメインポストフィルタのいずれかである。従来のCELPコーデック用の時間ドメインポストフィルタは、1つの定因数(constant factor)によってスケーリングされる全極型(all-pole)線形予測係数合成フィルタと、他の定因数によってスケーリングされる全ゼロ型(all-zero)線形予測係数逆フィルタとを含む。
加えて、通常音声内の低周波数の振幅がしばしば高周波数の振幅よりも高いため、「スペクトル傾斜」と呼ばれる現象が多くの音声信号において発生する。したがって、音声信号の周波数ドメイン振幅スペクトルは、しばしばスロープすなわち「傾斜」を含む。したがって、再構築された音声信号には、オリジナル音声からのスペクトル傾斜が存在するはずである。しかしながら、ポストフィルタの係数がこうした傾斜も組み込む場合、ポストフィルタリングされた出力における傾斜の影響は増大されることになり、結果として、フィルタリングされた音声信号はひずむことになる。したがって、いくつかの時間ドメインポストフィルタは、スペクトル傾斜を補償するための1次高域通過フィルタも含む。
したがって、時間ドメインポストフィルタの特徴は通常、それほど高い柔軟性を与えない2つまたは3つのパラメータによって制御される。
他方、周波数ドメインポストフィルタは、ポストフィルタリングの特徴を定義する、より柔軟な方法を有している。周波数ドメインポストフィルタでは、フィルタリング係数は、周波数ドメイン内で決定される。デコードされた音声信号は、周波数ドメインに変換され、周波数ドメイン内でフィルタリングされる。その後、フィルタリングされた信号が再度時間ドメインに変換される。しかしながら、結果として生じるフィルタリングされた時間ドメイン信号は、通常、オリジナルのフィルタリングされていない時間ドメイン信号とは異なるサンプル数を有する。例えば、160サンプルを有するフレームは、後のサンプルのパディングまたは包含後に、256ポイント高速フーリエ変換(「FFT」)などの256ポイント変換を使用して、周波数ドメインに変換することができる。フレームを時間ドメインに再変換するために256ポイント逆FFTが適用された場合、256の時間ドメインサンプルが生じることになる。したがって、余分な96サンプルが生じる。余分な96サンプルは、次のフレームの最初の96サンプル内のそれぞれのサンプルと重複させるか、またはこれに追加することができる。これは、しばしば重複−追加(overlap-add)技法と呼ばれる。音声信号の変換ならびに重複−追加技法などの技法の実施により、特にまだ周波数変換コンポーネントを含んでいないコーデックの場合、デコーダ全体の複雑さが大幅に増大する可能性がある。したがって、周波数ドメインポストフィルタは、こうしたフィルタを非正弦波ベースのコーデックに適用することにより導出される遅延および複雑さが大きすぎるため、通常、正弦波ベースの音声コーデックに対してのみ使用される。周波数ドメインポストフィルタは通常、コーデックフレームサイズが符号化中に変化する場合、(160サンプルではなく80サンプルを有するフレームなどの)異なるサイズフレームに遭遇すると、上述した重複−追加技法が極めて複雑になるため、フレームサイズを変更するための柔軟性はより低いものとなる。
特定のコンピューティング環境機能およびオーディオコーデック機能について上述したが、1つまたは複数のツールおよび技法を、様々な異なるタイプのコンピューティング環境および/または様々な異なるタイプのコーデックと共に使用することができる。例えば、1つまたは複数のポストフィルタリング技法は、適応差分パルスコード変調コーデック、変形コーデック、および/または他のタイプのコーデックなどの、CELP符号化モデルを使用しないコーデックと共に使用することができる。他の例として、1つまたは複数のポストフィルタリング技法を、単一帯域コーデックまたはサブ帯域コーデックと共に使用することができる。他の例として、1つまたは複数のポストフィルタリング技法を、複数帯域コーデックの単一帯域に、および/または、複数帯域コーデックの複数帯域の寄与信号を含む合成信号またはエンコードされていない信号に、適用することができる。
(A.複合短期ポストフィルタの例)
いくつかの実施形態では、図6に示されたデコーダ(600)などのデコーダが、後処理のために、適応時間周波数「複合(hybrid)」フィルタを組み込むか、またはこうしたフィルタがデコーダ(600)の出力に適用される。代替として、こうしたフィルタが、例えば本願の他の場所で説明される音声コーデックなどの、何らかの他のタイプのオーディオデコーダまたは処理ツールに組み込まれるか、あるいは、何らかの他のタイプのオーディオデコーダまたは処理ツールの出力に適用される。
図6を参照すると、いくつかの実施例では、短期ポストフィルタ(694)は、時間ドメインおよび周波数ドメインのプロセスの組合せに基づく「複合」フィルタである。ポストフィルタ(694)の係数は、主に周波数ドメイン内で柔軟かつ効率的に設計することが可能であり、この係数を時間ドメイン内の短期ポストフィルタに適用することができる。この手法の複雑さは、通常、標準の周波数ドメインポストフィルタよりも低く、導出される遅延がごくわずかであるように実施することができる。加えて、このフィルタは、従来の時間ドメインポストフィルタよりも多くの柔軟性を提供することができる。こうした複合フィルタは、過度の遅延またはデコーダの複雑さを要することなく、出力音声品質を大幅に向上させることができると考えられる。加えて、フィルタ(694)は時間ドメイン内で適用されるため、いかなるサイズのフレームにも適用可能である。
一般に、ポストフィルタ(694)は、有限インパルス応答(「FIR」)フィルタとすることができる。この有限インパルス応答(「FIR」)フィルタの周波数応答は、LPC合成フィルタの振幅スペクトル(magnitude spectrum)の対数に対して実行される非線形プロセスの結果である。ポストフィルタの振幅スペクトルは、フィルタ(694)がスペクトルの谷でのみ減衰するように設計することができ、場合によっては、振幅スペクトルの少なくとも一部がフォルマント領域付近で平坦になるようにクリッピングされる。以下で説明するように、FIRポストフィルタリング係数は、処理された振幅スペクトルの逆フーリエ変換の結果として生じる正規化された系列(sequence)をトランケートする(truncate)ことによって、取得することができる。
フィルタ(694)は、時間ドメイン内の再構築された音声に適用される。フィルタは、帯域全体またはサブ帯域に適用することができる。加えて、フィルタは単独で使用することもできるし、あるいは、以下でより詳細に説明する、長期ポストフィルタおよび/または中間周波数拡張フィルタなどの他のフィルタと共に使用することもできる。
上述したポストフィルタは、様々なビットレート、様々なサンプリングレート、および様々な符号化アルゴリズムを使用するコーデックと関連して動作することができる。ポストフィルタ(694)は、ポストフィルタなしの音声コーデックを使用した場合と比較して、大幅な品質向上を生み出すことが可能であると考えられる。具体的に言えば、ポストフィルタ(694)は、信号パワーが比較的低い周波数領域内の、すなわち、フォルマント間のスペクトルの谷内の、知覚量子化ノイズを減少させると考えられる。これらの領域では、通常、信号対ノイズ比が不十分である。言い換えれば、信号が弱いため、存在するノイズの方が相対的に強い。ポストフィルタは、これらの領域内のノイズレベルを減衰させることによって、音声品質全体を向上させると考えられる。
再構築されたLPC係数(638)は、LPC合成フィルタの周波数応答が通常、入力音声のスペクトルエンベロープ(envelope)に従うことから、しばしばフォルマント情報を含む。したがって、LPC係数(638)は、短期ポストフィルタの係数を導出するために使用される。LPC係数(638)は、1つのフレームから次のフレームの間に変化するため、または何らかの他の基準で変化するため、LPC係数(638)から導出されるポストフィルタ係数も、フレーム間または何らかの他の基準に適合する。
ポストフィルタ(694)のフィルタリング係数を算出するための技法を、図7に示す。図6のデコーダ(600)はこの技法を実行する。代替として、他のデコーダまたはポストフィルタリングツールがこの技法を実行してもよい。
デコーダ(600)は、LPC係数a(i)のセット(710)をゼロパディングすること(715)によって、LPCスペクトルを取得する。ここで、i=0、1、2、...、Pであり、a(0)=1である。LPC係数のセット(710)は、CELPコーデックなどの線形予測コーデックが使用される場合、ビットストリームから取得することができる。代替として、LPC係数のセット(710)は、再構築された音声信号を分析することによって、取得することもできる。これは、たとえコーデックが線形予測コーデックでない場合であっても実行することができる。Pは、ポストフィルタリング係数を決定する際に使用されるLPC係数a(i)のLPC級数(LPC order)である。一般にゼロパディングは、その時間(または周波数帯域)制限を拡張するために、信号(またはスペクトル)をゼロを用いて拡張することを含む。このプロセスでは、ゼロパディングは、長さPの信号を長さNの信号にマッピングする。ここでは、N>Pである。全帯域コーデックの実施例では、Pは、8kHzサンプリングレートに対しては10、8kHzよりも高いサンプリングレートに対しては16である。代替として、Pは何らかの他の値としてもよい。サブ帯域コーデックの場合、Pは、各サブ帯域で異なる値とすることができる。例えば、図3に示された3つのサブ帯域構造を使用する16kHzサンプリングレートの場合、Pは、低周波数帯域(310)に対して10、中間帯域(320)に対して6、高帯域(330)に対して4とすることができる。一実施例では、Nは128である。代替として、Nは、256などの何らかの他の数としてもよい。
次いで、デコーダ(600)は、ゼロパディングされた係数に対して、FFT(720)などのNポイント変換を実行し、振幅スペクトルA(k)が得られる。A(k)は、k=0、1、2、...、N−1の場合の、ゼロパディングされたLPC逆フィルタのスペクトルである。振幅スペクトルの逆数(すなわち、1/|A(k)|)は、LPC合成フィルタの振幅スペクトルを与える。
LPC合成フィルタの振幅スペクトルは、その振幅領域を減少させるために、オプションで対数ドメイン(725)に変換される。一実施例では、この変換は以下のとおりである。
Figure 2012163981
上式において、lnは自然対数である。しかしながら、他の演算を使用して、領域を減少させることができる。例えば、自然対数演算の代わりに、10を底とする対数演算を実行することができる。
正規化(730)、非線形圧縮(735)、およびクリッピング(740)の3つのオプションの非線形演算が、H(k)の値に基づく。
正規化(730)は、フレーム間および帯域間で、H(k)の範囲をより一貫性のあるものにする傾向がある。正規化(730)および非線形圧縮(735)はどちらも、音声信号がポストフィルタによってそれほど変化しないように、非線形振幅スペクトルの領域を減少させる。代替として、他の、および/または追加の技法を使用して、振幅スペクトルの領域を減少させることもできる。
一実施例では、複数帯域コーデックの各帯域について、以下のように初期正規化(730)が実行される。
Figure 2012163981
上式において、k=0、1、2、...、N−1の場合、Hminは、H(k)の最小値である。
正規化(730)は、全帯域コーデックに対して以下のように実行することができる。
Figure 2012163981
上式において、k=0、1、2、...、N−1の場合、Hminは、H(k)の最小値であり、Hmaxは、H(k)の最大値である。上記のどちらの正規化数式においても、
Figure 2012163981
の最大値および最小値がそれぞれ1および0となるのを防ぐために、0.1の定数値が追加され、それにより非線形圧縮がより効率的になる。代替として、他の定数値または他の技法を使用して、ゼロ値を防ぐこともできる。
非線形スペクトルの動的領域をさらに調整するために、非線形圧縮(735)は、以下のように実行される。
Figure 2012163981
上式において、k=0、1、...、N−1である。したがって、係数を周波数ドメインに変換するために128ポイントFFTが使用される場合、k=0、1、...、127である。加えて、β=η*(Hmax−Hmin)であり、ηおよびγは、適切に選択された定因数であると考えられる。ηおよびγの値は、音声コーデックのタイプおよびエンコードレートに従って選択することができる。一実施例では、ηおよびγパラメータは、実験的に選択される。例えば、γは、0.125から0.135までの範囲の値として選択され、ηは、0.5から1.0までの範囲から選択される。定数値は、プリファレンスに基づいて調整することができる。例えば、定数値の範囲は、様々な定数値から結果として生じる、予測されるスペクトルひずみ(主に山および谷の付近)を分析することによって取得される。通常、予め定められたレベルの予測されるひずみを超えない範囲を選択することが望ましい。次いで、最終的な値は、主観的リスニングテスト(subjective listening test)の結果を使用した範囲内の値のセットから選択される。例えば、8kHzサンプリングレートのポストフィルタでは、ηは0.5でありγは0.125であって、16kHzサンプリングレートのポストフィルタでは、ηは1.0でありγは0.135である。
クリッピング(740)は、以下のように圧縮されたスペクトルH(k)に適用することができる。
Figure 2012163981
上式において、Hmeanは、H(k)の平均値であり、λは、定数である。λの値は、音声コーデックのタイプおよびエンコードレートに従って異なるように選択することができる。いくつかの実施例では、λは、実験的に(0.95から1.1までの値など)選択され、プリファレンスに基づいて調整することができる。例えば、λの最終的な値は、主観的リスニングテストの結果を使用して選択することができる。例えば、8kHzサンプリングレートのポストフィルタでは、λは1.1であり、16kHzサンプリングレートで動作するポストフィルタでは、λは0.95である。
このクリッピング操作は、最大値、すなわち上限で、Hpf(k)の値の上限を定める(cap)。上記の式では、この最大値は、λ*Hmeanとして表される。代替として、他の操作を使用して、振幅スペクトルの値の上限が定められてもよい。例えば、上限は、平均値ではなく、H(k)の中央値に基づくものとすることができる。また、すべての高いH(k)値を特定の最大値(λ*Hmeanなど)にクリッピングするのではなく、より複雑な操作に従って値をクリッピングすることもできる。
クリッピングは、フォルマント領域などの他の領域で音声スペクトルを大幅に変更することなく、音声信号をその谷で減衰させることになるフィルタリング係数を、結果として発生させる傾向がある。これにより、ポストフィルタは音声フォルマントをひずみから防ぐことが可能であり、それによって、より高品質の音声出力が生じる。加えて、クリッピングは、大きな値を上限の定められた値に減少させることによって、ポストフィルタスペクトルを平坦にすることから、スペクトル傾斜の影響を低減させることができるのに対し、谷付近の値は、ほとんど変更されないままである。
対数ドメインへの変換が実行された場合、結果として生じるクリッピングされた振幅スペクトルHpf(k)は、例えば、対数ドメインから線形ドメインへと以下のように変換される(745)。
pfl(k)=exp(Hpf(k))
上式において、expは、逆自然対数関数である。
Nポイント逆高速フーリエ変換(750)がHpfl(k)に対して実行されて、f(n)の時間系列が得られる。ここで、n=0、1、...、N−1であり、Nは、上述したFFT操作(720)の場合と同じである。したがって、f(n)は、Nポイントの時間系列である。
図7では、n>M−1の場合、値をゼロに設定することによって、以下のように、f(n)の値がトランケートされる(755)。
Figure 2012163981
上式において、Mは、短期ポストフィルタの級数である。一般にMの値が大きいほど、高品質のフィルタリングされた音声が得られる。しかしながら、Mが増加するほど、ポストフィルタの複雑さは増大する。Mの値は、これらのトレードオフを考慮して選択することができる。一実施例では、Mは17である。
h(n)の値は、フレーム間での突然の変化を避けるために、オプションで正規化される(760)。例えば、これは以下のように実行される。
Figure 2012163981
代替として、何らかの他の正規化演算が使用されてもよい。例えば、以下の演算が可能である。
Figure 2012163981
正規化によってポストフィルタリング係数hpf(n)(765)が得られる実施例では、係数hpf(n)(765)を伴うFIRフィルタが、時間ドメイン内の合成音声に適用される。したがって、この実施例において、1つのフレームから次のフレームでのフィルタリング係数の大幅な偏差を避けるために、すべてのフレームに対して1次ポストフィルタリング係数(n=0)は、1の値に設定される。
(B.中間周波数拡張フィルタの例)
いくつかの実施形態では、図2に示されたデコーダ(270)などのデコーダが、後処理のために、中間周波数拡張フィルタを組み込むか、またはこうしたフィルタがデコーダ(270)の出力に適用される。代替として、こうしたフィルタが、例えば本願の他の場所で説明される音声コーデックなどの、何らかの他のタイプのオーディオデコーダまたは処理ツールに組み込まれるか、または何らかの他のタイプのオーディオデコーダまたは処理ツールの出力に適用される。
上述したように、通常、サブ帯域の方が管理しやすく符号化に対して柔軟であることから、複数帯域コーデックは、帯域幅が減じられたチャネルに入力信号を分割する。図2を参照しながら上述したフィルタバンク(216)などの帯域通過フィルタが、エンコードに先立つ信号分割に対してしばしば使用される。しかしながら、信号分割によって、帯域通過フィルタの通過帯域間の周波数領域で、信号エネルギの損失が生じる可能性がある。中間周波数拡張(「MFE」)フィルタは、信号分割によってエネルギが減衰された周波数領域でデコードされた出力音声の振幅スペクトルを増幅することによって、他の周波数領域でのエネルギを大幅に変更することなく、この潜在的な問題に対する解決を支援する。
図2において、MFEフィルタ(284)は、フィルタバンク(280)の出力(292)などの、1つまたは複数の帯域合成フィルタの出力に適用される。したがって、図6に示されるように、帯域nデコーダ(272、274)がある場合、短期ポストフィルタ(694)は、サブ帯域デコーダの再構築された各帯域に別々に適用されるが、MFEフィルタ(284)は、複数のサブ帯域の寄与信号を含む合成された再構築された信号に適用される。上述したように、代替として、MFEフィルタは、他の構成を有するデコーダに関連して適用されてもよい。
いくつかの実施例では、MFEフィルタは、2次帯域通過FIRフィルタである。これは、1次低域通過フィルタおよび1次高域通過フィルタをカスケード構成にする(cascade)。両方の1次フィルタが、同一の係数を有することができる。MFEフィルタ利得が通過帯域で望ましい(信号のエネルギが増加する)ように、かつ、停止帯域で一致(unity)する(変更されずに、または相対的に変更されずに信号を通過する)ように、係数は通常選択される。代替として、帯域分割によって減衰された周波数領域を拡張するために、何らかの他の技法を使用することもできる。
1つの1次低域通過フィルタの伝達関数は、以下のとおりである。
Figure 2012163981
1つの1次高域通過フィルタの伝達関数は、以下のとおりである。
Figure 2012163981
したがって、前述の1次低域通過フィルタおよび高域通過フィルタをカスケード構成にする2次MFEフィルタの伝達関数は、以下のとおりである。
Figure 2012163981
対応するMFEフィルタリング係数は、以下のように表すことができる。
Figure 2012163981
μの値は、実験によって選択することができる。例えば、定数値の範囲は、様々な定数値から生じる予測されるスペクトルひずみを分析することによって取得される。通常、予め定められたレベルの予測されるひずみを超えない範囲を選択することが望ましい。次いで、最終的な値は、主観的リスニングテストの結果を使用して、範囲内の値のセットの中から選択される。一実施例では、16kHzサンプリングレートが使用され、かつ音声が3つの帯域(0から8kHz、8から12kHz、および12から16kHz)に分割される場合、8kHz付近の領域を拡張することが望ましく、μは、0.45であるものとして選択される。代替として、特に何らかの他の周波数領域の拡張が望ましい場合には、他のμの値が選択されてもよい。また、代替として、MFEフィルタは、異なる設計の1つまたは複数の帯域通過フィルタを用いて実装されてもよいし、1つまたは複数の他のフィルタを用いて実装されてもよい。
以上、説明した諸実施形態を参照しながら、本発明の原理について説明し例示してきたが、説明した諸実施形態は、こうした原理を逸脱することなく、配置構成および細部の変更が可能であることが理解されよう。本明細書で説明したプログラム、プロセス、または方法は、特に指示のない限り、特定のタイプのコンピューティング環境群に関連するものでも、それらに限定されるものでないことを理解されたい。様々なタイプの汎用コンピューティング環境または特定用途向けコンピューティング環境が、本明細書で説明した教示に従う操作と共に利用可能であるか、またはそうした操作を実行することができる。ソフトウェアを用いて説明した諸実施形態の諸要素を、ハードウェアを用いて実装することが可能であり、その逆もまた可能である。
本発明の原理が適用可能な多くの可能な諸実施形態に鑑み、本発明のこうした諸実施形態のすべてが、特許請求の範囲およびその均等の範囲および趣旨内にあるものと主張する。

Claims (16)

  1. オーディオデコーダにおいて実行される方法であって、
    符号化されたオーディオ信号を複数のフレームとして受信することと、
    前記フレームに関連付けられた線形予測係数を取得することと、
    前記フレームに関連付けられた前記線形予測係数に関連付けられた周波数ドメイン係数を取得することと、
    前記周波数ドメイン係数をスペクトルの谷において減衰させてポストフィルタリング係数を取得するように、前記周波数ドメイン係数をクリッピングすることと、
    個々のフレームに対する前記ポストフィルタリング係数の時間ドメインの適用に基づいてオーディオ信号を生成することと
    を含むことを特徴とする方法。
  2. 前記線形予測係数の傾斜を補償することをさらに含み、前記周波数ドメイン係数は、前記フレームの前記傾斜補償された線形予測係数に関連付けられていることを特徴とする請求項1に記載の方法。
  3. 前記周波数ドメイン係数を処理して、前記フレームの前記傾斜補償された線形予測係数の対数に対応する対数スペクトルエンベロープ係数を取得することをさらに含み、前記クリッピングは、前記対数スペクトルエンベロープ係数に適用されることを特徴とする請求項2に記載の方法。
  4. 前記対数スペクトルエンベロープ係数を正規化して、前記フレームの圧縮されたスペクトル係数を取得することをさらに含み、前記クリッピングは、前記正規化された対数スペクトルエンベロープ係数に適用されることを特徴とする請求項3に記載の方法。
  5. 前記正規化することは、受信した複数帯域の符号化オーディオ信号に対する複数帯域の正規化、および受信した全帯域のーディオ信号に対する全帯域の正規化を含むことを特徴とする請求項4に記載の方法。
  6. 前記複数帯域の正規化は、前記対数スペクトル係数と、対数スペクトル係数の最小値との差に基づくことを特徴とする請求項5に記載の方法。
  7. 前記全帯域の正規化は、前記対数スペクトル係数の最大値と最小値との差に対する、前記対数スペクトル係数と対数スペクトル係数の最小値との差の比に基づくことを特徴とする請求項5に記載の方法。
  8. オーディオデコーダにおいて実行される方法であって、
    符号化されたオーディオ信号を複数のフレームとして受信することと、
    各フレームについて、
    線形予測係数と、該線形予測係数に関連付けられた周波数ドメイン係数を取得することと、
    前記周波数ドメイン係数をスペクトルの谷において減衰させてポストフィルタリング係数を取得するように、フレーム毎に前記周波数ドメイン係数をクリッピングすることと、
    前記フレームに対する前記ポストフィルタリング係数の適用に基づいてオーディオ信号を生成することと
    を含むことを特徴とする方法。
  9. 前記クリッピングすることの前に、前記周波数ドメイン係数に非線形圧縮を適用することをさらに含むことを特徴とする請求項8に記載の方法。
  10. フーリエ変換に基づいてポストフィルタリング係数を変換して、時間ドメインのポストフィルタリング係数を取得することをさらに含むことを特徴とする請求項9に記載の方法。
  11. 符号化されたオーディオ信号を複数のフレームとして受信するように構成された符号化オーディオ入力部と、
    前記フレームに関連付けられた線形予測係数を処理し、
    各フレームについて、
    前記線形予測係数に関連付けられた周波数ドメイン係数を取得し、
    前記周波数ドメイン係数をスペクトルの谷において減衰させてポストフィルタリング係数を取得するように、フレーム毎に前記周波数ドメイン係数をクリッピングし、
    前記フレームに対する前記ポストフィルタリング係数の適用に基づいてオーディオ信号を生成する
    ように構成されたプロセッサと
    を備えたことを特徴とするオーディオデコーダデバイス。
  12. 前記プロセッサは、前記周波数ドメイン係数を、逆数の対数変換の後にクリッピングするように構成されることを特徴とする請求項11に記載のオーディオデコーダデバイス。
  13. 前記プロセッサは、受信した複数帯域の符号化オーディオ信号に対して複数帯域の正規化を選択し、および受信した全帯域のオーディオ信号に対して全帯域の正規化を選択するように構成され、前記選択した正規化を前記周波数ドメイン係数に適用するように構成されることを特徴とする請求項11に記載のオーディオデコーダデバイス。
  14. 前記複数帯域の正規化は、対数スペクトル係数と、対数スペクトル係数の最小値との差に基づくことを特徴とする請求項13に記載のオーディオデコーダデバイス。
  15. 前記全帯域の正規化は、対数スペクトル係数の最大値と最小値との差に対する、対数スペクトル係数と対数スペクトル係数の最小値との差の比に基づくことを特徴とする請求項13に記載のオーディオデコーダデバイス。
  16. 前記プロセッサは、前記線形予測係数に対して傾斜補償をするように構成され、前記周波数ドメイン係数は、前記傾斜補償された線形予測係数に関連付けられることを特徴とする請求項13に記載のオーディオデコーダデバイス。
JP2012104721A 2005-05-31 2012-05-01 オーディオコーデックポストフィルタ Active JP5688852B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/142,603 2005-05-31
US11/142,603 US7707034B2 (en) 2005-05-31 2005-05-31 Audio codec post-filter

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2008514627A Division JP5165559B2 (ja) 2005-05-31 2006-04-05 オーディオコーデックポストフィルタ

Publications (2)

Publication Number Publication Date
JP2012163981A true JP2012163981A (ja) 2012-08-30
JP5688852B2 JP5688852B2 (ja) 2015-03-25

Family

ID=37464575

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2008514627A Active JP5165559B2 (ja) 2005-05-31 2006-04-05 オーディオコーデックポストフィルタ
JP2012104721A Active JP5688852B2 (ja) 2005-05-31 2012-05-01 オーディオコーデックポストフィルタ

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2008514627A Active JP5165559B2 (ja) 2005-05-31 2006-04-05 オーディオコーデックポストフィルタ

Country Status (15)

Country Link
US (1) US7707034B2 (ja)
EP (1) EP1899962B1 (ja)
JP (2) JP5165559B2 (ja)
KR (2) KR101246991B1 (ja)
CN (1) CN101501763B (ja)
AU (1) AU2006252962B2 (ja)
CA (1) CA2609539C (ja)
EG (1) EG26313A (ja)
ES (1) ES2644730T3 (ja)
IL (1) IL187167A0 (ja)
MX (1) MX2007014555A (ja)
NO (1) NO340411B1 (ja)
NZ (1) NZ563461A (ja)
WO (1) WO2006130226A2 (ja)
ZA (1) ZA200710201B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017524980A (ja) * 2014-06-26 2017-08-31 クゥアルコム・インコーポレイテッドQualcomm Incorporated ハイバンド信号特性に基づいた時間利得調整

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7315815B1 (en) 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
EP2054879B1 (en) * 2006-08-15 2010-01-20 Broadcom Corporation Re-phasing of decoder states after packet loss
US8311814B2 (en) * 2006-09-19 2012-11-13 Avaya Inc. Efficient voice activity detector to detect fixed power signals
DE602006005684D1 (de) * 2006-10-31 2009-04-23 Harman Becker Automotive Sys Modellbasierte Verbesserung von Sprachsignalen
US8688437B2 (en) 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
US8000961B2 (en) * 2006-12-26 2011-08-16 Yang Gao Gain quantization system for speech coding to improve packet loss concealment
WO2008108701A1 (en) * 2007-03-02 2008-09-12 Telefonaktiebolaget Lm Ericsson (Publ) Postfilter for layered codecs
CN101542593B (zh) * 2007-03-12 2013-04-17 富士通株式会社 语音波形内插装置及方法
CN101325537B (zh) * 2007-06-15 2012-04-04 华为技术有限公司 一种丢帧隐藏的方法和设备
WO2009109050A1 (en) * 2008-03-05 2009-09-11 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
US9197181B2 (en) * 2008-05-12 2015-11-24 Broadcom Corporation Loudness enhancement system and method
US9373339B2 (en) * 2008-05-12 2016-06-21 Broadcom Corporation Speech intelligibility enhancement system and method
JP4735711B2 (ja) * 2008-12-17 2011-07-27 ソニー株式会社 情報符号化装置
USRE48462E1 (en) * 2009-07-29 2021-03-09 Northwestern University Systems, methods, and apparatus for equalization preference learning
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
US8832281B2 (en) * 2010-01-08 2014-09-09 Tangome, Inc. Utilizing resources of a peer-to-peer computer environment
US9094527B2 (en) * 2010-01-11 2015-07-28 Tangome, Inc. Seamlessly transferring a communication
US8560633B2 (en) * 2010-01-11 2013-10-15 Tangome, Inc. Communicating in a peer-to-peer computer environment
JP4709928B1 (ja) * 2010-01-21 2011-06-29 株式会社東芝 音質補正装置及び音質補正方法
ES2501840T3 (es) * 2010-05-11 2014-10-02 Telefonaktiebolaget Lm Ericsson (Publ) Procedimiento y disposición para el procesamiento de señales de audio
IL295473B2 (en) * 2010-07-02 2023-10-01 Dolby Int Ab After–selective bass filter
CN102074241B (zh) * 2011-01-07 2012-03-28 蔡镇滨 一种通过快速声音波形修复实现声音还原的方法
RU2586838C2 (ru) 2011-02-14 2016-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодек, использующий синтез шума в течение неактивной фазы
TWI483245B (zh) 2011-02-14 2015-05-01 Fraunhofer Ges Forschung 利用重疊變換之資訊信號表示技術
EP3503098B1 (en) 2011-02-14 2023-08-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
EP2676268B1 (en) * 2011-02-14 2014-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a decoded audio signal in a spectral domain
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
EP2676270B1 (en) 2011-02-14 2017-02-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coding a portion of an audio signal using a transient detection and a quality result
TR201903388T4 (tr) 2011-02-14 2019-04-22 Fraunhofer Ges Forschung Bir ses sinyalinin parçalarının darbe konumlarının şifrelenmesi ve çözülmesi.
MY165853A (en) 2011-02-14 2018-05-18 Fraunhofer Ges Forschung Linear prediction based coding scheme using spectral domain noise shaping
AU2012217215B2 (en) 2011-02-14 2015-05-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for error concealment in low-delay unified speech and audio coding (USAC)
US9626982B2 (en) * 2011-02-15 2017-04-18 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
US9384749B2 (en) * 2011-09-09 2016-07-05 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, encoding method and decoding method
JP6239521B2 (ja) * 2011-11-03 2017-11-29 ヴォイスエイジ・コーポレーション 低レートcelpデコーダに関する非音声コンテンツの向上
ES2575693T3 (es) * 2011-11-10 2016-06-30 Nokia Technologies Oy Un método y un aparato para detectar tasa de muestreo de audio
US9972325B2 (en) * 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
CN102970133B (zh) * 2012-11-12 2015-10-14 安徽量子通信技术有限公司 量子网络的语音传输方法和语音终端
WO2014077254A1 (ja) * 2012-11-15 2014-05-22 株式会社Nttドコモ 音声符号化装置、音声符号化方法、音声符号化プログラム、音声復号装置、音声復号方法及び音声復号プログラム
CN103928031B (zh) 2013-01-15 2016-03-30 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
CN111179954B (zh) 2013-03-04 2024-03-12 声代Evs有限公司 用于降低时域解码器中的量化噪声的装置和方法
US9349196B2 (en) 2013-08-09 2016-05-24 Red Hat, Inc. Merging and splitting data blocks
US10204630B2 (en) * 2013-10-22 2019-02-12 Electronics And Telecommunications Research Instit Ute Method for generating filter for audio signal and parameterizing device therefor
EP2887350B1 (en) * 2013-12-19 2016-10-05 Dolby Laboratories Licensing Corporation Adaptive quantization noise filtering of decoded audio data
BR122020015614B1 (pt) * 2014-04-17 2022-06-07 Voiceage Evs Llc Método e dispositivo para interpolar parâmetros de filtro de predição linear em um quadro de processamento de sinal sonoro atual seguindo um quadro de processamento de sinal sonoro anterior
EP2980799A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
EP2980801A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
JP2016042132A (ja) * 2014-08-18 2016-03-31 ソニー株式会社 音声処理装置、音声処理方法、並びにプログラム
EP3201918B1 (en) * 2014-10-02 2018-12-12 Dolby International AB Decoding method and decoder for dialog enhancement
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
CN108028045A (zh) 2015-07-06 2018-05-11 诺基亚技术有限公司 用于音频信号解码器的位错误检测器
US9881630B2 (en) * 2015-12-30 2018-01-30 Google Llc Acoustic keystroke transient canceler for speech communication terminals using a semi-blind adaptive filter model
CN105869653B (zh) * 2016-05-31 2019-07-12 华为技术有限公司 话音信号处理方法和相关装置和系统
KR20180003389U (ko) 2017-05-25 2018-12-05 조경래 패널용 클램핑 기구
US20210093203A1 (en) * 2019-09-30 2021-04-01 DawnLight Technologies Systems and methods of determining heart-rate and respiratory rate from a radar signal using machine learning methods
CN114333856A (zh) * 2021-12-24 2022-04-12 南京西觉硕信息科技有限公司 给定线性预测系数时后半帧语音信号的求解方法、装置及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248997A (ja) * 1995-03-13 1996-09-27 Matsushita Electric Ind Co Ltd 音声帯域拡大装置
JP2000330594A (ja) * 1999-05-18 2000-11-30 Nec Corp 音声符号化装置及び方法並びに音声符号化プログラムを記録した記憶媒体
JP2003108196A (ja) * 2001-06-29 2003-04-11 Microsoft Corp コード化音声の品質向上のための周波数領域ポストフィルタリングの方法、装置及び記録媒体
JP2009508146A (ja) * 2005-05-31 2009-02-26 マイクロソフト コーポレーション オーディオコーデックポストフィルタ

Family Cites Families (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US4815134A (en) * 1987-09-08 1989-03-21 Texas Instruments Incorporated Very low rate speech encoder and decoder
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5664051A (en) * 1990-09-24 1997-09-02 Digital Voice Systems, Inc. Method and apparatus for phase synthesis for speech processing
KR960013206B1 (ko) * 1990-12-31 1996-10-02 박헌철 조립식 원적외선 사우나 욕실
US5255339A (en) 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
JP2746039B2 (ja) * 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
US5706352A (en) * 1993-04-07 1998-01-06 K/S Himpp Adaptive gain and filtering circuit for a sound reproduction system
IT1270438B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
US5717823A (en) * 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
JP3277682B2 (ja) 1994-04-22 2002-04-22 ソニー株式会社 情報符号化方法及び装置、情報復号化方法及び装置、並びに情報記録媒体及び情報伝送方法
JP3277705B2 (ja) * 1994-07-27 2002-04-22 ソニー株式会社 情報符号化装置及び方法、並びに情報復号化装置及び方法
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
US5699477A (en) * 1994-11-09 1997-12-16 Texas Instruments Incorporated Mixed excitation linear prediction with fractional pitch
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
JP3317470B2 (ja) 1995-03-28 2002-08-26 日本電信電話株式会社 音響信号符号化方法、音響信号復号化方法
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US5668925A (en) * 1995-06-01 1997-09-16 Martin Marietta Corporation Low data rate speech encoder with mixed excitation
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6064962A (en) * 1995-09-14 2000-05-16 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
US5864798A (en) 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
US5835495A (en) * 1995-10-11 1998-11-10 Microsoft Corporation System and method for scaleable streamed audio transmission over a network
TW321810B (ja) * 1995-10-26 1997-12-01 Sony Co Ltd
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5778335A (en) * 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
US6041345A (en) * 1996-03-08 2000-03-21 Microsoft Corporation Active stream format for holding multiple media streams
JP3248668B2 (ja) * 1996-03-25 2002-01-21 日本電信電話株式会社 ディジタルフィルタおよび音響符号化/復号化装置
SE506341C2 (sv) * 1996-04-10 1997-12-08 Ericsson Telefon Ab L M Metod och anordning för rekonstruktion av en mottagen talsignal
JP3335841B2 (ja) * 1996-05-27 2002-10-21 日本電気株式会社 信号符号化装置
US5819298A (en) * 1996-06-24 1998-10-06 Sun Microsystems, Inc. File allocation tables with holes
JP3472974B2 (ja) 1996-10-28 2003-12-02 日本電信電話株式会社 音響信号符号化方法および音響信号復号化方法
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US6317714B1 (en) * 1997-02-04 2001-11-13 Microsoft Corporation Controller and associated mechanical characters operable for continuously performing received control data while engaging in bidirectional communications over a single communications channel
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6292834B1 (en) * 1997-03-14 2001-09-18 Microsoft Corporation Dynamic bandwidth selection for efficient transmission of multimedia streams in a computer network
US6131084A (en) 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6728775B1 (en) * 1997-03-17 2004-04-27 Microsoft Corporation Multiple multicasting of multimedia streams
JP3185748B2 (ja) 1997-04-09 2001-07-11 日本電気株式会社 信号符号化装置
IL120788A (en) * 1997-05-06 2000-07-16 Audiocodes Ltd Systems and methods for encoding and decoding speech for lossy transmission networks
EP0934638B1 (en) * 1997-05-12 2008-10-08 Texas Instruments Incorporated Method and apparatus for superframe bit allocation in a discrete multitone (dmt) system
US6009122A (en) * 1997-05-12 1999-12-28 Amati Communciations Corporation Method and apparatus for superframe bit allocation
US6058359A (en) * 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
FI973873A (fi) * 1997-10-02 1999-04-03 Nokia Mobile Phones Ltd Puhekoodaus
US6263312B1 (en) * 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
CA2684452C (en) * 1997-10-22 2014-01-14 Panasonic Corporation Multi-stage vector quantization for speech encoding
US6199037B1 (en) * 1997-12-04 2001-03-06 Digital Voice Systems, Inc. Joint quantization of speech subframe voicing metrics and fundamental frequencies
US5870412A (en) * 1997-12-12 1999-02-09 3Com Corporation Forward error correction system for packet based real time media
US6351730B2 (en) * 1998-03-30 2002-02-26 Lucent Technologies Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6029126A (en) * 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
US6493665B1 (en) 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6385573B1 (en) 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
FR2784218B1 (fr) 1998-10-06 2000-12-08 Thomson Csf Procede de codage de la parole a bas debit
US6289297B1 (en) * 1998-10-09 2001-09-11 Microsoft Corporation Method for reconstructing a video frame received from a video source over a communication channel
US6438136B1 (en) * 1998-10-09 2002-08-20 Microsoft Corporation Method for scheduling time slots in a communications network channel to support on-going video transmissions
GB2342829B (en) * 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
JP4359949B2 (ja) 1998-10-22 2009-11-11 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
US6310915B1 (en) * 1998-11-20 2001-10-30 Harmonic Inc. Video transcoder with bitstream look ahead for rate control and statistical multiplexing
US6226606B1 (en) * 1998-11-24 2001-05-01 Microsoft Corporation Method and apparatus for pitch tracking
US6385665B1 (en) * 1998-12-18 2002-05-07 Alcatel Usa Sourcing, L.P. System and method for managing faults in a data transmission system
US6311154B1 (en) * 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
US6499060B1 (en) * 1999-03-12 2002-12-24 Microsoft Corporation Media coding for loss recovery with remotely predicted data units
US6460153B1 (en) * 1999-03-26 2002-10-01 Microsoft Corp. Apparatus and method for unequal error protection in multiple-description coding using overcomplete expansions
US7117156B1 (en) * 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US6952668B1 (en) * 1999-04-19 2005-10-04 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
DE19921122C1 (de) * 1999-05-07 2001-01-25 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals
US6633841B1 (en) 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US6434247B1 (en) * 1999-07-30 2002-08-13 Gn Resound A/S Feedback cancellation apparatus and methods utilizing adaptive reference filter mechanisms
US6775649B1 (en) * 1999-09-01 2004-08-10 Texas Instruments Incorporated Concealment of frame erasures for speech transmission and storage system and method
US6505152B1 (en) * 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US6772126B1 (en) * 1999-09-30 2004-08-03 Motorola, Inc. Method and apparatus for transferring low bit rate digital voice messages using incremental messages
JP2001117573A (ja) * 1999-10-20 2001-04-27 Toshiba Corp 音声スペクトル強調方法/装置及び音声復号化装置
US6621935B1 (en) * 1999-12-03 2003-09-16 Microsoft Corporation System and method for robust image representation over error-prone channels
US6732070B1 (en) * 2000-02-16 2004-05-04 Nokia Mobile Phones, Ltd. Wideband speech codec using a higher sampling rate in analysis and synthesis filtering than in excitation searching
US6693964B1 (en) * 2000-03-24 2004-02-17 Microsoft Corporation Methods and arrangements for compressing image based rendering data using multiple reference frame prediction techniques that support just-in-time rendering of an image
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
JP2002118517A (ja) 2000-07-31 2002-04-19 Sony Corp 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
US6934678B1 (en) * 2000-09-25 2005-08-23 Koninklijke Philips Electronics N.V. Device and method for coding speech to be recognized (STBR) at a near end
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US6968309B1 (en) * 2000-10-31 2005-11-22 Nokia Mobile Phones Ltd. Method and system for speech frame error concealment in speech decoding
CA2430111C (en) * 2000-11-27 2009-02-24 Nippon Telegraph And Telephone Corporation Speech parameter coding and decoding methods, coder and decoder, and programs, and speech coding and decoding methods, coder and decoder, and programs
ATE319162T1 (de) * 2001-01-19 2006-03-15 Koninkl Philips Electronics Nv Breitband-signalübertragungssystem
US6614370B2 (en) * 2001-01-26 2003-09-02 Oded Gottesman Redundant compression techniques for transmitting data over degraded communication links and/or storing data on media subject to degradation
US7151749B2 (en) * 2001-06-14 2006-12-19 Microsoft Corporation Method and System for providing adaptive bandwidth control for real-time communication
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6879955B2 (en) * 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
US7277554B2 (en) * 2001-08-08 2007-10-02 Gn Resound North America Corporation Dynamic range compression using digital frequency warping
US7512535B2 (en) * 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7027982B2 (en) 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US6789123B2 (en) * 2001-12-28 2004-09-07 Microsoft Corporation System and method for delivery of dynamically scalable audio/video content over a network
US6647366B2 (en) * 2001-12-28 2003-11-11 Microsoft Corporation Rate control strategies for speech and music coding
JP4000589B2 (ja) * 2002-03-07 2007-10-31 ソニー株式会社 復号装置および復号方法、並びにプログラムおよび記録媒体
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
US7356748B2 (en) * 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
ATE396537T1 (de) * 2004-01-19 2008-06-15 Nxp Bv System für die audiosignalverarbeitung
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US7362819B2 (en) * 2004-06-16 2008-04-22 Lucent Technologies Inc. Device and method for reducing peaks of a composite signal
CA2574101C (en) * 2004-07-19 2013-06-25 Eberle Design, Inc. Methods and apparatus for an improved signal monitor
EP1864281A1 (en) * 2005-04-01 2007-12-12 QUALCOMM Incorporated Systems, methods, and apparatus for highband burst suppression
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248997A (ja) * 1995-03-13 1996-09-27 Matsushita Electric Ind Co Ltd 音声帯域拡大装置
JP2000330594A (ja) * 1999-05-18 2000-11-30 Nec Corp 音声符号化装置及び方法並びに音声符号化プログラムを記録した記憶媒体
JP2003108196A (ja) * 2001-06-29 2003-04-11 Microsoft Corp コード化音声の品質向上のための周波数領域ポストフィルタリングの方法、装置及び記録媒体
JP2009508146A (ja) * 2005-05-31 2009-02-26 マイクロソフト コーポレーション オーディオコーデックポストフィルタ
JP5165559B2 (ja) * 2005-05-31 2013-03-21 マイクロソフト コーポレーション オーディオコーデックポストフィルタ

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017524980A (ja) * 2014-06-26 2017-08-31 クゥアルコム・インコーポレイテッドQualcomm Incorporated ハイバンド信号特性に基づいた時間利得調整

Also Published As

Publication number Publication date
KR101344174B1 (ko) 2013-12-20
CN101501763B (zh) 2012-09-19
US7707034B2 (en) 2010-04-27
EP1899962A4 (en) 2014-09-10
IL187167A0 (en) 2008-06-05
ES2644730T3 (es) 2017-11-30
JP5688852B2 (ja) 2015-03-25
CA2609539A1 (en) 2006-12-07
AU2006252962B2 (en) 2011-04-07
EG26313A (en) 2013-07-24
CA2609539C (en) 2016-03-29
AU2006252962A1 (en) 2006-12-07
KR20080011216A (ko) 2008-01-31
KR20120121928A (ko) 2012-11-06
WO2006130226A2 (en) 2006-12-07
EP1899962A2 (en) 2008-03-19
KR101246991B1 (ko) 2013-03-25
ZA200710201B (en) 2009-08-26
EP1899962B1 (en) 2017-07-26
WO2006130226A3 (en) 2009-04-23
CN101501763A (zh) 2009-08-05
JP5165559B2 (ja) 2013-03-21
NO20075773L (no) 2008-02-28
MX2007014555A (es) 2008-11-06
NZ563461A (en) 2011-01-28
US20060271354A1 (en) 2006-11-30
NO340411B1 (no) 2017-04-18
JP2009508146A (ja) 2009-02-26

Similar Documents

Publication Publication Date Title
JP5688852B2 (ja) オーディオコーデックポストフィルタ
JP5186054B2 (ja) マルチステージコードブックおよび冗長コーディング技術フィールドを有するサブバンド音声コーデック
JP5129117B2 (ja) 音声信号の高帯域部分を符号化及び復号する方法及び装置
RU2389085C2 (ru) Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx
RU2420817C2 (ru) Системы, способы и устройство для ограничения коэффициента усиления
JP2013528836A (ja) 広帯域音声コーディングのためのシステム、方法、装置、およびコンピュータプログラム製品
KR102380487B1 (ko) 오디오 신호 디코더에서의 개선된 주파수 대역 확장
EP3132443A1 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130108

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130408

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130411

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130508

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130513

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130610

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130613

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20130701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130708

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A132

Effective date: 20130802

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131030

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131105

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131202

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131205

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131225

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150126

R150 Certificate of patent or registration of utility model

Ref document number: 5688852

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250