JP6626123B2

JP6626123B2 - オーディオ信号を符号化するためのオーディオエンコーダー及び方法

Info

Publication number: JP6626123B2
Application number: JP2017553058A
Authority: JP
Inventors: トムベックシュトレーム; エマジョキネン
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2015-04-09
Filing date: 2016-04-06
Publication date: 2019-12-25
Anticipated expiration: 2036-04-06
Also published as: CN107710324A; CN107710324B; KR102099293B1; JP2018511086A; US20180033444A1; BR112017021424A2; CA2983813A1; RU2707144C2; EP3079151A1; BR112017021424B1; EP3281197A1; MX366304B; EP3281197B1; WO2016162375A1; MX2017012804A; US10672411B2; ES2741009T3; RU2017135436A; RU2017135436A3; KR20170132854A

Description

実施の形態は、オーディオ信号に基づいて符号化された表現を提供するためのオーディオエンコーダーに関する。更なる実施の形態は、オーディオ信号に基づいて符号化された表現を提供するための方法に関する。いくつかの実施の形態は、知覚的な音声やオーディオ符号器の低遅延、低複雑性、遠端ノイズ抑制に関する。

音声及びオーディオ符号器の現在の問題は、音響の入力信号が、背景ノイズ及び他のアーチファクトによって、歪まされる有害な環境で使用されることである。これは、いくつかの問題を引き起こす。符号器は、望まれた信号及び望まれていない歪みの両方とも符号化しなければならないので、コーディングの問題は、信号が２つのソースから成るため、より複雑となり、符号化の品質を減少させるだろう。しかし、たとえ単一クリーン信号として同じ品質を有する２つの経路の結合を符号化したとしても、音声部分は、クリーン信号よりもより低い品質であるだろう。失われた符号化の品質は、知覚的にいらいらさせるだけでなく、重要なことに、聴取努力を増加させ、最悪の場合、明瞭度を低下させ、又は復号化された信号の聴取努力を増加させる。

国際公開第２００５／０３１７０９号は、コードブックゲインを修正することによって、ノイズ低減を適用する音声コーディング方法を示す。詳細には、音声成分及びノイズ成分を含む音響信号は、合成法による分析を使用することによって符号化され、音響信号を符号化するために、合成された信号は、時間的な間隔のために音響信号と比較され、前記合成された信号は、固定されたコードブックや関連する固定されたゲインを使用することによって、説明される。

米国出願公開特許第２０１１／０７６９６８号は、低減されたノイズ音声コーディングを有する通信機器を示す。通信機器は、メモリ、入力インターフェース、処理モジュール及びトランスミッターを含む。処理モジュールは、デジタル信号を入力インターフェースから受信し、デジタル信号は、望まれたデジタル信号成分、及び、望まれていないデジタル信号成分を含む。処理モジュールは、望まれていないデジタル信号成分に基づいて、複数のコードブックの１つを識別する。処理モジュールは、その後、選択されたコードブックエントリを生じさせるために、望まれたデジタル信号成分に基づいて複数のコードブックの１つからコードブックエントリを識別する。処理モジュールは、その後、選択されたコードブックエントリに基づいて、コード化された信号を生成し、コード化された信号は、望まれたデジタル信号成分の実質的に低減していない表現及び望まれていないデジタル信号成分の低減した表現を含む。

米国出願公開特許第２００１／００１１４０号は、音声符号化への適用による音声強調へのモジュラーアプローチを示す。音声符号器は、入力デジタル化音声を、区間ごとに構成成分に分離する。構成成分は、ゲイン成分と、スペクトル成分と、励起信号成分とを含む。音声符号器を有する音声強調システムのセットは、各構成成分が、識別された音声強調処理自身を有するような構成成分を処理する。例えば、１つの音声強調処理が、スペクトル成分を分析するために適用され、他の音声強調処理は、励起信号成分を分析するために使用しうる。

米国登録特許５，６８０，５０８号は、低率の音声符号器に対する背景ノイズにおいて音声コーディングの強調を開示する。音声コーディングシステムは、音声フレームのロバスト特性を測定し、その分布は、ノイズ環境で発生する入力音声に対する音声認識の決定をさせるためにノイズ／レベルによって強く影響されない。ロバスト特性及びそれぞれの重みの直線プログラミング分析は、これらの特徴の最適化された直線結合を決定するのに使用される。入力音声ベクトルは、対応する、最適に一致するコードワードを選択するために、コードワードの語彙と一致させる。適応ベクトル量子化は、静かな環境で得られるワードの語彙が、入力音声によって発生するノイズ環境のノイズ推定に基づいて上書きされ、「ノイズの多い」語彙が、その後入力音声ベクトルと最も一致するように検索する。一致するクリーンコードワードインデックスは、その後、送信するため、及び、受信の最後で合成するため選択される。

米国出願公開特許第２００６／１１６８７４号は、ノイズ依存のポストフィルタリングを示す。方法は、音響ノイズと、音声信号において音声コーディングによって引き起こされる歪みとを減らすために、音声コーディングによって引き起こされる歪みの低減に適したフィルタを提供するステップと、音声信号において音響ノイズを推定するステップと、適用されたフィルタを得るために、推定された音響ノイズに応答してフィルタを適用するステップと、適応したフィルタを音声信号に適用するステップとを伴う。

米国登録特許６，３８５，５７３号は、合成された音声残差に対する適応チルト補償を示す。マルチレート音声符号器は、通信チャンネルの制限と一致させるために、ビットレートモデルを符号化することを適応的に選択することによって、複数の符号化されたビットレートモデルをサポートする。高いビットレートの符号化モデルにおいて、ＣＥＬＰ（コード励起線形予測）と他の関連するモデルのパラメータとを通して音声の正確な表現は、高品質の復号化と再生のために生成される。低いビットレートの符号化モデルにおいて、高い品質に達するために、音声エンコーダーは、標準のＣＥＬＰ符号器の基準と一致する厳格な波形から分離し、入力信号の重大な知覚的な特徴を識別する努力をする。

米国登録特許５，８４５，２４４号は、知覚的な重み付けを実行する合成による分析において、ノイズマスキングレベルを適応することに関する。短期の知覚的な重み付けフィルタを実行する合成による分析音声符号器において、スペクトル拡張係数の値は、短期の線形予測分析の間に得られるスペクトルパラメータに基づいて、動的に適応される。この適応に役立つスペクトルパラメータは、音声信号のスペクトルの全体的な勾配を表すパラメータと、短期の合成フィルタの共鳴特性を表すパラメータとを特に備える。

米国登録特許４，１３３，９７６号は、低減されたノイズ効果を有する予測された音声信号コーディングを示す。予測音声信号プロセッサーは、量子化器周辺のフィードバックネットワークにおいて、適応フィルタを特徴として備える。適応フィルタは、量子化ノイズが音声信号フォルマントによってマスクされるように、量子化エラー信号と、予測パラメータ信号に関連したフォルマントと、音声スペクトルの時変フォルマント部分に対応するスペクトルのピークにおいて量子化されたエラーノイズに集中する差分信号と、を本質的に結合する。

国際公開第９４２５９５９号は、音声合成システムの品質又はより低いビットレートを改善するための聴覚モデルの使用を示す。重み付けフィルタは、音響心理学的領域内の最適な確率的コードベクトルの探索を可能にする聴覚モデルと置き換えられる。ＰＥＲＣＥＬＰ（知覚的に強化されたランダムコードブック励起線形予測のため）と呼ばれるアルゴリズムは、重み付けフィルタで得られるよりもかなり良い品質の音声を生成することが開示されている。

米国出願公開特許第２００８／３１２９１６号は、強化されたインテリジェント信号を生成するための入力音声信号を処理する受信機明瞭強化システムを示す。周波数領域において、遠端から受信される音声のＦＦＴスペクトルは、強化されたインテリジェント信号を生成するために、局所的な背景ノイズのＬＰＣスペクトルにしたがって、修正される。時間領域において、音声は、強化されたインテリジェント信号を生成するために、ノイズのＬＰＣ係数にしたがって修正される。

米国出願公開特許第２０１３／０３０８００号は、フォルマント位置を適応的に識別し、追跡する適応された音声明瞭プロセッサーを示し、したがって、フォルマントが変化する際にフォルマントを強調することができる。結果として、これらのシステム及び方法は、ノイズ環境においてさえ、近端の明瞭度を改善することができる。

[Atal, Bishnu S., and Manfred R. Schroeder. "Predictive coding of speech signals and subjective error criteria". Acoustics, Speech and Signal Processing, IEEE Transactions on 27.3 (1979): 247-254]において、音声信号のための予測符号器で、独自の歪みを減らすための方法が、記載され、評価される。改善された音声品質は、１）量子化前にフォルマント及びピッチ関連の冗長な音声構造の効率的な除去によって、及び、２）音声信号によって量子化されたノイズの効果的なマスキングによって得られる。

[Chen, Juin-Hwey and Allen Gersho. "Real-time vector APC speech coding at 4800 bps with adaptive postfiltering". Acoustics, Speech and Signal Processing, IEEE International Conference on ICASSP'87.. Vol. 12, IEEE, 1987] において、改善されたベクトルＡＰＣ（ＶＡＰＣ）音声符号器が提示され、ＡＰＣとベクトル量子化を組み合わせ、合成による分析、知覚的ノイズ重み付け、及び、適応的なポストフィルタリングを組み込む。

本発明の目的は、音響入力信号が、背景ノイズ及び他のアーチファクトによって歪まされるとき、聴取努力を低減すること、又は信号の質を改善すること、又は復号化された信号の明瞭度を増すことに対する概念を提供することである。

この目的は、独立請求項によって解決される。

有利な実装は、従属請求項によって対処される。

実施の形態は、オーディオ信号に基づいて、符号化された表現を提供するためのオーディオエンコーダーを提供する。オーディオエンコーダーは、オーディオ信号に含まれるノイズを記述するノイズ情報を得るように構成され、オーディオエンコーダーは、ノイズ情報に応じて、オーディオ信号に含まれるノイズによる影響がより大きいオーディオ信号の部分よりも、オーディオ信号に含まれるノイズによる影響がより小さいオーディオ信号の部分の方が、符号化精度がより高くなるように、オーディオ信号を適応的に符号化するように構成される。

本発明の概念によると、ノイズによる影響がより大きい（例えば、より低い信号対ノイズを有する）オーディオ信号の部分に対してよりも、ノイズによる影響がより小さい（例えば、より高い信号対ノイズ比を有する）オーディオ信号のこれらの部分に対して、より高い符号化精度を得るために、オーディオエンコーダーは、オーディオ信号に含まれるノイズを記述するノイズ情報に応じて、オーディオ信号を適応的に符号化する。

通信符号器は、望まれた信号が、背景ノイズによって損傷した環境で頻繁に動作する。本明細書において開示される実施の形態は、センダー／エンコーダー側の信号が、コード化前に既に背景ノイズを有する状況に対処する。

例えば、いくつかの実施の形態によると、符号器の知覚目的関数を修正することによって、より高い信号対ノイズ比（ＳＮＲ）を有する信号のこれらの部分のコード化精度は、増加しうり、したがって、信号のノイズがない部分の品質を保持する。信号の高いＳＮＲ部分を保存することによって、送信信号の明瞭度は改善され、聴取努力は減少しうる。従来のノイズ抑制アルゴリズムは、処理前のブロックとして符号器へ実装されているが、現在の方法は、２つの直接的な利点を有する。１つ目に、ジョイントノイズ抑制及びタンデム符号化により、抑制の影響及びコーディングを回避することができる。２つ目に、提案されたアルゴリズムは、知覚目的関数の修正として実装しうるので、計算の複雑性が非常に低い。更に、通信符号器は、いずれの場合もコンフォートノイズ発生器に対して背景ノイズを推定することが多く、ノイズ推定が符号器で既に利用可能であり、余計な計算コストなしで（ノイズ情報として）使用しうる。

更なる実施の形態は、オーディオ信号に基づいて、符号化された表現を提供するための方法に関する。符号化精度が、オーディオ信号に含まれるノイズによる影響がより大きいオーディオ信号の部分に対してよりも、オーディオ信号に含まれるノイズによる影響がより小さいオーディオ信号の部分に対してより高くなるように、方法は、オーディオ信号に含まれるノイズを記述するノイズ情報を得ること、及び、ノイズ情報に応じてオーディオ信号を適応的に符号化することを備える。

更なる実施の形態は、オーディオ信号の符号化された表現を運ぶデータストリームに関し、オーディオ信号の符号化された表現は、オーディオ信号に含まれるノイズを記述するノイズ情報に応じてオーディオ信号に含まれるノイズによる影響がより大きいオーディオ信号の部分よりも、オーディオ信号に含まれるノイズによる影響がより小さいオーディオ信号の部分の方が、符号化精度がより高くなるように、オーディオ信号を適応的にコード化する。

本発明の実施の形態は、添付している図を参照して、本願明細書に記載される。

図１は、本発明の実施の形態に従う、オーディオ信号に基づいて符号化された表現を提供するためのオーディオエンコーダーの概略的なブロック図を示す。図２ａは、本発明の実施の形態に従う、音声信号に基づいて符号化された表現を提供するためのオーディオエンコーダーの概略的なブロック図を示す。図２ｂは、本発明の実施の形態に従う、コードブックエントリ決定器の概略的なブロック図を示す。図３は、ノイズの推定値の大きさと、周波数に渡ってプロットされたノイズに対する再構成されたスペクトルとを示す図である。図４は、周波数に渡ってプロットされた異なる予測順序に対するノイズの線形予測適合の大きさを示す図である。図５は、オリジナルの重み付けフィルタの逆数の大きさと、周波数に渡ってプロットされた異なる予測順序を有する提案された重み付けフィルタの逆数の大きさとを示す図である。図６は、本発明の実施の形態に従う、オーディオ信号に基づいて符号化された表現を提供するための方法のフローチャートを示す。

等しい若しくは等価である要素、又は等しい若しくは等価である機能を有する要素は、等しい若しくは等価の参照番号によって、後に説明される。

後の説明において、複数の詳細は、本発明の実施の形態の説明を通してより多くのものを提供するために、述べられる。しかしながら、当業者にとって、本発明の実施の形態は、これらの特定の詳細なしで実行しうることは明らかであろう。他の例では、本発明の実施の形態を不明瞭となることを避けるため、周知の構造や機器は、詳細よりもむしろブロック図で示す。加えて、以下に説明する異なる実施の形態の特徴は、特に明記しない限り、互いに組合しうる。

図１は、オーディオ信号１０４に基づく符号化された表現（又は、符号化されたオーディオ信号）１０２を提供するためのオーディオエンコーダー１００の概略的なブロック図を示す。オーディオエンコーダー１００は、オーディオ信号１０４に含まれるノイズを記述するノイズ情報１０６を得て、ノイズ情報１０６に応じて、オーディオ信号１０４に含まれるノイズによる影響がより大きいオーディオ信号の部分に対してよりも、オーディオ信号１０４に含まれるノイズによる影響がより小さいオーディオ信号の部分に対して、符号化精度がより高くなるように、オーディオ信号１０４を適応的に符号化するように構成される。

例えば、オーディオエンコーダー１００は、ノイズ推定器（又はノイズ決定、又はノイズアナライザー）１１０及び符号器１１２を備えうる。ノイズ推定器１１０は、オーディオ信号１０４に含まれるノイズを記述するノイズ情報１０６を得るように構成しうる。符号器１１２は、ノイズ情報１０６に応じて、オーディオ信号１０４に含まれるノイズによる影響がより大きいオーディオ信号１０４の部分よりも、オーディオ信号１０４に含まれるノイズによる影響がより小さいオーディオ信号１０４の部分に対して、符号化精度がより高くなるように、オーディオ信号１０４を適応的に符号化するように構成しうる。

ノイズ推定器１１０及び符号器１１２は、例えば、集積回路、現場でプログラム可能なゲートアレイ、マイクロプロセッサー、プログラム可能なコンピュータ、又は電子回路のようなハードウェア装置によって（又は、使用して）実装しうる。

実施の形態において、オーディオエンコーダー１００は、ノイズ情報１０６に応じてオーディオ信号１０４を適応的に符号化することによって、オーディオ信号１０４を符号化すると同時に、オーディオ信号１０４（又は符号化されたオーディオ信号）の符号化された表現１０２においてノイズを低減するように構成しうる。

実施の形態において、オーディオエンコーダー１００は、知覚的な目的関数を使用してオーディオ信号１０４を符号化するように構成しうる。知覚的な目的関数は、ノイズ情報１０６に応じて調節され（又は修正され）、したがって、ノイズ情報１０６に応じてオーディオ信号１０４を適応的に符号化する。ノイズ情報１０６は、例えば、信号対ノイズ比又はオーディオ信号１０４に含まれるノイズの推定形状とすることができる。

発明の実施の形態は、聴取努力を減少しようとする、又は、明瞭度をそれぞれ増加しようとする。ここで、実施の形態は、一般に、入力信号の最も正確な可能表現に提供されず、聴取努力又は明瞭度が最適化されるような信号の部分を送信しようとする。特に、実施の形態は、信号の質を変えるが、送信信号が聴取努力を減少せず、又は、実際に送信された信号よりも明瞭度が良くなるような方法に変更しうる。

いくつかの実施の形態によると、符号器の知覚的な目的関数は、修正される。言い換えると、実施形態はノイズを明示的に抑制するのではなく、信号対ノイズ比が最良である信号の部分で精度がより高くなるように目的を変更する。同様に、実施の形態は、ＳＮＲが高いその部分で信号の歪みを減らす。人間の聴取者は、信号をより容易に理解することができる。低いＳＮＲを有する信号のその部分では、精度が低い送信となるが、大部分はノイズを含むので、このような部分を正確に符号化することは重要ではない。言い換えると、高いＳＮＲ部分に精度を集中させることによって、ノイズ部分のＳＮＲを減らす間、実施の形態は、音声部分のＳＮＲを黙示的に改善する。

実施の形態は、例えば、知覚的なモデルを用いるこのような符号器において、いかなる音声及びオーディオ符号器にも実装又は適用しうる。事実上、いくつかの実施の形態によると、知覚的な重み付け関数は、ノイズ特性を基礎として修正しうる（又は調節しうる）。例えば、ノイズ信号の平均的なスペクトルエンベロープは、推定され、知覚的な目的関数を修正しうる。

本明細書に開示される実施の形態は、好ましくは、ＣＥＬＰ型（ＣＥＬＰ＝符号励振線形予測）の音声符号器、又は知覚的なモデルが重み付けフィルタによって表現することができる他の符号器に適用可能である。しかしながら、実施の形態も、ＴＣＸ型符号器（ＴＣＸ＝変換符号化された励起）と同様に、他の周波数領域符号器も使用しうる。さらに、実施の形態のより好ましい使用例は、音声コード化であるが、実施の形態も、いかなる音声及びオーディオ符号器にも、より一般的に使用しうる。ＡＣＥＬＰ（ＡＣＥＬＰ＝代数符号励振線形予測）は、典型的な適用であるので、ＡＣＥＬＰにおける実施の形態の適用を、以下に詳細に説明する。周波数領域符号器を含め、他の符号器における実施の形態の応用は、これらの当業者にとって明らかであるだろう。

音声及びオーディオ符号器において、ノイズ抑制のための従来のアプローチは、コード化の前にノイズを取り除く目的で分離して事前処理されたブロックのように、それを適用することである。しかしながら、ブロックを分離するためにそれを分離することによって、２つの主な不利な点がある。第１に、ノイズサプレッサーは、一般的にノイズを取り除くだけでなく、望まれた信号も歪ませるので、符号器は、したがって、実際に歪まされた信号を符号化しようとする。符号器は、間違ったターゲットを有し、効果や、精度を失うだろう。これも、後続のブロックが、積み重なる独立したエラーを生成するタンデム問題の一例として見うる。ジョイントノイズの抑制やコーディングによって、実施の形態は、タンデム問題を避ける。第２に、ノイズサプレッサーは、別々の事前処理ブロックに、従来のように実装されるので、コンピュータによる複雑性と遅延は高まる。対照的に、実施の形態によると、ノイズサプレッサーは、符号器に埋め込まれているので、とても低い複雑性と遅延に適用することができる。これは、従来のノイズの抑制に対する計算能力を有さない、低価格の装置において特に有益である。

説明は、最も一般的に使用される音声符号器を記載した時点であるので、ＡＭＲ−ＷＢ符号器（ＡＭＲ−ＷＢ＝適応可能な多数比率帯域）についての適用を更に議論するだろう。実施の形態は、３ＧＰＰ向上された音声サービス又はＧ．７１８のような他の音声符号器に対して簡単に適用しうる。実施の形態は、ビットストリームのフォーマットを変更せずに符号器に適用しうるので、実施の形態の好ましい使用方法は、存在する基準へアドオンすることに留意されたい。

図２ａは、実施の形態による音声信号１０４を基礎とした符号化された表現１０２を提供するためのオーディオエンコーダー１００の概略的なブロック図を示す。オーディオエンコーダー１００は、音声信号１０４から残差信号１２０を導き出して、コードブック１２２を使用して残差信号１２０を符号化するように構成しうる。詳しくは、オーディオエンコーダー１００は、ノイズ情報１０６に応じて残差信号１２０を符号化するためのコードブック１２２の複数のコードブックエントリの中からコードブックエントリを選択するように構成しうる。例えば、オーディオエンコーダー１００は、コードブック１２２を備えるコードブックエントリ決定器１２４を備えうり、コードブックエントリ決定器１２４が、ノイズ情報１０６に応じて、残差信号１２０を符号化するためコードブック１２２の複数のコードブックエントリの中からコードブックエントリを選択するように構成しうり、それによって、量子化された残差１２６を得ることができる。

オーディオエンコーダー１００は、残差信号１２０を得るために、音声信号１０４に対する声道の寄与を推定し、声道の推定寄与を音声信号１０４から取り除くように構成しうる。例えば、オーディオエンコーダー１００は、声道推定器１３０及び声道除去器１３２を備えることができる。声道推定器１３０は、音声信号１０４を受信し、音声信号１０４に対する声道の寄与を推定し、音声信号１０４に対する声道１２８の推定寄与を、声道除去器１３２に提供するように構成しうる。声道除去器１３２は、残差信号１２０を得るために、声道１２８の推定寄与を音声信号１０４から取り除くように構成しうる。音声信号１０４に対する声道の寄与は、例えば、直線予測を使用して推定しうる。

オーディオエンコーダー１００は、量子化された残差１２６と、音声信号（又は、符号化された音声信号）を基礎とした符号化された表現のように、声道１２８の推定寄与（又は、声道１０４の推定寄与１２８を記述するフィルターパラメータ）を提供するように構成しうる。

コードブックエントリ決定器１２４は、声道Ａ（ｚ）の推定寄与から量子化声道合成フィルタＨを決定するように構成される量子化声道合成フィルタ決定器１４４を備えることができる。

更に、コードブックエントリ決定器１２４は、コードブックエントリの選択に対するノイズの影響が低減されるように、知覚的な重み付けフィルタＷを調節するように構成される知覚的な重み付けフィルタ調節器１４２を備えうる。例えば、ノイズによる影響がより小さい音声信号の部分が、ノイズによる影響がより大きい音声信号の部分よりも、コードブックエントリの選択についてより重み付けられるように、知覚的な重み付けフィルタＷは調節しうる。更に（或いは）、ノイズによる影響がより小さい残差信号１２０の部分と、量子化された残差信号１２６の対応する部分との間のエラーが低減されるように、知覚的な重み付けフィルタＷは調節しうる。

アプリケーションのシナリオにおいて、追加の遠端のノイズは、着信音声信号に存在しうる。したがって、信号は、ｙ（ｔ）＝ｓ（ｔ）＋ｎ（ｔ）である。この場合、声道モデルＡ（ｚ）及びオリジナルの残差の両方とも、ノイズに含まれる。声道モデルにおいてノイズを無視し、残差においてノイズに焦点を当てる単純化から始まるので、アイデア（実施の形態による）は、追加のノイズが、残差の選択において低減されるように、知覚的な重み付けをガイドすることである。当初と量子化された残差との間の通常のエラーは、音声スペクトルエンベロープに似ていることが望まれるので、実施の形態によると、ノイズに対してより丈夫な箇所におけるエラーが低減される。言い換えれば、実施の形態によると、ノイズによる損傷が少ない周波数成分は、より少ないエラーで量子化されるのに対して、ノイズからのエラーを含む可能性がある低振幅成分が、量子化過程においてより低い重みを有する。

望まれた信号に対するノイズ影響を考慮に入れると、第１のノイズ信号の推定は、必要とされる。ノイズの推定は、多くの方法が存在する典型的なトピックである。いくつかの実施の形態は、エンコーダーにおいて既に存在する情報が使用されることによって、低複雑性の方法を提供する。好ましいアプローチにおいて、音声区間検出（ＶＡＤ）のために保存される背景ノイズの形状の推定は、使用しうる。この推定は、増加する幅を有する１２の周波数帯において、背景ノイズのレベルを含む。スペクトルは、オリジナルのデータポイント間の補完を有する線形周波数スケールへそれをマッピングすることによって、この推定から構築しうる。オリジナルの背景推定及び再構成されたスペクトルの例は、図３によって示される。詳細には、図３は、平均ＳＮＲ−１０ｄＢを有する車のノイズに対するオリジナルの背景推定及び再構成されたスペクトルを示す。再構成されたスペクトルからの自動的相関関係は、レビンソン・ダービン再帰法を有する経路順序線形予測（ＬＰ）係数を導き出すために使用される。ｐ＝２...６を有する得られたＬＰ適合の例は、図４において示される。詳細には、図４は、異なった予測順序（ｐ＝２...６）を有する背景ノイズに対して得られた線形予測を示す。背景ノイズとは、平均ＳＮＲ−１０ｄＢを有する車のノイズである。

図５において、異なる予測順序を有するオリジナルの重み付けフィルタの逆数と、提案された重み付けフィルタの逆数との例が示される。図の場合、強調されていないフィルタは使用されていない。言い換えれば、図５は、異なる予測順序を有する当初及び提案された重み付けフィルタの逆数の周波数応答を示す。背景ノイズとは、平均ＳＮＲ−１０ｄＢを有する車のノイズである。

図６は、オーディオ信号に基づく符号化された表現を提供するための方法のフローチャートを示す。方法は、オーディオ信号に含まれるノイズを記述するノイズ情報を得るステップ２０２を備える。更に、方法２００は、ノイズ情報に応じて、オーディオ信号に含まれるノイズによる影響がより大きいオーディオ信号の部分よりも、オーディオ信号に含まれるノイズによる影響がより小さいオーディオ信号の部分の方が、符号化精度がより高くなるように、オーディオ信号を適応的に符号化するステップ２０４を備える。

いくつかの態様が、装置との関係において述べられているけれども、これらの態様が、対応する方法の説明も示すことは明らかであり、ブロック又は装置が、方法ステップ又は方法ステップの特徴に相当する。同様に、方法ステップとの関係において述べられる態様は、対応するブロック又はアイテムの説明、又は対応する装置の特徴も示す。方法ステップのいくつか又はすべては、例えば、マイクロプロセッサー、又はプログラム可能なコンピュータ、又は電子回路のような、ハードウェア装置によって（又は使用して）実行しうる。いくつかの実施の形態において、最も重要な方法ステップのうち１つ以上は、このような装置によって実行しうる。

本発明の符号化されたオーディオ信号は、デジタル記録媒体に保存しても良いし、又は無線送信媒体若しくはインターネットのような有線送信媒体などの送信媒体で送信しても良い。

特定の実施要求に応じて、本発明の実施の形態は、ハードウェアにおいて、または、ソフトウェアにおいて実装しうる。実装は、それぞれの方法が実行されるように、プログラミング可能なコンピュータシステムと協働しうるか、（又は協働することが可能であり、）そこに格納された電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えば、フロッピー（登録商標）ディスク、ＤＶＤ、ブルーレイディスク（登録商標）、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ（登録商標）、またはＦＬＡＳＨメモリ、を使用して実行しうる。

本発明によるいくつかの実施の形態は、プログラム可能なコンピュータシステムと協働することができる電気的に読み込み可能な制御信号を有するデータキャリアを備え、本願明細書において記載される方法の１つが実行される。

通常、本発明の実施の形態は、プログラムコードを有するコンピュータプログラム製品として実施しうり、コンピュータプログラム製品がコンピュータ上で動くときに、プログラムコードは、方法の１つを実行するために動作される。例えば、プログラムコードは、機械読み取り可能なキャリアに保存しうる。

他の実施の形態は、本願明細書において記載されている方法の１つを実行するためのコンピュータプログラムを備え、機械読み取り可能なキャリアに保存される。

言い換えれば、本発明の方法の実施の形態は、それゆえに、コンピュータプログラムがコンピュータ上で実行するときに、本願明細書において記載されている方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

本発明の方法の更なる実施形態は、それゆえに、本願明細書において記載される方法の１つを実行するためのコンピュータプログラムを備え、記録されるデータキャリア（又はデジタル記憶媒体またはコンピュータ可読媒体）である。

本発明の方法の更なる実施形態は、それゆえに、本願明細書において記載されている方法の１つを実行するためのコンピュータプログラムを表すデータストリーム又は一連の信号である。データストリーム又は一連の信号は、例えば、データ通信接続を経て、例えばインターネットを経て、送信されるように構成しうる。

更なる実施の形態は、本願明細書において記載されている方法の１つを実行するように構成、若しくは、適合された、例えばコンピュータのような処理手段又はプログラム可能な論理装置を備える。

更なる実施の形態は、本願明細書において記載されている方法の１つを実行するためのコンピュータプログラムがインストールされるコンピュータを備える。

本発明による更なる実施の形態は、本願明細書において記載される方法の１つを実行するためのコンピュータプログラムを受信装置に（例えば、電子的もしくは、光学的に）送信するように構成される装置またはシステムを備える。受信装置は、例えば、コンピュータ、モバイル機器、メモリ装置または類似の装置でもよい。装置またはシステムは、例えば、コンピュータプログラムを受信装置に送信するためのファイルサーバを備えうる。

いくつかの実施の形態では、プログラム可能な論理装置（例えば、現場でプログラム可能なゲートアレイ）が、本願明細書において記載される方法の機能性のいくつか又は全てを実行するために使用しうる。いくつかの実施の形態では、現場でプログラム可能なゲートアレイは、本願明細書において記載される方法の１つを実行するために、マイクロプロセッサーと協働できる。一般に、方法は、好ましくは、いかなるハードウェア装置によって、実行しうる。

本明細書において記載される装置は、ハードウェア装置を使用して、又はコンピュータを使用して、又はハードウェア装置とコンピュータとの組み合わせを使用して実装しうる。

本願明細書において記載される方法は、ハードウェア装置を使用して、又はコンピュータを使用して、又はハードウェア装置とコンピュータとの組み合わせを使用して実行しうる。

上述した実施の形態は、本発明の原理の例を表すだけである。本願明細書に記載された構成及び詳細の修正及び変形は、当業者には明らかであることが理解される。それゆえに、本発明は、添付の特許請求の範囲によってのみ限定され、本願明細書の実施の形態の記述及び説明のための特定の詳細によっては限定されないことが意図される。

Claims

オーディオ信号（１０４）に基づいて、符号化された表現（１０２）を提供するためのオーディオエンコーダー（１００）であって、前記オーディオエンコーダー（１００）は、前記オーディオ信号（１０４）に含まれるノイズを記述するノイズ情報（１０６）を取得するように構成され、前記オーディオエンコーダー（１００）は、前記ノイズ情報（１０６）に応じて、前記オーディオ信号（１０４）に含まれる前記ノイズによる影響がより大きい前記オーディオ信号（１０４）の部分よりも、前記オーディオ信号（１０４）に含まれる前記ノイズによる影響がより小さい前記オーディオ信号（１０４）の部分の方が、符号化精度がより高くなるように、前記オーディオ信号（１０４）を適応的に符号化するように構成され、
前記オーディオ信号（１０４）は音声信号であり、前記オーディオエンコーダー（１００）は、前記音声信号（１０４）から残差信号（１２０）を導き出して、コードブック（１２２）を使用して前記残差信号（１２０）を符号化するように構成され、
前記オーディオエンコーダー（１００）は、前記ノイズ情報（１０６）に応じて前記残差信号（１２０）を符号化するために、コードブック（１２２）の複数のコードブックエントリの中からコードブックエントリを選択するように構成され、
前記オーディオエンコーダー（１００）は、知覚的な重み付けフィルタ（Ｗ）を使用して前記コードブックエントリを選択するように構成され、
前記オーディオエンコーダー（１００）は、前記ノイズによる影響がより大きい前記音声信号（１０４）の部分よりも、前記ノイズによる影響がより小さい前記音声信号（１０４）の部分の方が、前記コードブックエントリの前記選択のためにより加重が付けられるように、前記知覚的な重み付けフィルタ（Ｗ）を調節するように構成され、
前記オーディオエンコーダー（１００）は、前記知覚的な重み付けフィルタ（Ｗ）によって重み付けされた前記残差信号（１２６）の合成され重み付けられた量子化エラーが減少する又は最小化するように、前記残差信号（１２０）のための前記コードブックエントリを選択するように構成される、オーディオエンコーダー（１００）。
前記オーディオエンコーダー（１００）は、前記ノイズ情報（１０６）に応じて、前記オーディオ信号（１０４）を符号化するために使用される知覚的な目的関数を調節することによって、前記オーディオ信号（１０４）を適応的に符号化するように構成される、請求項１に記載するオーディオエンコーダー（１００）。
前記オーディオエンコーダー（１００）は、前記ノイズ情報（１０６）に応じて前記オーディオ信号（１０４）を適応的に符号化することによって、前記オーディオ信号（１０４）を符号化すると同時に、前記オーディオ信号（１０４）の前記符号化された表現（１０２）における前記ノイズを減らすように構成される、請求項１ないし請求項２の１つに記載するオーディオエンコーダー（１００）。
前記ノイズ情報（１０６）は信号対ノイズ比である、請求項１ないし請求項３の１つに記載するオーディオエンコーダー（１００）。
前記ノイズ情報（１０６）は前記オーディオ信号（１０４）に含まれる前記ノイズの推定形状である、請求項１ないし請求項３の１つに記載するオーディオエンコーダー（１００）。
前記オーディオエンコーダー（１００）は、前記音声信号に対する声道の寄与を推定し、前記残差信号（１２０）を得るために、前記声道の前記推定された寄与を前記音声信号（１０４）から取り除くように構成される、請求項１ないし請求項５の１つに記載するオーディオエンコーダー（１００）。
前記オーディオエンコーダー（１００）は、線形予測を使用して、前記音声信号（１０４）に対する前記声道の前記寄与を推定するように構成される、請求項６に記載するオーディオエンコーダー（１００）。
前記オーディオエンコーダーは、前記コードブックエントリの前記選択に対する前記ノイズの影響が低減されるように、前記知覚的な重み付けフィルタ（Ｗ）を調節するように構成される、請求項１ないし請求項７の１つに記載するオーディオエンコーダー（１００）。
前記オーディオエンコーダー（１００）は、前記ノイズによる影響がより小さい前記残差信号（１２０）の前記部分と、量子化された残差信号（１２６）の前記対応する部分との間のエラーが低減されるように、前記知覚的な重み付けフィルタ（Ｗ）を調節するように構成される、請求項１ないし請求項８の１つに記載するオーディオエンコーダー（１
００）。
前記オーディオエンコーダー（１００）は、前記残差信号（１２０、ｘ）のための前記コードブックエントリを、前記知覚的な重み付けフィルタ（Ｗ）で重み付けされた前記残差信号の合成され重み付けられた量子化エラーが低減するように、選択するように構成される、請求項１ないし請求項９の１つに記載するオーディオエンコーダー（１００）。
前記オーディオエンコーダーは、前記ノイズ情報として、音声区間検出のために前記オーディオエンコーダーで得られる前記ノイズの形状の推定を使用するように構成される、請求項１ないし請求項１１の１つに記載するオーディオエンコーダー（１００）。
オーディオ信号に基づいて符号化された表現を提供するための方法であって、
前記オーディオ信号に含まれるノイズを記述するノイズ情報を得るステップと、
前記ノイズ情報に応じて、前記オーディオ信号に含まれる前記ノイズによる影響がより大きい前記オーディオ信号の部分よりも、前記オーディオ信号に含まれる前記ノイズによる影響がより小さい前記オーディオ信号の部分の方が、符号化精度がより高くなるように、前記オーディオ信号を適応的に符号化するステップであって、前記ノイズによる損傷が少ない周波数成分はより少ないエラーで量子化されるのに対して、前記ノイズからのエラーを含む可能性がある成分は、前記量子化過程においてより低い重みを有するステップと、
前記オーディオ信号（１０４）は音声信号であり、
前記音声信号（１０４）から前記残差信号（１２０）を導き出して、コードブック（１２２）を使用して前記残差信号（１２０）を符号化するステップと、
前記ノイズ情報（１０６）に応じて前記残差信号（１２０）を符号化するために、コードブック（１２２）の複数のコードブックエントリの中からコードブックエントリを選択するステップと、
知覚的な重み付けフィルタ（Ｗ）を使用して前記コードブックエントリを選択するステップと、
前記ノイズによる影響がより大きい前記音声信号（１０４）の部分よりも、前記ノイズによる影響がより小さい前記音声信号（１０４）の部分の方が、コードブックエントリの選択のためにより加重が付けられるように、前記知覚的な重み付けフィルタ（Ｗ）を調節するステップと、
前記知覚的な重み付けフィルタ（Ｗ）によって重み付けされた前記残差信号（１２６）の合成され重み付けられた量子化エラーが減少する又は最小化するように、前記残差信号（１２０）のための前記コードブックエントリを選択するステップを含む、方法。
請求項１５に記載する方法を実行するコンピュータプログラムを記憶したコンピュータ可読デジタル記憶媒体。
オーディオ信号（１０４）に基づいて、符号化された表現（１０２）を提供するためのオーディオエンコーダー（１００）であって、前記オーディオエンコーダー（１００）は、背景ノイズを記述するノイズ情報（１０６）を得るように構成され、前記オーディオエンコーダー（１００）は、前記オーディオ信号（１０４）を符号化するために使用される知覚的な重み付けフィルタを前記ノイズ情報に応じて調節することによって、前記ノイズ情報（１０６）に応じて前記オーディオ信号（１０４）を適応的に符号化するように構成され、
前記オーディオ信号（１０４）は音声信号であり、前記オーディオエンコーダー（１００）は、前記音声信号（１０４）から前記残差信号（１２０）を導き出して、コードブック（１２２）を使用して前記残差信号（１２０）を符号化するように構成され、
前記オーディオエンコーダー（１００）は、前記ノイズ情報（１０６）に応じて前記残差信号（１２０）を符号化するために、コードブック（１２２）の複数のコードブックエントリの中からコードブックエントリを選択するように構成され、
前記オーディオエンコーダー（１００）は、ノイズによる影響がより大きい前記音声信号（１０４）の部分よりも、ノイズによる影響がより小さい前記音声信号（１０４）の部分の方が、コードブックエントリの選択のためにより加重が付けられるように、前記知覚的な重み付けフィルタ（Ｗ）を調節するように構成され、
前記オーディオエンコーダー（１００）は、前記知覚的な重み付けフィルタ（Ｗ）によって重み付けされた前記残差信号（１２６）の合成され重み付けられた量子化エラーが減少する又は最小化するように、前記残差信号（１２０）のためのコードブックエントリを選択するように構成される、オーディオエンコーダー（１００）。