JP2014505907A

JP2014505907A - 不活性相の間のノイズ合成を用いるオーディオコーデック

Info

Publication number: JP2014505907A
Application number: JP2013553903A
Authority: JP
Inventors: パンジ・ゼティアヴァン; コンスタンティン・シュミット; シュテファン・ヴィルデ
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2011-02-14
Filing date: 2012-02-14
Publication date: 2014-03-06
Anticipated expiration: 2032-02-14
Also published as: US9153236B2; MX2013009303A; KR101613673B1; SG192718A1; US20130332175A1; ZA201306873B; CA2827335A1; PL2676264T3; AU2012217161B2; CN103534754A; CA2903681C; TWI480857B; MY160272A; EP2676264A1; CA2903681A1; TW201250671A; AU2012217161A1; ES2535609T3; KR20130138362A; WO2012110481A1

Abstract

活性相に続く不活性相の入口でノイズ発生が直ちに開始できるように、活性相又は非無音相の間にパラメトリック背景ノイズ推定が連続的に更新される。別の態様によれば、背景ノイズをパラメータ化するためにスペクトル領域が極めて効率的に使用され、これにより、さらに現実的であり、よってさらに透明な活性−不活性相スイッチングに繋がる背景ノイズ合成がもたらされる。
【選択図】図１

Description

本発明は、不活性相の間のノイズ合成をサポートするオーディオコーデックに関する。

伝送帯域幅を、音声又は他のノイズソースの不活性期間を利用することによって低減する可能性は、技術上知られている。このようなスキームは、概して、何らかの形式の検出を用いて不活性（又は無音）相と活性（非無音）相とを区別する。不活性相の間は、記録信号を精確に符号化する通常のデータストリームの送信を停止し、代わりに無音挿入記述子（ＳＩＤ：silence insertion description）の更新のみを送信することによって、より低いビットレートが達成される。ＳＩＤの更新は、規則的間隔で、又は背景ノイズの特徴に変化が検出されたときに送信することができる。よって、ＳＩＤフレームは、復号側において、活性相の間の背景ノイズに類似する特徴を有する背景ノイズを発生するように使用することができ、よって、記録信号を符号化する通常のデータストリームの伝送の停止が、受信者側での活性相から不活性相への移行を不快なものにすることはない。

しかしながら、それでもなお、伝送速度をさらに低減することが必要とされている。携帯電話の数の増加等のビットレート消費者の数の増加、及び無線送信放送等の多かれ少なかれビットレート集約的なアプリケーションの数の増加は、消費されるビットレートの安定した減少を要求している。

一方で、合成ノイズは、合成がユーザにとって透明であるように、実際のノイズを厳密にエミュレートすべきである。

したがって、本発明の１つの目的は、達成可能なノイズ発生品質を維持しながら伝送ビットレートを低減できるようにする、不活性相の間のノイズ発生をサポートするオーディオ・コーデック・スキームを提供することにある。

この目的は、係属中の独立請求項の一部に記載された発明対象によって達成される。

本発明の基本的考案は、活性相に続く不活性相に入った時点でノイズ発生を直ちに開始できるように活性相の間にパラメトリック背景ノイズ推定が連続的に更新されれば、不活性相におけるノイズ発生品質を維持しながら貴重なビットレートを節約できる、というものである。例えば、連続的な更新は復号側で実行でき、よって復号側が活性相の間にパラメトリック背景ノイズ推定を連続的に更新していて、いつでも適切なノイズ発生で不活性相へと即入る準備がなされているので、不活性相の検出直後のウォームアップ相の間に、背景ノイズのコード化された表現を復号側へ予備的に提供する必要はない。この提供を行えば、貴重なビットレートを消費することになる。同様に、パラメトリック背景ノイズ推定が符号化側で行われれば、このようなウォームアップ相は回避できる。背景ノイズを学習し、この学習相の後に復号側へ適宜知らせるために、不活性相の入口を検出した時点で復号側へ背景ノイズの従来方法でコード化された表現を提供することを予備的に継続する代わりに、エンコーダは、過ぎたばかりの活性相の間に連続的に更新されたパラメトリック背景ノイズ推定に頼り、これにより、背景ノイズを必要以上に符号化する予備的なさらなる実行によるビットレートの消費を回避することによって、不活性相の入口を検出した時点で直ちにデコーダへ必要なパラメトリック背景ノイズ推定を提供することができる。

本発明の具体的な実施形態によれば、例えばビットレート及び計算の複雑さに関する適度の経費において、より現実的なノイズ発生が達成される。具体的には、これらの実施形態によれば、背景ノイズをパラメータ化するためにスペクトル領域が使用され、これにより、さらに現実的であり、よってさらに透明な活性−不活性相スイッチングに繋がる背景ノイズ合成がもたらされる。さらに、スペクトル領域における背景ノイズのパラメータ化は、有効な信号からのノイズの分離を有効化し、従って、スペクトル領域における背景ノイズのパラメータ化は、先に述べた活性相の間のパラメトリック背景ノイズ推定の連続的な更新と組み合わされると優位点を有することが発見されているが、これは、本出願の双方の効果的態様を組み合わせると、ノイズと有益な信号との間のより良い分離がスペクトル領域において、１つの領域から他の領域への追加的移行が不要であるように達成できることに起因する。

本発明の実施形態のさらなる効果的詳細は、係属中のクレームセットの従属請求項の主題となっている。

以下、諸図面に関連して、本出願の好適な実施形態を説明する。

図１はある実施形態によるオーディオエンコーダを示すブロック図である。図２は符号化エンジン１４の可能な一実施を示す。図３はある実施形態によるオーディオデコーダを示すブロック図である。図４はある実施形態による、図３の復号エンジンの可能な一実施を示す。図５は前記実施形態のより詳細なさらなる説明によるオーディオエンコーダを示すブロック図である。図６はある実施形態による図５のエンコーダに関連して使用される可能性のあるデコーダを示すブロック図である。図７は前記実施形態のより詳細なさらなる説明によるオーディオデコーダを示すブロック図である。図８はある実施形態によるオーディオデコーダのスペクトル帯域幅拡張部を示すブロック図である。図９はある実施形態による図８のＣＮＧスペクトル帯域幅拡張エンコーダの一実施を示す。図１０はスペクトル帯域幅拡張を用いる一実施形態によるオーディオデコーダを示すブロック図である。図１１はスペクトル帯域幅複製を用いるオーディオデコーダの一実施形態に関する可能かつより詳細な説明を示すブロック図である。図１２はスペクトル帯域幅拡張を用いるさらなる実施形態によるオーディオデコーダを示すブロック図である。図１３はオーディオデコーダのさらなる実施形態を示すブロック図である。

図１は、本発明の一実施形態によるオーディオエンコーダを示す。図１のオーディオエンコーダは、背景ノイズ推定器１２と、符号化エンジン１４と、検出器１６と、オーディオ信号入力１８と、データストリーム出力２０とを備えている。プロバイダ１２、符号化エンジン１４及び検出器１６は、各々オーディオ信号入力１８へ接続される入力を有する。推定器１２及び符号化エンジン１４の出力は、各々、スイッチ２２を介してデータストリーム出力２０へ接続される。スイッチ２２、推定器１２及び符号化エンジン１４は、各々、検出器１６の出力へ接続される制御入力を有する。

背景ノイズ推定器１２は、活性相２４の間中に、入力１８においてオーディオエンコーダ１０に進入する入力オーディオ信号に基づいてパラメトリック背景ノイズ推定を連続的に更新するように構成されている。図１は、背景ノイズ推定器１２が、パラメトリック背景ノイズ推定の連続的な更新を、入力１８における入力としてのオーディオ信号に基づいて導出できることを示唆しているが、必ずしもこの通りである必要はない。それに代えて又はそれに加えて、背景ノイズ推定器１２は、点線２６が示すように、符号化エンジン１４からある種のオーディオ信号を取得してもよい。その場合、背景ノイズ推定器１２は、図１の構成に代えて又はそれに加えて、各々接続回線２６及び符号化エンジン１４を介して入力１８へ間接的に接続されることになる。具体的には、背景ノイズ推定器１２が背景ノイズ推定を連続的に更新することに関しては異なる可能性が存在し、以下、これらの可能性の幾つかについてさらに述べる。

符号化エンジン１４は、活性相２４の間中に、入力１８に到達する入力オーディオ信号をデータストリームに符号化するように構成されている。活性相は、オーディオ信号の内部に、音声又はノイズソースの他の有益な音等の有益な情報が含まれている全ての時間を包含する。一方で、例えば話者の背景における雨又は交通により引き起こされるような時不変スペクトル等のほぼ時不変の特徴を有する音は、背景ノイズとして分類され、かつ単にこの背景ノイズしか存在しない場合、個々の時間期間は常に不活性相２８として分類される。検出器１６は、活性相２４に続く不活性相２８の入口を、入力１８における入力オーディオ信号に基づいて検出する働きをする。言い替えれば、検出器１６は、２つの相の間、即ち活性相と不活性相とを区別し、現時点でどちらの相が存在するかを決定する。検出器１６は、その時点で存在する相について符号化エンジン１４に通知し、既に述べたように、符号化エンジン１４は、活性相２４の間中に入力オーディオ信号のデータストリームへの符号化を実行する。検出器１６は、符号化エンジン１４により出力されるデータストリームが出力２０において出力されるように、適宜、スイッチ２２を制御する。不活性相の間、符号化エンジン１４は、入力オーディオ信号の符号化を停止してもよい。少なくとも、出力２０において出力されるデータストリームは、もはや、おそらくは符号化エンジン１４により出力される如何なるデータストリームによっても搬送されない。これに加えて、符号化エンジン１４は、推定器１２を何らかの状態変数更新によってサポートする最小限の処理しか実行しなくてもよい。この行動は、計算電力を大幅に低減させる。スイッチ２２は、例えば、符号化エンジンの出力ではなく、推定器１２の出力が出力２０へ接続されるように設定される。こうして、出力２０において出力されるビットストリームを伝送するための貴重な伝送ビットレートが低減される。

背景ノイズ推定器１２は、先に既に述べたように、活性相２４の間、入力されるオーディオ信号１８に基づいてパラメトリック背景ノイズ推定を連続的に更新するように構成され、これにより、推定器１２は、出力２０において出力されるデータストリーム３０へ、活性相２４から不活性相２８への移行直後、即ち不活性相２８へ進入するとすぐに、活性相２４の間の連続的な更新に伴って、パラメトリック背景ノイズ推定を挿入することができる。背景ノイズ推定器１２は、例えば、無音挿入記述子フレーム３２をデータストリーム３０へ、活性相２４の終わりに即続いて、かつ検出器１６が不活性相２８の入口を検出した瞬間３４に即続いて挿入することができる。言い替えれば、活性相２４の間に背景ノイズ推定器がパラメトリック背景ノイズ推定を連続的に更新することにより、検出器による不活性相２８の入口の検出と、必要なＳＩＤ３２の挿入との間に時間的なギャップは存在しない。

したがって、上述の説明を要約すると、図１のオーディオエンコーダ１０は、次のように動作することができる。例示を目的として、現時点で活性相２４が存在するものと想定されたい。この場合、符号化エンジン１４は、目下、入力１８における入力オーディオ信号をデータストリーム２０に符号化している。スイッチ２２は、符号化エンジン１４の出力を出力２０へ接続している。符号化エンジン１４は、入力オーディオ信号１８をデータストリームに符号化するために、パラメトリック符号化及び／変換符号化を用いることができる。具体的には、符号化エンジン１４は、入力オーディオ信号をフレーム単位で符号化することができ、各フレームは、入力オーディオ信号の連続する−部分的に互いに重なり合う−時間間隔のうちの１つを符号化する。符号化エンジン１４は、さらに、データストリームの連続するフレーム間で異なる符号化モードを切り換える能力をもつことができる。例えば、フレームの中には、ＣＥＬＰ符号化等の予測符号化を用いて符号化できるものもあれば、他に、ＴＣＸ又はＡＡＣ符号化等の変換符号化を用いて符号化できるものもある。例えば、２０１０年９月２４日付けのＩＳＯ／ＩＥＣＣＤ２３００３−３に記述されているＵＳＡＣ及びその符号化方法を参照されたい。

背景ノイズ推定器１２は、活性相２４の間に、パラメトリック背景ノイズ推定を連続的に更新する。したがって、背景ノイズ推定器１２は、パラメトリック背景ノイズ推定をノイズ成分のみから決定するために、入力オーディオ信号内のノイズ成分と有益な信号成分とを区別するように構成することができる。さらに後述する実施形態によれば、背景ノイズ推定器１２は、この更新を、符号化エンジン１４内部の変換符号化でも使用されるスペクトル領域等のスペクトル領域において実行することができる。しかしながら、時間領域等の他の代替領域も同じく利用可能である。スペクトル領域である場合、これは、ＭＤＣＴ領域等の重複変換領域であっても、ＱＭＦ領域等の複素数値フィルタバンク領域のようなフィルタバンク領域であってもよい。

さらに、背景ノイズ推定器１２は、この更新を、入力１８へ進入又はデータストリームに非可逆符号化されるオーディオ信号ではなく、むしろ、例えば予測及び／又は変換符号化の間に符号化エンジン１４内部の中間結果として取得される励振又は残留信号に基づいて実行することができる。このように行うことにより、入力オーディオ信号内の有益な信号成分の大部分は、背景ノイズ推定器１２にとってノイズ成分の検出がより容易であるように、既に除去されていたものとなろう。

活性相２４の間は、検出器１６もまた、不活性相２８の入口の検出を連続的に実行している。検出器１６は、音声／音響活動検出器（ＶＡＤ／ＳＡＤ）として具現されても、入力オーディオ信号内にその時点で有益な信号成分が存在するか否かを決定する他の何らかの手段として具現されてもよい。活性相２４が継続しているかどうかの決定に際しての検出器１６の基準は、しきい値が超過されると直ちに不活性相に入るものと想定して、入力オーディオ信号の低域通過フィルタリングされた電力が所定のしきい値より下のままであるかどうかをチェックすることであるとできる。

検出器１６が活性相２４に続く不活性相２８の入口の検出を実行する実際の方法とは独立して、検出器１６は、直ちに、他の構成要素１２、１４及び２２に不活性相２８の入口を知らせる。活性相２４の間の背景ノイズ推定器によるパラメトリック背景ノイズ推定の連続的な更新により、出力２０において出力されるデータストリーム３０は、直ちに、符号化エンジン１４からそれ以上供給されないように防止することができる。どちらかと言えば、背景ノイズ推定器１２は、不活性相２８の入口が知らされた時点で直ちに、データストリーム３０へ、パラメトリック背景ノイズ推定の最新の更新に関する情報をＳＩＤフレーム３２の形式で挿入する。即ち、ＳＩＤフレーム３２は、検出器１６が不活性相の入口を検出した時間間隔に関するオーディオ信号のフレームを符号化する符号化エンジンの最終フレームの直後に続くことができる。

通常、背景ノイズは、さほど頻繁には変化しない。ほとんどの場合、背景ノイズは、時間的に不変な何かである傾向がある。したがって、検出器１６による不活性相２８の始まりの検出直後に背景ノイズ推定器１２がＳＩＤフレーム３２を挿入した後は、あらゆるデータストリーム伝送を中断することができ、よって、この中断相３４において、データストリーム３０は、如何なるビットレートも消費せず、又は単に何らかの伝送目的で必要とされる最小限のビットレートしか消費しない。最小限のビットレートを保持するために、背景ノイズ推定器１２は、ＳＩＤ３２の出力を断続的に反復してもよい。

しかしながら、背景ノイズは経時変化しないという傾向にも関わらず、背景ノイズが変わるということが起こる場合がある。例えば、携帯電話のユーザが車を離れ、よって背景ノイズがモータノイズから、ユーザが電話している間の車外の交通ノイズに変わる場合を想像されたい。背景ノイズのこのような変化を追跡するために、背景ノイズ推定器１２は、不活性相２８の間でも連続的に背景ノイズを調査するように構成することができる。背景ノイズ推定器１２が、パラメトリック背景ノイズ推定が何らかのしきい値を超える量だけ変化していると決定する場合、背景ノイズ推定器１２は常に、パラメトリック背景ノイズ推定の更新されたバージョンをデータストリーム２０へ別のＳＩＤ３８を介して挿入してもよく、この後、例えば別の活性相４２が検出器１６により検出されたとして開始されるまでは、別の中断相４０が続き、以後同様に続いてもよい。当然ながら、その時点で更新されるパラメトリック背景ノイズ推定を明らかにするＳＩＤフレームは、代替として、又は追加的に、パラメトリック背景ノイズ推定の変化とは独立して、不活性相の内部に中間式に散在されてもよい。

明らかに、符号化エンジン１４により出力され、図１においてハッチングにより示されているデータストリーム４４は、不活性相２８の間に伝送されるべきデータストリームの断片３２及び３８より多い伝送ビットレートを消費し、よって、ビットレートの節約量は多大である。さらに、背景ノイズ推定器１２は、データストリーム３０のさらなる供給へと進むことを直ちに開始できることから、符号化エンジン１４のデータストリーム４４の伝送を予備的に時間３４における不活性相の検出ポイントを超えて続ける必要はなく、これにより、消費されるビットレートの全体量はさらに低減される。

後に、より具体的な実施形態に関連してさらに詳細に説明するように、符号化エンジン１４は、入力オーディオ信号の符号化において、励振信号及び線形予測係数を各々データストリーム３０及び４４へ符号化する変換によって、入力オーディオ信号を線形予測係数及び励振信号に予測的に符号化するように構成することができる。図２には、実施の可能性の１つが示されている。図２によれば、符号化エンジン１４は、変換器５０と、周波数領域ノイズシェーパ（ＦＤＮＳ：frequency domain noise shaper）５２と、量子化器５４とを備え、これらは、符号化エンジン１４のオーディオ信号入力５６とデータストリーム出力５８との間に言及した順序で直列に接続されている。さらに、図２の符号化エンジン１４は、線形予測（ＬＰ：linear prediction）分析モジュール６０を備え、これは、オーディオ信号の部分を個々に分析ウィンドウ処理しかつウィンドウ処理された部分に自己相関を適用することによりオーディオ信号５６から線形予測係数（ＬＰＣ：linear prediction coefficient）を決定するように構成され、又は変換器５０により出力される入力オーディオ信号の変換領域における変換に基づいて、その電力スペクトルを使用しかつ自己相関を決定すべくこれに逆ＤＦＴを適用することによって自己相関を決定するように構成され、後続のＬＰＣ推定は、（ウィーナ）レヴィンソン−ダービンの算法の使用等の自己相関に基づいて実行される。

線形予測分析モジュール６０により決定される線形予測係数に基づいて、出力５８において出力されるデータストリームにはＬＰＣに関する個々の情報が供給され、周波数領域ノイズシェーパは、モジュール６０が出力する線形予測係数により決定される線形予測分析フィルタの伝達関数に対応する伝達関数に従ってオーディオ信号のスペクトログラムをスペクトル整形するように制御される。データストリームにおいて伝送するためのＬＰＣの量子化は、ＬＳＰ／ＬＳＦ領域において、分析器６０における分析速度に比べて伝送速度を低減させるべく補間を用いて実行することができる。さらに、ＦＤＮＳにおいて実行されるＬＰＣ−スペクトル重み付け変換は、ＬＰＣにＯＤＦＴを適用すること、及び結果として得られる重み付け値を変換器のスペクトルに除数として適用することを包含することができる。

量子化器５４は、次に、スペクトル的に形成された（扁平にされた）スペクトログラムの変換係数を量子化する。例えば、変換器５０は、ＭＤＣＴ等の重複変換を用いてオーディオ信号を時間領域からスペクトル領域へ伝達し、これにより、入力オーディオ信号のオーバーラップしてウィンドウ処理された部分に対応する連続する変換を取得する。これは、次に、周波数領域ノイズシェーパ５２により、これらの変換にＬＰ分析フィルタの伝達関数に従って重み付けすることによってスペクトル的に形成される。

整形されたスペクトログラムは励振信号と解釈することができ、破線矢印６２によって示されているように、背景ノイズ推定器１２は、この励振信号を用いてパラメトリック背景ノイズ推定を更新するように構成することができる。あるいは、破線矢印６４によって示されているように、背景ノイズ推定器１２は、変換器５０による出力としての重複変換表現を、更新の基礎として直接、即ちノイズシェーパ５２による周波数領域ノイズ整形なしに用いることもできる。

図１から図２までに示されている要素の可能な実施に関するさらなる詳細は、さらに詳細な後続の実施形態から導き出すことができるが、これらの詳細が全て、個々に、図１及び図２の要素に移転可能であることに留意すべきである。

しかしながら、これらのより詳細な実施形態について説明する前に、パラメトリック背景ノイズ推定の更新がデコーダ側で実行できることを、代替として、又は追加的に示す図３を参照して説明する。

図３のオーディオデコーダ８０は、デコーダ８０の入力８２へ入るデータストリームを復号し、これから、デコーダ８０の出力８４において出力されるべきオーディオ信号を再構成するように構成されている。データストリームは、不活性相８８に先行する活性相８６を少なくとも１つ含む。内部的には、オーディオデコーダ８０は、背景ノイズ推定器９０と、復号エンジン９２と、パラメータランダム発生器９４と、背景ノイズ発生器９６とを備えている。復号エンジン９２は、入力８２と出力８４との間に接続され、同様に、プロバイダ９０、背景ノイズ発生器９６及びパラメータランダム発生器９４による直列接続も、入力８２と出力８４との間に接続されている。デコーダ９２は、活性相の間にデータストリームからオーディオ信号を再構成するように構成され、よって、出力８４において出力されるオーディオ信号９８は、ノイズ及び適切な品質の有益な音を含む。背景ノイズ推定器９０は、活性相の間にデータストリームからパラメトリック背景ノイズ推定を連続的に更新するように構成されている。この目的に沿って、背景ノイズ推定器９０は、入力８２へ直接接続されるのではなく、復号エンジン９２から何らかの再構成されたバージョンのオーディオ信号を取得すべく、破線１００で示されているように、復号エンジン９２を介して接続されてもよい。背景ノイズ推定器９０は再構成可能バージョンのオーディオ信号、即ち符号化側における量子化によって生じる損失を含むオーディオ信号へアクセスするだけという事実を除いて、原則的には、背景ノイズ推定器９０は背景ノイズ推定器１２に酷似する動作をするように構成することができる。

パラメータランダム発生器９４は、１つ以上の真又は擬似乱数発生器を備えることができ、これにより出力される値のシーケンスは、背景ノイズ発生器９６を介してパラメトリックに設定できる統計分布に適合することができる。

背景ノイズ発生器９６は、背景ノイズ推定器９０から取得されるパラメトリック背景ノイズ推定に依存して不活性相８８の間にパラメータランダム発生器９４を制御することにより、不活性相８８の間のオーディオ信号９８を合成するように構成されている。構成要素９６及び９４の双方は、直列に接続されるように示されているが、この直列接続は限定的であるものと解釈されるべきではない。発生器９６及び９４は、連結される可能性もある。実際に、発生器９４は発生器９６の一部であると解釈することもできる。

したがって、図３のオーディオデコーダ８０の動作モードは、次のようなものということができる。活性相８６の間、入力８２は、活性相８６の間に復号エンジン９２によって処理されるべきデータストリーム部分１０２を連続的に含んでいる。入力８２において進入するデータストリーム１０４は、次に、何らかの瞬間１０６において、復号エンジン９２専用のデータストリーム部分１０２の伝送を停止する。即ち、瞬間１０６においては、復号エンジン９２による復号のためにデータストリーム部分のフレームをそれ以上利用することができない。不活性相８８の入口の信号化は、データストリーム部分１０２の伝送途絶、又は、不活性相８８の始まりで直ちに整えられる何らかの情報１０８による信号の何れであってもよい。

何れにしても、不活性相８８の入口は極めて突然に発生するが、背景ノイズ推定器９０が活性相８６の間にデータストリーム部分１０２に基づいてパラメトリック背景ノイズ推定を連続的に更新してきていることから、この点は問題ではない。このことによって、背景ノイズ推定器９０は、不活性相８８が瞬間１０６において開始されると直ちに、背景ノイズ発生器９６へ最新バージョンのパラメトリック背景ノイズ推定を提供することができる。したがって、瞬間１０６以降、復号エンジン９２は、復号エンジン９２にデータストリーム部分１０２がさらに供給されなくなることからオーディオ信号再構成の出力を停止するが、パラメータランダム発生器９４は、瞬間１０６まで復号エンジン９２により出力された再構成されたオーディオ信号に隙間なく続くべく瞬間１０６直後に出力８４において背景ノイズのエミュレーションが出力されるように、背景ノイズ発生器９６によりパラメトリック背景ノイズ推定に従って制御される。エンジン９２によって出力される活性相最後の再構成フレームから、更新された最新バージョンのパラメトリック背景ノイズ推定により決定された背景ノイズへの移行には、クロスフェードを使用することができる。

背景ノイズ推定器９０は活性相８６の間にデータストリーム１０４からのパラメトリック背景ノイズ推定を連続的に更新するように構成されているものであることから、背景ノイズ推定器９０は、活性相８６においてデータストリーム１０４から再構成されるオーディオ信号バージョン内のノイズ成分と有益な信号成分とを区別し、かつパラメトリック背景ノイズ推定を、有益な信号成分ではなくむしろ単にノイズ成分から決定するように構成することができる。背景ノイズ推定器９０がこの区別化／分離を実行する方法は、背景ノイズ推定器１２に関して先に概説した方法と一致する。例えば、復号エンジン９２内でデータストリーム１０４から内部的に再構成される励振又は残留信号を使用することができる。

図２と同様に、図４は、復号エンジン９２の可能な実施を示している。図４によれば、復号エンジン９２は、データストリーム部分１０２を受信するための入力１１０と、活性相８６内で再構成されたオーディオ信号を出力するための出力１１２とを備えている。復号エンジン９２は、これらの間に直列に接続されている逆量子化器１１４、周波数領域ノイズシェーパ１１６及び逆変換器１１８を備え、これらは、入力１１０と出力１１２との間に言及した順序で接続されている。入力１１０に到達するデータストリーム部分１０２は、逆量子化器１１４の入力へ供給される変換符号化バージョンの励振信号、即ち励振信号を表す変換係数レベル、並びに、周波数領域ノイズシェーパ１１６へ供給される線形予測係数に関する情報を含む。逆量子化器１１４は、励振信号のスペクトル表現を量子化し、かつこれを周波数領域ノイズシェーパ１１６へ転送する。周波数領域ノイズシェーパ１１６は、次に、線形予測合成フィルタに一致する伝達関数に従って励振信号（平坦な量子化ノイズも共に）のスペクトログラムをスペクトル的に形成し、これにより、量子化ノイズが形成される。原則的には、図４のＦＤＮＳ１１６は図２のＦＤＮＳと同様に動作する。即ち、ＬＰＣがデータストリームから抽出され、次いで、例えば抽出されたＬＰＣにＯＤＦＴを適用することによってＬＰＣ−スペクトル重み付け変換を施され、結果として得られるスペクトル重み付けが、次に、逆量子化器１１４から着信する逆量子化スペクトル上へ乗法子として適用される。逆変換器１１８は、次に、こうして取得されたオーディオ信号再構成をスペクトル領域から時間領域へ伝達し、こうして取得された再構成オーディオ信号を出力１１２において出力する。逆変換器１１８は、ＩＭＤＣＴ等によって重複変換を用いることができる。破線矢印１２０が示すように、励振信号のスペクトログラムは、背景ノイズ推定器９０により、パラメトリック背景ノイズを更新するために使用することができる。また、破線矢印１２２が示すように、背景ノイズ推定器９０はオーディオ信号自体のスペクトログラムを使用することもできる。

図２及び図４に関連して、符号化／復号エンジンの実施についてのこれらの実施形態が限定的に解釈されるものでないことは留意されるべきである。別の実施形態も実現可能である。さらに、符号化／復号エンジンは、図２及び図４のパーツが単に関連する特有のフレーム符号化モードを有するフレームの符号化／復号の働きのみを想定するが、他のフレームは、符号化／復号エンジンの図２及び図４に示されていない他のパーツの制御下にあるような、マルチモード・コーデック・タイプであってもよい。このような別のフレーム符号化モードは、変換符号化を用いるのではなく、どちらかといえば、例えば線形予測コーディングを用いる、但し符号化は時間領域において行われる予測符号化モードとすることもできる。

図５は、図１のエンコーダのより詳細な実施形態を示す。具体的には、図５には、背景ノイズ推定器１２が、ある特有の実施形態に従ってより詳細に示されている。

図５によれば、背景ノイズ推定器１２は、変換器１４０と、ＦＤＮＳ１４２と、ＬＰ分析モジュール１４４と、ノイズ推定器１４６と、パラメータ推定器１４８と、定常性測定器１５０と、量子化器１５２とを備えている。言及したコンポーネントのうちの幾つかは、符号化エンジン１４によって部分的に、又は完全に共同所有することができる。例えば、変換器１４０と図２の変換器５０とは同じであってもよく、ＬＰ分析モジュール６０と１４４とは同じであってもよく、ＦＤＮＳ５２と１４２とは同じであってもよく、かつ／又は量子化器５４及び１５２は１つのモジュール内に実装してもよい。

図５は、図１におけるスイッチ２２の動作に対する受動的な役割を果たすビットストリームパッケージャ１５４も示している。具体的には、図５のエンコーダの検出器１６としてのＶＡＤは、例示的に挙げたものであって、単に、オーディオ符号化１４の経路、又は背景ノイズ推定器１２の経路のどちらの経路がとられるべきかを決定する。より精確に言えば、符号化エンジン１４及び背景ノイズ推定器１２は、共に入力１８とパッケージャ１５４との間へ並列に接続され、背景ノイズ推定器１２内部では、変換器１４０、ＦＤＮＳ１４２、ＬＰ分析モジュール１４４、ノイズ推定器１４６、パラメータ推定器１４８及び量子化器１５２が入力１８とパッケージャ１５４との間に（言及した順序で）直列に接続され、一方でＬＰ分析モジュール１４４は、各々入力１８とＦＤＮＳモジュール１４２のＬＰＣ入力及び量子化器１５２のさらなる入力との間に接続され、さらには、定常性測定器１５０がＬＰ分析モジュール１４４と量子化器１５２の制御入力との間に接続されている。ビットストリームパッケージャ１５４は、単に、その入力へ接続される任意の構成要素から入力を受信すれば、パッケージングを実行する。

ゼロフレームを伝送する場合、即ち、不活性相の中断相の間、検出器１６は、背景ノイズ推定器１２に、具体的には量子化器１５２に、処理を停止しビットストリームパッケージャ１５４へ何も送信しないように通知する。

図５によれば、検出器１６は、活性／不活性相を検出するために、時間及び／又は変換／スペクトル領域において動作することができる。

図５のエンコーダの動作モードは、次のようなものである。後に明らかとなるであろうが、図５のエンコーダは、車の騒音、多くの話者によるがやがやとしたしゃべり声、なんらかの楽器及び特に、雨滴等のハーモニクス豊かなもの等の一般に定常ノイズのような快適ノイズの品質を高めることができる。

具体的には、図５のエンコーダは、符号化側で検出されるノイズがエミュレートされるように、変換係数を励起すべくデコーダ側でランダム発生器を制御する。したがって、図５のエンコーダの機能性をさらに論じる前に、図５のエンコーダによる指示通りにデコーダ側で快適ノイズをエミュレートすることができると思われるデコーダの可能な一実施形態を示す図６を簡単に参照する。より一般的には、図６は、図１のエンコーダに適合するデコーダの可能な一実施形態を示す。

具体的には、図６のデコーダは、活性相の間にデータストリーム部分４４を復号するための復号エンジン１６０と、データストリーム内に与えられた不活性相２８に関する情報３２及び３８に基づいて快適ノイズを発生するための快適ノイズ発生部分１６２とを備えている。快適ノイズ発生部分１６２は、パラメータランダム発生器１６４と、ＦＤＮＳ１６６と、逆変換器（又は合成器）１６８とを備えている。モジュール１６４からモジュール１６８までは、合成器１６８の出力において結果的に、図１に関連して論じたように、不活性相２８の間に復号エンジン１６０により出力される再構成オーディオ信号間の隙間を埋める快適ノイズが生じるように、互いに直列に接続されている。プロセッサであるＦＤＮＳ１６６及び逆変換器１６８は、復号エンジン１６０の一部であってもよい。具体的には、これらは、例えば図４におけるＦＤＮＳ１１６及び１１８と同じものであってもよい。

図５及び図６の個々のモジュールの動作モード及び機能性は、以下の論考からより明らかとなるであろう。

具体的には、変換器１４０は、入力信号を、重複変換の使用等によってスペクトル的にスペクトログラムに分解する。ノイズ推定器１４６は、これからノイズパラメータを決定するように構成されている。同時に、音声／音響活動検出器１６は、活性相から不活性相への、又は逆の移行が生じているかどうかを検出するように、入力信号から導出される特徴を評価する。検出器１６により使用されるこれらの特徴は、過渡／発現検出器、調性測定及びＬＰＣ残留測定の形式であってもよい。過渡／発現検出器は清浄環境又はノイズ除去信号における活性音声の発出（突然のエネルギー増加）又は始まりを検出するために使用することができ、調性測定はサイレン、電話の呼出し音及び音楽等の有益な背景ノイズを区別するために使用することができ、ＬＰＣ残留は信号における音声存在の指示を得るために使用することができる。これらの特徴に基づいて、検出器１６は、現行フレームを、例えば音声、無音、音楽又はノイズとして分類できるかどうかに関する情報をおおまかに与えることができる。

ノイズ推定器１４６は、［R.Martin著「最適平滑化及び最小統計に基づくノイズパワースペクトル密度の推定」、２００１年］において提案されているように、スペクトログラム内のノイズを同スペクトログラム内の有益な信号成分から区別する役割を果たすことができ、一方、パラメータ推定器１４８は、ノイズ成分を統計的に分析しかつ例えばこのノイズ成分に基づいてスペクトル成分毎のパラメータを決定する役割を果たすことができる。

ノイズ推定器１４６は、例えば、スペクトログラムにおける局所的極小を探索するように構成することができ、パラメータ推定器１４８は、スペクトログラムにおける極小が主として前景音ではなく背景ノイズの属性であるものと想定して、これらの部分におけるノイズ統計を決定するように構成することができる。

中間的な留意点として、極小は非整形スペクトルでも発生することから、推定をノイズ推定器によりＦＤＮＳ１４２なしで実行することも可能である場合があることを強調しておく。ＦＤＮＳ１４２なしでも図５に関する説明の大部分に変わりはない。

次に、量子化器１５２は、パラメータ推定器１４８により推定されるパラメータをパラメータ化するように構成することができる。例えば、ノイズ成分に関する限り、パラメータは、入力信号のスペクトログラムにおけるスペクトル値の平均振幅、及び１次又は高次の運動量を記述してもよい。ビットレートを節約するために、パラメータは、変換器１４０により提供されるスペクトル分解能より低いスペクトル分解能でデータストリームのＳＩＤフレーム内へ挿入されるべく、データストリームへ転送することができる。

定常性測定器１５０は、ノイズ信号の定常性の尺度を導出するように構成することができる。次に、パラメータ推定器１４８は、定常性の尺度を用いて、パラメータ更新が、図１におけるフレーム３８等の別のＳＩＤフレームを送信することによって開始されるべきか否かを決定し、又はパラメータが推定される方法に影響を与えることができる。

モジュール１５２は、パラメータ推定器１４８及びＬＰ分析１４４によって計算されるパラメータを量子化し、これをデコーダ側へ信号として送る。具体的には、量子化に先立って、スペクトル成分がグループに分類することができる。このようなグループ化は、バーク尺度又はこれに類似するものへの適合等の音響心理学的態様に従って選択することができる。検出器１６は、量子化器１５２へ、量子化の実行が必要とされるか否かを知らせる。量子化が不要である場合には、ゼロフレームが続くことになる。

上記説明を、活性相から不活性相へ切り換える具体的なシナリオへ振り替える場合、図５のモジュールは、次のように作用する。

活性相の間、符号化エンジン１４は、パッケージャを介してビットストリームへとオーディオ信号を符号化し続ける。符号化は、フレームワイズで実行することができる。データストリームの各フレームは、オーディオ信号の１つの時間部分／間隔を表すことができる。オーディオエンコーダ１４は、全てのフレームを、ＬＰＣ符号化を用いて符号化するように構成することができる。オーディオエンコーダ１４は、幾つかのフレームを、図２に関連して説明したように、例えばＴＣＸフレーム符号化モードと呼ばれるものによって符号化するように構成することができる。残りのフレームは、例えばＡＣＥＬＰ符号化モード等の符号励振線形予測（ＣＥＬＰ）符号化を用いて符号化することができる。即ち、データストリームの部分４４は、フレームレート以上とできる何らかのＬＰＣ伝送速度を用いるＬＰＣ係数の連続的な更新を含することができる。

並行して、ノイズ推定器１４６は、ＬＰＣ平坦化（ＬＰＣ分析フィルタリングされた）スペクトルを調べて、これらのスペクトルのシーケンスにより表現されるＴＣＸスペクトログラム内の極小ｋ_minを識別する。当然ながら、これらの極小は、時間ｔにおいて変わる場合があり、ｋ_min（ｔ）となる。しかしながら、極小は、ＦＤＮＳ１４２により出力されるスペクトログラムにトレースを形成する場合があり、よって、時間ｔ_iにおける各連続スペクトル毎に、極小は、先行スペクトル及び後続スペクトルの各々における極小に関連づけることができる。

次に、パラメータ推定器は、これから、異なるスペクトル成分又は帯域の、例えば中心傾向（平均、中央値又はこれらに類似するもの）ｍ及び／又は分散（標準偏差、変動又はこれらに類似するもの）ｄ等の背景ノイズ推定パラメータを導出する。この導出は、極小におけるスペクトログラムのスペクトルの連続するスペクトル係数の統計分析を包含してもよく、これにより、ｋ_minにおける各極小のｍ及びｄがもたらされる。予め決められた他のスペクトル成分又は帯域のｍ及びｄを取得するために、前述のスペクトル極小間のスペクトルの大きさに沿って補間を実行することができる。中心傾向（平均）の導出及び／又は補間のスペクトル分解能と、分散（標準偏差、変動又はこれらに類似するもの）の導出とは、異なる場合がある。

いま述べたパラメータは、例えばＦＤＮＳ１４２により出力されるスペクトル毎に連続的に更新される。

検出器１６は、不活性相の入口を検出するとすぐに、エンジン１４に、パッケージャ１５４へそれ以上活性フレームが転送されないように適宜知らせることができる。しかしながら、代わりに、量子化器１５２は、いま述べた統計ノイズパラメータを不活性相内の最初のＳＩＤフレームにおいて出力してもよい。最初のＳＩＤフレームは、ＬＰＣの更新を含んでいても、含んでいなくてもよい。ＬＰＣの更新が存在すれば、これは、ＳＩＤフレーム３２におけるデータストリーム内で部分４４で使用されるフォーマットで、即ち活性相の間に、ＬＳＦ／ＬＳＰ領域における量子化等を用いて運搬されてもよく、あるいはこれとは違って、活性相の進行において符号化エンジン１４のフレームワーク内でＦＤＮＳ１４２により適用されていたと思われる等のＬＰＣ分析又はＬＰＣ合成フィルタの伝達関数に対応するスペクトル重み付け等を用いて運搬されてもよい。

不活性相の間、ノイズ推定器１４６、パラメータ推定器１４８及び定常性測定器１５０は、デコーダ側を背景ノイズの変化が更新される状態に保つべく共働し続ける。具体的には、測定器１５０は、ＬＰＣにより規定されるスペクトル重み付けをチェックして変化を識別し、推定器１４８にＳＩＤフレームがデコーダへ送られるべき時を知らせる。例えば、測定器１５０は、前述の定常性尺度が所定の量を超えるＬＰＣの変動度を示す場合は常に、推定器を適宜起動することもできる。あるいは、又は追加的に、推定器は、更新されるパラメータを定期的に送信するようにトリガできる。これらのＳＩＤ更新フレーム４０とＳＩＤ更新フレーム４０の間では、データストリームにおいて何も送信されず、「ゼロフレーム」となる。

デコーダ側において、活性相の間、復号エンジン１６０は、オーディオ信号の再構成の役割を果たす。不活性相が開始されるとすぐに、適応パラメータランダム発生器１６４は、不活性相の間にデータストリーム内でパラメータ量子化器１５０から送信される逆量子化されたランダム発生器パラメータを用いてランダムスペクトル成分を発生し、これにより、スペクトル・エネルギー・プロセッサ１６６内でスペクトル的に形成されるランダムスペクトログラムを形成し、次いで、合成器１６８がスペクトル領域から時間領域への再変換を実行する。ＦＤＮＳ１６６内のスペクトル形成に関しては、最新の活性フレームからの最新のＬＰＣ係数が使用するか、もしくはＦＤＮＳ１６６によって適用されるべきスペクトル重み付けを外挿法により導出してもよく、又はＳＩＤフレーム３２自体が情報を伝達してもよい。この方法により、不活性相の始まりにおいて、ＦＤＮＳ１６６は、ＬＰＣ合成フィルタの伝達関数に従って着信スペクトルへスペクトル的に重み付けすることを続け、ＬＰＳは、活性データ部分４４又はＳＩＤフレーム３２から導出されるＬＰＣ合成フィルタを規定する。しかしながら、不活性相の始まりにおいて、ＦＤＮＳ１６６により整形されるべきスペクトルは、ＴＣＸフレーム符号化モードの場合のような変換符号化されたものではなく、ランダムに発生されたスペクトルである。さらに、ＦＤＮＳ１６６において適用されるスペクトル整形は、ＳＩＤフレーム３８を使用して不連続的に更新されるにすぎない。補間又はフェーデングは、中断相３６の間に、あるスペクトル整形規定から次のそれへ徐々に切換するように実行することができる。

図６に示されているように、適応パラメータランダム発生器１６４は、さらに、場合により、データストリームにおける最後の活性相の最新部分、即ち不活性相の入口直前のデータストリーム部分４４、内に含まれる逆量子化された変換係数を用いることができる。したがって、例えば、この変換係数の使用により、活性相内のスペクトログラムから不活性相内のランダムなスペクトログラムへの滑らかな移行が実現できる。

図１及び図３を簡単に振り返ると、図５及び図６（及び、続いて説明する図７）から次のことがいえる。すなわち、エンコーダ及び／又はデコーダ内で発生されるパラメトリック背景ノイズ推定は、バークバンド又は異なるスペクトル成分等の区別可能なスペクトル部分の時間的に連続するスペクトル値の分布に関する統計情報を含むことができる。このようなスペクトル部分の各々で、例えば、統計情報は分散尺度を含むことができる。したがって、分散尺度は、スペクトル情報においてスペクトル的に分解された方法で、即ち、スペクトル部分で又はスペクトル部分に関してサンプリングされた方法で定義される。スペクトル分解能、即ち分散尺度の数と、スペクトル軸に沿って広がる中心傾向は、例えば、分散尺度と、場合により存在する平均又は中心傾向の尺度との間で異なってもよい。統計情報はＳＩＤフレーム内に含まれる。これは、整形されたＭＤＣＴスペクトルのようなＬＰＣ分析フィルタリング（即ち、ＬＰＣで平坦化された）スペクトル等の整形されたスペクトルを指すことができる。ＭＤＣＴスペクトルは、ランダムスペクトルを統計スペクトルに従って合成し、かつこれをＬＰＣ合成フィルタの伝達関数に従って逆整形することによる合成を有効化するものである。この場合、スペクトル整形情報はＳＩＤフレーム内に存在してもよいが、例えば、最初のＳＩＤフレーム３２にはなくてもよい。しかしながら、後に示すように、この統計情報は、代替的に非整形スペクトルを指してもよい。さらに、ＭＤＣＴ等の実数値スペクトル表現を用いる代わりに、オーディオ信号のＱＭＦスペクトル等の複素数値フィルタバンクスペクトルを使用してもよい。例えば、非整形形式のオーディオ信号のＱＭＦスペクトルを使用し、統計情報によって統計的に記述してもよく、この場合、統計情報自体に含まれる以外にスペクトル整形は存在しない。

図１の実施形態に対する図３の実施形態の関係と同様に、図７は、図３のデコーダの可能な一実施形態を示す。図５の場合と同じ参照記号の使用によって示されるように、図７のデコーダは、ノイズ推定器１４６と、パラメータ推定器１４８と、定常性測定器１５０とを備え、これらは、図５における同じ要素と同様に動作するが、図７のノイズ推定器１４６は、図４における１２０又は１２２等の伝送されかつ逆量子化されたスペクトログラムに対して動作する。よって、パラメータ推定器１４６は、図５において論じたもののように動作する。このことは、定常性測定器１４８に関しても当てはまり、これは、エネルギーと、活性相の間にデータストリームを介して、又はデータストリームから伝送されて逆量子化されたＬＰＣ分析フィルタ（又はＬＰＣ合成フィルタ）のスペクトルの時間発展を明らかにするスペクトル値又はＬＰＣデータに対して動作する。

要素１４６、１４８及び１５０は、図３の背景ノイズ推定器９０のように動作するが、図７のデコーダは、適応パラメータランダム発生器１６４、ＦＤＮＳ１６６、並びに逆変換器１６８も備え、これらは、合成器１６８の出力において快適ノイズを出力するように、図６の場合と同様に互いに直列に接続されている。モジュール１６４、１６６及び１６８は、図３の背景ノイズ発生器９６と同様に作用し、モジュール１６４は、パラメータランダム発生器９４の機能を果たす。適応パラメータランダム発生器９４又は１６４は、パラメータ推定器１４８により決定されたパラメータに従ってスペクトログラムのランダムに発生されるスペクトル成分を出力するが、パラメータ推定器１４８は、定常性測定器１５０によって出力された定常性尺度を用いてトリガされる。プロセッサ１６６は、次に、こうして発生されるスペクトログラムを逆変換器１６８でスペクトル整形し、次に、スペクトル領域から時間領域への移行が実行される。ここで、不活性相８８の間、デコーダが情報１０８を受信していれば、背景ノイズ推定器９０はノイズ推定の更新を実行し、それに何らかの補間手段が続くことに留意されたい。そうでなく、ゼロフレームが受信されれば、背景ノイズ推定器９０は、単に補間及び／又はフェーディング等の処理を行う。

図５から図７を要約すると、これらの実施形態は、制御式のランダム発生器１６４をＴＣＸ係数を励振するために適用することが技術的に可能であることを示している。ＴＣＸ係数は、ＭＤＣＴにおけるような実数値でも、ＦＦＴにおけるような複素数値でもあり得る。また、ランダム発生器１６４を、通常はフィルタバンクを介して達成される係数グループに対して適用することも効果的な場合がある。

ランダム発生器１６４は、好ましくは、これがノイズのタイプを可能な限り厳密にモデリングするように制御される。これは、標的ノイズが事前に知られていれば達成できる。用途の中にはこれを可能にし得るものがある。対象が種々のタイプのノイズに遭遇し得る多くの現実的な用途では、図５から図７までに示されているような適応的方法が要求される。したがって、適応パラメータランダム発生器１６４が使用され、それは簡単にいえばｇ＝ｆ（ｘ）と定義できる。但し、ｘ＝（ｘ₁，ｘ₂，．．．）は、パラメータ推定器１４６及び１５０により各々与えられるランダム発生器パラメータの集合である。

パラメータランダム発生器を適応的にするために、ランダム発生器パラメータ推定器１４６はランダム発生器を適切に制御する。データが統計学的に不十分であると見なされる場合を補償するためにバイアス補償を含むことができる。これは、過去のフレームに基づいて統計的に一致するノイズモデルを生成するために行われ、推定されるパラメータを常に更新する。ランダム発生器１６４がガウス雑音を発生するものとされる場合がその一例である。この場合は、例えば、必要とされ得るのは平均パラメータと変動パラメータのみであり、バイアスを計算してこれらのパラメータに適用することができる。さらに高度な方法であれば、如何なるタイプのノイズ又は分布にも対処することができ、パラメータは必ずしも分布のモーメントとはならない。

非定常ノイズの場合、定常性尺度を有することが必要であり、よって低適応性のパラメータランダム発生器を使用することができる。測定器１４８により決定される定常性尺度は、例えば、Itakuraの距離尺度、Kullback-Leiblerの距離尺度、他のような様々な方法を用いて、入力信号のスペクトル形状から導出することができる。

図１における３８等で示されているＳＩＤフレームを介して送信されるノイズ更新の不連続性に対処するために、通常、ノイズのエネルギー及びスペクトル形状等の追加的情報が送信されている。この情報は、デコーダにおいて、不活性相内で不連続期間中でも滑らかな移行を有するノイズを発生するために有益である。最終的には、様々な平滑化又はフィルタリング技術を適用して、快適ノイズエミュレータの品質を高める手助けとすることができる。

既に述べたように、図５及び図６のシナリオと、図７のシナリオは異なる。図５及び図６に対応する一方のシナリオでは、エンコーダにおいて、処理された入力信号に基づいてパラメトリック背景ノイズ推定が行われ、後に、パラメータがデコーダへ送信される。図７に対応するもう一方のシナリオでは、デコーダが、活性相内で過去に受信したフレームに基づいてパラメトリック背景ノイズ推定をすることができる。例えば、音声／信号活動検出器又はノイズ推定器の使用は、活性音声の間であってもノイズ成分の抽出を促進する上で有益である可能性がある。

図５から図７までに示されているシナリオの中で、図７のシナリオは、伝送されるビットレートがより低くなるという理由で好ましいかも知れない。しかしながら、図５及び図６のシナリオには、より正確で利用可能なノイズ推定を有するという優位点がある。

上述の実施形態は全て、帯域幅拡張技術、例えばスペクトル帯域複製（ＳＢＲ：spectral band replication）と組み合わすことができる。ただし、帯域幅拡張技術としては、一般的なものを使用してもよい。

これを説明するために、図８を参照されたい。図８は、入力信号のより高い周波数部分に関してパラメトリック符号化を実行するために、図１及び図５のエンコーダを拡張することができるモジュールを示す。具体的には、図８によれば、時間領域の入力オーディオ信号は、図８に示されているようなＱＭＦ分析フィルタバンク等の分析フィルタバンク２００によってスペクトル分解される。すると、先に述べた図１及び図５の実施形態は、フィルタバンク２００により発生されるスペクトル分解のより低い周波数部分にのみ適用されることになる。より高い周波数部分に関する情報をデコーダ側へ伝達するために、パラメトリック符号化も使用される。この目的に沿って、正規のスペクトル帯域複製エンコーダ２０２は、活性相の間により高い周波数部分をパラメータ化し、これに関する情報をデータストリームにおいてスペクトル帯域複製情報の形式でデコーダ側へ供給するように構成されている。ＱＭＦフィルタバンク２００の出力とスペクトル帯域複製エンコーダ２０２の入力との間には、フィルタバンク２００の出力をエンコーダ２０２と並列に接続されたスペクトル帯域複製エンコーダ２０６の入力へ接続して不活性相の間に帯域幅拡張を行うために、スイッチ２０４を設けることができる。即ち、スイッチ２０４は、図１におけるスイッチ２２のように制御することができる。後により詳細に説明されるように、スペクトル帯域複製エンコーダモジュール２０６は、スペクトル帯域複製エンコーダ２０２に類似して動作するように構成することができる。即ち、スペクトル帯域複製エンコーダ２０２と２０６は、より高い周波数部分内、即ち例えば符号化エンジンによるコア符号化を受けない残りのより高い周波数部分内、の入力オーディオ信号のスペクトル包絡線をパラメータ化するように構成することができる。しかしながら、スペクトル帯域複製エンコーダモジュール２０６は、スペクトル包絡線をパラメータ化しデータストリーム内部で伝達する時間／周波数分解能として最小時間／周波数分解能を用いることができるのに対して、スペクトル帯域複製エンコーダ２０２は、その時間／周波数分解能を、オーディオ信号内部の過渡の発生等に依存して入力オーディオ信号へ適応させるように構成することができる。

図９は、実施の可能性のある帯域幅拡張符号化モジュール２０６を示す。時間／周波数グリッド設定器２０８、エネルギー計算器２１０及びエネルギーエンコーダ２１２は、符号化モジュール２０６の入力と出力との間に互いに直列に接続されている。時間／周波数グリッド設定器２０８は、より高い周波数部分の包絡線を決定する時間／周波数分解能を設定するように構成することができる。例えば、許容される最小の時間／周波数分解能が、符号化モジュール２０６によって連続的に使用される。次に、エネルギー計算器２１０は、フィルタバンク２００により出力されるスペクトログラムのより高い周波数部分のエネルギーを、時間／周波数分解能に一致する時間／周波数タイルにおけるより高い周波数部分内で決定することができ、エネルギーエンコーダ２１２は、エントロピー符号化を用いて、例えば、計算器２１０により計算されたエネルギーを不活性相の間にＳＩＤフレーム３８等のＳＩＤフレーム内等でデータストリーム４０（図１参照）に挿入することができる。

図８及び図９の実施形態によって発生される帯域幅拡張情報は、図３、図４及び図７等で先に概説した任意の実施形態によるデコーダの使用に関連して使用することもできることは留意されるべきである。

したがって、図８及び図９は、図１から図７までに関連して説明した快適ノイズの発生は、スペクトル帯域複製に関しても使用できることを明らかにしている。例えば、これまでに述べたオーディオエンコーダ及びデコーダは種々の動作モードで動作することができ、これらの動作モードの中には、スペクトル帯域複製を含み得るものもあれば、含み得ないものもある。例えば、超広帯域動作モードはスペクトル帯域複製を含むことができる。何れにしても、快適ノイズの発生に関する例を示している先に述べた図１から図７までの実施形態は、図８及び図９に関連して説明した方法で帯域幅拡張技術と組み合わすことができる。不活性相の間の帯域幅拡張を行うスペクトル帯域複製符号化モジュール２０６は、極めて低い時間分解能と周波数分解能に対して作用するように構成することができる。正規のスペクトル帯域複製処理に比較して、エンコーダ２０６は異なる周波数分解能で動作することができるが、不活性相の間に包絡線調整器に印加されるエネルギー換算係数を補間する換算係数帯域を発するあらゆる快適ノイズに対して、デコーダ内にＩＩＲ平滑化フィルタと共に極めて低い周波数分解能を有する追加的な周波数帯域テーブルを必要とする。いま述べたように、時間／周波数グリッドは、可能な時間分解能の最も低いものに対応するように構成することができる。

即ち、帯域幅拡張符号化は、存在するのが無音であるか活性相であるかによって、ＱＭＦ領域又はスペクトル領域で異なって実行することができる。活性相では、即ち活性フレームの間は、エンコーダ２０２によって正規のＳＢＲ符号化が実行され、結果的に、各々データストリーム４４及び１０２を伴う通常のＳＢＲデータストリームが生じる。不活性相では、又はＳＩＤフレームとして分類されるフレームの間は、極めて低い周波数分解能と例えば最も低い可能な時間分解能を呈する時間／周波数グリッドの印加によって、エネルギー換算係数として表現されるスペクトル包絡線に関する情報のみを抽出することができる。結果として得られる換算係数は、エンコーダ２１２によって効率的に符号化され、データストリームへ書き込まれる場合もある。ゼロフレームでは、又は中断相３６の間は、スペクトル帯域複製符号化モジュール２０６によるデータストリームへのサイド情報の書込みは行わなくてもよく、よって、計算器２１０によるエネルギー計算は実行しないようにすることができる。

図８に適合して、図１０は、図３及び図７におけるデコーダ実施形態の帯域幅拡張符号化技術への可能な拡張を示す。より明確には、図１０は、本出願によるオーディオデコーダの可能な一実施形態を示している。コアデコーダ９２が快適ノイズ発生器と並列に接続されている。快適ノイズ発生器は参照記号２２０で示されていて、例えば、ノイズ発生モジュール１６２又は図３のモジュール９０、９４及び９６を備えている。スイッチ２２２は、フレームのタイプに依存して、データストリーム１０４及び３０内のフレームをコアデコーダ９２又は快適ノイズ発生器２２０へ各々配分するものとして示されている。フレームのタイプとは、フレームが活性相に関連するかもしくは属するか、又はＳＩＤフレーム等の不活性相もしくは中断相に関連するゼロフレームに関連するかもしくは属するかということである。コアデコーダ９２及び快適ノイズ発生器２２０の出力は、スペクトル帯域幅拡張デコーダ２２４の入力へと接続され、スペクトル帯域幅拡張デコーダ２２４の出力が再構成オーディオ信号となる。

図１１は、帯域幅拡張デコーダ２２４の可能な一実施のより詳細な実施形態を示す。

図１１に示されているように、図１１の実施形態による帯域幅拡張デコーダ２２４は、再構成されるべき完全なオーディオ信号の低周波数部分の時間領域再構成を受信するための入力２２６を備えている。入力２２６において入力される時間領域入力が、ノイズ及び有益成分の双方を含むオーディオ信号の再構成されたより低い周波数部分、又は活性相間の時間をつなぎ合わせるために発生された快適ノイズの何れであってもよいように、帯域幅拡張デコーダ２２４をコアデコーダ９２及び快適ノイズ発生器２２０の出力と接続するのがこの入力２２６である。

図１１の実施形態によれば、帯域幅拡張デコーダ２２４は、スペクトル帯域幅複製を実行するように構成されることから、以下、デコーダ２２４をＳＢＲデコーダと称する。しかしながら、図８から図１０までに関連しては、これらの実施形態はスペクトル帯域幅複製に限定されないことを強調しておく。これらの実施形態に関しては、どちらかと言えば、帯域幅拡張のより一般的な代替方法も使用できる。

さらに、図１１のＳＢＲデコーダ２２４は、最終的に再構成されたオーディオ信号を、即ち活性相又は不活性相の何れかにおいて出力するための時間領域出力２２８を備えている。ＳＢＲデコーダ２２４は、入力２２６と出力２２８との間に、図１１に示されているようにＱＭＦ分析フィルタバンク等の分析フィルタバンクとすることのできるスペクトル分解器２３０と、ＨＦ発生器２３２と、包絡線調整器２３４と、図１１に示されているようにＱＭＦ合成フィルタバンク等の合成フィルタバンクとして実現できるスペクトル−時間領域変換器２３６とをこの順に直列に接続して備えている。

モジュール２３０からモジュール２３６までは次のように動作する。スペクトル分解器２３０は、時間領域入力信号をスペクトル分解して再構成された低周波数部分を取得する。ＨＦ発生器２３２は再構成された低周波数部分に基づいて高周波数複製部分を発生し、包絡線調整器２３４は、ＳＢＲデータストリーム部分を介して伝達されかつ未だ論じていないが図１１において包絡線調整器２３４より上に示されているモジュールにより提供される高周波数部分のスペクトル包絡線の表現を用いて、高周波数複製をスペクトル的に形成又は整形する。したがって、包絡線調整器２３４は、送信される高周波数包絡線の時間／周波数グリッド表現に従って高周波数複製部分の包絡線を調整し、かつこうして取得される高周波数部分を、スペクトル−時間領域変換器２３６へ転送する。スペクトル−時間領域変換器２３６は、周波数スペクトル全体、即ちスペクトル的に形成された高周波数部分と再構成された低周波数部分、を出力２２８における再構成された時間領域信号へ変換する。

図８から図１０に関連して既に述べたように、高周波数部分のスペクトル包絡線は、データストリーム内でエネルギー換算係数の形式で伝達され、よってＳＢＲデコーダ２２４は、高周波数部分のスペクトル包絡線に関する情報を受信するための入力２３８を備えている。図１１に示されているように、活性相の場合、即ち活性相の間にデータストリーム内に存在する活性フレームの場合、入力２３８はスイッチ２４０を介して包絡線調整器２３４のスペクトル包絡線入力へ直に接続することができる。しかしながら、ＳＢＲデコーダ２２４は、さらに、換算係数コンバイナ２４２と、換算係数データストア２４４と、ＩＩＲフィルタリングユニット等の補間フィルタリングユニット２４６と、利得調整器２４８とを備えている。モジュール２４２、２４４、２４６及び２４８は、入力２３８と包絡線調整器２３４のスペクトル包絡線入力との間に互いに直列に接続され、スイッチ２４０が利得調整器２４８と包絡線調整器２３４との間に接続され、かつさらなるスイッチ２５０が換算係数データストア２４４とフィルタリングユニット２４６との間に接続されている。スイッチ２５０は、この換算係数データストア２４４をフィルタリングユニット２４６又は換算係数データ復元器２５２の何れかへ接続するように構成されている。不活性相の間のＳＩＤフレームの場合と、ときには高周波数部分のスペクトル包絡線の極めて粗い表現を容認できる活性フレームの場合も、スイッチ２５０及び２４０は、モジュール２４２から２４８までの回路を入力２３８と包絡線調整器２３４との間に接続する。換算係数コンバイナ２４２は、高周波数部分のスペクトル包絡線がデータストリームを介して伝送された周波数分解能を包絡線調整器２３４が受信しようとする分解能に適応させ、換算係数データストア２４４は、結果として得られたスペクトル包絡線を次の更新まで格納する。フィルタリングユニット２４６は、スペクトル包絡線を時間及び／又はスペクトル次元においてフィルタリングし、利得調整器２４８は高周波数部分のスペクトル包絡線の利得を適応させる。その目的のために、利得調整器は、ユニット２４６により取得される包絡線データを、ＱＭＦフィルタバンク出力から導き出せる実際の包絡線と組み合わせることができる。換算係数データ復元器２５２は、中断相又はゼロフレーム内で、換算係数ストア２４４により格納されたスペクトル包絡線を表現する換算係数データを再現する。

したがって、デコーダ側では、次のような処理が実行できる。活性フレームで、又は活性相の間、正規のスペクトル帯域複製処理を施すことができる。これらの活性期間中、データストリームからの換算係数は、換算係数コンバイナ２４２によって快適ノイズ発生周波数分解能に変換される。これらの活性期間中のデータストリームからの換算係数は、典型的には快適ノイズ発生処理よりも多数の換算係数帯域に使用可能である。換算係数コンバイナは、種々の周波数帯域テーブルの共通する周波数帯域境界を活用することにより、結果的にＣＮＧに適合する幾つかの換算係数をもたらすように、より高い周波数分解能の換算係数を結合する。換算係数結合ユニット２４２の出力において結果的に生じる換算係数値は、ゼロフレームにおける再使用及び復元器２５２による後の再現のために格納され、続いて、ＣＮＧ動作モード用にフィルタリングユニット２４６を更新するために使用される。ＳＩＤフレームでは、データストリームから換算係数情報を抽出する修正ＳＢＲデータストリーム・リーダが適用される。ＳＢＲ処理の残りの設定は、予め規定された値に初期化され、時間／周波数グリッドは、エンコーダで使用された同じ時間／周波数分解能に初期化される。抽出された換算係数は、フィルタリングユニット２４６へ供給され、ここで、例えばＩＩＲ平滑化フィルタが、１つの低分解能換算係数帯域の経時的なエネルギー進行を補間する。ゼロフレームの場合、ビットストリームから読み取られるペイロードはなく、時間／周波数グリッドを含むＳＢＲ構成は、ＳＩＤフレームにおいて使用されるものと同じである。ゼロフレームでは、フィルタリングユニット２４６における平滑化フィルタに、換算係数結合ユニット２４２から出力された換算係数値が供給される。その換算係数値は、有効な換算係数情報を含み、最終フレームに格納されていたものである。現行フレームが不活性フレーム又はＳＩＤフレームとして分類される場合、快適ノイズはＴＣＸ領域において発生され、時間領域へ変換し戻される。続いて、快適ノイズを含む時間領域信号が、ＳＢＲモジュール２２４のＱＭＦ分析フィルタバンク２３０へ供給される。ＱＭＦ領域では、ＨＦ発生器２３２内で、コピーアップ転置によって快適ノイズの帯域幅拡張が実行され、最終的に、人工的に生成された高周波数部のスペクトル包絡線が、包絡線調整器２３４におけるエネルギー換算係数情報の適用によって調整される。これらのエネルギー換算係数は、フィルタリングユニット２４６の出力によって取得され、かつ、包絡線調整器２３４における適用に先立って利得調整ユニット２４８によりスケーリングされる。この利得調整ユニット２４８では、換算係数をスケーリングするための利得値が計算され、その利得値は信号の低周波数部分と高周波数コンテンツとの境界における多大なエネルギー差を補償するために適用される。

上述の実施形態は、図１２及び図１３の実施形態に共通して使用される。図１２は本出願の一実施形態によるオーディオエンコーダの一実施形態を示し、図１３はオーディオデコーダの一実施形態を示している。これらの図面に関連して開示される詳細は、これまでに述べた個々の要素に等しく当てはまるものである。

図１２のオーディオエンコーダは、入力オーディオ信号をスペクトル分解するためのＱＭＦ分析フィルタバンク２００を備えている。ＱＭＦ分析フィルタバンク２００の出力へは、検出器２７０及びノイズ推定器２６２が接続されている。ノイズ推定器２６２は背景ノイズ推定器１２の機能を行う。活性相の間、ＱＭＦ分析フィルタバンクからのＱＭＦスペクトルは、スペクトル帯域複製パラメータ推定器２６０及びこれに続く何らかのＳＢＲエンコーダ２６４と、ＱＭＦ合成フィルタバンク２７２及びこれに続くコアエンコーダ１４の回路への並列接続によって処理される。双方の並列経路は、ビットストリームパッケージャ２６６のそれぞれの入力へ接続されている。ＳＩＤフレームを出力する場合は、ＳＩＤフレームエンコーダ２７４がノイズ推定器２６２からデータを受信し、ビットストリームパッケージャ２６６へＳＩＤフレームを出力する。

推定器２６０により出力されるスペクトル帯域幅拡張データは、スペクトログラムの高周波数部分のスペクトル包絡線、又はＱＭＦ分析フィルタバンク２００により出力されるスペクトルを記述する。次にスペクトル帯域幅拡張データは、ＳＢＲエンコーダ２６４によりエントロピー符号化等で符号化される。データストリーム・マルチプレクサ２６６は、活性相において、スペクトル帯域幅拡張データをマルチプレクサ２６６の出力２６８において出力されるデータストリームに挿入する。

検出器２７０は、現時点で活性相がアクティブであるか、不活性相がアクティブであるかを検出する。この検出に基づいて、活性フレーム、又はＳＩＤフレームもしくはゼロフレーム即ち不活性フレームが、その時点で出力されるべきものとなる。言い替えれば、モジュール２７０は、活性相がアクティブであるか、不活性相がアクティブであるかを決定し、不活性相がアクティブであれば、ＳＩＤフレームが出力されるべきか否かを決定する。図１２では、この決定が、ゼロフレームではＩ、活性フレームではＡ、及びＳＩＤフレームではＳを用いて示されている。活性相が存在する場合、入力信号の時間間隔に対応するフレームも、ＱＭＦ合成フィルタバンク２７２とコアエンコーダ１４とからなる回路へ転送される。ＱＭＦ合成フィルタバンク２７２は、ＱＭＦ分析フィルタバンク２００に比べてより低い周波数分解能を有し、又はより少数のＱＭＦサブバンドで動作し、入力信号の活性フレーム部分を再度時間領域へ伝達する際に、サブバンド数比によって対応するダウンサンプリング速度を達成する。具体的には、ＱＭＦ合成フィルタバンク２７２が、活性フレーム内のＱＭＦ分析フィルタバンクスペクトログラムのより低い周波数部分又はより低い周波数サブバンドへ適用される。よって、コアエンコーダ１４はダウンサンプルされた入力信号バージョンを受信するが、その入力信号バージョンはＱＭＦ分析フィルタバンク２００へ入力された原初の入力信号のより低い周波数部分のみをカバーしている。残りのより高い周波数部分は、モジュール２６０及び２６４によってパラメータ的に符号化される。

ＳＩＤフレーム（又は、より精確には、ＳＩＤフレームにより伝達されるべき情報）は、例えば図５のモジュール１５２の機能を行うＳＩＤエンコーダ２７４へ転送される。唯一の相違点は、モジュール２６２が、入力信号のスペクトルにＬＰＣ整形なしで直接作用することにある。さらに、ＱＭＦ分析フィルタリングが使用されることから、モジュール２６２の動作は、コアコーダにより選択されるフレームモード、又はスペクトル帯域幅拡張オプションが適用されているか否か、とは関係がない。図５のモジュール１４８及び１５０の機能はモジュール２７４内で実現することができる。

マルチプレクサ２６６は、出力２６８においてそれぞれの符号化情報をデータストリームに多重化する。

図１３のオーディオデコーダは、図１２のエンコーダにより出力されるデータストリームに対して動作することができる。即ち、モジュール２８０は、データストリームを受信し、例えばデータストリーム内のフレームを、活性フレーム、ＳＩＤフレーム及びゼロフレーム即ちデータストリームにフレームが存在しないもの、に分類するように構成されている。活性フレームは、コアデコーダ９２、ＱＭＦ分析フィルタバンク２８２及びスペクトル帯域幅拡張モジュール２８４の一連の回路へ転送される。ノイズ推定器２８６がＱＭＦ分析フィルタバンクの出力へ接続されているが、これは任意である。ノイズ推定器２８６は、例えば図３の背景ノイズ推定器９０のように動作し、かつ背景ノイズ推定器９０の機能を果たすことができるが、例外として、このノイズ推定器は、励振スペクトルではなく非整形スペクトルに対して動作する。モジュール９２、２８２及び２８４の一連の回路は、ＱＭＦ合成フィルタバンク２８８の入力へ接続されている。ＳＩＤフレームは、例えば、図３の背景ノイズ発生器９６の機能を果たすＳＩＤフレームデコーダ２９０へ転送される。快適ノイズ発生パラメータアップデータ２９２は、デコーダ２９０とノイズ推定器２８６から情報の供給を受け、ランダム発生器２９４を制御いる。ランダム発生器２９４は図３のパラメータランダム発生器の機能を果たす。不活性フレーム又はゼロフレームは存在せず、よってどこへも転送される必要はないが、これらは、ランダム発生器２９４の別のランダム発生サイクルをトリガする。
ランダム発生器２９４の出力は、ＱＭＦ合成フィルタバンク２８８へ接続され、ＱＭＦ合成フィルタバンク２８８の出力には時間領域において無音相と活性相からなる再構成されたオーディオ信号が現れる。

したがって、活性相の間、コアデコーダ９２は、ノイズ成分及び有益な信号成分の双方を含むオーディオ信号の低周波数部分を再構成する。ＱＭＦ分析フィルタバンク２８２は再構成された信号をスペクトル分解し、スペクトル帯域幅拡張モジュール２８４はデータストリーム内のスペクトル帯域幅拡張情報、及び活性フレームを各々用いて、より高い周波数部分を追加する。ノイズ推定器２８６が設けられていれば、ノイズ推定器２８６はコアデコーダにより再構成されたスペクトル部分、即ち低周波数部分に基づいてノイズ推定を実行する。不活性相では、ＳＩＤフレームが、エンコーダ側でノイズ推定器２６２により導出された背景ノイズ推定をパラメータ的に記述する情報を伝達する。パラメータアップデータ２９２は、そのパラメトリック背景ノイズ推定を更新するために、主としてエンコーダ情報を用いることができるが、主としてＳＩＤフレームに関する伝送損失の場合の代替としてノイズ推定器２８６により提供された情報を用いる。ＱＭＦ合成フィルタバンク２８８は、活性相においてスペクトル帯域複製モジュール２８４により出力されたスペクトル分解された信号、及び快適ノイズ発生信号スペクトルを時間領域において変換する。したがって、図１２及び図１３は、ＱＭＦフィルタバンクのフレームワークがＱＭＦベースの快適ノイズ発生の基礎として使用できることを明らかにしている。ＱＭＦフレームワークは、エンコーダにおいて入力信号をコアコーダのサンプリング速度まで下げてリサンプリングし、又はデコーダ側において、ＱＭＦ合成フィルタバンク２８８を用いてコアデコーダ９２のコアデコーダ出力信号をアップサンプリングする簡易な方法を提供する。これと同時に、ＱＭＦフレームワークは、コアコーダモジュール１４及びコアデコーダモジュール９２が使い残す信号の高周波数成分を抽出しかつ処理するために、帯域幅拡張と組み合わせて使用することもできる。したがって、ＱＭＦフィルタバンクは、様々な信号処理ツールに共通するフレームワークを提供することができる。図１２及び図１３の実施形態によれば、快適ノイズの発生は、このフレームワークに首尾良く包含される。

具体的には、図１２及び図１３の実施形態によれば、例えば、ＱＭＦ合成フィルタバンク２８８の各ＱＭＦ係数の実数部及び虚数部を励振すべくランダム発生器２９４を適用することによって、デコーダ側で快適ノイズを、ＱＭＦ分析の後、但しＱＭＦ合成より前に発生することが可能であることが理解できる。ランダムシーケンスの振幅は、発生される快適ノイズのスペクトルが実際に入力される背景ノイズ信号のスペクトルに似るように、例えば、各ＱＭＦ帯域において個々に計算される。これは、エンコーダ側で、各ＱＭＦ帯域において、ＱＭＦ分析後のノイズ推定を用いて達成することができる。これらのパラメータは、次に、デコーダ側で各ＱＭＦ帯域に印加されるランダムシーケンスの振幅を更新するために、ＳＩＤフレームを介して伝送することができる。

理想的には、各活性期間の終わりで直ちに快適ノイズパラメータを更新できるように、エンコーダ側で適用されるノイズ推定２６２は、不活性期間（即ち、ノイズのみ）及び活性期間（典型的には、騒がしい音声を含む）の双方において動作可能であるべき点に留意されたい。さらに、ノイズ推定は、デコーダ側でも同様に使用される場合がある。ノイズのみのフレームは、ＤＴＸベースの符号化／復号システムでは無視されることから、デコーダ側でのノイズ推定は、騒がしい音声コンテンツに対して好都合に働くことができる。エンコーダ側に加えてデコーダ側でノイズ推定を実行する優位点は、エンコーダからデコーダへのパケット伝送が活動期間に続く最初のＳＩＤフレームで失敗した場合でも、快適ノイズのスペクトル形状を更新できることにある。

ノイズ推定は、背景ノイズのスペクトルコンテンツの変動に精確かつ迅速に従うことができるべきであり、理想的には、先に述べたように、活性フレームの間及び不活性フレームの間の双方で実行可能であるべきである。この目的を達成する１つの方法は、［R.Martin著「最適平滑化及び最小統計に基づくノイズパワースペクトル密度の推定（Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics）」、２００１年］において提案されているように、有限長さのスライディングウィンドウを用いて、電力スペクトルにより各帯域内で得られる極小を追跡することである。この背後にある考えは、騒がしい音声のスペクトルの電力は、しばしば背景ノイズ、例えば単語間又は音節間の背景ノイズ、の電力まで減衰する、というものである。したがって、電力スペクトルの極小を追跡すると、音声活動の間であっても、各帯域におけるノイズフロアを推定できる。しかしながら、概して、これらのノイズフロアは過小評価される。さらに、これらのノイズフロアでは、スペクトル電力の迅速な変動、特に突然のエネルギー増加を捕捉できない。

しかしながら、各帯域において上述のように計算されるノイズフロアは、ノイズ推定の第２の段階を適用する上で極めて有益なサイド情報を提供する。実際に、非活動の間は騒がしいスペクトルの電力は推定されるノイズフロアに近いものと期待することができるのに対して、活動の間のスペクトル電力はノイズフロアより遙かに高くなる。故に、各帯域において別々に計算されるノイズフロアは、各帯域のおおまかな活動検出器として使用することができる。この知識に基づいて、背景ノイズの電力は、次式（１）のように、電力スペクトルの反復平滑化バージョンとして容易に推定することができる。
σ_N ²(m,k)＝β(m,k)・σ_N ²(m-1,k)＋（１−β(m,k)）・σ_N ²(m,k) （１）
ここで、σ_X ²（ｍ,ｋ)はフレームｍ及び帯域ｋにおける入力信号の電力スペクトル密度を示し、σ_N ²（ｍ,ｋ)はノイズ電力推定を指し、β（ｍ,ｋ)は各帯域及び各フレームの平滑化量を別々に制御する忘却係数（必ず、０から１までの間）である。ノイズフロア情報を用いて活動ステータスを反映しようとすると、ノイズフロア情報は、不活性期間（即ち、電力スペクトルがノイズフロアに近いとき）の間は小値をとるべきであるのに対して、活性フレームの間はさらなる平滑化（理想的には、σ_N ²（ｍ,ｋ)は一定を維持）を適用するために、高値が選択されるべきである。これを達成するためには、次式（２）のように、忘却係数を計算することによって軟判定が行うことができる。

ここで、σ_NF ²はノイズフロア電力であり、αは制御パラメータである。αの値が高いほど忘却係数は大きくなり、故に、全体として平滑化が進む。

このようにして、デコーダ側で変換領域において人工ノイズが生成される快適ノイズ発生（ＣＮＧ）概念が記述された。上述の実施形態は、時間領域信号を複数のスペクトル帯域に分解する事実上任意のタイプのスペクトル−時間分析ツール（即ち、変換又はフィルタバンク）と組み合わせて適用することができる。

したがって、上述の実施形態は、とりわけ、基本的な快適ノイズ発生器がランダムパルスを使用して残留をモデリングするＴＣＸベースのＣＮＧについて記述している。

これまでは、幾つかの態様を装置について説明してきたが、これらの態様が、対応する方法の説明をも表すことは明らかであり、ブロック又はデバイスは、方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップについて記述された態様も、対応する装置の対応するブロック、項目又は特徴に関する記述を表す。方法ステップの幾つか又は全ては、例えば、マイクロプロセッサ、プログラマブルコンピュータ又は電子回路のようなハードウェア装置によって（又はこれを用いて）実行することができる。実施形態によっては、最も重要な方法ステップのうちの何らかの１つ又はそれ以上がこのような装置によって実行することができる。

所定の実施の要請によっては、本発明の実施形態は、ハードウェアによってもソフトウェアによっても実施することができる。その実施は、フロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ又はフラッシュメモリなどのデジタル記憶媒体を用いて実行することができる。そのようなデジタル記憶媒体は、それぞれの方法を実行するようにプログラマブル・コンピュータ・システムと共働する（又は、共働することができる）電子的に読取り可能な制御信号を格納している。したがって、デジタル記憶媒体はコンピュータ読取り可能とすることができる。

本発明の幾つかの実施形態は、本発明方法の１つを実行するようにプログラマブル・コンピュータ・システムと共働することのできる電子的に読取り可能な制御信号を有するデータキャリアを含む。

一般に、本発明の幾つかの実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、そのプログラムコードはこのコンピュータプログラム製品がコンピュータ上で作動すると本発明方法のうちの１つを実行するように動作する。そのプログラムコードは、例えば、機械読取り可能なキャリア上に格納することができる。

他の幾つかの実施形態は、機械読取り可能なキャリア上に格納され、本発明方法のうちの１つを実行するためのコンピュータプログラムを含む。

したがって、言い替えれば、本発明方法の一実施形態は、コンピュータ上でコンピュータプログラムが実行されると、本発明方法のうちの１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明方法のさらなる実施形態は、本発明方法のうちの１つを実行するためのコンピュータプログラムを記録して備えたデータキャリア（又は、デジタル記憶媒体又はコンピュータ読取り可能な媒体）である。そのデータキャリア、デジタル記憶媒体又は記録ずみの媒体は、典型的には、有形でありかつ／又は非移行性である。

したがって、本発明方法のさらなる実施形態は、本発明方法のうちの１つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号シーケンスである。そのデータストリーム又は信号シーケンスは、例えば、データ通信接続、例えばインターネットを介して伝達されるように構成することができる。

さらなる実施形態は、本発明方法のうちの１つを実行するように構成又は適合化された処理手段、例えばコンピュータ又はプログラマブル論理デバイスを含む。

さらなる実施形態は、本発明方法のうちの１つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。

本発明によるさらなる実施形態は、本発明方法のうちの１つを実行するためのコンピュータプログラムを受信機へ（例えば、電子的又は光学的に）伝達するように構成された装置又はシステムを含む。その受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイス又はこれらに類似するものとすることができる。その装置又はシステムは、例えば、コンピュータプログラムを受信機へ伝達するためのファイルサーバを備えることができる。

幾つかの実施形態において、本発明方法の機能のうちの幾つか、又は全てを実行するために、プログラマブル論理デバイス（例えば、フィールド・プログラマブル・ゲート・アレイ）を使用することができる。幾つかの実施形態において、フィールド・プログラマブル・ゲート・アレイは、本発明方法のうちの１つを実行するためにマイクロプロセッサと共働することができる。一般に、これらの方法は、好ましくは任意のハードウェア装置によって実行される。

これまでに述べた実施形態は、単に、本発明の原理を例示するものである。本明細書に記述している装置及び詳細の変更及び変形が、他の当業者にとって明らかであることが理解される。したがって、本発明は、本明細書における実施形態の記述及び説明によって提示された特有の詳細ではなく、添付の特許請求の範囲によってのみ限定されることが意図される。

図５は、図１におけるスイッチ２２の動作に対する受動的な役割を果たすビットストリームパッケージャ１５４も示している。具体的には、図５のエンコーダの検出器１６としてのＶＡＤは、例示的に挙げたものであって、単に、オーディオ符号化１４の経路、又は背景ノイズ推定器１２の経路のどちらの経路がとられるべきかを決定する。より精確に言えば、符号化エンジン１４及び背景ノイズ推定器１２は、共に入力１８とパッケージャ１５４との間へ並列に接続され、背景ノイズ推定器１２内部では、変換器１４０、ＦＤＮＳ１４２、ノイズ推定器１４６、パラメータ推定器１４８及び量子化器１５２が入力１８とパッケージャ１５４との間に（言及した順序で）直列に接続され、一方でＬＰ分析モジュール１４４は、入力１８と、ＦＤＮＳモジュール１４２のＬＰＣ入力及び量子化器１５２のさらなる入力との間に接続され、さらには、定常性測定器１５０がＬＰ分析モジュール１４４と量子化器１５２の制御入力との間に接続されている。ビットストリームパッケージャ１５４は、単に、その入力へ接続される任意の構成要素から入力を受信すれば、パッケージングを実行する。

デコーダ側において、活性相の間、復号エンジン１６０は、オーディオ信号の再構成の役割を果たす。不活性相が開始されるとすぐに、適応パラメータランダム発生器１６４は、不活性相の間にデータストリーム内でパラメータ量子化器１５２から送信される逆量子化されたランダム発生器パラメータを用いてランダムスペクトル成分を発生し、これにより、スペクトル・エネルギー・プロセッサ１６６内でスペクトル的に形成されるランダムスペクトログラムを形成し、次いで、合成器１６８がスペクトル領域から時間領域への再変換を実行する。ＦＤＮＳ１６６内のスペクトル形成に関しては、最新の活性フレームからの最新のＬＰＣ係数が使用するか、もしくはＦＤＮＳ１６６によって適用されるべきスペクトル重み付けを外挿法により導出してもよく、又はＳＩＤフレーム３２自体が情報を伝達してもよい。この方法により、不活性相の始まりにおいて、ＦＤＮＳ１６６は、ＬＰＣ合成フィルタの伝達関数に従って着信スペクトルへスペクトル的に重み付けすることを続け、ＬＰＳは、活性データ部分４４又はＳＩＤフレーム３２から導出されるＬＰＣ合成フィルタを規定する。しかしながら、不活性相の始まりにおいて、ＦＤＮＳ１６６により整形されるべきスペクトルは、ＴＣＸフレーム符号化モードの場合のような変換符号化されたものではなく、ランダムに発生されたスペクトルである。さらに、ＦＤＮＳ１６６において適用されるスペクトル整形は、ＳＩＤフレーム３８を使用して不連続的に更新されるにすぎない。補間又はフェーデングは、中断相３６の間に、あるスペクトル整形規定から次のそれへ徐々に切換するように実行することができる。

図１の実施形態に対する図３の実施形態の関係と同様に、図７は、図３のデコーダの可能な一実施形態を示す。図５の場合と同じ参照記号の使用によって示されるように、図７のデコーダは、ノイズ推定器１４６と、パラメータ推定器１４８と、定常性測定器１５０とを備え、これらは、図５における同じ要素と同様に動作するが、図７のノイズ推定器１４６は、図４における１２０又は１２２等の伝送されかつ逆量子化されたスペクトログラムに対して動作する。よって、パラメータ推定器１４６は、図５において論じたもののように動作する。このことは、定常性測定器１５０に関しても当てはまり、これは、エネルギーと、活性相の間にデータストリームを介して、又はデータストリームから伝送されて逆量子化されたＬＰＣ分析フィルタ（又はＬＰＣ合成フィルタ）のスペクトルの時間発展を明らかにするスペクトル値又はＬＰＣデータに対して動作する。

非定常ノイズの場合、定常性尺度を有することが必要であり、よって低適応性のパラメータランダム発生器を使用することができる。測定器１５０により決定される定常性尺度は、例えば、Itakuraの距離尺度、Kullback-Leiblerの距離尺度、他のような様々な方法を用いて、入力信号のスペクトル形状から導出することができる。

Claims

オーディオエンコーダであって、
活性相（２４）の間に、入力オーディオ信号に基づいて、パラメトリック背景ノイズ推定を連続的に更新するように構成された背景ノイズ推定器（１２）と、
前記活性相の間に、前記入力オーディオ信号をデータストリームに符号化するためのエンコーダ（１４）と、
前記入力オーディオ信号に基づいて、前記活性相（２４）に続く不活性相（２８）の入口を検出するように構成された検出器（１６）と、を備え、
該オーディオエンコーダは、前記不活性相の入口が検出されると、前記検出された不活性相に先行する前記活性相の間に連続的に更新された前記パラメトリック背景ノイズ推定を前記データストリームに符号化するように構成されているオーディオエンコーダ。
前記背景ノイズ推定器（１２）は、前記パラメトリック背景ノイズ推定の連続的な更新において、前記入力オーディオ信号内のノイズ成分と有益な信号成分とを区別し、かつ前記パラメトリック背景ノイズ推定を前記ノイズ成分からだけで決定するように構成されている請求項１に記載のオーディオエンコーダ。
前記エンコーダ（１４）は、前記入力オーディオ信号を前記データストリーム（３０）に符号化する符号化において、前記入力オーディオ信号を線形予測係数と励振信号に予測符号化し、かつ前記励振信号を変換符号化し、前記線形予測係数を符号化するように構成されている請求項１又は２に記載のオーディオエンコーダ。
前記背景ノイズ推定器（１２）は、前記活性相の間、前記励振信号を用いて前記パラメトリック背景ノイズ推定を更新するように構成されている請求項３に記載のオーディオエンコーダ。
前記背景ノイズ推定器は、前記パラメトリック背景ノイズ推定の更新において、前記励振信号における局所的極小を識別し、かつ前記局所的極小において、前記パラメトリック背景ノイズ推定を導出すべく前記励振信号の統計分析を実行するように構成されている請求項３又は４に記載のオーディオエンコーダ。
前記エンコーダは、前記入力信号の符号化において、前記入力オーディオ信号のより低い周波数部分を符号化すべく予測及び／又は変換符号化を用い、かつ前記入力オーディオ信号のより高い周波数部分のスペクトル包絡線を符号化すべくパラメトリック符号化を用いるように構成されている請求項１から５のいずれか一項に記載のオーディオエンコーダ。
前記エンコーダは、前記入力信号の符号化において、前記入力オーディオ信号のより低い周波数部分を符号化すべく予測及び／又は変換符号化を用い、かつ前記入力オーディオ信号のより高い周波数部分のスペクトル包絡線を符号化すべくパラメトリック符号化を用いること、又は前記入力オーディオ信号の前記より高い周波数部分を符号化せずにおくことを選択するように構成されている請求項１から６のいずれか一項に記載のオーディオエンコーダ。
前記エンコーダは、不活性相における前記予測及び／又は変換符号化ならびに前記パラメトリック符号化を中断するか、又は前記予測及び／又は変換符号化を中断し、かつ前記入力オーディオ信号の前記より高い周波数部分の前記スペクトル包絡線の前記パラメトリック符号化を前記活性相における前記パラメトリック符号化の使用よりも低い時間／周波数分解能で実行するように構成されている請求項６又は７に記載のオーディオエンコーダ。
前記エンコーダは、前記入力オーディオ信号を、前記より低い周波数部分を形成するサブバンドの集合と、前記より高い周波数部分を形成するサブバンドの集合とにスペクトル分解するためにフィルタバンクを用いる請求項６、７又は８に記載のオーディオエンコーダ。
前記背景ノイズ推定器は、前記活性相において、前記入力オーディオ信号の前記より低い周波数部分及びより高い周波数部分に基づいて前記パラメトリック背景ノイズ推定を更新するように構成されている請求項９に記載のオーディオエンコーダ。
前記背景ノイズ推定器は、前記パラメトリック背景ノイズ推定の更新において、前記入力オーディオ信号の前記より低い周波数部分及びより高い周波数部分における局所的極小を識別し、かつ前記局所的極小において、前記パラメトリック背景ノイズ推定を導出すべく前記入力オーディオ信号の前記より低い周波数部分及びより高い周波数部分の統計分析を実行するように構成されている請求項１０に記載のオーディオエンコーダ。
前記ノイズ推定器は、前記不活性相の間であっても前記背景ノイズ推定の連続的な更新を継続するように構成され、
該オーディオエンコーダは、前記不活性相の間に連続的に更新された前記パラメトリック背景ノイズ推定の更新を断続的に符号化するように構成されている請求項１から１１に記載のオーディオエンコーダ。
該オーディオエンコーダは、前記パラメトリック背景ノイズ推定の前記更新を一定の時間間隔又は可変の時間間隔で断続的に符号化するように構成されている請求項１２に記載のオーディオエンコーダ。
不活性相（８８）に先行する活性相（８６）を少なくとも１つ含むデータストリームを復号して前記データストリームからオーディオ信号を再構成するためのオーディオデコーダであって、該オーディオデコーダは、
前記活性相（８６）の間に前記データストリーム（１０４）からのパラメトリック背景ノイズ推定を連続的に更新するように構成された背景ノイズ推定器（９０）と、
前記活性相の間に前記データストリームから前記オーディオ信号を再構成するように構成されたデコーダ（９２）と、
パラメータランダム発生器（９４）と、
前記不活性相（８８）の間に前記パラメトリック背景ノイズ推定に依存して前記パラメータランダム発生器（９４）を制御することによって、前記不活性相（８８）の間の前記オーディオ信号を合成するように構成された背景ノイズ発生器（９６）と、を備えたオーディオデコーダ。
前記背景ノイズ推定器（９０）は、前記パラメトリック背景ノイズ推定の連続的な更新において、前記活性相（８６）において前記データストリーム（１０４）から再構成されたバージョンの前記オーディオ信号におけるノイズ成分と有益な信号成分とを区別し、かつ前記パラメトリック背景ノイズ推定を前記ノイズ成分からだけで決定するように構成されている請求項１４に記載のオーディオデコーダ。
前記デコーダ（９２）は、前記データストリームからの前記オーディオ信号の再構成において、前記データストリームに変換符号化された励振信号を、同じく前記データストリームに符号化された線形予測係数に従って整形するように構成されている請求項１４又は１５に記載のオーディオデコーダ。
前記背景ノイズ推定器（９０）は、前記励振信号を用いて前記パラメトリック背景ノイズ推定を更新するように構成されている請求項１６に記載のオーディオデコーダ。
前記背景ノイズ推定器は、前記パラメトリック背景ノイズ推定の更新において、前記励振信号における局所的極小を識別し、かつ前記局所的極小において、前記パラメトリック背景ノイズ推定を導出すべく前記励振信号の統計分析を実行するように構成されている請求項１６又は１７に記載のオーディオデコーダ。
前記デコーダは、前記オーディオ信号の再構成において、前記データストリームから前記オーディオ信号のより低い周波数部分を再構成すべく予測及び／又は変換復号を用い、かつ前記オーディオ信号のより高い周波数部分を合成するように構成されている請求項１から１８のいずれか一項に記載のオーディオデコーダ。
前記デコーダは、前記オーディオ信号の前記より高い周波数部分を、前記データストリームにパラメトリックに符号化された、前記入力オーディオ信号の前記より高い周波数部分のスペクトル包絡線から合成するように、又は前記オーディオ信号の前記より高い周波数部分を、前記より低い周波数部分に基づいてブラインド帯域幅拡張により合成するように構成されている請求項１９に記載のオーディオデコーダ。
前記デコーダは、不活性相において前記予測及び／又は変換復号を中断し、前記活性相における前記スペクトル包絡線に従って前記オーディオ信号の前記より低い周波数部分の複製をスペクトル的に形成することにより前記オーディオ信号の前記より高い周波数部分の前記合成を実行し、かつ前記不活性相における前記スペクトル包絡線に従って前記合成されたオーディオ信号の複製をスペクトル的に形成するように構成されている請求項２０に記載のオーディオデコーダ。
前記デコーダは、前記より低い周波数部分のサブバンド集合、及び前記より高い周波数部分のサブバンド集合から前記入力オーディオ信号をスペクトル的に構成するために逆フィルタバンクを備えている請求項２０又は２１に記載のオーディオデコーダ。
該オーディオデコーダは、前記不活性相の入口を、前記データストリームが中断される度に、かつ／又は前記データストリームが前記入口を示す信号がくる度に検出するように構成されている請求項１４から２２までのいずれか一項に記載のオーディオデコーダ。
前記背景ノイズ発生器（９６）は、活性相から不活性相への移行直後の前記データストリームにパラメトリック背景ノイズ推定情報が存在しない場合だけ前記背景ノイズ推定器により連続的に更新された前記パラメトリック背景ノイズに依存して、前記不活性相（８８）の間に前記パラメータランダム発生器（９４）を制御することにより、前記不活性相（８８）の間の前記オーディオ信号を合成するように構成されている請求項１４から２３のいずれか一項に記載のオーディオデコーダ。
前記背景ノイズ推定器（９０）は、前記パラメトリック背景ノイズ推定の連続的な更新において、前記デコーダ（９２）から再構成された前記オーディオ信号のスペクトル分解を用いるように構成されている請求項１４から２４のいずれか一項に記載のオーディオデコーダ。
前記背景ノイズ推定器（９０）は、前記パラメトリック背景ノイズ推定の連続的な更新において、前記デコーダ（９２）から再構成された前記オーディオ信号のＱＭＦスペクトルを用いるように構成されている請求項１４から請求項２５のいずれか一項に記載のオーディオデコーダ。
オーディオ符号化方法であって、
活性相（２４）の間に入力オーディオ信号に基づいてパラメトリック背景ノイズ推定を連続的に更新することと、
前記活性相の間に前記入力オーディオ信号をデータストリームに符号化することと、
前記入力オーディオ信号に基づいて前記活性相（２４）に続く不活性相（２８）の入口を検出することと、
前記不活性相の前記入口が検出されると、前記検出された不活性相に先行する前記活性相の間に連続的に更新された前記パラメトリック背景ノイズ推定を前記データストリームに符号化することと、を含むオーディオ符号化方法。
不活性相（８８）に先行する活性相（８６）を少なくとも１つ含むデータストリームを復号して前記データストリームからオーディオ信号を再構成するためのオーディオ復号方法であって、該オーディオ復号方法は、
前記活性相（８６）の間に前記データストリーム（１０４）からのパラメトリック背景ノイズ推定を連続的に更新することと、
前記活性相の間に前記データストリームから前記オーディオ信号を再構成することと、
前記不活性相（８８）の間に前記パラメトリック背景ノイズ推定に依存してパラメータランダム発生器（９４）を制御することにより、前記不活性相（８８）の間の前記オーディオ信号を合成することと、を含むオーディオ復号方法。
コンピュータ上で実行されると、請求項２６から２８のいずれか一項に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。