JP6643285B2

JP6643285B2 - オーディオ符号器及びオーディオ符号化方法

Info

Publication number: JP6643285B2
Application number: JP2017144156A
Authority: JP
Inventors: ゼチァヴァン，パンジ; ヴィルデ，ステファン; ロンバード，アンソニー; ディーツ，マルチン
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2011-02-14
Filing date: 2017-07-26
Publication date: 2020-02-12
Anticipated expiration: 2032-02-14
Also published as: CA2827305A1; WO2012110482A2; US20130332176A1; TWI480856B; CA2827305C; SG192745A1; EP3373296A1; ES2681429T3; JP6185029B2; AR102715A2; MX2013009305A; EP2676262A2; JP2014510307A; RU2585999C2; CN103477386A; US8825496B2; RU2013142079A; MY167776A; WO2012110482A3; CA2968699C

Description

本発明は、不活性期におけるノイズ合成を支援するオーディオコーデックに関する。

スピーチまたは他のノイズ源の不活性期間を利用することによって伝送帯域幅を削減できる可能性が、この技術分野において知られている。そのような仕組みは、一般に、不活性（又は無音）期と活性（有音）期とを区別するための何らかの形態の検出を使用する。不活性期間中に、記録された信号を正確に符号化する通常のデータストリームの伝送を停止させ、代わりに無音挿入記述子（ＳＩＤ）の更新だけを送信することによって、ビットレートをより低減できる。ＳＩＤの更新は、定期的な間隔で伝送することができ、あるいは背景ノイズの特性の変化が検出されたときに伝送することができる。復号側においては、ＳＩＤフレームを、活性期における背景ノイズに類似した特性を有する背景ノイズを生成するために使用することで、記録された信号を符号化する通常のデータストリームの伝送が停止した場合でも、受信者側に活性期から不活性期への不快な遷移をもたらさないようにすることができる。

しかしながら、伝送レートをさらに低減する必要性が依然として存在する。携帯電話機の台数の増加などのビットレートの消費者数の増加や、無線伝送によるブロードキャストなどの多かれ少なかれビットレートを集中的に消費するアプリケーションの数の増加により、消費されるビットレートの着実な削減が必要とされる。

他方で、合成されたノイズは、合成であることをユーザに気付かれることがないよう、実際のノイズに近いように模擬しなければならない。

ISO/IEC CD 23003-3 dated September 24, 2010 R. Martin, Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics, 2001

従って、本発明の１つの目的は、不活性期の期間中にノイズ合成を支援するオーディオコーデックの仕組みであって、伝送ビットレートの低減を可能にし、及び／又は達成可能なノイズ生成品質を高めるうえで役に立つオーディオコーデックの仕組みを提供することにある。

この目的は、本願の独立請求項の一部を構成する要旨によって達成される。

本発明の目的は、不活性期間中に合成ノイズ生成を支援するオーディオコーデックであって、例えばビットレート及び／又は演算の複雑さに関して穏当なオーバーヘッドでより現実に近いノイズ生成を可能にするオーディオコーデックを提供することにある。

後者の目的も、本願の独立請求項の他の一部を構成する要旨によって達成される。

特に、本発明の根底にある基本的な知見は、スペクトルドメインをきわめて効果的に使用して背景ノイズをパラメータ化することによって、より現実に近く、従ってより気付かれにくい活性期から不活性期への切換えにつながる背景ノイズ合成をもたらすことができるという知見である。さらには、スペクトルドメインで背景ノイズをパラメータ化することによって、ノイズを有用信号から分離することが可能となることが分かっており、従って、スペクトルドメインで背景ノイズをパラメータ化することは、活性期間におけるパラメトリック背景ノイズ推定の上述の連続的な更新と組み合わせた場合に、有利であることが分かって来た。なぜなら、ノイズと有用信号との間のより良好な分離がスペクトルドメインにおいて達成可能となるため、本願の２つの好都合な態様を組み合わせたときに、１つのドメインから他のドメインへの追加的な遷移が不要となるからである。

特定の実施形態によれば、活性期の後で不活性期に入るとすぐにノイズ生成を開始できるよう、活性期間中にパラメトリック背景ノイズ推定を連続的に更新することによって、不活性期間内におけるノイズ生成の品質を保ちつつ、貴重なビットレートを節約することができる。例えば、連続的な更新は復号側において実行されてもよく、この場合、不活性期の検出直後のウォームアップ期間に背景ノイズの符号化済み表現を復号側へと事前に供給するというような、貴重なビットレートを消費すると考えられる方法は必要でなくなる。なぜなら、復号側が活性期間中にパラメトリック背景ノイズ推定を連続的に更新しており、従って適切なノイズ生成を伴って不活性期へと速やかに入れるように常に準備できているためである。同様に、パラメトリック背景ノイズ推定が符号化側において行なわれる場合でも、そのようなウォームアップ期を回避することは可能である。不活性期に入ったことを検出するとすぐに、従来どおりに符号化された背景ノイズの表現を事前に復号側に供給することによって、背景ノイズを認知し、かつ認知段階の後に対応する情報を復号側へ送るという方法に代えて、符号器は、過去の活性期間中に連続的に更新されていたパラメトリック背景ノイズ推定に代用することによって、不活性期に入ったことを検出するとすぐに、必要なパラメトリック背景ノイズ推定を復号器へと提供することができ、その結果、必要以上に背景ノイズを符号化するような、ビットレートを消費する事前的なさらなる作業を回避することができる。

本発明の実施形態のさらなる好都合な詳細は、特許請求の範囲の従属請求項の要旨として示される。本願の好ましい実施形態を、図面を参照しながら後述する。

一実施形態によるオーディオ符号器を示すブロック図である。符号化エンジン１４の可能な一実施例を示す。一実施形態によるオーディオ復号器のブロック図である。一実施形態による図３の復号化エンジンの可能な一実施例を示す。前記実施形態のさらに詳細な説明に係るオーディオ符号器のブロック図である。一実施形態に従って図５の符号器に関連して使用することができる復号器のブロック図である。前記実施形態のさらに詳細な説明に係るオーディオ復号器のブロック図である。一実施形態によるオーディオ符号器のスペクトル帯域幅拡張部のブロック図である。一実施形態による図８のＣＮＧ（コンフォートノイズ生成）スペクトル帯域幅拡張符号器の実施例を示す。スペクトル帯域幅拡張を使用する実施形態によるオーディオ復号器のブロック図である。スペクトル帯域幅複製を使用する可能なオーディオ復号器の一実施形態をさらに詳細に説明するブロック図である。スペクトル帯域幅拡張を使用するさらなる実施形態によるオーディオ符号器のブロック図である。オーディオ復号器のさらなる実施形態のブロック図である。

図１は、本発明の実施形態によるオーディオ符号器を示している。図１のオーディオ符号器は、背景ノイズ推定器１２と、符号化エンジン１４と、検出器１６と、オーディオ信号入力１８と、データストリーム出力２０とを備えている。背景ノイズ推定器１２と符号化エンジン１４と検出器１６とは、オーディオ信号入力１８へと接続された入力をそれぞれ有している。推定器１２および符号化エンジン１４の出力は、スイッチ２２を介してデータストリーム出力２０へとそれぞれ接続されている。スイッチ２２と推定器１２と符号化エンジン１４とは、検出器１６の出力へと接続された制御入力をそれぞれ有している。

符号器１４は、活性期２４の期間中に入力オーディオ信号をデータストリーム３０へと符号化し、検出器１６は、入力信号に基づいて活性期２４に続く不活性期２８の開始点３４を検出するように構成されている。データストリーム３０のうち符号化エンジン１４によって出力された部分が参照番号４４で示されている。

背景ノイズ推定器１２は、入力オーディオ信号の背景ノイズのスペクトル包絡をスペクトル的に表わすようなパラメトリック背景ノイズ推定を、入力オーディオ信号のスペクトル分解表現に基づいて決定するように構成されている。その決定は、不活性期３８へ入ってからすぐに始められてもよい。即ち、検出器１６が不活性を検出した時点３４の直後に始められてもよい。その場合、データストリーム３０の通常部分４４が不活性期内へとわずかに拡張しがちである。即ち、通常部分４４は、背景ノイズ推定器１２が入力信号から背景ノイズを認知／推定するために充分な追加の短い期間分だけ継続し、その後で、背景ノイズのみで構成されると想定される場合が多い。

しかしながら、後述する実施形態は別の方針をとる。後述する代替的な実施形態によれば、前記決定を活性期間中に連続的に実行して推定を更新し、不活性期へ入るやいなや即時使用できるようにしてもよい。

いずれにせよ、オーディオ符号器１０は、不活性期２８の期間中に、ＳＩＤフレーム３２及び３８を使用するなどにより、パラメトリック背景ノイズ推定をデータストリーム３０へと符号化するように構成される。

従って、以下で説明する実施形態の多くは、ノイズ合成を速やかに始めることができるよう、ノイズ推定が活性期間中に連続的に実行される事例に言及するが、必ずしもノイズ推定が活性期間中に連続的に実行される必要はなく、別の実施例も可能である。一般に、これらの好都合な実施形態について示す詳細のすべてを、例えばそれぞれのノイズ推定が不活性期の検出時に行なわれる実施形態も説明または開示するものと理解すべきである。

従って、入力１８においてオーディオ符号器１０に入力される入力オーディオ信号に基づき、活性期２４の期間中にパラメトリック背景ノイズ推定を連続的に更新するように、背景ノイズ推定器１２を構成することができる。図１は、背景ノイズ推定器１２が、入力１８に入力されるオーディオ信号に基づいてパラメトリック背景ノイズ推定の連続的な更新を導出できると提案しているが、必ずしもそうである必要はない。代替的または追加的に、背景ノイズ推定器１２は、破線２６によって示すように、符号化エンジン１４からオーディオ信号の１つのバージョンを取得してもよい。その場合、背景ノイズ推定器１２は、代替的または追加的に、接続線２６および符号化エンジン１４をそれぞれ介して間接的に入力１８へと接続されると考えられる。特に、背景ノイズ推定器１２が背景ノイズ推定を連続的に更新する方法に関しては幾つかの異なる可能性が存在し、それらの可能性の中の幾つかについて後述する。

符号化エンジン１４は、活性期２４の期間中に、入力１８に到着する入力オーディオ信号をデータストリームへと符号化するように構成される。活性期とは、スピーチ又はノイズ源の他の有用なサウンドなどの有用な情報がオーディオ信号内に含まれている、すべての時間を包含する。他方で、例えば話者の背景の雨または往来によって引き起こされる時間的に定常なスペクトルなどのおおむね時間定常性の特性を有するサウンドは、背景ノイズとして分類され、この背景ノイズだけが存在するそれぞれの時間期間が不活性期２８として分類される。検出器１６は、入力１８における入力オーディオ信号に基づいて、活性期２４の後で不活性期２８に入ったことを検出する役割を果たす。換言すると、検出器１６が、２つの時期、すなわち活性期と不活性期とを区別し、どちらの時期が現時点において存在しているのかを判断する。検出器１６は現時点において存在している時期を符号化エンジン１４に知らせ、上述したように、符号化エンジン１４は、入力オーディオ信号のデータストリームへの符号化を活性期２４の期間内に実行する。符号化エンジン１４によって出力されたデータストリームが出力２０において出力されるように、検出器１６がスイッチ２２を相応に制御する。不活性期間中には、符号化エンジン１４は入力オーディオ信号の符号化を停止してもよい。少なくとも出力２０において出力されるデータストリームが、符号化エンジン１４によって出力された可能性のあるデータストリームによって供給されるという状態ではなくなる。さらに、符号化エンジン１４は、何らかの状態変数の更新によって推定器１２を支援する最小限の処理だけを実行してもよい。このような操作が演算能力を大きく軽減することもある。スイッチ２２は、例えば符号化エンジンの出力の代わりに推定器１２の出力が出力２０へと接続されるようにも設定される。このようにして、出力２０に出力されるビットストリームを伝送するための貴重な伝送ビットレートが軽減される。

既に上述したように、活性期２４の期間中に背景ノイズ推定器１２が入力オーディオ信号１８に基づいてパラメトリック背景ノイズ推定を連続的に更新するように構成されている場合には、活性期２４から不活性期２８への遷移の直後に、すなわち不活性期２８に入った直後に、推定器１２が、活性期２４の期間中に連続的に更新したパラメトリック背景ノイズ推定を、出力２０において出力されるデータストリーム３０内へと挿入することができる。例えば、活性期２４の終点の直後であって、不活性期２８に入ったことを検出器１６が検出した時点３４の直後に、背景ノイズ推定器２２が無音挿入記述子フレーム３２をデータストリーム３０へと挿入してもよい。換言すると、活性期２４の期間中に背景ノイズ推定器がパラメトリック背景ノイズ推定を連続的に更新しているがゆえに、不活性期２８に入ったことを検出器が検出した時点とＳＩＤ３２の挿入との間には、いかなる時間的なギャップも存在する必要がない。

従って、図１の実施形態を実施する好ましい選択肢に係る図１のオーディオ符号器１０についての上述の説明を要約すると、オーディオ符号器１０は以下のように動作してもよい。例示の目的で、現時点において活性期２４が存在していると仮定する。この場合、現時点において、符号化エンジン１４が入力１８における入力オーディオ信号をデータストリーム２０へと符号化する。スイッチ２２は、符号化エンジン１４の出力を出力２０へと接続する。符号化エンジン１４は、入力オーディオ信号１８をデータストリームへと符号化するために、パラメトリック符号化／変換符号化を使用してもよい。特に、符号化エンジン１４は入力オーディオ信号をフレーム単位で符号化してもよく、この場合、各々のフレームは入力オーディオ信号の連続的な（互いに部分的に重なり合っている）時間区間のうちの１つを符号化したものである。さらに、符号化エンジン１４は、データストリームの連続的なフレームの間で異なる符号化モードの間の切換えを実行できてもよい。例えば、一部のフレームをＣＥＬＰ符号化などの予測符号化を使用して符号化してもよく、他の一部のフレームをＴＣＸまたはＡＡＣ符号化などの変換符号化を使用して符号化してもよい。例えば、非特許文献１に記載のＵＳＡＣ及びその符号化モードを参照されたい。

背景ノイズ推定器１２は、活性期２４の期間中にパラメトリック背景ノイズ推定を連続的に更新する。従って、背景ノイズ推定器１２を、入力オーディオ信号内のノイズ成分と有用な信号成分との間の区別を実行するよう構成して、パラメトリック背景ノイズ推定をそのノイズ成分だけから決定してもよい。背景ノイズ推定器１２は、この更新を、符号化エンジン１４内での変換符号化にも使用されるスペクトルドメインなどのスペクトルドメインにおいて実行する。さらに、背景ノイズ推定器１２は、入力１８に入力されるオーディオ信号又は損失が多い状態でデータストリームへと符号化されるオーディオ信号の代わりに、例えば入力信号のＬＰＣベースでフィルタ処理されたバージョンを変換符号化する際に符号化エンジン１４内で中間結果として得られた励起信号または残余信号に基づいて、この更新を実行してもよい。そのようにすることによって、入力オーディオ信号内の有用な信号成分の多くが既に取り除かれた状態となり、背景ノイズ推定器１２がノイズ成分を検出することが容易になる可能性がある。スペクトルドメインとして、ＭＤＣＴドメインなどの重複変換(lapped transform)ドメインや、ＱＭＦドメインなどの複素数値フィルタバンクドメインなどのフィルタバンクドメインを使用することができる。

活性期２４の期間中には、不活性期２８へ入ったときにこれを検出できるよう、検出器１６も連続的に作動している。検出器１６を、ボイス／サウンド活性検出器（ＶＡＤ／ＳＡＤ）として具現化でき、あるいは有用な信号成分が現時点において入力オーディオ信号内に存在するか否かを判断する何らかの他の手段として具現化することができる。活性期２４が続いているか否かを判断するための検出器１６の基本的な判断基準は、低域通過フィルタ処理後の入力オーディオ信号のパワーが特定のしきい値未満であるか否かを調べることであってよく、このしきい値を超えるやいなや不活性期に入ったと推定されてもよい。

活性期２４の後で不活性期２８に入ったことを検出器１６がどのように検出するかに拘わらず、検出器１６は、不活性期２８に入ったことを他の要素１２、１４、及び２２に速やかに知らせる。背景ノイズ推定器が活性期２４の期間内にパラメトリック背景ノイズ推定の更新を続けている場合には、出力２０で出力されるデータストリーム３０への符号化エンジン１４からのさらなる供給を即時停止してもよい。その場合、背景ノイズ推定器１２は、不活性期２８に入ったことを知るとすぐに、パラメトリック背景ノイズ推定の最後の更新についての情報を、ＳＩＤフレーム３２の形態でデータストリーム３０へと挿入してもよい。すなわち、符号化エンジンの最後のフレームであって、不活性期に入ったことを検出器１６が検出した時間区間に関するオーディオ信号のフレームを符号化エンジンが符号化しているフレームの直後に、ＳＩＤフレーム３２が続くことができる。

通常は、背景ノイズはきわめて頻繁には変化しない。多くの場合、背景ノイズは、時間定常性の傾向にある。従って、検出器１６が不活性期２８の開始を検出した直後に背景ノイズ推定器１２がＳＩＤフレーム３２を挿入した後には、あらゆるデータストリームの伝送を中断してもよく、この中断期３４においては、データストリーム３０はいかなるビットレートも消費せず、あるいは何らかの伝送の目的に必要な最小限のビットレートしか消費しない。最小限のビットレートを保つために、背景ノイズ推定器１２は、ＳＩＤ３２の出力を間欠的に繰り返してもよい。

しかしながら、時間変化しないという背景ノイズの傾向にもかかわらず、背景ノイズに変化が生じる可能性もある。例えば、携帯電話のユーザが自動車から離れ、従ってユーザの電話の最中に背景ノイズがエンジンのノイズから自動車の外部の交通ノイズへと変化する場合が考えられる。背景ノイズのそのような変化を追跡するために、背景ノイズ推定器１２を、不活性期２８においても背景ノイズを連続的に調べるよう構成することができる。背景ノイズ推定器１２は、パラメトリック背景ノイズ推定の変化量が何らかのしきい値を超えると判断したときは常に、パラメトリック背景ノイズ推定の更新後のバージョンを、別のＳＩＤ３８を介してデータストリーム２０へと挿入してもよく、その後に次の中断期４０が例えば次の活性期４２の開始が検出器１６によって検出されるまで続いてもよく、以下同様である。当然ながら、パラメトリック背景ノイズ推定の変化とは無関係に、現時点において更新されたパラメトリック背景ノイズ推定を示すＳＩＤフレームを、代替的または追加的に、不活性の期間内に中間的な方法で点在させてもよい。

当然ながら、符号化エンジン１４によって出力されかつ図１では斜線を用いて示すデータストリーム４４の方が、不活性期２８の期間内に伝送されるデータストリーム部分３２及び３８よりも多くの伝送ビットレートを消費しており、上述の方法によるビットレートの節約は顕著である。

さらに、背景ノイズ推定器１２が、任意ではあるが上述した連続的な推定の更新を用いてデータストリーム３０に対する供給を即時開始できる場合には、不活性期の検出の時点３４を超えて符号化エンジン１４のデータストリーム４４の伝送を事前的に続ける必要がないため、全体として消費されるビットレートがさらに削減される。

より具体的な実施形態に関してさらに詳しく後述するように、符号化エンジン１４は、入力オーディオ信号を符号化する際に、入力オーディオ信号を線形予測係数と励起信号とに予測的に符号化して、データストリーム３０及び４４のそれぞれへと、励起信号を変換符号化し、線形予測係数を符号化するよう構成されてもよい。１つの可能性のある実施例を図２に示す。図２によれば、符号化エンジン１４が、変換器５０と、周波数ドメインノイズ整形器（ＦＤＮＳ）５２と、量子化器５４とを、符号化エンジン１４のオーディオ信号入力５６とデータストリーム出力５８との間に、上記の順序で直列に接続して備えている。さらに、図２の符号化エンジン１４は、線形予測分析モジュール６０を備えており、線形予測分析モジュール６０は、オーディオ信号の各部分にそれぞれの分析窓を掛け、窓掛けされた各部分に自己相関を適用することによって、オーディオ信号５６から線形予測係数（ＬＰＣ）を決定するように構成されるか、又は、変換器５０によって出力される入力オーディオ信号のパワースペクトルを使用しかつそれに逆ＤＦＴを適用するような変換ドメインでの変換に基づいて自己相関を決定し、次いで（Ｗｉｅｎｅｒ−）Ｌｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎアルゴリズムの使用など、その自己相関に基づくＬＰＣの推定を実行するように構成されている。

線形予測分析モジュール６０によって決定された線形予測係数に基づき、出力５８におけるデータストリーム出力に、ＬＰＣについてのそれぞれの情報が供給され、周波数ドメインノイズ整形器が、モジュール６０によって出力された線形予測係数によって決定される線形予測分析フィルタの伝達関数に対応する伝達関数に従ってオーディオ信号のスペクトログラムをスペクトル的に整形するように制御される。ＬＰＣをデータストリーム内で伝送するためのＬＰＣの量子化を、分析器６０内での分析レートと比べて伝送レートを低減できるように、ＬＳＰ／ＬＳＦ（線スペクトル対／線スペクトル周波数）ドメインで実行しさらに補間を使用して実行することができる。さらに、ＦＤＮＳにおいて実行されるＬＰＣからスペクトルへの重み付き変換は、ＬＰＣへのＯＤＦＴの適用と、結果として得られた重み付き値を除数として変換器のスペクトルに適用することを含むことができる。

次いで、量子化器５４が、スペクトル的に整形された（平坦化された）スペクトログラムの変換係数を量子化する。例えば変換器５０がＭＤＣＴなどの重複変換を使用してオーディオ信号を時間ドメインからスペクトルドメインへと変換し、その結果、入力オーディオ信号の重なり合う窓掛けされた部分に対応する連続的な変換が取得され、次いで、周波数ドメインのノイズ整形器５２がＬＰ分析フィルタの伝達関数に従ってこれらの変換を重み付けすることで、スペクトル的に整形される。

整形されたスペクトログラムは励起信号と解釈されてもよく、破線の矢印６２によって示すように、背景ノイズ推定器１２はこの励起信号を使用してパラメトリック背景ノイズ推定を更新するよう構成されてもよい。代替的に、破線の矢印６４によって示すように、背景ノイズ推定器１２は、変換器５０によって出力された重複変換表現を更新のための基礎として直接的に使用してもよく、即ち、ノイズ整形器５２による周波数ドメインのノイズ整形を行なわずに使用してもよい。

図１及び図２に示した構成要素について可能な実施例に関するさらなる詳細は、後述するより詳細な実施形態から導出可能であり、それら詳細のすべてが、図１及び図２の構成要素に対して個別に置き換え可能であることに注意すべきである。

しかしながら、それらのより詳細な実施形態を説明する前に、代替的または追加的に、パラメトリック背景ノイズ推定を復号器側で実行できる例を示す図３について説明する。

図３のオーディオ復号器８０は、復号器８０の入力８２に入力されるデータストリームを復号し、復号器８０の出力８４において出力されるべきオーディオ信号を復元するよう構成されている。データストリームは、少なくとも１つの活性期８６と、それに続く不活性期８８とを含んでいる。オーディオ復号器８０は、背景ノイズ推定器９０と、復号化エンジン９２と、パラメトリック・ランダム発生器９４と、背景ノイズ発生器９６とを内部的に備えている。復号化エンジン９２は入力８２と出力８４との間に接続され、背景ノイズ推定器９０と背景ノイズ発生器９６とパラメトリック・ランダム発生器９４との直列接続も、入力８２と出力８４との間に接続されている。復号器９２は、活性期間中に、出力８４において出力されるオーディオ信号９８がノイズ及び有用なサウンドを適切な品質で含むように、データストリームからオーディオ信号を復元するよう構成されている。

背景ノイズ推定器９０は、データストリームから得られる入力オーディオ信号のスペクトル分解表現に基づいて、入力オーディオ信号の背景ノイズのスペクトル包絡をスペクトル的に表わすようなパラメトリック背景ノイズ推定を決定するよう構成されている。パラメトリック・ランダム発生器９４および背景ノイズ発生器９６は、不活性期間中にパラメトリック背景ノイズ推定を用いてパラメトリック・ランダム発生器９４を制御することによって、不活性期間中のオーディオ信号を復元するよう構成されている。

しかしながら、図３において破線によって示されるとおり、オーディオ復号器８０は推定器９０を備えなくてもよい。その代わりに、上述のように、データストリームが背景ノイズのスペクトル包絡をスペクトル的に表わす符号化済みのパラメトリック背景ノイズ推定を有してもよい。その場合、復号器９２は、活性期間中にはデータストリームからオーディオ信号を復元するよう構成される一方で、不活性期８８の期間中には、パラメトリック背景ノイズ推定に応じてパラメトリック・ランダム発生器９４を制御することによって、パラメトリック・ランダム発生器９４と背景ノイズ発生器９６とが協働して、不活性期におけるオーディオ信号を発生器９６が合成するよう構成されてもよい。

しかしながら、推定器９０が存在する場合には、不活性期開始フラグの使用などにより、データストリーム８８によって不活性期１０６の開始点１０６を図３の復号器８０に知らせることができる。これにより、復号器９２は、事前的にさらに供給された部分１０２を継続して復号することができ、背景ノイズ推定器は、時点１０６に続くこの事前的な時間内に、背景ノイズを認知／推定することができる。しかしながら、図１及び図２で上述した実施形態に従えば、背景ノイズ推定器９０は、活性期間中にデータストリームからパラメトリック背景ノイズ推定を連続的に更新するよう構成することが可能である。

背景ノイズ推定器９０を入力８２へと直接的に接続する代わりに、破線１００によって示すように復号化エンジン９２を介して入力８２へと接続し、オーディオ信号の何らかの復元されたバージョンを復号化エンジン９２から取得するようにしてもよい。原理的には、背景ノイズ推定器９０の動作は背景ノイズ推定器１２と極めて類似するよう構成できるが、背景ノイズ推定器９０がオーディオ信号の復元可能な（即ち、符号化側での量子化によって引き起こされるロスを含む）バージョンにしかアクセスできないという事実は別である。

パラメトリック・ランダム発生器９４は、１つまたは複数の真正または擬似的な乱数発生器を備えることができ、それによって出力される値の並びは、背景ノイズ発生器９６を介してパラメータ的に設定可能な統計的分布と一致してもよい。

背景ノイズ発生器９６は、不活性期８８の期間中に背景ノイズ推定器９０から得られるパラメトリック背景ノイズ推定に応じてパラメトリック・ランダム発生器９４を制御することによって、不活性期８８におけるオーディオ信号９８を合成するよう構成される。要素９６と９４との両方が直列に接続されると示しているが、直列接続に限ると解釈されるべきではない。発生器９６及び９４は相互結合されてもよい。実際に、発生器９４を、発生器９６の一部と解釈することもできる。

このように、図３の好都合な実施例によれば、図３におけるオーディオ復号器８０の動作のモードは以下のとおりであってもよい。活性期８６の期間中には、入力８２に、活性期８６において復号化エンジン９２によって処理されるべきデータストリーム部分１０２が連続的に供給される。次いで、入力８２に進入するデータストリーム１０４が、復号化エンジン９２専用のデータストリーム部分１０２の伝送をある時点１０６において停止する。すなわち、時点１０６においては、エンジン９２による復号に使用可能なデータストリーム部分のさらなるフレームは存在しない。不活性期８８に入ったことを報せる信号は、データストリーム部分１０２の伝送の途絶であってもよく、又は不活性期８８の開始の直後に配置された何らかの情報１０８によって伝えられてもよい。

いずれにせよ、不活性期８８の開始はきわめて急に生じるが、このことは、背景ノイズ推定器９０が活性期８６の期間中にデータストリーム部分１０２に基づいてパラメトリック背景ノイズ推定を連続的に更新しているがゆえに、問題ではない。この更新によって、不活性期８８が時点１０６において始まるや否や、背景ノイズ推定器９０は、パラメトリック背景ノイズ推定の最新バージョンを背景ノイズ発生器９６に提供することができる。従って、時点１０６から後は復号化エンジン９２に対するデータストリーム部分１０２のさらなる供給がないため、復号化エンジン９２はオーディオ信号の復元の出力を停止させるが、しかし一方で、パラメトリック・ランダム発生器９４は、背景ノイズの模倣を時点１０６の直後に出力８４に出力できるよう、背景ノイズ発生器９６によってパラメトリック背景ノイズ推定に従って制御されているので、時点１０６まで復号化エンジン９２によって出力された復元オーディオ信号に隙間なく続くことができる。エンジン９２によって出力される活性期の最後の復元フレームから、パラメトリック背景ノイズ推定の直近に更新されたバージョンによって決定される背景ノイズへの遷移に、クロスフェードが使用されてもよい。

背景ノイズ推定器９０は、活性期８６の期間中にデータストリーム１０４からパラメトリック背景ノイズ推定を連続的に更新するよう構成されていることに加え、背景ノイズ推定器９０は、データストリーム１０４から復元されたオーディオ信号のバージョン内におけるノイズ成分と有用な信号成分とを活性期８６の期間中に区別して、有用な信号成分ではなく、ノイズ成分だけからパラメトリック背景ノイズ推定を決定するよう構成されてもよい。背景ノイズ推定器９０がこの区別／分離を実行する方法は、背景ノイズ推定器１２に関して上述した方法に相当する。例えば、復号化エンジン９２内でデータストリーム１０４から内部的に復元された励起信号または残余信号を使用してもよい。

図２と同様に、図４は復号化エンジン９２について可能性のある実施例を示している。図４によれば、復号化エンジン９２は、データストリーム部分１０２を受け取るための入力１１０と、活性期８６の期間中に復元されたオーディオ信号を出力するための出力１１２とを備えている。復号化エンジン９２は、逆量子化器１１４と、周波数ドメインノイズ整形器１１６と、逆変換器１１８とを、入力１１０と出力１１２との間に上記言及の順序で直列に接続して備えている。入力１１０に到着するデータストリーム部分１０２は、逆量子化器１１４の入力へと供給される励起信号の変換符号化されたバージョン、即ちそれを表わす変換係数レベルと、周波数ドメインノイズ整形器１１６へと供給される線形予測係数についての情報とを含んでいる。逆量子化器１１４は、励起信号のスペクトル表現を逆量子化して周波数ドメインノイズ整形器１１６へと送り、次に、周波数ドメインノイズ整形器１１６は、線形予測合成フィルタに相当する伝達関数に従って励起信号（フラット量子化ノイズとともに）のスペクトログラムをスペクトル的に整形することによって、量子化ノイズを整形する。原理的には、図４のＦＤＮＳ１１６は、図２のＦＤＮＳと同様に機能する。即ちデータストリームからＬＰＣが抽出され、次いで例えば抽出されたＬＰＣに対してＯＤＦＴを加えることによってＬＰＣ−スペクトル重み変換が加えられ、その結果として得られたスペクトル重みが、逆量子化器１１４から到着する逆量子化されたスペクトルに対して乗法子として適用される。次いで、再変換器１１８は、このようにして得られたオーディオ信号の復元をスペクトルドメインから時間ドメインへと変換し、この変換によって得られた復元オーディオ信号を出力１１２に出力する。ＩＭＤＣＴを用いるような重複変換が、逆変換器１１８によって使用されてもよい。破線の矢印１２０によって示すように、励起信号のスペクトログラムは、背景ノイズ推定器９０によるパラメトリックな背景ノイズの更新のために使用されてもよい。又は、破線の矢印１２２によって示すように、オーディオ信号自身のスペクトログラムが使用されてもよい。

図２及び図４に関して、符号化／復号化エンジンの実施例に関するこれらの実施形態を限定的に解釈してはならないことに注意すべきである。別の実施形態も実現可能である。さらに、符号化／復号化エンジンはマルチモード・コーデックの形式であってもよく、その場合、図２及び図４の各部は特定のフレーム符号化モードが関連付けられているフレームについての符号化／復号化だけを担当する一方で、他のフレームについては、図２及び図４には示されていない符号化／復号化エンジンの他の部分に委ねられてもよい。そのような他のフレーム符号化モードも、例えば線形予測符号化を使用するが、変換符号化を使用するよりもむしろ時間ドメインにおける符号化を伴う予測符号化モードであってもよい。

図５は図１の符号器のさらに詳細な実施形態を示す。特に背景ノイズ推定器１２は、図５の中では特定の実施形態に従ってさらに詳しく示されている。

図５によれば、背景ノイズ推定器１２は、変換器１４０と、ＦＤＮＳ１４２と、ＬＰ分析モジュール１４４と、ノイズ推定器１４６と、パラメータ推定器１４８と、定常度測定器１５０と、量子化器１５２とを備えている。上述の構成要素の内のいくつかは、符号化エンジン１４によって部分的または完全に共有されてもよい。例えば、変換器１４０と図２の変換器５０とが同じであってもよく、ＬＰ分析モジュール６０と１４４とが同じであってもよく、ＦＤＮＳ５２と１４２とが同じであってもよく、及び／又は量子化器５４と１５２とを１つのモジュール内に実現してもよい。

さらに、図５は、図１のスイッチ２２の動作について受動的な役割を果たすビットストリーム・パッケージャ１５４を示している。特に、図５の符号器では検出器１６が例示的にそう呼ばれているＶＡＤ（ボイス活性検出器）が、オーディオ符号化の経路１４と背景ノイズ推定器１２との経路のどちらの経路をとるべきかを単純に決定する。より正確には、符号化エンジン１４と背景ノイズ推定器１２との両者が、入力１８とパッケージャ１５４との間に並列に接続されており、背景ノイズ推定器１２内においては、変換器１４０とＦＤＮＳ１４２とノイズ推定器１４６とパラメータ推定器１４８と量子化器１５２とが、入力１８とパッケージャ１５４との間に直列に（上記言及の順序で）接続されている。他方、ＬＰ分析モジュール１４４が、入力１８とＦＤＮＳモジュール１４２のＬＰＣ入力との間と、量子化器１５２のさらなる入力と、に対してそれぞれ接続され、定常度測定器１５０が、ＬＰ分析モジュール１４４と量子化器１５２の制御入力との間にさらに接続されている。ビットストリーム・パッケージャ１５４は、自身の入力へと接続されたいずれかの要素から入力を受け取った場合に、パッケージングを単純に実行する。

ゼロフレームを伝送する場合、すなわち不活性期の中断期の期間中には、検出器１６は、背景ノイズ推定器１２、特に量子化器１５２に対し、処理を停止してビットストリーム・パッケージャ１５４に何も送信しないよう通知する。

図５によれば、検出器１６は、活性期／不活性期を検出するために、時間ドメイン及び／又は変換／スペクトルドメインで作動してもよい。

図５の符号器の作動モードは以下のとおりである。以下に明らかになるとおり、図５の符号器は、自動車ノイズ、多数の話し手によるバブルノイズ、複数の楽器などのように一般的には定常雑音であるコンフォートノイズや、特に雨だれなどのように高いハーモニックスを持つノイズの品質を改善することができる。

特に、図５の符号器は、復号側のランダム発生器を制御して、符号化側において検出されたノイズがエミュレートされるように変換係数を励起させる。従って、図５の符号器の機能についてさらに説明する前に、図５の符号器によって指示されるとおりに復号側においてコンフォートノイズをエミュレートできる復号器について、可能性のある一実施形態を示す図６を参照して簡単に説明する。より一般的には、図６は、図１の符号器に適合する復号器について、可能性のある一実施例を示している。

特に、図６の復号器は、活性期間中にデータストリーム部分４４を復号する復号化エンジン１６０と、不活性期２８に関してデータストリーム内に供給される情報３２及び３８に基づいてコンフォートノイズを生成するコンフォートノイズ生成部１６２とを備えている。コンフォートノイズ生成部１６２は、パラメトリック・ランダム発生器１６４と、ＦＤＮＳ１６６と、逆変換器（または、合成器）１６８とを備えている。モジュール１６４〜１６８は互いに直列に接続されており、その結果、合成器１６８の出力においてコンフォートノイズが生成され、このコンフォートノイズは、図１に関して説明したように、復号化エンジン１６０によって出力される復元されたオーディオ信号の間の隙間である不活性期２８の期間中を満たすものである。プロセッサのＦＤＮＳ１６６と逆変換器１６８とは、復号化エンジン１６０の一部であってもよい。特に、例えば図４のＦＤＮＳ１１６及び１１８と同じであってもよい。

図５及び図６における個々のモジュールの作動モード及び機能が以下の説明からさらに明らかになるであろう。

特に、変換器１４０は、重複変換などを使用ことにより、入力信号をスペクトログラムへとスペクトル的に分解する。ノイズ推定器１４６は、それらスペクトログラムからノイズパラメータを決定するよう構成されている。同時に、ボイスまたはサウンド活性検出器１６は、入力信号から導出された特徴を評価し、活性期から不活性期への遷移またはその反対の遷移が生じたか否かを検出する。検出器１６によって使用されるこれらの特徴は、過渡／オンセットの検出器、調性の測定、及びＬＰＣ残余の測定の形態であってもよい。過渡／オンセットの検出器を、クリーンな環境またはノイズ除去された信号内においてアタック（エネルギーの急激な増加）または活性スピーチの開始を検出するために使用し、調性の測定を、サイレン、電話の音、及び音楽などの有用な背景ノイズを区別するために使用し、さらに、ＬＰＣ残余を、信号内におけるスピーチの存在通知を得るために使用してもよい。これらの特徴に基づき、検出器１６は、現在のフレームを例えばスピーチ、無音、音楽、またはノイズのいずれに分類できるかについての情報を大まかに与えることができる。

非特許文献２に提案されるように、ノイズ推定器１４６が、スペクトログラム内のノイズをスペクトログラム内の有用な信号成分から区別する役割を果たす一方で、パラメータ推定器１４８は、ノイズ成分を統計的に分析し、かつ各々のスペクトル成分について例えばノイズ成分に基づいてパラメータを決定する役割を果たしてもよい。

ノイズ推定器１４６は、例えばスペクトログラムにおける極小値を検索するよう構成されてもよく、パラメータ推定器１４８は、スペクトログラムにおけるそれら極小値が主として前面のサウンドよりもむしろ背景ノイズの属性であると仮定した上で、これら極小値部分におけるノイズ統計を決定するよう構成されてもよい。

途中の注意として、極小値は成形されていないスペクトルにおいても生じるため、ノイズ推定器による推定は、ＦＤＮＳ１４２なしでも実行できることを強調しておく。その場合でも、図５の説明の大部分には変化がない。

次に、パラメータ量子化器１５２は、パラメータ推定器１４８によって推定されたパラメータを量子化するよう構成されてもよい。例えば、パラメータは、ノイズ成分が関係する限りにおいて、平均振幅および入力信号のスペクトログラムにおけるスペクトル値の分布の一次または高次のモーメントを記述してもよい。ビットレートを節約するために、パラメータは、変換器１４０によって供給されたスペクトル分解能よりも低いスペクトル分解能で、データストリーム内へと挿入するためにＳＩＤフレーム内でデータストリームへと送られてもよい。

定常度測定器１５０は、ノイズ信号の定常度の測度を導出するよう構成されてもよい。次いで、パラメータ推定器１４８がその定常度の測度を使用して、図１のフレーム３８のような別のＳＩＤフレームを送信することによってパラメータの更新を実行すべきか否かを判断してもよく、又はパラメータが推定される方法に影響を与えてもよい。

モジュール１５２は、パラメータ推定器１４８及びＬＰ分析１４４によって計算されたパラメータを量子化し、これを復号側へと伝える。特に、量子化に先立ち、スペクトル成分はグループへとグループ化されてもよい。そのようなグループ化は、バーク尺度などへの準拠など、音響心理的な側面に従って選択することができる。検出器１６は量子化器１５２に対し、量子化の実行の要否を知らせる。量子化が不要である場合には、ゼロフレームが後続することになる。

次に、活性期から不活性期への切換わりに関する具体的なシナリオについて説明するが、図５のモジュールは以下のように機能する。

活性期間中に、符号化エンジン１４は、パッケージャを介してオーディオ信号のビットストリーム内への符号化を継続する。符号化は、フレームごとに実行されてもよい。データストリームの各フレームが、オーディオ信号の１つの時間部分／区間を表わしてもよい。オーディオ符号器１４は、ＬＰＣ符号化を使用してすべてのフレームを符号化するよう構成されてもよい。オーディオ符号器１４は、図２に関して説明したように、幾つかのフレームを例えばＴＣＸフレーム符号化モードと呼ばれる符号化を使用して符号化するよう構成されてもよい。残りのフレームは、例えばＡＣＥＬＰ符号化モードなどの符号励起線形予測（ＣＥＬＰ）符号化を使用して符号化することができる。すなわち、データストリームの一部分４４が、フレームレート以上である可能性のあるいずれかのＬＰＣ伝送レートを使用して、ＬＰＣ係数の連続的な更新を含んでいてもよい。

これと並行して、ノイズ推定器１４６が、ＬＰＣ平坦化（ＬＣＰ分析フィルタ処理）済みのスペクトルを検査して、これらの一連のスペクトルによって表わされるＴＣＸスペクトログラム内の極小値ｋ_minを識別する。当然ながら、これらの極小値は、時間ｔにつれて変化する可能性があり、すなわちｋ_min（ｔ）である。しかしながら、極小値は、ＦＤＮＳ１４２によって出力されるスペクトログラムに痕跡を形成することができ、従って時点ｔ_iにおける各々の連続的なスペクトルｉについて、極小値を先行および後続のそれぞれのスペクトルにおける極小に関連付けることが可能であってよい。

次いで、パラメータ推定器は、例えば種々のスペクトル成分または帯域についての代表値ｍ（平均、中央値など）及び／又はばらつきｄ（標準偏差、分散など）などの背景ノイズ推定パラメータを、それら極小値から導出する。この導出は、極小値におけるスペクトログラムのスペクトルの連続的なスペクトル係数の統計的分析を含んでもよく、その結果、ｋ_minに位置する各極小値についてのｍ及びｄを取得してもよい。他の所定のスペクトル成分または帯域についてのｍ及びｄを得るために、上述のスペクトルの極小値の間のスペクトル次元に沿った補間を実行してもよい。代表値（平均）の導出及び／又は補間と、ばらつき（標準偏差、分散など）の導出とに係るスペクトル分解能は異なっていてもよい。

上述のパラメータは、例えばＦＤＮＳ１４２によって出力されるスペクトルごとに連続的に更新される。

不活性期の開始を検出器１６が検出するや否や、検出器１６はその旨をエンジン１４に通知して、さらなる活性フレームがパッケージャ１５４に送られないようにしてもよい。代わりに、量子化器１５２が、不活性期内の最初のＳＩＤフレーム内で上述の統計的なノイズパラメータを出力する。最初のＳＩＤフレームは、ＬＰＣの更新を含んでも、含まなくてもよい。ＬＰＣ更新が存在する場合には、そのＬＰＣ更新は、部分４４において使用されるフォーマットでＳＩＤフレーム３２内においてデータストリーム内へと運ばれても良い。即ち、活性期間中に使用されるフォーマットであって、ＬＳＦ／ＬＳＰドメインにおける量子化を使用するものや、他の場合には、活性期間を処理する際に符号化エンジン１４の枠組み内においてＦＤＮＳ１４２によって適用可能であったＬＰＣ分析フィルタまたはＬＰＣ合成フィルタの伝達関数に対応するスペクトル重み付けを使用するなどのフォーマットで運ばれてもよい。

不活性期間中に、ノイズ推定器１４６とパラメータ推定器１４８と定常度測定器１５０とが協働し続け、その結果、復号化側は背景ノイズの変化について更新され続ける。特に、測定器１５０はＬＰＣによって定義されるスペクトル重み付けをチェックして変化を識別し、ＳＩＤフレームを復号器へと送信すべき場合には推定器１４８に通知する。例えば、測定器１５０は、上述の定常性の測度が所定の大きさを超えるＬＰＣの変動の程度を示すときにはいつも、推定器を相応に動作させることができる。追加的又は代替的に、推定器は、更新されたパラメータを規則的なベースで送信するようトリガーされてもよい。これらのＳＩＤ更新フレーム４０の間には、データストリームにおいて何も送信されず、すなわち「ゼロフレーム」である。

復号器側では、活性期において、復号化エンジン１６０がオーディオ信号の復元を担当する。不活性期が始まるや否や、適応型パラメータランダム発生器１６４が、不活性期間中にパラメータ量子化器１５０からデータストリームにおいて送信される逆量子化されたランダム発生器パラメータを使用してランダムスペクトル成分を生成し、次に、スペクトル・エネルギー・プロセッサ１６６内でスペクトル的に形成されるランダムスペクトログラムを形成し、次いで合成器１６８がスペクトルドメインから時間ドメインへの再変換を実行する。ＦＤＮＳ１６６内におけるスペクトル形成のために、直近の活性フレームからの直近のＬＰＣ係数を使用してもよく、又はＦＤＮＳ１６６によって適用されるべきスペクトル重み付けを、外挿法によってそこから導出してもよく、若しくはＳＩＤフレーム３２自身が情報を運んでもよい。このような手段により、不活性期の開始時において、到来するスペクトルのスペクトル的な重み付けを、ＦＤＮＳ１６６がＬＰＣ合成フィルタの伝達関数に従って継続し、このときＬＰＣ合成フィルタを定義するＬＰＳは、活性期のデータ部分４４またはＳＩＤフレーム３２から導出される。しかしながら、不活性期の開始とともに、ＦＤＮＳ１６６によって成形されるべきスペクトルは、ＴＣＸフレーム符号化モードの場合のように変換符号化されたスペクトルよりもむしろランダムに生成されたスペクトルとなる。さらに、ＦＤＮＳ１６６において適用されるスペクトル成形は、ＳＩＤフレーム３８の使用によって不連続的にのみ更新される。中断期３６の期間中に、或るスペクトル成形の定義から次の定義へと緩やかに切り換えるために、補間またはフェーディングを実行することができる。

図６に示されるように、適応型パラメトリック・ランダム発生器１６４は、追加的かつ任意ではあるが、データストリームの最後の活性期の直近の部分、即ち不活性期の開始時の直前のデータストリーム部分４４に含まれる逆量子化された変換係数を使用してもよい。例えば、この使用により、活性期におけるスペクトログラムから不活性期におけるランダムスペクトログラムへと滑らかな移行を実行することができる。

図１及び図３を再び簡単に参照すると、図５及び図６（並びに後段で説明する図７）の実施形態から、符号器及び／又は復号器において生成されるパラメトリック背景ノイズ推定は、バーク帯域または種々のスペクトル成分などの別個のスペクトル部分についての時間的に連続するスペクトル値の分布に関する統計情報を含んでもよい。そのような各スペクトル部分に関し、例えば、統計情報はばらつきの測度を含むことができる。その場合、ばらつきの測度がスペクトル的に解明された手法でスペクトル情報の中で定義され、すなわちスペクトル部分において／又はスペクトル部分についてサンプリングされることになる。スペクトル分解能、すなわちスペクトル軸に沿って散らばるばらつき及び代表値についての測度の数は、例えばばらつきの測度と任意に存在する平均または代表値の測度との間で異なってもよい。統計情報はＳＩＤフレームに含まれる。その統計情報は、ＬＰＣ分析フィルタ処理済みの（即ちＬＰＣ平坦化済みの）スペクトルなどの成形されたスペクトルに関連してもよく、つまり、統計スペクトルに従ってランダムスペクトルを合成し、次にＬＰＣ合成フィルタの伝達関数に従って逆成形することによって合成を可能にするような、成形されたＭＤＣＴスペクトルなどに関連してもよい。その場合、スペクトル成形情報はＳＩＤフレームの中に存在してもよいが、例えば最初のＳＩＤフレーム３２には存在しなくてもよい。他方では、後段で示すように、この統計情報は非成形のスペクトルに関連してもよい。さらに、ＭＤＣＴなどの実数値のスペクトル表現を使用する代わりに、オーディオ信号のＱＭＦスペクトルなどの複素値のフィルタバンクスペクトルを使用してもよい。例えば、非成形の形態のオーディオ信号のＱＭＦスペクトルが使用され、統計情報によって統計的に表わされてもよく、その場合には、統計情報そのものに含まれる以外のスペクトル成形は存在しない。

図１の実施形態に対する図３の実施形態の関係と同様に、図７は図３の復号器について可能性のある実施例を示している。図５と同じ参照符号の使用することで分るように、図７の復号器は、図５の同じ構成要素と同様に作動するノイズ推定器１４６とパラメータ推定器１４８と定常度測定器１５０とを備えてもよいが、但し図７のノイズ推定器１４６は、図４の１２０または１２２などで示す伝送されかつ逆量子化されたスペクトログラムに対して作動する。パラメータ推定器１４６は図５において説明したパラメータ推定器と同様に作動する。同様のことが、エネルギー及びスペクトル値又はＬＰＣデータに対して作動する定常度測定器１４８に関しても当てはまる。そのＬＰＣデータとは、活性期間中にデータストリームを介して／又はデータストリームから伝送および逆量子化されるＬＰＣ分析フィルタ（又はＬＰＣ合成フィルタ）のスペクトルの時間的推移を示すものである。

構成要素１４６、１４８及び１５０が図３の背景ノイズ推定器９０として機能する一方で、図７の復号器は、適応型パラメトリック・ランダム発生器１６４及びＦＤＮＳ１６６並びに逆変換器１６８をさらに備え、これらが図６と同様に互いに直列に接続されており、合成器１６８の出力にコンフォートノイズを出力する。モジュール１６４、１６６及び１６８は図３の背景ノイズ発生器９６として機能し、モジュール１６４はパラメトリック・ランダム発生器９４の機能を担当する。適応型パラメトリック・ランダム発生器９４又は１６４は、パラメータ推定器１４８によって決定されるパラメータに従って、スペクトログラムのランダムに生成されるスペクトル成分を出力し、パラメータ推定器１４８は、定常度測定器１５０によって出力される定常度の測度を使用してトリガーされる。次いで、プロセッサ１６６が、このようにして生成されたスペクトログラムをスペクトル的に成形し、次いで逆変換器１６８がスペクトルドメインから時間ドメインへの遷移を実行する。不活性期８８の期間中に復号器が情報１０８を受信しているとき、背景ノイズ推定器９０がノイズ推定の更新を実行しており、その後何らかの補間の手段を実行することに注意すべきである。他の方法として、ゼロフレームが受信される場合に、単に補間及び／又はフェーディングなどの処理を行なうこともある。

図５〜図７を要約すると、これらの実施形態は、制御されたランダム発生器１６４を適用してＴＣＸ係数を励起することが技術的に可能であることを示しており、ＴＣＸ係数は、ＭＤＣＴなどにおいては実数値であってよく、ＦＦＴなどにおいては複素値であってもよい。フィルタバンクによって一般的に達成される係数のグループに対してランダム発生器１６４を適用することも、好都合であるかもしれない。

ランダム発生器１６４は、好ましくは、ノイズのタイプが可能な限り近くなるようにモデル化するよう制御される。これは、目的とするノイズが事前に知られている場合に達成できる。幾つかのアプリケーションはこれを可能にすることができる。対象者がさまざまなタイプのノイズに遭遇しうる多くの現実的なアプリケーションにおいては、図５〜図７に示す適応的な方法が必要とされる。そのため、簡単にはｇ＝ｆ（ｘ）と定義することができる適応型パラメータランダム発生器１６４が使用され、ここでｘ＝（ｘ₁，ｘ₂，・・・）は、パラメータ推定器１４８によってそれぞれ提供されるランダム発生器パラメータの組である。

パラメトリック・ランダム発生器を適応型とするために、パラメータ推定器１４８はランダム発生器を適切に制御する。データが統計的に不充分であると判断される場合を補償するために、バイアス補償を備えることができる。このバイアス補償は、過去のフレームに基づいて統計的にマッチしたノイズのモデルを生成するために行なわれ、推定されたパラメータを常に更新する。ランダム発生器１６４がガウスノイズを生成する場合を想定する。この場合には、例えば、平均および分散のパラメータだけが必要であってもよく、さらにバイアスを計算してそれらパラメータに適用することが可能である。さらに進歩した方法は、あらゆるタイプのノイズ及び分布を取り扱うことができ、パラメータが必ずしも分布のモーメントである必要がない。

非定常なノイズは定常性の測度を有する必要があり、したがって比較的適応型ではないパラメトリック・ランダム発生器を使用することができる。測定器１４８によって決定される定常性の測度を、例えばＩｔａｋｕｒａの距離測度、Ｋｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒの距離測度、などの種々の方法を使用して入力信号のスペクトル形状から導出することができる。

図１に符号３８によって示すようなＳＩＤフレームを介して送信されるノイズ更新の不連続な性質に対処するために、ノイズのエネルギー及びスペクトル形状などの追加の情報が、通常は送信される。この情報は、復号器において、不活性期間内での不連続の期間においても滑らかな遷移を有するノイズを生成するために有用である。最後に、種々の平滑化またはフィルタ処理技術がコンフォートノイズ・エミュレータの品質向上を助けるために適用可能である。

既に上述したように、図５及び図６を一方とし、図７を他方とすれば、これらは異なる筋書きに属する。図５及び図６に対応する１つの筋書きにおいては、パラメトリック背景ノイズ推定が処理済みの入力信号に基づいて符号器において実行され、その後にパラメータが復号器へと伝送される。図７は、活性期間中に復号器が過去に受信したフレームに基づいてパラメトリック背景ノイズ推定を担当することができる別の筋書きに相当する。ボイス／信号活性検出器またはノイズ推定器を使用することは、例えば活性的なスピーチの最中でもノイズ成分の抽出を助けるために有益となりうる。

図５〜図７に示した筋書きの中では、伝送されるビットレートが比較的低くなるという理由で、図７の筋書きが好ましい場合がある。しかしながら、図５及び図６の筋書きは、より正確なノイズ推定が得られるという利点を有する。

上述の実施形態のすべては、スペクトル帯域複製（ＳＢＲ）などの帯域幅拡張の技術と組み合わせることが可能であるが、帯域幅の拡張技術全般を使用することができる。

これを説明するために、図８を参照する。図８は、入力信号の高周波部分についてパラメトリック符号化を実行するように図１及び図５の符号器を拡張できるモジュールを示す。特に、図８によれば、時間ドメインの入力オーディオ信号が、図８に示すＱＭＦ分析フィルタバンクなどの分析フィルタバンク２００によってスペクトル的に分解される。次いで、図１及び図５の上述の実施形態が、フィルタバンク２００によって生成されたスペクトル分解の低周波部分にのみ適用される。高周波部分についての情報を復号器側へと伝えるために、パラメトリック符号化も使用される。この目的のため、活性期間中に通常のスペクトル帯域複製符号器２０２が高周波部分をパラメータ化し、その高周波部分についての情報をスペクトル帯域複製情報の形態でデータストリーム内で復号側へと供給するよう構成される。スイッチ２０４をＱＭＦフィルタバンク２００の出力とスペクトル帯域複製符号器２０２の入力との間に設け、フィルタバンク２００の出力と符号器２０２に並列に接続されたスペクトル帯域複製符号器２０６の入力とを接続して、不活性期間中に帯域幅拡張を担当させてもよい。即ちスイッチ２０４を、図１のスイッチ２２と同様に制御することができる。さらに詳しく後述するように、スペクトル帯域複製符号器モジュール２０６は、スペクトル帯域複製符号器２０２と同様に動作するよう構成されてもよい。つまり両者とも、高周波部分、即ち例えば符号化エンジンによるコア符号化が加えられない残りの高周波部分における入力オーディオ信号のスペクトル包絡をパラメータ化するよう構成されてもよい。しかしながら、スペクトル帯域複製符号器モジュール２０６は、スペクトル包絡をパラメータ化してデータストリーム内で伝送する最小限の時間／周波数分解能を使用できる一方で、スペクトル帯域複製符号器２０２は、オーディオ信号内での過渡の発生に基づくなどのように、入力オーディオ信号に時間／周波数分解能を適合させるよう構成されてもよい。

図９は、帯域幅拡張符号化モジュール２０６について可能性のある実施例を示す。時間／周波数グリッド設定器２０８、エネルギー計算器２１０、及びエネルギー符号器２１２が、符号化モジュール２０６の入力と出力との間に互いに直列に接続されている。時間／周波数グリッド設定器２０８は、高周波部分の包絡を決定する時間／周波数分解能を設定するよう構成されてもよい。例えば、最小の許容時間／周波数分解能が、符号化モジュール２０６によって継続的に使用される。次いで、エネルギー計算器２１０は、時間／周波数分解能に対応する時間／周波数タイルにて高周波部分内においてフィルタバンク２００によって出力されたスペクトログラムの高周波部分のエネルギーを決定してもよく、エネルギー符号器２１２は、エントロピー符号化を使用することで、例えばＳＩＤフレーム３８などのＳＩＤフレーム内で、不活性期間中に計算器２１０によって計算されたエネルギーをデータストリーム４０（図１を参照）内へと挿入してもよい。

図８及び図９の実施形態に従って生成された帯域幅拡張情報を、図３、図４及び図７など、上述したいずれかの実施形態による復号器の使用との関連においても使用できることに注意すべきである。

すなわち、図８及び図９は、図１〜図７に関連して説明したコンフォートノイズの生成を、スペクトル帯域複製に関連して使用することもできることを明らかにしている。例えば、上述のオーディオ符号器および復号器は種々の作動モードで作動することができ、そのうちの一部はスペクトル帯域複製を含んでもよく、他の一部はスペクトル帯域複製を含まなくてよい。例えばスーパー広帯域作動モードがスペクトル帯域複製を含んでいてもよい。いずれの場合も、コンフォートノイズの生成の例を示している図１〜図７の上述の実施形態を、図８及び図９に関して説明した方法で帯域幅拡張の技術と組み合わせることができる。不活性期間中に帯域幅拡張を担当するスペクトル帯域複製符号化モジュール２０６は、きわめて低い時間分解能および周波数分解能で作動するように構成されてもよい。通常のスペクトル帯域複製処理と比較して、符号器２０６は異なる周波数分解能で作動することができ、その場合は極めて低い周波数分解能を有する追加的な周波数帯域テーブルとＩＩＲ平滑化フィルタとが復号器内で全てのコンフォートノイズ生成スケールファクタ帯域について必要となり、不活性期間中に包絡調整器内で適用されるエネルギースケールファクタを補間する。上述のように、時間／周波数グリッドは可能性のある最低の時間分解能に対応するよう構成されてもよい。

すなわち、無音期または活性期のいずれが存在するかに依存して、帯域幅拡張符号化はＱＭＦドメインまたはスペクトルドメインにおいて異なるように実行されてもよい。活性期すなわち活性フレームの期間中は、通常のＳＢＲ符号化が符号器２０２によって実行され、結果としてデータストリーム４４及び１０２のそれぞれに付随する通常のＳＢＲデータストリームがもたらされる。不活性期またはＳＩＤフレームに分類されるフレームの期間中は、エネルギースケールファクタとして表わされるスペクトル包絡についての情報だけが、きわめて低い周波数分解能および例えば可能性のある最低の時間分解能を呈する時間／周波数グリッドの適用によって抽出されてもよい。結果として得られるスケールファクタは、符号器２１２によって効率的に符号化されてデータストリームへと書き込まれてもよい。ゼロフレームまたは中断期３６の期間中には、いかなるサイド情報もスペクトル帯域複製符号化モジュール２０６によってデータストリームに書き込まれなくてよく、従って計算器２１０によってエネルギーの計算を実行する必要はない。

図８との整合性を持ちながら、図１０は、図３及び図７の復号器の実施形態を帯域幅拡張符号化技術へと拡張する場合の可能性のある拡張例を示す。より正確には、図１０は本願によるオーディオ復号器について可能性のある実施形態を示す。コア復号器９２は、コンフォートノイズ発生器と並列に接続されており、コンフォートノイズ発生器は参照符号２２０によって示され、例えばノイズ生成モジュール１６２又は図３のモジュール９０、９４、及び９６を含んでいる。スイッチ２２２はデータストリーム１０４及び３０のフレームを、フレームタイプに応じ、すなわち活性期に関係もしくは属するフレームであるか、又はＳＩＤフレームもしくは中断期に関するゼロフレームなどの不活性期に関係もしくは属するフレームであるかに応じて、それぞれコア復号器９２またはコンフォートノイズ発生器２２０へと分配するものとして示されている。コア復号器９２及びコンフォートノイズ発生器２２０の出力はスペクトル帯域幅拡張復号器２２４の入力へと接続され、スペクトル帯域幅拡張復号器２２４の出力は復元されたオーディオ信号を表している。

図１１は帯域幅拡張復号器２２４の可能性のある構成のさらに詳細な実施形態を示す。

図１１に示すように、図１１の実施形態に係る帯域幅拡張復号器２２４は、復元すべきオーディオ信号全体の内の低周波部分の時間ドメインの復元信号を受け取るための入力２２６を備えている。入力２２６が、帯域幅拡張復号器２２４をコア復号器９２及びコンフォートノイズ発生器２２０の出力に接続しており、入力２２６における時間ドメイン入力は、ノイズ及び有用な成分の両方を含んでいるオーディオ信号の復元された低周波部分、又は活性期同士間の時間を埋めるよう生成されたコンフォートノイズのいずれかであってもよい。

図１１の実施形態によれば、帯域幅拡張復号器２２４はスペクトル帯域複製を実行するよう構成されているため、復号器２２４は以下ではＳＢＲ復号器と呼ばれる。しかしながら、図８〜図１０に関しては、これらの実施形態がスペクトル帯域複製に限らないことを強調しておく。むしろ、帯域幅拡張のより一般的な別の手法をこれらの実施形態に関して同様に使用することが可能である。

さらに、図１１のＳＢＲ復号器２２４は、活性期または不活性期のいずれかにおける最終的な復元オーディオ信号を出力するための時間ドメイン出力２２８を備えている。ＳＢＲ復号器２２４は、入力２２６と出力２２８との間に、図１１に示すようなＱＭＦ分析フィルタバンクなどの分析フィルタバンクであってもよいスペクトル分解器２３０と、ＨＦ発生器２３２と、包絡調整器２３４と、図１１に示すようなＱＭＦ合成フィルタバンクなどの合成フィルタバンクとして具現化できるスペクトル−時間ドメイン変換器２３６とを、上記言及の順序で直列に接続して備えている。

モジュール２３０〜２３６は以下のように作動する。スペクトル分解器２３０は時間ドメイン入力信号をスペクトル的に分解し、復元された低周波部分を得る。ＨＦ発生器２３２は復元された低周波部分に基づいて高周波複製部分を生成し、包絡調整器２３４は、未だ説明していないが図１１において包絡調整器２３４の上方に示すモジュールによってもたらされ、ＳＢＲデータストリーム部分を介して運ばれる高周波部分のスペクトル包絡の表現を使用して、高周波複製をスペクトル的に形成または成形する。このように包絡調整器２３４は、伝送された高周波包絡の時間／周波数グリッド表現に従って高周波複製部分の包絡を調整し、こうして得られた高周波部分を、全周波数スペクトル（即ちスペクトル的に形成された高周波部分および復元された低周波部分）を出力２２８における時間ドメインの復元信号へと変換するために、スペクトル−時間ドメイン変換器２３６へと送る。

図８〜図１０に関して既に上述したように、高周波部分のスペクトル包絡をエネルギースケールファクタの形態でデータストリームの中で運ぶことができ、ＳＢＲ復号器２２４は、この高周波部分のスペクトル包絡についての情報を受け取るための入力２３８を備えている。図１１に示すとおり、活性期の場合、即ち活性期間中にデータストリーム内に存在する活性フレームの場合には、各入力２３８を、フレーム毎にスイッチ２４０を介して包絡調整器２３４のスペクトル包絡入力へと直接接続することができる。しかしながら、ＳＢＲ復号器２２４は、スケールファクタ結合器２４２と、スケールファクタデータ保存部２４４と、ＩＩＲフィルタ処理ユニットなどの補間フィルタ処理ユニット２４６と、ゲイン調整器２４８とをさらに備える。モジュール２４２、２４４、２４６及び２４８は、入力２３８と包絡調整器２３４のスペクトル包絡入力との間に互いに直列に接続され、スイッチ２４０がゲイン調整器２４８と包絡調整器２３４との間に接続され、さらなるスイッチ２５０がスケールファクタデータ保存部２４４とフィルタ処理ユニット２４６との間に接続されている。スイッチ２５０は、このスケールファクタデータ保存部２４４を、フィルタ処理ユニット２４６の入力またはスケールファクタデータ復元部２５２のいずれかに接続するよう構成されている。不活性期間中のＳＩＤフレームの場合（さらに任意ではあるが、高周波部分のスペクトル包絡について非常に粗い表現が容認される活性フレームの場合）、スイッチ２５０及び２４０は、一連のモジュール２４２〜２４８を入力２３８と包絡調整器２３４との間に接続する。スケールファクタ結合器２４２は、データストリームを介して伝送された高周波部分のスペクトル包絡の周波数分解能を、包絡調整器２３４が受け取りを期待する分解能へと調節し、結果として得られたスペクトル包絡をスケールファクタデータ保存部２４４が次の更新まで保存する。フィルタ処理ユニット２４６は、時間及び／又はスペクトル次元においてスペクトル包絡をフィルタ処理し、ゲイン調整器２４８は、高周波部分のスペクトル包絡のゲインを調節する。この目的のため、ゲイン調整器は、ユニット２４６によって得られた包絡線データを、ＱＭＦフィルタバンク出力から導出できる実際の包絡線と結合することができる。スケールファクタデータ復元部２５２は、中断期間内またはゼロフレーム内におけるスペクトル包絡を表わすスケールファクタデータを、スケールファクタデータ保存部２４４によって保存された通りに復元する。

したがって、復号器側で以下の処理を実行することができる。活性フレーム内または活性期間中では、通常のスペクトル帯域複製処理が適用されてもよい。これらの活性期間中において、典型的にはコンフォートノイズ生成処理と比べてより多数のスケールファクタ帯域に対して利用可能なデータストリームからのスケールファクタが、スケールファクタ結合器２４２によってコンフォートノイズ生成の周波数分解能へと変換される。スケールファクタ結合器は、異なる周波数帯域テーブルの共通の周波数帯域境界を利用することによって、高周波数分解能のスケールファクタを結合させ、その結果、ＣＮＧに適合する数のスケールファクタを得る。結果として得られたスケールファクタ結合ユニット２４２の出力におけるスケールファクタ値は、ゼロフレーム内での再使用および復元部２５２による後の復元のために保存され、次いでＣＮＧ動作モードのためのフィルタ処理ユニット２４６の更新に使用される。ＳＩＤフレーム内では、データストリームからスケールファクタ情報を抽出する修正済みＳＢＲデータストリーム読み取り器が適用される。ＳＢＲ処理の残りの構成は所定の値で初期化され、時間／周波数グリッドは、符号器において使用されたものと同じ時間／周波数分解能へと初期化される。抽出されたスケールファクタはフィルタ処理ユニット２４６へと送られ、このフィルタ処理ユニット２４６においては、例えば１つのＩＩＲ平滑化フィルタが、１つの低分解能スケールファクタ帯域についてのエネルギーの時間的推移を補間する。ゼロフレームの場合には、いかなるペイロードもビットストリームから読み取られず、時間／周波数グリッドを含むＳＢＲの構成は、ＳＩＤフレームにおいて用いられたものと同じである。ゼロフレームにおいては、フィルタ処理ユニット２４６の平滑化フィルタに対し、スケールファクタ結合ユニット２４２から出力されたスケールファクタ値であって、有効なスケールファクタ情報を含む最後のフレーム内に保存されていた値が供給される。現在のフレームが不活性フレームまたはＳＩＤフレームに分類される場合には、コンフォートノイズがＴＣＸドメインにおいて生成され、時間ドメインへと戻し変換される。次いで、コンフォートノイズを含む時間ドメインの信号がＳＢＲモジュール２２４のＱＭＦ分析フィルタバンク２３０へと送られる。ＱＭＦドメインにおいて、コンフォートノイズの帯域幅拡張がＨＦ発生器２３２内におけるコピーアップ転置によって実行され、最終的に、人工的に生成された高周波部分のスペクトル包絡は、包絡調整器２３４内でのエネルギースケールファクタ情報の適用によって調整される。これらのエネルギースケールファクタは、フィルタ処理ユニット２４６の出力によって得られ、包絡調整器２３４における適用に先立ってゲイン調整ユニット２４８によって調節される。このゲイン調整ユニット２４８内では、信号の低周波部分と高周波成分との間の境界における大きなエネルギー差を補償するために、スケールファクタ調整のためのゲイン値が計算されて適用される。

上述の実施形態は、図１２および図１３の実施形態に共通に使用される。図１２は本願の実施形態に係るオーディオ符号器の実施形態を示しており、図１３はオーディオ復号器の実施形態を示している。これらの図に関して開示される詳細は、既に述べた構成要素へと個別に、同様に適用可能である。

図１２のオーディオ符号器は、入力オーディオ信号をスペクトル的に分解するためのＱＭＦ分析フィルタバンク２００を備えている。検出器２７０及びノイズ推定器２６２がＱＭＦ分析フィルタバンク２００の出力と接続されている。ノイズ推定器２６２が背景ノイズ推定器１２の機能を担当する。活性期間中に、ＱＭＦ分析フィルタバンクからのＱＭＦスペクトルは、スペクトル帯域複製パラメータ推定器２６０及び後続の何らかのＳＢＲ符号器２６４を一方とし、ＱＭＦ合成フィルタバンク２７２及び後続のコア符号器１４の連鎖を他方とする並列接続によって処理される。並列な両方の経路が、ビットストリーム・パッケージャ２６６のそれぞれの入力へと接続されている。ＳＩＤフレームの出力の場合には、ＳＩＤフレーム符号器２７４がノイズ推定器２６２からのデータを受け取り、ＳＩＤフレームをビットストリーム・パッケージャ２６６へと出力する。

推定器２６０によって出力されるスペクトル帯域幅拡張データは、ＱＭＦ分析フィルタバンク２００によって出力されるスペクトログラムまたはスペクトルの高周波部分のスペクトル包絡を表わし、後にＳＢＲ符号器２６４によってエントロピー符号化などによって符号化される。データストリーム・マルチプレクサ２６６は、活性期におけるスペクトル帯域幅拡張データをマルチプレクサ２６６の出力２６８から出力されるデータストリームへと挿入する。

検出器２７０は現時点において活性期または不活性期のどちらの状態であるかを検出する。この検出に基づき、活性フレーム、ＳＩＤフレーム、又はゼロフレーム即ち不活性フレームが現時点において出力されることとなる。換言すると、モジュール２７０は活性期または不活性期のどちらの状態であるかを判断し、不活性期である場合には、ＳＩＤフレームを出力すべきであるか否かを判断する。この判断は、図１２において、ゼロフレームについてはＩを使用し、活性フレームについてはＡを使用し、ＳＩＤフレームについてはＳを使用して示す。活性期が存在する入力信号の時間区間に相当するＡフレームは、ＱＭＦ合成フィルタバンク２７２及びコア符号器１４の連鎖にも送られる。ＱＭＦ合成フィルタバンク２７２は、ＱＭＦ分析フィルタバンク２００と比べてより低い周波数分解能を有し、又はより少数のＱＭＦサブバンドで作動し、そのサブバンド数の比によって入力信号の活性フレーム部分を時間ドメインへ再変換する際に対応するダウンサンプリングレートを達成する。特に、ＱＭＦ合成フィルタバンク２７２は、活性フレーム内のＱＭＦ分析フィルタバンク・スペクトログラムの低周波部分または低周波サブバンドに適用される。したがって、コア符号器１４は、ＱＭＦ分析フィルタバンク２００へと入力された元の入力信号の低周波部分だけをカバーする入力信号のダウンサンプリングされたバージョンを受け取る。残りの高周波部分は、モジュール２６０及び２６４によってパラメトリック的に符号化される。

ＳＩＤフレーム（又はより正確には、ＳＩＤフレームによって運ばれる情報）は、例えば図５のモジュール１５２の機能を担当するＳＩＤ符号器２７４へと送られる。唯一の相違点は、モジュール２６２がＬＰＣ成形を伴わずに直接的に入力信号のスペクトルに対して作動する点である。さらに、ＱＭＦ分析フィルタ処理が使用されるので、モジュール２６２の動作は、コア符号器によって選択されたフレームのモードとは無関係であり、又は任意のスペクトル帯域幅拡張が適用されるか否かとは無関係である。図５のモジュール１４８及び１５０の作動をモジュール２７４内で実行してもよい。

マルチプレクサ２６６は、それぞれの符号化済みの情報をデータストリーム内へと多重化して出力２６８から出力する。

図１３のオーディオ復号器は、図１２の符号器によって出力されたデータストリームに対して作動することができる。すなわち、モジュール２８０はデータストリームを受け取り、データストリーム内のフレームを例えば活性フレーム、ＳＩＤフレーム、及びゼロフレーム（即ちデータストリーム内にフレームが存在しない）へと分類するよう構成される。活性フレームは、コア復号器９２、ＱＭＦ分析フィルタバンク２８２、及びスペクトル帯域幅拡張モジュール２８４の連鎖へと送られる。任意ではあるが、ノイズ推定器２８６がＱＭＦ分析フィルタバンクの出力へと接続される。ノイズ推定器２８６は、このノイズ推定器が励起スペクトルよりもむしろ非成形のスペクトルに対して作動する点を除き、例えば図３の背景ノイズ推定器９０と同様に動作でき、図３の背景ノイズ推定器９０の機能を担うことができる。モジュール９２、２８２及び２８４の連鎖は、ＱＭＦ合成フィルタバンク２８８の入力へと接続されている。ＳＩＤフレームは、例えば図３の背景ノイズ発生器９６の機能を担うＳＩＤフレーム復号器２９０へと送られる。コンフォートノイズ生成パラメータ更新部２９２に対し、復号器２９０及びノイズ推定器２８６からの情報が提供され、この更新部２９２は、図３のパラメトリック・ランダム発生器の機能を担当するランダム発生器２９４に影響を与える。不活性又はゼロフレームは欠落しているため、どこにも送られる必要はないが、しかしそれらのフレームはランダム発生器２９４の別のランダム発生サイクルをトリガーする。ランダム発生器２９４の出力がＱＭＦ合成フィルタバンク２８８へと接続され、ＱＭＦ合成フィルタバンク２８８の出力は無音および活性期の復元オーディオ信号を時間ドメインで表している。

したがって、活性期間中に、コア復号器９２がノイズ及び有用な信号成分の両方を含むオーディオ信号の低周波部分を復元する。ＱＭＦ分析フィルタバンク２８２は復元された信号をスペクトル的に分解し、スペクトル帯域幅拡張モジュール２８４は、データストリーム内および活性フレーム内のそれぞれのスペクトル帯域幅拡張情報を使用して、高周波部分を追加する。ノイズ推定器２８６が存在する場合には、コア復号器によって復元されたスペクトル部分、即ち低周波部分に基づいて、ノイズ推定を実行する。不活性期間においては、ＳＩＤフレームが、符号器側においてノイズ推定２６２によって導出された背景ノイズ推定をパラメータ的に表わす情報を運んでいる。パラメータ更新部２９２は、主にパラメトリック背景ノイズ推定を更新するために、その符号器情報を使用してもよく、ＳＩＤフレームに関する伝送損失がある場合にはノイズ推定器２８６から提供される情報を主に代替位置として使用してもよい。ＱＭＦ合成フィルタバンク２８８は、活性期内にスペクトル帯域複製モジュール２８４によって出力されたスペクトル的に分解された信号とコンフォートノイズの生成された信号スペクトルとを時間ドメインに変換する。このように、図１２及び図１３は、ＱＭＦフィルタバンクの枠組みをＱＭＦベースのコンフォートノイズ生成のための基礎として使用できることを明らかにしている。ＱＭＦの枠組みは、符号器内において入力信号をコア符号器のサンプリングレートへとダウンサンプルするための好都合な手法、又は復号器側においてはＱＭＦ合成フィルタバンク２８８を使用してコア復号器９２のコア復号器出力信号をアップサンプルするための好都合な手法を提供する。同時に、ＱＭＦの枠組みは、コア符号器１４及びコア復号器モジュール９２によって処理されない信号の高周波成分を抽出および処理するために、帯域幅拡張と組み合わせて使用されてもよい。したがって、ＱＭＦフィルタバンクは、種々の信号処理ツールのための共通の枠組みを提供することができる。図１２及び図１３の実施形態によれば、コンフォートノイズ生成がこの枠組みへと成功裏に組み込まれる。

特に、図１２及び図１３の実施形態によれば、例えばＱＭＦ合成フィルタバンク２８８の各ＱＭＦ係数の実数部および虚数部を励起するためにランダム発生器２９４を適用することにより、ＱＭＦ分析の後でかつＱＭＦ合成の前に復号器側においてコンフォートノイズを生成できることを見て取ることができる。ランダムシーケンスの振幅は、例えば生成されたコンフォートノイズのスペクトルが実際の入力背景ノイズ信号のスペクトルと類似するように、各ＱＭＦ帯域において個別に計算される。これは、符号化側で各ＱＭＦ帯域においてＱＭＦ分析の後にノイズ推定器を使用することで達成可能である。次いで、これらのパラメータはＳＩＤフレームを介して送信されて、復号器側で各ＱＭＦ帯域に適用されるランダムシーケンスの振幅を更新するために使用されてもよい。

理想的には、符号器側において適用されるノイズ推定２６２は、不活性期（即ちノイズのみ）及び活性期（典型的にはノイズを含むスピーチを含む）の両方の期間中において作動可能とすべきであり、その結果、コンフォートノイズのパラメータは各活性期の終点において速やかに更新可能となることに注意すべきである。加えて、ノイズ推定は復号器側においても同様に使用可能である。ノイズだけのフレームは、ＤＴＸベースの符号化／復号化システムにおいては廃棄されるため、復号器側でのノイズ推定は、ノイズを含むスピーチコンテンツについて好都合に作動することができる。符号器側に加えて復号器側においてもノイズ推定を実行する利点は、符号器から復号器へのパケットの伝送が活性期間に続く最初のＳＩＤフレームに関して失敗した場合にも、コンフォートノイズのスペクトル形状を更新できる点にある。

ノイズ推定は、背景ノイズのスペクトルコンテンツの変動に正確かつ迅速に追従できなければならず、理想的には、上述のように活性および不活性フレームの両方の期間中において実行できなければならない。これらの目標を達成するための１つの方法は、非特許文献２において提案されているように、有限長のスライドする窓を使用してパワースペクトルによって各帯域において取られる極小値を追跡することである。この背後にある考え方は、ノイズを含むスピーチスペクトルのパワーが、例えば単語または音節の間で背景ノイズのパワーに頻繁にかき消されることである。このとき、パワースペクトルの極小値を追跡することで、スピーチ活性中であっても、各帯域におけるノイズフロアの推定が提供される。しかしながら、これらのノイズフロアは、一般に少なく推定される。さらには、スペクトルパワーの素速い変動、特に急激なエネルギーの増加を捕えることができない。

それでもなお、各帯域において上述のように計算されるノイズフロアは、ノイズ推定の第２段階を適用するための極めて有用なサイド情報を提供する。実際、ノイズを含むスペクトルのパワーは不活性期間中には推定されたノイズフロアに近くなると予想できる一方で、そのスペクトルのパワーは活性期間中にはそのノイズフロアをはるかに上回ることが予想できる。従って、各帯域において別々に計算されたノイズフロアを、各帯域についての大まかな活性検出器として使用することができる。この知見に基づき、背景ノイズのパワーを、

のようにパワースペクトルの再帰的に平滑化されたバージョンとして容易に推定することができ、ここでσ_x ²（ｍ，ｋ）はフレームｍおよび帯域ｋにおける入力信号のパワースペクトル密度を示し、σ_N ²（ｍ，ｋ）はノイズパワーの推定を示し、β（ｍ，ｋ）は、各帯域および各フレームの平滑化の量を個別に制御する忘却因子（必然的に０と１との間である）である。活性状態を反映するためにノイズフロア情報を使用する場合、その情報は不活性期間中（即ちパワースペクトルがノイズフロアに近いとき）には小さな値をとるはずである一方で、活性フレームの期間中には、より強い（理想的には、σ_N ²（ｍ，ｋ）を一定に保つような）平滑化を適用するために大きな値が選択されるべきである。これを達成するために、

のように忘却因子を計算することによって、軟判定を行なうことができ、ここでσ_NF ²はノイズフロアのパワーであり、ａは制御パラメータである。ａについての値が大きいほど忘却因子が大きくなり、したがって全体としてのさらなる平滑化が引き起こされる。

以上のように、人工ノイズが変換ドメインにおいて復号器側で生成されるコンフォートノイズ生成（ＣＮＧ）の考え方を説明した。上述の実施形態は、時間ドメイン信号を複数のスペクトル帯域へと分解する、実質的に任意の種類のスペクトル−時間分析ツール（即ち変換またはフィルタバンク）と組み合わせて適用することができる。

スペクトルドメイン単独の使用が、背景ノイズのより正確な推定をもたらし、活性期間中に推定を連続的に更新する上述の可能性を使用することなく利点を達成することに、再度注目すべきである。従って、幾つかのさらなる実施形態は、パラメトリック背景ノイズ推定の連続的な更新というこの特徴を使用しない点で、上述の実施形態から相違する。これら代替的な実施形態は、スペクトルドメインを使用してノイズ推定をパラメータ的に決定する。

従って、さらなる実施形態においては、背景ノイズ推定器１２は入力オーディオ信号のスペクトル分解表現に基づいてパラメトリック背景ノイズ推定を決定するよう構成され、そのパラメトリック背景ノイズ推定が入力オーディオ信号の背景ノイズのスペクトル包絡をスペクトル的に表わすよう構成されてもよい。この決定は不活性期に入るとすぐに開始することができ、又は上述の利点を共通に使用することができ、この決定は活性期間中に連続的に実行して、不活性期が開始するとすぐに使用できるように推定を更新してもよい。符号器１４は活性期間中に入力オーディオ信号をデータストリーム内へと符号化し、検出器１６は活性期に続く不活性期の開始を入力信号に基づいて検出するよう構成されてもよい。符号器はさらに、パラメトリック背景ノイズ推定をデータストリーム内へと符号化するよう構成されてもよい。背景ノイズ推定器はパラメトリック背景ノイズ推定の決定を活性期内に実行するよう構成されてもよく、このとき入力オーディオ信号のスペクトル分解表現内でのノイズ成分と有用な信号成分との間を区別して、ノイズ成分だけからパラメトリック背景ノイズ推定を決定するよう構成されてもよい。別の実施形態においては、符号器は、入力オーディオ信号の符号化において、入力オーディオ信号を線形予測係数および励起信号へと予測符号化し、励起信号のスペクトル分解を変換符号化し、線形予測係数をデータストリーム内へと符号化するよう構成されてもよく、このとき背景ノイズ推定器は、励起信号のスペクトル分解を、パラメトリック背景ノイズ推定の決定における入力オーディオ信号のスペクトル分解表現として使用するよう構成されてもよい。

さらに、背景ノイズ推定器は、励起信号のスペクトル表現において極小値を識別し、識別された極小値の間の補間を支持点として使用して入力オーディオ信号の背景ノイズのスペクトル包絡を推定するよう構成されてもよい。

さらなる実施形態においては、オーディオ復号器がデータストリームからオーディオ信号を復元すべくデータストリームの復号を行ない、データストリームは少なくとも１つの活性期とそれに続く１つの不活性期とを含んでいる。オーディオ復号器は背景ノイズ推定器９０を備えており、その推定器は、入力オーディオ信号の背景ノイズのスペクトル包絡をスペクトル的に表わすパラメトリック背景ノイズ推定を、データストリームから得られる入力オーディオ信号のスペクトル分解表現に基づいて決定するように構成されてもよい。復号器９２を、活性期間中にデータストリームからオーディオ信号を復元するように構成することができる。不活性期間中にパラメトリック背景ノイズ推定を用いてパラメトリック・ランダム発生器を制御することによって、パラメトリック・ランダム発生器９４および背景ノイズ発生器９６を、不活性期間中のオーディオ信号を復元するよう構成することができる。

別の実施形態によれば、背景ノイズ推定器を、活性期においてパラメトリック背景ノイズ推定の決定を実行するように構成することができ、入力オーディオ信号のスペクトル分解表現内のノイズ成分と有用な信号成分との間の区別により、ノイズ成分だけからパラメトリック背景ノイズ推定を決定するように構成することができる。

さらなる実施形態においては、復号器を、データストリームからのオーディオ信号の復元において、データストリーム内へと変換符号化された励起信号のスペクトル分解の成形を、やはりデータへと符号化された線形予測係数に従って適用するように構成することができる。背景ノイズ推定器を、パラメトリック背景ノイズ推定の決定において入力オーディオ信号のスペクトル分解表現として励起信号のスペクトル分解を使用するようにさらに構成することができる。

さらなる実施形態によれば、背景ノイズ推定器は、励起信号のスペクトル表現において極小値を識別し、識別された極小値の間の補間を支持点として使用して入力オーディオ信号の背景ノイズのスペクトル包絡を推定するよう構成されてもよい。

このように、上述の実施形態では、基本的なコンフォートノイズ発生器が残余をモデル化するためにランダムパルスを使用するＴＣＸベースのＣＮＧを説明した。

これまで装置を説明する文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明でもあることは明らかであり、そのブロック又は装置が方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。方法ステップの幾つか又は全ては、例えばマイクロプロセッサ、プログラム可能なコンピュータ、又は電子回路等のハードウエアにより（を使用して）実行されても良い。幾つかの実施形態においては、最も重要な方法ステップの内の１つ又は複数のステップはそのような装置によって実行されても良い。

所定の構成要件にも依るが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する（又は協働可能な）、デジタル記憶媒体、例えばフレキシブルディスク，ＤＶＤ，ブルーレイ，ＣＤ，ＲＯＭ，ＰＲＯＭ，ＥＰＲＯＭ，ＥＥＰＲＯＭ，フラッシュメモリなどを使用して実行することができる。従って、そのデジタル記憶媒体はコンピュータ読み取り可能であっても良い。

本発明に従う幾つかの実施形態は、上述した方法の１つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含んでも良い。

一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、このプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動する。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されても良い。

本発明の他の実施形態は、上述した方法の１つを実行するための、機械読み取り可能なキャリアに記憶されたコンピュータプログラムを含む。

換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

本発明の他の実施形態は、上述した方法の１つを実行するために記録されたコンピュータプログラムを含む、データキャリア（又はデジタル記憶媒体又はコンピュータ読み取り可能な媒体）である。データキャリア、デジタル記憶媒体、または記録された媒体は、典型的には有形であり、及び／又は一時的でない。

本発明の他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットを介するデータ通信接続を介して伝送されるよう構成されても良い。

他の実施形態は、上述した方法の１つを実行するように構成又は適用された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。

他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

本発明によるさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを受信機へと（例えば電子的または光学的に）転送するよう構成された装置またはシステムを含む。受信機は、例えばコンピュータ、携帯デバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えばコンピュータプログラムを受信機へと転送するためのファイルサーバを備えることができる。

幾つかの実施形態においては、（例えば書換え可能ゲートアレイのような）プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の１つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。

上述した実施形態は、本発明の原理を単に例示的に示したにすぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。

Claims

入力オーディオ信号のスペクトル分解表現に基づき、該入力オーディオ信号の背景ノイズをパラメータ化することにより、前記入力オーディオ信号の背景ノイズのスペクトル包絡をスペクトル的に表わすパラメトリック背景ノイズ推定を決定する背景ノイズ推定器（１２）と、
活性期の期間中に前記入力オーディオ信号をデータストリームへと符号化するための符号器（１４）と、
前記入力オーディオ信号に基づいて前記活性期に続く不活性期の開始を検出する検出器（１６）と、を備えたオーディオ符号器であって、
前記オーディオ符号器は、前記不活性期において前記パラメトリック背景ノイズ推定を前記データストリームへと符号化するように構成されており、
前記背景ノイズ推定器は、複素値フィルタバンクドメインを使用して、前記入力オーディオ信号のスペクトル分解表現における極小値を識別し、前記識別された極小値の間の補間を使用して前記入力オーディオ信号の背景ノイズのスペクトル包絡を推定するように構成されており、
前記符号器は、前記入力オーディオ信号の符号化において、前記入力オーディオ信号の前記スペクトル分解表現の低周波部分の符号化に予測及び／又は変換符号化を使用するとともに、前記入力オーディオ信号の前記スペクトル分解表現の高周波部分のスペクトル包絡をパラメトリック符号化を使用して符号化するか、又は前記入力オーディオ信号の前記高周波部分を符号化しないかを選択するように構成されている、
オーディオ符号器。
前記背景ノイズ推定器は、前記活性期において、前記入力オーディオ信号の前記スペクトル分解表現内のノイズ成分と有用な信号成分との間の区別を行ない、前記ノイズ成分だけから前記パラメトリック背景ノイズ推定を決定することで、前記パラメトリック背景ノイズ推定の決定を実行する、請求項１に記載のオーディオ符号器。
前記符号器は、前記入力オーディオ信号の符号化の際に、前記入力オーディオ信号の前記スペクトル分解表現の低周波部分の符号化に予測及び／又は変換符号化を使用し、前記入力オーディオ信号の前記スペクトル分解表現の高周波部分のスペクトル包絡の符号化にパラメトリック符号化を使用するように構成されている、請求項１又は２に記載のオーディオ符号器。
前記符号器は、不活性期において、前記予測及び／又は変換符号化と前記パラメトリック符号化とを中断するか、あるいは予測及び／又は変換符号化を中断し、かつ前記入力オーディオ信号の前記スペクトル分解表現の前記高周波部分のスペクトル包絡のパラメトリック符号化を、前記活性期における前記パラメトリック符号化の使用と比べて低い時間／周波数分解能で実行するかのいずれかである、請求項１〜３のいずれか一項に記載のオーディオ符号器。
前記符号器は、前記入力オーディオ信号を、前記低周波部分を形成する一組のサブバンドおよび前記高周波部分を形成する一組のサブバンドへとスペクトル的に分解するために、フィルタバンクを使用する、請求項１〜４のいずれか一項に記載のオーディオ符号器。
入力オーディオ信号のスペクトル分解表現に基づき、該入力オーディオ信号の背景ノイズをパラメータ化することにより、前記入力オーディオ信号の背景ノイズのスペクトル包絡をスペクトル的に表わすパラメトリック背景ノイズ推定を決定するステップと、
活性期の期間中に前記入力オーディオ信号をデータストリームへと符号化するステップと、
前記入力オーディオ信号に基づいて前記活性期に続く不活性期の開始を検出するステップと、
前記不活性期の期間中に前記パラメトリック背景ノイズ推定を前記データストリームへと符号化するステップと、を含むオーディオ符号化方法であって、
前記パラメトリック背景ノイズ推定を決定するステップは、複素値フィルタバンクドメインを使用して、前記入力オーディオ信号の前記スペクトル分解表現における極小値を識別し、前記識別された極小値の間の補間を使用して前記入力オーディオ信号の背景ノイズのスペクトル包絡を推定するステップを含み、
前記符号化するステップは、前記入力オーディオ信号の符号化において、前記入力オーディオ信号の前記スペクトル分解表現の低周波部分の符号化に予測及び／又は変換符号化を使用するとともに、前記入力オーディオ信号の前記スペクトル分解表現の高周波部分のスペクトル包絡をパラメトリック符号化を使用して符号化するか、又は前記入力オーディオ信号の前記高周波部分を符号化しないかを選択する、
オーディオ符号化方法。
コンピュータ上での実行時に請求項６に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。