JP2022126688A

JP2022126688A - 快適雑音の生成のサポート

Info

Publication number: JP2022126688A
Application number: JP2022091269A
Authority: JP
Inventors: フレドリックヤンソン，; Jansson Fredrik; エリクノーベル，; Nobel Erik; トフゴード，トマスヤンソン; Jansson Toftgaard Tomas
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2018-04-05
Filing date: 2022-06-06
Publication date: 2022-08-30
Anticipated expiration: 2039-04-05
Also published as: CN112154502A; EP4273858A1; EP3776546B1; KR20200140353A; US20210151060A1; EP3776547A1; US20230131249A1; US20210158825A1; EP3776547B1; MX2020010468A; US20210090582A1; JP7438268B2; US11495237B2; DK3776547T3; KR102548184B1; US11862181B2; JP7085640B2; KR20200138367A; EP4047601A3; US11978460B2

Abstract

【課題】２つ以上のチャネルのための快適雑音の効率的生成を可能にする方法、送信ノード、プログラム並びに受信ノード、受信ノードにおける快適雑音の生成のための方法及びプログラムを提供する。【解決手段】送信ノードによって実行される、受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするための方法は、少なくとも２つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することと、オーディオ信号間の空間コヒーレンスを判定することと、を含む。知覚的重要性尺度に関連付けられる空間コヒーレンスの圧縮表現を、知覚的重要性尺度に従って各周波数帯内の空間コヒーレンスに重み付けすることによって、周波数帯毎に判定する。スペクトル特性に関する情報及び周波数帯毎の空間コヒーレンスの圧縮表現を、受信ノードにおける快適雑音の生成を可能にするために受信ノードにシグナリングする。【選択図】図３

Description

本明細書で提示される実施形態は、受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするための方法、送信ノード、コンピュータプログラム、およびコンピュータプログラム製品に関する。本明細書で提示される実施形態はさらに、受信ノードにおける快適雑音の生成のための方法、受信ノード、コンピュータプログラム、およびコンピュータプログラム製品に関する。

通信ネットワークでは、所与の通信プロトコル、そのパラメータ、および通信ネットワークが配備された物理環境のための優れた性能および容量を獲得するための課題が存在し得る。

たとえば、電気通信ネットワークにおける容量は、継続的に増加しているが、ユーザごとの必要とされる資源使用量を制限することは、いまだに関心事である。モバイル電気通信ネットワークにおいて、通話ごとに必要とされる資源使用量が少ないことは、モバイル電気通信ネットワークが多数のユーザに並行してサービスを提供され得ることを意味する。資源使用量を下げることはまた、ユーザ側のデバイス（端末デバイスなど）とネットワーク側のデバイス（ネットワークノードなど）との両方において電力消費の低下をもたらす。これは、端末デバイスにおいて体感されるバッテリ寿命の延長および通話時間の増加を可能にしつつ、ネットワークオペレータのためのエネルギおよびコスト節減につながる。

モバイル電気通信ネットワークにおける音声通信アプリケーションの必要とされる資源使用量を減らすための１つの機構は、音声における自然な休止を活用することである。さらに詳細には、ほとんどの会話では、一度に一方の関係者だけがアクティブであり、したがって、１つの通信方向における音声の休止が、通常は、信号の過半数を占めることになる。この特質を利用して必要な資源使用量を減らすための１つの方法は、音声の休止中にアクティブ信号エンコーディングが中断される、間欠送信（ＤＴＸ：ＤｉｓｃｏｎｔｉｎｕｏｕｓＴｒａｎｓｍｉｓｓｉｏｎ）システムを使用することである。

音声の休止の間、受信側における快適雑音発生器（ＣＮＧ：ＣｏｍｆｏｒｔＮｏｉｓｅＧｅｎｅｒａｔｏｒ）システムが、最初の雑音と類似の特性を有する背景雑音で前述の休止を埋めることができるように、背景雑音の非常に低いビットレートのエンコーディングを送信することが一般的である。背景雑音は維持され、音声とともにオンおよびオフを切り替えられないので、音声の休止時に静寂を有することに比べて、ＣＮＧは、サウンドをより自然にさせる。音声の休止時の完全な静寂は、一般に、不快に受け取られ、通話が切られたという誤解をしばしばもたらす。

ＤＴＸシステムは、アクティブ信号エンコーディングを使用するか低レート背景雑音エンコーディングを使用するかを送信デバイスに指示する、音声活動検出器（ＶＡＤ：ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｏｒ）にさらに頼り得る。この点において、送信デバイスは、背景雑音と音声を区別するだけではなく、関連性があると見なされた音楽または他の信号タイプを検出するようにも設定され得る、（ジェネリック）サウンド活動検出器（（Ｇｅｎｅｒｉｃ）ＳｏｕｎｄＡｃｔｉｖｉｔｙＤｅｔｅｃｔｏｒ：ＧＳＡＤまたはＳＡＤ）を使用することによって、他のソースタイプを区別するように設定することができる。

通信サービスは、ステレオまたはマルチチャネルオーディオ送信をサポートすることによって、さらに強化することができる。これらの場合、ＤＴＸ／ＣＮＧシステムはまた、心地よく聞こえる快適雑音を提供するために、信号の空間特性を考慮することができる。

快適雑音を生成するための一般的機構は、音声の休止時に背景雑音のエネルギおよびスペクトル形状に関する情報を送信することになる。これは、音声セグメントの通常のコーディングよりも有意に少ない数のビットを使用して行われ得る。

受信デバイス側において、快適雑音は、疑似ランダム信号を作成することと、次いで、送信デバイスから受信された情報に基づくフィルタで信号のスペクトルを形成することとによって、生成される。信号生成およびスペクトル形成は、時間または周波数ドメインにおいて実行され得る。

本明細書の実施形態の目的は、２つ以上のチャネルのための快適雑音の効率的生成を可能にすることである。

第１の態様によれば、受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするための方法が提示される。本方法は、送信ノードによって実行される。本方法は、少なくとも２つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することを含む。本方法は、それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定することを含み、空間コヒーレンスは、知覚的重要性尺度に関連付けられる。本方法は、空間コヒーレンスを周波数帯に分けることを含み、空間コヒーレンスの圧縮表現は、知覚的重要性尺度に従って各周波数帯内の空間コヒーレンスに重み付けすることによって、周波数帯ごとに判定される。本方法は、受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成を可能にするための、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの圧縮表現に関する情報を受信ノードにシグナリングすることを含む。

第２の態様によれば、受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするための送信ノードが提示される。送信ノードは、処理回路を備える。処理回路は、少なくとも２つの入力オーディオチャネルのオーディオ信号のスペクトル特性を送信ノードに判定させるように設定される。処理回路は、それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを送信ノードに判定させるように設定され、空間コヒーレンスは、知覚的重要性尺度に関連付けられる。処理回路は、送信ノードに空間コヒーレンスを周波数帯へと分割させるように設定され、空間コヒーレンスの圧縮表現は、知覚的重要性尺度に従って各周波数帯内の空間コヒーレンスに重み付けすることによって、周波数帯ごとに判定される。処理回路は、受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成を可能にするために、受信ノードへのスペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの圧縮表現に関する情報を送信ノードにシグナリングさせるように設定される。

第３の態様によれば、受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするためのコンピュータプログラムが提示され、コンピュータプログラムは、送信ノードで実行されるとき、少なくとも第１の態様による方法を送信ノードに実行させる、コンピュータプログラムコードを含む。

第４の態様によれば、第３の態様によるコンピュータプログラムおよびコンピュータプログラムが記憶されるコンピュータ可読記憶媒体を備えるコンピュータプログラム製品が提示される。コンピュータ可読記憶媒体は、非一時的コンピュータ可読記憶媒体であってもよい。

第５の態様によれば、無線トランシーバデバイスが提示される。無線トランシーバデバイスは、第２の態様による送信ノードを備える。

有利には、これらの方法、これらの送信ノード、このコンピュータプログラム、このコンピュータプログラム製品およびこの無線トランシーバデバイスは、２つ以上のチャネルのための快適雑音の効率的生成を可能にする。

有利には、これらの方法、これらの送信ノード、このコンピュータプログラム、このコンピュータプログラム製品およびこの無線トランシーバデバイスは、前述の問題に悩まされることなく２つ以上のチャネルのために快適雑音が生成されることを可能にする。

有利にはこれらの方法、これらの送信ノード、このコンピュータプログラム、このコンピュータプログラム製品およびこの無線トランシーバデバイスは、現実的ステレオ画像を受信ノードにおいて再作成する能力を保持しつつ、ステレオまたはマルチチャネルＤＴＸシステムにおいて符号化される必要がある情報の量を減らすことを可能にする。

含まれている実施形態の他の目的、特徴および利点が、以下の詳細な開示から、特許請求の範囲から、ならびに図面から明らかとなろう。

本発明の概念を、以下のような添付の図面を参照して、例として、ここで説明する。

実施形態による通信ネットワークを説明する概略図である。一実施形態によるＤＴＸシステムを概略的に示す図である。実施形態による方法の流れ図である。実施形態による方法の流れ図である。実施形態によるチャネルコヒーレンス値のスペクトルを概略的に示す図である。実施形態によるチャネルコヒーレンス値のスペクトルを概略的に示す図である。いくつかの実施形態によるエンコーディングプロセスを示す流れ図である。いくつかの実施形態による切り捨て方式を示す図である。いくつかの実施形態による復号プロセスを示す流れ図である。１つの実施形態によるプロセスを示す流れ図である。１つの実施形態によるプロセスを示す流れ図である。一実施形態による送信ノードの機能ユニットを示す概略図である。一実施形態による送信ノードの機能モジュールを示す概略図である。一実施形態によるコンピュータ可読記憶媒体を備えるコンピュータプログラム製品の一例を示す図である。いくつかの実施形態によるステレオエンコーディングおよび復号システムを示す図である。

本発明の概念は、本発明の概念のある特定の実施形態が示された、添付の図面を参照して、以下でさらに十分に説明される。しかしながら、本発明の概念は、多数の異なる形で実施することができ、本明細書に記載の実施形態に制限されるものとして解釈されるべきではなく、そうではなくて、本開示が、徹底した完全なものとなり、当業者に本発明の概念の範囲を十分に伝えるように、これらの実施形態は、例として提供される。類似の番号は、本明細書全体にわたり、類似の要素を参照する。破線によって示された任意のステップまたは特徴は、任意選択として見なされるべきである。

空間コヒーレンスは、オーディオチャネルの間のコヒーレンスを表すので、空間コヒーレンスは、マルチチャネルオーディオ表現の空間的特質を構成し、チャネルコヒーレンスとも称され得る。以下の説明では、チャネルコヒーレンスおよび空間コヒーレンスという用語は、同義で使用される。

２つのステレオチャネルのそれぞれにおいて信号に個別に作用する独自のＤＴＸシステムをそれぞれ有する２つのモノエンコーダが、使用されるとき、２つの異なる信号における異なるエネルギおよびスペクトル形状が、送信されることになる。

最も現実的な場合には、左のチャネル内の信号と右のチャネル内の信号との間のエネルギおよびスペクトル形状の差は、大きくならないが、信号のステレオ画像がどの程度広く知覚されるかには大きな差がまだ存在し得る。

快適雑音を生成するために使用されるランダムシーケンスが、左のチャネル内の信号と右のチャネル内の信号との間で同期される場合、結果は、非常に狭いステレオ画像を有する、およびリスナの頭部の中心から生じるサウンドの感覚を与える、ステレオ信号サウンドになる。そうではなくて、左のチャネル内の信号および右のチャネル内の信号が、同期されない場合、それは、逆の効果、すなわち、非常に広いステレオ画像を有する信号、を与えることになる。

ほとんどの場合には、同期されたまたは同期されていないランダムシーケンスとともに、送信デバイスがステレオ幅の優れた表現を有するアクティブ音声エンコーディングと非アクティブ雑音エンコーディングとを切り替えるときにステレオ画像の煩わしい差が存在することになることを意味するこれらの２つの極度の間のどこかにあるステレオ画像を、最初の背景雑音は、有することになる。

たとえば、最初の背景雑音の知覚されるステレオ画像幅はまた、送信デバイスのユーザが動き回っているためおよび／または背景において生じるものにより、通話中に変化し得る。独自のＤＴＸシステムをそれぞれ有する２つのモノエンコーダを有するシステムは、これらの変化を追うための機構を有さない。

デュアルモノＤＴＸシステムを使用することに関する１つの付加的問題は、たとえば、左のチャネル内の信号がアクティブエンコーディングで符号化され、右のチャネル内の信号が低ビットレート快適雑音エンコーディングで符号化されるとき、ＶＡＤ判定が、２つのチャネルの間で同期されないことになり、それが可聴アーティファクトをもたらし得るということである。ランダムシーケンスが、いくつかの時間インスタンスでは同期され、他では同期されないことになり、時間とともに極度に広いことと極度に狭いこととをトグルで切り替えるステレオ画像をもたらすことにつながり得る。

したがって、２つ以上のチャネルのための快適雑音の生成の改良の必要性がまだ存在する。

以下の実施形態は、２つのチャネル（ステレオオーディオ）のためのＤＴＸシステムを説明するが、本方法は、一般に、マルチチャネルオーディオのためのＤＴＸおよびＣＮＧのために適用され得る。

図１は、本明細書で提示される実施形態が適用され得る、通信ネットワーク１００を示す概略図である。通信ネットワーク１００は、通信リンク１１０を介して受信ノード２００ｂと通信する送信ノード２００ａを備える。

送信ノード２００ａは、直接通信リンク１１０を介してまたは間接通信リンク１１０を介して、通信ネットワーク１００内の１つまたは複数の他のデバイス、ノード、またはエンティティ、たとえば、ネットワークノードなど、を介して、受信ノード２００ｂと通信し得る。

いくつかの態様では、送信ノード２００ａは、無線トランシーバデバイス２００の一部であり、受信ノード２００ｂは、別の無線トランシーバデバイス２００の一部である。加えて、いくつかの態様では、無線トランシーバデバイス２００は、送信ノード２００ａと受信ノード２００ｂとの両方を備える。無線トランシーバデバイスの異なる例が存在し得る。例としては、携帯用無線デバイス、移動局、携帯電話、ハンドセット、無線ローカルループ電話、ユーザ機器（ＵＥ）、スマートフォン、ラップトップコンピュータ、およびタブレットコンピュータが挙げられるが、これらに限定されない。

前述のように、ＤＴＸシステムは、符号化された音声／オーディオを必要なときにのみ送信するために、使用することができる。図２は、１つまたは複数のオーディオチャネルのためのＤＴＸシステム３００の概略的ブロック図である。ＤＴＸシステム３００は、送信ノード２００ａの一部でも、これと配列されても、これに実装されてもよい。入力オーディオは、ＶＡＤ３１０、音声／オーディオエンコーダ３２０およびＣＮＧエンコーダ３３０に提供される。ＶＡＤが、その信号は音声またはオーディオを含むことを示すとき、音声／オーディオエンコーダが、起動され、そして、ＶＡＤが、その信号は背景雑音を含むことを示すとき、ＣＮＧエンコーダが、起動される。ＶＡＤは、それに応じて、音声／オーディオエンコーダまたはＣＮＧエンコーダからの出力を送信するかどうかを選択的に制御する。２つ以上のチャネルのための快適雑音の生成のための既存の機構に関する問題が、上記で開示された。

したがって、本明細書で開示される実施形態は、受信ノード２００ｂにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするためのおよび受信ノード２００ｂにおける少なくとも２つのオーディオチャネルのための快適雑音の生成のための機構に関する。そのような機構を得るために、送信ノード２００ａ、送信ノード２００ａによって実行される方法、送信ノード２００ａで実行されるときに送信ノード２００ａにその方法を実行させるコードを、たとえばコンピュータプログラムの形で、含むコンピュータプログラム製品が提供される。そのような機構を得るために、受信ノード２００ｂと、受信ノード２００ｂによって実行される方法と、受信ノード２００ｂの処理回路で実行されるとき、受信ノード２００ｂに本方法を実行させる、コードを、たとえばコンピュータプログラムの形で、含むコンピュータプログラム製品とがさらに提供される。

図３は、受信ノード２００ｂにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするための方法の実施形態を示す流れ図である。本方法は、送信ノード２００ａによって実行される。本方法は、有利には、コンピュータプログラム１４２０として提供される。

Ｓ１０２：送信ノード２００ａが、少なくとも２つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定する。

Ｓ１０４：送信ノード２００ａが、それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定する。空間コヒーレンスは、知覚的重要性尺度に関連付けられる。

ＤＴＸシステム３００の使用の背後にある全論拠は、音声／オーディオの間の休止において必要とされる最小限の情報を送信することであるので、空間コヒーレンスは、送信前に非常に効率的なやり方で符号化される。

Ｓ１０６：送信ノード２００ａが、空間コヒーレンスを周波数帯に分ける。空間コヒーレンスの圧縮表現が、知覚的重要性尺度に従って各周波数帯内の空間コヒーレンス値に重み付けすることによって、周波数帯ごとに判定される。

Ｓ１０８：送信ノード２００ａが、受信ノード２００ｂにおける少なくとも２つのオーディオチャネルのための快適雑音の生成を可能にするために、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの圧縮表現に関する情報を受信ノードにシグナリングする。

一実施形態によれば、知覚的重要性尺度は、少なくとも２つの入力オーディオチャネルのスペクトル特性に基づく。

一実施形態によれば、知覚的重要性尺度は、少なくとも２つの入力オーディオチャネルのパワースペクトルに基づいて判定される。

一実施形態によれば、知覚的重要性尺度は、少なくとも２つの入力オーディオチャネルの加重和のパワースペクトルに基づいて判定される。

一実施形態によれば、空間コヒーレンスの圧縮表現は、周波数帯ごとの１つの単一値である。

図４は、受信ノード２００ｂにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするための方法の実施形態を示す流れ図である。本方法は、送信ノード２００ａによって実行される。本方法は、有利には、コンピュータプログラム１４２０として提供される。

Ｓ２０２：送信ノード２００ａが、少なくとも２つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定する。スペクトル特性は、知覚的重要性尺度に関連付けられる。

Ｓ２０４：送信ノード２００ａが、それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定する。空間コヒーレンスが、周波数帯に分けられる。

ＤＴＸシステム３００の使用の背後にある全論拠は、音声／オーディオの間の休止において必要とされる最小限の情報を送信することであるので、空間コヒーレンスは、送信前に非常に効率的なやり方で符号化される。したがって、空間コヒーレンスの１つの単一値は、周波数帯ごとに判定される。

空間コヒーレンスの単一値は、各周波数帯内の空間コヒーレンス値に重み付けする重み付けすることによって、判定される。重み付けのために使用される重み付け関数の１つの目的は、他よりも知覚的に重要な周波数で生じる空間コヒーレンスにより高い重みを置くことである。したがって、各周波数帯内の空間コヒーレンス値は、スペクトル特性の対応する値の知覚的重要性尺度に従って、重み付けされる。

Ｓ２０６：送信ノード２００ａが、受信ノード２００ｂにおける少なくとも２つのオーディオチャネルのための快適雑音の生成を可能にするために、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの単一値に関する情報を受信ノード２００ｂにシグナリングする。

受信ノード２００ｂにあるデコーダにおいて、コヒーレンスが、再構築され、最初のサウンドに類似のステレオ画像を有する快適雑音信号が、作成される。

送信ノード２００ａによって実行されるものとしての受信ノード２００ｂにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートすることのさらなる詳細に関する実施形態をここで開示する。

本明細書で開示される実施形態は、ステレオエンコーダおよびデコーダアーキテクチャに、ならびにチャネルコヒーレンスがチャネルペアで考慮されるマルチチャネルエンコーダおよびデコーダについて、適用可能である。

いくつかの態様では、ステレオエンコーダが、チャネルペア［ｌ（ｍ，ｎ）ｒ（ｍ，ｎ）］を入力として受信し、そこで、ｌ（ｍ，ｎ）およびｒ（ｍ，ｎ）は、それぞれ、フレームｍのサンプルインデックスｎの、左のおよび右のチャネルのための入力信号を示す。信号は、サンプリング周波数ｆ_ｓでフレームの長さＮのサンプルにおいて処理され、フレームの長さは、重複（過去のサンプルのルックアヘッドおよび／またはメモリ）を含み得る。

図２にあるように、ステレオエンコーダＶＡＤが、信号は背景雑音を含むことを示すとき、ステレオＣＮＧエンコーダが、起動される。信号は、たとえば、離散フーリエ変換（ＤＦＴ：ｄｉｓｃｒｅｔｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）または任意の他の適切なフィルタバンクまたは変換、たとえば、直交ミラーフィルタ（ＱＭＦ：ｑｕａｄｒａｔｕｒｅｍｉｒｒｏｒｆｉｌｔｅｒ）、ハイブリッドＱＭＦまたは修正離散コサイン変換（ＭＤＣＴ：ｍｏｄｉｆｉｅｄｄｉｓｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍ）、を用いて、周波数ドメインに変換される。ＤＦＴまたはＭＤＣＴ変換が使用される場合、入力信号は、以下に従って判定されるチャネルペア［ｌ_ｗｉｎ（ｍ，ｎ）ｒ_ｗｉｎ（ｍ，ｎ）］をもたらして、変換の前に窓処理される：
［ｌ_ｗｉｎ（ｍ，ｎ）ｒ_ｗｉｎ（ｍ，ｎ）］＝［ｌ（ｍ，ｎ）ｗｉｎ（ｎ）ｒ（ｍ，ｎ）ｗｉｎ（ｎ）］，ｎ＝０，１，２，…，Ｎ－１。

したがって、一実施形態によれば、スペクトル特性が判定される前に、少なくとも２つのオーディオチャネルの、フレームインデックスｍおよびサンプルインデックスｎのための、オーディオ信号ｌ（ｍ，ｎ）、ｒ（ｍ，ｎ）が、窓処理されて、それぞれの窓処理される信号ｌ_ｗｉｎ（ｍ，ｎ）、ｒ_ｗｉｎ（ｍ，ｎ）を形成する。ウインドウの選択は、一般に、様々なパラメータ、たとえば、時間および周波数分解能特性、アルゴリズム遅延（重複の長さ）、再構築特質など、に依存し得る。したがって、窓処理されるチャネルペア［ｌ_ｗｉｎ（ｍ，ｎ）ｒ_ｗｉｎ（ｍ，ｎ）］は、次いで、以下に従って、変換される：

周波数ｆのためのチャネルコヒーレンスＣ_ｇｅｎ（ｆ）の一般的規定は、以下によって与えられる：

そこで、Ｓ_ｘｘ（ｆ）およびＳ_ｙｙ（ｆ）は、２つのチャネルｘおよびｙのそれぞれのパワースペクトルを表し、Ｓ_ｘｙ（ｆ）は、２つのチャネルｘおよびｙのクロスパワースペクトルである。ＤＦＴに基づく解では、スペクトルは、ＤＦＴスペクトルによって表され得る。具体的には、一実施形態によれば、フレームインデックスｍおよび周波数ビンインデックスｋのための空間コヒーレンスＣ（ｍ，ｋ）は、次のように判定される：

そこで、Ｌ（ｍ，ｋ）は、窓処理されるオーディオ信号ｌ_ｗｉｎ（ｍ，ｎ）のスペクトルであり、Ｒ（ｍ，ｋ）は、窓処理されるオーディオ信号ｒ_ｗｉｎ（ｍ，ｎ）のスペクトルであり、そして、*は、複素共役を示す。

コヒーレンスの前述の表現は、一般に、高周波数分解能を有して計算される。これの１つの理由は、周波数分解能は、信号フレームサイズに依存し、信号フレームサイズは、高分解能が望ましいアクティブ音声／オーディオエンコーディングに関してと、ＣＮＧエンコーディングに関して、通常は、同じになるということである。もう１つの理由は、高周波数分解能は、知覚的に動機付けられた周波数帯分割を可能にする、ということである。さらにもう１つの理由としては、コヒーレンス計算の要素、すなわち、Ｌ（ｍ，ｋ）、Ｒ（ｍ，ｋ）、Ｓ_ｘｘ、Ｓ_ｘｙ、Ｓ_ｙｙ、が、通常のオーディオエンコーダにおいて、より高い周波数分解能が望ましい他の目的のために使用され得る、ということがあり得る。サンプリング周波数ｆ_ｓ＝４８ｋＨｚおよび２０ｍｓのフレーム長を有する典型値は、チャネルコヒーレンスの９６０周波数ビンになり得る。

非アクティブ（すなわち、非音声）セグメントを符号化するためのビットレートを低く保つことが極めて重要なＤＴＸのアプリケーションについて、高周波数分解能を有するチャネルコヒーレンスを送信することは実現不可能である。チャネルコヒーレンスを表すために必要とされるビットの数を減らすために、スペクトルは、図５に示すように、周波数帯に分割することができ、各周波数帯内のチャネルコヒーレンスは、単一値またはいくつかの他の圧縮表現によって表されることになる。周波数帯の数は、通常は、２０～２００００Ｈｚの全可聴帯域幅について２～５０ほどである。

すべての周波数帯は、同等の周波数のような幅を有し得るが、オーディオコーディングアプリケーションにおいてより一般的なのは、各周波数帯の幅をオーディオの人間の知覚に一致させることであり、それにより、低周波数の相対的に狭い周波数帯と、より高い周波数の周波数帯の幅の増加とをもたらす。具体的には、一実施形態によれば、空間コヒーレンスは、等しくない長さの周波数帯に分けられる。たとえば、周波数帯は、ＥＲＢレートのスケールを使用して、作成することができ、ＥＲＢは、同等の矩形周波数帯幅に対して短い。

１つの実施形態では、コヒーレンスの圧縮表現が、各周波数帯内のコヒーレンスの平均値によって規定され、そして、デコーダが、次いで、快適雑音を生成するときに周波数帯内のすべての周波数についてこの単一の値を使用することができるように、周波数帯ごとのこの単一の値が、受信ノード２００ｂにあるデコーダに送信される、あるいは時間および／または周波数の急激な変化を避けるために信号フレームおよび／または周波数帯の何らかの平滑化を場合により有する。

しかしながら、ステップＳ２０４で前述したように、別の実施形態において、周波数帯内の異なる周波数は、周波数帯ごとの単一のコヒーレンス値の判定において、知覚的重要性尺度に応じて異なる重みを与えられる。

知覚的重要性尺度の異なる例が存在し得る。

いくつかの態様では、知覚的重要性尺度は、スペクトル特性に関連する。

具体的には、１つの実施形態において、知覚的重要性尺度は、少なくとも２つの入力オーディオ信号の大きさまたはパワースペクトルに関連する。

別の実施形態において、知覚的重要性尺度は、少なくとも２つの入力オーディオチャネルでの加重和の大きさまたはパワースペクトルに関連する。

いくつかの態様では、高エネルギは、高い知覚的重要度に対応し、逆もまた同様である。具体的には、一実施形態によれば、より高い電力を有する周波数係数に対応する空間コヒーレンス値が、より低いエネルギを有する周波数係数に対応する空間コヒーレンス値と比較してより多くの影響を空間コヒーレンスのこの１つの単一値に及ぼすように、各周波数帯内の空間コヒーレンス値は、重み付けされる。

一実施形態によれば、周波数帯内の異なる周波数は、各周波数における電力に応じて、異なる重みを与えられる。この実施形態の背後にある１つの論拠は、より高いエネルギを有する周波数は、より低いエネルギを有する別の周波数と比較して、結合されたコヒーレンス値により多くの影響を及ぼすはずであるということである。

いくつかの他の態様において、知覚的重要性尺度は、符号化されたスペクトル特性に関連する。符号化されたスペクトル特性は、より厳密に（すなわち、符号化されていないスペクトル特性よりも厳密に）受信ノード２００ｂで再構築されたものとしての信号を反映し得る。

いくつかの他の態様において、知覚的重要性尺度は、空間コヒーレンスに関連する。より低い空間コヒーレンスを有する信号構成要素よりも正確に、より高い空間コヒーレンスを有する信号構成要素を表すことが知覚的により重要になり得る。別の態様において、知覚的重要性尺度は、アクティブに符号化された音声／オーディオセグメントを含む、経時的な空間コヒーレンスに関連し得る。これの１つの理由は、アクティブに符号化された音声／オーディオセグメントにおけるのと類似の特性の空間コヒーレンスを生成することが知覚的に重要になり得るということである。

他の知覚的重要性尺度もまた、想定される。

一実施形態によれば、加重平均が、各周波数帯におけるコヒーレンスを表すために使用され、そこで、モノ信号ｌｒ（ｍ，ｎ）＝ｗ_１ｌ（ｍ，ｎ）＋ｗ_２ｒ（ｍ，ｎ）のための変換されたエネルギスペクトル|ＬＲ（ｍ，ｋ）|^２は、フレームｍ内の知覚的重要性尺度を規定し、重み付け関数として使用される。すなわち、いくつかの態様では、ｌｒ（ｍ，ｎ）＝ｗ_１ｌ（ｍ，ｎ）＋ｗ_２ｒ（ｍ，ｎ）のエネルギスペクトル｜ＬＲ（ｍ，ｋ）｜^２が、空間コヒーレンス値に重み付けするために使用される。ダウンミックス重みｗ_１およびｗ_２は、経時的に一定または可変でもよく、あるいは、類似の演算が周波数ドメインにおいて実行される場合には、周波数にわたり一定または可変でもよい。１つの実施形態において、チャネルの加重は、同等、たとえば、ｗ_１＝ｗ_２＝０．５、である。その場合、一実施形態によれば、各周波数帯は、より低い周波数ビンと上部周波数ビンとの間に広がり、フレームインデックスｍおよび周波数帯ｂの空間コヒーレンスの１つの単一値Ｃ_ｗ（ｍ，ｂ）は、次のように判定される：

そこで、ｍはフレームインデックスであり、ｂは周波数帯のインデックスであり、Ｎ_ｂａｎｄは、周波数帯の総数であり、ｌｉｍｉｔ（ｂ）は、周波数帯ｂの最も低い周波数ビンを示す。したがって、パラメータｌｉｍｉｔ（ｂ）は、各周波数帯における第１の係数を示し、周波数帯の間の境界線を規定する。この実施形態において、ｌｉｍｉｔ（ｂ）はまた、周波数帯の上限Ｎ_ｂａｎｄ－１を規定するために、周波数帯Ｎ_ｂａｎｄについて規定されることになる。ｌｉｍｉｔ（ｂ）を得るための異なるやり方が存在し得る。一実施形態によれば、ｌｉｍｉｔ（ｂ）は、関数またはルックアップテーブルとして提供される。

図６は、周波数帯ｂ＋１における重み付けを説明する。各周波数ビンについて、垂直な実線を有する点は、コヒーレンス値を示し、垂直な破線を有する点は、スペクトル特性の対応する値のエネルギを示す。水平な点線は、周波数帯ｂ＋１における４つのコヒーレンス値の平均を示し、破線は、加重平均を示す。この例では、周波数帯ｂ＋１内の第３のビンは、加重平均が非加重平均より高いことにつながる、高いコヒーレンス値と高エネルギとの両方を有する。

エネルギが周波数帯内のすべてのビンについて同じであると想定すると、そのとき、加重平均および非加重平均は、同等になることになる。さらに、エネルギが、１つのビンを除いて、周波数帯内のすべてのビンについてゼロであると想定すると、そのとき、加重平均は、その１つのビンのコヒーレンス値と同等になることになる。

空間コヒーレンス値Ｃ_ｗ（ｍ，ｂ）は、次いで、符号化されて、受信ノード２００ｂにあるデコーダに記憶または送信され、そこで、快適雑音が、現実的ステレオ画像を作成するために、復号されたコヒーレンスを使用して生成される。

一実施形態による空間コヒーレンスのエンコーディング

周波数帯ごとに与えられるコヒーレンス代表値は、空間コヒーレンスベクトル

を形成し、そこで、Ｎ_ｂｎｄは周波数帯の数であり、ｂは周波数帯インデックスであり、ｍはフレームインデックスである。一実施形態において、空間コヒーレンスベクトルＣ_ｍの値Ｃ_ｂ，ｍは、フレームｍおよび帯域ｂのための重み付けされた空間コヒーレンス値Ｃ_ｗ（ｍ，ｂ）に対応する。

一実施形態において、コヒーレンスベクトルは、可変ビットレートエントロピコーディングがその後に続く予測方式を使用して、符号化される。コーディング方式はさらに、適応型フレーム間予測を介して性能を向上させる。コヒーレンスベクトルのエンコーディングは、次の特質を考慮する：（１）変化するフレームごとのビット配分Ｂ_ｍへの適応型エンコーディング、（２）コヒーレンスベクトルが、強いフレーム対フレームの類似性を示す、および（３）エラー伝播は、失われたフレームについて低く保たれるべきである。

変化するフレームごとのビット配分に対処するために、粗い－細かいエンコーディング戦略が実施される。より具体的には、粗いエンコーディングが、低ビットレートで先ず達成され、次の細かいエンコーディングは、ビット制限が達せられたときに、切り捨てられ得る。

いくつかの実施形態において、粗いエンコーディングは、予測方式を用いて、実行される。そのような実施形態において、予測因子は、増加する帯域ｂのコヒーレンスベクトルに沿って機能し、ベクトルの前の値に基づいて各係数を推定する。すなわち、コヒーレンスベクトルのフレーム内予測が、実行され、以下によって与えられる：

各予測因子セットＰ^（ｑ）は、（Ｎ_ｂｎｄ－１）予測因子から成り、各予測因子は、各帯域ｂのための（ｂ－１）予測因子係数を含み、そこで、ｑ＝１，２，…Ｎ_ｑであり、Ｎ_ｑは、予測因子セットの総数を示す。前述のように、ｂ＝１のとき、前の値は存在せず、そして、コヒーレンスベクトルのフレーム内予測は、ゼロである。一例として、６つのコヒーレンス帯域が存在するとき、Ｎ_ｂｎｄ＝６、の予測因子セット数ｑは、以下により与えられる：

もう１つの例として、予測因子セットの総数は、４でもよく、すなわち、Ｎ_ｑ＝４、これは、選択された予測因子セットが、２ビットを使用して、シグナリングされ得ることを示す。いくつかの実施形態において、予測因子セットｑのための予測因子係数は、連続して対処され得、長さ

の単一のベクトルに記憶され得る。

図７は、いくつかの実施形態によるエンコーディングプロセス７０１を示す流れ図である。エンコーディングプロセス７０１は、以下のステップに従って、エンコーダによって、実行され得る：

ステップ７００で、各フレームｍについて、エンコーディングのために使われるビットを記録するためのビット変数（ビットカウンタとも称される）が、ゼロに初期化される（Ｂ_{ｃｕｒｒ，ｍ＝}０）。エンコーディングアルゴリズムが、コヒーレンスベクトル（Ｃ_ｂ，ｍ）を受信して、前の再構築されたコヒーレンスベクトル

のコピー、およびビット配分Ｂ_ｍを符号化する。いくつかの実施形態において、前述のエンコーディングステップで使われるビットは、Ｂ_ｍおよびＢ_{ｃｕｒｒ，ｍ}に含まれ得る。そのような実施形態において、後述のアルゴリズムにおけるビット配分は、Ｂ_ｍ－Ｂ_{ｃｕｒｒ，ｍ}によって与えられ得る。

ステップ７１０で、利用可能な予測因子ｐ^（ｑ）、ｑ＝１，２，…，Ｎ_ｑ、から最小予測エラーを与える予測因子セットｐ^（ｑ＊）が、選択される。選択される予測因子セットは、式、

によって与えられる。

いくつかの実施形態において、予測はゼロであり、エラーへの寄与は、すべての予測因子セットについて同じになるので、ｂ＝１は、予測因子セットから省かれる。選択された予測因子セットインデックスが、記憶され、ビットカウンタ（Ｂ_{ｃｕｒｒ，ｍ}）は、ビットの必要数で増やされ、たとえば、２つのビットが、予測因子セットを符号化するために必要とされる場合、Ｂ_{ｃｕｒｒ，ｍ}＝Ｂ_{ｃｕｒｒ，ｍ}＋２となる。

ステップ７２０で、予測重み係数αが計算される。予測重み係数は、後述のステップ７６０に記載されるような加重予測を生み出すために使用される。重み係数αは、各フレームｍにおいて空間コヒーレンス値のベクトルを符号化するために利用可能なビット配分Ｂ_ｍに基づいて判定される。

概して、重み係数αは、０から１までの範囲の値を取り得る、すなわち、現在のフレーム（α＝１）からの情報のみを使用することから、前のフレーム（α＝０）およびその間のいずれか（０＜α＜１）からの情報のみを使用することまで。より低い重み係数αは、エンコーディングを、失われたフレームの影響をより受けやすくし得るので、いくつかの態様では、可能な限り高い重み係数αを使用することが望ましい。しかしながら、重み係数αのより低い値は、一般に、より少ない符号化されたビットを生じさせるので、重み係数αの選択は、フレームｍごとのビット配分Ｂ_ｍとバランスを取られなければならない。

エンコーディングで使用される重み係数αの値は、少なくとも黙示的に、受信ノード２００ｂにおけるデコーダにおいて知られていなければならない。すなわち、一実施形態において、重み係数αに関する情報は、符号化され、デコーダに送信される（ステップＳ１０１６にあるように）必要がある。他の実施形態において、デコーダは、デコーダにおいて既に入手可能な他のパラメータに基づいて予測重み係数を導出することができる。重み係数αに関する情報をどのように提供するかのさらなる態様を以下で開示する。

空間コヒーレンスを符号化するためのフレームｍのためのビット配分Ｂ_ｍは、送信ノード２００ａからの明示的シグナリングなしに受信ノード２００ｂにあるデコーダにおいて知られている。この点において、ビット配分Ｂ_ｍの値は、受信ノード２００ｂに明示的にシグナリングされる必要はない。受信ノード２００ｂにおけるデコーダは、ビットストリームの解釈の仕方を知っているので、そのデコーダはまた、いくつのビットが復号されたかも知っているという副作用が生じる。残りのビットは、単純に、全ビット配分（これもまた知られている）からビットの復号された数を差し引くことによって、受信ノード２００ｂにあるデコーダにおいて見つけられる。

いくつかの態様では、ビット配分Ｂ_ｍに基づいて、１セットの候補重み係数が、選択され、結合された予測および残差エンコーディング方式を用いる試行エンコーディング（後述されるようなレート切り捨て戦略を実行しない）が、使用される候補重み係数を所与として、符号化されたビットの総数を発見するために、すべてのこれらの候補重み係数について実行される。具体的には、一実施形態によれば、重み係数αは、１セットの少なくとも２つの候補重み係数を選択することと、各候補重み係数について空間コヒーレンス値のベクトルの試行エンコーディングを実行することとによって、判定される。

いくつかの態様では、どの候補重み係数を試行エンコーディング中に使用するかは、ビット配分Ｂ_ｍに基づく。この点において、候補重み係数は、入力としてのビット配分Ｂ_ｍを有するテーブルルックアップを実行することを利用して、またはビット配分Ｂ_ｍを関数に入力することによって、決定され得る。テーブルルックアップは、１セットの背景雑音のトレーニングを介して取得されたテーブル値で実行され得る。

各候補重み係数の試行エンコーディングは、空間コヒーレンス値のベクトルの符号化されたビットのそれぞれの総数を生じさせる。重み係数αは、次いで、候補重み係数の符号化されたビットの総数がビット配分Ｂ_ｍ内に収まるか否かに応じて、選択され得る。具体的には、一実施形態によれば、重み係数αは、符号化されたビットの総数がビット配分Ｂ_ｍ内に収まる最大の候補重み係数として選択される。一実施形態によれば、符号化されたビットの総数が、候補重み係数のうちのいずれのビット配分Ｂ_ｍ内にも収まらないとき、重み係数αが、符号化されたビットの最も少ない総数を生じさせる候補重み係数として選択される。

すなわち、すべての候補重み係数が、符号化されたビットの総数がビット配分Ｂ_ｍ内にあるという結果をもたらす場合、最高の候補重み係数が、重み係数αとして選択される。同様に、候補重み係数のうちの最低の重み係数がビット配分Ｂ_ｍ内のビットの総数につながる、または候補重み係数のうちのどの重み係数もビット配分Ｂ_ｍ内のビットの総数につながらない場合にのみ、最低数のビットにつながる候補重み係数が、重み係数αとして選択される。候補重み係数のうちのどれが選択されたかは、次いで、デコーダにシグナリングされる。

空間コヒーレンス値のベクトルのエンコーディングのために必要とされる、それぞれビットの数Ｂ_{ｃｕｒｒｌｏｗ，ｍ}およびＢ_{ｃｕｒｒｈｉｇｈ，ｍ}をもたらす、２つの候補重み係数α_ｌｏｗおよびα_ｈｉｇｈについて試行エンコーディングが実行される、用例をここで開示する。

入力としてＢ_{ｃｕｒｒ，ｍ}を使用して、２つの候補重み係数α_ｌｏｗおよびα_ｈｉｇｈが、入力としてのビット配分Ｂ_ｍを用いてテーブルルックアップを実行することによって、または関数にビット配分Ｂ_ｍを入力することによって、得られる。試行エンコーディングは、エンコーディングのために必要とされるビットの数の２つの値Ｂ_{ｃｕｒｒｌｏｗ，ｍ}およびＢ_{ｃｕｒｒｈｉｇｈ，ｍ}を生じさせる、各候補重み係数α_ｌｏｗおよびα_ｈｉｇｈについて後述されるレート切り捨て戦略なしに実行される。これに基づいて、２つの候補重み係数α_ｌｏｗおよびα_ｈｉｇｈのうちの１つが、次のようなエンコーディングに従って、選択される：

選択された重み係数αは、１つのビットを使用して符号化される、たとえば、α_ｌｏｗのための「０」およびα_ｈｉｇｈのための「１」。重み係数αの前述の表現における第３の代替は、以下のように解釈されるべきである：候補重み係数α_ｌｏｗおよびα_ｈｉｇｈの両方が、ビット配分Ｂ_ｍを超える符号化されたビットの結果的数を生じさせる場合、最低数の符号化されたビットを生じさせる候補重み係数が、選択される。

ステップ７３０における帯域ｂ＝１，２，．．Ｎ_ｂｎｄのそれぞれについて、以下のステップが実行される：

ステップ７４０において、フレーム内予測値、

、が得られる。第１の帯域（ｂ＝１）について前述の符号化されたコヒーレンス値は存在しない。いくつかの実施形態において、第１の帯域についてのフレーム内予測は、ゼロにセットされ得る、

。いくつかの実施形態において、第１の帯域のフレーム内予測は、平均値

、

、にセットされ得る。

いくつかの代替実施形態において、第１の帯域のコヒーレンス値は、別個に符号化され得る。そのような実施形態において、第１の値は、スカラ量子化器を使用して符号化されて再構築された値

を生み出す。それに応じて、第１の帯域のフレーム内予測は、再構築された値、

、にセットされ得る。ビットカウンタ、Ｂ_{ｃｕｒｒ，ｍ}は、係数を符号化するために必要とされるビットの量だけ増やされる。たとえば、３ビットが、係数を符号化するために使用される場合、３ビットが、エンコーディングのために使われるビットの現在の量に追加される、たとえば、Ｂ_{ｃｕｒｒ，ｍ}＝Ｂ_{ｃｕｒｒ，ｍ}＋３。

残りの帯域ｂ＝２，３，…，Ｎ_ｂｎｄについて、フレーム内予測

は、前に符号化されたコヒーレンス値、すなわち

、に基づく。

ステップ７５０で、フレーム間予測値、

、が、１つまたは複数の先行フレームから前に再構築されたコヒーレンスベクトル要素に基づいて取得される。背景雑音が安定しているまたはゆっくりと変化する場合には、コヒーレンス帯域値Ｃ_ｂ，ｍにおけるフレーム対フレームの変動は、小さくなる。したがって、前のフレームからの値を使用するフレーム間予測は、しばしば、小さい予測残差および小さい残差コーディングビットレートを生じさせる優れた概算になる。一例として、帯域ｂの最後の再構築された値は、フレーム間予測値のために使用され得る、すなわち、

。２つ以上の先行フレームを考慮するフレーム間線形予測因子は、

として公式化することができ、そこで、

は、フレームｍのすべての帯域ｂのためのフレーム間の予測されたコヒーレンス値の列ベクトルを示し、

は、フレームｍ－ｎのすべての帯域ｂの再構築されたコヒーレンス値を表し、そして、ｇ_ｎは、Ｎ_{ｉｎｔｅｒ}先行フレームにわたる線形予測因子係数である。ｇ_ｎは、事前に規定されたセットの予測因子から選択することができ、その場合、使用される予測因子は、デコーダに通信され得るインデックスで表される必要がある。

ステップ７６０で、加重予測、

、は、フレーム内予測、

、フレーム間予測、

、および予測重み係数αに基づいて、形成される。いくつかの実施形態において、加重予測は、

によって与えられる。

ステップ７７０で、予測残差が、計算および符号化される。いくつかの実施形態において、予測残差が、コヒーレンスベクトルおよび加重予測、すなわち、

、に基づいて、計算される。いくつかの実施形態において、スカラ量子化器が、予測残差をインデックスＩ_ｂ，ｍに量子化するために使用される。そのような実施形態において、インデックスは、Ｉ_ｂ，ｍ＝ＳＱ（ｒ_ｂ，ｍ）によって与えられ、そこで、ＳＱ（ｘ）は、適切な範囲を有するスカラ量子化器関数である。スカラ量子化器の一例は、下記の表１に示される。表１は、予測残差の再構築レベルおよび量子化器インデックスの一例を示す。

いくつかの実施形態において、インデックスＩ_ｂ，ｍは、より小さい値のためにより少ないビットを消費する可変長コードワード方式で符号化される。予測残差の符号化のいくつかの例は、ハフマンコーディング、ゴロム・ライスコーディング、および単項コーディング（単項コーディングは、除数１を有するゴロム・ライスコーディングと同じである）である。予測残差の符号化のステップにおいて、残りのビット配分（Ｂ_ｍ－Ｂ_{ｃｕｒｒ，ｍ}）が考慮される必要がある。インデックスＩ_ｂ，ｍに対応するコードワードの長さＬ_ｃｏｄｅ（Ｉ_ｂ，ｍ）が、残りのビット配分内に収まる、すなわち、Ｌ_ｃｏｄｅ（Ｉ_ｂ，ｍ）≦Ｂ_ｍ－Ｂ_{ｃｕｒｒ，ｍ}、の場合、インデックスＩ_ｂ，ｍが、最終インデックスＩ^＊ _ｂ，ｍとして選択される。残りのビットが、インデックスＩ_ｂ，ｍを符号化するのに十分ではない場合、ビットレート切り捨て戦略が、適用される。いくつかの実施形態において、ビットレート切り捨て戦略は、より小さい残差値はより少ないビットを消費すると想定して、最も大きい可能な残差値を符号化することを含む。そのようなレート切り捨て戦略は、図８にテーブル８００によって示されたようなコードブックを並べ替えることによって、実現することができる。図８は、表１に示されたスカラ量子化器の例のための単項コードワードマッピングを有する例示的量子化器テーブル８００を示す。いくつかの実施形態において、ビットレート切り捨ては、コードワード０に達するまで、テーブル８００を２ステップ上に進むことによって、実現され得る。すなわち、図８は、長いコードワードからより短いコードワードに上向きに移動する切り捨て方式を示す。再構築された値の正しいサインを維持するために、各切り捨てステップは、それぞれ負の値および正の値の破線の矢印および実線の矢印によって示されているように、テーブル８００を２ステップ上に進む。テーブル８００を２ステップ上に移動することによって、新しい切り捨てられたコードブックインデックス

が、発見され得る。上方検索は、

が満たされるあるいはテーブル８００の最上部に達するまで、継続する。

上方検索によって判定されたコードワードの長さが、ビット配分を超えていない場合、最終インデックスが選択され

、Ｉ^＊ _ｂ，ｍがビットストリームに出力され、再構築された残差が、最終インデックスに基づいて形成される、すなわち、

。

上方検索後に、コードワードの長さが、ビット配分をまだ超えている場合、

、これは、ビット制限に達したことＢ_ｍ＝Ｂ_{ｃｕｒｒ，ｍ}を意味する。そのような場合には、再構築された残差はゼロにセットされ

、インデックスはビットストリームに追加されない。デコーダは、同期されたビットカウンタ、Ｂ_{ｃｕｒｒ，ｍ}、を保持するので、デコーダは、この状況を検出し、明示的シグナリングなしに

を使用することができる。

代替実施形態において、初期インデックスに関連するコードワードの長さが、ビット配分を超える場合、残差値は、直ちにゼロにセットされ、それにより、前述の上方検索を控える。これは、計算複雑性が危機的である場合に、有益になり得る。

ステップ７８０で、再構築されたコヒーレンス値

が、再構築された予測残差および加重予測に基づいて形成される、すなわち、

。

ステップ７９０で、ビットカウンタが、それに応じて、インクリメントされる。前述のように、ビットカウンタは、エンコーディングプロセス７０１を通して増やされる。

いくつかの実施形態において、コヒーレンスベクトルにおけるフレーム対フレームの変動は、小さい。したがって、前のフレーム値を使用するフレーム間予測は、しばしば、小さい予測残差および小さい残差コーディングビットレートを生じさせる優れた概算である。加えて、予測重み係数αは、ビットレート対フレーム損失回復力のバランスを取る目的にかなう。

図９は、いくつかの実施形態による復号プロセス９０１を示す流れ図である。エンコーディングプロセス７０１に対応する復号プロセス９０１が、以下のステップに従ってデコーダによって実行され得る：

ステップ９００で、復号プロセス９０１の間に消費されるビットを記録するように設定されたビットカウンタ、Ｂ_{ｃｕｒｒ，ｍ}、が、ゼロに初期化される、すなわち、Ｂ_{ｃｕｒｒ，ｍ}＝０。各フレームｍについて、デコーダは、最後の再構築されたコヒーレンスベクトル

およびビット配分Ｂ_ｍのコピーを取得する。

ステップ９１０で、選択された予測因子セットｐ^（ｑ＊）が、ビットストリームから復号される。ビットカウンタが、選択された予測因子セットを復号するために必要とされるビットの量だけ増やされる。たとえば、２つのビットが、選択された予測因子セットを復号するために必要とされる場合、ビットカウンタ、Ｂ_{ｃｕｒｒ，ｍ}、は、２だけ増やされる、すなわち、Ｂ_{ｃｕｒｒ，ｍ}＝Ｂ_{ｃｕｒｒ，ｍ}＋２。

ステップ９２０で、エンコーダで使用される重み係数に対応する予測重み係数αが、導出される。

ステップ９３０において帯域ｂ＝１，２．．Ｎ_ｂｎｄのそれぞれについて、以下のステップが実行される：

ステップ９４０で、内部の予測値、

、が取得される。第１の帯域のフレーム内予測が、エンコーディングプロセス７０１のステップ７４０と同様に取得される。それに応じて、第１のフレームのフレーム内予測は、ゼロにセットされ得

、第１の帯域の平均値

またはコヒーレンス値が、ビットストリームから復号され得、そして、第１のフレームのフレーム内予測が、再構築された値にセットされ得る

。係数が復号された場合、ビットカウンタ、Ｂ_{ｃｕｒｒ，ｍ}、が、符号化のために必要とされるビットの量だけ増やされる。たとえば、３つのビットが、係数の符号化のために必要とされる場合、ビットカウンタ、Ｂ_{ｃｕｒｒ，ｍ}、は、３だけ増やされる、すなわち、Ｂ_{ｃｕｒｒ，ｍ}＝Ｂ_{ｃｕｒｒ，ｍ}＋３。

残りの帯域ｂ＝２，３，．．Ｎ_ｂｎｄについて、フレーム内予測

は、前に復号されたコヒーレンス値に基づく、すなわち、

。

ステップ９５０で、フレーム間予測値、

、が、エンコーディングプロセス７０１のステップ７５０と同様に取得される。一例として、帯域ｂの最後の再構築された値は、フレーム間予測値のために使用され得る、すなわち、

。

ステップ９６０で、加重予測、

、は、フレーム内予測、

、フレーム間予測、

によって与えられる。

ステップ９７０で、再構築された予測残差、

、が復号される。ビットカウンタ、Ｂ_{ｃｕｒｒ、ｍ}、が、ビット制限未満である場合、すなわち、Ｂ_{ｃｕｒｒ、ｍ}＜Ｂ_ｍ、再構築された予測残差は、入手可能な量子化器インデックスから導出される

。ビットカウンタが、ビット制限と等しいまたはこれを超える場合、再構築された予測残差は、ゼロにセットされる、すなわち、

。

ステップ９８０で、コヒーレンス値

が、再構築された予測残差および加重予測に基づいて再構築される、すなわち、

。ステップ９９０で、ビットカウンタがインクリメントされる。

いくつかの実施形態において、ＣＮＧのさらなる強化が、エンコーダにおいて必要とされ得る。そのような実施形態において、ローカルデコーダは、再構築されたコヒーレンス値

が使用される、エンコーダ内で実行されることになる。

図１０は、ベクトルを符号化するために送信ノード２００ａのエンコーダによって実行される、いくつかの実施形態による、プロセス１０００を示す流れ図である。プロセス１０００は、エンコーダが予測重み係数を形成する、ステップＳ１００２で開始し得る。以下のステップＳ１００４からＳ１０１４は、各ベクトル要素について繰り返され得る。ステップＳ１００４で、エンコーダが、ベクトル要素の第１の予測を形成する。いくつかの実施形態において、第１の予測は、ベクトルのシーケンス内の現在のベクトルに基づくフレーム内予測である。そのような実施形態において、フレーム内予測は、１セットの予測因子から予測因子を選択することと、選択された予測因子を現在のベクトルの再構築された要素に適用することと、選択された予測因子に対応するインデックスを符号化することとを含む、プロセスを実行することによって、形成される。ステップＳ１００６で、エンコーダが、ベクトル要素の第２の予測を形成する。いくつかの実施形態において、第２の予測は、再構築されたベクトルのシーケンス内の１つまたは複数の前のベクトルに基づくフレーム間予測である。

ステップＳ１００８で、エンコーダが、予測重み係数を使用する第２の予測および第１の予測を結合予測内に結合させる。

ステップＳ１０１０で、エンコーダが、ベクトル要素および結合予測を使用する予測残差を形成する。ステップＳ１０１２で、エンコーダが、可変ビットレート方式で予測残差を符号化する。いくつかの実施形態において、予測残差が、量子化されて第１の残差量子化器インデックスを形成し、そこで、第１の残差量子化器インデックスは、第１のコードワードに関連する。いくつかの実施形態において、可変ビットレート方式を用いる予測残差の符号化のステップは、第１のコードワードの長さが残りのビットの量を超えていないと判定することの結果として、第１の残差量子化器インデックスを符号化することを含む。いくつかの実施形態において、可変ビットレート方式を用いる予測残差の符号化のステップは、第１のコードワードの長さは残りのビットの量を超えていると判定することの結果として、第２の残差量子化器インデックスを取得することを含み、そこで、第２の残差量子化器インデックスは、第２のコードワードに関連しており、そこで、第２のコードワードの長さは、第１のコードワードの長さよりも短い。そのような実施形態において、プロセス６００は、エンコーダが、第２のコードワードの長さが残りのビットの判定された量を超えているかどうかを判定する、さらなるステップを含む。

ステップＳ１０１４で、エンコーダは、結合予測および予測残差に基づいてベクトル要素を再構築する。ステップＳ１０１６で、エンコーダが、符号化された予測残差を送信する。いくつかの実施形態において、エンコーダはまた、予測重み係数を符号化し、符号化された予測重み係数を送信する。

いくつかの実施形態において、プロセス１０００は、エンコーダが、第１の入力チャネルで第１の信号を受信し、第２の入力チャネルで第２の信号を受信し、第１の信号および第２の信号のスペクトル特性を判定し、第１の信号および第２の信号の判定されたスペクトル特性に基づいて空間コヒーレンスを判定し、空間コヒーレンスに基づいてベクトルを判定する、さらなるステップを含む。

図１１は、ベクトルを復号するために受信ノード２００ｂのデコーダによって実行される、いくつかの実施形態による、プロセス１１００を示す流れ図である。プロセス１１００は、デコーダが予測重み係数を取得する、ステップ１１０２で開始し得る。いくつかの実施形態において、予測重み係数を取得するステップは、（ｉ）予測重み係数を導出すること、あるいは（ｉｉ）予測重み係数を受信および復号することを含む。以下のステップＳ１１０４からＳ１１１２は、ベクトルの各要素について繰り返され得る。ステップＳ１１０４で、デコーダは、ベクトル要素の第１の予測を形成する。いくつかの実施形態において、第１の予測は、ベクトルのシーケンス内の現在のベクトルに基づくフレーム内予測である。そのような実施形態において、フレーム内予測は、予測因子を受信および復号することと復号された予測因子を現在のベクトルの再構築された要素に適用することとを含むプロセスを実行することによって、形成される。ステップＳ１１０６で、デコーダが、ベクトル要素の第２の予測を形成する。いくつかの実施形態において、第２の予測は、ベクトルのシーケンス内の１つまたは複数の前のベクトルに基づくフレーム間予測である。

ステップＳ１１０８で、デコーダが、予測重み係数を使用する第２の予測および第１の予測を結合予測内に結合させる。

ステップＳ１１１０で、デコーダが、受信された符号化された予測残差を復号する。いくつかの実施形態において、符号化された予測残差を復号するステップは、復号のために利用可能な残りのビットの量を判定することと、符号化された予測残差を復号することが残りのビットの量を超えるかどうかを判定することとを含む。いくつかの実施形態において、符号化された予測残差を復号するステップは、符号化された予測残差を復号することが残りのビットの量を超えると判定することの結果として、予測残差をゼロにセットすることを含む。いくつかの実施形態において、符号化された予測残差を復号するステップは、符号化された予測残差を復号することが残りのビットの量を超えないと判定することの結果として予測インデックスに基づいて予測残差を導出することを含み、そこで、予測インデックスは、予測残差の量子化である。

ステップＳ１１１２で、デコーダが、結合予測および予測残差に基づいてベクトル要素を再構築する。いくつかの実施形態において、ベクトルは、一連のベクトルのうちの１つである。いくつかの実施形態において、プロセス１１００は、デコーダが、再構築されたベクトルに基づいて少なくとも２つの出力チャネルの信号を生成する、ステップをさらに含む。

図１２は、いくつかの機能ユニットに関して、一実施形態による送信ノード２００ａの構成要素を概略的に示す。処理回路２１０は、たとえば、記憶媒体２３０の形で、コンピュータプログラム製品１４１０（図１４にあるような）に記憶されたソフトウェア命令を実行する能力を有する、適切な中央処理装置（ＣＰＵ）、マルチプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）などのうちの１つまたは複数の任意の組合せを使用して実現される。処理回路２１０はさらに、少なくとも１つの特定用途向け集積回路（ＡＳＩＣ）、またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）として提供され得る。

具体的には、処理回路２１０は、前述のように、１セットの動作、またはステップを送信ノード２００ａに実行させるように設定される。たとえば、記憶媒体２３０は、動作のセットを記憶することができ、処理回路２１０は、記憶媒体２３０から動作のセットを検索して、その動作のセットを送信ノード２００ａに実行させるように設定され得る。動作のセットは、１セットの実行可能命令として提供され得る。したがって、処理回路２１０は、それにより、本明細書で開示される方法を実行するように配置される。

一実施形態において、受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするための送信ノード２００ａは、処理回路２１０を備える。処理回路は、少なくとも２つの入力オーディオチャネルのオーディオ信号のスペクトル特性を送信ノードに判定させ、それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定させるように設定され、そこで、空間コヒーレンスは、知覚的重要性尺度に関連付けられる。送信ノードはさらに、空間コヒーレンスを周波数帯に分けるようにさせられ、そこで、空間コヒーレンスの圧縮表現は、知覚的重要性尺度に従って各周波数帯内の空間コヒーレンスに重み付けすることによって、周波数帯ごとに判定される。送信ノードはさらに、受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成を可能にするために、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの圧縮表現に関する情報を受信ノードへシグナリングさせられる。

送信ノード２００ａにさらに、ベクトルの第１の予測、ベクトルの第２の予測、予測重み係数、ならびにベクトルおよび結合予測を使用する予測残差を形成することによって空間コヒーレンスベクトルを符号化することを行わせ得る。送信ノードにさらに、可変ビットレート方式で予測残差を符号化すること、および結合予測および予測残差に基づいてベクトルを再構築することを行わせ得る。送信ノードにさらに、符号化された予測重み係数および符号化された予測残差を受信ノード２００ｂに送信することを行わせ得る。

記憶媒体２３０はまた、たとえば、磁気メモリ、光メモリ、ソリッドステートメモリまたはさらには遠隔に取り付けられたメモリのうちの任意の単独の１つまたは組合せでもよい、永続記憶装置を備え得る。送信ノード２００ａが、受信ノード２００ｂとの通信のために少なくとも設定された通信インターフェース２２０をさらに備え得る。そのようなものとして、通信インターフェース２２０は、アナログおよびデジタル構成要素を備える、１つまたは複数の送信機および受信機を備え得る。処理回路２１０は、たとえば、通信インターフェース２２０および記憶媒体２３０にデータおよび制御信号を送信することによって、通信インターフェース２２０からデータおよび報告を受信することによって、および記憶媒体２３０からデータおよび命令を取得することによって、送信ノード２００ａの一般動作を制御する。送信ノード２００ａの他の構成要素、ならびに関連機能は、本明細書で示される概念を分かりにくくしないために、省略される。

図１３は、いくつかの機能モジュールに関して、一実施形態による送信ノード２００ａの構成要素を概略的に示す。図１３の送信ノード２００ａは、いくつかの機能モジュール、ステップＳ１０２、Ｓ２０２を実行するように設定された判定モジュール２１０ａと、ステップＳ１０４、Ｓ２０４を実行するように設定された判定モジュール２１０ｂと、ステップＳ１０６を実行するように設定された分割モジュール２１０ｃと、ステップＳ１０８、Ｓ２０６を実行するように設定された信号モジュール２１０ｄと、を備える。図１３の送信ノード２００ａはさらに、いくつかの任意選択の機能モジュール（図８に示さず）を備え得る。送信ノードは、たとえば、ベクトルの第１の予測を形成するための第１の形成ユニット、ベクトルの第２の予測を形成するための第２の形成ユニット、予測重み係数を形成および符号化するための第３の形成ユニットおよびエンコーディングユニット、予測重み係数を使用する第２の予測および第１の予測を結合予測内に結合させるための結合ユニット、ベクトルおよび結合予測を使用する予測残差を形成するための第４の形成ユニット、可変ビットレート方式を用いた予測残差の符号化のためのエンコーディングユニット１０１４を備え得る。信号モジュール２１０ｄは、符号化された予測重み係数および符号化された予測残差を送信するためにさらに設定され得る。

一般的には、各機能モジュール２１０ａ～２１０ｄは、１つの実施形態においてハードウェアのみにおいて実装され得、別の実施形態においてソフトウェアを用いて実装され得る、すなわち、後者の実施形態は、処理回路で実行されるとき、図１２に関連して前述された対応するステップを送信ノード２００ａに実行させる、記憶媒体２３０に記憶されたコンピュータプログラム命令を有する。モジュールはコンピュータプログラムの部分に対応するけれども、それらはそこで別個のモジュールである必要はないこともまた述べられるべきであるが、それらがソフトウェアにおいて実装される方法は、使用されるプログラミング言語に依存する。好ましくは、１つまたは複数のまたはすべての機能モジュール２１０ａ～２１０ｄは、処理回路２１０によって、場合により通信インターフェース２２０および／または記憶媒体２３０と連携して、実装され得る。したがって、処理回路２１０は、機能モジュール２１０ａ～２１０ｄによって提供されるものとしての記憶媒体２３０フェッチ命令を形成し、これらの命令を実行するように設定され得、それにより、本明細書で開示されるようないずれかのステップを実行する。

送信ノード２００ａは、独立型デバイスとしてまたは少なくとも１つのさらなるデバイスの一部としても提供され得る。たとえば、図１の例にあるように、いくつかの態様では、送信ノード２００ａは、無線トランシーバデバイス２００の一部である。したがって、いくつかの態様では、本明細書で開示されるような送信ノード２００ａを備える無線トランシーバデバイス２００が提供される。いくつかの態様では、無線トランシーバデバイス２００はさらに、受信ノード２００ｂを備える。

別法として、送信ノード２００ａの機能は、少なくとも２つのデバイス、またはノードの間で分散され得る。これらの少なくとも２つのノード、またはデバイスは、同じネットワーク部分の一部でもよく、または少なくとも２つのそのようなネットワーク部分の間に広がり得る。したがって、送信ノード２００ａによって実行される命令の第１の部分は、第１のデバイスにおいて実行され得、そして、送信ノード２００ａによって実行される命令の第２の部分は、第２のデバイスにおいて実行され得、本明細書で開示される実施形態は、送信ノード２００ａによって実行される命令が実行され得る任意の特定の数のデバイスに限定されない。したがって、本明細書で開示される実施形態による方法は、クラウドコンピュータ環境内に存在する送信ノード２００ａによって実行されるのに適している。したがって、単一の処理回路２１０が、図１２に示されているが、処理回路２１０は、複数のデバイス、またはノードの間で分散され得る。同じことが、図１３の機能モジュール２１０ａ～２１０ｄおよび図１４のコンピュータプログラム１４２０に適用される（下記を参照）。

受信ノード２００ｂは、コヒーレンスを再構築するためのおよび最初のサウンドに類似したステレオ画像を有する快適雑音信号を作成するためのデコーダを備える。デコーダはさらに、ベクトルの第１の予測およびベクトルの第２の予測を形成するように、ならびに予測重み係数を取得するように設定され得る。デコーダはさらに、予測重み係数を使用する第２の予測および第１の予測を結合予測内に結合させるように設定され得る。デコーダはさらに、結合予測と受信および復号された予測残差とに基づいてベクトルを再構築するように設定され得る。

図１４は、コンピュータ可読記憶媒体１４３０を備えるコンピュータプログラム製品１４１０の１つの例を示す。このコンピュータ可読記憶媒体１４３０に、コンピュータプログラム１４２０が記憶され得、コンピュータプログラム１４２０は、処理回路２１０とそこに動作可能に結合されたエンティティおよびデバイス、たとえば通信インターフェース２２０および記憶媒体２３０、とに本明細書に記載の実施形態による方法を実行させることができる。それにより、コンピュータプログラム１４２０および／またはコンピュータプログラム製品１４１０は、本明細書で開示されるような任意のステップを実行するための手段を提供することができる。

図１４の例において、コンピュータプログラム製品１４１０は、光ディスク、たとえばＣＤ（コンパクトディスク）またはＤＶＤ（デジタル多用途ディスク）またはブルーレイディスク、として示されている。コンピュータプログラム製品１４１０はまた、メモリ、たとえば、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、または電気的消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ）、として、およびさらに具体的にはＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ：ユニバーサルシリアルバス）メモリもしくはフラッシュメモリ、たとえば、コンパクトフラッシュメモリ、などの外部メモリ内のデバイスの不揮発性記憶媒体として実施され得る。したがって、コンピュータプログラム１４２０は、ここでは、図示された光ディスク上のトラックとして概略的に示されているが、コンピュータプログラム１４２０は、コンピュータプログラム製品１４１０に適した任意の方法で記憶され得る。

本明細書で開示される提案されている解決法は、ステレオエンコーダおよびデコーダアーキテクチャあるいはマルチチャネルエンコーダおよびデコーダに適用され、そこで、チャネルコヒーレンスは、チャネルペアで考慮される。

図１５は、いくつかの実施形態によるパラメトリックステレオエンコーディングおよび復号システム１５００を示す。パラメトリックステレオエンコーディングおよび復号システム１５００は、ＣＮＧエンコーダ１５０４を含むモノエンコーダ１５０３と、ＣＮＧデコーダ１５０６を含むモノデコーダ１５０５とを備える。エンコーダ１５０１は、入力チャネルペア１５０７Ａ～１５０７Ｂの分析を実行し、パラメトリック分析１５０８を介してステレオ画像のパラメトリック表現を取得し、ダウンミックス１５０９を介してチャネルを単一のチャネルに減らし、それにより、ダウンミックスされた信号を取得する。ダウンミックスされた信号は、モノエンコーダ１５０３によってモノエンコーディングアルゴリズムを用いて符号化され、ステレオ画像のパラメトリック表現が、パラメータエンコーダ１５１０によって符号化される。ステレオ画像の符号化されたダウンミックスされた信号およびパラメトリック表現が、ビットストリーム１５１１を介して送信される。デコーダ１５０２は、モノデコーダ１５０５を使用してモノ復号アルゴリズムを適用し、合成されたダウンミックスされた信号を取得する。パラメータデコーダ１５１２は、ステレオ画像の受信されたパラメトリック表現を復号する。デコーダ１５０２は、ステレオ画像の復号されたパラメトリック表現を使用する合成されたチャネルペアに合成されたダウンミックス信号を変換する。パラメトリックステレオエンコーディングおよび復号システム１５００はさらに、パラメトリック分析１５０８内のコヒーレンス分析１５１３およびパラメータ合成１５１５内のコヒーレンス合成１５１４を含む。パラメトリック分析１５０８は、入力信号１５０７Ａ～１５０７Ｂのコヒーレンスを分析するための能力を含む。モノエンコーダ１５０３がＣＮＧエンコーダ１５０４として動作するように設定されるとき、パラメトリック分析１５０８は、入力信号１５０７Ａ～１５０７Ｂを分析することができる。モノエンコーダ１５０３はさらに、いくつかの実施形態によるステレオエンコーダＶＡＤを備え得る。ステレオエンコーダＶＡＤは、信号は背景雑音を含むことをＣＮＧエンコーダ１５０４に指示することができ、それにより、ＣＮＧエンコーダ１５０４を起動する。それに応じて、コヒーレンス分析１５１３を含むＣＮＧ分析が、パラメトリック分析１５０８において起動され、モノエンコーダ１５０３が、ＣＮＧエンコーダ１５０４を起動させる。結果として、コヒーレンスおよびモノＣＮＧの符号化された表現が、送信および／または記憶するためにビットストリーム１５１１にまとめられる。デコーダ１５０２が、ビットストリーム１５１１内のステレオＣＮＧフレームを識別し、モノＣＮＧおよびコヒーレンス値を復号し、目標コヒーレンスを合成する。ＣＮＧフレームを復号するとき、デコーダ１５０２は、２つの合成チャネル１５１７Ａ～１５１７Ｂに対応する２つのＣＮＧフレームを生み出す。

本明細書で提示される概念をさらに説明するための１セットの例示的実施形態が、以下に続く。

１．受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするための、送信ノードによって実行される方法であって、
少なくとも２つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することと、
それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定することであって、空間コヒーレンスは、知覚的重要性尺度に関連付けられる、空間コヒーレンスを判定することと、
空間コヒーレンスを周波数帯に分けることであって、空間コヒーレンスの圧縮表現は、知覚的重要性尺度に従って各周波数帯内の空間コヒーレンス値に重み付けすることによって、周波数帯ごとに判定される、周波数帯に分けることと、
受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成を可能にするための、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの圧縮表現に関する情報を受信ノードにシグナリングすることとを含む、方法。

２．知覚的重要性尺度が、少なくとも２つの入力オーディオチャネルのスペクトル特性に基づく、項目１に記載の方法。

３．知覚的重要性尺度が、少なくとも２つの入力オーディオチャネルのパワースペクトルに基づいて判定される、項目２に記載の方法。

４．知覚的重要性尺度が、少なくとも２つの入力オーディオチャネルの加重和のパワースペクトルに基づいて判定される、項目２に記載の方法。

５．空間コヒーレンスの圧縮表現が、周波数帯ごとの１つの単一値である、項目１に記載の方法。

６．受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするための、送信ノードによって実行される方法であって、
少なくとも２つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することであって、スペクトル特性は、知覚的重要性尺度に関連付けられる、スペクトル特性を判定することと、
それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定することであって、空間コヒーレンスは、周波数帯に分けられ、空間コヒーレンスの１つの単一値は、スペクトル特性の対応する値の知覚的重要性尺度に従って各周波数帯内の空間コヒーレンス値に重み付けすることによって、周波数帯ごとに判定される、空間コヒーレンスを判定することと、
受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成を可能にするための、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの単一値に関する情報を受信ノードにシグナリングすることとを含む、方法。

７．スペクトル特性の所与の値の知覚的重要性尺度が、少なくとも２つの入力オーディオチャネルのオーディオ信号の合計の電力によって規定される、項目１または６に記載の方法。

８．より高いエネルギを有するスペクトル特性の値に対応する空間コヒーレンス値が、より低いエネルギを有するスペクトル特性の値に対応する空間コヒーレンス値と比較して、より大きな影響を空間コヒーレンスの前記１つの単一値に及ぼすように、各周波数帯内の空間コヒーレンス値が、重み付けされる、項目１または６に記載の方法。

９．少なくとも２つのオーディオチャネルの、フレームインデックスｍおよびサンプルインデックスｎのための、オーディオ信号ｌ（ｍ，ｎ）、ｒ（ｍ，ｎ）が、スペクトル特性が判定される前に、それぞれの窓処理される信号ｌ_ｗｉｎ（ｍ，ｎ）、ｒ_ｗｉｎ（ｍ，ｎ）を形成するために窓処理される、項目１または６に記載の方法。

１０．フレームインデックスｍおよびサンプルインデックスｋのための空間コヒーレンスＣ（ｍ，ｋ）が、次のように判定される、項目９に記載の方法：

１１．ｌｒ（ｍ，ｎ）＝ｌ（ｍ，ｎ）＋ｒ（ｍ，ｎ）のエネルギスペクトル|ＬＲ（ｍ，ｋ）|^２は、フレームｍ内の知覚的重要性尺度を規定し、空間コヒーレンス値に重み付けするために使用される、項目１０に記載の方法。

１２．各周波数帯は、下縁と上縁との間に広がり、そして、フレームインデックスｍおよび周波数帯ｂのための空間コヒーレンスの前記１つの単一値は、Ｃ_ｗ（ｍ，ｂ）で示され、次のように判定される：

そこで、Ｎ_ｂａｎｄは、周波数帯の総数を示し、そして、ｌｉｍｉｔ（ｂ）は、周波数帯ｂのより低い周波数ビンを示す、項目１１に記載の方法。

１３．ｌｉｍｉｔ（ｂ）が、関数またはルックアップテーブルとして与えられる、項目１２に記載の方法。

１４．空間コヒーレンスが、等しくない長さの周波数帯に分けられる、項目１または６に記載の方法。

１５．受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするための送信ノードであって、処理回路を備え、処理回路は、
少なくとも２つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することと、
それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定することであって、空間コヒーレンスは、知覚的重要性尺度に関連付けられる、空間コヒーレンスを判定することと、
空間コヒーレンスを周波数帯に分けることであって、空間コヒーレンスの圧縮表現が、知覚的重要性尺度に従って各周波数帯内の空間コヒーレンス値に重み付けすることによって、周波数帯ごとに判定される、周波数帯に分けることと、
受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成を可能にするための、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの圧縮表現に関する情報を受信ノードにシグナリングすることと
を送信ノードに行わせるように設定される、送信ノード。

１６．項目２から５のいずれか一項に記載の方法を実行するようにさらに設定された、項目１５に記載の送信ノード。

１７．受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするためのであって、処理回路を備え、処理回路は、
少なくとも２つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することであって、スペクトル特性は、知覚的重要性尺度に関連付けられる、スペクトル特性を判定することと、
それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定することであって、空間コヒーレンスは、周波数帯に分けられ、空間コヒーレンスの１つの単一値は、スペクトル特性の対応する値の知覚的重要性尺度に従って各周波数帯内の空間コヒーレンス値に重み付けすることによって、周波数帯ごとに判定される、空間コヒーレンスを判定することと、
受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成を可能にするための、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの単一値に関する情報を受信ノードにシグナリングすることと
を送信ノードに行わせるように設定される、送信ノード。

１８．項目７から１４のいずれか一項に記載の方法を実行するようにさらに設定された、項目１７に記載の送信ノード。

１９．無線トランシーバデバイスであって、項目１５から１８のいずれか一項に記載の送信ノードを備える無線トランシーバデバイス。

２０．受信ノードをさらに備える、項目１９に記載の無線トランシーバデバイス。

２１．受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするためのコンピュータプログラムであって、コンピュータコードを備え、コンピュータコードが、送信ノードの処理回路で実行されるとき、
少なくとも２つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することと、
それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定することであって、空間コヒーレンスは、知覚的重要性尺度に関連付けられる、空間コヒーレンスを判定することと、
空間コヒーレンスを周波数帯に分けることであって、空間コヒーレンスの圧縮表現が、知覚的重要性尺度に従って各周波数帯内の空間コヒーレンス値に重み付けすることによって、周波数帯ごとに判定される、周波数帯に分けることと、
受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成を可能にするための、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの圧縮表現に関する情報を受信ノードにシグナリングすることと
を送信ノードに行わせる、コンピュータプログラム。

２２．受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするためのコンピュータプログラムであって、コンピュータコードを備え、コンピュータコードが送信ノードの処理回路で実行されるとき、
少なくとも２つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することであって、スペクトル特性は、知覚的重要性尺度に関連付けられる、スペクトル特性を判定することと、
それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定することであって、空間コヒーレンスは、周波数帯に分けられ、空間コヒーレンスの１つの単一値は、スペクトル特性の対応する値の知覚的重要性尺度に従って各周波数帯内の空間コヒーレンス値に重み付けすることによって、周波数帯ごとに判定される、空間コヒーレンスを判定することと、
受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成を可能にするための、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの単一値に関する情報を受信ノードにシグナリングすることと
を送信ノードに行わせる、コンピュータプログラム。

２３．項目２１および２２のうちの少なくとも１つの項に記載のコンピュータプログラム、およびコンピュータプログラムが記憶されるコンピュータ可読記憶媒体を備える、コンピュータプログラム製品。

一般に、例示的実施形態および添付の特許請求の範囲で使用されるすべての用語は、本明細書において別段の明示的規定のない限り、その技術分野における通常の意味に従って解釈されるものとする。別段の明示的記述のない限り、「１つの／一／その要素、装置、構成要素、手段、モジュール、ステップなど」のすべての参照は、要素、装置、構成要素、手段、モジュール、ステップなどの少なくとも１つの例を参照するものとして解釈されるものとする。本明細書で開示されるいずれの方法のステップも、明示的に記述されていない限り、開示された正確な順番で実行されなくてもよい。

本発明の概念は、主に、いくつかの実施形態を参照して前述されている。しかしながら、前述の開示された実施形態以外の実施形態が、列挙された実施形態の添付のリストによって規定されるものとしての、本発明の概念の範囲内で同等に可能であることが、当業者には容易に理解されよう。

Claims

受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするための、送信ノードによって実行される方法であって、
少なくとも２つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定すること（Ｓ１０２）と、
それぞれの前記入力オーディオチャネルの前記オーディオ信号間の空間コヒーレンスを判定すること（Ｓ１０４）であって、前記空間コヒーレンスは、知覚的重要性尺度に関連付けられる、空間コヒーレンスを判定すること（Ｓ１０４）と、
前記空間コヒーレンスを周波数帯に分けること（Ｓ１０６）であって、前記空間コヒーレンスの圧縮表現は、前記知覚的重要性尺度に従って各周波数帯内の前記空間コヒーレンスに重み付けすることによって周波数帯ごとに判定される、周波数帯に分けること（Ｓ１０６）と、
前記受信ノードにおける前記少なくとも２つのオーディオチャネルのための前記快適雑音の前記生成を可能にするための、前記スペクトル特性に関する情報および前記周波数帯ごとの前記空間コヒーレンスの前記圧縮表現に関する情報を前記受信ノードにシグナリングすること（Ｓ１０８）と
を含む、方法。
前記空間コヒーレンスの前記圧縮表現が、周波数帯ごとの１つの単一値である、請求項１に記載の方法。
前記知覚的重要性尺度が、前記少なくとも２つの入力オーディオチャネルの前記スペクトル特性に基づく、請求項１または２に記載の方法。
前記知覚的重要性尺度が、前記少なくとも２つの入力オーディオチャネルのパワースペクトルに基づいて判定される、請求項３に記載の方法。
前記知覚的重要性尺度が、前記少なくとも２つの入力オーディオチャネルの加重和のパワースペクトルに基づいて判定される、請求項３に記載の方法。
前記スペクトル特性の所与の値の前記知覚的重要性尺度が、前記少なくとも２つの入力オーディオチャネルの前記オーディオ信号の合計のパワースペクトルに基づく、請求項１または２に記載の方法。
より高いエネルギを有する周波数係数の値に対応する前記空間コヒーレンス値が、より低いエネルギを有する周波数係数の値に対応する前記空間コヒーレンス値と比較して、前記空間コヒーレンスの前記１つの単一値により多くの影響を及ぼすように、各周波数帯内の前記空間コヒーレンス値が、重み付けされる、請求項２に記載の方法。
ｌｒ（ｍ，ｎ）＝ｌ（ｍ，ｎ）＋ｒ（ｍ，ｎ）のエネルギスペクトル｜ＬＲ（ｍ，ｋ）｜^２、ここで、ｌ（ｍ，ｎ）が、左のチャネルの入力信号を示し、ｒ（ｍ，ｎ）が、右のチャネルの入力信号を示す、は、フレームｍ内の前記知覚的重要性尺度を規定し、前記空間コヒーレンス値を重み付けするために使用される、請求項１に記載の方法。
フレームインデックスｍおよび周波数帯ｂの前記空間コヒーレンスの１つの単一値Ｃ_ｗ（ｍ，ｂ）が、

として判定され、ここで、Ｎ_ｂａｎｄが、周波数帯の総数を示し、ｌｉｍｉｔ（ｂ）が、周波数帯ｂの最低の周波数ビンを示す、請求項８に記載の方法。
受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするための送信ノード（２００ａ）であって、処理回路（２１０）を備え、前記処理回路が、
少なくとも２つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することと、
それぞれの前記入力オーディオチャネルの前記オーディオ信号間の空間コヒーレンスを判定することであって、前記空間コヒーレンスは、前記知覚的重要性尺度に関連付けられる、空間コヒーレンスを判定することと、
前記空間コヒーレンスを周波数帯に分けることであって、前記空間コヒーレンスの圧縮表現は、前記知覚的重要性尺度に従って各周波数帯内の前記空間コヒーレンスに重み付けすることによって、周波数帯ごとに判定される、周波数帯に分けることと、
前記受信ノードにおける前記少なくとも２つのオーディオチャネルのための前記快適雑音の前記生成を可能にするための、前記スペクトル特性に関する情報および周波数帯ごとの前記空間コヒーレンスの前記圧縮表現に関する情報を前記受信ノードにシグナリングすることと
を前記送信ノードに行わせるように設定された、送信ノード。
請求項２から９のいずれか一項に記載の方法を実行するようにさらに設定された、請求項１０に記載の送信ノード。
請求項１０または１１に記載の送信ノードを備える無線トランシーバデバイス。
前記受信ノードをさらに備える、請求項１２に記載の無線トランシーバデバイス。
受信ノードにおける少なくとも２つのオーディオチャネルのための快適雑音の生成をサポートするためのコンピュータプログラム（１４２０）であって、コンピュータコードを備え、コンピュータコードが前記送信ノードの処理回路で実行されるとき、
少なくとも２つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することと、
それぞれの前記入力オーディオチャネルの前記オーディオ信号間の空間コヒーレンスを判定することであって、前記空間コヒーレンスは、知覚的重要性尺度に関連付けられる、空間コヒーレンスを判定することと、
前記空間コヒーレンスを周波数帯に分けることであって、前記空間コヒーレンスの圧縮表現は、前記知覚的重要性尺度に従って各周波数帯内の前記空間コヒーレンスに重み付けすることによって、周波数帯ごとに判定される、周波数帯に分けることと、
前記受信ノードにおける前記少なくとも２つのオーディオチャネルのための前記快適雑音の前記生成を可能にするための、前記スペクトル特性に関する情報および周波数帯ごとの前記空間コヒーレンスの前記圧縮表現に関する情報を前記受信ノードにシグナリングすることと
を前記送信ノードに行わせる、コンピュータプログラム。
請求項１４に記載のコンピュータプログラム、および前記コンピュータプログラムが記憶されるコンピュータ可読記憶媒体を備える、コンピュータプログラム製品（１４１０）。