JP7142109B2

JP7142109B2 - 空間オーディオパラメータのシグナリング

Info

Publication number: JP7142109B2
Application number: JP2020566885A
Authority: JP
Inventors: ミッコ・ヴィッレライティネン; ラッセラークソネン; ユハヴィルカモ; タパニフィラヤクヤ
Original assignee: ノキアテクノロジーズオーユー
Priority date: 2018-05-31
Filing date: 2019-05-29
Publication date: 2022-09-26
Anticipated expiration: 2039-05-29
Also published as: WO2019229298A1; US11832078B2; GB2574239A; US20210219084A1; US20220272475A1; US11412336B2; CN112513980A; JP2021525392A; EP3803857A1; GB201808930D0; EP3803857A4

Description

本出願は、空間オーディオパラメータのシグナリングのための装置および方法に関するが、配向および球形セクタパラメータでの空間コヒーレンスのシグナリング専用ではない。

背景

パラメータの空間オーディオ処理は、音声の空間の態様がパラメータのセットを使用して説明される、オーディオ信号処理の分野である。例えば、マイクロフォンアレイからのパラメータの空間オーディオの捕捉では、マイクロフォンアレイ信号から、周波数帯域での音声の方向、および周波数帯域での捕捉された音声の指向性部分と無指向性部分との間の比などのパラメータのセットを推定することは、典型的で有効な選択である。これらのパラメータは、マイクロフォンアレイの位置で捕捉された音声の知覚の空間特性を十分に説明することが知られている。これらのパラメータは、バイノーラルのヘッドフォン、スピーカー、または他のフォーマット（アンビソニックスなど）に対する空間音声の合成で適宜利用され得る。

したがって、周波数帯域での方向および直接対総エネルギー比は、空間オーディオ捕捉に特に有効なパラメータ表示である。

周波数帯域での方向パラメータおよび（音声の指向性を示す）周波数帯域でのエネルギー比パラメータで構成されたパラメータセットはまた、オーディオコーデックのための空間メタデータとして利用され得る。例えば、これらのパラメータは、マイクロフォンアレイ捕捉オーディオ信号および他の入力フォーマットから推定されてもよく、例えば、ステレオ信号は、空間メタデータで送信されるマイクロフォンアレイ信号から生成され得る。ステレオ信号は、例えば、（デュアルモノ構成での）拡張音声サービス（Enhanced Voice Service：ＥＶＳ）またはアドバンストオーディオコーディング（Advanced Audio Coding：ＡＡＣ）エンコーダでエンコードされ得る。対応するデコーダは、オーディオ信号をＰＣＭ信号にデコードし、（空間メタデータを使用して）周波数帯域で音声を処理して、空間出力、例えば、バイノーラル出力を取得し得る。

前述のソリューションは、（例えば、携帯電話、ＶＲカメラ、スタンドアロンマイクロフォンアレイでの）マイクロフォンアレイから捕捉された空間音声をエンコードするのに特に好適である。そのようなエンコーダが、メタデータパラメータをエンコードして、入力オーディオ信号の関連態様をより正確に送信することができることが望ましい場合がある。

摘要

第１の態様によれば、装置が提供される。当該装置は、
２つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも１つの空間オーディオパラメータを決定する手段と、
前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのオーディオ信号関係パラメータを決定する手段であって、前記少なくとも１つの空間オーディオパラメータおよび前記少なくとも１つのオーディオ信号関係パラメータに基づいて、前記２つ以上のスピーカーチャネルオーディオ信号を再生するように、少なくとも１つのコヒーレンスパラメータが、少なくとも２つの周波数帯域について、前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのチャネル間コヒーレンス情報を提供するように、前記少なくとも１つのオーディオ信号関係パラメータは前記少なくとも１つのコヒーレンスパラメータに対応付けられている、決定する手段と、
前記少なくとも１つの空間オーディオパラメータを送信し、少なくとも１つの決定された値を使用して、前記少なくとも１つのチャネル間コヒーレンス情報に対応付けられた少なくとも１つの情報を送信する手段と、
を備える。

前記送信する手段は、さらに、前記少なくとも１つのオーディオ信号関係パラメータを送信し、
前記少なくとも１つの決定された値を使用して、前記少なくとも１つのチャネル間コヒーレンス情報に対応付けられた前記少なくとも１つの情報を前記送信する手段は、前記少なくとも１つのコヒーレンスパラメータの少なくとも１つの配向、前記少なくとも１つのコヒーレンスパラメータの少なくとも１つの幅、および前記少なくとも１つのコヒーレンスパラメータの少なくとも１つの範囲のうちの少なくとも１つを送信してもよい。

前記少なくとも１つの決定された値は、少なくとも１つの配向コード、少なくとも１つの幅コード、および少なくとも１つの範囲コードのうちの少なくとも１つを含んでもよい。

２つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも１つの空間オーディオパラメータを前記決定する手段が、前記２つ以上のスピーカーチャネルオーディオ信号について、少なくとも１つの方向パラメータおよび／または少なくとも１つのエネルギー比を決定してもよい。

前記手段は、さらに、前記２つ以上のスピーカーチャネルオーディオ信号から伝送オーディオ信号を決定してもよく、
前記２つ以上のスピーカーチャネルオーディオ信号は、前記少なくとも１つの空間オーディオパラメータ、前記少なくとも１つのコヒーレンスパラメータ、および／または前記伝送オーディオ信号に基づいて再生され得る。

前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのコヒーレンスパラメータを前記決定する手段は、拡散コヒーレンスパラメータを決定し、
前記拡散コヒーレンスパラメータは、識別されたスピーカーチャネルオーディオ信号に空間的に隣接する２つ以上のスピーカーチャネルオーディオ信号間でチャネル間コヒーレンス情報に基づいて決定されてもよく、
前記識別されたスピーカーチャネルオーディオ信号は、前記少なくとも１つの空間オーディオパラメータに基づいて識別される。

拡散コヒーレンスパラメータを前記決定する手段は、さらに、
前記２つ以上のスピーカーチャネルオーディオ信号が、前記少なくとも１つの方向パラメータに空間的に最も近い前記スピーカーチャネルオーディオ信号である前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する２つのスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すことに対応付けられたステレオネスパラメータを決定し、
前記２つ以上のスピーカーチャネルオーディオ信号が、前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する少なくとも２つ以上のスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すことに対応付けられたコヒーレントパンニングパラメータを決定し、
前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを生成してもよい。

前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを前記生成する手段は、さらに、
前記少なくとも１つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定し、
前記識別されたスピーカーからの方向からサーチし、エリアでの各サーチが、一連の角度ステップで０から１８０度までの角度を含み、
定義された主要なスピーカーチャネルと、前記サーチエリア内の任意のスピーカーチャネルとの間で平均コヒーレンス値を推定し、
前記平均コヒーレンス値に基づいて、実質的に一定のコヒーレンスエリアを決定し、
最も大きいコヒーレンスエリアの２倍で拡散範囲を設定し、
前記拡散範囲に基づいて、前記コヒーレントパンニングパラメータを定義してもよい。

前記最も大きいコヒーレンスエリアに基づいて、前記コヒーレントパンニングパラメータを前記定義する手段は、前記少なくとも１つの方向パラメータに最も近いスピーカーを決定し、
前記スピーカーと、前記最も大きいコヒーレンスエリアの内側のすべてのスピーカーとの間で正規化されたコヒーレンスｃ_ａ、ｉを決定し、
閾値エネルギーよりも低いエネルギーを有するスピーカーを省略し、
残りのスピーカーから最小のコヒーレンスを選択し、
前記残りのスピーカー間でエネルギー分配に基づいて、エネルギー分配パラメータを決定し、
前記コヒーレントパンニングパラメータを決定するために、前記最も大きいコヒーレンスエリアで前記エネルギー分配パラメータを乗算してもよい。

前記ステレオネスパラメータを前記決定する手段は、さらに、
前記少なくとも１つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定し、
前記識別されたスピーカーからの方向からサーチし、リングでの各サーチが、一連の角度ステップで０から１８０度までの角度によって定義され、
前記サーチリングの近くに配置されたすべてのスピーカーについて、平均コヒーレンス値および平均エネルギー値を推定し、
前記平均コヒーレンス値および平均エネルギー値に基づいて、最も大きいコヒーレンスリング角度を決定し、
前記最も大きいコヒーレンスリング角度の２倍で拡散範囲を設定し、
前記拡散範囲に基づいて、前記ステレオネスパラメータを定義してもよい。

前記拡散範囲に基づいて、前記ステレオネスパラメータを前記定義する手段は、最も大きいエネルギーを有する最も大きいコヒーレンスリング上でスピーカーを識別し、
前記識別されたスピーカーと、前記最も大きいコヒーレンスリング上の他のスピーカーとの間で正規化されたコヒーレンスを決定し、
それぞれのエネルギーによって重み付けされる前記正規化されたコヒーレンスの平均値を求め、
前記最も大きいコヒーレンスリング上のエネルギーおよび前記最も大きいコヒーレンスリングの内側のエネルギーの比を求め、
前記ステレオネスパラメータを形成するために、エネルギーの前記比および正規化されたコヒーレンスの平均値を乗算してもよい。

第２の態様によれば、空間オーディオ信号処理のための方法が提供される。当該方法は、
２つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも１つの空間オーディオパラメータを決定することと、
前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのオーディオ信号関係パラメータを決定することであって、前記少なくとも１つの空間オーディオパラメータおよび前記少なくとも１つのオーディオ信号関係パラメータに基づいて、前記２つ以上のスピーカーチャネルオーディオ信号を再生するように、少なくとも１つのコヒーレンスパラメータが、少なくとも２つの周波数帯域について、前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのチャネル間コヒーレンス情報を提供するように、前記少なくとも１つのオーディオ信号関係パラメータは前記少なくとも１つのコヒーレンスパラメータに対応付けられている、決定することと、
前記少なくとも１つの空間オーディオパラメータを送信し、少なくとも１つの決定された値を使用して、前記少なくとも１つのチャネル間コヒーレンス情報に対応付けられた少なくとも１つの情報を送信することと、
を含む。

少なくとも１つの決定された値を使用して、前記少なくとも１つのチャネル間コヒーレンス情報に対応付けられた少なくとも１つの情報を送信することは、前記少なくとも１つのコヒーレンスパラメータの少なくとも１つの配向、前記少なくとも１つのコヒーレンスパラメータの少なくとも１つの幅、および前記少なくとも１つのコヒーレンスパラメータの少なくとも１つの範囲のうちの少なくとも１つを送信することを含んでもよい。

２つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも１つの空間オーディオパラメータを決定することが、前記２つ以上のスピーカーチャネルオーディオ信号について、少なくとも１つの方向パラメータおよび／または少なくとも１つのエネルギー比を決定することを含んでもよい。

前記方法は、前記２つ以上のスピーカーチャネルオーディオ信号から伝送オーディオ信号を決定することを含んでもよく、
前記２つ以上のスピーカーチャネルオーディオ信号は、前記少なくとも１つの空間オーディオパラメータ、前記少なくとも１つのコヒーレンスパラメータ、および／または前記伝送オーディオ信号に基づいて再生され得る。

前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのコヒーレンスパラメータを決定することは、拡散コヒーレンスパラメータを決定することを含んでもよく、
前記拡散コヒーレンスパラメータは、識別されたスピーカーチャネルオーディオ信号に空間的に隣接する２つ以上のスピーカーチャネルオーディオ信号間でチャネル間コヒーレンス情報に基づいて決定されてもよく、
前記識別されたスピーカーチャネルオーディオ信号は、前記少なくとも１つの空間オーディオパラメータに基づいて識別される。

拡散コヒーレンスパラメータを決定することは、
前記２つ以上のスピーカーチャネルオーディオ信号が、前記少なくとも１つの方向パラメータに空間的に最も近い前記スピーカーチャネルオーディオ信号である前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する２つのスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すことに対応付けられたステレオネスパラメータを決定することと、
前記２つ以上のスピーカーチャネルオーディオ信号が、前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する少なくとも２つ以上のスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すことに対応付けられたコヒーレントパンニングパラメータを決定することと、
前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを生成することと、を含んでもよい。

前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを生成することは、
前記少なくとも１つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定することと、
前記識別されたスピーカーからの方向からサーチすることであって、エリアでの各サーチが、一連の角度ステップで０から１８０度までの角度を含む、サーチすることと、
定義された主要なスピーカーチャネルと、前記サーチエリア内の任意のスピーカーチャネルとの間で平均コヒーレンス値を推定することと、
前記平均コヒーレンス値に基づいて、実質的に一定のコヒーレンスエリアを決定することと、
最も大きいコヒーレンスエリアの２倍で拡散範囲を設定することと、
前記拡散範囲に基づいて、前記コヒーレントパンニングパラメータを定義することと、を含んでもよい。

前記最も大きいコヒーレンスエリアに基づいて、前記コヒーレントパンニングパラメータを定義することは、
前記少なくとも１つの方向パラメータに最も近いスピーカーを決定することと、
前記スピーカーと、前記最も大きいコヒーレンスエリアの内側のすべてのスピーカーとの間で正規化されたコヒーレンスｃ_ａ、ｉを決定することと、
閾値エネルギーよりも低いエネルギーを有するスピーカーを省略することと、
残りのスピーカーから最小のコヒーレンスを選択することと、
前記残りのスピーカー間でエネルギー分配に基づいて、エネルギー分配パラメータを決定することと、
前記コヒーレントパンニングパラメータを決定するために、前記最も大きいコヒーレンスエリアで前記エネルギー分配パラメータを乗算することと、を含んでもよい。

前記ステレオネスパラメータを決定することは、前記少なくとも１つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定することと、
前記識別されたスピーカーからの方向からサーチすることであって、リングでの各サーチが、一連の角度ステップで０から１８０度までの角度によって定義される、サーチすることと、
前記サーチリングの近くに配置されたすべてのスピーカーについて、平均コヒーレンス値および平均エネルギー値を推定することと、
前記平均コヒーレンス値および平均エネルギー値に基づいて、最も大きいコヒーレンスリング角度を決定することと、
前記最も大きいコヒーレンスリング角度の２倍で拡散範囲を設定することと、
前記拡散範囲に基づいて、前記ステレオネスパラメータを定義することと、を含んでもよい。

前記拡散範囲に基づいて、前記ステレオネスパラメータを定義することは、
最も大きいエネルギーを有する最も大きいコヒーレンスリング上でスピーカーを識別することと、
前記識別されたスピーカーと、前記最も大きいコヒーレンスリング上の他のスピーカーとの間で正規化されたコヒーレンスを決定することと、
それぞれのエネルギーによって重み付けされる前記正規化されたコヒーレンスの平均値を求めることと、
前記最も大きいコヒーレンスリング上のエネルギーおよび前記最も大きいコヒーレンスリングの内側のエネルギーの比を求めることと、
前記ステレオネスパラメータを形成するために、エネルギーの前記比および正規化されたコヒーレンスの平均値を乗算することと、を含んでもよい。

第３の態様によれば、装置が提供される。当該装置は、
少なくとも１つのプロセッサと、
コンピュータプログラムコードを含む少なくとも１つのメモリと、
を備える。
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサによって、前記装置に少なくとも、
２つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも１つの空間オーディオパラメータを決定させ、
前記少なくとも１つの空間オーディオパラメータおよび少なくとも１つのオーディオ信号関係パラメータに基づいて、前記２つ以上のスピーカーチャネルオーディオ信号を再生するように、少なくとも１つのコヒーレンスパラメータが、少なくとも２つの周波数帯域について、前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのチャネル間コヒーレンス情報を提供するように、前記少なくとも１つのコヒーレンスパラメータに対応付けられた、前記少なくとも１つのオーディオ信号関係パラメータを、前記２つ以上のスピーカーチャネルオーディオ信号間で決定させ、
前記少なくとも１つの空間オーディオパラメータを送信させ、少なくとも１つの決定された値を使用して、前記少なくとも１つのチャネル間コヒーレンス情報に対応付けられた少なくとも１つの情報を送信させる
ように構成されている。

少なくとも１つの決定された値を使用して、前記少なくとも１つのチャネル間コヒーレンス情報に対応付けられた少なくとも１つの情報を送信する前記装置は、前記装置に、前記少なくとも１つのコヒーレンスパラメータの少なくとも１つの配向、前記少なくとも１つのコヒーレンスパラメータの少なくとも１つの幅、および前記少なくとも１つのコヒーレンスパラメータの少なくとも１つの範囲のうちの少なくとも１つを送信させ得る。

２つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも１つの空間オーディオパラメータを決定する前記装置は、前記２つ以上のスピーカーチャネルオーディオ信号について、少なくとも１つの方向パラメータおよび／または少なくとも１つのエネルギー比を決定してもよい。

前記装置は、前記２つ以上のスピーカーチャネルオーディオ信号から伝送オーディオ信号を決定してもよく、
前記２つ以上のスピーカーチャネルオーディオ信号は、前記少なくとも１つの空間オーディオパラメータ、前記少なくとも１つのコヒーレンスパラメータ、および／または前記伝送オーディオ信号に基づいて再生され得る。

前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのコヒーレンスパラメータを決定する前記装置は、拡散コヒーレンスパラメータを決定してもよく、
前記拡散コヒーレンスパラメータは、識別されたスピーカーチャネルオーディオ信号に空間的に隣接する２つ以上のスピーカーチャネルオーディオ信号間でチャネル間コヒーレンス情報に基づいて決定されてもよく、
前記識別されたスピーカーチャネルオーディオ信号は、前記少なくとも１つの空間オーディオパラメータに基づいて識別される。

拡散コヒーレンスパラメータを決定する前記装置は、
前記２つ以上のスピーカーチャネルオーディオ信号が、前記少なくとも１つの方向パラメータに空間的に最も近い前記スピーカーチャネルオーディオ信号である前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する２つのスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すことに対応付けられたステレオネスパラメータを決定し、
前記２つ以上のスピーカーチャネルオーディオ信号が、前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する少なくとも２つ以上のスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すことに対応付けられたコヒーレントパンニングパラメータを決定し、
前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを生成してもよい。

前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを生成する前記装置は、
前記少なくとも１つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定し、
前記識別されたスピーカーからの方向からサーチし、エリアでの各サーチが、一連の角度ステップで０から１８０度までの角度を含み、
定義された主要なスピーカーチャネルと、前記サーチエリア内の任意のスピーカーチャネルとの間で平均コヒーレンス値を推定し、
前記平均コヒーレンス値に基づいて、実質的に一定のコヒーレンスエリアを決定し、
最も大きいコヒーレンスエリアの２倍で拡散範囲を設定し、
前記拡散範囲に基づいて、前記コヒーレントパンニングパラメータを定義してもよい。

前記最も大きいコヒーレンスエリアに基づいて、前記コヒーレントパンニングパラメータを定義する前記装置は、
前記少なくとも１つの方向パラメータに最も近いスピーカーを決定し、
前記スピーカーと、前記最も大きいコヒーレンスエリアの内側のすべてのスピーカーとの間で正規化されたコヒーレンスｃ_ａ、ｉを決定し、
閾値エネルギーよりも低いエネルギーを有するスピーカーを省略し、
残りのスピーカーから最小のコヒーレンスを選択し、
前記残りのスピーカー間でエネルギー分配に基づいて、エネルギー分配パラメータを決定し、
前記コヒーレントパンニングパラメータを決定するために、前記最も大きいコヒーレンスエリアで前記エネルギー分配パラメータを乗算してもよい。

前記ステレオネスパラメータを決定する前記装置は、
前記少なくとも１つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定し、
前記識別されたスピーカーからの方向からサーチし、リングでの各サーチが、一連の角度ステップで０から１８０度までの角度によって定義され、
前記サーチリングの近くに配置されたすべてのスピーカーについて、平均コヒーレンス値および平均エネルギー値を推定し、
前記平均コヒーレンス値および平均エネルギー値に基づいて、最も大きいコヒーレンスリング角度を決定し、
前記最も大きいコヒーレンスリング角度の２倍で拡散範囲を設定し、
前記拡散範囲に基づいて、前記ステレオネスパラメータを定義してもよい。

前記拡散範囲に基づいて、前記ステレオネスパラメータを定義する前記装置は、
最も大きいエネルギーを有する最も大きいコヒーレンスリング上でスピーカーを識別し、
前記識別されたスピーカーと、前記最も大きいコヒーレンスリング上の他のスピーカーとの間で正規化されたコヒーレンスを決定し、
それぞれのエネルギーによって重み付けされる前記正規化されたコヒーレンスの平均値を求め、
前記最も大きいコヒーレンスリング上のエネルギーおよび前記最も大きいコヒーレンスリングの内側のエネルギーの比を求め、
前記ステレオネスパラメータを形成するために、エネルギーの前記比および正規化されたコヒーレンスの平均値を乗算してもよい。

第４の態様によれば、命令を含むコンピュータプログラム（またはプログラム命令を含むコンピュータ可読媒体）が提供される。当該命令は、装置に少なくとも、
２つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも１つの空間オーディオパラメータを決定することと、
前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのオーディオ信号関係パラメータを決定することであって、前記少なくとも１つの空間オーディオパラメータおよび前記少なくとも１つのオーディオ信号関係パラメータに基づいて、前記２つ以上のスピーカーチャネルオーディオ信号を再生するように、少なくとも１つのコヒーレンスパラメータが、少なくとも２つの周波数帯域について、前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのチャネル間コヒーレンス情報を提供するように、前記少なくとも１つのオーディオ信号関係パラメータは前記少なくとも１つのコヒーレンスパラメータに対応付けられている、決定することと、
前記少なくとも１つの空間オーディオパラメータを送信し、少なくとも１つの決定された値を使用して、前記少なくとも１つのチャネル間コヒーレンス情報に対応付けられた少なくとも１つの情報を送信することと、
を実行させる。

第５の態様によれば、プログラム命令を含む非一時的コンピュータ可読媒体が提供される。当該プログラム命令は、装置に少なくとも、
２つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも１つの空間オーディオパラメータを決定することと、
前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのオーディオ信号関係パラメータを決定することであって、前記少なくとも１つの空間オーディオパラメータおよび前記少なくとも１つのオーディオ信号関係パラメータに基づいて、前記２つ以上のスピーカーチャネルオーディオ信号を再生するように、少なくとも１つのコヒーレンスパラメータが、少なくとも２つの周波数帯域について、前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのチャネル間コヒーレンス情報を提供するように、前記少なくとも１つのオーディオ信号関係パラメータは前記少なくとも１つのコヒーレンスパラメータに対応付けられている、決定することと、
前記少なくとも１つの空間オーディオパラメータを送信し、少なくとも１つの決定された値を使用して、前記少なくとも１つのチャネル間コヒーレンス情報に対応付けられた少なくとも１つの情報を送信することと、
を実行させる。

第６の態様によれば、装置が提供される。当該装置は、
２つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも１つの空間オーディオパラメータを決定するように構成された空間オーディオパラメータ決定回路と、
前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのオーディオ信号関係パラメータを決定するように構成されたオーディオ信号関係パラメータ決定回路であって、前記少なくとも１つの空間オーディオパラメータおよび前記少なくとも１つのオーディオ信号関係パラメータに基づいて、前記２つ以上のスピーカーチャネルオーディオ信号を再生するように、少なくとも１つのコヒーレンスパラメータが、少なくとも２つの周波数帯域について、前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのチャネル間コヒーレンス情報を提供するように、前記少なくとも１つのオーディオ信号関係パラメータは前記少なくとも１つのコヒーレンスパラメータに対応付けられている、オーディオ信号関係パラメータ決定回路と、
前記少なくとも１つの空間オーディオパラメータを送信し、少なくとも１つの決定された値を使用して、前記少なくとも１つのチャネル間コヒーレンス情報に対応付けられた少なくとも１つの情報を送信することを制御するための送信制御回路と、を備える。

第７の態様によれば、プログラム命令を含むコンピュータ可読媒体が提供される。当該は、装置に少なくとも、
２つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために少なくとも１つの空間オーディオパラメータを決定することと、
前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのオーディオ信号関係パラメータを決定することであって、前記少なくとも１つの空間オーディオパラメータおよび前記少なくとも１つのオーディオ信号関係パラメータに基づいて、前記２つ以上のスピーカーチャネルオーディオ信号を再生するように、少なくとも１つのコヒーレンスパラメータが、少なくとも２つの周波数帯域について、前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのチャネル間コヒーレンス情報を提供するように、前記少なくとも１つのオーディオ信号関係パラメータは前記少なくとも１つのコヒーレンスパラメータに対応付けられている、決定することと、
前記少なくとも１つの空間オーディオパラメータを送信し、少なくとも１つの決定された値を使用して、前記少なくとも１つのチャネル間コヒーレンス情報に対応付けられた少なくとも１つの情報を送信することと、
を実行させる。

上述のような方法の動作を実行する手段を備える装置。

上述のような方法の動作を実行するように構成された装置。

コンピュータに、上述のような方法を実行させるためのプログラム命令を含む、コンピュータプログラム。

媒体上に記憶されるコンピュータプログラム製品が、装置に、本明細書で説明されるような方法を実行させ得る。

電子デバイスが、本明細書で説明されるような装置を含み得る。

チップセットが、本明細書で説明されるような装置を含み得る。

本出願の実施形態は、従来技術に伴う問題に対処することを目的とする。

ここで、本出願をより十分に理解するために、例として、添付の図面を参照する。
一部の実施形態を実施するのに好適な装置のシステムを概略的に示す。一部の実施形態による、図１に示すようなシステムの動作のフローチャートを示す。一部の実施形態による、図１に示すような分析プロセッサを概略的に示す。一部の実施形態による、図２に示すような分析プロセッサの動作のフローチャートを示す。一部の実施形態による、図２に示すような分析プロセッサの動作のフローチャートを示す。一部の実施形態による、図２に示すような分析プロセッサの動作のフローチャートを示す。一部の実施形態による、図２に示すような分析プロセッサの動作のフローチャートを示す。一部の実施形態による、図２に示すような分析プロセッサの動作のフローチャートを示す。一部の実施形態による、図２に示すような分析プロセッサの動作のフローチャートを示す。一部の実施形態の用途に好適な、例示的なバーチャルスピーカーノード配置を示す。一部の実施形態の用途に好適な、例示的なバーチャルスピーカーノード配置を示す。スピーカーノードのアレイでの例示的なコヒーレンスを示す。スピーカーノードのアレイでの例示的なコヒーレンスを示す。例示的なバーチャルスピーカーアレイを示す。例示的なバーチャルスピーカーアレイを示す。一部の実施形態による、例示的な拡散コヒーレンス配向のエンコーディング量子化の例を示す。一部の実施形態による、拡散コヒーレンス配向のエンコーディングを示す例示的な量子化の表を示す。一部の実施形態による、拡散コヒーレンス配向のエンコーディングを示す例示的な量子化の表を示す。コヒーレンスパラメータの決定のための例示的な増加するリング／エリアを示す。一部の実施形態による、図１に示すような合成プロセッサを概略的に示す。一部の実施形態による、図１１に示すような合成プロセッサの例示的な動作のフローチャートを示す。一部の実施形態による、ターゲット共分散行列の生成の例示的な動作のフローチャートを示す。本明細書で説明される装置を実施するのに好適な例示的なデバイスを概略的に示す。

本出願の実施形態

空間分析により導出されるメタデータパラメータについての有効なエンコーディングを提供するための好適な装置および可能性のある機構を、以下でさらに詳細に説明する。

前述のように、周波数帯域での方向および直接対総エネルギー比（または拡散比、絶対エネルギー、もしくは所与の時間周波数間隔で音声の指向性／無指向性を示す任意の好適な式）パラメータなどの空間メタデータパラメータは、自然音声フィールド（言い換えると、捕捉された音声フィールド）および合成音声フィールド（言い換えると、マルチチャネルスピーカーミックスなどの生成音声フィールド）の両方の知覚特性を表すのに特に好適である。

好適な空間パラメータの一例は、コヒーレンスパラメータである。以下でさらに詳細に論じられるようなコンセプトは、大きい範囲のビットレートでパラメータの効率的な送信を実現することである。

以下に例で詳述されるようなコンセプトは、音声フィールド関連のパラメータ表示（周波数帯域での方向および比）を使用するオーディオエンコーディングおよびデコーディングに関する。ここで、ソリューションは、前述のパラメータ表示でエンコードされる、（生成および記録の両方の）スピーカーサラウンドミックスの再生品質を向上させるために提供される。

さらに、実施形態は、チャネル／スピーカーのチャネル間コヒーレンスエリアまたはグループの配向および幅（範囲）情報を含む、周波数帯域でのスピーカー信号のチャネル間コヒーレンス情報の分析によるスピーカーサラウンドミックスの知覚品質の向上について論じる。

さらに、以下の例は、空間パラメータ（すなわち、方向およびエネルギー比）と共に送信される空間コヒーレンスパラメータを示す。ここで、配向および幅／範囲は、「配向コード」、一部の実施形態では「配向コード」および「円形セクタコード」を効率的に使用するエンコーディングに提供される。これらのコードは、一部の実施形態では、両方とも各指向性パラメータに４ビットを消費し得る。

以下で論じられるような例はさらに、配向コードおよび円形セクタコードを含む指向性パラメータおよび空間コヒーレンスパラメータに基づく音声の再生を説明する。そのため、空間コヒーレンスパラメータは、配向コードおよび円形セクタコードよる再生オーディオ信号の相互相関に影響を及ぼす。

出力信号の相互相関は、再生スピーカー信号、再生バイノーラル信号、または再生アンビソニックス信号の相互相関を指し得る。

以下の例のうちのいくつかにおいて、「拡散コヒーレンス」パラメータのシグナリングは、エリア配向および範囲のフォーマットである。この例示的フォーマットでの拡散配向コードは、０～１８０度の回転を有し、この例示的フォーマットでの円形セクタコードは、拡散範囲について０～３６０度の中心角を有する。

一部の実施形態では、球形セクタコードが代替的に使用され得る。

そのように、例示的な実装態様でさらに詳細に論じられるようなコンセプトは、空間オーディオまたは音声フィールド関連のパラメータ表示を使用するオーディオエンコーディングおよびデコーディングに関する（例えば、他の空間メタデータパラメータは、方向、エネルギー比、直接対総計の比、指向性安定性、または他の好適なパラメータを含んでもよい）。コンセプトはさらに、前述のパラメータ表示でエンコードされるスピーカーサラウンドミックスの再生品質を向上させることを目的とする、方法および装置を含む実施形態を開示する。

コンセプト実施形態は、周波数帯域でのスピーカー信号のチャネル間コヒーレンスを分析し、指向性パラメータと共に空間コヒーレンスパラメータを送信し、指向性パラメータおよび空間コヒーレンスパラメータに基づいて音声を再生することによって、スピーカーサラウンドミックスの品質を向上させる。そのため、空間コヒーレンスは、再生オーディオ信号の相互相関に影響を及ぼす。

ここで、コヒーレンスまたは相互相関という用語は、厳密に、正規化された二乗値などの信号間の１つの特定の類似値として解釈されるのではなく、一般的にプレイバックオーディオ信号間の類似値を反映し、（位相での）複素数値、絶対値、正規化された値、または二乗値であり得る。コヒーレンスパラメータは、より一般的には、任意の方法でオーディオ信号の類似性を示すオーディオ信号関係パラメータとして表され得る。

出力信号のコヒーレンスは、再生スピーカー信号、再生バイノーラル信号、または再生アンビソニックス信号のコヒーレンスを指し得る。

したがって、論じられるコンセプト実装態様は、次のような２つの関連のパラメータを提供し得る。すなわち、音声エネルギーの指向性部分に関する、特定の方向でのエリアに及ぶ空間コヒーレンス、および音声エネルギーの周囲／無指向性部分に関する、周囲の空間コヒーレンスである。

その上、比パラメータは、以下でさらに詳細に論じられるように、さらなるオーディオ品質向上のために、決定された空間コヒーレンスまたはオーディオ信号関係パラメータ（複数可）に基づいて修正されてもよい。

以下で詳述する例示的な実施形態では、スピーカーサラウンドミックスが水平のサラウンドセットアップである、典型的なシナリオが説明される。他の実施形態では、空間コヒーレンスまたはオーディオ信号関係パラメータは、「３Ｄ」スピーカー構成からも推定され得る。言い換えると、一部の実施形態では、空間コヒーレンスまたはオーディオ信号関係パラメータは、定義された面の「上」または「下」に位置する方向（例えば、定義された「水平」面に対して高い、または低いスピーカー）に対応付けられ得る。

スピーカーミックスでのチャネルのうちのいずれかの間で任意の度合いのコヒーレンスが存在し得る。理論的には、知覚的にこれを正確に説明するために、周波数帯域でのスピーカー信号の共分散行列によって送信されるすべての情報が、空間メタデータで送信されるべきである。そのような共分散行列のサイズは、Ｎ×Ｎであり、ここで、Ｎは、スピーカーチャネルの数である。これは、５チャネルシステムについて、各時間周波数分析間隔で１０個の複素相互相関値を送信し、７チャネルシステムについて、２１個の複素相互相関値を送信する、などということを意味する。明らかに、これは、好適な低ビットレートコーデックについて、あまりにも多いメタデータを生成する。よって、以下の実施形態では、ビットレートを低く維持するために知覚的に必須の態様のみが空間メタデータによって説明される例が説明される。

完全性のために、本実施形態の範囲以外の範囲では、スピーカーミックスのチャネル間関係の送信を最適化する実用的な空間オーディオエンコーダは、スピーカーミックスの全体の共分散行列を送信しないが、元のサラウンド信号が有したものと実質的に類似の共分散行列を有するデコーダ側でサラウンド音声信号を取り戻すためにアップミキシングパラメータのセットを提供する。これらのようなソリューションが採用されている。しかしながら、そのような方法は、既存のスピーカーミックスのみのエンコーディングおよびデコーディングに特有である。本文脈は、捕捉された空間オーディオに特に適合したスピーカーセットアップ独立パラメータ表示である方向および比のメタデータを使用する、空間オーディオエンコーディングである（よって、本方法がスピーカーサラウンド入力の場合の品質を向上させることを要求する）。

したがって、例は、以下で論じられるような、知覚的に決定されたスピーカーセットアップ独立パラメータ表示の方法を使用する、５．１および７．１（ならびに他のフォーマットの）チャネルスピーカーミックスの再生品質を解決することに焦点が置かれる。

実際の５．１および７．１チャネルスピーカーミックス内で、方向比パラメータ表示に関連する問題である空間コヒーレンスの３つの典型的な場合が存在する。
１）音声が、「エアリー」知覚を生成するために２つのスピーカーを使用（例えば、中央の代わりに、前方左および右を使用）してコヒーレントに再生される。
２）音声が、「近い」知覚を生成するために３つの（または３つを超える）スピーカーを使用（例えば、中央のみの代わりに、前方左、右、および中央を使用）してコヒーレントに再生される。
３）音声が、「頭の内側での」または「上での」知覚を生成するために（ほぼ）すべてのスピーカーからコヒーレントに再生される。

各時間周波数間隔で２つのパラメータのみ（さらに、既存の方向および直接対総比パラメータ）を使用してこれらの３つの場合を推定および説明する方法が示される。このパラメータセットを使用して、再生出力についての類似の空間品質が、全体の共分散行列に含まれる情報で空間音声を再生することによって取得され得ることが提案される。

文献で知られている既存の合成技術を採用することによって、提案されたパラメータに基づいて、空間音声を合成する方法も示される。

図１に関して、本出願の実施形態を実施するための例示的な装置およびシステムが示される。「分析」部分１２１および「合成」部分１３１を有するシステム１００が示される。「分析」部分１２１は、マルチチャネルスピーカー信号の受信から、メタデータおよび伝送オーディオ信号のエンコーディングまでの部分であり、「合成」部分１３１は、エンコードされたメタデータおよび伝送オーディオ信号のデコーディングから、（例えば、マルチチャネルスピーカー形態での）合成された信号の提示までの部分である。

システム１００、すなわち「分析」部分１２１への入力は、マルチチャネルスピーカー信号１０２である。以下の例では、５．１チャネルスピーカー信号入力が説明されるが、任意の好適な入力スピーカー（または合成マルチチャネル）フォーマットが、他の実施形態で実施され得る。

マルチチャネルスピーカー信号は、伝送信号生成部１０３および分析プロセッサ１０５に渡される。

伝送信号生成部１０３は、入力信号１０２を受信し、好適な伝送オーディオ信号１０４を生成するように構成されている。伝送オーディオ信号はまた、対応付けられたオーディオ信号として知られ、（黙示的または明示的に音声フィールドの指向性情報を含み、システムに入力される）空間オーディオ信号に基づき得る。例えば、一部の実施形態では、伝送信号生成部１０３は、入力オーディオ信号を、所定数のチャネルにダウンミックスするか、または別の方法で選択もしくは結合させ、これらを伝送信号１０４として出力するように構成されている。伝送信号生成部１０３は、任意の好適な数の伝送オーディオ信号（またはチャネル）を生成するように構成されてもよく、例えば、一部の実施形態では、伝送信号生成部は、２つの伝送オーディオ信号を生成するように構成されている。一部の実施形態では、伝送信号生成部１０３は、さらに、オーディオ信号をエンコードするように構成されている。例えば、一部の実施形態では、オーディオ信号は、アドバンストオーディオコーディング（ＡＡＣ）または拡張音声サービス（ＥＶＳ）圧縮コーディングを使用してエンコードされ得る。一部の実施形態では、伝送信号生成部１０３は、オーディオ信号を等化し、自動ノイズ制御、動的処理、または任意の他の好適な処理を適用するように構成されてもよい。一部の実施形態では、伝送信号生成部１０３は、さらに、分析プロセッサ１０５の出力を、伝送信号１０４の生成を容易にするための入力として取り得る。

一部の実施形態では、伝送信号生成部１０３は、任意選択的であり、マルチチャネルスピーカー信号は、処理されずに渡される。

一部の実施形態では、分析プロセッサ１０５はまた、マルチチャネルスピーカー信号を受信し、信号を分析して、マルチチャネルスピーカー信号、したがって伝送信号１０４に対応付けられるメタデータ１０６を生成するように構成されている。分析プロセッサ１０５は、例えば、（メモリおよび少なくとも１つのプロセッサ上に記憶された好適なソフトウェアを実行する）コンピュータ、または代替的に、例えば、フィールドプログラマブルゲートアレイ（Field Programmable Gate Array：ＦＰＧＡ）または特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ）を利用する特定のデバイスであり得る。本明細書でさらに詳細に示されるように、メタデータは、各時間周波数分析間隔で、方向パラメータ１０８と、エネルギー比パラメータ１１０と、周囲のコヒーレンスパラメータ１１２と、拡散コヒーレンスパラメータ１１４と、を含んでもよい。方向パラメータおよびエネルギー比パラメータは、一部の実施形態では、空間オーディオパラメータであると考えられ得る。言い換えると、空間オーディオパラメータは、マルチチャネルスピーカー信号（または、一般的に２つ以上のプレイバックオーディオ信号）によって生成される音声フィールドを特徴付けることを目的とするパラメータを含む。

一部の実施形態では、生成されるパラメータは、周波数帯域によって異なり得る。したがって、例えば、帯域Ｘでは、パラメータのすべてが生成および送信されるが、一方、帯域Ｙでは、異なる数のパラメータが生成および送信され、さらに、帯域Ｚでは、生成または送信されるパラメータがない。これの実用的な例は、最も高い帯域などのいくつかの周波数帯域について、パラメータのうちのいくつかは、知覚的な理由で必要とされないことであり得る。

さらに、分析プロセッサ１０５または好適なエンコーダは、例えば、以下でさらに詳細に説明されるように、メタデータをエンコードするように構成されてもよい。

伝送信号１０４およびメタデータ１０６は、送信または記憶されてもよく、これは、図１に破線１０７で示されている。伝送信号１０４およびメタデータ１０６は、送信または記憶される前に、ビットレートを低減するためにコード化され、１つのストリームに多重化され得る。エンコーディングおよび多重化は、任意の好適なスキームを使用して実施されてもよく、メタデータのエンコーディングは、実施形態で説明される。

デコーダ側で、受信または検索されたデータ（ストリーム）は、多重分離され、コード化されたストリームは、伝送信号およびメタデータを取得するためにデコードされ得る。伝送信号およびメタデータの受信または検索はまた、破線１０７の右手側に関して図１に示される。

システム１００の「合成」部分１３１は、伝送信号１０４およびメタデータ１０６を受信するように構成された合成プロセッサ１０９を示し、伝送信号１０４およびメタデータ１０６に基づいて、マルチチャネルスピーカー信号１１０（または、一部の実施形態では、使用ケースに応じて、バイノーラルもしくはアンビソニックス信号などの任意の好適な出力フォーマット）を再生成する。合成プロセッサ１０９は、一部の実施形態では、（少なくとも１つのプロセッサ上で、メモリに記憶された好適なソフトウェアを実行する）コンピュータ、または代替的に、例えば、ＦＰＧＡまたはＡＳＩＣを利用する特定のデバイスであり得る。

図２では、図１に示される概要の例示的なフローチャートが示される。

まず、システム（分析部分）は、ステップ２０１と図２に示されるように、マルチチャネル（スピーカー）オーディオ信号を受信するように構成されている。

次いで、システム（分析部分）は、ステップ２０３と図２に示されるように、伝送オーディオ信号を生成するように構成されている。

また、システム（分析部分）は、ステップ２０５と図２に示されるように、メタデータ、すなわち、方向、エネルギー比、周囲のコヒーレンス、拡散コヒーレンスを生成するために、スピーカー信号を分析するように構成されている。

次いで、システムは、ステップ２０７と図２に示されるように、記憶／送信のために、伝送信号およびコヒーレンスパラメータを有するメタデータをエンコードするように構成されている。

この後、システムは、ステップ２０９と図２に示されるように、エンコードされた伝送信号およびコヒーレンスパラメータを有するメタデータを記憶／送信し得る。

システムは、ステップ２１１と図２に示されるように、エンコードされた伝送信号およびコヒーレンスパラメータを有するメタデータを検索／受信し得る。

次いで、システムは、ステップ２１３と図２に示されるように、エンコードされた伝送信号およびコヒーレンスパラメータを有するメタデータから、伝送信号およびコヒーレンスパラメータを有するメタデータを抽出するように構成されている。

システム（合成部分）は、ステップ２１５と図２に示されるように、抽出された伝送信号およびコヒーレンスパラメータを有するメタデータに基づいて、（前述のように、使用ケースに応じて、バイノーラル、マルチチャネルスピーカー、またはアンビソニックス信号などの任意の好適な出力フォーマットであり得る）出力マルチチャネルオーディオ信号を合成するように構成されている。

図３に関して、一部の実施形態による、（図１に示されるような）例示的な分析プロセッサ１０５がさらに詳細に説明される。一部の実施形態での分析プロセッサ１０５は、時間周波数領域変換器３０１を備える。

一部の実施形態では、時間周波数領域変換器３０１は、マルチチャネルスピーカー信号１０２を受信し、入力時間領域信号を好適な時間周波数信号３０２に変換するために、短時間フーリエ変換（Short Time Fourier Transform：ＳＴＦＴ）などの好適な時間対周波数領域変換を適用するように構成されている。これらの時間周波数信号は、方向分析部３０３およびコヒーレンス分析部３０５に渡されてもよい。

したがって、例えば、時間周波数信号３０２は、以下によって、時間周波数領域表示で表され得る。

ここで、ｂは、周波数ビンインデックスであり、ｎは、フレームインデックスであり、ｉは、スピーカーチャネルインデックスである。別の式では、ｎは、元の時間領域信号よりも低いサンプリングレートを有する時間インデックスと考えられ得る。これらの周波数ビンは、ビンのうちの１つ以上を帯域インデックスｋ＝０，...，Ｋ－１にグループ化するサブ帯域にグループ化され得る。各サブ帯域ｋは、最も低いビンｂ_{ｋ，ｌｏｗ}と、最も高いビンｂ_{ｋ，ｈｉｇｈ}と、を有し、サブ帯域は、ｂ_{ｋ，ｌｏｗ}～ｂ_{ｋ，ｈｉｇｈ}のすべてのビンを含む。サブ帯域の幅は、任意の好適な分配に近似し得る。例えば、等価矩形帯域幅尺度（Equivalent Rectangular Bandwidth：ＥＲＢ）またはバーク（Bark）尺度である。

一部の実施形態では、分析プロセッサ１０５は、方向分析部３０３を備える。方向分析部３０３は、時間周波数信号３０２を受信するように構成され、これらの信号に基づき、方向パラメータ１０８を推定してもよい。方向パラメータは、任意のオーディオベースの「方向」決定に基づいて決定され得る。

例えば、一部の実施形態では、方向分析部３０３は、２つ以上のスピーカー信号入力で上記方向を推定するように構成されている。

したがって、方向分析部３０３は、θ（ｋ，ｎ）と示される、各周波数帯域および時間フレームで方位角を提供するように構成されてもよい。方向パラメータが３Ｄパラメータである場合、例示的な方向パラメータとして、方位角θ（ｋ，ｎ）、仰角Φ（ｋ，ｎ）が挙げられる。方向パラメータ１０８はまた、コヒーレンス分析部３０５に渡されてもよい。

図２を参照して、ステップ２０５においてメタデータを生成するためにスピーカー信号を分析することによって取得され、（ステップ２０７において記憶または送信のためにエンコードされる）方向パラメータは、例えば、方位角および仰角または球形のグリッドインデックスの観点で表され得る。

一部の実施形態では、方向パラメータに加えて、方向分析部３０３は、決定された方向パラメータに対応付けられる他の好適なパラメータを決定するように構成されている。例えば、一部の実施形態では、エネルギー比パラメータ１１０を方向分析部に決定させる。エネルギー比は、ある方向から到来すると考えられ得るオーディオ信号のエネルギーの決定値であると考えられ得る。直接対総エネルギー比ｒ（ｋ，ｎ）は、例えば、指向性推定の安定性測定値を使用して、または任意の相関測定値、もしくはエネルギー比パラメータを取得するための任意の他の好適な方法を使用して推定され得る。他の実施形態では、指向性推定の安定性測定値、相関測定値、または他の方向対応パラメータを方向分析部に決定および出力させる。

推定された方向１０８パラメータが出力される（さらに、合成プロセッサで使用され得る）。推定されたエネルギー比パラメータ１１０はまた、コヒーレンス分析部３０５に渡されてもよい。一部の実施形態では、パラメータは、パラメータ結合部（図示せず）で受信されてもよく、ここで、推定された方向およびエネルギー比パラメータが、以下で説明されるコヒーレンス分析部３０５によって生成されるようなコヒーレンスパラメータで結合される。

一部の実施形態では、分析プロセッサ１０５は、コヒーレンス分析部３０５を備える。コヒーレンス分析部３０５は、方向分析部３０３から、（方位角（θ（ｋ，ｎ））１０８、および直接対総エネルギー比（ｒ（ｋ，ｎ））１１０などの）パラメータを受信するように構成されている。コヒーレンス分析部３０５は、さらに、時間周波数領域変換器３０１から時間周波数信号（ｓ_ｉ（ｂ，ｎ））３０２を受信するように構成されてもよい。これらのすべては、時間周波数領域にあり、ｂは、周波数ビンインデックスであり、ｋは、周波数帯域インデックス（各帯域は、いくつかのビンｂで構成されている可能性がある）であり、ｎは、時間インデックスであり、ｉは、スピーカーチャネルである。

ここで、方向および比が各時間インデックスｎで表されているが、一部の実施形態では、パラメータは、いくつかの時間インデックスを介して結合され得る。表されているように、周波数軸について同じことが当てはまり、いくつかの周波数ビンｂの方向は、いくつかの周波数ビンｂで構成された帯域ｋでの１つの方向パラメータによって表され得る。本明細書で論じられる空間パラメータのすべてについて同じことが当てはまる。

コヒーレンス分析部３０５は、複数のコヒーレンスパラメータを生成するように構成されている。以下の開示では、２つのパラメータがある。すなわち、周囲のコヒーレンス（γ（ｋ，ｎ））および拡散コヒーレンス（ζ（ｋ，ｎ））であり、両方とも時間周波数領域で分析される。さらに、一部の実施形態では、コヒーレンス分析部３０５は、対応付けられたパラメータ（例えば、推定されたエネルギー比（ｒ（ｋ，ｎ））を修正するように構成されている。

一部の実施形態では、拡散コヒーレンスエンコーダ３０７は、拡散コヒーレンスパラメータを受信し、それをエンコードするように構成されている。一部の実施形態では、拡散コヒーレンスエンコーダ３０７の機能は、コヒーレンス分析部３０５内に組み込まれており、エンコードされた拡散コヒーレンスパラメータ１１４は、コヒーレンス分析部から直接出力される。一部の実施形態では、拡散コヒーレンスパラメータのエンコーディングおよびシグナリングは、「拡散コヒーレンス」エリア配向および範囲パラメータペアのシグナリングによって実施される。さらに、一部の実施形態では、「拡散コヒーレンス」エリア配向および範囲パラメータペアは、０～１８０度回転での拡散配向コード、および拡散範囲についての０～３６０度中心角での円形セクタコードによってシグナリングされる。

一部の実施形態では、拡散範囲についての０～３６０度中心角での円形セクタコードのみが使用される。

一部の実施形態では、球形セクタコードが代替的に使用され得る。コヒーレンスの例示的なコーディングは、コーデック入力でロスを生成しないか、または最小のロスを生成し、オーディオエンコーダでの現在のビットレート制約を考慮して、効率的な送信を可能にすることを目的とする。例えば、通信可能なシナリオでは、ネットワーク輻輳は、フレーム間の変動をもたらす単一の送信を通じてオーディオコーディングビットレートに非常に影響を及ぼし得る。

コヒーレンス分析部３０５（および拡散コヒーレンスエンコーダ３０７）の出力、具体的には、拡散コヒーレンス出力は、拡散コヒーレンスエンコーダに渡されてもよい。拡散コヒーレンスエンコーダは、出力拡散コヒーレンスをエンコードし、好適な、エンコードされた拡散コヒーレンスパラメータ１１４を生成するように構成されている。

したがって、一部の実施形態では、コヒーレンス分析部３０５は、１つ以上の時間インデックスｎおよび周波数ビンｂで構成された所与の分析間隔で、共分散行列Ｃを計算するように構成されてもよい。行列のサイズは、Ｎ×Ｎであり、成分はｃ_ｉｊと示される。ここで、ｉおよびｊは、スピーカーチャネルインデックスである。

次に、コヒーレンス分析部３０５は、（この例では、方位角θである）推定された方向に最も近いスピーカーチャネルｉ_ｃを決定するように構成されてもよい。

ここで、α_ｉは、スピーカーｉの角度である。

一部の実施形態では、例えば、３Ｄスピーカーセットアップの場合、最も近いスピーカーｉ_ｃを決定するときに仰角も考慮に入れられる。これは、例えば、各配向を別個に考慮するか、または一度にすべての組合せを計算して（上記情報から配向を抽出して）、任意の好適な方法で実施され得る。

さらに、そのような実施形態では、コヒーレンス分析部３０５は、スピーカーｉ_ｃの左側ｉ_ｌおよび右側ｉ_ｒで最も近いスピーカーを決定するように構成されている。

スピーカーｉおよびｊの間の正規化されたコヒーレンスは、以下のように示される。

この式を使用して、コヒーレンス分析部３０５は、ｉ_ｌおよびｉ_ｒの間の正規化されたコヒーレンスｃ'_ｌｒを計算するように構成されてもよい。言い換えると、以下を計算する。

さらに、コヒーレンス分析部３０５は、共分散行列の対角成分を使用してスピーカーチャネルｉのエネルギーを決定し、

以下のように、ｉ_ｌおよびｉ_ｒスピーカーのエネルギーと、ｉ_ｌ、ｉ_ｒ、およびｉ_ｃスピーカーのエネルギーとの間の比を決定するように構成されてもよい。

次いで、コヒーレンス分析部３０５は、以下の「ステレオネス」パラメータを生成するために、これらの決定された変数を使用してもよい。

「ステレオネス」パラメータは、０～１の値を有する。１の値は、スピーカーｉ_ｌおよびｉ_ｒでコヒーレント音声があることを意味し、この音声は、このセクタのエネルギーを支配する。この理由は、例えば、スピーカーミックスが、音声の「エアリー」知覚を生成するための振幅パンニング技術を使用したためであり得る。０の値は、そのような技術が適用されていないことを意味し、例えば、音声は単に、最も近いスピーカーに位置付けられ得る。

さらに、コヒーレンス分析部は、音声が、「近い」知覚を生成するために３つ（または３つを超える）スピーカーを使用（例えば、中央のみの代わりに、前方左、右、および中央を使用）してコヒーレントに再生される状況を、検出または少なくとも識別するように構成されてもよい。これは、サウンドミキシングエンジニアが、マルチチャネルスピーカーミックスをサラウンドミキシングするような状況を生成してもよい。

そのような実施形態では、前で識別される同じスピーカーｉ_ｌ、ｉ_ｒ、およびｉ_ｃは、前述の正規化されたコヒーレンス決定値を使用して、正規化されたコヒーレンス値ｃ'_ｃｌおよびｃ'_ｃｒを決定するためにコヒーレンス分析部によって使用される。言い換えると、以下の値が計算される。

次いで、コヒーレンス分析部３０５は、以下を使用して、これらのスピーカー間のコヒーレンスを表す、正規化されたコヒーレンス値ｃ'_ｃｌｒを決定してもよい。

さらに、コヒーレンス分析部は、エネルギーがチャネルｉ_ｌ、ｉ_ｒ、およびｉ_ｃ間でどのくらい均等に分配されているかを表すパラメータを決定するように構成されてもよい。

これらの変数を使用して、コヒーレンス分析部は、以下のように、新しいコヒーレントパンニングパラメータκを決定してもよい。

このコヒーレントパンニングパラメータκは、０～１の値を有する。１の値は、すべてのスピーカーｉ_ｌ、ｉ_ｒ、およびｉ_ｃでコヒーレント音声があることを意味し、この音声のエネルギーは、これらのスピーカー間で均等に分配される。この理由は、例えば、音源がより近くにあるという知覚を生成するためのスタジオミキシング技術を使用して、スピーカーミックスが生成されたためであり得る。０の値は、そのような技術が適用されていないことを意味し、例えば、音声は単に、最も近いスピーカーに位置付けられ得る。

（ｉ_ｃではなく）ｉ_ｌおよびｉ_ｒでのコヒーレント音声の量を測定するコヒーレンス分析部決定のステレオネスパラメータμ、ならびにすべてのｉ_ｌ、ｉ_ｒ、およびｉ_ｃでのコヒーレント音声の量を測定するコヒーレントパンニングパラメータκは、メタデータとして出力されるコヒーレンスパラメータを決定するためにこれらを使用するように構成されている。

したがって、コヒーレンス分析部は、ステレオネスパラメータμおよびコヒーレントパンニングパラメータκを結合させて、０～１の値を有する拡散コヒーレンスζパラメータを形成するように構成されている。０の拡散コヒーレンスζ値は、ポイントソースを示し、言い換えると、音声は、（例えば、スピーカーｉ_ｃのみを使用して）可能な限り少ないスピーカーで再生されるべきである。拡散コヒーレンスζ値が増加するにつれて、より多くのエネルギーがスピーカーｉ_ｃの周囲のスピーカーに拡散し、値０．５まで、エネルギーが、スピーカーｉ_ｌ、ｉ_ｒ、およびｉ_ｃ間で均等に拡散される。拡散コヒーレンスζの値が０．５を超えて増加するにつれて、スピーカーｉ_ｃでのエネルギーが減少し、値１まで、スピーカーｉ_ｃでエネルギーがなく、すべてのエネルギーがスピーカーｉ_ｌおよびｉ_ｒにある。

前述のパラメータμおよびκを使用して、コヒーレンス分析部は、一部の実施形態では、以下の式を使用して、拡散コヒーレンスパラメータζを決定するように構成されている。

上記式は、単なる例であり、コヒーレンス分析部が、パラメータの上記定義に従う限り、任意の他の方法で拡散コヒーレンスパラメータζを推定し得ることに留意されたい。

前の状況を検出するように構成されていることに加えて、コヒーレンス分析部は、音声が、「頭の内側での」または「上での」知覚を生成するために（ほぼ）すべてのスピーカーからコヒーレントに再生される状況を、検出または少なくとも識別するように構成されてもよい。

一部の実施形態では、コヒーレンス分析部は、決定される最も大きい値で、エネルギーＥ_ｉおよびスピーカーチャネルｉ_ｅをソートするように構成されてもよい。

次いで、コヒーレンス分析部は、このチャネルと、Ｍ個の他の最大音量チャネルとの間の正規化されたコヒーレンスｃ'_ｉｊを決定するように構成されてもよい。次いで、このチャネルと、Ｍ個の他の最大音量チャネルとの間のこれらの正規化されたコヒーレンスｃ'_ｉｊ値は、監視されてもよい。一部の実施形態では、Ｍは、Ｎ－１であり得、それは、最大音量スピーカーチャネルとすべての他のスピーカーチャネルとの間のコヒーレンスの監視を意味する。しかしながら、一部の実施形態では、Ｍは、より小さい数、例えば、Ｎ－２であり得る。これらの正規化されたコヒーレンス値を使用して、コヒーレンス分析部は、以下の式を使用して、周囲のコヒーレンスパラメータγを決定するように構成されてもよい。

ｃ'_ｉｅｊは、最大音量チャネルと、Ｍ個の次に大音量チャネルとの間の正規化されたコヒーレンスである。

周囲のコヒーレンスパラメータγは、０～１の値を有する。１の値は、（ほぼ）すべてのスピーカーチャネル間のコヒーレンスがあることを意味する。０の値は、（ほぼ）すべてのスピーカーチャネル間のコヒーレンスがないことを意味する。

上記式は、周囲のコヒーレンスパラメータγについての推定の単なる一例であり、パラメータの上記定義に従う限り、任意の他の方法が使用され得る。

コヒーレンス分析部は、上述のように、周囲のコヒーレンスおよび拡散コヒーレンスパラメータを推定するために使用され得る。しかしながら、一部の実施形態では、オーディオ品質を向上させるために、コヒーレンス分析部は、状況１（音声が、コヒーレントに、「エアリー」知覚を生成するために２つのスピーカーを使用し、中央の代わりに、前方左および右を使用している）および／または２（音声が、コヒーレントに、「近い」知覚を生成するために３つ（もしくは３つを超える）スピーカーを使用している）がスピーカー信号内で発生することを決定して、比パラメータｒを修正してもよい。よって、一部の実施形態では、拡散コヒーレンスおよび周囲のコヒーレンスパラメータはまた、比パラメータｒを修正するために使用され得る。

上で示されるように、エネルギー比ｒは、（方位角θおよび／または仰角Φであり得る）方向でのポイントソースのエネルギーと、残りのエネルギーとの間の比として決定される。音源が、サラウンドミックスでポイントソースとして生成される（例えば、音声が１つのスピーカーのみにある）場合、方向分析は、１のエネルギー比を正しく生成し、合成段階は、この音声をポイントソースとして再生する。しかしながら、複数のスピーカーでのコヒーレント音声でのオーディオミキシング方法が適用されている場合（前述の場合１および２など）、方向分析は、（音声が、もはやポイントソースではないため）より低いエネルギー比を生成する。その結果、合成段階は、この音声の部分を周囲のものとして再生し、それは、例えば、スピーカーミックスを生成するときのスタジオミキシングエンジニアの目的とは反対の遠い音源の知覚につながり得る。

したがって、一部の実施形態では、コヒーレンス分析部は、音声を複数のスピーカーにコヒーレントに分配するオーディオミキシング技術が使用されていることが検出される場合、エネルギー比を修正するように構成されてもよい。

したがって、一部の実施形態では、コヒーレンス分析部は、スピーカーｉ_ｌおよびｉ_ｒのエネルギーと、すべてのスピーカーのエネルギーとの間の比を決定するように構成されている。

この比、ならびに上で決定されるようなｃ'_ｌｒおよびγを使用して、代替的なエネルギー比ｒ_ｓが、コヒーレンス分析部によって生成される。

一部の実施形態では、コヒーレンス分析部は、同様に、スピーカーｉ_ｌ、ｉ_ｒ、およびｉ_ｃのエネルギーと、すべてのスピーカーのエネルギーとの間の比を決定するように構成されてもよい。

この比、ならびに上で計算されるｃ'_ｃｌｒおよびγを使用して、さらなる代替的なエネルギー比ｒ_ｃが、コヒーレンス分析部によって形成される。

これらのエネルギー比を使用して、元のエネルギー比ｒは、以下のようにコヒーレンス分析部によって修正され得る。

この修正されたエネルギー比ｒ'は、元のエネルギー比ｒを置き換えるために使用され得る。その結果、例えば、状況１（音声が、コヒーレントに、「エアリー」知覚を生成するために２つのスピーカーを使用し、中央の代わりに、前方左および右を使用している）では、比ｒ'は１に近くなり、（拡散コヒーレンスζも１に近くなる）。合成段階で、後で論じられるように、音声は、いかなる非相関もなく、スピーカーｉ_ｌおよびｉ_ｒからコヒーレントに再生される。したがって、再生された音声の知覚は、元のミックスと一致する。

図４ａ、図４ｂ、図４ｃ、図４ｄに関して、上述の動作を要約するフローチャートが示される。

したがって、例えば、図４ａは、図３に示されるような分析プロセッサ１０５の動作の例示的な概要を示す。

最初の動作は、ステップ４０１と図４ａに示されるように、時間領域マルチチャネル（スピーカー）オーディオ信号を受信する動作である。

これに続いて、ステップ４０３と図４ａに示されるように、時間領域対周波数領域変換（例えば、ＳＴＦＴ）を適用して、分析のために、好適な時間周波数領域信号を生成する。

次いで、ステップ４０５と図４ａに示されるように、方向分析を適用して、方向および対応付けられたパラメータ（例えば、エネルギー比パラメータ）を決定することが示される。

次いで、ステップ４０７と図４ａに示されるように、コヒーレンス分析を適用して、周囲および／または拡散コヒーレンスパラメータなどのコヒーレンスパラメータを決定することが示される。

一部の実施形態では、エネルギー比はまた、このステップで、決定されたコヒーレンスパラメータに基づいて修正されてもよい。

ステップ４０９と図４ａに示されるように、例えば、ビットストリームまたは他の好適なデータ構造内で、拡散コヒーレンスパラメータをエンコードし、決定されたパラメータを出力する動作である最後の動作が示される。

図４ｂに関しては、拡散コヒーレンスパラメータを生成するための例示的な方法である。

最初の動作は、ステップ４３１と図４ｂに示されるように、共分散行列を計算することである。

以下の動作は、ステップ４３３と図４ｂに示されるように、推定された方向に最も近いチャネルおよび隣接するチャネル（すなわち、ｉ_ｃ、ｉ_ｌ、ｉ_ｒ）を決定することである。

次の動作は、ステップ４３５と図４ｂに示されるように、共分散行列を正規化することである。

次いで、本方法は、ステップ４３７と図４ｂに示されるように、共分散行列の対角成分を使用してチャネルのエネルギーを決定することを含んでもよい。

次いで、本方法は、ステップ４３９と図４ｂに示されるように、左および右のチャネル間で正規化されたコヒーレンス値を決定することを含んでもよい。

本方法は、ステップ４４１と図４ｂに示されるように、ｉ_ｌおよびｉ_ｒチャネルのエネルギーと、ｉ_ｌ、ｉ_ｒ、およびｉ_ｃのエネルギーとの間の比を生成することを含んでもよい。

次いで、ステレオネスパラメータは、ステップ４４３と図４ｂに示されるように決定され得る。

また、ステップ４３９～４４３と並行して、本方法は、ステップ４３８と図４ｂに示されるように、チャネル間で正規化されたコヒーレンス値を決定することと、ステップ４４０と図４ｂに示されるように、エネルギー分配パラメータを決定することと、ステップ４４２と図４ｂに示されるように、コヒーレントパンニングパラメータを決定することと、を含んでもよい。

最後に、動作は、ステップ４４５と図４ｂに示されるように、ステレオネスパラメータおよびコヒーレントパンニングパラメータから拡散コヒーレンスパラメータを決定してもよい。

さらに、図４ｃは、周囲のコヒーレンスパラメータを生成するための例示的な方法を示す。

最初の３つの動作は、最初が、ステップ４５１と図４ｃに示されるように共分散行列を計算することであるという点で、図４ｂに示される最初の４つの動作のうちの３つと同じである。

次の動作は、ステップ４５３と図４ｃに示されるように、共分散行列を正規化することである。

次いで、本方法は、ステップ４５５と図４ｃに示されるように、共分散行列の対角成分を使用してチャネルのエネルギーを決定することを含んでもよい。

次いで、本方法は、ステップ４５７と図４ｃに示されるように、エネルギーＥ_ｉをソートすることを含んでもよい。

次いで、本方法は、ステップ４５９と図４ｃに示されるように、最も大きい値を有するチャネルを選択することを含んでもよい。

次いで、本方法は、ステップ４６１と図４ｃに示されるように、選択されたチャネルと、Ｍ個の他の最も大きいエネルギーチャネルとの間の正規化されたコヒーレンスを監視することを含んでもよい。

次いで、ステップ４６３と図４ｃに示されるように、正規化された共分散行列値から周囲のコヒーレンスパラメータを決定する。

図４ｄに関して、エネルギー比を修正するための例示的な方法が示される。

最初の動作は、ステップ４７１と図４ｄに示されるように、スピーカーｉ_ｌおよびｉ_ｒのエネルギーと、すべてのスピーカーのエネルギーとの間の比を決定することである。

次いで、コヒーレンス分析部によって、上で決定されるようなこの比ならびにｃ'_ｌｒおよびγに基づいて、第１の代替的な比ｒ_ｓを決定することが、ステップ４７３と図４ｄに示される。

次の動作は、ステップ４７５と図４ｄに示されるように、スピーカーｉ_ｌ、ｉ_ｒ、およびｉ_ｃのエネルギーと、すべてのスピーカーのエネルギーとの間の比を決定することである。

次いで、コヒーレンス分析部によって、上で決定されるようなこの比ならびにｃ'_ｃｌｒおよびγに基づいて、第２の代替的な比ｒ_ｃを決定することが、ステップ４７７と図４ｄに示される。

次いで、修正されたエネルギー比は、ステップ４７９と図４ｄに示されるように、元のエネルギー比、第１の代替的なエネルギー比、および第２の代替的なエネルギー比に基づいて決定され、現在のエネルギー比を置き換えるために使用されてもよい。

上記定式化は、サラウンドスピーカー入力についてのコヒーレンスパラメータを推定するために詳述された。類似の処理がまた、各時間パラメータ推定間隔での決定された位置でのオーディオチャネルとしてオーディオオブジェクトを扱うことによって、オーディオオブジェクト入力について実行され得る。

さらに、拡散コヒーレンスパラメータおよび周囲のコヒーレンスパラメータなどのコヒーレンスパラメータは、マイクロフォンアレイ信号またはアンビソニックス入力信号についても推定され得る。一例として、いくつかのマイクロフォンアレイから、本方法および装置は、文献で知られている方法によって、１次アンビソニックス（First-Order Ambisonic：ＦＯＡ）信号を取得し得る。ＦＯＡ信号は、無指向性信号、およびある方向でポジティブゲインと、別の方向でネガティブゲインと、を有する、３つの直交整列８の字信号で構成されている。そのような入力についてのコヒーレンスパラメータ推定の一例では、本方法および装置は、ＦＯＡ信号の無指向性および３指向性信号の相対的なエネルギーを監視し得る。これは、音声が周囲の方向からコヒーレントに再生され、ＦＯＡ信号が捕捉される場合、無指向性（第０次ＦＯＡ）信号がこれらのコヒーレント信号の合計で構成されているためである。一方、３つの８の字（第１次ＦＯＡ）信号は、ポジティブおよびネガティブゲイン方向依存性を有し、したがって、コヒーレント信号は、これらの第１次ＦＯＡ信号で部分的にまたは完全に打ち消し合う。したがって、第０次ＦＯＡ信号のエネルギーが、第１次ＦＯＡ信号の結合されたエネルギーに対してより高くなるときに、より高い値が提供されるように、周囲のコヒーレンスパラメータが推定され得る。

図４ｅに関して、拡散コヒーレンスパラメータを決定するさらなる例が示される。この例では、上述の拡散コヒーレンス推定方法は、隣接するチャネルを使用するだけの代わりにすべての入力チャネルを使用することによって、さらに一般化される。

これは、一部の実施形態では、連続的なコヒーレントエリアをサーチし、（複数のスピーカーがコヒーレント信号を再生するために使用される状況を一般化する）方法を実施することによって達成され得る。

この方法では、サーチパターンは、パラメータ角度（０°から開始するΦ）およびステップ（例えば、５°の値でのΔ）で定義され得る。

本方法は、ステップ９０１と図４ｅに示されるように、１つ以上の方向を決定するために、最初の主要な方向分析を実行（または方向分析部３０３から受信）してもよい。

次いで、本方法は、ステップ９０３と図４ｅに示されるように、入力チャネルの方向に基づいて入力チャネルを単位球上に配置（または単位球を生成）してもよい。

次いで、本方法は、ステップ９０５と図４ｅに示されるように、主要な方向を中心点として有し、（Φ）を中心点ベクトルと円のエッジを指すベクトルとの間の角度として有する、単位球上の円を生成する（または別の方法でパラメータの円を生成する）ことがさらに示される。

主要な方向は、上記方法での方向分析のための提案された方法などの好適な手段によって提供され得る。次いで、主要なチャネルは、推定された主要な方向に最も近いスピーカーノードまたはチャネルであるように選択され得る。主要なチャネルの定義は、ステップ９０７と図４ｅに示される。

次の動作は、ステップ９０８と図４ｅに示されるように、例えば、Φ_ＣＡ＝０のように最初のコヒーレント角度の定義を設定することである。

次いで、コヒーレンスエリアサーチが開始される。このサーチは、ステップ９０９と図４ｅに示されるように、サーチ領域Φで主要なチャネルを使用する。

次の動作は、ステップ９１１と図４ｅに示されるように、ステップΔを使用して角度Φを増加させることである。Φが１８０度を超える場合、１８０度に設定される。

これは、例えば、図１０に示され、単位球１１００について、主要な方向１１０１および第１の角度Φ１１０３が示され、それは、球の表面上の第１のサーチリング１１１３を定義する。図１０に示されるように、角度Φは、ステップΔによって、さらなる繰り返しで増加し得る。図１０に示されるように、角度は、第２のリング１１１５、第３のリング１１１７、および第４のリング１１１９を生成する、第２の角度１１０５、第３の角度１１０７、および第４の角度１１１９に増加し得る。

方向および角度によって定義されるこのサーチ領域で、ステップ９１３と図４ｅに示されるように、（定義された許容値内で）サーチリング内に任意の入力チャネルがあるかどうかのチェックが行われる。

入力チャネルがない場合、本方法は、ステップ９１１に戻り、さらにステップΔによって角度Φを増加させることによって、サーチリングが増加する。

サーチリング内の任意の決定された入力チャネルについて、検出されたチャネルと主要なチャネルとの間の正規化されたコヒーレントエネルギーが計算され、ステップ９１５と図４ｅに示されるように、それらの平均が計算される。

次いで、平均コヒーレンスが、所定の許容値よりも上（例えば、０．５を超える）かどうかを判定するためのチェックが行われる。チェックは、ステップ９１７と図４ｅに示される。

平均コヒーレンスが、所定の許容値よりも上であるとチェックにおいて判定されると、コヒーレント角度Φ_ＣＡは、現在の角度に増加され、言い換えると、Φ_ＣＡ＝Φとする。

言い換えると、新しく決定されたチャネルは、エリアに追加される。これは、ステップ９１９と図４ｅに示される。

次いで、ステップ９２１と図４ｅに示されるように、サーチ角度Φが１８０度であるかどうかを判定するためのさらなるチェックが行われる。

サーチ角度が１８０度未満である場合、動作は、ステップ９１１に戻り、さらにステップΔによって角度Φを増加させることによって、サーチリングが増加する。

コヒーレンスエネルギーが一致しない場合（または角度が１８０度である場合）、Φ_ＣＡ＊２が、ステップ９２３と図４ｅに示されるように拡散範囲として設定される。

Φ_ＣＡ＊２を拡散範囲として設定した後の以下の動作は、ステップ９２５と図４ｅに示されるように、コヒーレントパンニングパラメータを推定することである。

コヒーレントパンニングパラメータを推定するために、まず、分析された方向に最も近いスピーカーａが決定される。次に、そのチャネルａとすべてのチャネルｉとの間の正規化されたコヒーレンスｃ_ａ、ｉ（エリア内でｉ≠ａ）が決定される。次に、閾値エネルギーよりも低いエネルギーを有するチャネル（例えば、Ｅ_τ＝０．０１Ｅ_ｃ）が省略され、残りから最小のコヒーレンスが選択される。

次に、エネルギーがこれらのチャネル間でどのくらい均等に分配されているかを示すξ_ａｒｅａが決定される。

これらの変数を使用して、ステップ９２５と図４ｅに示されるように、コヒーレントパンニングパラメータが形成され得る。

図４ｆに関して、さらなる実施形態が示される。

このさらなる実施形態は、コヒーレントエッジのサーチを一般化し、コヒーレントリングのサーチによって示される。

本方法は、ステップ１００１と図４ｆに示されるように、１つ以上の方向を決定するために、最初の主要な方向分析を実行（または方向分析部３０３から受信）してもよい。

次いで、本方法は、ステップ１００３と図４ｆに示されるように、入力チャネルの方向に基づいて入力チャネルを単位球上に配置（または単位球を生成）してもよい。

次いで、本方法は、ステップ１００５と図４ｆに示されるように、主要な方向を中心点として有し、（Φ）を中心点ベクトルと円のエッジを指すベクトルとの間の角度として有する、単位球上の円を生成する（または別の方法でパラメータの円を生成する）ことがさらに示される。

次いで、コヒーレンスエリアサーチが開始される。このサーチは、ステップ１００７と図４ｆに示されるように、角度Φ＝０で主要なチャネルを使用する。この方法では、サーチパターンは、パラメータ角度（０°から開始するΦ）およびステップ（例えば、５°の値でのΔ）で定義され得る。

さらに、ステップ１００９と図４ｆに示されるように、見出されたコヒーレンスエネルギー（Coherence Energy：ＣＥ）値は、０に設定され、コヒーレンス角度Φ_ＣＥ＝０が定義される。

次の動作は、ステップ１０１１と図４ｆに示されるように、ステップΔを使用してサーチ角度Φを増加させることである。Φが１８０度を超える場合、１８０度に設定される。

この方向および角度で、ステップ１０１３と図４ｆに示されるように、（所定の許容値、例えば、１０度以内で）サーチリングに近い任意の入力チャネルがあるかどうかのチェックが行われる。

リングに近い入力チャネルがない場合、本方法は、ステップ１０１１に戻り、さらにステップΔによって角度Φを増加させることによって、サーチリングが増加する。

（許容値以内で）サーチリング上に少なくとも２つの入力チャネルがあるとき、リング上のすべてのチャネル間のコヒーレンスが決定され、リングの平均コヒーレンスが決定される。

また、リング上のすべてのチャネルについての平均エネルギーが決定される。

次いで、決定された平均コヒーレンスおよび平均エネルギーは、ステップ１０１５と図４ｆに示されるように、リングのコヒーレントエネルギーＣＥを生成するために乗算される。

次いで、ステップ１０１７と図４ｆに示されるように、平均エネルギーが十分大きいかどうかを判定するためのチェックが行われる。

平均エネルギーが最小値以下である場合、次のステップは１０１１であり、リングサイズが増加し、リングの近くの入力チャネルが再びサーチされる。

リングの平均エネルギーが最小値（例えば、０．１）よりも大きい場合、リングの決定されたコヒーレントエネルギーＣＥを前のリングのコヒーレントエネルギーと比較するためのさらなるチェックが実行される。ＣＥチェックは、ステップ１０１９と図４ｆに示される。

リングのコヒーレントエネルギーが前のリングのコヒーレントエネルギーよりも大きいことがチェックにおいて判定されると、このリングをコヒーレンスリングとして使用する。言い換えると、ステップ１０２１と図４ｆに示されるように、見出されたＣＥを、リングについての決定されたＣＥ値に設定し、Φ_ＣＥ＝Φとする。

リングのコヒーレントエネルギーが前のリングのコヒーレントエネルギー未満である場合、動作は、ステップ１０１１に戻り、さらにステップΔによって角度Φを増加させることによって、サーチリングが増加する。

コヒーレントエネルギーが大きい場合、ステップ１０２３と図４ｆに示されるように、サーチ角度Φが１８０度であるかどうかを判定するためのさらなるチェックが行われる。

サーチ角度が１８０度未満である場合、動作は、ステップ１０１１に戻り、さらにステップΔによって角度Φを増加させることによって、サーチリングが増加する。

サーチ角度が１８０度である場合、ステップ１０２５と図４ｆに示されるように、拡散範囲は、Φ_ＣＥ＊２として設定される。

拡散範囲をΦ_ＣＥ＊２で設定した後の以下の動作は、ステップ１０２７と図４ｆに示されるように、ステレオネスパラメータを推定することである。ステレオネスパラメータがまず決定されてもよく、最も大きいエネルギーＥ_ｍを有するリング上のチャネルｍを見出す。次いで、リング上のこのチャネルと他のチャネルｉとの間の正規化されたコヒーレンスｃ_ｍ，ｉを計算する。次に、それぞれのエネルギーによって重み付けされるこれらのコヒーレンスの平均値を計算する。

次いで、リング上のエネルギーおよびリング内側のエネルギーの比を計算する。

これらの変数を使用して、ステレオネスパラメータが形成され得る。

コヒーレントパンニングおよびステレオネスパラメータを決定して、それらは、結合された拡散コヒーレンスパラメータを形成するために上で提示されるように同様に結合され得る。

上記の例も、拡散範囲パラメータを生成するため、一部の実施形態では結合され得る。一部の実施形態では、この結合は、２つの結果のより大きい拡散範囲を選択し得る。

上記のアルゴリズムは、円を使用する一般的なサーチパターンの例を示す。しかしながら、本方法は、これらに限定されず、円の代わりに様々な形状および形態が使用され得る。さらに、３Ｄサーチを使用することが必須ではなく、２Ｄパターンだけを使用してサーチし、この２Ｄパターンの回転を含んでもよい。

次いで、これらの（修正された）エネルギー比１１０、周囲のコヒーレンス１１２、および拡散コヒーレンス１１４パラメータが出力され得る。さらに、論じられるように、拡散コヒーレンスパラメータは、メタデータ結合部に渡されるか、または任意の好適な方法、例えば、ダウンミックス信号でのエンコーディングおよび／または多重化で処理され、記憶および／または送信されてもよい（システムの合成部分に渡されてもよい）。合成方法は、オーディオ品質を維持することを試みながら、信号の共分散行列を操作するための、修正された最小二乗最適化信号ミキシング技術であり得る。本方法は、（以下で論じられるように）入力信号の共分散行列測定値およびターゲット共分散行列を利用し、そのような処理を実行するためのミキシング行列を提供する。本方法はまた、入力に独立信号エネルギーの十分な量がないときに非相関音声を最適に利用する手段を提供する。

コヒーレンスパラメータの生成およびエンコーディングをさらに論じる前に、例示的なスピーカーノード配置が論じられる。図５ａおよび図５ｂは、それぞれ、例示的なイマーシブオーディオ提示配置の第１の図および平面図を示す。図５ａおよび図５ｂに示されるアレイは、（バーチャル）スピーカーを表し得る３０個のスピーカーノードを示す。この例では、アレイは、３つのリングで配置されており、各リングは、１０個のスピーカーノードを備える。

第１のリング５１３は、（リスニング位置５０１の「直接」正面にある基準方位角上の）正面中央スピーカー５３３、（基準方位角に対して反対側で、リスニング位置５０１の「直接」後方にある）後方中央スピーカー５４３、および１つのさらなるスピーカー５２３とラベル付けされた、リスニング位置５０１の周囲の耳の高さでの水平のリングである。

アレイは、第１の上のまたは高いリング５１１をさらに含んでもよく、これは、（リスニング位置５０１の「直接」正面にある基準方位角上の）正面中央スピーカー５３１、（基準方位角に対して反対側で、リスニング位置５０１の「直接」後方にある）後方中央スピーカー５４１、および１つのさらなるスピーカー５２１とラベル付けされた、リスニング位置５０１の周囲の耳の高さよりも高い水平のリングである。

下のまたは低いリング５１５を含むアレイがさらに示され、これは、（リスニング位置５０１の「直接」正面にある基準方位角上の）中央スピーカー５３５、（基準方位角に対して反対側で、リスニング位置５０１の「直接」後方にある）後方中央スピーカー５４５、および１つのさらなるスピーカー５２５とラベル付けされた、リスニング位置５０１の周囲の耳の高さよりも低い水平のリングである。

（バーチャル）スピーカーノードアレイは、一部の実施形態では、代替的に完全にリスニング位置を取り囲み（すなわち、例えば、等距離のアレイ構成でユーザの周囲にバーチャルスピーカーがあり）、したがって、選択されたビューイング／リスニング方向により解像度をロスすることなく、３ＤｏＦ回転の完全な自由度をユーザに与え得る。

スピーカーノード間のスペーシングは、「ビューイング」方向に応じて大きく変わり得、図５ａおよび図５ｂに示されるように、方位角分配において等距離でない場合がある。例えば、５．１または７．１などの従来の水平のスピーカー構成は、他の方向よりもユーザの正面でより高い空間解像度を提供する。さらに、一部の実施形態では、スピーカー分配は、高いリングを提供し、低いリングを提供しないか、または１つを超える数の高いもしくは低いリングを提供するように構成されてもよい。

したがって、以下の例は、この例示的なスピーカーノード分配に関して説明されるが、以下で説明されるような本実施形態は、任意の好適なスピーカーノード分配に適用され得る。

図６ａおよび図６ｂに関して、コヒーレンス評価について最も近い隣接する方向（またはスピーカーノード）のみを考慮して、コヒーレンスパラメータのシグナリング／送信によって大量のデータが生成される一例が示される。したがって、例えば、単一のスピーカーノード６０１について、垂直の配向６１３、水平の配向６１７、第１の対角の配向６１１、および第２の対角の配向６１５のように示される少なくとも４つの配向で考慮される。したがって、単一の支配的なコヒーレンス成分が送信されるときに、シグナリングは依然として、選択または選ばれた配向がシグナリングされることを要求する。

一旦、コヒーレント再生範囲が分かると、コヒーレント再生配向パラメータが推定され得る。このパラメータは、円の再生が想定されないときに再生をサポートするために使用される。配向パラメータを見出すための方法は、主要な方向スピーカー、ならびに回転面でポジティブおよびネガティブな範囲の角度（すなわち、範囲の±１／２）で最も近いスピーカーを常に使用して、各配向角度について拡散コヒーレンスパラメータ（ならびに形成「ステレオネス」および「コヒーレントパンニング」パラメータ）を推定することである。最も大きい拡散コヒーレンスパラメータを取得する配向は、選択された配向角度である。複数の角度が同じ「左」および「右」スピーカーを使用する場合、これらの角度の平均値が使用される。これは、さらに、配向角度のサーチが－９０°から９０°まで特定のステップ（例えば、１０°）で進むことを想定する。

さらに、図７ａおよび図７ｂに示されるように、大きいアレイでの配向は、「中央」、または配向、配向角度、およびアレイ構成に応じて曖昧であるように見える場合がある。したがって、例えば、図７ａは、第１の配向を示し、それは、配向７０１がスピーカーノード７１１、７１３、７１５、７１７、および７１９を通過するとき、スピーカーノードの曖昧性を示さない。しかしながら、図７ｂは、配向７２１を示し、ここで、配向は、いくつかのスピーカーノード７３１、７３７、７４３を通過するが、スピーカーノードペア７３３および７３５に関して、ならびに７３９および７４１に関しても曖昧である。これは、知覚的に関連しない場合があり、エンコーディングおよびシグナリングに影響を与えない場合がある。

コヒーレンスパラメータ値（「拡散コヒーレンス」）に加えて、以下で説明される実施形態では、コヒーレンスの配向および円形セクタが定義される。一部の実施形態では、代わりにまたは追加で、球形セクタが使用され得る。一部の実施形態では、定義はまた、配向情報（およびさらなるデスクリプタ、例えば、平坦性）を含んでもよい。

「拡散コヒーレンス」方向についての複雑な形状が考慮される一部の実施形態では、出力は、対応する知覚的な利点なしで、特に低ビットレートコーデックに好適でない場合があるデータレートを生成する非常に大量のメタデータを必要とし得ることに留意されたい。

したがって、一部の実施形態では、知覚的に重要な態様が、空間メタデータで定義およびエンコードされる。したがって、前述のように、拡散コヒーレンスエリア配向および範囲
・０～１８０度回転での拡散配向コード、および
・拡散範囲についての０～３６０度中心角での円形セクタコード
を拡散コヒーレンスエンコーダにエンコードさせ得る。

再生での拡散コヒーレンスパラメータの知覚的効果は、円形セクタが非常に小さい場合に限定されることに留意されたい。小さい値で、ソースは、よりポイント状のままである。一方、配向角度の小さい変化はまた、一般的に、小さいセクタ値で知覚的に重要でない。

図８ａおよび図８ｂに関して、以下の形態を有する例示的な配向コーディングが示される。

ここで、ｂはシグナリングビットであり、Ｑ_ｓｔｅｐは、量子化ステップサイズである。４ビット表現について、これは、以下のとおりである。

したがって、（－ｐｉ／２または０での）１ビット量子化８０１、（－２ｐｉ／４、－ｐｉ／４、０、または＋ｐｉ／４での）２ビット量子化８０３、３ビット量子化８０５（－４ｐｉ／８、－３ｐｉ／８、－２ｐｉ／８、－ｐｉ／８、０、＋ｐｉ／８、２ｐｉ／８、３ｐｉ／８）、（ｐｉ／１６ステップでの－８ｐｉ／１６から７ｐｉ／１６までの）４ビット量子化８０７、および（ｐｉ／３２ステップでの－１５ｐｉ／３２から１４ｐｉ／３２までの）５ビット量子化８０９についての例示的な量子化ポイントが図８ａに示される。

さらに、図８ｂは、方向が、ｂ_０＝０の場合、－ｐｉ／２であり、ｂ_０＝１である場合、０であるかどうかを定義する、第１のビットｂ_０に対応付けられる方向、および第２のビットｂ_１が１のときの効果を示す。例えば、ｂ_０ｂ_１＝０１のときに－ｐｉ／４であり、ｂ_０ｂ_１＝１１のときに、ｐｉ／４である。

図９ａは、さらに、例示的な４ビット組み込みコードを要約する表（－９０度のベースオフセットが図８ａおよび図８ｂに対応するように追加される）を示す。

一部の実施形態では、配向コードが組み込まれ得、その場合、配向精度は、エンコーダでビットを落とすことによって減少し得る。組み込みコードでは、ベースライン表現は、大まかな配向（例えば、９０度または４５度精度）を提供し、追加のビット層は、より正確な配向を定義する。

図９ｂは、２ビットベースラインおよび２つの１ビット組み込みフィールドを有する（各々、１５度および７．５度の例示的な値を有する）組み込みの例示的なコードを示す、さらなる表を示す。１８０度による任意の配向オフセットが、配向データについてオフセットなしのものに対応するように、すべての値を－９０度と８９．９９度との間に置くために、正規化が行われる。

（円形）セクタ範囲は、スカラー量子化値の実装によってエンコードされ得る。一部の実施形態では、量子化は、意図されたレンダリングスピーカーノードアレイとして使用されるバーチャルスピーカーアレイに対応してもよく、または、一部の実施形態では、それは、「任意の」量子化器であってもよい。

一部の実施形態では、入力チャネル構成は、デコーダにシグナリングされる。そのような場合では、（円形）セクタ範囲（および配向コード）は、入力に対応する量子化を維持するためにこの情報を直接利用し得る。

図１１に関して、例示的な合成プロセッサ１０９がさらに詳細に示される。例示的な合成プロセッサ１０９は、米国特許出願公開第２０１４－０２３３７６２号、発明の名称「Optimal mixing matrices and usage of decorrelators in spatial audio processing」（Vilkamo, Backstrom, Kuntz, Kuch）で詳述されるような、修正された方法を利用するように構成されてもよい。

引用された方法は、それが、チャネル間信号コヒーレンスが合成または操作されることを要求されるような場合に特に適合しているという理由で選択されてもよい。

合成プロセッサ１０９は、伝送信号１０４およびメタデータ１０６を受信してもよい。

合成プロセッサ１０９は、伝送信号１０４を受信し、入力時間領域信号を好適な時間周波数信号に変換するために、短時間フーリエ変換（ＳＴＦＴ）などの好適な時間対周波数領域変換を適用するように構成された時間周波数領域変換器３０１を備え得る。これらの時間周波数信号は、ミキシング行列プロセッサ１２０９および共分散行列推定器１２０３に渡されてもよい。

次いで、時間周波数信号が、ミキシング行列プロセッサ（さらに可能なものとして非相関プロセッサ）１２０９を用いて周波数帯域で適応的に処理されてもよく、時間周波数出力信号１２１２の形態での結果は、時間領域に戻して変換されて、空間化オーディオ信号１２１４の形態で、処理された出力を提供する。ミキシング行列処理方法は、例えば、「Optimized covariance domain framework for time-frequency processing of spatial audio」(Vilkamo, Backstrom, and Kuntz) Journal of the Audio Engineering Society 61.6(2013):403-411に詳細に説明されている。

ミキシング行列処理を適用するために、周波数帯域でのミキシング行列１２１０が必要とされる。ミキシング行列１２１０は、一部の実施形態では、ミキシング行列決定器１２０７内で定式化され得る。ミキシング行列決定器１２０７は、周波数帯域での入力共分散行列１２０６および周波数帯域でのターゲット共分散行列１２０８を受信するように構成されている。

周波数帯域での共分散行列１２０６は、単に、共分散行列推定器１２０３で決定され、時間周波数領域変換器１２０１からの周波数帯域でのダウンミックス信号から測定される。

ターゲット共分散行列は、一部の実施形態では、ターゲット共分散行列決定器１２０５で定式化される。

ターゲット共分散行列決定器１２０５は、一部の実施形態では、スピーカーセットアップを取り囲むために再生についてのターゲット共分散行列を決定するように構成されている。以下の式では、時間および周波数インデックスｎおよびｋは、（必要でないときは）単純化のために除去される。

まず、ターゲット共分散行列決定器１２０５は、共分散行列推定器１２０３から入力共分散行列に基づいて、ターゲット共分散行列の全体のエネルギーＥ１２０４を推定するように構成されてもよい。全体のエネルギーＥは、一部の実施形態では、入力共分散行列の対角成分の合計から決定され得る。

次いで、ターゲット共分散行列決定器１２０５は、相互にインコヒーレントな部分でのターゲット共分散行列Ｃ_Ｔ、指向性部分Ｃ_Ｄ、および周囲のまたは無指向性部分Ｃ_Ａを決定するように構成されてもよい。

したがって、ターゲット共分散行列は、Ｃ_Ｔ＝Ｃ_Ｄ＋Ｃ_Ａとして、ターゲット共分散行列決定器１２０５によって決定される。

周囲の部分Ｃ_Ａは、空間的な周囲の音声エネルギーを表し、それは、これまではインコヒーレントのみであったが、本発明により、インコヒーレントまたはコヒーレントもしくは部分的にコヒーレントであり得る。

したがって、ターゲット共分散行列決定器１２０５は、（１－ｒ）Ｅとして、周囲のエネルギーを決定するように構成されてもよく、ここで、ｒは、入力メタデータからの直接対総エネルギー比パラメータである。次いで、周囲の共分散行列は、以下によって決定され得る。

ここで、Ｉは、単位行列であり、Ｕは、１の行列であり、Ｍは、出力チャネルの数である。言い換えると、γが０のとき、周囲の共分散行列Ｃ_Ａは対角であり、γが１のとき、周囲の共分散行列は、そのすべてのチャネルペアがコヒーレントであるように決定する。

次に、ターゲット共分散行列決定器１２０５は、直接部分の共分散行列Ｃ_Ｄを決定するように構成されてもよい。

したがって、ターゲット共分散行列決定器１２０５は、ｒＥとして直接部分のエネルギーを決定するように構成されてもよい。

次いで、ターゲット共分散行列決定器１２０５は、メタデータに基づいて、スピーカー信号についてゲインベクトルを決定するように構成されている。まず、ターゲット共分散行列決定器１２０５は、例えば、ベクトルベース振幅パンニング（Vector Base Amplitude Panning：ＶＢＡＰ）を使用して、スピーカーセットアップについての振幅パンニングゲインのベクトルおよび空間メタデータの方向情報を決定するように構成されている。これらのゲインは、列ベクトルｖ_ＶＢＡＰで示されてもよく、それは、水平のセットアップについて、最大で、振幅パンニングでアクティブな２つのスピーカーについての２つの非０の値のみを有する。ターゲット共分散行列決定器１２０５は、一部の実施形態では、以下のように、ＶＢＡＰ共分散行列を決定するように構成され得る。

ターゲット共分散行列決定器１２０５は、チャネルトリプレットｉ_ｌ、ｉ_ｒ、ｉ_ｃを決定するように構成され得、ここで、ｉ_ｃは、推定された方向に最も近いスピーカーであり、左および右スピーカーｉ_ｌ、ｉ_ｒは、以下のように決定される。まず、拡散範囲が、エンコーダ／分析側からのパラメータ入力として決定されるか、または利用可能でない場合、一定、例えば、６０度で決定される。２つの新しい方向は、方向パラメータの方位角を左および右に拡散範囲パラメータの半分で調整することによって定式化される。左および右スピーカーｉ_ｌ、ｉ_ｒは、ｉ_ｌ≠ｉ_ｌ≠ｉ_ｃという条件で、これらの新しい方向に最も近いスピーカーである。

一部の実施形態では、配向角度が提供されるとき、左および右スピーカーｉ_ｌおよびｉ_ｒは、水平面の代わりに回転面で最も近いスピーカーであるように選択され、ここで、面回転が配向パラメータによって定義される。

ターゲット共分散行列決定器１２０５は、さらに、パンニング列ベクトルｖ_ＬＲＣが、別の場合ゼロであるが、インデックスｉ_ｌ、ｉ_ｒ、ｉ_ｃでの値

を有することを決定するように構成されてもよい。そのベクトルについての共分散行列は、以下のとおりである。

拡散コヒーレンスパラメータζが０．５未満であるとき、すなわち、音声が、「直接ポイントソース」と「３つのスピーカーコヒーレント音声」との間であるとき、ターゲット共分散行列決定器１２０５は、直接部分の共分散行列が以下のようであることを決定するように構成され得る。

拡散コヒーレンスパラメータζが０．５～１であるとき、すなわち、音声が、「３つのスピーカーコヒーレント音声」と「２つの拡散スピーカーコヒーレント音声」との間であるとき、ターゲット共分散行列決定器１２０５は、拡散分配ベクトルを決定し得る。

次いで、ターゲット共分散行列決定器１２０５は、パンニングベクトルｖ_{ＤＩＳＴＲ}を決定するように構成され得、ここで、第ｉ_ｃ番目の成分は、ｖ_{ＤＩＳＴＲ，３}の第１の成分であり、第ｉ_ｌ番目および第ｉ_ｒ番目の成分は、ｖ_{ＤＩＳＴＲ，３}の第２および第３の成分である。次いで、直接部分の共分散行列は、ターゲット共分散行列決定器１２０５によって、以下のように計算されてもよい。

次いで、ターゲット共分散行列決定器１２０５は、音声を処理するために、ターゲット共分散行列Ｃ_Ｔ＝Ｃ_Ｄ＋Ｃ_Ａを取得し得る。したがって、上掲のように、周囲の部分の共分散行列は、周囲のエネルギー、および周囲のコヒーレンスパラメータγに含まれる空間コヒーレンスについて説明し、直接共分散行列は、指向性エネルギー、方向パラメータ、および拡散コヒーレンスパラメータζについて説明する。

ターゲット共分散行列決定器１２０５は、サラウンド音声のチャネル間特性の代わりに両耳間特性を合成するように構成されることによって、バイノーラル出力についてターゲット共分散行列１２０８を決定するように構成されてもよい。

したがって、ターゲット共分散行列決定器１２０５は、バイノーラルサウンドについて、周囲の共分散行列Ｃ_Ａを決定するように構成されてもよい。周囲のまたは無指向性エネルギーの量は、（１－ｒ）Ｅであり、ここで、Ｅは、先に決定されたような総エネルギーである。周囲の部分の共分散行列は、以下のように決定され得る。

ここで、

ｃ_ｂｉｎ（ｋ）は、第ｋ番目の周波数インデックスの周波数についてのバイノーラル拡散フィールドコヒーレンスである。言い換えると、γ（ｋ，ｎ）が１であるとき、周囲の共分散行列Ｃ_Ａは、左耳と右耳との間の完全なコヒーレンスを決定する。γ（ｋ，ｎ）がゼロのとき、Ｃ_Ａは、拡散フィールドで人間のリスナーにとって自然である、左耳と右耳との間のコヒーレンス（大まかに、高周波数でゼロ、低周波数で高い）を決定する。

次いで、ターゲット共分散行列決定器１２０５は、直接部分の共分散行列Ｃ_Ｄを決定するように構成されてもよい。指向性エネルギーの量は、ｒＥである。以下で詳述されるように、スピーカー再生のように、拡散コヒーレンスパラメータζを合成するための類似の方法を使用することが可能である。

まず、ターゲット共分散行列決定器１２０５は、２×１頭部伝達関数（Head Related Transfer Function：ＨＲＴＦ）ベクトルｖ_ＨＲＴＦ（ｋ，θ（ｋ，ｎ），φ（ｋ，ｎ））を決定するように構成されてもよく、ここで、θ（ｋ，ｎ）は、推定された方位角であり、φ（ｋ，ｎ）は、推定された仰角である。ターゲット共分散行列決定器１２０５は、３つの方向でコヒーレントに音声を再生することと等価である、パンニングＨＲＴＦベクトルを決定し得る。

ここで、θ_Δパラメータは、方位角寸法に関して、「拡散」音声エネルギーの幅を定義する。それは、パラメータ入力として提供される場合、例えば、３０度または拡散範囲パラメータの半分であり得る。

拡散コヒーレンスパラメータζが０．５未満であるとき、すなわち、音声が、「直接ポイントソース」と「３つのスピーカーコヒーレント音声」との間であるとき、ターゲット共分散行列決定器１２０５は、直接部分のＨＲＴＦ共分散行列が以下のようであることを決定するように構成され得る。

拡散コヒーレンスパラメータζが０．５～１であるとき、すなわち、音声が、「３つのスピーカーコヒーレント音声」と「２つの拡散スピーカーコヒーレント音声」との間であるとき、ターゲット共分散行列決定器１２０５は、（スピーカーレンダリングと同じ）振幅分配ベクトルｖ_{ＤＩＳＴＲ，３}を再度利用することによって、拡散分配を決定し得る。次いで、結合された頭部伝達関数（ＨＲＴＦ）ベクトルは、以下のように決定され得る。

上記式は、ｖ_{ＤＩＳＴＲ，３}での重みで３つのＨＲＴＦの重み付けされた合計を生成する。次いで、直接部分のＨＲＴＦ共分散行列は、以下のとおりである。

次いで、ターゲット共分散行列決定器１２０５は、音声を処理するために、ターゲット共分散行列Ｃ_Ｔ＝Ｃ_Ｄ＋Ｃ_Ａを取得するように構成されている。したがって、上掲のように、周囲の部分の共分散行列は、周囲のエネルギー、および周囲のコヒーレンスパラメータγに含まれる空間コヒーレンスについて説明し、直接共分散行列は、指向性エネルギー、方向パラメータ、および拡散コヒーレンスパラメータζについて説明する。

ターゲット共分散行列決定器１２０５は、スピーカーサラウンド音声のチャネル間特性の代わりにアンビソニックス信号のチャネル間特性を合成するように構成されることによって、アンビソニックス出力についてターゲット共分散行列１２０８を決定するように構成されてもよい。１次アンビソニックス（ＦＯＡ）出力が以下に例示されるが、同じ原理を、より高次のアンビソニックス出力まで拡張することも簡単である。

したがって、ターゲット共分散行列決定器１２０５は、アンビソニックスサウンドについて、周囲の共分散行列Ｃ_Ａを決定するように構成されてもよい。周囲のまたは無指向性エネルギーの量は、（１－ｒ）Ｅであり、ここで、Ｅは、先に決定されたような総エネルギーである。周囲の部分の共分散行列は、以下のように決定され得る。

言い換えると、γ（ｋ，ｎ）が１であるとき、周囲の共分散行列Ｃ_Ａは、０次の成分のみが信号を受信する。そのようなアンビソニックス信号は、音声の空間的なコヒーレントな再生を意味する。γ（ｋ，ｎ）がゼロであるとき、Ｃ_Ａは、拡散フィールドでのアンビソニックス共分散行列に対応する。上記の０次および１次成分の正規化は、既知のＳＮ３Ｄ正規化スキームに従う。

まず、ターゲット共分散行列決定器１２０５は、４×１アンビソニックスパンニングベクトルｖ_Ａｍｂ（θ（ｋ，ｎ），φ（ｋ，ｎ））を決定するように構成されてもよく、ここで、θ（ｋ，ｎ）は、推定された方位角パラメータであり、φ（ｋ，ｎ）は、推定された仰角パラメータである。アンビソニックスパンニングベクトルｖ_Ａｍｂ（θ（ｋ，ｎ），φ（ｋ，ｎ））は、方向θ（ｋ，ｎ）、φ（ｋ，ｎ）に対応するアンビソニックスゲインを含む。既知のＡＣＮチャネルオーダリングスキームを使用するＦＯＡ出力について、アンビソニックスパンニングベクトルは、以下のとおりである。

ターゲット共分散行列決定器１２０５は、３つの方向でコヒーレントに音声を再生することと等価である、パンニングアンビソニックスベクトルを決定し得る。

拡散コヒーレンスパラメータζが０．５未満であるとき、すなわち、音声が、「直接ポイントソース」と「３つのスピーカーコヒーレント音声」との間であるとき、ターゲット共分散行列決定器１２０５は、直接部分のアンビソニックス共分散行列が以下のようであることを決定するように構成され得る。

拡散コヒーレンスパラメータζが０．５～１であるとき、すなわち、音声が、「３つのスピーカーコヒーレント音声」と「２つの拡散スピーカーコヒーレント音声」との間であるとき、ターゲット共分散行列決定器１２０５は、（スピーカーレンダリングと同じ）振幅分配ベクトルｖ_{ＤＩＳＴＲ，３}を再度利用することによって、拡散分配を決定し得る。次いで、結合されたアンビソニックスパンニングベクトルは、以下のように決定され得る。

上記式は、ｖ_{ＤＩＳＴＲ，３}での重みで３つのアンビソニックスパンニングベクトルの重み付けされた合計を生成する。次いで、直接部分のアンビソニックス共分散行列は、以下のとおりである。

言い換えると、同じ一般的な原理が、バイノーラル、アンビソニックス、またはスピーカーターゲット共分散行列の構築に当てはまる。主要な違いは、直接部分のレンダリングでのスピーカー振幅パンニングデータの代わりに、ＨＲＴＦデータまたはアンビソニックスパンニングデータを利用すること、および周囲の部分のレンダリングでのチャネル間（ゼロ）コヒーレンスの代わりに、バイノーラルコヒーレンス（または特定のアンビソニックスの周囲の共分散行列処理）を利用することである。プロセッサは、上記を実施するソフトウェアを実行することができ、したがって、これらの出力タイプの各々をレンダリングすることができ得ることが理解されるであろう。

上記式では、ターゲット共分散行列の直接および周囲の部分のエネルギーは、推定された入力共分散行列からの総エネルギー推定Ｅに基づいて重み付けされた。任意に、そのような重み付けは省略されてもよく、すなわち、直接部分のエネルギーは、ｒとして決定され、周囲の部分のエネルギーは、（１－ｒ）として決定される。その場合では、推定された入力共分散行列は、代わりに総エネルギー推定で正規化され、すなわち、１／Ｅで乗算される。そのような決定されたターゲット共分散行列および正規化された入力共分散行列に基づく、結果として生じるミキシング行列は、これらの行列の相対的なエネルギーが問題であり、それらの絶対エネルギーが問題でないため、先に提供された定式化と正確にまたは実質的に同じであり得る。

上記式では、拡散コヒーレント音声は、方向パラメータに従う方向に対して左および右の同じ面で再生されるように決定された。別の実施形態では、コヒーレント音声は、方向パラメータの周囲でスピーカーリングおよびエリアを使用して再生される。その実施形態では、例えば、スピーカー再生の場合では、ζ＝１に対応する拡散コヒーレント音声は、中央のスピーカーｌ_ｃから角度α離れて許容値以内であることによって決定されるスピーカーのリングを使用して再生される。別の例では、ζ＝０．５に対応する拡散コヒーレント音声は、中央のスピーカーｌ_ｃから角度α内にあることによって決定されるスピーカーのバーチャル表面を使用して再生される。角度αは、パラメータ入力、または一定、例えば、３０度として提供される場合、拡散範囲パラメータの半分であるように決定され得る。

図１２に関して、合成動作の概要が示される。

したがって、本方法は、ステップ１６０１と図１２に示されるように、時間領域伝送信号を受信し得る。

次いで、これらの伝送信号は、ステップ１６０３と図１２に示されるように、時間対周波数領域変換され得る。

次いで、共分散行列は、ステップ１６０５にと図１２に示されるように、入力（伝送オーディオ）信号から推定され得る。

さらに、方向、エネルギー比、およびコヒーレンスパラメータを有する空間メタデータは、ステップ１６０２と図１２に示されるように受信され得る。

ターゲット共分散行列は、ステップ１６０７と図１２に示されるように、推定された共分散行列、方向、エネルギー比、およびコヒーレンスパラメータから決定されてもよい。

次いで、最適なミキシング行列は、ステップ１６０９と図１２に示されるように、推定された共分散行列およびターゲット共分散行列に基づいて決定されてもよい。

次いで、ミキシング行列は、ステップ１６１１と図１２に示されるように、時間周波数ダウンミックス信号に適用されてもよい。

次いで、ミキシング行列の時間周波数ダウンミックス信号への適用の結果は、ステップ１６１３と図１２に示されるように、空間化オーディオ信号を生成するために時間対周波数領域逆変換されてもよい。

図１３に関して、一部の実施形態による、ターゲット共分散行列を生成するための例示的な方法が示される。

まず、ステップ１６２１と図１３に示されるように、入力共分散行列に基づいて、ターゲット共分散行列の全体のエネルギーＥを推定する。

次いで、本方法は、ステップ１６２３と図１３に示されるように、（１－ｒ）Ｅとして周囲のエネルギーを決定することを含んでもよく、ｒは、入力メタデータからの直接対総エネルギー比パラメータである。

さらに、本方法は、ステップ１６２５と図１３に示されるように、周囲の共分散行列を推定することを含んでもよい。

また、本方法は、ステップ１６２４と図１３に示されるように、ｒＥとして直接部分のエネルギーを決定することを含んでもよく、ｒは、入力メタデータからの直接対総エネルギー比パラメータである。

次いで、本方法は、ステップ１６２６と図１３に示されるように、スピーカーセットアップについての振幅パンニングゲインのベクトルおよび空間メタデータの方向情報を決定することを含んでもよい。

これに続いて、本方法は、ステップ１６２８と図１３に示されるように、推定された方向に最も近いスピーカー、ならびに最も近い左および右スピーカーである、チャネルトリプレットを決定することを含んでもよい。

次いで、本方法は、ステップ１６３０と図１３に示されるように、直接共分散行列を推定することを含んでもよい。

最後に、本方法は、ステップ１６３１と図１３に示されるように、ターゲット共分散行列を生成するために、周囲および直接の共分散行列部分を結合することを含んでもよい。

上記定式化は、ターゲット共分散行列の構築についてである。米国特許出願公開第２０１４－０２３３７６２号および関連するジャーナル刊行物における方法にも、プロトタイプ行列の決定および使用に最も関連するさらなる詳細が記載されている。プロトタイプ行列は、最小二乗最適化ミキシングソリューションが定式化されるレンダリングについての「基準信号」を決定する。ステレオダウンミックスがコーデックでオーディオ信号として提供される場合、スピーカーレンダリングについてのプロトタイプ行列は、左手側スピーカーについての信号が、ステレオトラックの提供された左のチャネルに関して最適化され、右手側についても同様であり、（中央チャネルは、左および右オーディオチャネルの合計に関して最適化され得る）ことを決定し得る。バイノーラル出力について、プロトタイプ行列は、左耳出力信号についての基準信号は、左ステレオチャネルであり、右耳についても同様であることを決定し得る。プロトタイプ行列の決定は、先行文献を調査した当業者にとって容易である。先行文献に対して、合成段階における本定式化での新規の態様は、空間コヒーレンスメタデータも利用するターゲット共分散行列の構築である。

本明細書全体を通じて繰り返し述べられてはいないが、空間オーディオ処理が、典型的およびこの文脈の両方で、周波数帯域で行われることを理解されたい。それらの帯域は、例えば、時間周波数変換の周波数ビン、またはいくつかのビンを結合する周波数帯域であり得る。結合は、バーク（Bark）周波数解像度などの人間のヒアリングの特性に近似し得る。言い換えると、いくつかの場合、周波数ビンｂおよび／または時間インデックスｎのいくつかを結合する時間周波数エリアでオーディオを測定および処理し得る。単純化のために、これらの態様は、上記の式のいずれにも表されなかった。多くの時間周波数サンプルが結合される場合、典型的には、１つの方向などの１つのセットのパラメータは、その時間周波数エリアについて推定され、そのエリア内のすべての時間周波数サンプルは、その１つの方向パラメータなどのそのセットのパラメータに従って合成される。

適用されたフィルタバンクの周波数解像度とは異なる、パラメータ分析についての周波数解像度の使用は、空間オーディオ処理システムでの典型的なアプローチである。

したがって、提案された方法は、以下の共通マルチチャネルミキシング技術がスピーカー信号に適用された場所を検出または識別し得る。

１）音声が、「エアリー」知覚を生成するために２つのスピーカーを使用（例えば、中央の代わりに、前方左および右を使用）してコヒーレントに再生される。
２）音声が、「近い」知覚を生成するために３つの（または３つを超える）スピーカーを使用（例えば、中央のみの代わりに、前方左、右、および中央を使用）してコヒーレントに再生される。
３）音声が、「頭の内側での」または「上での」知覚を生成するために（ほぼ）すべてのスピーカーからコヒーレントに再生される。

この検出または識別情報は、一部の実施形態では、複数の（時間周波数領域）パラメータを使用することによって、エンコーダからデコーダに渡されてもよい。これらの２つは、拡散コヒーレンスおよび周囲のコヒーレンスパラメータである。さらに、エネルギー比パラメータは、上述のような状況を決定したオーディオ品質を向上させるために修正されてもよい。

合成段階では、（提案された新規のパラメータを使用しない）従来技術の方法はそれぞれ、これらの状況に伴う以下の問題を有する。

１）音声は、大部分が周囲、すなわち、中央のスピーカーでのドライサウンドおよびすべてのスピーカーでの非相関音声として再生される。これは、周囲のような知覚をもたらすが、一方、知覚は、元の信号で「エアリー」であった。
２）音声は、部分的に周囲、すなわち、中央のスピーカーでのドライサウンドおよびすべてのスピーカーでの非相関音声として再生される。音源は、遠く離れているように知覚されるが、一方、それは、元の信号と近かった。
３）音声は、周囲として再生され、ほとんどすべての音声は、すべてのスピーカーから非相関として再生される。空間知覚は、元の信号のものに対してほぼ反対である。

しかしながら、本明細書で説明される実施形態を実施する合成段階では、合成は、（提案された新規のパラメータを使用して）問題なくこれらの場合をそれぞれ再生し得る。
１）音声は、元の信号のように２つのスピーカーを使用してコヒーレントに再生される。
２）音声は、元の信号のように３つのスピーカーを使用してコヒーレントに再生される。
３）音声は、元の信号のようにすべてのスピーカーを使用してコヒーレントに再生される。

上記分析実施形態に適応するための一部の実施形態では、合成は、さらに、完全なセットの出力チャネルを使用してもよい。そのような実施形態では、３つのチャネルだけを使用する代わりに、拡散範囲の内側のすべてのチャネルが、コヒーレント信号を再生し、定式化を複数のスピーカーの場合に拡張するために使用される。同様に、一部の実施形態では、拡散範囲のエッジの周囲の最も近いスピーカーは、実際のエッジであるように選択される。しかしながら、円形ゾーンは、上記の合成方法で定義されるようなエッジとしての２つのクリアスピーカーとして機能を果たすように生成される。スピーカーノードまたはスピーカーは、正確に、すべての方向でこの円上にない場合があり、一部の実施形態では、拡散範囲の少し外側にあるスピーカーも含まれることを可能にし、したがって、より確度の高い最良の円形エッジを生成する、許容値ゾーン（例えば、１０度）が定義される。

図１４に関して、分析または合成デバイスとして使用され得る例示的な電子デバイスが示される。デバイスは、任意の好適な電子デバイスまたは装置であり得る。例えば、一部の実施形態では、デバイス１４００は、モバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオプレイバック装置などである。

一部の実施形態では、デバイス１４００は、少なくとも１つのプロセッサまたは中央処理装置１４０７を備える。プロセッサ１４０７は、本明細書で説明されるような方法などの様々なプログラムコードを実行するように構成され得る。

一部の実施形態では、デバイス１４００は、メモリ１４１１を備える。一部の実施形態では、少なくとも１つのプロセッサ１４０７は、メモリ１４１１に接続されている。メモリ１４１１は、任意の好適な記憶手段であり得る。一部の実施形態では、メモリ１４１１は、プロセッサ１４０７上で実行可能なプログラムコードを記憶するためのプログラムコードセクションを備える。さらに、一部の実施形態では、メモリ１４１１は、データ、例えば、本明細書で説明されるような実施形態に従って処理された、または処理されるデータを記憶するための記憶データセクションをさらに備え得る。プログラムコードセクション内で記憶される実行プログラムコードおよび記憶データセクション内で記憶されるデータは、メモリプロセッサ接続を介して、必要なときはいつでもプロセッサ１４０７によって検索され得る。

一部の実施形態では、デバイス１４００は、ユーザインターフェース１４０５を備える。ユーザインターフェース１４０５は、一部の実施形態では、プロセッサ１４０７に接続され得る。一部の実施形態では、プロセッサ１４０７は、ユーザインターフェース１４０５の動作を制御し、ユーザインターフェース１４０５から入力を受信し得る。一部の実施形態では、ユーザインターフェース１４０５は、ユーザが、例えば、キーパッドを介して、デバイス１４００へのコマンドを入力することを可能にし得る。一部の実施形態では、ユーザインターフェース１４０５は、ユーザが、デバイス１４００から情報を取得することを可能にし得る。例えば、ユーザインターフェース１４０５は、デバイス１４００からユーザに情報を表示するように構成されたディスプレイを備え得る。ユーザインターフェース１４０５は、一部の実施形態では、情報がデバイス１４００に入力されることを可能にし、さらに、デバイス１４００のユーザに情報を表示することができる、タッチスクリーンまたはタッチインターフェースを備え得る。一部の実施形態では、ユーザインターフェース１４０５は、本明細書で説明されるような位置決定器と通信するためのユーザインターフェースであり得る。

一部の実施形態では、デバイス１４００は、入／出力ポート１４０９を備える。入／出力ポート１４０９は、一部の実施形態では、トランシーバを備える。そのような実施形態でのトランシーバは、プロセッサ１４０７に接続され、例えば、無線通信ネットワークを介して、他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバもしくは任意の好適なトランシーバもしくはトランスミッタおよび／またはレシーバ手段は、一部の実施形態では、有線または無線接続を介して、他の電子デバイスまたは装置と通信するように構成され得る。

トランシーバは、任意の好適な既知の通信プロトコルによって、さらなる装置と通信し得る。例えば、一部の実施形態では、トランシーバまたはトランシーバ手段は、好適なユニバーサルモバイルテレコミュニケーションズシステム（Universal Mobile Telecommunications System：ＵＭＴＳ）プロトコル、例えば、ＩＥＥＥ８０２．Ｘなどのワイヤレスローカルエリアネットワーク（Wireless Local Area Network：ＷＬＡＮ）プロトコル、Ｂｌｕｅｔｏｏｔｈなどの好適な短距離無線周波数通信プロトコル、または赤外線データ通信経路（Infrared Data communication pathway：ＩＲＤＡ）を使用し得る。

トランシーバ入／出力ポート１４０９は、スピーカー信号を受信し、一部の実施形態では、好適なコードを実行するプロセッサ１４０７を使用することによって、本明細書で説明されるようなパラメータを決定するように構成されてもよい。さらに、デバイスは、合成デバイスに送信される、好適なダウンミックス信号およびパラメータ出力を生成してもよい。

一部の実施形態では、デバイス１４００は、合成デバイスの少なくとも一部として採用され得る。そのように、入／出力ポート１４０９は、ダウンミックス信号、および一部の実施形態では、本明細書で説明されるような捕捉デバイスまたは処理デバイスで決定されるパラメータを受信し、好適なコードを実行するプロセッサ１４０７を使用することによって、好適なオーディオ信号フォーマット出力を生成するように構成されてもよい。入／出力ポート１４０９は、任意の好適なオーディオ出力、例えば、マルチチャネルスピーカーシステムおよび／またはヘッドフォンもしくは類似のものに接続され得る。

本出願で使用されるとき、「回路」という用語は、以下の１つ以上またはすべてを指してもよい。
（ａ）（アナログおよび／またはデジタル回路のみでの実装態様などの）ハードウェアのみの回路実装態様
（ｂ）（ｉ）ソフトウェア／ファームウェアを有するアナログおよび／またはデジタルハードウェア回路の組合せ、（ｉｉ）（デジタル信号プロセッサを含む）ソフトウェアを有するハードウェアプロセッサ、ソフトウェア、および携帯電話またはサーバなどの装置に様々な機能を実行させるように一緒に機能するメモリの任意の部分などの、（適用可能な）ハードウェア回路およびソフトウェアの組合せ
（ｃ）動作のためにソフトウェア（例えば、ファームウェア）を必要とするが、ソフトウェアは、動作のために必要とされないときに存在しない場合がある、マイクロプロセッサまたはマイクロプロセッサの一部などのハードウェア回路および／またはプロセッサ

回路のこの定義は、すべての請求項を含む、本出願でのこの用語のすべての使用に当てはまる。さらなる例として、本出願で使用されるとき、回路という用語はまた、単なるハードウェア回路もしくはプロセッサ（もしくは複数のプロセッサ）、またはハードウェア回路もしくはプロセッサの一部、ならびにその（もしくはそれらの）付随のソフトウェアおよび／もしくはファームウェアの実装を網羅する。回路という用語はまた、例えば、請求項における特定の要素に適用可能な場合、モバイルデバイスについてのベースバンド集積回路もしくはプロセッサ集積回路、またはサーバ、セルラーネットワークデバイス、もしくは他のコンピューティングもしくはネットワークデバイスでの類似の集積回路を網羅する。

一般的に、本発明の様々な実施形態は、ハードウェアもしくは専用回路、ソフトウェア、ロジック、またはそれらの任意の組合せで実施され得る。例えば、いくつかの態様は、ハードウェアで実施され得るが、他の態様は、ファームウェアまたはソフトウェアで実施されてもよく、これらは、コントローラ、マイクロプロセッサ、または他のコンピューティングデバイスによって実行され得るが、本発明は、それに限定されない。本発明の様々な態様は、ブロック図、フローチャートとして、またはいくつかの他の図形表示を使用して例示および説明され得るが、本明細書で説明される、これらのブロック、装置、システム、技術、または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくはロジック、汎用ハードウェアもしくはコントローラ、もしくは他のコンピューティングデバイス、またはそれらの何らかの組合せで実施され得ることが十分に理解される。

本発明の実施形態は、プロセッサエンティティなどのモバイルデバイスのデータプロセッサ、ハードウェア、またはソフトウェアおよびハードウェアの組合せによって実行可能なコンピュータソフトウェアによって実施され得る。さらに、この点において、図示のようなロジックフローの任意のブロックは、プログラムステップ、もしくは相互接続されたロジック回路、ブロックおよび機能、またはプログラムステップおよびロジック回路、ブロックおよび機能の組合せを表し得ることに留意されたい。ソフトウェアは、メモリチップのような物理媒体、またはプロセッサ内に実装されたメモリブロック、ハードディスクもしくはフロッピーディスクなどの磁気媒体、および、例えば、ＤＶＤおよびそのデータ変形体、ＣＤなどの光学媒体上に記憶され得る。

メモリは、ローカルの技術環境に好適な任意のタイプであり得、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光学メモリデバイスおよびシステム、固定メモリおよび取り外し可能なメモリなどの任意の好適なデータ記憶技術を使用して実装され得る。データプロセッサは、ローカルの技術環境に好適な任意のタイプであり得、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（Digital Signal Processor：ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、マルチコアプロセッサアーキテクチャに基づくゲートレベル回路およびプロセッサのうちの１つ以上を含んでもよい。

本発明の実施形態は、集積回路モジュールなどの様々な構成要素で実施され得る。集積回路の設計は、全体的に、高度な自動化プロセスである。複雑で強力なソフトウェアツールは、ロジックレベル設計を、半導体基板上にエッチングおよび形成される準備ができた半導体回路設計に変換するのに利用可能である。

カリフォルニア州マウンテンビューのＳｙｎｏｐｓｙｓ，Ｉｎｃ．およびカリフォルニア州サンノゼのＣａｄｅｎｃｅＤｅｓｉｇｎによって提供されるものなどのプログラムは、自動的に、十分に確立された設計ルールおよび予め記憶された設計モジュールのライブラリを使用して、コンダクタをルーティングし、半導体チップ上に構成要素を配置する。一旦、半導体回路についての設計が完了すると、標準化された電子フォーマット（例えば、Ｏｐｕｓ、ＧＤＳＩＩなど）で、結果として生じる設計は、製造のために半導体製造設備「ファブ」に送信され得る。

前述の説明は、例示および非限定的な例によって、本発明の例示的な実施形態の完全で参考になる説明を提供している。しかしながら、様々な修正および適応が、添付の図面および添付の請求項と併せて読むと、前述の説明の観点から、当業者にとって明白になり得る。本発明の教示のすべてのそのような修正および類似の修正は、依然として、添付の請求項で定義されるような本発明の範囲内にある。

Claims

装置であって、
２つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために、少なくとも１つの空間オーディオパラメータを決定する手段と、
前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのオーディオ信号関係パラメータを決定する手段と、
を備え、
前記少なくとも１つの空間オーディオパラメータは、少なくとも１つの方向パラメータと少なくとも１つのエネルギー比パラメータの少なくとも１つを含み、
前記少なくとも１つのオーディオ信号関係パラメータは少なくとも１つのコヒーレンスパラメータに対応付けられており、前記少なくとも１つのコヒーレンスパラメータは、少なくとも２つの周波数帯域について、前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのチャネル間コヒーレンス情報を提供し、それによって、前記少なくとも１つの空間オーディオパラメータおよび前記少なくとも１つのオーディオ信号関係パラメータに基づいて、前記２つ以上のスピーカーチャネルオーディオ信号が再生され、
前記装置は更に、
前記少なくとも１つの空間オーディオパラメータを送信すると共に、少なくとも１つの決定された値を使用して、前記少なくとも１つのチャネル間コヒーレンス情報に対応付けられた少なくとも１つの情報を送信する手段、
を備え、ここで前記少なくとも１つのチャネル間コヒーレンス情報に対応付けられた前記少なくとも１つの情報は、チャネル間コヒーレンスエリアの配向、幅、範囲の少なくとも１つを含む、装置。
前記２つ以上のスピーカーチャネルオーディオ信号が、前記少なくとも１つの空間オーディオパラメータと、前記少なくとも１つのコヒーレンスパラメータと、伝送オーディオ信号のいずれか１つ以上に基づいて再生されるように、前記２つ以上のスピーカーチャネルオーディオ信号から伝送オーディオ信号を決定するように構成される、
請求項１に記載の装置。
前記２つ以上のスピーカーチャネルオーディオ信号間から前記少なくとも１つのコヒーレンスパラメータを決定するように構成され、
前記少なくとも１つのコヒーレンスパラメータを決定することは、拡散コヒーレンスパラメータを決定することを含み、
前記拡散コヒーレンスパラメータは、識別されたスピーカーチャネルオーディオ信号に空間的に隣接する２つ以上のスピーカーチャネルオーディオ信号間でチャネル間コヒーレンス情報に基づいて決定され、
前記識別されたスピーカーチャネルオーディオ信号は、前記少なくとも１つの空間オーディオパラメータに基づいて識別される、
請求項１又は２に記載の装置。
前記拡散コヒーレンスパラメータを決定することは、
前記２つ以上のスピーカーチャネルオーディオ信号が、前記少なくとも１つの方向パラメータに空間的に最も近い前記スピーカーチャネルオーディオ信号である前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する２つのスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すことに対応付けられたステレオネスパラメータを決定することと、
前記２つ以上のスピーカーチャネルオーディオ信号が、前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する少なくとも２つ以上のスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すことに対応付けられたコヒーレントパンニングパラメータを決定することと、
前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを生成することと、
を含む、請求項３に記載の装置。
前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを生成することは、さらに、
前記少なくとも１つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定することと、
前記識別されたスピーカーからの方向からサーチすることであって、エリアでの各サーチが、一連の角度ステップで０から１８０度までの角度を含むことと、
前記識別されたスピーカーと、前記サーチエリア内の任意のスピーカーチャネルとの間で平均コヒーレンス値を推定することと、
前記平均コヒーレンス値に基づいて、一定のコヒーレンスエリアを決定し、
最も大きいコヒーレンスエリアの２倍で拡散範囲を設定することと、
前記拡散範囲に基づいて、前記コヒーレントパンニングパラメータを定義することと、
を含む、請求項４に記載の装置。
前記最も大きいコヒーレンスエリアに基づいて、前記コヒーレントパンニングパラメータを定義することは、
前記少なくとも１つの方向パラメータに最も近いスピーカーを決定することと、
前記スピーカーと、前記最も大きいコヒーレンスエリアの内側のすべてのスピーカーとの間で正規化されたコヒーレンスを決定することと、
閾値エネルギーよりも低いエネルギーを有するスピーカーを省略することと、
残りのスピーカーから最小のコヒーレンスを選択することと、
前記残りのスピーカー間でエネルギー分配に基づいて、エネルギー分配パラメータを決定することと、
前記コヒーレントパンニングパラメータを決定するために、前記エネルギー分配パラメータを最小のコヒーレンスに乗算することと、
を含む、請求項５に記載の装置。
前記ステレオネスパラメータを決定することは、
前記少なくとも１つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定することと、
前記識別されたスピーカーからの方向からサーチすることであって、リングでの各サーチが、一連の角度ステップで０から１８０度までの角度によって定義されることと、
前記サーチリングから所定の角度以内に配置されたすべてのスピーカーについて、平均コヒーレンス値および平均エネルギー値を推定することと、
前記平均コヒーレンス値および平均エネルギー値に基づいて、最も大きいコヒーレンスリング角度を決定することと、
前記最も大きいコヒーレンスリング角度の２倍で拡散範囲を設定することと、
前記拡散範囲に基づいて、前記ステレオネスパラメータを定義することと、
を含む、請求項４から６のいずれかに記載の装置。
前記拡散範囲に基づいて、前記ステレオネスパラメータを定義することは、
最も大きいコヒーレンスリング上で最も大きいエネルギーを有するスピーカーを識別することと、
前記識別されたスピーカーと、前記最も大きいコヒーレンスリング上の他のスピーカーとの間で正規化されたコヒーレンスを決定することと、
それぞれのエネルギーによって重み付けされる前記正規化されたコヒーレンスの平均値を求めることと、
前記最も大きいコヒーレンスリング上のエネルギーおよび前記最も大きいコヒーレンスリングの内側のエネルギーの比を求めることと、
前記ステレオネスパラメータを形成するために、エネルギーの前記比および正規化されたコヒーレンスの平均値を乗算することと、
を含む、請求項７に記載の装置。
方法であって、
２つ以上のスピーカーチャネルオーディオ信号について、空間オーディオ再生を提供するために、少なくとも１つの空間オーディオパラメータを決定することと、
前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのオーディオ信号関係パラメータを決定することと、
を含み、
前記少なくとも１つの空間オーディオパラメータは、少なくとも１つの方向パラメータと少なくとも１つのエネルギー比パラメータの少なくとも１つを含み、
前記少なくとも１つのオーディオ信号関係パラメータは少なくとも１つのコヒーレンスパラメータに対応付けられており、前記少なくとも１つのコヒーレンスパラメータは、少なくとも２つの周波数帯域について、前記２つ以上のスピーカーチャネルオーディオ信号間で少なくとも１つのチャネル間コヒーレンス情報を提供し、それによって、前記少なくとも１つの空間オーディオパラメータおよび前記少なくとも１つのオーディオ信号関係パラメータに基づいて、前記２つ以上のスピーカーチャネルオーディオ信号が再生され、
前記方法は更に、
前記少なくとも１つの空間オーディオパラメータを送信すると共に、少なくとも１つの決定された値を使用して、前記少なくとも１つのチャネル間コヒーレンス情報に対応付けられた少なくとも１つの情報を送信すること、
を含み、ここで前記少なくとも１つのチャネル間コヒーレンス情報に対応付けられた前記少なくとも１つの情報は、チャネル間コヒーレンスエリアの配向、幅、範囲の少なくとも１つを含む、方法。
前記２つ以上のスピーカーチャネルオーディオ信号が、前記少なくとも１つの空間オーディオパラメータと、前記少なくとも１つのコヒーレンスパラメータと、伝送オーディオ信号のいずれか１つ以上に基づいて再生されるように、前記２つ以上のスピーカーチャネルオーディオ信号から伝送オーディオ信号を決定することと、
を含む、請求項９に記載の方法。
前記２つ以上のスピーカーチャネルオーディオ信号間で前記少なくとも１つのコヒーレンスパラメータを決定することを含み、
前記少なくとも１つのコヒーレンスパラメータを決定することは、拡散コヒーレンスパラメータを決定することを含み、
前記拡散コヒーレンスパラメータは、識別されたスピーカーチャネルオーディオ信号に空間的に隣接する２つ以上のスピーカーチャネルオーディオ信号間でチャネル間コヒーレンス情報に基づいて決定され、
前記識別されたスピーカーチャネルオーディオ信号は、前記少なくとも１つの空間オーディオパラメータに基づいて識別される、
請求項９又は１０に記載の方法。
前記拡散コヒーレンスパラメータを決定することは、
前記２つ以上のスピーカーチャネルオーディオ信号は、少なくとも１つの方向パラメータに空間的に最も近い前記スピーカーチャネルオーディオ信号である前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する２つのスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すステレオネスパラメータを決定することと、
前記２つ以上のスピーカーチャネルオーディオ信号が、前記識別されたスピーカーチャネルオーディオ信号に空間的に隣接する少なくとも２つ以上のスピーカーチャネルオーディオ信号を使用して、コヒーレントに再生されることを示すコヒーレントパンニングパラメータを決定することと、
前記ステレオネスパラメータおよび前記コヒーレントパンニングパラメータに基づいて、前記拡散コヒーレンスパラメータを生成することと、
を含む、請求項１１に記載の方法。
前記拡散コヒーレンスパラメータを生成することは、
前記少なくとも１つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定することと、
前記識別されたスピーカーからの方向からサーチすることであって、エリアでの各サーチが、一連の角度ステップで０から１８０度までの角度を含む、サーチすることと、
前記識別されたスピーカーと、前記サーチエリア内の任意のスピーカーチャネルとの間で平均コヒーレンス値を推定することと、
前記平均コヒーレンス値に基づいて、一定のコヒーレンスエリアを決定することと、
最も大きいコヒーレンスエリアの２倍で拡散範囲を設定することと、
前記拡散範囲に基づいて、前記コヒーレントパンニングパラメータを定義することと、をさらに含む、請求項１２に記載の方法。
前記最も大きいコヒーレンスエリアに基づいて、前記コヒーレントパンニングパラメータを定義することは、
前記少なくとも１つの方向パラメータに最も近いスピーカーを決定することと、
前記スピーカーと、前記最も大きいコヒーレンスエリアの内側のすべてのスピーカーとの間で正規化されたコヒーレンスを決定することと、
閾値エネルギーよりも低いエネルギーを有するスピーカーを省略することと、
残りのスピーカーから最小のコヒーレンスを選択することと、
前記残りのスピーカー間でエネルギー分配に基づいて、エネルギー分配パラメータを決定することと、
前記コヒーレントパンニングパラメータを決定するために、前記エネルギー分配パラメータを最小のコヒーレンスに乗算することと、
を含む、請求項１３に記載の方法。
前記ステレオネスパラメータを決定することは、
前記少なくとも１つの方向パラメータに最も近いスピーカーを識別するために、主要な方向分析を決定することと、
前記識別されたスピーカーからの方向からサーチすることであって、リングでの各サーチが、一連の角度ステップで０から１８０度までの角度によって定義されることと、
前記サーチリングから所定の角度以内に配置されたすべてのスピーカーについて、平均コヒーレンス値および平均エネルギー値を推定することと、
前記平均コヒーレンス値および平均エネルギー値に基づいて、最も大きいコヒーレンスリング角度を決定することと、
前記最も大きいコヒーレンスリング角度の２倍で拡散範囲を設定することと、
前記拡散範囲に基づいて、前記ステレオネスパラメータを定義することと、
を含む、請求項１２から１４のいずれかに記載の方法。
前記拡散範囲に基づいて、前記ステレオネスパラメータを定義することは、
最も大きいコヒーレンスリング上で最も大きいエネルギーを有するスピーカーを識別することと、
前記識別されたスピーカーと、前記最も大きいコヒーレンスリング上の他のスピーカーとの間で正規化されたコヒーレンスを決定することと、
それぞれのエネルギーによって重み付けされる前記正規化されたコヒーレンスの平均値を求めることと、
前記最も大きいコヒーレンスリング上のエネルギーおよび前記最も大きいコヒーレンスリングの内側のエネルギーの比を求めることと、
前記ステレオネスパラメータを形成するために、エネルギーの前記比および正規化されたコヒーレンスの平均値を乗算することと、
を含む、請求項１５に記載の方法。
処理手段及び記憶手段を備える装置であって、前記記憶手段はプログラム命令を格納し、前記プログラム命令は、前記処理手段に実行されると、前記装置に、請求項９から１６のいずれかに記載の方法を遂行させるように構成される、装置。
装置の処理手段に実行されると、前記装置に、請求項９から１６のいずれかに記載の方法を遂行させるように構成されるプログラム命令を備える、コンピュータプログラム。