JP5706513B2

JP5706513B2 - 空間オーディオプロセッサおよび音響入力信号に基づいて空間パラメータを提供する方法

Info

Publication number: JP5706513B2
Application number: JP2013501726A
Authority: JP
Inventors: オリヴァーティールガルト; ファビアンキュッヒ; リヒャルトシュルツ−アムリング; マルクスカリンガー; ガルドジョヴァンニデル; アヒムクンツ; ディルクメーネ; ビーレプルッキ; ミッコ−ヴィレライティネン
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2010-03-29
Filing date: 2011-03-16
Publication date: 2015-04-22
Anticipated expiration: 2031-03-16
Also published as: EP2543037B8; EP2375410B1; PL2543037T3; MX2012011203A; HK1180824A1; CA2794946C; WO2011120800A1; BR112012025013B1; CA2794946A1; US10327088B2; CN102918588B; RU2012145972A; RU2596592C2; EP2543037A1; US20130022206A1; US20170134876A1; AU2011234772A1; CN102918588A; JP2013524267A; KR20130007634A

Description

本発明の実施形態は、音響入力信号に基づいて空間パラメータを提供する空間オーディオプロセッサを構築する。本発明の更なる実施形態は、音響入力信号に基づいて空間パラメータを提供する方法を構築する。本発明の実施形態は、例えばマイクロフォン録音に基づく空間音響の音響解析、パラメータ記述および再生の分野に関係することができる。

空間音響録音は、多重のマイクロフォンによって、再生側でリスナーが録音位置に存在したように音像を認知するように音場を捕えることを意図する。空間音響録音に対する標準アプローチは、簡単なステレオマイクロフォン、または、例えばアンビソニックにおいて用いられるＢフォーマットマイクロフォンのような指向性マイクロフォンのより精巧な組合せを用いる。一般に、これらの方法は、コインシデントマイクロフォン技術と称される。

代替として、音場のパラメータ表現に基づく方法を適用することができ、それはパラメータ空間オーディオプロセッサと称される。近年、空間オーディオの解析、パラメータ記述および再生に対するいくつかの技術が提案されている。各システムは、パラメータ記述のタイプ、必要な入力信号のタイプ、特定のスピーカセットアップからの依存および独立などに関して、ユニークな利点および欠点を有している。

空間音響の効率的なパラメータ記述の例は、方向オーディオ符号化（ＤｉｒＡＣ）（非特許文献１）によって与えられる。ＤｉｒＡＣは、空間音響の音響解析とパラメータ記述（ＤｉｒＡＣ解析）、ならびにその再生（ＤｉｒＡＣ合成）へのアプローチを表す。ＤｉｒＡＣ解析は、入力として多重マイクロフォン信号を取り入れる。空間音響の記述は、多数の周波数サブバンドに対して、１つまたはいくつかのダウンミックスオーディオ信号と、音響の方向および拡散を含むパラメータサイド情報に関して提供される。後者のパラメータは、録音された音場がどれくらい拡散するかを記述する。さらに、拡散は、方向推定に対して信頼性尺度として用いることができる。他のアプリケーションは、空間オーディオ信号の方向依存処理（非特許文献２）から構成される。パラメータ表現に基づいて、空間オーディオは任意のスピーカセットアップによって再生することができる。さらに、ＤｉｒＡＣ解析は、多重チャンネル空間オーディオ、例えば、ＭＰＥＧサラウンドの符号化、伝送および再生が可能なパラメータ符号化システムに対する音響フロントエンドとみなすことができる。

空間音場解析への他のアプローチは、いわゆる空間オーディオマイクロフォン（ＳＡＭ）（非特許文献３）によって表される。ＳＡＭは、入力としてコインシデント指向性マイクロフォンの信号を取り入れる。ＤｉｒＡＣと同様に、ＳＡＭは、拡散音響成分の推定と共に、音場のパラメータ記述に対して音響のＤＯＡ（ＤＯＡ：到来の方向）を判定する。

ＤｉｒＡＣおよびＳＡＭのような空間オーディオの録音および解析のためのパラメータ技術は、特定の音場パラメータの推定に依存する。これらのアプローチのパフォーマンスは、従って、音響の到来方向または音場の拡散のような空間キューパラメータの推定パフォーマンスに強く依存している。

一般に、空間キューパラメータを推定するとき、オーディオ処理に対して、最高の（すなわち最も効率的または最も正確な）アルゴリズムを使用するために、音響入力信号についての特定の仮定（例えば定常性についてまたは音調性について）をすることができる。伝統的に、この目的に対して単一の時間不変信号モデルを定義することができる。しかしながら、共通に起こる問題は、異なるオーディオ信号が、オーディオ入力を記述する一般的な時間不変モデルがしばしば不適切であるような有意の時間変化を呈することができることである。特に、オーディオの処理に対して単一の時間不変信号モデルを考慮するとき、適用されたアルゴリズムのパフォーマンスを低下させるモデルミスマッチを起こす可能性がある。

本発明の実施形態は、音響入力信号に対して、音響入力信号の時間変化または時間非定常性によって生じるモデルミスマッチのより小さい空間パラメータを提供することを目的とする。

Ｖ. Ｐｕｌｋｋｉ：方向オーディオ符号化による空間音響再生、ＡＥＳジャーナル、第５５巻、第６号、２００７年Ｍ. Ｋａｌｌｉｎｇｅｒ他：方向オーディオ符号化のための空間フィルタリングアプローチ、第１２６回ＡＥＳ大会、ミュンヘン、２００９年５月Ｃ.Ｆａｌｌｅｒ：空間オーディオコーダのためのマイクロフォンフロントエンド、第１２５回ＡＥＳ国際会議予稿集、サンフランシスコ、２００８年１０月Ｏ. Ｔｈｉｅｒｇａｒｔ他：方向オーディオ符号化パラメータに基づく、反響する環境における音源の位置決め、１２７回ＡＥＳ大会、ＮＹ、２００９年１０月Ｒ．Ｓｃｈｕｌｔｚ‐Ａｍｌｉｎｇ他：方向オーディオ符号化を用いた空間オーディオの解析と再生のための平面マイクロフォンアレイ処理、１２４回ＡＥＳ大会、アムステルダム、オランダ、２００８年５月Ｓ.ＭｏｌｌａとＢ. Ｔｏｒｒｅｓａｎｉ：オーディオ信号のローカルトランジェント性の決定、ＩＥＥＥ信号処理会報、第１１巻、第７号、２００７年７月

この目的は、請求項１にかかる空間オーディオプロセッサ、請求項１４にかかる音響入力信号に基づいて空間パラメータを提供する方法、および請求項１５にかかるコンピュータプログラムによって解決される。

本発明の実施形態は、音響入力信号に基づいて空間パラメータを提供する空間オーディオプロセッサを構築する。空間オーディオプロセッサは、信号特性判定器と制御可能パラメータ推定器を備える。信号特性判定器は、音響入力信号の信号特性を判定するように構成される。制御可能パラメータ推定器は、音響入力信号に対して、可変空間パラメータ計算ルールに従って空間パラメータを計算するように構成される。パラメータ推定器は、判定された信号特性に従って、可変空間パラメータ計算ルールを修正するように更に構成される。

本発明の実施形態のアイデアは、音響入力信号に基づいて空間パラメータを提供する空間オーディオプロセッサを、空間パラメータを計算するための計算ルールが音響入力信号の信号特性に基づいて修正されるとき、音響入力信号の時間変化によって生じるモデルミスマッチを低減させるように構築することができることである。音響入力信号の信号特性が判定され、この判定された信号特性に基づいて音響入力信号に対する空間パラメータが計算されるとき、モデルミスマッチを低減できることが分かっている。

言い換えれば、本発明の実施形態は、例えば前処理ステップ（信号特性判定器）において、音響入力信号の特性（信号特性）を判定し、次に現在の状況（現在の信号特性）に最もフィットする信号モデル（例えば空間パラメータ計算ルールまたは空間パラメータ計算ルールのパラメータ）を識別することによって、音響入力信号の時間変化によって生じるモデルミスマッチの問題を取り扱うことができる。この情報は、次に空間パラメータを計算するための最良のパラメータ推定戦略（音響入力信号の時間変化に関して）を選択することができるパラメータ推定器に供給することができる。本発明の実施形態の利点は、それ故に、有意に低減されたモデルミスマッチによって、パラメータフィールド記述（空間パラメータ）を得ることができることである。

音響入力信号は、例えば、１つ以上のマイクロフォン、例えば、マイクロフォンアレイまたはＢフォーマットマイクロフォンによって計測される信号とすることができる。異なるマイクロフォンは、異なる指向性を有することができる。音響入力信号は、例えば時間または周波数ドメイン（例えばＳＴＦＴドメイン、ＳＴＦＴ：短時間フーリエ変換）において、または言い換えれば、時間表現または周波数表現のいずれかにおいて、例えば、音圧「Ｐ」または特定の速度「Ｕ」とすることができる。音響入力信号は、例えば３つの異なる（たとえば直交する）方向における成分（例えばｘ成分、ｙ成分およびｚ成分）と、全方向成分（例えばｗ成分）を備えることができる。さらに、音響入力信号は、３つの方向の成分のみを含み、全方向成分を含まないことができる。さらに、音響入力信号は、全方向成分のみを備えることができる。さらに、音響入力信号は、２つの方向成分（例えばｘ成分とｙ成分、ｘ成分とｚ成分、またはｙ成分とｚ成分）と、全方向成分を備えるまたは全方位成分を備えないことができる。さらに、音響入力信号は、１つの方向成分（例えばｘ成分、ｙ成分、またはｚ成分）と、全方向成分を備えるまたは全方位成分を備えないことができる。

音響入力信号、例えばマイクロフォン信号から、信号特性判定器によって判定される信号特性は、例えば：時間、周波数、空間に関する定常性インターバル；ダブルトークまたは多重音響ソースの存在；音調性またはトランジェントの存在；音響入力信号のＳＮ比；または拍手のような信号の存在とすることができる。

拍手のような信号は、ここでは、例えば異なる方向に、トランジェントの速い時間シーケンスを備える信号として定義される。

信号特性判定器によって集められる情報は、例えば、方向オーディオ符号化（ＤｉｒＡＣ）または空間オーディオマイクロフォン（ＳＡＭ）において、制御可能パラメータ推定器を制御し、例えば、現在の状況（音響入力信号の現在の信号特性）に最もフィットする推定器戦略または推定器セッティングを選択するために（または言い換えれば、可変空間パラメータ計算ルールを修正するために）用いることができる。

本発明の実施形態は、両方のシステム、空間オーディオマイクロフォン（ＳＡＭ）と方向オーディオ符号化（ＤｉｒＡＣ）の両方のシステム、またはその他のいかなるパラメータシステムに対しても、類似した方法で適用することができる。以下において、方向オーディオ符号化解析に主な焦点が置かれる。

本発明のいくつかの実施形態によれば、制御可能パラメータ推定器は、空間パラメータを、時間スロットと周波数サブバンドに対する拡散パラメータおよび／または時間スロットと周波数サブバンドに対する到来の方向パラメータを含む方向オーディオ符号化パラメータとして、または空間オーディオマイクロフォンパラメータとして計算するように構成することができる。

以下において、方向オーディオ符号化および空間オーディオマイクロフォンは、例えば到来の方向および音響の拡散のような空間パラメータについて動作するシステムに対する音響フロントエンドと考えられる。本発明のコンセプトを他の音響フロントエンドにも適用することは正攻法であることに留意すべきある。方向オーディオ符号化と空間オーディオマイクロフォンは、両方とも、空間音響を記述するために音響入力信号から取得される特定の（空間）パラメータを提供する。伝統的に、方向オーディオ符号化および特別なオーディオマイクロフォンのような音響フロントエンドによって空間オーディオを処理するとき、音響入力信号に対する単一の一般的モデルが定義され、最適な（またはほとんど最適な）パラメータ推定器を導き出すことができる。推定器は、モデルによって考慮される根本的な仮定に合致する限り、要求通りに実行する。前述したように、これがそのケースでない場合、通常は推定においてシビアな誤差につながるモデルミスマッチが起こる。このようなモデルミスマッチは、音響入力信号が通常は非常に時間変化するので、繰り返し起こる問題を表す。

本発明にかかる実施形態は、以下の同封される図面を参照して記載される。
本発明の実施形態にかかる空間オーディオプロセッサの概略ブロック図を示す。引用例としての方向オーディオコーダの概略ブロック図を示す。引用例としての方向オーディオコーダの概略ブロック図を示す。本発明の更なる実施形態にかかる空間オーディオプロセッサの概略ブロック図を示す。本発明の更なる実施形態にかかる空間オーディオプロセッサの概略ブロック図を示す。本発明の更なる実施形態にかかる空間オーディオプロセッサの概略ブロック図を示す。本発明の実施形態にかかる空間オーディオプロセッサにおいて用いることができるパラメータ推定器の概略ブロック図を示す。本発明の実施形態にかかる空間オーディオプロセッサにおいて用いることができるパラメータ推定器の概略ブロック図を示す。本発明の更なる実施形態にかかる空間オーディオプロセッサの概略ブロック図を示す。本発明の更なる実施形態にかかる空間オーディオプロセッサの概略ブロック図を示す。本発明の更なる実施形態にかかる方法のフロー図を示す。

本発明の実施形態が付随する図面を用いて更に詳細に説明される前に、同じあるいは機能的に等しい要素は、同じ参照符号によって提供され、これらの要素の反復記述は省略されることが指摘される。同じ参照符号によって提供される要素の記述は、それ故に相互に交換可能である。

図１にかかる空間オーディオプロセッサ

以下において、空間オーディオプロセッサ１００が、空間オーディオプロセッサの概略ブロック図を示す図１を参照して記載される。音響入力信号１０４（あるいは複数の音響入力信号１０４）に基づいて空間パラメータ１０２あるいは空間パラメータの推定１０２を提供する空間オーディオプロセッサ１００は、制御可能パラメータ推定器１０６と信号特性判定器１０８を備える。信号特性判定器１０８は、音響入力信号１０４の信号特性１１０を判定するように構成される。制御可能パラメータ推定器１０６は、可変空間パラメータ計算ルールに従って音響入力信号１０４に対する空間パラメータ１０２を計算するように構成される。制御可能パラメータ推定器１０６は、判定された信号特性１１０に従って可変空間パラメータ計算ルールを修正するように更に構成される。

言い換えれば、制御可能パラメータ推定器１０６は、音響入力信号の特性あるいは音響入力信号１０４に従って制御される。

音響入力信号１０４は、前述のように、方向成分および／または全方向成分を備えることができる。適合する信号特性１１０は、すでに言及されたように、例えば時間、周波数、音響入力信号１０４の空間、音響入力信号１０４におけるダブルトークまたは多重音源の存在、音響入力信号１０４内の音調性またはトランジェントの存在、拍手の存在、または音響入力信号１０４のＳＮ比に関する定常性インターバルとすることができる。適合する信号特性のこの列挙は、まさしく信号特性判定器１０８が判定することができる信号特性の例である。本発明の更なる実施形態によれば、信号特性判定器１０８は、音響入力信号１０４の（言及されない）他の信号特性を判定することもでき、制御可能パラメータ推定器１０６は、音響入力信号１０４のこれらの他の信号特性に基づいて可変空間パラメータ計算ルールを修正することができる。

制御可能パラメータ推定器１０６は、空間パラメータ１０２を、時間スロットｎと周波数サブバンドｋに対する拡散パラメータΨ（ｋ，ｎ）および／または時間スロットｎと周波数サブバンドｋに対する到来の方向パラメータψ（ｋ，ｎ）を備える方向オーディオ符号化パラメータとして、または、例えば時間スロットｎと周波数サブバンドｋに対する空間オーディオマイクロフォンパラメータとして計算するように構成することができる。

制御可能パラメータ推定器１０６は、ＤｉｒＡＣまたはＳＡＭよりも他のコンセプトを用いて空間パラメータ１０２を計算するように更に構成することができる。ＤｉｒＡＣパラメータおよびＳＡＭパラメータの計算は、単に実施例として理解される。制御可能パラメータ推定器は、例えば、空間パラメータ１０２を、空間パラメータが音響の方向、音響の拡散、または音響の方向の統計尺度を備えるように計算するように構成することができる。

音響入力信号１０４は、例えば時間ドメインまたは（短時間）周波数ドメイン、例えばＳＴＦＴドメインにおいて提供することができる。

例えば、時間ドメインにおいて提供される音響信号１０４は、それぞれが時間上で複数の音響入力サンプルを備える複数の音響オーディオストリームｘ₁（ｔ）〜ｘ_N（ｔ）を備えることができる。音響入力ストリームのそれぞれは、例えば、異なるマイクロフォンから提供することができ、異なる観察方向に対応することができる。例えば、第１の音響入力ストリームｘ₁（ｔ）は、第１の方向（例えばｘ方向）に対応することができ、第２の音響入力ストリームｘ₂（ｔ）は、第１の方向に直交する第２の方向（例えばｙ方向）に対応することができ、第３の音響入力ストリームｘ₃（ｔ）は、第１の方向および第２の方向に直交する第３の方向（例えばｚ方向）に対応することができ、第４の音響入力ストリームｘ₄（ｔ）は、全方向成分とすることができる。これらの異なる音響入力ストリームは、異なるマイクロフォンから、例えば直交する方位において録音することができ、ＡＤ変換器を用いてデジタル化することができる。

本発明の更なる実施形態によれば、音響入力信号１０４は、周波数表現、例えばＳＴＦＴドメインのような時間周波数ドメインにおいて音響入力ストリームを備えることができる。例えば、音響入力信号１０４は、特定の速度ベクトルＵ（ｋ，ｎ）と音圧ベクトルＰ（ｋ，ｎ）を備えるＢフォーマットにおいて提供することができる（ここで、ｋは周波数サブバンドを示し、ｎは時間スロットを示す）。特定の速度ベクトルＵ（ｋ，ｎ）は、音響入力信号１０４の方向成分であり、音圧Ｐ（ｋ，ｎ）は、音響入力信号１０４の全方向成分を表す。

前述したように、制御可能パラメータ推定器１０６は、空間パラメータ１０２を、方向オーディオ符号化パラメータとして、または空間オーディオマイクロフォンパラメータとして提供するように構成することができる。以下において、従来の方向オーディオコーダが参照例として示される。このような従来の方向オーディオコーダの概略ブロック図が図２に示される。

図２にかかる従来の方向オーディオ

図２は、方向オーディオコーダ２００の概略ブロック図を示す。方向オーディオコーダ２００は、Ｂフォーマット推定器２０２を備える。Ｂフォーマット推定器２０２は、フィルタバンクを備える。方向オーディオコーダ２００は、方向オーディオ符号化パラメータ推定器２０４を更に備える。方向オーディオ符号化パラメータ推定器２０４は、エネルギー解析を実行するエネルギー解析器２０６を備える。

さらにまた、方向オーディオ符号化パラメータ推定器２０４は、方向推定器２０８と拡散推定器２１０を備える。

方向オーディオ符号化（ＤｉｒＡＣ）（非特許文献１）は、空間音響の解析と再生に対して、効率的で、知覚的に動機付けられたアプローチを表す。ＤｉｒＡＣ解析は、ダウンミックスオーディオ信号と付加的なサイド情報、例えば音響の到来の方向（ＤＯＡ）と音場の拡散に関する音場のパラメータ記述を提供する。ＤｉｒＡＣは、人間の聴覚に関連する特徴を考慮に入れる。例えば、両耳間の時間差（ＩＴＤ）と両耳間のレベル差（ＩＬＤ）は、音響のＤＯＡによって記述することができると仮定する。同様に、両耳間のコヒーレンス（ＩＣ）は、音場の拡散によって表現することができると仮定される。ＤｉｒＡＣ解析の出力から、音響再生システムは、スピーカの任意のセットによるオリジナルの空間インプレッションを有する音響を再生するために、特徴を生成することができる。拡散は、推定されたＤＯＡに対する信頼性尺度と考えることもできる点に留意すべきである。拡散が高いほど、ＤＯＡの信頼性は低く、その逆も同様である。この情報は、音源位置決め（非特許文献４）のような多くのＤｉｒＡＣベースのツールによって用いることができる。本発明の実施形態は、音響再生よりむしろＤｉｒＡＣの解析部分に焦点を置いている。

ＤｉｒＡＣ解析において、パラメータは、Ｂフォーマット推定器２０２によって提供されるＢフォーマット信号に基づいて、音場のエネルギー解析器２０６によって実行されるエネルギー解析を介して推定される。Ｂフォーマット信号は、音圧Ｐ（ｋ，ｎ）と、直交座標系のｘ、ｙおよびｚ方向に整列した１つ、２つ、または３つのダイポール信号に対応する全方向信号から構成される。ダイポール信号は、粒子速度ベクトルＵ（ｋ，ｎ）の要素に対応する。ＤｉｒＡＣ解析は、図２に表される。時間ドメインにおけるマイクロフォン信号、すなわちｘ₁（ｔ）、ｘ₂（ｔ）、…、ｘ_N（ｔ）は、Ｂフォーマット推定器２０２に提供される。これらの時間ドメインのマイクロフォン信号は、以下において「時間ドメインにおける音響入力信号」と称することができる。Ｂフォーマット推定器２０２は、短時間フーリエ変換（ＳＴＦＴ）または他のフィルタバンク（ＦＢ）を含み、短時間周波数ドメインにおけるＢフォーマット信号、すなわち音圧Ｐ（ｋ，ｎ）と粒子速度ベクトルＵ（ｋ，ｎ）を計算する（ここで、ｋとｎは、それぞれ周波数インデックス（周波数サブバンド）と時間ブロックインデックス（時間スロット）を示す）。信号Ｐ（ｋ，ｎ）とＵ（ｋ，ｎ）は、以下において「短時間周波数ドメインにおける音響入力信号」と称することができる。Ｂフォーマット信号は、非特許文献５において解説されたようなマイクロフォンアレイによる計測から取得することができる。エネルギー解析において、アクティブな音響強度ベクトルＩ_a（ｋ，ｎ）は、以下の式を用いて、異なる周波数バンドに対して分離して推定することができる。

ここで、Re[.] は、実数部を与え、Ｕ＊（ｋ，ｎ）は、粒子速度ベクトルＵ（ｋ，ｎ）の複素共役を示す。

以下において、アクティブな音響強度ベクトルは、強度パラメータとも呼ばれる。

ここで、｜(.)｜は、ベクトルのノルムを示し、Ｅ(.) は、期待値を返す。実際のアプリケーションにおいて、期待値Ｅ(.) は、１つ以上の特定の次元、例えば、時間、周波数、または空間に沿った有限の平均演算によって近似することができる。

式２における期待値Ｅ(.) は、特定の次元に沿った平均演算によって近似できることが分かっている。この問題に対して、平均演算は、時間（時間平均演算）、周波数（スペクトル平均演算）または空間（空間平均演算）に沿って実行することができる。空間平均演算は、例えば、式２におけるアクティブな音響強度ベクトルＩ_a（ｋ，ｎ）が異なるポイントに配置された多重のマイクロフォンアレイによって推定されることを意味する。例えば、部屋内の４つの異なるポイントにおいて、４つの異なる（マイクロフォン）アレイを配置することができる。結果として、各時間周波数ポイント（ｋ，ｎ）に対して４つの強度ベクトルＩ_a（ｋ，ｎ）を持ち、期待値オペレータＥ(.) に対する近似を取得するために平均化する（例えばスペクトル平均演算と同様に）ことができる。

例えば、いくつかのｎに亘って時間平均演算を用いるとき、次式で与えられる拡散パラメータに対する推定値Ψ（ｋ，ｎ）が取得される。

ここで、式３において必要であるような、時間平均演算を実現する共通の方法が存在する。１つの方法は、次式で与えられる、特定の数Ｎの時間インスタンスｎに亘るブロック平均演算（インターバル平均演算）である。

ここで、ｙ（ｋ，ｎ）は、平均化される量、例えば、Ｉ_a（ｋ，ｎ）または｜Ｉ_a（ｋ，ｎ）｜である。時間平均演算を演算する第２の方法は、通常はその効率性のためにＤｉｒＡＣにおいて用いられる、無限インパルス応答（ＩＩＲ）フィルタを適用することである。例えば、フィルタ係数α∈［０、１］を有する一次ローパスフィルタを用いるとき、特定の信号ｙ（ｋ，ｎ）のｎに沿った時間平均演算は、次式によって取得することができる。

時間平均演算を用いる他に、式２における期待値オペレータは、いくつかのまたは全ての周波数サブバンドｋに沿ったスペクトル平均演算によって近似することもできることが分っている。この方法は、後の処理において異なる周波数サブバンドに対して独立の拡散推定がない場合、例えば、単一の音源のみが存在する場合にのみ、適用可能である。それ故に、通常は実際に拡散を計算する最も適当な方法は、時間平均演算を使用することとすることができる。

一般に、式２の１つとして期待値オペレータを平均演算プロセスによって近似するとき、平均化される量に関して考慮される信号の定常性が仮定される。より長く平均演算されると、すなわち、より多くのサンプルが考慮されるほど、通常はより正確な結果となる。

以下において、空間オーディオマイクロフォン（ＳＡＭ）解析も簡単に説明される。

空間オーディオマイクロフォン（ＳＡＭ）解析

ＤｉｒＡＣと同様に、ＳＡＭ解析（非特許文献３）は、空間音響のパラメータ記述を提供する。音場表現は、ダウンミックスオーディオ信号とパラメータサイド情報、すなわち音響のＤＯＡと、直接および拡散音響成分のレベルの推定に基づいている。ＳＡＭ解析への入力は、多重コインシデント指向性マイクロフォン、例えば、同じポイントに配置される２つのカージオイドセンサによって計測される信号である。ＳＡＭ解析の基本は、入力信号のパワースペクトル密度（ＰＳＤ）とクロススペクトル密度（ＣＳＤ）である。

例えば、Ｘ₁（ｋ，ｎ）とＸ₂（ｋ，ｎ）を、２つのコインシデント指向性マイクロフォンによって計測される時間周波数ドメインの信号とする。両方の入力信号のＰＳＤは、次式によって判定される。

両入力の間のＣＳＤは、次式の相互相関によって与えられる。

ＳＡＭは、計測された入力信号Ｘ₁（ｋ，ｎ）とＸ₂（ｋ，ｎ）が直接音響と拡散音響の重畳を表し、直接音響と拡散音響は相関関係がないと仮定する。この仮定に基づいて、計測された直接音響と計測された拡散音響のＰＳＤを、各センサに対して式５ａと式５ｂから導き出すことができることが、非特許文献３において示されている。直接音響のＰＳＤの間の比から、次にマイクロフォンの方向応答の事前知識によって、音響のＤＯＡ ψ（ｋ，ｎ）を判定することが可能である。

実際のアプリケーションにおいて、式５ａと式５ｂにおける期待値Ｅ[.] は、時間および／またはスペクトル平均演算によって近似することができることが分かっている。これは、前節で記載されたＤｉｒＡＣにおける拡散演算と同様である。同様に、平均演算は、例えば式４または式５を用いて実行することができる。例を挙げると、ＣＳＤの推定は、次式による再帰的時間平均演算に基づいて実行することができる。

前節において述べたように、式５ａと式５ｂの１つのような期待値オペレータを平均演算プロセスによって近似するとき、平均化される量に関して考慮される信号の定常性が仮定されなければならない。

以下において、定常性インターバルに従って時間変化するパラメータ推定を実行する本発明の実施形態が説明される。

図３にかかる空間オーディオプロセッサ

図３は、本発明の一実施形態にかかる空間オーディオプロセッサ３００を示す。空間オーディオプロセッサ３００の機能は、図１にかかる空間オーディオプロセッサ１００の機能と同様とすることができる。空間オーディオプロセッサ３００は、図３に示される追加の特徴を備えることができる。空間オーディオプロセッサ３００は、制御可能パラメータ推定器３０６を備え、その機能は図１にかかる制御可能パラメータ推定器１０６の機能と同様とすることができ、以下に記載される追加の特徴を備えることができる。空間オーディオプロセッサ３００は、信号特性判定器３０８を更に備え、その機能は図１にかかる信号特性判定器１０８の機能と同様とすることができ、以下に記載される追加の特徴を備えることができる。

信号特性判定器３０８は、例えば定常性インターバル判定器３１０を用いて、判定された信号特性１１０を構成する音響入力信号１０４の定常性インターバルを判定するように構成することができる。パラメータ推定器３０６は、判定された信号特性１１０、すなわち判定された定常性インターバルに従って、可変パラメータ計算ルールを修正するように構成することができる。パラメータ推定器３０６は、空間パラメータ１０２を計算するための平均演算期間または平均演算長が、比較的長い定常性インターバルに対して比較的長く（高く）、比較的短い定常性インターバルに対して比較的短い（低い）ように、可変パラメータ計算ルールを修正するように構成することができる。平均演算長は、例えば、定常性インターバルに等しくすることができる。

言い換えれば、空間オーディオプロセッサ３００は、音響信号入力１０４または音響信号入力（複数）の変化する定常性のインターバルを考慮することによって、方向オーディオ符号化における拡散推定を改善するコンセプトを構築する。

音響入力信号１０４の定常性インターバルは、例えば、音響入力信号１０４の音源の移動が全く起こらない（または単にわずかに小さい）時間期間を定義することができる。一般に、音響入力信号１０４の定常性は、音響入力信号１０４の特定の信号特性が時間に沿って一定である時間期間を定義することができる。信号特性は、例えば、信号エネルギー、空間拡散、音調性、Ｓ／Ｎ比および／またはその他とすることができる。空間パラメータ１０２を計算するための音響入力信号１０４の定常性インターバルを考慮することによって、空間パラメータ１０２を計算するための平均演算長は、音響入力信号１０４を表現する空間パラメータ１０２の精度を改善することができるように、修正することができる。例えば、音響入力信号１０４の音源が、より短い定常性インターバルに対してより、より長いインターバルに対して移動されなかったことを意味する、より長い定常性インターバルに対して、より長い時間的（または時間）平均演算を適用することができる。それ故に、少なくともほとんど最適な（またはさらに場合によって最適な）空間パラメータ推定は、制御可能パラメータ推定器３０６によって、音響入力信号１０４の定常性インターバルに従って、（常に）実行することができる。

制御可能パラメータ推定器３０６は、例えば、ＳＴＦＴドメインにおいて、周波数サブバンドｋと時間スロットまたは時間ブロックｎに対する拡散パラメータΨ（ｋ，ｎ）を提供するように構成することができる。制御可能パラメータ推定器３０６は、ＳＴＦＴドメインにおいて、例えば音響入力信号１０４の強度パラメータＩ_a（ｋ，ｎ）の時間平均演算に基づいて、拡散パラメータΨ（ｋ，ｎ）を計算するための拡散推定器３１２を備えることができる。さらにまた、制御可能パラメータ推定器３０６は、音響入力信号１０４のエネルギー解析を実行し、強度パラメータＩ_a（ｋ，ｎ）を判定するため、エネルギー解析器３１４を備えることができる。強度パラメータＩ_a（ｋ，ｎ）は、アクティブな音響強度ベクトルとして指定することもでき、式１に従ってエネルギー解析器３１４によって計算することができる。

それ故に、ＳＴＦＴドメインにおいて、例えば周波数サブバンドｋと時間スロットｎに対する音圧Ｐ（ｋ，ｎ）と特定の速度ベクトルＵ（ｋ，ｎ）を備えるＢフォーマットにおいて、音響入力信号１０４を提供することもできる。

拡散推定器３１２は、例えば、同じ周波数サブバンドｋの、音響入力信号１０４の強度パラメータＩ_a（ｋ，ｎ）の時間平均演算に基づいて、拡散パラメータΨ（ｋ，ｎ）を計算することができる。拡散推定器３１２は、式３に従って拡散パラメータΨ（ｋ，ｎ）を計算することができ、多くの強度パラメータと、それ故に平均演算長を、拡散推定器３１２によって、判定された定常性インターバルに従って変えることができる。

数値例として、定常性インターバル判定器３１０によって比較的長い定常性インターバルが判定された場合、拡散推定器３１２は、強度パラメータＩ_a（ｋ，ｎ−１０）〜Ｉ_a（ｋ，ｎ−１）に亘って強度パラメータＩ_a（ｋ，ｎ）の時間平均演算を実行することができる。定常性インターバル判定器３１０によって判定される比較的短い定常性インターバルに対して、拡散推定器３１２は、強度パラメータＩ_a（ｋ，ｎ−４）〜Ｉ_a（ｋ，ｎ−１）に対する強度パラメータＩ_a（ｋ，ｎ）の時間平均演算を実行することができる。

上記から分るように、拡散推定器３１２によって適用される時間平均演算の平均演算長は、時間平均演算に対して使用される強度パラメータＩ_a（ｋ，ｎ）の数に対応する。

言い換えれば、方向オーディオ符号化の拡散推定は、時間を音響入力信号（複数）または音響入力信号１０４の時間不変定常性インターバル（コヒーレンス時間とも呼ばれる）を考慮することによって改善される。前に説明されたように、実際に拡散パラメータΨ（ｋ，ｎ）を推定する一般的な方法は、アクティブな強度ベクトルＩ_a（ｋ，ｎ）の時間平均演算を備える式３を用いることである。最適な平均演算長は、音響入力信号（複数）または音響入力信号１０４の時間定常性に依存することが分かっている。平均演算長が定常性インターバルに等しいように選択されたとき、最も正確な結果を得ることができることが分かっている。

伝統的に、従来の方向オーディオコーダ２００によって示されるように、最適なパラメータ推定戦略が次に定められる音響入力信号に対して、一般的な時間不変モデルが定義され、それはこのケースでは最適な時間平均演算長を意味する。拡散推定に対して、音響入力信号は、通常は、特定の時間インターバル内で、例えば２０ｍｓに対して、時間定常性を所持すると仮定される。言い換えれば、考慮される定常性インターバルは、いくつかの入力信号に対して代表的な一定値にセットされる。仮定された正常性インターバルから、最適な時間平均演算戦略、例えば、式５に示されたようなＩＩＲ平均演算を用いるときはαに対する最良値が、または式４に示されたようなブロック平均演算を用いるときは最良のＮが、次に導き出される。

しかしながら、異なる音響入力信号は、通常は異なる定常性インターバルによって特徴づけられることが分かっている。従って、音響入力信号に対して時間不変モデルを仮定する伝統的な方法は保有しない。言い換えれば、入力信号が推定器によって仮定されるものと異なる定常性インターバルを呈するとき、劣等なパラメータ推定に帰着するかも知れないモデルミスマッチに陥る可能性がある。

それ故に、提案された新規なアプローチ（例えば空間オーディオプロセッサ３００において実現される）は、図３において視覚化されるように、音響入力信号１０４、すなわちＢフォーマット信号の定常性インターバルが、前処理ステップにおいて（信号特性判定器３０８によって）判定される：拡散推定に対して、実際の信号特性に従ってパラメータ推定戦略（可変空間パラメータ計算ルール）を適応させる。この情報から（判定された定常性インターバルから）、拡散推定器３１２によって、最良の（または場合によってはほぼ最良の）時間平均演算長、αに対するまたはＮに対する最良の（または場合によってはほぼ最良の）値が選択され、それから（空間）パラメータ計算が実行される。

ＤｉｒＡＣにおける信号適応拡散推定の他に、非常に類似した方法でＳＡＭにおける方向推定を改善することが可能であることを述べなければならない。事実、式５ａと式５ｂにおける音響入力信号のＰＳＤおよびＣＳＤの演算は、また、時間平均演算プロセスによって（例えば式４または式５を用いて）期待値オペレータを近似することを必要とする。前に説明したように、平均演算長が音響入力信号の定常性インターバルに対応するとき、最も正確な結果を得ることができる。これは、最初に音響入力信号の定常性インターバルを判定し、次にこの情報から最良の平均演算長を選択することによって、ＳＡＭ解析を改善することができることを意味する。音響入力信号の定常性インターバルと、対応する最適平均化フィルタは、以下で述べるように判定することができる。

以下において、音響入力信号１０４の定常性インターバルを判定する例示的なアプローチが提示される。この情報から、次に、式３おいて示された拡散演算に対する最適な時間平均演算長が選択される。

定常性インターバル判定

以下において、音響入力信号（例えば音響入力信号１０４）の定常性インターバル、ならびに対応する時間平均演算をもたらす最適なＩＩＲフィルタ係数α（例えば式５において用いられた）を判定するための可能な方法が記載される。以下に記載される定常性インターバルの判定は、信号特性判定器３０８の定常性インターバル判定器３１０によって実行することができる。提示された方法は、音響入力信号１０４の定常性インターバルに従って拡散（パラメータ）Ψ（ｋ，ｎ）を正確に推定するために、式３を用いることを可能にする。Ｂフォーマット信号の一部である周波数ドメインの音圧Ｐ（ｋ，ｎ）は、音響入力信号１０４とみなすことができる。言い換えれば、音響入力信号１０４は、音圧Ｐ（ｋ，ｎ）に対応する少なくとも１つの成分を備えることができる。

音響入力信号は、一般に、信号エネルギーが短い時間インターバル内で強く変動する場合に短い定常性インターバルを呈し、その逆もまた同様である。定常性インターバルが短い代表的な例は、トランジェント、スピーチにけるオンセット、および「オフセット」すなわち話し手がトークを止めるときである。後者のケースは、短時間内で強く減少する信号エネルギー（負のゲイン）によって特徴づけられ、一方前者の２つのケースにおいては、エネルギーは強く増加する（正のゲイン）。

最適なフィルタ係数αを見いだすことを意図する所望のアルゴリズムは、高い非定常信号に対してα＝１に近い値（短い時間平均演算に対応する）を提供し、定常性のケースではα＝α’に近い値を提供しなければならない。記号α´は、定常信号を平均演算するための適切な信号独立のフィルタ係数を示す。数学用語で表すと、妥当なアルゴリズムは次式によって与えられる。

が導入され、式７と同様であるが、非定常性のケースでは逆の挙動を呈する。
これは、正のエネルギーゲインによる非定常性のケースではα^-≒０が得られる一方、負のエネルギーゲインに対してα^-≒１が得られることを意味する。従って、式７と式８の最大をとること、すなわち

は、音響入力信号の定常性インターバルに対応する時間平均演算に導く再帰的平均演算係数αに対して、所望の最適値をもたらす。

言い換えれば、信号特性判定器３０８は、音響入力信号１０４の少なくとも１つの（全方向）成分（例えば、音圧Ｐ（ｋ，ｎ））の現在の（瞬時の）信号エネルギーと、音響入力信号１０４の少なくとも１つの（全方向）成分の信号エネルギーの所定の（前の）時間セグメントに亘る時間平均との比に基づいて、重みパラメータαを判定するように構成される。所定の時間セグメントは、例えば、異なる（前の）時間スロットに対する所定の数の信号エネルギー係数に対応することができる。

ＳＡＭ解析のケースでは、エネルギー信号Ｗ（ｋ，ｎ）は、２つのマイクロフォン信号Ｘ₁（ｋ，ｎ）とＸ₂（ｋ，ｎ）のエネルギー、例えば、Ｗ（ｋ，ｎ）＝｜Ｘ₁（ｋ，ｎ）｜²＋｜Ｘ₂（ｋ，ｎ）｜²で構成することができる。式５ａまたは式５ｂにおける相関の再帰的推定に対する係数αは、式５ｃに従って、上述の式９の判定基準を用いて適切に選択することができる。

上記から分かるように、制御可能パラメータ推定器３０６は、ローパスフィルタ（例えば前述の無限インパルス応答（ＩＩＲ）フィルタまたは有限インパルス応答（ＦＩＲ）フィルタ）を用いて、音響入力信号１０４の強度パラメータＩ_a（ｋ，ｎ）の時間平均演算を適用するように構成することができる。さらにまた、制御可能パラメータ推定器３０６は、重みパラメータαに基づいて、音響オーディオ信号１０４の現在の強度パラメータと音響入力信号１０４の前の強度パラメータとの間の重みを調整するように構成することができる。式５で示されたように、一次ＩＩＲフィルタの特別なケースにおいて、現在の強度パラメータと１つ前の強度パラメータとの間の重みを調整することができる。重み係数αが高いほど、時間平均演算長は短く、それ故に、前の強度パラメータの重みと比較した現在の強度パラメータの重みが高い。言い換えれば、時間平均演算長は、重みパラメータαに基づいている。

制御可能パラメータ推定器３０６は、例えば、比較的短い定常性インターバルに対して、前の強度パラメータの重みと比較した現在の強度パラメータの重みが比較的高いように、また比較的長い定常性インターバルに対して、前の強度パラメータの重みと比較した現在の強度パラメータの重みが比較的低いように、構成することができる。それ故に、時間平均演算長は、比較的短い定常性インターバルに対して比較的短く、比較的長い定常性インターバルに対して比較的長い。

本発明の更なる実施形態によれば、本発明の一実施形態にかかる空間オーディオプロセッサの制御可能パラメータ推定器は、判定された信号特性に従って、空間パラメータを計算するための複数の空間パラメータ計算ルールから１つの空間パラメータ計算ルールを選択するように構成することができる。複数の空間パラメータ計算ルールは、例えば、計算パラメータにおいて異なるか、または、お互いから完全に異なることができる。式４および式５で示されたように、時間平均演算は、式４に示されたようなブロック平均演算、または式５に示されたようなローパスフィルタを用いて計算することができる。第１の空間パラメータ計算ルールは、例えば式４にかかるブロック平均演算に対応することができ、第２のパラメータ計算ルールは、例えば式５にかかるローパスフィルタを用いた平均演算に対応することができる。制御可能パラメータ推定器は、判定された信号特性に基づいて、複数の計算ルールから空間パラメータの最も正確な推定を提供する計算ルールを選択することができる。

本発明の更なる実施形態によれば、制御可能パラメータ推定器は、複数の空間パラメータ計算ルールからの第１の空間パラメータ計算ルールが、複数の空間パラメータ計算ルールからの第２の空間パラメータ計算ルールと異なるように、構成することができる。第１の空間パラメータ計算ルールと第２の空間パラメータ計算ルールは、次のグループから選択することができる。

すなわち、周波数サブバンドにおける複数の時間スロットに亘る平均演算（例えば式３に示されたような）と、時間スロットにおける複数の周波数サブバンドに亘る周波数平均演算と、時間および周波数の平均演算と、空間平均演算と、平均演算なしである。

以下において、制御可能パラメータ推定器によって複数の空間パラメータ計算ルールから１つの空間パラメータ計算ルールを選択するこのコンセプトが、図４と図５に示される本発明の２つの例示的な実施形態を用いて記載される。

図４にかかる空間コーダを用いたダブルトークに依存する時間変化する到来の方向と拡散の推定

図４は、本発明の実施形態にかかる空間オーディオプロセッサ４００の概略ブロック図を示す。空間オーディオプロセッサ４００の機能は、図１にかかる空間オーディオプロセッサ１００の機能と同様とすることができる。空間オーディオプロセッサ４００は、以下に記載される追加の特徴を備えることができる。空間オーディオプロセッサ４００は、機能が図１にかかる制御可能パラメータ推定器１０６の機能と同様とすることができ、以下に記載される追加の特徴を備えることができる制御可能パラメータ推定器４０６を備える。空間オーディオプロセッサ４００は、機能が図１にかかる信号特性判定器１０８の機能と同様とすることができ、以下に記載される追加の特徴を備えることができる信号特性判定器４０８を更に備える。

制御可能パラメータ推定器４０６は、信号特性判定器４０８によって判定された信号特性１１０に従って、空間パラメータ１０２を計算するための複数の空間パラメータ計算ルールから１つの空間パラメータ計算ルールを選択するように構成される。図４に示された例示的な実施形態において、信号特性判定器は、音響入力信号１０４が、異なる音源からの成分を備える、または１つの音源からの成分のみを備える場合に、判定するように構成される。この判定に基づいて、制御可能パラメータ推定器４０６は、音響入力信号１０４が１つの音源からの成分のみを備える場合に、空間パラメータ１０２を計算するための第１の空間パラメータ計算ルール４１０を選択することができ、音響入力信号１０４が複数の音源からの成分を備える場合に、空間パラメータ１０２を計算するための第２の空間パラメータ計算ルール４１２を選択することができる。第１の空間パラメータ計算ルール４１０は、例えば複数の周波数サブバンドに亘るスペクトル平均演算または周波数平均演算を備えることができ、第２の空間パラメータ計算ルール４１２は、スペクトル平均演算または周波数平均演算を備えないことができる。

判定は、音響入力信号１０４が複数の音源からの成分を備えていようがいまいが、信号特性判定器４０８のダブルトーク検出器４１４によって実行することができる。パラメータ推定器４０６は、例えば、ＳＴＦＴドメインにおいて、周波数サブバンドｋと時間ブロックｎに対する音響入力信号１０４の拡散パラメータΨ（ｋ，ｎ）を提供するように構成することができる。

言い換えれば、空間オーディオプロセッサ４００は、ダブルトークの状況を明らかにすることによって、方向オーディオ符号化における拡散推定を改善するコンセプトを示す。

または言い換えると、信号特性判定器４０８は、音響信号入力１０４が同時に異なる音源からの成分を備える場合に、判定するように構成される。制御可能パラメータ推定器４０６は、信号特性判定結果に従って、空間パラメータ１０２を計算するために（例えば、拡散パラメータΨ（ｋ，ｎ）を計算するために）、複数の空間パラメータ計算ルールから１つの空間パラメータ計算ルール（例えば第１の空間パラメータ計算ルール４１０または第２の空間パラメータ計算ルール４１２）を選択するように構成される。音響入力信号１０４が最大で１つの音源の成分を備えるとき、第１の空間パラメータ計算ルール４１０が選択され、音響入力信号１０４が同時に複数の音源の成分を備えるとき、第２の空間パラメータ計算ルール４１２が複数の空間パラメータ計算ルールから選択される。第１の空間パラメータ計算ルール４１０は、音響入力信号１０４の複数の周波数サブバンドに亘る周波数平均演算（例えば強度パラメータＩ_a（ｋ，ｎ）の）を含む。第２の空間パラメータ計算ルール４１２は、周波数平均演算を含まない。

図４に示される実施例において、方向オーディオ符号化解析における拡散パラメータΨ（ｋ，ｎ）および／または方向（到来の）パラメータψ（ｋ，ｎ）の推定は、ダブルトークの状況に従って対応する推定器を調整することによって改善される。式２における拡散計算は、実際に、周波数サブバンドｋに亘ってアクティブな強度ベクトルＩ_a（ｋ，ｎ）を平均演算することによって、または時間およびスペクトルの平均演算を結合することによって実現できることが分かっている。しかしながら、異なる周波数サブバンドに対して独立の拡散推定が必要な場合、それは多重の音響ソース（例えばトーカ）が同時にアクティブであるいわゆるダブルトークの状況のケースであるので、スペクトル平均演算は適切でない。それ故に、音響入力信号の一般的なモデルは常にダブルトークの状況を仮定するので、伝統的に（図２に示された方向オーディオコーダにおけるように）スペクトル平均演算は使用されない。シングルトークの状況において、スペクトル平均演算はパラメータ推定精度を改善できることが分かっているので、このモデルの仮定は、シングルトークの状況のケースにおいて最適でないことが分かっている。

提案された新規のアプローチは、図４に示すように、音響入力信号１０４に対してまたは音響入力信号（複数）に対して基本的なモデルを選択することによって、最適パラメータ推定戦略（最適空間パラメータ計算ルール）を選択する。言い換えれば、図４は、ダブルトークの状況に従って拡散推定を改善する本発明の実施形態のアプリケーションを示し、最初に、音響入力信号１０４または音響入力信号（複数）から、現在の状況においてダブルトークが存在するか否かを判定するダブルトーク検出器４１４が使用される。そうでない場合、それは、アクティブな強度ベクトルＩ_a（ｋ，ｎ）のスペクトル（周波数）および時間の平均演算を用いて式２を近似することによって拡散（パラメータ）Ψ（ｋ，ｎ）を計算するパラメータ推定器に対して決定される（または言い換えると、制御可能パラメータ推定器４０６が空間パラメータ計算ルールを選択する）。すなわち、

さもなければ、ダブルトークが存在する場合、式３のように、時間平均演算のみを用いる推定器が選ばれる（または言い換えると、制御可能パラメータ推定器４０６が空間パラメータ計算ルールを選択する）。同様のアイデアは、シングルトークの状況のケースでの方向推定に適用することができるが、このケースにおいてのみ、方向推定ψ（ｋ，ｎ）は、いくつかのまたは全ての周波数サブバンドｋに亘る結果のスペクトル平均演算によって改善することができる。すなわち、

本発明のいくつかの実施形態によれば、スペクトルの部分であって、必ずしも全てのバンド幅でない部分に（スペクトル）平均演算を適用することも考えられる。

時間およびスペクトルの平均演算を実行するために、制御可能パラメータ推定器４０６は、例えばエネルギー解析を用いて、例えば制御可能パラメータ推定器４０６のエネルギー解析器４１６を使用することによって、例えば、ＳＴＦＴドメインにおいて、各サブバンドｋと各時間スロットｎに対するアクティブな強度ベクトルＩ_a（ｋ，ｎ）を判定することができる。

言い換えれば、パラメータ推定器４０６は、判定された信号特性に従って、第１の空間パラメータ計算ルール４１０に含まれた音響入力信号１０４の判定されたアクティブな強度パラメータＩ_a（ｋ，ｎ）のスペクトルおよび時間の平均演算に基づいて、または判定されたアクティブな強度ベクトルＩ_a（ｋ，ｎ）の時間平均演算のみに基づいて、音響入力信号１０４の現在の周波数サブバンドｋと現在の時間スロットｎに対する現在の拡散パラメータΨ（ｋ，ｎ）を判定するように構成することができる。

以下において、音響入力信号の音調性に基づき、図５に示される空間オーディオプロセッサ５００を用いて、音響入力信号の空間パラメータの計算を改善するためのフィットする空間パラメータ計算ルールを選択するコンセプトにも基づいている本発明の他の例示的な実施形態が記載される。

図５にかかる空間オーディオプロセッサを用いた音調性に依存するパラメータ推定

図５は、本発明の実施形態にかかる空間オーディオプロセッサ５００の概略ブロック図を示す。空間オーディオプロセッサ５００の機能は、図１にかかる空間オーディオプロセッサ１００の機能と同様とすることができる。空間オーディオプロセッサ５００は、以下に記載される追加の特徴を更に備えることができる。空間オーディオプロセッサ５００は、制御可能パラメータ推定器５０６と信号特性判定器５０８を備える。制御可能パラメータ推定器５０６の機能は、図１にかかる制御可能パラメータ推定器１０６の機能と同様とすることができ、制御可能パラメータ推定器５０６は、以下に記載される追加の特徴を備えることができる。信号特性判定器５０８の機能は、図１にかかる信号特性判定器１０８の機能と同様とすることができる。信号特性判定器５０８は、以下に記載される追加の特徴を備えることができる。

空間オーディオプロセッサ５００は、空間パラメータ１０２の計算が音響入力信号１０４の判定された音調性に基づいて修正されるという事実において、空間オーディオプロセッサ４００と異なる。信号特性判定器５０８は、音響入力信号１０４の音調性を判定することができ、制御可能パラメータ推定器５０６は、音響入力信号１０４の判定された音調性に基づいて、空間パラメータ１０２を計算するための複数の空間パラメータ計算ルールから１つの空間パラメータ計算ルールを選択することができる。

言い換えれば、空間オーディオプロセッサ５００は、音響入力信号１０４または音響入力信号（複数）の音調性を考慮することによって、方向オーディオ符号化パラメータにおける推定を改善するコンセプトを示す。

信号特性判定器５０８は、音調性推定を用いて、例えば信号特性判定器５０８の音調性推定器５１０を用いて、音響入力信号の音調性を判定することができる。信号特性判定器５０８は、それ故に、音響入力信号１０４の判定された信号特性１１０として、音響入力信号１０４の音調性または音響入力信号１０４の音調性に対応する情報を提供することができる。

制御可能パラメータ推定器５０６は、音響入力信号１０４の音調性が所定の音調性しきい値レベルより下にあるときに、複数の空間パラメータ計算ルールから第１の空間パラメータ計算ルールが選択され、音響入力信号１０４の音調性が所定の音調性しきい値レベルより上にあるときに、複数の空間パラメータ計算ルールから第２の空間パラメータ計算ルールが選択されるように、信号特性判定の（音調性推定の）結果に従って、空間パラメータ１０２を計算するために、複数の空間パラメータ計算ルールから１つの空間パラメータ計算ルールを選択するように構成することができる。図４にかかる制御可能パラメータ推定器４０６と同様に、第１の空間パラメータ計算ルールは周波数平均演算を含むことができ、第２の空間パラメータ計算ルールは周波数平均演算を含まないことができる。

一般に、音響信号の音調性は、信号がブロードバンドスペクトルを持つか否かの情報を提供する。高い音調性は、信号スペクトルが、高いエネルギーを有する少数の周波数のみを含むことを示す。対照的に、低い音調性は、ブロードバンド信号、すなわち広い周波数レンジに亘って同様のエネルギーが存在する信号を示す。

音響入力信号の音調性に関する情報（音響入力信号１０４の音調性の情報）は、例えば、方向オーディオ符号化パラメータ推定を改善するために使用することができる。図５に示された概略ブロック図を参照して、音響入力信号１０４または音響入力信号（複数）から、最初に、音調性検出器または音調性推定器５１０を用いて、入力の音調性が判定される（例えば、非特許文献６に説明されたように）。音調性に関する情報（判定された信号特性１１０）は、方向オーディオ符号化パラメータの（空間パラメータ１０２の）推定を制御する。制御可能パラメータ推定器５０６の出力は、図２にかかる方向オーディオコーダによって示される伝統的な方法と比較して増大する精度を有する空間パラメータ１０２である。

拡散Ψ（ｋ，ｎ）の推定は、以下のように入力信号の音調性の知識から得ることができる。拡散Ψ（ｋ，ｎ）の演算は、式３に示されるような平均演算プロセスを必要とする。この平均演算は、伝統的に時間ｎのみに沿って実行される。特に、拡散音場において、拡散の正確な推定は、平均演算が十分に長いときにのみ可能である。長い時間平均演算は、しかしながら音響入力信号の短い定常インターバルによって通常は可能でない。拡散推定を改善するために、時間平均演算を周波数バンドｋに亘るスペクトル平均演算と結合することができる。すなわち、

しかしながら、この方法は、異なる周波数バンドに対して拡散が同様であるブロードバンド信号を必要とするかもしれない。わずかの周波数のみが有意のエネルギーを持つ音信号のケースでは、音場の本当の拡散は、周波数バンドｋに沿って強く変動することができる。これは、音調性検出器（信号特性判定器５０８の音調性推定器５１０）が音響信号１０４の高い音調性を示すとき、スペクトル平均演算が回避されることを意味する。

言い換えれば、制御可能パラメータ推定器５０６は、音響入力信号１０４の判定された音調性が比較的低い場合に、音響信号入力１０４の強度パラメータＩ_a（ｋ，ｎ）の時間およびスペクトルの平均演算に基づいて、空間パラメータ１０２、例えば、ＳＴＦＴドメインにおいて、周波数サブバンドｋと時間スロットｎに対する拡散パラメータΨ（ｋ，ｎ）を導き出し、音響入力信号１０４の判定された音調性が比較的高い場合に、音響信号入力１０４の強度パラメータＩ_a（ｋ，ｎ）の時間平均のみに基づき、スペクトル平均に基づかないで、空間パラメータ１０２、例えば、拡散パラメータΨ（ｋ，ｎ）を提供するように構成される。

同じアイデアは、（判定された空間パラメータ１０２の）結果のＳＮ比を改善するために、方向（到来の）パラメータψ（ｋ，ｎ）の推定に適用することができる。言い換えれば、制御可能パラメータ推定器５０６は、音響入力信号１０４の判定された音調性が比較的低い場合に、スペクトル平均演算に基づいて到来の方向パラメータψ（ｋ，ｎ）を判定し、音調性が比較的高い場合に、スペクトル平均演算を実行することなく到来の方向パラメータψ（ｋ，ｎ）を導き出すように構成することができる。

到来の方向パラメータψ（ｋ，ｎ）をスペクトル平均演算することによってＳＮ比を改善するこのアイデアは、以下において、本発明の他の実施形態を用いてより詳細に記載される。スペクトル平均演算は、音響入力信号１０４または音響入力信号（複数）に、アクティブな音響強度に、またはダイレクトに方向（到来の）パラメータψ（ｋ，ｎ）に適用することができる。

空間オーディオプロセッサ５００を、ダブルトークがないケースまたは低い音調性のケースにおいて、式５ａと式５ｂにおける期待値オペレータがスペクトル平均演算を考慮することによって近似されるという相違点を有する同様の方法で、空間オーディオマイクロフォン解析にも適用できることが当業者にとって明らかとなる。

以下において、空間パラメータの計算を改善するためのＳＮ比に依存する方向推定を実行する、本発明の２つの他の実施形態が説明される。

図６にかかる空間オーディオプロセッサを用いたＳＮ比に依存する方向推定

図６は、空間オーディオプロセッサ６００の概略ブロック図を示す。空間オーディオプロセッサ６００は、上述したＳＮ比に依存する方向推定を実行するように構成される。

空間オーディオプロセッサ６００の機能は、図１にかかる空間オーディオプロセッサ１００の機能と同様とすることができる。空間オーディオプロセッサ６００は、以下に記載される追加の特徴を備えることができる。空間オーディオプロセッサ６００は、制御可能パラメータ推定器６０６と信号特性判定器６０８を備える。制御可能パラメータ推定器６０６の機能は、図１にかかる制御可能パラメータ推定器１０６の機能と同様とすることができ、制御可能パラメータ推定器６０６は、以下に記載される追加の特徴を備えることができる。信号特性判定器６０８の機能は、図１にかかる信号特性判定器１０８の機能と同様とすることができ、信号特性判定器６０８は、以下に記載される追加の特徴を備えることができる。

信号特性判定器６０８は、音響入力信号１０４の信号特性１１０として、音響入力信号１０４のＳＮ比（ＳＮＲ）を判定するように構成することができる。制御可能パラメータ推定器６０６は、音響入力信号１０４の判定されたＳＮ比に基づいて、音響入力信号１０４の空間パラメータ１０２を計算するための可変空間計算ルールを提供するように構成することができる。

制御可能パラメータ推定器６０６は、例えば、空間パラメータ１０２を判定するために時間平均演算を実行することができ、音響入力信号１０４の判定されたＳＮ比に従って、時間平均演算の平均演算長（または時間平均演算に対して用いられる要素の数）を変化させることができる。例えば、パラメータ推定器６０６は、音響入力信号１０４の比較的低いＳＮ比に対して平均演算長が比較的高いように、音響入力信号１０４の比較的高いＳＮ比に対して平均演算長が比較的低いように、時間平均演算の平均演算長を変化させるように構成することができる。

パラメータ推定器６０６は、空間パラメータ１０２として、前述の時間平均演算に基づいて到来の方向パラメータψ（ｋ，ｎ）を提供するように構成することができる。前述のように、制御可能パラメータ推定器６０６において（例えばパラメータ推定器６０６の方向推定器６１０において）、各周波数サブバンドｋおよび時間スロットｎに対する到来の方向パラメータψ（ｋ，ｎ）を、アクティブな音響強度ベクトルＩ_a（ｋ，ｎ）の反対方向として判定することができる。パラメータ推定器６０６は、それ故に、音響入力信号１０４についてエネルギー解析を実行し、各周波数サブバンドｋと各時間スロットｎに対するアクティブな音響強度ベクトルＩ_a（ｋ，ｎ）を判定するために、エネルギー解析器６１２を備えることができる。方向推定器６１０は、例えば、判定されたアクティブな強度ベクトルＩ_a（ｋ，ｎ）について、周波数サブバンドｋに対して、複数の時間スロットｎに亘る時間平均演算を実行することができる。言い換えれば、方向推定器６１０は、周波数サブバンドｋと時間スロットｎに対する到来の方向パラメータψ（ｋ，ｎ）を計算するために、１つの周波数サブバンドｋと複数の（前の）時間スロットに対する強度パラメータＩ_a（ｋ，ｎ）の時間平均演算を実行することができる。本発明の更なる実施形態によれば、方向推定器６１０は、（例えば強度パラメータＩ_a（ｋ，ｎ）の時間平均演算の代わりに）周波数サブバンドｋと複数の（前の）時間スロットに対する複数の判定された到来の方向パラメータψ（ｋ，ｎ）についての時間平均演算を実行することもできる。時間平均演算の平均演算長は、それ故に、時間平均演算を実行するために用いられた強度パラメータの数または到来の方向パラメータの数に対応する。言い換えれば、パラメータ推定器６０６は、複数の時間スロットと周波数サブバンドｋに対する強度パラメータＩ_a（ｋ，ｎ）のサブセットまたは複数の時間スロットと周波数サブバンドｋに対する到来の方向パラメータψ（ｋ，ｎ）のサブセットに、時間平均演算を適用するように構成することができる。時間平均演算に対して用いられた、強度パラメータのサブセットにおける強度パラメータの数または到来の方向パラメータのサブセットにおける到来の方向パラメータの数は、時間平均演算の平均演算長に対応する。制御可能パラメータ推定器６０６は、時間平均演算を計算するために用いられたサブセットにおける強度パラメータの数または到来の方向パラメータの数を、強度パラメータのサブセットにおける強度パラメータの数または到来の方向パラメータのサブセットにおける到来の方向パラメータの数が音響入力信号１０４の比較的高いＳＮ比に対して比較的低いように、強度パラメータの数または到来の方向パラメータの数が音響入力信号１０４の比較的低いＳＮ比に対して比較的高いように、調整するように構成される。

言い換えれば、本発明の実施形態は、音響入力信号（複数）または音響入力信号１０４のＳＮ比に基づく方向オーディオ符号化の方向推定を提供する。

一般に、図２にかかる方向オーディオコーダ２００に従って定義された音響の、推定された方向ψ（ｋ，ｎ）の（または到来の方向パラメータψ（ｋ，ｎ）の）精度は、音響入力信号内に常に存在するノイズによって影響される。

推定精度についてのノイズのインパクトは、ＳＮＲ、すなわち、（マイクロフォン）アレイに到来する音響の信号エネルギーとノイズエネルギーとの比に依存する。小さいＳＮＲは、方向ψ（ｋ，ｎ）の推定精度を有意に低減する。ノイズ信号は、通常は、計測装置、例えば、マイクロフォンとマイクロフォン増幅器によって導入され、ψ（ｋ，ｎ）における誤差をもたらす。方向ψ（ｋ，ｎ）は、推定された以下または推定された以上のいずれかの等しい確率を有するが、ψ（ｋ，ｎ）の期待値は依然として正しいことが分かっている。

到来の方向パラメータψ（ｋ，ｎ）のいくつかの独立した推定を持つこと、例えば、計測を数回繰り返すことによって、ノイズの影響を低減することができ、従って到来の方向パラメータψ（ｋ，ｎ）をいくつかの計測インスタンスに亘って平均演算することによって、方向推定の精度を増大することができることを分かっている。平均演算プロセスは、効率的に推定器のＳＮ比を増大する。マイクロフォンにおいて、または一般的に音響録音装置においてＳＮ比が小さいほど、あるいは推定器において所望の目標ＳＮ比が高いほど、平均演算プロセスにおいて必要とされる計測インスタンスの数が高い。

図６に示される空間コーダ６００は、音響入力信号１０４のＳＮ比に従ってこの平均演算プロセスを実行する。あるいは言い換えると、空間オーディオプロセッサ６００は、音響入力においてまたは音響入力信号１０４のＳＮＲを考慮することによって、方向オーディオ符号化における方向推定を改善するコンセプトを示す。

方向推定器６１０によって方向ψ（ｋ，ｎ）を推定する前に、音響入力信号１０４または音響入力信号（複数）のＳＮ比は、信号特性判定器６０８のＳＮ比推定器６１４によって判定される。ＳＮ比は、例えば、ＳＴＦＴドメインにおいて、各時間ブロックｎと周波数バンドｋに対して推定することができる。音響入力信号１０４の実際のＳＮ比についての情報は、判定された信号特性１１０として、ＳＮ比推定器６１４から、ＳＮ比を改善するために特定の方向オーディオ符号化信号の周波数と時間に依存する時間平均演算を含む方向推定器６１０に提供される。さらにまた、所望の目標ＳＮ比を、方向推定器６１０に渡すことができる。所望の目標ＳＮ比は、外部的に、例えばユーザによって定義することができる。方向推定器６１０は、制御可能パラメータ推定器６０６の出力（平均演算後）において得られる音響入力信号１０４のＳＮ比が所望のＳＮ比にマッチするように、時間平均演算の平均演算長を調整することができる。または言い換えると、所望の目標ＳＮ比が取得されるまで、平均演算が（方向推定器６１０において）実行される。

方向推定器６１０は、得られる音響入力信号１０４のＳＮ比を目標ＳＮ比と連続的に比較することができ、所望の目標ＳＮ比が得られるまで平均演算を実行することができる。このコンセプトを用いて、得られるＳＮ比の音響入力信号１０４が連続的にモニタされ、得られる音響入力信号１０４のＳＮ比が目標ＳＮ比にマッチし、従って前もって平均演算長を計算する必要がないときに、平均演算を終了する。

さらに、方向推定器６１０は、制御可能パラメータ推定器６０６の出力において得られる音響入力信号１０４のＳＮ比が目標ＳＮ比にマッチするように、制御可能パラメータ推定器６０６の入力における音響入力信号１０４のＳＮ比に基づいて、音響入力信号１０４のＳＮ比の平均演算に対する平均演算長を判定することができる。このように、このコンセプトを用いて、得られる音響入力信号１０４のＳＮ比は、連続的にモニタされない。

上述された方向推定器６１０に対する２つのコンセプトによって生成される結果は、同じである。空間パラメータ１０２の推定の間、現在の音響入力信号１０４のＳＮ比（制御可能パラメータ推定器６０６の入力における）が悪いにも拘らず、あたかも音響入力信号１０４が目標ＳＮ比を有するように、空間パラメータ１０２の正確さを達成することができる。

音響入力信号１０４のＳＮ比が目標ＳＮ比と比較して小さいほど、時間平均演算は長くなる。方向推定器６１０の出力は、例えば、推定ψ（ｋ，ｎ）、すなわち増大した精度を有する到来の方向パラメータψ（ｋ，ｎ）である。前述したように、方向オーディオ符号化信号を平均演算するための異なる可能性：式１によって提供される１つの周波数サブバンドｋと複数の時間スロットに対するアクティブな音響強度ベクトルＩ_a（ｋ，ｎ）を平均演算すること、または時間に沿ってアクティブな音響強度ベクトルＩ_a（ｋ，ｎ）の反対方向として既に定義された、推定された方向ψ（ｋ，ｎ）（到来の方向パラメータψ（ｋ，ｎ））を直接平均演算すること、が存在する。

空間オーディオプロセッサ６００は、同様の方法で、空間オーディオマイクロフォン方向解析に適用することもできる。方向推定の精度は、いくつかの計測インスタンスに亘って結果を平均演算することによって増大することができる。これは、図６におけるＤｉｒＡＣと同様に、ＳＡＭ推定器が、音響入力信号１０４のＳＮＲを最初に判定することによって改善されることを意味する。実際のＳＮＲと所望の目標ＳＮＲについての情報は、ＳＮＲを改善するための特定のＳＡＭ信号の周波数と時間に依存する時間平均演算を含むＳＡＭの方向推定器に渡される。平均演算は、所望の目標ＳＮＲが得られるまで実行される。実際上、２つのＳＡＭ信号、すなわち式５ａおよび式５ｂにおいて定義される推定された方向ψ（ｋ，ｎ）またはＰＳＤおよびＣＳＤは、平均化することができる。後者の平均演算は、期待値オペレータが、長さが実際のおよび所望の（目標）ＳＮＲに依存する平均演算プロセスによって近似されることを単に意味する。推定された方向ψ（ｋ，ｎ）の平均演算は、図７ｂに従ってＤｉｒＡＣに対して説明されるが、ＳＡＭに対して同じ方法で適用できる。

図８を用いて後で説明される本発明の更なる実施形態によれば、これらの２つの方法によって物理量を明示的に平均演算する代わりに、用いられたフィルタバンクを、フィルタバンクが入力信号の固有の平均演算を含むことができるように、切替えることが可能である。以下において、方向オーディオ符号化信号を平均化する２つの言及された方法が、図７ａと図７ｂを用いて、より詳細に説明される。空間オーディオプロセッサによってフィルタバンクを切替える代替方法は、図８に示される。

図７ａにかかる方向オーディオ符号化におけるアクティブな音響密度ベクトルの平均演算

図７ａは、図６におけるＳＮ比に依存する方向推定器６１０の第１の可能な実現手段を概略ブロック図で示す。図７ａに示される実現手段は、方向推定器６１０ａによる音響強度または音響強度パラメータＩ_a（ｋ，ｎ）の時間平均演算に基づいている。方向推定器６１０ａの機能は、図６の方向推定器６１０の機能と同様とすることができ、方向推定器６１０ａは、以下に記載される追加の特徴を備えることができる。

方向推定器６１０ａは、平均演算と方向推定を実行するように構成される。方向推定器６１０ａは、図６のエネルギー解析器６１２に接続され、方向推定器６１０は、エネルギー解析器６１２によって、図６に示される制御可能パラメータ推定器６０６の機能と同様の機能の制御可能パラメータ推定器６０６ａを構成することができる。制御可能パラメータ推定器６０６ａは、最初に、音響入力信号１０４または音響入力信号（複数）から、前述のように式１を用い、エネルギー解析器６１２を用いて、エネルギー解析において、アクティブな音響強度ベクトル７０６（Ｉ_a（ｋ，ｎ））を判定する。平均演算を実行する方向推定器６１０ａの平均演算ブロック７０２において、このベクトル（音響強度ベクトル７０６）は、以下の式に従って、時間ｎに沿って、全ての（または少なくとも全ての一部の）周波数バンドまたは周波数サブバンドｋに対して独立に平均化され、平均化された音響強度ベクトル７０８（Ｉ_avg（ｋ，ｎ））となる。

Ｉ_avg（ｋ，ｎ）＝＜Ｉ_a（ｋ，ｎ）＞_n （１３）

平均演算を実行するために、方向推定器６１０ａは、過去の強度推定を考慮する。平均演算ブロック７０２に対する１つの入力は、音響入力１０４または音響入力信号１０４の実際のＳＮ比７１０であり、それは図６に示されたＳＮ比推定器６１４によって判定される。音響入力信号１０４の実際のＳＮ比７１０は、音響入力信号１０４の判定された信号特性１１０を構成する。ＳＮ比は、短時間周波数ドメインにおいて、各周波数サブバンドｋと各時間スロットｎに対して判定される。平均演算ブロック７０２への第２の入力は、所望のＳＮ比または目標ＳＮ比７１２であり、それは制御可能パラメータ推定器６０６ａの出力、すなわち目標ＳＮ比において取得されなければならない。目標ＳＮ比７１２は外部入力であり、例えばユーザによって与えられる。平均演算ブロック７０２は、目標ＳＮ比７１２が得られるまで、強度ベクトル７０６（Ｉ_a（ｋ，ｎ））を平均化する。前に説明されたように、平均化された（音響）強度ベクトル７０８（Ｉ_avg（ｋ，ｎ））に基づいて、方向推定を実行する方向推定器６１０ａの方向推定ブロック７０４を用いて、最後に音響の方向ψ（ｋ，ｎ）を計算することができる。到来の方向パラメータψ（ｋ，ｎ）は、制御可能パラメータ推定器６０６ａによって判定される空間パラメータ１０２を構成する。方向推定器６１０ａは、対応する周波数サブバンドｋと対応する時間スロットｎの平均化された音響強度ベクトル７０８（Ｉ_avg（ｋ，ｎ））の反対方向として、各周波数サブバンドｋと時間スロットｎに対する到来の方向パラメータψ（ｋ，ｎ）を判定することができる。

所望の目標ＳＮ比７１２に従って、制御可能パラメータ推定器６１０ａは、制御可能パラメータ推定器６０６ａの出力におけるＳＮ比が、目標ＳＮ比７１２にマッチする（または等しい）ように、音響強度パラメータ７０６（Ｉ_a（ｋ，ｎ））の平均演算に対する平均演算長を変化させることができる。通常、制御可能パラメータ推定器６１０ａは、音響入力信号１０４の実際のＳＮ比７１０と目標ＳＮ比７１２との間の比較的高い差異に対して、比較的長い平均演算長を選択することができる。音響入力信号１０４の実際のＳＮ比７１０と目標ＳＮ比７１２との間の比較的低い差異に対して、制御可能パラメータ推定器６１０ａは、比較的短い平均演算長を選択する。

または言い換えると、方向推定器６０６ａは、音響強度パラメータの音響強度の平均演算に基づいている。

図７ｂにかかる方向オーディオ符号化の方向パラメータの直接的な平均演算

図７ｂは、制御可能パラメータ推定器６０６ｂの概略ブロック図を示し、その機能は図６に示された制御可能パラメータ推定器６０６の機能と同様とすることができる。制御可能パラメータ推定器６０６ｂは、エネルギー解析器６１２と、方向推定と平均演算を実行するように構成された方向推定器６１０ｂとを備える。方向推定器６１０ｂは、それが、第１に、各周波数サブバンドｋと各時間スロットｎに対する到来の方向パラメータ７１８（ψ（ｋ，ｎ））を判定するために、方向推定を実行し、第２に、各周波数サブバンドｋと各時間スロットｎに対する平均化された到来の方向パラメータψ_avg（ｋ，ｎ）を判定するために、判定された到来の方向パラメータ７１８について平均演算を実行するという点で方向推定器６１０ａと異なる。平均化された到来の方向パラメータψ_avg（ｋ，ｎ）は、制御可能パラメータ推定器６０６ｂによって判定される空間パラメータ１０２を構成する。

言い換えれば、図７ｂは、図６に示されたＳＮ比に依存する方向推定器６１０の他の可能な実現手段を示す。
図７ｂに示される実現手段は、従来のオーディオ符号化アプローチによって、例えば各周波数サブバンドｋと各時間スロットｎに対して、アクティブな音響強度ベクトル７０６（Ｉ_a（ｋ，ｎ））の反対方向として取得することができる推定された方向（到来の方向パラメータ７１８（ψ（ｋ，ｎ））の時間平均演算に基づいている。

音響入力または音響入力信号１０４から、エネルギー解析器６１２を用いてエネルギー解析が実行され、次に、例えば前に説明された従来の方向オーディオ符号化方法によって、方向推定を実行する方向推定器６１０ｂの方向推定ブロック７１４において音響の方向（到来の方向パラメータ７１８（ψ（ｋ，ｎ））が判定される。次に、方向推定器６１０ｂの平均演算ブロック７１６において、この方向（到来の方向パラメータ７１８（ψ（ｋ，ｎ））について時間平均演算が適用される。前に説明されたように、時間に沿って、全ての（または少なくとも全ての一部の）周波数バンドまたは周波数サブバンドｋに対して、平均演算が実行され、次式の平均化された方向ψ_avg（ｋ，ｎ）をもたらす。

ψ_avg（ｋ，ｎ）＝＜ψ（ｋ，ｎ）＞_n （１４）

各周波数サブバンドｋと各時間スロットｎに対する平均化された方向ψ_avg（ｋ，ｎ）は、制御可能パラメータ推定器６０６ｂによって判定される空間パラメータ１０２を構成する。

前述のように、平均演算ブロック７１６への入力は、制御可能パラメータ推定器６０６ｂの出力において取得される音響入力または音響入力信号１０４の実際のＳＮ比７１０ならびに目標ＳＮ比７１２である。実際のＳＮ比７１０は、例えばＳＴＦＴドメインにおいて、各周波数サブバンドｋと各時間スロットｎに対して判定される。平均演算７１６は、目標ＳＮ比７１２が得られるまで、十分な数の時間ブロック（または時間スロット）に亘って実行される。最終結果は、増大した精度を有する時間平均化された方向ψ_avg（ｋ，ｎ）である。

簡単に要約すると、信号特性判定器６０８は、音響入力信号１０４の周波数サブバンドｋと時間スロットｎに対して、複数のＳＮ比パラメータとして、音響入力信号１０４のＳＮ比７１０を提供するように構成される。制御可能パラメータ推定器６０６ａ、６０６ｂは、周波数サブバンドｋと時間スロットｎに対して、複数の目標ＳＮ比パラメータとして、目標ＳＮ比７１２を受信するように構成される。制御可能パラメータ推定器６０６ａ、６０６ｂは、現在の（平均化された）到来の方向パラメータψ_avg（ｋ，ｎ）の現在のＳＮ比パラメータが現在の目標ＳＮ比パラメータにマッチするように、音響入力信号の現在のＳＮ比パラメータに従って時間平均演算の平均演算長を導き出すように更に構成される。

制御可能パラメータ推定器６０６ａ、６０６ｂは、音響入力信号１０４の各周波数サブバンドｋと各時間スロットｎに対する強度パラメータＩ_a（ｋ，ｎ）を導き出すように構成される。さらにまた、制御可能パラメータ推定器６０６、６０６ｂは、制御可能パラメータ推定器６０６ａ、６０６ｂによって判定された音響オーディオ信号の強度パラメータＩ_a（ｋ，ｎ）に基づいて、音響入力信号１０４の各周波数サブバンドｋと各時間スロットｎに対する到来の方向パラメータψ（ｋ，ｎ）を導き出すように構成される。制御可能パラメータ推定器６０６ａ、６０６ｂは、音響入力信号１０４の導き出された強度パラメータの少なくともサブセットの時間平均演算に基づいて、または導き出された到来の方向パラメータの少なくともサブセットの時間平均演算に基づいて、現在の周波数サブバンドと現在の時間スロットに対する現在の到来の方向パラメータψ（ｋ，ｎ）を導き出すように更に構成される。

制御可能パラメータ推定器６０６ａ、６０６ｂは、例えばＳＴＦＴドメインにおいて、各周波数サブバンドｋと各時間スロットｎに対する強度パラメータＩ_a（ｋ，ｎ）を導き出すように構成され、さらにまた、制御可能パラメータ推定器６０６ａ、６０６ｂは、例えばＳＴＦＴドメインにおいて、各周波数サブバンドｋと各時間スロットｎに対する到来の方向パラメータψ（ｋ，ｎ）を導き出すように構成される。制御可能パラメータ推定器６０６ａは、強度パラメータのサブセットの全ての強度パラメータに関連する周波数サブチャネルが現在の到来の方向パラメータに関連する現在の周波数サブバンドに等しいように、時間平均演算を実行するための強度パラメータのサブセットを選択するように構成される。制御可能パラメータ６０６ｂは、到来の方向パラメータのサブセットの全ての到来の方向パラメータに関連する周波数サブチャネルが現在の到来の方向パラメータに関連する現在の周波数サブチャネルに等しいように、時間平均演算７１６を実行するための到来の方向パラメータのサブセットを選択するように構成される。

さらにまた、制御可能パラメータ推定器６０６ａは、強度パラメータのサブセットの強度パラメータに関連する時間スロットが時間において隣接するように、強度パラメータのサブセットを選択するように構成される。制御可能パラメータ推定器６０６ｂは、到来の方向パラメータのサブセットの到来の方向パラメータに関連する時間スロットが時間において隣接するように、到来の方向パラメータのサブセットを選択するように構成される。強度パラメータのサブセットにおける強度パラメータの数、または到来の方向パラメータのサブセットにおける到来の方向パラメータの数は、時間平均演算の平均演算長に対応する。制御可能パラメータ推定器６０６ａは、時間平均演算を実行するための強度パラメータのサブセットにおける強度パラメータの数を、音響入力信号１０４の現在のＳＮ比と現在の目標ＳＮ比との差異に依存して導き出すように構成される。制御可能パラメータ推定器６０６ｂは、時間平均演算を実行する到来の方向パラメータのサブセットの到来の方向パラメータの数を、音響入力信号１０４の現在のＳＮ比と現在の目標ＳＮ比との差異に基づいて導き出すように構成される。

または言い換えると、方向推定器６０６ｂは、従来の方向オーディオ符号化アプローチによって取得された方向７１８ ψ（ｋ，ｎ）の平均演算に基づいている。

以下において、やはりＳＮ比に依存するパラメータ推定を実行する空間オーディオプロセッサの他の実現手段が記載される。

図８にかかるオーディオコーダを用いた方向オーディオ符号化において適切なスペクトル‐時間分解能を有するフィルタバンクを用いる

図８は、制御可能パラメータ推定器８０６と信号特性判定器８０８を備える空間オーディオプロセッサ８００を示す。方向オーディオコーダ８００の機能は、方向オーディオコーダ１００の機能と同様とすることができる。方向オーディオコーダ８００は、以下に記載される追加の特徴を備えることができる。制御可能パラメータ推定器８０６の機能は、制御可能パラメータ推定器１０６の機能と同様とすることができ、信号特性判定器８０８の機能は、信号特性判定器１０８の機能と同様とすることができる。制御可能パラメータ推定器８０６と信号特性判定器８０８は、以下に記載される追加の特徴を備えることができる。

信号特性判定器８０８は、ＳＴＦＴドメインでなく時間ドメインにおける入力ＳＮ比としても示される音響入力信号１０４のＳＮ比８１０を判定するという点で信号特性判定器６０８と異なる。音響入力信号１０４のＳＮ比８１０は、信号特性判定器８０８によって判定される信号特性を構成する。制御可能パラメータ推定器８０６は、フィルタバンク８１４と、例えばＳＴＦＴドメインにおいて時間ドメインの音響入力信号１０４をＢフォーマット表現に変換するように構成されたＢフォーマット演算ブロック８１６とを備えるＢフォーマット推定器８１２を備えるという点で図６に示された制御可能パラメータ推定器６０６と異なる。

さらにまた、Ｂフォーマット推定器８１２は、信号特性判定器８０８による判定された信号特性に基づいて、または言い換えれば時間ドメインにおける音響入力信号１０４のＳＮ比８１０に従って、音響入力信号１０４のＢフォーマット判定を変化させるように構成される。

Ｂフォーマット推定器８１２の出力は、音響入力信号１０４のＢフォーマット表現８１８である。Ｂフォーマット表現８１８は、各周波数サブバンドｋと各時間スロットｎに対する全方向成分、例えば上述した音圧ベクトルＰ（ｋ，ｎ）と、方向成分、例えば上述した音速ベクトルＵ（ｋ，ｎ）とを備える。

制御可能パラメータ推定器８０６の方向推定器８２０は、各周波数サブバンドｋと各時間スロットｎに対する音響入力信号１０４の到来の方向パラメータψ（ｋ，ｎ）を導き出す。到来の方向パラメータψ（ｋ，ｎ）は、制御可能パラメータ推定器８０６によって判定される空間パラメータ１０２を構成する。方向推定器８２０は、各周波数サブバンドｋと各時間スロットｎに対するアクティブな強度パラメータＩ_a（ｋ，ｎ）を判定し、アクティブな強度パラメータＩ_a（ｋ，ｎ）に基づいて到来の方向パラメータψ（ｋ，ｎ）を導き出すことによって、方向推定を実行することができる。

Ｂフォーマット推定器８１２のフィルタバンク８１４は、音響入力信号１０４の実際のＳＮ比８１０を受信し、目標ＳＮ比８２２を受信するように構成される。制御可能パラメータ推定器８０６は、音響入力信号１０４の実際のＳＮ比８１０と目標ＳＮ比８２２との差異に従って、フィルタバンク８１４のブロック長を変化させるように構成される。フィルタバンク８１４の出力は、音響入力信号１０４の周波数表現（例えばＳＴＦＴドメインにおける）であり、それに基づいて、Ｂフォーマット計算ブロック８１６は音響入力信号１０４のＢフォーマット表現８１８を演算する。言い換えれば、音響入力信号１０４の時間ドメインから周波数表現への変換は、音響入力信号１０４の判定された実際のＳＮ比８１０と目標ＳＮ比８２２に従って、フィルタバンク８１４によって実行することができる。要するに、Ｂフォーマット演算は、Ｂフォーマット演算ブロック８１６によって、判定された実際のＳＮ比８１０と目標ＳＮ比８２２に従って実行することができる。

言い換えれば、信号特性判定器８０８は、時間ドメインにおける音響入力信号１０４のＳＮ比８１０を判定するように構成される。制御可能パラメータ推定器８０６は、フィルタバンク８１４を備え、音響入力信号１０４を時間ドメインから周波数表現に変換する。制御可能パラメータ推定器８０６は、音響入力信号１０４の判定されたＳＮ比８１０に従って、フィルタバンク８１４のブロック長を変化させるように構成される。制御可能パラメータ推定器８０６は、目標ＳＮ比８１２を受信し、周波数ドメインにおける音響入力信号１０４のＳＮ比が目標ＳＮ比８１４にマッチするように、または言い換えれば、音響入力信号１０４の周波数表現８２４のＳＮ比が目標ＳＮ比８２２にマッチするように、フィルタバンク８１４のブロック長を変化させるように構成される。

図８に示される制御可能パラメータ推定器８０６は、図６に示されるＳＮ比に依存する方向推定器６１０の他の実現手段としても理解することができる。図８に示される実現手段は、フィルタバンク８１４の適当なスペクトル時間分解能の選択に基づいている。前に説明されたように、方向オーディオ符号化は、ＳＴＦＴドメインにおいて作動する。従って、例えばマイクロフォンによって計測された時間ドメインにおける音響入力信号（複数）または音響入力信号１０４は、例えば短時間フーリエ変換またはその他のフィルタバンクを用いて変換される。Ｂフォーマット推定器８１２は、次に、音響入力信号１０４の短時間周波数表現８１８を提供する、または言い換えれば、それぞれ音圧Ｐ（ｋ，ｎ）と特定の速度ベクトルＵ（ｋ，ｎ）によって示されるようなＢフォーマット信号を提供する。フィルタバンク８１４を音響時間ドメイン入力信号（時間ドメインにおける音響入力信号１０４）に適用することは、変換された信号（音響入力信号１０４の短時間周波数表現８２４）を本質的に平均化し、他方では、平均演算長はフィルタバンク８１４の変換長（またはブロック長）に対応する。空間オーディオプロセッサ８００に関連して記載された平均演算法は、入力信号のこの固有の時間平均演算を利用する。

マイクロフォンによって計測することができる音響入力または音響入力信号１０４は、フィルタバンク８１４を用いて短時間周波数ドメインに変換される。変換長、またはフィルタ長、またはブロック長は、平均演算プロセスによって取得すべき、音響入力信号１０４または音響入力信号（複数）の実際の入力ＳＮ比８１０と所望の目標ＳＮ比８２２とによって制御される。言い換えれば、音響入力信号１０４の時間周波数表現８２４のＳＮ比が、目標ＳＮ比８２２にマッチするまたは等しいように、フィルタバンク８１４において平均演算を実行することが望ましい。ＳＮ比は、時間ドメインにおける音響入力信号１０４または音響入力信号（複数）から判定される。高い入力ＳＮ比８１０のケースでは、より短い変換長が選択され、逆に、低い入力ＳＮ比８１０に対しては、より長い変換長が選択される。前節において説明されたように、音響入力信号１０４の入力ＳＮ比８１０は、信号特性判定器８０８のＳＮ比推定器によって提供され、一方、目標ＳＮ比８２２は、例えばユーザによって、外部的に制御することができる。フィルタバンク８１４と、Ｂフォーマット演算ブロック８１６によって実行される引き続くＢフォーマット演算の出力は、例えばＳＴＦＴドメインにおける音響入力信号８１８、すなわち、Ｐ（ｋ，ｎ）および／またはＵ（ｋ，ｎ）である。これらの信号（ＳＴＦＴにおける音響入力信号８１８）は、各周波数サブバンドｋと各時間スロットｎに対する方向ψ（ｋ，ｎ）を取得するために、方向推定器８２０において、例えば従来の方向オーディオ符号化処理によって更に処理される。

または言い換えると、空間オーディオプロセッサ８００または方向推定器は、音響入力信号１０４または音響入力信号（複数）に対して、適当なフィルタバンクを選択することに基づいている。

要するに、信号特性判定器８０８は、時間ドメインにおける音響入力信号１０４のＳＮ比８１０を判定するように構成される。制御可能パラメータ推定器８０６は、音響入力信号１０４を時間ドメインから周波数表現に変換するように構成されたフィルタバンク８１４を備える。制御可能パラメータ推定器８０６は、音響入力信号１０４の判定されたＳＮ比８１０に従って、フィルタバンク８１４のブロック長を変化させるように構成される。さらにまた、制御可能パラメータ推定器８０６は、目標ＳＮ比８２２を受信し、周波数表現における音響入力信号１０４のＳＮ比が目標ＳＮ比８２２にマッチするように、フィルタバンク８１４のブロック長を変化させるように構成される。

信号特性判定器６０８、８０８によって実行されるＳＮ比の推定は、周知の問題である。以下において、ＳＮ比推定器の可能な実施態様が記載される。

ＳＮＲ推定器の可能な実施態様

以下において、図６における入力ＳＮ比推定器６１４の可能な実施態様が記載される。以下に記載されるＳＮ比推定器は、図７ａと図７ｂに示された制御可能パラメータ推定器６０６ａと制御可能パラメータ推定器６０６ｂに対して用いることができる。ＳＮ比推定器は、例えばＳＴＦＴドメインにおける音響入力信号１０４のＳＮ比を推定する。時間ドメインの実施態様（例えば、信号特性判定器８０８において実施される）は、同様の方法で実現することができる。

ＳＮＲ推定器は、例えば、ＳＴＦＴドメインにおいて、各時間ブロックｎと周波数バンドｋに対して、または時間ドメイン信号に対して、音響入力信号のＳＮＲを推定することができる。ＳＮＲは、考慮される時間‐周波数ビンに対する信号パワーを演算することによって推定される。ｘ（ｋ，ｎ）を音響入力信号とする。信号パワーＳ（ｋ，ｎ）は、次式によって判定することができる。

Ｓ（ｋ，ｎ）＝｜ｘ（ｋ，ｎ）｜² （１５）

ＳＮＲを取得するために、信号パワーとノイズパワーＮ（ｋ）との比が計算される。すなわち、

ＳＮＲ＝Ｓ（ｋ，ｎ）／Ｎ（ｋ）

Ｓ（ｋ，ｎ）は既にノイズを含むので、低いＳＮＲのケースにおける、より正確なＳＮＲ推定器は、次式で与えられる。

ＳＮＲ＝（Ｓ（ｋ，ｎ）−Ｎ（ｋ））／Ｎ（ｋ） (１６)

ノイズパワー信号Ｎ（ｋ）は、時間ｎに沿って一定であると仮定される。それは、各ｋに対して音響入力から判定することができる。実際上、それは、音響が存在しないケースにける、すなわちサイレントの間の音響入力信号の平均パワーに等しい。数学的用語で表すと、

Ｎ（ｋ）＝<｜x（ｋ，ｎ）｜²>_n
ｘ（ｋ，ｎ）はサイレント間に計測されたもの (１７)

言い換えれば、本発明のいくつかの実施形態によれば、信号特性判定器は、音響入力信号１０４のサイレントフェーズの間のノイズ信号を計測し、ノイズ信号のパワーＮ（ｋ）を計算するように構成される。信号特性判定器は、音響入力信号１０４の非サイレントフェーズの間のアクティブ信号を計測し、アクティブ信号のパワーＳ（ｋ，ｎ）を計算するように更に構成することができる。信号特性判定器は、ノイズ信号の計算されたパワーＮ（ｋ）とアクティブ信号の計算されたパワーＳ（ｋ，ｎ）に基づいて音響入力信号１０４のＳＮ比を判定するように更に構成することができる。

このスキームは、信号特性判定器８０８が時間ドメインにおけるアクティブ信号のパワーＳ（ｔ）を判定し、時間ドメインにおけるノイズ信号のパワーＮ（ｔ）を判定し、時間ドメインにおける音響入力信号１０４の実際のＳＮ比を取得するという差異を有する信号特性判定器８０８に適用することもできる。

言い換えれば、信号特性判定器６０８、８０８は、音響入力信号１０４のサイレントフェーズの間のノイズ信号を計測し、ノイズ信号のパワーＮ（ｋ）を計算するように構成される。信号特性判定器６０８、８０８は、音響入力信号１０４の非サイレントフェーズの間のアクティブ信号を計測し、アクティブ信号（Ｓ（ｋ，ｎ））のパワーを計算するように構成される。さらにまた、信号特性判定器６０８、８０８は、ノイズ信号の計算されたパワーＮ（ｋ）とアクティブ信号の計算されたパワーＳ（ｋ）に基づいて音響入力信号１０４のＳＮ比を判定するように構成される。

以下において、拍手に依存するパラメータ推定を実行する本発明の他の実施形態が記載される。

図９にかかる空間オーディオプロセッサを用いた拍手に依存するパラメータ推定

図９は、本発明の実施形態にかかる空間オーディオプロセッサ９００の概略ブロック図を示す。空間オーディオプロセッサ９００の機能は、空間オーディオプロセッサ１００の機能と同様とすることができ、空間オーディオプロセッサ９００は、以下に記載される追加の特徴を備えることができる。空間オーディオプロセッサ９００は、制御可能パラメータ推定器９０６と信号特性判定器９０８を備える。制御可能パラメータ推定器９０６の機能は、制御可能パラメータ推定器１０６の機能と同様とすることができ、制御可能パラメータ推定器９０６は、以下に記載される追加の特徴を備えることができる。信号特性判定器９０８の機能は、信号特性判定器１０８の機能と同様とすることができ、信号特性判定器９０８は、以下に記載される追加の特徴を備えることができる。

信号特性判定器９０８は、音響入力信号１０４が拍手のような信号に対応するトランジェント成分を備える場合に、例えば拍手検出器９１０を用いて判定するように構成される。

本願明細書において信号として定義される拍手のような信号は、例えば、異なる方向にトランジェントの速い時間シーケンスを備える。

制御可能パラメータ推定器９０６は、変換計算ルールに基づいて音響入力信号１０４を時間ドメインから周波数表現（例えばＳＴＦＴドメイン）に変換するように構成されたフィルタバンク９１２を備える。制御可能パラメータ推定器９０６は、信号特性判定器９０８によって実行される信号特性判定の結果に従って、音響入力信号１０４を時間ドメインから周波数表現に変換する変換計算ルールを、複数の変換計算ルールから選択するように構成される。信号特性判定の結果は、信号特性判定器９０８の判定された信号特性１１０を構成する。制御可能パラメータ推定器９０６は、音響入力信号が拍手に対応する成分を備えるとき、音響入力信号１０４を時間ドメインから周波数表現に変換する第１の変換計算ルールが複数の変換計算ルールから選択されるように、音響入力信号１０４が拍手に対応する成分を備えないとき、音響入力信号１０４を時間ドメインから周波数表現に変換する第２の変換計算ルールが複数の変換計算ルールから選択されるように、複数の変換計算ルールから変換計算ルールを選択する。

または言い換えると、制御可能パラメータ推定器９０６は、拍手検出に従って、音響入力信号１０４を時間ドメインから周波数表現に変換する適切な変換計算ルールを選択するように構成される。

要するに、空間オーディオプロセッサ９００は、音響入力信号（複数）または音響入力信号１０４の特性に従って音場のパラメータ記述が判定される本発明の例示的な実施形態として示される。マイクロフォンが拍手を捕える、または音響入力信号１０４が拍手のような信号に対応する成分を備えるケースにおいて、パラメータ推定の精度を増大するために特別な処理が用いられる。

拍手は、非常に短い時間期間のなかで、音響の到来の方向の速いバリエーションによって通常は特徴づけられる。さらに、捕えられた音響信号は、主にトランジェントを含む。音響の正確な解析に対して、到来の方向の速い時間的バリエーションを解決することができ、信号成分のトランジェント特性を保存することができるシステムを持つことが有益であることを分かっている。

これらの目標は、音響時間ドメイン入力信号を変換するための高い時間分解能を有するフィルタバンク（例えば短い変換または短いブロック長を有するＳＴＦＴ）を用いて達成することができる。このようなフィルタバンクを用いるとき、システムのスペクトル分解能は低減される。これは、音響のＤＯＡが音響のトランジェント特性によって周波数に沿ってあまり変動しないので、拍手信号に対して問題がない。しかしながら、小さいスペクトル分解能は、個々の話し手を区別することができるように特定のスペクトル分解能が必要とされるダブルトークシナリオにおけるスピーチのような他の信号に対して問題があることが分かっている。正確なパラメータ推定は、音響入力信号（複数）または音響入力信号１０４の特性に従って、フィルタバンクの（またはフィルタバンクの対応する変換またはブロック長の）信号に依存するスイッチングを必要とする可能性があることが分かっている。

図９に示される空間コーダ９００は、フィルタバンク９１２の信号に依存するスイッチングを実行するまたはフィルタバンク９１２の変換計算ルールを選択する可能な実現手段を表す。フィルタバンク９１２によって音響入力信号（複数）または音響入力信号１０４を周波数表現（例えばＳＴＦＴドメインに）に変換する前に、入力信号（複数）または入力信号１０４は、信号特性判定器９０８の拍手検出器９１０に渡される。音響入力信号１０４は、時間ドメインにおいて拍手検出器９１０に渡される。信号特性判定器９０８の拍手検出器９１０は、判定された信号特性１１０（このケースでは、音響入力信号１０４が拍手のような信号に対応する成分を含むか否かをシグナルする）に基づいてフィルタバンク９１２を制御する。音響入力信号（複数）または音響入力信号１０４において拍手が検出された場合に、制御可能パラメータ推定器９００は、拍手の解析に対して適当であるフィルタバンクへ切替える、または言い換えれば、フィルタバンク９１２において変換計算ルールが選択される。拍手が存在しないケースでは、例えば、方向オーディオコーダ２００から知ることができる従来のフィルタバンクまたは言い換えれば従来の変換計算ルールが用いられる。音響入力信号１０４をＳＴＦＴドメイン（または他の周波数表現）に変換した後に、従来の方向オーディオ符号化処理を、（制御可能パラメータ推定器９０６のＢフォーマット演算ブロック９１４とパラメータ推定ブロック９１６を用いて）実行することができる。言い換えれば、空間パラメータ１０２を構成し、空間オーディオプロセッサ９００によって判定される、方向オーディオ符号化パラメータの判定は、Ｂフォーマット演算ブロック９１４とパラメータ推定ブロック９１６を用いて、図２に示された方向オーディオコーダ２００に記載されたように実行することができる。結果は、例えば、方向オーディオ符号化パラメータ、すなわち方向ψ（ｋ，ｎ）と拡散Ψ（ｋ，ｎ）である。

または言い換えると、空間オーディオプロセッサ９００は、拍手信号または拍手のような信号の場合にフィルタバンクを切替えることによって、方向オーディオ符号化パラメータの推定が改善されるコンセプトを提供する。

要するに、制御可能パラメータ推定器９０６は、第１の変換計算ルールが、周波数表現における音響入力信号の第２の変換計算ルールより高い時間分解能に対応し、第２の変換計算ルールが、周波数表現における音響入力信号の第１の変換計算ルールより高いスペクトル分解能に対応するように、構成される。

信号特性判定器９０８の拍手検出器９１０は、例えば、音響入力信号１０４が拍手のような信号を備える場合に、例えば、ユーザによって生成されたメタデータに基づいて判定することができる。

図９に示される空間オーディオプロセッサ９００は、ここでＳＡＭのフィルタバンクが信号特性判定器９０８の拍手検出器９１０によって制御されるという差異を有する同様の方法で、ＳＡＭ解析に適用することもできる。

本発明の更なる実施形態において、制御可能パラメータ推定器は、各パラメータ推定戦略に対して、制御可能パラメータ推定器が音響入力信号の空間パラメータのセットを判定するように、判定された信号特性と独立して異なるパラメータ推定戦略を用いて空間パラメータを判定することができる。制御可能パラメータ推定器は、判定された信号特性に従って、音響入力信号の空間パラメータとして、そしてそれ故に推定プロセスの結果として、判定された空間パラメータのセットからワンセットの空間パラメータを選択するように更に構成することができる。例えば、第１の可変空間パラメータ計算ルールは、各パラメータ推定戦略に対して音響入力信号の空間パラメータを判定し、第１のパラメータ推定戦略によって判定された空間パラメータのセットを選択することを備えることができる。
第２の可変空間パラメータ計算ルールは、各パラメータ推定戦略に対して音響入力信号の空間パラメータを判定し、第２のパラメータ推定戦略によって判定された空間パラメータのセットを選択することを備えることができる。

図１０は、本発明の実施形態かかる方法１０００のフロー図を示す。

音響入力信号に基づいて空間パラメータを提供する方法１０００は、音響入力信号の信号特性を判定するステップ１０１０を備える。

方法１０００は、判定された信号特性に従って可変空間パラメータ計算ルールを修正するステップ１０２０を更に備える。

方法１０００は、可変空間パラメータ計算ルールに従って音響入力信号の空間パラメータを計算するステップ１０３０を更に備える。

本発明の実施形態は、空間音響表現に対するシステムにおいて、音響入力信号、すなわちマイクロフォン信号の特性に基づいてパラメータ推定戦略を制御する方法に関する。

以下において、本発明の実施形態のいくつかの側面が要約される。

本発明の少なくともいくつかの実施形態は、音響多重チャンネルのオーディオ信号、すなわちマイクロフォン信号を受信するように構成される。音響入力信号から、本発明の実施形態は特定の信号特性を判定することができる。信号特性に基づいて、本発明の実施形態はベストフィットする信号モデルを選択することができる。信号モデルは、次にパラメータ推定戦略を制御することができる。制御されたまたは選択されたパラメータ推定戦略に基づいて、本発明の実施形態は与えられた音響入力信号に対してベストフィットする空間パラメータを推定することができる。

パラメータ音場記述の推定は、音響入力信号についての特定の仮説に依存する。しかしながら、この入力は、有意の時間分散を呈する可能性があり、従って一般的な時間不変モデルはしばしば不適切である。パラメータ符号化において、この問題は、信号特性を事前に識別し、次に時間変化する方法でベストの符号化戦略を選択することによって解決することができる。本発明の実施形態は、音響入力信号の信号特性を、事前でなく連続的に、例えばブロックワイズに、例えば周波数サブバンドと時間スロットに対して、または周波数サブバンドのサブセットおよび／または時間スロットのサブセットに対して判定する。本発明の実施形態は、この戦略を、方向オーディオ符号化（ＤｉｒＡＣ）または空間オーディオマイクロフォン（ＳＡＭ）のようなパラメータ空間オーディオ処理および／または空間オーディオ符号化に対する音響フロントエンドに適用することができる。

パラメータ空間オーディオ符号化におけるパラメータ推定に対して、マイクロフォン信号または他の音響入力信号に基づいて時間変化する信号依存データ処理戦略を用いることが、本発明の実施形態のアイデアである。

本発明の実施形態は、方向オーディオ符号化におけるパラメータ推定に主に焦点をおいて記載されているが、提案されたコンセプトは、空間オーディオマイクロフォンのような他のパラメータアプローチにも適用することができる。

本発明の実施形態は、空間音響に対して、音響入力信号に基づいて信号適応パラメータ推定を提供する。

本発明の異なる実施形態が記載されてきた。本発明のいくつかの実施形態は、入力信号の定常性インターバルに従ってパラメータ推定を実行する。本発明の更なる実施形態は、ダブルトークの状況に従ってパラメータ推定を実行する。本発明の更なる実施形態は、入力信号のＳＮ比に従ってパラメータ推定を実行する。本発明の更なる実施形態は、入力ＳＮ比に従って音響強度ベクトルの平均演算に基づいてパラメータ推定を実行する。本発明の更なる実施形態は、入力ＳＮ比に従って推定された方向パラメータの平均演算に基づいてパラメータ推定を実行する。本発明の更なる実施形態は、入力ＳＮ比に従って適切なフィルタバンクまたは適切な変換計算ルールを選択することによってパラメータ推定を実行する。本発明の更なる実施形態は、音響入力信号の音調性に従ってパラメータ推定を実行する。本発明の更なる実施形態は、拍手のような信号に従ってパラメータ推定を実行する。

空間オーディオプロセッサは、一般に、空間オーディオを処理し、パラメータ情報を生成するまたは処理する装置とすることができる。

実施変形例

いくつかの側面が装置の文脈において記載されてきたが、これらの側面は、対応する方法の記述をも表していることは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈において記載された側面は、対応する装置の対応するブロックまたはアイテムまたは特徴の記述をも表している。一部または全ての方法ステップは、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって（または用いて）実行することができる。いくつかの実施形態において、１つ以上の最も重要な方法ステップは、このような装置によって実行することができる。

本発明の実施形態は、特定の実施要求に従って、ハードウェアにおいてまたはソフトウェアにおいて実装することができる。実施は、その上に格納される電子的に読み込み可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）デジタル記憶媒体、例えばフロッピー（登録商標）ディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを用いて実行することができる。それ故に、デジタル記憶媒体は、コンピュータ読取可能とすることができる。

本発明にかかるいくつかの実施形態は、電子的に読込可能な制御信号を有し、本願明細書に記載された方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる、データキャリアを含む。

一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するとき、本発明の方法の１つを実行するために動作可能であるプログラムコードを有するコンピュータプログラム製品として実施することができる。プログラムコードは、例えば、機械読取可能なキャリア上に記憶することができる。

他の実施形態は、機械読取可能なキャリア上に記憶され、本願明細書に記載された方法の１つを実行するコンピュータプログラムを備える。

言い換えれば、本発明の方法の実施形態は、それ故に、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記載された方法の１つを実行するプログラムコードを有するコンピュータプログラムである。

発明の方法の更なる実施形態は、それ故に、その上に記録され、本願明細書に記載された方法の１つを実行するコンピュータプログラムを備えるデータキャリア（またはデジタル記憶媒体またはコンピュータ読取可能媒体）である。

発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の１つを実行するコンピュータプログラムを表しているデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、データ通信接続、例えばインターネットを介して伝送されるように構成することができる。

更なる実施形態は、本願明細書に記載された方法の１つを実行するように構成され、または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを備える。

更なる実施形態は、本願明細書に記載された方法の１つを実行するコンピュータプログラムがインストールされたコンピュータを備える。

いくつかの実施形態では、プログラマブルロジックデバイス（例えばフィールドプログラマブルゲートアレイ）を、本願明細書に記載された方法の機能の一部または全部を実行するために用いることができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本願明細書に記載された方法の１つを実行するために、マイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置によっても実行される。

上述した実施形態は、単に本発明の原理に対して説明されたものである。本願明細書に記載された構成および詳細の修正および変更は、他の当業者にとって明らかであると理解される。本発明は、それ故に、特許クレームのスコープのみによって制限され、本願明細書の実施形態の記述および説明によって提供された特定の詳細によって制限されないことを意図する。

Claims

音響入力信号（１０４）に基づいて空間パラメータ（１０２、ψ（ｋ，ｎ）、Ψ（ｋ，ｎ））を提供する空間オーディオプロセッサであって、
前記音響入力信号は、少なくとも１つの方向成分を備え、前記音響入力信号（１０４）の信号特性（１１０、７１０、８１０）を判定するように構成された、信号特性判定器（１０８、３０８、４０８、５０８、６０８、８０８、９０８）と、
前記音響入力信号（１０４）に対して、可変空間パラメータ計算ルールに従って前記空間パラメータ（１０２、ψ（ｋ，ｎ）、Ψ（ｋ，ｎ））を計算する、制御可能パラメータ推定器（１０６、３０６、４０６、５０６、６０６、６０６ａ、６０６ｂ、８０６、９０６）とを備え、
前記制御可能パラメータ推定器（１０６、３０６、４０６、５０６、６０６、６０６ａ、６０６ｂ、８０６、９０６）は、前記判定された信号特性（１１０、７１０、８１０）に従って、前記可変空間パラメータ計算ルールを修正するように構成され、
前記制御可能パラメータ推定器（４０６、５０６、９０６）は、前記判定された信号特性（１１０）に従って、前記空間パラメータ（１０２、Ψ（ｋ，ｎ）、ψ（ｋ，ｎ））を計算するための複数の空間パラメータ計算ルール（４１０、４１２）から１つの空間パラメータ計算ルール（４１０、４１２）を選択するように構成され、
前記制御可能パラメータ推定器（４０６、５０６）は、前記複数の空間パラメータ計算ルール（４１０、４１２）からの第１の空間パラメータ計算ルール（４１０）が、前記複数の空間パラメータ計算ルール（４１０、４１２）からの第２の空間パラメータ計算ルール（４１２）と異なるように構成され、前記第１の空間パラメータ計算ルール（４１０）と前記第２の空間パラメータ計算ルール（４１２）は、周波数サブバンドにおける複数の時間スロットに亘る時間平均演算と、時間スロットにおける複数の周波数サブバンドに亘る周波数平均演算と、時間平均演算および周波数平均演算と、いかなる平均演算もないものとからなるグループから選択され、
前記信号特性判定器（３０８）は、前記音響入力信号（１０４）の定常性インターバルを判定するように構成され、
前記制御可能パラメータ推定器（３０６）は、前記判定された定常性インターバルに従って、前記空間パラメータ（１０２、Ψ（ｋ，ｎ）、ψ（ｋ，ｎ））を計算するための平均演算期間が、比較的長い定常性インターバルに対して比較的長く、比較的短い定常性インターバルに対して比較的短いように、前記可変空間パラメータ計算ルールを修正するように構成された、
空間オーディオプロセッサ。
前記空間パラメータ（１０２）は、音響の方向、および／または音響の拡散、および／または音響の方向の統計的尺度を備えた、請求項１に記載の空間オーディオプロセッサ。
前記制御可能パラメータ推定器（１０６、３０６、４０６、５０６、６０６、６０６ａ、６０６ｂ、８０６、９０６）は、時間スロット（ｎ）と周波数サブバンド（ｋ）に対する拡散パラメータ（Ψ（ｋ，ｎ））および／または時間スロット（ｎ）と周波数サブバンド（ｋ）に対する到来の方向パラメータ（ψ（ｋ，ｎ））を備える方向オーディオ符号化パラメータとして、または空間オーディオマイクロフォンパラメータとして、空間パラメータ（１０２、ψ（ｋ，ｎ）、Ψ（ｋ，ｎ））を計算するように構成された、請求項１または２に記載の空間オーディオプロセッサ。
前記制御可能パラメータ推定器（３０６）は、前記音響入力信号（１０４）から、時間スロット（ｎ）と周波数サブバンド（ｋ）に対して、前記音響入力信号（１０４）の信号パラメータ（Ｉ_a（ｋ，ｎ））の少なくとも１つの時間平均演算に基づいて、前記空間パラメータ（１０２、Ψ（ｋ，ｎ））を計算するように構成され、
前記制御可能パラメータ推定器（３０６）は、前記判定された定常性インターバルに従って、前記音響入力信号（１０４）の前記信号パラメータ（Ｉ_a（ｋ，ｎ））の前記時間平均演算の平均演算期間を変化させるように構成された、
請求項１〜３のいずれかに記載の空間オーディオプロセッサ。
前記制御可能パラメータ推定器（３０６）は、ローパスフィルタを用いて、前記音響入力信号（１０４）の前記信号パラメータ（Ｉ_a（ｋ，ｎ））の前記時間平均演算を適用するように構成され、
前記制御可能パラメータ推定器（３０６）は、重みパラメータ（α）に基づいて、前記音響入力信号（１０４）の現在の信号パラメータと前記音響入力信号（１０４）の前の信号パラメータとの間の重みを、前記平均演算期間は前記重みパラメータ（α）に基づき、前記前の信号パラメータの重みと比較した前記現在の信号パラメータの重みが比較的短い定常性インターバルに対して比較的高く、前記前の信号パラメータの重みと比較した前記現在の信号パラメータの重みが比較的長い定常性インターバルに対して比較的低いように、調整するように構成された、
請求項４に記載の空間オーディオプロセッサ。
前記信号特性判定器（４０８）は、前記音響入力信号（１０４）が異なる音源からの成分を同時に備える場合に判定するように構成され、または、前記信号特性判定器（５０８）は、前記音響入力信号（１０４）の音調性を判定するように構成され、
前記制御可能パラメータ推定器（４０６、５０６）は、前記音響入力信号（１０４）が最大で１つの音源の成分を備えるとき、または、前記音響入力信号（１０４）の音調性が所定の音調性しきい値レベルより下にあるとき、複数の空間パラメータ計算ルール（４１０、４１２）から第１の空間パラメータ計算ルール（４１０）が選択され、前記音響入力信号（１０４）が同時に複数の音源の成分を備えるとき、または、前記音響入力信号（１０４）の音調性が所定の音調性しきい値レベルより上にあるとき、複数の空間パラメータ計算ルール（４１０、４１２）から第２の空間パラメータ計算ルール（４１２）が選択されるように、前記信号特性判定の結果に従って、前記複数の空間パラメータ計算ルール（４１０、４１２）から、空間パラメータ（１０２、Ψ（ｋ，ｎ）、ψ（ｋ，ｎ））を計算するための空間パラメータ計算ルール（４１０、４１２）を選択するように構成され、
前記第１の空間パラメータ計算ルール（４１０）は、第１の数の周波数サブバンド（ｋ）に亘る周波数平均演算を含み、前記第２の空間パラメータ計算ルール（４１２）は、第２の数の周波数サブバンド（ｋ）に亘る周波数平均演算を含むかまたは周波数平均演算を含まないものであって、
前記第１の数は、前記第２の数より大きい、
請求項１〜５のいずれかに記載の空間オーディオプロセッサ。
前記信号特性判定器（６０８）は、前記音響入力信号（１０４）のＳＮ比（１１０、７１０）を判定するように構成され、
前記制御可能パラメータ推定器（６０６、６０６ａ、６０６ｂ）は、周波数サブバンド（ｋ）における複数の時間スロットに亘る時間平均演算、時間スロット（ｎ）における複数の周波数サブバンド（ｋ）に亘る周波数平均演算、空間平均演算、またはそれらの組合せ適用するように構成され、
前記制御可能パラメータ推定器（６０６、６０６ａ、６０６ｂ）は、前記判定されたＳＮ比（１１０、７１０）に従って、前記時間平均演算の、前記周波数平均演算の、前記空間平均演算の、または前記それらの組合せの平均演算期間を、前記平均演算期間が前記音響入力信号の比較的低いＳＮ比（１１０、７１０）に対して比較的長いように、前記平均演算期間が前記音響入力信号（１０４）の比較的高いＳＮ比（１１０、７１０）に対して比較的短いように、変化させるように構成された、
請求項１〜６のいずれかに記載の空間オーディオプロセッサ。
前記制御可能パラメータ推定器（６０６ａ、６０６ｂ）は、前記時間平均演算を、複数の時間スロットと周波数サブバンド（ｋ）に亘って強度パラメータ（Ｉ_a（ｋ，ｎ））のサブセットに、または複数の時間スロットと周波数サブバンド（ｋ）に亘って到来の方向パラメータ（ψ（ｋ，ｎ））のサブセットに、適用するように構成され、
前記強度パラメータ（Ｉ_a（ｋ，ｎ））のサブセットにおける強度パラメータ（Ｉ_a（ｋ，ｎ））の数、または前記到来の方向パラメータ（ψ（ｋ，ｎ））のサブセットにおける到来の方向パラメータ（ψ（ｋ，ｎ））の数が、前記音響入力信号（１０４）の比較的高いＳＮ比（１１０、７１０）に対して比較的低く、前記強度パラメータ（Ｉ_a（ｋ，ｎ））のサブセットにおける強度パラメータ（Ｉ_a（ｋ，ｎ））の数、または前記到来の方向パラメータ（ψ（ｋ，ｎ））のサブセットにおける到来の方向パラメータ（ψ（ｋ，ｎ））の数が、前記音響入力信号（１０４）の比較的低いＳＮ比（１１０、７１０）に対して比較的高いように、前記強度パラメータ（Ｉ_a（ｋ，ｎ））のサブセットにおける強度パラメータ（Ｉ_a（ｋ，ｎ））の数、または前記到来の方向パラメータ（ψ（ｋ，ｎ））のサブセットにおける到来の方向パラメータ（ψ（ｋ，ｎ））の数が前記時間平均演算の平均演算期間に対応する、
請求項７に記載の空間オーディオプロセッサ。
前記信号特性判定器（６０８）は、前記音響入力信号（１０４）の各ＳＮ比パラメータが周波数サブバンドと時間スロットに関連する前記音響入力信号（１０４）の複数のＳＮ比パラメータとして、前記音響入力信号（１０４）のＳＮ比（１１０、７１０）を提供するように構成され、前記制御可能パラメータ推定器（６０６ａ、６０６ｂ）は、各目標ＳＮ比パラメータが周波数サブバンドと時間スロットに関連する複数の目標ＳＮ比パラメータとして、目標ＳＮ比（７１２）を受信するように構成され、
前記制御可能パラメータ推定器（６０６ａ、６０６ｂ）は、前記音響入力信号の現在のＳＮ比パラメータに従って、現在のＳＮ比パラメータ（１０２）が現在の目標ＳＮ比パラメータにマッチするように、前記時間平均演算の平均演算期間を変化させるように構成された、
請求項７または８に記載の空間オーディオプロセッサ。
前記信号特性判定器（９０８）は、前記音響入力信号（１０４）が拍手のような信号に対応するトランジェント成分を備える場合に判定するように構成され、
前記制御可能パラメータ推定器（９０６）は、前記音響入力信号（１０４）を変換計算ルールに基づいて時間ドメインから周波数表現に変換するように構成されたフィルタバンク（９１２）を備え、
前記制御可能パラメータ推定器（９０６）は、前記音響入力信号（１０４）が拍手のような信号に対応する成分を備えるとき、前記音響入力信号（１０４）を前記時間ドメインから周波数表現に変換する第１の変換計算ルールが複数の変換計算ルールから選択され、前記音響入力信号（１０４）が拍手のような信号に対応する成分を備えないとき、前記音響入力信号（１０４）を前記時間ドメインから周波数表現に変換する第２の変換計算ルールが複数の変換計算ルールから選択されるように、前記信号特性判定の結果に従って、前記音響入力信号（１０４）を時間ドメインから周波数表現に変換する変換計算ルールを複数の計算ルールから選択するように構成された、
請求項１〜９のいずれかに記載の空間オーディオプロセッサ。
音響入力信号に基づいて空間パラメータを提供する方法であって、
前記音響入力信号は、少なくとも１つの方向成分を備え、前記音響入力信号の信号特性を判定するステップ（１０１０）と、
前記判定された信号特性に従って、可変空間パラメータ計算ルールを修正するステップ（１０２０）と、
前記可変空間パラメータ計算ルールに従って、前記音響入力信号の空間パラメータを計算するステップ（１０３０）と、
を備え、
前記判定された信号特性（１１０）に従って、前記空間パラメータ（１０２、Ψ（ｋ，ｎ）、ψ（ｋ，ｎ））を計算するための複数の空間パラメータ計算ルール（４１０、４１２）から１つの空間パラメータ計算ルール（４１０、４１２）が選択され、
前記複数の空間パラメータ計算ルール（４１０、４１２）からの第１の空間パラメータ計算ルール（４１０）は、前記複数の空間パラメータ計算ルール（４１０、４１２）からの第２の空間パラメータ計算ルール（４１２）と異なり、前記第１の空間パラメータ計算ルール（４１０）と前記第２の空間パラメータ計算ルール（４１２）は、周波数サブバンドにおける複数の時間スロットに亘る時間平均演算と、時間スロットにおける複数の周波数サブバンドに亘る周波数平均演算と、時間平均演算および周波数平均演算と、いかなる平均演算もないものとからなるグループから選択され、
前記音響入力信号（１０４）の定常性インターバルが判定され、
前記判定された定常性インターバルに従って、前記空間パラメータ（１０２、Ψ（ｋ，ｎ）、ψ（ｋ，ｎ））を計算するための平均演算期間が、比較的長い定常性インターバルに対して比較的長く、比較的短い定常性インターバルに対して比較的短いように、前記可変空間パラメータ計算ルールが修正される、
方法。
コンピュータプログラムがコンピュータ上で実行されるとき、請求項１１に記載された方法を実行するプログラムコードを有する、コンピュータプログラム。