JP5706513B2 - 空間オーディオプロセッサおよび音響入力信号に基づいて空間パラメータを提供する方法 - Google Patents

空間オーディオプロセッサおよび音響入力信号に基づいて空間パラメータを提供する方法 Download PDF

Info

Publication number
JP5706513B2
JP5706513B2 JP2013501726A JP2013501726A JP5706513B2 JP 5706513 B2 JP5706513 B2 JP 5706513B2 JP 2013501726 A JP2013501726 A JP 2013501726A JP 2013501726 A JP2013501726 A JP 2013501726A JP 5706513 B2 JP5706513 B2 JP 5706513B2
Authority
JP
Japan
Prior art keywords
parameter
signal
input signal
spatial
acoustic input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013501726A
Other languages
English (en)
Other versions
JP2013524267A (ja
Inventor
オリヴァー ティールガルト
オリヴァー ティールガルト
ファビアン キュッヒ
ファビアン キュッヒ
リヒャルト シュルツ−アムリング
リヒャルト シュルツ−アムリング
マルクス カリンガー
マルクス カリンガー
ガルド ジョヴァンニ デル
ガルド ジョヴァンニ デル
アヒム クンツ
アヒム クンツ
ディルク メーネ
ディルク メーネ
ビーレ プルッキ
ビーレ プルッキ
ミッコ−ヴィレ ライティネン
ミッコ−ヴィレ ライティネン
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2013524267A publication Critical patent/JP2013524267A/ja
Application granted granted Critical
Publication of JP5706513B2 publication Critical patent/JP5706513B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Description

本発明の実施形態は、音響入力信号に基づいて空間パラメータを提供する空間オーディオプロセッサを構築する。本発明の更なる実施形態は、音響入力信号に基づいて空間パラメータを提供する方法を構築する。本発明の実施形態は、例えばマイクロフォン録音に基づく空間音響の音響解析、パラメータ記述および再生の分野に関係することができる。
空間音響録音は、多重のマイクロフォンによって、再生側でリスナーが録音位置に存在したように音像を認知するように音場を捕えることを意図する。空間音響録音に対する標準アプローチは、簡単なステレオマイクロフォン、または、例えばアンビソニックにおいて用いられるBフォーマットマイクロフォンのような指向性マイクロフォンのより精巧な組合せを用いる。一般に、これらの方法は、コインシデントマイクロフォン技術と称される。
代替として、音場のパラメータ表現に基づく方法を適用することができ、それはパラメータ空間オーディオプロセッサと称される。近年、空間オーディオの解析、パラメータ記述および再生に対するいくつかの技術が提案されている。各システムは、パラメータ記述のタイプ、必要な入力信号のタイプ、特定のスピーカセットアップからの依存および独立などに関して、ユニークな利点および欠点を有している。
空間音響の効率的なパラメータ記述の例は、方向オーディオ符号化(DirAC)(非特許文献1)によって与えられる。DirACは、空間音響の音響解析とパラメータ記述(DirAC解析)、ならびにその再生(DirAC合成)へのアプローチを表す。DirAC解析は、入力として多重マイクロフォン信号を取り入れる。空間音響の記述は、多数の周波数サブバンドに対して、1つまたはいくつかのダウンミックスオーディオ信号と、音響の方向および拡散を含むパラメータサイド情報に関して提供される。後者のパラメータは、録音された音場がどれくらい拡散するかを記述する。さらに、拡散は、方向推定に対して信頼性尺度として用いることができる。他のアプリケーションは、空間オーディオ信号の方向依存処理(非特許文献2)から構成される。パラメータ表現に基づいて、空間オーディオは任意のスピーカセットアップによって再生することができる。さらに、DirAC解析は、多重チャンネル空間オーディオ、例えば、MPEGサラウンドの符号化、伝送および再生が可能なパラメータ符号化システムに対する音響フロントエンドとみなすことができる。
空間音場解析への他のアプローチは、いわゆる空間オーディオマイクロフォン(SAM)(非特許文献3)によって表される。SAMは、入力としてコインシデント指向性マイクロフォンの信号を取り入れる。DirACと同様に、SAMは、拡散音響成分の推定と共に、音場のパラメータ記述に対して音響のDOA(DOA:到来の方向)を判定する。
DirACおよびSAMのような空間オーディオの録音および解析のためのパラメータ技術は、特定の音場パラメータの推定に依存する。これらのアプローチのパフォーマンスは、従って、音響の到来方向または音場の拡散のような空間キューパラメータの推定パフォーマンスに強く依存している。
一般に、空間キューパラメータを推定するとき、オーディオ処理に対して、最高の(すなわち最も効率的または最も正確な)アルゴリズムを使用するために、音響入力信号についての特定の仮定(例えば定常性についてまたは音調性について)をすることができる。伝統的に、この目的に対して単一の時間不変信号モデルを定義することができる。しかしながら、共通に起こる問題は、異なるオーディオ信号が、オーディオ入力を記述する一般的な時間不変モデルがしばしば不適切であるような有意の時間変化を呈することができることである。特に、オーディオの処理に対して単一の時間不変信号モデルを考慮するとき、適用されたアルゴリズムのパフォーマンスを低下させるモデルミスマッチを起こす可能性がある。
本発明の実施形態は、音響入力信号に対して、音響入力信号の時間変化または時間非定常性によって生じるモデルミスマッチのより小さい空間パラメータを提供することを目的とする。
V. Pulkki:方向オーディオ符号化による空間音響再生、AESジャーナル、第55巻、第6号、2007年 M. Kallinger他:方向オーディオ符号化のための空間フィルタリングアプローチ、第126回AES大会、ミュンヘン、2009年5月 C.Faller:空間オーディオコーダのためのマイクロフォンフロントエンド、第125回AES国際会議予稿集、サンフランシスコ、2008年10月 O. Thiergart他:方向オーディオ符号化パラメータに基づく、反響する環境における音源の位置決め、127回AES大会、NY、2009年10月 R.Schultz‐Amling他:方向オーディオ符号化を用いた空間オーディオの解析と再生のための平面マイクロフォンアレイ処理、124回AES大会、アムステルダム、オランダ、2008年5月 S.MollaとB. Torresani:オーディオ信号のローカルトランジェント性の決定、IEEE信号処理会報、第11巻、第7号、2007年7月
この目的は、請求項1にかかる空間オーディオプロセッサ、請求項14にかかる音響入力信号に基づいて空間パラメータを提供する方法、および請求項15にかかるコンピュータプログラムによって解決される。
本発明の実施形態は、音響入力信号に基づいて空間パラメータを提供する空間オーディオプロセッサを構築する。空間オーディオプロセッサは、信号特性判定器と制御可能パラメータ推定器を備える。信号特性判定器は、音響入力信号の信号特性を判定するように構成される。制御可能パラメータ推定器は、音響入力信号に対して、可変空間パラメータ計算ルールに従って空間パラメータを計算するように構成される。パラメータ推定器は、判定された信号特性に従って、可変空間パラメータ計算ルールを修正するように更に構成される。
本発明の実施形態のアイデアは、音響入力信号に基づいて空間パラメータを提供する空間オーディオプロセッサを、空間パラメータを計算するための計算ルールが音響入力信号の信号特性に基づいて修正されるとき、音響入力信号の時間変化によって生じるモデルミスマッチを低減させるように構築することができることである。音響入力信号の信号特性が判定され、この判定された信号特性に基づいて音響入力信号に対する空間パラメータが計算されるとき、モデルミスマッチを低減できることが分かっている。
言い換えれば、本発明の実施形態は、例えば前処理ステップ(信号特性判定器)において、音響入力信号の特性(信号特性)を判定し、次に現在の状況(現在の信号特性)に最もフィットする信号モデル(例えば空間パラメータ計算ルールまたは空間パラメータ計算ルールのパラメータ)を識別することによって、音響入力信号の時間変化によって生じるモデルミスマッチの問題を取り扱うことができる。この情報は、次に空間パラメータを計算するための最良のパラメータ推定戦略(音響入力信号の時間変化に関して)を選択することができるパラメータ推定器に供給することができる。本発明の実施形態の利点は、それ故に、有意に低減されたモデルミスマッチによって、パラメータフィールド記述(空間パラメータ)を得ることができることである。
音響入力信号は、例えば、1つ以上のマイクロフォン、例えば、マイクロフォンアレイまたはBフォーマットマイクロフォンによって計測される信号とすることができる。異なるマイクロフォンは、異なる指向性を有することができる。音響入力信号は、例えば時間または周波数ドメイン(例えばSTFTドメイン、STFT:短時間フーリエ変換)において、または言い換えれば、時間表現または周波数表現のいずれかにおいて、例えば、音圧「P」または特定の速度「U」とすることができる。音響入力信号は、例えば3つの異なる(たとえば直交する)方向における成分(例えばx成分、y成分およびz成分)と、全方向成分(例えばw成分)を備えることができる。さらに、音響入力信号は、3つの方向の成分のみを含み、全方向成分を含まないことができる。さらに、音響入力信号は、全方向成分のみを備えることができる。さらに、音響入力信号は、2つの方向成分(例えばx成分とy成分、x成分とz成分、またはy成分とz成分)と、全方向成分を備えるまたは全方位成分を備えないことができる。さらに、音響入力信号は、1つの方向成分(例えばx成分、y成分、またはz成分)と、全方向成分を備えるまたは全方位成分を備えないことができる。
音響入力信号、例えばマイクロフォン信号から、信号特性判定器によって判定される信号特性は、例えば:時間、周波数、空間に関する定常性インターバル;ダブルトークまたは多重音響ソースの存在;音調性またはトランジェントの存在;音響入力信号のSN比;または拍手のような信号の存在とすることができる。
拍手のような信号は、ここでは、例えば異なる方向に、トランジェントの速い時間シーケンスを備える信号として定義される。
信号特性判定器によって集められる情報は、例えば、方向オーディオ符号化(DirAC)または空間オーディオマイクロフォン(SAM)において、制御可能パラメータ推定器を制御し、例えば、現在の状況(音響入力信号の現在の信号特性)に最もフィットする推定器戦略または推定器セッティングを選択するために(または言い換えれば、可変空間パラメータ計算ルールを修正するために)用いることができる。
本発明の実施形態は、両方のシステム、空間オーディオマイクロフォン(SAM)と方向オーディオ符号化(DirAC)の両方のシステム、またはその他のいかなるパラメータシステムに対しても、類似した方法で適用することができる。以下において、方向オーディオ符号化解析に主な焦点が置かれる。
本発明のいくつかの実施形態によれば、制御可能パラメータ推定器は、空間パラメータを、時間スロットと周波数サブバンドに対する拡散パラメータおよび/または時間スロットと周波数サブバンドに対する到来の方向パラメータを含む方向オーディオ符号化パラメータとして、または空間オーディオマイクロフォンパラメータとして計算するように構成することができる。
以下において、方向オーディオ符号化および空間オーディオマイクロフォンは、例えば到来の方向および音響の拡散のような空間パラメータについて動作するシステムに対する音響フロントエンドと考えられる。本発明のコンセプトを他の音響フロントエンドにも適用することは正攻法であることに留意すべきある。方向オーディオ符号化と空間オーディオマイクロフォンは、両方とも、空間音響を記述するために音響入力信号から取得される特定の(空間)パラメータを提供する。伝統的に、方向オーディオ符号化および特別なオーディオマイクロフォンのような音響フロントエンドによって空間オーディオを処理するとき、音響入力信号に対する単一の一般的モデルが定義され、最適な(またはほとんど最適な)パラメータ推定器を導き出すことができる。推定器は、モデルによって考慮される根本的な仮定に合致する限り、要求通りに実行する。前述したように、これがそのケースでない場合、通常は推定においてシビアな誤差につながるモデルミスマッチが起こる。このようなモデルミスマッチは、音響入力信号が通常は非常に時間変化するので、繰り返し起こる問題を表す。
本発明にかかる実施形態は、以下の同封される図面を参照して記載される。
本発明の実施形態にかかる空間オーディオプロセッサの概略ブロック図を示す。 引用例としての方向オーディオコーダの概略ブロック図を示す。 引用例としての方向オーディオコーダの概略ブロック図を示す。 本発明の更なる実施形態にかかる空間オーディオプロセッサの概略ブロック図を示す。 本発明の更なる実施形態にかかる空間オーディオプロセッサの概略ブロック図を示す。 本発明の更なる実施形態にかかる空間オーディオプロセッサの概略ブロック図を示す。 本発明の実施形態にかかる空間オーディオプロセッサにおいて用いることができるパラメータ推定器の概略ブロック図を示す。 本発明の実施形態にかかる空間オーディオプロセッサにおいて用いることができるパラメータ推定器の概略ブロック図を示す。 本発明の更なる実施形態にかかる空間オーディオプロセッサの概略ブロック図を示す。 本発明の更なる実施形態にかかる空間オーディオプロセッサの概略ブロック図を示す。 本発明の更なる実施形態にかかる方法のフロー図を示す。
本発明の実施形態が付随する図面を用いて更に詳細に説明される前に、同じあるいは機能的に等しい要素は、同じ参照符号によって提供され、これらの要素の反復記述は省略されることが指摘される。同じ参照符号によって提供される要素の記述は、それ故に相互に交換可能である。
図1にかかる空間オーディオプロセッサ
以下において、空間オーディオプロセッサ100が、空間オーディオプロセッサの概略ブロック図を示す図1を参照して記載される。音響入力信号104(あるいは複数の音響入力信号104)に基づいて空間パラメータ102あるいは空間パラメータの推定102を提供する空間オーディオプロセッサ100は、制御可能パラメータ推定器106と信号特性判定器108を備える。信号特性判定器108は、音響入力信号104の信号特性110を判定するように構成される。制御可能パラメータ推定器106は、可変空間パラメータ計算ルールに従って音響入力信号104に対する空間パラメータ102を計算するように構成される。制御可能パラメータ推定器106は、判定された信号特性110に従って可変空間パラメータ計算ルールを修正するように更に構成される。
言い換えれば、制御可能パラメータ推定器106は、音響入力信号の特性あるいは音響入力信号104に従って制御される。
音響入力信号104は、前述のように、方向成分および/または全方向成分を備えることができる。適合する信号特性110は、すでに言及されたように、例えば時間、周波数、音響入力信号104の空間、音響入力信号104におけるダブルトークまたは多重音源の存在、音響入力信号104内の音調性またはトランジェントの存在、拍手の存在、または音響入力信号104のSN比に関する定常性インターバルとすることができる。適合する信号特性のこの列挙は、まさしく信号特性判定器108が判定することができる信号特性の例である。本発明の更なる実施形態によれば、信号特性判定器108は、音響入力信号104の(言及されない)他の信号特性を判定することもでき、制御可能パラメータ推定器106は、音響入力信号104のこれらの他の信号特性に基づいて可変空間パラメータ計算ルールを修正することができる。
制御可能パラメータ推定器106は、空間パラメータ102を、時間スロットnと周波数サブバンドkに対する拡散パラメータΨ(k,n)および/または時間スロットnと周波数サブバンドkに対する到来の方向パラメータψ(k,n)を備える方向オーディオ符号化パラメータとして、または、例えば時間スロットnと周波数サブバンドkに対する空間オーディオマイクロフォンパラメータとして計算するように構成することができる。
制御可能パラメータ推定器106は、DirACまたはSAMよりも他のコンセプトを用いて空間パラメータ102を計算するように更に構成することができる。DirACパラメータおよびSAMパラメータの計算は、単に実施例として理解される。制御可能パラメータ推定器は、例えば、空間パラメータ102を、空間パラメータが音響の方向、音響の拡散、または音響の方向の統計尺度を備えるように計算するように構成することができる。
音響入力信号104は、例えば時間ドメインまたは(短時間)周波数ドメイン、例えばSTFTドメインにおいて提供することができる。
例えば、時間ドメインにおいて提供される音響信号104は、それぞれが時間上で複数の音響入力サンプルを備える複数の音響オーディオストリームx1(t)〜xN(t)を備えることができる。音響入力ストリームのそれぞれは、例えば、異なるマイクロフォンから提供することができ、異なる観察方向に対応することができる。例えば、第1の音響入力ストリームx1(t)は、第1の方向(例えばx方向)に対応することができ、第2の音響入力ストリームx2(t)は、第1の方向に直交する第2の方向(例えばy方向)に対応することができ、第3の音響入力ストリームx3(t)は、第1の方向および第2の方向に直交する第3の方向(例えばz方向)に対応することができ、第4の音響入力ストリームx4(t)は、全方向成分とすることができる。これらの異なる音響入力ストリームは、異なるマイクロフォンから、例えば直交する方位において録音することができ、AD変換器を用いてデジタル化することができる。
本発明の更なる実施形態によれば、音響入力信号104は、周波数表現、例えばSTFTドメインのような時間周波数ドメインにおいて音響入力ストリームを備えることができる。例えば、音響入力信号104は、特定の速度ベクトルU(k,n)と音圧ベクトルP(k,n)を備えるBフォーマットにおいて提供することができる(ここで、kは周波数サブバンドを示し、nは時間スロットを示す)。特定の速度ベクトルU(k,n)は、音響入力信号104の方向成分であり、音圧P(k,n)は、音響入力信号104の全方向成分を表す。
前述したように、制御可能パラメータ推定器106は、空間パラメータ102を、方向オーディオ符号化パラメータとして、または空間オーディオマイクロフォンパラメータとして提供するように構成することができる。以下において、従来の方向オーディオコーダが参照例として示される。このような従来の方向オーディオコーダの概略ブロック図が図2に示される。
図2にかかる従来の方向オーディオ
図2は、方向オーディオコーダ200の概略ブロック図を示す。方向オーディオコーダ200は、Bフォーマット推定器202を備える。Bフォーマット推定器202は、フィルタバンクを備える。方向オーディオコーダ200は、方向オーディオ符号化パラメータ推定器204を更に備える。方向オーディオ符号化パラメータ推定器204は、エネルギー解析を実行するエネルギー解析器206を備える。
さらにまた、方向オーディオ符号化パラメータ推定器204は、方向推定器208と拡散推定器210を備える。
方向オーディオ符号化(DirAC)(非特許文献1)は、空間音響の解析と再生に対して、効率的で、知覚的に動機付けられたアプローチを表す。DirAC解析は、ダウンミックスオーディオ信号と付加的なサイド情報、例えば音響の到来の方向(DOA)と音場の拡散に関する音場のパラメータ記述を提供する。DirACは、人間の聴覚に関連する特徴を考慮に入れる。例えば、両耳間の時間差(ITD)と両耳間のレベル差(ILD)は、音響のDOAによって記述することができると仮定する。同様に、両耳間のコヒーレンス(IC)は、音場の拡散によって表現することができると仮定される。DirAC解析の出力から、音響再生システムは、スピーカの任意のセットによるオリジナルの空間インプレッションを有する音響を再生するために、特徴を生成することができる。拡散は、推定されたDOAに対する信頼性尺度と考えることもできる点に留意すべきである。拡散が高いほど、DOAの信頼性は低く、その逆も同様である。この情報は、音源位置決め(非特許文献4)のような多くのDirACベースのツールによって用いることができる。本発明の実施形態は、音響再生よりむしろDirACの解析部分に焦点を置いている。
DirAC解析において、パラメータは、Bフォーマット推定器202によって提供されるBフォーマット信号に基づいて、音場のエネルギー解析器206によって実行されるエネルギー解析を介して推定される。Bフォーマット信号は、音圧P(k,n)と、直交座標系のx、yおよびz方向に整列した1つ、2つ、または3つのダイポール信号に対応する全方向信号から構成される。ダイポール信号は、粒子速度ベクトルU(k,n)の要素に対応する。DirAC解析は、図2に表される。時間ドメインにおけるマイクロフォン信号、すなわちx1(t)、x2(t)、…、xN(t)は、Bフォーマット推定器202に提供される。これらの時間ドメインのマイクロフォン信号は、以下において「時間ドメインにおける音響入力信号」と称することができる。Bフォーマット推定器202は、短時間フーリエ変換(STFT)または他のフィルタバンク(FB)を含み、短時間周波数ドメインにおけるBフォーマット信号、すなわち音圧P(k,n)と粒子速度ベクトルU(k,n)を計算する(ここで、kとnは、それぞれ周波数インデックス(周波数サブバンド)と時間ブロックインデックス(時間スロット)を示す)。信号P(k,n)とU(k,n)は、以下において「短時間周波数ドメインにおける音響入力信号」と称することができる。Bフォーマット信号は、非特許文献5において解説されたようなマイクロフォンアレイによる計測から取得することができる。エネルギー解析において、アクティブな音響強度ベクトルIa(k,n)は、以下の式を用いて、異なる周波数バンドに対して分離して推定することができる。
Figure 0005706513
ここで、Re[.] は、実数部を与え、U*(k,n)は、粒子速度ベクトルU(k,n)の複素共役を示す。
以下において、アクティブな音響強度ベクトルは、強度パラメータとも呼ばれる。
Figure 0005706513
Figure 0005706513
ここで、|(.)|は、ベクトルのノルムを示し、E(.) は、期待値を返す。実際のアプリケーションにおいて、期待値E(.) は、1つ以上の特定の次元、例えば、時間、周波数、または空間に沿った有限の平均演算によって近似することができる。
式2における期待値E(.) は、特定の次元に沿った平均演算によって近似できることが分かっている。この問題に対して、平均演算は、時間(時間平均演算)、周波数(スペクトル平均演算)または空間(空間平均演算)に沿って実行することができる。空間平均演算は、例えば、式2におけるアクティブな音響強度ベクトルIa(k,n)が異なるポイントに配置された多重のマイクロフォンアレイによって推定されることを意味する。例えば、部屋内の4つの異なるポイントにおいて、4つの異なる(マイクロフォン)アレイを配置することができる。結果として、各時間周波数ポイント(k,n)に対して4つの強度ベクトルIa(k,n)を持ち、期待値オペレータE(.) に対する近似を取得するために平均化する(例えばスペクトル平均演算と同様に)ことができる。
例えば、いくつかのnに亘って時間平均演算を用いるとき、次式で与えられる拡散パラメータに対する推定値Ψ(k,n)が取得される。
Figure 0005706513
ここで、式3において必要であるような、時間平均演算を実現する共通の方法が存在する。1つの方法は、次式で与えられる、特定の数Nの時間インスタンスnに亘るブロック平均演算(インターバル平均演算)である。
Figure 0005706513
ここで、y(k,n)は、平均化される量、例えば、Ia(k,n)または|Ia(k,n)|である。時間平均演算を演算する第2の方法は、通常はその効率性のためにDirACにおいて用いられる、無限インパルス応答(IIR)フィルタを適用することである。例えば、フィルタ係数α∈[0、1]を有する一次ローパスフィルタを用いるとき、特定の信号y(k,n)のnに沿った時間平均演算は、次式によって取得することができる。
Figure 0005706513
Figure 0005706513
時間平均演算を用いる他に、式2における期待値オペレータは、いくつかのまたは全ての周波数サブバンドkに沿ったスペクトル平均演算によって近似することもできることが分っている。この方法は、後の処理において異なる周波数サブバンドに対して独立の拡散推定がない場合、例えば、単一の音源のみが存在する場合にのみ、適用可能である。それ故に、通常は実際に拡散を計算する最も適当な方法は、時間平均演算を使用することとすることができる。
一般に、式2の1つとして期待値オペレータを平均演算プロセスによって近似するとき、平均化される量に関して考慮される信号の定常性が仮定される。より長く平均演算されると、すなわち、より多くのサンプルが考慮されるほど、通常はより正確な結果となる。
以下において、空間オーディオマイクロフォン(SAM)解析も簡単に説明される。
空間オーディオマイクロフォン(SAM)解析
DirACと同様に、SAM解析(非特許文献3)は、空間音響のパラメータ記述を提供する。音場表現は、ダウンミックスオーディオ信号とパラメータサイド情報、すなわち音響のDOAと、直接および拡散音響成分のレベルの推定に基づいている。SAM解析への入力は、多重コインシデント指向性マイクロフォン、例えば、同じポイントに配置される2つのカージオイドセンサによって計測される信号である。SAM解析の基本は、入力信号のパワースペクトル密度(PSD)とクロススペクトル密度(CSD)である。
例えば、X1(k,n)とX2(k,n)を、2つのコインシデント指向性マイクロフォンによって計測される時間周波数ドメインの信号とする。両方の入力信号のPSDは、次式によって判定される。
Figure 0005706513
両入力の間のCSDは、次式の相互相関によって与えられる。
Figure 0005706513
SAMは、計測された入力信号X1(k,n)とX2(k,n)が直接音響と拡散音響の重畳を表し、直接音響と拡散音響は相関関係がないと仮定する。この仮定に基づいて、計測された直接音響と計測された拡散音響のPSDを、各センサに対して式5aと式5bから導き出すことができることが、非特許文献3において示されている。直接音響のPSDの間の比から、次にマイクロフォンの方向応答の事前知識によって、音響のDOA ψ(k,n)を判定することが可能である。
実際のアプリケーションにおいて、式5aと式5bにおける期待値E[.] は、時間および/またはスペクトル平均演算によって近似することができることが分かっている。これは、前節で記載されたDirACにおける拡散演算と同様である。同様に、平均演算は、例えば式4または式5を用いて実行することができる。例を挙げると、CSDの推定は、次式による再帰的時間平均演算に基づいて実行することができる。
Figure 0005706513
前節において述べたように、式5aと式5bの1つのような期待値オペレータを平均演算プロセスによって近似するとき、平均化される量に関して考慮される信号の定常性が仮定されなければならない。
以下において、定常性インターバルに従って時間変化するパラメータ推定を実行する本発明の実施形態が説明される。
図3にかかる空間オーディオプロセッサ
図3は、本発明の一実施形態にかかる空間オーディオプロセッサ300を示す。空間オーディオプロセッサ300の機能は、図1にかかる空間オーディオプロセッサ100の機能と同様とすることができる。空間オーディオプロセッサ300は、図3に示される追加の特徴を備えることができる。空間オーディオプロセッサ300は、制御可能パラメータ推定器306を備え、その機能は図1にかかる制御可能パラメータ推定器106の機能と同様とすることができ、以下に記載される追加の特徴を備えることができる。空間オーディオプロセッサ300は、信号特性判定器308を更に備え、その機能は図1にかかる信号特性判定器108の機能と同様とすることができ、以下に記載される追加の特徴を備えることができる。
信号特性判定器308は、例えば定常性インターバル判定器310を用いて、判定された信号特性110を構成する音響入力信号104の定常性インターバルを判定するように構成することができる。パラメータ推定器306は、判定された信号特性110、すなわち判定された定常性インターバルに従って、可変パラメータ計算ルールを修正するように構成することができる。パラメータ推定器306は、空間パラメータ102を計算するための平均演算期間または平均演算長が、比較的長い定常性インターバルに対して比較的長く(高く)、比較的短い定常性インターバルに対して比較的短い(低い)ように、可変パラメータ計算ルールを修正するように構成することができる。平均演算長は、例えば、定常性インターバルに等しくすることができる。
言い換えれば、空間オーディオプロセッサ300は、音響信号入力104または音響信号入力(複数)の変化する定常性のインターバルを考慮することによって、方向オーディオ符号化における拡散推定を改善するコンセプトを構築する。
音響入力信号104の定常性インターバルは、例えば、音響入力信号104の音源の移動が全く起こらない(または単にわずかに小さい)時間期間を定義することができる。一般に、音響入力信号104の定常性は、音響入力信号104の特定の信号特性が時間に沿って一定である時間期間を定義することができる。信号特性は、例えば、信号エネルギー、空間拡散、音調性、S/N比および/またはその他とすることができる。空間パラメータ102を計算するための音響入力信号104の定常性インターバルを考慮することによって、空間パラメータ102を計算するための平均演算長は、音響入力信号104を表現する空間パラメータ102の精度を改善することができるように、修正することができる。例えば、音響入力信号104の音源が、より短い定常性インターバルに対してより、より長いインターバルに対して移動されなかったことを意味する、より長い定常性インターバルに対して、より長い時間的(または時間)平均演算を適用することができる。それ故に、少なくともほとんど最適な(またはさらに場合によって最適な)空間パラメータ推定は、制御可能パラメータ推定器306によって、音響入力信号104の定常性インターバルに従って、(常に)実行することができる。
制御可能パラメータ推定器306は、例えば、STFTドメインにおいて、周波数サブバンドkと時間スロットまたは時間ブロックnに対する拡散パラメータΨ(k,n)を提供するように構成することができる。制御可能パラメータ推定器306は、STFTドメインにおいて、例えば音響入力信号104の強度パラメータIa(k,n)の時間平均演算に基づいて、拡散パラメータΨ(k,n)を計算するための拡散推定器312を備えることができる。さらにまた、制御可能パラメータ推定器306は、音響入力信号104のエネルギー解析を実行し、強度パラメータIa(k,n)を判定するため、エネルギー解析器314を備えることができる。強度パラメータIa(k,n)は、アクティブな音響強度ベクトルとして指定することもでき、式1に従ってエネルギー解析器314によって計算することができる。
それ故に、STFTドメインにおいて、例えば周波数サブバンドkと時間スロットnに対する音圧P(k,n)と特定の速度ベクトルU(k,n)を備えるBフォーマットにおいて、音響入力信号104を提供することもできる。
拡散推定器312は、例えば、同じ周波数サブバンドkの、音響入力信号104の強度パラメータIa(k,n)の時間平均演算に基づいて、拡散パラメータΨ(k,n)を計算することができる。拡散推定器312は、式3に従って拡散パラメータΨ(k,n)を計算することができ、多くの強度パラメータと、それ故に平均演算長を、拡散推定器312によって、判定された定常性インターバルに従って変えることができる。
数値例として、定常性インターバル判定器310によって比較的長い定常性インターバルが判定された場合、拡散推定器312は、強度パラメータIa(k,n−10)〜Ia(k,n−1)に亘って強度パラメータIa(k,n)の時間平均演算を実行することができる。定常性インターバル判定器310によって判定される比較的短い定常性インターバルに対して、拡散推定器312は、強度パラメータIa(k,n−4)〜Ia(k,n−1)に対する強度パラメータIa(k,n)の時間平均演算を実行することができる。
上記から分るように、拡散推定器312によって適用される時間平均演算の平均演算長は、時間平均演算に対して使用される強度パラメータIa(k,n)の数に対応する。
言い換えれば、方向オーディオ符号化の拡散推定は、時間を音響入力信号(複数)または音響入力信号104の時間不変定常性インターバル(コヒーレンス時間とも呼ばれる)を考慮することによって改善される。前に説明されたように、実際に拡散パラメータΨ(k,n)を推定する一般的な方法は、アクティブな強度ベクトルIa(k,n)の時間平均演算を備える式3を用いることである。最適な平均演算長は、音響入力信号(複数)または音響入力信号104の時間定常性に依存することが分かっている。平均演算長が定常性インターバルに等しいように選択されたとき、最も正確な結果を得ることができることが分かっている。
伝統的に、従来の方向オーディオコーダ200によって示されるように、最適なパラメータ推定戦略が次に定められる音響入力信号に対して、一般的な時間不変モデルが定義され、それはこのケースでは最適な時間平均演算長を意味する。拡散推定に対して、音響入力信号は、通常は、特定の時間インターバル内で、例えば20msに対して、時間定常性を所持すると仮定される。言い換えれば、考慮される定常性インターバルは、いくつかの入力信号に対して代表的な一定値にセットされる。仮定された正常性インターバルから、最適な時間平均演算戦略、例えば、式5に示されたようなIIR平均演算を用いるときはαに対する最良値が、または式4に示されたようなブロック平均演算を用いるときは最良のNが、次に導き出される。
しかしながら、異なる音響入力信号は、通常は異なる定常性インターバルによって特徴づけられることが分かっている。従って、音響入力信号に対して時間不変モデルを仮定する伝統的な方法は保有しない。言い換えれば、入力信号が推定器によって仮定されるものと異なる定常性インターバルを呈するとき、劣等なパラメータ推定に帰着するかも知れないモデルミスマッチに陥る可能性がある。
それ故に、提案された新規なアプローチ(例えば空間オーディオプロセッサ300において実現される)は、図3において視覚化されるように、音響入力信号104、すなわちBフォーマット信号の定常性インターバルが、前処理ステップにおいて(信号特性判定器308によって)判定される:拡散推定に対して、実際の信号特性に従ってパラメータ推定戦略(可変空間パラメータ計算ルール)を適応させる。この情報から(判定された定常性インターバルから)、拡散推定器312によって、最良の(または場合によってはほぼ最良の)時間平均演算長、αに対するまたはNに対する最良の(または場合によってはほぼ最良の)値が選択され、それから(空間)パラメータ計算が実行される。
DirACにおける信号適応拡散推定の他に、非常に類似した方法でSAMにおける方向推定を改善することが可能であることを述べなければならない。事実、式5aと式5bにおける音響入力信号のPSDおよびCSDの演算は、また、時間平均演算プロセスによって(例えば式4または式5を用いて)期待値オペレータを近似することを必要とする。前に説明したように、平均演算長が音響入力信号の定常性インターバルに対応するとき、最も正確な結果を得ることができる。これは、最初に音響入力信号の定常性インターバルを判定し、次にこの情報から最良の平均演算長を選択することによって、SAM解析を改善することができることを意味する。音響入力信号の定常性インターバルと、対応する最適平均化フィルタは、以下で述べるように判定することができる。
以下において、音響入力信号104の定常性インターバルを判定する例示的なアプローチが提示される。この情報から、次に、式3おいて示された拡散演算に対する最適な時間平均演算長が選択される。
定常性インターバル判定
以下において、音響入力信号(例えば音響入力信号104)の定常性インターバル、ならびに対応する時間平均演算をもたらす最適なIIRフィルタ係数α(例えば式5において用いられた)を判定するための可能な方法が記載される。以下に記載される定常性インターバルの判定は、信号特性判定器308の定常性インターバル判定器310によって実行することができる。提示された方法は、音響入力信号104の定常性インターバルに従って拡散(パラメータ)Ψ(k,n)を正確に推定するために、式3を用いることを可能にする。Bフォーマット信号の一部である周波数ドメインの音圧P(k,n)は、音響入力信号104とみなすことができる。言い換えれば、音響入力信号104は、音圧P(k,n)に対応する少なくとも1つの成分を備えることができる。
音響入力信号は、一般に、信号エネルギーが短い時間インターバル内で強く変動する場合に短い定常性インターバルを呈し、その逆もまた同様である。定常性インターバルが短い代表的な例は、トランジェント、スピーチにけるオンセット、および「オフセット」すなわち話し手がトークを止めるときである。後者のケースは、短時間内で強く減少する信号エネルギー(負のゲイン)によって特徴づけられ、一方前者の2つのケースにおいては、エネルギーは強く増加する(正のゲイン)。
最適なフィルタ係数αを見いだすことを意図する所望のアルゴリズムは、高い非定常信号に対してα=1に近い値(短い時間平均演算に対応する)を提供し、定常性のケースではα=α’に近い値を提供しなければならない。記号α´は、定常信号を平均演算するための適切な信号独立のフィルタ係数を示す。数学用語で表すと、妥当なアルゴリズムは次式によって与えられる。
Figure 0005706513
Figure 0005706513
Figure 0005706513
が導入され、式7と同様であるが、非定常性のケースでは逆の挙動を呈する。
これは、正のエネルギーゲインによる非定常性のケースではα-≒0が得られる一方、負のエネルギーゲインに対してα-≒1が得られることを意味する。従って、式7と式8の最大をとること、すなわち
Figure 0005706513
は、音響入力信号の定常性インターバルに対応する時間平均演算に導く再帰的平均演算係数αに対して、所望の最適値をもたらす。
言い換えれば、信号特性判定器308は、音響入力信号104の少なくとも1つの(全方向)成分(例えば、音圧P(k,n))の現在の(瞬時の)信号エネルギーと、音響入力信号104の少なくとも1つの(全方向)成分の信号エネルギーの所定の(前の)時間セグメントに亘る時間平均との比に基づいて、重みパラメータαを判定するように構成される。所定の時間セグメントは、例えば、異なる(前の)時間スロットに対する所定の数の信号エネルギー係数に対応することができる。
SAM解析のケースでは、エネルギー信号W(k,n)は、2つのマイクロフォン信号X1(k,n)とX2(k,n)のエネルギー、例えば、W(k,n)=|X1(k,n)|2+|X2(k,n)|2で構成することができる。式5aまたは式5bにおける相関の再帰的推定に対する係数αは、式5cに従って、上述の式9の判定基準を用いて適切に選択することができる。
上記から分かるように、制御可能パラメータ推定器306は、ローパスフィルタ(例えば前述の無限インパルス応答(IIR)フィルタまたは有限インパルス応答(FIR)フィルタ)を用いて、音響入力信号104の強度パラメータIa(k,n)の時間平均演算を適用するように構成することができる。さらにまた、制御可能パラメータ推定器306は、重みパラメータαに基づいて、音響オーディオ信号104の現在の強度パラメータと音響入力信号104の前の強度パラメータとの間の重みを調整するように構成することができる。式5で示されたように、一次IIRフィルタの特別なケースにおいて、現在の強度パラメータと1つ前の強度パラメータとの間の重みを調整することができる。重み係数αが高いほど、時間平均演算長は短く、それ故に、前の強度パラメータの重みと比較した現在の強度パラメータの重みが高い。言い換えれば、時間平均演算長は、重みパラメータαに基づいている。
制御可能パラメータ推定器306は、例えば、比較的短い定常性インターバルに対して、前の強度パラメータの重みと比較した現在の強度パラメータの重みが比較的高いように、また比較的長い定常性インターバルに対して、前の強度パラメータの重みと比較した現在の強度パラメータの重みが比較的低いように、構成することができる。それ故に、時間平均演算長は、比較的短い定常性インターバルに対して比較的短く、比較的長い定常性インターバルに対して比較的長い。
本発明の更なる実施形態によれば、本発明の一実施形態にかかる空間オーディオプロセッサの制御可能パラメータ推定器は、判定された信号特性に従って、空間パラメータを計算するための複数の空間パラメータ計算ルールから1つの空間パラメータ計算ルールを選択するように構成することができる。複数の空間パラメータ計算ルールは、例えば、計算パラメータにおいて異なるか、または、お互いから完全に異なることができる。式4および式5で示されたように、時間平均演算は、式4に示されたようなブロック平均演算、または式5に示されたようなローパスフィルタを用いて計算することができる。第1の空間パラメータ計算ルールは、例えば式4にかかるブロック平均演算に対応することができ、第2のパラメータ計算ルールは、例えば式5にかかるローパスフィルタを用いた平均演算に対応することができる。制御可能パラメータ推定器は、判定された信号特性に基づいて、複数の計算ルールから空間パラメータの最も正確な推定を提供する計算ルールを選択することができる。
本発明の更なる実施形態によれば、制御可能パラメータ推定器は、複数の空間パラメータ計算ルールからの第1の空間パラメータ計算ルールが、複数の空間パラメータ計算ルールからの第2の空間パラメータ計算ルールと異なるように、構成することができる。第1の空間パラメータ計算ルールと第2の空間パラメータ計算ルールは、次のグループから選択することができる。
すなわち、周波数サブバンドにおける複数の時間スロットに亘る平均演算(例えば式3に示されたような)と、時間スロットにおける複数の周波数サブバンドに亘る周波数平均演算と、時間および周波数の平均演算と、空間平均演算と、平均演算なしである。
以下において、制御可能パラメータ推定器によって複数の空間パラメータ計算ルールから1つの空間パラメータ計算ルールを選択するこのコンセプトが、図4と図5に示される本発明の2つの例示的な実施形態を用いて記載される。
図4にかかる空間コーダを用いたダブルトークに依存する時間変化する到来の方向と拡散の推定
図4は、本発明の実施形態にかかる空間オーディオプロセッサ400の概略ブロック図を示す。空間オーディオプロセッサ400の機能は、図1にかかる空間オーディオプロセッサ100の機能と同様とすることができる。空間オーディオプロセッサ400は、以下に記載される追加の特徴を備えることができる。空間オーディオプロセッサ400は、機能が図1にかかる制御可能パラメータ推定器106の機能と同様とすることができ、以下に記載される追加の特徴を備えることができる制御可能パラメータ推定器406を備える。空間オーディオプロセッサ400は、機能が図1にかかる信号特性判定器108の機能と同様とすることができ、以下に記載される追加の特徴を備えることができる信号特性判定器408を更に備える。
制御可能パラメータ推定器406は、信号特性判定器408によって判定された信号特性110に従って、空間パラメータ102を計算するための複数の空間パラメータ計算ルールから1つの空間パラメータ計算ルールを選択するように構成される。図4に示された例示的な実施形態において、信号特性判定器は、音響入力信号104が、異なる音源からの成分を備える、または1つの音源からの成分のみを備える場合に、判定するように構成される。この判定に基づいて、制御可能パラメータ推定器406は、音響入力信号104が1つの音源からの成分のみを備える場合に、空間パラメータ102を計算するための第1の空間パラメータ計算ルール410を選択することができ、音響入力信号104が複数の音源からの成分を備える場合に、空間パラメータ102を計算するための第2の空間パラメータ計算ルール412を選択することができる。第1の空間パラメータ計算ルール410は、例えば複数の周波数サブバンドに亘るスペクトル平均演算または周波数平均演算を備えることができ、第2の空間パラメータ計算ルール412は、スペクトル平均演算または周波数平均演算を備えないことができる。
判定は、音響入力信号104が複数の音源からの成分を備えていようがいまいが、信号特性判定器408のダブルトーク検出器414によって実行することができる。パラメータ推定器406は、例えば、STFTドメインにおいて、周波数サブバンドkと時間ブロックnに対する音響入力信号104の拡散パラメータΨ(k,n)を提供するように構成することができる。
言い換えれば、空間オーディオプロセッサ400は、ダブルトークの状況を明らかにすることによって、方向オーディオ符号化における拡散推定を改善するコンセプトを示す。
または言い換えると、信号特性判定器408は、音響信号入力104が同時に異なる音源からの成分を備える場合に、判定するように構成される。制御可能パラメータ推定器406は、信号特性判定結果に従って、空間パラメータ102を計算するために(例えば、拡散パラメータΨ(k,n)を計算するために)、複数の空間パラメータ計算ルールから1つの空間パラメータ計算ルール(例えば第1の空間パラメータ計算ルール410または第2の空間パラメータ計算ルール412)を選択するように構成される。音響入力信号104が最大で1つの音源の成分を備えるとき、第1の空間パラメータ計算ルール410が選択され、音響入力信号104が同時に複数の音源の成分を備えるとき、第2の空間パラメータ計算ルール412が複数の空間パラメータ計算ルールから選択される。第1の空間パラメータ計算ルール410は、音響入力信号104の複数の周波数サブバンドに亘る周波数平均演算(例えば強度パラメータIa(k,n)の)を含む。第2の空間パラメータ計算ルール412は、周波数平均演算を含まない。
図4に示される実施例において、方向オーディオ符号化解析における拡散パラメータΨ(k,n)および/または方向(到来の)パラメータψ(k,n)の推定は、ダブルトークの状況に従って対応する推定器を調整することによって改善される。式2における拡散計算は、実際に、周波数サブバンドkに亘ってアクティブな強度ベクトルIa(k,n)を平均演算することによって、または時間およびスペクトルの平均演算を結合することによって実現できることが分かっている。しかしながら、異なる周波数サブバンドに対して独立の拡散推定が必要な場合、それは多重の音響ソース(例えばトーカ)が同時にアクティブであるいわゆるダブルトークの状況のケースであるので、スペクトル平均演算は適切でない。それ故に、音響入力信号の一般的なモデルは常にダブルトークの状況を仮定するので、伝統的に(図2に示された方向オーディオコーダにおけるように)スペクトル平均演算は使用されない。シングルトークの状況において、スペクトル平均演算はパラメータ推定精度を改善できることが分かっているので、このモデルの仮定は、シングルトークの状況のケースにおいて最適でないことが分かっている。
提案された新規のアプローチは、図4に示すように、音響入力信号104に対してまたは音響入力信号(複数)に対して基本的なモデルを選択することによって、最適パラメータ推定戦略(最適空間パラメータ計算ルール)を選択する。言い換えれば、図4は、ダブルトークの状況に従って拡散推定を改善する本発明の実施形態のアプリケーションを示し、最初に、音響入力信号104または音響入力信号(複数)から、現在の状況においてダブルトークが存在するか否かを判定するダブルトーク検出器414が使用される。そうでない場合、それは、アクティブな強度ベクトルIa(k,n)のスペクトル(周波数)および時間の平均演算を用いて式2を近似することによって拡散(パラメータ)Ψ(k,n)を計算するパラメータ推定器に対して決定される(または言い換えると、制御可能パラメータ推定器406が空間パラメータ計算ルールを選択する)。すなわち、
Figure 0005706513
さもなければ、ダブルトークが存在する場合、式3のように、時間平均演算のみを用いる推定器が選ばれる(または言い換えると、制御可能パラメータ推定器406が空間パラメータ計算ルールを選択する)。同様のアイデアは、シングルトークの状況のケースでの方向推定に適用することができるが、このケースにおいてのみ、方向推定ψ(k,n)は、いくつかのまたは全ての周波数サブバンドkに亘る結果のスペクトル平均演算によって改善することができる。すなわち、
Figure 0005706513
本発明のいくつかの実施形態によれば、スペクトルの部分であって、必ずしも全てのバンド幅でない部分に(スペクトル)平均演算を適用することも考えられる。
時間およびスペクトルの平均演算を実行するために、制御可能パラメータ推定器406は、例えばエネルギー解析を用いて、例えば制御可能パラメータ推定器406のエネルギー解析器416を使用することによって、例えば、STFTドメインにおいて、各サブバンドkと各時間スロットnに対するアクティブな強度ベクトルIa(k,n)を判定することができる。
言い換えれば、パラメータ推定器406は、判定された信号特性に従って、第1の空間パラメータ計算ルール410に含まれた音響入力信号104の判定されたアクティブな強度パラメータIa(k,n)のスペクトルおよび時間の平均演算に基づいて、または判定されたアクティブな強度ベクトルIa(k,n)の時間平均演算のみに基づいて、音響入力信号104の現在の周波数サブバンドkと現在の時間スロットnに対する現在の拡散パラメータΨ(k,n)を判定するように構成することができる。
以下において、音響入力信号の音調性に基づき、図5に示される空間オーディオプロセッサ500を用いて、音響入力信号の空間パラメータの計算を改善するためのフィットする空間パラメータ計算ルールを選択するコンセプトにも基づいている本発明の他の例示的な実施形態が記載される。
図5にかかる空間オーディオプロセッサを用いた音調性に依存するパラメータ推定
図5は、本発明の実施形態にかかる空間オーディオプロセッサ500の概略ブロック図を示す。空間オーディオプロセッサ500の機能は、図1にかかる空間オーディオプロセッサ100の機能と同様とすることができる。空間オーディオプロセッサ500は、以下に記載される追加の特徴を更に備えることができる。空間オーディオプロセッサ500は、制御可能パラメータ推定器506と信号特性判定器508を備える。制御可能パラメータ推定器506の機能は、図1にかかる制御可能パラメータ推定器106の機能と同様とすることができ、制御可能パラメータ推定器506は、以下に記載される追加の特徴を備えることができる。信号特性判定器508の機能は、図1にかかる信号特性判定器108の機能と同様とすることができる。信号特性判定器508は、以下に記載される追加の特徴を備えることができる。
空間オーディオプロセッサ500は、空間パラメータ102の計算が音響入力信号104の判定された音調性に基づいて修正されるという事実において、空間オーディオプロセッサ400と異なる。信号特性判定器508は、音響入力信号104の音調性を判定することができ、制御可能パラメータ推定器506は、音響入力信号104の判定された音調性に基づいて、空間パラメータ102を計算するための複数の空間パラメータ計算ルールから1つの空間パラメータ計算ルールを選択することができる。
言い換えれば、空間オーディオプロセッサ500は、音響入力信号104または音響入力信号(複数)の音調性を考慮することによって、方向オーディオ符号化パラメータにおける推定を改善するコンセプトを示す。
信号特性判定器508は、音調性推定を用いて、例えば信号特性判定器508の音調性推定器510を用いて、音響入力信号の音調性を判定することができる。信号特性判定器508は、それ故に、音響入力信号104の判定された信号特性110として、音響入力信号104の音調性または音響入力信号104の音調性に対応する情報を提供することができる。
制御可能パラメータ推定器506は、音響入力信号104の音調性が所定の音調性しきい値レベルより下にあるときに、複数の空間パラメータ計算ルールから第1の空間パラメータ計算ルールが選択され、音響入力信号104の音調性が所定の音調性しきい値レベルより上にあるときに、複数の空間パラメータ計算ルールから第2の空間パラメータ計算ルールが選択されるように、信号特性判定の(音調性推定の)結果に従って、空間パラメータ102を計算するために、複数の空間パラメータ計算ルールから1つの空間パラメータ計算ルールを選択するように構成することができる。図4にかかる制御可能パラメータ推定器406と同様に、第1の空間パラメータ計算ルールは周波数平均演算を含むことができ、第2の空間パラメータ計算ルールは周波数平均演算を含まないことができる。
一般に、音響信号の音調性は、信号がブロードバンドスペクトルを持つか否かの情報を提供する。高い音調性は、信号スペクトルが、高いエネルギーを有する少数の周波数のみを含むことを示す。対照的に、低い音調性は、ブロードバンド信号、すなわち広い周波数レンジに亘って同様のエネルギーが存在する信号を示す。
音響入力信号の音調性に関する情報(音響入力信号104の音調性の情報)は、例えば、方向オーディオ符号化パラメータ推定を改善するために使用することができる。図5に示された概略ブロック図を参照して、音響入力信号104または音響入力信号(複数)から、最初に、音調性検出器または音調性推定器510を用いて、入力の音調性が判定される(例えば、非特許文献6に説明されたように)。音調性に関する情報(判定された信号特性110)は、方向オーディオ符号化パラメータの(空間パラメータ102の)推定を制御する。制御可能パラメータ推定器506の出力は、図2にかかる方向オーディオコーダによって示される伝統的な方法と比較して増大する精度を有する空間パラメータ102である。
拡散Ψ(k,n)の推定は、以下のように入力信号の音調性の知識から得ることができる。拡散Ψ(k,n)の演算は、式3に示されるような平均演算プロセスを必要とする。この平均演算は、伝統的に時間nのみに沿って実行される。特に、拡散音場において、拡散の正確な推定は、平均演算が十分に長いときにのみ可能である。長い時間平均演算は、しかしながら音響入力信号の短い定常インターバルによって通常は可能でない。拡散推定を改善するために、時間平均演算を周波数バンドkに亘るスペクトル平均演算と結合することができる。すなわち、
Figure 0005706513
しかしながら、この方法は、異なる周波数バンドに対して拡散が同様であるブロードバンド信号を必要とするかもしれない。わずかの周波数のみが有意のエネルギーを持つ音信号のケースでは、音場の本当の拡散は、周波数バンドkに沿って強く変動することができる。これは、音調性検出器(信号特性判定器508の音調性推定器510)が音響信号104の高い音調性を示すとき、スペクトル平均演算が回避されることを意味する。
言い換えれば、制御可能パラメータ推定器506は、音響入力信号104の判定された音調性が比較的低い場合に、音響信号入力104の強度パラメータIa(k,n)の時間およびスペクトルの平均演算に基づいて、空間パラメータ102、例えば、STFTドメインにおいて、周波数サブバンドkと時間スロットnに対する拡散パラメータΨ(k,n)を導き出し、音響入力信号104の判定された音調性が比較的高い場合に、音響信号入力104の強度パラメータIa(k,n)の時間平均のみに基づき、スペクトル平均に基づかないで、空間パラメータ102、例えば、拡散パラメータΨ(k,n)を提供するように構成される。
同じアイデアは、(判定された空間パラメータ102の)結果のSN比を改善するために、方向(到来の)パラメータψ(k,n)の推定に適用することができる。言い換えれば、制御可能パラメータ推定器506は、音響入力信号104の判定された音調性が比較的低い場合に、スペクトル平均演算に基づいて到来の方向パラメータψ(k,n)を判定し、音調性が比較的高い場合に、スペクトル平均演算を実行することなく到来の方向パラメータψ(k,n)を導き出すように構成することができる。
到来の方向パラメータψ(k,n)をスペクトル平均演算することによってSN比を改善するこのアイデアは、以下において、本発明の他の実施形態を用いてより詳細に記載される。スペクトル平均演算は、音響入力信号104または音響入力信号(複数)に、アクティブな音響強度に、またはダイレクトに方向(到来の)パラメータψ(k,n)に適用することができる。
空間オーディオプロセッサ500を、ダブルトークがないケースまたは低い音調性のケースにおいて、式5aと式5bにおける期待値オペレータがスペクトル平均演算を考慮することによって近似されるという相違点を有する同様の方法で、空間オーディオマイクロフォン解析にも適用できることが当業者にとって明らかとなる。
以下において、空間パラメータの計算を改善するためのSN比に依存する方向推定を実行する、本発明の2つの他の実施形態が説明される。
図6にかかる空間オーディオプロセッサを用いたSN比に依存する方向推定
図6は、空間オーディオプロセッサ600の概略ブロック図を示す。空間オーディオプロセッサ600は、上述したSN比に依存する方向推定を実行するように構成される。
空間オーディオプロセッサ600の機能は、図1にかかる空間オーディオプロセッサ100の機能と同様とすることができる。空間オーディオプロセッサ600は、以下に記載される追加の特徴を備えることができる。空間オーディオプロセッサ600は、制御可能パラメータ推定器606と信号特性判定器608を備える。制御可能パラメータ推定器606の機能は、図1にかかる制御可能パラメータ推定器106の機能と同様とすることができ、制御可能パラメータ推定器606は、以下に記載される追加の特徴を備えることができる。信号特性判定器608の機能は、図1にかかる信号特性判定器108の機能と同様とすることができ、信号特性判定器608は、以下に記載される追加の特徴を備えることができる。
信号特性判定器608は、音響入力信号104の信号特性110として、音響入力信号104のSN比(SNR)を判定するように構成することができる。制御可能パラメータ推定器606は、音響入力信号104の判定されたSN比に基づいて、音響入力信号104の空間パラメータ102を計算するための可変空間計算ルールを提供するように構成することができる。
制御可能パラメータ推定器606は、例えば、空間パラメータ102を判定するために時間平均演算を実行することができ、音響入力信号104の判定されたSN比に従って、時間平均演算の平均演算長(または時間平均演算に対して用いられる要素の数)を変化させることができる。例えば、パラメータ推定器606は、音響入力信号104の比較的低いSN比に対して平均演算長が比較的高いように、音響入力信号104の比較的高いSN比に対して平均演算長が比較的低いように、時間平均演算の平均演算長を変化させるように構成することができる。
パラメータ推定器606は、空間パラメータ102として、前述の時間平均演算に基づいて到来の方向パラメータψ(k,n)を提供するように構成することができる。前述のように、制御可能パラメータ推定器606において(例えばパラメータ推定器606の方向推定器610において)、各周波数サブバンドkおよび時間スロットnに対する到来の方向パラメータψ(k,n)を、アクティブな音響強度ベクトルIa(k,n)の反対方向として判定することができる。パラメータ推定器606は、それ故に、音響入力信号104についてエネルギー解析を実行し、各周波数サブバンドkと各時間スロットnに対するアクティブな音響強度ベクトルIa(k,n)を判定するために、エネルギー解析器612を備えることができる。方向推定器610は、例えば、判定されたアクティブな強度ベクトルIa(k,n)について、周波数サブバンドkに対して、複数の時間スロットnに亘る時間平均演算を実行することができる。言い換えれば、方向推定器610は、周波数サブバンドkと時間スロットnに対する到来の方向パラメータψ(k,n)を計算するために、1つの周波数サブバンドkと複数の(前の)時間スロットに対する強度パラメータIa(k,n)の時間平均演算を実行することができる。本発明の更なる実施形態によれば、方向推定器610は、(例えば強度パラメータIa(k,n)の時間平均演算の代わりに)周波数サブバンドkと複数の(前の)時間スロットに対する複数の判定された到来の方向パラメータψ(k,n)についての時間平均演算を実行することもできる。時間平均演算の平均演算長は、それ故に、時間平均演算を実行するために用いられた強度パラメータの数または到来の方向パラメータの数に対応する。言い換えれば、パラメータ推定器606は、複数の時間スロットと周波数サブバンドkに対する強度パラメータIa(k,n)のサブセットまたは複数の時間スロットと周波数サブバンドkに対する到来の方向パラメータψ(k,n)のサブセットに、時間平均演算を適用するように構成することができる。時間平均演算に対して用いられた、強度パラメータのサブセットにおける強度パラメータの数または到来の方向パラメータのサブセットにおける到来の方向パラメータの数は、時間平均演算の平均演算長に対応する。制御可能パラメータ推定器606は、時間平均演算を計算するために用いられたサブセットにおける強度パラメータの数または到来の方向パラメータの数を、強度パラメータのサブセットにおける強度パラメータの数または到来の方向パラメータのサブセットにおける到来の方向パラメータの数が音響入力信号104の比較的高いSN比に対して比較的低いように、強度パラメータの数または到来の方向パラメータの数が音響入力信号104の比較的低いSN比に対して比較的高いように、調整するように構成される。
言い換えれば、本発明の実施形態は、音響入力信号(複数)または音響入力信号104のSN比に基づく方向オーディオ符号化の方向推定を提供する。
一般に、図2にかかる方向オーディオコーダ200に従って定義された音響の、推定された方向ψ(k,n)の(または到来の方向パラメータψ(k,n)の)精度は、音響入力信号内に常に存在するノイズによって影響される。
推定精度についてのノイズのインパクトは、SNR、すなわち、(マイクロフォン)アレイに到来する音響の信号エネルギーとノイズエネルギーとの比に依存する。小さいSNRは、方向ψ(k,n)の推定精度を有意に低減する。ノイズ信号は、通常は、計測装置、例えば、マイクロフォンとマイクロフォン増幅器によって導入され、ψ(k,n)における誤差をもたらす。方向ψ(k,n)は、推定された以下または推定された以上のいずれかの等しい確率を有するが、ψ(k,n)の期待値は依然として正しいことが分かっている。
到来の方向パラメータψ(k,n)のいくつかの独立した推定を持つこと、例えば、計測を数回繰り返すことによって、ノイズの影響を低減することができ、従って到来の方向パラメータψ(k,n)をいくつかの計測インスタンスに亘って平均演算することによって、方向推定の精度を増大することができることを分かっている。平均演算プロセスは、効率的に推定器のSN比を増大する。マイクロフォンにおいて、または一般的に音響録音装置においてSN比が小さいほど、あるいは推定器において所望の目標SN比が高いほど、平均演算プロセスにおいて必要とされる計測インスタンスの数が高い。
図6に示される空間コーダ600は、音響入力信号104のSN比に従ってこの平均演算プロセスを実行する。あるいは言い換えると、空間オーディオプロセッサ600は、音響入力においてまたは音響入力信号104のSNRを考慮することによって、方向オーディオ符号化における方向推定を改善するコンセプトを示す。
方向推定器610によって方向ψ(k,n)を推定する前に、音響入力信号104または音響入力信号(複数)のSN比は、信号特性判定器608のSN比推定器614によって判定される。SN比は、例えば、STFTドメインにおいて、各時間ブロックnと周波数バンドkに対して推定することができる。音響入力信号104の実際のSN比についての情報は、判定された信号特性110として、SN比推定器614から、SN比を改善するために特定の方向オーディオ符号化信号の周波数と時間に依存する時間平均演算を含む方向推定器610に提供される。さらにまた、所望の目標SN比を、方向推定器610に渡すことができる。所望の目標SN比は、外部的に、例えばユーザによって定義することができる。方向推定器610は、制御可能パラメータ推定器606の出力(平均演算後)において得られる音響入力信号104のSN比が所望のSN比にマッチするように、時間平均演算の平均演算長を調整することができる。または言い換えると、所望の目標SN比が取得されるまで、平均演算が(方向推定器610において)実行される。
方向推定器610は、得られる音響入力信号104のSN比を目標SN比と連続的に比較することができ、所望の目標SN比が得られるまで平均演算を実行することができる。このコンセプトを用いて、得られるSN比の音響入力信号104が連続的にモニタされ、得られる音響入力信号104のSN比が目標SN比にマッチし、従って前もって平均演算長を計算する必要がないときに、平均演算を終了する。
さらに、方向推定器610は、制御可能パラメータ推定器606の出力において得られる音響入力信号104のSN比が目標SN比にマッチするように、制御可能パラメータ推定器606の入力における音響入力信号104のSN比に基づいて、音響入力信号104のSN比の平均演算に対する平均演算長を判定することができる。このように、このコンセプトを用いて、得られる音響入力信号104のSN比は、連続的にモニタされない。
上述された方向推定器610に対する2つのコンセプトによって生成される結果は、同じである。空間パラメータ102の推定の間、現在の音響入力信号104のSN比(制御可能パラメータ推定器606の入力における)が悪いにも拘らず、あたかも音響入力信号104が目標SN比を有するように、空間パラメータ102の正確さを達成することができる。
音響入力信号104のSN比が目標SN比と比較して小さいほど、時間平均演算は長くなる。方向推定器610の出力は、例えば、推定ψ(k,n)、すなわち増大した精度を有する到来の方向パラメータψ(k,n)である。前述したように、方向オーディオ符号化信号を平均演算するための異なる可能性:式1によって提供される1つの周波数サブバンドkと複数の時間スロットに対するアクティブな音響強度ベクトルIa(k,n)を平均演算すること、または時間に沿ってアクティブな音響強度ベクトルIa(k,n)の反対方向として既に定義された、推定された方向ψ(k,n)(到来の方向パラメータψ(k,n))を直接平均演算すること、が存在する。
空間オーディオプロセッサ600は、同様の方法で、空間オーディオマイクロフォン方向解析に適用することもできる。方向推定の精度は、いくつかの計測インスタンスに亘って結果を平均演算することによって増大することができる。これは、図6におけるDirACと同様に、SAM推定器が、音響入力信号104のSNRを最初に判定することによって改善されることを意味する。実際のSNRと所望の目標SNRについての情報は、SNRを改善するための特定のSAM信号の周波数と時間に依存する時間平均演算を含むSAMの方向推定器に渡される。平均演算は、所望の目標SNRが得られるまで実行される。実際上、2つのSAM信号、すなわち式5aおよび式5bにおいて定義される推定された方向ψ(k,n)またはPSDおよびCSDは、平均化することができる。後者の平均演算は、期待値オペレータが、長さが実際のおよび所望の(目標)SNRに依存する平均演算プロセスによって近似されることを単に意味する。推定された方向ψ(k,n)の平均演算は、図7bに従ってDirACに対して説明されるが、SAMに対して同じ方法で適用できる。
図8を用いて後で説明される本発明の更なる実施形態によれば、これらの2つの方法によって物理量を明示的に平均演算する代わりに、用いられたフィルタバンクを、フィルタバンクが入力信号の固有の平均演算を含むことができるように、切替えることが可能である。以下において、方向オーディオ符号化信号を平均化する2つの言及された方法が、図7aと図7bを用いて、より詳細に説明される。空間オーディオプロセッサによってフィルタバンクを切替える代替方法は、図8に示される。
図7aにかかる方向オーディオ符号化におけるアクティブな音響密度ベクトルの平均演算
図7aは、図6におけるSN比に依存する方向推定器610の第1の可能な実現手段を概略ブロック図で示す。図7aに示される実現手段は、方向推定器610aによる音響強度または音響強度パラメータIa(k,n)の時間平均演算に基づいている。方向推定器610aの機能は、図6の方向推定器610の機能と同様とすることができ、方向推定器610aは、以下に記載される追加の特徴を備えることができる。
方向推定器610aは、平均演算と方向推定を実行するように構成される。方向推定器610aは、図6のエネルギー解析器612に接続され、方向推定器610は、エネルギー解析器612によって、図6に示される制御可能パラメータ推定器606の機能と同様の機能の制御可能パラメータ推定器606aを構成することができる。制御可能パラメータ推定器606aは、最初に、音響入力信号104または音響入力信号(複数)から、前述のように式1を用い、エネルギー解析器612を用いて、エネルギー解析において、アクティブな音響強度ベクトル706(Ia(k,n))を判定する。平均演算を実行する方向推定器610aの平均演算ブロック702において、このベクトル(音響強度ベクトル706)は、以下の式に従って、時間nに沿って、全ての(または少なくとも全ての一部の)周波数バンドまたは周波数サブバンドkに対して独立に平均化され、平均化された音響強度ベクトル708(Iavg(k,n))となる。
avg(k,n)=<Ia(k,n)>n (13)
平均演算を実行するために、方向推定器610aは、過去の強度推定を考慮する。平均演算ブロック702に対する1つの入力は、音響入力104または音響入力信号104の実際のSN比710であり、それは図6に示されたSN比推定器614によって判定される。音響入力信号104の実際のSN比710は、音響入力信号104の判定された信号特性110を構成する。SN比は、短時間周波数ドメインにおいて、各周波数サブバンドkと各時間スロットnに対して判定される。平均演算ブロック702への第2の入力は、所望のSN比または目標SN比712であり、それは制御可能パラメータ推定器606aの出力、すなわち目標SN比において取得されなければならない。目標SN比712は外部入力であり、例えばユーザによって与えられる。平均演算ブロック702は、目標SN比712が得られるまで、強度ベクトル706(Ia(k,n))を平均化する。前に説明されたように、平均化された(音響)強度ベクトル708(Iavg(k,n))に基づいて、方向推定を実行する方向推定器610aの方向推定ブロック704を用いて、最後に音響の方向ψ(k,n)を計算することができる。到来の方向パラメータψ(k,n)は、制御可能パラメータ推定器606aによって判定される空間パラメータ102を構成する。方向推定器610aは、対応する周波数サブバンドkと対応する時間スロットnの平均化された音響強度ベクトル708(Iavg(k,n))の反対方向として、各周波数サブバンドkと時間スロットnに対する到来の方向パラメータψ(k,n)を判定することができる。
所望の目標SN比712に従って、制御可能パラメータ推定器610aは、制御可能パラメータ推定器606aの出力におけるSN比が、目標SN比712にマッチする(または等しい)ように、音響強度パラメータ706(Ia(k,n))の平均演算に対する平均演算長を変化させることができる。通常、制御可能パラメータ推定器610aは、音響入力信号104の実際のSN比710と目標SN比712との間の比較的高い差異に対して、比較的長い平均演算長を選択することができる。音響入力信号104の実際のSN比710と目標SN比712との間の比較的低い差異に対して、制御可能パラメータ推定器610aは、比較的短い平均演算長を選択する。
または言い換えると、方向推定器606aは、音響強度パラメータの音響強度の平均演算に基づいている。
図7bにかかる方向オーディオ符号化の方向パラメータの直接的な平均演算
図7bは、制御可能パラメータ推定器606bの概略ブロック図を示し、その機能は図6に示された制御可能パラメータ推定器606の機能と同様とすることができる。制御可能パラメータ推定器606bは、エネルギー解析器612と、方向推定と平均演算を実行するように構成された方向推定器610bとを備える。方向推定器610bは、それが、第1に、各周波数サブバンドkと各時間スロットnに対する到来の方向パラメータ718(ψ(k,n))を判定するために、方向推定を実行し、第2に、各周波数サブバンドkと各時間スロットnに対する平均化された到来の方向パラメータψavg(k,n)を判定するために、判定された到来の方向パラメータ718について平均演算を実行するという点で方向推定器610aと異なる。平均化された到来の方向パラメータψavg(k,n)は、制御可能パラメータ推定器606bによって判定される空間パラメータ102を構成する。
言い換えれば、図7bは、図6に示されたSN比に依存する方向推定器610の他の可能な実現手段を示す。
図7bに示される実現手段は、従来のオーディオ符号化アプローチによって、例えば各周波数サブバンドkと各時間スロットnに対して、アクティブな音響強度ベクトル706(Ia(k,n))の反対方向として取得することができる推定された方向(到来の方向パラメータ718(ψ(k,n))の時間平均演算に基づいている。
音響入力または音響入力信号104から、エネルギー解析器612を用いてエネルギー解析が実行され、次に、例えば前に説明された従来の方向オーディオ符号化方法によって、方向推定を実行する方向推定器610bの方向推定ブロック714において音響の方向(到来の方向パラメータ718(ψ(k,n))が判定される。次に、方向推定器610bの平均演算ブロック716において、この方向(到来の方向パラメータ718(ψ(k,n))について時間平均演算が適用される。前に説明されたように、時間に沿って、全ての(または少なくとも全ての一部の)周波数バンドまたは周波数サブバンドkに対して、平均演算が実行され、次式の平均化された方向ψavg(k,n)をもたらす。
ψavg(k,n)=<ψ(k,n)>n (14)
各周波数サブバンドkと各時間スロットnに対する平均化された方向ψavg(k,n)は、制御可能パラメータ推定器606bによって判定される空間パラメータ102を構成する。
前述のように、平均演算ブロック716への入力は、制御可能パラメータ推定器606bの出力において取得される音響入力または音響入力信号104の実際のSN比710ならびに目標SN比712である。実際のSN比710は、例えばSTFTドメインにおいて、各周波数サブバンドkと各時間スロットnに対して判定される。平均演算716は、目標SN比712が得られるまで、十分な数の時間ブロック(または時間スロット)に亘って実行される。最終結果は、増大した精度を有する時間平均化された方向ψavg(k,n)である。
簡単に要約すると、信号特性判定器608は、音響入力信号104の周波数サブバンドkと時間スロットnに対して、複数のSN比パラメータとして、音響入力信号104のSN比710を提供するように構成される。制御可能パラメータ推定器606a、606bは、周波数サブバンドkと時間スロットnに対して、複数の目標SN比パラメータとして、目標SN比712を受信するように構成される。制御可能パラメータ推定器606a、606bは、現在の(平均化された)到来の方向パラメータψavg(k,n)の現在のSN比パラメータが現在の目標SN比パラメータにマッチするように、音響入力信号の現在のSN比パラメータに従って時間平均演算の平均演算長を導き出すように更に構成される。
制御可能パラメータ推定器606a、606bは、音響入力信号104の各周波数サブバンドkと各時間スロットnに対する強度パラメータIa(k,n)を導き出すように構成される。さらにまた、制御可能パラメータ推定器606、606bは、制御可能パラメータ推定器606a、606bによって判定された音響オーディオ信号の強度パラメータIa(k,n)に基づいて、音響入力信号104の各周波数サブバンドkと各時間スロットnに対する到来の方向パラメータψ(k,n)を導き出すように構成される。制御可能パラメータ推定器606a、606bは、音響入力信号104の導き出された強度パラメータの少なくともサブセットの時間平均演算に基づいて、または導き出された到来の方向パラメータの少なくともサブセットの時間平均演算に基づいて、現在の周波数サブバンドと現在の時間スロットに対する現在の到来の方向パラメータψ(k,n)を導き出すように更に構成される。
制御可能パラメータ推定器606a、606bは、例えばSTFTドメインにおいて、各周波数サブバンドkと各時間スロットnに対する強度パラメータIa(k,n)を導き出すように構成され、さらにまた、制御可能パラメータ推定器606a、606bは、例えばSTFTドメインにおいて、各周波数サブバンドkと各時間スロットnに対する到来の方向パラメータψ(k,n)を導き出すように構成される。制御可能パラメータ推定器606aは、強度パラメータのサブセットの全ての強度パラメータに関連する周波数サブチャネルが現在の到来の方向パラメータに関連する現在の周波数サブバンドに等しいように、時間平均演算を実行するための強度パラメータのサブセットを選択するように構成される。制御可能パラメータ606bは、到来の方向パラメータのサブセットの全ての到来の方向パラメータに関連する周波数サブチャネルが現在の到来の方向パラメータに関連する現在の周波数サブチャネルに等しいように、時間平均演算716を実行するための到来の方向パラメータのサブセットを選択するように構成される。
さらにまた、制御可能パラメータ推定器606aは、強度パラメータのサブセットの強度パラメータに関連する時間スロットが時間において隣接するように、強度パラメータのサブセットを選択するように構成される。制御可能パラメータ推定器606bは、到来の方向パラメータのサブセットの到来の方向パラメータに関連する時間スロットが時間において隣接するように、到来の方向パラメータのサブセットを選択するように構成される。強度パラメータのサブセットにおける強度パラメータの数、または到来の方向パラメータのサブセットにおける到来の方向パラメータの数は、時間平均演算の平均演算長に対応する。制御可能パラメータ推定器606aは、時間平均演算を実行するための強度パラメータのサブセットにおける強度パラメータの数を、音響入力信号104の現在のSN比と現在の目標SN比との差異に依存して導き出すように構成される。制御可能パラメータ推定器606bは、時間平均演算を実行する到来の方向パラメータのサブセットの到来の方向パラメータの数を、音響入力信号104の現在のSN比と現在の目標SN比との差異に基づいて導き出すように構成される。
または言い換えると、方向推定器606bは、従来の方向オーディオ符号化アプローチによって取得された方向718 ψ(k,n)の平均演算に基づいている。
以下において、やはりSN比に依存するパラメータ推定を実行する空間オーディオプロセッサの他の実現手段が記載される。
図8にかかるオーディオコーダを用いた方向オーディオ符号化において適切なスペクトル‐時間分解能を有するフィルタバンクを用いる
図8は、制御可能パラメータ推定器806と信号特性判定器808を備える空間オーディオプロセッサ800を示す。方向オーディオコーダ800の機能は、方向オーディオコーダ100の機能と同様とすることができる。方向オーディオコーダ800は、以下に記載される追加の特徴を備えることができる。制御可能パラメータ推定器806の機能は、制御可能パラメータ推定器106の機能と同様とすることができ、信号特性判定器808の機能は、信号特性判定器108の機能と同様とすることができる。制御可能パラメータ推定器806と信号特性判定器808は、以下に記載される追加の特徴を備えることができる。
信号特性判定器808は、STFTドメインでなく時間ドメインにおける入力SN比としても示される音響入力信号104のSN比810を判定するという点で信号特性判定器608と異なる。音響入力信号104のSN比810は、信号特性判定器808によって判定される信号特性を構成する。制御可能パラメータ推定器806は、フィルタバンク814と、例えばSTFTドメインにおいて時間ドメインの音響入力信号104をBフォーマット表現に変換するように構成されたBフォーマット演算ブロック816とを備えるBフォーマット推定器812を備えるという点で図6に示された制御可能パラメータ推定器606と異なる。
さらにまた、Bフォーマット推定器812は、信号特性判定器808による判定された信号特性に基づいて、または言い換えれば時間ドメインにおける音響入力信号104のSN比810に従って、音響入力信号104のBフォーマット判定を変化させるように構成される。
Bフォーマット推定器812の出力は、音響入力信号104のBフォーマット表現818である。Bフォーマット表現818は、各周波数サブバンドkと各時間スロットnに対する全方向成分、例えば上述した音圧ベクトルP(k,n)と、方向成分、例えば上述した音速ベクトルU(k,n)とを備える。
制御可能パラメータ推定器806の方向推定器820は、各周波数サブバンドkと各時間スロットnに対する音響入力信号104の到来の方向パラメータψ(k,n)を導き出す。到来の方向パラメータψ(k,n)は、制御可能パラメータ推定器806によって判定される空間パラメータ102を構成する。方向推定器820は、各周波数サブバンドkと各時間スロットnに対するアクティブな強度パラメータIa(k,n)を判定し、アクティブな強度パラメータIa(k,n)に基づいて到来の方向パラメータψ(k,n)を導き出すことによって、方向推定を実行することができる。
Bフォーマット推定器812のフィルタバンク814は、音響入力信号104の実際のSN比810を受信し、目標SN比822を受信するように構成される。制御可能パラメータ推定器806は、音響入力信号104の実際のSN比810と目標SN比822との差異に従って、フィルタバンク814のブロック長を変化させるように構成される。フィルタバンク814の出力は、音響入力信号104の周波数表現(例えばSTFTドメインにおける)であり、それに基づいて、Bフォーマット計算ブロック816は音響入力信号104のBフォーマット表現818を演算する。言い換えれば、音響入力信号104の時間ドメインから周波数表現への変換は、音響入力信号104の判定された実際のSN比810と目標SN比822に従って、フィルタバンク814によって実行することができる。要するに、Bフォーマット演算は、Bフォーマット演算ブロック816によって、判定された実際のSN比810と目標SN比822に従って実行することができる。
言い換えれば、信号特性判定器808は、時間ドメインにおける音響入力信号104のSN比810を判定するように構成される。制御可能パラメータ推定器806は、フィルタバンク814を備え、音響入力信号104を時間ドメインから周波数表現に変換する。制御可能パラメータ推定器806は、音響入力信号104の判定されたSN比810に従って、フィルタバンク814のブロック長を変化させるように構成される。制御可能パラメータ推定器806は、目標SN比812を受信し、周波数ドメインにおける音響入力信号104のSN比が目標SN比814にマッチするように、または言い換えれば、音響入力信号104の周波数表現824のSN比が目標SN比822にマッチするように、フィルタバンク814のブロック長を変化させるように構成される。
図8に示される制御可能パラメータ推定器806は、図6に示されるSN比に依存する方向推定器610の他の実現手段としても理解することができる。図8に示される実現手段は、フィルタバンク814の適当なスペクトル時間分解能の選択に基づいている。前に説明されたように、方向オーディオ符号化は、STFTドメインにおいて作動する。従って、例えばマイクロフォンによって計測された時間ドメインにおける音響入力信号(複数)または音響入力信号104は、例えば短時間フーリエ変換またはその他のフィルタバンクを用いて変換される。Bフォーマット推定器812は、次に、音響入力信号104の短時間周波数表現818を提供する、または言い換えれば、それぞれ音圧P(k,n)と特定の速度ベクトルU(k,n)によって示されるようなBフォーマット信号を提供する。フィルタバンク814を音響時間ドメイン入力信号(時間ドメインにおける音響入力信号104)に適用することは、変換された信号(音響入力信号104の短時間周波数表現824)を本質的に平均化し、他方では、平均演算長はフィルタバンク814の変換長(またはブロック長)に対応する。空間オーディオプロセッサ800に関連して記載された平均演算法は、入力信号のこの固有の時間平均演算を利用する。
マイクロフォンによって計測することができる音響入力または音響入力信号104は、フィルタバンク814を用いて短時間周波数ドメインに変換される。変換長、またはフィルタ長、またはブロック長は、平均演算プロセスによって取得すべき、音響入力信号104または音響入力信号(複数)の実際の入力SN比810と所望の目標SN比822とによって制御される。言い換えれば、音響入力信号104の時間周波数表現824のSN比が、目標SN比822にマッチするまたは等しいように、フィルタバンク814において平均演算を実行することが望ましい。SN比は、時間ドメインにおける音響入力信号104または音響入力信号(複数)から判定される。高い入力SN比810のケースでは、より短い変換長が選択され、逆に、低い入力SN比810に対しては、より長い変換長が選択される。前節において説明されたように、音響入力信号104の入力SN比810は、信号特性判定器808のSN比推定器によって提供され、一方、目標SN比822は、例えばユーザによって、外部的に制御することができる。フィルタバンク814と、Bフォーマット演算ブロック816によって実行される引き続くBフォーマット演算の出力は、例えばSTFTドメインにおける音響入力信号818、すなわち、P(k,n)および/またはU(k,n)である。これらの信号(STFTにおける音響入力信号818)は、各周波数サブバンドkと各時間スロットnに対する方向ψ(k,n)を取得するために、方向推定器820において、例えば従来の方向オーディオ符号化処理によって更に処理される。
または言い換えると、空間オーディオプロセッサ800または方向推定器は、音響入力信号104または音響入力信号(複数)に対して、適当なフィルタバンクを選択することに基づいている。
要するに、信号特性判定器808は、時間ドメインにおける音響入力信号104のSN比810を判定するように構成される。制御可能パラメータ推定器806は、音響入力信号104を時間ドメインから周波数表現に変換するように構成されたフィルタバンク814を備える。制御可能パラメータ推定器806は、音響入力信号104の判定されたSN比810に従って、フィルタバンク814のブロック長を変化させるように構成される。さらにまた、制御可能パラメータ推定器806は、目標SN比822を受信し、周波数表現における音響入力信号104のSN比が目標SN比822にマッチするように、フィルタバンク814のブロック長を変化させるように構成される。
信号特性判定器608、808によって実行されるSN比の推定は、周知の問題である。以下において、SN比推定器の可能な実施態様が記載される。
SNR推定器の可能な実施態様
以下において、図6における入力SN比推定器614の可能な実施態様が記載される。以下に記載されるSN比推定器は、図7aと図7bに示された制御可能パラメータ推定器606aと制御可能パラメータ推定器606bに対して用いることができる。SN比推定器は、例えばSTFTドメインにおける音響入力信号104のSN比を推定する。時間ドメインの実施態様(例えば、信号特性判定器808において実施される)は、同様の方法で実現することができる。
SNR推定器は、例えば、STFTドメインにおいて、各時間ブロックnと周波数バンドkに対して、または時間ドメイン信号に対して、音響入力信号のSNRを推定することができる。SNRは、考慮される時間‐周波数ビンに対する信号パワーを演算することによって推定される。x(k,n)を音響入力信号とする。信号パワーS(k,n)は、次式によって判定することができる。
S(k,n)=|x(k,n)|2 (15)
SNRを取得するために、信号パワーとノイズパワーN(k)との比が計算される。すなわち、
SNR=S(k,n)/N(k)
S(k,n)は既にノイズを含むので、低いSNRのケースにおける、より正確なSNR推定器は、次式で与えられる。
SNR=(S(k,n)−N(k))/N(k) (16)
ノイズパワー信号N(k)は、時間nに沿って一定であると仮定される。それは、各kに対して音響入力から判定することができる。実際上、それは、音響が存在しないケースにける、すなわちサイレントの間の音響入力信号の平均パワーに等しい。数学的用語で表すと、
N(k)=<|x(k,n)|2>n
x(k,n)はサイレント間に計測されたもの (17)
言い換えれば、本発明のいくつかの実施形態によれば、信号特性判定器は、音響入力信号104のサイレントフェーズの間のノイズ信号を計測し、ノイズ信号のパワーN(k)を計算するように構成される。信号特性判定器は、音響入力信号104の非サイレントフェーズの間のアクティブ信号を計測し、アクティブ信号のパワーS(k,n)を計算するように更に構成することができる。信号特性判定器は、ノイズ信号の計算されたパワーN(k)とアクティブ信号の計算されたパワーS(k,n)に基づいて音響入力信号104のSN比を判定するように更に構成することができる。
このスキームは、信号特性判定器808が時間ドメインにおけるアクティブ信号のパワーS(t)を判定し、時間ドメインにおけるノイズ信号のパワーN(t)を判定し、時間ドメインにおける音響入力信号104の実際のSN比を取得するという差異を有する信号特性判定器808に適用することもできる。
言い換えれば、信号特性判定器608、808は、音響入力信号104のサイレントフェーズの間のノイズ信号を計測し、ノイズ信号のパワーN(k)を計算するように構成される。信号特性判定器608、808は、音響入力信号104の非サイレントフェーズの間のアクティブ信号を計測し、アクティブ信号(S(k,n))のパワーを計算するように構成される。さらにまた、信号特性判定器608、808は、ノイズ信号の計算されたパワーN(k)とアクティブ信号の計算されたパワーS(k)に基づいて音響入力信号104のSN比を判定するように構成される。
以下において、拍手に依存するパラメータ推定を実行する本発明の他の実施形態が記載される。
図9にかかる空間オーディオプロセッサを用いた拍手に依存するパラメータ推定
図9は、本発明の実施形態にかかる空間オーディオプロセッサ900の概略ブロック図を示す。空間オーディオプロセッサ900の機能は、空間オーディオプロセッサ100の機能と同様とすることができ、空間オーディオプロセッサ900は、以下に記載される追加の特徴を備えることができる。空間オーディオプロセッサ900は、制御可能パラメータ推定器906と信号特性判定器908を備える。制御可能パラメータ推定器906の機能は、制御可能パラメータ推定器106の機能と同様とすることができ、制御可能パラメータ推定器906は、以下に記載される追加の特徴を備えることができる。信号特性判定器908の機能は、信号特性判定器108の機能と同様とすることができ、信号特性判定器908は、以下に記載される追加の特徴を備えることができる。
信号特性判定器908は、音響入力信号104が拍手のような信号に対応するトランジェント成分を備える場合に、例えば拍手検出器910を用いて判定するように構成される。
本願明細書において信号として定義される拍手のような信号は、例えば、異なる方向にトランジェントの速い時間シーケンスを備える。
制御可能パラメータ推定器906は、変換計算ルールに基づいて音響入力信号104を時間ドメインから周波数表現(例えばSTFTドメイン)に変換するように構成されたフィルタバンク912を備える。制御可能パラメータ推定器906は、信号特性判定器908によって実行される信号特性判定の結果に従って、音響入力信号104を時間ドメインから周波数表現に変換する変換計算ルールを、複数の変換計算ルールから選択するように構成される。信号特性判定の結果は、信号特性判定器908の判定された信号特性110を構成する。制御可能パラメータ推定器906は、音響入力信号が拍手に対応する成分を備えるとき、音響入力信号104を時間ドメインから周波数表現に変換する第1の変換計算ルールが複数の変換計算ルールから選択されるように、音響入力信号104が拍手に対応する成分を備えないとき、音響入力信号104を時間ドメインから周波数表現に変換する第2の変換計算ルールが複数の変換計算ルールから選択されるように、複数の変換計算ルールから変換計算ルールを選択する。
または言い換えると、制御可能パラメータ推定器906は、拍手検出に従って、音響入力信号104を時間ドメインから周波数表現に変換する適切な変換計算ルールを選択するように構成される。
要するに、空間オーディオプロセッサ900は、音響入力信号(複数)または音響入力信号104の特性に従って音場のパラメータ記述が判定される本発明の例示的な実施形態として示される。マイクロフォンが拍手を捕える、または音響入力信号104が拍手のような信号に対応する成分を備えるケースにおいて、パラメータ推定の精度を増大するために特別な処理が用いられる。
拍手は、非常に短い時間期間のなかで、音響の到来の方向の速いバリエーションによって通常は特徴づけられる。さらに、捕えられた音響信号は、主にトランジェントを含む。音響の正確な解析に対して、到来の方向の速い時間的バリエーションを解決することができ、信号成分のトランジェント特性を保存することができるシステムを持つことが有益であることを分かっている。
これらの目標は、音響時間ドメイン入力信号を変換するための高い時間分解能を有するフィルタバンク(例えば短い変換または短いブロック長を有するSTFT)を用いて達成することができる。このようなフィルタバンクを用いるとき、システムのスペクトル分解能は低減される。これは、音響のDOAが音響のトランジェント特性によって周波数に沿ってあまり変動しないので、拍手信号に対して問題がない。しかしながら、小さいスペクトル分解能は、個々の話し手を区別することができるように特定のスペクトル分解能が必要とされるダブルトークシナリオにおけるスピーチのような他の信号に対して問題があることが分かっている。正確なパラメータ推定は、音響入力信号(複数)または音響入力信号104の特性に従って、フィルタバンクの(またはフィルタバンクの対応する変換またはブロック長の)信号に依存するスイッチングを必要とする可能性があることが分かっている。
図9に示される空間コーダ900は、フィルタバンク912の信号に依存するスイッチングを実行するまたはフィルタバンク912の変換計算ルールを選択する可能な実現手段を表す。フィルタバンク912によって音響入力信号(複数)または音響入力信号104を周波数表現(例えばSTFTドメインに)に変換する前に、入力信号(複数)または入力信号104は、信号特性判定器908の拍手検出器910に渡される。音響入力信号104は、時間ドメインにおいて拍手検出器910に渡される。信号特性判定器908の拍手検出器910は、判定された信号特性110(このケースでは、音響入力信号104が拍手のような信号に対応する成分を含むか否かをシグナルする)に基づいてフィルタバンク912を制御する。音響入力信号(複数)または音響入力信号104において拍手が検出された場合に、制御可能パラメータ推定器900は、拍手の解析に対して適当であるフィルタバンクへ切替える、または言い換えれば、フィルタバンク912において変換計算ルールが選択される。拍手が存在しないケースでは、例えば、方向オーディオコーダ200から知ることができる従来のフィルタバンクまたは言い換えれば従来の変換計算ルールが用いられる。音響入力信号104をSTFTドメイン(または他の周波数表現)に変換した後に、従来の方向オーディオ符号化処理を、(制御可能パラメータ推定器906のBフォーマット演算ブロック914とパラメータ推定ブロック916を用いて)実行することができる。言い換えれば、空間パラメータ102を構成し、空間オーディオプロセッサ900によって判定される、方向オーディオ符号化パラメータの判定は、Bフォーマット演算ブロック914とパラメータ推定ブロック916を用いて、図2に示された方向オーディオコーダ200に記載されたように実行することができる。結果は、例えば、方向オーディオ符号化パラメータ、すなわち方向ψ(k,n)と拡散Ψ(k,n)である。
または言い換えると、空間オーディオプロセッサ900は、拍手信号または拍手のような信号の場合にフィルタバンクを切替えることによって、方向オーディオ符号化パラメータの推定が改善されるコンセプトを提供する。
要するに、制御可能パラメータ推定器906は、第1の変換計算ルールが、周波数表現における音響入力信号の第2の変換計算ルールより高い時間分解能に対応し、第2の変換計算ルールが、周波数表現における音響入力信号の第1の変換計算ルールより高いスペクトル分解能に対応するように、構成される。
信号特性判定器908の拍手検出器910は、例えば、音響入力信号104が拍手のような信号を備える場合に、例えば、ユーザによって生成されたメタデータに基づいて判定することができる。
図9に示される空間オーディオプロセッサ900は、ここでSAMのフィルタバンクが信号特性判定器908の拍手検出器910によって制御されるという差異を有する同様の方法で、SAM解析に適用することもできる。
本発明の更なる実施形態において、制御可能パラメータ推定器は、各パラメータ推定戦略に対して、制御可能パラメータ推定器が音響入力信号の空間パラメータのセットを判定するように、判定された信号特性と独立して異なるパラメータ推定戦略を用いて空間パラメータを判定することができる。制御可能パラメータ推定器は、判定された信号特性に従って、音響入力信号の空間パラメータとして、そしてそれ故に推定プロセスの結果として、判定された空間パラメータのセットからワンセットの空間パラメータを選択するように更に構成することができる。例えば、第1の可変空間パラメータ計算ルールは、各パラメータ推定戦略に対して音響入力信号の空間パラメータを判定し、第1のパラメータ推定戦略によって判定された空間パラメータのセットを選択することを備えることができる。
第2の可変空間パラメータ計算ルールは、各パラメータ推定戦略に対して音響入力信号の空間パラメータを判定し、第2のパラメータ推定戦略によって判定された空間パラメータのセットを選択することを備えることができる。
図10は、本発明の実施形態かかる方法1000のフロー図を示す。
音響入力信号に基づいて空間パラメータを提供する方法1000は、音響入力信号の信号特性を判定するステップ1010を備える。
方法1000は、判定された信号特性に従って可変空間パラメータ計算ルールを修正するステップ1020を更に備える。
方法1000は、可変空間パラメータ計算ルールに従って音響入力信号の空間パラメータを計算するステップ1030を更に備える。
本発明の実施形態は、空間音響表現に対するシステムにおいて、音響入力信号、すなわちマイクロフォン信号の特性に基づいてパラメータ推定戦略を制御する方法に関する。
以下において、本発明の実施形態のいくつかの側面が要約される。
本発明の少なくともいくつかの実施形態は、音響多重チャンネルのオーディオ信号、すなわちマイクロフォン信号を受信するように構成される。音響入力信号から、本発明の実施形態は特定の信号特性を判定することができる。信号特性に基づいて、本発明の実施形態はベストフィットする信号モデルを選択することができる。信号モデルは、次にパラメータ推定戦略を制御することができる。制御されたまたは選択されたパラメータ推定戦略に基づいて、本発明の実施形態は与えられた音響入力信号に対してベストフィットする空間パラメータを推定することができる。
パラメータ音場記述の推定は、音響入力信号についての特定の仮説に依存する。しかしながら、この入力は、有意の時間分散を呈する可能性があり、従って一般的な時間不変モデルはしばしば不適切である。パラメータ符号化において、この問題は、信号特性を事前に識別し、次に時間変化する方法でベストの符号化戦略を選択することによって解決することができる。本発明の実施形態は、音響入力信号の信号特性を、事前でなく連続的に、例えばブロックワイズに、例えば周波数サブバンドと時間スロットに対して、または周波数サブバンドのサブセットおよび/または時間スロットのサブセットに対して判定する。本発明の実施形態は、この戦略を、方向オーディオ符号化(DirAC)または空間オーディオマイクロフォン(SAM)のようなパラメータ空間オーディオ処理および/または空間オーディオ符号化に対する音響フロントエンドに適用することができる。
パラメータ空間オーディオ符号化におけるパラメータ推定に対して、マイクロフォン信号または他の音響入力信号に基づいて時間変化する信号依存データ処理戦略を用いることが、本発明の実施形態のアイデアである。
本発明の実施形態は、方向オーディオ符号化におけるパラメータ推定に主に焦点をおいて記載されているが、提案されたコンセプトは、空間オーディオマイクロフォンのような他のパラメータアプローチにも適用することができる。
本発明の実施形態は、空間音響に対して、音響入力信号に基づいて信号適応パラメータ推定を提供する。
本発明の異なる実施形態が記載されてきた。本発明のいくつかの実施形態は、入力信号の定常性インターバルに従ってパラメータ推定を実行する。本発明の更なる実施形態は、ダブルトークの状況に従ってパラメータ推定を実行する。本発明の更なる実施形態は、入力信号のSN比に従ってパラメータ推定を実行する。本発明の更なる実施形態は、入力SN比に従って音響強度ベクトルの平均演算に基づいてパラメータ推定を実行する。本発明の更なる実施形態は、入力SN比に従って推定された方向パラメータの平均演算に基づいてパラメータ推定を実行する。本発明の更なる実施形態は、入力SN比に従って適切なフィルタバンクまたは適切な変換計算ルールを選択することによってパラメータ推定を実行する。本発明の更なる実施形態は、音響入力信号の音調性に従ってパラメータ推定を実行する。本発明の更なる実施形態は、拍手のような信号に従ってパラメータ推定を実行する。
空間オーディオプロセッサは、一般に、空間オーディオを処理し、パラメータ情報を生成するまたは処理する装置とすることができる。
実施変形例
いくつかの側面が装置の文脈において記載されてきたが、これらの側面は、対応する方法の記述をも表していることは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈において記載された側面は、対応する装置の対応するブロックまたはアイテムまたは特徴の記述をも表している。一部または全ての方法ステップは、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって(または用いて)実行することができる。いくつかの実施形態において、1つ以上の最も重要な方法ステップは、このような装置によって実行することができる。
本発明の実施形態は、特定の実施要求に従って、ハードウェアにおいてまたはソフトウェアにおいて実装することができる。実施は、その上に格納される電子的に読み込み可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)デジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを用いて実行することができる。それ故に、デジタル記憶媒体は、コンピュータ読取可能とすることができる。
本発明にかかるいくつかの実施形態は、電子的に読込可能な制御信号を有し、本願明細書に記載された方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる、データキャリアを含む。
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するとき、本発明の方法の1つを実行するために動作可能であるプログラムコードを有するコンピュータプログラム製品として実施することができる。プログラムコードは、例えば、機械読取可能なキャリア上に記憶することができる。
他の実施形態は、機械読取可能なキャリア上に記憶され、本願明細書に記載された方法の1つを実行するコンピュータプログラムを備える。
言い換えれば、本発明の方法の実施形態は、それ故に、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記載された方法の1つを実行するプログラムコードを有するコンピュータプログラムである。
発明の方法の更なる実施形態は、それ故に、その上に記録され、本願明細書に記載された方法の1つを実行するコンピュータプログラムを備えるデータキャリア(またはデジタル記憶媒体またはコンピュータ読取可能媒体)である。
発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の1つを実行するコンピュータプログラムを表しているデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、データ通信接続、例えばインターネットを介して伝送されるように構成することができる。
更なる実施形態は、本願明細書に記載された方法の1つを実行するように構成され、または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを備える。
更なる実施形態は、本願明細書に記載された方法の1つを実行するコンピュータプログラムがインストールされたコンピュータを備える。
いくつかの実施形態では、プログラマブルロジックデバイス(例えばフィールドプログラマブルゲートアレイ)を、本願明細書に記載された方法の機能の一部または全部を実行するために用いることができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本願明細書に記載された方法の1つを実行するために、マイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置によっても実行される。
上述した実施形態は、単に本発明の原理に対して説明されたものである。本願明細書に記載された構成および詳細の修正および変更は、他の当業者にとって明らかであると理解される。本発明は、それ故に、特許クレームのスコープのみによって制限され、本願明細書の実施形態の記述および説明によって提供された特定の詳細によって制限されないことを意図する。

Claims (12)

  1. 音響入力信号(104)に基づいて空間パラメータ(102、ψ(k,n)、Ψ(k,n))を提供する空間オーディオプロセッサであって、
    前記音響入力信号は、少なくとも1つの方向成分を備え、前記音響入力信号(104)の信号特性(110、710、810)を判定するように構成された、信号特性判定器(108、308、408、508、608、808、908)と、
    前記音響入力信号(104)に対して、可変空間パラメータ計算ルールに従って前記空間パラメータ(102、ψ(k,n)、Ψ(k,n))を計算する、制御可能パラメータ推定器(106、306、406、506、606、606a、606b、806、906)とを備え、
    前記制御可能パラメータ推定器(106、306、406、506、606、606a、606b、806、906)は、前記判定された信号特性(110、710、810)に従って、前記可変空間パラメータ計算ルールを修正するように構成され
    前記制御可能パラメータ推定器(406、506、906)は、前記判定された信号特性(110)に従って、前記空間パラメータ(102、Ψ(k,n)、ψ(k,n))を計算するための複数の空間パラメータ計算ルール(410、412)から1つの空間パラメータ計算ルール(410、412)を選択するように構成され、
    前記制御可能パラメータ推定器(406、506)は、前記複数の空間パラメータ計算ルール(410、412)からの第1の空間パラメータ計算ルール(410)が、前記複数の空間パラメータ計算ルール(410、412)からの第2の空間パラメータ計算ルール(412)と異なるように構成され、前記第1の空間パラメータ計算ルール(410)と前記第2の空間パラメータ計算ルール(412)は、周波数サブバンドにおける複数の時間スロットに亘る時間平均演算と、時間スロットにおける複数の周波数サブバンドに亘る周波数平均演算と、時間平均演算および周波数平均演算と、いかなる平均演算もないものとからなるグループから選択され、
    前記信号特性判定器(308)は、前記音響入力信号(104)の定常性インターバルを判定するように構成され、
    前記制御可能パラメータ推定器(306)は、前記判定された定常性インターバルに従って、前記空間パラメータ(102、Ψ(k,n)、ψ(k,n))を計算するための平均演算期間が、比較的長い定常性インターバルに対して比較的長く、比較的短い定常性インターバルに対して比較的短いように、前記可変空間パラメータ計算ルールを修正するように構成された、
    空間オーディオプロセッサ。
  2. 前記空間パラメータ(102)は、音響の方向、および/または音響の拡散、および/または音響の方向の統計的尺度を備えた、請求項1に記載の空間オーディオプロセッサ。
  3. 前記制御可能パラメータ推定器(106、306、406、506、606、606a、606b、806、906)は、時間スロット(n)と周波数サブバンド(k)に対する拡散パラメータ(Ψ(k,n))および/または時間スロット(n)と周波数サブバンド(k)に対する到来の方向パラメータ(ψ(k,n))を備える方向オーディオ符号化パラメータとして、または空間オーディオマイクロフォンパラメータとして、空間パラメータ(102、ψ(k,n)、Ψ(k,n))を計算するように構成された、請求項1または2に記載の空間オーディオプロセッサ。
  4. 前記制御可能パラメータ推定器(306)は、前記音響入力信号(104)から、時間スロット(n)と周波数サブバンド(k)に対して、前記音響入力信号(104)の信号パラメータ(Ia(k,n))の少なくとも1つの時間平均演算に基づいて、前記空間パラメータ(102、Ψ(k,n))を計算するように構成され、
    前記制御可能パラメータ推定器(306)は、前記判定された定常性インターバルに従って、前記音響入力信号(104)の前記信号パラメータ(Ia(k,n))の前記時間平均演算の平均演算期間を変化させるように構成された、
    請求項1〜3のいずれかに記載の空間オーディオプロセッサ。
  5. 前記制御可能パラメータ推定器(306)は、ローパスフィルタを用いて、前記音響入力信号(104)の前記信号パラメータ(Ia(k,n))の前記時間平均演算を適用するように構成され、
    前記制御可能パラメータ推定器(306)は、重みパラメータ(α)に基づいて、前記音響入力信号(104)の現在の信号パラメータと前記音響入力信号(104)の前の信号パラメータとの間の重みを、前記平均演算期間は前記重みパラメータ(α)に基づき、前記前の信号パラメータの重みと比較した前記現在の信号パラメータの重みが比較的短い定常性インターバルに対して比較的高く、前記前の信号パラメータの重みと比較した前記現在の信号パラメータの重みが比較的長い定常性インターバルに対して比較的低いように、調整するように構成された、
    請求項に記載の空間オーディオプロセッサ。
  6. 前記信号特性判定器(408)は、前記音響入力信号(104)が異なる音源からの成分を同時に備える場合に判定するように構成され、または、前記信号特性判定器(508)は、前記音響入力信号(104)の音調性を判定するように構成され、
    前記制御可能パラメータ推定器(406、506)は、前記音響入力信号(104)が最大で1つの音源の成分を備えるとき、または、前記音響入力信号(104)の音調性が所定の音調性しきい値レベルより下にあるとき、複数の空間パラメータ計算ルール(410、412)から第1の空間パラメータ計算ルール(410)が選択され、前記音響入力信号(104)が同時に複数の音源の成分を備えるとき、または、前記音響入力信号(104)の音調性が所定の音調性しきい値レベルより上にあるとき、複数の空間パラメータ計算ルール(410、412)から第2の空間パラメータ計算ルール(412)が選択されるように、前記信号特性判定の結果に従って、前記複数の空間パラメータ計算ルール(410、412)から、空間パラメータ(102、Ψ(k,n)、ψ(k,n))を計算するための空間パラメータ計算ルール(410、412)を選択するように構成され、
    前記第1の空間パラメータ計算ルール(410)は、第1の数の周波数サブバンド(k)に亘る周波数平均演算を含み、前記第2の空間パラメータ計算ルール(412)は、第2の数の周波数サブバンド(k)に亘る周波数平均演算を含むかまたは周波数平均演算を含まないものであって、
    前記第1の数は、前記第2の数より大きい、
    請求項1〜のいずれかに記載の空間オーディオプロセッサ。
  7. 前記信号特性判定器(608)は、前記音響入力信号(104)のSN比(110、710)を判定するように構成され、
    前記制御可能パラメータ推定器(606、606a、606b)は、周波数サブバンド(k)における複数の時間スロットに亘る時間平均演算、時間スロット(n)における複数の周波数サブバンド(k)に亘る周波数平均演算、空間平均演算、またはそれらの組合せ適用するように構成され、
    前記制御可能パラメータ推定器(606、606a、606b)は、前記判定されたSN比(110、710)に従って、前記時間平均演算の、前記周波数平均演算の、前記空間平均演算の、または前記それらの組合せの平均演算期間を、前記平均演算期間が前記音響入力信号の比較的低いSN比(110、710)に対して比較的長いように、前記平均演算期間が前記音響入力信号(104)の比較的高いSN比(110、710)に対して比較的短いように、変化させるように構成された、
    請求項1〜のいずれかに記載の空間オーディオプロセッサ。
  8. 前記制御可能パラメータ推定器(606a、606b)は、前記時間平均演算を、複数の時間スロットと周波数サブバンド(k)に亘って強度パラメータ(Ia(k,n))のサブセットに、または複数の時間スロットと周波数サブバンド(k)に亘って到来の方向パラメータ(ψ(k,n))のサブセットに、適用するように構成され、
    前記強度パラメータ(Ia(k,n))のサブセットにおける強度パラメータ(Ia(k,n))の数、または前記到来の方向パラメータ(ψ(k,n))のサブセットにおける到来の方向パラメータ(ψ(k,n))の数が、前記音響入力信号(104)の比較的高いSN比(110、710)に対して比較的低く、前記強度パラメータ(Ia(k,n))のサブセットにおける強度パラメータ(Ia(k,n))の数、または前記到来の方向パラメータ(ψ(k,n))のサブセットにおける到来の方向パラメータ(ψ(k,n))の数が、前記音響入力信号(104)の比較的低いSN比(110、710)に対して比較的高いように、前記強度パラメータ(Ia(k,n))のサブセットにおける強度パラメータ(Ia(k,n))の数、または前記到来の方向パラメータ(ψ(k,n))のサブセットにおける到来の方向パラメータ(ψ(k,n))の数が前記時間平均演算の平均演算期間に対応する、
    請求項に記載の空間オーディオプロセッサ。
  9. 前記信号特性判定器(608)は、前記音響入力信号(104)の各SN比パラメータが周波数サブバンドと時間スロットに関連する前記音響入力信号(104)の複数のSN比パラメータとして、前記音響入力信号(104)のSN比(110、710)を提供するように構成され、前記制御可能パラメータ推定器(606a、606b)は、各目標SN比パラメータが周波数サブバンドと時間スロットに関連する複数の目標SN比パラメータとして、目標SN比(712)を受信するように構成され、
    前記制御可能パラメータ推定器(606a、606b)は、前記音響入力信号の現在のSN比パラメータに従って、現在のSN比パラメータ(102)が現在の目標SN比パラメータにマッチするように、前記時間平均演算の平均演算期間を変化させるように構成された、
    請求項またはに記載の空間オーディオプロセッサ。
  10. 前記信号特性判定器(908)は、前記音響入力信号(104)が拍手のような信号に対応するトランジェント成分を備える場合に判定するように構成され、
    前記制御可能パラメータ推定器(906)は、前記音響入力信号(104)を変換計算ルールに基づいて時間ドメインから周波数表現に変換するように構成されたフィルタバンク(912)を備え、
    前記制御可能パラメータ推定器(906)は、前記音響入力信号(104)が拍手のような信号に対応する成分を備えるとき、前記音響入力信号(104)を前記時間ドメインから周波数表現に変換する第1の変換計算ルールが複数の変換計算ルールから選択され、前記音響入力信号(104)が拍手のような信号に対応する成分を備えないとき、前記音響入力信号(104)を前記時間ドメインから周波数表現に変換する第2の変換計算ルールが複数の変換計算ルールから選択されるように、前記信号特性判定の結果に従って、前記音響入力信号(104)を時間ドメインから周波数表現に変換する変換計算ルールを複数の計算ルールから選択するように構成された、
    請求項1〜のいずれかに記載の空間オーディオプロセッサ。
  11. 音響入力信号に基づいて空間パラメータを提供する方法であって、
    前記音響入力信号は、少なくとも1つの方向成分を備え、前記音響入力信号の信号特性を判定するステップ(1010)と、
    前記判定された信号特性に従って、可変空間パラメータ計算ルールを修正するステップ(1020)と、
    前記可変空間パラメータ計算ルールに従って、前記音響入力信号の空間パラメータを計算するステップ(1030)と、
    を備え、
    前記判定された信号特性(110)に従って、前記空間パラメータ(102、Ψ(k,n)、ψ(k,n))を計算するための複数の空間パラメータ計算ルール(410、412)から1つの空間パラメータ計算ルール(410、412)が選択され、
    前記複数の空間パラメータ計算ルール(410、412)からの第1の空間パラメータ計算ルール(410)は、前記複数の空間パラメータ計算ルール(410、412)からの第2の空間パラメータ計算ルール(412)と異なり、前記第1の空間パラメータ計算ルール(410)と前記第2の空間パラメータ計算ルール(412)は、周波数サブバンドにおける複数の時間スロットに亘る時間平均演算と、時間スロットにおける複数の周波数サブバンドに亘る周波数平均演算と、時間平均演算および周波数平均演算と、いかなる平均演算もないものとからなるグループから選択され、
    前記音響入力信号(104)の定常性インターバルが判定され、
    前記判定された定常性インターバルに従って、前記空間パラメータ(102、Ψ(k,n)、ψ(k,n))を計算するための平均演算期間が、比較的長い定常性インターバルに対して比較的長く、比較的短い定常性インターバルに対して比較的短いように、前記可変空間パラメータ計算ルールが修正される、
    方法。
  12. コンピュータプログラムがコンピュータ上で実行されるとき、請求項11に記載された方法を実行するプログラムコードを有する、コンピュータプログラム。
JP2013501726A 2010-03-29 2011-03-16 空間オーディオプロセッサおよび音響入力信号に基づいて空間パラメータを提供する方法 Active JP5706513B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US31868910P 2010-03-29 2010-03-29
US61/318,689 2010-03-29
EP10186808.1A EP2375410B1 (en) 2010-03-29 2010-10-07 A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal
EP10186808.1 2010-10-07
PCT/EP2011/053958 WO2011120800A1 (en) 2010-03-29 2011-03-16 A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal

Publications (2)

Publication Number Publication Date
JP2013524267A JP2013524267A (ja) 2013-06-17
JP5706513B2 true JP5706513B2 (ja) 2015-04-22

Family

ID=44023044

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013501726A Active JP5706513B2 (ja) 2010-03-29 2011-03-16 空間オーディオプロセッサおよび音響入力信号に基づいて空間パラメータを提供する方法

Country Status (14)

Country Link
US (2) US9626974B2 (ja)
EP (2) EP2375410B1 (ja)
JP (1) JP5706513B2 (ja)
KR (1) KR101442377B1 (ja)
CN (1) CN102918588B (ja)
AU (1) AU2011234772B2 (ja)
BR (1) BR112012025013B1 (ja)
CA (1) CA2794946C (ja)
ES (2) ES2656815T3 (ja)
HK (1) HK1180824A1 (ja)
MX (1) MX2012011203A (ja)
PL (1) PL2543037T3 (ja)
RU (1) RU2596592C2 (ja)
WO (1) WO2011120800A1 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2727378B1 (en) 2011-07-01 2019-10-16 Dolby Laboratories Licensing Corporation Audio playback system monitoring
US9858942B2 (en) * 2011-07-07 2018-01-02 Nuance Communications, Inc. Single channel suppression of impulsive interferences in noisy speech signals
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9854377B2 (en) * 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
EP3933834A1 (en) 2013-07-05 2022-01-05 Dolby International AB Enhanced soundfield coding using parametric component generation
CN104299615B (zh) * 2013-07-16 2017-11-17 华为技术有限公司 一种声道间电平差处理方法及装置
KR102231755B1 (ko) 2013-10-25 2021-03-24 삼성전자주식회사 입체 음향 재생 방법 및 장치
KR102112018B1 (ko) * 2013-11-08 2020-05-18 한국전자통신연구원 영상 회의 시스템에서의 음향 반향 제거 장치 및 방법
EP2884491A1 (en) * 2013-12-11 2015-06-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraction of reverberant sound using microphone arrays
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9462406B2 (en) 2014-07-17 2016-10-04 Nokia Technologies Oy Method and apparatus for facilitating spatial audio capture with multiple devices
CN105336333B (zh) * 2014-08-12 2019-07-05 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
CN105989851B (zh) 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
EP3579577A1 (en) * 2016-03-15 2019-12-11 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating a sound field description
EP3264802A1 (en) * 2016-06-30 2018-01-03 Nokia Technologies Oy Spatial audio processing for moving sound sources
CN107731238B (zh) 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
CN107785025B (zh) * 2016-08-25 2021-06-22 上海英波声学工程技术股份有限公司 基于房间脉冲响应重复测量的噪声去除方法及装置
EP3297298B1 (en) 2016-09-19 2020-05-06 A-Volute Method for reproducing spatially distributed sounds
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
US10020813B1 (en) * 2017-01-09 2018-07-10 Microsoft Technology Licensing, Llc Scaleable DLL clocking system
JP6788272B2 (ja) * 2017-02-21 2020-11-25 オンフューチャー株式会社 音源の検出方法及びその検出装置
EP3649640A1 (en) 2017-07-03 2020-05-13 Dolby International AB Low complexity dense transient events detection and coding
WO2019070722A1 (en) * 2017-10-03 2019-04-11 Bose Corporation SPACE DIAGRAM DETECTOR
US10165388B1 (en) * 2017-11-15 2018-12-25 Adobe Systems Incorporated Particle-based spatial audio visualization
JP7175979B2 (ja) * 2017-11-17 2022-11-21 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 様々な時間/周波数分解能を使用して指向性オーディオコーディングパラメータを符号化または復号するための装置および方法
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
CN109831731B (zh) * 2019-02-15 2020-08-04 杭州嘉楠耘智信息科技有限公司 音源定向方法及装置和计算机可读存储介质
CN110007276B (zh) * 2019-04-18 2021-01-12 太原理工大学 一种声源定位方法及系统
US10964305B2 (en) 2019-05-20 2021-03-30 Bose Corporation Mitigating impact of double talk for residual echo suppressors
GB2598932A (en) * 2020-09-18 2022-03-23 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
CN112969134B (zh) * 2021-02-07 2022-05-10 深圳市微纳感知计算技术有限公司 麦克风异常检测方法、装置、设备及存储介质
CN114639398B (zh) * 2022-03-10 2023-05-26 电子科技大学 一种基于麦克风阵列的宽带doa估计方法
GB202211013D0 (en) * 2022-07-28 2022-09-14 Nokia Technologies Oy Determining spatial audio parameters

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3812887B2 (ja) 2001-12-21 2006-08-23 富士通株式会社 信号処理システムおよび方法
JP2005533271A (ja) * 2002-07-16 2005-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
RU2383941C2 (ru) * 2005-06-30 2010-03-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для кодирования и декодирования аудиосигналов
JP2007178684A (ja) * 2005-12-27 2007-07-12 Matsushita Electric Ind Co Ltd マルチチャンネルオーディオ復号装置
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
WO2009084918A1 (en) * 2007-12-31 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal
WO2009116280A1 (ja) * 2008-03-19 2009-09-24 パナソニック株式会社 ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
BR122020009727B1 (pt) * 2008-05-23 2021-04-06 Koninklijke Philips N.V. Método
ES2592416T3 (es) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
CN101673549B (zh) * 2009-09-28 2011-12-14 武汉大学 一种移动音源空间音频参数预测编解码方法及系统

Also Published As

Publication number Publication date
EP2543037B8 (en) 2014-04-23
EP2375410B1 (en) 2017-11-22
PL2543037T3 (pl) 2014-08-29
MX2012011203A (es) 2013-02-15
HK1180824A1 (en) 2013-10-25
CA2794946C (en) 2017-02-28
WO2011120800A1 (en) 2011-10-06
BR112012025013B1 (pt) 2021-08-31
CA2794946A1 (en) 2011-10-06
US10327088B2 (en) 2019-06-18
CN102918588B (zh) 2014-11-05
RU2012145972A (ru) 2014-11-27
RU2596592C2 (ru) 2016-09-10
EP2543037A1 (en) 2013-01-09
US20130022206A1 (en) 2013-01-24
US20170134876A1 (en) 2017-05-11
AU2011234772A1 (en) 2012-11-08
CN102918588A (zh) 2013-02-06
JP2013524267A (ja) 2013-06-17
KR20130007634A (ko) 2013-01-18
AU2011234772B2 (en) 2014-09-04
EP2375410A1 (en) 2011-10-12
ES2452557T3 (es) 2014-04-01
US9626974B2 (en) 2017-04-18
EP2543037B1 (en) 2014-03-05
BR112012025013A2 (pt) 2020-10-13
KR101442377B1 (ko) 2014-09-17
ES2656815T3 (es) 2018-02-28

Similar Documents

Publication Publication Date Title
JP5706513B2 (ja) 空間オーディオプロセッサおよび音響入力信号に基づいて空間パラメータを提供する方法
US10580411B2 (en) Talker change detection
JP6636633B2 (ja) 音響信号を向上させるための音響信号処理装置および方法
JP6196320B2 (ja) 複数の瞬間到来方向推定を用いるインフォ−ムド空間フィルタリングのフィルタおよび方法
RU2762302C1 (ru) Устройство, способ или компьютерная программа для оценки разности во времени между каналами
KR20150132223A (ko) 오디오 신호 처리를 위한 다채널 다이렉트-앰비언트 분해를 위한 장치 및 방법
EP3080806A1 (en) Extraction of reverberant sound using microphone arrays
GB2453118A (en) Generating a speech audio signal from multiple microphones with suppressed wind noise
US20190098399A1 (en) Spatial clues from broadside detection
US20220060824A1 (en) An Audio Capturing Arrangement
GB2585086A (en) Pre-processing for automatic speech recognition
US20130253923A1 (en) Multichannel enhancement system for preserving spatial cues
Herzog et al. Signal-Dependent Mixing for Direction-Preserving Multichannel Noise Reduction

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140128

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140421

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150226

R150 Certificate of patent or registration of utility model

Ref document number: 5706513

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250