JP6442037B2 - 室内インパルス応答の少なくとも第1のペアに基づいて総ミキシング時間を推定する装置および方法、ならびに対応するコンピュータプログラム - Google Patents

室内インパルス応答の少なくとも第1のペアに基づいて総ミキシング時間を推定する装置および方法、ならびに対応するコンピュータプログラム Download PDF

Info

Publication number
JP6442037B2
JP6442037B2 JP2017500132A JP2017500132A JP6442037B2 JP 6442037 B2 JP6442037 B2 JP 6442037B2 JP 2017500132 A JP2017500132 A JP 2017500132A JP 2017500132 A JP2017500132 A JP 2017500132A JP 6442037 B2 JP6442037 B2 JP 6442037B2
Authority
JP
Japan
Prior art keywords
room impulse
pair
impulse responses
room
impulse response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017500132A
Other languages
English (en)
Other versions
JP2017514414A (ja
Inventor
フォンタナ シモーネ
フォンタナ シモーネ
グロッシェ ピーター
グロッシェ ピーター
セティアワン パンジ
セティアワン パンジ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2017514414A publication Critical patent/JP2017514414A/ja
Application granted granted Critical
Publication of JP6442037B2 publication Critical patent/JP6442037B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H7/00Measuring reverberation time ; room acoustic measurements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Stereophonic System (AREA)

Description

本発明は、室内インパルス応答の少なくとも第1のペアに基づいて総ミキシング時間を推定する装置および方法、ならびにコンピュータ上で走るときに本発明による方法を実行するプログラムコードを備える対応するコンピュータプログラムに関する。
マルチチャンネル音声コンテンツは現在、消費者電子機器においてますます一般的になっている。多くのマルチメディアおよび通信システムでは、没入型の音声が一般的な特徴となりつつある。しかし、没入型の音声は、たとえば22.2レイアウトなど、多数のラウドスピーカを伴う再現レイアウトを必要とすることが多い。これは、2つのラウドスピーカまたはヘッドフォンのみで音声信号を出力し、これらの信号が左右の音声出力チャンネルから出力される、移動デバイス(スマートフォン、タブレットなど)、ならびに遠隔会議の適用、ホームシネマの適用、Hi−Fiの適用などの製品にとって、大きな制約である。
「バーチャルサラウンド」とも呼ばれるバイノーラル化とは、ヘッドフォン、左/右ラウドスピーカ、または他のトランスオーラル装置(ラウドスピーカを介するバイノーラル方式)を使用するリスナに対するマルチチャンネル音声信号のバイノーラル方式の提示である。バイノーラル化を実施する1つの方法は、各ラウドスピーカおよび関係する供給信号を仮想ソースとしてレンダリングすることであり、すなわち供給信号をバイノーラル方式でフィルタリングして、ヘッドフォンを使用しても本物のラウドスピーカのような知覚を取得する。各ラウドスピーカおよび関係する供給信号をバイノーラル方式でレンダリングするために、信号は、所与の室内におけるラウドスピーカの位置に対応してバイノーラル室内インパルス応答,BRIR,でフィルタリングされ、BRIRは、仮想リスナ位置で判定および測定される。
一般に、室内インパルス応答,RIR,とは、点源の励振に対する室の応答を1点で測定したものである。典型的には、室内で室内インパルス応答を測定するために、室はラウドスピーカで励振され、異なる位置のマイクロフォンを使用して応答が測定される。図1に関連して説明するように、励振に対する応答がダミーヘッドの耳の中に取り付けられたマイクロフォンで測定された場合、それぞれの2つのチャンネル応答が、バイノーラル室内インパルス応答,BRIR,と呼ばれる。
BRIRは、それぞれのラウドスピーカとリスナの2つの耳(左および右)との間の伝達関数を符号化する。
バイノーラルフィルタリング(binaural filtering)処理に対する例が、図1に表されており、ここで、Hi Xは、チャンネルi信号によってリスナのX耳へ供給されるラウドスピーカのインパルス応答を表す(Xは、左の場合はLまたは右の場合はRとすることができる)。大文字のHは、インパルス応答の周波数領域を表し、小文字のhは、インパルス応答の時間領域表現を表す。図1に概略的に示されるように、リスナ100は、室内の仮想位置にいて、室内のそれぞれの異なる位置にある2つのラウドスピーカ105(スピーカ1)および110(スピーカ2)が音声波を放出し、これらの音声波が、ユーザ100の左耳(L)および右耳(R)によって受け取られる。図1に示されるように、スピーカ105,110の各々に対して、インパルス応答Hのペアが存在する。
バイノーラル化に伴う信号処理は、特に高品質の適用に対して高い計算上の複雑さを招くことができる。複雑さは、バイノーラル室内インパルス応答,BRIR,によるマルチチャンネル入力信号のフィルタリングに関係する。特に、数万のサンプルを容易に超過する可能性のあるBRIRを使用すると、複雑さは極めて高くなる可能性がある。さらに、マルチチャンネルアーキテクチャは、たとえば22.2スピーカレイアウトにおける22個のチャンネルなど、多数のチャンネルからなることがある(2つの低音効果,LFE,チャンネルに関して、これらはソースの局所化に寄与しないため、典型的には異なる処理が使用される)。
バイノーラル化の適用に対する計算上の複雑さを低減させるために、室内のインパルス応答は通常、図2に示される例示的なRIRのリフレクトグラム図にも視覚化される2つの部分、すなわち直接経路および早期反射(D&E)部分、ならびに残響テール(後期部分)に分割される。次いで、2つの部分に対して異なるバイノーラル化方策が使用される。
D&E部分と後期部分との間の遷移点が、ミキシング時間と呼ばれる。ミキシング時間は、実際の時間値(たとえば、ナノ秒、ミリ秒、秒)、または時間点を表すサンプル値で表現することができる。概して、本発明者らは、ミキシング時間の両方の表現を包含するサンプル時間について述べる。早期反射は、個々の反射がもはや区別または知覚されることができなくなるまで密度が増大する離散反射のセットである。図3の例に示される室内インパルス応答振幅/時間図の例で理解されることができるように、D&E部分内の直接的な音は、容易に識別されることができる単一の事象であるのに対して、室内のインパルス応答の早期反射および後期残響は、区別してラベル付けすることがより困難である。
ミキシング時間の推定および判定は、従来技術でかなりよく研究された話題であり、いくつかの解決策が提案されている。
手法の第1の群は、モデルベースの方法であり、体積または幾何形状など、室の特性についてのいくらかの予備知識が存在すると仮定する。ここで、ミキシング時間は、たとえば室内の反射の密度の閾値、または室内の平均自由経路の閾値に基づいて判定される。反射密度および平均自由経路は、いくらかの室内特性に数学的に関係付けられることが可能であり、したがってミキシング時間は、閉形式で計算されることが可能である。手法の第1の群に対する制限および問題は、室内特性の予備知識が必要なことである。典型的には、これらの手法の結果は、実際の室ではなく室のモデルだけに基づくため、それほど精密でない。結果の質は、モデルの質およびモデルに対する実際の室の適合性に強く依存する。
手法の第2の群は、単一の測定された室内インパルス応答を使用して、ミキシング時間を推定する。手法の第2の群は、信号ベースの方法に基づいており、閾値推定を使用して、たとえば(ガウス)確率性の閾値、メモリの閾値、反射検出可能性の閾値、位相ランダム性の閾値を設定する。次いで、ミキシング時間は、所与の測定基準が所与の閾値を下回るまたは上回る時間(またはサンプル)で固定される。しかし、これらの手法の評価は、ミキシング時間の明確な定義がないため問題となる。
意味のある基準を有するために、いくつかの従来技術の研究は、主観的なリスニング試験において知覚ミキシング時間を定義するために、RIRの知覚分析を実行する。そのような研究は典型的には、同じ室内の異なる位置で測定された複数のRIRを利用する。いくつかの場合には、モデルベース、信号ベースの推定量および知覚推定は、回帰方法を使用して併合される。概して、統計的手法は、制限された一貫性を有し、ミキシング時間の非ロバストな推定を与える。統計的方法は、雑音のある検出曲線を提供する傾向があり、したがってそのような曲線上で閾値を適用すると誤りが起きやすく、曲線のわずかな変動が、ミキシング時間推定の大きな変動を招く。さらに、MPEGバイノーラル化フレームワークには、直交ミラーフィルタ,QMF,などの技法によって取得されるRIRまたはBRIRのダウンサンプリングされたサブバンド領域表現が必要とされる。信号ベースのアルゴリズムは、そのような文脈ではこれまで評価されていない。しかし、フルバンドRIRの制限されたロバスト性を考慮すると、ダウンサンプリングされたサブバンド領域において性能は十分でないと仮定することが妥当であり、より短い分析窓は、統計的な不正確さを招くことがあり(窓の長さ、典型的には1024個のサンプルが、複数のサブバンド、典型的には64個に分割される)、フルバンドRIRからダウンサンプリングされたサブバンドRIRへ移る微細構造の変化は、推定の不正確さを招くことがある。
したがって、本発明の目的は、ロバストなミキシング時間推定を可能にする、室内インパルス応答の少なくとも第1のペアに基づいて総ミキシング時間を推定する概念を提供することである。
上記の目的は、添付される独立請求項に提供される解決策によって実現される。有利な実装形態は、それぞれの従属請求項に定義される。
本発明の第1の態様は、室内インパルス応答の少なくとも第1のペアに基づいて総ミキシング時間を推定する装置を提供する。装置は、室内インパルス応答の第1のペアの複数の異なるサンプル時間における室内インパルス応答の第1のペアの第1の室内インパルス応答と室内インパルス応答の第1のペアの第2の室内インパルス応答とのエネルギープロファイル間の差を判定し、室内インパルス応答の第1のペアの第1の室内インパルス応答と第2の室内インパルス応答とのエネルギープロファイル間の差が閾値と同等であるまたはそれより小さい室内インパルス応答の第1のペアに対するミキシング時間として複数のサンプル時間のサンプル時間を設定し、室内インパルス応答の第1のペアに対するミキシング時間に基づいて総ミキシング時間を判定するように構成された処理要素を備える。
本発明の第1の態様による装置は、本出願の導入部分に記載された概念と比較すると増大された精度およびロバスト性で総ミキシング時間を推定することを可能にする。
本発明の第1の態様による装置の第1の実装形態では、装置は、室内インパルス応答の複数のペアに基づいて総ミキシング時間を推定するように構成され、室内インパルス応答の第1のペアは、室内インパルス応答の複数のペア内に含まれ、処理要素は、インパルス応答の複数のペアのインパルス応答の各ペアに対して、室内インパルス応答のそれぞれのペアの複数の異なるサンプル時間における室内インパルス応答のそれぞれのペアの第1の室内インパルス応答と第2の室内インパルス応答とのエネルギープロファイル間の差を判定し、インパルス応答の複数のペアの室内インパルス応答の各ペアに対して、室内インパルス応答のそれぞれのペアの第1の室内インパルス応答と第2の室内インパルス応答とのエネルギープロファイル間の差が閾値と同等であるまたはそれより小さい室内インパルス応答のそれぞれのペアに対するミキシング時間として複数のサンプル時間のサンプル時間を設定し、複数の室内インパルス応答の各々のミキシング時間に基づいて総ミキシング時間を判定するようにさらに構成される。この実装形態は、マルチチャンネルシステムに対する安定したロバストな推定結果を提供する。RIRの1つのペアだけでなくRIRの複数のペアに基づいて総ミキシング時間を導出する可能性を有することによって、ミキシング時間のさらによりロバストな検出が実現されることが可能である。
本発明の第1の態様の第1の実装形態による装置の第2の実装形態では、処理要素は、室内インパルス応答の複数のペアのミキシング時間にわたる平均化に基づいて総ミキシング時間を判定するようにさらに構成される。この解決策は、総ミキシング時間に対する改善されたより精密な結果を提供する。
本発明の第1の態様の第1の実装形態または第2の実装形態による装置の第3の実装形態では、処理要素は、少なくとも室内インパルス応答の複数のペアの一部分に対して、判定されたミキシング時間に重み付けし、重み付けされたミキシング時間に基づいて総ミキシング時間を判定するようにさらに構成される。この解決策は、ミキシング時間に重み付けすることによって、(たとえば、RRのペアの特性を記録することに応じて)総ミキシング時間の推定に対するRIRのペアの寄与が変動されることが可能であるため、より確実な推定結果を提供する。
本発明の第1の態様の第3の実装形態による装置の第4の実装形態では、処理要素は、室内インパルス応答のそれぞれのペアの第1の室内インパルス応答に関連付けられた第1のメタデータおよび室内インパルス応答のそれぞれのペアの第2の室内インパルス応答に関連付けられた第2のメタデータに基づいて、複数の室内インパルス応答の一部分の室内インパルス応答の各ペアのミキシング時間に重み付けするようにさらに構成され、第1のメタデータは、関連付けられた第1の室内インパルス応答を導出するために使用されるソースと受信器との間の相互関係を示し、第2のメタデータは、関連付けられた第2の室内インパルス応答を導出するために使用されるソースと受信器との間の相互関係を示す。この解決策は、関連付けられたソースと受信器との間の相互関係を考慮に入れることによって、室内インパルス応答の特定のペアがミキシング時間を判定するためにどれだけ確実であるかが導出されることが可能であるため、推定結果の強化された正確さを提供する。したがって、不確実であると考えられる室内インパルス応答のペアは、より低い重みを得ることが可能であり、確実であると考えられる室内インパルス応答のペアは、より高い重みを得ることが可能である。
本発明の第1の態様自体または第1の態様の前述の実装形態のいずれかによる装置の第5の実装形態では、処理要素は、後方積分エネルギー差減衰曲線を計算して、エネルギープロファイルの前記差を判定するようにさらに構成される。この解決策は、結果の追加の正確さおよび強化された信頼性を提供する。
本発明の第1の態様の第5の実装形態による装置の第6の実装形態では、処理要素は、平滑化されたエネルギー差を使用して、前記後方積分エネルギー差減衰曲線を計算し、または直接エネルギー差を使用して、前記後方積分エネルギー差減衰曲線を計算し、または振幅差を使用して、前記後方積分エネルギー減衰曲線を計算し、またはレベル差を使用して、前記後方積分エネルギー差減衰曲線を計算するようにさらに構成される。これらの解決策は、有利な良質の推定結果を提供する。
本発明の第1の態様自体または第1の態様の前述の実装形態のいずれかによる装置の第7の実装形態では、処理要素は、第1のインパルス応答と第2のインパルス応答とのエネルギープロファイルの差を導出するように構成され、それにより差は、式
Figure 0006442037
によって計算可能になり、DEDC[n]は、サンプル時間nにおける第1のインパルス応答と第2のインパルス応答とのエネルギープロファイル間の差であり、
Figure 0006442037
は、
Figure 0006442037
の時間的に平滑化されたバージョンであり、|・|は、絶対値を指し、h1[k]は、サンプル時間kにおける第1のインパルス応答の値であり、h2[k]は、サンプル時間kにおける第2の室内インパルス応答の値であり、Pは、第1のペア室内インパルス応答の室内インパルス応答の長さである。この解決策は、結果の正確さに関して特に有利である。
本発明の第1の態様自体または第1の態様の前述の実装形態のいずれかによる装置の第8の実装形態では、処理要素は、第1の室内インパルス応答に関連付けられた第1のメタデータおよび第2の室内インパルス応答に関連付けられた第2のメタデータに基づいて、利用可能な室内インパルス応答のコーパスからインパルス応答の第1のペアを判定するように構成され、第1のメタデータは、第1の室内インパルス応答を導出するために使用されるソースと受信器との間の相互関係を示し、第2のメタデータは、第2の室内インパルス応答を導出するために使用されるソースと受信器との間の相互関係を示す。この解決策は、推定結果のさらに強化された品質を提供する。
本発明の第1の態様自体または第1の態様の前述の実装形態のいずれかによる装置の第9の実装形態では、処理要素は、室内インパルス応答の第1のペアの複数のサブバンド区画に対する複数の異なるサンプル時間における第1の室内インパルス応答と第2の室内インパルス応答とのエネルギープロファイル間の差を判定し、各サブバンド区画に対して別個に、それぞれのサブバンド区画に対する第1の室内インパルス応答と第2の室内インパルス応答とのエネルギープロファイルの差が閾値以下になる対応するサブバンド区画に対するミキシング時間として複数のサンプル時間のサンプル時間を設定し、複数のサブバンド区画に対するミキシング時間に基づいて総ミキシング時間を判定するようにさらに構成される。この解決策は、BRIRのサブバンド表現が与えられる場合でもロバストかつ正確な推定を提供する。
本発明の第1の態様自体または第1の態様の前述の実装形態のいずれかによる装置の第10の実装形態では、閾値は所定であり、または処理要素は、室内インパルス応答の第1のペアに関連付けられたメタデータに基づいて閾値を導出するように構成され、メタデータは、少なくとも室の特性を示し、室内インパルス応答の第1のペアがそれに基づいて導出される。
本発明の第2の態様は、本発明の第1の態様自体または第1の態様の前述の実装形態のいずれかに定義される室内インパルス応答の少なくとも第1のペアに基づいて総ミキシング時間を推定する装置を備える音声信号を復号する音声デコーダを提供する。
本発明の第3の態様は、室内インパルス応答の少なくとも第1のペアに基づいて総ミキシング時間を推定する方法を提供する。方法は、室内インパルス応答の第1のペアの複数の異なるサンプル時間における室内インパルス応答の第1のペアの第1の室内インパルス応答と室内インパルス応答の第1のペアの第2の室内インパルス応答とのエネルギープロファイル間の差を判定するステップと、室内インパルス応答の第1のペアの第1の室内インパルス応答と第2の室内インパルス応答とのエネルギープロファイルの差が閾値以下になる室内インパルス応答の第1のペアに対するミキシング時間として複数のサンプル時間のサンプル時間を設定するステップと、室内インパルス応答の第1のペアに対するミキシング時間に基づいて総ミキシング時間を判定するステップとを含む。
本発明の第3の態様による方法の第2の実装形態では、室内インパルス応答の第1のペアは、バイノーラルインパルス応答である(第1の室内インパルス応答(たとえば、右耳記録位置に対応する)および第2の室内インパルス応答(たとえば、左耳記録位置に対応する)を含む。
第3の態様自体または第1の実装形態による方法の第2の実装形態では、方法は、総ミキシング時間が室内インパルス応答の複数のペアに基づいて推定され、室内インパルス応答の第1のペアは、室内インパルス応答の複数のペア内に含まれる。方法は、インパルス応答の複数のペアのインパルス応答の各ペアに対して、室内インパルス応答のそれぞれのペアの複数の異なるサンプル時間における室内インパルス応答のそれぞれのペアの第1の室内インパルス応答と第2の室内インパルス応答とのエネルギープロファイル間の差を判定するステップと、インパルス応答の複数のペアのインパルス応答の各ペアに対して、室内インパルス応答のそれぞれのペアの第1の室内インパルス応答と第2の室内インパルス応答とのエネルギープロファイルの差が閾値以下になる室内インパルス応答のそれぞれのペアに対するミキシング時間として複数のサンプル時間のサンプル時間を設定するステップと、複数の室内インパルス応答の各々のミキシング時間に基づいて総ミキシング時間を判定するステップとを含む。
第2の実装形態による方法の第3の実装形態では、方法は、室内インパルス応答の複数のペアのミキシング時間にわたる平均化に基づいて総ミキシング時間を判定するステップをさらに含む。
第2または第3の実装形態による方法の第4の実装形態では、方法は、少なくとも室内インパルス応答の複数のペアの一部分に対して、判定されたミキシング時間に重み付けするステップと、重み付けされたミキシング時間に基づいて総ミキシング時間を判定するステップとをさらに含む。
第3の実装形態による方法の第5の実装形態では、方法は、室内インパルス応答のそれぞれのペアの第1の室内インパルス応答に関連付けられた第1のメタデータおよび室内インパルス応答のそれぞれのペアの第2の室内インパルス応答に関連付けられた第2のメタデータに基づいて、複数の室内インパルス応答の一部分の室内インパルス応答の各ペアのミキシング時間に重み付けするステップをさらに含み、第1のメタデータは、関連付けられた第1の室内インパルス応答を導出するために使用されるソースと受信器との間の相互関係を示し、第2のメタデータは、関連付けられた第2の室内インパルス応答を導出するために使用されるソースと受信器との間の相互関係を示す。
第3の態様自体または第3の態様の前述の実装形態のいずれかによる方法の第6の実装形態では、方法は、前記エネルギープロファイルとしてエネルギー減衰曲線、および後方積分エネルギー差減衰曲線を使用して、エネルギー減衰曲線の前記差を判定するステップをさらに含む。
第5の実装形態による方法の第7の実装形態では、方法は、平滑化されたエネルギー差を前記後方積分エネルギー差減衰曲線内で使用するステップ、または直接エネルギー差を前記後方積分エネルギー差減衰曲線内で使用するステップ、または振幅差を前記後方積分エネルギー差減衰曲線内で使用するステップ、またはレベル差を前記後方積分エネルギー差減衰曲線内で使用するステップをさらに含む。
第3の態様自体または第3の態様の前述の実装形態のいずれかによる方法の第8の実装形態では、方法は、第1のインパルス応答と第2のインパルス応答とのエネルギープロファイルの差を導出するステップをさらに含み、それにより差は、式
Figure 0006442037
によって計算可能になり、DEDC[n]は、サンプル時間nにおける第1のインパルス応答と第2のインパルス応答とのエネルギープロファイル間の差であり、
Figure 0006442037
は、
Figure 0006442037
の時間的に平滑化されたバージョンであり、|・|は、絶対値を指し、h1[k]は、サンプル時間kにおける第1のインパルス応答の値であり、h2[k]は、サンプル時間kにおける第2の室内インパルス応答の値であり、Pは、第1のペア室内インパルス応答の室内インパルス応答の長さである。
第3の態様自体または第3の態様の前述の実装形態のいずれかによる方法の第9の実装形態では、方法は、第1の室内インパルス応答に関連付けられた第1のメタデータおよび第2の室内インパルス応答に関連付けられた第2のメタデータに基づいて、利用可能な室内インパルス応答のコーパスからインパルス応答の第1のペアを判定するステップをさらに含み、第1のメタデータは、第1の室内インパルス応答を導出するために使用されるソースと受信器との間の相互関係を示し、第2のメタデータは、第2の室内インパルス応答を導出するために使用されるソースと受信器との間の相互関係を示す。
第3の態様自体または第3の態様の前述の実装形態のいずれかによる方法の第10の実装形態では、方法は、室内インパルス応答の第1のペアの複数のサブバンド区画に対する複数の異なるサンプル時間における第1の室内インパルス応答と第2の室内インパルス応答とのエネルギープロファイル間の差を判定するステップと、各サブバンド区画に対して別個に、それぞれのサブバンド区画に対する第1の室内インパルス応答と第2の室内インパルス応答とのエネルギープロファイルの差が閾値以下になる対応するサブバンド区画に対するミキシング時間として複数のサンプル時間のサンプル時間を設定するステップと、複数のサブバンド区画に対するミキシング時間に基づいて総ミキシング時間を判定するステップとをさらに含む。
第3の態様自体または第3の態様の前述の実装形態の1つによる方法の第11の実装形態では、閾値は所定であり、または方法は、室内インパルス応答の第1のペアに関連付けられたメタデータに基づいて閾値を導出するステップをさらに含み、メタデータは、少なくとも室の特性を示し、室内インパルス応答の第1のペアがそれに基づいて導出される。
本発明の第4の態様は、コンピュータ上で走るときに本発明の第3の態様自体または第3の態様の実装形態のいずれかによる方法を実行するプログラムコードを備えるコンピュータプログラムを提供する。
本発明の上記の第1の態様、第2の態様、第3の態様、および第4の態様は、前述の目的を有利に解決する。様々な前述の実装形態では、さらに有利であるが任意選択の実装形態が定義される。概して、本出願に記載される配置、デバイス、要素、ユニット、および手段などはすべて、ソフトウェアもしくはハードウェア要素またはそれらのあらゆる種類の組合せによって実施されることが可能であることに留意されたい。本出願に記載される様々な実体によって実行されるすべてのステップ、ならびに様々な実体によって実行されるように記載される機能は、それぞれの実体がそれぞれのステップおよび機能を実行するように適合または構成されることを意味することが意図される。特有の実施形態の以下の説明において、概略的な実体によって実行されるべき特有の機能またはステップが、その特有のステップまたは機能を実行するその実体の特有の詳細な要素の説明に反映されていない場合でも、これらの方法および機能は、それぞれのハードウェアもしくはソフトウェア要素またはそれらのあらゆる種類の組合せにおいて実施されることが可能であることが、当業者には明らかなはずである。さらに、本発明の方法およびその様々なステップは、様々な記載される装置要素の機能で実施される。
本発明の上記の態様および実装形態は、添付の図面に関連する特有の実施形態の以下の説明で説明される。
2つの仮想スピーカに対するバイノーラルフィルタリングの概略的な例を示す図である。 ミキシング時間を説明する室内インパルス応答の例を示す図である。 典型的な室内の室内インパルス応答の例を示す図である。 本発明の一実施形態による処理要素を有する装置を備える4チャンネル音声コンテンツを有するMPEG−H 3D音声デコーダの概略的なブロック図である。 図4に示される音声デコーダのバイノーラルレンダラ(binaural renderer)および本発明の一実施形態による処理要素の概略的なブロック図である。 同じ室内の異なる位置で記録されたいくつかの室内インパルス応答に対する異なるエネルギー減衰曲線,EDC,に対する例を示す図である。 室内の異なる位置で記録された2つの室内インパルス応答(RIR)に対するエネルギー減衰曲線(EDC)の図である。 図7aに示される2つのRIRに対する対応する差分エネルギー減衰曲線,DEDC,の図である。 本発明の一実施形態によるバイノーラルレンダラ内で実施されるバイノーラル室内インパルス応答(BRIR)に対するミキシング時間推定の概略的な流れ図である。 本発明の一実施形態によるレンダラ内で実施される複数のRIRペアに対するミキシング時間推定のための方法の概略的な流れ図である。 本発明の実施形態を使用するミキシング時間の推定と従来のサブバンド処理手法とを比較する例示的な図である。 本発明の実施形態を使用するミキシング時間の推定と従来の手法とを比較する別の概略図である。
図4は、本発明の一実施形態による装置の実装例として、4チャンネル音声コンテンツの例に対するMPEG−Hの3D音声デコーダ200の概略的なブロック図を示し、そのような音声デコーダ内のバイノーラルレンダラ205の位置を視覚化する。後に説明される処理要素305を除いて、示されている音声デコーダ200の様々な要素は、MPEG規格および特有の例ではMPEG−H規格の音声デコーダの一般的な周知の要素に対応し、したがってそれぞれの規格文献が参照され、各要素の詳細な説明は省略される。
しかし、図4の現在の4チャンネルの例で理解することができるように、マルチチャンネル音声信号、たとえばmp3またはmp4は、音声デコーダ200のデコーダ210に入力され、音声デコーダ200は信号を復号してマルチチャンネル音声信号を取得し、いくつかのさらなる処理後に、信号は、ミキサ215内でそれぞれ必要とされまたは設計される数の出力音声チャンネルにミキシングされる。バイノーラルレンダラ205内では、この例の4つのチャンネルが、図1に関連して記載される伝達関数Hでそれぞれフィルタリングされ、バイノーラル信号LsおよびRsを取得し、次いでバイノーラル信号LsおよびRsは、ヘッドフォン220などへ入力される。本発明の実施形態は、4チャンネルの例に限定されるものではなく、任意の数のチャンネルに適用されることが可能であることに留意されたい。また、本発明の実施形態は、他の音声コード化およびバイノーラル音声レンダリング環境で実施されることが可能であるため、MPEGの適用に限定されるものではない。
言い換えれば、本発明の実施形態は、この出願ではMPEGデコーダ200の例を使用して記載されるが、本発明の最も簡単な実施形態は、以下に説明される処理要素305を備える装置によって形成されることが可能である。
システムの待ち時間を妥当な値に保ち、高品質の音声体験を与えるために、図4の例に示されるように、バイノーラルレンダラ205内の計算上の複雑さを低減させる技術が必要とされている。MPEGでは、複雑さを低減させるいくつかの技法を使用する高品質であるが複雑さの低いバイノーラルレンダラが開発されてきた。可能な限り最も高い品質を維持しながら複雑さを低減させる1つの部分は、BRIRを異なる部分に分離し、異なる部分の各々に対して異なるフィルタリング方策を適用することである。
次に図5は、図4に示される音声デコーダのバイノーラルレンダラ205ならびに本発明の一実施形態による処理要素305の要素の概略的なブロック図を示す。処理要素305は、たとえば、示されているBRIRパラメータ化要素305であり、バイノーラルレンダラ205に接続される。パラメータ化要素305内で、それぞれのBRIRは、直接および早期(D&E)部分315と、後期残響部分320とに分離される。その後、これらの2つの部分の各々は、バイノーラルレンダラ205内で異なる方法でフィルタリングされる。典型的には、短いD&E部分315は、良好な局所化性能を実現するために、最も高い品質でフィルタリングされる。しかし、室の残響を含むため非常に長くなる可能性のある後期残響部分320は、バイノーラルレンダラ205内でより低い分解能でフィルタリングされる。後期残響は、第1次近似で測定位置に依存しない室の特性であるのに対して、直接経路および早期反射を搬送するインパルス応答の早期部分は、リスナ100およびスピーカ105,110の位置を具体的かつ個々に考慮してモデル化されなければならない(図1参照)。
BRIRの早期部分315は、特定のスピーカおよび入力チャンネルを指し、これは、本物のような再現を提供するために、各入力チャンネルが、対応する早期BRIRでフィルタされなければならないことを意味する。他方、後期部分320は、ラウドスピーカの特有の位置に依存するのではなく、それぞれの室内のすべての位置に対して本質的に同じである。したがって、それぞれのBRIRの後期部分320で各チャンネルをフィルタリングする必要はない。代わりに、同じ後期部分320で各チャンネルをフィルタリングすることが可能である。その結果、バイノーラルレンダラ205内で、すべてのチャンネルの合計が、同じ後期部分320で直接フィルタリングされる。他方、早期部分315は、各チャンネルに対して個々にフィルタリングされる。出力チャンネル(所与の例では2つの出力チャンネル、たとえば22個のチャンネルである入力チャンネルのすべてとは限らない)上で後期部分320のみのフィルタリングを実行することにより、劇的に低減された複雑さをもたらす。さらに、低減されたフィルタリング動作(重畳)自体の最適化により、計算上の複雑さに関してさらに強化された性能をもたらす。
本発明の実施形態は概して、室内インパルス応答(RIR)の少なくとも第1のペアに基づいて総ミキシング時間を推定するための装置および方法に関する。
そのような装置は、図4および図5に示されるように処理要素305を備える。したがって、図2に示される音声デコーダ200は、本発明の一実施形態による装置を形成し、または少なくともそのような装置を備える。
本発明の一実施形態による装置、たとえば音声デコーダ200は、以下でさらに詳細に説明されるように、様々な機能を実行するように構成された処理要素305を備える。この処理要素305は、たとえば、別個の処理要素として図5に示されるパラメータ化要素内で実施され、またはその一部である。概して、装置200の処理要素305は、室内インパルス応答の第1のペアの複数の異なるサンプル時間における室内インパルス応答の第1のペアの第1の室内インパルス応答と室内インパルス応答の第1のペアの第2の室内インパルス応答とのエネルギープロファイル間の差を判定するように構成される。さらに、処理要素305は、室内インパルス応答の第1のペアの第1の室内インパルス応答と第2の室内インパルス応答とのエネルギープロファイル間の差が閾値と等しいまたはそれより小さい室内インパルス応答の第1のペアに対するミキシング時間として複数のサンプル時間のサンプル時間を設定し、室内インパルス応答の第1のペアに対するミキシング時間に基づいて総ミキシング時間を判定するように構成される。室内インパルス応答の第1のペアまたは後に記載される室内インパルス応答の複数のペアは、たとえば、音声デコーダ200内のデータベース内または処理要素305のメモリ要素内に記憶される。本発明の一実施形態による処理要素305は次いで、以下で説明される様々な実施形態および実装の詳細によって総ミキシング時間を判定する。
ミキシング時間の概略的な概念では、室内のソースによって省略される音が、受信器(リスナ、マイクロフォンなど)に直接到達する。これは、直接経路と呼ばれる。直接経路音の後に、室の壁に対する低次反射に起因するいくつかの個別の早期反射が続く。次いで、反射の密度は、個々の反射が区別できなくなる(高い反射密度)ミキシング時間と呼ばれる時間まで増大する。これは、図2および図3に関連して上記ですでに説明されたが、本発明の実施形態および実装形態にも同様に当てはまる。エルゴード的室内では、エネルギーは空間および時間において累進的に均質に拡散され、これは、室内の任意の表面を通る均一のエネルギーの流れおよび室内のすべての位置における一定のエネルギー密度を意味する。その結果、エルゴード的室内に関して、ミキシング時間後、エネルギーの流れおよび密度は、室のあらゆる点で同様に減衰し、したがって室内の任意の位置で測定されるすべてのインパルス応答は、同じエネルギー減衰プロファイルを有する。言い換えれば、エルゴード的システムは、空間において平均化される挙動と同じ、時間において平均化される挙動を有する。事象の1つのシーケンスの時間平均は、集合の平均と同じである。現実世界の室内では、エルゴード性仮定は、典型的には当てはまらず、室内の吸収の不均一の分布、連結された室、非常に小さい室、壁との近接、および/または低周波モードの挙動によって制限されることがある。しかし、バイノーラル化の目標は、快適なリスニング経験を再現することであるため、バイノーラル化コンテンツ内で使用される一般的なBRIRは、音響的に最適のリスニング室を代表する。そのような室内では、前述の制限は、典型的には当てはまらない。本発明者らは、ミキシング時間の推定および実用的なバイノーラル化の適用に対して、エルゴード性が仮定されることが可能であることを見出した。その結果、RIRの後期残響部分315は室内の位置に依存しないと仮定されることが可能である。言い換えれば、エルゴード性仮定に基づいて、ミキシング時間後、エネルギープロファイルは同じ室内の任意の位置で測定されるすべてのRIRに対して同じであるということが可能である。
上述されたように、他の特徴の中でも、総ミキシング時間を推定する本発明の実施形態は、室内インパルス応答のペアの複数の異なるサンプル時間における室内インパルス応答のペアの第1の室内インパルス応答と第2の室内インパルス応答とのエネルギープロファイル間の差の判定に基づく。これによって、本発明の実施形態は、有利にはかつ任意選択で、エネルギープロファイル間の差を判定するために後方積分エネルギー差減衰曲線を使用することを示唆する。そのような後方積分エネルギー減衰曲線は、シュレーダーエネルギー減衰曲線,EDC,とも呼ばれ、いくつかの測定を平均化することと同等である。これらの曲線の主な利益は、それらが常に減少しており、たとえば任意の時刻におけるエネルギーを表す2乗インパルス応答より平滑であることである。その結果、後方積分エネルギー減衰曲線は、ロバストなエネルギー減衰プロファイル推定を提供する。
時係数n∈{1,...,P}を有する長さPのインパルス応答hを考えると、エネルギー減衰曲線EDCは、後方積分エネルギー
Figure 0006442037
として定義される。この定義に従うと、EDC[1]は、インパルス応答hの完全なエネルギーである。
図6は、同じ室内で記録されたインパルス応答のセットに対するそのようなEDCのいくつかの異なる例を示す。X軸はサンプル内の時間を定義し、Y軸はエネルギーを定義する。これらの曲線は、室内音響の重要な部分であり、たとえば残響時間は従来、たとえば−60dBのEDCの閾値を使用して定義される。
上述したように、エルゴード的条件では、室内の異なる点で測定された2つ以上のRIRに対応するEDCは、早期部分で大部分が異なり、後期部分で非常に類似している。この影響は、図6で観察されることが可能であり、EDCは、早期部分で大きな変動を示し、後期部分で同じ値への変換を示す。本発明の実施形態は次に、有利な任意選択の実装形態において、次のように室内の異なる点で測定されたRIRのエネルギー差の減衰プロファイルを捕捉するために差分エネルギー減衰曲線,DEDC,を使用することを示唆する。
長さPの2つのRIR h1,2を考えると、室内の異なる点で測定されるサンプルは、
Figure 0006442037
として定義され、ここで、
Figure 0006442037
は、
Figure 0006442037
の時間的に平滑化されたバージョンであり、|・|は、絶対値を指す。
バイノーラル室内インパルス応答の場合は、ダミーヘッドの2つの耳の中の2つのマイクロフォンが同時に異なる位置(左耳、右耳)で2つのインパルス応答(hL,hR)を提供するため、特殊な場合として考慮されることが可能である。バイノーラルDEDC(B−DEDC)は、
Figure 0006442037
として定義される。これらの等式から理解されることができるように、DEDCおよびB−DEDCは、2つのRIRのエネルギー差の減衰を捕捉する後方積分エネルギー差減衰曲線として理解されることが可能である。
エネルギー差を計算するいくつかの方策が可能である。
・直接エネルギー差
Figure 0006442037
・平滑化されたエネルギー差
Figure 0006442037
・振幅差|h1[k]|−|h2[k]|
・レベル差20log(|h1[k]|)−20log(|h2[k]|)
これによって、ミキシング時間の結果の計算上の労力および正確さの点から、平滑なエネルギー差の使用が有利になり得る。
図7aは、同じ室内の異なる位置で測定されたRIRの2つのEDCを示す。X軸は時間を定義し、Y軸はエネルギーを定義する。明らかに、エネルギー減衰の差は、大部分が早期部分内に位置する。したがって、図7bに示されるように、その結果得られるDEDCは、早期部分内で大きい値を呈し、ゼロの方へ迅速に収束する。X軸はサンプル内の時間を定義し、Y軸はエネルギーを定義する。理論上、DEDCは、ミキシング時間後にゼロになるはずである。しかし実際には、本発明の実施形態によって実行されるように、DEDCの閾値を設定することで、妥当な計算上の労力および良好かつ確実な結果で推定されたミキシング時間を与える。本発明の実施形態は、DEDCまたはBDEDCが初めて閾値を下回る値nを検索することを示唆する。このときこの値nは、ミキシング時間を形成する。図7aおよび図7bの例では、ミキシング時間は、サンプルまたはサンプル番号で表現されるが、時間単位、たとえばミリ秒の表現も可能である。概して、本発明者らは、両方の表現(時間単位およびサンプル番号)を包含するサンプル時間について述べる。
図8は、たとえば室内で測定されたN要素BRIRコーパス、すなわちN個のBRIRのセットを考慮して、室のミキシング時間を推定するための方法の概略的な流れ図を示す。第1のステップ810で、N個のBRIRすべてに対して、2つの対応する応答、すなわち左および右チャンネルが時間的に位置合わせされ、その後、ステップ820で、各ペアに対してB−DEDCが計算される。B−DEDCからミキシング時間を導出するために、閾値が使用される。閾値は、事前設定(固定)されることが可能であり、または室のいくつかの特性、たとえばその残響時間RTに応じて、適合され、可変のものとすることが可能であり、第2の選択肢では、その残響時間はたとえば、ステップ880で、BRIRデータベース870内の室情報から導出されることも可能である。この例では、室情報は残響時間であるが、室の他の適したパラメータが使用されることも可能である。ステップ830で、B−DEDCが閾値を下回るサンプルインデックスまたはサンプル時間は、評価されたBRIRに対するそれぞれのミキシング時間として判定される。たとえば、サンプルインデックス1におけるB−DEDCからの閾値は、−18dBから−23dB(包括的)とすることが可能である。この動作からN個のミキシング時間推定が得られる(各々に対してミキシング時間推定におけるBRIRが導出される)。次いで、ステップ860で、室の総ミキシング時間を取得するために、ステップ850で、N個のミキシング時間は平均化されて記憶される。任意選択で、ペアの各々に重みを与える追加の重み付けステップ840が実施されることが可能である。室内の特定の位置は、それらの確実性がより低いまたは高いことがあるため、より低いまたは高い重みを受け取ることが可能である。たとえば、ダミーヘッド(図1参照)の前面または背面の中心に位置するソースからのBRIR測定は、確実な推定を提供しない。左耳および右耳におけるBRIRの2つの応答が、早期部分に対しても等しいまたは少なくとも非常に類似していると見なされる可能性があるため、推定は確実でない。B−DEDCは理論的には、あらゆる時間値に対してもゼロに等しいはずである。したがって、ステップ840で、中心位置に対応するBRIRに対する重みは、ゼロに設定され得る。
図9は、たとえば本発明の一実施形態による室内で測定された2N要素RIRコーパスを考慮して、室のミキシング時間を推定する方法の流れ図を示す。第1のステップ905で、RIRデータベース970から2つのRIRが選択され、次いでステップ910で、応答が時間的に位置合わせされ、その後、ステップ920で、各ペアに対してDEDCが計算される。ステップ930で、DEDCからミキシング時間を導出するために、閾値が設定され、閾値は、固定されることが可能であり、または図8のステップ830に関連して記載された方法と同様に、室のいくつかの特性、たとえばその残響時間RTに適合されることが可能である。サンプルインデックス1における(選択されたペアの)DEDCからの閾値は、たとえば、−18dBから−23dB(包括的)とすることが可能である。ステップ930で、DEDCが閾値を下回るサンプルインデックスまたはサンプル時間が、それぞれのミキシング時間として判定される。ステップ930で、この動作からN個のミキシング時間推定をもたらし得る。次いで、ミキシング時間は、室に対する最終または総ミキシング時間を取得するために、平均化される。このステップに関して、任意選択で、ステップ940で、ペアに重みを与えることによって、重み付けされた平均が計算されることが可能である。たとえば、室内の特定の位置は、それらがより低いまたは高い確実性となることがあるため、より低いまたは高い重みを実現することが可能である。図8に関連するものに類似の問題は、2つの近接して測定されたRIR、または室の幾何形状に関して対称の位置で測定された2つのRIRに対する重み付けに当てはまる。ステップ905でRIRセクションを実行するRIRペア選択モジュールは、考慮されるペアによって運ばれる有効な情報を考慮して、選択を最適化するスマート選択手順を含むことができる。例として、RIRのペアは、複数のRIRがそれらのエネルギープロファイルに関して(おそらく)最も大きい差を有するRIRのペアに組み合わせられるように選択されることが可能である。RIRペアのこの選択は、重み付けとも同様に、単一のRIRのメタデータに基づくことが可能である。メタデータは、関連付けられた室内インパルス応答を導出するために使用されるソースと受信器との間の相互関係を示す。
図8および図9の流れ図に示され、それに関連して説明される様々なステップは、処理要素305内のそれぞれの機能実体または要素によって実施されることが可能であることに留意されなければならない。本発明の最も簡単な実施形態では、総ミキシング時間は、室内インパルス応答の第1のペアのみから導出される。この簡単な実施形態では、総ミキシング時間は、室内インパルス応答の第1のペアに対して推定されるミキシング時間に等しい。
本発明のさらなる実施形態によれば、DEDCまたはB−DEDCはまた、サブバンド表現から計算されることが可能である。これによって、処理要素305は、室内インパルス応答の第1のペアの複数のサブバンド区画に対する複数の異なるサンプル時間における第1の室内インパルス応答と第2の室内インパルス応答とのエネルギープロファイル間の差を判定するように構成される。さらに、処理要素305は、各サブバンド区画に対して別個に、それぞれのサブバンド区画に対する第1の室内インパルス応答と第2の室内インパルス応答とのエネルギープロファイル間の差が閾値と等しいまたはそれより小さい、対応するサブバンド区画に対するミキシング時間として複数のサンプル時間のサンプル時間を設定するように構成される。さらに、処理要素305は、複数のサブバンド区画に対するミキシング時間に基づいて総ミキシング時間を判定するように構成される。
この場合、インパルス応答のペアの室内インパルス応答h1,h2(BRIRまたはステップ905で選択される)は、まず、たとえばフィルタバンクを使用して、B周波サブバンドhb 1,hb 2,b∈{1,...,B}に分割される。次いで、Bサブバンドミキシング時間推定を得る各サブバンドhb 1、hb 2に対してミキシング時間推定が導出される。
これらのサブバンドミキシング時間推定に基づいて、総ミキシング時間が推定されることが可能である。
X軸がサブバンドインデックスを定義し、Y軸がサンプル内の推定されたミキシング時間を定義する図10から、本出願に記載される概念もロバストであり、MPEG−Hデコーダの直交ミラーフィルタ(QMF)インターフェースによって提供されるものなど、サブバンドがダウンサンプリングされた応答に対処することが理解されることが可能であり、図10は、通常考えられる48個の第1のQMFサブバンドがガウス推定量の結果と比較されて示される場合のサブバンドミキシング推定時間値を示す。
図10は、推定測定基準DEDCの単調な挙動による、記載される概念の増大されたロバスト性を示す。ガウス手法などの従来の統計的手法は、はるかに不安定である。特に前述のサブバンドがダウンサンプリングされた表現に関して、たとえば図10に反映されるようにQMFフィルタバンクによって、この増大されたロバスト性はかなり顕著である。
図10では、円形のマーカ1001は、28個のBRIRにわたって平均化されたB−DEDCから導出されるサブバンドMT値に対応する。まっすぐな点線1003は、B−DEDCに対するサブバンド平均に対応する。星形のマーカ1005は、従来のガウス手法を使用して導出されたサブバンドミキシング時間値を示す(まっすぐな破線1007はそれらの平均)。理解されることができるように、B−DEDCは、低周波に対するより長いミキシング時間および高周波に対する短いミキシング時間の物理的挙動をはるかによく反映する。
図11は、MPEGの文脈で使用される所与のBRIRに対するいくつかのミキシング時間推定を示す。X軸はサンプル内の時間を定義し、Y軸は振幅を定義する。DEDCによって提供される3800個のサンプルのミキシング時間(約80ミリ秒)が、目視検査によって取得され、概してこの室に受け入れられる。
図11は、サブバンド,SB,の文脈でガウス推定を使用するミキシング時間推定に対応する第1の白色の矢印1101と、フルバンド,FB,の文脈でガウス推定を使用するミキシング時間推定に対応する第2の白色の矢印1103とを示す。サブバンドにおけるガウス推定に関して、明らかに、1つの主な反射は考慮されていない。さらに、ガウス結果は、フルバンド,FB,およびサブバンド,SB,の領域に対して一貫していない(2つの白色の矢印はかなり異なる)。
さらに、図11は、サブバンド,SB,の文脈で本発明の実施形態(DEDCに基づく)を使用するミキシング時間推定に対応する第1の黒色の矢印1105と、フルバンド,FB,の文脈で本発明の実施形態を使用するミキシング時間推定に対応する第2の黒色の矢印1107とを示す。本発明の実施形態によるDEDCから導出されるミキシング時間(黒色の矢印1105,1107)は、DEDCの単調な挙動のため2つの文脈によりロバストでありかつ一貫しており、目視検査から導出されるように3800個のサンプルのミキシング時間に対する予期値にはるかに近い。
本発明は、例ならびに実装形態として様々な実施形態とともに記載される。しかし、他の変形形態は、図面、開示、および独立請求項の研究から、クレームされる発明を実施する際に当業者によって理解および実施されることが可能である。特許請求の範囲ならびに説明では、「備える、含む(comprising)」という単語は、他の要素またはステップを排除するものではなく、不定冠詞「a」または「an」は複数を排除するものではない。単一の要素または他のユニットは、特許請求の範囲に定義されるいくつかの実体または物品の機能を満たすことができる。相互に異なるクレームにおいて特定の方策が引用されることだけで、これらの方策の組合せが有利な実装において使用されることが可能でないことを示すものではない。

Claims (15)

  1. 室内インパルス応答の少なくとも第1のペアに基づいて総ミキシング時間を推定するための装置であって、
    室内インパルス応答の前記第1のペアの複数の異なるサンプル時間における室内インパルス応答の前記第1のペアの第1の室内インパルス応答と室内インパルス応答の前記第1のペアの第2の室内インパルス応答とのエネルギープロファイル間の差を判定し、
    室内インパルス応答の前記第1のペアの前記第1の室内インパルス応答と前記第2の室内インパルス応答との前記エネルギープロファイル間の前記差が閾値と同等であるまたはそれよりも小さい室内インパルス応答の前記第1のペアに対するミキシング時間として前記複数のサンプル時間のうち、前記差が閾値と同等であるまたはそれよりも小さい室内インパルス応答の前記第1のペアに対応する各々のサンプル時間を設定し、
    室内インパルス応答の前記第1のペアに対する各々の前記ミキシング時間に基づいて前記総ミキシング時間を判定する
    ように構成された処理要素
    を備え、
    前記エネルギープロファイルは、前記ミキシング時間後において、同じ室内の複数の位置で測定された室内インパルス応答に対して同じになるように定義されることを特徴とする装置。
  2. 前記装置は、室内インパルス応答の複数のペアに基づいて前記総ミキシング時間を推定するように構成され、室内インパルス応答の前記第1のペアは、室内インパルス応答の前記複数のペア内に含まれ、
    前記処理要素は、
    インパルス応答の複数のペアのインパルス応答の各ペアに対して、室内インパルス応答のそれぞれのペアの複数の異なるサンプル時間における室内インパルス応答の前記それぞれのペアの第1の室内インパルス応答と第2の室内インパルス応答とのエネルギープロファイル間の差を判定し、
    インパルス応答の前記複数のペアのインパルス応答の各ペアに対して、室内インパルス応答の前記それぞれのペアの前記第1の室内インパルス応答と前記第2の室内インパルス応答との前記エネルギープロファイル間の前記差が閾値と同等であるまたはそれより小さい室内インパルス応答の前記それぞれのペアに対するミキシング時間として前記複数のサンプル時間のうちの前記サンプル時間を設定し、
    前記複数の室内インパルス応答の各々の前記ミキシング時間に基づいて前記総ミキシング時間を判定するようにさらに構成されることを特徴とする請求項1に記載の装置。
  3. 前記処理要素は、室内インパルス応答の前記複数のペアの前記ミキシング時間にわたる平均化に基づいて前記総ミキシング時間を判定するようにさらに構成されることを特徴とする請求項2に記載の装置。
  4. 前記処理要素は、
    少なくとも室内インパルス応答の前記複数のペアの一部に対して、前記判定されたミキシング時間に重み付けし、
    前記重み付けされたミキシング時間に基づいて前記総ミキシング時間を判定するようにさらに構成されることを特徴とする請求項2または3に記載の装置。
  5. 前記処理要素は、室内インパルス応答の前記それぞれのペアの前記第1の室内インパルス応答に関連付けられた第1のメタデータ、および室内インパルス応答の前記それぞれのペアの前記第2の室内インパルス応答に関連付けられた第2のメタデータに基づいて、前記複数の室内インパルス応答の前記一部の室内インパルス応答の各ペアの前記ミキシング時間に重み付けするようにさらに構成され、前記第1のメタデータは、前記関連付けられた第1の室内インパルス応答を導出するために使用されるソースと受信器との間の相互関係を示し、前記第2のメタデータは、前記関連付けられた第2の室内インパルス応答を導出するために使用されるソースと受信器との間の相互関係を示すことを特徴とする請求項4に記載の装置。
  6. 前記処理要素は、後方積分エネルギー差減衰曲線を計算して、前記エネルギープロファイル間の前記差を判定するようにさらに構成される
    ことを特徴とする請求項1乃至5のいずれか一項に記載の装置。
  7. 前記処理要素は、平滑化されたエネルギー差を使用して、前記後方積分エネルギー差減衰曲線を計算し、または直接エネルギー差を使用して、前記後方積分エネルギー差減衰曲線を計算し、または振幅差を使用して、前記後方積分エネルギー差減衰曲線を計算し、またはレベル差を使用して、前記後方積分エネルギー差減衰曲線を計算するようにさらに構成されることを特徴とする請求項6に記載の装置。
  8. 前記処理要素は、前記第1のインパルス応答と前記第2のインパルス応答との前記エネルギープロファイル間の前記差を導出するように構成され、それにより前記差は、式
    Figure 0006442037
    によって計算可能になり、DEDC[n]は、サンプル時間nにおける前記第1のインパルス応答と前記第2のインパルス応答との前記エネルギープロファイル間の前記差であり、
    Figure 0006442037
    は、
    Figure 0006442037
    の時間的に平滑化されたバージョンであり、|・|は、絶対値を指し、h1[k]は、サンプル時間kにおける前記第1のインパルス応答の値であり、h2[k]は、サンプル時間kにおける前記第2の室内インパルス応答の値であり、Pは、前記第1のペア室内インパルス応答の前記室内インパルス応答の長さであることを特徴とする請求項1乃至6のいずれか一項に記載の装置。
  9. 前記処理要素は、前記第1の室内インパルス応答に関連付けられた第1のメタデータ、および前記第2の室内インパルス応答に関連付けられた第2のメタデータに基づいて、利用可能な室内インパルス応答のコーパスからインパルス応答の前記第1のペアを判定するように構成され、前記第1のメタデータは、前記第1の室内インパルス応答を導出するために使用されるソースと受信器との間の相互関係を示し、前記第2のメタデータは、前記第2の室内インパルス応答を導出するために使用されるソースと受信器との間の相互関係を示すことを特徴とする請求項1乃至8のいずれか一項に記載の装置。
  10. 前記処理要素は、
    室内インパルス応答の前記第1のペアの複数のサブバンド区画に対する前記複数の異なるサンプル時間における前記第1の室内インパルス応答と前記第2の室内インパルス応答との前記エネルギープロファイル間の前記差を判定し、
    各サブバンド区画に対して別個に、それぞれのサブバンド区画に対する前記第1の室内インパルス応答と前記第2の室内インパルス応答との前記エネルギープロファイル間の前記差が閾値と同等であるまたはそれより小さい対応するサブバンド区画に対する前記ミキシング時間として前記複数のサンプル時間の前記サンプル時間を設定し、
    前記複数のサブバンド区画に対する前記ミキシング時間に基づいて前記総ミキシング時間を判定するようにさらに構成されることを特徴とする請求項1乃至9のいずれか一項に記載の装置。
  11. 前記閾値はあらかじめ定められている、または
    前記処理要素は、室内インパルス応答の前記第1のペアに関連付けられたメタデータに基づいて前記閾値を導出するように構成され、前記メタデータは、少なくとも室の特性を示し、前記室内インパルス応答の第1のペアがそれに基づいて導出されることを特徴とする請求項1乃至10のいずれか一項に記載の装置。
  12. 請求項1乃至11のいずれか一項に記載の室内インパルス応答の少なくとも第1のペアに基づいて総ミキシング時間を推定する装置を備えることを特徴とする音声信号を復号する音声デコーダ。
  13. 室内インパルス応答の少なくとも第1のペアに基づいて総ミキシング時間を推定するための方法であって、
    室内インパルス応答の前記第1のペアの複数の異なるサンプル時間における室内インパルス応答の前記第1のペアの第1の室内インパルス応答と室内インパルス応答の前記第1のペアの第2の室内インパルス応答とのエネルギープロファイル間の差を判定するステップと、
    室内インパルス応答の前記第1のペアの前記第1の室内インパルス応答と前記第2の室内インパルス応答との前記エネルギープロファイル間の前記差が閾値と同等であるまたはそれより小さい室内インパルス応答の前記第1のペアに対するミキシング時間として前記複数のサンプル時間のうち、前記差が閾値と同等であるまたはそれよりも小さい室内インパルス応答の前記第1のペアに対応する各々のサンプル時間を設定するステップと、
    室内インパルス応答の前記第1のペアに対する前記ミキシング時間に基づいて前記総ミキシング時間を判定するステップと
    を含み、
    前記差を判定する前記ステップにおいては、前記エネルギープロファイルは、前記ミキシング時間後において、同じ室内の複数の位置で測定された室内インパルス応答に対して同じになるように定義されることを特徴とする方法。
  14. 室内インパルス応答の前記第1のペアは、バイノーラル室内インパルス応答であることを特徴とする請求項13に記載の方法。
  15. コンピュータ上で実行する場合に、請求項13または14に記載の方法を実行するためのプログラムコードを備えることを特徴とするコンピュータプログラム。
JP2017500132A 2014-03-21 2014-03-21 室内インパルス応答の少なくとも第1のペアに基づいて総ミキシング時間を推定する装置および方法、ならびに対応するコンピュータプログラム Active JP6442037B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2014/055703 WO2015139769A1 (en) 2014-03-21 2014-03-21 Apparatus and method for estimating an overall mixing time based on at least a first pair of room impulse responses, as well as corresponding computer program

Publications (2)

Publication Number Publication Date
JP2017514414A JP2017514414A (ja) 2017-06-01
JP6442037B2 true JP6442037B2 (ja) 2018-12-19

Family

ID=50343780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017500132A Active JP6442037B2 (ja) 2014-03-21 2014-03-21 室内インパルス応答の少なくとも第1のペアに基づいて総ミキシング時間を推定する装置および方法、ならびに対応するコンピュータプログラム

Country Status (7)

Country Link
US (1) US9936328B2 (ja)
EP (1) EP3108671B1 (ja)
JP (1) JP6442037B2 (ja)
KR (1) KR101882423B1 (ja)
CN (1) CN105981412B (ja)
BR (1) BR112016021565B1 (ja)
WO (1) WO2015139769A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3001701B1 (en) * 2014-09-24 2018-11-14 Harman Becker Automotive Systems GmbH Audio reproduction systems and methods
JP6977030B2 (ja) * 2016-10-28 2021-12-08 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法
US10388268B2 (en) * 2017-12-08 2019-08-20 Nokia Technologies Oy Apparatus and method for processing volumetric audio
USD936072S1 (en) 2018-03-20 2021-11-16 Intermedia Labs, Inc. Portion of a computer screen with transitional graphical user interface
US11841899B2 (en) 2019-06-28 2023-12-12 Apple Inc. Spatial audio file format for storing capture metadata
CN112153530B (zh) * 2019-06-28 2022-05-27 苹果公司 用于存储捕获元数据的空间音频文件格式

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4328620C1 (de) * 1993-08-26 1995-01-19 Akg Akustische Kino Geraete Verfahren zur Simulation eines Raum- und/oder Klangeindrucks
FI20020865A (fi) * 2002-05-07 2003-11-08 Genelec Oy Menetelmä matalataajuisen modaalisen ekvalisaattorin suunnittelemiseksi erityisesti lähekkäin sijaitsevia moodeja varten
US7567675B2 (en) * 2002-06-21 2009-07-28 Audyssey Laboratories, Inc. System and method for automatic multiple listener room acoustic correction with low filter orders
CN1953620B (zh) * 2006-09-05 2014-04-02 华南理工大学 一种5.1通路虚拟环绕声信号处理方法
KR100899836B1 (ko) * 2007-08-24 2009-05-27 광주과학기술원 실내 충격응답 모델링 방법 및 장치
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
TWI475896B (zh) * 2008-09-25 2015-03-01 Dolby Lab Licensing Corp 單音相容性及揚聲器相容性之立體聲濾波器
US9826328B2 (en) * 2012-08-31 2017-11-21 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
US9420393B2 (en) * 2013-05-29 2016-08-16 Qualcomm Incorporated Binaural rendering of spherical harmonic coefficients

Also Published As

Publication number Publication date
EP3108671B1 (en) 2018-08-22
US9936328B2 (en) 2018-04-03
KR20160130843A (ko) 2016-11-14
EP3108671A1 (en) 2016-12-28
US20170006403A1 (en) 2017-01-05
KR101882423B1 (ko) 2018-08-24
BR112016021565B1 (pt) 2021-11-30
CN105981412A (zh) 2016-09-28
JP2017514414A (ja) 2017-06-01
BR112016021565A2 (pt) 2018-07-10
WO2015139769A1 (en) 2015-09-24
CN105981412B (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
JP6442037B2 (ja) 室内インパルス応答の少なくとも第1のペアに基づいて総ミキシング時間を推定する装置および方法、ならびに対応するコンピュータプログラム
KR102642275B1 (ko) 증강 현실 헤드폰 환경 렌더링
JP5857071B2 (ja) オーディオ・システムおよびその動作方法
KR101471798B1 (ko) 다운믹스기를 이용한 입력 신호 분해 장치 및 방법
US11668600B2 (en) Device and method for adaptation of virtual 3D audio to a real room
US7590248B1 (en) Head related transfer function filter generation
JP6858836B2 (ja) チャネル間時間差パラメータの安定性を増加させるための方法および装置
Coleman et al. Object-based reverberation encoding from first-order Ambisonic RIRs
GB2571949A (en) Temporal spatial audio parameter smoothing
Florencio et al. Maximum a posteriori estimation of room impulse responses
JP6998823B2 (ja) マルチチャンネル客観評価装置及びプログラム
Schäfer et al. Reverberation-Based Post-Processing for Improving Speech Intelligibility
WO2023208333A1 (en) Devices and methods for binaural audio rendering
CN116668935A (zh) 用于混响时间估计的逻辑
CN117501361A (zh) 用于重合立体声捕获的声道间时差(itd)估计器的提高的稳定性
CN115706895A (zh) 使用多个换能器的沉浸式声音再现
van Dorp Schuitman et al. Obtaining objective, content-specific room acoustical parameters using auditory modeling

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180323

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20180511

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20180511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181122

R150 Certificate of patent or registration of utility model

Ref document number: 6442037

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250