JP7208365B2

JP7208365B2 - 仮想３ｄオーディオを現実の室内に適応させる装置及び方法

Info

Publication number: JP7208365B2
Application number: JP2021515072A
Authority: JP
Inventors: リユン・パン; フォンス・アドリアンセン; ソン・リ; ローマン・シュリーパー
Original assignee: ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2023-01-18
Anticipated expiration: 2038-09-18
Also published as: CA3113275A1; KR20210059758A; BR112021005050A2; EP3844747A1; CN112740324A; AU2018442039A8; WO2020057727A1; AU2018442039A1; US11668600B2; CN112740324B; US20210231488A1; JP2022500699A

Description

本発明はバイノーラルオーディオレンダリングの技術分野に関し、そのための、残響時間及びミキシング時間のような室内の音響パラメータの推定に関する。特に、本発明では、このような室内音響パラメータを推定するための装置及び方法を提供する。したがって、装置及び方法は仮想3Dオーディオを現実の室内に適応させるためのものである。本発明によって対象とされる製品は、たとえば、ヘッドホンを用いる拡張現実（AR）アプリケーション、モバイルデバイス（スマートフォンやタブレット）におけるヘッドホンサラウンドサウンド、スマートフォン又は一人／複数のリモートユーザとのテレビ会議である。

ヘッドホンを用いて没入型3Dオーディオ信号を生成するにはバイノーラル室内インパルス応答（Binaural Room Impulse Response：BRIR）が必要である。BRIRは人間だけでなく、室内にも依存する。図23に示されているように、BRIRは（時間軸において）直接音部分、初期反射及び後期残響からなる。直接音部分は音源探査に重要である。初期反射は空間情報を提供し、音源の距離及びエクスターナリゼーション（externalization）の知覚に不可欠である。後期残響は聴取者に室内情報を提供し、高密度の反射からなり、音源の位置にもはや依存しない。

一般消費者の例でユーザ毎にBRIRを測定するのは、実際の障害及び複雑さのため困難であり、非実用的である。この理由から、たとえば一般的な頭部伝達関数（head-related transfer function：HRTF）及び人工残響、物理的室内音響モデリングなどに基づいた合成BRIRの集合又は参照BRIRの集合が、測定されたBRIRの代わりにバイノーラルレンダリングに通常用いられる。

しかし、バイノーラルレンダリングのための実際の室内音響効果の知識を用いずに合成BRIRを適用すると、知覚されるエクスターナリゼーション及びもっともらしさが低下する場合がある。これは、知覚される聴覚の印象が外部の音刺激に依拠する一方で、異なる室内音響効果による実際の室内での聴覚イベントについての予想にも依存することに起因する。したがって、実際の現実の室内での音響パラメータが可能な限り高精度に推定されることが重要である。重要な音響パラメータの1つは残響時間（RT60とも呼ばれる）である。

仮想3Dオーディオの室内適応に広い意味で関係する多くの従来の解決手段が知られており、特に、残響時間の推定に関するいくつかの従来の解決手段が知られている。

国際公開第2017/185663号では、スマートデバイス（たとえば、仮想現実（VR）ヘッドセット、スマートフォンなど）のマイク及びスピーカを用いて実際の室内で室内インパルス応答（room impulse response：RIR）を測定した後、これを予め選択されたHRTFと組み合わせて3Dオーディオをレンダリングする。これにより、仮想音響効果が現実の実際の室内の音響効果に適応させられることが可能である。しかし、デバイスのマイク及びスピーカ並びに聴取環境の要求（ノイズフロア、周波数応答、環境のバックグラウンドノイズ、記録された信号の信号対雑音比（SNR）など）が比較的高いので、一般消費者の例で測定を実行することは困難である。したがって、このアプローチの欠点は、
・直接RIRを測定するには、静かな環境と比較的優秀な器材（きわめて高いSNR）とを要する
・合成部において、予め選択されたHRTFの長さに基づいてRIR応答が切り捨てられ、ミキシング時間が固定されて室内が関係づけられない
ことである。

測定されたRIRを上記のアプローチにおけるように直接用いる代わりに、国際公開第2017/136573号では、静的室内パラメータを用いることによって局所的な環境音響効果に合致する3Dオーディオレンダリングアルゴリズムを拡張するアプローチを提案している。そのために、実際の室内の残響フィンガープリント（容積及び周波数依存残響時間）が測定されて、（予め測定済みの）参照室内の残響フィンガープリントと比較される。その後、参照BRIR並びに実際の室内及び参照室内の残響フィンガープリントに基づいて実際の室内のBRIRが再成形されることが可能である。この思想は、仮想3Dオーディオを現実の音響環境に適応させることを目指している。しかし、このアプローチの欠点は、
・残響時間を測定するハードウェア又は技術的な知識を大部分の消費者が持っていない場合があるので、一般消費者の例では室内容積及び周波数依存残響時間の測定が困難である
ことである。したがって、室内容積を測定する追加の装置又はソフトウェアが必要とされる。これに加えて、残響時間の測定を行なうのに静かな環境と比較的優秀な器材とが必要とされる。

残響時間を推定する従来の方法は、一般的に、測定されたRIR（シュレーダ法）又は記録されたホワイトノイズ（断続法）に基づいている。しかし、再生記録装置及び聴取環境の要求が比較的高く、測定の手順が一部の消費者には困難である場合があるので、これらの測定は一般消費者の例で実行することが困難である。これらの課題を解決するために、音声又は楽音信号に基づくRT60のいくつかのブラインド推定方法が提案されている。最尤法／信号減衰率の分布などに基づいて音声信号を用いて残響が推定されることが可能である。特に、これらの従来の方法の欠点は、
・音声信号の周波数範囲に起因して、これらの方法には周波数依存性がなかったり最大8kHzの周波数制限があったりする
ことである。これに加えて、適用されるアルゴリズムは環境雑音寄りの中高周波（2～8kHz）では正確さに欠け／強みを発揮しない。

上記の欠点に鑑みて、本発明は、広い意味では、仮想3Dオーディオの室内適応についての従来のアプローチ及び方法、特に、残響時間の推定についての従来のアプローチ及び方法を改善することを目指している。本発明の目的は、より高速かつより効率的に室内音響パラメータを推定する装置及び方法を提供することである。特に、装置及び方法は、全帯域の（すなわち周波数制限がない）残響時間を高精度に推定し、適宜、ミキシング時間も高精度に推定することができるべきである。

本発明の目的は添付の特許請求の範囲の独立請求項において提供されている解決手段によって達成される。本発明の有効な実現例が従属請求項においてさらに定められている。

特に、本発明の実施形態では、実際の室内で音声信号を測定することによって室内音響パラメータを取得する。その後、推定された音響パラメータに基づいてBRIRが合成されることが可能である。さらに合成されたBRIRはバイノーラルレンダリングに用いられることが可能であり、たとえば、モバイルデバイスのARアプリケーションやヘッドホンサラウンド用のバイノーラルレンダリングに用いられることが可能である。本発明の実施形態は、特に、低い周波数から高い周波数に周波数依存残響時間のブラインド推定を拡張する解決手段に基づいている。

本発明の第1の態様では、音響パラメータを推定する装置が提供され、装置は、音響信号、特に音声信号を記録し、記録された音響信号に基づいて低周波数範囲の周波数依存残響時間を推定し、所定のモデルに基づいて周波数依存残響時間を高周波数範囲まで拡張して、拡張周波数依存残響時間を取得するように構成される。

第1の態様の装置は（室内）音響パラメータ（すなわち特に残響時間）を測定せずに、音声記録に基づいて音響パラメータを推定する。したがって、過度に静かな環境及び優秀な器材（きわめて高いSNR）が一切必要とされない。したがって、装置は雑音が多い環境でも良好に機能する。さらに、室内ジオメトリ及び残響時間を予め知る必要がない。したがって、室内容積を測定するのに追加の装置又はソフトウェアが必要とされない。従来の方法に周波数制限がある一方で、拡張周波数依存残響時間が全周波数範囲をカバーするので、第1の態様の装置は残響時間を推定する従来の方法とは異なる。

第1の態様の一実施形態では、低周波数範囲は8kHz未満の周波数を含み、特に1.4kHzから8kHzの間であり、高周波数範囲は8kHzを超える周波数を含み、特に8kHzから18kHzの間である。

すなわち、残響時間を推定する従来の方法とは異なり、装置は8kHzさえ超える残響時間を取得することができる。

第1の態様のさらなる実施形態では、装置は、ブラインド推定を実行することによって低周波数範囲の周波数依存残響時間を推定するように構成される。

たとえば音声又は楽音信号に基づくブラインド推定により、RIR（シュレーダ法）や記録されたホワイトノイズ（断続法）を測定することが必要とされない。代わりに残響時間が、たとえば最尤法／信号減衰率の分布などに基づいて音響信号を用いて推定されることが可能である。主な用途は、残響除去、音声了解度の向上などである。

第1の態様のさらなる実施形態では、所定のモデルは、低周波数範囲に含まれる低い周波数から、高周波数範囲に含まれる高い周波数への残響時間の変化を表わす。

装置が拡張残響時間を高速かつ高精度に推定することができるようにモデルが予め定められることが可能である。

第1の態様のさらなる実施形態では、装置は、複数の異なる室内タイプのRIRを解析することによって所定のモデルを構築するように構成される。

したがって、モデルは複数の異なる室内タイプ及びジオメトリの高精度なフィンガープリントを含み、装置はいかなる室内でも高精度に残響時間を推定することができる。

第1の態様のさらなる実施形態では、装置は、周波数依存残響時間を高周波数範囲まで拡張する前に、低周波数範囲にわたって周波数依存残響時間を平滑化するように構成される。

これは、環境雑音に起因するブラインド推定の不正確さを抑えるのに有用である。

第1の態様のさらなる実施形態では、装置は、所定のモデルに基づいて、平滑化された周波数依存残響時間を高周波数範囲まで拡張するために、低周波数範囲の所定の周波数での平滑化された周波数依存残響時間である1つの残響時間から所定のモデルの係数を計算するように構成される。

当該パラメータに基づいて、拡張残響時間が高精度に推定されることが可能である。

第1の態様のさらなる実施形態では、装置は、フィルタバンクを用いて、記録された音響信号をフィルタリングすることと、ブラインド推定方法に基づいてフィルタリングされた音響信号の複数の周波数チャンネルの各々の残響時間を推定することとによって低周波数範囲の周波数依存残響時間を推定するように構成される。

たとえば、ブラインド推定方法に最尤法やパワースペクトル密度の推定が用いられてもよい。

第1の態様のさらなる実施形態では、装置は、拡張周波数依存残響時間に基づいてミキシング時間を推定するように構成される。

したがって、第1の態様の装置は、推定された室内音響パラメータの一部としてミキシング時間も取得する。すなわち、ミキシング時間は固定されず、室内が関係づけられることにより、BRIRを合成する場合の結果の改善につながる。

第1の態様のさらなる実施形態では、装置は、低周波数範囲の所定の周波数での拡張周波数依存残響時間である1つの残響時間に所定の係数を掛けること、又は拡張周波数依存残響時間に基づいて室内容積を計算し、室内容積に基づいてミキシング時間を計算することによってミキシング時間を推定するように構成される。

すなわち、ミキシング時間を取得する2つの仕方が提供され、前者では速度に注目し、後者では精度に注目している。

第1の態様のさらなる実施形態では、装置は、拡張周波数依存残響時間に基づいてBRIRを合成するように構成される。

したがって、合成されたBRIRが実際の室内音響効果についての情報をともなって取得され、バイノーラルレンダリングの改善につながる。

第1の態様のさらなる実施形態では、装置は、ミキシング時間にさらに基づいてBRIRを合成するように構成される。

これにより、実際の室内に対応するという点でBRIRがさらに改善された。

第1の態様のさらなる実施形態では、装置は、拡張周波数依存残響時間を用いて、BRIRの後期残響部分を合成することと、ミキシング時間を用いて、合成されたBRIRにおける後期残響部分の開始時間を調節することとによってBRIRを合成するように構成される。

ミキシング時間は初期反射から後期残響への（時間上の）移行箇所によって定義される。したがって、実際の室内に適応したきわめて高精度なBRIRが取得される。

第1の態様のさらなる実施形態では、装置は、拡張周波数依存残響時間に従ってホワイトノイズ又は白色ガウス雑音を再成形して、後期残響部分を合成することと、ミキシング時間及びウインドウ関数に従って後期残響部分の切捨てを行なうことと、直接部分及び／又は初期反射のHRTFと切捨てが行なわれた後期の残響部分との組合せを行って、BRIR全体を取得することとによってBRIRを合成するように構成される。

本発明の第2の態様は、音響パラメータを推定する方法を提供し、方法は、音響信号、特に音声信号を記録するステップと、記録された音響信号に基づいて低周波数範囲の周波数依存残響時間を推定するステップと、所定のモデルに基づいて周波数依存残響時間を高周波数範囲まで拡張して、拡張周波数依存残響時間を取得するステップとを有する。

第2の態様の一実施形態では、低周波数範囲は8kHz未満の周波数を含み、特に1.4kHzから8kHzの間であり、高周波数範囲は8kHzを超える周波数を含み、特に8kHzから18kHzの間である。

第2の態様のさらなる実施形態では、方法は、ブラインド推定を実行することによって低周波数範囲の周波数依存残響時間を推定するステップを有する。

第2の態様のさらなる実施形態では、所定のモデルは、低周波数範囲に含まれる低い周波数から、高周波数範囲に含まれる高い周波数への残響時間の変化を表わす。

第2の態様のさらなる実施形態では、方法は、複数の異なる室内タイプの室内インパルス応答RIRを解析することによって所定のモデルを構築するステップを有する。

第2の態様のさらなる実施形態では、方法は、周波数依存残響時間を高周波数範囲まで拡張する前に、低周波数範囲にわたって周波数依存残響時間を平滑化するステップを有する。

第2の態様のさらなる実施形態では、方法は、所定のモデルに基づいて、平滑化された周波数依存残響時間を高周波数範囲まで拡張するために、低周波数範囲の所定の周波数での平滑化された周波数依存残響時間である1つの残響時間から所定のモデルの係数を計算するステップを有する。

第2の態様のさらなる実施形態では、方法は、フィルタバンクを用いて、記録された音響信号をフィルタリングすることと、ブラインド推定方法に基づいてフィルタリングされた音響信号の複数の周波数チャンネルの各々の残響時間を推定することとによって低周波数範囲の周波数依存残響時間を推定するステップを有する。

第2の態様のさらなる実施形態では、方法は、拡張周波数依存残響時間に基づいてミキシング時間を推定するステップを有する。

第2の態様のさらなる実施形態では、方法は、低周波数範囲の所定の周波数での拡張周波数依存残響時間である1つの残響時間に所定の係数を掛けること、又は拡張周波数依存残響時間に基づいて室内容積を計算し、室内容積に基づいてミキシング時間を計算することによってミキシング時間を推定するステップを有する。

第2の態様のさらなる実施形態では、方法は、拡張周波数依存残響時間に基づいてバイノーラルRIR（BRIR）を合成するステップを有する。

第2の態様のさらなる実施形態では、方法は、ミキシング時間にさらに基づいてBRIRを合成するステップを有する。

第2の態様のさらなる実施形態では、方法は、拡張周波数依存残響時間を用いて、BRIRの後期残響部分を合成することと、ミキシング時間を用いて、合成されたBRIRにおける後期残響部分の開始時間を調節することとによってBRIRを合成するステップを有する。

第2の態様のさらなる実施形態では、方法は、拡張周波数依存残響時間に従ってホワイトノイズ又は白色ガウス雑音を再成形して、後期残響部分を合成することと、ミキシング時間及びウインドウ関数に従って後期残響部分の切捨てを行なうことと、直接部分及び／又は初期反射のHRTFと切捨てが行なわれた後期の残響部分との組合せを行なって、BRIR全体を取得することとによってBRIRを合成するステップを有する。

第2の態様及びその実施形態の方法を用いれば、第1の態様及びそのそれぞれの実施形態の装置の上述の利点及び効果が実現される。

本発明の第3の態様では、装置の1つ以上のプロセッサによってプログラムコードが実行されると、第2の態様に係る方法を実行するように装置を制御するためのプログラムコードを含むコンピュータプログラムを提供する。

本出願で説明されているすべての装置、要素、部位及び手段がソフトウェア要素若しくはハードウェア要素又はこれらの任意の組み合わせで実施されることが可能であることに留意されなければならない。本出願で説明されている様々なものによって実行されるすべてのステップ並びに様々なものによって実行されるように説明されている機能は、それぞれのものがそれぞれのステップ及び機能を実行するように適合されたり構成されたりすることを意味することを意図している。特定の実施形態の以下の説明において、外部のものによって実行される特定の機能又はステップが、当該特定のステップ又は機能を実行する当該ものの特定の詳細な要素の説明に反映されていないとしても、これらの方法及び機能がそれぞれのソフトウェア要素若しくはハードウェア要素又はこれらの任意の組み合わせで実施されることが可能であることは当業者には当然明らかである。

本発明の上述の態様及び実施形態は、添付の図面に関連する特定の実施形態の以下の説明において説明される。

本発明の実施形態に係る装置を示す。本発明の実施形態に係る方法を示す。本発明の実施形態に係る装置の解析部及び合成部の概略をそれぞれ示す。本発明の実施形態に係る装置の解析部を示す。本発明の実施形態に係る装置において周波数依存残響時間を推定する詳細な例を示す。本発明の実施形態に係る装置において残響時間を高周波数範囲まで拡張する詳細な例を示す。典型的なBRIRを示す。本発明の実施形態に係る装置においてミキシング時間を推定する詳細な例を示す。本発明の実施形態に係る装置の合成部の詳細を示す。従来の方法を用いて残響時間を推定したシミュレーション結果を示す。本発明の実施形態に係る装置において残響時間を推定したシミュレーション結果を示す。本発明の実施形態に係る装置においてBRIRを合成したシミュレーション結果を示す本発明の第1の特定の実施形態に係る装置を用いる場面を示す本発明の第1の特定の実施形態に係る装置のブロック図を示す。本発明の第2の特定の実施形態に係る装置を用いる場面を示す本発明の第2の特定の実施形態に係る装置のブロック図を示す。本発明の第3の特定の実施形態に係る装置における個別化されていないHRTFと後期残響とを用いたBRIRの合成を示す。第3の特定の実施形態における合成BRIRの例を示す。本発明の第4の特定の実施形態に係る装置における参照BRIRと合成された後期残響とを用いたBRIRの合成を示す。本発明の第4の特定の実施形態における合成BRIRの例を示す。本発明の第5の特定の実施形態に係る装置における個別化されていないHRTFと初期反射と後期残響とを用いたBRIRの合成を示す。本発明の第5の特定の実施形態における合成BRIRの例を示す。典型的なBRIRを示す。

図1は本発明の実施形態に係る装置100を示す。装置100は、室内音響パラメータ、特に実際の室内の残響時間を推定するように構成されている。

装置100は、後述の様々な動作及び方法を実行するように構成されている処理回路110を備えてもよい。処理回路110はハードウェアとソフトウェアとを備えてもよい。一実施態様では、処理回路110は、1つ以上のプロセッサ（図示せず）と、1つ以上のプロセッサに接続されている不揮発メモリ（図示せず）とを備える。不揮発メモリは、1つ以上のプロセッサによって実行されるとき、装置100に前記動作又は方法を実行させる実行可能プログラムコードを保持してもよい。

装置100は、音響信号101、特に音声信号を記録102するように構成されている。記録102は、モノラルマイク、バイノーラルマイクなどによってなされてもよい。音響信号101を記録することによって、音響信号101は記録音響信号103になる。

装置100は、記録音響信号103に基づいて低周波数範囲の周波数依存残響時間105を推定104するようにさらに構成されている。推定104は、処理回路110によって実行されてもよく、処理回路110はフィルタバンク（図示せず）を含んでもよい。低周波数範囲は8kHz未満の周波数、たとえば1.4kHz～8kHzの周波数を含んでもよい。推定104はブラインド推定によってなされてもよい。

装置100は、低周波数範囲の推定された周波数依存残響時間105を高周波数範囲まで拡張106するようにさらに構成されており、拡張106では所定のモデル107に基づいている。これにより、拡張周波数依存残響時間108が取得される。拡張106は、1つ以上の平滑化フィルタ（図示せず）を含んでもよい処理回路110によって行なわれてもよい。高周波数範囲は8kHzを超える周波数、たとえば8kHz～18kHzの周波数を含んでもよい。所定のモデル107は、低周波数範囲に含まれる低い周波数から、高周波数範囲に含まれる高い周波数への残響時間の変化を表わしてもよい。モデル107は複数の異なる室内（タイプ、ジオメトリ、サイズ）のRIRを解析することによって装置100によって構築されてもよいし、事前に別の装置によって構築されてもよい。

図2は室内の音響パラメータ、特に残響時間を推定する本発明の実施形態に係る方法の概略200を示す。方法200は図1の装置100によって実行されてもよい。方法200は、音響信号101、特に音声信号を記録102する第1のステップを有する。さらに、方法200は、記録音響信号103に基づいて、低周波数範囲の周波数依存残響時間105を推定104する第2のステップを有する。さらに、方法200は、拡張周波数依存残響時間108を取得するために、所定のモデル107に基づいて周波数依存残響時間105を高周波数範囲まで拡張106する第3のステップを有する。

装置100（とこれに対応して方法200）のさらなる詳細は本発明のさらなる実施形態に従って後述されており、すべての実施形態が図1に示されている装置100の概略的な実施形態を基にしている。したがって、様々な実施形態の同じ要素及び機能が同じ参照符号を共有している。

図3は本発明の実施形態に係る装置100の解析部及び合成部の概略をそれぞれ示す。解析部は信号再生300、たとえばドライ音声信号の再生を含み、信号の記録102を含み、室内音響パラメータの推定301を含む。推定301は図1に示されている残響時間の推定104及び拡張106を含み、すなわち、拡張残響時間108を取得する。合成部は、推定された室内音響パラメータに従ったBRIRの合成303を含み、特に拡張残響時間108に基づき、適宜、ミキシング時間402（図4を参照して詳細に説明されている）に基づくBRIRの合成303を含む。解析部はヘッドセットやスマートデバイスのマイクを用いるユーザによって簡単になされることが可能であり、合成部はスマートデバイスで実行されることが可能である。解析部及び合成部それぞれの詳細が以下で説明されている。

図4は本発明の実施形態に係る装置100の解析部の構成の典型的な概略を示す。1つの音声信号101がたとえばモノラルマイク又は一対のバイノーラルマイクを用いて記録102される。その後、1つ以上の記録信号103に基づいて周波数依存残響時間105がブラインド推定104されてもよい。その後、推定された残響時間105が平滑化400されることが可能であり（図4では代表的に1.4kHz～8kHz）、その後、拡張周波数依存残響時間108を取得するために、たとえば8kHzから18kHzに拡張106される。これに加えて、取得された拡張残響時間108に基づいてミキシング時間402が推定401されてもよい。

図4に示されているブラインド推定104の一例が図5にさらに図示されている。周波数依存残響時間105をブラインド推定104するために、この例においても、1つの音声信号101がたとえばモノラルマイク又は一対のバイノーラルマイクを用いて記録102される。その後、記録信号103がフィルタバンク500でフィルタリングされる。たとえば、ガンマトーンフィルタバンク又は1／3オクターブフィルタバンクが用いられてもよい。その後、周波数依存残響時間105が、たとえば、各周波数チャンネルの信号に対して最尤法を用いて推定される。これは、特に、Lollmann and Vary，“Estimation of the Reverberation Time in Noisy Environment”，Int. Workshop on Acoustic Echo and Noise Control，2008で説明されているように行なわれてもよいし、Lollmann et al.，“An Improved Algorithm for Blind Reverberation Time Estimation”，International Workshop on Acoustic Echo and Noise Control（IWAENC），2010で説明されているように行なわれてもよい。

しかし、音声信号101の周波数範囲に起因して、推定された残響時間105には依然として最大8kHzの周波数制限がある。これに加えて、雑音が多い環境の場合、低中周波数（たとえば、1.4kHz～8kHz）では取得された残響時間の正確度が大して優れていない場合がある。中高周波数でのブラインド推定された残響時間の欠落により、残響時間105に基づいてBRIRの後期残響部分を厳密に合成することが困難になる。したがって、装置100は全周波数範囲（たとえば1.4～18kHz）の周波数依存残響時間108を取得するようにさらに構成されている。このために、装置100は、拡張周波数依存残響時間108を取得するために、残響時間105を拡張106（この例では、平滑化及び拡張400）するように構成されている。

図6は本発明の実施形態に係る装置100における中高周波数の残響時間105の拡張106の例を示す。RIR603の大規模データベース、たとえば、AIR RIRデータセットの解析により、残響時間が中周波数から高周波数に滑らかに変化することがわかり得る。しかし、雑音が多い環境の場合、たとえば1.4kHz～8kHzの残響時間105をブラインド推定104する正確度が多少低下する場合がある。したがって、環境雑音に起因する測定の不正確さを抑えるために、たとえば1.4kHz～8kHzの推定された残響時間105に平滑化フィルタ600が適用されてもよい。たとえば、残響時間105を平滑化600するのにメディアンフィルタを適用することが可能であるが、別の平滑化方法やフィルタを用いることも可能である。さらに、RIR603の大規模データベースの解析により、残響時間が中周波数から高周波数に向かって単調に減少することもわかり得る。したがって、異なる室内で取得される周波数依存残響時間に従って中高周波数の残響時間のモデル107が構築602されることが可能である（RIRデータセットからの異なる室内でのRIR603にシュレーダ法を用いて残響時間が計算されてもよい）。モデル107は特に以下のように表わされてもよい。

T_{60，mid to high}は中高周波数の残響時間であり、T_60，4kHzは4kHzでの残響時間であり、f_{mid to high}はフィルタバンク500の中～高の中心周波数を示す。パラメータaは通常0より大きく、bは通常0未満である。これらのパラメータは、以下の式を用いて取得されることが可能である。

パラメータa及びbを計算するためのこれらの式（式2及び式3）は、RIR603の大規模データベースを解析することによって決定されることが可能である。パラメータc1、c2、d1、d2、e1、e2、g1及びg2は、たとえば、0.003227、－0.03699、－0.006、0.0581、0.005581、－0.1155、－0.0005413及び0.008851であり、これらの値はAIR RIRデータベースに基づいて決定されてもよい。実際の現実の室内について、最初に4kHzでの残響時間（T_60，4kHz）が推定されるべきであり、その後、中～高周波数での残響時間がモデル107（式1）に基づいて計算されてもよい。中～高周波数の拡張残響時間108を計算するのに他のモデル107（たとえばフィッティング関数）、たとえば、指数関数、高次の多項式関数などを用いることもできる。

まとめると、たとえば最尤法を用いた残響時間105のブラインド推定104の後に、たとえば1.4kHz～8kHzの残響時間105の平滑化が行なわれてもよい。その後、係数a及びbを計算するのに4kHzでの残響時間が用いられてもよい。その後、提案されたモデル107（式1）に基づいて、たとえば8kHz～18kHzの拡張残響時間108が取得されてもよい。

ミキシング時間402はRIR／BRIRの初期反射から後期残響への移行の時間を表わす（典型的なBRIRの図7を参照）。本発明の実施形態に係る装置100は、ブラインド推定された残響時間108を用いて取得される合成BRIRの後期残響部分を適用するために、ミキシング時間402を推定401するようにさらに構成されてもよい。

図8は推定された拡張残響時間108に従ってミキシング時間402を計算する2つの典型的な仕方を示す。一方の仕方では、500Hzで測定された残響時間108に基づいてミキシング時間が直接予測800され、0.08×残響時間として近似されることが可能である。これは、Hidaka，Yamada，and Nakagawa，“A new definition of boundary point between early reflections and late reverberation in room impulse responses”，J. Acoust. Soc. Am.，Vol. 122，No. 1，pp. 326-332，2007で説明されているように行なわれてもよい。もう一方の仕方は、最初に向かって、推定された拡張残響時間108に従って室内容積802を予測801し（これは、Kuster，“Reliability of estimating the room volume from a single room impulse response”，J. Acoust. Soc. Am.，Vol. 124，No. 2，2008で説明されているように行なわれてもよい）、その後、予測された室内容積802に基づいてミキシング時間402を計算803する（これは、Lindau et al.，“Perceptual evaluation of model-and signal-based predictors of the mixing time in binaural room impulse responses”，J. Audio Engineering Society，Vol. 60，2012で説明されているように行なわれてもよい）ものである。

実際の室内の推定された室内音響パラメータ（たとえば、周波数依存拡張残響時間108と適宜、ミキシング時間402も）に基づいてBRIRを合成することができ、これは実際の室内にきわめて良好に適応する。

図9には、本発明の実施形態に係る装置100でBRIRを合成する仕方の一例が示されている。BRIRの後期残響部分907を合成するのに周波数依存拡張残響時間108が用いられ、後期残響をBRIRに適応させるのにミキシング時間402が用いられてもよい。

特に、図9に示されているように、最初に一対のデュアルチャンネル白色ガウス雑音901（左右の耳用）がフィルタバンク902でフィルタリングされてもよい。フィルタバンク500と類似または同一であるフィルタバンク902を用いることが有効である場合があり、これは解析部、すなわち残響時間推定に適用される。その後、フィルタリングされた白色ガウス雑音903が周波数チャンネル毎に周波数依存残響時間108に従って再成形904されてもよい。たとえば、指数関数h（f）と掛け合わすことによって、フィルタリングされた白色ガウス雑音901が再成形904されることが可能であり、この指数関数の減衰率ρ（f）は残響時間に依存する。

Aは後期残響のスケールファクタであって、音源聴取者距離に依存し、通常0～1の範囲に納められる。さらに、nはサンプル数であり、f_sはサンプリング周波数である。たとえば、A、n及びf_sが1、8196サンプル及び48kHzにそれぞれ設定されることが可能である。その後、周波数チャンネル毎に再成形されたガウス白色雑音905が合算906されて左右の耳用の合成された残響907を取得してもよい。

その後、さらに、取得された残響907が、推定されたミキシング時間402に基づいてウインドウによる切捨て908が行なわれて、合成BRIRに適応させることができる。知覚できるアーティファクトを用いずに初期反射と後期残響との円滑な移行を保証するために、たとえば長さ10msの立ち上がり時間のウインドウが適用されて合成された後期残響の切捨て908を行なってもよい。これにより、どのBRIRが合成910されることが可能であるのかに基づいて、ウインドウ処理後の合成された後期残響909が取得される。

全周波数帯の残響時間108を取得する装置100の動作結果が（これに対応して方法200の動作結果も）シミュレーション結果を用いて図10及び図11に示されている。これらのシミュレーションでは、Jeub et al.，“A Binaural Room Impulse Response Database for the Evaluation of Dereverberation Algorithms”，International Conference on Digital Signal Processing（DSP），2009で説明されているように、1つの音声信号（サンプリング周波数16kHz）と、AIR RIRデータセットから得られる教室のRIRとのコンボリューションを行なった（16kHzまでサンプリングを落とした）。環境雑音をシミュレーションするために、異なるSNR（15dB、20dB、30dB、40dB及び60dB）の白色ガウス雑音が残響音声信号に加えられた。15dBのSNRは極端に雑音が多い環境を表わし、60dBのSNRは比較的静かな環境を表わす。シュレーダ法によって計算された残響時間がベースライン（参照）として用いられた。このシュレーダ法は既知のRIR603の解析に基づいており、従来では残響時間を計算するのに用いられる。対照的に、本発明の実施形態に係る装置100及び方法200は、実際の室内でRIRを測定せずに記録された1つの音声信号102に基づく。

図10は、特に、従来の方法を用いてブラインド推定された残響時間の結果を示す。音声信号の周波数範囲に起因して残響時間が最高8kHzに制限されていることが分かり、雑音が多い環境（低SNR）では低中周波数（すなわち、たとえば1.4kHz～8kHz）の推定された残響時間が安定していない。

図11は本発明の実施形態に係る装置100（又はこれ対応して方法200）を用いて推定された残響時間の結果を示す。残響時間を平滑化することによって、低SNRの推定された残響時間の正確度が改善されている（本例では1.4kHz～8kHzに関して改善）ことが容易にわかる。これに加えて、残響時間が拡張されており（本例では8kHz～18kHz）、ベースライン（シュレーダ法）とよく合致する。

BRIRは、直接音、初期反射及び後期残響の合計とみなされることが可能である。図12は、直接音用の汎用の／個別化されていないHRTFと、シミュレーションされた初期反射と、本発明の実施形態に係る装置100（又はこれに対応して方法200）によって取得された合成された後期残響とを用いた左耳の合成BRIRの例を示す。さらなる詳細が以下に記載されている。

以下、本発明の特定の実施形態に係る装置100が説明されている。実施形態は2つの部分、すなわち、第1に、残響時間の解析（特定の実施形態1及び2）と、第2に、BRIRの合成（特定の実施形態3、4及び5）とに分けられる。

実施形態1は図13及び図14にそれぞれ示されており、モノラルマイクを用いた残響時間の解析に基づいている。図13に示されているように、ユーザは、実際の室内で、たとえばいくつかの短い文（10～20秒）を発話すると同時に、装置100、たとえばマイク付のスマートデバイス（たとえば、スマートフォンやタブレット）を用いて音を録音する。極端に雑音が多い環境（たとえば、記録信号のSNRが15dB）でも装置100が良好に機能するので、音源がマイクのきわめて近傍に置かれる必要はなく、環境がきわめて静かである必要もない。装置100は録音に基づいて室内音響パラメータ（残響時間108、ミキシング時間402など）を推定する。その後、推定された室内音響パラメータ（たとえば、左右の耳用の残響時間108）に基づいて左耳及び右耳用の後期残響907を装置100が合成する。図14は本実施形態の装置100のブロック図を示す。ブロックの詳細は図5、図6及び図8を参照して上述したとおりである。

実施形態2は図15及び図16にそれぞれ示されており、一対のバイノーラルマイクを用いた残響時間の解析に基づいている。図15に示されているように、ユーザが装置100、たとえばスマートデバイス（たとえばスマートフォンやタブレット）でドライ音声ファイルを再生してもよいし、実際の室内でいくつかの短い文（10～20秒）を発話すると同時に、一対のバイノーラルマイク、たとえばアクティブノイズコントロール（ANC）ヘッドホンのマイクを用いて音を録音する。記録されたバイノーラル信号は、左耳及び右耳用それぞれの室内音響パラメータ（たとえば、残響時間108、ミキシング時間402など）を推定するのに、装置100に用いられる。さらに、左耳及び右耳用の計算された室内音響パラメータは、左右それぞれの耳用の残響907を合成するのに用いられる。図16は本実施形態の装置100のブロック図を示す。ブロックの詳細は図5、図6及び図8を参照して上述したとおりである。

実施形態3は図17及び図18にそれぞれ示されており、個別化されていないHRTF及び後期残響を用いたBRIRの合成に基づいている。BRIRは、直接音、初期反射及び後期残響の合計とみなされることが可能である。図17に示されているように、一対のBRIRを合成する最も簡単な仕方は、直接音用の一般的な／個別化されていないHRTF1700と合成された後期残響907とを用いてこれらの組合せ910を行なうことによる仕方である。当該仕方では初期反射が無視され、正確なミキシング時間402を知る必要がない。初期反射がないために、知覚されるエクスターナリゼーション及びもっともらしさが低下する場合があるが、室内の特性（室内のサイズ、室内の残響など）はこの仕方でも知覚されることが可能である。図18は直接音と後期残響とからなる合成BRIRを示す。

実施形態4は図19及び図20にそれぞれ示されており、参照BRIRと合成された後期残響とを用いたBRIRの合成に基づいている。後期残響は室内情報を提供し、室内情報は聴取者が音響環境を知覚するのに有用である。初期反射は空間情報を提供し、空間情報は仮想音源のエクスターナリゼーションに重要である。本実施形態では、図19に示されているように、実際の室内のBRIRを合成910するのに参照BRIR1800の集合が用いられる。当該仕方では、直接音及び初期反射1801が参照BRIR1800から直接得られ、参照BRIRの後期残響部分が除去1802されて、推定された室内音響パラメータ（周波数依存残響時間108及びミキシング時間402）から導出された後期の残響907に基づいてウインドウ処理（切捨て908）を行なった後の合成された後期残響909に置き換えられる。図20は、参照BRIR1800と合成された後期残響909とに基づく合成BRIRの例を示す。

実施形態5は図21及び図22にそれぞれ示されており、個別化されていないHRTFと初期反射と後期残響とを用いたBRIRの合成に基づいている。本実施形態では、BRIRは、直接音、初期反射及び後期残響の合計とみなされている。図21に示されているように、直接音部分を発生させるのに一般的な／個別化されていないHRTF1700が用いられる。室内ジオメトリ、1つ以上の音源の位置及び聴取者の追加情報2100が与えられれば、一般的な／個別化されていないHRTF1700は初期反射2103をシミュレーション2102するのにも用いられる。実際の室内音響効果を用いて合成された後期残響909がBRIRに適応させられる。

初期反射2103をシミュレーション2102する多くの仕方があり、たとえば、虚像法、音線法などがある。初期反射2013をシミュレーション2102するには、最初に音源と室内の聴取者との位置がユーザによって定められるべきである。これに加えて、室内のジオメトリ（長さ、幅及び高さ）が外部センサ、たとえばARヘッドセットを用いて推定されるか、ユーザによって提供されるべきである。室内のジオメトリ、聴取者と仮想音源との位置に基づいて、初期反射はたとえば虚像法を用いてシミュレーションされることが可能である。虚音源の個数はスマートデバイスの性能に依存する。その後、残響時間108に従って計算された後期残響909が、ミキシング時間402に従って合成BRIRに加えられる。図22は本方法を用いた左耳の合成BRIRの例を示す。

例としての様々な実施形態と実現例とをともなって本発明が説明されてきた。しかし、図面、本開示及び独立請求項の検討から、当業者及び請求された発明を実施する者によって他の変形例が知られ、生み出されることが可能である。特許請求の範囲及び説明では、「含む（comprising）」という語は他の要素又はステップを除外せず、不定冠詞「a」又は「an」は複数を除外しない。1つの要素又は他の部位が、請求項に記載されているいくつかのもの又は項目の機能を発揮することができる。特定の手段が互いに異なる従属請求項に記載されているというだけで、このことが、これらの手段の組合せが有利な実現例に用いられないことを示すものではない。

100 装置
101 音響信号、音声信号
102 記録
103 記録音響信号
104 ブラインド推定
105 周波数依存残響時間
106 拡張
107 所定のモデル
108 拡張周波数依存残響時間
110 処理回路
200 方法
300 信号再生
301 推定
303 合成
400 拡張
400 平滑化
401 推定
402 ミキシング時間
500 フィルタバンク
600 平滑化
600 平滑化フィルタ
602 構築
603 室内インパルス応答（RIR）
800 直接予測
801 予測
802 室内容積
803 計算
901 デュアルチャンネル白色ガウス雑音
902 フィルタバンク
903 白色ガウス雑音
904 再成形
905 ガウス白色雑音
906 合算
907 後期残響部分
908 切捨て
909 後期残響
910 合成
1700 頭部伝達関数（HRTF）
1800 参照バイノーラル室内インパルス応答（参照BRIR）
1801 初期反射
1802 除去
2013 初期反射
2100 追加情報
2102 シミュレーション
2103 初期反射

Claims

音響パラメータを推定する装置（100）であって、前記装置（100）は、
音響信号（101）を記録（102）し、
前記記録された音響信号（103）に基づいて低周波数範囲の周波数依存残響時間（105）を推定（104）し、
所定のモデル（107）に基づいて前記周波数依存残響時間（105）を高周波数範囲まで拡張（106）して、拡張周波数依存残響時間（108）を取得する
ように構成され、
前記低周波数範囲は8kHz未満の周波数を含み、
前記高周波数範囲は8kHzを超える周波数を含む、装置（100）。
前記低周波数範囲は1.4kHzから8kHzの間であり、
前記高周波数範囲は8kHzから18kHzの間である、
請求項1に記載の装置（100）。
ブラインド推定を実行することによって、前記低周波数範囲の前記周波数依存残響時間（105）を推定（104）するように構成される
請求項1又は2に記載の装置（100）。
前記所定のモデル（107）は、前記低周波数範囲に含まれる低い周波数から、前記高周波数範囲に含まれる高い周波数への残響時間の変化を表わす、
請求項1から3のいずれか一項に記載の装置（100）。
複数の異なる室内タイプの室内インパルス応答（RIR）（603）を解析することによって前記所定のモデル（107）を構築（602）する
ように構成される、請求項1から4のいずれか一項に記載の装置（100）。
前記周波数依存残響時間（105）を前記高周波数範囲まで拡張（106）する前に、前記低周波数範囲にわたって前記周波数依存残響時間（105）を平滑化（600）する
ように構成される、請求項1から5のいずれか一項に記載の装置（100）。
前記所定のモデル（107）に基づいて前記平滑化された周波数依存残響時間（601）を前記高周波数範囲まで拡張（106）するために、前記低周波数範囲の所定の周波数での前記平滑化された周波数依存残響時間（601）である1つの残響時間から前記所定のモデル（107）の係数を計算する
ように構成される、請求項6に記載の装置（100）。
フィルタバンク（500）を用いて前記記録された音響信号（103）をフィルタリングすることと、
ブラインド推定方法に基づいて前記フィルタリングされた音響信号（501）の複数の周波数チャンネルの各々の残響時間を推定（502）することと
によって、前記低周波数範囲の前記周波数依存残響時間（105）を推定（104）する
ように構成される、請求項1から7のいずれか一項に記載の装置（100）。
前記拡張周波数依存残響時間（108）に基づいてミキシング時間（402）を推定（401）する
ように構成される、請求項1から8のいずれか一項に記載の装置（100）。
前記低周波数範囲の所定の周波数での前記拡張周波数依存残響時間（108）である1つの残響時間に所定の係数を掛ける（800）こと、又は
前記拡張周波数依存残響時間（108）に基づいて室内容積（802）を計算（801）し、前記室内容積（802）に基づいて前記ミキシング時間（402）を計算（803）すること
によって、前記ミキシング時間（402）を推定（401）する
ように構成される、請求項9に記載の装置（100）。
前記拡張周波数依存残響時間（108）に基づいてバイノーラルRIR（BRIR）を合成（302）する
ようにさらに構成される、請求項1から10のいずれか一項に記載の装置（100）。
前記ミキシング時間（402）にさらに基づいて、前記BRIRを合成（302）する
ように構成される、請求項9又は10に従属する請求項11に記載の装置（100）。
前記拡張周波数依存残響時間（108）を用いて、前記BRIRの後期残響部分（907）を合成することと、
前記ミキシング時間（402）を用いて、前記合成されたBRIRにおける前記後期残響部分（907）の開始時間を調節することと
によって、前記BRIRを合成（302）する
ように構成される、請求項12に記載の装置（100）。
前記拡張周波数依存残響時間（108）に従ってホワイトノイズ又は白色ガウス雑音を再成形（904）して、前記BRIRの後期残響部分（907）を合成することと、
前記ミキシング時間（402）及びウインドウ関数に従って前記後期残響部分（907）の切捨て（908）を行なうことと、
直接部分及び／又は初期反射の頭部伝達関数と前記切捨てが行なわれた後期残響部分（909）との組合せ（910）を行なって、前記BRIR全体を取得することと
によって、前記BRIRを合成（302）する
ように構成される、請求項12又は13に記載の装置（100）。
音響パラメータを推定する方法（200）であって、前記方法（200）は、
音響信号（101）を記録するステップ（102）と、
前記記録された音響信号（103）に基づいて低周波数範囲の周波数依存残響時間（105）を推定するステップ（104）と、
所定のモデル（107）に基づいて前記周波数依存残響時間（105）を高周波数範囲まで拡張して、拡張周波数依存残響時間（108）を取得するステップ（106）と
を有し、
前記低周波数範囲は8kHz未満の周波数を含み、
前記高周波数範囲は8kHzを超える周波数を含む、方法（200）。
装置の1つ以上のプロセッサによってプログラムコードが実行されると、請求項15に記載の方法を実行するように前記装置を制御するためのプログラムコードを含む、コンピュータプログラム。