JP7434668B2 - テレプレゼンス会議用マイクロフォンアレイの自動較正 - Google Patents

テレプレゼンス会議用マイクロフォンアレイの自動較正 Download PDF

Info

Publication number
JP7434668B2
JP7434668B2 JP2023526352A JP2023526352A JP7434668B2 JP 7434668 B2 JP7434668 B2 JP 7434668B2 JP 2023526352 A JP2023526352 A JP 2023526352A JP 2023526352 A JP2023526352 A JP 2023526352A JP 7434668 B2 JP7434668 B2 JP 7434668B2
Authority
JP
Japan
Prior art keywords
microphone
speaker
array
impulse response
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023526352A
Other languages
English (en)
Other versions
JP2023546257A (ja
Inventor
デスロジ,ジョセフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2023546257A publication Critical patent/JP2023546257A/ja
Priority to JP2024017209A priority Critical patent/JP2024063009A/ja
Application granted granted Critical
Publication of JP7434668B2 publication Critical patent/JP7434668B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • H04R29/002Loudspeaker arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers

Landscapes

  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Description

本明細書は、テレプレゼンス会議などの用途において使われるマイクロフォンおよびスピーカーの較正に関する。
背景
テレプレゼンス会議システムは、ユーザからの指向性音声信号を検出するための大量のマイクロフォンと、指向性音声信号をユーザに提供するための複数のスピーカーとを備えることができる。
概要
ある全体的な態様では、方法は、マイクロフォンアレイの各マイクロフォンを介して、スピーカーアレイの各スピーカーが生成した音声信号に基づいて反響音場を受信することを含み得る。また、この方法はマイクロフォンアレイのマイクロフォンごとおよびスピーカーアレイのスピーカーごとに、そのスピーカーが生成してそのマイクロフォンが受信した各反響音場に基づいてそのマイクロフォンおよびそのスピーカーの各パワースペクトル密度を生成することを含み得る。方法は、スピーカーアレイおよびマイクロフォンアレイについて平均化されたパワースペクトル密度とスピーカーアレイについて平均化されたパワースペクトル密度との割合として、各較正フィルターをマイクロフォンアレイのマイクロフォンごとに生成することをさらに含み得る。方法は、マイクロフォンアレイごとに生成された各較正フィルターを使用するマイクロフォンアレイによってユーザからの音響信号を記録することをさらに含み得、各較正フィルターを使用するマイクロフォンアレイの各々は、音響信号の本質的に同じスペクトルを記録する。
別の全体的な態様では、非一時的な記憶媒体を備えるコンピュータプログラムプロダクトであって、コンピュータプログラムプロダクトは、コードを含み、コードは、コンピューティングデバイスの処理回路によって実行されると、処理回路に方法を実行させる。この方法は、マイクロフォンアレイの各マイクロフォンを介して、スピーカーアレイの各スピーカーが生成した音声信号に基づいて反響音場を受信することを含み得る。また、方法は、マイクロフォンアレイのマイクロフォンごとおよびスピーカーアレイのスピーカーごとに、そのスピーカーが生成してそのマイクロフォンが受信した各反響音場に基づいてそのマイクロフォンおよびそのスピーカーの各パワースペクトル密度を生成することを含み得る。方法は、スピーカーアレイおよびマイクロフォンアレイについて平均化されたパワースペクトル密度とスピーカーアレイについて平均化されたパワースペクトル密度との割合として、各較正フィルターをマイクロフォンアレイのマイクロフォンごとに生成することをさらに含み得る。方法は、マイクロフォンアレイごとに生成された各較正フィルターを使用するマイクロフォンアレイによってユーザからの音響信号を記録することをさらに含み得、各較正フィルターを使用するマイクロフォンアレイの各々は、音響信号の本的に同じスペクトルを記録する。
別の全体的な態様では、電子機器は、メモリと、メモリに連結された制御回路とを備える。この制御回路は、マイクロフォンアレイの各マイクロフォンを介して、スピーカーアレイの各スピーカーが生成した音声信号に基づいて反響音場を受信するように構成され得る。また、制御回路は、マイクロフォンアレイのマイクロフォンごとおよびスピーカーアレイのスピーカーごとに、そのスピーカーが生成してそのマイクロフォンが受信した各反響音場に基づいてそのマイクロフォンおよびそのスピーカーの各パワースペクトル密度を生成するように構成され得る。制御回路は、スピーカーアレイおよびマイクロフォンアレイについて平均化されたパワースペクトル密度とスピーカーアレイについて平均化されたパワースペクトル密度との割合として、各較正フィルターをマイクロフォンアレイのマイクロフォンごとに生成するようにさらに構成され得る。マイクロフォンアレイごとに生成された各較正フィルターを使用するマイクロフォンアレイによってユーザからの音響信号を記録するようにさらに構成され得、各較正フィルターを使用するマイクロフォンアレイの各々は、音響信号の本質的に同じスペクトルを記録する。
別の全体的な態様では、方法は、マイクロフォンアレイの各マイクロフォンを介して、スピーカーアレイの各スピーカーが生成した音声信号に基づいて反響音場を受信することを含み得る。また、この方法は、マイクロフォンアレイのマイクロフォンごとおよびスピーカーアレイのスピーカーごとに、そのスピーカーが生成してそのマイクロフォンが受信した各反響音場に基づいてそのマイクロフォンおよびそのスピーカーの各パワースペクトル密度を生成することを含み得る。方法は、マイクロフォンアレイおよびスピーカーアレイについて平均化されたパワースペクトル密度とスピーカーアレイについて平均化されたパワースペクトル密度との割合として、各較正フィルターをマイクロフォンアレイのマイクロフォンごとに生成することをさらに含み得る。方法は、スピーカーアレイのスピーカーごとに生成された各較正フィルターを使用するスピーカーアレイによって音響信号を生成することをさらに含み得、各較正フィルターを使用するスピーカーアレイの各々は、音響信号の本質的に同じスペクトルを同じ出力刺激に応答して生成する。
1つ以上の実施態様の詳細を、添付の図面および以下の説明において記載する。その他の特徴についても、本明細書および図面、ならびにクレームから明らかになるであろう。
本明細書において説明する技術的解決策を実現するための例示的な電子環境を示す図である。 図1Aに示す電子環境内にあるマイクロフォンおよびスピーカーの例示的な構成を示す図である。 テレプレゼンスシステム内のマイクロフォンおよびスピーカーの例示的な構成を示す図である。 図1Aに示す電子環境内で技術的解決策を実行する例示的な方法を説明するフローチャートである。 技術的解決策に係る、マイクロフォンアレイのマイクロフォンを較正するための例示的な処理を説明するフローチャートである。 図1Aに示す電子環境内で2つのスピーカーから4つのマイクロフォンへの例示的なRAWインパルス応答関数を示すプロットである。 図4AのRAWインパルス応答関数に対応付けられた、例示的な時間依存エネルギー計量を示すプロットである。 すべてのスピーカーおよびマイクロフォンについて平均化された図4Bの例示的な時間依存エネルギー計量を示すプロットである。 4つのマイクロフォンと2つのスピーカーのRAWインパルス応答関数とに対応する例示的な減衰正規化インパルス応答関数を示すプロットである。 図4Dに示す減衰正規化インパルス応答関数の例示的なサブセグメントを示すプロットである。 図4Eに示す減衰正規化インパルス応答関数のサブセグメントから導出された例示的なマルチチャネルホワイトノイズの自己相関関数を示すプロットである。 図4Fに示すマルチチャネルホワイトノイズの自己相関関数に対応する例示的なパワースペクトル密度を示すプロットである。 スピーカーについて平均化された図4Gの例示的なパワースペクトル密度を示すプロットである。 図4Hのスピーカーについて平均化されたパワースペクトル密度から導出された例示的なマイクロフォン較正フィルターを示すプロットである。 マイクロフォンについて平均化された図4Gの例示的なパワースペクトル密度を示すプロットである。 図4Jのマイクロフォンについて平均化されたパワースペクトル密度から導出された例示的なスピーカー較正フィルターを示すプロットである。 本明細書において説明する回路とともに用いることができるコンピュータデバイスおよびモバイルコンピュータデバイスの例を示す。
詳細な説明
高品質かつ指向性感度が高い音声信号を生成するために用いることができるマイクロフォンからの信号を正確にキャプチャするために、アレイの各マイクロフォン(たとえば、マイクロフォンの利得)をその他のマイクロフォンと比べて較正する場合がある。また、テレプレゼンスシステムにおいてリアルに空間化された出力を正確にレンダリングするために、各スピーカー(たとえば、スピーカーの利得)もその他のスピーカーと比べて較正しなければならない。このような較正を実行するための従来の手法は、外付けハードウェア、たとえば、音源と、テレプレゼンス会議システムにおけるユーザ/話者の想定位置に設置されたマイクロフォンの利用が必要である。
しかしながら、このようなテレプレゼンスシステムの場合、マイクロフォンおよびスピーカーを較正する上述した従来の手法の技術的課題は、機材を使用および格納することが面倒であり、セットアップや解体に人手が必要であり、かつ、システムの実際のユーザの位置に対してハードウェアが正確に配置されていない場合にエラーが起きやすいことである。また、機材は、音量つまみまたはイコライザ調整部などのハードウェアが正確に構成されていない場合にもエラーを起こしやすいであろう。
上述した技術的課題を解決するための従来の手法とは対照的に、上述した技術的課題に対するある技術的解決策は、各スピーカーが生成した信号に応答して各マイクロフォンにおけるパワースペクトル密度を導出することによって、マイクロフォンおよび/またはスピーカーの較正フィルターを生成することを含む。たとえば、改良されたテレプレゼンスシステム内のコンピュータは、各チャネル、すなわち、各スピーカー/マイクロフォンのペアに対応するRAWインパルス応答関数を計測できる。いくつかの実施態様では、コンピュータは、反響音場エネルギーへの、様々に反響する反射の寄与に基づいて、RAWインパルス応答関数を正規化する。その後、コンピュータは、スピーカーによって信号が生成された時間よりも後の開始時間と終了時間との間の各インパルス応答関数のサブセグメントを抽出する。その後、コンピュータは、サブセグメントに基づいて、チャネルごとのホワイトノイズパワースペクトル密度を生成する。その場合、マイクロフォンの較正関数は、スピーカーについて平均化されたパワースペクトル密度の逆数に基づく。その場合、スピーカーの較正関数は、マイクロフォンについて平均化されたパワースペクトル密度の逆数に基づく。
上述した技術的解決策の技術的利点は、この技術的解決策が部屋の構成に影響されず、人間が関わることなく自動的に実行できることである。また、この技術的解決策は、ハードウェア構成、たとえば、マイクロフォンおよびスピーカーのお互いに対する位置に影響されない。さらには、技術的解決策は、テレプレゼンスシステムにおいて既に存在しているハードウェア以上の外付けハードウェアを必要としない。基本的に、ユーザは、スイッチを入れるだけで較正フィルターを生成させることができる。
いくつかの実施態様では、コンピュータは、スピーカーおよびマイクロフォンについて平均化されたインパルス応答エネルギーを用いて、すべてのチャネルのRAWインパルス応答関数を正規化する。いくつかの実施態様では、開始時間は、反響音場において反響波が伝わった距離に基づく。いくつかの実施態様では、終了時間は、計測処理に関連するノイズフロアに基づく。いくつかの実施態様では、チャネルのホワイトノイズパワースペクトル密度は、そのチャネルのサブセグメントのホワイトノイズ自己相関のフーリエ変換に基づく。いくつかの実施態様では、フーリエ変換が、ウインドウをかけたバージョンのホワイトノイズ自己相関関数に取って代わる。
図1Aは、上述した改良技術が実装され得る例示的な電子環境100を示す図である。図1Aに示すように、例示的な電子環境100は、コンピュータ120を含む。
コンピュータ120は、ネットワークインタフェース122と、1つ以上の処理部124と、メモリ126とを備える。たとえば、ネットワークインタフェース122は、ネットワークから受信した電気信号および/または光信号をコンピュータ120が使用するための電子的形式に変換するためのEthernet(登録商標)アダプターなどを含む。一連の処理装置124は、1つ以上の処理チップおよび/またはアセンブリを含む。メモリ126は、揮発性メモリ(たとえば、RAM)、および、1つ以上のROM、ディスクドライブ、ソリッドステートドライブなどの不揮発性メモリの両方を含む。一連の処理装置124と、メモリ126とをあわせると、制御回路が形成される。制御回路は、本明細書において説明する様々な方法および機能を実行するように構成および配置されている。
いくつかの実施の形態では、コンピュータ120の構成要素のうち1つ以上が、メモリ126に格納された命令を処理するように構成されたプロセッサ(たとえば、処理部124)を備え得る。図1に図示されているようなこのような命令として、反響音場マネージャ130、インパルス応答マネージャ140、パワースペクトル密度マネージャ150、および較正フィルターマネージャ160などが挙げられる。さらには、図1に示すように、メモリ126は、様々なデータを格納するように構成される。当該データについては、このようなデータを使用するそれぞれのマネージャで説明する。
反響音場マネージャ130は、反響音場データ132を生成するように構成される。反響音場データ132は、スピーカーによって生成されてマイクロフォンにおいてインパルス応答を計測するために用いられる反響音場を表す。音場は、反響する。なぜならば、スピーカーにおいて音声信号に変換されると、コンピュータ120、スピーカー、およびマイクロフォンが収められている部屋において、音声信号は、近くの壁、天井、床、および物体によって反射され得るためである。
Figure 0007434668000001
Figure 0007434668000002
Figure 0007434668000003
Figure 0007434668000004
Figure 0007434668000005
Figure 0007434668000006
Figure 0007434668000007
Figure 0007434668000008
Figure 0007434668000009
これらの較正フィルターを用いて、同じ入力刺激に応答して同じスペクトルを記録するようにマイクロフォンを較正し、同じ入力刺激に応答して同じスペクトルを生成するようにスピーカーを較正する。
図1Bは、マイクロフォン172およびスピーカー174の例示的な構成170と、マイクロフォン172およびスピーカー174の較正を実行できるコンピュータ120とを示す図である。図1Bに示す構成170では、16個のマイクロフォンと、2つのスピーカーがある。構成170において用いられ得るマイクロフォン172として、Invensense ICS-52000 TDMマイクロフォンなどが挙げられる。構成170において用いられ得るスピーカー174として、Tymphany TC5FC07-04などが挙げられる。なお、任意の数のマイクロフォンおよびスピーカーが考えられてもよい。
図1Cは、テレプレゼンスシステム内のマイクロフォンおよびスピーカーの例示的な構成180を示す図である。テレプレゼンスシステム180は、たとえば、3Dでビデオ会議通信(たとえば、テレプレゼンスのセッション)を行うために複数のユーザによって利用することができる。一般に、図1Cに示すシステム180を用いて、2Dまたは3Dビデオ会議中のユーザの映像および/または画像が撮影されるであろう。
図1Cに示すように、テレプレゼンスシステム180は、第1ユーザ182および第2ユーザ182’によって使用中である。たとえば、ユーザ182および182’は、テレプレゼンスシステム180を利用して3Dテレプレゼンスのセッションに参加中である。このような例では、テレプレゼンスシステム180によって、ユーザ182および182’の各人が、非常にリアルで視覚的に一致した相手の写像を見えるようになるので、お互いが物理的に存在している場合と同様の方法でユーザが対話することを容易にする。
テレプレゼンスシステム180は、1つ以上の2Dディスプレイまたは3Dディスプレイを備えることができる。ここでは、ユーザ182には3Dディスプレイ190が提供され、ユーザ182’には3Dディスプレイ192が提供されている。3Dディスプレイ190、192は、任意の複数種類の3Dディスプレイ技術を利用して、各視聴者(ここでは、ユーザ102またはユーザ104など)のために裸眼立体視ビューを提供できる。いくつかの実施態様では、3Dディスプレイ190、192は、(たとえば、自立型または壁に吊された)独立型ユニットであってもよい。いくつかの実施態様では、ディスプレイ190、192は、2Dディスプレイであってもよい。
一般に、ディスプレイ190、192などのディスプレイは、HMD(ヘッドマウントディスプレイ)デバイスを用いることとなく、実世界の実際の物体の3D光学特性に近似したイメージを提供できる。一般に、本明細書において説明するディスプレイは、フラットパネルディスプレイ、レンチキュラーレンズ(たとえば、マイクロレンズアレイ)、および/または視差バリアを備え、ディスプレイに関連する複数の異なる視聴領域に画像をリダイレクトする。
いくつかの例示的なディスプレイでは、このようなディスプレイが提供する画像コンテンツ(たとえば、ユーザ、物体など)の3Dビューを提供する場所が1つしかない場合がある。ユーザは、この1つの場所に座って視差が正しく歪みが最小であるリアルな3D画像を体験できる。ユーザが異なる物理的位置に移動した(または、頭部の位置もしくは眼の視線位置を変えた)場合、画像コンテンツ(たとえば、ユーザ、ユーザが装着している物体、および/またはその他の物体)は、リアルさが劣った2Dおよび/または歪んだコンテンツに見え始めるであろう。本明細書において説明するシステムおよび技術は、ディスプレイから投影された画像コンテンツを再構成し、ユーザが、移動はできるが視差が正しい歪み率が低いリアルな3D画像を引き続きリアルタイムで体験できることを約束できる。よって、本明細書において説明するシステムおよび技術には、ユーザが3Dディスプレイを見ている間に生じるユーザの動きに関係なく、表示用の3D画像コンテンツおよび物体を維持およびユーザに提供するという利点がある。
図1に示すように、テレプレゼンスシステム180は、1つ以上のネットワークを備え得る。ネットワーク198は、2つの例を挙げると、公共で利用可能なネットワーク(たとえば、インターネット)、またはプライベートネットワークであり得る。ネットワーク198は、有線であってもよく、ワイヤレスであってもよく、これら2つの組合せであってもよい。ネットワーク198は、1つ以上のその他のデバイスまたはシステムを備えるまたは利用し得る。当該1つ以上のその他のデバイスまたはシステムは、1つ以上のサーバ(図示せず)を含むが、これに限定されない。
テレプレゼンスシステム180は、ユーザ182のためのマイクロフォンアレイ172およびスピーカーアレイ174、ならびにユーザ182’のための類似のマイクロフォンアレイ172’およびスピーカーアレイ174’をさらに備える。これらの構成要素は、ユーザ182および182’にとって最もリアルなオーディオ体験を提供するために正常に動作できる状態に準備されている。スピーカーアレイ174および174’は、3D音声信号をローカルに提供できる。マイクロフォンアレイ172および172’は、ユーザからの3D音声信号を検出するために用いられ得る。音声信号は、その後、エンコードされ、テレプレゼンスシステム180におけるサウンドを表す3D音場のレンダリングのためにリモートユーザに送られ得る。
図2は、マイクロフォンおよびスピーカーを較正する例示的な方法200を示すフローチャートである。方法200は、ユーザのデバイスコンピュータ120のメモリ126に存在し、かつ一連の処理部124によって実行される図1に関して説明したソフトウェア構成体によって実行されてもよい。または、方法200は、ユーザのデバイスコンピュータ120とは異なる(たとえば、遠隔にある)コンピューティングデバイスのメモリに存在するソフトウェア構成体によって実行されてもよい。
Figure 0007434668000010
204では、パワースペクトル密度マネージャ150は、マイクロフォンアレイのマイクロフォンごとおよびスピーカーアレイのスピーカーごとに、そのスピーカーが生成してそのマイクロフォンが受信した各反響音場に基づく、そのマイクロフォンおよびそのスピーカーの各パワースペクトル密度(たとえば、パワースペクトル密度データ154)を生成する。パワースペクトル密度の生成については、図3で詳細を説明する。
206では、較正フィルターマネージャ160は、マイクロフォンアレイのマイクロフォンごとに、スピーカーアレイおよびマイクロフォンアレイについて平均化されたパワースペクトル密度(式(7))と、スピーカーアレイについて平均化されたパワースペクトル密度(式(5))との比率に基づく各較正フィルター(たとえば、マイクロフォン較正データ162)を生成する。
これらの較正フィルターを用いて、同じ入力刺激に応答して同じスペクトルを記録するようにマイクロフォンを較正し、同じ入力刺激に応答して同じスペクトルを生成するようにスピーカーを較正する。また、較正フィルターは直接音場ではなく反響音場に基づいているので、較正係数は、スピーカーおよびマイクロフォンが配置されている環境の外形にも、直接音信号にあるいずれのノードにも大きく影響されることがなく、較正フィルターは、高品質かつ指向性感度が高い音声信号をマイクロフォンに生成させる。
208では、コンピュータ120は、マイクロフォンアレイのマイクロフォンごとに生成したそれぞれの較正フィルターを使用するマイクロフォンアレイによって、ユーザからの音響信号を記録する。マイクロフォンアレイの各マイクロフォンは、音響信号の本質的に同じスペクトルを記録する。較正されたマイクロフォンから記録した信号を処理してマイクロフォンアレイの環境における音(たとえば、マイクロフォンアレイを備えるテレプレゼンスシステムを用いて1人以上の話者が発した発言)を表す空間音声信号を生成でき、生成された空間音声信号を、レンダリングのためにサウンドレンダリングシステム(たとえば、遠隔にあるテレプレゼンスシステム)に送信できる。
図3は、マイクロフォンアレイのマイクロフォンを較正するための例示的な処理300を説明するフローチャートである。処理300は、ユーザのデバイスコンピュータ120のメモリ126に存在し、かつ一連の処理部124によって実行される図1に関して説明したソフトウェア構成体によって実行されてもよい。または、処理300は、ユーザのデバイスコンピュータ120とは異なる(たとえば、遠隔にある)コンピューティングデバイスのメモリに存在するソフトウェア構成体によって実行されてもよい。
301では、インパルス応答マネージャ140は、各チャネル、すなわち、各マイクロフォン/スピーカーのペアからの反響(RAW)インパルス応答を計測する。前述したように、インパルス応答は、壁、天井、床、または反響音場マネージャ130が生成したスイープサインチャープから発生するマイクロフォンにおいて受信された物体からの反射から導出され得る。信号の実際の記録は、開始時間に起こる。開始時間は、マイクロフォンにおいて直音声信号が受信された後、十分な時間が経過してから生じる。したがって、マイクロフォンにおいて計測された反響音場は、境界および障害物を反射した信号のみを含む。
2つのスピーカーおよび4つのマイクロフォンの例示的なRAWインパルス応答関数が図4Aに示されており、8個のRAWインパルス応答関数になっている。いくつかの実施態様では、RAWインパルス応答関数の各々は、1つのスピーカーからの反響音場に基づいて計測される。いくつかの実施態様では、各スピーカーは、別々の時間にスイープサインチャープを生成する。いくつかの実施態様では、これらのRAWインパルス応答関数は、マイクロフォンアレイにおいて一度に計測される。いくつかの実施態様では、RAWインパルス応答関数は、マイクロフォンアレイにおいて一度に1つずつ計測される。
302では、減衰正規化マネージャ141は、チャネルごとの時間の関数としてインパルス応答エネルギーを推定する。図4Bは、図4AのRAWインパルス応答関数に関連する例示的な時間依存エネルギー計量(metric)を示す。なお、図4BのプロットのY軸座標の値は、エネルギーの平方根である。
303では、減衰正規化マネージャ141は、式(3)に従って、マイクロフォンおよびスピーカー全体のインパルス応答エネルギーを平均化して平均インパルス応答エネルギーを生成する。図4Cは、すべてのスピーカーおよびマイクロフォンについて平均化された図4Bの例示的な時間依存エネルギー計量を示す。
304では、減衰正規化マネージャ141は、平均インパルス応答エネルギーを用いてチャネルごとにRAWインパルス応答を正規化し、減衰正規化インパルス応答関数を生成する。図4Dは、4つのマイクロフォンと2つのスピーカーとのRAWインパルス応答関数に対応する減衰正規化インパルス応答関数の例を示す。
305では、サブセグメントマネージャ142は、減衰正規化インパルス応答関数のサブセグメントを一定の時間間隔(すなわち、第1の時間~第2の時間)にわたって抽出し、時間ベースのサブセグメントを生成する。図4Eは、図4Dに示す減衰正規化インパルス応答関数の例示的なサブセグメントを示す。
306では、コンボリューションマネージャ151は、個々のサブセグメントからホワイトノイズ自己相関関数を生成する。図4Fは、図4Eに示す減衰正規化インパルス応答関数のサブセグメントから導出された例示的なマルチチャネルホワイトノイズの自己相関関数を示す。
307では、変換マネージャ152は、短い時間ウインドウにわたってホワイトノイズ自己相関関数に対してフーリエ変換を実行し、式(4)に従ってチャネルごとのパワースペクトル密度を生成する。図4Gは、図4Fに示すマルチチャネルホワイトノイズの自己相関関数に対応する例示的なパワースペクトル密度を示す。
308では、較正フィルターマネージャ160は、スピーカーについてのパワースペクトル密度の平均を生成してスピーカーについて平均化されたパワースペクトル密度を生成する。図4Hは、スピーカーについて平均化された図4Gの例示的なパワースペクトル密度を示す。
309では、較正フィルターマネージャ160は、スピーカーについて平均化されたパワースペクトル密度に対する、マイクロフォンおよびスピーカーについて平均化されたパワースペクトル密度の割合としてマイクロフォン較正フィルターを生成する。図4Iは、図4Hのスピーカーについて平均化されたパワースペクトル密度から導出された例示的なマイクロフォン較正フィルターを示す。
なお、スピーカー較正フィルターの生成にも308および309を適用できる。図4Jは、マイクロフォンについて平均化された図4Gの例示的なパワースペクトル密度を示す。図4Kは、図4Jのマイクロフォンについて平均化されたパワースペクトル密度から導出された例示的なスピーカー較正フィルターを示す。
図5は、本明細書に記載の技術とともに使用され得る一般的なコンピュータデバイス500および一般的なモバイルコンピュータデバイス550の例を示す図である。
図5に示すように、コンピューティングデバイス500は、ラップトップ、デスクトップ、ワークステーション、PDA(携帯情報端末)、サーバ、ブレードサーバ、メインフレーム、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すよう意図される。コンピューティングデバイス550は、PDA、携帯電話、スマートフォン、およびその他同様のコンピューティングデバイスなど、様々な形態のモバイル機器を表すよう意図される。本明細書に示す構成要素、それらの接続および関係、ならびにそれらの機能は、例示に過ぎず、本明細書において説明および/またはクレームされた発明の実施態様を限定するものではない。
コンピューティングデバイス500は、プロセッサ502と、メモリ504と、記憶装置506と、メモリ504および高速拡張ポート510に接続された高速インタフェース508と、低速バス514および記憶装置506に接続された低速インタフェース512とを備える。構成要素502、504、506、508、510、および512の各々は、様々なバスを用いて互いに接続されており、共通のマザーボード上に実装され得、またはその他の方法で適宜実装され得る。プロセッサ502は、コンピューティングデバイス500内で実行するための命令を処理できる。当該命令は、高速インタフェース508に連結されたディスプレイ516など、外付けの入出力装置上のGUIのためのグラフィック情報を表示するための、メモリ504に格納されたまたは記憶装置506上に格納された命令を含む。その他の実施態様では、複数のプロセッサおよび/または複数のバスが複数のメモリおよび複数種類のメモリとともに適宜利用され得る。また、(たとえば、サーババンク、ブレードサーバ群、または多重プロセッサシステムなどとしての)必要な動作の一部を各々が提供する複数のコンピューティングデバイス500が接続され得る。
メモリ504は、コンピューティングデバイス500内の情報を格納する。一実施態様では、メモリ504は、1つまたは複数の揮発性記憶装置である。別の実施態様では、メモリ504は、1つまたは複数の不揮発性記憶装置である。また、メモリ504は、磁気ディスクまたは光ディスクなど、別の形態のコンピュータ読み取り可能な媒体であってもよい。
記憶装置506は、コンピューティングデバイス500用の大容量ストレージを提供できる。一実施態様では、記憶装置506は、フロッピー(登録商標)ディスク装置、ハードディスク装置、光ディスク装置、もしくはテープ装置、フラッシュメモリもしくは他の同様の固体メモリ装置、または、ストレージエリアネットワークもしくはその他の構成に含まれるデバイスを含むデバイスのアレイなど、コンピュータ読み取り可能な媒体であってもよく、または、コンピュータ読み取り可能な媒体を含んでもよい。コンピュータプログラムプロダクトが情報担体に有形に含まれ得る。また、このコンピュータプログラムプロダクトも命令を含み得る。当該命令は、実行されると、上述した方法など、1つ以上の方法を実行する。情報担体は、メモリ504、記憶装置506、もしくはプロセッサ502上のメモリなど、コンピュータ読み取り可能な媒体または機械読み取り可能な媒体である。
高速コントローラ508は、コンピューティングデバイス500のための多くの帯域幅を必要とする動作を管理し、低速コントローラ512は、より低い帯域幅の多くを必要とする動作を管理する。このような機能の割振りは、例示に過ぎない。一実施態様では、高速コントローラ508は、メモリ504(たとえば、グラフィックスプロセッサまたはアクセラレータを通じて)ディスプレイ516、および高速拡張ポート510に連結される。高速拡張ポート510は、様々な拡張カード(図示せず)を受け付け得る。この実施態様では、低速コントローラ512は、記憶装置506および低速拡張ポート514に連結される。様々な通信ポート(たとえば、USB、Bluetooth(登録商標)、Ethernet、無線Ethernet)を含み得る低速拡張ポートは、キーボード、ポインティングデバイス、スキャナなどの1つ以上の入出力装置、または、スイッチもしくはルーターなどのネットワーク装置に、たとえばネットワークアダプタを通じて連結され得る。
コンピューティングデバイス500は、図に示すような複数の異なる形態で実現されてもよい。たとえば、標準サーバ520として実現されてもよく、このようなサーバ群で複数回実現されてもよい。また、ラックサーバシステム524の一部として実現されてもよい。これに加えて、ラップトップコンピュータ522など、パーソナルコンピュータで実現されてもよい。これに代えて、コンピューティングデバイス500の構成要素を、デバイス550など、モバイル機器(図示せず)が備えるその他の構成要素と組み合わせてもよい。このようなデバイスの各々は、コンピューティングデバイス500、550のうちの1つ以上を含み得、システム全体が、互いに通信する複数のコンピューティングデバイス500、550から構成され得る。
コンピューティングデバイス550は、特に、プロセッサ552と、メモリ564と、ディスプレイ554などの入出力装置と、通信インタフェース566と、送受信器568とを備える。マイクロドライブまたはその他の装置など、記憶装置がデバイス550に設けられて、追加ストレージを提供してもよい。構成要素550、552、564、554、566、および568の各々は、様々なバスを用いて互いに接続されており、これらの構成要素のうちの一部が共通のマザーボード上に実装されてもよく、その他の方法で適宜実装されてもよい。
プロセッサ552は、命令(メモリ564に格納された命令を含む)をコンピューティングデバイス450内で実行できる。プロセッサは、別個の複数のアナログプロセッサおよびデジタルプロセッサを含むチップのチップセットとして実現されてもよい。プロセッサは、たとえば、ユーザーインターフェースの制御、デバイス550が実行するアプリケーションの制御、およびデバイス550による無線通信の制御など、デバイス550のその他の構成要素が協調できるようにする。
プロセッサ552は、ディスプレイ554に連結された制御インタフェース558および表示インタフェース556を通じてユーザと通信し得る。ディスプレイ554は、たとえば、TFT LCD(薄膜トランジスタ液晶ディスプレイ)もしくはOLED(有機発光ダイオード)ディスプレイ、またはその他の適切なディスプレイ技術であってもよい。表示インタフェース556は、ディスプレイ554を駆動してグラフィック情報およびその他の情報をユーザに提示するための適切な回路を備えてもよい。制御インタフェース558は、ユーザからコマンドを受信し、プロセッサ552に実行を依頼するために変換し得る。これに加えて、デバイス550がその他のデバイスと近距離通信できるよう、プロセッサ552と通信する外部インタフェース562が設けられてもよい。たとえば、外部インタフェース562によって、いくつかの実施態様では有線通信が可能になってもよく、その他の実施態様では無線通信が可能になってもよく、また、複数のインタフェースが用いられてもよい。
メモリ564は、コンピューティングデバイス550内の情報を格納する。メモリ564は、1つまたは複数のコンピュータ読み取り可能な媒体、1つまたは複数の揮発性記憶装置、または、1つもしくは複数の不揮発性記憶装置、のうちの1つ以上として実現され得る。また、拡張インタフェース572を通してデバイス550に拡張メモリ574が提供および接続され得る。拡張インタフェース572は、たとえば、SIMM(Single In Line Memory Module)カードインタフェースを含み得る。このような拡張メモリ574は、デバイス550のための追加の記憶空間を提供し得、または、デバイス550のためのアプリケーションまたはその他の情報も格納し得る。具体的には、拡張メモリ574は、上述した工程を遂行または補助するための命令を含み得、セキュリティ保護された情報も含み得る。よって、たとえば、拡張メモリ574がデバイス550のためのセキュリティモジュールとして提供され得、または、セキュリティ保護されたデバイス550の使用を可能にする命令が拡張メモリ574にプログラムされ得る。これに加えて、ハッキングできない方法でSIMMカード上に識別情報を置くなど、セキュリティ保護されたアプリケーションがSIMMカードを介して追加情報とともに提供されてもよい。
メモリは、たとえば、後述するフラッシュメモリおよび/またはNVRAMメモリを含み得る。一実施態様では、情報担体にコンピュータプログラムプロダクトが有形に含まれる。このコンピュータプログラムプロダクトは、命令を含む。当該命令は、実行されると、上述した方法など、1つ以上の方法を実行する。情報担体は、メモリ564、拡張メモリ574、またはプロセッサ552上のメモリなど、コンピュータ読み取り可能な媒体または機械読み取り可能な媒体であり、たとえば、送受信器568または外部インタフェース562を介して受信され得る。
デバイス550は、通信インタフェース566を通して無線通信を行い得る。通信インタフェースは、必要であれば、デジタル信号処理回路を備え得る。通信インタフェースは、とくに、GSM(登録商標)音声通話、SMS、EMS、もしくはMMSメッセージング、CDMA、TDMA、PDC、WCDMA(登録商標)、CDMA2000、またはGPRSなど、様々なモードまたはプロトコル下の通信を可能にし得る。このような通信は、たとえば、高周波送受信器568を通して生じ得る。これに加えて、Bluetooth、Wi-Fi、またはその他のこのような送受信器(図示せず)を用いるなどして近距離通信が行われ得る。これに加えて、GPS(Global Positioning System)受信機モジュール570は、追加のナビゲーション関係または位置関係の無線データをデバイス550に提供し得る。追加のナビゲーション関係または位置関係の無線データは、デバイス550上で実行するアプリケーションによって適宜利用され得る。
また、デバイス550は、オーディオコーデック560を用いて、音声による通信を行い得る。オーディオコーデック560は、ユーザから音声情報を受け付け、使用可能なデジタル情報に変換し得る。同様に、オーディオコーデック560は、たとえば、デバイス550のハンドセットにおいて、スピーカーを通してなど、ユーザのために音を生成し得る。このような音は、音声電話通話からの音声を含んでもよく、録音音声(たとえば、音声メッセージ、音楽ファイルなど)を含み得、デバイス550上で動作するアプリケーションによって生成された音も含み得る。
コンピューティングデバイス550は、図示したような複数の異なる形態で実現され得る。たとえば、携帯電話580として実現され得る。また、スマートフォン582、携帯情報端末、または他の同様のモバイル機器の一部として実現され得る。
本明細書において説明したシステムおよび技術の様々な実施態様は、デジタル電子回路、集積回路、専用に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組合せで実現できる。これらの様々な実施態様は、プログラム可能なシステム上で実行可能および/または解釈可能な1つ以上のコンピュータプログラムでの実装を含み得る。プログラム可能なシステムは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置に連結されてデータおよび命令を送受信する特定用途プロセッサまたは汎用プロセッサであり得る、少なくとも1つのプログラム可能なプロセッサを含む。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)は、プログラム可能なプロセッサ用の機械命令を含み、上位の手続き形言語および/もしくはオブジェクト指向プログラミング言語で、ならびに/またはアセンブリ言語/機械言語で実現できる。本明細書において使用するとき、「機械読み取り可能な媒体」、「コンピュータ読み取り可能な媒体」という用語は、プログラム可能なプロセッサに機械命令および/またはデータを提供するために用いられる任意のコンピュータプログラムプロダクト、装置、および/またはデバイス(たとえば、磁気ディスク、光学ディスク、メモリ、PLD(Programmable Logic Device))を指し、機械読み取り可能な信号として機械命令を受け付ける機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラム可能なプロセッサに機械命令および/またはデータを提供するために用いられる任意の信号を指す。
ユーザとのやり取りを可能にするために、本明細書に記載のシステムおよび技術は、ユーザに情報を表示するための表示装置(たとえば、CRT(ブラウン管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を行えるキーボードおよびポインティングデバイス(たとえば、マウスまたはトラックボール)とを備えたコンピュータ上に実装され得る。その他の種類のデバイスを使ってユーザとのやり取りを可能にすることもでき、たとえば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック(たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であり得、ユーザからの入力は、音響入力、音声入力、触覚入力など、任意の形式で受け付けられ得る。
本明細書に記載のシステムおよび技術は、バックエンドコンポーネント(たとえば、データサーバ)を備えるコンピュータシステム、ミドルウェアコンポーネント(たとえば、アプリケーションサーバ)を備えるコンピュータシステム、フロントエンドコンポーネント(たとえば、本明細書に記載のシステムならびに技術の実施態様とユーザがやり取りできるグラフィカルユーザーインターフェースもしくはウェブブラウザを有するクライアントコンピュータ)を備えるコンピュータシステム、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、フロントエンドコンポーネントの任意の組合せを備えるコンピュータシステムで実現され得る。システムのこれらのコンポーネントは、デジタルデータ通信(たとえば、通信ネットワーク)の任意の形式または媒体によって互いに接続され得る。通信ネットワークとして、LAN(ローカルエリアネットワーク)、WAN(ワイドエリアネットワーク)、およびインターネットなどが挙げられる。
コンピュータシステムは、クライアントとサーバとを備え得る。クライアントとサーバとは、一般に、互いから離れた場所にあり、通常、通信ネットワークを通じてやり取りを行う。クライアントとサーバとの関係は、コンピュータプログラムがそれぞれのコンピュータ上で動作し、かつ、クライアントとサーバとの関係にあることによって成り立つ。
図1に戻ると、いくつかの実施態様では、メモリ126は、RAM、ディスクドライブメモリ、フラッシュメモリなど、任意の種類のメモリであり得る。いくつかの実施態様では、圧縮コンピュータ120の構成要素に関連する2つ以上のメモリコンポーネント(たとえば、2つ以上のRAMコンポーネントまたはディスクドライブメモリ)としてメモリ126を実現できる。いくつかの実施態様では、メモリ126は、データベースメモリであり得る。いくつかの実施態様では、メモリ126は、非ローカルメモリであり得、または当該非ローカルメモリを含み得る。たとえば、メモリ126は、複数のデバイス(図示せず)によって共有されるメモリであり得、または、当該メモリを含み得る。いくつかの実施態様では、メモリ126は、ネットワーク内のサーバ装置(図示せず)に関連付けられ、圧縮コンピュータ120の構成要素を提供するように構成され得る。
圧縮コンピュータ120の構成要素(たとえば、モジュール、処理装置124)は、1つ以上の種類のハードウェア、ソフトウェア、ファームウェア、オペレーティングシステム、ランタイムライブラリなどを含み得る1つ以上のプラットフォーム(たとえば、1つ以上の同様または異なるプラットフォーム)に基づいて動作するように構成され得る。いくつかの実施態様では、圧縮コンピュータ120の構成要素は、デバイスの集まり(たとえば、サーバファーム)内で動作するように構成され得る。このような実施態様では、圧縮コンピュータ120の構成要素の機能および処理は、デバイスの集まりに含まれるいくつかのデバイスに分散され得る。
コンピュータ120の構成要素は、属性を処理するように構成された任意の種類のハードウェアおよび/もしくはソフトウェアであり得、または、当該ハードウェアおよび/もしくはソフトウェアを含み得る。いくつかの実施態様では、図1のコンピュータ120の構成要素に示される構成要素のうちの1つ以上の部分は、ハードウェアベースのモジュール(たとえば、DSP(デジタル信号プロセッサ)、FPGA(フィールドプログラマブルゲートアレイ)、メモリ)、ファームウェアモジュール、および/もしくはソフトウェアベースのモジュール(たとえば、コンピュータコードのモジュール、コンピュータにおいて実行され得る一連のコンピュータ読み取り可能な命令)であり得、または当該ハードウェアベースのモジュールを含み得る。たとえば、いくつかの実施態様では、コンピュータ120の構成要素のうちの1つ以上の部分は、少なくとも1つのプロセッサ(図示せず)によって実行されるように構成されたソフトウェアモジュールであり得、または、当該ソフトウェアモジュールを含み得る。いくつかの実施態様では、構成要素の機能は、図1に示すモジュールおよび/または構成要素とは異なるモジュールおよび/または構成要素に含まれ得る。
図示しないが、いくつかの実施態様では、コンピュータ120の構成要素(または、その一部)は、たとえば、データセンター(たとえば、クラウドコンピューティング環境)、コンピュータシステム、1つ以上のサーバ装置/ホスト装置内などで動作するように構成され得る。いくつかの実施態様では、コンピュータ120の構成要素(または、その一部)は、ネットワーク内で動作するように構成され得る。よって、コンピュータ120の構成要素(もしくはその一部)は、1つ以上の装置および/または1つ以上のサーバ装置を含み得る様々な種類のネットワーク環境内で機能するように構成され得る。たとえば、ネットワークは、LAN(ローカルエリアネットワーク)、WAN(ワイドエリアネットワーク)などであり得、または、当該LANおよびWANを含み得る。ネットワークは、たとえばゲートウェイ装置、ブリッジ、スイッチなどを用いて実現される無線ネットワークおよび/もしくは有線ネットワークであり得、または当該無線ネットワークおよび/もしくは有線ネットワークを含み得る。ネットワークは、1つ以上のセグメントを含み得、ならびに/または、IP(Internet Protocol)および/もしくはプロプライエタリプロトコルなど、様々なプロトコルに基づいてセグメントの一部を有し得る。ネットワークは、少なくともインターネットの一部を含み得る。
いくつかの実施形態では、コンピュータ120の構成要素のうちの1つ以上は、メモリに格納された命令を処理するように構成されたプロセッサであり得、または当該プロセッサを含み得る。たとえば、デプス画像マネージャ130(および/またはその一部)、視点マネージャ140(および/またはその一部)、レイキャスティングマネージャ150(および/またはその一部)、SDVマネージャ160(および/またはその一部)、アグリゲーションマネージャ170(および/またはその一部)、ルートファインディングマネージャ180(および/またはその一部)、ならびにデプス画像生成マネージャ190(および/またはその一部)は、1つ以上の機能を実現するための処理に関連する命令を実行するように構成されたプロセッサとメモリとの組合せであり得る。
いくつかの実施形態を説明したが、本明細書の趣旨および範囲から逸脱することなく、様々な変更がなされてもよいことが理解されるであろう。
ある要素が別の要素の上に設けられる、別の要素に接続される、電気的に接続される、連結される、または電気的に連結されると称される場合、当該要素は、当該別の要素の上に直接設けられ得、接続もしくは連結されえ、または、1つ以上の中間要素が存在し得る、と理解されるであろう。対照的に、ある要素が別の要素の上に直接設けられる、別の要素に直接接続される、または直接連結されると称される場合、中間要素は存在しない。~の上に直接設けられる、~に直接接続される、または、~に直接連結される、という用語は、詳細な説明を通して用いられていないかもしれないが、~の上に直接設けられる、~に直接接続される、または、~に直接連結される状態で図示された要素は、そのように称され得る。本願の特許請求の範囲を補正して、明細書において説明されたまたは図示された関係の例を記載してもよい。
本明細書に記載したように、上述の実施態様の特定の特徴を例示したが、今では、当業者であれば、多くの変形例、代替例、変更例、および均等物に想到するであろう。そのため、当然ながら、特許請求の範囲は、このような変形例および変更例のすべてを実施態様の範囲に包含するものとする。これらはほんの一例として提示されたに過ぎず、限定ではなく、形式および詳細に様々な変更がなされ得ることを理解されたい。本明細書に記載の装置および/または方法のいずれの部分も、相互に排他的な組み合わせを除くあらゆる組合せに組み合わされ得る。本明細書に記載の実施態様は、記載の異なる実施態様の機能、構成要素、および/または特徴の様々な組み合わせならびに/もしくは部分的な組み合わせを含み得る。
これに加えて、図示した論理フローは、所望の結果を実現するために、図示した特定の順序であったり、順番通りであったりする必要はない。これに加えて、説明したフローにその他のステップが設けられたり、ステップが排除されたりしてもよく、説明したシステムにその他の構成要素が追加されたり、削除されたりしてもよい。したがって、その他の実施形態も添付の特許請求の範囲に含まれる。

Claims (15)

  1. マイクロフォンアレイの各マイクロフォンを介して、スピーカーアレイの各スピーカーが生成した音声信号に基づいて反響音場を受信することと、
    前記マイクロフォンアレイのマイクロフォンごとおよび前記スピーカーアレイのスピーカーごとに、そのスピーカーが生成してそのマイクロフォンが受信した前記各反響音場に基づいてそのマイクロフォンおよびそのスピーカーの各パワースペクトル密度を生成することと、
    前記マイクロフォンアレイのマイクロフォンごとに、前記スピーカーアレイおよび前記マイクロフォンアレイについて平均化された前記パワースペクトル密度と前記スピーカーアレイについて平均化された当該マイクロフォンにとってのパワースペクトル密度との割合として、各較正フィルターを生成することと、
    前記マイクロフォンアレイのマイクロフォンごとに生成された前記各較正フィルターを使用する前記マイクロフォンアレイによってユーザからの音響信号を記録することとを含み、前記各較正フィルターを使用する前記マイクロフォンアレイの各マイクロフォンは、前記音響信号の本質的に同じスペクトルを記録する、方法。
  2. 前記マイクロフォンアレイのマイクロフォンごとおよび前記スピーカーアレイのスピーカーごとに前記各パワースペクトル密度を生成することは、
    そのスピーカーが生成してそのマイクロフォンが受信した前記各反響音場に基づいてそのマイクロフォンおよびスピーカーの各インパルス応答関数を生成することを含む、請求項1に記載の方法。
  3. 前記マイクロフォンアレイのマイクロフォンごとおよび前記スピーカーアレイのスピーカーごとに前記各パワースペクトル密度を生成することは、
    そのマイクロフォンおよびスピーカーの前記各インパルス応答関数の自己相関を実行して自己相関インパルス応答関数を生成することと、
    前記自己相関インパルス応答関数に対して周波数空間への変換を実行してそのマイクロフォンおよびスピーカーの前記パワースペクトル密度を生成することとをさらに含む、請求項2に記載の方法。
  4. 前記自己相関インパルス応答関数に対して前記周波数空間への変換を実行することは、
    指定された時間間隔内で定数に等しく、前記指定された時間間隔外で0に等しい窓関数を生成することと、
    前記窓関数と前記自己相関インパルス応答関数との積に対するフーリエ変換操作を実行することとを含む、請求項3に記載の方法。
  5. 前記各インパルス応答関数を生成する前に、
    第1周波数と第2周波数との間の周波数を有するスイープサインチャープ信号を前記音声信号としてそのスピーカーにおいて生成することをさらに含み、前記スイープサインチャープ信号は、そのマイクロフォンにおいて受信される、請求項2~4のいずれか1項に記載の方法。
  6. 前記各インパルス応答関数を生成することは、
    前記マイクロフォンアレイのマイクロフォンごとおよび前記スピーカーアレイのスピーカーごとに、
    そのマイクロフォンとそのスピーカーとに対応するRAWインパルス応答関数を計測することと、
    そのRAWインパルス応答関数に関連する、時間依存エネルギー計量を生成することと、
    前記マイクロフォンアレイおよび前記スピーカーアレイについての、前記マイクロフォンアレイの各マイクロフォンと前記スピーカーアレイの各スピーカーとに関連する前記各時間依存エネルギー計量の平均に基づく正規化係数を生成することと、
    前記マイクロフォンアレイの各マイクロフォンと前記スピーカーアレイの各スピーカーとに対応する前記RAWインパルス応答関数を前記正規化係数で除算して、そのマイクロフォンとそのスピーカーとに対応する減衰正規化インパルス応答関数を生成することとを含む、請求項2~5のいずれか1項に記載の方法。
  7. 前記マイクロフォンアレイの各マイクロフォンと前記スピーカーアレイの各スピーカーとに対応する前記各RAWインパルス応答関数に関連する前記時間依存エネルギー計量を生成することは、
    そのマイクロフォンとそのスピーカーとに対応する前記各RAWインパルス応答関数の絶対値の第1のべき乗を生成することと、
    前記各RAWインパルス応答関数の前記絶対値の前記第1のべき乗に対して平滑化操作を実行して、そのマイクロフォンとそのスピーカーとに対応する前記各RAWインパルス応答関数に関連する前記時間依存エネルギー計量を生成することとを含む、請求項6に記載の方法。
  8. 前記平滑化操作を実行することは、
    指定された期間中の前記各RAWインパルス応答関数の前記絶対値の前記第1のべき乗の移動平均を生成することを含む、請求項7に記載の方法。
  9. 前記正規化係数を生成することは、
    前記マイクロフォンアレイの各マイクロフォンと前記スピーカーアレイの各スピーカーとに対応する前記各RAWインパルス応答関数に関連する前記時間依存エネルギー計量の第2のべき乗を生成することを含み、前記第2のべき乗は、前記第1のべき乗の逆数である、請求項7または8に記載の方法。
  10. 前記各インパルス応答関数を生成することは、
    そのマイクロフォンとそのスピーカーとに対応する前記減衰正規化インパルス応答関数のサブセグメントを前記マイクロフォンアレイの各マイクロフォンと前記スピーカーアレイの各スピーカーとに対応する前記各インパルス応答関数として取得することを含み、前記サブセグメントは、第1の時間に開始し、第2の時間に終了する、請求項6~9のいずれか1項に記載の方法。
  11. 前記第1の時間は、前記反響音場の反響波が伝わる最短距離に基づく、請求項10に記載の方法。
  12. 前記第2の時間は、前記各RAWインパルス応答関数の前記計測に関連するノイズフロアまで前記各RAWインパルス応答関数が減衰するのにかかる時間の長さの推定値に基づく、請求項10または11に記載の方法。
  13. マイクロフォンアレイの各マイクロフォンを介して、スピーカーアレイの各スピーカーが生成した音声信号に基づいて反響音場を受信することと、
    前記マイクロフォンアレイのマイクロフォンごとおよび前記スピーカーアレイのスピーカーごとに、そのスピーカーが生成してそのマイクロフォンが受信した前記各反響音場に基づいてそのマイクロフォンおよびそのスピーカーの各パワースペクトル密度を生成することと、
    前記スピーカーアレイのスピーカーごとに、前記スピーカーアレイおよび前記マイクロフォンアレイについて平均化された前記パワースペクトル密度と前記マイクロフォンアレイについて平均化された当該スピーカーにとってのパワースペクトル密度との割合として、各較正フィルターを生成することと、
    前記スピーカーアレイのスピーカーごとに生成された前記各較正フィルターを使用する前記スピーカーアレイによって音響信号を生成することとを含み、前記各較正フィルターを使用する前記スピーカーアレイの各スピーカーは、前記音響信号の本質的に同じスペクトルを同じ出力刺激に応答して生成する、方法。
  14. コンピュータプログラムであって、前記コンピュータプログラムは、コードを含み、前記コードは、コンピューティングデバイスの処理回路によって実行されると、前記処理回路に請求項1~13のいずれか1項に記載の方法を実行させる、コンピュータプログラム。
  15. 請求項14に記載のコンピュータプログラムを格納するメモリと、
    前記メモリに連結された制御回路とを備える、電子機器。
JP2023526352A 2020-10-30 2020-10-30 テレプレゼンス会議用マイクロフォンアレイの自動較正 Active JP7434668B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024017209A JP2024063009A (ja) 2020-10-30 2024-02-07 テレプレゼンス会議用マイクロフォンアレイの自動較正

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2020/070723 WO2022093295A1 (en) 2020-10-30 2020-10-30 Automatic calibration of microphone array for telepresence conferencing

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024017209A Division JP2024063009A (ja) 2020-10-30 2024-02-07 テレプレゼンス会議用マイクロフォンアレイの自動較正

Publications (2)

Publication Number Publication Date
JP2023546257A JP2023546257A (ja) 2023-11-01
JP7434668B2 true JP7434668B2 (ja) 2024-02-20

Family

ID=73646612

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2023526352A Active JP7434668B2 (ja) 2020-10-30 2020-10-30 テレプレゼンス会議用マイクロフォンアレイの自動較正
JP2024017209A Pending JP2024063009A (ja) 2020-10-30 2024-02-07 テレプレゼンス会議用マイクロフォンアレイの自動較正

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024017209A Pending JP2024063009A (ja) 2020-10-30 2024-02-07 テレプレゼンス会議用マイクロフォンアレイの自動較正

Country Status (6)

Country Link
US (1) US20240007810A1 (ja)
EP (1) EP4238317A1 (ja)
JP (2) JP7434668B2 (ja)
KR (1) KR20230096050A (ja)
CN (1) CN116472724A (ja)
WO (1) WO2022093295A1 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9241228B2 (en) * 2011-12-29 2016-01-19 Stmicroelectronics Asia Pacific Pte. Ltd. Adaptive self-calibration of small microphone array by soundfield approximation and frequency domain magnitude equalization
EP2829081B1 (en) * 2012-03-23 2015-12-09 Dolby Laboratories Licensing Corporation Conferencing device self test
US10708701B2 (en) * 2015-10-28 2020-07-07 Music Tribe Global Brands Ltd. Sound level estimation
US10735887B1 (en) * 2019-09-19 2020-08-04 Wave Sciences, LLC Spatial audio array processing system and method

Also Published As

Publication number Publication date
JP2023546257A (ja) 2023-11-01
CN116472724A (zh) 2023-07-21
JP2024063009A (ja) 2024-05-10
US20240007810A1 (en) 2024-01-04
WO2022093295A1 (en) 2022-05-05
EP4238317A1 (en) 2023-09-06
KR20230096050A (ko) 2023-06-29

Similar Documents

Publication Publication Date Title
US10939225B2 (en) Calibrating listening devices
US11706582B2 (en) Calibrating listening devices
US9544706B1 (en) Customized head-related transfer functions
US9924291B2 (en) Distributed wireless speaker system
US10798514B2 (en) Method of determining a personalized head-related transfer function and interaural time difference function, and computer program product for performing same
US8693713B2 (en) Virtual audio environment for multidimensional conferencing
US10278002B2 (en) Systems and methods for non-parametric processing of head geometry for HRTF personalization
CN110574398B (zh) 使用定向分解和路径距离估计的环境立体声声场导航
US9826332B2 (en) Centralized wireless speaker system
Geronazzo et al. Applying a single-notch metric to image-guided head-related transfer function selection for improved vertical localization
Yang et al. Personalizing head related transfer functions for earables
KR20210008062A (ko) 시뮬레이션을 사용하는 머리 전달 함수 개인화
CN110663081A (zh) 基于网格偏移方法的联合宽带源定位和获取
Ranjan et al. Fast continuous acquisition of HRTF for human subjects with unconstrained random head movements in azimuth and elevation
US10921446B2 (en) Collaborative mapping of a space using ultrasonic sonar
JP7434668B2 (ja) テレプレゼンス会議用マイクロフォンアレイの自動較正
US11770670B2 (en) Generating spatial audio and cross-talk cancellation for high-frequency glasses playback and low-frequency external playback
US20230247383A1 (en) Information processing apparatus, operating method of information processing apparatus, and non-transitory computer readable medium
US20220329960A1 (en) Audio capture using room impulse responses
US9794685B2 (en) Video audio recording system, video audio recording device, and video audio recording method
CN118250628A (en) Audio signal processing method, system, equipment and storage medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230921

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230921

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240207

R150 Certificate of patent or registration of utility model

Ref document number: 7434668

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150