JP7541964B2

JP7541964B2 - 信号処理装置、信号処理方法

Info

Publication number: JP7541964B2
Application number: JP2021163073A
Authority: JP
Inventors: 大輔勝海
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-10-01
Filing date: 2021-10-01
Publication date: 2024-08-29
Anticipated expiration: 2041-10-01
Also published as: JP2023053804A; US12089000B2; US20230105382A1

Description

本発明は、信号処理技術に関するものである。

従来、複数のカメラを用いた撮影システムで撮像した画像から、ユーザが指定した仮想視点から見た画像を作り出し、仮想視点映像として再生することができる仮想視点映像生成システムがある。例えば、特許文献１の発明では、複数のカメラで撮像した画像を伝送したのち、画像コンピューティングサーバ（画像処理装置）で、撮像した画像のうち変化が大きいものを前景画像とし、変化が小さいものを背景画像として抽出する。抽出した前景画像に基づき被写体の３次元モデルの形状を推定・生成し、前景画像、背景画像と共に蓄積装置に蓄積する。そして、ユーザが指定した仮想視点に基づいて蓄積装置から適切なデータを取得し、仮想視点映像を生成することができる。

一方、テレビ番組や映画の撮影においては、収音作業者がカメラへの映り込みを回避しつつ、対象物に指向性の高いガンマイクを向けることで、動きのある対象物が発する音波の収音を実現している。特許文献２の発明によれば、画像に基づき検出した収音対象物の位置、特徴に基づき、収音指向性を制御することにより、精度よく音響信号を得ることができる。

特開２０１９－０５０５９３号公報特開２０２１－０１２３１４号公報

前述の仮想視点映像生成システムにおいては、収音作業者およびガンマイクは仮想視点映像生成上の不要な前景画像となるが、対象物の周囲を取り囲むようにカメラが配置されていることから、カメラへの映り込みを避けるのが困難である。

特許文献２の手法においては、ガンマイクを操作する収音作業者は存在しないが、収音対象物の方位角のみを推定、指向性制御を行うことから、奥行や高さを含めた対象物の３次元位置に基づく指向性制御をすることは困難である。本発明は、収音の対象となる対象物の音響信号を高音質で取得するための技術を提供する。

本発明の一様態は、対象物を含む複数の撮像画像に基づいて推定された該対象物の位置に基づき、複数の収音部から２以上の収音部を選択収音部として選択する選択手段と、
前記選択収音部からの音響信号を前記選択収音部と前記対象物との間の距離に基づく遅延量に基づいて遅延させた遅延音響信号を取得し、それぞれの選択収音部について取得した遅延音響信号の合成結果を、前記対象物の音響信号として出力する合成手段と
を備え、
前記合成手段は、それぞれの選択収音部について、該選択収音部について取得した遅延音響信号を、該選択収音部と前記対象物との間の距離に応じて増幅させた増幅音響信号を取得し、それぞれの選択収音部について取得した増幅音響信号を合成した合成結果を、前記対象物の音響信号として出力することを特徴とする。

本発明の構成によれば、収音の対象となる対象物の音響信号を高音質で取得することができる。

信号処理装置の機能構成例を示すブロック図。画像受信部１０１および音波受信部１０４の配置例を示す図。制御部１０５の構成例を示す図。対象物の音響信号を生成して出力するために信号処理装置１０が行う処理のフローチャート。信号処理装置１０に適用可能であるコンピュータ装置のハードウェア構成例を示すブロック図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
本実施形態に係る信号処理装置は、対象物を含む複数の撮像画像に基づいて推定された該対象物の位置に基づき、複数の収音部から２以上の収音部を選択収音部として選択する。そして信号処理装置は、該選択収音部からの音響信号を該選択収音部と該対象物との間の距離に基づく遅延量に基づいて遅延させた遅延音響信号を取得し、それぞれの選択収音部について取得した遅延音響信号の合成結果を、該対象物の音響信号として出力する。まず、このような信号処理装置の機能構成例について、図１のブロック図を用いて説明する。

図１の信号処理装置１０は複数の画像受信部１０１を有し、本実施形態では、該複数の画像受信部１０１は、撮像対象領域（例えば、収音の対象となる対象物が移動可能な範囲）の周囲に、該撮像対象領域に向けて設置されている。つまり、複数の画像受信部１０１は、撮像対象領域内を撮像可能に構成されている。

生成部１０２は、複数の画像受信部１０１から出力された撮像画像のうち対象物を含む複数の撮像画像を用いて該対象物の３次元モデルを生成する。対象物を含む複数の撮像画像から該対象物の３次元モデルを生成する方法には様々な方法が適用可能であり、本実施形態は、特定の方法を使用することに限定しない。本実施形態では、例えば、対象物が写っている複数の撮像画像から該対象物の３次元モデルを生成する方法として以下に説明する方法を採用しても良い。

まずそれぞれの撮像画像について前景背景分離を行って、該それぞれの撮像画像から前景を抽出する。ここでは前景背景分離の方式として、背景差分法を用いることとする。事前に前景となる被写体が無い状態で背景となる画像（背景画像）を撮像して取得しておき、該背景画像と、画像受信部１０１から出力された撮像画像と、を比較することで、該撮像画像において背景画像との差分の大きい画素を前景の画素として特定する。

次に、前景が特定された各撮像画像を用いて、視体積交差法により３次元モデルを生成する。視体積交差法は、３次元モデルを生成する対象エリアを細かい直方体（以降ボクセルと呼称する）に分け、各立方体が複数の撮像画像に映る場合の画素を３次元計算によって算出し、そのボクセルが前景の画素にあたるか否かを判断する。全ての画像受信部１０１の前景の画素となった場合、該ボクセルは対象エリアにおいて、対象物を構成するボクセルであると特定される。こうして、すべての画像受信部１０１で前景であると特定されたボクセルのみを残し、他のボクセルを削除していく。最終的に残ったボクセルが対象エリアに存在する対象物を構成するボクセルであり、該対象物の３次元モデルが生成される。

推定部１０３は、生成部１０２により生成された対象物の３次元モデルの重心位置（３次元位置）を、「撮像対象領域における該対象物の位置（３次元位置）」と推定する。なお、撮像対象領域に２以上の対象物が存在する場合には、それぞれの対象物を識別する。対象物の識別方法には様々な方法があり、例えば、撮像画像上の対象物や該対象物の３次元モデルの大きさ、形状、色などの特徴量に基づいてそれぞれの対象物を識別するようにしても良い。

なお、「撮像対象領域における対象物の位置（３次元位置）」は、生成部１０２により生成された対象物の３次元モデルの重心位置（３次元位置）に限らず、該３次元モデルにおける何れの位置であっても良い。

また信号処理装置１０は複数の音波受信部１０４を有し、本実施形態では、該複数の音波受信部１０４は、撮像対象領域の周囲に、該撮像対象領域に向けて設置されている。つまり複数の音波受信部１０４は、撮像対象領域内における対象物からの音波を収集可能に構成されている。複数の音波受信部１０４のそれぞれは、収集した音波を音響信号として出力する。

制御部１０５は、推定部１０３により推定された対象物の位置に基づき、複数の音波受信部１０４から２以上の音波受信部１０４を選択音波受信部として選択する。そして制御部１０５は、該選択音波受信部からの音響信号を該選択音波受信部の位置と対象物の位置との間の距離に基づく遅延量に基づいて遅延させた遅延音響信号を取得する。そして制御部１０５は、それぞれの選択音波受信部について取得した遅延音響信号の合成結果を、該対象物の音響信号として出力する。

信号選択部１０５１は、複数の音波受信部１０４のうち、推定部１０３により推定された対象物の位置に近い順に２以上の音波受信部１０４を選択音波受信部として選択する。この選択の基準は、対象物に近い音波受信部１０４ほど該対象物からの明瞭な音響信号が得られることに起因している。

遅延制御部１０５２は、選択音波受信部ごとに、該選択音波受信部の位置と対象物の位置との間の距離に基づいて遅延量を求める。そして遅延制御部１０５２は、選択音波受信部ごとに、該選択音波受信部からの音響信号を該選択音波受信部について求めた遅延量だけ遅延させた遅延音響信号を取得する。

信号合成部１０５３は、選択音波受信部ごとに、該選択音波受信部について取得した遅延音響信号を、該選択音波受信部の位置と対象物の位置との間の距離に基づいて増幅させた増幅音響信号を取得する。そして信号合成部１０５３は、それぞれの選択音波受信部について取得した増幅音響信号の合成結果を、該対象物の音響信号として出力する。

なお、対象物が複数の場合、生成部１０２、推定部１０３、制御部１０５はそれぞれの対象物について上記の如く動作し、その結果、該それぞれの対象物の音響信号が生成されて出力される。

次に、画像受信部１０１および音波受信部１０４の配置例について、図２を用いて説明する。図２に示す如く、複数の画像受信部１０１および複数の音波受信部１０４は、３次元モデルを生成する対象エリア（つまり撮像対象領域）である３次元モデル生成領域３０１を取り囲むように配置されている。複数の画像受信部１０１は、撮像方向を３次元モデル生成領域３０１内に向けて配置されており、複数の音波受信部１０４は、収音する方向を３次元モデル生成領域３０１内に向けて配置されている。

図２では、３次元モデル生成領域３０１内には、収音の対象となる３人の人物が対象物として存在している。Ｔｉは、３人の対象物のうちのｉ番目の対象物を表しており、例えば、演劇等で演者である対象物Ｔｉは、３次元モデル生成領域３０１内で移動して台詞を発する。３次元モデル２０２は、対象物Ｔｉについて生成部１０２が生成した３次元モデルである。

次に、上記の制御部１０５の構成例について、図３を用いて説明する。図３においてｎは音波受信部１０４の台数を表し、ｘは１つの対象物について信号選択部１０５１が選択する選択音波受信部の台数を表し、ｍは対象物の数を表す。

信号選択部１０５１には、ｎ台の音波受信部１０４から出力された音響信号Ｓ１～Ｓｎが入力される。Ｓｊ（１≦ｊ≦ｎ）はｎ台の音波受信部１０４のうちｊ台目の音波受信部１０４からの音響信号を表している。そして信号選択部１０５１は、対象物ごとに、該対象物の位置に近い順にｘ台の音波受信部１０４を選択音波受信部として選択する。Ｓ１１、Ｓ１２、…、Ｓ１ｘは、第１対象物の位置に近い順に選択されたｘ台の音波受信部１０４からの音響信号を表している。Ｓ２１、Ｓ２２、…、Ｓ２ｘは、第２対象物の位置に近い順に選択されたｘ台の音波受信部１０４からの音響信号を表している。Ｓｍ１、Ｓｍ２、…、Ｓｍｘは、第ｍ対象物の位置に近い順に選択されたｘ台の音波受信部１０４からの音響信号を表している。

遅延制御部１０５２は、対象物ごとに次のような処理を行うことで、該対象物に対応する遅延音響信号を取得する。以下に、遅延制御部１０５２が対象物Ｔｉに対応する遅延音響信号を取得するケースについて説明する。

まず遅延制御部１０５２は、対象物Ｔｉについて選択された選択音波受信部ごとに、該選択音波受信部の位置と該対象物Ｔｉの位置との間の距離に基づいて、該選択音波受信部からの音響信号に対する遅延量を求める。例えば、対象物に対する理想的な音波受信部１０４の距離として予め設定されている距離をＲｒｅｆ、音速をα、対象物Ｔｉについて選択された選択音波受信部のうちｊ番目の選択音波受信部Ｍｊの位置と該対象物Ｔｉの位置との間の距離をＲｉｊ、とする。このとき、遅延制御部１０５２は、選択音波受信部Ｍｊの音響信号Ｓｉｊに対する遅延量Ｄｉｊを、以下の（式１）に従って求める。

Ｄｉｊ＝｜Ｒｉｊ－Ｒｒｅｆ｜／α … （式１）
なお、遅延量Ｄｉｊを求めるための式は（式１）に限らず、ＲｉｊとＲｒｅｆとの差分をαで除した計算を含む式であれば、遅延量Ｄｉｊを求めるための式は特定の式に限らない。

そして遅延制御部１０５２は、対象物Ｔｉについて選択された選択音波受信部ごとに、該選択音波受信部からの音響信号を該選択音波受信部について求めた遅延量だけ遅延させた遅延音響信号を取得する。例えば、遅延制御部１０５２は、時刻ｔにおける音響信号Ｓｉｊ（ｔ）の遅延音響信号Ｓｄｉｊ（ｔ）を、以下の（式２）に従って取得する。

Ｓｄｉｊ（ｔ）＝Ｓｉｊ（ｔ－Ｄｉｊ） … （式２）
つまり遅延制御部１０５２は、遅延量Ｄｉｊを打ち消すように音響信号Ｓｉｊ（ｔ）を時間方向にシフトすることで、対象物Ｔｉ間近で収音した場合と同等の遅延量となる音響信号Ｓｄｉｊ（ｔ）を得る。Ｒｒｅｆは、例えばテレビ番組や映画の撮影において、収音作業者がカメラの映り込みを回避しつつ、対象物に向けるマイクロフォンと対象物との間の距離であっても良い。

図３においてＳｄ１１、Ｓｄ１２、…、Ｓｄ１ｘはそれぞれＳ１１、Ｓ１２、…、Ｓ１ｘの遅延音響信号であり、第１対象物に対応する遅延音響信号である。Ｓｄ２１、Ｓｄ２２、…、Ｓｄ２ｘはそれぞれＳ２１、Ｓ２２、…、Ｓ２ｘの遅延音響信号であり、第２対象物に対応する遅延音響信号である。また、Ｓｄｍ１、Ｓｄｍ２、…、ＳｄｍｘはそれぞれＳｍ１、Ｓｍ２、…、Ｓｍｘの遅延音響信号であり、第ｍ対象物に対応する遅延音響信号である。

信号合成部１０５３は、対象物ごとに次のような処理を行うことで、該対象物の音響信号を生成して出力する。以下に、信号合成部１０５３が対象物Ｔｉの音響信号を生成して出力するケースについて説明する。

まず信号合成部１０５３は、対象物Ｔｉについて選択された選択音波受信部ごとに、該選択音波受信部について取得した遅延音響信号の増幅係数を求める。例えば、信号合成部１０５３は、対象物Ｔｉに対して選択された選択音波受信部のうちｊ番目の選択音波受信部Ｍｊについて取得した遅延音響信号Ｓｄｉｊの増幅係数Ｇｊｘを、以下の（式３）に従って求める。

Ｇｊｘ＝２０ｌｏｇ１０（Ｒｉｊ／Ｒｇｒｅｆ） …（式３）
ここで、ｌｏｇ１０（）は常用対数であり、Ｒｇｒｅｆは、対象物に対する理想的な音波受信部１０４の距離として予め設定されている距離を表している。また、ここでは、対象物の発する音を点音源としている。

そして信号合成部１０５３は、対象物Ｔｉについて選択された選択音波受信部ごとに、該選択音波受信部について取得した遅延音響信号を、該選択音波受信部について求めた増幅係数に応じて増幅させた増幅音響信号を取得する。そして信号合成部１０５３は、対象物Ｔｉについて選択されたそれぞれの選択音波受信部について取得した増幅音響信号の合成結果を、対象物Ｔｉの音響信号として出力する。例えば、信号合成部１０５３は、以下の（式４）に従って対象物Ｔｉの時刻ｔにおける音響信号Ｓｔｉ（ｔ）を生成する。

Ｓｔｉ（ｔ）＝Σ（Ｓｄｉｊ（ｔ）ｘＧｊｘ）／ｘ
ただし、Σはｊ＝１～ｘについて総和を計算することを表す。一般的に点音源に対する音波の減衰量は距離が２倍離れると約６ｄＢ減衰することから、上記の（式３）により求められる増幅係数Ｇｊｘにより遅延音響信号Ｓｄｉｊを増幅させ、増幅後の遅延音響信号の合成結果を、対象物Ｔｉの音響信号とする。Ｓｔ１は第１対象物の音響信号であり、Ｓｔ２は第２対象物の音響信号であり、Ｓｔｍは第ｍ対象物の音響信号である。

上記の制御部１０５の動作は、画像受信部１０１が画像を撮像するたびに（つまりフレームごとに）行っても良いし、画像受信部１０１による撮像タイミングと同期していなくても良い。

次に、対象物の音響信号を生成して出力するために信号処理装置１０が行う処理について、図４のフローチャートに従って説明する。図４の各ステップにおける処理の詳細については上記の通りであるから、ここでは簡単に説明する。

ステップＳ４０１では、複数の音波受信部１０４は、撮像対象領域内における対象物からの音波を収集（受信）し、該収集した音波を音響信号として出力する。ステップＳ４０１と平行してステップＳ４０２～Ｓ４０４の処理が行われる。

ステップＳ４０２では、複数の画像受信部１０１は、撮像対象領域を撮像することで該撮像対象領域の撮像画像を取得する。ステップＳ４０３では、生成部１０２は、複数の画像受信部１０１から出力された撮像画像のうち対象物を含む複数の撮像画像を用いて該対象物の３次元モデルを生成する。

ステップＳ４０４では、推定部１０３は、生成部１０２により生成された対象物の３次元モデルの重心位置（３次元位置）を、「撮像対象領域における該対象物の位置（３次元位置）」と推定する。

ステップＳ４０５では、信号選択部１０５１は、複数の音波受信部１０４のうち、推定部１０３により推定された対象物の位置に近い順に２以上の音波受信部１０４を選択音波受信部として選択する。

ステップＳ４０６では、遅延制御部１０５２は、選択音波受信部ごとに、該選択音波受信部の位置と対象物の位置との間の距離に基づいて遅延量を求める。そして遅延制御部１０５２は、選択音波受信部ごとに、該選択音波受信部からの音響信号を該選択音波受信部について求めた遅延量だけ遅延させた遅延音響信号を取得する。

ステップＳ４０７では、信号合成部１０５３は、選択音波受信部ごとに、該選択音波受信部について取得した遅延音響信号を、該選択音波受信部の位置と対象物の位置との間の距離に基づいて増幅させた増幅音響信号を取得する。そして信号合成部１０５３は、それぞれの選択音波受信部について取得した増幅音響信号の合成結果を、該対象物の音響信号として出力する。

対象物が複数の場合には、ステップＳ４０３～ステップＳ４０７の処理は対象物ごとに行われ、その結果、対象物ごとに音響信号が生成されて出力される。そして図４のフローチャートに従った処理の終了条件が満たされた場合には、図４のフローチャートに従った処理は終了し、該終了条件が満たされていない場合には、処理はステップＳ４０１に戻る。処理の終了条件は特定の終了条件に限らず、例えば、「ユーザ操作に応じて処理の終了指示が入力された」、「図４のフローチャートに従った処理を開始してから一定時間が経過した」、「現在時刻が規定の時刻になった」等がある。

このように、本実施形態によれば、自由視点映像生成において不要な前景を回避しつつ、対象物の音響信号を高音質で取得することができる。これは、対象物の数が複数であっても同様である。

＜変形例＞
音波受信部１０４は方位角、仰角を制御可能な電動雲台と組み合わされても良く、その場合、信号処理装置１０は電動雲台を制御して、音波受信部１０４が対象物の方向に向くように該音波受信部１０４の方位角、仰角を制御しても良い。

［第２の実施形態］
図１では、信号処理装置１０は、画像受信部１０１および音波受信部１０４を含んで構成されているが、画像受信部１０１および音波受信部１０４は信号処理装置１０の外部装置であっても良い。つまり信号処理装置１０は生成部１０２、推定部１０３、制御部１０５（信号選択部１０５１、遅延制御部１０５２、信号合成部１０５３）を有し、不図示のインターフェースを介して画像受信部１０１および音波受信部１０４を信号処理装置１０に接続するように構成しても良い。この場合、生成部１０２、推定部１０３、制御部１０５（信号選択部１０５１、遅延制御部１０５２、信号合成部１０５３）はハードウェアで実装しても良いし、ソフトウェア（コンピュータプログラム）で実装しても良い。後者の場合、このようなコンピュータプログラムを実行可能なコンピュータ装置は、信号処理装置１０に適用可能である。信号処理装置１０に適用可能であるコンピュータ装置のハードウェア構成例について、図５のブロック図を用いて説明する。

ＣＰＵ５０１は、ＲＡＭ５０２やＲＯＭ５０３に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ５０１は、コンピュータ装置全体の動作制御を行うと共に、信号処理装置１０が行うものとして上述した各処理を実行もしくは制御する。

ＲＡＭ５０２は、ＲＯＭ５０３や外部記憶装置５０４からロードされたコンピュータプログラムやデータを格納するためのエリア、Ｉ／Ｆ５０７を介して外部から受信したデータを格納するためのエリア、を有する。さらにＲＡＭ５０２は、ＣＰＵ５０１が各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ５０２は、各種のエリアを適宜提供することができる。

ＲＯＭ５０３には、コンピュータ装置の設定データ、コンピュータ装置の起動に係るコンピュータプログラムやデータ、コンピュータ装置の基本動作に係るコンピュータプログラムやデータ、などが格納されている。

外部記憶装置５０４は、ハードディスクドライブ装置などの大容量情報記憶装置である。外部記憶装置５０４には、ＯＳ（オペレーティングシステム）、信号処理装置１０が行うものとして上述した各処理をＣＰＵ５０１に実行もしくは制御させるためのコンピュータプログラムやデータ、などが保存されている。外部記憶装置５０４に保存されているデータには、上記の説明において既知の情報として取り扱った情報、例えば、複数の音波受信部１０４の３次元位置、予め設定されている情報として説明した情報、などが含まれる。

外部記憶装置５０４に保存されているコンピュータプログラムやデータは、ＣＰＵ５０１による制御に従って適宜ＲＡＭ５０２にロードされ、ＣＰＵ５０１による処理対象となる。

出力部５０５は、ＣＰＵ５０１による処理結果を画像や文字などでもって表示する表示装置であり、液晶画面やタッチパネル画面を有する。なお、出力部５０５は、画像や文字を投影するプロジェクタなどの投影装置であっても良い。また、出力部５０５は、対象物の音響信号に基づく音を出力可能なスピーカ装置であっても良い。また、出力部５０５は、これらの装置の一部若しくは全部を組み合わせた装置であっても良い。

操作部５０６は、キーボード、マウス、タッチパネル画面などのユーザインターフェースであり、ユーザが操作することで各種の指示をＣＰＵ５０１に対して入力することができる。

Ｉ／Ｆ５０７は、外部装置との間のデータ通信を行うための通信インタフェースである。例えば、Ｉ／Ｆ５０７を介して本コンピュータ装置に画像受信部１０１および音波受信部１０４を接続する場合、本コンピュータ装置は、Ｉ／Ｆ５０７を介して画像受信部１０１からの撮像画像を受信したり、音波受信部１０４からの音響信号を受信したりする。また、Ｉ／Ｆ５０７にはスピーカなど、音を出力可能な装置を接続しても良く、例えば、対象物の音響信号に基づく音を該装置から出力するようにしても良い。

ＣＰＵ５０１、ＲＡＭ５０２、ＲＯＭ５０３、外部記憶装置５０４、出力部５０５、操作部５０６、Ｉ／Ｆ５０７は何れもシステムバス５０８に接続されている。なお、図５に示した構成は信号処理装置１０に適用可能な構成の一例に過ぎず、適宜変更／変形が可能である。

また、上記の各実施形態や変形例で使用した数値、処理タイミング、処理順、処理の主体、データ（情報）の送信先／送信元／格納場所などは、具体的な説明を行うために一例として挙げたもので、このような一例に限定することを意図したものではない。

また、以上説明した各実施形態や変形例の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態や変形例の一部若しくは全部を選択的に使用しても構わない。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１０１：画像受信部１０２：生成部１０３：推定部１０４：音波受信部１０５：制御部１０５１：信号選択部１０５２：遅延制御部１０５３：信号合成部

Claims

対象物を含む複数の撮像画像に基づいて推定された該対象物の位置に基づき、複数の収音部から２以上の収音部を選択収音部として選択する選択手段と、
前記選択収音部からの音響信号を前記選択収音部と前記対象物との間の距離に基づく遅延量に基づいて遅延させた遅延音響信号を取得し、それぞれの選択収音部について取得した遅延音響信号の合成結果を、前記対象物の音響信号として出力する合成手段と
を備え、
前記合成手段は、それぞれの選択収音部について、該選択収音部について取得した遅延音響信号を、該選択収音部と前記対象物との間の距離に応じて増幅させた増幅音響信号を取得し、それぞれの選択収音部について取得した増幅音響信号を合成した合成結果を、前記対象物の音響信号として出力することを特徴とする信号処理装置。
前記選択手段は、前記複数の撮像画像に基づいて生成された前記対象物の３次元モデルに基づいて推定された前記対象物の位置に基づき、前記複数の収音部から２以上の収音部を選択収音部として選択することを特徴とする請求項１に記載の信号処理装置。
前記選択手段は、前記複数の収音部のうち前記位置に近い順に２以上の収音部を選択収音部として選択することを特徴とする請求項２に記載の信号処理装置。
前記合成手段は、前記選択収音部と前記対象物との間の距離と、前記対象物に対する理想的な収音部の距離として予め設定されている距離と、の差分を音速で除した結果を、該選択収音部からの音響信号に対する遅延量として取得することを特徴とする請求項１ないし３の何れか１項に記載の信号処理装置。
前記合成手段は、前記選択収音部と前記対象物との間の距離を、前記対象物に対する理想的な収音部の距離として予め設定されている距離で除した結果の常用対数の値を増幅係数として求め、該選択収音部について取得した遅延音響信号を該増幅係数に応じて増幅させた増幅音響信号を取得することを特徴とする請求項１に記載の信号処理装置。
さらに、
前記収音部が前記対象物の方向に向くように該収音部の方位角、仰角を制御する手段を備えることを特徴とする請求項１ないし５の何れか１項に記載の信号処理装置。
信号処理装置が行う信号処理方法であって、
前記信号処理装置の選択手段が、対象物を含む複数の撮像画像に基づいて推定された該対象物の位置に基づき、複数の収音部から２以上の収音部を選択収音部として選択する選択工程と、
前記信号処理装置の合成手段が、前記選択収音部からの音響信号を前記選択収音部と前記対象物との間の距離に基づく遅延量に基づいて遅延させた遅延音響信号を取得し、それぞれの選択収音部について取得した遅延音響信号の合成結果を、前記対象物の音響信号として出力する合成工程と
を備え、
前記合成工程では、それぞれの選択収音部について、該選択収音部について取得した遅延音響信号を、該選択収音部と前記対象物との間の距離に応じて増幅させた増幅音響信号を取得し、それぞれの選択収音部について取得した増幅音響信号を合成した合成結果を、前記対象物の音響信号として出力することを特徴とする信号処理方法。
コンピュータを、請求項１ないし６の何れか１項に記載の信号処理装置の各手段として機能させるためのコンピュータプログラム。