JP7250281B2 - 三次元構造復元装置、三次元構造復元方法、およびプログラム - Google Patents

三次元構造復元装置、三次元構造復元方法、およびプログラム Download PDF

Info

Publication number
JP7250281B2
JP7250281B2 JP2019224768A JP2019224768A JP7250281B2 JP 7250281 B2 JP7250281 B2 JP 7250281B2 JP 2019224768 A JP2019224768 A JP 2019224768A JP 2019224768 A JP2019224768 A JP 2019224768A JP 7250281 B2 JP7250281 B2 JP 7250281B2
Authority
JP
Japan
Prior art keywords
unit
dynamic object
sound source
information
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019224768A
Other languages
English (en)
Other versions
JP2021093085A (ja
Inventor
一博 中臺
隆志 紺野
克寿 糸山
健次 西田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Tokyo Institute of Technology NUC
Original Assignee
Honda Motor Co Ltd
Tokyo Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, Tokyo Institute of Technology NUC filed Critical Honda Motor Co Ltd
Priority to JP2019224768A priority Critical patent/JP7250281B2/ja
Publication of JP2021093085A publication Critical patent/JP2021093085A/ja
Application granted granted Critical
Publication of JP7250281B2 publication Critical patent/JP7250281B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Length Measuring Devices By Optical Means (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Image Analysis (AREA)

Description

特許法第30条第2項適用 [1] 発行日 2018年12月13日 刊行物 第19回計測自動制御学会 システムインテグレーション部門講演会 講演論文集 <資料> 講演会開催案内、ウェブページ プリントアウト <資料> 第19回計測自動制御学会 講演論文集 研究論文 [2] 公開日 2018年12月15日 集会名、開催場所 第19回計測自動制御学会 システムインテグレーション部門講演会 大阪工業大学 梅田キャンパス <資料> 講演会プログラム及び発表資料(ポスター) [3] 発行日 2019年2月28日 刊行物 情報処理学会 第81回全国大会、論文集(DVD-ROM) <資料> 講演会開催・論文集発行案内、ウェブページ プリントアウト <資料> 情報処理学会 第81回全国大会 論文集 研究論文 [4] 公開日 2019年3月15日 集会名、開催場所 情報処理学会 第81回全国大会 福岡大学 七隈キャンパス5R会場 <資料> 学会プログラム及び口答発表資料(スライド) [5] 発行日 2019年11月15日 刊行物 第55回人工知能学会 AIチャレンジ研究会資料、予稿集 <資料> 研究会開催・論文公開案内、ウェブページ プリントアウト <資料> 第55回人工知能学会 AIチャレンジ研究会資料 研究論文 [6] 開催日 2019年11月22日 集会名、開催場所 人工知能学会合同研究会2019、第55回人工知能学会 AIチャレンジ研究会-テーマ:ロボット聴覚- 慶応義塾大学 矢上キャンパス 12棟102室 <資料> 研究会プログラム及び口答発表資料(スライド)
本発明は、三次元構造復元装置、三次元構造復元方法、およびプログラムに関する。
複数の画像から物体の三次元構造を復元する手法として、物体検出などを用いて動的物体を検出する手法や複数台のカメラを一度に利用する手法など動的物体を扱う手法として提案されている(例えば特許文献1参照)。また、物体やシーンに対して様々な視点で撮影した画像群から、カメラの位置と姿勢および物体の三次元構造を復元する手法として、SfM(Structure from Motion)がある。
特開2001-307074号公報
しかしながら、従来の動的物体を扱う手法では、動的物体の追跡を扱っていず、複数のカメラが必要であった。また、SfMでは、複数の画像を撮像する間、動きがないことが前提となっており、動的シーンへ適応すると、移動している物体が消えてしまう、復元結果に悪影響を与えてしまうといった問題があった。
本発明は、上記の問題点に鑑みてなされたものであって、単一カメラで物体の動的シーンの三次元再構成を行うことができる三次元構造復元装置、三次元構造復元方法、およびプログラムを提供することを目的とする。
(1)上記目的を達成するため、本発明の一態様に係る三次元構造復元装置は、動的物体を含む対象シーンを撮影する撮影部と、前記動的物体が発する音響信号をマイクロホンアレイで収音する収音部と、前記収音部が収音した前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定する音源定位部と、前記撮影された画像に対してSfM(Structure from Motion)処理とMVS(Multi View Stereo)処理を行うことで静的領域の三次元構造を復元する静的領域復元部と、前記音源定位部が音源定位した結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定する三次元位置推定部と、前記静的領域復元部が復元した前記動的物体の三次元位置の情報と、前記三次元位置推定部が推定した前記動的物体の三次元位置に基づく情報とを統合する統合部と、を備える。
(2)また、本発明の一態様に係る三次元構造復元装置において、前記三次元位置推定部は、前記動的物体を収音した各位置で、前記マイクロホンアレイに対する法線ベクトルniと、前記マイクロホンアレイの中心XMiを通る定位方向のベクトルθiとの外積Nを法線とする平面を計算し、任意の2つの前記平面を抽出し、前記2つの平面の交線を求め、求めた前記交線から任意の2本の前記交線を抽出し、抽出した前記2本の交線の交点を求め、求めた前記交点の密度が高い位置を前記動的物体の三次元位置を推定するようにしてもよい。
(3)また、本発明の一態様に係る三次元構造復元装置において、前記三次元位置推定部は、求めた前記交点の集合Xに対して、三次元空間を適切な大きさの立方体V(k=1,…,N)によって離散化し、前記立方体それぞれの中に存在する交点数NPVkを求め、NPVを前記NPVkの集合とし、その平均をλPVとし、分散をσ PVとし、前記交点数NPVkがしきい値Nthよりも小さければ、前記立方体Vの中に存在する交点を外れ値として除去し、前記外れ値の除去を行った交点の集合X filterdに対して主成分分析を行って第1-3主成分を軸とする確率楕円体を作成し、前記確率楕円体を前記動的物体の存在分布とみなすようにしてもよい。
(4)また、本発明の一態様に係る三次元構造復元装置において、前記撮影部が撮影した前記画像に含まれる物体の画像を検出する物体検出部と、前記収音部が収音した前記音響信号に含まれる音源を識別する音識別部と、前記物体検出部が検出したバウンディングボックス(bounding boxes)のうち、前記音識別部によって識別されたカテゴリに対応する前記バウンディングボックスのみをトリミングすることで前記動的物体と推定される画像の領域を抽出する画像音源定位部と、前記音源定位部が音源定位の際に算出したMUSIC(Multiple Signal Classification)スペクトルと動的物体大きさ推定用しきい値とを比較し、前記動的物体大きさ推定用しきい値を超える幅を有する方向を前記動的物体の大きさとして推定する動的物体大きさ推定部と、前記静的領域復元部が復元した前記動的物体の三次元位置の情報を用いて、前記収音部の姿勢と前記動的物体が存在する領域を推定する存在領域推定部と、前記画像音源定位部が抽出した前記動的物体と推定される画像の領域の情報に対して、SfM処理とMVS処理を行うことで、前記動的物体に対する三次元復元処理を行って前記動的物体に対する三次元復元情報を生成するSfM・MVS部と、動的物体復元部と、をさらに備え、前記三次元位置推定部は、前記音源定位部が推定した前記音源方向と前記動的物体が存在領域を示す情報に基づいて、前記動的物体の三次元位置を推定し、前記動的物体復元部は、前記動的物体に対する三次元復元と、前記動的物体の三次元位置情報と、前記動的物体大きさ情報に基づいて、動的物体密点群情報を生成し、前記統合部は、前記動的物体に対する三次元復元情報と、前記動的物体密点群情報を統合して、三次元構造復元の画像を生成するようにしてもよい。
(5)また、本発明の一態様に係る三次元構造復元装置において、前記静的領域復元部は、前記撮影部が撮影した1つの画像のペアから開始し、新たな画像を1つずつ追加しながら前記画像の特徴点の抽出とマッチングを行い、投影幾何によりシーングラフ(画像間の対応関係)を求め、前記シーングラフを用いて、初期の前記画像のペアに対して2つの前記画像を用いて三次元モデルを初期化し、3つ目以上の画像に対して復元済み三次元点と新しく登録する画像の対応する特徴点を用いて、Perspective-n-Point(PnP)問題を解くことにより、カメラ姿勢を推定し、三角測量によって、新しい特徴点の三次元復元を行い、バンドル調整によって誤差の最小化を行うことで三次元構造の復元を行うようにしてもよい。
(6)上記目的を達成するため、本発明の一態様に係る三次元構造復元装置は、動的物体を含む対象シーンを撮影する撮影部と、前記動的物体が発する音響信号をマイクロホンアレイで収音する収音部と、前記収音部によって収音された音響信号を音源追跡する音源追跡部と、前記収音部が集音した音響信号と、前記撮影部が撮影した画像の空間的な関係に基づいて、画像毎に前記動的物体のバイナリマスクを生成し、前記画像間の各動的物体を追跡し、全画像の前記動的物体それぞれに対応するバイナリマスクを得るマスク生成部と、前記バイナリマスクを用いて、静的物体と前記動的物体ごとにSfM(Structure from Motion)とMVS(Multi View Stereo)を適用し、それぞれの物体ごとに三次元構造を復元する三次元構造復元部と、前記収音部によって収音された音響信号に対して、音源定位された情報に基づいて意音源分離処理を行う音源分離部と、前記静的物体と前記動的物体を統合し、全体シーンを復元し、各動的物体に対応する音源分離された音と当該各動的物体の視覚的な三次元構造を生成する統合部と、を備える。
(7)上記目的を達成するため、本発明の一態様に係る三次元構造復元方法は、撮影部が、動的物体を含む対象シーンを撮影し、収音部が、前記動的物体が発する音響信号をマイクロホンアレイで収音し、音源定位部が、前記収音部によって収音された前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定し、静的領域復元部が、前記撮影部によって前記撮影された画像に対してSfM(Structure from Motion)処理とMVS(Multi View Stereo)処理を行うことで静的領域の三次元構造を復元し、三次元位置推定部が、前記音源定位部によって音源定位された結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定し、統合部が、前記静的領域復元部によって復元された前記動的物体の三次元位置の情報と、前記三次元位置推定部によって推定された前記動的物体の三次元位置に基づく情報とを統合する。
(8)また、本発明の一態様に係る三次元構造復元方法において、前記三次元位置推定部が、前記動的物体が収音された各位置で、前記マイクロホンアレイに対する法線ベクトルniと、前記マイクロホンアレイの中心XMiを通る定位方向のベクトルθiとの外積Nを法線とする平面を計算し、任意の2つの前記平面を抽出し、前記三次元位置推定部が、前記2つの平面の交線を求め、求めた前記交線から任意の2本の前記交線を抽出し、前記三次元位置推定部が、抽出された前記2本の交線の交点を求め、求めた前記交点の密度が高い位置を前記動的物体の三次元位置を推定するようにしてもよい。
(9)また、本発明の一態様に係る三次元構造復元方法において、物体検出部が、前記撮影部によって撮影された前記画像に含まれる物体の画像を検出し、音識別部が、前記収音部によって収音された前記音響信号に含まれる音源を識別し、画像音源定位部が、前記物体検出部によって検出されたバウンディングボックス(bounding boxes)のうち、前記音識別部によって識別されたカテゴリに対応する前記バウンディングボックスのみをトリミングすることで前記動的物体と推定される画像の領域を抽出し、動的物体大きさ推定部が、前記音源定位部によって音源定位の際に算出されたMUSIC(Multiple Signal Classification)スペクトルと動的物体大きさ推定用しきい値とを比較し、前記動的物体大きさ推定用しきい値を超える幅を有する方向を前記動的物体の大きさとして推定し、存在領域推定部が、前記静的領域復元部によって復元した前記動的物体の三次元位置の情報を用いて、前記マイクロホンアレイの姿勢と前記動的物体が存在する領域を推定し、SfM・MVS部が、前記画像音源定位部によって抽出された前記動的物体と推定される画像の領域の情報に対して、SfM処理とMVS処理を行うことで、前記動的物体に対する三次元復元処理を行って前記動的物体に対する三次元復元情報を生成し、前記三次元位置推定部が、前記音源定位部によって推定された前記音源方向と前記動的物体が存在領域を示す情報に基づいて、前記動的物体の三次元位置を推定し、動的物体復元部が、前記動的物体に対する三次元復元情報と、前記動的物体の三次元位置情報と、前記動的物体大きさ情報に基づいて、動的物体密点群情報を生成し、前記統合部が、復元された前記静的領域の三次元構造の情報と、前記動的物体密点群情報を統合して、三次元構造復元の画像を生成するようにしてもよい。
(10)上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、動的物体を含む対象シーンを撮影させ、前記動的物体が発する音響信号をマイクロホンアレイで収音させ、前記収音された前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定させ、前記撮影された画像に対してSfM(Structure from Motion)処理とMVS(Multi View Stereo)処理を行うことで静的領域の三次元構造を復元させ、前記音源定位された結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定させ、前記復元された前記動的物体の三次元位置の情報と、推定された前記動的物体の三次元位置に基づく情報とを統合させる。
(11)また、本発明の一態様に係るプログラムにおいて、コンピュータに、前記動的物体が収音された各位置で、前記マイクロホンアレイに対する法線ベクトルniと、前記マイクロホンアレイの中心XMiを通る定位方向のベクトルθiとの外積Nを法線とする平面を計算させ、任意の2つの前記平面を抽出させ、前記2つの平面の交線を求めさせ、求めた前記交線から任意の2本の前記交線を抽出させ、抽出された前記2本の交線の交点を求めさせ、求めた前記交点の密度が高い位置を前記動的物体の三次元位置を推定させるようにしてもよい。
(12)また、本発明の一態様に係るプログラムにおいて、コンピュータに、前記撮影された前記画像に含まれる物体の画像を検出させ、前記収音された前記音響信号に含まれる音源を識別させ、前記検出されたバウンディングボックス(bounding boxes)のうち、前記識別されたカテゴリに対応する前記バウンディングボックスのみをトリミングすることで前記動的物体と推定される画像の領域を抽出させ、前記音源定位の際に算出されたMUSIC(Multiple Signal Classification)スペクトルと動的物体大きさ推定用しきい値とを比較させ、前記動的物体大きさ推定用しきい値を超える幅を有する方向を前記動的物体の大きさとして推定させ、前記復元された前記動的物体の三次元位置の情報を用いて、前記マイクロホンアレイの姿勢と前記動的物体が存在する領域を推定させ、前記抽出された前記動的物体と推定される画像の領域の情報に対して、SfM処理とMVS処理を行わせることで、前記動的物体に対する三次元復元処理を行わせて前記動的物体に対する三次元復元情報を生成させ、前記推定された前記音源方向と前記動的物体が存在領域を示す情報に基づいて、前記動的物体の三次元位置を推定させ、前記動的物体に対する三次元復元情報と、前記動的物体の三次元位置情報と、前記動的物体大きさ情報に基づいて、動的物体密点群情報を生成させ、復元された前記静的領域の三次元構造の情報と、前記動的物体密点群情報を統合して、三次元構造復元の画像を生成させるようにしてもよい。
上述した(1)~(12)によれば、単一カメラで物体の動的シーンの三次元再構成を行うことができる。
上述した(6)によれば、SfMではうまく再構成ができない動的環境下において、音響信号を手がかりに三次元再構成を行うことができるので、単一カメラで物体の動的シーンの三次元再構成を行うことができる。
また、上述した(2)、(3)、(8)および(11)によれば、単一カメラで物体の静的領域の三次元構成の復元と、動的物体の位置や大きさの推定によって物体の動的シーンの三次元再構成を行うことができる。
また、上述した(4)、(5)、(9)および(12)によれば、単一カメラで物体の静的領域と動的物体の三次元再構成を行うことができる。
第1実施形態に係る三次元構造復元装置の構成例を示すブロック図である。 カメラ座標とワールド座標を説明するための図である。 第1実施形態に係るSfM部が行う処理を説明するための図である。 第1実施形態に係るSfM部の処理のフローチャートである。 第1施形態に係るMVS部が行う処理を説明するための図である。 SfM部が復元した疎な三次元構造復元の画像例と、MSV部が復元した密な三次元構造復元の画像例である。 音源三次元位置推定部が行う三角測量を用いた音源位置推定を説明するための図である。 第1実施形態に係る三次元構造復元装置が行う処理手順のフローチャートである。 実験条件を説明するための図である。 実験iとiiの三次元構造復元結果を示す図である。 実験iiにおいて各位置で推定した音源が存在する平面を示す図である。 2つの平面の交線の集合から任意の2本を取り出し、その交点を可視化した図である。 実験iiにおける各立方体の中に存在する交点のヒストグラムを示す図である。 実験iiにおいて交点数NPVkやしきい値Nth等のパラメータの一覧を示す図である。 実験iiにおいてしきい値よりも内部の交点数が多い立方体を可視化した図である。 実験iiにおいて外れ値の除去を行った交点の集合X filterdから求めた確率楕円体を可視化した図である。 第2実施形態に係る三次元構造復元装置の構成例を示すブロック図である。 第2実施形態に係る三次元構造復元装置が行う処理手順のフローチャートである。 実験iiiにおいて時間とともに変動する動的物体の再構成結果を示す図である。 実験iiiにおいて時間とともに変動する動的物体の再構成結果を示す図である。 実験iiiにおけるすべての測定時間におけるMUSICスペクトルを示す図である。 第3実施形態に係る三次元構造復元装置の構成例を示すブロック図である。 第3実施形態に係る三次元構造復元装置が行う処理手順のフローチャートである。 実験ivにおいて時間とともに変動する動的物体の再構成結果を示す図である。 図24のg113の拡大図である。 実験ivにおけるすべての測定時間におけるMUSICスペクトルを示す図である。 実験ivにおけるMUSICスペクトルのパワーが最も大きい位置をパーティクルフィルタにより追跡した結果を示す図である。 第4実施形態に係る三次元構造復元装置の構成例を示すブロック図である。 第4実施形態に係る三次元構造復元装置が行う処理手順のフローチャートである。 第4実施形態の評価におけるマイクロホンアレイの配置を示す図である。 動的オブジェクトのバイナリマスクを作成するための定性的結果を示す図である。 静的物体の復元結果を示す図である。 各動的物体の復元結果を示す図である。
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。
<第1実施形態>
まず、本実施形態の概要を説明する。
本実施形態では、マイクロホンアレイによって収音した音響信号に対して音源定位を実行して、動いているオブジェクトの位置を推定し、カメラで撮影した画像に対してSfM処理とMVS処理を行って三次元構造復元を行い、この三次元構造復元結果と動的物体の推定位置を統合して提供する。
図1は、本実施形態に係る三次元構造復元装置1の構成例を示すブロック図である。図1に示すように、三次元構造復元装置1は、撮影部11、SfM部12(静的領域復元部)、MVS部13(静的領域復元部)、収音部14、音源定位部15、音源三次元位置推定部16(三次元位置推定部)、統合部17、出力部18、および記憶部19を備えている。
撮影部11は、例えばCCD(Charged Coupled Devices)撮影装置、またはCMOS(Complementary Metal Oxide Semiconductor)撮影装置である。撮影部11は、画像を撮影し、撮影した画像をデジタル信号に変換し、変換した画像情報をSfM部12に出力する。
SfM部12は、Structure from Motion(例えば参考文献1参照)(以下、SfMという)手法によって、撮影部11の姿勢推定を行い、推定した6DoF(Degrees of Freedom)の収音部14の姿勢情報を音源三次元位置推定部16に出力する。また、SfM部12は、SfM手法によって、撮影部11の姿勢推定と疎な三次元構造復元を行う。SfM部12は、推定した6DoFの撮影部11の姿勢情報と疎な三次元構造復元情報(以下、疎三次元構造復元情報という)をMVS部13に出力する。なお、カメラ座標とワールド座標については後述する。なお、処理内容については後述する。
参考文献1;R. Hartley and A. Zisserman, “Multiple View Geometry in Computer Vision" , Cambridge University Press, 2004
MVS部13は、Multi View Stereo(例えば参考文献2参照)(以下、MVSという)の手法を用いて、SfM部12が出力する疎な三次元構造より密な三次元構造復元を行う。MVS部13は、復元を行った密な三次元構造復元情報(以下、密三次元構造復元情報という)を統合部17に出力する。なお、処理内容については後述する。なお、疎の点群による三次元構造の復元、密の点群による三次元構造の復元、SfMの基本手法、およびMVSに基本手法については、参考文献3参照。
参考文献2;J. L. Schonberger, E. Zheng, M. Pollefeys, and J.M. Frahm. Pixelwise view selection for unstructured multiview stereo." European Conference on Computer Vision (ECCV), 2016.
参考文献3;布施孝志、“解説:Structure from Motion(SfM) 第二回 SfMと多視点ステレオ”、東京大学、写真測量とリモートセンシング 55巻4号、p259-262、2016
収音部14は、m個(mは2以上の整数)のマイクロホンを備えるマイクロホンアレイである。収音部14は、音響信号を収音し、収音した音響信号をデジタル信号に変換し、変換したmチャネルの音響信号を音源定位部15に出力する。なお、収音部14は、各チャネル間の音響信号のタイミングを同期させてデジタル信号に変換する。
音源定位部15は、収音部14が出力するmチャネルの音響信号を用いて、例えばMUSIC(Multiple Signal Classification)手法によって、n(nは1以上の整数)個の音源について音源毎の音源定位処理を行う。音源定位部15は、音源定位した結果を示す音源定位情報を音源三次元位置推定部16に出力する。
音源三次元位置推定部16は、SfM部12が出力する6DoFの撮影部11の姿勢情報と、音源定位部15が出力する音源定位情報を取得する。音源三次元位置推定部16は、取得した情報を用いて、音源の三次元位置を推定する。なお、推定方法については後述する。音源三次元位置推定部16は、推定した音源の三次元位置を示す音源三次元位置情報を統合部17に出力する。
統合部17は、MVS部13が出力する密三次元構造復元情報と、音源三次元位置推定部16が出力する音源三次元位置情報を取得する。統合部17は、取得した密三次元構造復元情報と音源三次元位置情報を統合して、動いている対象物体の三次元構造を復元する。統合部17は、復元した対象物体の三次元構造を示す三次元構造情報を出力部18に出力する。なお、統合部17は、シーン内の静止している静的物体を三次元復元するが、動いている動的物体の存在領域(動いている領域)の情報を提示するが、動的物体の三次元復元は行わない。また、統合部17が出力する三次元構造情報には、静的物体の三次元構造復元画像と、推定された動的物体の三次元位置情報が含まれている。なお、統合部17は、推定された動的物体の三次元位置情報を用いて、動的物体が存在する領域の三次元画像を生成して静的物体の三次元構造復元画像に合成して、三次元構造復元画像を生成するようにしてもよい。
出力部18は、統合部17が出力する三次元構造情報を用いて画像を生成し、生成した画像情報を外部装置(例えば画像表示装置)に出力する。
記憶部19は、処理に必要な各閾値等を記憶する。記憶部19は、三次元モデルを記憶する。
(カメラ座標とワールド座標)
次に、カメラ座標とワールド座標について説明する。
図2は、カメラ座標とワールド座標を説明するための図である。図2において、XYZ座標系がワールド座標系であり、xyz座標系がカメラ座標系とマイクロホンアレイ座標である。XCi(=(xCi,yCi,zCi(Tは倒置を表す))は撮影部11の中心座標であり、XMi(=(xMi,yMi,zMi)はマイクロホンアレイの中心座標である。なお、カメラ座標におうて、撮影部11の光軸方向をz軸方向とする。また、収音部14の0度方向をz軸方向とする。
(SfM部12の処理)
次に、SfM部12が行う処理について説明する。
図3は、本実施形態に係るSfM部12が行う処理を説明するための図である。
図3において、符号Tは、ワールド座標系からカメラ座標系への並進ベクトルである。また、符号vは、カメラの方向ベクトルである。符号θを軸とした回転角度である。
本実施形態では、クォータニオンQ(∈R(Rは正の実数全体の集合))と並進ベクトルT(∈R(Rは正の実数全体の集合))を用いて、ワールド座標系に対するカメラ座標系への投影として、カメラ姿勢を定義する。
ここで、クォータニオンQは、カメラ座標系への方向ベクトルv(=(v,v,v))と、ベクトルvを軸とした回転角度θ(∈R(Rは正の実数全体の集合))を用いて、次式(1)のように表すことができる。
Figure 0007250281000001
クォータニオンQから計算される回転行列R(∈R3×3)を用いて、画像i(∈{1,…,N})におけるワールド座標系に対する撮影部11の中心座標XCi(=(xCi,yCi,zCi)は、次式(2)のように表される。この撮影部11の中心座標XCiは、SfM部12が算出する。
Figure 0007250281000002
式(2)において、R は、画像iの回転行列Riの転置行列である。算出された撮影部11の中心座標XCiは、音源定位とMVS部13で用いられる。
図4は、本実施形態に係るSfM部12の処理のフローチャートである。
(ステップS1)SfM部12は、1つの画像のペアから開始し、新たな画像を1つずつ追加しながら三次元構造の復元を行う。SfM部12は、特徴点の抽出とマッチングを行い、投影幾何によりシーングラフ(画像間の対応関係)を求める。
(ステップS2)SfM部12は、シーングラフを用いてカメラ姿勢の推定を行う。シーングラフから、ある物体やシーンに関して、それぞれの画像がどの方向から撮影されたものかという情報がわかる。SfM部12は、その情報に基づいて、それぞれの画像を撮影したときのカメラ位置・向きを推定する。なお、SfM部12は、初期画像ペアに対して、2つの画像を用いて三次元モデルを初期化する。3つ目以上の画像に対して、SfM部12は、復元済み三次元点と、新しく登録する画像の対応する特徴点を用いて、Perspective-n-Point(PnP)問題(例えば参考文献4参照)を解くことにより、カメラ姿勢を推定する。
参考文献4;M. A. Fischler and R. C. Bolles, Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography", Communications of the ACM, vol. 24, no. 6, pp. 381-395, Jun. 1981.
(ステップS3)SfM部12は、三角測量によって、新しい特徴点の三次元復元を行う。
(ステップS4)SfM部12は、バンドル調整によって誤差の最小化を行う。なお、バンドル調整とは、写真測量における空中三角測量で用いられている手法である(参考文献3参照)。
SfM部12は、以上の処理を繰り返すことで、三次元構造の復元を行う。
なお、SfM部12は、特徴点マッチングや三角測量の際に、RANSAC(例えば参考文献4参照)を用いてOutlierの除去を行う。このため、SfM部12においては、動いている物体は復元されず、制止している物体のみが復元される。なお、Outlierは、外れ値である。
(MVS部13の処理)
次に、MVS部13が行う処理について説明する。
図5は、本実施形態に係るMVS部13が行う処理を説明するための図である。
図5において、符号g11は、画像内の全てのピクセルの深度の深度マップの例を示す図である。また、符号g12は、マイクロホンアレイに対する法線マップである。
MVS部13は、SfM部12によって求められたカメラ姿勢を用いて、画像内の全てのピクセルの深度と法線ベクトルを推定する。
そして、MVS部13は、三次元上で、複数の画像の深度マップと法線マップを統合することで、密な三次元構造の復元を行う。
なお、MVS部13においても、SfM部12と同様に、動いている物体は復元されず、制止している物体のみが復元される。
図6は、SfM部12が復元した疎な三次元構造復元の画像例と、MVS部13が復元した密な三次元構造復元の画像例である。
符号g13は、SfM部12が復元した疎な三次元構造復元の画像例である。符号g14は、MVS部13が復元した密な三次元構造復元の画像例である。
(音源定位部15の処理)
次に、音源定位部15が行う処理について説明する。
音源定位部15は、MUSIC手法によって、マイクロホンがM個であり観測される音源がN個の場合、入力信号の相関を固有値分解することにより、固有λ(m=1,…,M)と固有ベクトルeを計算して、各音源を(e)で表す。
そして、音源定位部15は、固有値の大小によって固有ベクトルを音源部分空間E=[e,…,e]と、雑音部分空間E=[eN+1,…,e]に分類する。
ここで、方位θにけるMUSIC法の空間ベクトルは、次式(3)のように表される。
Figure 0007250281000003
式(3)において、H(θ)は、方向ベクトル(計測伝達関数)である。H(θ)が音源方向に対応する方向ベクトルである場合は、固有ベクトルeと直交するため、式(3)の分母が0となり鋭いピークを有する。MUSIC法では、このP(θ)がピークとなるθを抽出することで、音源方向を推定する。
(音源三次元位置推定部16の処理)
次に、音源三次元位置推定部16が行う三角測量を用いた音源位置推定について、図7を用いて、さらに図2を参照しつつ説明する。
図7は、音源三次元位置推定部16が行う三角測量を用いた音源位置推定を説明するための図である。
図7において、収音部14の平面がxz平面であり、xz平面に垂直な方向がy軸方向である。なお、xyz平面の原点が収音部14の中心座標XMiである。また、z軸方向は、収音部14の0度方向であり、かつカメラの光軸方向と平行な方向である。また、符号nは、収音部14の平面に対する法線ベクトルである。また、定位方向θは、収音部14の0度方向に対する角度である。また、定位方向ベクトルθは、原点から音源方向へのベクトルである。また、符号Nは、法線ベクトルnと定位方向ベクトルθとの外積である。音源が存在する平面は、外積Nを法線とする平面である。
ワールド座標系に対するマイクロホンアレイの中心座標XMi=(xMi,yMi,zMi)は、撮影部11の中心座標XCiを用いて、次式(4)のように計算することができる。
Figure 0007250281000004
式(4)において、TCiMi(∈R)はカメラ座標系に対する、撮影部11から収音部14までの並進ベクトルであり、予め計測して記憶部19に記憶させておく。
音源三次元位置推定部16は、音響信号を収録した各位置XMiにおける音源定位結果θに対して三角測量を行うことにより、音源の三次元位置を推定する。
収音部14に対する法線ベクトルをnとし、収音部14の中心XMiを通る定位方向θのベクトルをθとすると、音源が存在する平面は、nとθの外積であるNを法線とする平面となる。
音源三次元位置推定部16は、各位置においてこの平面を計算し、任意の二つの平面を抽出し、二つの平面の交線を求める。
音源三次元位置推定部16は、得られた交線から任意の二本の交線を抽出し、二本の交線の交点を求める。この際、三次元空間において二本の直線が交わるとは限らないため、音源三次元位置推定部16は、二本の直線に対する距離の和が最小となる点を交点とする。
この交点の密度が高いところほど、音源が存在する確率が高い。求めたすべての交点数をN個とすると、すべての交点の集合X(⊂R)は、次式(5)のように表される。
Figure 0007250281000005
(外れ値の除去および音源存在範囲の推定)
次に、音源三次元位置推定部16は、が行う外れ値の除去および音源存在範囲の推定について説明する。
音源三次元位置推定部16が求めた交点の集合Xには、ノイズ等の影響により多くの外れ値が存在する可能性がある。本実施形態では、この外れ値を除去するため、三次元空間を適切な大きさの立方体V(k=1,…,N)によって離散化し、各立方体の中に存在する交点数NPVk(k=1,…,N)を求める。
音源三次元位置推定部16は、NPVをNPVkの集合とし、その平均をμPV、分散をσ PVとしたとき、交点数NPVkがしきい値Nthよりも小さければ、立方体Vの中に存在する交点を外れ値として除去する。
よって、XPVk(⊂R)を立方体Vの中に存在する交点の集合とすると、上記よりXPVkは、次式(6)のように再定義される。
Figure 0007250281000006
外れ値の除去を行った後の交点の集合をX filterd(⊂R)とすると、X filterdは次式(7)のように表される。
Figure 0007250281000007
音源三次元位置推定部16は、外れ値の除去を行った交点の集合X filterdに対して主成分分析を行って、第1-3主成分を軸とする確率楕円体を作成する。この楕円体は、音源の存在分布すなわち音源存在範囲とみなすことができる。音源三次元位置推定部16は、このようにして音源存在範囲を推定する。
(全体の処理手順)
次に、三次元構造復元装置1が行う処理手順の流れ全体を説明する。
図8は、本実施形態に係る三次元構造復元装置1が行う処理手順のフローチャートである。
(ステップS11)撮影部11は、画像を撮影し、撮影した画像をデジタル信号に変換し、変換した画像情報をSfM部12に出力する。
(ステップS12)SfM部12は、SfM手法によって、撮影部11の姿勢推定を行い、推定した6DoFの撮影部11の姿勢情報をMVS部13に出力する。また、SfM部12は、SfM手法によって、収音部14の姿勢推定を行い、推定した6DoFの収音部14の姿勢情報を音源三次元位置推定部16に出力する。
(ステップS13)MVS部13は、MVSの手法を用いて、SfM部12が出力する疎な三次元構造より密な三次元構造復元を行う。MVS部13は、密三次元構造復元情報を統合部17に出力する。
(ステップS14)収音部14は、音響信号を収音し、収音した音響信号をデジタル信号に変換し、変換したmチャネルの音響信号を音源定位部15に出力する。
(ステップS15)音源定位部15は、収音部14が出力するmチャネルの音響信号を用いて、例えばMUSIC手法によって、n(nは1以上の整数)個の音源について音源毎の音源定位処理を行う。音源定位部15は、音源定位した結果を示す音源定位情報を音源三次元位置推定部16に出力する。
(ステップS16)音源三次元位置推定部16は、6DoFの撮影部11の姿勢情報と音源定位情報を用いて、音源の三次元位置を推定する。音源三次元位置推定部16は、推定した音源の三次元位置を示す音源三次元位置情報を統合部17に出力する。
(ステップS17)統合部17は、密三次元構造復元情報と音源三次元位置情報を統合して、動いている対象物体の三次元構造を復元する。統合部17は、復元した対象物体の三次元構造を示す三次元構造情報を出力部18に出力する。出力部18は、外部装置に復元した対象物体の三次元構造を示す三次元構造情報を出力する。
(確認結果)
次に、本実施形態の三次元構造復元装置1を用いて実験を行った結果例を説明する。
図9は、実験条件を説明するための図である。
実験は、i.扇風機200を静止させた状態、ii.扇風機200の首を振って動作をさせた状態の二つで実験を行った。画像による三次元構造復元は、実験iとiiに対して行った。音源の三次元位置推定は、実験iiのみ行った。なお、実施形態において、扇風機200の首は、ファン等を含む動作部分(図9の符号201)であり、その他の部分を静止部分(符号202)という。
まず、実験を行った条件を説明する。
図9の符号210ように、扇風機を1周するように計17箇所(例えば22.5度間隔)で、扇風機200の全体像が映るように画像の撮影を行った。同時に実験iiでは、8チャネルのマイクロホンアレイ(収音部14)により音響信号を収録した。音響信号は、1回の収録につき、扇風機の首の動作部分201が往復する時間である約10秒間収録をした。このマイクロホンアレイでは、すべてのマイクロホンが同一平面上に円状に分布している。このため、このマイクロホンアレイでは、方位角のみが計測可能であり、すべての計測位置において同一姿勢で計測を行った場合、三次元の計測をすることができない。従って実験では、奇数番目の計測位置で、マイクロホンアレイの法線方向を床に垂直な方向に合わせて計測を行い、偶数番目の計測位置では、マイクロホンアレイの法線方向を床に水平な方向に合わせて計測行うことにより、三次元の計測を行った。
また、実験では、撮影部11と収音部14(マイクロホンアレイ)との相対的な位置と姿勢の関係を常に一定に保つため、撮影部11の上部に収音部14を取り付けた。その際、撮影部11の光軸方向と収音部14の0度方向が同じ方向を向くようにした。このように、撮影部11と収音部14とが一体であるため、実験では、収音部14の回転に合わせて画像を撮影した。また、撮影部11の画素数は、5472×3648である。
図10は、実験iとiiの三次元構造復元結果を示す図である。符号g21は、実験i(扇風機が停止している状態)における三次元構造復元の結果例である。符号g22は、実験ii(扇風機の首を振って動作をさせた状態)における三次元構造復元の結果例である。
符号g21のように、実験iによる三次元構造復元では、扇風機200が静止しているため、扇風機200全体が復元されている。
符号g22のように、実験iiによる三次元構造復元では、扇風機200のファン等の動作部分201が首を振って動作しているため、静止部分202に対応する三次元構造が復元されているが、動作部分201に対応する三次元構造が復元されていない。
本実施形態では、画像によって復元されなかった動作部分201の部分の位置を、三次元音源位置推定によって推定する。
図11は、実験iiにおいて各位置で推定した音源が存在する平面を示す図である。符号g31は、扇風機200を横から見た際の実験iiにおいて各位置で推定した音源が存在する平面を示す図である。符号g32は、扇風機200を上から見た際の実験iiにおいて各位置で推定した音源が存在する平面を示す図である。
実験条件で説明したように17箇所で収音しているため、計17の平面が表示されている。
上述したように、音源三次元位置推定部16は、各位置においてこの平面を計算し、任意の二つの平面を抽出し、二つの平面の交線を求める。そして、音源三次元位置推定部16は、得られた交線から任意の二本の交線を抽出し、二本の交線の交点を求める。
図12は、2つの平面の交線の集合から任意の2本を取り出し、その交点を可視化した図である。符号g41は、扇風機200を横から見た際の交点を可視化した図である。符号g42は、扇風機200を上から見た際の交点を可視化した図である。
この点の密度が高い位置ほど、音源が存在する確率が高い。実際に、図12のように、扇風機200のファン周りの符号g43、g44の点の密度が高い。
なお、実験では、マイクロホンアレイの法線ベクトルが床に垂直であるように計測した位置が、全ての計測位置の半分を占めているため、床に垂直な方向の交点の密度が高くなっている。
図13は、実験iiにおける各立方体の中に存在する交点のヒストグラムを示す図である。図13において、横軸は交点数NPVk(10個)であり、縦軸は立方体の数(個)である。
図14は、実験iiにおいて交点数NPVkやしきい値Nth等のパラメータの一覧を示す図である。図14に示すように、パラメータは、全ての交点数(Number of all intersections)、全ての立方体の数(Number of all voxels(NPV))、NPVの最大(Max of NPV)、NPVの平均(μPV)、NPVの分散(σ PV)、NPVの標準偏差(σPV)、しきい値(Nth)、外れ値の除いた内部の交差数(Number of intersections without outlier)である。なお、実験では、しきい値をμPV+3σPVに設定した。また、実験では、しきい値よりも内部の交点数が少ない立方体に含まれる交点は、外れ値として除去した。
図15は、実験iiにおいてしきい値よりも内部の交点数が多い立方体を可視化した図である。図15において、符号g51は、横から見た状態を可視化した図である。符号g52は、上から見た状態を可視化した図である。符号g51とg52において、符号g53は、内部の交点数が4000以上であり10000以下の立方体である。符号g54は、内部の交点数が10000以上であり30000以下の立方体である。符号g55は、内部の交点数が30000以上である立方体である。
図16は、実験iiにおいて外れ値の除去を行った交点の集合X filterdから求めた確率楕円体を可視化した図である。図16において、符号g61は、横から見た状態を可視化した図である。符号g62は、上から見た状態を可視化した図である。なお、符号g61とg62において、楕円体の画像はファンの画像に貼り付けたものである。図16のように、本実施形態によれば、動作部分の音源の存在分布が推定できている。
以上のように、本実施形態では、画像から静的領域に対して、SfM処理とMVS処理を行って三次元復元を行うようにした。また、本実施形態では、音源定位した結果を用いて動的領域の音源の存在分布を推定するようにした。そして本実施形態では、静的物体と動的物体を、音源位置情報を用いて統合することで動的シーンの三次元再構成を行うようにした。
これにより、本実施形態によれば、動いている物体に対しても、その位置を音源同定した結果を用いて推定することで、三次元構造復元を行うことができる。そして、本実施形態によれば、単一カメラで物体の動的シーンの三次元再構成を行うことができる。
<第2実施形態>
まず、本実施形態の概要を説明する。
本実施形態では、カメラで撮影した画像に対してSfM処理とMVS処理を行って静的物体の三次元構造復元を行い、さらに物体検出を行う。本実施形態では、マイクロホンアレイによって収音した音響信号に対して音源定位を実行して動いているオブジェクトの位置と大きさを推定する。本実施形態では、音響信号の情報に基づいて、撮影された各画像内の動的物体を検出し、検出した動的物体をSfM処理で抽出された画像から再構築する。そして、本実施形態では、静的物体の三次元構造復元画像と動的物体の三次元構造復元とを統合することで、動いている物体の三次元構造復元も行う。
なお、本実施形態では、収音部(マイクロホンアレイ)は、例えば床に固定されている。固定するとき、マイクロホンアレイは、水平面がマイクロホンの水平方向と平行になるように配置され、0度の方向は任意の方向に向けられる。
図17は、本実施形態に係る三次元構造復元装置1Aの構成例を示すブロック図である。図17に示すように、三次元構造復元装置1Aは、撮影部11、SfM部12(静的領域復元部)、MVS部13(静的領域復元部)、収音部14、音源定位部15A、統合部17A、出力部18、記憶部19、物体検出部20、音識別部21、画像音源定位部22、存在領域推定部24、動的物体三次元位置推定部25(三次元位置推定部)、SfM・MVS部26、動的物体大きさ推定部27、および動的物体復元部28を備えている。なお、第1実施形態の三次元構造復元装置1と同様の機能を備える機能部に対しては、同じ符号を用いて説明を省略する。
撮影部11は、撮影した画像情報をSfM部12と物体検出部20に出力する。
SfM部12、MVS部13の処理内容と処理手順は、第1実施形態と同様である。
物体検出部20は、周知の画像処理手法を用いて、撮影された画像の全ての物体を検出する。物体検出部20は、物体検出のアルゴリズムとして、例えばFaster-RCNN(例えば参考文献5参照)の手法を使用する。物体検出部20は、例えばバウンディングボックスを検出することで、撮影された画像の全ての物体を検出する。ここで、バウンディングボックスとは、画像において、要素を完全に囲む可能な最小の矩形である。物体検出部20は、検出した物体毎の物体に関する物体情報を画像音源定位部22に出力する。なお、物体情報には、物体の位置、形状、特徴量等の情報が含まれる。
参考文献5;Ren Shaoqing, He Kaiming, Girshick Ross, and Sun Jian. Faster R-CNN: Towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems (NIPS), pages 91-99, 2015.
収音部14は、nチャネルの音響信号を音識別部21と音源定位部15Aに出力する。
音識別部21は、音声区間検出、音源同定処理および音源分離処理を行うことで、音源を識別する。音識別部21は、音分類のアルゴリズムとして、例えばSoundNet(例えば参考文献6参照)を使用する。音識別部21は、識別した結果を示す識別情報を画像音源定位部22に出力する。
参考文献6;Aytar Yusuf, Vondrick Carl, and Torralba Antonio. Soundnet: Learning sound representations from unlabeled video.In Advances in Neural Information Processing Systems (NIPS), 2016.
画像音源定位部22は、物体検出部20が出力する物体情報と、音識別部21が出力する識別情報を取得する。画像音源定位部22は、物体検出部20によって検出されたバウンディングボックス(bounding boxes)のうち、音識別部21によって検出されたカテゴリに対応するバウンディングボックスのみをトリミングする。トリミングされたオブジェクトは、音源と見なすことができる。画像音源定位部22は、音源と推定される画像の領域のみを抽出して、抽出した音源と推定される画像の領域の情報(含む画像)をSfM・MVS部26に出力する。なお、この処理は、全てのフレームで実行される。
音源定位部15Aは、収音部14が出力するmチャネルの音響信号に対して、例えばMUSIC法を用いて音源定位処理を行う。音源定位部15Aは、推定した音源方向を示す音源方向情報を動的物体三次元位置推定部25に出力する。また、音源定位部15Aは、音源定位処理の計算で得られたMUSICスペクトルを動的物体大きさ推定部27に出力する。
MVS部13は、静的物体に対応する密な点群の情報である静的物体密点群情報(静的物体の密三次元復元情報)を統合部17Aに出力する。MVS部13は、点群の情報である点群情報を存在領域推定部24に出力する。
存在領域推定部24は、MVS部13が出力する点群情報を取得する。存在領域推定部24は、取得した点群情報に基づいて、マイクロホンアレイの姿勢と動的物体の存在領域を推定する。存在領域推定部24は、推定したマイクロホンアレイの姿勢と動的物体の存在領域それぞれを示す情報を動的物体三次元位置推定部25に出力する。なお、存在領域推定部24は、ポイントクラウドデータから、マイクロホンアレイの向き推定と、動的物体が存在する領域推定を行う。カメラとマイクがくっついたデバイスを想定しているため、カメラ向きがわかれば、マイクアレイの向きがわかる。このように、存在領域推定部24は、音の方向を利用して、動的物体の位置を切り出す。
動的物体三次元位置推定部25は、音源定位部15Aが出力する音源方向情報と、存在領域推定部24が出力するマイクロホンアレイの姿勢と動的物体の存在領域それぞれを示す情報を取得する。動的物体三次元位置推定部25は、音源方向情報と動的物体推定の存在領域を示す情報に基づいて、動的物体の三次元位置を推定し、推定した動的物体の三次元位置情報を動的物体復元部28に出力する。なお、動的物体推定の存在領域と、音源定位によって推定された平面の交点は、音源の三次元位置と見なすことができる。動的物体三次元位置推定部25は、第1実施形態の音源三次元位置推定部16と同様に三角測量を用いた音源位置推定を行う。推定の際、動的物体三次元位置推定部25は、第1実施形態の音源三次元位置推定部16と同様に、各位置においてこの平面を計算し、任意の二つの平面を抽出し、二つの平面の交線を求める。そして、動的物体三次元位置推定部25は、得られた交線から任意の二本の交線を抽出し、二本の交線の交点を求める。この際、三次元空間において二本の直線が交わるとは限らないため、動的物体三次元位置推定部25は、二本の直線に対する距離の和が最小となる点を交点とする。そして、動的物体三次元位置推定部25は、交点の密度の高い領域を動的物体の三次元位置として推定する。なお、動的物体三次元位置推定部25は、第1実施形態の三次元構造復元装置1の音源三次元位置推定部16と同様に、外れ値の除去を行う。
SfM・MVS部26は、画像音源定位部22が出力する音源と推定される画像の領域の情報に対して、SfM処理とMVS処理を行うことで、動的物体に対する三次元復元処理を行う。なお、SfM処理やMVS処理では動いている物体に対して三次元復元処理ができないが、本実施形態では、動的物体のみをトリミングすることにより、動的物体が静止していると見なす。これにより、本実施形態によれば、SfM異常値の除去プロセスを回避しながら三次元構造の再構築が可能となる。SfM・MVS部26は、動的物体に対応する密な点群の情報である動的物体密点群情報を動的物体復元部28に出力する。
動的物体大きさ推定部27は、音源定位部15Aが出力するMUSICスペクトルを取得する。動的物体大きさ推定部27は、MUSICスペクトルを使用して動的物体の大きさを推定する。これは、動的物体が点音源ではなく、点より大きい物体であると見なすことができるためである。動的物体大きさ推定部27は、MUSICスペクトルのパワーと、記憶部19が記憶する動的物体大きさ推定用のしきい値とを比較し、しきい値を超える方向を音源と見なす。これにより、動的物体大きさ推定部27は、音源定位を単一のθ方向だけでなく、音源の方向に幅[θmin、θmax]を有して取得することができる。本実施形態では、この幅を動的物体の大きさに対応すると考える。なお、動的物体大きさ推定部27は、この方向の幅を、音源の大きさを取得するために全てのフレームで平均化し、動的物体の大きさを音源の大きさを使用して決定する。
なお、動的物体大きさ推定部27は、音の大きさを、図12の点が、音源が存在する部分として表したり、音源の大きさをこの分布に内接する楕円体(図16)として表したり、ボクセル(図15)として表す。例えば、対象物体が扇風機の例では、羽が音源であるので、その部分を抽出すれば、首振り部の大きさとほぼ一致する。このため、図12のように物体の大きさを検出できる。動的物体大きさ推定部27は、推定した動的物体の大きさを示す情報である動的物体大きさ情報を動的物体復元部28に出力する。なお、再構成された動的物体の大きさは、再構成された静的物体の大きさとは異なるため、再構成された動的物体の大きさを調整する必要がある。このため、本実施形態では、音源定位の際に求めるMUSICスペクトルに対して、所定の閾値以上のところに音があることを仮定する。そして、本実施形態では、スペクトルの値がその閾値以上の範囲に物体=音源があるとすることで、物体のスケールをきめ、それに合わせて物体のスケールを拡大縮小して調整を行う。
動的物体復元部28は、SfM・MVS部26が出力する動的物体密点群情報と、動的物体三次元位置推定部25が出力する動的物体の三次元位置情報と、動的物体大きさ推定部27が出力する動的物体大きさ情報を取得する。動的物体復元部28は、動的物体密点群情報と動的物体の三次元位置情報と動的物体大きさ情報に基づいて、動的物体密点群情報を生成し、生成した動的物体密点群情報を統合部17Aに出力する。なお、SfM・MVS部26が、動的物体のDense Point Cloudを作成する(位置や向きはunknown)。そして、動的物体三次元位置推定部25が、その物体の三次元位置・向きを推定する。動的物体大きさ推定部27が、その物体の大きさを推定する。そして、動的物体復元部28は、この3つをあわせることで、動的物体のポイントクラウドを、位置と大きさ付きで復元する。
統合部17Aは、MVS部13が出力する静的物体密点群情報と、動的物体復元部28が出力する動的物体密点群情報を取得し、取得した静的物体密点群情報と動的物体密点群情報を統合して、三次元構造復元の画像を生成する。
(全体の処理手順)
次に、三次元構造復元装置1Aが行う処理手順の流れ全体を説明する。
図18は、本実施形態に係る三次元構造復元装置1Aが行う処理手順のフローチャートである。
(ステップS21)撮影部11は、画像を撮影し、撮影した画像をデジタル信号に変換し、変換した画像情報をSfM部12に出力する。
(ステップS22)SfM部12は、SfM手法によって、撮影部11の姿勢推定を行い、推定した6DoFの撮影部11の姿勢情報をMVS部13に出力する。
(ステップS23)MVS部13は、MVSの手法を用いて、SfM部12が出力する疎な三次元構造より密な三次元構造復元を行う。MVS部13は、密三次元構造復元情報を統合部17Aに出力する。また、MVS部13は、点群情報を存在領域推定部24に出力する。
(ステップS24)物体検出部20は、周知の画像処理手法を用いて、撮影された画像の全ての物体を検出する。物体検出部20は、検出した物体毎の物体に関する物体情報を画像音源定位部22に出力する。
(ステップS25)収音部14は、音響信号を収音し、収音した音響信号をデジタル信号に変換し、変換したmチャネルの音響信号を音源定位部15Aに出力する。
(ステップS26)音識別部21は、音声区間検出、音源同定処理および音源分離処理を行うことで、音源を識別する。音識別部21は、識別した結果を示す識別情報を画像音源定位部22に出力する。
(ステップS27)音源定位部15Aは、収音部14が出力するmチャネルの音響信号に対して、例えばMUSIC法を用いて音源定位処理を行い、推定した音源方向を示す音源方向情報を動的物体三次元位置推定部25に出力する。続けて、音源定位部15Aは、音源定位処理の計算で得られたMUSICスペクトルを動的物体大きさ推定部27に出力する。
(ステップS28)画像音源定位部22は、物体検出部20によって検出されたバウンディングボックスのうち、音識別によって識別されたカテゴリに対応するバウンディングボックスのみをトリミングする。画像音源定位部22は、音源と推定される画像の領域のみを抽出して、抽出した音源と推定される画像の領域の情報(含む画像)をSfM・MVS部26に出力する。
(ステップS29)存在領域推定部24は、MVS部13が出力する点群情報に基づいて、マイクロホンアレイの姿勢と動的物体推定の存在領域を検出する。存在領域推定部24は、マイクロホンアレイの姿勢と動的物体推定の存在領域それぞれを示す情報を動的物体三次元位置推定部25に出力する。
(ステップS30)動的物体三次元位置推定部25は、音源方向情報と動的物体推定の存在領域を示す情報に基づいて、動的物体の三次元位置を推定し、推定した動的物体の三次元位置情報を動的物体復元部28に出力する。
(ステップS31)SfM・MVS部26は、画像音源定位部22が出力する音源と推定される画像の領域の情報に対して、SfM処理とMVS処理を行うことで、動的物体に対する三次元復元処理を行う。SfM・MVS部26は、動的物体に対応する密な点群の情報である動的物体密点群情報を動的物体復元部28に出力する。
(ステップS32)動的物体大きさ推定部27は、MUSICスペクトルを使用して動的物体の大きさを推定する。動的物体大きさ推定部27は、推定した動的物体の大きさを示す情報である動的物体大きさ情報を動的物体復元部28に出力する。
(ステップS33)動的物体復元部28は、動的物体密点群情報と動的物体の三次元位置情報と動的物体大きさ情報に基づいて、動的物体密点群情報を生成し、生成した動的物体密点群情報を統合部17Aに出力する。
(ステップS34)統合部17Aは、MVS部13が出力する静的物体密点群情報と、動的物体復元部28が出力する動的物体密点群情報を取得し、取得した静的物体密点群情報と動的物体密点群情報を統合して、三次元構造復元の画像を生成する。
(確認結果)
次に、本実施形態の三次元構造復元装置1Aを用いて実験を行った結果例を説明する。
まず、実験条件を説明する。実験iiiは、車両が円形のレール上を時計回りに走る電池式のおもちゃの列車で行った。実験iiiで用いた撮影部11と収音部14は、第1実施形態の実験iiと同じである。また、静的物体として、キーボードも画面内に配置した。撮影部11は、円形レールの周りで動画として撮影し、撮影した画像の内、キーフレーム画像のみを使用した。収音部14(マイクアレイ)は、円形レールの中央に固定して配置した。実験iiiでは、音響信号の記録を約17秒間とした。この17秒間は、列車が円形レールを約5回周回する時間である。
マイクロホンアレイの表面には、複数のマーカーを取り付けた。実験iiiは、これらのマーカーの三次元座標を計算することにより、マイクアレイの座標系が推定した。
また、音源が円形レール上にあると仮定すると、音源の三次元位置は、円形レール平面と音源定位によって推定された音源の平面との交点によって推定することができる。このため、実験iiiでは、動的物体の検出に、JianweiらによるPyTorchで実装された、微調整されたFaster R-CNNを使用した(参考文献7参照)。
参考文献7;Jianwei Yang, Jiasen Lu, Dhruv Batra, and Devi Parikh. A faster pytorch implementation of faster r-cnn. https://github.com/jwyang/faster-rcnn.pytorch, 2017
さらに、実験iiiでは、PASCAL VOC 2007検出タスクで事前トレーニングされたResNet101(参考文献8参照)ベースのモデルを使用した。実験iiiでは、PASCAL VOC 2007のカテゴリに円形レールとマイクアレイの列を追加し、学習率0.001と運動量0.9で運動量SGDを使用して10エポック(epochs)に微調整した。
参考文献8;K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770-778, 2016
さらに、実験iiiでは、音の分類として、科学技術計算のための機械学習ライブラリであるTorch7に実装されているSoundNetの事前トレーニング済みモデルを使用した。
なお、実験iiiでは、再構成された動的物体が、おもちゃの列車の前部が床に対して水平であり、音の方向が進行し、おもちゃの列車の垂直方向が床の垂直方向と平行になるように姿勢を指定した。
図19と図20は、実験iiiにおいて時間とともに変動する動的物体の再構成結果を示す図である。図19と図20において、符号g71~g78は、撮影部11が各時刻に撮影した画像である。また、符号g71~g78において、符号g500の画像はマイクロホンアレイの画像であり、符号501は円形レールの画像であり、符号502はおもちゃの列車の画像であり、符号503はキーボードの画像である。また、符号g81~g88は、各時刻の三次元構造復元された画像である。例えばg81の復元画像は、符号g71の画像に対応している。
また、符号g151はマイクロホンアレイの0度方向であり、符号g152はマイクロホンアレイの法線方向である。
図19と図20のように、実際の画像と比較して、動的物体の位置と大きさと姿勢は、適切に推定されることが確認された。さらに、図19と図20のように、動的物体の視覚的な再構築もうまく機能していることが確認された。
図21は、実験iiiにおけるすべての測定時間におけるMUSICスペクトルを示す図である。図21において、横軸は時刻(s)であり、縦軸は方位(deg)である。実験iiiでは、この図21より、パワーしきい値を32に設定した。
以上のように、本実施形態では、物体検出により、画像から物体を検出した後、音源定位結果によってどの物体が動いているかを特定するようにした。本実施形態では、これによって画像から動的領域と静的領域を分け、それぞれの領域に対して、SfM処理とMVS処理を行い、三次元復元を行うようにした。本実施形態では、別々に復元した静的物体と動的物体を、音源位置情報を用いて統合することで、動的シーンの三次元再構成を行うようにした。
これにより、本実施形態によれば、静的物体と動的物体の三次元構造復元を行うことができる。そして、本実施形態によれば、単一カメラで物体の動的シーンの三次元再構成を行うことができる。
<第3実施形態>
まず、本実施形態の概要を説明する。
本実施形態では、画像情報を用いて静的物体の三次元復元を行い、音響情報を用いて時間的に変動する動的物体の復元を行う。そして本実施形態では、これらの結果を統合することにより三次元構造復元の性能改善を図る。
図22は、本実施形態に係る三次元構造復元装置1Bの構成例を示すブロック図である。図22に示すように、三次元構造復元装置1Bは、撮影部11、SfM部12(静的領域復元部)、MVS部13(静的領域復元部)、収音部14、音源定位部15B、統合部17B、出力部18、記憶部19、アレイ姿勢推定部30、動的物体三次元位置推定部31(三次元位置推定部)、および動的物体トラッキング部32を備えている。なお、第1実施形態の三次元構造復元装置1と同様の機能を備える機能部に対しては、同じ符号を用いて説明を省略する。
SfM部12は、推定した6DoFの撮影部11の姿勢情報をMVS部13に出力する。また、SfM部12は、疎三次元構造復元情報をアレイ姿勢推定部30に出力する。なお、第1実施形態と同様に外れ値を除外しているため、SfM部12は、静止物体のみを三次元構造復元する。なお、SfM部12、MVS部13の処理内容と処理手順は、第1実施形態と同様である。
アレイ姿勢推定部30は、SfM部12が出力する疎三次元構造復元情報を用いて、6DoFの収音部14の姿勢情報を推定する。具体的には、アレイ姿勢推定部30は、疎三次元構造復元情報を用いて、推定した復元物をもとにワールド座標系に対するマイクロホンアレイ座標系の座標変換の推定を行う。アレイ姿勢推定部30は、推定した6DoFの収音部14の姿勢情報を動的物体三次元位置推定部31に出力する。
音源定位部15Bは、収音部14が出力するmチャネルの音響信号に対して、例えばMUSIC法を用いて音源定位処理を行う。音源定位部15Bは、推定した音源方向を示す音源方向情報を動的物体三次元位置推定部31に出力する。また、音源定位部15Bは、音源定位処理の計算で得られたMUSICスペクトルを動的物体三次元位置推定部31に出力する。
動的物体三次元位置推定部31は、音源定位部15Bが出力する音源方向情報と、アレイ姿勢推定部30が出力する6DoFの収音部14の姿勢情報を取得する。ここで、動的物体は点音源ではなく大きさを持つと考えられるため、MUSICスペクトルのパワーの大きさにしきい値を設ける。しきい値を超える方向を音源とすることにより、音源の方向に幅[θmin,θmax]をもたせる。この幅は、動的物体の大きさに対応する。動的物体三次元位置推定部31は、しきい値を超える方向の大きさを動的物体の大きさ(音源の大きさ)であるとし、動的物体の大きさ情報を統合部17Bに出力する。また、音源定位では仰角が得られないため、マイクロホンアレイに対する法線ベクトルをn、マイクロホンアレイの中心X(∈R)を通る定位方向θのベクトルをθとすると、nとθの外積であるNを法線とする平面上に音源は存在する。動的物体三次元位置推定部31は、この音源の存在平面と、SfM部12が推定した動的物体が存在する領域を用いて、三角測量的に音源の三次元位置を推定する。動的物体三次元位置推定部31は、推定した動的物体の三次元位置を示す動的物体三次元位置情報を動的物体トラッキング部32と統合部17Bに出力する。なお、動的物体三次元位置推定部31は、第1実施形態の三次元構造復元装置1の音源三次元位置推定部16と同様に、三角計測を行い、外れ値の除去を行う。
動的物体トラッキング部32は、パーティクルフィルタを用いて、動的物体三次元位置推定部31が出力する動的物体三次元位置情報により推定した音源の三次元位置をトラッキングし、動的物体の運動過程を推定する。動的物体トラッキング部32は、推定した動的物体の運動過程の情報を動的物体運動過程情報として統合部17Bに出力する。
統合部17Bは、MVS部13が出力する密三次元構造復元情報と、動的物体三次元位置推定部31が出力する動的物体の三次元位置情報と動的物体の大きさ情報と、動的物体トラッキング部32が出力する動的物体運動過程情報を取得する。統合部17Bは、密三次元構造復元情報と、動的物体の三次元位置情報と、動的物体の大きさ情報と、動的物体運動過程情報とを用いて、静的物体の三次元構造復元画像と、動的物体の位置、大きさ、運動過程を示す画像を生成し、生成した画像を出力部18に出力する。
ここで、動的物体トラッキング部32が用いるパーティクルフィルタの例を説明する。
パーティクルフィルタは、モデルに次式(8)、次式(9)で表される1次階差モデルを、プロセスノイズvと観測ノイズwにはガウスノイズを用いた。
Figure 0007250281000008
Figure 0007250281000009
式(8)において、x(k)(∈R)は動的物体の位置ベクトルである。式(9)において、y(k)(∈R)は音源定位を用いた三角測量により推定した動的物体の位置ベクトルである。また、Vはプロセスノイズの分散であり、Wは観測ノイズの分散であり、ともにガウス分布を仮定である。なお、パーティクルフィルタを用いた追跡処理は、例えば特願2015-168108参照。
(全体の処理手順)
次に、三次元構造復元装置1が行う処理手順の流れ全体を説明する。
図23は、本実施形態に係る三次元構造復元装置1Bが行う処理手順のフローチャートである。
(ステップS51)撮影部11は、画像を撮影し、撮影した画像をデジタル信号に変換し、変換した画像情報をSfM部12に出力する。
(ステップS52)SfM部12は、SfM手法によって、撮影部11の姿勢推定を行い、推定した6DoFの撮影部11の姿勢情報をMVS部13に出力する。続けて、SfM部12は、疎三次元構造復元情報をアレイ姿勢推定部30に出力する。
(ステップS53)MVS部13は、MVSの手法を用いて、SfM部12が出力する疎な三次元構造より密な三次元構造復元を行う。MVS部13は、密三次元構造復元情報を統合部17Bに出力する。
(ステップS54)アレイ姿勢推定部30は、SfM部12が出力する疎三次元構造復元情報を用いて、6DoFの収音部14の姿勢情報を推定する。アレイ姿勢推定部30は、推定した6DoFの収音部14の姿勢情報を動的物体三次元位置推定部31に出力する。
(ステップS55)収音部14は、音響信号を収音し、収音した音響信号をデジタル信号に変換し、変換したmチャネルの音響信号を音源定位部15Bに出力する。
(ステップS56)音源定位部15Bは、収音部14が出力するmチャネルの音響信号を用いて、例えばMUSIC手法によって、n(nは1以上の整数)個の音源について音源毎の音源定位処理を行う。音源定位部15Bは、音源定位した結果を示す音源定位情報を動的物体三次元位置推定部31に出力する。続けて、音源定位部15Bは、音源定位処理の計算で得られたMUSICスペクトルを動的物体三次元位置推定部31に出力する。
(ステップS57)動的物体三次元位置推定部31は、しきい値を超える方向の大きさを動的物体の大きさ(音源の大きさ)であるとし、動的物体の大きさ情報を統合部17Bに出力する。続けて、動的物体三次元位置推定部31は、音源の存在平面と、SfM部12が推定した動的物体が存在する領域を用いて、三角測量的に音源の三次元位置を推定する。続けて、動的物体三次元位置推定部31は、推定した動的物体の三次元位置を示す動的物体三次元位置情報を動的物体トラッキング部32と統合部17Bに出力する。
(ステップS58)統合部17Bは、密三次元構造復元情報と、動的物体の三次元位置情報と、動的物体の大きさ情報と、動的物体運動過程情報とを用いて、静的物体の三次元構造復元画像と、動的物体の位置、大きさ、運動過程を示す画像を生成し、生成した画像を出力部18に出力する。
(ステップS59)動的物体三次元位置推定部31は、MUSICスペクトルのパワーが、しきい値を超える方向の大きさを動的物体の大きさ(音源の大きさ)であるとする。
(ステップS60)統合部17Bは、密三次元構造復元情報と、動的物体の三次元位置情報と、動的物体の大きさ情報と、動的物体運動過程情報とを用いて、静的物体の三次元構造復元画像と、動的物体の位置、大きさ、運動過程を示す画像を生成する。
(確認結果)
次に、本実施形態の三次元構造復元装置1Bを用いて実験を行った結果例を説明する。
実験ivは、実験iiiと同様に、円形レール上を時計回りに動くおもちゃの列車を用いて行った。
SfM部12は、円形レールを一周するように動画を撮影し、キーフレームのみを抽出した画像を用いた。画像の画素数は、5472×3648である。音響信号の収録には、8個のマイクロホンが同一平面上に円状に配置されているマイクロホンアレイを床に1個固定し行った。計測時間は、おもちゃの列車がレールをおよそ5周する約17秒とした。
実験iiiと同様に、収音部14は、マイクロホン平面の法線ベクトルが床面の法線ベクトルと平行になるようにし、0度方向は任意の方向を向けて配置した。また、実験ivでは、マイクロホンアレイの表面に複数のマーカーを取り付け、SfM部12でこのマーカーの三次元座標を推定することにより、マイクロホンアレイ座標系を推定した。
また、実験ivでは、音源はレール上にあると仮定をし、音源の三次元位置が、音源定位により求めた音源の存在平面とレールの交点により推定をした。
動的物体トラッキング部32は、動的物体の運動過程を、この交点をパーティクルフィルタにより追跡し推定をした。
図24は、実験ivにおいて時間とともに変動する動的物体の再構成結果を示す図である。図24において、符号g101~g104は、撮影部11が各時刻に撮影した画像である。また、符号g101~g104において、符号g500の画像はマイクロホンアレイの画像であり、符号501は円形レールの画像であり、符号502はおもちゃの列車の画像である。また、符号g111~g114は、各時刻の三次元構造復元された画像である。例えばg101の復元画像は、符号g111の画像に対応している。
図25は、図24のg113の拡大図である。
また、符号g151はマイクロホンアレイの0度方向であり、符号g152はマイクロホンアレイの法線方向であり、符号g153は音源方向である。符号g154~g156は、推定された音源位置を表している。符号g155は、MUSICスペクトルのパワーが最も大きな位置である。なお、図25において、g154~g155~g156の間の線の長さが物体の大きさにあたる。
図24のように、実際の画像と比較して、動的物体の位置と大きさがよく推定できていることが確認できた。
図26は、実験ivにおけるすべての測定時間におけるMUSICスペクトルを示す図である。図26において、横軸は時刻(s)であり、縦軸は方位(deg)である。実験iiiでは、この図26より、パワーしきい値を30に設定した。
図27は、実験ivにおけるMUSICスペクトルのパワーが最も大きい位置をパーティクルフィルタにより追跡した結果を示す図である。符号g160は、音源を追跡した結果の軌跡である。図27のように、動的物体の運動軌跡もよく推定できていることが確認できた。
以上のように、本実施形態では、SfMでは復元することができない動的物体に対して、音響信号を手がかかりに物体の三次元位置および大きさ、運動軌跡を推定するようにした。
これにより、本実施形態によれば、動的物体の三次元位置および大きさ、運動軌跡を推定することができる。そして、本実施形態によれば、単一カメラで物体の動的シーンの三次元再構成を行うことができる。
<第4実施形態>
まず、本実施形態の概要を説明する。
本実施形態では、音と画像の空間的な関係を利用し、画像ごとに各動的物体のバイナリマスクを作成する。本実施形態では、音源追跡により、画像間の各動的物体をトラッキングし、全画像の動的物体それぞれに対応するバイナリマスクを得る。次に、本実施形態では、このバイナリマスクを用いて、静的物体と動的物体ごとにSfMとMVSを適用し、それぞれの物体ごとに三次元構造を復元する。そして、本実施形態では、静的物体と動的物体を統合し、全体シーンを復元する。さらに本実施形態では、音源定位により得られた音源の空間情報を用いて音源分離を行うことにより、各動的物体に対応する音およびその視覚的な三次元構造を得る。
図28は、本実施形態に係る三次元構造復元装置1Cの構成例を示すブロック図である。図28に示すように、三次元構造復元装置1Cは、撮影部11、収音部14、マスク生成部40、音源分離部50、三次元構造復元部60、統合部17C、出力部18、および記憶部19を備えている。
マスク生成部40は、画像認識部401、音源定位部402、音源トラッキング部403、空間対応部404、動的物体抽出部405、および動的物体マスク生成部406を備える。
三次元構造復元部60は、静的物体SfM・MVS部601、動的物体SfM・MVS部602、変換部603、および音源三次元位置推定部604を備える。
なお、第1実施形態の三次元構造復元装置1と同様の機能を備える機能部に対しては、同じ符号を用いて説明を省略する。
ここで、本実施形態における撮影部11と収音部14の配置について説明する。本実施形態では、撮影部11と収音部14の相対的な位置と姿勢の関係を常に一定に保つため、撮影部11の上部に収音部14を取り付ける。その際は、撮影部11の光軸方向と収音部14の0度方向が同じ方向を向くようにする。そのため、撮影部11の動きに合わせて収音部14の位置と姿勢が変動する。
撮影部11は、画像を撮影し、撮影した画像をデジタル信号に変換し、変換した画像情報を画像認識部401と静的物体SfM・MVS部601に出力する。
収音部14は、m個(mは2以上の整数)のマイクロホンを備えるマイクロホンアレイである。収音部14は、音響信号を収音し、収音した音響信号をデジタル信号に変換し、変換したmチャネルの音響信号を音源定位部402と音源分離部50に出力する。
画像認識部401は、撮影部11が出力する画像情報を取得し、取得した全画像Nに対して、インスタンスセグメンテーションを適用し、画像{Ii=1 ∈Rw×h×3内に映る物体o∈{1,…,K}のバウンディングボックス(Boundin Box)bi,o∈R4およびそのバイナリマスクMi,o∈Rw×hを得る。なお、wは画像の幅であり、hは高さであり、Kは画像iにおいて検出される物体数であり、Rは正の実数全体の集合である。なお、インスタンスセグメンテーションは、画像のpixelを、どの物体クラス(カテゴリ)に属するか、どのインスタンスに属するかで分類する処理である。なお、検出される物体には、静的な物体も含まれる。インスタンスセグメンテーションのアルゴリズムとして、例えばオフラインのMask-RCNNを利用するようにしてもよい。画像認識部401は、バウンディングボックスbi,oおよびそのバイナリマスクMi,oを空間対応部404に出力する。
音源定位部402は、収音部14が出力するmチャネルの音響信号を用いて、例えばMUSIC手法によって、n(nは1以上の整数)個の音源について音源毎の音源定位処理を行う。音源定位部402は、音源定位した結果を示す音源定位情報を音源トラッキング部403と空間対応部404に出力する。なお、音源定位情報には、画像iにおけるマイクロホンアレイに対する音源s∈{1,…,L}の方位角θi,sと仰角φi,sを含む。また、Lは全音源数である。
音源トラッキング部403は、音源sを周知の手法で音源追跡することにより、対応する動的物体を画像間でトラッキングし、次式(10)に示す全画像の各動的物体に対応するバイナリマスク群M∈Rw×hを得る。音源トラッキング部403は、全画像の各動的物体に対応するバイナリマスク群Mを動的物体抽出部405に出力する。音源トラッキング部403は、追跡した音源定位情報を音源分離部50、音源三次元位置推定部604に出力する。音源追跡のアルゴリズムとして、例えばHARK(Honda Research Institute Japan Audition for Robots with Kyoto University)のSourceTracker(https://www.hark.jp/document/2.0.0/hark-document-ja/subsec-SourceTracker.html)を利用する。
Figure 0007250281000010
空間対応部404は、画像認識部401が出力するバウンディングボックスbi,oおよびそのバイナリマスクMi,oと、音源定位部402が出力する音源定位情報を取得する。空間対応部404は、インスタンスセグメンテーションにより推定された全バウンディングボックスbi,oと、音源定位により推定された全バウンディングボックスbi,sから全ペアを抽出する。空間対応部404は、抽出した全ペアにおいて各ペアのIntersection-over-Union(IoUi,o,s)を計算する。なお、IoUは、物体認識の分野で領域の一致具合を評価する手法である。空間対応部404は、IoUが任意のしきい値thiouを超えた場合は、そのペアのbi,oは音源、つまり動的物体のバウンディングボックスであるとする。空間対応部404は、この動的物体のバイナリマスクとして、物体oに対するバイナリマスクMi,oを用いる。いずれの音源のバウンディングボックスbi,sともIoUがしきい値thiouを超えなかったバウンディングボックスbi,oは、静的な物体である可能性が高い。このため、空間対応部404は、この物体のバイナリマスクMi,oを後の処理では使用しない。しかし、いずれのバウンディングボックスbi,oともIoUがしきい値thiouを超えなかった音源のバウンディングボックスbi,sは、動的物体の可能性が高いが、インスタンスセグメンテーションによるバイナリマスクは得られない。このため、空間対応部404は、この音源のバウンディングボックスbi,sに含まれる領域を動的物体のマスクとするバイナリマスクMi,s∈Rw×hを生成し、静的な物体の復元のみに使用する。この結果、画像iにおける音源sに対応する動的物体のバイナリマスクM ∈Rw×hは、次式(11)のように再定義される。空間対応部404は、各画像iと、画像iにおける音源sに対応する動的物体のバイナリマスクM を、動的物体抽出部405と動的物体マスク生成部406に出力する。
Figure 0007250281000011
動的物体抽出部405は、空間対応部404が出力する画像iにおける音源sに対応する動的物体のバイナリマスクM を取得する。動的物体抽出部405は、各動的物体の復元の際に使用する、各動的物体のみが映った画像を生成する。動的物体抽出部405は、全画像に対して、各動的物体に対応するバイナリマスクを掛けあわせることにより、次式(12)のように音源sに対応する動的物体のみが映った画像群D⊂Rw×h×3を生成する。動的物体抽出部405は、生成した音源sに対応する動的物体のみが映った画像群Dを動的物体SfM・MVS部602に出力する。
Figure 0007250281000012
動的物体マスク生成部406は、空間対応部404が出力する画像iにおける音源sに対応する動的物体のバイナリマスクM を取得する。動的物体マスク生成部406は、静的物体の復元の際に使用する全動的物体に対するバイナリマスクを生成する。動的物体マスク生成部406は、画像iにおける全動的物体のマスクをすべて含むように、次式(13)のように画像iにおけるバイナリマスクM∈Rw×hを生成する。式(13)において、mは、M と同次元で各値が1の行列である。動的物体マスク生成部406は、生成した画像iにおけるバイナリマスクMを静的物体SfM・MVS部601に出力する。
Figure 0007250281000013
音源分離部50は、収音部14が出力するmチャネルの音響信号と、音源トラッキング部403が出力する音源定位情報を取得する。音源分離部50は、例えばGHDSS(Geometric High-order Dicorrelation-based Source Separation)法によって、音源の音響信号を分離する。音源分離部50は、分離した音響信号を統合部17Cに出力する。
三次元構造復元部60は、画像iと対応する全動的物体に対するバイナリマスクMをペア(I,M)として、全ペアをSfMとMVSへと入力し、各カメラ姿勢と静的物体の三次元構造を復元する。三次元構造復元部60は、SfMの処理の際に、バイナリマスクによりマスクされる領域からは特徴点を抽出しないようにし、動的物体を除外する。本実施形態では、このように動的物体を除外することにより、三次元構造復元の性能向上する効果が得られる。
静的物体SfM・MVS部601は、撮影部11が出力する画像情報と、動的物体マスク生成部406が出力する生成した画像iにおけるバイナリマスクMを取得する。静的物体SfM・MVS部601は、取得した画像情報に対してバイナリマスクMを適用することで、動的物体をマスクし、静的物体の領域の画像をSfMとMVSに入力することにより、静的物体のみの三次元構造の復元を行う。静的物体SfM・MVS部601は、復元した静的物体の画像情報を変換部603と統合部17Cに出力する。
動的物体SfM・MVS部602は、マスク生成部40によって生成された音源sに対応する動的物体のみが映った画像群DをSfMとMVSに入力することにより、各動的物体のみの三次元構造の復元を行う。この意味合いは、マスク生成部40によって生成された画像から動的物体のみ抽出して動的物体のみが映った画像群においては、動的物体が剛体の場合は、擬似的に静的物体とみなすことができるため、SfMによって復元が可能となるためである。動的物体SfM・MVS部602は、復元した動的物体の画像情報を変換部603に出力する。
変換部603は、各動的物体を静的物体のワールドへ変換する。変換が必要な理由は、SfMにおいて物体が任意のスケールで復元されるため、動的物体の復元物のワールド(DW)と静的物体の復元物のワールド(SW)が、それぞれワールド座標系が異なるためである。動的物体に対する相対的なカメラ位置と姿勢は、DWとSWでスケールを除き共通である。そのため、カメラ座標系を介することにより動的物体を、DWのワールド座標系に対する三次元位置worldi,DW からSWのワールド座標系に対する三次元位置worldi,SW へと変換する。変換部603は、まず、次式(14)により、動的物体をDWにおけるワールド座標系からカメラ座標系へ変換する。DWにおけるワールド座標系からカメラ座標系への回転行列をRDW∈R3×3、並進行列TDW∈Rと表す。
Figure 0007250281000014
次に、変換部603は、次式(15)により、動的物体をDWにおけるカメラ座標系cami,DW から、SWにおけるカメラ座標系cami,SW へ変換する。なお、DWからSWへのスケール変換をSDW2SW∈Rと表す。
Figure 0007250281000015
さらに、変換部603は、次式(16)により、動的物体をSWにおけるカメラ座標系cami,SW からワールド座標系worldi,SW へ変換する。なお、SWにおけるワールド座標系からカメラ座標系への回転行列をRSW∈R3×3、並進行列TSW∈Rと表す。式(16)により、SWにおける画像iに対する音源sに対応する動的物体の三次元位置worldi,SW が得られる。変換部603は、SWにおける画像iに対する音源sに対応する動的物体の三次元位置worldi,SW を音源三次元位置推定部604に出力する。また、変換部603は、SWにおけるカメラ座標系cami,SW に変換した動的物体の画像情報を統合部17Cに出力する。
Figure 0007250281000016
音源三次元位置推定部604は、撮影部11の内部パラメータA∈R3×3を記憶する。音源三次元位置推定部604は、音源トラッキング部403が出力する追跡された音源定位情報と、変換部603が出力するSWにおける画像iに対する音源sに対応する動的物体の三次元位置worldi,SW を取得する。音源三次元位置推定部604は、音源定位情報と撮影部11の内部パラメータAを用いて音源の三次元位置P~[tanθi,scosφi,s,tanθi,ssinφi,s,1]を画像内に投影することによって、音源sの画像i内の位置Pi,s(~AP)∈Rを得る。なお、音源三次元位置推定部604は、あらかじめ任意に定めたオフセットoffを用いて、次式(17)、(18)により音源のバウンディングボックスbi,s∈Rを得る。音源三次元位置推定部604は、推定した音源、すなわち動的物体の位置を示す位置情報を統合部17Cに出力する。
Figure 0007250281000017
Figure 0007250281000018
統合部17Cは、画像iに対応する時刻tにおいて、SWのworldi,SW に各動的物体を配置することにより、時間的に変動する三次元構造を復元する。統合部17Cは、worldi,SW に、音源分離により分離した音源sの音を配置することにより、各動的物体に対応する音およびその視覚的な三次元構造を得る。
(全体の処理手順)
次に、三次元構造復元装置1が行う処理手順の流れ全体を説明する。
図29は、本実施形態に係る三次元構造復元装置1Cが行う処理手順のフローチャートである。
(ステップS101)撮影部11は、画像を撮影し、撮影した画像をデジタル信号に変換し、変換した画像情報を出力する。
(ステップS102)収音部14は、音響信号を収音し、収音した音響信号をデジタル信号に変換し、変換したmチャネルの音響信号を出力する。
(ステップS103)画像認識部401は、撮影部11が出力する画像情報を取得し、取得した全画像Nに対して、インスタンスセグメンテーションを適用し、画像{Ii=1 ∈Rw×h×3内に映る物体o∈{1,…,K}のバウンディングボックスbi,o∈R4およびそのバイナリマスクMi,o∈Rw×hを得る。
(ステップS104)音源定位部402は、収音部14が出力するmチャネルの音響信号を用いて、例えばMUSIC手法によって、n(nは1以上の整数)個の音源について音源毎の音源定位処理を行う。
(ステップS105)空間対応部404は、インスタンスセグメンテーションにより推定された全バウンディングボックスbi,oと、音源定位により推定された全バウンディングボックスbi,sから全ペアを抽出する。続けて、空間対応部404は、この音源のバウンディングボックスbi,sに含まれる領域を動的物体のマスクとするバイナリマスクMi,s∈Rw×hを生成する。
(ステップS106)音源トラッキング部403は、音源sを周知の手法で音源追跡することにより、対応する動的物体を画像間でトラッキングし、式(10)の全画像の各動的物体に対応するバイナリマスク群M∈Rw×hを得る。
(ステップS107)動的物体抽出部405は、各動的物体の復元の際に使用する、各動的物体のみが映った画像を生成する。
(ステップS108)動的物体マスク生成部406は、静的物体の復元の際に使用する全動的物体に対するバイナリマスクを生成する。
(ステップS109)静的物体SfM・MVS部601は、取得した画像情報に対してバイナリマスクMを適用することで、動的物体をマスクし、静的物体の領域の画像をSfMとMVSに入力することにより、静的物体のみの三次元構造の復元を行う。
(ステップS110)動的物体SfM・MVS部602は、マスク生成部40によって生成された音源sに対応する動的物体のみが映った画像群DをSfMとMVSに入力することにより、各動的物体のみの三次元構造の復元を行う。
(ステップS111)変換部603は、各動的物体を静的物体のワールドへ変換する。
(ステップS112)音源三次元位置推定部604は、音源定位情報と撮影部11の内部パラメータAを用いて音源の三次元位置P~[tanθi,scosφi,s,tanθi,ssinφi,s,1]を画像内に投影することによって、音源sの画像i内の位置Pi,s(~AP)∈Rを得る。
(ステップS113)音源分離部50は、例えばGHDSS法によって、音源の音響信号を分離する。
(ステップS114)統合部17Cは、画像iに対応する時刻tにおいて、SWのworldi,SW に各動的物体を配置することにより、時間的に変動する三次元構造を復元する。
(確認結果)
次に、本実施形態の三次元構造復元装置1Cを用いて実験を行った結果例を説明する。なお、以下は、Mar-tinらによって作成されたCo-Fusionデータセットを用いて評価を行った。
Co-Fusionデータセットには、複数の物体(静的物体と動的物体いずれも)が存在する環境でカメラを動かして撮影した画像(RGB画像とDepth 画像)や、各時刻におけるカメラや動的物体の三次元位置の真値などが含まれている。また、Co-Fusionデータセットには、複シミュレーション環境と実環境で取得した、合計4つの環境でのデータが含まれる。評価では、シミュレーション環境における850枚のRGB 画像を使用した。シミュレーションで再現した部屋の中には、3つの動的物体(Ship,Wooden Horse,Car)がそれぞれ独立して動いており、常に画像内に動的物体が写っているとは限らない。
評価では、Co-Fusion データセットに音が含まれていないため、シミュレーションで音を再現した。評価では、動的物体は常に音を発していると仮定し、各時刻における各動的物体の三次元位置の真値に音源を置いた。音は、各動的物体の見た目に合わせて、16.1[kHz]で録音されたモノラル音を用いた。音の録音には、16チャネルのマイクロホンアレイ(収音部14)を用い、0度方向がカメラ(撮影部11)の光軸方向と合うようにカメラに固定した。16個のマイクロホンは、図30のように、最下段に8個、高さ3cmの中段に4個、高さ6cmに4個配置した。図30は、本実施形態の評価におけるマイクロホンアレイの配置を示す図である。
音源定位には、このマイクロホンアレイに対して幾何的に計算した伝達関数を用いた。実際は音源とマイクロホンアレイどちらも動いているが、マイクロホンアレイは固定し音源を相対的に動かした。評価では、各フレームにおいて各マイクロホンと各音源の伝達関数を作成し、そのフレームの音に畳み込み、すべての音源の音を足し合わせることにより16チャネルの混合音を作成した。評価では、この混合音を用いて、システムの評価を行った。Mask-RCNNは、Detectron2に実装されているコードを利用し、ResNet-101とFPNをバックボーンとしMS COCOデータセットのtrain2017で学習済みのモデルを使用した。
まず、動的物体のバイナリマスクの評価結果を説明する。
図31に、Mask-RCNN(符号g601~g604)と、Sound BBox(バウンディングボックス)(符号g611~g614)により動的物体のバイナリマスク(符号g621~g624)を生成した結果を示す。図31は、動的オブジェクトのバイナリマスクを作成するための定性的結果を示す図である。
Shipは、学習済みモデルに含まれていないためMask-RCNNでは検出されない。そのため、上述したように音を用いてバイナリマスクを生成しているが、Ship全体を覆うマスクは生成できていない。HorseとCarについては、ある程度精度よくバイナリマスクを生成できている。
次に、静的物体の復元の評価結果を説明する。
図32は、静的物体の復元結果を示す図である。符号g651は比較例の動的物体のバイナリマスクなしであり、符号g652は本実施形態により推定したバイナリマスクあり、符号g653は比較例のGround Truthのバイナリマスクありで、それぞれSfMとMVSにより復元した結果である。符号g651は、動的物体が存在している領域に歪みが生じて復元されている。動的物体のマスクを使用しないため、画像間のマッチングで動的物体の特徴点除去に失敗し、カメラ姿勢推定誤差が大きくなっている。本実施形態の手法では、符号g652の結果から符号g651で見られる歪みをある程度抑えられていることが確認できる。さらに、動的物体を完全に手動でマスクした符号g653の復元結果に近い結果が得られている。このように、本実施形態に依れば、動的物体の特徴点をある程度除去することができているため、画像間マッチングの除去処理が行えている。
次に、動的物体の復元の評価結果を説明する。
図33は、各動的物体の復元結果を示す図である。符号g661~g663は本実施形態の手法、符号g671~g673は比較例のGround Truthのバイナリマスクを用いて復元した結果である。また、符号g661とg671がShipであり、符号g662とg672がHorseであり、符号g663とg673がCarである。
比較例のGround Truthのマスクを用いた場合でも、画像から動的物体のみを抽出することにより画素数が小さく、動的物体の特徴点数が少ないため若干歪みが生じている。本実施形態の手法では、Shipは学習済みモデルにないためマスクの性能がよくなく、Ship全体を覆うマスクではないため、全体を復元することはできていない。そのためShipのマスクは、静的物体の復元に影響を与えないように生成することが主な目的とした。HorseとCarについては、ある程度よく復元ができている。
以上のように、本実施形態によれば、SfMではうまく再構成ができない動的環境下において、音響信号を手がかりに三次元再構成を行うことができる。
なお、上述した第1実施形態~第4実施形態では、計測に1つのマイクロホンアレイを用いたため、音源の存在領域を仮定したが、マイクロホンアレイを複数個用いることにより存在領域を仮定せずに音源の三次元位置を推定するようにしてもよい。
なお、上述した第1実施形態~第3実施形態における処理手順は一例であり、例えば並列に複数の処理を行うようにしてもよく、処理によって処理手順が入れ替わってもよい。
なお、本発明における三次元構造復元装置1(または1A、1B、1C)の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより三次元構造復元装置1(または1A、1B、1C)が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
1,1A,1B,1C…三次元構造復元装置、
11…撮影部、
12…SfM部、
13…MVS部、
14…収音部、
15,15A,15B…音源定位部、
16…音源三次元位置推定部、
17,17A,17B,17C…統合部、
18…出力部、
19…記憶部、
20…物体検出部、
21…音識別部、
22…画像音源定位部、
24…存在領域推定部、
25,31…動的物体三次元位置推定部、
26…SfM・MVS部、
27…動的物体大きさ推定部、
28…動的物体復元部、
32…動的物体トラッキング部、
40…マスク生成部、
50…音源分離部、
60…三次元構造復元部、
401…画像認識部、
402…音源定位部、
403…音源トラッキング部、
404…空間対応部、
405…動的物体抽出部、
406…動的物体マスク生成部、
601…静的物体SfM・MVS部、
602…動的物体SfM・MVS部、
603…変換部、
604…音源三次元位置推定部

Claims (9)

  1. 動的物体を含む対象シーンを撮影する撮影部と、
    前記動的物体が発する音響信号をマイクロホンアレイで収音する収音部と、
    前記収音部が収音した前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定する音源定位部と、
    前記撮影された画像に対してSfM(Structure from Motion)処理とMVS(Multi View Stereo)処理を行うことで静的領域の三次元構造を復元する静的領域復元部と、
    前記音源定位部が音源定位した結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定する三次元位置推定部と、
    前記静的領域復元部が復元した前記動的物体の三次元位置の情報と、前記三次元位置推定部が推定した前記動的物体の三次元位置に基づく情報とを統合する統合部と、
    を備え、
    前記三次元位置推定部は、
    前記動的物体を収音した各位置で、前記マイクロホンアレイに対する法線ベクトルn と、前記マイクロホンアレイの中心X Mi を通る定位方向のベクトルθ との外積N を法線とする平面を計算し、任意の2つの前記平面を抽出し、前記2つの平面の交線を求め、求めた前記交線から任意の2本の前記交線を抽出し、抽出した前記2本の交線の交点を求め、求めた前記交点の密度が高い位置を前記動的物体の三次元位置として推定する、
    三次元構造復元装置。
  2. 前記三次元位置推定部は、
    求めた前記交点の集合XPに対して、三次元空間を適切な大きさの立方体V(k=1,…,N)によって離散化し、前記立方体それぞれの中に存在する交点数NPVkを求め、NPVを前記NPVkの集合とし、その平均をλPVとし、分散をσ PVとし、前記交点数NPVkがしきい値Nthよりも小さければ、前記立方体Vの中に存在する交点を外れ値として除去し、
    前記外れ値の除去を行った交点の集合X filterdに対して主成分分析を行って第1-3主成分を軸とする確率楕円体を作成し、前記確率楕円体を前記動的物体の存在分布とみなす、
    請求項に記載の三次元構造復元装置。
  3. 動的物体を含む対象シーンを撮影する撮影部と、
    前記動的物体が発する音響信号をマイクロホンアレイで収音する収音部と、
    前記収音部が収音した前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定する音源定位部と、
    前記撮影された画像に対してSfM(Structure from Motion)処理とMVS(Multi View Stereo)処理を行うことで静的領域の三次元構造を復元する静的領域復元部と、
    前記音源定位部が音源定位した結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定する三次元位置推定部と、
    前記静的領域復元部が復元した前記動的物体の三次元位置の情報と、前記三次元位置推定部が推定した前記動的物体の三次元位置に基づく情報とを統合する統合部と、
    前記撮影部が撮影した前記画像に含まれる物体の画像を検出する物体検出部と、
    前記収音部が収音した前記音響信号に含まれる音源を識別する音識別部と、
    前記物体検出部が検出したバウンディングボックス(bounding boxes)のうち、前記音識別部によって識別されたカテゴリに対応する前記バウンディングボックスのみをトリミングすることで前記動的物体と推定される画像の領域を抽出する画像音源定位部と、
    前記音源定位部が音源定位の際に算出したMUSIC(Multiple Signal Classification)スペクトルと動的物体大きさ推定用しきい値とを比較し、前記動的物体大きさ推定用しきい値を超える幅を有する方向を前記動的物体の大きさとして推定する動的物体大きさ推定部と、
    前記静的領域復元部が復元した前記動的物体の三次元位置の情報を用いて、前記収音部の姿勢と前記動的物体が存在する領域を推定する存在領域推定部と、
    前記画像音源定位部が抽出した前記動的物体と推定される画像の領域の情報に対して、
    SfM処理とMVS処理を行うことで、前記動的物体に対する三次元復元処理を行って前
    記動的物体に対する三次元復元情報を生成するSfM・MVS部と、
    動的物体復元部と、
    を備え、
    前記三次元位置推定部は、前記音源定位部が推定した前記音源方向と前記動的物体が存
    在領域を示す情報に基づいて、前記動的物体の三次元位置を推定し、
    前記動的物体復元部は、前記動的物体に対する三次元復元と、前記動的物体の三次元位置情報と、前記動的物体大きさ情報に基づいて、動的物体密点群情報を生成し、
    前記統合部は、前記動的物体に対する三次元復元情報と、前記動的物体密点群情報を統合して、三次元構造復元の画像を生成する、
    次元構造復元装置。
  4. 前記静的領域復元部は、
    前記撮影部が撮影した1つの画像のペアから開始し、新たな画像を1つずつ追加しながら前記画像の特徴点の抽出とマッチングを行い、投影幾何によりシーングラフ(画像間の対応関係)を求め、
    前記シーングラフを用いて、初期の前記画像のペアに対して2つの前記画像を用いて三次元モデルを初期化し、3つ目以上の画像に対して復元済み三次元点と新しく登録する画像の対応する特徴点を用いて、Perspective-n-Point(PnP)問題を解くことにより、カメラ姿勢を推定し、
    三角測量によって、新しい特徴点の三次元復元を行い、
    バンドル調整によって誤差の最小化を行うことで三次元構造の復元を行う、
    請求項1から請求項のいずれか1項に記載の三次元構造復元装置。
  5. 動的物体を含む対象シーンを撮影する撮影部と、
    前記動的物体が発する音響信号をマイクロホンアレイで収音する収音部と、
    前記収音部によって収音された音響信号を音源追跡する音源追跡部と、
    前記収音部が集音した音響信号と、前記撮影部が撮影した画像の空間的な関係に基づいて、画像毎に前記動的物体のバイナリマスクを生成し、前記画像間の各動的物体を追跡し、全画像の前記動的物体それぞれに対応するバイナリマスクを得るマスク生成部と、
    前記バイナリマスクを用いて、静的物体と前記動的物体ごとにSfM(Structure from Motion)とMVS(Multi View Stereo)を適用し、それぞれの物体ごとに三次元構造を復元する三次元構造復元部と、
    前記収音部によって収音された音響信号に対して、音源定位された情報に基づいて音源分離処理を行う音源分離部と、
    前記静的物体と前記動的物体を統合し、全体シーンを復元し、各動的物体に対応する音源分離された音と当該各動的物体の視覚的な三次元構造を生成する統合部と、
    を備える三次元構造復元装置。
  6. 撮影部が、動的物体を含む対象シーンを撮影し、
    収音部が、前記動的物体が発する音響信号をマイクロホンアレイで収音し、
    音源定位部が、前記収音部によって収音された前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定し、
    静的領域復元部が、前記撮影部によって前記撮影された画像に対してSfM(Structure from Motion)処理とMVS(Multi View Stereo)処理を行うことで静的領域の三次元構造を復元し、
    三次元位置推定部が、前記音源定位部によって音源定位された結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定し、
    統合部が、前記静的領域復元部によって復元された前記動的物体の三次元位置の情報と、前記三次元位置推定部によって推定された前記動的物体の三次元位置に基づく情報とを統合し、
    前記三次元位置推定部が、前記動的物体が収音された各位置で、前記マイクロホンアレイに対する法線ベクトルn と、前記マイクロホンアレイの中心X Mi を通る定位方向のベクトルθ との外積Niを法線とする平面を計算し、任意の2つの前記平面を抽出し、
    前記三次元位置推定部が、前記2つの平面の交線を求め、求めた前記交線から任意の2本の前記交線を抽出し、
    前記三次元位置推定部が、抽出された前記2本の交線の交点を求め、求めた前記交点の密度が高い位置を前記動的物体の三次元位置として推定する、
    三次元構造復元方法。
  7. 撮影部が、動的物体を含む対象シーンを撮影し、
    収音部が、前記動的物体が発する音響信号をマイクロホンアレイで収音し、
    音源定位部が、前記収音部によって収音された前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定し、
    静的領域復元部が、前記撮影部によって前記撮影された画像に対してSfM(Structure from Motion)処理とMVS(Multi View Stereo)処理を行うことで静的領域の三次元構造を復元し、
    三次元位置推定部が、前記音源定位部によって音源定位された結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定し、
    統合部が、前記静的領域復元部によって復元された前記動的物体の三次元位置の情報と、前記三次元位置推定部によって推定された前記動的物体の三次元位置に基づく情報とを統合し、
    物体検出部が、前記撮影部によって撮影された前記画像に含まれる物体の画像を検出し、
    音識別部が、前記収音部によって収音された前記音響信号に含まれる音源を識別し、
    画像音源定位部が、前記物体検出部によって検出されたバウンディングボックス(bounding boxes)のうち、前記音識別部によって識別されたカテゴリに対応する前記バウンディングボックスのみをトリミングすることで前記動的物体と推定される画像の領域を抽出し、
    動的物体大きさ推定部が、前記音源定位部によって音源定位の際に算出されたMUSIC(Multiple Signal Classification)スペクトルと動的物体大きさ推定用しきい値とを比較し、前記動的物体大きさ推定用しきい値を超える幅を有する方向を前記動的物体の大きさとして推定し、
    存在領域推定部が、前記静的領域復元部によって復元した前記動的物体の三次元位置の情報を用いて、前記マイクロホンアレイの姿勢と前記動的物体が存在する領域を推定し、
    SfM・MVS部が、前記画像音源定位部によって抽出された前記動的物体と推定される画像の領域の情報に対して、SfM処理とMVS処理を行うことで、前記動的物体に対する三次元復元処理を行って前記動的物体に対する三次元復元情報を生成し、
    前記三次元位置推定部が、前記音源定位部によって推定された前記音源方向と前記動的物体が存在領域を示す情報に基づいて、前記動的物体の三次元位置を推定し、
    動的物体復元部が、前記動的物体に対する三次元復元情報と、前記動的物体の三次元位置情報と、前記動的物体大きさ情報に基づいて、動的物体密点群情報を生成し、
    前記統合部が、復元された前記静的領域の三次元構造の情報と、前記動的物体密点群情報を統合して、三次元構造復元の画像を生成する、
    次元構造復元方法。
  8. コンピュータに、
    動的物体を含む対象シーンを撮影させ、
    前記動的物体が発する音響信号をマイクロホンアレイで収音させ、
    前記収音された前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定させ、
    前記撮影された画像に対してSfM(Structure from Motion)処理とMVS(Multi View Stereo)処理を行うことで静的領域の三次元構造を復元させ、
    前記音源定位された結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定させ、
    前記復元された前記動的物体の三次元位置の情報と、推定された前記動的物体の三次元位置に基づく情報とを統合させ、
    前記動的物体が収音された各位置で、前記マイクロホンアレイに対する法線ベクトルn と、前記マイクロホンアレイの中心X Mi を通る定位方向のベクトルθ との外積N を法線とする平面を計算させ、任意の2つの前記平面を抽出させ、
    前記2つの平面の交線を求めさせ、求めた前記交線から任意の2本の前記交線を抽出させ、
    抽出された前記2本の交線の交点を求めさせ、求めた前記交点の密度が高い位置を前記動的物体の三次元位置として推定させる、
    プログラム。
  9. コンピュータに、
    前記撮影された前記画像に含まれる物体の画像を検出させ、
    前記収音された前記音響信号に含まれる音源を識別させ、
    前記検出されたバウンディングボックス(bounding boxes)のうち、前記識別されたカテゴリに対応する前記バウンディングボックスのみをトリミングすることで前記動的物体と推定される画像の領域を抽出させ、
    前記音源定位の際に算出されたMUSIC(Multiple Signal Classification)スペクトルと動的物体大きさ推定用しきい値とを比較させ、前記動的物体大きさ推定用しきい値を超える幅を有する方向を前記動的物体の大きさとして推定させ、
    前記復元された前記動的物体の三次元位置の情報を用いて、前記マイクロホンアレイの姿勢と前記動的物体が存在する領域を推定させ、
    前記抽出された前記動的物体と推定される画像の領域の情報に対して、SfM処理とMVS処理を行わせることで、前記動的物体に対する三次元復元処理を行わせて前記動的物体に対する三次元復元情報を生成させ、
    前記推定された前記音源方向と前記動的物体が存在領域を示す情報に基づいて、前記動的物体の三次元位置を推定させ、
    前記動的物体に対する三次元復元情報と、前記動的物体の三次元位置情報と、前記動的物体大きさ情報に基づいて、動的物体密点群情報を生成させ、
    復元された前記静的領域の三次元構造の情報と、前記動的物体密点群情報を統合して、三次元構造復元の画像を生成させる、
    請求項8に記載のプログラム。
JP2019224768A 2019-12-12 2019-12-12 三次元構造復元装置、三次元構造復元方法、およびプログラム Active JP7250281B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019224768A JP7250281B2 (ja) 2019-12-12 2019-12-12 三次元構造復元装置、三次元構造復元方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019224768A JP7250281B2 (ja) 2019-12-12 2019-12-12 三次元構造復元装置、三次元構造復元方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2021093085A JP2021093085A (ja) 2021-06-17
JP7250281B2 true JP7250281B2 (ja) 2023-04-03

Family

ID=76312490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019224768A Active JP7250281B2 (ja) 2019-12-12 2019-12-12 三次元構造復元装置、三次元構造復元方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP7250281B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2023002978A1 (ja) * 2021-07-20 2023-01-26
CN113781650B (zh) * 2021-09-10 2023-06-20 南京邮电大学 一种基于数据融合的动态物体可视化三维重建方法及系统
CN114325584B (zh) * 2022-03-14 2022-06-24 杭州兆华电子股份有限公司 基于合成孔径的多阵元超声波声源三维成像方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011193176A (ja) 2010-03-12 2011-09-29 Semiconductor Technology Academic Research Center マイクアレイ・ネットワークシステムおよび該システムを用いた音源定位方法
JP2013210347A (ja) 2012-03-30 2013-10-10 Nec Corp 漏洩検知方法、漏水検知方法、漏洩検知装置および漏水検知装置
JP2015514239A (ja) 2012-04-13 2015-05-18 クゥアルコム・インコーポレイテッドQualcomm Incorporated マルチモーダル整合方式を使用するオブジェクト認識
US9053562B1 (en) 2010-06-24 2015-06-09 Gregory S. Rabin Two dimensional to three dimensional moving image converter
JP2016191661A (ja) 2015-03-31 2016-11-10 株式会社熊谷組 構造物の点検装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6221158B2 (ja) * 2014-08-27 2017-11-01 本田技研工業株式会社 自律行動ロボット、及び自律行動ロボットの制御方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011193176A (ja) 2010-03-12 2011-09-29 Semiconductor Technology Academic Research Center マイクアレイ・ネットワークシステムおよび該システムを用いた音源定位方法
US9053562B1 (en) 2010-06-24 2015-06-09 Gregory S. Rabin Two dimensional to three dimensional moving image converter
JP2013210347A (ja) 2012-03-30 2013-10-10 Nec Corp 漏洩検知方法、漏水検知方法、漏洩検知装置および漏水検知装置
JP2015514239A (ja) 2012-04-13 2015-05-18 クゥアルコム・インコーポレイテッドQualcomm Incorporated マルチモーダル整合方式を使用するオブジェクト認識
JP2016191661A (ja) 2015-03-31 2016-11-10 株式会社熊谷組 構造物の点検装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
関晃仁,"移動カメラ画像からの3次元形状復元・自己位置推定(SLAM)と高密度な3次元形状復元",電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2014年01月16日,第113巻, 第403号,p.237-244

Also Published As

Publication number Publication date
JP2021093085A (ja) 2021-06-17

Similar Documents

Publication Publication Date Title
JP7250281B2 (ja) 三次元構造復元装置、三次元構造復元方法、およびプログラム
JP6768156B2 (ja) 仮想的に拡張された視覚的同時位置特定及びマッピングのシステム及び方法
CN110189399B (zh) 一种室内三维布局重建的方法及系统
Bodor et al. View-independent human motion classification using image-based reconstruction
US11210804B2 (en) Methods, devices and computer program products for global bundle adjustment of 3D images
US20180286432A1 (en) Voice detection apparatus, voice detection method, and non-transitory computer-readable storage medium
JP5555207B2 (ja) 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
US10094911B2 (en) Method for tracking a target acoustic source
CN111598995A (zh) 一种基于原型分析的自监督多目三维人体姿态估计方法
GB2567245A (en) Methods and apparatuses for depth rectification processing
Konno et al. Audio-visual 3D reconstruction framework for dynamic scenes
CN113610969A (zh) 一种三维人体模型生成方法、装置、电子设备及存储介质
Kushal et al. Audio-visual speaker localization using graphical models
Pal et al. Evolution of Simultaneous Localization and Mapping Framework for Autonomous Robotics—A Comprehensive Review
Moliner et al. Better prior knowledge improves human-pose-based extrinsic camera calibration
Liu et al. Cascaded particle filter for real-time tracking using RGB-D sensor
CN113689541B (zh) 一种交互场景下两人三维人体形状优化重建方法
KR102494479B1 (ko) 드론을 이용한 측위 공간정보 데이터를 활용한 증강현실 오클루젼 생성시스템
Mentasti et al. Symmetric Object Pose Estimation via Flexible Modular CNN
US20240037846A1 (en) Method for reconstructing a 3d model of a scene
Krzeszowski et al. An approach for model-based 3D human pose tracking, animation and evaluation
Qian et al. Moving targets detection using sequential importance sampling
Lin et al. Real-time face tracking and pose estimation with partitioned sampling and relevance vector machine
Singh et al. Visual Object Tracking by Fusion of Audio Imaging in Template Matching Framework
KR20160071172A (ko) 스테레오 카메라를 이용한 파노라마 3차원 맵 생성시스템

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20200114

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20200220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200427

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230313

R150 Certificate of patent or registration of utility model

Ref document number: 7250281

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150