JP7250281B2

JP7250281B2 - 三次元構造復元装置、三次元構造復元方法、およびプログラム

Info

Publication number: JP7250281B2
Application number: JP2019224768A
Authority: JP
Inventors: 一博中臺; 隆志紺野; 克寿糸山; 健次西田
Original assignee: Honda Motor Co Ltd; Tokyo Institute of Technology NUC
Current assignee: Honda Motor Co Ltd; Tokyo Institute of Technology NUC
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2023-04-03
Anticipated expiration: 2039-12-12
Also published as: JP2021093085A

Description

特許法第３０条第２項適用［１］発行日２０１８年１２月１３日刊行物第１９回計測自動制御学会システムインテグレーション部門講演会講演論文集＜資料＞講演会開催案内、ウェブページプリントアウト＜資料＞第１９回計測自動制御学会講演論文集研究論文［２］公開日２０１８年１２月１５日集会名、開催場所第１９回計測自動制御学会システムインテグレーション部門講演会大阪工業大学梅田キャンパス＜資料＞講演会プログラム及び発表資料（ポスター）［３］発行日２０１９年２月２８日刊行物情報処理学会第８１回全国大会、論文集（ＤＶＤ－ＲＯＭ）＜資料＞講演会開催・論文集発行案内、ウェブページプリントアウト＜資料＞情報処理学会第８１回全国大会論文集研究論文［４］公開日２０１９年３月１５日集会名、開催場所情報処理学会第８１回全国大会福岡大学七隈キャンパス５Ｒ会場＜資料＞学会プログラム及び口答発表資料（スライド）［５］発行日２０１９年１１月１５日刊行物第５５回人工知能学会ＡＩチャレンジ研究会資料、予稿集＜資料＞研究会開催・論文公開案内、ウェブページプリントアウト＜資料＞第５５回人工知能学会ＡＩチャレンジ研究会資料研究論文［６］開催日２０１９年１１月２２日集会名、開催場所人工知能学会合同研究会２０１９、第５５回人工知能学会ＡＩチャレンジ研究会－テーマ：ロボット聴覚－慶応義塾大学矢上キャンパス１２棟１０２室＜資料＞研究会プログラム及び口答発表資料（スライド）

本発明は、三次元構造復元装置、三次元構造復元方法、およびプログラムに関する。

複数の画像から物体の三次元構造を復元する手法として、物体検出などを用いて動的物体を検出する手法や複数台のカメラを一度に利用する手法など動的物体を扱う手法として提案されている（例えば特許文献１参照）。また、物体やシーンに対して様々な視点で撮影した画像群から、カメラの位置と姿勢および物体の三次元構造を復元する手法として、ＳｆＭ（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）がある。

特開２００１－３０７０７４号公報

しかしながら、従来の動的物体を扱う手法では、動的物体の追跡を扱っていず、複数のカメラが必要であった。また、ＳｆＭでは、複数の画像を撮像する間、動きがないことが前提となっており、動的シーンへ適応すると、移動している物体が消えてしまう、復元結果に悪影響を与えてしまうといった問題があった。

本発明は、上記の問題点に鑑みてなされたものであって、単一カメラで物体の動的シーンの三次元再構成を行うことができる三次元構造復元装置、三次元構造復元方法、およびプログラムを提供することを目的とする。

（１）上記目的を達成するため、本発明の一態様に係る三次元構造復元装置は、動的物体を含む対象シーンを撮影する撮影部と、前記動的物体が発する音響信号をマイクロホンアレイで収音する収音部と、前記収音部が収音した前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定する音源定位部と、前記撮影された画像に対してＳｆＭ（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）処理とＭＶＳ（ＭｕｌｔｉＶｉｅｗＳｔｅｒｅｏ）処理を行うことで静的領域の三次元構造を復元する静的領域復元部と、前記音源定位部が音源定位した結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定する三次元位置推定部と、前記静的領域復元部が復元した前記動的物体の三次元位置の情報と、前記三次元位置推定部が推定した前記動的物体の三次元位置に基づく情報とを統合する統合部と、を備える。

（２）また、本発明の一態様に係る三次元構造復元装置において、前記三次元位置推定部は、前記動的物体を収音した各位置で、前記マイクロホンアレイに対する法線ベクトルｎ_iと、前記マイクロホンアレイの中心Ｘ_Ｍｉを通る定位方向のベクトルθ_iとの外積Ｎ_ｉを法線とする平面を計算し、任意の２つの前記平面を抽出し、前記２つの平面の交線を求め、求めた前記交線から任意の２本の前記交線を抽出し、抽出した前記２本の交線の交点を求め、求めた前記交点の密度が高い位置を前記動的物体の三次元位置を推定するようにしてもよい。

（３）また、本発明の一態様に係る三次元構造復元装置において、前記三次元位置推定部は、求めた前記交点の集合Ｘ_Ｐに対して、三次元空間を適切な大きさの立方体Ｖ_ｋ（ｋ＝１，…，Ｎ_Ｖ）によって離散化し、前記立方体それぞれの中に存在する交点数Ｎ_ＰＶｋを求め、Ｎ_ＰＶを前記Ｎ_ＰＶｋの集合とし、その平均をλ_ＰＶとし、分散をσ^２ _ＰＶとし、前記交点数Ｎ_ＰＶｋがしきい値Ｎ_ｔｈよりも小さければ、前記立方体Ｖ_ｋの中に存在する交点を外れ値として除去し、前記外れ値の除去を行った交点の集合Ｘ_Ｐ ^{ｆｉｌｔｅｒｄ}に対して主成分分析を行って第１－３主成分を軸とする確率楕円体を作成し、前記確率楕円体を前記動的物体の存在分布とみなすようにしてもよい。

（４）また、本発明の一態様に係る三次元構造復元装置において、前記撮影部が撮影した前記画像に含まれる物体の画像を検出する物体検出部と、前記収音部が収音した前記音響信号に含まれる音源を識別する音識別部と、前記物体検出部が検出したバウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘｅｓ）のうち、前記音識別部によって識別されたカテゴリに対応する前記バウンディングボックスのみをトリミングすることで前記動的物体と推定される画像の領域を抽出する画像音源定位部と、前記音源定位部が音源定位の際に算出したＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）スペクトルと動的物体大きさ推定用しきい値とを比較し、前記動的物体大きさ推定用しきい値を超える幅を有する方向を前記動的物体の大きさとして推定する動的物体大きさ推定部と、前記静的領域復元部が復元した前記動的物体の三次元位置の情報を用いて、前記収音部の姿勢と前記動的物体が存在する領域を推定する存在領域推定部と、前記画像音源定位部が抽出した前記動的物体と推定される画像の領域の情報に対して、ＳｆＭ処理とＭＶＳ処理を行うことで、前記動的物体に対する三次元復元処理を行って前記動的物体に対する三次元復元情報を生成するＳｆＭ・ＭＶＳ部と、動的物体復元部と、をさらに備え、前記三次元位置推定部は、前記音源定位部が推定した前記音源方向と前記動的物体が存在領域を示す情報に基づいて、前記動的物体の三次元位置を推定し、前記動的物体復元部は、前記動的物体に対する三次元復元と、前記動的物体の三次元位置情報と、前記動的物体大きさ情報に基づいて、動的物体密点群情報を生成し、前記統合部は、前記動的物体に対する三次元復元情報と、前記動的物体密点群情報を統合して、三次元構造復元の画像を生成するようにしてもよい。

（５）また、本発明の一態様に係る三次元構造復元装置において、前記静的領域復元部は、前記撮影部が撮影した１つの画像のペアから開始し、新たな画像を１つずつ追加しながら前記画像の特徴点の抽出とマッチングを行い、投影幾何によりシーングラフ（画像間の対応関係）を求め、前記シーングラフを用いて、初期の前記画像のペアに対して２つの前記画像を用いて三次元モデルを初期化し、３つ目以上の画像に対して復元済み三次元点と新しく登録する画像の対応する特徴点を用いて、Ｐｅｒｓｐｅｃｔｉｖｅ－ｎ－Ｐｏｉｎｔ（ＰｎＰ）問題を解くことにより、カメラ姿勢を推定し、三角測量によって、新しい特徴点の三次元復元を行い、バンドル調整によって誤差の最小化を行うことで三次元構造の復元を行うようにしてもよい。

（６）上記目的を達成するため、本発明の一態様に係る三次元構造復元装置は、動的物体を含む対象シーンを撮影する撮影部と、前記動的物体が発する音響信号をマイクロホンアレイで収音する収音部と、前記収音部によって収音された音響信号を音源追跡する音源追跡部と、前記収音部が集音した音響信号と、前記撮影部が撮影した画像の空間的な関係に基づいて、画像毎に前記動的物体のバイナリマスクを生成し、前記画像間の各動的物体を追跡し、全画像の前記動的物体それぞれに対応するバイナリマスクを得るマスク生成部と、前記バイナリマスクを用いて、静的物体と前記動的物体ごとにＳｆＭ（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）とＭＶＳ（ＭｕｌｔｉＶｉｅｗＳｔｅｒｅｏ）を適用し、それぞれの物体ごとに三次元構造を復元する三次元構造復元部と、前記収音部によって収音された音響信号に対して、音源定位された情報に基づいて意音源分離処理を行う音源分離部と、前記静的物体と前記動的物体を統合し、全体シーンを復元し、各動的物体に対応する音源分離された音と当該各動的物体の視覚的な三次元構造を生成する統合部と、を備える。

（７）上記目的を達成するため、本発明の一態様に係る三次元構造復元方法は、撮影部が、動的物体を含む対象シーンを撮影し、収音部が、前記動的物体が発する音響信号をマイクロホンアレイで収音し、音源定位部が、前記収音部によって収音された前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定し、静的領域復元部が、前記撮影部によって前記撮影された画像に対してＳｆＭ（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）処理とＭＶＳ（ＭｕｌｔｉＶｉｅｗＳｔｅｒｅｏ）処理を行うことで静的領域の三次元構造を復元し、三次元位置推定部が、前記音源定位部によって音源定位された結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定し、統合部が、前記静的領域復元部によって復元された前記動的物体の三次元位置の情報と、前記三次元位置推定部によって推定された前記動的物体の三次元位置に基づく情報とを統合する。

（８）また、本発明の一態様に係る三次元構造復元方法において、前記三次元位置推定部が、前記動的物体が収音された各位置で、前記マイクロホンアレイに対する法線ベクトルｎ_iと、前記マイクロホンアレイの中心Ｘ_Ｍｉを通る定位方向のベクトルθ_iとの外積Ｎ_ｉを法線とする平面を計算し、任意の２つの前記平面を抽出し、前記三次元位置推定部が、前記２つの平面の交線を求め、求めた前記交線から任意の２本の前記交線を抽出し、前記三次元位置推定部が、抽出された前記２本の交線の交点を求め、求めた前記交点の密度が高い位置を前記動的物体の三次元位置を推定するようにしてもよい。

（９）また、本発明の一態様に係る三次元構造復元方法において、物体検出部が、前記撮影部によって撮影された前記画像に含まれる物体の画像を検出し、音識別部が、前記収音部によって収音された前記音響信号に含まれる音源を識別し、画像音源定位部が、前記物体検出部によって検出されたバウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘｅｓ）のうち、前記音識別部によって識別されたカテゴリに対応する前記バウンディングボックスのみをトリミングすることで前記動的物体と推定される画像の領域を抽出し、動的物体大きさ推定部が、前記音源定位部によって音源定位の際に算出されたＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）スペクトルと動的物体大きさ推定用しきい値とを比較し、前記動的物体大きさ推定用しきい値を超える幅を有する方向を前記動的物体の大きさとして推定し、存在領域推定部が、前記静的領域復元部によって復元した前記動的物体の三次元位置の情報を用いて、前記マイクロホンアレイの姿勢と前記動的物体が存在する領域を推定し、ＳｆＭ・ＭＶＳ部が、前記画像音源定位部によって抽出された前記動的物体と推定される画像の領域の情報に対して、ＳｆＭ処理とＭＶＳ処理を行うことで、前記動的物体に対する三次元復元処理を行って前記動的物体に対する三次元復元情報を生成し、前記三次元位置推定部が、前記音源定位部によって推定された前記音源方向と前記動的物体が存在領域を示す情報に基づいて、前記動的物体の三次元位置を推定し、動的物体復元部が、前記動的物体に対する三次元復元情報と、前記動的物体の三次元位置情報と、前記動的物体大きさ情報に基づいて、動的物体密点群情報を生成し、前記統合部が、復元された前記静的領域の三次元構造の情報と、前記動的物体密点群情報を統合して、三次元構造復元の画像を生成するようにしてもよい。

（１０）上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、動的物体を含む対象シーンを撮影させ、前記動的物体が発する音響信号をマイクロホンアレイで収音させ、前記収音された前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定させ、前記撮影された画像に対してＳｆＭ（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）処理とＭＶＳ（ＭｕｌｔｉＶｉｅｗＳｔｅｒｅｏ）処理を行うことで静的領域の三次元構造を復元させ、前記音源定位された結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定させ、前記復元された前記動的物体の三次元位置の情報と、推定された前記動的物体の三次元位置に基づく情報とを統合させる。

（１１）また、本発明の一態様に係るプログラムにおいて、コンピュータに、前記動的物体が収音された各位置で、前記マイクロホンアレイに対する法線ベクトルｎ_iと、前記マイクロホンアレイの中心Ｘ_Ｍｉを通る定位方向のベクトルθ_iとの外積Ｎ_ｉを法線とする平面を計算させ、任意の２つの前記平面を抽出させ、前記２つの平面の交線を求めさせ、求めた前記交線から任意の２本の前記交線を抽出させ、抽出された前記２本の交線の交点を求めさせ、求めた前記交点の密度が高い位置を前記動的物体の三次元位置を推定させるようにしてもよい。

（１２）また、本発明の一態様に係るプログラムにおいて、コンピュータに、前記撮影された前記画像に含まれる物体の画像を検出させ、前記収音された前記音響信号に含まれる音源を識別させ、前記検出されたバウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘｅｓ）のうち、前記識別されたカテゴリに対応する前記バウンディングボックスのみをトリミングすることで前記動的物体と推定される画像の領域を抽出させ、前記音源定位の際に算出されたＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）スペクトルと動的物体大きさ推定用しきい値とを比較させ、前記動的物体大きさ推定用しきい値を超える幅を有する方向を前記動的物体の大きさとして推定させ、前記復元された前記動的物体の三次元位置の情報を用いて、前記マイクロホンアレイの姿勢と前記動的物体が存在する領域を推定させ、前記抽出された前記動的物体と推定される画像の領域の情報に対して、ＳｆＭ処理とＭＶＳ処理を行わせることで、前記動的物体に対する三次元復元処理を行わせて前記動的物体に対する三次元復元情報を生成させ、前記推定された前記音源方向と前記動的物体が存在領域を示す情報に基づいて、前記動的物体の三次元位置を推定させ、前記動的物体に対する三次元復元情報と、前記動的物体の三次元位置情報と、前記動的物体大きさ情報に基づいて、動的物体密点群情報を生成させ、復元された前記静的領域の三次元構造の情報と、前記動的物体密点群情報を統合して、三次元構造復元の画像を生成させるようにしてもよい。

上述した（１）～（１２）によれば、単一カメラで物体の動的シーンの三次元再構成を行うことができる。
上述した（６）によれば、ＳｆＭではうまく再構成ができない動的環境下において、音響信号を手がかりに三次元再構成を行うことができるので、単一カメラで物体の動的シーンの三次元再構成を行うことができる。
また、上述した（２）、（３）、（８）および（１１）によれば、単一カメラで物体の静的領域の三次元構成の復元と、動的物体の位置や大きさの推定によって物体の動的シーンの三次元再構成を行うことができる。
また、上述した（４）、（５）、（９）および（１２）によれば、単一カメラで物体の静的領域と動的物体の三次元再構成を行うことができる。

第１実施形態に係る三次元構造復元装置の構成例を示すブロック図である。カメラ座標とワールド座標を説明するための図である。第１実施形態に係るＳｆＭ部が行う処理を説明するための図である。第１実施形態に係るＳｆＭ部の処理のフローチャートである。第１施形態に係るＭＶＳ部が行う処理を説明するための図である。ＳｆＭ部が復元した疎な三次元構造復元の画像例と、ＭＳＶ部が復元した密な三次元構造復元の画像例である。音源三次元位置推定部が行う三角測量を用いた音源位置推定を説明するための図である。第１実施形態に係る三次元構造復元装置が行う処理手順のフローチャートである。実験条件を説明するための図である。実験ｉとｉｉの三次元構造復元結果を示す図である。実験ｉｉにおいて各位置で推定した音源が存在する平面を示す図である。２つの平面の交線の集合から任意の２本を取り出し、その交点を可視化した図である。実験ｉｉにおける各立方体の中に存在する交点のヒストグラムを示す図である。実験ｉｉにおいて交点数Ｎ_ＰＶｋやしきい値Ｎ_ｔｈ等のパラメータの一覧を示す図である。実験ｉｉにおいてしきい値よりも内部の交点数が多い立方体を可視化した図である。実験ｉｉにおいて外れ値の除去を行った交点の集合Ｘ_Ｐ ^{ｆｉｌｔｅｒｄ}から求めた確率楕円体を可視化した図である。第２実施形態に係る三次元構造復元装置の構成例を示すブロック図である。第２実施形態に係る三次元構造復元装置が行う処理手順のフローチャートである。実験ｉｉｉにおいて時間とともに変動する動的物体の再構成結果を示す図である。実験ｉｉｉにおいて時間とともに変動する動的物体の再構成結果を示す図である。実験ｉｉｉにおけるすべての測定時間におけるＭＵＳＩＣスペクトルを示す図である。第３実施形態に係る三次元構造復元装置の構成例を示すブロック図である。第３実施形態に係る三次元構造復元装置が行う処理手順のフローチャートである。実験ｉｖにおいて時間とともに変動する動的物体の再構成結果を示す図である。図２４のｇ１１３の拡大図である。実験ｉｖにおけるすべての測定時間におけるＭＵＳＩＣスペクトルを示す図である。実験ｉｖにおけるＭＵＳＩＣスペクトルのパワーが最も大きい位置をパーティクルフィルタにより追跡した結果を示す図である。第４実施形態に係る三次元構造復元装置の構成例を示すブロック図である。第４実施形態に係る三次元構造復元装置が行う処理手順のフローチャートである。第４実施形態の評価におけるマイクロホンアレイの配置を示す図である。動的オブジェクトのバイナリマスクを作成するための定性的結果を示す図である。静的物体の復元結果を示す図である。各動的物体の復元結果を示す図である。

以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。

＜第１実施形態＞
まず、本実施形態の概要を説明する。
本実施形態では、マイクロホンアレイによって収音した音響信号に対して音源定位を実行して、動いているオブジェクトの位置を推定し、カメラで撮影した画像に対してＳｆＭ処理とＭＶＳ処理を行って三次元構造復元を行い、この三次元構造復元結果と動的物体の推定位置を統合して提供する。

図１は、本実施形態に係る三次元構造復元装置１の構成例を示すブロック図である。図１に示すように、三次元構造復元装置１は、撮影部１１、ＳｆＭ部１２（静的領域復元部）、ＭＶＳ部１３（静的領域復元部）、収音部１４、音源定位部１５、音源三次元位置推定部１６（三次元位置推定部）、統合部１７、出力部１８、および記憶部１９を備えている。

撮影部１１は、例えばＣＣＤ（ＣｈａｒｇｅｄＣｏｕｐｌｅｄＤｅｖｉｃｅｓ）撮影装置、またはＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）撮影装置である。撮影部１１は、画像を撮影し、撮影した画像をデジタル信号に変換し、変換した画像情報をＳｆＭ部１２に出力する。

ＳｆＭ部１２は、ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ（例えば参考文献１参照）（以下、ＳｆＭという）手法によって、撮影部１１の姿勢推定を行い、推定した６ＤｏＦ（ＤｅｇｒｅｅｓｏｆＦｒｅｅｄｏｍ）の収音部１４の姿勢情報を音源三次元位置推定部１６に出力する。また、ＳｆＭ部１２は、ＳｆＭ手法によって、撮影部１１の姿勢推定と疎な三次元構造復元を行う。ＳｆＭ部１２は、推定した６ＤｏＦの撮影部１１の姿勢情報と疎な三次元構造復元情報（以下、疎三次元構造復元情報という）をＭＶＳ部１３に出力する。なお、カメラ座標とワールド座標については後述する。なお、処理内容については後述する。

参考文献１；R. Hartley and A. Zisserman, “Multiple View Geometry in Computer Vision" , Cambridge University Press, 2004

ＭＶＳ部１３は、ＭｕｌｔｉＶｉｅｗＳｔｅｒｅｏ（例えば参考文献２参照）（以下、ＭＶＳという）の手法を用いて、ＳｆＭ部１２が出力する疎な三次元構造より密な三次元構造復元を行う。ＭＶＳ部１３は、復元を行った密な三次元構造復元情報（以下、密三次元構造復元情報という）を統合部１７に出力する。なお、処理内容については後述する。なお、疎の点群による三次元構造の復元、密の点群による三次元構造の復元、ＳｆＭの基本手法、およびＭＶＳに基本手法については、参考文献３参照。

参考文献２；J. L. Schonberger, E. Zheng, M. Pollefeys, and J.M. Frahm. Pixelwise view selection for unstructured multiview stereo." European Conference on Computer Vision (ECCV), 2016.
参考文献３；布施孝志、“解説：Structure from Motion(SfM) 第二回ＳｆＭと多視点ステレオ”、東京大学、写真測量とリモートセンシング 55巻4号、p259-262、2016

収音部１４は、ｍ個（ｍは２以上の整数）のマイクロホンを備えるマイクロホンアレイである。収音部１４は、音響信号を収音し、収音した音響信号をデジタル信号に変換し、変換したｍチャネルの音響信号を音源定位部１５に出力する。なお、収音部１４は、各チャネル間の音響信号のタイミングを同期させてデジタル信号に変換する。

音源定位部１５は、収音部１４が出力するｍチャネルの音響信号を用いて、例えばＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）手法によって、ｎ（ｎは１以上の整数）個の音源について音源毎の音源定位処理を行う。音源定位部１５は、音源定位した結果を示す音源定位情報を音源三次元位置推定部１６に出力する。

音源三次元位置推定部１６は、ＳｆＭ部１２が出力する６ＤｏＦの撮影部１１の姿勢情報と、音源定位部１５が出力する音源定位情報を取得する。音源三次元位置推定部１６は、取得した情報を用いて、音源の三次元位置を推定する。なお、推定方法については後述する。音源三次元位置推定部１６は、推定した音源の三次元位置を示す音源三次元位置情報を統合部１７に出力する。

統合部１７は、ＭＶＳ部１３が出力する密三次元構造復元情報と、音源三次元位置推定部１６が出力する音源三次元位置情報を取得する。統合部１７は、取得した密三次元構造復元情報と音源三次元位置情報を統合して、動いている対象物体の三次元構造を復元する。統合部１７は、復元した対象物体の三次元構造を示す三次元構造情報を出力部１８に出力する。なお、統合部１７は、シーン内の静止している静的物体を三次元復元するが、動いている動的物体の存在領域（動いている領域）の情報を提示するが、動的物体の三次元復元は行わない。また、統合部１７が出力する三次元構造情報には、静的物体の三次元構造復元画像と、推定された動的物体の三次元位置情報が含まれている。なお、統合部１７は、推定された動的物体の三次元位置情報を用いて、動的物体が存在する領域の三次元画像を生成して静的物体の三次元構造復元画像に合成して、三次元構造復元画像を生成するようにしてもよい。

出力部１８は、統合部１７が出力する三次元構造情報を用いて画像を生成し、生成した画像情報を外部装置（例えば画像表示装置）に出力する。

記憶部１９は、処理に必要な各閾値等を記憶する。記憶部１９は、三次元モデルを記憶する。

（カメラ座標とワールド座標）
次に、カメラ座標とワールド座標について説明する。
図２は、カメラ座標とワールド座標を説明するための図である。図２において、ＸＹＺ座標系がワールド座標系であり、ｘｙｚ座標系がカメラ座標系とマイクロホンアレイ座標である。Ｘ_Ｃｉ（＝（ｘ_Ｃｉ，ｙ_Ｃｉ，ｚ_Ｃｉ）^Ｔ（Ｔは倒置を表す））は撮影部１１の中心座標であり、Ｘ_Ｍi（＝（ｘ_Ｍｉ，ｙ_Ｍｉ，ｚ_Ｍｉ）^Ｔ）はマイクロホンアレイの中心座標である。なお、カメラ座標におうて、撮影部１１の光軸方向をｚ軸方向とする。また、収音部１４の０度方向をｚ軸方向とする。

（ＳｆＭ部１２の処理）
次に、ＳｆＭ部１２が行う処理について説明する。
図３は、本実施形態に係るＳｆＭ部１２が行う処理を説明するための図である。
図３において、符号Ｔは、ワールド座標系からカメラ座標系への並進ベクトルである。また、符号ｖは、カメラの方向ベクトルである。符号θを軸とした回転角度である。
本実施形態では、クォータニオンＱ（∈Ｒ^４（Ｒは正の実数全体の集合））と並進ベクトルＴ（∈Ｒ^３（Ｒは正の実数全体の集合））を用いて、ワールド座標系に対するカメラ座標系への投影として、カメラ姿勢を定義する。

ここで、クォータニオンＱは、カメラ座標系への方向ベクトルｖ（＝（ｖ_ｘ，ｖ_ｙ，ｖ_ｚ））と、ベクトルｖを軸とした回転角度θ（∈Ｒ（Ｒは正の実数全体の集合））を用いて、次式（１）のように表すことができる。

クォータニオンＱから計算される回転行列Ｒ（∈Ｒ^３×３）を用いて、画像i（∈｛１，…，Ｎ｝）におけるワールド座標系に対する撮影部１１の中心座標Ｘ_Ｃｉ（＝（ｘ_Ｃｉ，ｙ_Ｃｉ，ｚ_Ｃｉ）^Ｔ）は、次式（２）のように表される。この撮影部１１の中心座標Ｘ_Ｃｉは、ＳｆＭ部１２が算出する。

式（２）において、Ｒ_ｉ ^Ｔは、画像iの回転行列Ｒ_iの転置行列である。算出された撮影部１１の中心座標Ｘ_Ｃｉは、音源定位とＭＶＳ部１３で用いられる。

図４は、本実施形態に係るＳｆＭ部１２の処理のフローチャートである。

（ステップＳ１）ＳｆＭ部１２は、１つの画像のペアから開始し、新たな画像を１つずつ追加しながら三次元構造の復元を行う。ＳｆＭ部１２は、特徴点の抽出とマッチングを行い、投影幾何によりシーングラフ（画像間の対応関係）を求める。

（ステップＳ２）ＳｆＭ部１２は、シーングラフを用いてカメラ姿勢の推定を行う。シーングラフから、ある物体やシーンに関して、それぞれの画像がどの方向から撮影されたものかという情報がわかる。ＳｆＭ部１２は、その情報に基づいて、それぞれの画像を撮影したときのカメラ位置・向きを推定する。なお、ＳｆＭ部１２は、初期画像ペアに対して、２つの画像を用いて三次元モデルを初期化する。３つ目以上の画像に対して、ＳｆＭ部１２は、復元済み三次元点と、新しく登録する画像の対応する特徴点を用いて、Ｐｅｒｓｐｅｃｔｉｖｅ－ｎ－Ｐｏｉｎｔ（ＰｎＰ）問題（例えば参考文献４参照）を解くことにより、カメラ姿勢を推定する。

参考文献４；M. A. Fischler and R. C. Bolles, Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography", Communications of the ACM, vol. 24, no. 6, pp. 381-395, Jun. 1981.

（ステップＳ３）ＳｆＭ部１２は、三角測量によって、新しい特徴点の三次元復元を行う。

（ステップＳ４）ＳｆＭ部１２は、バンドル調整によって誤差の最小化を行う。なお、バンドル調整とは、写真測量における空中三角測量で用いられている手法である（参考文献３参照）。

ＳｆＭ部１２は、以上の処理を繰り返すことで、三次元構造の復元を行う。
なお、ＳｆＭ部１２は、特徴点マッチングや三角測量の際に、ＲＡＮＳＡＣ（例えば参考文献４参照）を用いてＯｕｔｌｉｅｒの除去を行う。このため、ＳｆＭ部１２においては、動いている物体は復元されず、制止している物体のみが復元される。なお、Ｏｕｔｌｉｅｒは、外れ値である。

（ＭＶＳ部１３の処理）
次に、ＭＶＳ部１３が行う処理について説明する。
図５は、本実施形態に係るＭＶＳ部１３が行う処理を説明するための図である。
図５において、符号ｇ１１は、画像内の全てのピクセルの深度の深度マップの例を示す図である。また、符号ｇ１２は、マイクロホンアレイに対する法線マップである。

ＭＶＳ部１３は、ＳｆＭ部１２によって求められたカメラ姿勢を用いて、画像内の全てのピクセルの深度と法線ベクトルを推定する。
そして、ＭＶＳ部１３は、三次元上で、複数の画像の深度マップと法線マップを統合することで、密な三次元構造の復元を行う。
なお、ＭＶＳ部１３においても、ＳｆＭ部１２と同様に、動いている物体は復元されず、制止している物体のみが復元される。

図６は、ＳｆＭ部１２が復元した疎な三次元構造復元の画像例と、ＭＶＳ部１３が復元した密な三次元構造復元の画像例である。
符号ｇ１３は、ＳｆＭ部１２が復元した疎な三次元構造復元の画像例である。符号ｇ１４は、ＭＶＳ部１３が復元した密な三次元構造復元の画像例である。

（音源定位部１５の処理）
次に、音源定位部１５が行う処理について説明する。
音源定位部１５は、ＭＵＳＩＣ手法によって、マイクロホンがＭ個であり観測される音源がＮ個の場合、入力信号の相関を固有値分解することにより、固有λ_ｍ（ｍ＝１，…，Ｍ）と固有ベクトルｅ_ｍを計算して、各音源を（ｅ_ｍ,λ_ｍ）で表す。
そして、音源定位部１５は、固有値の大小によって固有ベクトルを音源部分空間Ｅ_ｓ＝［ｅ_１，…，ｅ_Ｎ］と、雑音部分空間Ｅ_ｎ＝［ｅ_Ｎ＋１，…，ｅ_Ｍ］に分類する。

ここで、方位θにけるＭＵＳＩＣ法の空間ベクトルは、次式（３）のように表される。

式（３）において、Ｈ（θ）は、方向ベクトル（計測伝達関数）である。Ｈ（θ）が音源方向に対応する方向ベクトルである場合は、固有ベクトルｅ_ｍと直交するため、式（３）の分母が０となり鋭いピークを有する。ＭＵＳＩＣ法では、このＰ（θ）がピークとなるθを抽出することで、音源方向を推定する。

（音源三次元位置推定部１６の処理）
次に、音源三次元位置推定部１６が行う三角測量を用いた音源位置推定について、図７を用いて、さらに図２を参照しつつ説明する。
図７は、音源三次元位置推定部１６が行う三角測量を用いた音源位置推定を説明するための図である。
図７において、収音部１４の平面がｘｚ平面であり、ｘｚ平面に垂直な方向がｙ軸方向である。なお、ｘｙｚ平面の原点が収音部１４の中心座標Ｘ_Ｍｉである。また、ｚ軸方向は、収音部１４の０度方向であり、かつカメラの光軸方向と平行な方向である。また、符号ｎ_ｉは、収音部１４の平面に対する法線ベクトルである。また、定位方向θ_ｉは、収音部１４の０度方向に対する角度である。また、定位方向ベクトルθ_ｉは、原点から音源方向へのベクトルである。また、符号Ｎ_ｉは、法線ベクトルｎ_ｉと定位方向ベクトルθ_ｉとの外積である。音源が存在する平面は、外積Ｎ_ｉを法線とする平面である。
ワールド座標系に対するマイクロホンアレイの中心座標Ｘ_Ｍｉ＝（ｘ_Ｍｉ，ｙ_Ｍｉ，ｚ_Ｍｉ）は、撮影部１１の中心座標Ｘ_Ｃｉを用いて、次式（４）のように計算することができる。

式（４）において、Ｔ_ＣｉＭｉ（∈Ｒ^３）はカメラ座標系に対する、撮影部１１から収音部１４までの並進ベクトルであり、予め計測して記憶部１９に記憶させておく。
音源三次元位置推定部１６は、音響信号を収録した各位置Ｘ_Ｍｉにおける音源定位結果θ_ｉに対して三角測量を行うことにより、音源の三次元位置を推定する。

収音部１４に対する法線ベクトルをｎ_ｉとし、収音部１４の中心Ｘ_Ｍｉを通る定位方向θ_ｉのベクトルをθ_ｉとすると、音源が存在する平面は、ｎ_ｉとθ_ｉの外積であるＮ_ｉを法線とする平面となる。
音源三次元位置推定部１６は、各位置においてこの平面を計算し、任意の二つの平面を抽出し、二つの平面の交線を求める。
音源三次元位置推定部１６は、得られた交線から任意の二本の交線を抽出し、二本の交線の交点を求める。この際、三次元空間において二本の直線が交わるとは限らないため、音源三次元位置推定部１６は、二本の直線に対する距離の和が最小となる点を交点とする。

この交点の密度が高いところほど、音源が存在する確率が高い。求めたすべての交点数をＮ_Ｐ個とすると、すべての交点の集合Ｘ_Ｐ（⊂Ｒ^３）は、次式（５）のように表される。

（外れ値の除去および音源存在範囲の推定）
次に、音源三次元位置推定部１６は、が行う外れ値の除去および音源存在範囲の推定について説明する。
音源三次元位置推定部１６が求めた交点の集合Ｘ_Ｐには、ノイズ等の影響により多くの外れ値が存在する可能性がある。本実施形態では、この外れ値を除去するため、三次元空間を適切な大きさの立方体Ｖ_ｋ（ｋ＝１，…，Ｎ_Ｖ）によって離散化し、各立方体の中に存在する交点数Ｎ_ＰＶｋ（ｋ＝１，…，Ｎ_Ｖ）を求める。

音源三次元位置推定部１６は、Ｎ_ＰＶをＮ_ＰＶｋの集合とし、その平均をμ_ＰＶ、分散をσ^２ _ＰＶとしたとき、交点数Ｎ_ＰＶｋがしきい値Ｎ_ｔｈよりも小さければ、立方体Ｖ_ｋの中に存在する交点を外れ値として除去する。
よって、Ｘ_ＰＶｋ（⊂Ｒ^３）を立方体Ｖ_ｋの中に存在する交点の集合とすると、上記よりＸ_ＰＶｋは、次式（６）のように再定義される。

外れ値の除去を行った後の交点の集合をＸ_Ｐ ^{ｆｉｌｔｅｒｄ}（⊂Ｒ^３）とすると、Ｘ_Ｐ ^{ｆｉｌｔｅｒｄ}は次式（７）のように表される。

音源三次元位置推定部１６は、外れ値の除去を行った交点の集合Ｘ_Ｐ ^{ｆｉｌｔｅｒｄ}に対して主成分分析を行って、第１－３主成分を軸とする確率楕円体を作成する。この楕円体は、音源の存在分布すなわち音源存在範囲とみなすことができる。音源三次元位置推定部１６は、このようにして音源存在範囲を推定する。

（全体の処理手順）
次に、三次元構造復元装置１が行う処理手順の流れ全体を説明する。
図８は、本実施形態に係る三次元構造復元装置１が行う処理手順のフローチャートである。

（ステップＳ１１）撮影部１１は、画像を撮影し、撮影した画像をデジタル信号に変換し、変換した画像情報をＳｆＭ部１２に出力する。

（ステップＳ１２）ＳｆＭ部１２は、ＳｆＭ手法によって、撮影部１１の姿勢推定を行い、推定した６ＤｏＦの撮影部１１の姿勢情報をＭＶＳ部１３に出力する。また、ＳｆＭ部１２は、ＳｆＭ手法によって、収音部１４の姿勢推定を行い、推定した６ＤｏＦの収音部１４の姿勢情報を音源三次元位置推定部１６に出力する。

（ステップＳ１３）ＭＶＳ部１３は、ＭＶＳの手法を用いて、ＳｆＭ部１２が出力する疎な三次元構造より密な三次元構造復元を行う。ＭＶＳ部１３は、密三次元構造復元情報を統合部１７に出力する。

（ステップＳ１４）収音部１４は、音響信号を収音し、収音した音響信号をデジタル信号に変換し、変換したｍチャネルの音響信号を音源定位部１５に出力する。

（ステップＳ１５）音源定位部１５は、収音部１４が出力するｍチャネルの音響信号を用いて、例えばＭＵＳＩＣ手法によって、ｎ（ｎは１以上の整数）個の音源について音源毎の音源定位処理を行う。音源定位部１５は、音源定位した結果を示す音源定位情報を音源三次元位置推定部１６に出力する。

（ステップＳ１６）音源三次元位置推定部１６は、６ＤｏＦの撮影部１１の姿勢情報と音源定位情報を用いて、音源の三次元位置を推定する。音源三次元位置推定部１６は、推定した音源の三次元位置を示す音源三次元位置情報を統合部１７に出力する。

（ステップＳ１７）統合部１７は、密三次元構造復元情報と音源三次元位置情報を統合して、動いている対象物体の三次元構造を復元する。統合部１７は、復元した対象物体の三次元構造を示す三次元構造情報を出力部１８に出力する。出力部１８は、外部装置に復元した対象物体の三次元構造を示す三次元構造情報を出力する。

（確認結果）
次に、本実施形態の三次元構造復元装置１を用いて実験を行った結果例を説明する。
図９は、実験条件を説明するための図である。
実験は、ｉ．扇風機２００を静止させた状態、ｉｉ．扇風機２００の首を振って動作をさせた状態の二つで実験を行った。画像による三次元構造復元は、実験ｉとｉｉに対して行った。音源の三次元位置推定は、実験ｉｉのみ行った。なお、実施形態において、扇風機２００の首は、ファン等を含む動作部分（図９の符号２０１）であり、その他の部分を静止部分（符号２０２）という。

まず、実験を行った条件を説明する。
図９の符号２１０ように、扇風機を１周するように計１７箇所（例えば２２．５度間隔）で、扇風機２００の全体像が映るように画像の撮影を行った。同時に実験ｉｉでは、８チャネルのマイクロホンアレイ（収音部１４）により音響信号を収録した。音響信号は、１回の収録につき、扇風機の首の動作部分２０１が往復する時間である約１０秒間収録をした。このマイクロホンアレイでは、すべてのマイクロホンが同一平面上に円状に分布している。このため、このマイクロホンアレイでは、方位角のみが計測可能であり、すべての計測位置において同一姿勢で計測を行った場合、三次元の計測をすることができない。従って実験では、奇数番目の計測位置で、マイクロホンアレイの法線方向を床に垂直な方向に合わせて計測を行い、偶数番目の計測位置では、マイクロホンアレイの法線方向を床に水平な方向に合わせて計測行うことにより、三次元の計測を行った。

また、実験では、撮影部１１と収音部１４（マイクロホンアレイ）との相対的な位置と姿勢の関係を常に一定に保つため、撮影部１１の上部に収音部１４を取り付けた。その際、撮影部１１の光軸方向と収音部１４の０度方向が同じ方向を向くようにした。このように、撮影部１１と収音部１４とが一体であるため、実験では、収音部１４の回転に合わせて画像を撮影した。また、撮影部１１の画素数は、５４７２×３６４８である。

図１０は、実験ｉとｉｉの三次元構造復元結果を示す図である。符号ｇ２１は、実験ｉ（扇風機が停止している状態）における三次元構造復元の結果例である。符号ｇ２２は、実験ｉｉ（扇風機の首を振って動作をさせた状態）における三次元構造復元の結果例である。
符号ｇ２１のように、実験ｉによる三次元構造復元では、扇風機２００が静止しているため、扇風機２００全体が復元されている。
符号ｇ２２のように、実験ｉｉによる三次元構造復元では、扇風機２００のファン等の動作部分２０１が首を振って動作しているため、静止部分２０２に対応する三次元構造が復元されているが、動作部分２０１に対応する三次元構造が復元されていない。

本実施形態では、画像によって復元されなかった動作部分２０１の部分の位置を、三次元音源位置推定によって推定する。
図１１は、実験ｉｉにおいて各位置で推定した音源が存在する平面を示す図である。符号ｇ３１は、扇風機２００を横から見た際の実験ｉｉにおいて各位置で推定した音源が存在する平面を示す図である。符号ｇ３２は、扇風機２００を上から見た際の実験ｉｉにおいて各位置で推定した音源が存在する平面を示す図である。
実験条件で説明したように１７箇所で収音しているため、計１７の平面が表示されている。

上述したように、音源三次元位置推定部１６は、各位置においてこの平面を計算し、任意の二つの平面を抽出し、二つの平面の交線を求める。そして、音源三次元位置推定部１６は、得られた交線から任意の二本の交線を抽出し、二本の交線の交点を求める。
図１２は、２つの平面の交線の集合から任意の２本を取り出し、その交点を可視化した図である。符号ｇ４１は、扇風機２００を横から見た際の交点を可視化した図である。符号ｇ４２は、扇風機２００を上から見た際の交点を可視化した図である。
この点の密度が高い位置ほど、音源が存在する確率が高い。実際に、図１２のように、扇風機２００のファン周りの符号ｇ４３、ｇ４４の点の密度が高い。
なお、実験では、マイクロホンアレイの法線ベクトルが床に垂直であるように計測した位置が、全ての計測位置の半分を占めているため、床に垂直な方向の交点の密度が高くなっている。

図１３は、実験ｉｉにおける各立方体の中に存在する交点のヒストグラムを示す図である。図１３において、横軸は交点数Ｎ_ＰＶｋ（１０^４個）であり、縦軸は立方体の数（個）である。

図１４は、実験ｉｉにおいて交点数Ｎ_ＰＶｋやしきい値Ｎ_ｔｈ等のパラメータの一覧を示す図である。図１４に示すように、パラメータは、全ての交点数（Ｎｕｍｂｅｒｏｆａｌｌｉｎｔｅｒｓｅｃｔｉｏｎｓ）、全ての立方体の数（Ｎｕｍｂｅｒｏｆａｌｌｖｏｘｅｌｓ（Ｎ_ＰＶ））、Ｎ_ＰＶの最大（ＭａｘｏｆＮ_ＰＶ）、Ｎ_ＰＶの平均（μ_ＰＶ）、Ｎ_ＰＶの分散（σ^２ _ＰＶ）、Ｎ_ＰＶの標準偏差（σ_ＰＶ）、しきい値（Ｎ_ｔｈ）、外れ値の除いた内部の交差数（Ｎｕｍｂｅｒｏｆｉｎｔｅｒｓｅｃｔｉｏｎｓｗｉｔｈｏｕｔｏｕｔｌｉｅｒ）である。なお、実験では、しきい値をμ_ＰＶ＋３σ_ＰＶに設定した。また、実験では、しきい値よりも内部の交点数が少ない立方体に含まれる交点は、外れ値として除去した。

図１５は、実験ｉｉにおいてしきい値よりも内部の交点数が多い立方体を可視化した図である。図１５において、符号ｇ５１は、横から見た状態を可視化した図である。符号ｇ５２は、上から見た状態を可視化した図である。符号ｇ５１とｇ５２において、符号ｇ５３は、内部の交点数が４０００以上であり１００００以下の立方体である。符号ｇ５４は、内部の交点数が１００００以上であり３００００以下の立方体である。符号ｇ５５は、内部の交点数が３００００以上である立方体である。

図１６は、実験ｉｉにおいて外れ値の除去を行った交点の集合Ｘ_Ｐ ^{ｆｉｌｔｅｒｄ}から求めた確率楕円体を可視化した図である。図１６において、符号ｇ６１は、横から見た状態を可視化した図である。符号ｇ６２は、上から見た状態を可視化した図である。なお、符号ｇ６１とｇ６２において、楕円体の画像はファンの画像に貼り付けたものである。図１６のように、本実施形態によれば、動作部分の音源の存在分布が推定できている。

以上のように、本実施形態では、画像から静的領域に対して、ＳｆＭ処理とＭＶＳ処理を行って三次元復元を行うようにした。また、本実施形態では、音源定位した結果を用いて動的領域の音源の存在分布を推定するようにした。そして本実施形態では、静的物体と動的物体を、音源位置情報を用いて統合することで動的シーンの三次元再構成を行うようにした。

これにより、本実施形態によれば、動いている物体に対しても、その位置を音源同定した結果を用いて推定することで、三次元構造復元を行うことができる。そして、本実施形態によれば、単一カメラで物体の動的シーンの三次元再構成を行うことができる。

＜第２実施形態＞
まず、本実施形態の概要を説明する。
本実施形態では、カメラで撮影した画像に対してＳｆＭ処理とＭＶＳ処理を行って静的物体の三次元構造復元を行い、さらに物体検出を行う。本実施形態では、マイクロホンアレイによって収音した音響信号に対して音源定位を実行して動いているオブジェクトの位置と大きさを推定する。本実施形態では、音響信号の情報に基づいて、撮影された各画像内の動的物体を検出し、検出した動的物体をＳｆＭ処理で抽出された画像から再構築する。そして、本実施形態では、静的物体の三次元構造復元画像と動的物体の三次元構造復元とを統合することで、動いている物体の三次元構造復元も行う。

なお、本実施形態では、収音部（マイクロホンアレイ）は、例えば床に固定されている。固定するとき、マイクロホンアレイは、水平面がマイクロホンの水平方向と平行になるように配置され、０度の方向は任意の方向に向けられる。

図１７は、本実施形態に係る三次元構造復元装置１Ａの構成例を示すブロック図である。図１７に示すように、三次元構造復元装置１Ａは、撮影部１１、ＳｆＭ部１２（静的領域復元部）、ＭＶＳ部１３（静的領域復元部）、収音部１４、音源定位部１５Ａ、統合部１７Ａ、出力部１８、記憶部１９、物体検出部２０、音識別部２１、画像音源定位部２２、存在領域推定部２４、動的物体三次元位置推定部２５（三次元位置推定部）、ＳｆＭ・ＭＶＳ部２６、動的物体大きさ推定部２７、および動的物体復元部２８を備えている。なお、第１実施形態の三次元構造復元装置１と同様の機能を備える機能部に対しては、同じ符号を用いて説明を省略する。

撮影部１１は、撮影した画像情報をＳｆＭ部１２と物体検出部２０に出力する。
ＳｆＭ部１２、ＭＶＳ部１３の処理内容と処理手順は、第１実施形態と同様である。

物体検出部２０は、周知の画像処理手法を用いて、撮影された画像の全ての物体を検出する。物体検出部２０は、物体検出のアルゴリズムとして、例えばＦａｓｔｅｒ－ＲＣＮＮ（例えば参考文献５参照）の手法を使用する。物体検出部２０は、例えばバウンディングボックスを検出することで、撮影された画像の全ての物体を検出する。ここで、バウンディングボックスとは、画像において、要素を完全に囲む可能な最小の矩形である。物体検出部２０は、検出した物体毎の物体に関する物体情報を画像音源定位部２２に出力する。なお、物体情報には、物体の位置、形状、特徴量等の情報が含まれる。

参考文献５；Ren Shaoqing, He Kaiming, Girshick Ross, and Sun Jian. Faster R-CNN: Towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems (NIPS), pages 91-99, 2015.

収音部１４は、ｎチャネルの音響信号を音識別部２１と音源定位部１５Ａに出力する。

音識別部２１は、音声区間検出、音源同定処理および音源分離処理を行うことで、音源を識別する。音識別部２１は、音分類のアルゴリズムとして、例えばＳｏｕｎｄＮｅｔ（例えば参考文献６参照）を使用する。音識別部２１は、識別した結果を示す識別情報を画像音源定位部２２に出力する。

参考文献６；Aytar Yusuf, Vondrick Carl, and Torralba Antonio. Soundnet: Learning sound representations from unlabeled video.In Advances in Neural Information Processing Systems (NIPS), 2016.

画像音源定位部２２は、物体検出部２０が出力する物体情報と、音識別部２１が出力する識別情報を取得する。画像音源定位部２２は、物体検出部２０によって検出されたバウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘｅｓ）のうち、音識別部２１によって検出されたカテゴリに対応するバウンディングボックスのみをトリミングする。トリミングされたオブジェクトは、音源と見なすことができる。画像音源定位部２２は、音源と推定される画像の領域のみを抽出して、抽出した音源と推定される画像の領域の情報（含む画像）をＳｆＭ・ＭＶＳ部２６に出力する。なお、この処理は、全てのフレームで実行される。

音源定位部１５Ａは、収音部１４が出力するｍチャネルの音響信号に対して、例えばＭＵＳＩＣ法を用いて音源定位処理を行う。音源定位部１５Ａは、推定した音源方向を示す音源方向情報を動的物体三次元位置推定部２５に出力する。また、音源定位部１５Ａは、音源定位処理の計算で得られたＭＵＳＩＣスペクトルを動的物体大きさ推定部２７に出力する。

ＭＶＳ部１３は、静的物体に対応する密な点群の情報である静的物体密点群情報（静的物体の密三次元復元情報）を統合部１７Ａに出力する。ＭＶＳ部１３は、点群の情報である点群情報を存在領域推定部２４に出力する。

存在領域推定部２４は、ＭＶＳ部１３が出力する点群情報を取得する。存在領域推定部２４は、取得した点群情報に基づいて、マイクロホンアレイの姿勢と動的物体の存在領域を推定する。存在領域推定部２４は、推定したマイクロホンアレイの姿勢と動的物体の存在領域それぞれを示す情報を動的物体三次元位置推定部２５に出力する。なお、存在領域推定部２４は、ポイントクラウドデータから、マイクロホンアレイの向き推定と、動的物体が存在する領域推定を行う。カメラとマイクがくっついたデバイスを想定しているため、カメラ向きがわかれば、マイクアレイの向きがわかる。このように、存在領域推定部２４は、音の方向を利用して、動的物体の位置を切り出す。

動的物体三次元位置推定部２５は、音源定位部１５Ａが出力する音源方向情報と、存在領域推定部２４が出力するマイクロホンアレイの姿勢と動的物体の存在領域それぞれを示す情報を取得する。動的物体三次元位置推定部２５は、音源方向情報と動的物体推定の存在領域を示す情報に基づいて、動的物体の三次元位置を推定し、推定した動的物体の三次元位置情報を動的物体復元部２８に出力する。なお、動的物体推定の存在領域と、音源定位によって推定された平面の交点は、音源の三次元位置と見なすことができる。動的物体三次元位置推定部２５は、第１実施形態の音源三次元位置推定部１６と同様に三角測量を用いた音源位置推定を行う。推定の際、動的物体三次元位置推定部２５は、第１実施形態の音源三次元位置推定部１６と同様に、各位置においてこの平面を計算し、任意の二つの平面を抽出し、二つの平面の交線を求める。そして、動的物体三次元位置推定部２５は、得られた交線から任意の二本の交線を抽出し、二本の交線の交点を求める。この際、三次元空間において二本の直線が交わるとは限らないため、動的物体三次元位置推定部２５は、二本の直線に対する距離の和が最小となる点を交点とする。そして、動的物体三次元位置推定部２５は、交点の密度の高い領域を動的物体の三次元位置として推定する。なお、動的物体三次元位置推定部２５は、第１実施形態の三次元構造復元装置１の音源三次元位置推定部１６と同様に、外れ値の除去を行う。

ＳｆＭ・ＭＶＳ部２６は、画像音源定位部２２が出力する音源と推定される画像の領域の情報に対して、ＳｆＭ処理とＭＶＳ処理を行うことで、動的物体に対する三次元復元処理を行う。なお、ＳｆＭ処理やＭＶＳ処理では動いている物体に対して三次元復元処理ができないが、本実施形態では、動的物体のみをトリミングすることにより、動的物体が静止していると見なす。これにより、本実施形態によれば、ＳｆＭ異常値の除去プロセスを回避しながら三次元構造の再構築が可能となる。ＳｆＭ・ＭＶＳ部２６は、動的物体に対応する密な点群の情報である動的物体密点群情報を動的物体復元部２８に出力する。

動的物体大きさ推定部２７は、音源定位部１５Ａが出力するＭＵＳＩＣスペクトルを取得する。動的物体大きさ推定部２７は、ＭＵＳＩＣスペクトルを使用して動的物体の大きさを推定する。これは、動的物体が点音源ではなく、点より大きい物体であると見なすことができるためである。動的物体大きさ推定部２７は、ＭＵＳＩＣスペクトルのパワーと、記憶部１９が記憶する動的物体大きさ推定用のしきい値とを比較し、しきい値を超える方向を音源と見なす。これにより、動的物体大きさ推定部２７は、音源定位を単一のθ方向だけでなく、音源の方向に幅［θ_ｍｉｎ、θ_ｍａｘ］を有して取得することができる。本実施形態では、この幅を動的物体の大きさに対応すると考える。なお、動的物体大きさ推定部２７は、この方向の幅を、音源の大きさを取得するために全てのフレームで平均化し、動的物体の大きさを音源の大きさを使用して決定する。
なお、動的物体大きさ推定部２７は、音の大きさを、図１２の点が、音源が存在する部分として表したり、音源の大きさをこの分布に内接する楕円体（図１６）として表したり、ボクセル（図１５）として表す。例えば、対象物体が扇風機の例では、羽が音源であるので、その部分を抽出すれば、首振り部の大きさとほぼ一致する。このため、図１２のように物体の大きさを検出できる。動的物体大きさ推定部２７は、推定した動的物体の大きさを示す情報である動的物体大きさ情報を動的物体復元部２８に出力する。なお、再構成された動的物体の大きさは、再構成された静的物体の大きさとは異なるため、再構成された動的物体の大きさを調整する必要がある。このため、本実施形態では、音源定位の際に求めるＭＵＳＩＣスペクトルに対して、所定の閾値以上のところに音があることを仮定する。そして、本実施形態では、スペクトルの値がその閾値以上の範囲に物体＝音源があるとすることで、物体のスケールをきめ、それに合わせて物体のスケールを拡大縮小して調整を行う。

動的物体復元部２８は、ＳｆＭ・ＭＶＳ部２６が出力する動的物体密点群情報と、動的物体三次元位置推定部２５が出力する動的物体の三次元位置情報と、動的物体大きさ推定部２７が出力する動的物体大きさ情報を取得する。動的物体復元部２８は、動的物体密点群情報と動的物体の三次元位置情報と動的物体大きさ情報に基づいて、動的物体密点群情報を生成し、生成した動的物体密点群情報を統合部１７Ａに出力する。なお、ＳｆＭ・ＭＶＳ部２６が、動的物体のＤｅｎｓｅＰｏｉｎｔＣｌｏｕｄを作成する（位置や向きはｕｎｋｎｏｗｎ）。そして、動的物体三次元位置推定部２５が、その物体の三次元位置・向きを推定する。動的物体大きさ推定部２７が、その物体の大きさを推定する。そして、動的物体復元部２８は、この３つをあわせることで、動的物体のポイントクラウドを、位置と大きさ付きで復元する。

統合部１７Ａは、ＭＶＳ部１３が出力する静的物体密点群情報と、動的物体復元部２８が出力する動的物体密点群情報を取得し、取得した静的物体密点群情報と動的物体密点群情報を統合して、三次元構造復元の画像を生成する。

（全体の処理手順）
次に、三次元構造復元装置１Ａが行う処理手順の流れ全体を説明する。
図１８は、本実施形態に係る三次元構造復元装置１Ａが行う処理手順のフローチャートである。

（ステップＳ２１）撮影部１１は、画像を撮影し、撮影した画像をデジタル信号に変換し、変換した画像情報をＳｆＭ部１２に出力する。

（ステップＳ２２）ＳｆＭ部１２は、ＳｆＭ手法によって、撮影部１１の姿勢推定を行い、推定した６ＤｏＦの撮影部１１の姿勢情報をＭＶＳ部１３に出力する。

（ステップＳ２３）ＭＶＳ部１３は、ＭＶＳの手法を用いて、ＳｆＭ部１２が出力する疎な三次元構造より密な三次元構造復元を行う。ＭＶＳ部１３は、密三次元構造復元情報を統合部１７Ａに出力する。また、ＭＶＳ部１３は、点群情報を存在領域推定部２４に出力する。

（ステップＳ２４）物体検出部２０は、周知の画像処理手法を用いて、撮影された画像の全ての物体を検出する。物体検出部２０は、検出した物体毎の物体に関する物体情報を画像音源定位部２２に出力する。

（ステップＳ２５）収音部１４は、音響信号を収音し、収音した音響信号をデジタル信号に変換し、変換したｍチャネルの音響信号を音源定位部１５Ａに出力する。

（ステップＳ２６）音識別部２１は、音声区間検出、音源同定処理および音源分離処理を行うことで、音源を識別する。音識別部２１は、識別した結果を示す識別情報を画像音源定位部２２に出力する。

（ステップＳ２７）音源定位部１５Ａは、収音部１４が出力するｍチャネルの音響信号に対して、例えばＭＵＳＩＣ法を用いて音源定位処理を行い、推定した音源方向を示す音源方向情報を動的物体三次元位置推定部２５に出力する。続けて、音源定位部１５Ａは、音源定位処理の計算で得られたＭＵＳＩＣスペクトルを動的物体大きさ推定部２７に出力する。

（ステップＳ２８）画像音源定位部２２は、物体検出部２０によって検出されたバウンディングボックスのうち、音識別によって識別されたカテゴリに対応するバウンディングボックスのみをトリミングする。画像音源定位部２２は、音源と推定される画像の領域のみを抽出して、抽出した音源と推定される画像の領域の情報（含む画像）をＳｆＭ・ＭＶＳ部２６に出力する。

（ステップＳ２９）存在領域推定部２４は、ＭＶＳ部１３が出力する点群情報に基づいて、マイクロホンアレイの姿勢と動的物体推定の存在領域を検出する。存在領域推定部２４は、マイクロホンアレイの姿勢と動的物体推定の存在領域それぞれを示す情報を動的物体三次元位置推定部２５に出力する。

（ステップＳ３０）動的物体三次元位置推定部２５は、音源方向情報と動的物体推定の存在領域を示す情報に基づいて、動的物体の三次元位置を推定し、推定した動的物体の三次元位置情報を動的物体復元部２８に出力する。

（ステップＳ３１）ＳｆＭ・ＭＶＳ部２６は、画像音源定位部２２が出力する音源と推定される画像の領域の情報に対して、ＳｆＭ処理とＭＶＳ処理を行うことで、動的物体に対する三次元復元処理を行う。ＳｆＭ・ＭＶＳ部２６は、動的物体に対応する密な点群の情報である動的物体密点群情報を動的物体復元部２８に出力する。

（ステップＳ３２）動的物体大きさ推定部２７は、ＭＵＳＩＣスペクトルを使用して動的物体の大きさを推定する。動的物体大きさ推定部２７は、推定した動的物体の大きさを示す情報である動的物体大きさ情報を動的物体復元部２８に出力する。

（ステップＳ３３）動的物体復元部２８は、動的物体密点群情報と動的物体の三次元位置情報と動的物体大きさ情報に基づいて、動的物体密点群情報を生成し、生成した動的物体密点群情報を統合部１７Ａに出力する。

（ステップＳ３４）統合部１７Ａは、ＭＶＳ部１３が出力する静的物体密点群情報と、動的物体復元部２８が出力する動的物体密点群情報を取得し、取得した静的物体密点群情報と動的物体密点群情報を統合して、三次元構造復元の画像を生成する。

（確認結果）
次に、本実施形態の三次元構造復元装置１Ａを用いて実験を行った結果例を説明する。
まず、実験条件を説明する。実験ｉｉｉは、車両が円形のレール上を時計回りに走る電池式のおもちゃの列車で行った。実験ｉｉｉで用いた撮影部１１と収音部１４は、第１実施形態の実験ｉｉと同じである。また、静的物体として、キーボードも画面内に配置した。撮影部１１は、円形レールの周りで動画として撮影し、撮影した画像の内、キーフレーム画像のみを使用した。収音部１４（マイクアレイ）は、円形レールの中央に固定して配置した。実験ｉｉｉでは、音響信号の記録を約１７秒間とした。この１７秒間は、列車が円形レールを約５回周回する時間である。

マイクロホンアレイの表面には、複数のマーカーを取り付けた。実験ｉｉｉは、これらのマーカーの三次元座標を計算することにより、マイクアレイの座標系が推定した。
また、音源が円形レール上にあると仮定すると、音源の三次元位置は、円形レール平面と音源定位によって推定された音源の平面との交点によって推定することができる。このため、実験ｉｉｉでは、動的物体の検出に、ＪｉａｎｗｅｉらによるＰｙＴｏｒｃｈで実装された、微調整されたＦａｓｔｅｒＲ－ＣＮＮを使用した（参考文献７参照）。

参考文献７；Jianwei Yang, Jiasen Lu, Dhruv Batra, and Devi Parikh. A faster pytorch implementation of faster r-cnn. https://github.com/jwyang/faster-rcnn.pytorch, 2017

さらに、実験ｉｉｉでは、ＰＡＳＣＡＬＶＯＣ２００７検出タスクで事前トレーニングされたＲｅｓＮｅｔ１０１（参考文献８参照）ベースのモデルを使用した。実験ｉｉｉでは、ＰＡＳＣＡＬＶＯＣ２００７のカテゴリに円形レールとマイクアレイの列を追加し、学習率０．００１と運動量０．９で運動量ＳＧＤを使用して１０エポック（ｅｐｏｃｈｓ）に微調整した。

参考文献８；K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770-778, 2016

さらに、実験ｉｉｉでは、音の分類として、科学技術計算のための機械学習ライブラリであるＴｏｒｃｈ７に実装されているＳｏｕｎｄＮｅｔの事前トレーニング済みモデルを使用した。
なお、実験ｉｉｉでは、再構成された動的物体が、おもちゃの列車の前部が床に対して水平であり、音の方向が進行し、おもちゃの列車の垂直方向が床の垂直方向と平行になるように姿勢を指定した。

図１９と図２０は、実験ｉｉｉにおいて時間とともに変動する動的物体の再構成結果を示す図である。図１９と図２０において、符号ｇ７１～ｇ７８は、撮影部１１が各時刻に撮影した画像である。また、符号ｇ７１～ｇ７８において、符号ｇ５００の画像はマイクロホンアレイの画像であり、符号５０１は円形レールの画像であり、符号５０２はおもちゃの列車の画像であり、符号５０３はキーボードの画像である。また、符号ｇ８１～ｇ８８は、各時刻の三次元構造復元された画像である。例えばｇ８１の復元画像は、符号ｇ７１の画像に対応している。

また、符号ｇ１５１はマイクロホンアレイの０度方向であり、符号ｇ１５２はマイクロホンアレイの法線方向である。

図１９と図２０のように、実際の画像と比較して、動的物体の位置と大きさと姿勢は、適切に推定されることが確認された。さらに、図１９と図２０のように、動的物体の視覚的な再構築もうまく機能していることが確認された。

図２１は、実験ｉｉｉにおけるすべての測定時間におけるＭＵＳＩＣスペクトルを示す図である。図２１において、横軸は時刻（ｓ）であり、縦軸は方位（ｄｅｇ）である。実験ｉｉｉでは、この図２１より、パワーしきい値を３２に設定した。

以上のように、本実施形態では、物体検出により、画像から物体を検出した後、音源定位結果によってどの物体が動いているかを特定するようにした。本実施形態では、これによって画像から動的領域と静的領域を分け、それぞれの領域に対して、ＳｆＭ処理とＭＶＳ処理を行い、三次元復元を行うようにした。本実施形態では、別々に復元した静的物体と動的物体を、音源位置情報を用いて統合することで、動的シーンの三次元再構成を行うようにした。

これにより、本実施形態によれば、静的物体と動的物体の三次元構造復元を行うことができる。そして、本実施形態によれば、単一カメラで物体の動的シーンの三次元再構成を行うことができる。

＜第３実施形態＞
まず、本実施形態の概要を説明する。
本実施形態では、画像情報を用いて静的物体の三次元復元を行い、音響情報を用いて時間的に変動する動的物体の復元を行う。そして本実施形態では、これらの結果を統合することにより三次元構造復元の性能改善を図る。

図２２は、本実施形態に係る三次元構造復元装置１Ｂの構成例を示すブロック図である。図２２に示すように、三次元構造復元装置１Ｂは、撮影部１１、ＳｆＭ部１２（静的領域復元部）、ＭＶＳ部１３（静的領域復元部）、収音部１４、音源定位部１５Ｂ、統合部１７Ｂ、出力部１８、記憶部１９、アレイ姿勢推定部３０、動的物体三次元位置推定部３１（三次元位置推定部）、および動的物体トラッキング部３２を備えている。なお、第１実施形態の三次元構造復元装置１と同様の機能を備える機能部に対しては、同じ符号を用いて説明を省略する。

ＳｆＭ部１２は、推定した６ＤｏＦの撮影部１１の姿勢情報をＭＶＳ部１３に出力する。また、ＳｆＭ部１２は、疎三次元構造復元情報をアレイ姿勢推定部３０に出力する。なお、第１実施形態と同様に外れ値を除外しているため、ＳｆＭ部１２は、静止物体のみを三次元構造復元する。なお、ＳｆＭ部１２、ＭＶＳ部１３の処理内容と処理手順は、第１実施形態と同様である。

アレイ姿勢推定部３０は、ＳｆＭ部１２が出力する疎三次元構造復元情報を用いて、６ＤｏＦの収音部１４の姿勢情報を推定する。具体的には、アレイ姿勢推定部３０は、疎三次元構造復元情報を用いて、推定した復元物をもとにワールド座標系に対するマイクロホンアレイ座標系の座標変換の推定を行う。アレイ姿勢推定部３０は、推定した６ＤｏＦの収音部１４の姿勢情報を動的物体三次元位置推定部３１に出力する。

音源定位部１５Ｂは、収音部１４が出力するｍチャネルの音響信号に対して、例えばＭＵＳＩＣ法を用いて音源定位処理を行う。音源定位部１５Ｂは、推定した音源方向を示す音源方向情報を動的物体三次元位置推定部３１に出力する。また、音源定位部１５Ｂは、音源定位処理の計算で得られたＭＵＳＩＣスペクトルを動的物体三次元位置推定部３１に出力する。

動的物体三次元位置推定部３１は、音源定位部１５Ｂが出力する音源方向情報と、アレイ姿勢推定部３０が出力する６ＤｏＦの収音部１４の姿勢情報を取得する。ここで、動的物体は点音源ではなく大きさを持つと考えられるため、ＭＵＳＩＣスペクトルのパワーの大きさにしきい値を設ける。しきい値を超える方向を音源とすることにより、音源の方向に幅［θ_ｍｉｎ，θ_ｍａｘ］をもたせる。この幅は、動的物体の大きさに対応する。動的物体三次元位置推定部３１は、しきい値を超える方向の大きさを動的物体の大きさ（音源の大きさ）であるとし、動的物体の大きさ情報を統合部１７Ｂに出力する。また、音源定位では仰角が得られないため、マイクロホンアレイに対する法線ベクトルをｎ、マイクロホンアレイの中心Ｘ_Ｍ（∈Ｒ^３）を通る定位方向θのベクトルをθとすると、ｎとθの外積であるＮを法線とする平面上に音源は存在する。動的物体三次元位置推定部３１は、この音源の存在平面と、ＳｆＭ部１２が推定した動的物体が存在する領域を用いて、三角測量的に音源の三次元位置を推定する。動的物体三次元位置推定部３１は、推定した動的物体の三次元位置を示す動的物体三次元位置情報を動的物体トラッキング部３２と統合部１７Ｂに出力する。なお、動的物体三次元位置推定部３１は、第１実施形態の三次元構造復元装置１の音源三次元位置推定部１６と同様に、三角計測を行い、外れ値の除去を行う。

動的物体トラッキング部３２は、パーティクルフィルタを用いて、動的物体三次元位置推定部３１が出力する動的物体三次元位置情報により推定した音源の三次元位置をトラッキングし、動的物体の運動過程を推定する。動的物体トラッキング部３２は、推定した動的物体の運動過程の情報を動的物体運動過程情報として統合部１７Ｂに出力する。

統合部１７Ｂは、ＭＶＳ部１３が出力する密三次元構造復元情報と、動的物体三次元位置推定部３１が出力する動的物体の三次元位置情報と動的物体の大きさ情報と、動的物体トラッキング部３２が出力する動的物体運動過程情報を取得する。統合部１７Ｂは、密三次元構造復元情報と、動的物体の三次元位置情報と、動的物体の大きさ情報と、動的物体運動過程情報とを用いて、静的物体の三次元構造復元画像と、動的物体の位置、大きさ、運動過程を示す画像を生成し、生成した画像を出力部１８に出力する。

ここで、動的物体トラッキング部３２が用いるパーティクルフィルタの例を説明する。
パーティクルフィルタは、モデルに次式（８）、次式（９）で表される１次階差モデルを、プロセスノイズｖ_ｋと観測ノイズｗ_ｋにはガウスノイズを用いた。

式（８）において、ｘ（ｋ）（∈Ｒ^３）は動的物体の位置ベクトルである。式（９）において、ｙ（ｋ）（∈Ｒ^３）は音源定位を用いた三角測量により推定した動的物体の位置ベクトルである。また、Ｖはプロセスノイズの分散であり、Ｗは観測ノイズの分散であり、ともにガウス分布を仮定である。なお、パーティクルフィルタを用いた追跡処理は、例えば特願２０１５－１６８１０８参照。

（全体の処理手順）
次に、三次元構造復元装置１が行う処理手順の流れ全体を説明する。
図２３は、本実施形態に係る三次元構造復元装置１Ｂが行う処理手順のフローチャートである。

（ステップＳ５１）撮影部１１は、画像を撮影し、撮影した画像をデジタル信号に変換し、変換した画像情報をＳｆＭ部１２に出力する。

（ステップＳ５２）ＳｆＭ部１２は、ＳｆＭ手法によって、撮影部１１の姿勢推定を行い、推定した６ＤｏＦの撮影部１１の姿勢情報をＭＶＳ部１３に出力する。続けて、ＳｆＭ部１２は、疎三次元構造復元情報をアレイ姿勢推定部３０に出力する。

（ステップＳ５３）ＭＶＳ部１３は、ＭＶＳの手法を用いて、ＳｆＭ部１２が出力する疎な三次元構造より密な三次元構造復元を行う。ＭＶＳ部１３は、密三次元構造復元情報を統合部１７Ｂに出力する。

（ステップＳ５４）アレイ姿勢推定部３０は、ＳｆＭ部１２が出力する疎三次元構造復元情報を用いて、６ＤｏＦの収音部１４の姿勢情報を推定する。アレイ姿勢推定部３０は、推定した６ＤｏＦの収音部１４の姿勢情報を動的物体三次元位置推定部３１に出力する。

（ステップＳ５５）収音部１４は、音響信号を収音し、収音した音響信号をデジタル信号に変換し、変換したｍチャネルの音響信号を音源定位部１５Ｂに出力する。

（ステップＳ５６）音源定位部１５Ｂは、収音部１４が出力するｍチャネルの音響信号を用いて、例えばＭＵＳＩＣ手法によって、ｎ（ｎは１以上の整数）個の音源について音源毎の音源定位処理を行う。音源定位部１５Ｂは、音源定位した結果を示す音源定位情報を動的物体三次元位置推定部３１に出力する。続けて、音源定位部１５Ｂは、音源定位処理の計算で得られたＭＵＳＩＣスペクトルを動的物体三次元位置推定部３１に出力する。

（ステップＳ５７）動的物体三次元位置推定部３１は、しきい値を超える方向の大きさを動的物体の大きさ（音源の大きさ）であるとし、動的物体の大きさ情報を統合部１７Ｂに出力する。続けて、動的物体三次元位置推定部３１は、音源の存在平面と、ＳｆＭ部１２が推定した動的物体が存在する領域を用いて、三角測量的に音源の三次元位置を推定する。続けて、動的物体三次元位置推定部３１は、推定した動的物体の三次元位置を示す動的物体三次元位置情報を動的物体トラッキング部３２と統合部１７Ｂに出力する。

（ステップＳ５８）統合部１７Ｂは、密三次元構造復元情報と、動的物体の三次元位置情報と、動的物体の大きさ情報と、動的物体運動過程情報とを用いて、静的物体の三次元構造復元画像と、動的物体の位置、大きさ、運動過程を示す画像を生成し、生成した画像を出力部１８に出力する。

（ステップＳ５９）動的物体三次元位置推定部３１は、ＭＵＳＩＣスペクトルのパワーが、しきい値を超える方向の大きさを動的物体の大きさ（音源の大きさ）であるとする。

（ステップＳ６０）統合部１７Ｂは、密三次元構造復元情報と、動的物体の三次元位置情報と、動的物体の大きさ情報と、動的物体運動過程情報とを用いて、静的物体の三次元構造復元画像と、動的物体の位置、大きさ、運動過程を示す画像を生成する。

（確認結果）
次に、本実施形態の三次元構造復元装置１Ｂを用いて実験を行った結果例を説明する。
実験ｉｖは、実験ｉｉｉと同様に、円形レール上を時計回りに動くおもちゃの列車を用いて行った。
ＳｆＭ部１２は、円形レールを一周するように動画を撮影し、キーフレームのみを抽出した画像を用いた。画像の画素数は、５４７２×３６４８である。音響信号の収録には、８個のマイクロホンが同一平面上に円状に配置されているマイクロホンアレイを床に１個固定し行った。計測時間は、おもちゃの列車がレールをおよそ５周する約１７秒とした。

実験ｉｉｉと同様に、収音部１４は、マイクロホン平面の法線ベクトルが床面の法線ベクトルと平行になるようにし、０度方向は任意の方向を向けて配置した。また、実験ｉｖでは、マイクロホンアレイの表面に複数のマーカーを取り付け、ＳｆＭ部１２でこのマーカーの三次元座標を推定することにより、マイクロホンアレイ座標系を推定した。

また、実験ｉｖでは、音源はレール上にあると仮定をし、音源の三次元位置が、音源定位により求めた音源の存在平面とレールの交点により推定をした。
動的物体トラッキング部３２は、動的物体の運動過程を、この交点をパーティクルフィルタにより追跡し推定をした。

図２４は、実験ｉｖにおいて時間とともに変動する動的物体の再構成結果を示す図である。図２４において、符号ｇ１０１～ｇ１０４は、撮影部１１が各時刻に撮影した画像である。また、符号ｇ１０１～ｇ１０４において、符号ｇ５００の画像はマイクロホンアレイの画像であり、符号５０１は円形レールの画像であり、符号５０２はおもちゃの列車の画像である。また、符号ｇ１１１～ｇ１１４は、各時刻の三次元構造復元された画像である。例えばｇ１０１の復元画像は、符号ｇ１１１の画像に対応している。

図２５は、図２４のｇ１１３の拡大図である。
また、符号ｇ１５１はマイクロホンアレイの０度方向であり、符号ｇ１５２はマイクロホンアレイの法線方向であり、符号ｇ１５３は音源方向である。符号ｇ１５４～ｇ１５６は、推定された音源位置を表している。符号ｇ１５５は、ＭＵＳＩＣスペクトルのパワーが最も大きな位置である。なお、図２５において、ｇ１５４～ｇ１５５～ｇ１５６の間の線の長さが物体の大きさにあたる。

図２４のように、実際の画像と比較して、動的物体の位置と大きさがよく推定できていることが確認できた。

図２６は、実験ｉｖにおけるすべての測定時間におけるＭＵＳＩＣスペクトルを示す図である。図２６において、横軸は時刻（ｓ）であり、縦軸は方位（ｄｅｇ）である。実験ｉｉｉでは、この図２６より、パワーしきい値を３０に設定した。

図２７は、実験ｉｖにおけるＭＵＳＩＣスペクトルのパワーが最も大きい位置をパーティクルフィルタにより追跡した結果を示す図である。符号ｇ１６０は、音源を追跡した結果の軌跡である。図２７のように、動的物体の運動軌跡もよく推定できていることが確認できた。

以上のように、本実施形態では、ＳｆＭでは復元することができない動的物体に対して、音響信号を手がかかりに物体の三次元位置および大きさ、運動軌跡を推定するようにした。
これにより、本実施形態によれば、動的物体の三次元位置および大きさ、運動軌跡を推定することができる。そして、本実施形態によれば、単一カメラで物体の動的シーンの三次元再構成を行うことができる。

＜第４実施形態＞
まず、本実施形態の概要を説明する。
本実施形態では、音と画像の空間的な関係を利用し、画像ごとに各動的物体のバイナリマスクを作成する。本実施形態では、音源追跡により、画像間の各動的物体をトラッキングし、全画像の動的物体それぞれに対応するバイナリマスクを得る。次に、本実施形態では、このバイナリマスクを用いて、静的物体と動的物体ごとにＳｆＭとＭＶＳを適用し、それぞれの物体ごとに三次元構造を復元する。そして、本実施形態では、静的物体と動的物体を統合し、全体シーンを復元する。さらに本実施形態では、音源定位により得られた音源の空間情報を用いて音源分離を行うことにより、各動的物体に対応する音およびその視覚的な三次元構造を得る。

図２８は、本実施形態に係る三次元構造復元装置１Ｃの構成例を示すブロック図である。図２８に示すように、三次元構造復元装置１Ｃは、撮影部１１、収音部１４、マスク生成部４０、音源分離部５０、三次元構造復元部６０、統合部１７Ｃ、出力部１８、および記憶部１９を備えている。
マスク生成部４０は、画像認識部４０１、音源定位部４０２、音源トラッキング部４０３、空間対応部４０４、動的物体抽出部４０５、および動的物体マスク生成部４０６を備える。
三次元構造復元部６０は、静的物体ＳｆＭ・ＭＶＳ部６０１、動的物体ＳｆＭ・ＭＶＳ部６０２、変換部６０３、および音源三次元位置推定部６０４を備える。
なお、第１実施形態の三次元構造復元装置１と同様の機能を備える機能部に対しては、同じ符号を用いて説明を省略する。

ここで、本実施形態における撮影部１１と収音部１４の配置について説明する。本実施形態では、撮影部１１と収音部１４の相対的な位置と姿勢の関係を常に一定に保つため、撮影部１１の上部に収音部１４を取り付ける。その際は、撮影部１１の光軸方向と収音部１４の０度方向が同じ方向を向くようにする。そのため、撮影部１１の動きに合わせて収音部１４の位置と姿勢が変動する。

撮影部１１は、画像を撮影し、撮影した画像をデジタル信号に変換し、変換した画像情報を画像認識部４０１と静的物体ＳｆＭ・ＭＶＳ部６０１に出力する。

収音部１４は、ｍ個（ｍは２以上の整数）のマイクロホンを備えるマイクロホンアレイである。収音部１４は、音響信号を収音し、収音した音響信号をデジタル信号に変換し、変換したｍチャネルの音響信号を音源定位部４０２と音源分離部５０に出力する。

画像認識部４０１は、撮影部１１が出力する画像情報を取得し、取得した全画像Ｎに対して、インスタンスセグメンテーションを適用し、画像｛Ｉ_ｉ｝_ｉ＝１ ^Ｎ∈Ｒ^{ｗ×ｈ×３}内に映る物体ｏ∈｛１，…，Ｋ｝のバウンディングボックス（ＢｏｕｎｄｉｎＢｏｘ）ｂ_ｉ，ｏ∈Ｒ⁴およびそのバイナリマスクＭ_ｉ，ｏ∈Ｒ^ｗ×ｈを得る。なお、ｗは画像の幅であり、ｈは高さであり、Ｋは画像ｉにおいて検出される物体数であり、Ｒは正の実数全体の集合である。なお、インスタンスセグメンテーションは、画像のｐｉｘｅｌを、どの物体クラス（カテゴリ）に属するか、どのインスタンスに属するかで分類する処理である。なお、検出される物体には、静的な物体も含まれる。インスタンスセグメンテーションのアルゴリズムとして、例えばオフラインのＭａｓｋ－ＲＣＮＮを利用するようにしてもよい。画像認識部４０１は、バウンディングボックスｂ_ｉ，ｏおよびそのバイナリマスクＭ_ｉ，ｏを空間対応部４０４に出力する。

音源定位部４０２は、収音部１４が出力するｍチャネルの音響信号を用いて、例えばＭＵＳＩＣ手法によって、ｎ（ｎは１以上の整数）個の音源について音源毎の音源定位処理を行う。音源定位部４０２は、音源定位した結果を示す音源定位情報を音源トラッキング部４０３と空間対応部４０４に出力する。なお、音源定位情報には、画像ｉにおけるマイクロホンアレイに対する音源ｓ∈｛１，…，Ｌ｝の方位角θ_ｉ,ｓと仰角φ_ｉ,ｓを含む。また、Ｌは全音源数である。

音源トラッキング部４０３は、音源ｓを周知の手法で音源追跡することにより、対応する動的物体を画像間でトラッキングし、次式（１０）に示す全画像の各動的物体に対応するバイナリマスク群Ｍ^ｓ∈Ｒ^ｗ×ｈを得る。音源トラッキング部４０３は、全画像の各動的物体に対応するバイナリマスク群Ｍ^ｓを動的物体抽出部４０５に出力する。音源トラッキング部４０３は、追跡した音源定位情報を音源分離部５０、音源三次元位置推定部６０４に出力する。音源追跡のアルゴリズムとして、例えばＨＡＲＫ（ＨｏｎｄａＲｅｓｅａｒｃｈＩｎｓｔｉｔｕｔｅＪａｐａｎＡｕｄｉｔｉｏｎｆｏｒＲｏｂｏｔｓｗｉｔｈＫｙｏｔｏＵｎｉｖｅｒｓｉｔｙ）のＳｏｕｒｃｅＴｒａｃｋｅｒ（https://www.hark.jp/document/2.0.0/hark-document-ja/subsec-SourceTracker.html）を利用する。

空間対応部４０４は、画像認識部４０１が出力するバウンディングボックスｂ_ｉ，ｏおよびそのバイナリマスクＭ_ｉ，ｏと、音源定位部４０２が出力する音源定位情報を取得する。空間対応部４０４は、インスタンスセグメンテーションにより推定された全バウンディングボックスｂ_ｉ，ｏと、音源定位により推定された全バウンディングボックスｂ_ｉ，sから全ペアを抽出する。空間対応部４０４は、抽出した全ペアにおいて各ペアのＩｎｔｅｒｓｅｃｔｉｏｎ－ｏｖｅｒ－Ｕｎｉｏｎ（ＩｏＵ_{ｉ，ｏ，ｓ}）を計算する。なお、ＩｏＵは、物体認識の分野で領域の一致具合を評価する手法である。空間対応部４０４は、ＩｏＵが任意のしきい値ｔｈ_ｉｏｕを超えた場合は、そのペアのｂ_ｉ，ｏは音源、つまり動的物体のバウンディングボックスであるとする。空間対応部４０４は、この動的物体のバイナリマスクとして、物体ｏに対するバイナリマスクＭ_ｉ，ｏを用いる。いずれの音源のバウンディングボックスｂ_ｉ，ｓともＩｏＵがしきい値ｔｈ_ｉｏｕを超えなかったバウンディングボックスｂ_ｉ，ｏは、静的な物体である可能性が高い。このため、空間対応部４０４は、この物体のバイナリマスクＭ_ｉ，ｏを後の処理では使用しない。しかし、いずれのバウンディングボックスｂ_ｉ，ｏともＩｏＵがしきい値ｔｈ_ｉｏｕを超えなかった音源のバウンディングボックスｂ_ｉ，ｓは、動的物体の可能性が高いが、インスタンスセグメンテーションによるバイナリマスクは得られない。このため、空間対応部４０４は、この音源のバウンディングボックスｂ_ｉ，ｓに含まれる領域を動的物体のマスクとするバイナリマスクＭ_ｉ，ｓ∈Ｒ^ｗ×ｈを生成し、静的な物体の復元のみに使用する。この結果、画像ｉにおける音源ｓに対応する動的物体のバイナリマスクＭ_ｉ ^ｓ∈Ｒ^ｗ×ｈは、次式（１１）のように再定義される。空間対応部４０４は、各画像ｉと、画像ｉにおける音源ｓに対応する動的物体のバイナリマスクＭ_ｉ ^ｓを、動的物体抽出部４０５と動的物体マスク生成部４０６に出力する。

動的物体抽出部４０５は、空間対応部４０４が出力する画像ｉにおける音源ｓに対応する動的物体のバイナリマスクＭ_ｉ ^ｓを取得する。動的物体抽出部４０５は、各動的物体の復元の際に使用する、各動的物体のみが映った画像を生成する。動的物体抽出部４０５は、全画像に対して、各動的物体に対応するバイナリマスクを掛けあわせることにより、次式（１２）のように音源ｓに対応する動的物体のみが映った画像群Ｄ^ｓ⊂Ｒ^{ｗ×ｈ×３}を生成する。動的物体抽出部４０５は、生成した音源ｓに対応する動的物体のみが映った画像群Ｄ^ｓを動的物体ＳｆＭ・ＭＶＳ部６０２に出力する。

動的物体マスク生成部４０６は、空間対応部４０４が出力する画像ｉにおける音源ｓに対応する動的物体のバイナリマスクＭ_ｉ ^ｓを取得する。動的物体マスク生成部４０６は、静的物体の復元の際に使用する全動的物体に対するバイナリマスクを生成する。動的物体マスク生成部４０６は、画像ｉにおける全動的物体のマスクをすべて含むように、次式（１３）のように画像ｉにおけるバイナリマスクＭ_ｉ∈Ｒ^ｗ×ｈを生成する。式（１３）において、ｍは、Ｍ_ｉ ^ｓと同次元で各値が１の行列である。動的物体マスク生成部４０６は、生成した画像ｉにおけるバイナリマスクＭ_ｉを静的物体ＳｆＭ・ＭＶＳ部６０１に出力する。

音源分離部５０は、収音部１４が出力するｍチャネルの音響信号と、音源トラッキング部４０３が出力する音源定位情報を取得する。音源分離部５０は、例えばＧＨＤＳＳ（ＧｅｏｍｅｔｒｉｃＨｉｇｈ－ｏｒｄｅｒＤｉｃｏｒｒｅｌａｔｉｏｎ－ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法によって、音源の音響信号を分離する。音源分離部５０は、分離した音響信号を統合部１７Ｃに出力する。

三次元構造復元部６０は、画像ｉと対応する全動的物体に対するバイナリマスクＭ_ｉをペア（Ｉ_ｉ，Ｍ_ｉ）として、全ペアをＳｆＭとＭＶＳへと入力し、各カメラ姿勢と静的物体の三次元構造を復元する。三次元構造復元部６０は、ＳｆＭの処理の際に、バイナリマスクによりマスクされる領域からは特徴点を抽出しないようにし、動的物体を除外する。本実施形態では、このように動的物体を除外することにより、三次元構造復元の性能向上する効果が得られる。

静的物体ＳｆＭ・ＭＶＳ部６０１は、撮影部１１が出力する画像情報と、動的物体マスク生成部４０６が出力する生成した画像ｉにおけるバイナリマスクＭ_ｉを取得する。静的物体ＳｆＭ・ＭＶＳ部６０１は、取得した画像情報に対してバイナリマスクＭ_ｉを適用することで、動的物体をマスクし、静的物体の領域の画像をＳｆＭとＭＶＳに入力することにより、静的物体のみの三次元構造の復元を行う。静的物体ＳｆＭ・ＭＶＳ部６０１は、復元した静的物体の画像情報を変換部６０３と統合部１７Ｃに出力する。

動的物体ＳｆＭ・ＭＶＳ部６０２は、マスク生成部４０によって生成された音源ｓに対応する動的物体のみが映った画像群Ｄ^ｓをＳｆＭとＭＶＳに入力することにより、各動的物体のみの三次元構造の復元を行う。この意味合いは、マスク生成部４０によって生成された画像から動的物体のみ抽出して動的物体のみが映った画像群においては、動的物体が剛体の場合は、擬似的に静的物体とみなすことができるため、ＳｆＭによって復元が可能となるためである。動的物体ＳｆＭ・ＭＶＳ部６０２は、復元した動的物体の画像情報を変換部６０３に出力する。

変換部６０３は、各動的物体を静的物体のワールドへ変換する。変換が必要な理由は、ＳｆＭにおいて物体が任意のスケールで復元されるため、動的物体の復元物のワールド（ＤＷ）と静的物体の復元物のワールド（ＳＷ）が、それぞれワールド座標系が異なるためである。動的物体に対する相対的なカメラ位置と姿勢は、ＤＷとＳＷでスケールを除き共通である。そのため、カメラ座標系を介することにより動的物体を、ＤＷのワールド座標系に対する三次元位置^{ｗｏｒｌｄ}Ｐ_ｉ，ＤＷ ^ｓからＳＷのワールド座標系に対する三次元位置^{ｗｏｒｌｄ}Ｐ_ｉ，ＳＷ ^ｓへと変換する。変換部６０３は、まず、次式（１４）により、動的物体をＤＷにおけるワールド座標系からカメラ座標系へ変換する。ＤＷにおけるワールド座標系からカメラ座標系への回転行列をＲ_ＤＷ∈Ｒ^３×３、並進行列Ｔ_ＤＷ∈Ｒ^３と表す。

次に、変換部６０３は、次式（１５）により、動的物体をＤＷにおけるカメラ座標系^ｃａｍＰ_ｉ，ＤＷ ^ｓから、ＳＷにおけるカメラ座標系^ｃａｍＰ_ｉ，ＳＷ ^ｓへ変換する。なお、ＤＷからＳＷへのスケール変換をＳ_{ＤＷ２ＳＷ}∈Ｒと表す。

さらに、変換部６０３は、次式（１６）により、動的物体をＳＷにおけるカメラ座標系^ｃａｍＰ_ｉ，ＳＷ ^ｓからワールド座標系^{ｗｏｒｌｄ}Ｐ_ｉ，ＳＷ ^ｓへ変換する。なお、ＳＷにおけるワールド座標系からカメラ座標系への回転行列をＲ_ＳＷ∈Ｒ^３×３、並進行列Ｔ_ＳＷ∈Ｒ^３と表す。式（１６）により、ＳＷにおける画像ｉに対する音源ｓに対応する動的物体の三次元位置^{ｗｏｒｌｄ}Ｐ_ｉ，ＳＷ ^ｓが得られる。変換部６０３は、ＳＷにおける画像ｉに対する音源ｓに対応する動的物体の三次元位置^{ｗｏｒｌｄ}Ｐ_ｉ，ＳＷ ^ｓを音源三次元位置推定部６０４に出力する。また、変換部６０３は、ＳＷにおけるカメラ座標系^ｃａｍＰ_ｉ，ＳＷ ^ｓに変換した動的物体の画像情報を統合部１７Ｃに出力する。

音源三次元位置推定部６０４は、撮影部１１の内部パラメータＡ∈Ｒ^３×３を記憶する。音源三次元位置推定部６０４は、音源トラッキング部４０３が出力する追跡された音源定位情報と、変換部６０３が出力するＳＷにおける画像ｉに対する音源ｓに対応する動的物体の三次元位置^{ｗｏｒｌｄ}Ｐ_ｉ，ＳＷ ^ｓを取得する。音源三次元位置推定部６０４は、音源定位情報と撮影部１１の内部パラメータＡを用いて音源の三次元位置Ｐ_ｓ～［ｔａｎθ_ｉ，ｓｃｏｓφ_ｉ，ｓ，ｔａｎθ_ｉ，ｓｓｉｎφ_ｉ，ｓ，１］^Ｔを画像内に投影することによって、音源ｓの画像ｉ内の位置Ｐ_ｉ，ｓ（～ＡＰ_ｓ）∈Ｒ^２を得る。なお、音源三次元位置推定部６０４は、あらかじめ任意に定めたオフセットｏｆｆを用いて、次式（１７）、（１８）により音源のバウンディングボックスｂ_ｉ，ｓ∈Ｒ^４を得る。音源三次元位置推定部６０４は、推定した音源、すなわち動的物体の位置を示す位置情報を統合部１７Ｃに出力する。

統合部１７Ｃは、画像ｉに対応する時刻ｔにおいて、ＳＷの^{ｗｏｒｌｄ}Ｐ_ｉ，ＳＷ ^ｓに各動的物体を配置することにより、時間的に変動する三次元構造を復元する。統合部１７Ｃは、^{ｗｏｒｌｄ}Ｐ_ｉ，ＳＷ ^ｓに、音源分離により分離した音源ｓの音を配置することにより、各動的物体に対応する音およびその視覚的な三次元構造を得る。

（全体の処理手順）
次に、三次元構造復元装置１が行う処理手順の流れ全体を説明する。
図２９は、本実施形態に係る三次元構造復元装置１Ｃが行う処理手順のフローチャートである。

（ステップＳ１０１）撮影部１１は、画像を撮影し、撮影した画像をデジタル信号に変換し、変換した画像情報を出力する。

（ステップＳ１０２）収音部１４は、音響信号を収音し、収音した音響信号をデジタル信号に変換し、変換したｍチャネルの音響信号を出力する。

（ステップＳ１０３）画像認識部４０１は、撮影部１１が出力する画像情報を取得し、取得した全画像Ｎに対して、インスタンスセグメンテーションを適用し、画像｛Ｉ_ｉ｝_ｉ＝１ ^Ｎ∈Ｒ^{ｗ×ｈ×３}内に映る物体ｏ∈｛１，…，Ｋ｝のバウンディングボックスｂ_ｉ，ｏ∈Ｒ⁴およびそのバイナリマスクＭ_ｉ，ｏ∈Ｒ^ｗ×ｈを得る。

（ステップＳ１０４）音源定位部４０２は、収音部１４が出力するｍチャネルの音響信号を用いて、例えばＭＵＳＩＣ手法によって、ｎ（ｎは１以上の整数）個の音源について音源毎の音源定位処理を行う。

（ステップＳ１０５）空間対応部４０４は、インスタンスセグメンテーションにより推定された全バウンディングボックスｂ_ｉ，ｏと、音源定位により推定された全バウンディングボックスｂ_ｉ，sから全ペアを抽出する。続けて、空間対応部４０４は、この音源のバウンディングボックスｂ_ｉ，ｓに含まれる領域を動的物体のマスクとするバイナリマスクＭ_ｉ，ｓ∈Ｒ^ｗ×ｈを生成する。

（ステップＳ１０６）音源トラッキング部４０３は、音源ｓを周知の手法で音源追跡することにより、対応する動的物体を画像間でトラッキングし、式（１０）の全画像の各動的物体に対応するバイナリマスク群Ｍ^ｓ∈Ｒ^ｗ×ｈを得る。

（ステップＳ１０７）動的物体抽出部４０５は、各動的物体の復元の際に使用する、各動的物体のみが映った画像を生成する。

（ステップＳ１０８）動的物体マスク生成部４０６は、静的物体の復元の際に使用する全動的物体に対するバイナリマスクを生成する。

（ステップＳ１０９）静的物体ＳｆＭ・ＭＶＳ部６０１は、取得した画像情報に対してバイナリマスクＭ_ｉを適用することで、動的物体をマスクし、静的物体の領域の画像をＳｆＭとＭＶＳに入力することにより、静的物体のみの三次元構造の復元を行う。

（ステップＳ１１０）動的物体ＳｆＭ・ＭＶＳ部６０２は、マスク生成部４０によって生成された音源ｓに対応する動的物体のみが映った画像群Ｄ^ｓをＳｆＭとＭＶＳに入力することにより、各動的物体のみの三次元構造の復元を行う。

（ステップＳ１１１）変換部６０３は、各動的物体を静的物体のワールドへ変換する。

（ステップＳ１１２）音源三次元位置推定部６０４は、音源定位情報と撮影部１１の内部パラメータＡを用いて音源の三次元位置Ｐ_ｓ～［ｔａｎθ_ｉ，ｓｃｏｓφ_ｉ，ｓ，ｔａｎθ_ｉ，ｓｓｉｎφ_ｉ，ｓ，１］^Ｔを画像内に投影することによって、音源ｓの画像ｉ内の位置Ｐ_ｉ，ｓ（～ＡＰ_ｓ）∈Ｒ^２を得る。

（ステップＳ１１３）音源分離部５０は、例えばＧＨＤＳＳ法によって、音源の音響信号を分離する。

（ステップＳ１１４）統合部１７Ｃは、画像ｉに対応する時刻ｔにおいて、ＳＷの^{ｗｏｒｌｄ}Ｐ_ｉ，ＳＷ ^ｓに各動的物体を配置することにより、時間的に変動する三次元構造を復元する。

（確認結果）
次に、本実施形態の三次元構造復元装置１Ｃを用いて実験を行った結果例を説明する。なお、以下は、Ｍａｒ－ｔｉｎらによって作成されたＣｏ－Ｆｕｓｉｏｎデータセットを用いて評価を行った。

Ｃｏ－Ｆｕｓｉｏｎデータセットには、複数の物体（静的物体と動的物体いずれも）が存在する環境でカメラを動かして撮影した画像（ＲＧＢ画像とＤｅｐｔｈ画像）や、各時刻におけるカメラや動的物体の三次元位置の真値などが含まれている。また、Ｃｏ－Ｆｕｓｉｏｎデータセットには、複シミュレーション環境と実環境で取得した、合計４つの環境でのデータが含まれる。評価では、シミュレーション環境における８５０枚のＲＧＢ画像を使用した。シミュレーションで再現した部屋の中には、３つの動的物体（Ｓｈｉｐ，ＷｏｏｄｅｎＨｏｒｓｅ，Ｃａｒ）がそれぞれ独立して動いており、常に画像内に動的物体が写っているとは限らない。

評価では、Ｃｏ－Ｆｕｓｉｏｎデータセットに音が含まれていないため、シミュレーションで音を再現した。評価では、動的物体は常に音を発していると仮定し、各時刻における各動的物体の三次元位置の真値に音源を置いた。音は、各動的物体の見た目に合わせて、１６．１［ｋＨｚ］で録音されたモノラル音を用いた。音の録音には、１６チャネルのマイクロホンアレイ（収音部１４）を用い、０度方向がカメラ（撮影部１１）の光軸方向と合うようにカメラに固定した。１６個のマイクロホンは、図３０のように、最下段に８個、高さ３ｃｍの中段に４個、高さ６ｃｍに４個配置した。図３０は、本実施形態の評価におけるマイクロホンアレイの配置を示す図である。

音源定位には、このマイクロホンアレイに対して幾何的に計算した伝達関数を用いた。実際は音源とマイクロホンアレイどちらも動いているが、マイクロホンアレイは固定し音源を相対的に動かした。評価では、各フレームにおいて各マイクロホンと各音源の伝達関数を作成し、そのフレームの音に畳み込み、すべての音源の音を足し合わせることにより１６チャネルの混合音を作成した。評価では、この混合音を用いて、システムの評価を行った。Ｍａｓｋ－ＲＣＮＮは、Ｄｅｔｅｃｔｒｏｎ２に実装されているコードを利用し、ＲｅｓＮｅｔ－１０１とＦＰＮをバックボーンとしＭＳＣＯＣＯデータセットのｔｒａｉｎ２０１７で学習済みのモデルを使用した。

まず、動的物体のバイナリマスクの評価結果を説明する。
図３１に、Ｍａｓｋ－ＲＣＮＮ（符号ｇ６０１～ｇ６０４）と、ＳｏｕｎｄＢＢｏｘ（バウンディングボックス）（符号ｇ６１１～ｇ６１４）により動的物体のバイナリマスク（符号ｇ６２１～ｇ６２４）を生成した結果を示す。図３１は、動的オブジェクトのバイナリマスクを作成するための定性的結果を示す図である。

Ｓｈｉｐは、学習済みモデルに含まれていないためＭａｓｋ－ＲＣＮＮでは検出されない。そのため、上述したように音を用いてバイナリマスクを生成しているが、Ｓｈｉｐ全体を覆うマスクは生成できていない。ＨｏｒｓｅとＣａｒについては、ある程度精度よくバイナリマスクを生成できている。

次に、静的物体の復元の評価結果を説明する。
図３２は、静的物体の復元結果を示す図である。符号ｇ６５１は比較例の動的物体のバイナリマスクなしであり、符号ｇ６５２は本実施形態により推定したバイナリマスクあり、符号ｇ６５３は比較例のＧｒｏｕｎｄＴｒｕｔｈのバイナリマスクありで、それぞれＳｆＭとＭＶＳにより復元した結果である。符号ｇ６５１は、動的物体が存在している領域に歪みが生じて復元されている。動的物体のマスクを使用しないため、画像間のマッチングで動的物体の特徴点除去に失敗し、カメラ姿勢推定誤差が大きくなっている。本実施形態の手法では、符号ｇ６５２の結果から符号ｇ６５１で見られる歪みをある程度抑えられていることが確認できる。さらに、動的物体を完全に手動でマスクした符号ｇ６５３の復元結果に近い結果が得られている。このように、本実施形態に依れば、動的物体の特徴点をある程度除去することができているため、画像間マッチングの除去処理が行えている。

次に、動的物体の復元の評価結果を説明する。
図３３は、各動的物体の復元結果を示す図である。符号ｇ６６１～ｇ６６３は本実施形態の手法、符号ｇ６７１～ｇ６７３は比較例のＧｒｏｕｎｄＴｒｕｔｈのバイナリマスクを用いて復元した結果である。また、符号ｇ６６１とｇ６７１がＳｈｉｐであり、符号ｇ６６２とｇ６７２がＨｏｒｓｅであり、符号ｇ６６３とｇ６７３がＣａｒである。

比較例のＧｒｏｕｎｄＴｒｕｔｈのマスクを用いた場合でも、画像から動的物体のみを抽出することにより画素数が小さく、動的物体の特徴点数が少ないため若干歪みが生じている。本実施形態の手法では、Ｓｈｉｐは学習済みモデルにないためマスクの性能がよくなく、Ｓｈｉｐ全体を覆うマスクではないため、全体を復元することはできていない。そのためＳｈｉｐのマスクは、静的物体の復元に影響を与えないように生成することが主な目的とした。ＨｏｒｓｅとＣａｒについては、ある程度よく復元ができている。

以上のように、本実施形態によれば、ＳｆＭではうまく再構成ができない動的環境下において、音響信号を手がかりに三次元再構成を行うことができる。

なお、上述した第１実施形態～第４実施形態では、計測に１つのマイクロホンアレイを用いたため、音源の存在領域を仮定したが、マイクロホンアレイを複数個用いることにより存在領域を仮定せずに音源の三次元位置を推定するようにしてもよい。

なお、上述した第１実施形態～第３実施形態における処理手順は一例であり、例えば並列に複数の処理を行うようにしてもよく、処理によって処理手順が入れ替わってもよい。

なお、本発明における三次元構造復元装置１（または１Ａ、１Ｂ、１Ｃ）の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより三次元構造復元装置１（または１Ａ、１Ｂ、１Ｃ）が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

１，１Ａ，１Ｂ，１Ｃ…三次元構造復元装置、
１１…撮影部、
１２…ＳｆＭ部、
１３…ＭＶＳ部、
１４…収音部、
１５，１５Ａ，１５Ｂ…音源定位部、
１６…音源三次元位置推定部、
１７，１７Ａ，１７Ｂ，１７Ｃ…統合部、
１８…出力部、
１９…記憶部、
２０…物体検出部、
２１…音識別部、
２２…画像音源定位部、
２４…存在領域推定部、
２５，３１…動的物体三次元位置推定部、
２６…ＳｆＭ・ＭＶＳ部、
２７…動的物体大きさ推定部、
２８…動的物体復元部、
３２…動的物体トラッキング部、
４０…マスク生成部、
５０…音源分離部、
６０…三次元構造復元部、
４０１…画像認識部、
４０２…音源定位部、
４０３…音源トラッキング部、
４０４…空間対応部、
４０５…動的物体抽出部、
４０６…動的物体マスク生成部、
６０１…静的物体ＳｆＭ・ＭＶＳ部、
６０２…動的物体ＳｆＭ・ＭＶＳ部、
６０３…変換部、
６０４…音源三次元位置推定部

Claims

動的物体を含む対象シーンを撮影する撮影部と、
前記動的物体が発する音響信号をマイクロホンアレイで収音する収音部と、
前記収音部が収音した前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定する音源定位部と、
前記撮影された画像に対してＳｆＭ（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）処理とＭＶＳ（ＭｕｌｔｉＶｉｅｗＳｔｅｒｅｏ）処理を行うことで静的領域の三次元構造を復元する静的領域復元部と、
前記音源定位部が音源定位した結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定する三次元位置推定部と、
前記静的領域復元部が復元した前記動的物体の三次元位置の情報と、前記三次元位置推定部が推定した前記動的物体の三次元位置に基づく情報とを統合する統合部と、
を備え、
前記三次元位置推定部は、
前記動的物体を収音した各位置で、前記マイクロホンアレイに対する法線ベクトルｎ _ｉと、前記マイクロホンアレイの中心Ｘ _Ｍｉを通る定位方向のベクトルθ _ｉとの外積Ｎ _ｉを法線とする平面を計算し、任意の２つの前記平面を抽出し、前記２つの平面の交線を求め、求めた前記交線から任意の２本の前記交線を抽出し、抽出した前記２本の交線の交点を求め、求めた前記交点の密度が高い位置を前記動的物体の三次元位置として推定する、
三次元構造復元装置。
前記三次元位置推定部は、
求めた前記交点の集合ＸＰに対して、三次元空間を適切な大きさの立方体Ｖ_ｋ（ｋ＝１，…，Ｎ_Ｖ）によって離散化し、前記立方体それぞれの中に存在する交点数Ｎ_ＰＶｋを求め、Ｎ_ＰＶを前記Ｎ_ＰＶｋの集合とし、その平均をλ_ＰＶとし、分散をσ^２ _ＰＶとし、前記交点数Ｎ_ＰＶｋがしきい値Ｎ_ｔｈよりも小さければ、前記立方体Ｖ_ｋの中に存在する交点を外れ値として除去し、
前記外れ値の除去を行った交点の集合Ｘ_Ｐ ^{ｆｉｌｔｅｒｄ}に対して主成分分析を行って第１－３主成分を軸とする確率楕円体を作成し、前記確率楕円体を前記動的物体の存在分布とみなす、
請求項１に記載の三次元構造復元装置。
動的物体を含む対象シーンを撮影する撮影部と、
前記動的物体が発する音響信号をマイクロホンアレイで収音する収音部と、
前記収音部が収音した前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定する音源定位部と、
前記撮影された画像に対してＳｆＭ（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）処理とＭＶＳ（ＭｕｌｔｉＶｉｅｗＳｔｅｒｅｏ）処理を行うことで静的領域の三次元構造を復元する静的領域復元部と、
前記音源定位部が音源定位した結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定する三次元位置推定部と、
前記静的領域復元部が復元した前記動的物体の三次元位置の情報と、前記三次元位置推定部が推定した前記動的物体の三次元位置に基づく情報とを統合する統合部と、
前記撮影部が撮影した前記画像に含まれる物体の画像を検出する物体検出部と、
前記収音部が収音した前記音響信号に含まれる音源を識別する音識別部と、
前記物体検出部が検出したバウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘｅｓ）のうち、前記音識別部によって識別されたカテゴリに対応する前記バウンディングボックスのみをトリミングすることで前記動的物体と推定される画像の領域を抽出する画像音源定位部と、
前記音源定位部が音源定位の際に算出したＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）スペクトルと動的物体大きさ推定用しきい値とを比較し、前記動的物体大きさ推定用しきい値を超える幅を有する方向を前記動的物体の大きさとして推定する動的物体大きさ推定部と、
前記静的領域復元部が復元した前記動的物体の三次元位置の情報を用いて、前記収音部の姿勢と前記動的物体が存在する領域を推定する存在領域推定部と、
前記画像音源定位部が抽出した前記動的物体と推定される画像の領域の情報に対して、
ＳｆＭ処理とＭＶＳ処理を行うことで、前記動的物体に対する三次元復元処理を行って前
記動的物体に対する三次元復元情報を生成するＳｆＭ・ＭＶＳ部と、
動的物体復元部と、
を備え、
前記三次元位置推定部は、前記音源定位部が推定した前記音源方向と前記動的物体が存
在領域を示す情報に基づいて、前記動的物体の三次元位置を推定し、
前記動的物体復元部は、前記動的物体に対する三次元復元と、前記動的物体の三次元位置情報と、前記動的物体大きさ情報に基づいて、動的物体密点群情報を生成し、
前記統合部は、前記動的物体に対する三次元復元情報と、前記動的物体密点群情報を統合して、三次元構造復元の画像を生成する、
三次元構造復元装置。
前記静的領域復元部は、
前記撮影部が撮影した１つの画像のペアから開始し、新たな画像を１つずつ追加しながら前記画像の特徴点の抽出とマッチングを行い、投影幾何によりシーングラフ（画像間の対応関係）を求め、
前記シーングラフを用いて、初期の前記画像のペアに対して２つの前記画像を用いて三次元モデルを初期化し、３つ目以上の画像に対して復元済み三次元点と新しく登録する画像の対応する特徴点を用いて、Ｐｅｒｓｐｅｃｔｉｖｅ－ｎ－Ｐｏｉｎｔ（ＰｎＰ）問題を解くことにより、カメラ姿勢を推定し、
三角測量によって、新しい特徴点の三次元復元を行い、
バンドル調整によって誤差の最小化を行うことで三次元構造の復元を行う、
請求項１から請求項３のいずれか１項に記載の三次元構造復元装置。
動的物体を含む対象シーンを撮影する撮影部と、
前記動的物体が発する音響信号をマイクロホンアレイで収音する収音部と、
前記収音部によって収音された音響信号を音源追跡する音源追跡部と、
前記収音部が集音した音響信号と、前記撮影部が撮影した画像の空間的な関係に基づいて、画像毎に前記動的物体のバイナリマスクを生成し、前記画像間の各動的物体を追跡し、全画像の前記動的物体それぞれに対応するバイナリマスクを得るマスク生成部と、
前記バイナリマスクを用いて、静的物体と前記動的物体ごとにＳｆＭ（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）とＭＶＳ（ＭｕｌｔｉＶｉｅｗＳｔｅｒｅｏ）を適用し、それぞれの物体ごとに三次元構造を復元する三次元構造復元部と、
前記収音部によって収音された音響信号に対して、音源定位された情報に基づいて音源分離処理を行う音源分離部と、
前記静的物体と前記動的物体を統合し、全体シーンを復元し、各動的物体に対応する音源分離された音と当該各動的物体の視覚的な三次元構造を生成する統合部と、
を備える三次元構造復元装置。
撮影部が、動的物体を含む対象シーンを撮影し、
収音部が、前記動的物体が発する音響信号をマイクロホンアレイで収音し、
音源定位部が、前記収音部によって収音された前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定し、
静的領域復元部が、前記撮影部によって前記撮影された画像に対してＳｆＭ（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）処理とＭＶＳ（ＭｕｌｔｉＶｉｅｗＳｔｅｒｅｏ）処理を行うことで静的領域の三次元構造を復元し、
三次元位置推定部が、前記音源定位部によって音源定位された結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定し、
統合部が、前記静的領域復元部によって復元された前記動的物体の三次元位置の情報と、前記三次元位置推定部によって推定された前記動的物体の三次元位置に基づく情報とを統合し、
前記三次元位置推定部が、前記動的物体が収音された各位置で、前記マイクロホンアレイに対する法線ベクトルｎ _ｉと、前記マイクロホンアレイの中心Ｘ _Ｍｉを通る定位方向のベクトルθ _ｉとの外積Ｎｉを法線とする平面を計算し、任意の２つの前記平面を抽出し、
前記三次元位置推定部が、前記２つの平面の交線を求め、求めた前記交線から任意の２本の前記交線を抽出し、
前記三次元位置推定部が、抽出された前記２本の交線の交点を求め、求めた前記交点の密度が高い位置を前記動的物体の三次元位置として推定する、
三次元構造復元方法。
撮影部が、動的物体を含む対象シーンを撮影し、
収音部が、前記動的物体が発する音響信号をマイクロホンアレイで収音し、
音源定位部が、前記収音部によって収音された前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定し、
静的領域復元部が、前記撮影部によって前記撮影された画像に対してＳｆＭ（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）処理とＭＶＳ（ＭｕｌｔｉＶｉｅｗＳｔｅｒｅｏ）処理を行うことで静的領域の三次元構造を復元し、
三次元位置推定部が、前記音源定位部によって音源定位された結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定し、
統合部が、前記静的領域復元部によって復元された前記動的物体の三次元位置の情報と、前記三次元位置推定部によって推定された前記動的物体の三次元位置に基づく情報とを統合し、
物体検出部が、前記撮影部によって撮影された前記画像に含まれる物体の画像を検出し、
音識別部が、前記収音部によって収音された前記音響信号に含まれる音源を識別し、
画像音源定位部が、前記物体検出部によって検出されたバウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘｅｓ）のうち、前記音識別部によって識別されたカテゴリに対応する前記バウンディングボックスのみをトリミングすることで前記動的物体と推定される画像の領域を抽出し、
動的物体大きさ推定部が、前記音源定位部によって音源定位の際に算出されたＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）スペクトルと動的物体大きさ推定用しきい値とを比較し、前記動的物体大きさ推定用しきい値を超える幅を有する方向を前記動的物体の大きさとして推定し、
存在領域推定部が、前記静的領域復元部によって復元した前記動的物体の三次元位置の情報を用いて、前記マイクロホンアレイの姿勢と前記動的物体が存在する領域を推定し、
ＳｆＭ・ＭＶＳ部が、前記画像音源定位部によって抽出された前記動的物体と推定される画像の領域の情報に対して、ＳｆＭ処理とＭＶＳ処理を行うことで、前記動的物体に対する三次元復元処理を行って前記動的物体に対する三次元復元情報を生成し、
前記三次元位置推定部が、前記音源定位部によって推定された前記音源方向と前記動的物体が存在領域を示す情報に基づいて、前記動的物体の三次元位置を推定し、
動的物体復元部が、前記動的物体に対する三次元復元情報と、前記動的物体の三次元位置情報と、前記動的物体大きさ情報に基づいて、動的物体密点群情報を生成し、
前記統合部が、復元された前記静的領域の三次元構造の情報と、前記動的物体密点群情報を統合して、三次元構造復元の画像を生成する、
三次元構造復元方法。
コンピュータに、
動的物体を含む対象シーンを撮影させ、
前記動的物体が発する音響信号をマイクロホンアレイで収音させ、
前記収音された前記音響信号に対して音源定位を行うことで、前記動的物体の位置である音源方向を推定させ、
前記撮影された画像に対してＳｆＭ（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）処理とＭＶＳ（ＭｕｌｔｉＶｉｅｗＳｔｅｒｅｏ）処理を行うことで静的領域の三次元構造を復元させ、
前記音源定位された結果に対して三角測量を行うことで、前記動的物体の三次元位置を推定させ、
前記復元された前記動的物体の三次元位置の情報と、推定された前記動的物体の三次元位置に基づく情報とを統合させ、
前記動的物体が収音された各位置で、前記マイクロホンアレイに対する法線ベクトルｎ _ｉと、前記マイクロホンアレイの中心Ｘ _Ｍｉを通る定位方向のベクトルθ _ｉとの外積Ｎ _ｉを法線とする平面を計算させ、任意の２つの前記平面を抽出させ、
前記２つの平面の交線を求めさせ、求めた前記交線から任意の２本の前記交線を抽出させ、
抽出された前記２本の交線の交点を求めさせ、求めた前記交点の密度が高い位置を前記動的物体の三次元位置として推定させる、
プログラム。
コンピュータに、
前記撮影された前記画像に含まれる物体の画像を検出させ、
前記収音された前記音響信号に含まれる音源を識別させ、
前記検出されたバウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘｅｓ）のうち、前記識別されたカテゴリに対応する前記バウンディングボックスのみをトリミングすることで前記動的物体と推定される画像の領域を抽出させ、
前記音源定位の際に算出されたＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）スペクトルと動的物体大きさ推定用しきい値とを比較させ、前記動的物体大きさ推定用しきい値を超える幅を有する方向を前記動的物体の大きさとして推定させ、
前記復元された前記動的物体の三次元位置の情報を用いて、前記マイクロホンアレイの姿勢と前記動的物体が存在する領域を推定させ、
前記抽出された前記動的物体と推定される画像の領域の情報に対して、ＳｆＭ処理とＭＶＳ処理を行わせることで、前記動的物体に対する三次元復元処理を行わせて前記動的物体に対する三次元復元情報を生成させ、
前記推定された前記音源方向と前記動的物体が存在領域を示す情報に基づいて、前記動的物体の三次元位置を推定させ、
前記動的物体に対する三次元復元情報と、前記動的物体の三次元位置情報と、前記動的物体大きさ情報に基づいて、動的物体密点群情報を生成させ、
復元された前記静的領域の三次元構造の情報と、前記動的物体密点群情報を統合して、三次元構造復元の画像を生成させる、
請求項８に記載のプログラム。