JP2023153664A

JP2023153664A - マッチング装置、方法及びプログラム

Info

Publication number: JP2023153664A
Application number: JP2022063059A
Authority: JP
Inventors: 洋平花岡; Yohei Hanaoka; 賢史小森田; Masashi Komorida
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2022-04-05
Filing date: 2022-04-05
Publication date: 2023-10-18

Abstract

【課題】必ずしも実際の撮影画像とはテクスチャが一致しない場合や、また、テクスチャが不明瞭な場合もありうる３次元メッシュデータと、撮影画像との間で適切なマッチングを行う。【解決手段】３次元頂点と３次元頂点が形成する面のテクスチャとの情報で構成される３次元メッシュと、撮影画像との間で特徴量のマッチングを行うマッチング装置10であって、撮影画像を撮影したカメラの姿勢を推定した基準カメラ姿勢において３次元メッシュをレンダリングしてレンダリング画像を得て、レンダリング画像より３次元メッシュの３次元頂点に対応する２次元位置の全部または一部を第１特徴点として、第１特徴点から第１特徴量を抽出する処理11,12,13,21,22と、撮影画像から第２特徴点を検出し、当該第２特徴点から第２特徴量を抽出する処理23,24と、前記第１特徴量と前記第２特徴量とをマッチングする処理30と、を実行する。【選択図】図２

Description

本発明は、テクスチャが与えられている３次元メッシュと撮影画像との間でマッチングを行うマッチング装置、方法及びプログラムに関する。

２つの画像間の対応関係を正確に取得することは、三次元構造物の復元や拡張現実、自動運転、自律ロボット、VPS（Visual Positioning System、画像測位システム）等において、重要な役割を果たす。

特許文献１は、三次元点群地図に基づき、画像を用いた自己位置、および方角を推定する、VPSと呼ばれる技術である。三次元点群地図の作成では、RGBカメラなどで撮影した映像から、特徴点マッチングなどの処理を施し、三次元点群の再構成を行う。自己位置・方角の推定では、三次元点群の特徴点と、撮影した写真の特徴点をもとにした、PnP（Perspective-n-Point）問題（非特許文献１に記載の技術）を解くことで、カメラ姿勢を推定する。三次元点群の特徴点と、撮影した写真の特徴点の対応関係は、三次元点群生成に利用した画像と、撮影した写真との２画像間の対応関係の取得（特徴点マッチング）により得られる。なお、特徴点とは、画像中の特徴的な点であり、特徴点を検出するための様々なアルゴリズムが存在する。例えば非特許文献２では、DoG(Difference of Gaussian)差分画像を利用した、SIFTと呼ばれる特徴点の検出手法を提案している。

正確に自己位置、および方角を推定するためには、2画像間の正確な特徴点マッチングが必要不可欠であり、また画像上の特徴点の位置は、画像全体に偏りなく均等に存在している状態が望ましい。正確な特徴点マッチングを行うために、従来より、様々な技術が提案されている。非特許文献２のSIFTでは、画像から特徴点を検出し、スケール不変特徴量変換を行う手法が提案されている。この手法に代表される古典的な画像マッチング技術では、２つの画像から特徴点を検出し、各特徴点の特徴量を記述し、特徴量同士を比較する、３つのステップにより実現される。

一方、近年では、古典的手法で採用されたような特徴点検出は行わずに2画像間の対応関係を取得する、深層学習ベースの方法も提案されている。非特許文献３では、畳み込みニューラルネットワークに基づく方法で画像全体から特徴量を抽出し、アテンション機構（Attention、注意機構）を用いて2画像間の類似度の高い箇所を捉え、対応するエリアを絞込んだ上で、そのエリア内でより詳細なマッチングを行うことで、対応関係を導いている。

特開2021-174285号公報

Lepetit, Vincent, Francesc Moreno-Noguer, and Pascal Fua. "Epnp: An accurate o (n) solution to the pnp problem." International journal of computer vision 81.2 (2009): 155. Lowe, David G. "Distinctive image features from scale-invariant keypoints." International journal of computer vision 60.2 (2004): 91-110. Sun, Jiaming et al. "LoFTR: Detector-free local feature matching with transformers." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

特許文献１では、専用の３次元点群地図を、VPSサービスを提供するエリアにおいて、都度作成する必要がある。しかしながら、近年では、Matterport（登録商標）やLiDAR（光検出と測距）など様々な３次元スキャナにより、立体や空間の三次元メッシュデータを取得することが可能となっており、都市モデルやCAD（コンピュータ支援設計）データ、VR（過疎現実）や内覧用の屋内三次元地図など、様々な目的で、メッシュの３次元空間データが作成されている。様々な目的で作られた３次元メッシュデータを標準的にVPSに流用することができれば、VPSサービスを提供することのみを目的として三次元点群地図を作成する必要がなくなり、地図作成のコストを削減することができる。

しかしながら、従来技術では、様々な目的で用意されている３次元メッシュデータを、現地で撮影した画像と照合して測位に利用するVPSサービスにおいて利用することの検討はなされていなかった。

ここで、３次元メッシュデータは、スキャンされた対象物の頂点情報と、その頂点に基づき作成されるポリゴン（面）、および、面に貼り付けられるテクスチャ情報で構成されるが、実空間を完全に再現するものではなく、特に詳細なテクスチャは実物とは異なるケースがある。また、屋外であれば、壁面の塗装や看板などに変化が起こり得る。

図１は、３次元メッシュデータとこれに対応する実際の現地で撮影した画像との例を示す図である。図１では例として、国土交通省により公開されているPlateauの３次元メッシュデータのメッシュの一区画をレンダリングした画像P101と、現地の撮影写真P102とを比較で示している。三次元メッシュデータをVPSに利用するためには、図１のように３次元メッシュをもとに生成した画像P101（レンダリング画像P101）と、現地の撮影写真P102の、いわば似て非なる画像同士の特徴点マッチングを行う必要がある。

しかしながら、非特許文献２に代表される古典的な画像間比較の手法は、それぞれの画像には同一の対象物が存在している前提の技術であって、それぞれの画像において特徴点を検出した上で特徴点同士を比較する手法であるため、図１の例のように、３次元スキャンされた対象物のテクスチャが実物と異なるケースにおいては、撮影写真側で検出した特徴点が、レンダリング画像側では検出されない可能性があり、特徴点検出が正しく行われない結果、特徴点マッチングの精度が低下する可能性がある。

非特許文献３では、特徴点の検出は行わず、画像全体から畳み込みニューラルネットワークに基づく特徴量を取得する。さらに、取得した特徴量に位置情報を付与し、自己注意（Self-Attention、セルフアテンション）および交差注意（Cross-Attention、クロスアテンション）を用いることにより、一定のグリッドサイズに分割された領域ごとの特徴量を取得する。この領域ごとの特徴量を利用して、２画像間の類似度を比較し、２画像間の類似する領域内でより詳細なマッチングすることで、特徴点のペアを取得する方法を提案している。

しかしながら、図１の画像P101に例示されるような３次元メッシュデータのレンダリング画像では、テクスチャが明瞭な構造物と、テクスチャが不明瞭な構造物とが存在する。非特許文献３では、上述のように特徴点検出は行わず、畳み込みニューラルネットワークに基づく特徴量を取得していることから、テクスチャが明瞭な構造物に対しては密に特徴点を取得できる可能性が高く、反対にテクスチャが不明瞭な構造物に対しては、密に特徴点を取得できない可能性が高くなる。結果として、特徴点マッチング後に取得できる特徴点のペアの位置は、テクスチャが明瞭なエリアに集中してしまう可能性がある。このように特徴点のペアが画像全体に均等に存在しない場合、カメラ姿勢推定の精度が低下し、正確な自己位置推定を行うことができない可能性がある。

上記従来技術の課題に鑑み、本発明は、必ずしも実際の撮影画像とはテクスチャが一致しない場合や、また、テクスチャが不明瞭な場合もありうる３次元メッシュデータと、撮影画像との間で適切なマッチングを行うことのできるマッチング装置、方法及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は、３次元頂点と３次元頂点が形成する面のテクスチャとの情報で構成される３次元メッシュと、撮影画像との間で特徴量のマッチングを行うマッチング装置であって、前記撮影画像を撮影したカメラの姿勢を推定した基準カメラ姿勢において前記３次元メッシュをレンダリングしてレンダリング画像を得て、当該レンダリング画像より前記３次元メッシュの３次元頂点に対応する２次元位置の全部または一部を第１特徴点として、当該第１特徴点から第１特徴量を抽出する処理と、前記撮影画像から第２特徴点を検出し、当該第２特徴点から第２特徴量を抽出する処理と、前記第１特徴量と前記第２特徴量とをマッチングする処理と、を実行することを特徴とする。また、当該装置に対応する方法及びプログラムであることを特徴とする。

本発明によれば、３次元メッシュが表現する対象物の構造的な特徴が表れている３次元頂点より、３次元メッシュの２次元レンダリング画像の特徴量を抽出し、撮影画像から抽出した特徴量とマッチングするので、テクスチャが必ずしも十分に与えられていない３次元メッシュと撮影画像との間で適切な特徴量のマッチングを行うことができる。

３次元メッシュデータとこれに対応する実際の現地で撮影した画像との例を示す図である。一実施形態に係るマッチング装置の機能ブロック図である。３次元メッシュにおける基準カメラ姿勢を表す模式図である。撮影画像のカメラの仰角、傾斜角、方位角を模式的に表した図である。カメラオブジェクトの回転と座標の回転とが逆の関係にあることを示す図である。マッチング候補を限定する例を、限定しない例との対比で模式的に示す図である。図２の構成に対する追加的な実施形態に係るマッチング装置の機能ブロック図である。３次元メッシュに紐づく２次元テクスチャを、３角形ポリゴンの場合について模式的な例として示す図である。ポリゴンの単位法線ベクトルを示す図である。メッシュ頂点削減部での処理内容を説明するための模式例として各単位法線の関係の例を示す図である。３次元特徴点限定部の処理内容を説明するための模式図である。一般的なコンピュータにおけるハードウェア構成を示す図である。

図２は、三次元メッシュの構造及びテクスチャからの複合的な特徴点検出処理を行ったうえでマッチング処理を行う、本発明の一実施形態に係るマッチング装置10の機能ブロック図である。図示するように、マッチング装置10は、メッシュ頂点抽出部11と、基準カメラ姿勢推定部12と、画像レンダリング部13と、レンダリング画像特徴点変換部21と、レンダリング画像特徴量記述部22と、撮影画像特徴点検出部23と、撮影画像特徴量記述部24と、特徴点マッチング部25と、を備える。

マッチング装置10は、図２にも概要的に示されているようにその全体的な処理として、３次元メッシュデータと、撮影画像と、の２つを入力データとして読み込み、３次元メッシュデータと撮影画像との両方から特徴点を抽出したうえで、３次元メッシュデータから抽出された特徴点と撮影画像から抽出された特徴点とのマッチング結果を、対応する特徴点の組（ペア）の形で出力するという処理を行うものである。

以下、このような全体的な処理を実現するマッチング装置10の各機能部の処理内容の詳細について説明する。

なお、入力データに関しては前述の通りであり、２つの入力データの片方である３次元メッシュデータは、スキャン等の手段で取得された対象物の頂点情報と、その頂点に基づき作成されるポリゴン（面）と、面に貼り付けられるテクスチャ情報と、を紐づけた形式で構成されて用意されている。また、２つの入力データのうちもう片方である撮影画像は、通常のRGBカメラ等によって撮影されて用意されている。同一の街頭風景の３次元メッシュデータ（をレンダリングした画像）と撮影画像の例P101,P102は、前述の図１で示した通りである。

（１）メッシュ頂点抽出部11は、入力データの一方である３次元メッシュ（頂点と、頂点で囲まれる面と、面のテクスチャの情報が紐づいた情報）から頂点情報を抽出する。当該抽出された頂点情報は、後段側のレンダリング画像特徴点変換部21に出力されることで、２次元特徴点に変換される。３次元メッシュは、３角形などのポリゴンで構成されており、ポリゴンを構成する頂点を有する。例えば、３角形であれば、３つの頂点を有する。これらの頂点には３次元座標が定義されており、このメッシュ頂点抽出部11では、３次元メッシュの頂点の抽出を行う。

（２）基準カメラ姿勢推定部12は、入力データの一方である撮影画像より、この撮影画像を撮影した際の正確なカメラ姿勢（実際のカメラ姿勢）を正解とする、おおよそのカメラ姿勢（基準カメラ姿勢）を推定する。ここで、カメラ姿勢とは撮影位置・方角であり、それぞれ回転行列Rと並進ベクトルtで表現できる。この基準カメラ姿勢推定部12で推定された基準カメラ姿勢は、後段側の画像レンダリング部13及びレンダリング画像特徴点変換部21に出力されることで、３次元メッシュにおけるカメラ姿勢として利用される。

３次元メッシュにおける基準カメラ姿勢を表す模式図を図３に示す。後段側のレンダリング画像特徴点変換部21では、頂点抽出部11で抽出した３次元特徴点を、この基準カメラ姿勢推定部12で推定した基準カメラ姿勢をもとに２次元特徴点に変換を行い、最終的には後段側の特徴点マッチング部30にて撮影画像の２次元特徴点とのマッチングが行われるが、このマッチング精度を向上させるためには、基準カメラ姿勢は極力、撮影画像の実際のカメラ姿勢と同じであることが望ましい。撮影画像（写真）を撮影した時点では実際のカメラ姿勢はわからないため、後述のようにGPS（全地球測位システム）やカメラの回転角の情報（撮影画像を撮影した際のカメラに備わるGPSセンサや方位センサ等で取得された値として、予め撮影画像に紐づけられた情報）を用いて、おおよその推定値である基準カメラ姿勢を推定する。

基準カメラ姿勢のうち、回転行列Rとしては、例えば、写真を撮影した際の仰角θ_x、傾斜角θ_y、方位角θ_zを用いて求めてもよい。（なお、これらの角度は、撮影画像を撮影した際のカメラに備わる方位センサ等で取得された値として、予め撮影画像に紐づけられた情報を利用すればよい。)３次元メッシュの世界座標において、仰角はx軸周りに回転させた角度、傾斜角はy軸周りに回転させた角度、方位角はz軸周りに回転させた角度を表す。図４に、撮影画像のカメラの仰角、傾斜角、方位角を模式的に表した図を示す。３次元メッシュの世界座標において、撮影画像のカメラをx軸周りに角度θ_x回転させる場合の回転行列R_x、y軸周りに角度θ_y回転させる場合の回転行列R_y、z軸周りに角度θ_z回転させる場合の回転行列R_zは、３次元CG（コンピュータグラフィックス）等の分野において既知のように、以下の式(1),(2),(3)のように表せる。

回転行列R_x、回転行列R_y、回転行列R_zを用いて、撮影画像のカメラを世界座標のx軸周りにθ_xだけ回転させ、さらに世界座標のy軸周りにθ_yだけ回転させ、さらに世界座標のz軸周りにθ_zだけ回転させる、という順番で回転させたときのカメラの回転行列R_Cは、以下の式(4)のように表現できる。
R_C=R_zR_yR_x …(4)

上記のように表現された回転角は、一般に固定角と呼ばれる。ここで、この基準カメラ姿勢推定部12で求める基準カメラ姿勢の回転行列Rは、"座標"を回転させる回転行列を表現するものであるが、この回転行列R_Cは、カメラを回転させる回転行列である。図５（カメラオブジェクトの回転と座標の回転が逆の関係にあることをz軸回りの角度φの回転の場合を例として示す図）に示す通り、「カメラオブジェクトをφだけ回転させた場合のカメラ姿勢」は、「座標を-φだけ回転させ、その回転後の座標系におけるカメラ姿勢」と同じであるため、回転行列Rは、以下の式(5)のように、R_Cの逆行列（さらに、回転行列の性質から、R_Cの転置行列）となる。
R=R_C ^-1=R_C ^T …(5)

また、基準カメラ姿勢のうち、並進ベクトルtは、回転行列RとGPS情報から得られる撮影写真のカメラのおおよその撮影位置(X_C,Y_C,Z_C)を用いて、以下の式(6)のように計算できる。（なお、このGPS情報は、撮影画像を撮影した際のカメラに備わるGPSセンサ等で取得された値として、予め撮影画像に紐づけられた情報を利用すればよい。)

（３）画像レンダリング部13では、以上の基準カメラ姿勢推定部12で推定した基準カメラ姿勢（回転行列Rと並進ベクトルt）をもとに、入力データの片方である３次元メッシュを２次元の画像にレンダリングする。（すなわち、３次元メッシュ情報のうち、３次元頂点情報で定義されるメッシュと、このメッシュ上に貼られているテクスチャとを、後述する式(7),(8)と同様にして投影することで、基準カメラ姿勢で見た２次元画像の状態へとレンダリングする。）当該レンダリングされた画像は、後段側のレンダリング画像特徴量記述部22に出力される。このレンダリングは、３次元CG分野で利用されている既存手法によって実現することができ、実際のレンダリングには、例えば、Blender（製品名）などの３Ｄコンピュータグラフィックソフトウェアツールセットを用いてもよい。

（４）レンダリング画像特徴点変換部21は、前述のメッシュ頂点抽出部11で抽出した３次元特徴点を、前述の基準カメラ姿勢推定部12で得られた基準カメラ姿勢（回転行列Rと並進ベクトルt）を用いて画像座標に変換し、２次元特徴点とする。得られた２次元特徴点は、後段側のレンダリング画像特徴量記述部22に出力される。ここで、３次元CG分野等において既知であるカメラの幾何学モデルを用いることにより、３次元の世界座標(X,Y,Z)は、投影行列Pを用いて以下の式(7)のように、二次元の画像座標(u,v)に変換することができる。この式(7)の投影行列Pは、カメラの回転行列R、並進ベクトルt、カメラの内部パラメータKを用いて、以下の式(8)のように表せる。ここで、カメラの回転行列R、並進ベクトルtは、基準カメラ姿勢推定部12で得られた値を利用し、カメラの内部パラメータKは、画像レンダリング部13で利用したものと同じ値を利用する。

（５）レンダリング画像特徴量記述部22は、前述したレンダリング画像特徴点変換部21で得られた２次元特徴点に対し、前述した画像レンダリング部13で生成した画像をもとに特徴量を計算する。（すなわち、画像レンダリング部13で生成した画像上において、レンダリング画像特徴点変換部21で得られた２次元特徴点の位置での特徴量を計算する。）得られた特徴量は、後段側の特徴点マッチング部30に出力される。

この特徴量計算には任意の既存手法を用いてよく、例えば、前掲の非特許文献２や以下の非特許文献４に記載の技術を用いて、特徴量を記述してもよい。あるいは、以下の非特許文献５に記載の技術を用いてもよい。この場合、レンダリング画像特徴点変換部21で得られた２次元特徴点をクエリとして、対応する撮影画像側の特徴点を探索する方法であるため、後段側の撮影画像特徴点検出部23での撮影画像側の特徴点検出、撮影画像特徴量記述部24での撮影画像側での特徴量記述、および特徴点マッチング部30での特徴点マッチングは行わず、このレンダリング画像特徴量記述部22にて、レンダリング画像と撮影写真画像との特徴点のペアの取得までを行う。
[非特許文献４] Wang, Qianqian, et al. "Learning feature descriptors using camera pose supervision." European Conference on Computer Vision. Springer, Cham, 2020.
[非特許文献５] Jiang, Wei, et al. "COTR: Correspondence Transformer for Matching Across Images." arXiv preprint arXiv:2103.14167 (2021)

すなわち、非特許文献５の手法は、撮影画像特徴点検出部23を省略した構成により、撮影画像から明示的に２次元特徴点を検出することなく、レンダリング画像特徴量記述部22と、撮影画像特徴量記述部24と、特徴点マッチング部30と、の処理を、エンコーダ、変換器、デコーダ等からなる深層学習ネットワークNWで一括に処理する手法である。このネットワークNWは、撮影画像と、レンダリング画像と、レンダリング画像特徴点変換部21から得たクエリ２次元特徴点と、の３つを入力として、撮影画像から明示的に２次元特徴点（リファレンス特徴点）を検出することなく、撮影画像におけるリファレンス特徴点のマッチング結果を得るものである。

換言すれば、非特許文献５の手法を本実施形態のマッチング装置10に適用する場合、撮影画像特徴点検出部23の処理と、レンダリング画像特徴量記述部22の処理と、撮影画像特徴量記述部24の処理と、特徴点マッチング部30の処理と、に相当する処理が、一括してエンコーダ、変換器、デコーダ等からなる深層学習ネットワークNWで（ネットワーク内での内部処理として）陰に実現されることとなる。（中間データとしての、撮影画像の２次元特徴点と、レンダリング画像及び撮影画像の各特徴点及び特徴量と、が明示的に得られることなく、また、特徴量空間でのマッチングも明示的に行われることなく、これらの処理が深層学習ネットワークNW内で陰に行われたうえで、最終結果である特徴点マッチング結果のみが出力される。）

具体的に、非特許文献５の手法では「エンコーダ→変換器→デコーダ」の順に深層学習ネットワークNWが構成され、本実施形態のマッチング装置10に適用する場合、エンコーダでは撮影画像及びレンダリング画像の２枚の画像をそれぞれエンコードして２つの特徴マップを得て、これを結合した特徴マップを得る。さらに、特徴マップに位置情報を付与する。変換器では、当該結合した特徴マップと、レンダリング画像特徴点変換部21で得た２次元特徴点と、を入力として読み込んで変換出力を得て、この変換出力をデコーダでデコードすることにより、レンダリング画像特徴点変換部21で得た２次元特徴点に対する撮影画像内での特徴点のマッチング結果が出力される。このような「エンコーダ→変換器→デコーダ」の構成により、図２や図７の撮影画像特徴点検出部23、レンダリング画像特徴量記述部22、撮影画像特徴量記述部24及び特徴点マッチング部30の処理に相当する処理を深層学習ネットワークNW内において一括して、陰に実現することができる。

（６）撮影写真特徴点検出部23は、入力データの一方である撮影画像より特徴点を検出する。得られた特徴点は、後段側の撮影写真特徴量記述部24に出力される。この特徴点検出には例えば、以下の非特許文献６や非特許文献７に記載の既存技術を用いるようにしてよい。
[非特許文献６] 「Revaud, Jerome, et al. "R2D2: repeatable and reliable detector and descriptor." arXiv preprint arXiv:1906.06195 (2019)」
[非特許文献７] 「Rublee, Ethan, et al. "ORB: An efficient alternative to SIFT or SURF." 2011 International conference on computer vision. Ieee, 2011.」

（７）撮影画像特徴量記述部24は、上記の撮影画像特徴点検出部23で検出した特徴点に対して特徴量を計算する。得られた特徴量は、後段側の特徴点マッチング部30に出力される。この特徴点マッチング部30にて、レンダリング画像特徴量記述部22で取得したレンダリング画像の特徴量と、撮影画像特徴量記述部24で取得した撮影画像の特徴量とを用いて、それぞれの二次元特徴点同士をマッチングするため、この撮影画像特徴量記述部24では、レンダリング画像特徴量記述部22で用いた特徴量記述の技術と同じ方法で特徴量を記述する。例えば、前掲の非特許文献２や非特許文献４に記載の技術を用いて、特徴量を記述してもよい。

すなわち、レンダリング画像特徴量記述部22と撮影画像特徴量記述部24とでは同種類の特徴量を記述し、レンダリング画像特徴量記述部22で非特許文献２の手法を用いるのであれば、撮影画像特徴量記述部24でも同様に、非特許文献２の手法を用いるようにすればよい。

（８）特徴点マッチング部30は、前述のレンダリング画像特徴量記述部22で計算したレンダリング画像の特徴量と、撮影画像特徴量記述部24で計算した撮影画像の特徴量とのマッチングを行い、マッチング装置10におけるマッチング結果として出力する。このマッチングには例えば、既存手法として以下の非特許文献８に記載の技術（Nearest Neighbor Matching、最近傍マッチング）を用いてもよい。
[非特許文献８] Rubin, Donald B. "Matching to remove bias in observational studies." Biometrics (1973): 159-183.

（８－１）ここで、特徴点マッチング部30ではさらに、レンダリング画像特徴量記述部22で計算した３次元メッシュのレンダリング画像の特徴量と、撮影画像特徴量記述部24で計算した撮影画像の特徴量とを比較・マッチングする際、比較の対象を限定するようにしてもよい。

すなわち、非特許文献８の最近傍マッチング（Nearest Neighbor Matching）では、具体的には、レンダリング画像特徴点変換部21で取得したレンダリング画像の２次元特徴点と、撮影画像特徴点検出部23で取得した撮影写真の２次元特徴点それぞれに対して、レンダリング画像特徴量記述部22及び撮影画像特徴量記述部24で特徴量を計算し、取得した特徴量同士の類似度を総当たりで比較し、閾値判定等で特徴量が類似しているとされる特徴点ペアをマッチングしたものと見なすが、類似度の比較を行う際、事前にレンダリング画像と撮影画像のそれぞれの特徴量の類似度の比較を行う対象を限定するようにしてもよい。

図６はこの限定の手法を模式的に示す図であり、レンダリング画像P101の２次元特徴点に対して、撮影画像P102の２次元特徴点を限定する前の網羅的な類似度比較対象例EX1と、限定した後の限定的な類似度比較対象例EX2とを示す。（なお、図６にて特徴量を比較している画像P101,P102の例は、共通符号を付しているように、図１の例と同様である。図６では画像P101内の１つの特徴点（における特徴量）に対して類似度比較の対象となる画像P102内の複数の特徴点（における特徴量）を、直線で結ぶことで模式的に示している。）撮影画像の２次元特徴点を限定した後の例EX2では、マッチング候補数が限定しない場合の例EX1と比べて限定され、削減されている。

最近傍マッチングの類似度の比較は、レンダリング画像の特徴量と、撮影写真の特徴量を総当たりで比較しており、特徴量に対応する２次元特徴点の座標(u,v)の情報は無視してしまっている。これに対して、この座標(u,v)の情報を利用し、事前に比較する対象を２次元座標(u,v)が閾値判定等で近いと判定される範囲内（図６の例EX2では矩形範囲として模式的に示されている）のみに限定しておくことは、マッチングの候補を減らすことになり、誤ったマッチングを回避する効果が期待できる。

ここで、座標(u,v)が近いかの判定について、上記のようにこの座標(u,v)の値をそのまま用いて判定してもよいが、座標(u,v)を算出する元となる3次元カメラ座標及び撮影方向を基準カメラ姿勢として基準カメラ姿勢推定部12で求めているものの、必ずしも正確ではなく誤差を伴うことが考えられる。このため、座標(u,v)が近いと判定される範囲を決定して比較を行う対象を限定する方法には、例えば非特許文献３の中間モジュールである粗レベルマッチ（Coarse-level Matches）の技術を用いてもよい。この技術では、画像全体から畳み込みニューラルネットワークに基づく特徴量を取得し、位置情報を特徴量に付与し、セルフアテンション（Self-Attention）およびクロスアテンション（Cross-Attention）を用いることにより、一定のグリッドサイズに分割された領域ごとの特徴量を取得し、2画像間の類似度を比較する。

すなわち、レンダリング画像の分割グリッドと、撮影画像の分割グリッドとが、非特許文献３の手法により類似すると判定されたグリッド内に限定して、特徴量のマッチングを行うようにしてよい。（この結果、類似すると判定されたグリッド内では網羅的なマッチングが行われるが、画像全体内で網羅的なマッチングを行う場合と比べて探索範囲は限定されることとなる。）

以上、図２の実施形態のマッチング装置10によれば、３次元メッシュ（３次元メッシュの構造情報及び各ポリゴン（面）のテクスチャ情報で構成される）から、その頂点（現実物体の角などに対応すると考えられる頂点）を特徴量の計算対象となる特徴点に設定して、撮影画像の撮影されたカメラ姿勢をもとに推定したおおよそのカメラ姿勢（基準カメラ姿勢）においてレンダリングしたうえで特徴量を抽出し、撮影画像の特徴量とのマッチングを行うことで、３次元メッシュと撮影画像との特徴量のマッチングを実現し、VPS等の基礎技術として活用することが可能となる。また、マッチングの際には、２画像間でマッチングさせるべき特徴点を限定することもでき、マッチング精度の向上が期待できる。

さらに、以下に説明する追加的な実施形態のマッチング装置10によれば、例えば画像全体で偏りなく特徴点を検出したり、マッチングさせる対象となる特徴点として適切なものを追加あるいは選別したりすることも可能となり、マッチング精度を向上させることで、VPS用途等においても撮影画像のカメラの姿勢推定精度向上に寄与することができる。

図７は、図２の構成に対する追加的な実施形態に係るマッチング装置10の機能ブロック図である。図７のマッチング装置10は、図示される通り、図２の構成に対して、メッシュ構造簡易化部41と、テクスチャ特徴抽出部42と、メッシュ頂点削減部43と、３次元特徴点限定部44と、の４つの機能ブロックを追加で備え、当該備える箇所において図２の構成に対して追加処理を行うものである。

図７では４つの追加機能ブロック41～44の全てが図２の構成のマッチング装置10に対して追加されている状態を示しているが、これら４つの全部または任意の一部を、図２の構成のマッチング装置10に対して追加することが可能である。以下では、４つの追加機能ブロック41～44の各々が単独で追加された場合の、図２の構成に対する追加処理内容について説明するが、これら４つの追加構成うちの全部または一部を追加する構成が可能である。

（９）マッチング装置10は、図７に示される箇所においてメッシュ構造簡易化部41をさらに備え、メッシュ頂点抽出部11、画像レンダリング部13に簡易化した３次元メッシュを出力してもよい。換言すれば、メッシュ構造簡易化部41は、図２の構成での入力データである３次元メッシュに対して、前処理として簡易化処理を施す追加構成として利用できる。

メッシュ構造簡易化部41による３次元メッシュ構造の簡易化とは、３次元メッシュのポリゴン数を削減し、３次元メッシュを構成する頂点数を削減することである。３次元メッシュの構造が複雑な箇所には、３次元メッシュ頂点が集中することがある。３次元メッシュ頂点の集中する箇所が存在する場合、レンダリング画像特徴点変換部21にて３次元特徴点から変換される２次元特徴点は、レンダリング画像全体に均等に存在せずに偏りが生じる可能性があり、この偏りを除去するため、例えば以下の非特許文献９のMeshLab（製品名）などの既存ツールにより、３次元メッシュの構造を簡易化し、頂点の数を削減し、テクスチャも対応して簡素化する形に更新してもよい。（その他にも、３次元メッシュの３次元頂点に対して単純な間引きと、間引き後のメッシュ統合等を行うようにしてもよい。）

（１０）マッチング装置10は、図７に示される箇所においてテクスチャ特徴抽出部42をさらに備え、３次元メッシュからテクスチャが特徴的な３次元特徴点を抽出してもよい。換言すれば、テクスチャ特徴抽出部42は、図２の構成においてレンダリング画像特徴点変換部21へと入力する３次元特徴点を、メッシュ頂点抽出部11から得る３次元特徴点とは別途に追加で用意する構成である。図７では、テクスチャ特徴抽出部42で追加した３次元特徴点は、後述するメッシュ頂点削減部43での処理対象からはスキップされて、３次元特徴点限定部44での処理対象には含めるものとして描いているが、点線で描くように、メッシュ頂点削減部43での処理対象に含め、スキップしないようにしてもよい。また、メッシュ構造簡易化部41を同時に追加利用する場合には、簡易化された三次元メッシュをテクスチャ特徴抽出部42に入力してもよい。

テクスチャ特徴抽出部42で３次元特徴点を追加するための特徴的なテクスチャとは、固有の柄や模様を有することにより、このテクスチャから抽出された特徴点によって２画像間のマッチングの精度が高くなる（２画像間のマッチング精度の確保に寄与する）テクスチャを指す。３次元メッシュでは、図８に示すように、多角形のポリゴンに、２次元のテクスチャが貼り付けられている。テクスチャ情報は、例えばPNGなどの二次元画像ファイルで保存されることが多い。また、三次元メッシュの多角形の頂点座標と二次元画像ファイル上の２次元座標（(u,v)座標）との対応関係を保存しており、この対応関係を利用してテクスチャが多角形のポリゴンに貼りつけられることが多い。

実際のテクスチャ特徴点の抽出には、例えば、テクスチャの２次元画像ファイルに対して特徴点を検出し、検出した特徴点の(u,v)座標を、前述した(u,v)座標と３次元メッシュの座標との対応関係をもとに３次元座標に変換して、テクスチャ特徴抽出部42からの追加出力としての３次元座標とすればよい。図８では、２次元でのポリゴン２次元頂点a,b,cが３次元メッシュでの３次元頂点A,B,Cに対応することが例として示され、全く同様にして、２次元頂点で囲まれる３角形ポリゴンabc（ポリゴンABCを正面で見た状態）のテクスチャ内から抽出された特徴点は、３次元空間での３角形ポリゴン（３角形ABC）内の特徴点に対応するものとなる。２次元画像ファイル（図８の３角形ポリゴンabcのテクスチャ）からの特徴点の検出には、例えば前掲の非特許文献２や非特許文献６に記載の技術を用いて特徴点を検出してもよい。

（１１）マッチング装置10は、図７に示される箇所においてメッシュ頂点削減部43をさらに備え、メッシュ頂点抽出部11で抽出した三次元メッシュ頂点数を削減して後段側へ出力してもよい。前述の通り、様々な組み合わせ利用が可能でありメッシュ頂点削減部43に対して、メッシュ頂点抽出部11のみから、三次元特徴点を入力ようにしてもよいし、また、点線でスキップしない場合として示すように、テクスチャ特徴抽出部42からも追加で、３次元特徴点を入力するようにしてもよい。このメッシュ頂点削減部43で削減した３次元特徴点は、レンダリング画像特徴点変換部21に出力する。（なお、３次元特徴点限定部44が存在する場合はこれに出力する。）

前述の図１は、画像レンダリング部13で生成するレンダリング画像P101と撮影画像P102との例を示す図であり、この例からも見て取ることができるように、テクスチャが不明瞭なレンダリング画像P101において、構造物の角やエッジなどは、位置の同定がしやすく、マッチングしやすい特徴点になることが多い。前段側のメッシュ頂点抽出部11等で抽出した３次元メッシュの頂点は、レンダリング画像特徴点変換部21にて２次元特徴点に変換され、特徴点マッチング部30において撮影画像の２次元特徴点とマッチングされるが、特徴点マッチング部30においてマッチングしやすい特徴点のみを残すことを目的として、メッシュ頂点抽出部11等で抽出した三次元メッシュ頂点を、構造物の角やエッジなどの頂点のみに削減してもよい。

メッシュ頂点削減部43は、上記のような考察による目的のために、３次元頂点をマッチングしやすいことが想定されるもののみに予め限定することで削減する役割を果たすものである。具体的な削減手法は例えば以下のようにして、３次元メッシュの頂点（テクスチャ特徴抽出部42で追加された場合はこの追加された頂点も含む）のうち、ポリゴンとの関係で尖った位置（鋭い凸形状の頂部）にあると判定されるもののみに限定するようにすればよい。

例えば、角やエッジなどの頂点のみに削減を行う際は、以下の式(9)に示すように、３次元メッシュの頂点Xの単位法線ベクトルU_Xと、頂点Xを含むN個のポリゴンP₁,P₂,…,P_Nの単位法線ベクトルV_Pn（ただし、n=1,2,…,N）とのそれぞれの内積を計算し、V_P1, V_P2,…, V_Pnの中で、1つでも閾値θ_i以下となるような頂点Xを抽出の対象としてもよい。

ただし、U_X・V_Pnは、U_XとV_Pnの内積を示す。この場合の内積は、U_XとV_Pnのベクトルの方向が一致すると1、ベクトルの方向が真逆の場合は-1となるため、閾値θは1から0の範囲で設定する。閾値θ_iを小さく設定するほどU_XとV_Pnのベクトル方向が異なるような頂点X、すなわち頂点Xを含むポリゴンの法線ベクトルとは異なる方向の法線ベクトルを持つ頂点Xを抽出でき、構造物の角やエッジなどの平坦でない頂点が得られる。ポリゴンP_nの単位法線ベクトルV_Pnは、ポリゴンP_nの平面に垂直なベクトルを正規化したベクトルである。以下の式(10)に示すように、図９に示すポリゴンP_nを構成する２つのベクトルa_n,b_nについて、その外積a_n×b_nを正規化することにより得られる。また、頂点Xの単位法線ベクトルは、頂点Xを含む面の法線ベクトルを平均化したベクトルである。以下の式(11)に示すように、頂点Xを含むN個のポリゴンP₁,P₂,…,P_Nの単位法線ベクトルV_P1, V_P2,…, V_Pnの線形結合を、正規化することにより得られる。

なお、メッシュ頂点削減部43での以上の式(9)～(11)の処理内容を説明するための模式例として、図１０に単位法線ベクトルV_P1, V_P2,…, V_Pnと単位法線ベクトルU_Xの関係の例を示す。

（１２）マッチング装置10は、図７に示される箇所において３次元特徴点限定部44をさらに備え、メッシュ頂点抽出部11で抽出された３次元特徴点を、基準カメラ姿勢推定部12で推定した基準カメラ姿勢をもとに限定してもよい。前述の通り、様々な組み合わせ利用が可能であり、メッシュ構造簡易化部41で簡易化した３次元メッシュを入力してもよく、また、メッシュ頂点削減部43で削減した３次元特徴点や、テクスチャ特徴抽出部42で抽出した三次元特徴点を入力してもよい。３次元特徴点限定部44にて限定した３次元特徴点は、レンダリング画像特徴点変換部21に出力される。この３次元特徴点限定部44の種々の実施例について、以下に説明する。

（１２－１）３次元特徴点限定部44は、メッシュ頂点抽出部11で抽出された３次元特徴点、あるいはメッシュ頂点削減部43で削減した３次元特徴点、あるいはテクスチャ特徴抽出部で抽出した３次元特徴点のうち、基準カメラ姿勢推定部12で取得した基準カメラ姿勢を起点に、遮蔽された３次元特徴点以外に限定してもよい。（すなわち、オクルージョンが発生していない３次元特徴点のみに限定してもよい。）すなわち、３次元特徴点を後段側のレンダリング画像特徴点変換部21にて２次元特徴点に変換する際に、構造物に遮蔽された（隠れた）点も２次元特徴点に変換される可能性があるが、３次元頂点を後段側の特徴点マッチング部30の特徴点に利用する本来の目的である構造物の角やエッジ、テクスチャの明瞭な特徴点とはならない可能性が高く、この特徴点マッチング部30においてマッチングしやすい特徴点になるとは限らないため、遮蔽された３次元特徴点以外に限定するようにしてよい。

具体的には、図１１に示すように、メッシュ頂点抽出部11、メッシュ頂点削減部43、テクスチャ特徴抽出部42にて抽出された３次元特徴点と、基準カメラ姿勢推定部12で求めた基準カメラ姿勢の位置とを結ぶ直線上に、他の３次元メッシュオブジェクトが交差する場合に、遮蔽されているものと判定してもよい。実際に判定するためには、３次元CG分野における既存手法を用いればよく、例えばBlender（製品名）などの３次元CGソフトウェアツールセットが提供するAPI（アプリケーションプログラミングインタフェース）である、ray_castを用いてもよい。また、基準カメラ位置から見てオブジェクトの裏面側に位置する３次元特徴点を予め除外しておくために、図９に例示したようなポリゴンの法線ベクトルをポリゴンの表向き（物体表面を物体内部から物体外部に向かう向き）として定義しておき、基準カメラ位置から見て表向きのポリゴンが少なくとも１つ紐づいている３次元頂点に限定してもよい。

（１２－２）３次元特徴点限定部44は、メッシュ頂点抽出部11で抽出された３次元特徴点、あるいはメッシュ頂点削減部43で削減した３次元特徴点、あるいはテクスチャ特徴抽出部で抽出した３次元特徴点のうち、基準カメラ姿勢推定部12で取得したおおよその撮影位置からの距離が閾値以下の３次元特徴点のみに限定してもよい。すなわち、基準カメラ姿勢推定部12で推定したおおよその撮影位置からの距離が閾値以上である３次元特徴点については、構造物の角やエッジ、テクスチャの明瞭な３次元特徴点であったとしても、レンダリング用のカメラ位置から遠方に位置するものであるため、画像レンダリング部13で３次元メッシュを２次元画像にレンダリングした際に３次元構造物のスケールが小さくなり、後段側の特徴点マッチング部30においてマッチングしやすい特徴点になるとは限らないため、おおよその撮影位置からの距離が閾値以下の三次元特徴点のみに限定してもよい。例えば、以下の式(12)のように、おおよその撮影位置である基準カメラ姿勢の世界座標(X_C,Y_C,Z_C)と、三次元特徴点の世界座標(X,Y,Z)との距離が、閾値d以下となる３次元特徴点のみに限定してもよい。ここで、３次元CG分野等において既知の通り、基準カメラ姿勢の世界座標(X_C,Y_C,Z_C)は、基準カメラ姿勢推定部12で得られた基準カメラ姿勢（回転行列Rと並進ベクトルt）を用いて、以下の式(13)のように求めることができる。

（１３）本実施形態のマッチング装置10は、VPS等の要素技術として、地図作成の手間を低減しつつ、メッシュ地図を活用する場合において、従来手法をそのまま適用する場合（非特許文献２，３等の画像マッチング手法の場合）と比較すると、画像測位精度の向上に寄与することができる。これにより、例えば遠隔の現場で作業者が観察対象となる対象物の画像撮影を行って、ネットワーク上の指導者にこの画像を送信し、指導者は、この画像から遠隔の現場の３次元モデルの測位位置をCG上で再現して作業者にアドバイスを行う等の用途を円滑に実現することができるため、遠隔の現場へと指導者等が移動することを必須とせず、ユーザ移動に必要となるエネルギー資源を節約することで二酸化炭素排出量を抑制できることから、国連が主導する持続可能な開発目標（ＳＤＧｓ）の目標１３「気候変動とその影響に立ち向かうため、緊急対策を取る」に貢献することが可能となる。

（１４）図１２は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。マッチング装置10は、このような構成を有する１台以上のコンピュータ装置70として実現可能である。なお、２台以上のコンピュータ装置70でマッチング装置10を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU（中央演算装置）71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU（グラフィックス演算装置）72、CPU71（及びGPU72）にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77、カメラ78と、これらの間でデータを授受するためのバスBSと、を備える。

マッチング装置10の各機能部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び／又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置（プロセッサ）の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。マッチング装置10による処理結果等はディスプレイ76で表示して出力してよい。マッチング装置10への入力の１つとして用いる撮影画像として、カメラ78で撮影して得る画像を用いるようにしてもよい。

10…マッチング装置、11…メッシュ頂点抽出部、12…基準カメラ姿勢推定部、13…画像レンダリング部、21…レンダリング画像特徴点変換部、22…レンダリング画像特徴量記述部、23…撮影画像特徴点検出部、24…撮影画像特徴量記述部、30…特徴点マッチング部、41…メッシュ構造簡易化部、42…テクスチャ特徴抽出部、43…メッシュ頂点削減部、44…３次元特徴点限定部

Claims

３次元頂点と３次元頂点が形成する面のテクスチャとの情報で構成される３次元メッシュと、撮影画像との間で特徴量のマッチングを行うマッチング装置であって、
前記撮影画像を撮影したカメラの姿勢を推定した基準カメラ姿勢において前記３次元メッシュをレンダリングしてレンダリング画像を得て、当該レンダリング画像より前記３次元メッシュの３次元頂点に対応する２次元位置の全部または一部を第１特徴点として、当該第１特徴点から第１特徴量を抽出する処理と、
前記撮影画像から第２特徴点を検出し、当該第２特徴点から第２特徴量を抽出する処理と、
前記第１特徴量と前記第２特徴量とをマッチングする処理と、を実行することを特徴とするマッチング装置。
前記第１特徴量と前記第２特徴量とをマッチングする処理においては、前記レンダリング画像における第１特徴点の位置と、前記撮影画像における第２特徴点の位置とが近傍にあると判定される特徴量同士にマッチングの候補を限定することを特徴とする請求項１に記載のマッチング装置。
前記レンダリング画像における分割領域と前記撮影画像における分割領域との類似判定を行い、当該類似判定される分割領域に属する第１特徴点と第２特徴点とを、前記位置が近傍にあると判定されるものとして扱うことを特徴とする請求項２に記載のマッチング装置。
前記第１特徴量を抽出する際には予め、前記３次元メッシュの３次元頂点の空間分布を均一化するように、前記３次元メッシュの構造を簡易化することで、当該簡易化する前よりも３次元頂点の個数を減らすことを特徴とする請求項１に記載のマッチング装置。
前記第１特徴量を抽出するために用いる第１特徴点を追加する処理として、
前記３次元メッシュにおいて３次元頂点が形成する面を正面で見た状態のテクスチャから３次元特徴点を抽出し、当該３次元特徴点が前記レンダリング画像上にレンダリングされた点を、第１特徴点に対して前記追加するものとして用いることを特徴とする請求項１に記載のマッチング装置。
前記追加する処理では、前記３次元特徴点を抽出するテクスチャが固有の柄や模様に関するものであって、抽出された特徴点によるマッチング精度の確保に寄与するものであることを特徴とする請求項５に記載のマッチング装置。
前記第１特徴量を抽出するために用いる第１特徴点を削減する処理として、
前記３次元メッシュの３次元頂点の全てのうち、面との関係で鋭い凸形状の頂部にあると判定される一部分の３次元頂点のみから、前記第１特徴点を得るようにすることを特徴とする請求項１に記載のマッチング装置。
前記第１特徴量を抽出するために用いる第１特徴点を削減する処理として、
前記３次元メッシュの３次元頂点の全てのうち、前記カメラの姿勢において、当該３次元メッシュに対応する構造物の位置関係から遮蔽されていないと判定される一部分の３次元頂点のみから、前記第１特徴点を得るようにすることを特徴とする請求項１に記載のマッチング装置。
前記第１特徴量を抽出するために用いる第１特徴点を削減する処理として、
前記３次元メッシュの３次元頂点の全てのうち、前記カメラの姿勢におけるカメラ位置からの距離が近いと判定される一部分の３次元頂点のみから、前記第１特徴点を得るようにすることを特徴とする請求項１に記載のマッチング装置。
前記第１特徴量を抽出する処理と、前記第２特徴点を検出する処理と、前記第２特徴量を抽出する処理と、前記第１特徴量と前記第２特徴量とをマッチングする処理と、に相当する処理を、深層学習ネットワークによって陰に行うことにより、当該マッチングの結果を特徴点同士のマッチング結果として得ることを特徴とする請求項１に記載のマッチング装置。
３次元頂点と３次元頂点が形成する面のテクスチャとの情報で構成される３次元メッシュと、撮影画像との間で特徴量のマッチングを行う、コンピュータによって実行される方法であって、
前記撮影画像を撮影したカメラの姿勢を推定した基準カメラ姿勢において前記３次元メッシュをレンダリングしてレンダリング画像を得て、当該レンダリング画像より前記３次元メッシュの３次元頂点に対応する２次元位置の全部または一部を第１特徴点として、当該第１特徴点から第１特徴量を抽出する処理と、
前記撮影画像から第２特徴点を検出し、当該第２特徴点から第２特徴量を抽出する処理と、
前記第１特徴量と前記第２特徴量とをマッチングする処理と、をコンピュータが実行することを特徴とする方法。
コンピュータを請求項１ないし１０のいずれかに記載のマッチング装置として機能させることを特徴とするプログラム。