JP2023153664A - マッチング装置、方法及びプログラム - Google Patents
マッチング装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2023153664A JP2023153664A JP2022063059A JP2022063059A JP2023153664A JP 2023153664 A JP2023153664 A JP 2023153664A JP 2022063059 A JP2022063059 A JP 2022063059A JP 2022063059 A JP2022063059 A JP 2022063059A JP 2023153664 A JP2023153664 A JP 2023153664A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- dimensional
- matching
- feature point
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 70
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000009877 rendering Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims description 24
- 238000013135 deep learning Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 description 26
- 239000011159 matrix material Substances 0.000 description 24
- 230000036544 posture Effects 0.000 description 24
- 239000013598 vector Substances 0.000 description 23
- 238000010586 diagram Methods 0.000 description 21
- 238000006243 chemical reaction Methods 0.000 description 18
- 238000001514 detection method Methods 0.000 description 14
- 230000009467 reduction Effects 0.000 description 14
- 238000013519 translation Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 229910002092 carbon dioxide Inorganic materials 0.000 description 1
- 239000001569 carbon dioxide Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011960 computer-aided design Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Processing Or Creating Images (AREA)
- Image Generation (AREA)
- Image Analysis (AREA)
Abstract
【課題】必ずしも実際の撮影画像とはテクスチャが一致しない場合や、また、テクスチャが不明瞭な場合もありうる3次元メッシュデータと、撮影画像との間で適切なマッチングを行う。【解決手段】3次元頂点と3次元頂点が形成する面のテクスチャとの情報で構成される3次元メッシュと、撮影画像との間で特徴量のマッチングを行うマッチング装置10であって、撮影画像を撮影したカメラの姿勢を推定した基準カメラ姿勢において3次元メッシュをレンダリングしてレンダリング画像を得て、レンダリング画像より3次元メッシュの3次元頂点に対応する2次元位置の全部または一部を第1特徴点として、第1特徴点から第1特徴量を抽出する処理11,12,13,21,22と、撮影画像から第2特徴点を検出し、当該第2特徴点から第2特徴量を抽出する処理23,24と、前記第1特徴量と前記第2特徴量とをマッチングする処理30と、を実行する。【選択図】図2
Description
本発明は、テクスチャが与えられている3次元メッシュと撮影画像との間でマッチングを行うマッチング装置、方法及びプログラムに関する。
2つの画像間の対応関係を正確に取得することは、三次元構造物の復元や拡張現実、自動運転、自律ロボット、VPS(Visual Positioning System、画像測位システム)等において、重要な役割を果たす。
特許文献1は、三次元点群地図に基づき、画像を用いた自己位置、および方角を推定する、VPSと呼ばれる技術である。三次元点群地図の作成では、RGBカメラなどで撮影した映像から、特徴点マッチングなどの処理を施し、三次元点群の再構成を行う。自己位置・方角の推定では、三次元点群の特徴点と、撮影した写真の特徴点をもとにした、PnP(Perspective-n-Point)問題(非特許文献1に記載の技術)を解くことで、カメラ姿勢を推定する。三次元点群の特徴点と、撮影した写真の特徴点の対応関係は、三次元点群生成に利用した画像と、撮影した写真との2画像間の対応関係の取得(特徴点マッチング)により得られる。なお、特徴点とは、画像中の特徴的な点であり、特徴点を検出するための様々なアルゴリズムが存在する。例えば非特許文献2では、DoG(Difference of Gaussian)差分画像を利用した、SIFTと呼ばれる特徴点の検出手法を提案している。
正確に自己位置、および方角を推定するためには、2画像間の正確な特徴点マッチングが必要不可欠であり、また画像上の特徴点の位置は、画像全体に偏りなく均等に存在している状態が望ましい。正確な特徴点マッチングを行うために、従来より、様々な技術が提案されている。非特許文献2のSIFTでは、画像から特徴点を検出し、スケール不変特徴量変換を行う手法が提案されている。この手法に代表される古典的な画像マッチング技術では、2つの画像から特徴点を検出し、各特徴点の特徴量を記述し、特徴量同士を比較する、3つのステップにより実現される。
一方、近年では、古典的手法で採用されたような特徴点検出は行わずに2画像間の対応関係を取得する、深層学習ベースの方法も提案されている。非特許文献3では、畳み込みニューラルネットワークに基づく方法で画像全体から特徴量を抽出し、アテンション機構(Attention、注意機構)を用いて2画像間の類似度の高い箇所を捉え、対応するエリアを絞込んだ上で、そのエリア内でより詳細なマッチングを行うことで、対応関係を導いている。
Lepetit, Vincent, Francesc Moreno-Noguer, and Pascal Fua. "Epnp: An accurate o (n) solution to the pnp problem." International journal of computer vision 81.2 (2009): 155.
Lowe, David G. "Distinctive image features from scale-invariant keypoints." International journal of computer vision 60.2 (2004): 91-110.
Sun, Jiaming et al. "LoFTR: Detector-free local feature matching with transformers." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
特許文献1では、専用の3次元点群地図を、VPSサービスを提供するエリアにおいて、都度作成する必要がある。しかしながら、近年では、Matterport(登録商標)やLiDAR(光検出と測距)など様々な3次元スキャナにより、立体や空間の三次元メッシュデータを取得することが可能となっており、都市モデルやCAD(コンピュータ支援設計)データ、VR(過疎現実)や内覧用の屋内三次元地図など、様々な目的で、メッシュの3次元空間データが作成されている。様々な目的で作られた3次元メッシュデータを標準的にVPSに流用することができれば、VPSサービスを提供することのみを目的として三次元点群地図を作成する必要がなくなり、地図作成のコストを削減することができる。
しかしながら、従来技術では、様々な目的で用意されている3次元メッシュデータを、現地で撮影した画像と照合して測位に利用するVPSサービスにおいて利用することの検討はなされていなかった。
ここで、3次元メッシュデータは、スキャンされた対象物の頂点情報と、その頂点に基づき作成されるポリゴン(面)、および、面に貼り付けられるテクスチャ情報で構成されるが、実空間を完全に再現するものではなく、特に詳細なテクスチャは実物とは異なるケースがある。また、屋外であれば、壁面の塗装や看板などに変化が起こり得る。
図1は、3次元メッシュデータとこれに対応する実際の現地で撮影した画像との例を示す図である。図1では例として、国土交通省により公開されているPlateauの3次元メッシュデータのメッシュの一区画をレンダリングした画像P101と、現地の撮影写真P102とを比較で示している。三次元メッシュデータをVPSに利用するためには、図1のように3次元メッシュをもとに生成した画像P101(レンダリング画像P101)と、現地の撮影写真P102の、いわば似て非なる画像同士の特徴点マッチングを行う必要がある。
しかしながら、非特許文献2に代表される古典的な画像間比較の手法は、それぞれの画像には同一の対象物が存在している前提の技術であって、それぞれの画像において特徴点を検出した上で特徴点同士を比較する手法であるため、図1の例のように、3次元スキャンされた対象物のテクスチャが実物と異なるケースにおいては、撮影写真側で検出した特徴点が、レンダリング画像側では検出されない可能性があり、特徴点検出が正しく行われない結果、特徴点マッチングの精度が低下する可能性がある。
非特許文献3では、特徴点の検出は行わず、画像全体から畳み込みニューラルネットワークに基づく特徴量を取得する。さらに、取得した特徴量に位置情報を付与し、自己注意(Self-Attention、セルフアテンション)および交差注意(Cross-Attention、クロスアテンション)を用いることにより、一定のグリッドサイズに分割された領域ごとの特徴量を取得する。この領域ごとの特徴量を利用して、2画像間の類似度を比較し、2画像間の類似する領域内でより詳細なマッチングすることで、特徴点のペアを取得する方法を提案している。
しかしながら、図1の画像P101に例示されるような3次元メッシュデータのレンダリング画像では、テクスチャが明瞭な構造物と、テクスチャが不明瞭な構造物とが存在する。非特許文献3では、上述のように特徴点検出は行わず、畳み込みニューラルネットワークに基づく特徴量を取得していることから、テクスチャが明瞭な構造物に対しては密に特徴点を取得できる可能性が高く、反対にテクスチャが不明瞭な構造物に対しては、密に特徴点を取得できない可能性が高くなる。結果として、特徴点マッチング後に取得できる特徴点のペアの位置は、テクスチャが明瞭なエリアに集中してしまう可能性がある。このように特徴点のペアが画像全体に均等に存在しない場合、カメラ姿勢推定の精度が低下し、正確な自己位置推定を行うことができない可能性がある。
上記従来技術の課題に鑑み、本発明は、必ずしも実際の撮影画像とはテクスチャが一致しない場合や、また、テクスチャが不明瞭な場合もありうる3次元メッシュデータと、撮影画像との間で適切なマッチングを行うことのできるマッチング装置、方法及びプログラムを提供することを目的とする。
上記目的を達成するため、本発明は、3次元頂点と3次元頂点が形成する面のテクスチャとの情報で構成される3次元メッシュと、撮影画像との間で特徴量のマッチングを行うマッチング装置であって、前記撮影画像を撮影したカメラの姿勢を推定した基準カメラ姿勢において前記3次元メッシュをレンダリングしてレンダリング画像を得て、当該レンダリング画像より前記3次元メッシュの3次元頂点に対応する2次元位置の全部または一部を第1特徴点として、当該第1特徴点から第1特徴量を抽出する処理と、前記撮影画像から第2特徴点を検出し、当該第2特徴点から第2特徴量を抽出する処理と、前記第1特徴量と前記第2特徴量とをマッチングする処理と、を実行することを特徴とする。また、当該装置に対応する方法及びプログラムであることを特徴とする。
本発明によれば、3次元メッシュが表現する対象物の構造的な特徴が表れている3次元頂点より、3次元メッシュの2次元レンダリング画像の特徴量を抽出し、撮影画像から抽出した特徴量とマッチングするので、テクスチャが必ずしも十分に与えられていない3次元メッシュと撮影画像との間で適切な特徴量のマッチングを行うことができる。
図2は、三次元メッシュの構造及びテクスチャからの複合的な特徴点検出処理を行ったうえでマッチング処理を行う、本発明の一実施形態に係るマッチング装置10の機能ブロック図である。図示するように、マッチング装置10は、メッシュ頂点抽出部11と、基準カメラ姿勢推定部12と、画像レンダリング部13と、レンダリング画像特徴点変換部21と、レンダリング画像特徴量記述部22と、撮影画像特徴点検出部23と、撮影画像特徴量記述部24と、特徴点マッチング部25と、を備える。
マッチング装置10は、図2にも概要的に示されているようにその全体的な処理として、3次元メッシュデータと、撮影画像と、の2つを入力データとして読み込み、3次元メッシュデータと撮影画像との両方から特徴点を抽出したうえで、3次元メッシュデータから抽出された特徴点と撮影画像から抽出された特徴点とのマッチング結果を、対応する特徴点の組(ペア)の形で出力するという処理を行うものである。
以下、このような全体的な処理を実現するマッチング装置10の各機能部の処理内容の詳細について説明する。
なお、入力データに関しては前述の通りであり、2つの入力データの片方である3次元メッシュデータは、スキャン等の手段で取得された対象物の頂点情報と、その頂点に基づき作成されるポリゴン(面)と、面に貼り付けられるテクスチャ情報と、を紐づけた形式で構成されて用意されている。また、2つの入力データのうちもう片方である撮影画像は、通常のRGBカメラ等によって撮影されて用意されている。同一の街頭風景の3次元メッシュデータ(をレンダリングした画像)と撮影画像の例P101,P102は、前述の図1で示した通りである。
(1) メッシュ頂点抽出部11は、入力データの一方である3次元メッシュ(頂点と、頂点で囲まれる面と、面のテクスチャの情報が紐づいた情報)から頂点情報を抽出する。当該抽出された頂点情報は、後段側のレンダリング画像特徴点変換部21に出力されることで、2次元特徴点に変換される。3次元メッシュは、3角形などのポリゴンで構成されており、ポリゴンを構成する頂点を有する。例えば、3角形であれば、3つの頂点を有する。これらの頂点には3次元座標が定義されており、このメッシュ頂点抽出部11では、3次元メッシュの頂点の抽出を行う。
(2) 基準カメラ姿勢推定部12は、入力データの一方である撮影画像より、この撮影画像を撮影した際の正確なカメラ姿勢(実際のカメラ姿勢)を正解とする、おおよそのカメラ姿勢(基準カメラ姿勢)を推定する。ここで、カメラ姿勢とは撮影位置・方角であり、それぞれ回転行列Rと並進ベクトルtで表現できる。この基準カメラ姿勢推定部12で推定された基準カメラ姿勢は、後段側の画像レンダリング部13及びレンダリング画像特徴点変換部21に出力されることで、3次元メッシュにおけるカメラ姿勢として利用される。
3次元メッシュにおける基準カメラ姿勢を表す模式図を図3に示す。後段側のレンダリング画像特徴点変換部21では、頂点抽出部11で抽出した3次元特徴点を、この基準カメラ姿勢推定部12で推定した基準カメラ姿勢をもとに2次元特徴点に変換を行い、最終的には後段側の特徴点マッチング部30にて撮影画像の2次元特徴点とのマッチングが行われるが、このマッチング精度を向上させるためには、基準カメラ姿勢は極力、撮影画像の実際のカメラ姿勢と同じであることが望ましい。撮影画像(写真)を撮影した時点では実際のカメラ姿勢はわからないため、後述のようにGPS(全地球測位システム)やカメラの回転角の情報(撮影画像を撮影した際のカメラに備わるGPSセンサや方位センサ等で取得された値として、予め撮影画像に紐づけられた情報)を用いて、おおよその推定値である基準カメラ姿勢を推定する。
基準カメラ姿勢のうち、回転行列Rとしては、例えば、写真を撮影した際の仰角θx、傾斜角θy、方位角θzを用いて求めてもよい。(なお、これらの角度は、撮影画像を撮影した際のカメラに備わる方位センサ等で取得された値として、予め撮影画像に紐づけられた情報を利用すればよい。)3次元メッシュの世界座標において、仰角はx軸周りに回転させた角度、傾斜角はy軸周りに回転させた角度、方位角はz軸周りに回転させた角度を表す。図4に、撮影画像のカメラの仰角、傾斜角、方位角を模式的に表した図を示す。3次元メッシュの世界座標において、撮影画像のカメラをx軸周りに角度θx回転させる場合の回転行列Rx、y軸周りに角度θy回転させる場合の回転行列Ry、z軸周りに角度θz回転させる場合の回転行列Rzは、3次元CG(コンピュータグラフィックス)等の分野において既知のように、以下の式(1),(2),(3)のように表せる。
回転行列Rx、回転行列Ry、回転行列Rzを用いて、撮影画像のカメラを世界座標のx軸周りにθxだけ回転させ、さらに世界座標のy軸周りにθyだけ回転させ、さらに世界座標のz軸周りにθzだけ回転させる、という順番で回転させたときのカメラの回転行列RCは、以下の式(4)のように表現できる。
RC=RzRyRx …(4)
RC=RzRyRx …(4)
上記のように表現された回転角は、一般に固定角と呼ばれる。ここで、この基準カメラ姿勢推定部12で求める基準カメラ姿勢の回転行列Rは、"座標"を回転させる回転行列を表現するものであるが、この回転行列RCは、カメラを回転させる回転行列である。図5(カメラオブジェクトの回転と座標の回転が逆の関係にあることをz軸回りの角度φの回転の場合を例として示す図)に示す通り、「カメラオブジェクトをφだけ回転させた場合のカメラ姿勢」は、「座標を-φだけ回転させ、その回転後の座標系におけるカメラ姿勢」と同じであるため、回転行列Rは、以下の式(5)のように、RCの逆行列(さらに、回転行列の性質から、RCの転置行列)となる。
R=RC -1=RC T …(5)
R=RC -1=RC T …(5)
また、基準カメラ姿勢のうち、並進ベクトルtは、回転行列RとGPS情報から得られる撮影写真のカメラのおおよその撮影位置(XC,YC,ZC)を用いて、以下の式(6)のように計算できる。(なお、このGPS情報は、撮影画像を撮影した際のカメラに備わるGPSセンサ等で取得された値として、予め撮影画像に紐づけられた情報を利用すればよい。)
(3) 画像レンダリング部13では、以上の基準カメラ姿勢推定部12で推定した基準カメラ姿勢(回転行列Rと並進ベクトルt)をもとに、入力データの片方である3次元メッシュを2次元の画像にレンダリングする。(すなわち、3次元メッシュ情報のうち、3次元頂点情報で定義されるメッシュと、このメッシュ上に貼られているテクスチャとを、後述する式(7),(8)と同様にして投影することで、基準カメラ姿勢で見た2次元画像の状態へとレンダリングする。)当該レンダリングされた画像は、後段側のレンダリング画像特徴量記述部22に出力される。このレンダリングは、3次元CG分野で利用されている既存手法によって実現することができ、実際のレンダリングには、例えば、Blender(製品名)などの3Dコンピュータグラフィックソフトウェアツールセットを用いてもよい。
(4) レンダリング画像特徴点変換部21は、前述のメッシュ頂点抽出部11で抽出した3次元特徴点を、前述の基準カメラ姿勢推定部12で得られた基準カメラ姿勢(回転行列Rと並進ベクトルt)を用いて画像座標に変換し、2次元特徴点とする。得られた2次元特徴点は、後段側のレンダリング画像特徴量記述部22に出力される。ここで、3次元CG分野等において既知であるカメラの幾何学モデルを用いることにより、3次元の世界座標(X,Y,Z)は、投影行列Pを用いて以下の式(7)のように、二次元の画像座標(u,v)に変換することができる。この式(7)の投影行列Pは、カメラの回転行列R、並進ベクトルt、カメラの内部パラメータKを用いて、以下の式(8)のように表せる。ここで、カメラの回転行列R、並進ベクトルtは、基準カメラ姿勢推定部12で得られた値を利用し、カメラの内部パラメータKは、画像レンダリング部13で利用したものと同じ値を利用する。
(5) レンダリング画像特徴量記述部22は、前述したレンダリング画像特徴点変換部21で得られた2次元特徴点に対し、前述した画像レンダリング部13で生成した画像をもとに特徴量を計算する。(すなわち、画像レンダリング部13で生成した画像上において、レンダリング画像特徴点変換部21で得られた2次元特徴点の位置での特徴量を計算する。)得られた特徴量は、後段側の特徴点マッチング部30に出力される。
この特徴量計算には任意の既存手法を用いてよく、例えば、前掲の非特許文献2や以下の非特許文献4に記載の技術を用いて、特徴量を記述してもよい。あるいは、以下の非特許文献5に記載の技術を用いてもよい。この場合、レンダリング画像特徴点変換部21で得られた2次元特徴点をクエリとして、対応する撮影画像側の特徴点を探索する方法であるため、後段側の撮影画像特徴点検出部23での撮影画像側の特徴点検出、撮影画像特徴量記述部24での撮影画像側での特徴量記述、および特徴点マッチング部30での特徴点マッチングは行わず、このレンダリング画像特徴量記述部22にて、レンダリング画像と撮影写真画像との特徴点のペアの取得までを行う。
[非特許文献4] Wang, Qianqian, et al. "Learning feature descriptors using camera pose supervision." European Conference on Computer Vision. Springer, Cham, 2020.
[非特許文献5] Jiang, Wei, et al. "COTR: Correspondence Transformer for Matching Across Images." arXiv preprint arXiv:2103.14167 (2021)
[非特許文献4] Wang, Qianqian, et al. "Learning feature descriptors using camera pose supervision." European Conference on Computer Vision. Springer, Cham, 2020.
[非特許文献5] Jiang, Wei, et al. "COTR: Correspondence Transformer for Matching Across Images." arXiv preprint arXiv:2103.14167 (2021)
すなわち、非特許文献5の手法は、撮影画像特徴点検出部23を省略した構成により、撮影画像から明示的に2次元特徴点を検出することなく、レンダリング画像特徴量記述部22と、撮影画像特徴量記述部24と、特徴点マッチング部30と、の処理を、エンコーダ、変換器、デコーダ等からなる深層学習ネットワークNWで一括に処理する手法である。このネットワークNWは、撮影画像と、レンダリング画像と、レンダリング画像特徴点変換部21から得たクエリ2次元特徴点と、の3つを入力として、撮影画像から明示的に2次元特徴点(リファレンス特徴点)を検出することなく、撮影画像におけるリファレンス特徴点のマッチング結果を得るものである。
換言すれば、非特許文献5の手法を本実施形態のマッチング装置10に適用する場合、撮影画像特徴点検出部23の処理と、レンダリング画像特徴量記述部22の処理と、撮影画像特徴量記述部24の処理と、特徴点マッチング部30の処理と、に相当する処理が、一括してエンコーダ、変換器、デコーダ等からなる深層学習ネットワークNWで(ネットワーク内での内部処理として)陰に実現されることとなる。(中間データとしての、撮影画像の2次元特徴点と、レンダリング画像及び撮影画像の各特徴点及び特徴量と、が明示的に得られることなく、また、特徴量空間でのマッチングも明示的に行われることなく、これらの処理が深層学習ネットワークNW内で陰に行われたうえで、最終結果である特徴点マッチング結果のみが出力される。)
具体的に、非特許文献5の手法では「エンコーダ→変換器→デコーダ」の順に深層学習ネットワークNWが構成され、本実施形態のマッチング装置10に適用する場合、エンコーダでは撮影画像及びレンダリング画像の2枚の画像をそれぞれエンコードして2つの特徴マップを得て、これを結合した特徴マップを得る。さらに、特徴マップに位置情報を付与する。変換器では、当該結合した特徴マップと、レンダリング画像特徴点変換部21で得た2次元特徴点と、を入力として読み込んで変換出力を得て、この変換出力をデコーダでデコードすることにより、レンダリング画像特徴点変換部21で得た2次元特徴点に対する撮影画像内での特徴点のマッチング結果が出力される。このような「エンコーダ→変換器→デコーダ」の構成により、図2や図7の撮影画像特徴点検出部23、レンダリング画像特徴量記述部22、撮影画像特徴量記述部24及び特徴点マッチング部30の処理に相当する処理を深層学習ネットワークNW内において一括して、陰に実現することができる。
(6) 撮影写真特徴点検出部23は、入力データの一方である撮影画像より特徴点を検出する。得られた特徴点は、後段側の撮影写真特徴量記述部24に出力される。この特徴点検出には例えば、以下の非特許文献6や非特許文献7に記載の既存技術を用いるようにしてよい。
[非特許文献6] 「Revaud, Jerome, et al. "R2D2: repeatable and reliable detector and descriptor." arXiv preprint arXiv:1906.06195 (2019)」
[非特許文献7] 「Rublee, Ethan, et al. "ORB: An efficient alternative to SIFT or SURF." 2011 International conference on computer vision. Ieee, 2011.」
[非特許文献6] 「Revaud, Jerome, et al. "R2D2: repeatable and reliable detector and descriptor." arXiv preprint arXiv:1906.06195 (2019)」
[非特許文献7] 「Rublee, Ethan, et al. "ORB: An efficient alternative to SIFT or SURF." 2011 International conference on computer vision. Ieee, 2011.」
(7) 撮影画像特徴量記述部24は、上記の撮影画像特徴点検出部23で検出した特徴点に対して特徴量を計算する。得られた特徴量は、後段側の特徴点マッチング部30に出力される。この特徴点マッチング部30にて、レンダリング画像特徴量記述部22で取得したレンダリング画像の特徴量と、撮影画像特徴量記述部24で取得した撮影画像の特徴量とを用いて、それぞれの二次元特徴点同士をマッチングするため、この撮影画像特徴量記述部24では、レンダリング画像特徴量記述部22で用いた特徴量記述の技術と同じ方法で特徴量を記述する。例えば、前掲の非特許文献2や非特許文献4に記載の技術を用いて、特徴量を記述してもよい。
すなわち、レンダリング画像特徴量記述部22と撮影画像特徴量記述部24とでは同種類の特徴量を記述し、レンダリング画像特徴量記述部22で非特許文献2の手法を用いるのであれば、撮影画像特徴量記述部24でも同様に、非特許文献2の手法を用いるようにすればよい。
(8) 特徴点マッチング部30は、前述のレンダリング画像特徴量記述部22で計算したレンダリング画像の特徴量と、撮影画像特徴量記述部24で計算した撮影画像の特徴量とのマッチングを行い、マッチング装置10におけるマッチング結果として出力する。このマッチングには例えば、既存手法として以下の非特許文献8に記載の技術(Nearest Neighbor Matching、最近傍マッチング)を用いてもよい。
[非特許文献8] Rubin, Donald B. "Matching to remove bias in observational studies." Biometrics (1973): 159-183.
[非特許文献8] Rubin, Donald B. "Matching to remove bias in observational studies." Biometrics (1973): 159-183.
(8-1) ここで、特徴点マッチング部30ではさらに、レンダリング画像特徴量記述部22で計算した3次元メッシュのレンダリング画像の特徴量と、撮影画像特徴量記述部24で計算した撮影画像の特徴量とを比較・マッチングする際、比較の対象を限定するようにしてもよい。
すなわち、非特許文献8の最近傍マッチング(Nearest Neighbor Matching)では、具体的には、レンダリング画像特徴点変換部21で取得したレンダリング画像の2次元特徴点と、撮影画像特徴点検出部23で取得した撮影写真の2次元特徴点それぞれに対して、レンダリング画像特徴量記述部22及び撮影画像特徴量記述部24で特徴量を計算し、取得した特徴量同士の類似度を総当たりで比較し、閾値判定等で特徴量が類似しているとされる特徴点ペアをマッチングしたものと見なすが、類似度の比較を行う際、事前にレンダリング画像と撮影画像のそれぞれの特徴量の類似度の比較を行う対象を限定するようにしてもよい。
図6はこの限定の手法を模式的に示す図であり、レンダリング画像P101の2次元特徴点に対して、撮影画像P102の2次元特徴点を限定する前の網羅的な類似度比較対象例EX1と、限定した後の限定的な類似度比較対象例EX2とを示す。(なお、図6にて特徴量を比較している画像P101,P102の例は、共通符号を付しているように、図1の例と同様である。図6では画像P101内の1つの特徴点(における特徴量)に対して類似度比較の対象となる画像P102内の複数の特徴点(における特徴量)を、直線で結ぶことで模式的に示している。)撮影画像の2次元特徴点を限定した後の例EX2では、マッチング候補数が限定しない場合の例EX1と比べて限定され、削減されている。
最近傍マッチングの類似度の比較は、レンダリング画像の特徴量と、撮影写真の特徴量を総当たりで比較しており、特徴量に対応する2次元特徴点の座標(u,v)の情報は無視してしまっている。これに対して、この座標(u,v)の情報を利用し、事前に比較する対象を2次元座標(u,v)が閾値判定等で近いと判定される範囲内(図6の例EX2では矩形範囲として模式的に示されている)のみに限定しておくことは、マッチングの候補を減らすことになり、誤ったマッチングを回避する効果が期待できる。
ここで、座標(u,v)が近いかの判定について、上記のようにこの座標(u,v)の値をそのまま用いて判定してもよいが、座標(u,v)を算出する元となる3次元カメラ座標及び撮影方向を基準カメラ姿勢として基準カメラ姿勢推定部12で求めているものの、必ずしも正確ではなく誤差を伴うことが考えられる。このため、座標(u,v)が近いと判定される範囲を決定して比較を行う対象を限定する方法には、例えば非特許文献3の中間モジュールである粗レベルマッチ(Coarse-level Matches)の技術を用いてもよい。この技術では、画像全体から畳み込みニューラルネットワークに基づく特徴量を取得し、位置情報を特徴量に付与し、セルフアテンション(Self-Attention)およびクロスアテンション(Cross-Attention)を用いることにより、一定のグリッドサイズに分割された領域ごとの特徴量を取得し、2画像間の類似度を比較する。
すなわち、レンダリング画像の分割グリッドと、撮影画像の分割グリッドとが、非特許文献3の手法により類似すると判定されたグリッド内に限定して、特徴量のマッチングを行うようにしてよい。(この結果、類似すると判定されたグリッド内では網羅的なマッチングが行われるが、画像全体内で網羅的なマッチングを行う場合と比べて探索範囲は限定されることとなる。)
以上、図2の実施形態のマッチング装置10によれば、3次元メッシュ(3次元メッシュの構造情報及び各ポリゴン(面)のテクスチャ情報で構成される)から、その頂点(現実物体の角などに対応すると考えられる頂点)を特徴量の計算対象となる特徴点に設定して、撮影画像の撮影されたカメラ姿勢をもとに推定したおおよそのカメラ姿勢(基準カメラ姿勢)においてレンダリングしたうえで特徴量を抽出し、撮影画像の特徴量とのマッチングを行うことで、3次元メッシュと撮影画像との特徴量のマッチングを実現し、VPS等の基礎技術として活用することが可能となる。また、マッチングの際には、2画像間でマッチングさせるべき特徴点を限定することもでき、マッチング精度の向上が期待できる。
さらに、以下に説明する追加的な実施形態のマッチング装置10によれば、例えば画像全体で偏りなく特徴点を検出したり、マッチングさせる対象となる特徴点として適切なものを追加あるいは選別したりすることも可能となり、マッチング精度を向上させることで、VPS用途等においても撮影画像のカメラの姿勢推定精度向上に寄与することができる。
図7は、図2の構成に対する追加的な実施形態に係るマッチング装置10の機能ブロック図である。図7のマッチング装置10は、図示される通り、図2の構成に対して、メッシュ構造簡易化部41と、テクスチャ特徴抽出部42と、メッシュ頂点削減部43と、3次元特徴点限定部44と、の4つの機能ブロックを追加で備え、当該備える箇所において図2の構成に対して追加処理を行うものである。
図7では4つの追加機能ブロック41~44の全てが図2の構成のマッチング装置10に対して追加されている状態を示しているが、これら4つの全部または任意の一部を、図2の構成のマッチング装置10に対して追加することが可能である。以下では、4つの追加機能ブロック41~44の各々が単独で追加された場合の、図2の構成に対する追加処理内容について説明するが、これら4つの追加構成うちの全部または一部を追加する構成が可能である。
(9) マッチング装置10は、図7に示される箇所においてメッシュ構造簡易化部41をさらに備え、メッシュ頂点抽出部11、画像レンダリング部13に簡易化した3次元メッシュを出力してもよい。換言すれば、メッシュ構造簡易化部41は、図2の構成での入力データである3次元メッシュに対して、前処理として簡易化処理を施す追加構成として利用できる。
メッシュ構造簡易化部41による3次元メッシュ構造の簡易化とは、3次元メッシュのポリゴン数を削減し、3次元メッシュを構成する頂点数を削減することである。3次元メッシュの構造が複雑な箇所には、3次元メッシュ頂点が集中することがある。3次元メッシュ頂点の集中する箇所が存在する場合、レンダリング画像特徴点変換部21にて3次元特徴点から変換される2次元特徴点は、レンダリング画像全体に均等に存在せずに偏りが生じる可能性があり、この偏りを除去するため、例えば以下の非特許文献9のMeshLab(製品名)などの既存ツールにより、3次元メッシュの構造を簡易化し、頂点の数を削減し、テクスチャも対応して簡素化する形に更新してもよい。(その他にも、3次元メッシュの3次元頂点に対して単純な間引きと、間引き後のメッシュ統合等を行うようにしてもよい。)
(10) マッチング装置10は、図7に示される箇所においてテクスチャ特徴抽出部42をさらに備え、3次元メッシュからテクスチャが特徴的な3次元特徴点を抽出してもよい。換言すれば、テクスチャ特徴抽出部42は、図2の構成においてレンダリング画像特徴点変換部21へと入力する3次元特徴点を、メッシュ頂点抽出部11から得る3次元特徴点とは別途に追加で用意する構成である。図7では、テクスチャ特徴抽出部42で追加した3次元特徴点は、後述するメッシュ頂点削減部43での処理対象からはスキップされて、3次元特徴点限定部44での処理対象には含めるものとして描いているが、点線で描くように、メッシュ頂点削減部43での処理対象に含め、スキップしないようにしてもよい。また、メッシュ構造簡易化部41を同時に追加利用する場合には、簡易化された三次元メッシュをテクスチャ特徴抽出部42に入力してもよい。
テクスチャ特徴抽出部42で3次元特徴点を追加するための特徴的なテクスチャとは、固有の柄や模様を有することにより、このテクスチャから抽出された特徴点によって2画像間のマッチングの精度が高くなる(2画像間のマッチング精度の確保に寄与する)テクスチャを指す。3次元メッシュでは、図8に示すように、多角形のポリゴンに、2次元のテクスチャが貼り付けられている。テクスチャ情報は、例えばPNGなどの二次元画像ファイルで保存されることが多い。また、三次元メッシュの多角形の頂点座標と二次元画像ファイル上の2次元座標((u,v)座標)との対応関係を保存しており、この対応関係を利用してテクスチャが多角形のポリゴンに貼りつけられることが多い。
実際のテクスチャ特徴点の抽出には、例えば、テクスチャの2次元画像ファイルに対して特徴点を検出し、検出した特徴点の(u,v)座標を、前述した(u,v)座標と3次元メッシュの座標との対応関係をもとに3次元座標に変換して、テクスチャ特徴抽出部42からの追加出力としての3次元座標とすればよい。図8では、2次元でのポリゴン2次元頂点a,b,cが3次元メッシュでの3次元頂点A,B,Cに対応することが例として示され、全く同様にして、2次元頂点で囲まれる3角形ポリゴンabc(ポリゴンABCを正面で見た状態)のテクスチャ内から抽出された特徴点は、3次元空間での3角形ポリゴン(3角形ABC)内の特徴点に対応するものとなる。2次元画像ファイル(図8の3角形ポリゴンabcのテクスチャ)からの特徴点の検出には、例えば前掲の非特許文献2や非特許文献6に記載の技術を用いて特徴点を検出してもよい。
(11) マッチング装置10は、図7に示される箇所においてメッシュ頂点削減部43をさらに備え、メッシュ頂点抽出部11で抽出した三次元メッシュ頂点数を削減して後段側へ出力してもよい。前述の通り、様々な組み合わせ利用が可能でありメッシュ頂点削減部43に対して、メッシュ頂点抽出部11のみから、三次元特徴点を入力ようにしてもよいし、また、点線でスキップしない場合として示すように、テクスチャ特徴抽出部42からも追加で、3次元特徴点を入力するようにしてもよい。このメッシュ頂点削減部43で削減した3次元特徴点は、レンダリング画像特徴点変換部21に出力する。(なお、3次元特徴点限定部44が存在する場合はこれに出力する。)
前述の図1は、画像レンダリング部13で生成するレンダリング画像P101と撮影画像P102との例を示す図であり、この例からも見て取ることができるように、テクスチャが不明瞭なレンダリング画像P101において、構造物の角やエッジなどは、位置の同定がしやすく、マッチングしやすい特徴点になることが多い。前段側のメッシュ頂点抽出部11等で抽出した3次元メッシュの頂点は、レンダリング画像特徴点変換部21にて2次元特徴点に変換され、特徴点マッチング部30において撮影画像の2次元特徴点とマッチングされるが、特徴点マッチング部30においてマッチングしやすい特徴点のみを残すことを目的として、メッシュ頂点抽出部11等で抽出した三次元メッシュ頂点を、構造物の角やエッジなどの頂点のみに削減してもよい。
メッシュ頂点削減部43は、上記のような考察による目的のために、3次元頂点をマッチングしやすいことが想定されるもののみに予め限定することで削減する役割を果たすものである。具体的な削減手法は例えば以下のようにして、3次元メッシュの頂点(テクスチャ特徴抽出部42で追加された場合はこの追加された頂点も含む)のうち、ポリゴンとの関係で尖った位置(鋭い凸形状の頂部)にあると判定されるもののみに限定するようにすればよい。
例えば、角やエッジなどの頂点のみに削減を行う際は、以下の式(9)に示すように、3次元メッシュの頂点Xの単位法線ベクトルUXと、頂点Xを含むN個のポリゴンP1,P2,…,PNの単位法線ベクトルVPn(ただし、n=1,2,…,N)とのそれぞれの内積を計算し、VP1, VP2,…, VPnの中で、1つでも閾値θi以下となるような頂点Xを抽出の対象としてもよい。
ただし、UX・VPnは、UXとVPnの内積を示す。この場合の内積は、UXとVPnのベクトルの方向が一致すると1、ベクトルの方向が真逆の場合は-1となるため、閾値θは1から0の範囲で設定する。閾値θiを小さく設定するほどUXとVPnのベクトル方向が異なるような頂点X、すなわち頂点Xを含むポリゴンの法線ベクトルとは異なる方向の法線ベクトルを持つ頂点Xを抽出でき、構造物の角やエッジなどの平坦でない頂点が得られる。ポリゴンPnの単位法線ベクトルVPnは、ポリゴンPnの平面に垂直なベクトルを正規化したベクトルである。以下の式(10)に示すように、図9に示すポリゴンPnを構成する2つのベクトルan,bnについて、その外積an×bnを正規化することにより得られる。また、頂点Xの単位法線ベクトルは、頂点Xを含む面の法線ベクトルを平均化したベクトルである。以下の式(11)に示すように、頂点Xを含むN個のポリゴンP1,P2,…,PNの単位法線ベクトルVP1, VP2,…, VPnの線形結合を、正規化することにより得られる。
なお、メッシュ頂点削減部43での以上の式(9)~(11)の処理内容を説明するための模式例として、図10に単位法線ベクトルVP1, VP2,…, VPnと単位法線ベクトルUXの関係の例を示す。
(12) マッチング装置10は、図7に示される箇所において3次元特徴点限定部44をさらに備え、メッシュ頂点抽出部11で抽出された3次元特徴点を、基準カメラ姿勢推定部12で推定した基準カメラ姿勢をもとに限定してもよい。前述の通り、様々な組み合わせ利用が可能であり、メッシュ構造簡易化部41で簡易化した3次元メッシュを入力してもよく、また、メッシュ頂点削減部43で削減した3次元特徴点や、テクスチャ特徴抽出部42で抽出した三次元特徴点を入力してもよい。3次元特徴点限定部44にて限定した3次元特徴点は、レンダリング画像特徴点変換部21に出力される。この3次元特徴点限定部44の種々の実施例について、以下に説明する。
(12-1) 3次元特徴点限定部44は、メッシュ頂点抽出部11で抽出された3次元特徴点、あるいはメッシュ頂点削減部43で削減した3次元特徴点、あるいはテクスチャ特徴抽出部で抽出した3次元特徴点のうち、基準カメラ姿勢推定部12で取得した基準カメラ姿勢を起点に、遮蔽された3次元特徴点以外に限定してもよい。(すなわち、オクルージョンが発生していない3次元特徴点のみに限定してもよい。)すなわち、3次元特徴点を後段側のレンダリング画像特徴点変換部21にて2次元特徴点に変換する際に、構造物に遮蔽された(隠れた)点も2次元特徴点に変換される可能性があるが、3次元頂点を後段側の特徴点マッチング部30の特徴点に利用する本来の目的である構造物の角やエッジ、テクスチャの明瞭な特徴点とはならない可能性が高く、この特徴点マッチング部30においてマッチングしやすい特徴点になるとは限らないため、遮蔽された3次元特徴点以外に限定するようにしてよい。
具体的には、図11に示すように、メッシュ頂点抽出部11、メッシュ頂点削減部43、テクスチャ特徴抽出部42にて抽出された3次元特徴点と、基準カメラ姿勢推定部12で求めた基準カメラ姿勢の位置とを結ぶ直線上に、他の3次元メッシュオブジェクトが交差する場合に、遮蔽されているものと判定してもよい。実際に判定するためには、3次元CG分野における既存手法を用いればよく、例えばBlender(製品名)などの3次元CGソフトウェアツールセットが提供するAPI(アプリケーションプログラミングインタフェース)である、ray_castを用いてもよい。また、基準カメラ位置から見てオブジェクトの裏面側に位置する3次元特徴点を予め除外しておくために、図9に例示したようなポリゴンの法線ベクトルをポリゴンの表向き(物体表面を物体内部から物体外部に向かう向き)として定義しておき、基準カメラ位置から見て表向きのポリゴンが少なくとも1つ紐づいている3次元頂点に限定してもよい。
(12-2) 3次元特徴点限定部44は、メッシュ頂点抽出部11で抽出された3次元特徴点、あるいはメッシュ頂点削減部43で削減した3次元特徴点、あるいはテクスチャ特徴抽出部で抽出した3次元特徴点のうち、基準カメラ姿勢推定部12で取得したおおよその撮影位置からの距離が閾値以下の3次元特徴点のみに限定してもよい。すなわち、基準カメラ姿勢推定部12で推定したおおよその撮影位置からの距離が閾値以上である3次元特徴点については、構造物の角やエッジ、テクスチャの明瞭な3次元特徴点であったとしても、レンダリング用のカメラ位置から遠方に位置するものであるため、画像レンダリング部13で3次元メッシュを2次元画像にレンダリングした際に3次元構造物のスケールが小さくなり、後段側の特徴点マッチング部30においてマッチングしやすい特徴点になるとは限らないため、おおよその撮影位置からの距離が閾値以下の三次元特徴点のみに限定してもよい。例えば、以下の式(12)のように、おおよその撮影位置である基準カメラ姿勢の世界座標(XC,YC,ZC)と、三次元特徴点の世界座標(X,Y,Z)との距離が、閾値d以下となる3次元特徴点のみに限定してもよい。ここで、3次元CG分野等において既知の通り、基準カメラ姿勢の世界座標(XC,YC,ZC)は、基準カメラ姿勢推定部12で得られた基準カメラ姿勢(回転行列Rと並進ベクトルt)を用いて、以下の式(13)のように求めることができる。
(13) 本実施形態のマッチング装置10は、VPS等の要素技術として、地図作成の手間を低減しつつ、メッシュ地図を活用する場合において、従来手法をそのまま適用する場合(非特許文献2,3等の画像マッチング手法の場合)と比較すると、画像測位精度の向上に寄与することができる。これにより、例えば遠隔の現場で作業者が観察対象となる対象物の画像撮影を行って、ネットワーク上の指導者にこの画像を送信し、指導者は、この画像から遠隔の現場の3次元モデルの測位位置をCG上で再現して作業者にアドバイスを行う等の用途を円滑に実現することができるため、遠隔の現場へと指導者等が移動することを必須とせず、ユーザ移動に必要となるエネルギー資源を節約することで二酸化炭素排出量を抑制できることから、国連が主導する持続可能な開発目標(SDGs)の目標13「気候変動とその影響に立ち向かうため、緊急対策を取る」に貢献することが可能となる。
(14) 図12は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。マッチング装置10は、このような構成を有する1台以上のコンピュータ装置70として実現可能である。なお、2台以上のコンピュータ装置70でマッチング装置10を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU(中央演算装置)71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU(グラフィックス演算装置)72、CPU71(及びGPU72)にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77、カメラ78と、これらの間でデータを授受するためのバスBSと、を備える。
マッチング装置10の各機能部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び/又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置(プロセッサ)の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。マッチング装置10による処理結果等はディスプレイ76で表示して出力してよい。マッチング装置10への入力の1つとして用いる撮影画像として、カメラ78で撮影して得る画像を用いるようにしてもよい。
10…マッチング装置、11…メッシュ頂点抽出部、12…基準カメラ姿勢推定部、13…画像レンダリング部、21…レンダリング画像特徴点変換部、22…レンダリング画像特徴量記述部、23…撮影画像特徴点検出部、24…撮影画像特徴量記述部、30…特徴点マッチング部、41…メッシュ構造簡易化部、42…テクスチャ特徴抽出部、43…メッシュ頂点削減部、44…3次元特徴点限定部
Claims (12)
- 3次元頂点と3次元頂点が形成する面のテクスチャとの情報で構成される3次元メッシュと、撮影画像との間で特徴量のマッチングを行うマッチング装置であって、
前記撮影画像を撮影したカメラの姿勢を推定した基準カメラ姿勢において前記3次元メッシュをレンダリングしてレンダリング画像を得て、当該レンダリング画像より前記3次元メッシュの3次元頂点に対応する2次元位置の全部または一部を第1特徴点として、当該第1特徴点から第1特徴量を抽出する処理と、
前記撮影画像から第2特徴点を検出し、当該第2特徴点から第2特徴量を抽出する処理と、
前記第1特徴量と前記第2特徴量とをマッチングする処理と、を実行することを特徴とするマッチング装置。 - 前記第1特徴量と前記第2特徴量とをマッチングする処理においては、前記レンダリング画像における第1特徴点の位置と、前記撮影画像における第2特徴点の位置とが近傍にあると判定される特徴量同士にマッチングの候補を限定することを特徴とする請求項1に記載のマッチング装置。
- 前記レンダリング画像における分割領域と前記撮影画像における分割領域との類似判定を行い、当該類似判定される分割領域に属する第1特徴点と第2特徴点とを、前記位置が近傍にあると判定されるものとして扱うことを特徴とする請求項2に記載のマッチング装置。
- 前記第1特徴量を抽出する際には予め、前記3次元メッシュの3次元頂点の空間分布を均一化するように、前記3次元メッシュの構造を簡易化することで、当該簡易化する前よりも3次元頂点の個数を減らすことを特徴とする請求項1に記載のマッチング装置。
- 前記第1特徴量を抽出するために用いる第1特徴点を追加する処理として、
前記3次元メッシュにおいて3次元頂点が形成する面を正面で見た状態のテクスチャから3次元特徴点を抽出し、当該3次元特徴点が前記レンダリング画像上にレンダリングされた点を、第1特徴点に対して前記追加するものとして用いることを特徴とする請求項1に記載のマッチング装置。 - 前記追加する処理では、前記3次元特徴点を抽出するテクスチャが固有の柄や模様に関するものであって、抽出された特徴点によるマッチング精度の確保に寄与するものであることを特徴とする請求項5に記載のマッチング装置。
- 前記第1特徴量を抽出するために用いる第1特徴点を削減する処理として、
前記3次元メッシュの3次元頂点の全てのうち、面との関係で鋭い凸形状の頂部にあると判定される一部分の3次元頂点のみから、前記第1特徴点を得るようにすることを特徴とする請求項1に記載のマッチング装置。 - 前記第1特徴量を抽出するために用いる第1特徴点を削減する処理として、
前記3次元メッシュの3次元頂点の全てのうち、前記カメラの姿勢において、当該3次元メッシュに対応する構造物の位置関係から遮蔽されていないと判定される一部分の3次元頂点のみから、前記第1特徴点を得るようにすることを特徴とする請求項1に記載のマッチング装置。 - 前記第1特徴量を抽出するために用いる第1特徴点を削減する処理として、
前記3次元メッシュの3次元頂点の全てのうち、前記カメラの姿勢におけるカメラ位置からの距離が近いと判定される一部分の3次元頂点のみから、前記第1特徴点を得るようにすることを特徴とする請求項1に記載のマッチング装置。 - 前記第1特徴量を抽出する処理と、前記第2特徴点を検出する処理と、前記第2特徴量を抽出する処理と、前記第1特徴量と前記第2特徴量とをマッチングする処理と、に相当する処理を、深層学習ネットワークによって陰に行うことにより、当該マッチングの結果を特徴点同士のマッチング結果として得ることを特徴とする請求項1に記載のマッチング装置。
- 3次元頂点と3次元頂点が形成する面のテクスチャとの情報で構成される3次元メッシュと、撮影画像との間で特徴量のマッチングを行う、コンピュータによって実行される方法であって、
前記撮影画像を撮影したカメラの姿勢を推定した基準カメラ姿勢において前記3次元メッシュをレンダリングしてレンダリング画像を得て、当該レンダリング画像より前記3次元メッシュの3次元頂点に対応する2次元位置の全部または一部を第1特徴点として、当該第1特徴点から第1特徴量を抽出する処理と、
前記撮影画像から第2特徴点を検出し、当該第2特徴点から第2特徴量を抽出する処理と、
前記第1特徴量と前記第2特徴量とをマッチングする処理と、をコンピュータが実行することを特徴とする方法。 - コンピュータを請求項1ないし10のいずれかに記載のマッチング装置として機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022063059A JP2023153664A (ja) | 2022-04-05 | 2022-04-05 | マッチング装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022063059A JP2023153664A (ja) | 2022-04-05 | 2022-04-05 | マッチング装置、方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023153664A true JP2023153664A (ja) | 2023-10-18 |
Family
ID=88349677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022063059A Pending JP2023153664A (ja) | 2022-04-05 | 2022-04-05 | マッチング装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023153664A (ja) |
-
2022
- 2022-04-05 JP JP2022063059A patent/JP2023153664A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110458939B (zh) | 基于视角生成的室内场景建模方法 | |
JP5430456B2 (ja) | 幾何特徴抽出装置、幾何特徴抽出方法、及びプログラム、三次元計測装置、物体認識装置 | |
CN111899328B (zh) | 一种基于rgb数据与生成对抗网络的点云三维重建方法 | |
US20030014224A1 (en) | Method and apparatus for automatically generating a site model | |
CN109815847B (zh) | 一种基于语义约束的视觉slam方法 | |
KR20130138247A (ko) | 신속 3d 모델링 | |
Hassan et al. | Integration of laser scanning and photogrammetry in 3D/4D cultural heritage preservation–a review | |
Gao et al. | Ground and aerial meta-data integration for localization and reconstruction: A review | |
CN112465849B (zh) | 一种无人机激光点云与序列影像的配准方法 | |
CN113706689B (zh) | 一种基于Hololens深度数据的装配指导方法及系统 | |
Kim et al. | Interactive 3D building modeling method using panoramic image sequences and digital map | |
KR20230150867A (ko) | 얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측 | |
CN116958434A (zh) | 多视图三维重建方法、测量方法及系统 | |
Xie et al. | Automatic indoor building reconstruction from mobile laser scanning data | |
CN111709269A (zh) | 一种深度图像中基于二维关节信息的人手分割方法和装置 | |
Tanaka et al. | Single-Image Camera Calibration for Furniture Layout Using Natural-Marker-Based Augmented Reality | |
JP2023153664A (ja) | マッチング装置、方法及びプログラム | |
EP4036859A1 (en) | A system and method for providing improved geocoded reference data to a 3d map representation | |
CN115272450A (zh) | 一种基于全景分割的目标定位方法 | |
Goebbels et al. | Quality enhancement techniques for building models derived from sparse point clouds | |
Houshiar et al. | Pointo-a Low Cost Solution To Point Cloud Processing | |
Sourimant et al. | Gps, gis and video fusion for urban modeling | |
CN114241013B (zh) | 物体锚定方法、锚定系统及存储介质 | |
KR101179969B1 (ko) | 마커 검출 장치 및 방법 | |
Ward et al. | Measuring the Cityscape: A Pipeline from Street-Level Capture to Urban Quantification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220615 |