JP2015133101A - Method for constructing descriptor for image of scene - Google Patents
Method for constructing descriptor for image of scene Download PDFInfo
- Publication number
- JP2015133101A JP2015133101A JP2014249654A JP2014249654A JP2015133101A JP 2015133101 A JP2015133101 A JP 2015133101A JP 2014249654 A JP2014249654 A JP 2014249654A JP 2014249654 A JP2014249654 A JP 2014249654A JP 2015133101 A JP2015133101 A JP 2015133101A
- Authority
- JP
- Japan
- Prior art keywords
- descriptor
- image
- pixel
- angular
- vanishing point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/176—Urban or other man-made structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、包括的には、コンピュータービジョンに関し、より詳細には、視点不変オブジェクトマッチングに用いることができるマンハッタンシーンをマッチングするためのグローバル記述子に関する。 The present invention relates generally to computer vision, and more particularly to global descriptors for matching Manhattan scenes that can be used for viewpoint invariant object matching.
視点不変オブジェクトマッチングは、回転、平行移動、照明、クロッピング、及びオクルージョン等の要因によって引き起こされる画像歪に起因して難しい。視覚的シーンの理解は、コンピュータービジョンにおいてよく知られた問題である。特に、2次元(2D)画像平面上への投影に基づく3Dシーン内のオブジェクトの識別は、手に負えそうもない課題を提起する。 Viewpoint invariant object matching is difficult due to image distortion caused by factors such as rotation, translation, lighting, cropping, and occlusion. Understanding visual scenes is a well-known problem in computer vision. In particular, the identification of objects in a 3D scene based on projection onto a two-dimensional (2D) image plane presents an unmanageable challenge.
人間の視覚野は、視野内の個々のオブジェクトを識別するために物理的なオブジェクト境界におけるエッジの存在に大きく依拠していることが知られている。エッジ、テクスチャ、及び色からの手がかりを用いて、脳は、通例、視点にかかわらず3次元(3D)シーンを視覚化して理解することができる。これとは対照的に、現代のコンピューターは、視覚野等の高レベルの処理アーキテクチャが欠如しているので、低レベルの視点不変性をシーン記述子内に明示的に組み込まなければならない。 It is known that the human visual cortex relies heavily on the presence of edges at physical object boundaries to identify individual objects within the field of view. Using clues from edges, textures, and colors, the brain can typically visualize and understand a three-dimensional (3D) scene regardless of viewpoint. In contrast, modern computers lack high-level processing architectures such as the visual cortex, so low-level viewpoint invariance must be explicitly incorporated into the scene descriptor.
シーンの理解のための方法は、2つの広い部類を含む。1つの部類は、回転、平行移動、及び他の視点の変化にかかわらず正確に検出することができるローカルなキーポイントに依拠したものである。この場合、視点の変化に対して不変のままである、勾配、テクスチャ、色、及び他の情報のローカルな構造を捕捉するために、それらのキーポイント用の記述子が構成される。スケール不変特徴変換(SIFT)及び高速化ロバスト特徴(SURF)が、2つのキーポイントベースの記述子の例である。 Methods for scene understanding include two broad categories. One class relies on local keypoints that can be accurately detected regardless of rotation, translation, and other viewpoint changes. In this case, descriptors for those keypoints are constructed to capture local structures of gradients, textures, colors, and other information that remain unchanged with respect to viewpoint changes. Scale-invariant feature transform (SIFT) and accelerated robust feature (SURF) are examples of two keypoint-based descriptors.
もう1つの部類の方法は、グローバルスコープにおいて特徴を捕捉することを伴う。ローカルな平均化と、色及び勾配の分布の他の統計的な性質を用いることとによって正確さが得られる。このグローバルな手法は、勾配ヒストグラム(HOG)及びGIST記述子において用いられる。 Another class of methods involves capturing features in a global scope. Accuracy is obtained by local averaging and using other statistical properties of the color and gradient distribution. This global approach is used in gradient histograms (HOG) and GIST descriptors.
ローカルな手法及びグローバルな手法は、相補的な特徴を有する。ローカル記述子は、対応するローカルキーポイントにとっては正確かつ弁別的であるが、より大きなオブジェクトについてのグローバルな構造的手がかりが欠けており、それらのキーポイントに関連付けられた幾つかのローカル記述子間の対応関係を確立した後にしか推測することができない。グローバル記述子は、画像についての集約的な統計情報を捕捉する傾向があるが、シーンの理解に関係していることが多い特定の幾何学的手がかり又は構造的手がかりを含んでいない。 Local and global approaches have complementary features. Local descriptors are accurate and discriminatory for the corresponding local keypoints, but lack global structural cues for larger objects, and between several local descriptors associated with those keypoints Can only be guessed after establishing the corresponding relationship. Global descriptors tend to capture aggregate statistical information about the image, but do not include specific geometric or structural cues that are often related to scene understanding.
多くの人工シーンは、マンハッタンワールド仮説を満たす。この仮説では、ライン(line:線)は、3つの主直交方向に沿って配向されている。マンハッタン幾何学の非常に重要な側面は、優性方向を有する全ての平行なラインが2D画像平面内の消失点において交差するということである。3つの直交方向が存在しない場合があるシーンでは、ラインは、例えば垂直若しくは水平な単一の優性方向を満たすことができるか、又は、例えば、室内の家具のオブジェクトといった複数の優性非直交方向を含むことができる。 Many artificial scenes satisfy the Manhattan World Hypothesis. In this hypothesis, the line is oriented along three main orthogonal directions. A very important aspect of Manhattan geometry is that all parallel lines with dominant directions intersect at a vanishing point in the 2D image plane. In scenes where there may not be three orthogonal directions, a line can satisfy a single dominant direction, for example vertical or horizontal, or it can have multiple dominant non-orthogonal directions, for example, indoor furniture objects. Can be included.
本発明の実施の形態は、マンハッタンシーンのためのグローバル記述子を提供する。マンハッタンシーンは、通常は3つの直交方向に優性方向性配向を有する。したがって、優性方向にある3Dにおける全ての平行なエッジは、2D画像平面内の対応する消失点(VP)において例外なく交差する。全てのシーンエッジは、VPから視認されるような相対的な空間ロケーション及び強度を保持する。グローバル記述子は、消失点の周囲のマンハッタンシーン内の画像エッジの空間ロケーション及び輝度に基づいている。本方法は、記述子当たり8キロビット及び画像当たり3つまでの記述子(各VPにつき1つ)を用いて、SIFT等のローカルキーポイント記述子と比較して、マッチングするための効率的な記憶及びデータ転送を提供する。 Embodiments of the present invention provide global descriptors for Manhattan scenes. Manhattan scenes typically have a dominant directional orientation in three orthogonal directions. Thus, all parallel edges in 3D that are in the dominant direction intersect without exception at the corresponding vanishing point (VP) in the 2D image plane. All scene edges retain their relative spatial location and intensity as viewed from the VP. The global descriptor is based on the spatial location and brightness of the image edges in the Manhattan scene around the vanishing point. The method uses 8 kilobits per descriptor and up to 3 descriptors per image (one for each VP), compared to local keypoint descriptors such as SIFT for efficient storage. And provide data transfer.
方法が、画像を横断する平行なラインが消失点において交差するとき、それらのラインの角度順序(angular ordering)を厳密に維持することによってグローバル記述子を構成する。消失点で交わるこれらの平行なラインの相対的な長さ及び相対的な角度(配向又は方向)は、ほぼ同じである。 The method constructs a global descriptor by maintaining the strict angular ordering of parallel lines across the image as they intersect at the vanishing point. The relative length and relative angle (orientation or direction) of these parallel lines that meet at the vanishing point are approximately the same.
マンハッタンシーンのためのコンパクトなグローバル画像記述子は、消失方向に沿ったエッジの相対的なロケーション及び強度を捕捉する。この記述子を構成するために、エッジマップが消失点ごとに求められる。このエッジマップは、消失点について測定された角度又は方向の範囲にわたるエッジ強度を符号化する。 A compact global image descriptor for Manhattan scenes captures the relative location and intensity of edges along the disappearance direction. To construct this descriptor, an edge map is determined for each vanishing point. This edge map encodes the edge strength over the range of angles or directions measured for the vanishing point.
オブジェクトマッチングのために、2つのシーンからの記述子が、複数の候補のスケール及び変位にわたって比較される。マッチング性能は、ヒストグラムの形式のスケール−変位プロットの極大値におけるエッジ形状を比較することによって改良される。 For object matching, descriptors from two scenes are compared across multiple candidate scales and displacements. Matching performance is improved by comparing the edge shape at the maximum of the scale-displacement plot in the form of a histogram.
本発明の実施形態は、マンハッタンシーン100のためのグローバル記述子250を提供する。マンハッタンシーンは、通常は3つの直交方向に優性方向性配向を有し、或る優性方向にある3Dにおける全ての平行なエッジは、2D画像平面内の対応する消失点(VP101)で交差する。マンハッタンシーンは、屋内のものとすることもできるし、屋外のものとすることもでき、任意の数のオブジェクトを含むことができることに留意されたい。
Embodiments of the present invention provide a
記述子250は、カメラ110によって取得された画像120から構成される(500)。これらの記述子は、次に、オブジェクトマッチング800又は他の関連したコンピュータービジョンアプリケーションに用いることができる。これらの構成及びマッチングは、当該技術分野において知られているようにバスによってメモリ及び入力/出力インターフェースに接続されたプロセッサ150において実行することができる。
消失点ベースの画像記述子
記述子は、同じオブジェクトの複数の画像120(ビュー)についての以下の認識に基づいている。第1に、実際の3Dシーンにおける平行なラインは、それらのラインが消失点で交差するとき、2D画像にわたって(反転するまで(up to an inversion))それらの角度順序を厳密に維持する。第2に、消失点で交わる平行なラインの相対的な長さ及び相対的な角度は、ほぼ同じである。これらの認識は、記述子を構成するのに、消失方向に沿って配向されたエッジの相対的なロケーション及び強度を用いることができることを示唆している。記述子250を構成する(500)こと、及びこれらの記述子をマッチングに用いることに関与するステップを以下に説明する。
Vanishing Point Based Image Descriptor The descriptor is based on the following perception of multiple images 120 (views) of the same object. First, parallel lines in an actual 3D scene maintain their angular order strictly across the 2D image (up to an inversion) as they intersect at the vanishing point. Second, the relative lengths and relative angles of the parallel lines that meet at the vanishing point are approximately the same. These recognitions suggest that the relative location and strength of edges oriented along the disappearance direction can be used to construct the descriptor. The steps involved in configuring (250) the
各消失点における記述子のシーディング
消失点は、2D画像100が入手可能である3Dシーンにおいて平行であるライン102を投影したものの交点として定義される。VPは、3Dシーンにおける平行なラインによって与えられる方向の無限遠にある3D点の2D投影とみなすことができる。
Descriptor seeding at each vanishing point The vanishing point is defined as the intersection of projections of
一般に、平行なラインによって決定される複数のシーン方向に対応する多くの消失点が存在する。しかしながら、多くの人工の構造、例えば、都市景観は、規則的な立方形の幾何学的形状を有する。したがって、通常は3つの消失点が画像投影から得られ、これらのうちの2つが図1に示されている。 In general, there are many vanishing points corresponding to a plurality of scene directions determined by parallel lines. However, many man-made structures, such as cityscapes, have a regular cubic geometry. Thus, typically three vanishing points are obtained from the image projection, two of which are shown in FIG.
VPは、コンピュータービジョンにおいて、画像修正、カメラ較正、及び関連した問題に用いられてきた。VPの識別は、基礎となる3Dシーンにおける平行なラインがラベル付けされている場合には簡単であるが、ラベル付けが利用可能でないときはより難しくなる。消失点を求めるための方法には、エッジをVPに割り当てるための、エッジの凝集クラスタリング、1Dハフ変換、マルチレベルランダムサンプルコンセンサス(RANSAC)ベースの手法、及び期待値最大化法(EM)が含まれる。 VP has been used in computer vision for image correction, camera calibration, and related problems. VP identification is simple when parallel lines in the underlying 3D scene are labeled, but becomes more difficult when labeling is not available. Methods for determining vanishing points include edge aggregation clustering, 1D Hough transform, multi-level random sample consensus (RANSAC) based method, and expectation maximization method (EM) for assigning edges to VPs It is.
図2に示すように、VPロケーション200は、
記述子250は、各VPに収束するエッジの相対的なロケーション及び強度を符号化することによって構成される。したがって、記述子は、関数D:Θ→R+とみなすことができ、その定義域は、VPに収束するエッジの角度配向を含み、その値域は、正しい順序によるこれらのエッジの強度の測定量を含む。記述子は、以下で説明する方法500に従ってVPごとに求められる。
エッジロケーションの符号化
ライン検出手順は、多くの場合、途切れたライン及びクロッピングされたラインを生成し、重要なエッジを見つけ損ない、偽のラインを生成する。したがって、図3に示すように、正確さを得るために、画像エッジに適合するラインではなく、エッジピクセルの輝度を直接取り扱うことにする。消失点の周囲のエッジの角度ロケーションの関数としてのエッジ強度の表現は、エッジマップ300と呼ばれる。具体的には、ピクセルが記述子を構成するための消失点に従って配向されていることを勾配が示すとき、図2に示すように、角度ビン202内のピクセルの輝度を記憶し、個別に合計する。これを行うために、図5に示すように、最初に、画像内のあらゆるピクセルについて、2Dベクトルである勾配g(x,y)を求める(510)。
Edge Location Coding Line detection procedures often generate broken and cropped lines, fail to find important edges, and generate false lines. Therefore, as shown in FIG. 3, to obtain accuracy, we will deal directly with the brightness of the edge pixels, not the lines that match the image edges. The representation of the edge strength as a function of the angular location of the edge around the vanishing point is called the
画像内のロケーション(x,y)におけるピクセルの勾配の方向ψg(x,y)511は、大きな輝度変化がそれに沿って存在する方向を指す。勾配の大きさ|g(x,y)|512は、その勾配方向に沿ったそのピクセルにおける輝度差を指す。 The pixel gradient direction ψ g (x, y) 511 at location (x, y) in the image refers to the direction along which a large luminance change exists. The gradient magnitude | g (x, y) | 512 refers to the luminance difference at the pixel along the gradient direction.
次に、以下のように、消失点VP
ピクセル角度(方向)が、
エッジ強度の符号化
人間の視覚系に関する研究は、エッジの相対的な顕著さ(prominence)が、弁別的なオブジェクトパターンを視覚化する際に役割を果たすことを示唆している。画像エッジの顕著さは、エッジの長さ、厚さ、及びエッジに対して垂直な方向の横変化(輝度及びフォールオフ特性)の関数である。
Edge Strength Coding Research on the human visual system suggests that the relative prominence of edges plays a role in visualizing discriminatory object patterns. Image saliency is a function of edge length, thickness, and lateral change (luminance and falloff characteristics) in a direction perpendicular to the edge.
エッジ強度メトリックを構成する幾つかの方法がある。例えば、エッジ検出器が、特定のVPの記述子を構成するのに用いられる場合、強度は、エッジの長さ及びエッジに沿ったピクセル単位の累積勾配の関数とすることができる。しかしながら、上記で説明したように、エッジ検出器を用いることは、常に正確であるとは限らない。したがって、ピクセル単位の勾配のクラスタリング又は量子化に基づく方法が好ましい。このプロセスは、以下で詳細に説明する。 There are several ways to construct the edge strength metric. For example, if an edge detector is used to construct a descriptor for a particular VP, the intensity can be a function of the length of the edge and the cumulative gradient in pixels along the edge. However, as explained above, using an edge detector is not always accurate. Therefore, methods based on pixel-by-pixel gradient clustering or quantization are preferred. This process is described in detail below.
ピクセルセットPjが角度ビン202に一様に量子化されるとき、エッジ強度を符号化する1つの方法は、各角度量子化ビン内の勾配の大きさ|g(x,y)|512の合計を求めることである。これを行うために、図2に示すように、端点(rk,mincosφk,rk,minsinφk)及び(rk,maxcosφk,rk,maxsinφk)を有するあらゆる角度量子化ビンの中央を通過するラインセグメント(line segment:線分)203を考える。
When pixel set P j is uniformly quantized into
この場合、記述子250は、以下の総和となる。
正確さを得るために、双一次補間が、サブピクセルロケーションにおけるピクセル勾配を得るのに用いられる。記述子D(k)250の構成500は、サブピクセル解像度において実行される。各角度ビン内のエッジ強度を求めることによって上記のように得られた記述子の例が、図4において、同じ(建物)オブジェクト401の2つの異なるビューについて示されている。対応するグラフは、正規化された輝度の合計をビンインデックスの関数として示している。
To obtain accuracy, bilinear interpolation is used to obtain the pixel gradient at the subpixel location. The
構成方法
図5は、構成方法の基本的なステップを要約したものである。画像120内の各ピクセルについて、勾配の方向511及び大きさ512を求めることにする。次に、消失点と一致した方向を有する勾配のセット521が求められる。消失点は、最大3つ存在し得る。次に、各セットについて勾配の大きさが個別に合計され、エッジ強度として符号化されて(530)、各消失点の記述子250が得られる。
Configuration Method FIG. 5 summarizes the basic steps of the configuration method. For each pixel in the
射影変換
グローバル記述子250を構成すること(500)の背後にある本発明者らの動機は、異なる視点から取得された画像内のオブジェクトのマッチング800を実行することである。各画像は、同じ実世界のシーンの2D投影であるので、画像の対における対応するキーポイント又はエッジ間には、通常、幾何学的な関係が存在する。例えば、構成しているものの平坦な正面の画像間にはホモグラフィー関係が存在する。本発明者らの認識は、同じオブジェクトの画像について求められた記述子D(k)250間にアフィン対応関係が存在することを示唆している。
Projective Transformation Our motivation behind constructing the global descriptor 250 (500) is to perform a matching 800 of objects in images obtained from different viewpoints. Since each image is a 2D projection of the same real-world scene, there is usually a geometric relationship between corresponding keypoints or edges in the image pair. For example, there is a homography relationship between the flat front images of the composition. Our recognition suggests that there is an affine correspondence between descriptors D (k) 250 determined for images of the same object.
以下では、この認識が理論的正当性を有することを説明する。特に、記述子を構成している(500)間のビニングステップにおいて用いられる画像ライン(エッジ)間の角度の変換が近似的にアフィンであることを示す。 In the following, it is explained that this recognition has theoretical validity. In particular, it shows that the transformation of the angle between the image lines (edges) used in the binning step between (500) constituting the descriptor is approximately affine.
図6に示すように、消失点を通過するラインの「束(pencil)」からなる同じシーンの2つの画像(ビュー)を考える。第1のビューの消失点は原点に位置しているものとする。同種の表現を用いると、x軸及びy軸は、ex=(010)T及びey=(100)Tによって与えられる。ここで、Tは転置演算子である。これらのベクトルを用いると、任意のラインlλは、以下のように表される。
一般性を失うことなく、検討されている相互角(inter−angle)は、x軸とlλとの間の角度であると仮定する。θλ=tan−1(−λ)であることに留意されたい。本発明者らの目標は、x軸とlλとの間の角度が、一方の画像から他方の画像へ近似的なアフィン変換を受けることを示すことである。これを示すために、2つのビュー間の3×3ホモグラフィーを、行列Hを用いて示すことにする。一般に、ホモグラフィーの下では、消失点は、もはや第2のビューの原点にはなく、Hexは、もはやx軸に沿っていない。ここで、図6に示すように、消失点を平行移動させて原点に戻すとともにHexを回転させてx軸に戻す別の3×3行列Tによって与えられる変換を選ぶことにする。 Without loss of generality, mutual angle being considered (inter-angle) is assumed to be the angle between the x axis and l lambda. Note that θ λ = tan −1 (−λ). Our goal is to show that the angle between the x-axis and l λ undergoes an approximate affine transformation from one image to the other. To illustrate this, a 3 × 3 homography between two views will be shown using the matrix H. In general, under homography, the vanishing point is no longer at the origin of the second view, and He x is no longer along the x axis. Here, as shown in FIG. 6, the transformation given by another 3 × 3 matrix T is selected which translates the vanishing point and returns it to the origin, and rotates He x to return to the x axis.
lλのTH変換をlγによって示し、lγとx軸との間の角度をθγによって示すことにする。この場合、以下の式となる。
小さな相互角の仮定を用いると、2次の項θγθλは、無視できるほど小さくなる。この交差項を無視した場合、θλからθγへの変換は、近似的にアフィンとなる。 Using a small reciprocal angle assumption, the second order term θ γ θ λ is negligibly small. If this cross term is ignored, the conversion from θ λ to θ γ is approximately affine.
記述子マッチング
マンハッタンシーンにおけるオブジェクトは、3つのVPまで有することができ、したがって、3つの記述子まで有することができる。したがって、事前の配向情報なしで2つの視点から見えるオブジェクトをマッチングすることは、9対までのマッチング操作を伴う。上記で説明したように、角度エッジロケーションは、視点の変更を伴う近似的なアフィン変換を受ける。したがって、本発明者らは、マッチングされている記述子の対におけるエッジ強度の相対的な形状を比較する前にこの変換を反転することを提案する。この反転ステップは、幾つかの候補のスケール及び変位、すなわち、幾つかの候補のアフィン変換を用いて実行される。これらの候補のアフィン変換から、優性アフィン変換(スケール−変位)対を選ぶことができる。方法800が、以下で説明するように記述子を比較するのに用いられる。
Descriptor Matching An object in a Manhattan scene can have up to 3 VPs and thus can have up to 3 descriptors. Therefore, matching objects visible from two viewpoints without prior orientation information involves up to nine matching operations. As explained above, angular edge locations undergo an approximate affine transformation with a change in viewpoint. We therefore propose to invert this transformation before comparing the relative shape of edge strengths in matched descriptor pairs. This inversion step is performed using several candidate scales and displacements, ie several candidate affine transformations. A dominant affine transformation (scale-displacement) pair can be selected from these candidate affine transformations.
エッジに関する対応マッピング
視点間で記述子を平行移動させる近似的なアフィン変換を求めるために、正しい対応関係の下では、同一平面上のエッジの対は、スケール−変位対(s,d)によって与えられる近似値に等しいアフィンパラメーターを生成するということを利用する。したがって、エッジの対の(s,d)空間におけるハフ変換型投票手順の結果、真のスケールs*及び変位d*における極大値が得られる。
Corresponding mapping for edges To find an approximate affine transformation that translates descriptors between viewpoints, under the correct correspondence, a pair of coplanar edges is given by a scale-displacement pair (s, d) To generate an affine parameter equal to the approximated value. Therefore, the Hough transform type voting procedure in the (s, d) space of the edge pair results in a maximum value at the true scale s * and displacement d * .
複数の極大値は、オブジェクトが、VP方向軸によってサポートされた複数の平面を有するときに生じる。正確さ及び効率性を得るために、顕著なエッジが、それらのエッジ強度に基づいて識別される。指定された百分位数の閾値よりも大きな強度を有するエッジ上のピクセルが選択される。さらに、エッジオクルージョンに対する正確さを得るために、密接に近接した角度範囲内のエッジのみが票を投じるために対にされ、例えば、各顕著なエッジがC個の最も近いエッジと対にされる。 Multiple maxima occur when an object has multiple planes supported by the VP direction axis. In order to obtain accuracy and efficiency, prominent edges are identified based on their edge strength. Pixels on the edge that have an intensity greater than the specified percentile threshold are selected. In addition, to obtain accuracy for edge occlusion, only edges within a close range of angles are paired for voting, eg, each prominent edge is paired with C nearest edges. .
記述子D1(k),1≦k≦Kは、N1個のピーク対(ki、k’i),1≦i≦N1のセットを生成することができる。同様に、D2(m)は、N2個のピーク対(mj、m’j),1≦j≦N2のセットを生成する。これらの識別されたピークの対は、2つのセット間でクロスマッピングされ、
図7に示すように、(s,d)票の粗いヒストグラム700を、ここでは、極大値(s*,d*)を突き止めるのに用いることができる。このヒストグラムは、2つのVPベースの記述子が最良の一致を有するスケール及び変位を識別する。極大値は、オブジェクトの2つのビューにおけるエッジ間の関係を提供する。極大値が含む票が過度に少ない場合、その(s*,d*)対について不一致が宣言される。極大値のいずれもが十分な票を含んでいない場合、それらの記述子は同じオブジェクトを表していない。
As shown in FIG. 7, a
したがって、各記述子は、それらの記述子のスケール及び変位が同一となるように変更される。次に、第1の記述子におけるピークの形状と第2の記述子における対応するピークの形状との差が求められ、この差が閾値未満であるとき、2つの画像間の一致を示すことができる。 Accordingly, each descriptor is changed so that the scale and displacement of the descriptors are the same. Next, the difference between the shape of the peak in the first descriptor and the shape of the corresponding peak in the second descriptor is determined, and when this difference is less than a threshold, it indicates a match between the two images. it can.
マッチング方法
図8は、マッチング方法800の基本的なステップを要約したものである。画像801及び802について、それぞれの記述子811及び812が、上記で説明したように構成される(500)。ピーク821及び822が識別され(820)、ヒストグラム700の票が生成される(830)。これらのピークは、2つのVPベースの記述子が最良の一致を有するスケール及び変位を識別する。
Matching Method FIG. 8 summarizes the basic steps of the
記述子は、類似したシーンの画像を取り出すために画像のデータベースへのクエリとして用いることができることにも留意すべきである。 It should also be noted that the descriptor can be used as a query to a database of images to retrieve images of similar scenes.
対応するエッジにおける形状マッチング
各極大値(s*,d*)において、比較されている2つの記述子におけるエッジ強度プロット、例えば、図4のプロットのローカルな形状を利用して、マッチングプロセスを改良することができる。本質的には、スケーリングファクターs*及び変位d*を補償した後、次に残っているものは、(s*,d*)に投票したエッジ対の近傍におけるエッジ強度プロットの形状を比較することである。これを行う方法は幾つかある。以下に1つの実施形態を説明する。
a)図9に示すように、一致の品質を測定するためのメトリックを構成するために、各顕著なピークについて以下のステップを実行する。
b)第1の記述子のピークの角度近傍における領域を考える。
c)この近傍における累積エッジ強度ベクトルを求め、全てのエッジ強度の合計が1になるようにこのベクトルを正規化する。
d)第2の記述子における各マッチングする顕著なピークについて、このプロセスを繰り返す。
e)各記述子から1つずつ取られたマッチングするピークの各対について、正規化された累積エッジ強度ベクトル間の絶対距離を求める。
f)ステップ(d)で得られた絶対距離が、場合によっては複数のビンから生成された全てのマッチングするピーク対にわたって平均化され、閾値と比較される。
g)正規化された累積エッジ強度ベクトル間の平均距離が上記閾値未満である場合、2つの記述子間の一致が宣言される。
Shape Matching at Corresponding Edges Each local maxima (s * , d * ) improves the matching process by utilizing the edge strength plots in the two descriptors being compared, eg the local shape of the plot of FIG. can do. In essence, after compensating for the scaling factor s * and displacement d * , what remains is to compare the shape of the edge strength plots in the vicinity of the edge pair voted for (s * , d * ). It is. There are several ways to do this. One embodiment is described below.
a) As shown in FIG. 9, perform the following steps for each salient peak to construct a metric for measuring the quality of the match.
b) Consider a region near the peak angle of the first descriptor.
c) Find the accumulated edge strength vector in this neighborhood and normalize this vector so that the sum of all edge strengths is 1.
d) Repeat this process for each matching salient peak in the second descriptor.
e) Find the absolute distance between the normalized cumulative edge intensity vectors for each pair of matching peaks taken one by one from each descriptor.
f) The absolute distance obtained in step (d) is averaged over all matching peak pairs, possibly generated from multiple bins, and compared to a threshold value.
g) If the average distance between the normalized cumulative edge strength vectors is less than the threshold, a match between the two descriptors is declared.
Claims (16)
前記方法は、
前記消失点の周囲の角度領域を事前に設定された数の角度量子化ビンに量子化するステップであって、各角度量子化ビンの重心は、前記角度量子化ビンの方向を示す、ステップと、
前記各角度量子化ビンについて、前記画像内のピクセルのピクセル勾配の大きさの合計と、前記角度量子化ビンの前記方向と一致した前記ピクセル勾配の方向とを求めるステップと、
を含み、
前記ステップは、プロセッサにおいて実行される、
シーンの画像の記述子を構成する方法。 A method of constructing a descriptor for an image of a scene, said descriptor being associated with a vanishing point in the image,
The method
Quantizing an angular region around the vanishing point into a predetermined number of angular quantization bins, wherein a centroid of each angular quantization bin indicates a direction of the angular quantization bin; and ,
Determining, for each angular quantization bin, a sum of pixel gradient magnitudes of pixels in the image and a direction of the pixel gradient that matches the direction of the angular quantization bin;
Including
The steps are performed in a processor;
How to construct a scene image descriptor.
請求項1に記載の方法。 The scene is a Manhattan scene with the Manhattan World Hypothesis,
The method of claim 1.
請求項1に記載の方法。 The angular quantization bin is uniform;
The method of claim 1.
前記方向は、前記消失点のロケーションに関して測定される、
請求項1に記載の方法。 The angular quantization bin is determined by clustering the direction of the pixel gradient;
The direction is measured with respect to the location of the vanishing point;
The method of claim 1.
請求項1に記載の方法。 The pixel gradient is determined individually for each pixel,
The method of claim 1.
請求項1に記載の方法。 The pixel gradient is used to determine edge strength by performing edge detection on the image, and to determine the pixel gradient of only the pixels having an edge strength greater than a specified percentile threshold as a peak. Is,
The method of claim 1.
請求項1に記載の方法。 The gradient is determined at subpixel locations.
The method of claim 1.
を更に含む、請求項1に記載の方法。 Comparing a first descriptor composed of two images acquired from different viewpoints of the scene with a second descriptor;
The method of claim 1, further comprising:
を更に含む、請求項8に記載の方法。 Configuring a metric that measures the quality of the matching;
The method of claim 8, further comprising:
所与のスケール及び変位の値に従ってクロスマッピングされた、前記第1の記述子から選ばれたピークの対が前記第2の記述子から選ばれたピークの対に対応するように、スケール−変位プロットを生成するステップと、
前記スケール−変位プロットにおいて1つ又は複数の極大値を識別するステップと、
各極大値における前記スケール及び変位の値を用いて2つの記述子を比較するステップと、
を更に含む、請求項8に記載の方法。 Identifying, from the descriptor of each image, the pixel having an edge strength greater than a specified percentile threshold as a peak;
Scale-displacement such that the peak pair selected from the first descriptor, cross-mapped according to a given scale and displacement value, corresponds to the peak pair selected from the second descriptor. Generating a plot; and
Identifying one or more local maxima in the scale-displacement plot;
Comparing two descriptors using the scale and displacement values at each local maximum;
The method of claim 8, further comprising:
前記記述子の前記スケール及び前記変位が同一となるように各記述子を変更するステップと、
前記第1の記述子における前記ピークと前記第2の記述子における前記ピークとの差を求めるステップと、
前記差が閾値未満であるとき、前記2つの画像間の一致を宣言するステップと、
を更に含む、請求項10に記載の方法。 The comparing step includes:
Changing each descriptor such that the scale and the displacement of the descriptor are the same;
Determining a difference between the peak in the first descriptor and the peak in the second descriptor;
Declaring a match between the two images when the difference is less than a threshold;
The method of claim 10, further comprising:
前記第1の記述子及び前記第2の記述子における対応するピークについて、前記ピークの角度近傍における累積エッジ強度を計算するステップと、
前記ピークの前記角度近傍における前記エッジ強度の合計が1になるように前記累積エッジ強度を正規化するステップと、
前記第1の記述子の前記正規化された累積エッジ強度と前記第2の記述子の前記正規化された累積エッジ強度との間の距離を算出するステップと、
を更に含む、請求項11に記載の方法。 The step of obtaining the difference includes
Calculating a cumulative edge strength near an angle of the peak for corresponding peaks in the first descriptor and the second descriptor;
Normalizing the cumulative edge strength so that the sum of the edge strengths near the angle of the peak is 1.
Calculating a distance between the normalized cumulative edge strength of the first descriptor and the normalized cumulative edge strength of the second descriptor;
The method of claim 11, further comprising:
を更に含む、請求項1に記載の方法。 Retrieving a similar image from a database of images based on the descriptor;
The method of claim 1, further comprising:
ここで、前記画像内のロケーション(x,y)におけるピクセルの前記勾配の前記方向がψg(x,y)であり、
θj(x,y)は、前記消失点において水平基準ラインに対してなす角度であり、
τは、前記方向が前記消失点の前記方向と一致していない量に基づいて選択された閾値である、
請求項1に記載の方法。 The vanishing point pixel set is
Where the direction of the gradient of the pixel at location (x, y) in the image is ψ g (x, y);
θ j (x, y) is an angle formed with respect to a horizontal reference line at the vanishing point,
τ is a threshold selected based on the amount that the direction does not match the direction of the vanishing point;
The method of claim 1.
を更に含む、請求項1に記載の方法。
The method of claim 1, further comprising:
ここで、φk,1≦k≦Kjは、前記ビンの前記方向を表し、rは、範囲が半ピクセル解像度で変化する、
請求項15に記載の方法。 The descriptor is
Where φ k , 1 ≦ k ≦ K j represents the direction of the bin, and r varies in range with half-pixel resolution.
The method of claim 15.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/151,962 US20150199573A1 (en) | 2014-01-10 | 2014-01-10 | Global Scene Descriptors for Matching Manhattan Scenes using Edge Maps Associated with Vanishing Points |
US14/151,962 | 2014-01-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015133101A true JP2015133101A (en) | 2015-07-23 |
Family
ID=53485150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014249654A Pending JP2015133101A (en) | 2014-01-10 | 2014-12-10 | Method for constructing descriptor for image of scene |
Country Status (3)
Country | Link |
---|---|
US (1) | US20150199573A1 (en) |
JP (1) | JP2015133101A (en) |
DE (1) | DE102015200260A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200028870A (en) * | 2018-09-07 | 2020-03-17 | (주)위지윅스튜디오 | Method of generating 3-dimensional computer graphics asset based on a single image |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9626585B2 (en) * | 2014-05-13 | 2017-04-18 | The Penn State Research Foundation | Composition modeling for photo retrieval through geometric image segmentation |
CN104376596B (en) * | 2014-11-28 | 2017-05-31 | 北京航空航天大学 | A kind of three-dimensional scene structure modeling and register method based on single image |
CN106709501B (en) * | 2015-11-16 | 2020-03-10 | 中国科学院沈阳自动化研究所 | Scene matching area selection and reference image optimization method of image matching system |
US9904990B2 (en) * | 2015-12-18 | 2018-02-27 | Ricoh Co., Ltd. | Single image rectification |
CN108491826B (en) * | 2018-04-08 | 2021-04-30 | 福建师范大学 | Automatic extraction method of remote sensing image building |
CN112598665B (en) * | 2020-12-31 | 2022-05-06 | 北京深睿博联科技有限责任公司 | Method and device for detecting vanishing points and vanishing lines of Manhattan scene |
US20230245390A1 (en) * | 2022-02-02 | 2023-08-03 | Tencent America LLC | Manhattan layout estimation using geometric and semantic information |
CN114390079B (en) * | 2022-03-24 | 2022-06-03 | 成都秦川物联网科技股份有限公司 | Smart city public place management method and Internet of things system |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6778699B1 (en) * | 2000-03-27 | 2004-08-17 | Eastman Kodak Company | Method of determining vanishing point location from an image |
CN101192269B (en) * | 2006-11-29 | 2012-05-02 | 佳能株式会社 | Method and device for estimating vanishing point from image, computer program and its storage medium |
US8938129B2 (en) * | 2012-04-30 | 2015-01-20 | Samsung Electronics Co., Ltd. | Display system with edge map conversion mechanism and method of operation thereof |
US20140270479A1 (en) * | 2013-03-15 | 2014-09-18 | Sony Corporation | Systems and methods for parameter estimation of images |
-
2014
- 2014-01-10 US US14/151,962 patent/US20150199573A1/en not_active Abandoned
- 2014-12-10 JP JP2014249654A patent/JP2015133101A/en active Pending
-
2015
- 2015-01-12 DE DE102015200260.8A patent/DE102015200260A1/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200028870A (en) * | 2018-09-07 | 2020-03-17 | (주)위지윅스튜디오 | Method of generating 3-dimensional computer graphics asset based on a single image |
KR102215315B1 (en) * | 2018-09-07 | 2021-02-15 | (주)위지윅스튜디오 | Method of generating 3-dimensional computer graphics asset based on a single image |
Also Published As
Publication number | Publication date |
---|---|
US20150199573A1 (en) | 2015-07-16 |
DE102015200260A1 (en) | 2015-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443836B (en) | Point cloud data automatic registration method and device based on plane features | |
JP2015133101A (en) | Method for constructing descriptor for image of scene | |
Yang et al. | Automated registration of dense terrestrial laser-scanning point clouds using curves | |
WO2015161816A1 (en) | Three-dimensional facial recognition method and system | |
US9767383B2 (en) | Method and apparatus for detecting incorrect associations between keypoints of a first image and keypoints of a second image | |
Urban et al. | Finding a good feature detector-descriptor combination for the 2D keypoint-based registration of TLS point clouds | |
CN109740659B (en) | Image matching method and device, electronic equipment and storage medium | |
Oxholm et al. | The scale of geometric texture | |
Ghannam et al. | Cross correlation versus mutual information for image mosaicing | |
CN108960267A (en) | System and method for model adjustment | |
Andaló et al. | Efficient height measurements in single images based on the detection of vanishing points | |
Huang et al. | Multimodal image matching using self similarity | |
Teixeira et al. | Epipolar based light field key-location detector | |
Paudel et al. | Localization of 2D cameras in a known environment using direct 2D-3D registration | |
CN106056599B (en) | A kind of object recognition algorithm and device based on Object Depth data | |
KR20160049639A (en) | Stereoscopic image registration method based on a partial linear method | |
JP6218237B2 (en) | Image conversion program, apparatus and method for parallelizing photographed image | |
WO2017042852A1 (en) | Object recognition appratus, object recognition method and storage medium | |
Weinmann et al. | Fast and accurate point cloud registration by exploiting inverse cumulative histograms (ICHs) | |
Soh et al. | A feature area-based image registration | |
Mills | Relative camera rotation from a single oriented correspondence | |
Chen et al. | Stereo with zooming | |
Mayer | Issues for image matching in structure from motion | |
Wang et al. | Fused pose estimation using geometric and texture information | |
Zhen et al. | An Accurate Image Matching Algorithm Based on Multiple Constrains |