JP2015133101A - Method for constructing descriptor for image of scene - Google Patents

Method for constructing descriptor for image of scene Download PDF

Info

Publication number
JP2015133101A
JP2015133101A JP2014249654A JP2014249654A JP2015133101A JP 2015133101 A JP2015133101 A JP 2015133101A JP 2014249654 A JP2014249654 A JP 2014249654A JP 2014249654 A JP2014249654 A JP 2014249654A JP 2015133101 A JP2015133101 A JP 2015133101A
Authority
JP
Japan
Prior art keywords
descriptor
image
pixel
angular
vanishing point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014249654A
Other languages
Japanese (ja)
Inventor
シャンタヌ・ラーネ
Shantanu Rane
ロヒット・ナイニ
Naini Rohit
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2015133101A publication Critical patent/JP2015133101A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide global descriptors for matching Manhattan scenes used for viewpoint-invariant object matching.SOLUTION: A descriptor is associated with a vanishing point 101 in an image by first quantizing an angular region around the vanishing point into a preset number of angular quantization bins, and a centroid of each angular quantization bin indicates a direction of the angular quantization bin. For each angular quantization bin, a sum of the magnitude of pixel gradients for pixels in the image at which a direction of the pixel gradient is aligned with the direction of the angular quantization bin is determined. These steps are performed in a processor 150.

Description

本発明は、包括的には、コンピュータービジョンに関し、より詳細には、視点不変オブジェクトマッチングに用いることができるマンハッタンシーンをマッチングするためのグローバル記述子に関する。   The present invention relates generally to computer vision, and more particularly to global descriptors for matching Manhattan scenes that can be used for viewpoint invariant object matching.

視点不変オブジェクトマッチングは、回転、平行移動、照明、クロッピング、及びオクルージョン等の要因によって引き起こされる画像歪に起因して難しい。視覚的シーンの理解は、コンピュータービジョンにおいてよく知られた問題である。特に、2次元(2D)画像平面上への投影に基づく3Dシーン内のオブジェクトの識別は、手に負えそうもない課題を提起する。   Viewpoint invariant object matching is difficult due to image distortion caused by factors such as rotation, translation, lighting, cropping, and occlusion. Understanding visual scenes is a well-known problem in computer vision. In particular, the identification of objects in a 3D scene based on projection onto a two-dimensional (2D) image plane presents an unmanageable challenge.

人間の視覚野は、視野内の個々のオブジェクトを識別するために物理的なオブジェクト境界におけるエッジの存在に大きく依拠していることが知られている。エッジ、テクスチャ、及び色からの手がかりを用いて、脳は、通例、視点にかかわらず3次元(3D)シーンを視覚化して理解することができる。これとは対照的に、現代のコンピューターは、視覚野等の高レベルの処理アーキテクチャが欠如しているので、低レベルの視点不変性をシーン記述子内に明示的に組み込まなければならない。   It is known that the human visual cortex relies heavily on the presence of edges at physical object boundaries to identify individual objects within the field of view. Using clues from edges, textures, and colors, the brain can typically visualize and understand a three-dimensional (3D) scene regardless of viewpoint. In contrast, modern computers lack high-level processing architectures such as the visual cortex, so low-level viewpoint invariance must be explicitly incorporated into the scene descriptor.

シーンの理解のための方法は、2つの広い部類を含む。1つの部類は、回転、平行移動、及び他の視点の変化にかかわらず正確に検出することができるローカルなキーポイントに依拠したものである。この場合、視点の変化に対して不変のままである、勾配、テクスチャ、色、及び他の情報のローカルな構造を捕捉するために、それらのキーポイント用の記述子が構成される。スケール不変特徴変換(SIFT)及び高速化ロバスト特徴(SURF)が、2つのキーポイントベースの記述子の例である。   Methods for scene understanding include two broad categories. One class relies on local keypoints that can be accurately detected regardless of rotation, translation, and other viewpoint changes. In this case, descriptors for those keypoints are constructed to capture local structures of gradients, textures, colors, and other information that remain unchanged with respect to viewpoint changes. Scale-invariant feature transform (SIFT) and accelerated robust feature (SURF) are examples of two keypoint-based descriptors.

もう1つの部類の方法は、グローバルスコープにおいて特徴を捕捉することを伴う。ローカルな平均化と、色及び勾配の分布の他の統計的な性質を用いることとによって正確さが得られる。このグローバルな手法は、勾配ヒストグラム(HOG)及びGIST記述子において用いられる。   Another class of methods involves capturing features in a global scope. Accuracy is obtained by local averaging and using other statistical properties of the color and gradient distribution. This global approach is used in gradient histograms (HOG) and GIST descriptors.

ローカルな手法及びグローバルな手法は、相補的な特徴を有する。ローカル記述子は、対応するローカルキーポイントにとっては正確かつ弁別的であるが、より大きなオブジェクトについてのグローバルな構造的手がかりが欠けており、それらのキーポイントに関連付けられた幾つかのローカル記述子間の対応関係を確立した後にしか推測することができない。グローバル記述子は、画像についての集約的な統計情報を捕捉する傾向があるが、シーンの理解に関係していることが多い特定の幾何学的手がかり又は構造的手がかりを含んでいない。   Local and global approaches have complementary features. Local descriptors are accurate and discriminatory for the corresponding local keypoints, but lack global structural cues for larger objects, and between several local descriptors associated with those keypoints Can only be guessed after establishing the corresponding relationship. Global descriptors tend to capture aggregate statistical information about the image, but do not include specific geometric or structural cues that are often related to scene understanding.

多くの人工シーンは、マンハッタンワールド仮説を満たす。この仮説では、ライン(line:線)は、3つの主直交方向に沿って配向されている。マンハッタン幾何学の非常に重要な側面は、優性方向を有する全ての平行なラインが2D画像平面内の消失点において交差するということである。3つの直交方向が存在しない場合があるシーンでは、ラインは、例えば垂直若しくは水平な単一の優性方向を満たすことができるか、又は、例えば、室内の家具のオブジェクトといった複数の優性非直交方向を含むことができる。   Many artificial scenes satisfy the Manhattan World Hypothesis. In this hypothesis, the line is oriented along three main orthogonal directions. A very important aspect of Manhattan geometry is that all parallel lines with dominant directions intersect at a vanishing point in the 2D image plane. In scenes where there may not be three orthogonal directions, a line can satisfy a single dominant direction, for example vertical or horizontal, or it can have multiple dominant non-orthogonal directions, for example, indoor furniture objects. Can be included.

本発明の実施の形態は、マンハッタンシーンのためのグローバル記述子を提供する。マンハッタンシーンは、通常は3つの直交方向に優性方向性配向を有する。したがって、優性方向にある3Dにおける全ての平行なエッジは、2D画像平面内の対応する消失点(VP)において例外なく交差する。全てのシーンエッジは、VPから視認されるような相対的な空間ロケーション及び強度を保持する。グローバル記述子は、消失点の周囲のマンハッタンシーン内の画像エッジの空間ロケーション及び輝度に基づいている。本方法は、記述子当たり8キロビット及び画像当たり3つまでの記述子(各VPにつき1つ)を用いて、SIFT等のローカルキーポイント記述子と比較して、マッチングするための効率的な記憶及びデータ転送を提供する。   Embodiments of the present invention provide global descriptors for Manhattan scenes. Manhattan scenes typically have a dominant directional orientation in three orthogonal directions. Thus, all parallel edges in 3D that are in the dominant direction intersect without exception at the corresponding vanishing point (VP) in the 2D image plane. All scene edges retain their relative spatial location and intensity as viewed from the VP. The global descriptor is based on the spatial location and brightness of the image edges in the Manhattan scene around the vanishing point. The method uses 8 kilobits per descriptor and up to 3 descriptors per image (one for each VP), compared to local keypoint descriptors such as SIFT for efficient storage. And provide data transfer.

方法が、画像を横断する平行なラインが消失点において交差するとき、それらのラインの角度順序(angular ordering)を厳密に維持することによってグローバル記述子を構成する。消失点で交わるこれらの平行なラインの相対的な長さ及び相対的な角度(配向又は方向)は、ほぼ同じである。   The method constructs a global descriptor by maintaining the strict angular ordering of parallel lines across the image as they intersect at the vanishing point. The relative length and relative angle (orientation or direction) of these parallel lines that meet at the vanishing point are approximately the same.

マンハッタンシーンのためのコンパクトなグローバル画像記述子は、消失方向に沿ったエッジの相対的なロケーション及び強度を捕捉する。この記述子を構成するために、エッジマップが消失点ごとに求められる。このエッジマップは、消失点について測定された角度又は方向の範囲にわたるエッジ強度を符号化する。   A compact global image descriptor for Manhattan scenes captures the relative location and intensity of edges along the disappearance direction. To construct this descriptor, an edge map is determined for each vanishing point. This edge map encodes the edge strength over the range of angles or directions measured for the vanishing point.

オブジェクトマッチングのために、2つのシーンからの記述子が、複数の候補のスケール及び変位にわたって比較される。マッチング性能は、ヒストグラムの形式のスケール−変位プロットの極大値におけるエッジ形状を比較することによって改良される。   For object matching, descriptors from two scenes are compared across multiple candidate scales and displacements. Matching performance is improved by comparing the edge shape at the maximum of the scale-displacement plot in the form of a histogram.

本発明の実施形態によるグローバル記述子が構成される2つの消失点を含むマンハッタンシーンの画像を示す図である。It is a figure which shows the image of the Manhattan scene containing two vanishing points with which the global descriptor by the embodiment of this invention is comprised. 本発明の実施形態による、消失点ロケーションにおいて水平基準ラインに対してなす様々な角度、及び角度量子化ビンを示す概略図である。FIG. 6 is a schematic diagram illustrating various angles and angular quantization bins made with respect to a horizontal reference line at a vanishing point location according to an embodiment of the present invention. 本発明の実施形態によるエッジマップのビニングされたピクセル輝度の概略図である。FIG. 4 is a schematic diagram of binned pixel luminance of an edge map according to an embodiment of the present invention. 本発明の実施形態による建物の2つの異なるビューの角度ビンの図式化されたエッジ強度を示す図である。FIG. 6 shows a diagrammatic edge strength of angle bins of two different views of a building according to an embodiment of the present invention. 本発明の実施形態によるグローバル記述子を構成するための方法の流れ図である。3 is a flowchart of a method for constructing a global descriptor according to an embodiment of the present invention; 本発明の実施形態による2つの画像のアフィン変換の概略図である。FIG. 4 is a schematic diagram of affine transformation of two images according to an embodiment of the present invention. 本発明の実施形態によるスケール−変位プロット上のエッジ強度のヒストグラムである。4 is a histogram of edge strength on a scale-displacement plot according to an embodiment of the present invention. 本発明の実施形態によるグローバル記述子を用いてオブジェクトをマッチングするための方法の流れ図である。3 is a flowchart of a method for matching objects using a global descriptor according to an embodiment of the present invention; 本発明の実施形態によるマッチングの品質を測定するためのメトリックを説明する図である。It is a figure explaining the metric for measuring the quality of the matching by embodiment of this invention.

本発明の実施形態は、マンハッタンシーン100のためのグローバル記述子250を提供する。マンハッタンシーンは、通常は3つの直交方向に優性方向性配向を有し、或る優性方向にある3Dにおける全ての平行なエッジは、2D画像平面内の対応する消失点(VP101)で交差する。マンハッタンシーンは、屋内のものとすることもできるし、屋外のものとすることもでき、任意の数のオブジェクトを含むことができることに留意されたい。   Embodiments of the present invention provide a global descriptor 250 for the Manhattan scene 100. A Manhattan scene usually has a dominant directional orientation in three orthogonal directions, and all parallel edges in 3D in one dominant direction intersect at a corresponding vanishing point (VP101) in the 2D image plane. Note that the Manhattan scene can be indoor or outdoor, and can include any number of objects.

記述子250は、カメラ110によって取得された画像120から構成される(500)。これらの記述子は、次に、オブジェクトマッチング800又は他の関連したコンピュータービジョンアプリケーションに用いることができる。これらの構成及びマッチングは、当該技術分野において知られているようにバスによってメモリ及び入力/出力インターフェースに接続されたプロセッサ150において実行することができる。   Descriptor 250 consists of image 120 acquired by camera 110 (500). These descriptors can then be used for object matching 800 or other related computer vision applications. These configurations and matching can be performed in a processor 150 connected to the memory and input / output interface by a bus as is known in the art.

消失点ベースの画像記述子
記述子は、同じオブジェクトの複数の画像120(ビュー)についての以下の認識に基づいている。第1に、実際の3Dシーンにおける平行なラインは、それらのラインが消失点で交差するとき、2D画像にわたって(反転するまで(up to an inversion))それらの角度順序を厳密に維持する。第2に、消失点で交わる平行なラインの相対的な長さ及び相対的な角度は、ほぼ同じである。これらの認識は、記述子を構成するのに、消失方向に沿って配向されたエッジの相対的なロケーション及び強度を用いることができることを示唆している。記述子250を構成する(500)こと、及びこれらの記述子をマッチングに用いることに関与するステップを以下に説明する。
Vanishing Point Based Image Descriptor The descriptor is based on the following perception of multiple images 120 (views) of the same object. First, parallel lines in an actual 3D scene maintain their angular order strictly across the 2D image (up to an inversion) as they intersect at the vanishing point. Second, the relative lengths and relative angles of the parallel lines that meet at the vanishing point are approximately the same. These recognitions suggest that the relative location and strength of edges oriented along the disappearance direction can be used to construct the descriptor. The steps involved in configuring (250) the descriptors 250 and using these descriptors for matching are described below.

各消失点における記述子のシーディング
消失点は、2D画像100が入手可能である3Dシーンにおいて平行であるライン102を投影したものの交点として定義される。VPは、3Dシーンにおける平行なラインによって与えられる方向の無限遠にある3D点の2D投影とみなすことができる。
Descriptor seeding at each vanishing point The vanishing point is defined as the intersection of projections of parallel lines 102 in the 3D scene where the 2D image 100 is available. A VP can be viewed as a 2D projection of a 3D point at infinity in the direction given by parallel lines in a 3D scene.

一般に、平行なラインによって決定される複数のシーン方向に対応する多くの消失点が存在する。しかしながら、多くの人工の構造、例えば、都市景観は、規則的な立方形の幾何学的形状を有する。したがって、通常は3つの消失点が画像投影から得られ、これらのうちの2つが図1に示されている。   In general, there are many vanishing points corresponding to a plurality of scene directions determined by parallel lines. However, many man-made structures, such as cityscapes, have a regular cubic geometry. Thus, typically three vanishing points are obtained from the image projection, two of which are shown in FIG.

VPは、コンピュータービジョンにおいて、画像修正、カメラ較正、及び関連した問題に用いられてきた。VPの識別は、基礎となる3Dシーンにおける平行なラインがラベル付けされている場合には簡単であるが、ラベル付けが利用可能でないときはより難しくなる。消失点を求めるための方法には、エッジをVPに割り当てるための、エッジの凝集クラスタリング、1Dハフ変換、マルチレベルランダムサンプルコンセンサス(RANSAC)ベースの手法、及び期待値最大化法(EM)が含まれる。   VP has been used in computer vision for image correction, camera calibration, and related problems. VP identification is simple when parallel lines in the underlying 3D scene are labeled, but becomes more difficult when labeling is not available. Methods for determining vanishing points include edge aggregation clustering, 1D Hough transform, multi-level random sample consensus (RANSAC) based method, and expectation maximization method (EM) for assigning edges to VPs It is.

図2に示すように、VPロケーション200は、

Figure 2015133101
によって示すことができる。ここで、通常、マンハッタンシーンの場合には、m≦3である。さらに、VP
Figure 2015133101
において水平基準ライン201に対してなす角度をθ(x,y)とする。したがって、
Figure 2015133101
である。 As shown in FIG. 2, the VP location 200 is
Figure 2015133101
Can be indicated by Here, normally, in the case of a Manhattan scene, m ≦ 3. In addition, VP
Figure 2015133101
Is the angle formed with respect to the horizontal reference line 201 at θ j (x, y). Therefore,
Figure 2015133101
It is.

記述子250は、各VPに収束するエッジの相対的なロケーション及び強度を符号化することによって構成される。したがって、記述子は、関数D:Θ→Rとみなすことができ、その定義域は、VPに収束するエッジの角度配向を含み、その値域は、正しい順序によるこれらのエッジの強度の測定量を含む。記述子は、以下で説明する方法500に従ってVPごとに求められる。 Descriptor 250 is constructed by encoding the relative location and strength of edges that converge at each VP. Thus, the descriptor can be viewed as a function D: Θ → R + , whose domain includes the angular orientation of edges that converge to VP, whose range is a measure of the strength of these edges in the correct order. including. Descriptors are determined for each VP according to method 500 described below.

エッジロケーションの符号化
ライン検出手順は、多くの場合、途切れたライン及びクロッピングされたラインを生成し、重要なエッジを見つけ損ない、偽のラインを生成する。したがって、図3に示すように、正確さを得るために、画像エッジに適合するラインではなく、エッジピクセルの輝度を直接取り扱うことにする。消失点の周囲のエッジの角度ロケーションの関数としてのエッジ強度の表現は、エッジマップ300と呼ばれる。具体的には、ピクセルが記述子を構成するための消失点に従って配向されていることを勾配が示すとき、図2に示すように、角度ビン202内のピクセルの輝度を記憶し、個別に合計する。これを行うために、図5に示すように、最初に、画像内のあらゆるピクセルについて、2Dベクトルである勾配g(x,y)を求める(510)。
Edge Location Coding Line detection procedures often generate broken and cropped lines, fail to find important edges, and generate false lines. Therefore, as shown in FIG. 3, to obtain accuracy, we will deal directly with the brightness of the edge pixels, not the lines that match the image edges. The representation of the edge strength as a function of the angular location of the edge around the vanishing point is called the edge map 300. Specifically, when the gradient indicates that the pixels are oriented according to the vanishing points for constructing the descriptor, the luminance of the pixels in the angle bin 202 is stored and summed individually as shown in FIG. To do. To do this, a gradient g (x, y), which is a 2D vector, is first determined (510) for every pixel in the image, as shown in FIG.

画像内のロケーション(x,y)におけるピクセルの勾配の方向ψ(x,y)511は、大きな輝度変化がそれに沿って存在する方向を指す。勾配の大きさ|g(x,y)|512は、その勾配方向に沿ったそのピクセルにおける輝度差を指す。 The pixel gradient direction ψ g (x, y) 511 at location (x, y) in the image refers to the direction along which a large luminance change exists. The gradient magnitude | g (x, y) | 512 refers to the luminance difference at the pixel along the gradient direction.

次に、以下のように、消失点VP

Figure 2015133101
のピクセルセットPを求める(520)。
Figure 2015133101
ここで、τは、勾配方向がVPの方向と一致していない量に基づいて選択された閾値である。このセットPが求められると、基礎となるエッジロケーションは、以下のように符号化される。 Next, the vanishing point VP is as follows:
Figure 2015133101
The pixel set P j is determined (520).
Figure 2015133101
Here, τ is a threshold value selected based on an amount in which the gradient direction does not coincide with the VP direction. Once this set P j is determined, the underlying edge location is encoded as follows:

ピクセル角度(方向)が、

Figure 2015133101
であるような、画像にわたる角度範囲[θmin,θmax]204内のφ,1≦k≦Kを中心とする(203)一様な角度ビン202の事前に設定された数(K)に量子化され、そのため、角度量子化ビンの重心は、角度量子化ビンの方向、すなわち、ピクセル角度を示す。 Pixel angle (direction) is
Figure 2015133101
A pre-set number (K) of uniform angle bins 202 centered at φ k , 1 ≦ k ≦ K in the angular range [θ min , θ max ] 204 over the image, such that Therefore, the centroid of the angle quantization bin indicates the direction of the angle quantization bin, ie the pixel angle.

エッジ強度の符号化
人間の視覚系に関する研究は、エッジの相対的な顕著さ(prominence)が、弁別的なオブジェクトパターンを視覚化する際に役割を果たすことを示唆している。画像エッジの顕著さは、エッジの長さ、厚さ、及びエッジに対して垂直な方向の横変化(輝度及びフォールオフ特性)の関数である。
Edge Strength Coding Research on the human visual system suggests that the relative prominence of edges plays a role in visualizing discriminatory object patterns. Image saliency is a function of edge length, thickness, and lateral change (luminance and falloff characteristics) in a direction perpendicular to the edge.

エッジ強度メトリックを構成する幾つかの方法がある。例えば、エッジ検出器が、特定のVPの記述子を構成するのに用いられる場合、強度は、エッジの長さ及びエッジに沿ったピクセル単位の累積勾配の関数とすることができる。しかしながら、上記で説明したように、エッジ検出器を用いることは、常に正確であるとは限らない。したがって、ピクセル単位の勾配のクラスタリング又は量子化に基づく方法が好ましい。このプロセスは、以下で詳細に説明する。   There are several ways to construct the edge strength metric. For example, if an edge detector is used to construct a descriptor for a particular VP, the intensity can be a function of the length of the edge and the cumulative gradient in pixels along the edge. However, as explained above, using an edge detector is not always accurate. Therefore, methods based on pixel-by-pixel gradient clustering or quantization are preferred. This process is described in detail below.

ピクセルセットPが角度ビン202に一様に量子化されるとき、エッジ強度を符号化する1つの方法は、各角度量子化ビン内の勾配の大きさ|g(x,y)|512の合計を求めることである。これを行うために、図2に示すように、端点(rk,mincosφ,rk,minsinφ)及び(rk,maxcosφ,rk,maxsinφ)を有するあらゆる角度量子化ビンの中央を通過するラインセグメント(line segment:線分)203を考える。 When pixel set P j is uniformly quantized into angle bins 202, one way to encode edge strength is to use the magnitude of gradient | g (x, y) | 512 in each angle quantization bin. It is to calculate the total. To do this, as shown in FIG. 2, any angular quantum with endpoints (r k, min cos φ k , r k, min sin φ k ) and (r k, max cos φ k , r k, max sin φ k ) Consider a line segment 203 that passes through the center of the bin.

この場合、記述子250は、以下の総和となる。

Figure 2015133101
ここで、φ,1≦k≦Kは、VP
Figure 2015133101
に対する量子化ビンに関連付けられた角度配向又は方向を表し、rは、半ピクセル(half−pixel)解像度における範囲内で変化することができる。 In this case, the descriptor 250 is the following sum.
Figure 2015133101
Here, φ k , 1 ≦ k ≦ K j is VP
Figure 2015133101
Represents the angular orientation or direction associated with the quantization bin for, and r can vary within a range in half-pixel resolution.

正確さを得るために、双一次補間が、サブピクセルロケーションにおけるピクセル勾配を得るのに用いられる。記述子D(k)250の構成500は、サブピクセル解像度において実行される。各角度ビン内のエッジ強度を求めることによって上記のように得られた記述子の例が、図4において、同じ(建物)オブジェクト401の2つの異なるビューについて示されている。対応するグラフは、正規化された輝度の合計をビンインデックスの関数として示している。   To obtain accuracy, bilinear interpolation is used to obtain the pixel gradient at the subpixel location. The configuration 500 of descriptor D (k) 250 is performed at sub-pixel resolution. An example descriptor obtained as above by determining the edge strength in each angle bin is shown in FIG. 4 for two different views of the same (building) object 401. The corresponding graph shows the normalized luminance sum as a function of bin index.

構成方法
図5は、構成方法の基本的なステップを要約したものである。画像120内の各ピクセルについて、勾配の方向511及び大きさ512を求めることにする。次に、消失点と一致した方向を有する勾配のセット521が求められる。消失点は、最大3つ存在し得る。次に、各セットについて勾配の大きさが個別に合計され、エッジ強度として符号化されて(530)、各消失点の記述子250が得られる。
Configuration Method FIG. 5 summarizes the basic steps of the configuration method. For each pixel in the image 120, the gradient direction 511 and magnitude 512 will be determined. Next, a set of gradients 521 having a direction that coincides with the vanishing point is determined. There can be up to three vanishing points. The gradient magnitudes are then individually summed for each set and encoded as edge strength (530) to obtain a descriptor 250 for each vanishing point.

射影変換
グローバル記述子250を構成すること(500)の背後にある本発明者らの動機は、異なる視点から取得された画像内のオブジェクトのマッチング800を実行することである。各画像は、同じ実世界のシーンの2D投影であるので、画像の対における対応するキーポイント又はエッジ間には、通常、幾何学的な関係が存在する。例えば、構成しているものの平坦な正面の画像間にはホモグラフィー関係が存在する。本発明者らの認識は、同じオブジェクトの画像について求められた記述子D(k)250間にアフィン対応関係が存在することを示唆している。
Projective Transformation Our motivation behind constructing the global descriptor 250 (500) is to perform a matching 800 of objects in images obtained from different viewpoints. Since each image is a 2D projection of the same real-world scene, there is usually a geometric relationship between corresponding keypoints or edges in the image pair. For example, there is a homography relationship between the flat front images of the composition. Our recognition suggests that there is an affine correspondence between descriptors D (k) 250 determined for images of the same object.

以下では、この認識が理論的正当性を有することを説明する。特に、記述子を構成している(500)間のビニングステップにおいて用いられる画像ライン(エッジ)間の角度の変換が近似的にアフィンであることを示す。   In the following, it is explained that this recognition has theoretical validity. In particular, it shows that the transformation of the angle between the image lines (edges) used in the binning step between (500) constituting the descriptor is approximately affine.

図6に示すように、消失点を通過するラインの「束(pencil)」からなる同じシーンの2つの画像(ビュー)を考える。第1のビューの消失点は原点に位置しているものとする。同種の表現を用いると、x軸及びy軸は、e=(010)及びe=(100)によって与えられる。ここで、Tは転置演算子である。これらのベクトルを用いると、任意のラインlλは、以下のように表される。

Figure 2015133101
ここで、λ∈Rである。 Consider two images (views) of the same scene consisting of “pencils” of lines passing through the vanishing point, as shown in FIG. It is assumed that the vanishing point of the first view is located at the origin. Using the same kind of representation, the x and y axes are given by e x = (010) T and e y = (100) T. Here, T is a transpose operator. Using these vectors, an arbitrary line l λ is expressed as:
Figure 2015133101
Here, λεR.

一般性を失うことなく、検討されている相互角(inter−angle)は、x軸とlλとの間の角度であると仮定する。θλ=tan−1(−λ)であることに留意されたい。本発明者らの目標は、x軸とlλとの間の角度が、一方の画像から他方の画像へ近似的なアフィン変換を受けることを示すことである。これを示すために、2つのビュー間の3×3ホモグラフィーを、行列Hを用いて示すことにする。一般に、ホモグラフィーの下では、消失点は、もはや第2のビューの原点にはなく、Heは、もはやx軸に沿っていない。ここで、図6に示すように、消失点を平行移動させて原点に戻すとともにHeを回転させてx軸に戻す別の3×3行列Tによって与えられる変換を選ぶことにする。 Without loss of generality, mutual angle being considered (inter-angle) is assumed to be the angle between the x axis and l lambda. Note that θ λ = tan −1 (−λ). Our goal is to show that the angle between the x-axis and l λ undergoes an approximate affine transformation from one image to the other. To illustrate this, a 3 × 3 homography between two views will be shown using the matrix H. In general, under homography, the vanishing point is no longer at the origin of the second view, and He x is no longer along the x axis. Here, as shown in FIG. 6, the transformation given by another 3 × 3 matrix T is selected which translates the vanishing point and returns it to the origin, and rotates He x to return to the x axis.

λのTH変換をlγによって示し、lγとx軸との間の角度をθγによって示すことにする。この場合、以下の式となる。

Figure 2015133101
ここで、
Figure 2015133101
であり、(a,a,b,b)は、T及びHの要素から導出された変換パラメーターである。消失点が画像から遠く離れており、そのため、θmax−θminが小さいという仮定の下では、テーラー級数近似tan−1(α)≒αを用いることができる。ここで、αは、小さな角度(ラジアンで表される)である。したがって、以下の式となる。
Figure 2015133101
The TH conversion of l lambda indicated by l gamma, will be indicated by the angle between the l gamma and x-axis theta gamma. In this case, the following equation is obtained.
Figure 2015133101
here,
Figure 2015133101
Where (a 1 , a 2 , b 1 , b 2 ) are transformation parameters derived from the elements of T and H. Under the assumption that the vanishing point is far from the image and θ max −θ min is small, the Taylor series approximation tan −1 (α) ≈α can be used. Here, α is a small angle (expressed in radians). Therefore, the following equation is obtained.
Figure 2015133101

小さな相互角の仮定を用いると、2次の項θγθλは、無視できるほど小さくなる。この交差項を無視した場合、θλからθγへの変換は、近似的にアフィンとなる。 Using a small reciprocal angle assumption, the second order term θ γ θ λ is negligibly small. If this cross term is ignored, the conversion from θ λ to θ γ is approximately affine.

記述子マッチング
マンハッタンシーンにおけるオブジェクトは、3つのVPまで有することができ、したがって、3つの記述子まで有することができる。したがって、事前の配向情報なしで2つの視点から見えるオブジェクトをマッチングすることは、9対までのマッチング操作を伴う。上記で説明したように、角度エッジロケーションは、視点の変更を伴う近似的なアフィン変換を受ける。したがって、本発明者らは、マッチングされている記述子の対におけるエッジ強度の相対的な形状を比較する前にこの変換を反転することを提案する。この反転ステップは、幾つかの候補のスケール及び変位、すなわち、幾つかの候補のアフィン変換を用いて実行される。これらの候補のアフィン変換から、優性アフィン変換(スケール−変位)対を選ぶことができる。方法800が、以下で説明するように記述子を比較するのに用いられる。
Descriptor Matching An object in a Manhattan scene can have up to 3 VPs and thus can have up to 3 descriptors. Therefore, matching objects visible from two viewpoints without prior orientation information involves up to nine matching operations. As explained above, angular edge locations undergo an approximate affine transformation with a change in viewpoint. We therefore propose to invert this transformation before comparing the relative shape of edge strengths in matched descriptor pairs. This inversion step is performed using several candidate scales and displacements, ie several candidate affine transformations. A dominant affine transformation (scale-displacement) pair can be selected from these candidate affine transformations. Method 800 is used to compare the descriptors as described below.

エッジに関する対応マッピング
視点間で記述子を平行移動させる近似的なアフィン変換を求めるために、正しい対応関係の下では、同一平面上のエッジの対は、スケール−変位対(s,d)によって与えられる近似値に等しいアフィンパラメーターを生成するということを利用する。したがって、エッジの対の(s,d)空間におけるハフ変換型投票手順の結果、真のスケールs及び変位dにおける極大値が得られる。
Corresponding mapping for edges To find an approximate affine transformation that translates descriptors between viewpoints, under the correct correspondence, a pair of coplanar edges is given by a scale-displacement pair (s, d) To generate an affine parameter equal to the approximated value. Therefore, the Hough transform type voting procedure in the (s, d) space of the edge pair results in a maximum value at the true scale s * and displacement d * .

複数の極大値は、オブジェクトが、VP方向軸によってサポートされた複数の平面を有するときに生じる。正確さ及び効率性を得るために、顕著なエッジが、それらのエッジ強度に基づいて識別される。指定された百分位数の閾値よりも大きな強度を有するエッジ上のピクセルが選択される。さらに、エッジオクルージョンに対する正確さを得るために、密接に近接した角度範囲内のエッジのみが票を投じるために対にされ、例えば、各顕著なエッジがC個の最も近いエッジと対にされる。   Multiple maxima occur when an object has multiple planes supported by the VP direction axis. In order to obtain accuracy and efficiency, prominent edges are identified based on their edge strength. Pixels on the edge that have an intensity greater than the specified percentile threshold are selected. In addition, to obtain accuracy for edge occlusion, only edges within a close range of angles are paired for voting, eg, each prominent edge is paired with C nearest edges. .

記述子D(k),1≦k≦Kは、N個のピーク対(k、k’),1≦i≦Nのセットを生成することができる。同様に、D(m)は、N個のピーク対(m、m’),1≦j≦Nのセットを生成する。これらの識別されたピークの対は、2つのセット間でクロスマッピングされ、

Figure 2015133101
及びd=m−skを用いて(s,d)ヒストグラムの票が生成される。角度反転、すなわち、VPの回りの上部/底部及び左/右の回転を可能にするために、上記2つのセットのうちの一方の中のピークの順序を逆にすることによって、追加の票が生成される。 Descriptor D 1 (k), 1 ≦ k ≦ K is, N 1 peaks pair (k i, k 'i) , it is possible to generate a set of 1 ≦ i ≦ N 1. Similarly, D 2 (m) is, N 2 peaks pair (m j, m 'j) , generating a set of 1 ≦ j ≦ N 2. These identified peak pairs are cross-mapped between the two sets,
Figure 2015133101
And d = m j -sk i using (s, d) the vote of the histogram is generated. Additional votes can be obtained by reversing the order of the peaks in one of the two sets to allow angle reversal, ie top / bottom and left / right rotation around the VP. Generated.

図7に示すように、(s,d)票の粗いヒストグラム700を、ここでは、極大値(s,d)を突き止めるのに用いることができる。このヒストグラムは、2つのVPベースの記述子が最良の一致を有するスケール及び変位を識別する。極大値は、オブジェクトの2つのビューにおけるエッジ間の関係を提供する。極大値が含む票が過度に少ない場合、その(s,d)対について不一致が宣言される。極大値のいずれもが十分な票を含んでいない場合、それらの記述子は同じオブジェクトを表していない。 As shown in FIG. 7, a coarse histogram 700 of (s, d) votes can be used here to locate the local maximum (s * , d * ). This histogram identifies the scale and displacement for which the two VP-based descriptors have the best match. The local maximum provides the relationship between the edges in the two views of the object. If the maximum value contains too few votes, a mismatch is declared for that (s * , d * ) pair. If none of the maxima contain enough votes, their descriptors do not represent the same object.

したがって、各記述子は、それらの記述子のスケール及び変位が同一となるように変更される。次に、第1の記述子におけるピークの形状と第2の記述子における対応するピークの形状との差が求められ、この差が閾値未満であるとき、2つの画像間の一致を示すことができる。   Accordingly, each descriptor is changed so that the scale and displacement of the descriptors are the same. Next, the difference between the shape of the peak in the first descriptor and the shape of the corresponding peak in the second descriptor is determined, and when this difference is less than a threshold, it indicates a match between the two images. it can.

マッチング方法
図8は、マッチング方法800の基本的なステップを要約したものである。画像801及び802について、それぞれの記述子811及び812が、上記で説明したように構成される(500)。ピーク821及び822が識別され(820)、ヒストグラム700の票が生成される(830)。これらのピークは、2つのVPベースの記述子が最良の一致を有するスケール及び変位を識別する。
Matching Method FIG. 8 summarizes the basic steps of the matching method 800. For images 801 and 802, the respective descriptors 811 and 812 are configured as described above (500). Peaks 821 and 822 are identified (820) and a vote for histogram 700 is generated (830). These peaks identify the scale and displacement for which the two VP-based descriptors have the best match.

記述子は、類似したシーンの画像を取り出すために画像のデータベースへのクエリとして用いることができることにも留意すべきである。   It should also be noted that the descriptor can be used as a query to a database of images to retrieve images of similar scenes.

対応するエッジにおける形状マッチング
各極大値(s,d)において、比較されている2つの記述子におけるエッジ強度プロット、例えば、図4のプロットのローカルな形状を利用して、マッチングプロセスを改良することができる。本質的には、スケーリングファクターs及び変位dを補償した後、次に残っているものは、(s,d)に投票したエッジ対の近傍におけるエッジ強度プロットの形状を比較することである。これを行う方法は幾つかある。以下に1つの実施形態を説明する。
a)図9に示すように、一致の品質を測定するためのメトリックを構成するために、各顕著なピークについて以下のステップを実行する。
b)第1の記述子のピークの角度近傍における領域を考える。
c)この近傍における累積エッジ強度ベクトルを求め、全てのエッジ強度の合計が1になるようにこのベクトルを正規化する。
d)第2の記述子における各マッチングする顕著なピークについて、このプロセスを繰り返す。
e)各記述子から1つずつ取られたマッチングするピークの各対について、正規化された累積エッジ強度ベクトル間の絶対距離を求める。
f)ステップ(d)で得られた絶対距離が、場合によっては複数のビンから生成された全てのマッチングするピーク対にわたって平均化され、閾値と比較される。
g)正規化された累積エッジ強度ベクトル間の平均距離が上記閾値未満である場合、2つの記述子間の一致が宣言される。
Shape Matching at Corresponding Edges Each local maxima (s * , d * ) improves the matching process by utilizing the edge strength plots in the two descriptors being compared, eg the local shape of the plot of FIG. can do. In essence, after compensating for the scaling factor s * and displacement d * , what remains is to compare the shape of the edge strength plots in the vicinity of the edge pair voted for (s * , d * ). It is. There are several ways to do this. One embodiment is described below.
a) As shown in FIG. 9, perform the following steps for each salient peak to construct a metric for measuring the quality of the match.
b) Consider a region near the peak angle of the first descriptor.
c) Find the accumulated edge strength vector in this neighborhood and normalize this vector so that the sum of all edge strengths is 1.
d) Repeat this process for each matching salient peak in the second descriptor.
e) Find the absolute distance between the normalized cumulative edge intensity vectors for each pair of matching peaks taken one by one from each descriptor.
f) The absolute distance obtained in step (d) is averaged over all matching peak pairs, possibly generated from multiple bins, and compared to a threshold value.
g) If the average distance between the normalized cumulative edge strength vectors is less than the threshold, a match between the two descriptors is declared.

Claims (16)

シーンの画像の記述子を構成する方法であって、前記記述子は、画像内の消失点に関連付けられ、
前記方法は、
前記消失点の周囲の角度領域を事前に設定された数の角度量子化ビンに量子化するステップであって、各角度量子化ビンの重心は、前記角度量子化ビンの方向を示す、ステップと、
前記各角度量子化ビンについて、前記画像内のピクセルのピクセル勾配の大きさの合計と、前記角度量子化ビンの前記方向と一致した前記ピクセル勾配の方向とを求めるステップと、
を含み、
前記ステップは、プロセッサにおいて実行される、
シーンの画像の記述子を構成する方法。
A method of constructing a descriptor for an image of a scene, said descriptor being associated with a vanishing point in the image,
The method
Quantizing an angular region around the vanishing point into a predetermined number of angular quantization bins, wherein a centroid of each angular quantization bin indicates a direction of the angular quantization bin; and ,
Determining, for each angular quantization bin, a sum of pixel gradient magnitudes of pixels in the image and a direction of the pixel gradient that matches the direction of the angular quantization bin;
Including
The steps are performed in a processor;
How to construct a scene image descriptor.
前記シーンは、マンハッタンワールド仮説を有するマンハッタンシーンである、
請求項1に記載の方法。
The scene is a Manhattan scene with the Manhattan World Hypothesis,
The method of claim 1.
前記角度量子化ビンは、一様である、
請求項1に記載の方法。
The angular quantization bin is uniform;
The method of claim 1.
前記角度量子化ビンは、前記ピクセル勾配の前記方向のクラスタリングによって求められ、
前記方向は、前記消失点のロケーションに関して測定される、
請求項1に記載の方法。
The angular quantization bin is determined by clustering the direction of the pixel gradient;
The direction is measured with respect to the location of the vanishing point;
The method of claim 1.
前記ピクセル勾配は、各ピクセルにおいて個別に求められる、
請求項1に記載の方法。
The pixel gradient is determined individually for each pixel,
The method of claim 1.
前記ピクセル勾配は、画像上でエッジ検出を実行してエッジ強度を求めるとともに、指定された百分位数の閾値よりも大きなエッジ強度を有する前記ピクセルのみの前記ピクセル勾配をピークとして決定するためのものである、
請求項1に記載の方法。
The pixel gradient is used to determine edge strength by performing edge detection on the image, and to determine the pixel gradient of only the pixels having an edge strength greater than a specified percentile threshold as a peak. Is,
The method of claim 1.
前記勾配は、サブピクセルロケーションにおいて求められる、
請求項1に記載の方法。
The gradient is determined at subpixel locations.
The method of claim 1.
前記シーンの異なる視点から取得された2つの画像から構成された第1の記述子と第2の記述子とを比較するステップ、
を更に含む、請求項1に記載の方法。
Comparing a first descriptor composed of two images acquired from different viewpoints of the scene with a second descriptor;
The method of claim 1, further comprising:
マッチングの品質を測定するメトリックを構成するステップ、
を更に含む、請求項8に記載の方法。
Configuring a metric that measures the quality of the matching;
The method of claim 8, further comprising:
各画像の前記記述子から、指定された百分位数の閾値よりも大きなエッジ強度を有する前記ピクセルをピークとして識別するステップと、
所与のスケール及び変位の値に従ってクロスマッピングされた、前記第1の記述子から選ばれたピークの対が前記第2の記述子から選ばれたピークの対に対応するように、スケール−変位プロットを生成するステップと、
前記スケール−変位プロットにおいて1つ又は複数の極大値を識別するステップと、
各極大値における前記スケール及び変位の値を用いて2つの記述子を比較するステップと、
を更に含む、請求項8に記載の方法。
Identifying, from the descriptor of each image, the pixel having an edge strength greater than a specified percentile threshold as a peak;
Scale-displacement such that the peak pair selected from the first descriptor, cross-mapped according to a given scale and displacement value, corresponds to the peak pair selected from the second descriptor. Generating a plot; and
Identifying one or more local maxima in the scale-displacement plot;
Comparing two descriptors using the scale and displacement values at each local maximum;
The method of claim 8, further comprising:
前記比較するステップは、
前記記述子の前記スケール及び前記変位が同一となるように各記述子を変更するステップと、
前記第1の記述子における前記ピークと前記第2の記述子における前記ピークとの差を求めるステップと、
前記差が閾値未満であるとき、前記2つの画像間の一致を宣言するステップと、
を更に含む、請求項10に記載の方法。
The comparing step includes:
Changing each descriptor such that the scale and the displacement of the descriptor are the same;
Determining a difference between the peak in the first descriptor and the peak in the second descriptor;
Declaring a match between the two images when the difference is less than a threshold;
The method of claim 10, further comprising:
前記差を求めるステップは、
前記第1の記述子及び前記第2の記述子における対応するピークについて、前記ピークの角度近傍における累積エッジ強度を計算するステップと、
前記ピークの前記角度近傍における前記エッジ強度の合計が1になるように前記累積エッジ強度を正規化するステップと、
前記第1の記述子の前記正規化された累積エッジ強度と前記第2の記述子の前記正規化された累積エッジ強度との間の距離を算出するステップと、
を更に含む、請求項11に記載の方法。
The step of obtaining the difference includes
Calculating a cumulative edge strength near an angle of the peak for corresponding peaks in the first descriptor and the second descriptor;
Normalizing the cumulative edge strength so that the sum of the edge strengths near the angle of the peak is 1.
Calculating a distance between the normalized cumulative edge strength of the first descriptor and the normalized cumulative edge strength of the second descriptor;
The method of claim 11, further comprising:
前記記述子に基づいて画像のデータベースから類似の画像を取り出すステップ、
を更に含む、請求項1に記載の方法。
Retrieving a similar image from a database of images based on the descriptor;
The method of claim 1, further comprising:
前記消失点のピクセルセットは、
Figure 2015133101
であり、
ここで、前記画像内のロケーション(x,y)におけるピクセルの前記勾配の前記方向がψ(x,y)であり、
θ(x,y)は、前記消失点において水平基準ラインに対してなす角度であり、
τは、前記方向が前記消失点の前記方向と一致していない量に基づいて選択された閾値である、
請求項1に記載の方法。
The vanishing point pixel set is
Figure 2015133101
And
Where the direction of the gradient of the pixel at location (x, y) in the image is ψ g (x, y);
θ j (x, y) is an angle formed with respect to a horizontal reference line at the vanishing point,
τ is a threshold selected based on the amount that the direction does not match the direction of the vanishing point;
The method of claim 1.
Figure 2015133101
であるような、角度範囲[θmin,θmax]内のφ,1≦k≦Kを中心とする所定の数(K)のビンに前記方向を量子化するステップ、
を更に含む、請求項1に記載の方法。
Figure 2015133101
Quantizing the direction into a predetermined number (K) of bins centered around φ k , 1 ≦ k ≦ K within the angular range [θ min , θ max ], such that
The method of claim 1, further comprising:
前記記述子は、
Figure 2015133101
であり、
ここで、φ,1≦k≦Kは、前記ビンの前記方向を表し、rは、範囲が半ピクセル解像度で変化する、
請求項15に記載の方法。
The descriptor is
Figure 2015133101
And
Where φ k , 1 ≦ k ≦ K j represents the direction of the bin, and r varies in range with half-pixel resolution.
The method of claim 15.
JP2014249654A 2014-01-10 2014-12-10 Method for constructing descriptor for image of scene Pending JP2015133101A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/151,962 US20150199573A1 (en) 2014-01-10 2014-01-10 Global Scene Descriptors for Matching Manhattan Scenes using Edge Maps Associated with Vanishing Points
US14/151,962 2014-01-10

Publications (1)

Publication Number Publication Date
JP2015133101A true JP2015133101A (en) 2015-07-23

Family

ID=53485150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014249654A Pending JP2015133101A (en) 2014-01-10 2014-12-10 Method for constructing descriptor for image of scene

Country Status (3)

Country Link
US (1) US20150199573A1 (en)
JP (1) JP2015133101A (en)
DE (1) DE102015200260A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200028870A (en) * 2018-09-07 2020-03-17 (주)위지윅스튜디오 Method of generating 3-dimensional computer graphics asset based on a single image

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9626585B2 (en) * 2014-05-13 2017-04-18 The Penn State Research Foundation Composition modeling for photo retrieval through geometric image segmentation
CN104376596B (en) * 2014-11-28 2017-05-31 北京航空航天大学 A kind of three-dimensional scene structure modeling and register method based on single image
CN106709501B (en) * 2015-11-16 2020-03-10 中国科学院沈阳自动化研究所 Scene matching area selection and reference image optimization method of image matching system
US9904990B2 (en) * 2015-12-18 2018-02-27 Ricoh Co., Ltd. Single image rectification
CN108491826B (en) * 2018-04-08 2021-04-30 福建师范大学 Automatic extraction method of remote sensing image building
CN112598665B (en) * 2020-12-31 2022-05-06 北京深睿博联科技有限责任公司 Method and device for detecting vanishing points and vanishing lines of Manhattan scene
US20230245390A1 (en) * 2022-02-02 2023-08-03 Tencent America LLC Manhattan layout estimation using geometric and semantic information
CN114390079B (en) * 2022-03-24 2022-06-03 成都秦川物联网科技股份有限公司 Smart city public place management method and Internet of things system

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6778699B1 (en) * 2000-03-27 2004-08-17 Eastman Kodak Company Method of determining vanishing point location from an image
CN101192269B (en) * 2006-11-29 2012-05-02 佳能株式会社 Method and device for estimating vanishing point from image, computer program and its storage medium
US8938129B2 (en) * 2012-04-30 2015-01-20 Samsung Electronics Co., Ltd. Display system with edge map conversion mechanism and method of operation thereof
US20140270479A1 (en) * 2013-03-15 2014-09-18 Sony Corporation Systems and methods for parameter estimation of images

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200028870A (en) * 2018-09-07 2020-03-17 (주)위지윅스튜디오 Method of generating 3-dimensional computer graphics asset based on a single image
KR102215315B1 (en) * 2018-09-07 2021-02-15 (주)위지윅스튜디오 Method of generating 3-dimensional computer graphics asset based on a single image

Also Published As

Publication number Publication date
US20150199573A1 (en) 2015-07-16
DE102015200260A1 (en) 2015-07-16

Similar Documents

Publication Publication Date Title
CN110443836B (en) Point cloud data automatic registration method and device based on plane features
JP2015133101A (en) Method for constructing descriptor for image of scene
Yang et al. Automated registration of dense terrestrial laser-scanning point clouds using curves
WO2015161816A1 (en) Three-dimensional facial recognition method and system
US9767383B2 (en) Method and apparatus for detecting incorrect associations between keypoints of a first image and keypoints of a second image
Urban et al. Finding a good feature detector-descriptor combination for the 2D keypoint-based registration of TLS point clouds
CN109740659B (en) Image matching method and device, electronic equipment and storage medium
Oxholm et al. The scale of geometric texture
Ghannam et al. Cross correlation versus mutual information for image mosaicing
CN108960267A (en) System and method for model adjustment
Andaló et al. Efficient height measurements in single images based on the detection of vanishing points
Huang et al. Multimodal image matching using self similarity
Teixeira et al. Epipolar based light field key-location detector
Paudel et al. Localization of 2D cameras in a known environment using direct 2D-3D registration
CN106056599B (en) A kind of object recognition algorithm and device based on Object Depth data
KR20160049639A (en) Stereoscopic image registration method based on a partial linear method
JP6218237B2 (en) Image conversion program, apparatus and method for parallelizing photographed image
WO2017042852A1 (en) Object recognition appratus, object recognition method and storage medium
Weinmann et al. Fast and accurate point cloud registration by exploiting inverse cumulative histograms (ICHs)
Soh et al. A feature area-based image registration
Mills Relative camera rotation from a single oriented correspondence
Chen et al. Stereo with zooming
Mayer Issues for image matching in structure from motion
Wang et al. Fused pose estimation using geometric and texture information
Zhen et al. An Accurate Image Matching Algorithm Based on Multiple Constrains