JP4785880B2 - System and method for three-dimensional object recognition - Google Patents

System and method for three-dimensional object recognition Download PDF

Info

Publication number
JP4785880B2
JP4785880B2 JP2008040298A JP2008040298A JP4785880B2 JP 4785880 B2 JP4785880 B2 JP 4785880B2 JP 2008040298 A JP2008040298 A JP 2008040298A JP 2008040298 A JP2008040298 A JP 2008040298A JP 4785880 B2 JP4785880 B2 JP 4785880B2
Authority
JP
Japan
Prior art keywords
step
dimensional
image
object
position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008040298A
Other languages
Japanese (ja)
Other versions
JP2009093611A (en
Inventor
カルステン、シュテガー
クリスチァン、ヴィーデマン
マルクス、ウルリヒ
Original Assignee
エムヴイテック・ソフトウェア・ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to EP07118329A priority Critical patent/EP2048599B1/en
Priority to EP07118329.7 priority
Application filed by エムヴイテック・ソフトウェア・ゲーエムベーハー filed Critical エムヴイテック・ソフトウェア・ゲーエムベーハー
Publication of JP2009093611A publication Critical patent/JP2009093611A/en
Application granted granted Critical
Publication of JP4785880B2 publication Critical patent/JP4785880B2/en
Application status is Active legal-status Critical
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00201Recognising three-dimensional objects, e.g. using range or tactile information
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/62Methods or arrangements for recognition using electronic means
    • G06K9/6217Design or setup of recognition systems and techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06K9/6255Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries, e.g. user dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/62Methods or arrangements for recognition using electronic means
    • G06K9/68Methods or arrangements for recognition using electronic means using sequential comparisons of the image signals with a plurality of references in which the sequence of the image signals or the references is relevant, e.g. addressable memory
    • G06K9/685Involving plural approaches, e.g. verification by template match; resolving confusion among similar patterns, e.g. O & Q
    • G06K9/6857Coarse/fine approaches, e.g. resolution of ambiguities, multiscale approaches

Description

本発明は、一般に機械視覚システムに関し、特に、画像における三次元オブジェクトの視覚認識およびその三次元位置姿勢の測定に関する。 The present invention relates generally to machine vision systems, and more particularly to the measurement of visual perception and its three-dimensional position and orientation of the three-dimensional object in the image.

オブジェクト認識は、多くのコンピュータビジョンアプリケーションにおいてその部分をなすものである。 Object recognition is to constitute a part of any computer vision applications. いくつかの例では、オブジェクトは二次元であると想定され、画像におけるオブジェクトの変換は、例えば、類似変換または投影変換にある程度限定されている。 In some instances, the object is assumed to be two-dimensional, object transformation in the image, for example, it has been limited to some extent similar conversion or projection transformation. 文献において、この問題をすでに解決可能な様々な種類のマッチングアプローチが多数ある。 In the literature, this problem is already solved various possible types of matching approach are numerous. マッチングアプローチの概説は、Brown(1992年)により示されている。 A review of the matching approach is shown by Brown (1992 years). 多くの場合、オブジェクトのモデルは該オブジェクトの画像から生成される。 Often, the model of the object is created from an image of the object. このようなアプローチのうち、産業上の利用における要件、すなわち、高速計算や高精度、ならびにノイズ、オブジェクトオクルージョン、クラッターおよびコントラスト変化に対するロバスト性などを満たす二つの例が、欧州特許第1,193,642号およびUlrich et al. Among such approach, requirements in industrial applications, i.e., fast computation, high accuracy, and noise, two examples that satisfy the like robustness to object occlusions, clutter, and contrast changes, EP 1,193, 642 and No. Ulrich et al. (2003年)において提示されている。 It is presented in (2003).

しかしながら、多くのアプリケーションにおいて、認識対象となるオブジェクトは、二次元ではなく三次元形状であり、未知の視点から撮像される。 However, in many applications, the object to be recognized is a three-dimensional shape rather than a two-dimensional is imaged from an unknown viewpoint. なぜなら、オブジェクトが固定カメラの前の三次元空間で動く、カメラが固定オブジェクトの回りを動く、またはこの両方の、オブジェクトおよびカメラが同時に動くからである。 This is because the object moves in three-dimensional space in front of a fixed camera, the camera moves around a fixed object, or both, the object and the camera is because simultaneous movement. このことにより、オブジェクト認識タスクが非常に複雑になる。 Thus, object recognition task becomes very complicated. なぜなら、カメラとオブジェクトとの間の相対的動作によって、二次元変換では表現することができない異なる遠近感が生ずるからである。 This is because, by the relative motion between the camera and the object, because different perspective arise that can not be represented in the two-dimensional transform. また、二次元変換だけでなく、カメラに対するオブジェクトの三次元位置姿勢もすべて測定しなければならない。 In addition, not only the two-dimensional conversion, it must be measured all be three-dimensional position and orientation of the object with respect to the camera. 三次元位置姿勢は、三次元剛体変換の6つのパラメータ(3つの移動パラメータおよび3つの回転パラメータ)で定義され、カメラに対するオブジェクトの相対的動作を表現する。 Three-dimensional position and orientation is defined by six parameters of the three-dimensional rigid transformation (three mobile parameters and three rotation parameters), to represent the relative motion of the object with respect to the camera. 一つの画像において三次元オブジェクトを視覚的に認識するための様々な技術が開発されている。 Various techniques for visually recognized, is developed a three-dimensional object in one image. これらは、特徴ベース技術とビューベース技術とに分類することができる。 It can be classified into the feature-based techniques and view-based techniques. これらのアプローチの他に、三次元オブジェクトを認識するために、一つのみの画像よりも多くの情報を用いるアプローチがあり、例えば、二つの画像(例えば、SumiおよびTomita、1998年)、またはある範囲の画像と組み合わせた一つの画像(例えば、米国特許公開第2005/0286767号)がある。 In addition to these approaches, in order to recognize three-dimensional objects, there is approach to use more information than the image of only one, for example, two images (e.g., Sumi and Tomita, 1998 years), or one image combined with the range of the image (e.g., U.S. Patent Publication No. 2005/0286767) have. 後者のアプローチは本発明とは異なり過ぎるため、ここでは論じない。 Since the latter approach is too different from the present invention, not discussed here.

特徴ベース技術は、三次元オブジェクトの顕著な特徴と、二次元サーチ画像におけるこれらの投影との対応を測定することに基づいている。 Feature-based technique is based on measuring the salient features of three-dimensional objects, the correspondence between these projections in the 2D search image. これら特徴の三次元座標が既知の場合、オブジェクトの三次元位置姿勢を、十分な数のこれら二次元/三次元の対応の集合(例えば、4つのポイント)から直接計算することができる。 If the three-dimensional coordinates of these features are known, the 3D pose of the object can be calculated directly from the sufficient these two-dimensional / three-dimensional correspondence set of numbers (e.g., four points).

特徴ベース技術の1つの形態において、三次元オブジェクトの手動で選択した顕著な特徴は、二次元サーチ画像においてサーチされる(例えば、米国特許第6,580,821号、米国特許第6,816,755号、カナダ特許第2,555,159号)。 In one form of the feature-based techniques, manually hallmark selected three-dimensional object is searched in the 2D search image (e.g., U.S. Pat. No. 6,580,821, U.S. Patent No. 6,816, 755 Patent, Canadian Patent No. 2,555,159). これらの特徴は、人工的なマークであっても自然な特徴であってもよく、例えば、三次元オブジェクトのコーナーポイント、または特徴的にテキスチャされた近傍を有するポイントのいずれかである。 These features may be a natural feature even artificial marks, for example, either point with the vicinity of the corner points of a three-dimensional object or characteristically texture. 一般的に、テンプレートは、オブジェクトの1つの画像における特徴の位置で定義される。 Generally, the template is defined by the position of a feature in one image of the object. サーチ画像において、特徴は、テンプレートマッチングでサーチされる。 In the search image, the features are searched with template matching. いくつかの難点がこれらのアプローチに付随する。 Some of the difficulties associated with these approaches. 通常、視点の変化のために、画像において特徴をロバスト的に見つけることは困難であり、遮断されたり、遠近法的に歪んだ特徴をもたらす。 Usually results due to changes of the viewpoint, it is difficult to find a characteristic robustly in the image, or blocked, the perspectively distorted features. テンプレートマッチング法は、この種の歪みに対処することができない。 Template matching method, can not cope with the strain of this kind. このため、これらのアプローチは視点変化が非常に限られている範囲にしか適さない。 For this reason, these approaches are only suitable in the range where the viewpoint change is very limited. さらに、マーカーベースアプローチは、変化するオブジェクトに対する順応性がない。 Moreover, marker-based approaches, there is no flexibility to changing objects. マーカー付けをし、その三次元座標を測定することは難しい場合が多い。 And a marker with, it is often difficult to measure the three-dimensional coordinates. また、オブジェクトの多くは、その表面にマーカー付けされることに適していない。 Also, many objects are not suitable to be a marker with its surface.

特徴ベース認識技術の別の形態では、透視変換において、不変である特徴を用いることによってこの制限を取り除く(例えば、米国特許出願公開第2002/0181780号、BeveridgeおよびRiseman、1995年、David et al.、2003年、GavrilaおよびGroen、1991年)。 In another form of feature-based recognition techniques, in perspective transformation, removes this limitation by using features that are invariant (e.g., U.S. Patent Application Publication No. 2002/0181780, Beveridge and Riseman, 1995 years, David et al. , 2003, Gavrila and Groen, 1991 years). 例えば、Horaud(1987年)において、線形構造は、二次元サーチ画像内で線形構造が分離され、線形構造が互いに交差され交点を得る。 For example, in Horaud (1987 years), the linear structure, a linear structure is separated in the 2D search image, the linear structure obtained intersections are crossing each other. 画像における交点は、三次元モデルの隣接するエッジのコーナーポイントに対応すると推定される。 Intersection in the image is estimated to correspond to the corner points of adjacent edges of the three-dimensional model. モデルの三次元コーナーポイントと抽出された二次元交点との間で正しい対応を得るためのいくつかの方法が、文献(HartleyおよびZisserman、2000年、米国特許出願公開第2002/0181780号)にある。 Several methods for obtaining the correct correspondence between the three-dimensional corner point and the extracted two-dimensional intersection of the model, in the literature (Hartley and Zisserman, 2000 years, U.S. Patent Application Publication No. 2002/0181780) . これらの特徴ベースアプローチの利点は、視点の範囲が制限されていないことである。 The advantage of these feature-based approaches is that the range of viewpoints is not restricted.

また、オブジェクトの特定の三次元モデルを必要とせずに、三次元オブジェクトの一つの種類を検出することができる包括的な特徴ベースアプローチがある。 Also, without requiring a specific three-dimensional model of the object, there is a comprehensive feature-based approaches that can detect one type of three-dimensional objects. 一例が米国特許第5,666,441号に示されており、ここでは、三次元直方体オブジェクトが検出される。 An example is shown in U.S. Patent No. 5,666,441, wherein the three-dimensional rectangular object is detected. 最初に、画像内で線形構造に分離される。 First, it is separated into a linear structure in the image. 三次元直方体オブジェクトを検出するためにこれらの線形構造のうちの少なくとも3つの交差が形成され、グループにまとめられる。 At least three intersecting of these linear structures in order to detect the three-dimensional rectangular object is formed, they are combined into groups. オブジェクトの大きさについての情報が何も用いられないため、このアプローチではオブジェクトの位置姿勢を測定できない。 Since the information about the size of the object is not anything used can not measure the position and orientation of the object in this approach. 当然ながら、この種の特徴ベースアプローチは、変化するオブジェクトに対する順応性がない。 Of course, feature-based approach of this kind, there is no flexibility to changing objects. これらアプローチは、アプローチ開発の対象であるオブジェクトしか検出できない(上記で引用した例においては、三次元直方体オブジェクト)。 These approaches can only be detected object is an approach the development of the subject (in the example cited above, the three-dimensional rectangular object).

一般に、特徴ベース認識技術は、クラッターおよびオクルージョンに関しては特徴の抽出をロバスト的に行うことができないという事実がある。 In general, feature-based recognition techniques is the fact that it is not possible to perform feature extraction robustly with respect to clutter and occlusions. また、抽出した二次元特徴の三次元特徴への正しい割り当てはNP完全問題であるため、これらの技術は、高速認識が重要とされる産業上の利用には不適切である。 Furthermore, the correct assignment to the three-dimensional features of the extracted two-dimensional feature because it is NP-complete problems, these techniques are unsuitable for industrial applications where high-speed recognition is important.

ビューベース認識技術は、二次元サーチ画像と、様々な視点から見たオブジェクトの二次元投影図との比較に基づく。 View-based recognition techniques are based on the comparison of the 2D search image, the 2D projections of the object seen from various viewpoints. オブジェクトの望ましい三次元位置姿勢は、二次元サーチ画像に最も類似した二次元投影図を作成するために用いられた位置姿勢となる。 Three-dimensional position and orientation desired object, a position and orientation that were used to create a two-dimensional projection view of the most similar to the 2D search image.

ビューベース認識の1つの形態において、三次元オブジェクトのモデルは、異なる視点から撮影したオブジェクトの複数の学習画像から習得される(例えば、米国特許第6,526,156号)。 In one form of the view-based recognition, a model of the three-dimensional object is learned from multiple training images of an object taken from different viewpoints (e.g., U.S. Pat. No. 6,526,156). その後、この二次元サーチ画像は各学習画像と比較される。 Then, the 2D search image is compared to each learning image. 二次元サーチ画像に最も類似した学習画像の位置姿勢は、オブジェクトの望ましい位置姿勢として返される。 The position and orientation of the most similar to the learning image to the 2D search image is returned as the desired position and orientation of the object. 残念ながら、学習画像の取得および、二次元サーチ画像との比較は非常にコストがかかる。 Unfortunately, acquisition of the training images and comparing the two-dimensional search image is very costly. なぜなら、許容される視点をかなり広い範囲で含むので、必要な学習画像の数が非常に多いからである。 This is because including the perspective allowed in a fairly wide range, the number of necessary learning image is because very often. その上、このビューベース認識の形態は、一般的に照射変化に対して不変でなく、特に、僅かなテキスチャしか示さないオブジェクトに対しては不変でない。 Moreover, the form of the view-based recognition is typically not invariant to illumination changes, especially, not invariant for objects that show only few texture. これらの問題により、このアプローチは産業上の利用には適していない。 With these problems, this approach is not suitable for use on the industry.

ビューベース認識の別の形態においては、異なる視点から三次元オブジェクトの三次元モデルをレンダリングして二次元投影図が作成される(例えば、米国特許第6,956,569号、米国特許出願公開第2001/0020946号)、カナダ特許第2535828号)。 In another form of the view-based recognition, the two-dimensional projection drawing to render a three-dimensional model of the three-dimensional object from different viewpoints is created (e.g., U.S. Pat. No. 6,956,569, the U.S. Patent Application Publication No. 2001/0020946), Canadian Patent No. 2,535,828). ここでもまた、許容される視点をかなり広い範囲で含むために必要である二次元投影図の数が非常に多いという問題が存在する。 Again, there are a number of 2D projections is necessary to include a perspective allowed in a fairly wide range is a problem that very large. これに対処するために、位置姿勢クラスター技術が紹介されている(例えば、Munkelt、1996年)。 In order to cope with this, the position and orientation cluster technology has been introduced (for example, Munkelt, 1996 years). それでも、二次元サーチ画像と比較しなければならない二次元投影の数は依然として多いため、これらのビューベース認識技術は産業上の利用に適していない。 Nevertheless, the number of two-dimensional projection must be compared with the 2D search image is for still greater, these view-based recognition techniques are not suitable for industrial applications. ビューの数は、カメラが常に三次元オブジェクトの中心に向くようにビューを作成することによって削減されることが多いが、その結果投影の歪みが生じるため、画像の中心に現れないオブジェクトは見つけることができない。 The number of views, the camera is always is often reduced by creating a view to face the center of the three-dimensional object, as a result since the distortion of the projection occurs, the finding objects which do not appear in the center of the image can not. これらのビューベース認識技術の別の未解決な問題は、二次元サーチ画像との比較に適するような二次元投影図の作成である。 Another unsolved problem of these view-based recognition techniques is the creation of 2D projections as are suited to compare with the 2D search image. 写実的にレンダーされた二次元投影図を用いるアプローチ(米国特許第6,956,569号)は、照射変化に対して不変ではない。 Approach using two-dimensional projection drawing that is realistically render (U.S. Pat. No. 6,956,569) are not invariant to illumination changes. なぜなら、オブジェクトのエッジの外観は、照射方向によって変化するからである。 This is because the appearance of object edges is because variable with irradiation direction. この問題は、テキスチャを用いることで抑制することはできる(米国特許出願公開第2001/0020946号)が、解消することはできない。 This problem can be prevented by using the texture (U.S. Patent Application Publication No. 2001/0020946), but can not be eliminated. その他のアプローチでは、サンプリングした異なる視点での画像において特徴点を抽出することによりモデルを作成し、ポイント記述子を用いて分類器を学習させる(例えば、Lepetit、2004年)。 In other approaches, to create a model by extracting feature points in the image at the sampling with different viewpoints, to train a classifier using a point descriptor (e.g., Lepetit, 2004 years). サーチ画像においても、ポイント記述子の出力を用いて特徴点が抽出され分類される。 Also in the search image, feature points using the output of the point descriptor is extracted classified. 最終的に、最も有望な三次元位置姿勢が返される。 Finally, it returned the most promising three-dimensional position and orientation. 残念ながら、この種のアプローチは、オブジェクト表面の特異なテキスチャに大きく依存するため、殆どの産業上の利用には適していない。 Unfortunately, this type of approach, because it depends largely on the unique texture of the object surface, not suitable for use on most of the industry. 三次元モデルのワイヤフレーム投影図のみを用いたアプローチは、投影されたエッジの多くがサーチ画像において可視ではないという問題に直面しており、特に、オブジェクトの三次元モデルにおいて二次元の三角形で一般的に近似される、若干湾曲した表面について、この問題がある。 Approach using only wireframe projection of the three-dimensional model is to face the problem that many of the projected edges are not visible in the search image, especially, generally a two-dimensional triangular in the three-dimensional model of the object to be approximated, for a slightly curved surface, there is a problem. 二次元投影図を二次元サーチ画像と比較するために用いられる技術は、クラッターおよびオクルージョンに対してロバストではないことが多い(Ulrich、2003年)。 Technique used to compare the 2D projections with the 2D search image is often not robust to clutter and occlusions (Ulrich, 2003 years). 結局、純粋なビューベースアプローチにより測定されるオブジェクト位置姿勢の精度は、視点の許容される範囲がサンプリングされる距離によって制限される。 After all, the accuracy of the object position and orientation as measured by pure view-based approach is acceptable range of the viewpoint is limited by the distance to be sampled.

本発明は、単眼カメラ画像において三次元オブジェクトを認識するためのシステムおよび方法、並びにカメラ座標系に対するオブジェクトの三次元位置姿勢を測定するためのシステムおよび方法を提供する。 The present invention is a system and method for recognizing a three-dimensional object in a single camera image, as well as a system and method for measuring the three-dimensional position and orientation of the object with respect to the camera coordinate system. 本発明は、先に説明したビューベースオブジェクト認識方法における従来技術の問題の多くを実質的に解消する方法を提供する。 The present invention provides a method for substantially eliminating many of the prior art problems in view-based object recognition method described above.

第1の観点において、本発明は、三次元オブジェクト認識を行うための三次元モデルを構築するための方法を提供するもので、(a)カメラの内的パラメータを提供するステップと、(b)三次元オブジェクトの幾何学的表象を提供するステップと、(c)三次元オブジェクトが、カメラから可視である位置姿勢の範囲を提供するステップと、(d)異なる画像解像度、例えば画像ピラミッドのレベルについて前記位置姿勢の範囲をサンプリングすることにより、前記三次元オブジェクトの仮想ビューを作成するステップと、(e)すべてのビューをツリー構造により表現するステップであって、同一のピラミッドレベル上のビューは、前記ツリーにおいて同一の階層レベルに属するステップと、(f)各画像について、適切な二次元マッチングア In a first aspect, the present invention is to provide a method for constructing a three-dimensional model for the three-dimensional object recognition, comprising: providing a intrinsic parameters of (a) a camera, (b) providing a geometric representation of a three-dimensional object, (c) a three-dimensional object, comprising the steps of providing a range of position and orientation are visible from the camera, the (d) different image resolutions, e.g., the level of the image pyramid by sampling the range of the position and orientation, and creating a virtual view of the three-dimensional object, (e) all the views comprising the steps of representing a tree structure view on the same pyramid level, a step belonging to the same hierarchical level in the tree, the (f) each image, a suitable two-dimensional matching a プローチを用いることにより、画像における二次元ビューを見つけるために使用可能な二次元モデルを作成するステップとを含む。 By using the approach, and a step of creating a 2D model that can be used to find the two-dimensional view of the image.

第2の観点によると、本発明は、三次元オブジェクトを認識するためであって、前記オブジェクトの1つの画像からその三次元位置姿勢を測定するための方法であり、(a)前記三次元オブジェクトの三次元モデルを提供するステップと、(b)前記三次元オブジェクトの電子サーチ画像を提供するステップと、(c)例えば、画像ピラミッドといった、異なる解像度を含む前記サーチ画像の表象を作成するステップと、(d)前記階層的ツリー構造において、親ビュー(father view)を持たない二次元モデルを、前記画像ピラミッドの各レベルの画像とマッチさせるステップと、(e)最下位ピラミッドまで追跡することにより、最上位ピラミッドレベルの二次元でのマッチの確認および絞り込み(refining)を行うステップと、(f)前記二次 According to a second aspect, the present invention has been to recognize the three-dimensional object, a method for determining the three-dimensional position and orientation of one image of said object, (a) the three-dimensional object providing a three-dimensional model of the steps of creating and providing, (c) for example, such image pyramid, a representation of the search image containing different resolutions electronic search image of (b) the three-dimensional object in; (d) hierarchical tree structure, parent view a two-dimensional model that has no (father view), a step of matching the levels of the image of the image pyramid by tracking up to (e) the lowest pyramid and performing a match check and narrowing in a two-dimensional top-pyramid level (refining), (f) the secondary 元マッチングの位置姿勢および前記対応する三次元ビューの位置姿勢から、初期三次元オブジェクトの位置姿勢を測定するステップと、(g)前記初期三次元オブジェクトの位置姿勢を絞り込むステップとを含む。 From the position and orientation of the position and orientation and the corresponding three-dimensional view of the original matching, comprising the steps of measuring the position and orientation of the initial three-dimensional object, and a step to narrow the (g) the position and orientation of the initial three-dimensional object.

第3の観点によると、本発明は、テキスチャ情報で三次元モデルを補強するための方法を提供するものであって、(a)前記三次元オブジェクトのいくつかの画像例を提供するステップと、(b)前記画像例それぞれにおいて、前記三次元オブジェクトの前記三次元位置姿勢を測定するステップと、(c)各画像例について、ステップ(b)で測定した前記三次元位置姿勢を用いて、前記三次元モデルの各面を画像例に投影するステップと、(d)各オブジェクト面について、前記投影面で隠れた画像例部分を、前記面の前記三次元位置姿勢を用いて修正するステップと、(e)前記修正されたテキスチャを備えたオブジェクト面から得られたテキスチャ情報で前記二次元モデルを補強し、幾何学的情報およびテキスチャ情報の両方を含む二次 According to a third aspect, the present invention is intended to provide a method for reinforcing the three-dimensional model with texture information, and providing some example images of (a) the three-dimensional object, (b) in the example images respectively, and measuring the three-dimensional position and orientation of the three-dimensional object, for each image example (c), using the three-dimensional position and orientation measured in step (b), the and projecting each face of the three-dimensional model to the image example, the step of modifying with (d) is for each object plane, an image example portion hidden by the projection plane, the three-dimensional position and orientation of the surface, (e) to reinforce the two-dimensional model with texture information obtained from the object surface with the modified texture, secondary containing both geometric information and texture information モデルとするステップとを含む。 And a step of the model.

第1のステップにおいて、前記カメラは、最終的な三次元オブジェクトの位置姿勢を高精度にするために較正される。 In a first step, the camera is calibrated to the position and orientation of the final three-dimensional objects in order to highly accurately. また、前記較正は、オブジェクト認識用カメラレンズが著しく歪んでいても、これを用いることを可能にする。 Further, the calibration object recognizing camera lens even though distorted significantly, allows the use of this.

その後、三次元モデルは、例えば、三次元CADモデルといった前記オブジェクトの三次元表象に基づいて学習される。 Thereafter, the three-dimensional model, for example, is learned on the basis of the three-dimensional representation of the object, such as three-dimensional CAD model. これを行うために、三次元オブジェクトのビューは、ユーザが特定した位置姿勢範囲内で生成される。 To do this, the view of the three-dimensional object is generated in the position and orientation range specified by the user. 本発明の好ましい実施形態において、オブジェクトは、球座標系を画定する球の中心にあると想定される。 In a preferred embodiment of the present invention, the object is assumed to be in the center of the sphere defining the spherical coordinate system. このため、三次元モデルに含まれるべきカメラ位置の範囲は、球座標の経度、緯度および距離について間隔を特定することによって表わすことができる。 Therefore, the range of camera positions to be included in the three-dimensional model can be expressed by specifying intervals longitude, the latitude and the distance spherical coordinates. また必要に応じて、前記カメラのロール角度は、モデル学習に適切な値を渡すことで、360度よりも狭い範囲に限定することができる。 If necessary, the roll angle of the camera, by passing appropriate values ​​to the model training can be limited to a range narrower than 360 °. この学習(オフライン段階)の間、カメラは常にオブジェクトの中心に向けられるものとする。 During this learning (offline phase), the camera is always assumed to be directed to the center of the object.

位置姿勢の範囲内でのビューのサンプリングは、前記学習処理中に自動的に測定される。 Sampling of views within the range of the position and orientation are automatically determined during the learning process. この自動算出によるサンプリングの利点は、サンプリングを行うためのパラメータ値をユーザが特定する必要がなく、オブジェクト認識のロバスト性と速度とが最大になるようにサンプリングを選択することができることである。 An advantage of sampling by the automatic calculation, there is no need for the user to identify the parameter values ​​for performing the sampling and the robustness and speed of the object recognition is that it is possible to select the sampling to maximize. 認識の速度をさらに上げるために、複数のピラミッドレベル上にモデルが作成される。 To further speed up the recognition, the model is created on multiple pyramid levels. ピラミッドレベルが高くなるにつれて、ビューのサンプリングが粗くなるので、ビューの算出は、各ピラミッドレベルについて個別に行われる。 As pyramid level becomes higher, the sampling of the view becomes rough, the calculation of the views is performed separately for each pyramid level. オーバサンプリングから開始して、抽出が原解像度に最適になったとわかるまで、適切な類似度を用いて近傍のビューが順に統合される。 Starting from oversampling, extraction until seen as it becomes optimal for the original resolution, the view of the neighborhood are integrated sequentially using appropriate similarity. 次に高位のピラミッドレベル上でサンプリングするために、類似度の閾値はより低い解像度に緩和され、これらの閾値を超えるまでビューはさらに統合される。 Next, in order to sample on pyramid level, the threshold of similarity is relaxed to a lower resolution, the view is further integrated to exceed these thresholds. この処理は、ピラミッドレベルの最大数に達するまで繰り返される。 This process is repeated until the maximum number of pyramid levels. 異なるピラミッドレベル上のビュー同士の関係は、三次元モデル内に保存される。 Relationship view between on different pyramid levels are stored in the 3D model. この情報があるため、高位のピラミッドレベル上のある特定のビューを求めて、前記高位のピラミッドレベル上にビューを作成するよう統合されたその直下のピラミッドレベル上のビューに問い合わせを行うことが可能である。 Because of this information, it is possible to query seeking particular view with top pyramid level, the integrated view on pyramid level immediately below to create a view on the pyramid level on it is. この情報はツリー構造で保存される。 This information is stored in a tree structure. ツリーにおける各ノードは一つのビューを表す。 Each node in the tree represents one view. 同一ピラミッドレベル上のビューは、ツリーにおける同一の階層レベルに属する。 Views on the same pyramid level belong to the same hierarchical level in the tree. このツリー構造により、各親ノードは1つまたはそれ以上の子ノードに接続される一方で、各子ノードは最大でも1つの親ノードに接続される。 This tree structure, each parent node while being connected to one or more child nodes, each child node is connected to one parent node at the maximum. さらに、各ビューの三次元位置姿勢は三次元モデル内に保存される。 Moreover, three-dimensional position and orientation of each view are stored in the 3D model.

各ピラミッドレベルおよびそのレベル上の各ビューについて、二次元モデルが作成される。 For each view on each pyramid level and that level, the two-dimensional model is created. これを行うために、現行のビューにより表わされるカメラの位置姿勢を用いて、オブジェクトの三次元表象が像面に投影される。 To do this, using the position and orientation of the camera represented by the current view, three-dimensional representation of the object is projected onto the image plane. この結果、3チャネル画像が得られ、ここでは、この3チャネルは、三次元オブジェクトを成す面の法線ベクトルの3つの要素を表す。 As a result, three-channel image is obtained, here, the 3 channels represent the three elements of the normal vector of the surface forming the three-dimensional object. この3チャネル画像投影を用いる利点は、この画像におけるエッジ振幅が、三次元オブジェクトの二つの近傍面が成す角度に直接関係するという点にある。 The advantage of using this three-channel image projection is the edge amplitude in this image is in terms directly related to the angle between the two neighboring surfaces of the three-dimensional object. 本発明の好ましい実施形態において、二次元モデル表象は、エッジ位置および各エッジの方向を含む。 In a preferred embodiment of the present invention, the two-dimensional model representation includes the direction of the edge position and the edge. モデルの三次元描画には、オブジェクトの直接像では可視ではない多くのエッジが含まれていることが多い。 A three-dimensional rendering of the model are often contains many edges that are not visible in the direct image of the object. 例えば、このようなエッジは、十分な数の平らな面によって湾曲した表面を近似するために用いられるCADソフトの三角測量法を行った結果生じる。 For example, such edges result from performing triangulation of CAD software used to approximate curved surfaces by planar surface of sufficient number. このため、これらのエッジは、二次元モデルに含まれてはならない。 Thus, these edges should not be included in the 2D model. 三次元オブジェクトにおける2つの近傍面の法線ベクトル間の角度差に対して最小値を特定することで、これらを抑制することが可能である。 By specifying the minimum value for the angle difference between the normal vectors of two neighboring faces in the three-dimensional object, it is possible to suppress these. 投影モードが選択されるので、この最小角度は、3チャネル画像におけるエッジ振幅に対する閾値に容易に変換することができる。 Since the projection mode is selected, this minimum angle can easily be converted to a threshold for the edge amplitude in the three-channel image. 最終的に、二次元モデルは、関連する画像ピラミッドレベル上の3チャネル画像から生成される。 Finally, the two-dimensional model is generated from the three-channel image on the associated image pyramid level. 本発明の好ましい実施形態において、欧州特許第1,193,642号において提示される類似度が、二次元マッチングに用いられる。 In a preferred embodiment of the present invention, the degree of similarity is presented in EP 1,193,642 is used for the two-dimensional matching. これは、オクルージョン、クラッターおよび非線形コントラスト変化に対しロバストである。 This occlusion is robust to clutter and nonlinear contrast changes. 二次元モデルは、対応する勾配方向ベクトルを伴う複数のエッジポイントからなり、これらは例えば、エッジ検出方法といった標準的な画像前処理アルゴリズムにより得ることができる。 2D model consists of a plurality of edge points with a corresponding gradient directional vector, which for example, can be obtained by standard image preprocessing algorithms such edge detection methods. 類似度は、エッジ勾配方向のドット積に基づく。 Similarity is based on the dot product of the edge gradient direction. あるいは代わりに、その他のエッジに基づく二次元マッチングアプローチを本発明に用いることも可能で、例えば、平均エッジ距離に基づくアプローチ(Borgefors、1988年)、ハウスドルフ距離に基づくアプローチ(Rucklidge、1997年)、または一般化ハフ変換に基づくアプローチ(Ballard、1981年またはUlrich et al.、2003年)がある。 Or alternatively, 2D-matching approach based on other edges can also be used in the present invention, for example, approaches that are based on the mean edge distance (Borgefors, 1988), approaches based on the Hausdorff Distance (Rucklidge, 1997) , or a general approach based on the Hough transform (Ballard, 1981 or Ulrich et al., 2003) there is. 最後のステップにおいて、作成された二次元モデルが、画像におけるクラッターからモデルを区別するために必要な十分に顕著な特性を依然として示しているかどうかが確認される。 In the last step, the two-dimensional model was created, whether still shows sufficiently outstanding properties necessary to distinguish the model from clutter in the image is confirmed. そうでない場合、このビューおよびピラミッドレベルの二次元モデルは取り除かれる。 Otherwise, the two-dimensional model of this view and pyramid level are removed.

オンライン段階においては、作成された三次元モデルが、単眼カメラ画像における三次元オブジェクトの認識用に、また、カメラ座標系におけるオブジェクトの三次元位置姿勢の測定用に用いられる。 In the online phase, the three-dimensional model created is, for the recognition of the three-dimensional object in a single camera image, also used for measuring the three-dimensional position and orientation of an object in the camera coordinate system. 最初に、入力画像から画像ピラミッドを作る。 First, create an image pyramid from the input image. 少なくとも1つの有効な二次元モデルが得られる最も高位のピラミッドレベルで認識を開始する。 To start recognition in most pyramid level at least one valid 2D model is obtained. このピラミッドレベルの二次元モデルはすべてサーチされるが、サーチは例えば、ビューの二次元モデルと現行の画像ピラミッドレベルの二次元モデルとの間の欧州特許第1,193,642号で提示される類似度を算出することにより行なわれる。 Although the two-dimensional model of the pyramid levels are all searched, the search for example, is presented in EP 1,193,642 between the 2D models of the 2D model and the current image pyramid level view It is performed by calculating the degree of similarity. あるいは、代わりにその他のエッジに基づく二次元マッチングアプローチを本発明に用いることも可能で、前記アプローチには例えば、平均エッジ距離に基づくアプローチ(Borgefors、1988年)、ハウスドルフ距離に基づくアプローチ(Rucklidge、1997年)、または一般化ハフ変換に基づくアプローチ(Ballard、1981年またはUlrich et al.、2003年)がある。 Alternatively, instead other 2D-matching approach based on the edge is also possible to use the present invention to, in the approach, for example, approaches that are based on the mean edge distance (Borgefors, 1988), approaches that are based on the Hausdorff Distance (Rucklidge , 1997), or a general approach based on the Hough transform (Ballard, 1981 or Ulrich et al., there is a 2003). サーチを行うために、二次元モデルが必要な範囲で回転および拡大縮小され、この拡大縮小および回転された二次元モデルの画像における各位置で類似度が算出される。 To perform a search, rotated and scaled to the extent necessary two-dimensional model, the similarity at each position in the image of the scaled and rotated 2D models are calculated. 所定の類似度を超えるマッチの二次元位置姿勢(位置、回転、拡大縮小)は、マッチ候補の一覧に保存される。 Two-dimensional position and orientation of the match exceeding a predetermined similarity (position, rotation, scaling) is stored in the list of match candidates. 次の下位のピラミッドレベル上で、ツリー内に親ノードを持たない二次元モデルがすべて、最も高位のピラミッドレベル上のビューで行った方法と同じ方法でサーチされる。 On the next lower pyramid level, two-dimensional model that does not have a parent node in the tree is all, is searched in the same way as was done in the view of the most high-level of the pyramid level. さらに、前のピラミッドレベル上で見つかったマッチ候補は絞り込まれる。 In addition, match candidates found in front of the pyramid level on is narrowed down. この絞り込みは、ツリーにおける子ビューをすべて選択し、これらの子ビューの二次元モデルと現行の画像ピラミッドレベルの二次元モデルとの間の類似度を算出して行われる。 This narrowing is to select all the trees Niokeruko view is performed by calculating the similarity between the two-dimensional model of a two-dimensional model and the current image pyramid level of the child views. しかしながら、親ビューのマッチに従い、非常に制限されたパラメータ範囲内だけで類似度を算出することでも十分である。 However, according to the match of the parent view, it is also possible to calculate the similarity only in very restricted parameter range sufficiently. このことは、精査すべき位置、回転および拡大縮小の範囲が、親マッチの近傍に限定できることを意味する。 This position should be scrutinized, the range of rotation and scaling is meant that can be limited to the vicinity of the parent match. この処理は、最も下位のピラミッドレベルまですべてのマッチ候補が追跡されるまで繰り返される。 This process is repeated until until lowest pyramid level all match candidates are tracked. ピラミッドアプローチとツリー構造に配列される階層的モデルビューとの組み合わせは、リアルタイムアプリケーションにおいて重要であるが、これまでの認識アプローチにおいては適用されたことが無い。 Combination with hierarchical model views that are arranged in a pyramid approach and tree structure is important in real-time applications and has not been applied in previous recognition approaches.

残念ながら、上述の追跡は、カメラがオブジェクトの中心に向けられておらず、よってオブジェクトが画像の中心に現れない場合は不可能である。 Unfortunately, the tracking described above, the camera is not directed to the center of the object, thus the object is not possible if you do not appear in the center of the image. 学習中に作成された二次元モデルは、オブジェクト中心に向けられるカメラを想定して作成されていることから、画像における二次元モデルおよび投影モデルは二次元投影変換によって関連付けられる。 Dimensional model created during training, since it has been created on the assumption camera directed to the object center, the two-dimensional model and the projection model in the image are related by two-dimensional projection conversion. この変換のパラメータは、画像におけるオブジェクトの位置が既知な場合、算出することができる。 The parameters of this transformation, if the position of the object in the image is known, can be calculated. したがって、次に下位のピラミッドレベルへマッチ候補が追跡される前に、その子ビューの二次元モデルは、マッチ候補の位置に応じて投影的に修正される。 Therefore, before the next matching candidates to the lower pyramid level is tracked, the two-dimensional model of the child views are projectively corrected according to the position of the match candidate. これは、これまでのビューベース認識アプローチでは適用されていない極めて重要なステップである。 This is a very important step that is not applied in previous view-based recognition approaches.

マッチングの結果、所定の類似度を超える二次元マッチの画像における二次元位置姿勢が得られる。 As a result of the matching, the two-dimensional position and orientation in the two-dimensional matching of the image exceeding a predetermined similarity are obtained. 各マッチについて、対応する三次元オブジェクトの位置姿勢を、二次元マッチ位置姿勢とマッチに関連するモデルビューの三次元位置姿勢とに基づき算出することができる。 For each match, the position and orientation of the corresponding three-dimensional object can be calculated based on the three-dimensional position and orientation of the model view associated with the two-dimensional matching pose and match. 取得した三次元位置姿勢の精度は、ビューのサンプリングおよび二次元マッチング中の二次元位置姿勢、すなわち、位置、回転、拡大縮小のサンプリングによって制限される。 Accuracy of the acquired three-dimensional position and orientation is two-dimensional position and orientation in the sampling and two-dimensional view matching, i.e., position, rotation is limited by the sampling of the scaling. これは実用的な利用には十分でない。 This is not sufficient for practical use. したがって、位置姿勢絞り込みステップが実用的な利用を可能にするために不可欠である。 Therefore, it is essential to position and orientation narrowing step is to allow practical use. 三次元位置姿勢の絞り込みは最小二乗調整を使用して行われる。 Refine the three-dimensional position and orientation is performed using a least squares adjustment. これを行うために、マッチングにより取得した三次元位置姿勢を用いて、三次元オブジェクトがサーチ画像に投影される。 To do this, using the three-dimensional position and orientation acquired by matching the three-dimensional object is projected into the search image. 投影モデルエッジは、適切なサンプリング距離を使用して個別のポイントに至るまでサンプリングされる。 Projected model edge is sampled down to individual points using an appropriate sampling distance. サンプリングされた各エッジポイントについて、その近隣で、それに対応する、サブピクセルレベルで正確な画像エッジポイントがサーチされる。 For each edge point sampled, in its neighborhood, the corresponding, accurate image edge point in the sub-pixel level are searched. すべての画像エッジポイントと投影モデルエッジとの間の距離の二乗を最小化することで、絞り込まれた三次元位置姿勢が得られる。 By minimizing the square of the distance between all image edge points and the projection model edge, three-dimensional position and orientation narrowed obtained.

説明したアプローチはいくつかの拡張が可能である。 Approach described is capable of some of the extension. 例えば、カメラレンズが著しく歪んでいる場合、マッチングを適用する前にこの歪みは除去すべきである。 For example, if the camera lens is distorted significantly, the distortion before applying the matching should be removed. これは、サーチ画像を修正することによって容易に行なうことができ、歪みのない画像が得られる。 This can be easily done by modifying the search image, distortion-free image can be obtained. その後、修正した画像においてマッチングが実行される。 Then, matching is performed in the modified image.

二つ目の拡張は、カメラ設定が強い投影歪み(射影歪み)を示す場合に適用することができる。 The second extension can be applied if the camera setup shows strong projection distortion (perspective distortion). 焦点距離が短くなればなるほど、また、オブジェクトの奥行きが深くなればなるほど、画像において遠近法的歪みが強くなる。 The shorter the focal length, also, the deeper the depth of the object, the perspective distortion is increased in the image. この場合、追跡中(上記参照)に施される投影の修正では十分ではない可能性がある。 In this case, one may not be sufficient in the modification of the projection to be performed during follow-up (see above). 代わりに、最も高位のピラミッドレベル上ですでに投影歪みを考慮に入れなければならない。 Instead, it must already take into account the projection distortion in the most high-level of the pyramid level on. したがって、最高位のピラミッドレベルは、球マッピング(spherical mapping、球面マッピングとも言う。)を適用して変換される。 Therefore, the pyramid level the highest, the spherical mapping (spherical mapping, also referred to as a spherical mapping.) Is converted by applying. 球マッピングは、遠近法的歪みの影響を著しく低減するもので、これにより、オブジェクトが画像中心にない場合でも、該オブジェクトの類似度を高くすることができる。 Sphere mapping is intended to significantly reduce the effect of the perspective distortions, thereby, even if the object is not in the image center, it is possible to increase the similarity of the object. このため、最高位のピラミッドレベル上で用いられる二次元モデルにも、同一の球マッピングが施されなければならない。 Thus, even a two-dimensional model used in the highest pyramid level on the same sphere mapping must be performed.

オブジェクトが特徴的なテキスチャを示す場合、本発明は、この付加的な情報の恩恵を受けるよう容易に拡張することができる。 If the object shows a characteristic texture, the present invention can be benefit so readily extended to this additional information. 本発明の好ましい実施形態において、ユーザは、三次元モデルの生成の後、オブジェクトのいくつかの画像例を提供する。 In a preferred embodiment of the present invention, the user, after the generation of the three-dimensional model, it provides some example images of the object. 第1のステップにおいて、三次元モデルが、この画像例におけるオブジェクトの三次元位置姿勢を測定するために用いられ、画像例からオブジェクトテキスチャを自動的に抽出する。 In a first step, the three-dimensional model is used to measure the three-dimensional position and orientation of the object in the example images and automatically extracts the object texture from the example images. 第2のステップにおいて、三次元モデルは、二次元モデルにテキスチャ情報を追加することで補強される。 In a second step, the three-dimensional model is reinforced by adding texture information to a two-dimensional model.

三次元モデルにおいて必要なビューの数を減らし、これにより、メモリの消費および三次元オブジェクト認識のランタイムを減らすために、欧州特許第1,193,642号に提示される類似度は、ビューの位置姿勢における細かい変更に対して許容範囲を広げることができる。 Reduce the number of views needed in the three-dimensional model, thereby, to reduce the run time of consumption and the three-dimensional object recognition memory, similarity presented in EP 1,193,642, the position of the view it is possible to widen the allowable range with respect to small changes in posture. これは、サーチ画像における類似度の算出に用いられる勾配方向を、エッジの両側へ拡張することで達成できる。 This gradient direction that is used for calculation of the similarity in the search image can be achieved by extending the sides of the edge.

本発明は、付随する図面と共に以下の詳細な説明からさらに十分に理解できるであろう。 The invention will be more fully understood from the following detailed description in conjunction with the accompanying drawings.

以下、本発明の個々のステップを詳細に説明する。 Hereinafter will be described the individual steps of the present invention in detail. 最初は、高精度を得るための最初のステップである幾何学的カメラ較正である。 Initially, the geometric camera calibration is the first step to obtain a high accuracy. その後、三次元オブジェクトをどのように表現するかについての情報を示す。 Then, to show information about how to represent the three-dimensional object. 次の項目で、サーチ画像内の三次元オブジェクトを見つけるために用いることができる三次元モデルの生成を説明する。 In the following items, explaining the generation of a three-dimensional model that can be used to find the three-dimensional object in the search image. 以下の説明において、三次元モデル生成はオフライン段階として示される。 In the following description, the three-dimensional model generation is shown as the offline phase. そして、画像内のオブジェクトを認識するために使用できる方法を説明する。 Then, a method that can be used to recognize objects in an image. このステップは、以下の説明においてオンライン段階として示される。 This step is shown as an online step in the following description. 前記オフライン段階のステップは、図1のフローチャートにまとめられ、前記オンライン段階のステップは、図2のフローチャートにまとめられている。 Step of the offline phase is summarized in the flow chart of FIG. 1, the online stage of step is summarized in the flow chart of FIG. 両方のフローチャートにおいて、不可欠なステップは実線によるボックスで示され、一方、選択的なステップは点線によるボックスで示されている。 In both the flow chart of essential steps are indicated by boxes by a solid line, whereas, optional step is shown in box by the dotted line. 最後に、提示した方法を利用したロボットビジョンシステムを紹介する。 Finally, we introduce the robot vision system that uses the presented method. 以下の説明は、当業者が本発明を作成し使用できるように提示される。 The following description is, those skilled in the art is presented for use to create the present invention. 特定の適用についての説明は、単なる例として挙げられている。 Description of the specific application, are mentioned as examples only. 好ましい実施形態に対する様々な変形は、当業者ならば容易に分かるものであり、また、ここで定義する一般的な原理は、本発明の精神および範囲から逸脱することなく、他の実施形態および利用に適用することができる。 Various modifications to the preferred embodiments are those readily apparent to those skilled in the art, also the general principles defined herein without departing from the spirit and scope of the present invention, other embodiments and utilization it can be applied to. このため、本発明は、示されている実施形態によって限定されるものではなく、ここで開示されている原理および特徴と一貫性がある最も広い範囲と一致するものである。 Therefore, the present invention is not limited by the embodiment shown is for the broadest range is consistent with the principles and features disclosed herein.

[幾何学的カメラ較正] [Geometric camera calibration]
幾何学的カメラ較正(工程101)は、コンピュータ視覚、ロボット工学、写真測量法、および他の分野において、イメージから精密な三次元情報を抽出するための前提条件である。 Geometric camera calibration (step 101), computer vision, robotics, photogrammetry, and in other fields, is a prerequisite for the extraction of precise three-dimensional information from the image. 三次元カメラ較正を用いることについては2つの主な利点をあげることができる。 For the use of the three-dimensional camera calibration can be mentioned two main advantages. 第1に、カメラの内的パラメータが既知の場合、距離的三次元情報は画像からしか得ることができない。 First, if intrinsic parameters of the camera is known, the distance three dimensional information can not be obtained only from images. 第2に、レンズの歪みは、画像測定を著しく誤ったものとすることがあるため、較正処理の際、明確にモデル化し、測定する必要がある。 Second, the distortion of the lens, because it can be assumed that severely wrong image measuring, during the calibration process, clearly modeled, it is necessary to measure. その結果、カメラ較正を行わないと、多くのアプリケーションにとって必要とされるオブジェクト認識アプローチの正確さは得ることができない。 As a result, Without camera calibration, it is impossible to the accuracy of object recognition approach that is necessary for many applications to obtain. 本発明の好ましい実施形態において、Lenz、1987年により紹介されたカメラモデルが用いられており、ここでは、径方向に歪みのあるピンホールカメラが想定されている(図3)。 In a preferred embodiment of the present invention, Lenz, are used camera model introduced is by 1987, where the pinhole camera is envisioned that the radially strained (Figure 3). カメラの較正は、Lanser et al.、1995年において説明されているアプローチに従い行なわれる。 Calibration of the camera, Lanser et al., Are carried out in accordance with approaches that are described in 1995. ここでは、既知の位置に丸い印が付された平面の較正ターゲットの複数の画像が較正に用いられている(図3)。 Here, a plurality of images of the calibration target round mark is added plane at a known location is used for calibration (FIG. 3). あるいは、その他のモデルまたは較正方法も、本発明の範囲から逸脱することなく本発明に容易に取り込むことができる。 Alternatively, other models or calibration methods can also easily incorporate it in the present invention without departing from the scope of the present invention. このことは、例えば、使用されているレンズが、径方向の成分しか用いず不十分にモデル化されたさらに複雑な歪みを示す場合に必要となるであろう。 This can, for example, a lens being used, would be required to indicate more complex distortions that are insufficiently modeled without only using radial component. 較正の結果、内的カメラパラメータ(f、κ、sx、sy、cx、cy)が得られ、ここでは、fが焦点距離であり、κが径方向の歪みを表示し、sxおよびsyがそれぞれ、xおよびy方向におけるセンサ上のセンサ要素同士の距離であり、(cx、cy) が、画像における主点の位置である。 Results of the calibration, intrinsic camera parameters (f, κ, sx, sy, cx, cy) are obtained, where, f is the focal length, kappa displays a distortion in the radial direction, sx and sy, respectively , the distance sensor elements with each other on the sensor in x and y directions, (cx, cy) T is the position of the principal point in the image. カメラ座標系において与えられる三次元ポイントPc=(x、y、z)から、画像座標系におけるピクセル座標P=(r、c) へのマッピングは、以下の3つのステップにより行なわれる(図3参照)。 Three-dimensional point Pc = given in the camera coordinate system (x, y, z) from the mapping of the pixel coordinates P = (r, c) T in the image coordinate system is performed by the following three steps (Fig. 3 reference).

1. 1. カメラ座標系において与えられる三次元ポイントの像面への投影。 Projection of the image plane of the three-dimensional points given in the camera coordinate system.

2. 2. 径方向の歪みを適用する。 To apply the distortion in the radial direction.

ここでは、径方向の歪みがパラメータκで表わされる。 Here, the distortion in the radial direction is represented by the parameter kappa. κが負の場合、歪みは樽形であり、またκが正の場合、歪みは糸巻形である。 If κ is negative, the distortion is barrel-shaped, and if κ is positive, the distortion is pincushion. レンズ歪みのこのモデルには、歪みの修正を分析的に算出するために、容易に反転することができるという利点がある。 This model of lens distortion in order to calculate the correction of the distortions analytically, there is an advantage that it can be easily reversed.

3. 3. 下記の(数4)で表される二次元画像ポイントを、下記の(数5)で表されるピクセル座標p=(r、c) へ変換する。 A two-dimensional image points represented by the following equation (4), to convert pixel coordinates p = (r, c) represented by the following equation (5) to the T.

[三次元オブジェクト表象] [Three-dimensional object representation]
本発明は、任意の剛体三次元オブジェクトに対応することができる。 The present invention may correspond to any of the rigid three dimensional object. 一般的に、三次元オブジェクトは、CADモデルまたは同様の三次元記述により表現され、いくつかの利用可能なCADソフトツールの一つで生成することができる(工程102)。 Generally, the three-dimensional object is represented by a CAD model or a similar three-dimensional description, it can be generated in one of several available CAD software tools (step 102). ほとんどのCADソフトツールは三次元記述をDXFファイル形式でエクスポートすることができるため、本発明の好ましい実施形態は、三次元オブジェクトのDXFファイルのインポートをサポートしている。 Because most of CAD software tools that can be exported dimensional description in DXF file format, the preferred embodiment of the present invention supports the import of a DXF file of the three-dimensional object. あるいは、三次元の固体の形状を表すことができるその他の表象も同様に適している。 Alternatively, also other representations that can represent the shape of a three-dimensional solid are likewise suitable. オブジェクトは、平らな面の集合で表現されていると想定される。 Object is assumed to be represented by a set of flat surface. モデルが、円柱、球または任意の湾曲面などの曲面を含む場合、これらの面は、直線的なエッジで輪郭が描かれた十分な数の平らな面の集合によって近似されなければならない。 Model, may include a cylinder, a curved surface such as a sphere or any curved surfaces, these surfaces must be approximated by a set of flat surfaces a sufficient number of profiled by straight edges. 多くの場合、平面近似はCADソフトの一部である。 In many cases, the plane approximation is part of the CAD software. さもなければ、いくつかの利用可能な公知な標準的アプローチの一つ、例えば、Rypl、2003年において提示されているようなアプローチを、平らな面によって曲面を近似するために用いることができる。 Otherwise, one of several available well-known standard approaches, for example, an approach such as that presented in Rypl, 2003 years, can be used to approximate the curved surface by a flat surface. 三角測量法の包括的概説が、BernおよびEppstein、1992年に示されている。 Comprehensive review of triangulation is shown in Bern and Eppstein, 1992 years.

[三次元モデル生成] [Three-dimensional model generation]
三次元モデル生成の第1のステップ(工程104)において、三次元オブジェクトは、内的表象に変換されるが、この内的表象は、輪郭が閉多角形である平らな面の集合として、オブジェクトを表す。 In the first step of a three-dimensional model generation (step 104), the three-dimensional object, is converted to internal representation, this internal representation is as a set of flat surface contour is a closed polygon, object a representative. 図4Aは、主に平らな面と円柱とからなるオブジェクト例を示す。 4A shows an example object that consists of mainly flat surface and cylinder. 後者はいくつかの平らな長方形で近似されている。 The latter is approximated by several planar rectangles. また、4つの小さな円は多角形の面で近似されている。 The four small circles are approximated in terms of a polygon. 視覚化を行う目的で、図4Bは、同一のオブジェクトを、隠線を取り除いた状態で示している。 For the purpose of performing the visualization, FIG. 4B, the same object is shown on the condition of removing hidden lines.

そして、内的に用いられるオブジェクト座標系を画定する(工程107)。 Then, defining the object coordinate system used internally (step 107). 本発明の好ましい実施形態において、座標系の中心は、三次元オブジェクトの中心、すなわち、オブジェクトの三次元バウンディングボックスの中心に移動される。 In a preferred embodiment of the present invention, the center of the coordinate system, the center of the three-dimensional object, i.e., is moved to the center of the three dimensional bounding box for the object. 別の実施形態において、オブジェクト座標系は、例えば、DXFファイルといった外的表象から採用される。 In another embodiment, the object coordinate system, for example, be employed from external representation such DXF file. さらに別の実施形態においては、ユーザが座標系の中心を特定する。 In yet another embodiment, the user specifies the center of the coordinate system. オブジェクトの基準方位を特定するために、座標系の方位は、任意でユーザにより変更できる。 To specify the reference azimuth of an object, the orientation of the coordinate system, optionally be changed by the user. 基準方位は、サーチが行なわれる間、オブジェクトの平均方位を特定する。 Reference orientation while the search is conducted, specifying the average orientation of the object. それは、三次元モデルが作成されサーチされる位置姿勢の範囲をユーザが特定するためのより便利な方法を容易にするように変更可能である。 It is capable of changing the more convenient way for the range of the position and orientation which the 3D model is searched creates a user specifies to facilitate. 図5Aは、外的表象の原座標系を示し、図5Bは、これを原点に移動し、基準方位に回転させた後の座標系を示す。 5A shows the original coordinate system of the external representation, FIG. 5B shows the coordinate system after it was moved to the origin, it is rotated to the reference azimuth. このため、原座標系中に与えられる三次元ポイントP extは、剛体三次元変換を適用することによって内的に用いられる基準座標系中に与えられるP intに変換することができ、これをP int =RP ext +Tと記すことができる。 Thus, three-dimensional point P ext given in the original coordinate system can be converted into P int, given in the reference coordinate system used internally by applying a rigid three-dimensional conversion, which P can be referred to as int = RP ext + T. ここで、Rは3×3の回転行列、Tは移動ベクトルである。 Wherein, R is a 3 × 3 rotation matrix, T is a translation vector. ここより、すべての算出は内的基準座標系についてのものである。 From here, all calculated are for internal reference coordinate system. 三次元オブジェクト認識の結果得られた三次元位置姿勢は、それらをユーザに返す前に元の原座標系に変換される。 Three-dimensional position and orientation obtained as a result of the three-dimensional object recognition is converted into the original source coordinate system before returning them to the user.

そして、例えば、三次元CADモデルといったオブジェクトの三次元表象に基づいて三次元モデルの学習が行なわれる。 Then, for example, learning of the three-dimensional model is performed based on the three-dimensional representation of objects such as three-dimensional CAD model. これを行うために、ユーザが特定した位置姿勢の範囲内にオブジェクトの異なるビューが生成される。 To do this, different views of objects within the range of the position and orientation specified by the user is generated. これらのビューは、仮想カメラを三次元オブジェクトの周囲に置き、各仮想カメラの像面にオブジェクトを投影することで自動的に生成される。 These views, place the virtual camera around the three-dimensional object, it is automatically generated by projecting the object into the image plane of each virtual camera. 本発明の好ましい実施形態において、オブジェクトは、球座標系を画定する球の中心にあると想定される。 In a preferred embodiment of the present invention, the object is assumed to be in the center of the sphere defining the spherical coordinate system. ビューを作成するために用いる仮想カメラは、これらがすべて座標系の原点に向くよう、すなわち、カメラのZ軸が原点を通過するよう、オブジェクトの回りに配置される。 Virtual camera used to create the view, to face the origin of all the coordinate system, i.e., so that the Z axis of the camera passes through the origin, are placed around the object. そして、位置姿勢の範囲は、原点の周りの所定の球面四辺形にビューを制限することによって特定される。 The range of the position and orientation are identified by limiting the view to predetermined spherical quadrilateral around the origin. これにより当然、球座標λ(緯度)、φ(経度)およびd(距離)を用いることになる。 Accordingly course, it is to be used spherical coordinates lambda (latitude), phi (longitude) and d (distance). カメラは、学習中常に球座標系の中心に向けられるため、カメラのロール角ω(カメラのZ軸回りの回転)だけが、特定されなければならない自由度として残る。 Camera, since it is directed to always the center of the spherical coordinate system during training, only the roll angle of the camera omega (rotating about the Z-axis of the camera) is, remains as freedom that must be specified. したがって、カメラの位置姿勢は4つのパラメータλ、φ、dおよびωで定義される。 Therefore, the position and orientation of the camera is four parameters lambda, phi, is defined by d and omega. 球座標系の定義は、赤道面(equatorial plane)がデカルト基準座標系のXZ面に対応し、Y軸がS極(負の緯度)を指し、負のZ軸が経帯子午線の方向を指すよう選択される。 Definition of the spherical coordinate system, the equatorial plane (equatorial plane) corresponds to the XZ plane of the Cartesian reference coordinate system, Y-axis points to the S pole (negative latitude), the negative Z-axis points in the direction of the mobile phone meridian It is selected as. その結果、その座標系が内的基準座標系と同じ方位で、オブジェクトの基準座標系においてtだけ負のZ方向に移動させたカメラの球座標は、λ=0、φ=0、d=tおよびロール角ω=0(図6A参照)である。 As a result, in the same orientation the coordinate system is the internal reference coordinate system, the spherical coordinates of the camera is moved only in the negative Z direction t in the reference coordinate system of the object, λ = 0, φ = 0, d = t and a roll angle ω = 0 (see Fig. 6A). 任意の位置姿勢および関連する球座標を備えたカメラが図6Bに視覚化されている。 Camera with an arbitrary pose and the associated spherical coordinates are visualized in Figure 6B.

位置姿勢の範囲は、ユーザが、球面パラメータの区間、およびカメラロール角の区間を特定することで測定される(工程103)。 Range of position and orientation, the user is measured by identifying a section of the section of the spherical parameters and camera roll angle (step 103). 図7は一例を示しており、経度範囲は区間[(min、(max]で特定され、緯度範囲は区間[φmin、φmax]で特定され、距離範囲は区間[dmin、dmax]で特定され、カメラロール角の範囲は区間[ωmin、ωmax]で特定される。これらの値はアプリケーション、すなわち、オブジェクトに対して可能なカメラの相対的動作に大きく依存する。また、これらは認識時間にも大きな影響を及ぼす。区間が広く選択されると、オンライン段階中の認識が遅くなる。殆どの産業上の利用において、カメラとオブジェクトとの間の相対的な位置姿勢はそれほど変動しない。λおよびφの区間の一般的な値は[−45度、+45度]であり、ωは一般的に[−180度、+180度]に設定される。 Figure 7 shows an example, the longitude range is the interval [(min, (max] specified in, the latitude range is specified by the interval [φmin, φmax], the distance range is specified by the interval [dmin, dmax], range of camera roll angles is specified by the interval [[omega] min, .omega.max]. these values ​​are application, i.e., largely dependent on the relative movement of the camera capable for objects. these large to recognition time affect the. interval is selected widely recognized in the online-phase becomes slow. in use on most industrial, relative position and orientation between the camera and the object is not so much variation .λ and φ typical values ​​of intervals [-45 °, + 45 °] is, omega generally [-180 °, + 180 °] is set to.

カメラおよびオブジェクトの相対的動作を表す位置姿勢の範囲を測定する方法として、その他にもいくつか考えられる。 As a method of measuring the range of the position and orientation representing the relative movement of the camera and the object, Other conceivable also several. これらの方法は、本発明の範囲を逸脱することなく、本発明に容易に取り込むことができる。 These methods, without departing from the scope of the present invention can be readily incorporated into the present invention. 例えば、別の一つの方法としては、カメラ位置のデカルト座標の限界を特定すること、すなわち、三次元空間において立方体を特定することによって、位置姿勢の範囲を特定することが可能である。 For example, another one way, by identifying the limits of Cartesian coordinates of the camera position, i.e., by specifying a cube in three-dimensional space, it is possible to identify the range of position and orientation. さらに別の実施形態においては、代わりにカメラを固定の位置姿勢に保持し、オブジェクトの動きの限界を特定することで位置姿勢の範囲が表される。 In yet another embodiment, instead it holds the camera in position and orientation of the fixed, the range of position and orientation by identifying the limits of movement of the object is represented.

位置姿勢の範囲内でのビューのサンプリングは、学習処理中に自動的に測定される。 Sampling of views within the range of the position and orientation are automatically determined during the training process. 自動算出によるサンプリングの利点は、ユーザがサンプリング用にパラメータ値を特定しなくてもよく、オブジェクト認識のロバスト性および速度を最大限にできるようサンプリングを選択することができることである。 An advantage of sampling by automatic calculation, the user may not identify the parameter values ​​for the sampling, it is that it is possible to select a sampling to allow to maximize the robustness and speed of the object recognition. 認識速度をさらに上げるために、複数のピラミッドレベル上にモデルが作成される。 To further increase the recognition rate model is created on multiple pyramid levels. 画像ピラミッドは、画像処理作業の速度を上げるための一般的な方法である(例えば、Tanimoto、1981年参照)。 Image pyramid is a common method to speed up image processing tasks (see, for example, the Tanimoto, 1981 years). 画像ピラミッドは、原画像に対し平滑化操作およびサブサンプリング操作を連続して行い、累進的に小さな画像にすることにより算出される。 Image pyramid is done continuously smooth operation and subsampling operation on the original image is calculated by the progressively smaller images. 画像ピラミッドを利用する二次元テンプレートマッチングシステムにおいて、一般的にサーチは粗い(高位の)ピラミッドレベルで開始され、この粗いレベルにおける類似度を有する見込みのある次の細かい(低位の)レベルの限定領域で続けられる。 In the two-dimensional template matching system utilizing an image pyramid generally search coarse (high-level) is started at pyramid level, following fine (low potential) level defined region of a prospective having a similarity in this coarse level It continues at. ピラミッドレベルが高くなると、ビューのサンプリングが粗くなるため、ビューの算出はピラミッドレベル毎に個別に行なわれる。 When pyramid level is high, the sampling of the views becomes rough, the calculation of the views is performed separately for each pyramid level.

ビューのサンプリングが行なわれる間、カメラの位置だけがサンプリングされる。 During the sampling of the view is performed, only the position of the camera is sampled. カメラロール角をサンプリングする必要はない。 It is not necessary to sample the camera roll angle. なぜなら、カメラロール角を変えても、ビューつまり透視図は変化せず、像面において二次元的回転が表現されるだけだからである。 This is because, even by changing the camera roll angle, the view, that perspective view does not change, it is because only two-dimensional rotation in the image plane is represented. ビューのサンプリングは、最も低位のピラミッドレベル上でビューのオーバサンプリングを行うことにより開始される(工程108)。 Sampling of view is initiated by performing oversampling views in the lowest-order pyramid level on (step 108). 本発明の一実施形態において、オーバサンプリングは、ユーザが特定した位置姿勢の範囲内の、三次元空間において均等に配分されたカメラ位置を算出することで行われる。 In one embodiment of the present invention, over-sampling is in the range of the position and orientation specified by the user, is performed by calculating the evenly apportioned camera position in the three-dimensional space. 抽出の幅は、オブジェクトの大きさ、カメラパラメータおよびオンライン段階においてビューをマッチするために用いられる類似度の許容値に基づき、簡単な評価を行うことにより測定することができる。 The width of extraction can be determined by performing size of the object, based on the allowable value of the degree of similarity used to match the view in the camera parameters and the online phase, a simple evaluation. この評価が満たさなければならない唯一の条件は、必要最低限よりも多い初期ビューが生成されるということである。 The only condition that this assessment must fulfill is that often the initial view than the minimum required is generated. 本発明の好ましい実施形態において、欧州特許第1,193,642号において提示される類似度が適用されている。 In a preferred embodiment of the present invention, the degree of similarity is presented in EP 1,193,642 is applied. 類似度は、オクルージョン、クラッターおよび非線形コントラスト変化に対しロバストである。 Similarity, occlusion, is robust to clutter and nonlinear contrast changes. 二次元モデルは、対応する勾配方向ベクトルを備えた複数のエッジポイントからなり、例えば、エッジ検出法といった標準的な画像前処理アルゴリズムにより得ることができる。 2D model consists of a plurality of edge points with a corresponding gradient directional vector, for example, it may be obtained by standard image preprocessing algorithms such edge detection methods. 類似度はエッジ勾配方向のドット積に基づく。 Similarity is based on the dot product of the edge gradient direction. あるいは、代わりにその他のエッジに基づく二次元マッチングアプローチを本発明に用いることも可能で、例えば、平均エッジ距離に基づくアプローチ(Borgefors、1988年)、ハウスドルフ距離に基づくアプローチ(Rucklidge、1997年)、または一般化ハフ変換に基づくアプローチ(Ballard、1981年またはUlrich et al.、2003年)がある。 Alternatively, 2D-matching approach based on other edges in place can also be used in the present invention, for example, average edge distance based approach (Borgefors, 1988), approaches based on the Hausdorff Distance (Rucklidge, 1997) , or a general approach based on the Hough transform (Ballard, 1981 or Ulrich et al., 2003) there is. 本発明の好ましい実施形態において、初期ビューは、空間において均等にサンプリングされない。 In a preferred embodiment of the present invention, the initial view is not evenly sampled in space. なぜなら、カメラとオブジェクトとの距離が短い場合は、距離が長い場合よりも多くのビューが必要とされるからである。 This is because, if the distance between the camera and the object is short, the distance is because many views are required than if long. これを改良することにより、ビューの初期の数を抑えることができ、これに続いて行う余剰ビューを間引きする速度が上がる。 By improving this, it is possible to suppress the initial number of views, the rate of thinning the surplus views increases performed subsequently thereto. 初期ビューを取得するために、Munkelt、1996年が記載するアプローチを用いて、異なる半径についてガウス球の三角測量が行われる。 To obtain the initial views, using the approach Munkelt, 1996 years is described, triangulation of the Gaussian sphere are performed for different radii. 半径が大きくなるにつれて、その半径に対するステップ幅も大きくなる。 As the radius increases, also increases the step width for the radius.

ビューの間引き(工程109)は、近傍のビューすべての間で類似度を算出し、最も高い類似度のビューの対を選択し、両方のビューを一つのビューに統合し、新たなビューとその近傍のビューとの間で類似値を再度算出することで実行される。 Thinning of view (step 109) calculates a similarity between all neighboring views, selecting the pair of the highest similarity view, integrating both views into one view, the new view that It is performed by calculating the similarity value again between the vicinity of the view. この処理は、最も高い類似値が現行のピラミッドレベルの所定の閾値を下回るまで繰り返される。 This process is the highest similarity value is repeated until below a predetermined threshold for the current pyramid level. 一実施形態において、2つのビューの間の類似値の算出は、オブジェクトを各ビューの像面に投影し、オンライン段階で適用された類似度を用いて両方の投影の間で類似値を算出することにより行われる。 In one embodiment, the calculation of the similarity value between the two views by projecting the object into the image plane of each view, to calculate a similarity value between both projections by using the applied similarity online stage It is carried out by. 別の実施形態において、オブジェクト投影は、完全な三次元オブジェクトの代わりに三次元境界ボックスを投影することだけで近似される。 In another embodiment, the object projection is approximated by only projecting the three-dimensional bounding box instead of the complete three-dimensional object. その後、類似度は、近似投影上でのみ実行される。 Thereafter, the degree of similarity is performed only on the approximate projection. このことにより、三次元モデル生成のランタイムが短縮される。 Thus, three-dimensional model generation runtime is shortened. さらに別の実施形態において、類似度も近似される。 In yet another embodiment, the similarity is also approximated. このことには、原類似値を用いる場合に必要である投影された境界ボックスの画像の生成が、この場合必要ないという利点がある。 This has generated the image of the projected bounding box is necessary when using the original similarity value, there is the advantage that it is not necessary in this case. または、その他、投影や類似値算出の速度を上げるために役立つ近似もありうる。 Or other, there may be approximated to help speed up the projection or the similarity calculation. 1つの好ましい実施形態においては、これらの近似は階層的に組み合わされる。 In one preferred embodiment, these approximations are hierarchically combined. 最初に、最も高い類似値が所定の閾値以下になるまでビューの統合を行うよう、最も早い近似が用いられる。 First, as the highest similarity value is performed the integration of views until the predetermined threshold value or less, the earliest approximation is used. その後、二番目に早い近似を用いて、残りのビューの統合が続けられ、これがさらに続けられる。 Then, using a fast approximation Second, continued integration remaining views, which is further continued. このアプローチは、一方で算出時間を短縮しつつ、もう一方では、近似をせずに統合を行う場合に得られるであろう結果と同様の結果を確実に得る。 This approach, on the other hand while reducing the calculation time, on the other hand, to reliably obtain the same results as would be obtained when performing integration without approximation. 階層的なアプローチが機能するためには、ある近似に対して、その次に遅い近似や原類似度がそれぞれ、それよりも低くなることが確実でなければならない。 For hierarchical approach to work, for a approximation, the next slow approximation or the original similarity respectively, it must be certain that lower than that.

類似値が閾値を越えるオブジェクトビューの対が残らない場合、残りのビューは三次元モデルにコピーされる。 If a pair of object views similar value exceeds the threshold does not remain, the remaining views are copied into the three-dimensional model. 上述したように、モデルは複数のピラミッドレベル上に作成される。 As described above, the model is created on multiple pyramid levels. これまで算出がされたビューは、最も低い(原)ピラミッドレベルに保存される。 Views been calculated so far is stored in the lowest (original) pyramid level. 図8Aにおいて、最も低位のピラミッドレベル上のビューすべてについて、図7に示す位置姿勢の範囲に対して上記の方法を利用した場合に得られる、前記ビューに対応するカメラが視覚化されている。 In Figure 8A, for all the most on low pyramid level view obtained when using the above method for a range of the position and orientation shown in FIG. 7, the camera corresponding to the views are visualized. ここでは、底面が像面を、頂点が光学系中心を現す小さな四角錐によりカメラが視覚化されている。 Here, bottom image plane, the camera is visualized by a small square pyramid whose vertices represent the optical system center. 次に高位のピラミッドレベル上のビューを算出するために、類似制限を緩めながら統合が続けられる。 Next, in order to calculate the view on the higher pyramid level, integration is continued while loosening the similar limitations. この緩和は、以下の2つの方法で導入する必要がある。 The relaxation should be introduced in two ways. 第1の方法の場合、原類似度が算出されると、すなわち、前記類似が投影されたオブジェクトからの画像に基づくのであれば、次に高位のピラミッドレベルを取得するために、画像の平滑化およびサブサンプリングが行われる。 In the first method, the original similarity is calculated, i.e., if the based on the image from the object which the similarity has been projected, then in order to obtain the pyramid level, the smoothed image and sub-sampling is performed. その後、サブサンプリングした画像について類似度が算出される。 Thereafter, the degree of similarity is calculated for image sub-sampling. このことにより、類似制限は自動的に緩和される。 Thus, similar restrictions are relaxed automatically. なぜなら、解像度を下げることで、それより低い非類似値が排除されるためである。 This is because, by decreasing the resolution, because the dissimilarity value is lower than that is eliminated. 第2の方法の場合、類似度が分析的な算出により近似されるのであれば、ピラミッドレベルに応じて類似値を分析的に算出する間、位置の許容値を明確に増加させることでサブサンプリングを考慮に入れておく必要がある。 For the second method, if the degree of similarity is approximated by analytical calculation, while calculating a similarity value analytically depending on pyramid level, the sub-sampling by which clearly increases the tolerance of the position it is necessary to take into account. 類似値が閾値を越えるオブジェクトビューの対が残らない場合、残りのビューは三次元モデルの対応するレベルにコピーされる。 If a pair of object views similar value exceeds the threshold does not remain, the remaining views are copied into the corresponding level of the three-dimensional model. 図8B、図8Cおよび図8Dにおいて、第2、第3および第4のピラミッドレベルについて得られたビューがそれぞれ視覚化される。 Figure 8B, in FIGS. 8C and FIG. 8D, second, view obtained for the third and fourth pyramid level are respectively visualized. この例においては、第4ピラミッドレベル上には4つの異なるビューだけを用いれば十分である。 In this example, the fourth pyramid level on it is sufficient to use only four different views.

さらに、各ビューでは、すべての子ビューに対する参照が保存される。 Furthermore, in each view, reference to all child views is stored. 子ビューとは、現行のピラミッドレベル上のビューを得るために統合された次に下位のピラミッドレベル上のビューと、統合することができなかったビューとを足したものである。 The child views are those plus the view on the lower pyramid level to the next integrated to obtain the view on the current pyramid level, and a view that could not be integrated. それに応じて、各子ビューでは、その親ビューに対する参照が保存される。 Accordingly, in each child view a reference to its parent view is stored. 子ビューに対する参照があるため、高位のピラミッドレベル上のある特定のビューを求めて、前記高位のピラミッドレベル上のビューを作成するために統合されたその直下のピラミッドレベル上のビューに問い合わせを行なうことができる。 Because there is a reference to the child views, seeking a specific view that is on the pyramid level, query a view on pyramid level immediately below which is integrated in order to create a view on the pyramid level be able to. この情報はツリー構造で保存される(工程110)。 This information is stored in a tree structure (step 110). 図9は、ツリーの簡略化された一次元版である。 Figure 9 is a one-dimensional version of a simplified tree. ツリーにおける各ノードは一つのビューを表現している。 Each node in the tree is to express one view. 同一ピラミッドレベル上のビューは、ツリー内で同一の階層レベル上に属する。 Views on the same pyramid level, belong to the same hierarchical level in the tree. ツリー構造であるため、各親ノードは一つまたは複数の子ノードに接続され、一方、各子ノードは一つの親ノードに接続される。 Since a tree structure, each parent node is connected to one or more child nodes, whereas each child node is connected to one parent node. さらに、各ビューの三次元位置姿勢は三次元モデル内に保存される。 Moreover, three-dimensional position and orientation of each view are stored in the 3D model. この処理は、ピラミッドレベルの最大数に達するまで繰り返される。 This process is repeated until the maximum number of pyramid levels. 最も高位のピラミッドレベル上のビューは親ビューを持たず、一方、最も低位のピラミッドレベル上のビューは子ビューを持たない。 The most high-level view on the pyramid level of do not have a parent view, on the other hand, does not have the view Jaco view on the most low of pyramid level.

ツリーが完全に生成された後、各ピラミッドレベルおよびこのレベル上の各ビューについて、欧州特許第1,193,642号で提示されるアプローチを用いて二次元モデルが作成される(工程111)。 After the tree has been completely generated, for each view on each pyramid level and this level, two-dimensional model using the approach presented in EP 1,193,642 is created (step 111). 二次元モデルは、例えば、エッジ検出法といった、標準的な画像前処理アルゴリズムにより得ることができる、対応する勾配方向ベクトルを備えた複数のエッジポイントからなる。 Two-dimensional model, for example, such as an edge detection method, can be obtained by standard image preprocessing algorithms, comprising a plurality of edge points with a corresponding gradient directional vector. あるいは、代わりにその他のエッジに基づく二次元マッチングアプローチを本発明において用いることができる。 Alternatively, 2D-matching approach based on other edges in place can be used in the present invention. これを行うために、現行のビューで表されるカメラ位置姿勢を用いて、像面にオブジェクトの三次元表象が投影される(工程112)。 To do this, using a camera position and orientation represented by the current view, three-dimensional representation of the object is projected onto the image plane (step 112). 隠線は、適切な隠線アルゴリズム(例えば、PatersonおよびYao、1990年)を用いて除去される。 Hidden lines are removed using an appropriate hidden-line algorithm (e.g., Paterson and Yao, 1990 years). 投影は、3チャネル画像が得られるような方法で行われ、3チャネルは、三次元オブジェクトを成す面の法線ベクトルの三要素を表す(工程113)。 Projection is done in such a way that three-channel image is obtained, three channels represent the three elements of the normal vector of the surface forming the three-dimensional object (step 113). このことは、このカラー画像において測定することができるエッジ振幅が、三次元オブジェクトの2つの近傍面の法線ベクトル間の三次元空間における角度に直接関係するという利点を有する。 This edge amplitude that can be measured in this color image has the advantage that directly related to the angle in three-dimensional space between the normal vectors of two neighboring faces of a three-dimensional object. 2つの近傍面の法線ベクトルが、N1=(X1、Y1、Z1) およびN2=(X2、Y2、Z2) であると仮定する。 Normal vectors of two neighboring faces are assumed to be N1 = (X1, Y1, Z1 ) T and N2 = (X2, Y2, Z2 ) T. 3チャネル画像を作成する場合、第1面は色(R1、G1、B1)=(X1、Y1、Z1)を用いた画像に描かれる一方、第2面は色(R2、G2、B2)=(X2、Y2、Z2)を用いた画像に描かれる。 3 When creating a channel image, the first surface color (R1, G1, B1) = (X1, Y1, Z1) while the drawn image using the second surface color (R2, G2, B2) = (X2, Y2, Z2) are depicted in the image with. 一般原則を失うことなく、さらに、2つの投影面が画像において縦方向のエッジをもたらすと仮定する。 Without loss of generality principle, further assume that the two projection planes results in longitudinal direction of the edge in the image. 画像におけるエッジ振幅を2つの面の間のかわり目で算出する場合、3チャネルの各チャネルにおいて、行方向および列方向で第1の導関数が得られる。 When calculating the edge amplitude in the image instead eyes between two surfaces, in each channel of three channels, the first derivative is obtained in the row and column directions.

エッジは縦方向に延びるため、行方向における導関数はすべて0となる。 Edge for extending in the longitudinal direction, derivatives in row direction are all zero. カラー画像におけるエッジ振幅は、カラーテンソルCの固有値を算出することにより得ることができる(Di Zenzo、1986年)。 Edge amplitude in a color image can be obtained by calculating the eigenvalues ​​of the color tensor C (Di Zenzo, 1986 years).

上記の導関数を代入すると以下が得られる。 It is obtained following the substitutes above derivative.

エッジ振幅Aは、Cの最大固有値の平方根である。 Edge amplitude A is the square root of the largest eigenvalue of C. よって、 Thus,

となる。 To become.

このように、画像において算出されるエッジ振幅は、2つの法線ベクトルの差ベクトルの長さに対応する。 Thus, the edge amplitude computed in the image corresponds to the length of the difference vector of the two normal vectors. 2つの法線ベクトル(長さ1)は、二次元二等辺三角形の長さとなる(図10参照)。 Two normal vectors (of length 1) is the length of the two-dimensional isosceles triangle (see FIG. 10). 両方の法線ベクトル間の角度δも、三角形の面内にあるのだが、それは最終的に以下の式を用いてエッジ振幅から容易に導き出すことができる。 The angle δ between both normal vectors, but located in the plane of the triangle, but it can be easily derived from the edge amplitude of the eventually following equation.

投影モデルから取得したカラー画像はモデル画像となり、欧州特許第1,193,642号で提示されるアプローチのモデル生成ステップに送られ、カラーエッジ抽出により拡張される。 Color image obtained from projection model becomes the model image, is sent to the model generation step of the approach presented in EP 1,193,642, it is extended by color edge extraction. あるいは、代わりにその他のエッジに基づく二次元マッチングアプローチを本発明に用いることも可能で、例えば、平均エッジ距離に基づくアプローチ(Borgefors、1988年)、ハウスドルフ距離に基づくアプローチ(Rucklidge、1997年)、または一般化ハフ変換に基づくアプローチ(Ballard、1981年またはUlrich et al.、2003年)がある。 Alternatively, 2D-matching approach based on other edges in place can also be used in the present invention, for example, average edge distance based approach (Borgefors, 1988), approaches based on the Hausdorff Distance (Rucklidge, 1997) , or a general approach based on the Hough transform (Ballard, 1981 or Ulrich et al., 2003) there is. 最初に、モデル画像においてエッジ振幅が算出される(Di Zenzo、1986年)。 First, the edge amplitude is computed in the model image (Di Zenzo, 1986 years). 所定の閾値を超えるピクセルだけがモデルに含まれる。 Only pixels that exceed a predetermined threshold are included in the model. モデルの三次元描画には、オブジェクトの直接像では可視ではない多くのエッジが含まれていることが多い。 A three-dimensional rendering of the model are often contains many edges that are not visible in the direct image of the object. 例えば、このようなエッジは、湾曲面を十分な数の平らな面で近似するために用いられるCADソフトの三角測量法の結果生じる。 For example, such edges result from triangulation methods of the CAD software that are used to approximate curved surfaces by a flat surface of sufficient number. このため、これらのエッジは二次元モデルに含まれてはならない。 Thus, these edges should not be included in the two-dimensional model. 例えば、図4Bにおいて、円柱状の孔を近似する平らな面のエッジは削除されなければならない。 For example, in Figure 4B, the edge of the flat surface that approximates the cylindrical hole must be removed. 上述の関係のため、ユーザは、最小面角δminに対して適切な閾値を送ることで、このようなエッジを削除することができる。 For the above relation, the user, by sending an appropriate threshold for the minimum face angle .DELTA.min, it is possible to remove such edge. その後、この最小角は、エッジ振幅に適用できる閾値Aminへと容易に変換することができる(工程114)。 Then, this minimum angle can easily be converted to a threshold value Amin that can be applied to the edge amplitude (step 114).

投影されたオブジェクトのシルエットは非常に重要な特徴であるため、どのような場合でも、これをアルゴリズムにより削除してはならない。 Because the silhouette of the projected object is a very important feature, in any case, it should not be deleted by the algorithm it. このことは、あらゆる場合において、シルエットのエッジが閾値の基準を満たすよう、各画像チャネル(R、G、B)=(X+c、Y+c、Z+c)に対して十分な大きさの定数cを加えることで容易に確実となる。 This means that in all cases, so that the edges of the silhouette fulfill the threshold criteria, each image channel (R, G, B) = (X + c, Y + c, Z + c) large enough for easily it becomes ensured by adding a constant c. 例えば、c=3と設定することでこれを達成できる。 For example, this can be achieved by setting the c = 3.

図11Aは、一つのサンプルビューの3チャネルを示す。 11A shows the three channels of one sample view. 図11Bにおいて、δminを5度に、よって、Amin=0.087に設定した場合に生じるエッジが視覚化されている。 In FIG. 11B, in 5 ° .DELTA.min, therefore, the edge that occurs when set to Amin = 0.087 is visualized. 円柱を近似する平らな面は8度間隔で方位付けされているため、垂直エッジが依然として可視である。 Since the flat surface approximating the cylinder are oriented in 8 ° intervals, the vertical edges are still visible. δmin=15°(Amin=0.261)に設定した場合に生じるエッジが図11Cに示される。 Edge that occurs when set to δmin = 15 ° (Amin = 0.261) are shown in Figure 11C. 円柱のエッジはうまく削除されている。 Cylindrical edge has been successfully deleted. ほとんどのモデルについてはδmin=15°が有効である。 For most models is effective δmin = 15 °. したがって、δmin=15°は、本発明の実施にあたってデフォルト値として用いられる。 Therefore, .DELTA.min = 15 ° is used as a default value in the practice of the present invention. 3チャネルモデル画像が新しく生成されたことにより、単にエッジ振幅に対する閾値を送り、直接像では可視ではないオブジェクトエッジを排除することで、既存の二次元エッジに基づくマッチングアプローチを用いることが可能となる。 By 3 channel model image is newly generated, simply sends the threshold for the edge amplitude in the direct image by eliminating object edges that are not visible, it is possible to use a matching approach that is based on an existing two-dimensional edge . このことは、これまでの認識アプローチにおいては適用されていない。 This is not applied in previous recognition approaches.

最終的に、二次元モデルは、関連する画像ピラミッドレベル上の3チャネル画像から生成される(詳細は、欧州特許第1,193,642号およびDi Zenzo、1986年参照)。 Finally, (see details in European Patent No. 1,193,642 and Di Zenzo, 1986 years) two-dimensional model, which is the product from the three-channel image on the associated image pyramid level. 最後の工程において、作成した二次元モデルが、画像内のクラッターからモデルを区別するために必要とされる顕著な特徴を十分に示しているかどうかが確認される(工程116)。 In the last step, the two-dimensional model created Whether the salient features required to distinguish the model from clutter in the image so fully reveal is confirmed (step 116). 本発明の好ましい実施形態において、この検証は、Ulrich、2003年で提案されるアプローチを用い、現行のピラミッドレベル上で得られたエッジを、原レベル上のエッジと比較して行われる。 In a preferred embodiment of the present invention, this validation, Ulrich, using the approach proposed in 2003, the obtained edge on the current pyramid level, is performed relative to the level on the edge original. この検証が失敗した場合、このビューの二次元モデルおよびピラミッドレベルは廃棄される。 If this verification fails, the two-dimensional model and the pyramid level of this view is discarded. 図12は、各ピラミッドレベルについて、オンライン段階においてマッチングを行うために用いられるいくつかの二次元モデル例のエッジを示す。 Figure 12, for each pyramid level, shows some of the two-dimensional model examples of edges used for matching in the online-phase. 視覚化の目的で、より高位のピラミッドレベル上の二次元モデルは原解像度に調整されている。 For the purposes of visualization, 2D models more on the higher pyramid level is adjusted to the original resolution.

三次元モデルは、いくつかあるピラミッドレベル上の複数の二次元モデルからなる。 Three-dimensional model composed of a plurality of 2D models on several there pyramid level. 各二次元モデルについて、対応する三次元位置姿勢が保存される。 For each 2D model, the corresponding three-dimensional position and orientation is stored. なお、近傍のピラミッドレベル上の二次元モデルは、上述の親子関係によりツリー形式で結びつけられる。 Incidentally, the two-dimensional model on pyramid level near is linked in a tree form by the parent-child relationship described above.

[オブジェクト認識] [Object recognition]
オンライン段階では、単眼カメラ画像において三次元オブジェクトを認識するために、また、カメラ座標系に対するオブジェクトの三次元位置姿勢を測定するために、前記作成された三次元モデルが使用される。 In the online phase, in order to recognize the three-dimensional object in a single camera image, also, in order to measure the three-dimensional position and orientation of the object with respect to the camera coordinate system, the three-dimensional model created in the above is used. まず、入力画像から画像ピラミッドが作られる(工程203)。 First, the image pyramid is made from the input image (step 203). 前記認識は、少なくとも一つの有効な二次元モデルが得られる最高位のピラミッドレベルから開始される(工程205)。 The recognition starts at the highest pyramid level that at least one valid 2D model is obtained (step 205). ビューの二次元モデルと現行の画像ピラミッドレベルの二次元モデルとの類似度を計測することによって、このピラミッドレベルの二次元モデルすべてがサーチされる。 By measuring the similarity between the two-dimensional model and two-dimensional model of the current image pyramid level view, all the two-dimensional model of this pyramid level are searched. このためには、前記二次元モデルが必要な範囲で回転され拡大縮小されて、前記拡大縮小および回転された二次元モデルの、画像における各位置で、類似度が算出される。 For this purpose, the two-dimensional model is rotated scaled to the extent necessary, the scaling and rotated 2D models, at each position in the image, the degree of similarity is calculated. 欧州特許第1,193,642号に記載された類似度が適用される。 Similarity described in EP 1,193,642 is applied. 人工画像から二次元モデルが生成されたので、投影されたエッジの極性はわからず、それらの方向のみがわかる。 Since the two-dimensional model from the artificial image is generated not know the polarity of the projected edges, only those direction can be known. 従って、欧州特許第1,193,642号に記載された類似度からは、勾配の局所的な極性を無視するバリアント(variant)が選択される。 Therefore, from the similarity described in EP 1,193,642, variant to ignore local polarity of the gradient (variant) is selected. あるいは代わりに、他のエッジベースの二次元マッチングアプローチを本発明に用いてもよく、例えば、平均エッジ距離に基づくアプローチ(Borgefors、1988年)、ハウスドルフ距離に基づくアプローチ(Rucklidge、1997年)、または一般化ハフ変換に基づくアプローチ(Ballard、1981年またはUlrich et al.、2003年)がある。 Or alternatively, other edge-based 2D-matching approach may be used in the present invention, for example, approaches that are based on the mean edge distance (Borgefors, 1988), approaches based on the Hausdorff Distance (Rucklidge, 1997), or a general approach based on the Hough transform (Ballard, 1981 or Ulrich et al., 2003) there is. 所定の類似閾値を超えたマッチの二次元位置姿勢(位置、回転、拡大縮小)は、マッチ候補の一覧に保存される。 Two-dimensional position and orientation of the match exceeds a predetermined similarity threshold (position, rotation, scaling) is stored in the list of match candidates. 次の下位のピラミッドレベル上で、ツリー内に親ノードを持たない二次元モデルがすべて、最も高位のピラミッドレベル上のビューで行った方法と同じ方法でサーチされる。 On the next lower pyramid level, two-dimensional model that does not have a parent node in the tree is all, is searched in the same way as was done in the view of the most high-level of the pyramid level. さらに、前のピラミッドレベル上で見つかったマッチ候補は絞り込まれる。 In addition, match candidates found in front of the pyramid level on is narrowed down. この絞り込みは、ツリーにおける子ビューをすべて選択し、これらの子ビューの二次元モデルと現行の画像ピラミッドレベルの二次元モデルとの間の類似度を算出して行われる。 This narrowing is to select all the trees Niokeruko view is performed by calculating the similarity between the two-dimensional model of a two-dimensional model and the current image pyramid level of the child views. しかしながら、親ビューのマッチに応じて、非常に制限されたパラメータ範囲内だけで類似度を算出することでも十分である。 However, depending on the match of the parent view, also it is sufficient to calculate the similarity only in very restricted parameter range. 欧州特許第1,193,642号に記載されているように、このことは、精査すべき位置、回転および拡大縮小の範囲が、親マッチの近傍に限定できることを意味する。 European as described in Japanese Patent No. 1,193,642, this is the position to be scrutinized, the range of rotation and scaling is meant that can be limited to the vicinity of the parent match. この処理は、最も下位のピラミッドレベルまですべてのマッチ候補が追跡されるまで繰り返される(工程206)。 This process is repeated until the lowest of all match candidates until pyramid level is tracked (step 206). ピラミッドアプローチとツリー構造に配列される階層的モデルビューとの組み合わせは、リアルタイムアプリケーションにとって重要であり、これまでの認識アプローチには適用されたことが無い。 Combination with hierarchical model views that are arranged in a pyramid approach and the tree structure is important for real-time applications and has not been applied in previous recognition approaches.

残念ながら、上述の追跡は、カメラがオブジェクトの中心に向けられておらず、よってオブジェクトが画像の中心に現れない場合は不可能である。 Unfortunately, the tracking described above, the camera is not directed to the center of the object, thus the object is not possible if you do not appear in the center of the image. 学習中に作成された二次元モデルは、オブジェクト中心に向けられるカメラを想定して作成されていることから、画像における二次元モデルおよび投影モデルは二次元投影変換によって関連付けられる。 Dimensional model created during training, since it has been created on the assumption camera directed to the object center, the two-dimensional model and the projection model in the image are related by two-dimensional projection conversion. 一例が図13に示されている。 An example is shown in Figure 13. 図13Aは、カメラがオブジェクトの中心に向けられている場合のビューを示す。 13A shows a view where the camera is directed towards the center of the object. 3次元モデル生成中に、このビューから二次元モデルが作成される。 During the 3D model generation, two-dimensional model from the view is created. サーチの間、オブジェクトは、図13Bまたは図13Cに示されるような、任意の画像位置に現れるかもしれない。 During the search, the object, as shown in FIG. 13B or FIG. 13C, may appear in any image position. 像面におけるこの見かけの移動は、実際においてはカメラの光心を中心とした回転に対応する。 Movement of this apparent in the image plane, in fact corresponds to a rotation about the Hikarishin camera. カメラをその光心を中心として回転させると、その結果得られる画像は投影変換によって関連付けられ、これはホモグラフィ(homography)と呼ばれる(例えばHartleyおよびZisserman、2000年参照)。 Rotating the camera around its optical center, the resulting images are related by projection transformation, (see, for example, Hartley and Zisserman, 2000 years) called it a homography (homography). その結果、図13Aの二次元モデルを図13Bまたは図13Cの画像においてサーチすると、前記画像はホモグラフィによって関連付けられるのに二次元マッチング中は類似変換、すなわち移動、回転、縮小拡大のみが考慮されるため、前記モデルは見つからないであろう。 As a result, when searching the image of FIG. 13B or FIG. 13C two-dimensional model of FIG. 13A, the image is similar transformation in the two-dimensional matching for related by a homography, i.e. move, rotate, only scaled are considered because, the model will not be found. マッチング中にホモグラフィの8自由度すべてを考慮すると、そのサーチはリアルタイムアプリケーション用には時間がかかりすぎる。 Considering all eight degrees of freedom of homography in matching, the search takes too much time for real-time applications. したがって、本発明の好適な実施形態において、二次元モデルはマッチングを行う前の投影変換によって変換される。 Accordingly, in a preferred embodiment of the present invention, the two-dimensional model is transformed by a projective transformation before performing the matching. もし画像におけるオブジェクトの位置がわかっていれば、この変換のパラメータが算出できる。 If you know the position of the object in the image, the parameters of this transformation can be calculated. したがって、マッチ候補が次の下位のピラミッドレベルまで追跡される以前に、その子ビューの二次元モデルがマッチ候補の位置に応じて投影的に修正される(工程207)。 Thus, the match candidates before being tracked to the next lower pyramid level, the two-dimensional model of the child views are projectively corrected according to the position of the match candidate (step 207). これは、これまでのビューベース認識アプローチでは適用されていない極めて重要なステップである。 This is a very important step that is not applied in previous view-based recognition approaches. 三次元モデル生成中と同様にモデル中心に向けられたカメラの像面三次元モデルを投影することによって生成された二次元モデルポイントをxとする。 The 2D model point generated by projecting the camera image plane three-dimensional model of which is directed to the model center like the in the three-dimensional model generation and x. さらに、カメラの内的な方位を維持するカメラ較正行列をKとする: Furthermore, the camera calibration matrix that maintains the internal orientation of the camera to K:

ここで、f'はピクセルにおけるカメラの焦点距離、aはピクセルのアスペクト比、(cx、cy)はピクセルにおけるカメラの主点である。 Here, f 'is the focal length of the camera in pixels, a is the aspect ratio of the pixels, (cx, cy) is the principal point of the camera in pixels. さらに、カメラの方位は、回転行列Rによって表されている。 Furthermore, the orientation of the camera is represented by the rotation matrix R. そして、(非同次(inhomogeneous))三次元世界点Xの、(同次(homogeneous))二次元像点xへの投影は、変換x=KRXによって表すことができる。 Then, the (non-homogeneous (inhomogeneous)) three-dimensional world point X, the projection onto the (homogeneous (homogeneous)) two-dimensional image point x can be represented by the transformation x = KRX. 一般原則を失うことなく、モデル生成中に回転行列Rを恒等行列に設定することができるので、x=KXとなる。 Without loss of general principles, because the rotation matrix R in the model generation may be set to the identity matrix, and x = KX. もしカメラがその光心を中心としてRだけ回転すると、前記世界点は、回転したカメラの像において新たな点x'=KRXにマッピングされる。 If the camera is rotated by R around its optical center, the world point is mapped to a new point x '= KRX in the image of the rotated camera. これらの結果から、xをx'にマッピングする前記変換は以下のように算出できる。 From these results, the transformation that maps x to x 'can be calculated as follows.

ここで、KRK −1は3×3の同次変換行列であり、したがってホモグラフィHを表す。 Here, KRK -1 is a homogeneous transformation matrix of 3 × 3, thus representing a homography H.

したがって、二次元モデルポイントを画像における投影モデルの(同次)位置p=(c、r、l) に応じて変換したい場合、KとRを知らなければならない。 Accordingly, the two-dimensional model point to the projected model in the image (homogeneous) position p = (c, r, l) If you want to convert in response to T, and I'm not must know K and R. 較正行列Kは前記のカメラ較正プロセスから得られる。 The calibration matrix K is obtained from the camera calibration process. カメラの回転行列は、下記の方法で画像における投影モデルの位置から算出できる。 Rotation matrix of the camera can be calculated from the position of the projected model in the image in the following manner. まず、問題を明確に規定するために、z軸を中心にカメラが回転してはならないという制約を導入しなければならない。 First, in order to clearly define the problem, a camera around the z-axis must be introduced the constraint that must not be rotated. その上で、カメラのx軸およびy軸を中心としたその他の回転をpから求めることができる。 On top of that, the other rotating about the x-axis and y-axis of the camera can be obtained from p. まずpが、P=(Px、Py、Pz) =K −1 pによって三次元空間における方向Pに変換される。 First p is converted P = (Px, Py, Pz ) in the direction P in three-dimensional space by T = K -1 p. その後、カメラのx軸およびy軸を中心とした回転角αおよびβがそれぞれ下記の数式によって算出できる。 Thereafter, x-axis of the camera and y-axis rotational angle α and β around the can be computed, respectively, by the following equation.

このように、回転行列Rは、下記Ry(β)、Rx(α)から、R=Ry(β)Rx(α)として求められる。 Thus, the rotation matrix R is represented by the following Ry (beta), from Rx (alpha), is obtained as R = Ry (β) Rx (α).

さて、追跡中にマッチ候補の像位置に応じて子ビューの二次元モデルを投影的に修正することができる。 Now, it is possible to modify the two-dimensional model of the child views projected manner in accordance with the image position of the match candidate during the tracking. モデルポイントはホモグラフィHを使用して変換される一方、欧州特許第1,193,642号で類似度に使用される勾配方向は、転置された、逆の、H −Tを使用して変換される。 One model points are transformed by using the homography H, gradient direction that is used on the similarity in EP 1,193,642, transposed, reversed, by using the H -T conversion It is. 前記マッチングは投影的に修正されたモデルに対して行われる(工程208)。 The matching is performed with respect to the projection to modified model (step 208).

画像におけるオブジェクトの位置に関する情報が得られるピラミッドでのマッチの追跡中に、前記の方法が機能する。 While matching the tracking in the pyramid where information about the position of the object in the image is obtained, the method works. 一方で、最高位のピラミッドレベルでは、それより前の情報が無いため、網羅的なサーチを行わなければならない。 On the other hand, in the highest pyramid level, because there is no previous information from it, it must be carried out an exhaustive search. このように、全画像位置においてマッチングが行われる。 Thus, matching is performed at all image positions. ただし、現行の画像位置に依存してモデルを変換することはコストがかかりすぎるであろう。 However, would be to convert the model in dependence on the current image position is too costly. 幸い最高位のレベルでは通常、画像ピラミッドに付随するサブサンプリングのおかげで投影歪みは非常に小さい。 At the level of the Fortunately highest usually, projection distortion thanks to the sub-sampling associated with the image pyramid is very small. したがって、ほとんどの場合、投影歪みは単に無視することができる。 Therefore, in most cases, projection distortion can simply be ignored. ただし、かかる歪みは、たとえば少ない数のピラミッドレベルのみが使用できる場合やカメラまでの距離に対するオブジェクトの奥行きが大きい場合などでは、最高位のピラミッドレベル上でも歪みを考慮しなければならないことがある。 However, such a distortion is, for example, only a small number of pyramid levels in such case the depth of the object relative to the distance to the case and camera that can be used is large, it may be necessary to take into account the distortion even the highest pyramid level on. これらの場合への対処は、本発明の好適な実施形態においては、最高位のピラミッドレベル上にマッチングを適用する前に、球の表面上に平面の二次元モデルをマッピングし(工程117)かつ画像をマッピングする(工程202)ことによって行う。 Dealing with these cases, in a preferred embodiment of the present invention, before applying the matching highest pyramid level on the two-dimensional model of the plane mapped onto the surface of the sphere (step 117) AND performed by mapping the image (step 202). この利点は、カメラをその光心を中心として回転させる時に投影図が変化しないことである。 The advantage is that the projection drawing does not change when rotating the camera around its optical center. 残念ながら、歪みを導入することなく球面から平面にマッピングすることはありえない。 Unfortunately, it is not unlikely that the mapping from spherical surface to a plane without introducing distortion. しかし、一般的にこれらの歪みは投影歪みよりも小さい。 In general, however, these distortions is smaller than the projection distortion. したがって、最高位のピラミッドレベル上の歪みの度合いを低減し、それによりマッチングのロバスト性を上げるために、球マッピングが使用できる。 Therefore, reducing the degree of distortion on the highest pyramid level, thereby to increase the robustness of the matching, sphere mapping can be used. 一つの実施形態では、下記の工程を適用することにより球マッピングが行える。 In one embodiment, it can be performed spherical mapping by applying the following steps. まず、再度、三次元空間においてP=(Px、Py、Pz) =K −1 pにより、ピクセルpが方向Pに変換される。 First, again, by P = (Px, Py, Pz ) T = K -1 p in the three-dimensional space, the pixel p is transformed into a direction P. 球マッピングが下記を適用することによって行われる。 Spherical mapping is done by applying the following.

最後に、マッピングされた結果の三次元方向がピクセル座標に変換される。 Finally, the three-dimensional directions as a result of mapped are converted to pixel coordinates. すなわちp'=KP'である。 That is, p '= KP'. 本発明の別の実施形態では、等方性球マッピングがかわりに適用される。 In another embodiment of the present invention, the isotropic spheres mapping is applied instead. まず、像面のポイントが極座標に変換される。 First, the point of the image plane is transformed into polar coordinates.

その後、半径に対してのみ球マッピングが適用される。 Thereafter, the spherical mapping only to the radius is applied.

そして、前記ポイントがデカルト座標に変換される。 Then, the point is converted to Cartesian coordinates.

または、前記2つの方法のかわりに、投影歪みを低減できる、別の同様のマッピングを、本発明の範囲から逸脱することなく適用してもよい。 Or, instead of the two methods, it is possible to reduce the projection distortion, another similar mapping may be applied without departing from the scope of the present invention.

球マッピングは、サーチ画像の画像ピラミッドの最高位レベルと、二次元モデルポイントとに適用される。 Sphere mapping is a highest level of the image pyramid of the search image, is applied to a two-dimensional model points. サーチ画像の球マッピングの速度を上げるために、三次元モデルの生成中にオフラインでマッピングが算出される(工程105)。 To speed up the spherical mapping of the search image, the mapping is computed offline during the generation of the three-dimensional model (step 105). マッピングされた画像の各ピクセルについて、原画像のピクセル座標と双一次補間のための重みとが三次元モデル内に保存される。 For each pixel in the mapped image, and the weight for the pixel coordinates and bilinear interpolation of the original image are stored in the 3D model. 画像ピラミッドの最高位レベルを効率よくマッピングするためにオンライン段階でこの情報が使用される。 This information is used in the online-phase to map efficiently highest level of the image pyramid. (球面)最高位ピラミッドレベル上に見出される各マッチの位置が、それぞれの逆変換を使用して、球面投影から原画像へ変換される。 The position of each match that is found in (spherical) highest pyramid level on is, using the respective inverse transformation, is transformed from the spherical projection to the original image. ピラミッドの中の追跡は、前記の原(非球面)画像において行われる。 Tracking in the pyramid is performed in the original (non-spherical) image.

マッチングの結果、所定の類似度を超えた画像中の二次元マッチの二次元位置姿勢(位置、回転、拡大縮小)が得られる。 As a result of the matching, the two-dimensional position and orientation of the two-dimensional matching in the image that exceed a predetermined degree of similarity (position, rotation, scaling) is obtained. 各マッチについて、当該マッチに関連付けられているモデルビューの二次元マッチング位置姿勢と三次元位置姿勢に基づいて、前記マッチに対応する三次元オブジェクト位置姿勢が算出できる(工程209)。 For each match, based on the two-dimensional matching it poses and the three-dimensional position and orientation of the model view that is associated with the match, the three-dimensional object position and orientation corresponding to the match can be calculated (step 209). 前記モデルビューの三次元位置姿勢が、同次4×4行列HVで表され、この行列がモデル基準座標系からカメラ座標系へのポイントの変換をおこなうものとする。 Three-dimensional position and orientation of the model view is represented in the same order 4 × 4 matrix HV, it is assumed that the matrix is ​​to convert the point to the camera coordinate system from the model reference coordinate system. さらに、二次元マッチング位置姿勢は、p=(r、c、l) (行および列方向の位置)、γ(回転)、およびs(拡大縮小)により求められる。 Furthermore, the two-dimensional matching pose is, p = (r, c, l) T ( row and column position) is obtained by gamma (rotation), and s (scaling). その後、行列HVは、二次元マッチング位置姿勢を反映するように変更されなければならない。 Thereafter, the matrix HV must be changed to reflect a two-dimensional matching pose. まず、二次元の拡大縮小が適用され、これはオブジェクトとカメラとの間の距離の逆スケール(拡大縮小)関数(inverse scaling)と理解される。 First, apply the scaling of the two-dimensional, which is understood to inverse scaling (scaling) function (inverse scaling) of the distance between the object and the camera.

そして、二次元回転が適用され、これはz軸を中心としたカメラの三次元回転と理解される。 Then, the two-dimensional rotation is applied, which is understood to three-dimensional rotation of the camera about the z axis.

最後に、前記位置が、x軸とy軸とを中心としたカメラの三次元回転と理解される。 Finally, the position is understood to three-dimensional rotation of the camera around the x-axis and y-axis. 2つの回転角は前記位置を三次元空間における方向Pに変換することにより算出できる。 The two rotation angles can be calculated by converting the position in the direction P in three-dimensional space.

そして、x軸、y軸を中心とした回転角α、βはそれぞれ、 The rotation angle around x-axis, a y-axis alpha, beta respectively,

となる。 To become.

これは、最終的な同次変換行列H V,s,γ,pとなり、これはカメラ座標系に対するオブジェクトの三次元位置姿勢を表している。 This final homogeneous transformation matrix H V, s, γ, p becomes, which represents the three-dimensional position and orientation of the object with respect to the camera coordinate system.

得られた三次元位置姿勢の精度は、ビューのサンプリングと二次元マッチング中の二次元位置姿勢すなわち位置、回転、拡大縮小のサンプリングによって制限される。 Accuracy of the resulting three-dimensional position and orientation is the two-dimensional position and orientation that is, the position in the sampling and two-dimensional view matching, rotation is limited by the sampling of the scaling. 実際の適用においては、これは十分ではない。 In practical applications, this is not enough. 三次元位置姿勢絞り込みは最小二乗調整を使用して行われる。 Three-dimensional position and orientation narrowing is performed using a least squares adjustment. したがって、実際の適用を可能にするためには、位置姿勢絞込み工程(工程210)が不可欠である。 Therefore, in order to enable practical application, it is essential step narrowing position and orientation (step 210). これを行うために、マッチングから得られた前記三次元位置姿勢H V,s,γ,pを使用して三次元オブジェクトを投影しサーチ画像にする(工程211)。 To do this, the obtained from the matching three-dimensional position and orientation H V, s, gamma, to the search image by projecting the three-dimensional object using the p (step 211). 投影中、現行の位置姿勢では可視ではない線を抑制するために、隠線アルゴリズムが使用される。 During projection, the current position and orientation in order to suppress a line not visible, hidden line algorithm is used. さらに、オブジェクトのエッジで、2つの隣接したオブジェクト面間の角度が所定の閾値を越えないようなエッジを表す線は、抑制される。 Further, at the edge of the object, the line angle between two adjacent object surface represents an edge that does not exceed the predetermined threshold, is suppressed. この閾値は、オフライン段階での3チャネル画像におけるエッジ抽出の閾値を導き出すために使用された最小面角度と意味的に同じであるので、同じ値に設定される。 This threshold are the semantically same as the minimum face angle that was used to derive the threshold value of the edge extraction in 3-channel image in the offline phase, are set to the same value. 投影モデルの可視エッジは適切なサンプリング距離、たとえば1ピクセルを使用してサンプリングされ、離散ポイントになる。 Visible edge of the projection model is suitable sampling distance, are sampled for example, using one pixel, becomes discrete points. サンプリングされた各エッジポイントについて、その近隣で、それに対応する、サブピクセルレベルで正確な画像エッジポイントを見つけるために、局所的なサーチが開始される(工程212)。 For each edge point sampled, in its neighborhood, the corresponding, to find an accurate image edge point in the sub-pixel level, the local search is started (step 212). 前記サーチは投影されたモデルエッジに垂直な方向に制限される。 The search is limited to a direction perpendicular to the model edge projected. さらに、見つかった候補対応の各々について、前記投影モデルエッジの垂線と画像勾配との間の角差が算出される。 Further, for each of the found candidate corresponding angular difference between the perpendicular line and the image gradient of the projection model edge is calculated. 角差が閾値未満の対応のみが、有効対応として承認される。 Only the corresponding angle difference is less than the threshold value is accepted as valid corresponding. 最後に、Levenberg−Marquardt(例えばPress et al.、1992年参照)など、ロバストな反復非線形最適化アルゴリズムを使用することにより、絞り込まれた三次元位置姿勢が得られる(工程213)。 Finally, Levenberg-Marquardt (e.g. Press et al., See 1992), etc., by using a robust iterative nonlinear optimization algorithm, the three-dimensional position and orientation narrowed is obtained (step 213). 前記最適化中に、画像エッジポイントからその対応する投影モデルエッジまでの距離の二乗がそれぞれ、6つの位置姿勢パラメータ(3つの移動パラメータおよび3つの回転パラメータ)について正比例して最小化される。 During the optimization, the square of the distance from the image edge points to the projection model edge its corresponding, respectively, is minimized in direct proportion for the six position and orientation parameters (three mobile parameters and three rotation parameters). さらに、最適化中に角差に応じて距離が重み付けされる。 Furthermore, the distance is weighted according to the angle difference during the optimization. 誤差関数と偏導関数とを含む最小化プロセスは、Lanser,1998年に詳細に述べられている。 Minimization process including the error function and the partial derivatives is described in detail in Lanser, 1998 years. 最小化後、絞り込まれた位置姿勢パラメータが得られる。 After minimization, it narrowed down position and orientation parameters are obtained. 絞り込まれた位置姿勢パラメータから新たな対応が現れうるため、最適化アルゴリズムは外部反復に組み込まれている。 Since the new correspondence may emerge from narrowed position and orientation parameters, the optimization algorithm is incorporated into the outer iteration. したがって、本発明の一実施形態においては、各反復過程後に、位置姿勢の絞り込みのために陰線アルゴリズムを使用してモデルが再投影され、対応が再算出される。 Thus, in one embodiment of the present invention, after each iteration, the model using the hidden-line algorithm for narrowing the position and orientation are re-projection, it corresponds is re-calculated. 残念ながら陰線算出は膨大な算出時間を必要とし、特に多数のエッジから成る複合三次元モデルを使用する時など、リアルタイム算出には時間がかかりすぎる場合がある。 Unfortunately the hidden-line calculation requires enormous calculation time, such as when using a composite three-dimensional model consisting in particular a number of edges, which may for real-time calculation takes too much time. したがって、本発明の好適な実施形態では、各反復過程において陰線アルゴリズムを適用することなく再投影を行う。 Thus, in a preferred embodiment of the present invention, to re-projection without applying the hidden-line algorithm in each iteration. ただし陰線アルゴリズムは最初の反復過程においてのみ適用する。 However hidden-line algorithm is only applied in the first iteration. 最初の反復過程での陰線アルゴリズムの結果から、各投影モデルエッジの可視部分の2つの端点が、画像中に得られる。 From the results of the hidden-line algorithm in the first iteration, the two end points of the visible part of each projected model edge is obtained in the image. 各端点と、光心とから、三次元における視線が画定される。 And the end points, from the optical center, the line of sight in the three-dimensional is defined. 二本の視線が三次元モデルエッジと交わる。 Two of the line of sight intersects with the three-dimensional model edge. この2つの交点によって、三次元モデルエッジの、初期位置姿勢で可視である部分が画定される。 These two intersections, three-dimensional model edge, partially visible is defined by the initial position and orientation. その後の反復過程で、完全な三次元モデルエッジではなく、最初の反復過程で可視であった部分のみが投影される。 In the subsequent iteration, not the complete three-dimensional model edge, only a portion is visible is projected at the first iteration. 陰線アルゴリズムを適用する必要がないので、これによって位置姿勢絞込みが大幅に加速される。 It is not necessary to apply the hidden-line algorithm, thereby narrowing down position and orientation can be greatly accelerated. しかしその一方で、この単純化により起こるエラーによって、得られる精度が僅かではあるが悪化する場合が多い。 However, on the other hand, the error caused by this simplification, often resulting accuracy is is a slightly deteriorated.

カメラレンズが大きな歪みを有するなら、マッチングを適用する前にその歪みが取り除かれるべきである。 If the camera lens has a large strain, should the distortion is removed before applying the matching. これはサーチ画像を修正することによって簡単に行え(工程201)、歪みの無い画像が得られる。 This easy by modifying the search image (step 201), an image without distortion. サーチ画像の修正の速度をために、球マッピングの算出と同様に、三次元モデルの生成中にマッピングがオフラインで算出される(工程106)。 For the speed of the search image modification, similarly to the calculation of the sphere mapping, the mapping is computed offline during the generation of the three-dimensional model (step 106). まず、径方向の歪みを示さない、すなわちκ=0である、新たな(仮想の)カメラのパラメータが算出される。 First, it does not exhibit distortion in the radial direction, i.e. a kappa = 0, a new (virtual) of the camera parameters are calculated. その後、修正された画像の各ピクセルについて、原画像のパラメータと仮想カメラのパラメータを使用して、原画像のピクセル座標が算出できる。 Then, for each pixel of the modified image, using the parameters of the virtual camera and the parameters of the original image, the pixel coordinates of the original image can be calculated. 前記ピクセル座標と双一次補間のための重みとが三次元モデル内に保存される。 Wherein the weights for the pixel coordinates and bilinear interpolation is stored in the 3D model. 画像ピラミッドを算出する前にサーチ画像を効率的にマッピングするために、この情報がオンライン段階で使用される。 To map the search image efficiently before calculating the image pyramid, this information is used in the online-phase. 三次元モデル生成中、原カメラのパラメータのかわりに、仮想カメラのパラメータが使用される。 In a three-dimensional model generation, instead of the original camera parameters, the parameters of the virtual camera is used. 本発明の好適な実施形態において、両方のマッピング(球マッピングおよびレンズ歪みの修正)が組み合わされて単一のマップとなり、これによってオンライン段階の算出時間が低減される。 In a preferred embodiment of the present invention, both mappings (correction of the spherical mapping and lens distortion) combined to become a single map, whereby the calculation time of the online-phase are reduced.

オブジェクトが特徴的なテキスチャを示す場合、本発明はこの付加的な情報から恩恵を受けることができる。 If the object shows a characteristic texture, the present invention can benefit from this additional information. 本発明の好適な実施形態では、三次元モデルの生成後、ユーザがオブジェクトのいくつかの画像例を提供する。 In a preferred embodiment of the present invention, after generation of the three-dimensional model, the user provides some example images of the object. 第一の工程で、前記画像例中のオブジェクトの三次元位置姿勢を測定するために三次元モデルが使用される。 In the first step, the three-dimensional model to determine the 3D pose of the object in the example images are used. その後、測定された三次元位置姿勢を使用して、前記三次元モデルの各面が画像例に投影される。 Then, using the measured three-dimensional position and orientation, each face of the three-dimensional model is projected on an image example. 投影されたモデル面下で画像例に存在するテキスチャ情報は、三次元面上にその面の三次元位置姿勢に基づいて前記画像例のその部分を修正することによって、テキスチャ情報による前記モデル面の補強を行うために使用される。 Texture information present in the example image under the projected model face, by modifying that portion of the image examples on the basis of the three-dimensional position and orientation of the surface in the three-dimensional surface, of the model surface by texture information It is used to perform reinforcement. この工程は全ての面について、かつ全ての画像例について、繰り返される。 This process is all faces and for all example images are repeated. 前記の面が複数の画像例で可視であれば、この面に最も適した画像例が選択される。 If visible is in terms multiple example images of the most appropriate image examples in this plane is selected. 本発明の好適な実施形態においては、前記面が最も小さい投影歪みを示す画像例が選択される。 In a preferred embodiment of the present invention, image example of the surface exhibits the smallest projection distortion is selected. 別の実施形態においては、面内の抽出されたエッジが最も高いコントラストを示す画像例が選択される。 In another embodiment, the image example shown the highest contrast extracted edge in the plane is selected. 最後に、二次元モデルのテキスチャ情報を追加することにより、三次元モデルが補強される(工程115)。 Finally, by adding the texture information of the two-dimensional model, the three-dimensional model is reinforced (step 115). その結果、三次元モデル内の各ビューは、(極性情報を含まない)幾何学的情報から生じるエッジと、(極性情報を含む/含まない)テキスチャ情報から生じるエッジとを含む二次元モデルを含む。 As a result, each view within the three-dimensional model, comprising a two-dimensional model that includes an edge resulting from the (not including polarity information) and the edge resulting from the geometrical information, which (without / including polarity information) texture information . 本発明の別の実施形態においては、幾何学情報は完全に省略され、二次元モデルはテキスチャ情報を含むのみである。 In another embodiment of the present invention, the geometry information is completely omitted, the two-dimensional model only contains texture information. 後者はたとえば、三次元モデルエッジが、選択された照度やオブジェクトの材質のせいで画像中に二次元エッジを生じさせることが無いのであれば、有効である。 The latter example, the three-dimensional model edges, as long as no to cause two-dimensional edge in the image due to the material of the selected illumination or object, it is effective.

サーチ画像の勾配方向情報を拡大することによって、認識の速度をさらに上げることができる(工程204)。 By expanding the gradient direction information in the search image can be further speed up the recognition (step 204). 欧州特許第1,193,642号の類似度は、モデルの正規化勾配を、サーチ画像の正規化勾配とを比較したものである。 Similarity EP 1,193,642, the normalized gradient of the model, a comparison of the normalized gradient of the search image. これは許可された変換の種類(例えば剛体変換)に応じてモデルエッジとその勾配ベクトルとを変換することにより行われ、変換された各モデルエッジポイントの勾配ベクトルは、サーチ画像の基礎となっている勾配ベクトルと比較される。 This is done by transforming the model edges and their gradient vectors according to the type of conversion that is allowed (e.g., rigid transformation), the gradient vector of the transformed each model edge point has, in the basis of the search image It is compared with the gradient vector are. 実際の画像において、この測定は勾配の両方向において約1ピクセル分というエッジポイントの小さな変位に対してロバストである。 In actual image, the measurement is robust to small displacements of the edge points of about 1 pixel in both directions of the gradient. なぜなら、この近隣の勾配方向は僅かにしか変化しないからである。 Because the slope direction of the close is because changes only slightly. このように、類似度の許容度は約1ピクセルである。 Thus, tolerance of the similarity is about 1 pixel. 三次元モデル内の二次元モデルの数は、この許容値に大きく依存する。 The number of 2D models within the three-dimensional model is largely dependent on the tolerance. 2つの隣接したビューの間の差は、第1のビューに対する第2のビューの投影における抽出されたモデルエッジの小さな変位として解釈できる。 The difference between the two adjacent views can be interpreted as small displacements of the model edges extracted in the projection of the second view to the first view. もし変位が許容値よりも小さければ、適用された類似度の点では前記2つのビューは同等であるので、これらビューは統合されて一つのビューにできる。 If If the displacement is less than the allowable value, since in terms of the applied similarity the two views are equivalent, they view it in one view are integrated. したがって、もし許容度を増加できる方法があれば、ビューの数が削減でき、よってオンライン段階での算出時間が低減できるであろう。 Therefore, if a method if possible to increase the tolerance, reduces the number of views, thus it could be reduced calculation time in the online-phase. 相対的に移動可能であるいくつかの剛体成分にオブジェクトを分解することによってかかる変位をシミュレーションするアプローチ(米国特許第7,239,929号)はこの場合使用できない。 Approach to simulate the displacement according by decomposing the object into several rigid components relatively movable (U.S. Pat. No. 7,239,929) can not be used in this case. なぜなら、必要な成分の数が大きすぎると算出時間が長くなるからである。 This is because the calculation time and the number of required components is too prolonged. 本発明の好適な実施形態においては、勾配方向情報を拡大するためにサーチ画像における勾配に最大値フィルタの一種を適用する。 In a preferred embodiment of the present invention, to apply a kind of maximum filter to the gradient in the search image in order to expand the gradient direction information. このプロセスは図14に示されている。 This process is illustrated in Figure 14. 図14Aでは、サブピクセルレベルで精密な白い曲線の輪郭を画像中に描いて作成した人工サーチ画像例の拡大部分が示されている。 In Figure 14A, an enlarged portion of the artificial search image example created delineate precise white curves in the image at sub-pixel level is depicted. ピクセル格子は白い縦横の線で可視化されている。 Pixel grid is visualized by lines white aspect. エッジフィルタリング後に得られた前記画像の勾配ベクトルが図14Bに示されている。 Gradient vector of the image obtained after edge filtering are shown in Figure 14B. ベクトルの長さはエッジ振幅に比例している。 The length of the vector is proportional to the edge amplitude. 勾配方向を拡大するために、3×3のサイズの最大値フィルタを画像中で移動させる。 In order to expand the gradient direction, to move the maximum value filter of 3 × 3 size in the image. 各位置で、フィルタの中心の勾配ベクトルが、フィルタ内の最大振幅を有する勾配ベクトルと置換される。 In each position, the gradient vector of the center of the filter is replaced with the gradient vector with the largest amplitude within the filter. 例えば、図14Cにおいては、フィルタの位置が3×3の太線の正方形によって示されている。 For example, in Figure 14C, the position of the filter is indicated by a thick line square 3 × 3. 最大振幅を有する勾配は、フィルタマスク内の右下の角にある。 Gradient having the largest amplitude is in the lower right corner of the filter mask. その結果、フィルタマスクの中心のピクセルには右下角の勾配ベクトルが割り当てられる(図14D参照)。 As a result, the gradient vector of the lower right corner is allocated in the center of the pixel in the filter mask (see FIG. 14D). 前記フィルタを画像全体に適用した最終結果が図14Eに示されている。 The final result of applying the filter to the entire image is shown in Figure 14E. 両方向のエッジから始まって、エッジ方向が1ピクセル分伝播されたことがわかるであろう。 Starting from both directions of the edge, the edge direction will be seen that propagated one pixel. その結果、拡大勾配画像を使用するときに、約2ピクセル分の小さな変位に対して類似度がロバストとなる。 As a result, when using the expanded gradient image, the similarity is robust to small displacements of about 2 pixels. より大きなフィルタマスクを適用することによって、または小さなフィルタマスクを連続的に数回適用することによって、より大きな許容度を得ることができる。 By applying a larger filter masks or by applying continuously several times smaller filter mask, it is possible to obtain a larger tolerance. 残念ながらフィルタマスクのサイズは任意の大きさに選択することはできない。 Size Unfortunately filter mask can not be chosen arbitrarily large. さもないと、曲線エッジの近傍における誤差や、いくつかの近接したエッジを有する微細構造の近傍における誤差などが導入されてしまい、その結果マッチングのロバスト性が低下するであろう。 Otherwise, errors or near the curved edges, some would like errors in the vicinity of the microstructure having a proximate edge is introduced, will robustness of the matching result is reduced. 本発明の好適な実施形態では、3×3フィルタマスクが使用される。 In a preferred embodiment of the present invention, 3 × 3 filter mask is used. 速度とロバスト性のバランスが良好となるからである。 Balance of speed and robustness is because the better.

本発明は、単眼カメラ画像における三次元オブジェクト認識のためのシステムおよび方法、およびカメラ座標系に対するオブジェクトの三次元位置姿勢の測定のためのシステムおよび方法を提供する。 The present invention provides a system and method for monocular system and method for three-dimensional object recognition in the camera image, and measuring the three-dimensional position and orientation of the object with respect to the camera coordinate system. ピラミッドアプローチとツリー構造に配列される階層的モデルビューとの、新規性を有する組み合わせは、リアルタイムアプリケーションにとって重要であり、これまでの認識アプローチには適用されたことが無い。 With hierarchical model views that are arranged in a pyramid approach with a tree structure, combined with novel is important for real-time applications and has not been applied in previous recognition approaches. 新規性を有する3チャネルモデル画像生成は、エッジ振幅の閾値を越えるだけで実像では不可視のオブジェクトエッジを削除することにより、既存のエッジベースの二次元マッチングアプローチの使用を可能にする。 3 channel model image generating with novelty, with real image just above the threshold of the edge amplitude by removing invisible objects edges, allows the use of existing edge-based two-dimensional matching approach. これも、これまでの認識アプローチには適用されたことが無い。 This is also, it has not been applied in previous recognition approaches. 新規性を有する、トラッキング中の二次元モデルの投影変換は、認識アプローチのロバスト性の向上にとって重要である。 Having novelty, projective transformation of 2D models during the tracking is important for improving the robustness of the recognition approach. これもまた、これまでの認識アプローチにおいて適用されたことが無い。 This also has not been applied in previous recognition approaches. 最後に、その後の三次元位置姿勢の絞り込みを適用することにより高精度が得られる。 Finally, high accuracy is obtained by applying the narrowing of the subsequent three-dimensional position and orientation. 絞込みのための最初の三次元位置姿勢は、二次元マッチング位置姿勢と、対応するビューの三次元位置姿勢とを組み合わせることによって得られる。 The first three-dimensional position and orientation for the narrowing is obtained by combining the two-dimensional matching position and orientation, and a three-dimensional position and orientation of the corresponding view. 径方向の歪みを効果的に除去するために使用できる別の方法が提供されている。 Another method that can be used to effectively eliminate distortion in the radial direction is provided. さらに、最高位のピラミッドレベル上で、二次元マッチングのロバスト性を低減しかねないこともある投影歪みを除去するために、モデルと画像とを効果的にマッピングして球面投影を得る別の方法が提供されている。 Moreover, in the highest pyramid level on, another method for obtaining to remove projection distortion sometimes could reduce the robustness of the two-dimensional matching, effectively mapping to spherical projecting the model and image There has been provided. 新規性を有する、マッチングに使用される勾配情報の拡大は、マッチされなければならないビューの数を削減できるので、高速認識に重要である。 With novel properties, expansion of the gradient information used for matching, it is possible to reduce the number of matches is the view must be important for high-speed recognition.

[ロボットビジョンシステムの実施例] [Example of robot vision system]
図15において、基本的なロボットビジョンシステム例が図示されている。 15, a basic robot vision system example is shown. このシステムは、本発明で提示された方法を組み込んでいる。 This system incorporates the methods presented in the present invention. 三次元オブジェクト認識の代表的な利用分野がロボットビジョンである。 A typical use of the field of three-dimensional object recognition is robot vision. 前記システムは、画像を獲得するための画像獲得装置1と、画像を分析するための画像プロセッサ2と、三次元モデルデータを含む記憶装置3と、ロボット4とを含む。 The system includes an image acquisition device 1 for acquiring an image, an image processor 2 for analyzing an image, a storage device 3 comprising a three-dimensional model data, and a robot 4. 前記画像プロセッサは、例えば適切にプログラムされたコンピュータなど、ハードウェアとソフトウェアとの適当な組み合わせとして設けられてもよい。 It said image processor, such as a suitably programmed computer may be provided as a suitable combination of hardware and software. 前記ロボットはたとえば、オブジェクトを取り扱うグリッパまたはグラスパ5を備えている。 The robot, for example, comprises a gripper or grasper 5 handling object. かかるシステムは、ロボットの「手」が機械的な「目」によって導かれるので「ハンド・アイシステム」とも呼ばれている。 Such a system, "hand" of the robot is also referred to as so guided by mechanical "eyes," "Hand-eye system". オブジェクト認識アプローチの結果を使用するために、オブジェクトの三次元位置姿勢がロボットの座標系に変換されなければならない。 To use the results of the object recognition approach, the three-dimensional position and orientation of the object must be transformed to the coordinate system of the robot. このように、カメラ較正に加え、ハンド・アイシステムの較正、すなわちカメラ座標とロボット座標との変換を判定しなければならない。 Thus, in addition to the camera calibration, the calibration of the hand-eye system, i.e. it is necessary to determine the conversion between the camera coordinates and the robot coordinates. その上で、例えばオブジェクト6を把持せよ、などの、適切なロボット指令の作成が可能になる。 On top of that, for example, case gripping the object 6, such as, allowing the creation of appropriate robot command. 一般的に、かかるシステムの実現の可能性には2つの形式があるだろう。 Generally, it will in the feasibility of such a system has two forms. 第1の可能性は、カメラがロボットに接続され、よってロボットが動くとカメラも動くものである(図15A)。 The first possibility is that the camera is connected to the robot, thus those the robot moves the camera also moves (Figure 15A). 第2の可能性は、カメラが世界座標系に対して固定されるものである(図15B)。 The second possibility is that the camera is fixed relative to the world coordinate system (FIG. 15B). どちらの場合も、カメラに対するグリッパの相対的位置姿勢は「ハンド・アイ較正」の標準的な方法を使用することによって測定できる。 In either case, the relative position and orientation of the gripper with respect to the camera can be measured by using standard methods of "hand-eye calibration". その結果、実際には、オブジェクト認識は下記のように実施される。 As a result, in practice, object recognition is performed as follows.

オフライン段階では、下記の工程が行われる。 In the offline phase, the following steps are performed. A. A. 1. 1. カメラの内的方位を較正する(もし工程A.2.にて同時に行われない場合)。 Calibrating the internal orientation of the camera (if step A.2. If not done simultaneously with). A. A. 2. 2. ロボットの「ハンド・アイ」較正を行う。 Perform a "hand-eye" calibration of the robot. A. A. 3. 3. 見つけるべき三次元オブジェクトの三次元記述を提供する。 It provides a three-dimensional description of a three-dimensional object to be found. A. A. 4. 4. オンライン段階でオブジェクトが見つけられるべきパラメータ範囲を特定する。 Identifying the parameter range to the object is found in the online phase. A. A. 5. 5. 前記特定された位置姿勢範囲中の三次元オブジェクト記述から三次元モデルを生成し、記憶装置に三次元モデルを記憶する。 Wherein generating the three dimensional model from the three-dimensional object description in a particular position and orientation range, it stores a three-dimensional model in a storage device.

オンライン段階では、下記の工程が行われる。 In the online phase, the following steps are performed. B. B. 1. 1. 画像獲得装置でオブジェクトの画像を獲得する。 Acquiring an image of an object in an image acquisition apparatus. B. B. 2. 2. カメラ座標系に対するオブジェクトの三次元位置姿勢を測定するために記憶装置に記憶された三次元モデルを使用して三次元オブジェクト認識を行う。 Performing a three-dimensional object recognition using a three-dimensional model stored in the storage device to determine the 3D pose of the object with respect to the camera coordinate system. B. B. 3. 3. ロボット座標系におけるオブジェクトの三次元位置姿勢を得るために、カメラに対するオブジェクトの三次元位置姿勢とロボットの位置姿勢とを連結する。 To obtain the 3D pose of the object in the robot coordinate system, connecting the position and orientation of the three-dimensional position and orientation and the robot of the object with respect to the camera. B. B. 4. 4. 例えばオブジェクトを把持せよ、などの、適切なロボット指令を作成する。 For example case gripping an object, such as to create an appropriate robot command.

本発明のいくつかの特定の実施形態を詳細に記載したが、好適な実施形態には、本発明の精神と範囲から逸脱することなく様々な変更が可能である。 While several specific embodiments of the present invention have been described in detail, the preferred embodiments, and various modifications may be made without departing from the spirit and scope of the invention. したがって、前記記載は、以下のクレームに指摘されたもの以外は本発明を制限するものではない。 Accordingly, the foregoing description is not intended to limit the present invention except those indicated in the following claims.

図1は、オフライン段階、すなわち、三次元モデル生成のフローチャートである。 1, the offline phase, i.e., a flow chart of a three-dimensional model generation. 図2は、オンライン段階、すなわち、画像における三次元オブジェクトの認識および前記オブジェクトの三次元位置姿勢の測定のフローチャートである。 2, the online phase, i.e., a flowchart of the measurement of the three-dimensional position and orientation of the recognition and the objects of the three-dimensional object in the image. 図3は、幾何学的カメラ較正中に用いられるカメラモデルの図である。 Figure 3 is a diagram of a camera model used during the geometric camera calibration. 図4Aは、主に平らな表面および円柱からなる三次元オブジェクトの一例を示す。 4A shows an example of a three-dimensional object consisting mainly flat surface and cylinder. 図4Bは、隠線を取り除いて視覚化した図4Aの三次元オブジェクトを示す。 Figure 4B shows a three-dimensional object in FIG. 4A visualized by removing hidden lines. 図5Aは、外的三次元オブジェクト表象の原座標系を、例えばDXFファイルで定義されるように示す。 Figure 5A, the original coordinate system of the external three-dimensional object representation, for example shown as defined in a DXF file. 図5Bは、原座標系を原点に移動して基準方向に回転させることで得られる、内的に用いられる基準座標系を示す。 5B is obtained by rotating the reference direction by moving the original coordinate system to the origin, indicating a reference coordinate system used internally. 図6Aは、基準位置姿勢を視覚化したものである。 Figure 6A is a visualization of the reference position and orientation. 図6Bは、位置姿勢の範囲を説明するために用いられる球座標系を視覚化したものである。 Figure 6B is a visualization of the spherical coordinate system used to describe the range of position and orientation. 図7は、位置姿勢の範囲の一例を視覚化したものである。 Figure 7 is a visualization of an example of the range of the position and orientation. 図8Aは、ピラミッドレベル1上のビューを視覚化したものである。 Figure 8A is a visualization of the views on pyramid level 1. 図8Bは、ピラミッドレベル2上のビューを視覚化したものである。 Figure 8B is a visualization of the views on pyramid level 2. 図8Cは、ピラミッドレベル3上のビューを視覚化したものである。 Figure 8C is a visualization of the views on pyramid level 3. 図8Dは、ピラミッドレベル4上のビューを視覚化したものである。 Figure 8D is a visualization of the views on pyramid level 4. 図9は、4つのピラミッドレベルを備えたビューツリーの概略図である。 Figure 9 is a schematic diagram of a view tree with four pyramid levels. 図10は、2つの近傍オブジェクト面の法線ベクトルの差角と、3チャネル画像における対応するエッジ振幅との関係を示す図である。 10, the difference angle of the normal vectors of two neighboring object surfaces is a diagram showing the relationship between the corresponding edge amplitude in the three-channel image. 図11Aは、三次元オブジェクトの一つのサンプルビューの3チャネルを示す。 Figure 11A shows one of the three channels of the sample views of a three-dimensional object. 図11Bは、図11Aに示す3チャネル画像のエッジ振幅に、間違った閾値を適用した場合に得られるエッジを示す。 Figure 11B is an edge amplitude of the three channel image shown in FIG. 11A, shows an edge that is obtained by applying the wrong threshold. 図11Cは、図11Aに示す3チャネル画像のエッジ振幅に、正しい閾値を適用した場合に得られるエッジを示す。 Figure 11C is an edge amplitude of the three channel image shown in FIG. 11A, shows an edge that is obtained by applying the correct threshold. 図12は、4つのピラミッドレベルそれぞれについて、2つの二次元モデル例のエッジを示す。 12, for each of the four pyramid levels, indicating the two dimensional model example of the edge. 図13Aは、カメラがオブジェクトの中心に向けられた場合のオブジェクトビューを示す。 13A shows an object view where the camera is directed to the center of the object. 図13Bは、図13Aのカメラを、その光心を中心に右下へ回転させた場合に得られるオブジェクトビューを示す。 Figure 13B shows an object view that is obtained when the camera FIG. 13A, is rotated to lower right about its optical center. 図13Cは、図13Aのカメラを、その光心を中心に左上へ回転させた場合に得られるオブジェクトビューを示す。 Figure 13C shows an object view that is obtained when the camera FIG. 13A, is rotated in the upper left about its optical center. 図14Aは、サブピクセルレベルで精密な白い曲線の輪郭を黒い像の中に描いて得た人工画像の拡大部分を視覚化したものである。 Figure 14A is a visualization of an enlarged portion of the artificial image obtained by drawing in the black image of the contour of the precise white curve with sub-pixel level. 図14Bは、エッジフィルタを適用した後に得た勾配ベクトルを視覚化したものである。 Figure 14B is a visualization of the gradient vectors obtained after applying an edge filter. 図14Cは、勾配ベクトルを適用し、最大振幅の勾配ベクトルを選択することで勾配情報を近傍のピクセルに拡大するために用いることができる3×3フィルタマスクを視覚化したものである。 Figure 14C applies the gradient vector is obtained by visualizing the 3 × 3 filter mask that can be used to expand the gradient information by selecting the gradient vector of the maximum amplitude in the vicinity of the pixel. 図14Dは、前記フィルタマスクを、図14Cにおいて視覚化された位置で適用した場合に得られる結果を視覚化したものである。 FIG. 14D, the filter mask is a visualization of the results obtained when applied in visualizing position in FIG. 14C. 図14Eは、前記フィルタマスクを画像全体に適用した場合に得られる結果を視覚化したものである。 Figure 14E is a visualization of the results obtained when applying the filter mask to the entire image. 図15Aは、本発明において提示された、移動カメラを用いた方法を組み込んだ基本的なロボットビジョンシステムの一例の図である。 Figure 15A is presented in the present invention, an illustration of an example basic robot vision system that incorporates the method using a moving camera. 図15Bは、本発明において提示された、固定カメラを用いた方法を組み込んだ基本的なロボットビジョンシステムの一例の図である。 Figure 15B is presented in the present invention, an illustration of an example basic robot vision system that incorporates the method using a fixed camera.

符号の説明 DESCRIPTION OF SYMBOLS

P ピクセル座標 f 焦点距離 s x x方向におけるセンサ上のセンサ要素同士の距離 s y y方向におけるセンサ上のセンサ要素同士の距離 (c x 、c yT画像における主点の位置 λ 緯度 φ 経度 d 距離 ω カメラのロール角 A エッジ振幅 N 面の法線ベクトル δ 法線ベクトル間の角度 1 画像獲得装置 2 画像プロセッサ 3 記憶装置 4 ロボット 5 グリッパまたはグラスパ 6 オブジェクト P pixel coordinates f focal length s x Distance sensor elements with each other on the sensor in the x-direction s y y distance sensor elements with each other on the sensor in the direction (c x, c y) position of the principal point in the T image λ latitude φ and longitude d distance ω angle 1 image acquisition device 2 the image processor 3 storage device between the normal vectors δ normal vector of the roll angle a edge amplitude N of the camera 4 robot 5 gripper or grasper 6 object

Claims (45)

  1. コンピュータを用いて、三次元オブジェクト認識のための三次元モデルを構築する方法であって、 前記コンピュータが、 Using a computer, a method for constructing a three-dimensional model for the three-dimensional object recognition, the computer,
    (a)カメラの内的パラメータを提供するステップと、 Providing a intrinsic parameters of (a) a camera,
    (b)三次元オブジェクトの幾何学的表象を提供するステップと、 (B) providing a geometric representation of a three-dimensional object,
    (c)三次元オブジェクトがカメラから可視であるような位置姿勢の範囲を提供するステップと、 A step (c) the three-dimensional object provides a range of position and orientation such that visible from the camera,
    (d )前記位置姿勢の範囲をサンプリングすることによって、前記三次元オブジェクトの複数の仮想ビューを異なる画像解像度について作成するステップであって、同じ画像解像度の複数の仮想ビューを間引きして次に低い画像解像度の仮想ビューをそれぞれ作成するステップと、 (D) by sampling the range of pre-Symbol position and orientation, a step of creating a plurality of image resolutions that the virtual view different of the three-dimensional object, and then thinning the multiple virtual views of the same image resolution and creating a low image resolution of a virtual view, respectively,
    (e )すべての仮想ビューを階層的ツリー構造により表現するステップであって、同じ画像ピラミッドレベルにある複数の仮想ビューが階層的ツリーの同じ階層レベルに属するように表現するステップと、 (E) a step of representing a hierarchical tree structure a virtual view of all the steps of a plurality of virtual views in the same image pyramid level is represented as belonging to the same hierarchical level of the hierarchical tree,
    (f )各仮想ビューについて、適切な二次元マッチングアプローチを用いて、画像に含まれる二次元ビューを見つけるために使用可能な二次元モデルを作成するステップと (F) for each virtual view, and creating with the appropriate two-dimensional matching approach, a two-dimensional model that can be used to find the two-dimensional view included in the image,
    (g)前記階層的ツリー構造および前記作成した二次元モデルを、前記三次元モデル内に保存するステップと実行する方法。 (G) the hierarchical tree structure and two-dimensional model the creation, how to perform the steps of storing in said three-dimensional model.
  2. 幾何学的カメラ較正を行うことによって、前記ステップ(a)における前記カメラの内的パラメータを得る、請求項1に記載の方法。 By performing the geometric camera calibration, obtaining intrinsic parameters of the camera in the step (a), Method according to claim 1.
  3. 前記ステップ(b)の幾何学的表象は、コンピュータ支援設計(CAD)モデルである、請求項1または2に記載の方法。 Geometric representation of the step (b) is a computer aided design (CAD) model, the method according to claim 1 or 2.
  4. 前記三次元CADモデルは、DXFファイルによって表される、請求項3に記載の方法。 The three-dimensional CAD model is represented by a DXF file, the method of claim 3.
  5. 前記ステップ(c)の位置姿勢範囲の提供は、固定されたオブジェクト座標系における前記カメラの位置姿勢範囲の提供であって、 Providing position and orientation range of the step (c) is a provision of the position and orientation range of the camera in the fixed object coordinate system,
    (c1)前記三次元オブジェクト表象を基準オブジェクト座標系に変換するステップと、 (C1) converting said three-dimensional object representation based object coordinate system,
    (c2)前記基準オブジェクト座標系において球座標の緯度、経度、距離の区間を提供することによって、カメラの位置を提供するステップと、 (C2) the reference in the object coordinate system of spherical coordinates latitude by providing longitude, distance interval, and providing the position of the camera,
    (c3)前記カメラ座標系のZ軸が前記基準オブジェクト座標系の原点を通り、前記カメラ座標系のX軸が予め定められた平面に平行となるように、前記カメラを回転させるステップと、 (C3) the Z axis of the camera coordinate system passes through the origin of the reference object coordinate system, so as to be parallel to the plane in which X-axis of the camera coordinate system is predetermined, and rotating the camera,
    (c4)前記カメラロール角度の区間を提供することによって前記カメラの方位を提供するステップとを含む、請求項1〜4のいずれかに記載の方法。 (C4) and providing the orientation of the camera by providing a section of the camera roll angle, the method according to any one of claims 1 to 4.
  6. 前記ステップ(c3)において、前記予め定められた平面は、前記基準オブジェクト座標系の赤道面である、請求項5に記載の方法。 In step (c3), wherein the predetermined plane is a equatorial plane of the reference object coordinate system The method of claim 5.
  7. 前記ステップ(c)の位置姿勢範囲の提供は、固定されたオブジェクト座標系における前記カメラの位置姿勢範囲の提供であって、 Providing position and orientation range of the step (c) is a provision of the position and orientation range of the camera in the fixed object coordinate system,
    (c1)前記三次元オブジェクト表象を基準オブジェクト座標系に変換するステップと、 (C1) converting said three-dimensional object representation based object coordinate system,
    (c2)前記基準オブジェクト座標系においてX座標、Y座標、Z座標の区間を提供することによって、カメラの位置を提供するステップと、 (C2) X-coordinate in the reference object coordinate system, Y coordinate, by providing a section of Z coordinates, and providing the position of the camera,
    (c3)前記カメラ座標系のZ軸が前記基準オブジェクト座標系の原点を通り、前記カメラ座標系のX軸が予め定められた平面に平行となるように、前記カメラを回転させるステップと、 (C3) the Z axis of the camera coordinate system passes through the origin of the reference object coordinate system, so as to be parallel to the plane in which X-axis of the camera coordinate system is predetermined, and rotating the camera,
    (c4)前記カメラロール角度の区間を提供することによって前記カメラの方位を提供するステップとを含む、請求項1〜4のいずれかに記載の方法。 (C4) and providing the orientation of the camera by providing a section of the camera roll angle, the method according to any one of claims 1 to 4.
  8. 前記ステップ(c3)において、前記予め定められた平面は、前記基準オブジェクト座標系のX軸およびZ軸上に延びる平面である、請求項7に記載の方法。 In step (c3), said predetermined plane is a plane extending in the X-axis and Z-axis of the reference object coordinate system The method of claim 7.
  9. 前記ステップ(c4)において、前記カメラロール角度は、前記カメラのZ軸を中心とした回転である、請求項5〜8のいずれかに記載の方法。 Wherein in step (c4), the camera roll angle is the rotation about the Z axis of the camera, the method according to any one of claims 5-8.
  10. 前記ステップ(c)の位置姿勢範囲の提供は、固定されたカメラ座標系内での前記オブジェクトの位置姿勢範囲の提供である、請求項1〜4および7のいずれかに記載の方法。 Providing position and orientation range of the step (c) is the provision of the position and orientation range of the object within a fixed camera coordinate system The method of any of claims 1 to 4 and 7.
  11. 前記ステップ(c1)における前記基準オブジェクト座標系は、幾何学的表象によって画定されたオブジェクト座標系と同じである、請求項5または7に記載の方法。 The reference object coordinate system in step (c1) is the same as the object coordinate system defined by the geometrical representation method according to claim 5 or 7.
  12. 前記ステップ(c1)における基準オブジェクト座標系は、三次元オブジェクトの中心へ移された前記幾何学的表象によって画定され、所定の基準方位を向くよう回転させられたオブジェクト座標系である、請求項5または7に記載の方法。 The reference object coordinate system in step (c1) is defined by and transferred to the center of the three-dimensional object wherein the geometric representation, an object coordinate system is rotated to face a predetermined reference azimuth, claim 5 or the method described in 7.
  13. 異なる画像解像度について前記位置姿勢の範囲をサンプリングすることによる前記三次元オブジェクトの仮想ビューの作成は、画像ピラミッドの異なるレベルについて前記位置姿勢をサンプリングすることによる前記三次元オブジェクトの仮想ビューの作成である、請求項1〜12のいずれかに記載の方法。 Creating virtual views of the three-dimensional object by sampling the range of the position and orientation for different image resolutions, is the creation of virtual view of the three-dimensional object by sampling the position and orientation for different levels of the image pyramid a method according to any one of claims 1 to 12.
  14. 前記ステップ(d)は、 The step (d)
    (d1)最高画像解像度のビュー、すなわち最下位ピラミッドレベル上のビューのオーバーサンプリングを算出するステップと、 (D1) calculating the highest image resolution of the view, that the oversampling of view on the lowest pyramid level,
    (d2)前記ビューを間引くステップであって、予め定められた閾値を越えた類似度を有する近傍のビューを次々に統合することによって間引きを行うステップと、 (D2) a step of thinning out the views, and performing thinning by integrating successively a view of the neighborhood with a degree of similarity exceeding a predetermined threshold value,
    (d3)前記ステップ(d2)で2つの近傍のビューが閾値を越えた類似度を有するということがなくなるまで、前記ステップ(d2)を繰り返すステップと、 (D3) to view two neighboring said in step (d2) is said to have a similarity exceeding the threshold eliminates the steps of repeating said step (d2),
    (d4)前記統合されたビューを前記三次元モデルにコピーするステップと、 (D4) a step of copying the integrated view on the three-dimensional model,
    (d5)前記ステップ(d2)の類似度閾値を緩和した後に全ての画像解像度について前記ステップ(d2)〜(d4)を繰り返すステップとを含む、請求項1に記載の方法。 (D5) for all image resolutions after relaxing the similarity threshold of step (d2) comprises the step of repeating said step (d2) ~ (d4), The method of claim 1.
  15. 両方のビューの像面に前記オブジェクトを投影し、請求項1に記載のステップ(f)の二次元マッチングアプローチで使用される類似度測定に基づいて前記投影図間の類似度を算出することによって、前記ステップ(d2)における類似度が算出される、請求項14に記載の方法。 The object projected onto the image plane of both views, by calculating the similarity between the projection drawing based on the similarity measure that is used in a two-dimensional matching approach step (f) of claim 1 similarity in step (d2) is calculated, the method of claim 14.
  16. 両方のビューの像面に前記オブジェクトの三次元バウンディングボックスのみを投影し、請求項1に記載のステップ(f)の二次元マッチングアプローチで使用される類似度測定に基づいて前記投影図間の類似度を算出することによって、前記ステップ(d2)における類似度が算出される、請求項14に記載の方法。 Only three-dimensional bounding box for the object projected onto the image plane of both views, similar between the projection drawing based on the similarity measure that is used in a two-dimensional matching approach step (f) of claim 1 by calculating the degree, the similarity in step (d2) is calculated, the method of claim 14.
  17. 前記類似度測定に代わって、前記原類似度測定よりも早く算出することができる分析的近似を行う、 請求項 15または16に記載の方法。 Wherein instead of the similarity measure, the performing analytical approximation can be calculated faster than the original similarity measure The method of claim 15 or 16.
  18. 前記類似度測定の最もスピードの速い近似から開始して、前記原類似度測定が使用されるまで類似度測定を絞り込むことによって、前記ステップ(d2)および(d3)が反復される、請求項14に記載の方法。 Starting with the most speed fast approximation of the similarity measure, said by Filter similarity measure until the original similarity measure is used, the step (d2) and (d3) are repeated, claim 14 the method according to.
  19. 次に高位のピラミッドレベルへ至るために前記画像を平滑化しサブサンプリングし、前記サブサンプリングされた画像上で類似度を算出することによって、前記ステップ(d5)の類似度閾値の緩和がおこなわれる、請求項14に記載の方法。 Then the image was subsampled smoothed to reach to a higher pyramid level, by calculating the degree of similarity on the sub-sampled image, the relaxation of the similarity threshold in step (d5) is performed, the method of claim 14.
  20. ピラミッドレベルに応じて類似度の前記分析的近似中に位置の許容値を乗ずることによって、前記ステップ(d5)の類似度閾値の緩和を行う、請求項14に記載の方法。 By multiplying the tolerance of position in the analytical approximation of the similarity in accordance with the pyramid level, performing mitigation of the similarity threshold in step (d5), The method of claim 14.
  21. 前記ステップ(e)が、 Wherein step (e) is,
    (e1)各ビューについて、当該ビューの三次元位置姿勢を前記三次元モデルに保存するステップと、 (E1) for each view, and storing the three-dimensional position and orientation of the view in the three-dimensional model,
    (e2)各ビューについて、子ビューすべてに対する参照を前記三次元モデルに保存するステップと、 (E2) for each view, and storing a reference to all child views in the three-dimensional model,
    (e3)各ビューについて、その親ビューに対する参照を前記三次元モデルに保存するステップとを含む、請求項1〜20のいずれかに記載の方法。 (E3) for each view, and a step of storing a reference to its parent view in the three-dimensional model, the method according to any of claims 1 to 20.
  22. 前記ステップ(f)が、 Wherein step (f) is,
    (f1)各ビューの像面に前記三次元オブジェクトを投影して3チャネル画像を生じさせ、前記3チャネルとは前記三次元オブジェクトの面の法線ベクトルの三つの要素を表すステップと、 (F1) causing the 3-channel image by projecting the three-dimensional object on the image plane of each view, the steps and the 3 channels representing the three elements of the normal vector of the surface of the three-dimensional object,
    (f2)前記3チャネル画像の勾配振幅を閾値処理することによって得られる画像エッジからなる二次元モデルを作成するステップとを含む、請求項1〜21のいずれかに記載の方法。 (F2) and a step of creating a two-dimensional model consisting of the image edges obtained by thresholding the gradient amplitudes of the 3-channel image, the method according to any one of claims 1 to 21.
  23. 前記ステップ(f2)における二次元モデルの作成は、一般化ハフ変換、ハウスドルフ距離、またはエッジ勾配方向のドット積に基づくマッチングアプローチに使用できる二次元モデルの作成を含む、請求項22に記載の方法。 Creating 2D model in step (f2) are generalized Hough transform, including the creation of Hausdorff distance or a two-dimensional model that can be used for matching approach that is based on the dot product of the edge gradient direction, of claim 22 Method.
  24. 前記ステップ(f2)の閾値は、所定の最小面角度から算出される、請求項22に記載の方法。 The threshold in step (f2) is calculated from a predetermined minimum face angle The method of claim 22.
  25. 前記ステップ(f1)において、各画像チャネルにある一定の値を加えて、投影されたオブジェクトのシルエットが前記ステップ(f2)の閾値処理によって削除されることの無いようにする、請求項22に記載の方法。 Wherein in step (f1), was added a certain value to each image channel, so as never silhouette of the projected object is removed by the threshold processing in step (f2), according to claim 22 the method of.
  26. 前記ステップ(f2)における閾値処理によって得られた画像エッジは自動的に確認され、確認できない場合には前記二次元モデルが廃棄される、請求項22に記載の方法。 The step image edge obtained by threshold processing in (f2) are automatically verified, the two-dimensional model is discarded if it can not verify method of claim 22.
  27. (g)投影歪みの影響を低減する前記像面の球マッピングを算出し、前記三次元モデルに前記球マッピングを保存するステップと、 A step of (g) calculating a sphere mapping of the image plane to reduce the effect of projection distortion, storing the ball mapped to the three-dimensional model,
    (h)前記球マッピングを使用して前記ステップ(f)で作成された二次元モデルをマッピングし、前記原二次元モデルに加えて、前記球マッピングされた二次元モデルを前記三次元モデルに保存するステップとをさらに含む、請求項1〜26のいずれかに記載の方法。 (H) mapping the 2D models that are created in the step using said sphere mapping (f), save the addition to the original 2D models, the ball mapped 2D models in the three-dimensional model further comprising the method of any of claims 1 to 26 and a step of.
  28. (i)レンズ歪みの影響を除去する前記像面のマッピングを算出し、前記マッピングを前記三次元モデルに保存するステップをさらに含む、請求項1〜26のいずれかに記載の方法。 (I) Effect of lens distortion calculating the mapping of the image plane of removing, said mapping further comprising storing the three-dimensional model, the method according to any one of claims 1 to 26.
  29. コンピュータを用いて、三次元オブジェクトを認識し、前記オブジェクトのひとつの画像からその三次元位置姿勢を測定する方法であって、 前記コンピュータが、 Using a computer to recognize the three-dimensional object, a method of measuring the three-dimensional position and orientation from one image of said object, said computer,
    (a)前記三次元オブジェクトの三次元モデルを提供するステップと、 (A) providing a three-dimensional model of the three-dimensional object,
    (b)前記三次元オブジェクトの電子サーチ画像を提供するステップと、 (B) providing an electronic search image of the three-dimensional object,
    (c)前記サーチ画像の異なる解像度を含むサーチ画像の表象を作成するステップと、 And creating a representation of the search image containing different resolutions (c) said search image,
    (d)階層的ツリー構造において、親ビュー(father view)を持たない二次元モデルを、画像ピラミッドの各レベルの画像とマッチングさせるステップと、 In (d) a hierarchical tree structure, parent view a two-dimensional model that has no (father view), a step of image and matching for each level of the pyramid,
    (e)最下位の画像ピラミッドまで追跡することにより、最上位の画像ピラミッドレベルにおける二次元マッチングの確認および絞り込み(refining)を行うステップであって、前記追跡を行う際に、前記階層的ツリー構造から前記二次元マッチングに用いる子ビューを選択し、前記子ビューの二次元モデルを次の下位の画像ビラミッドレベルの二次元モデルとマッチングさせるステップと、 (E) by following up image pyramid of the lowest, a step for confirming the two-dimensional matching at the top-image pyramid level and narrowing (refining), when performing the tracking, the hierarchical tree select Mochiiruko view to the two-dimensional matching the structure, a step of two-dimensional model matching the 2D models of the next lower image Vila mid-level child view,
    (f)前記二次元マッチングの位置姿勢および前記各三次元ビューの位置姿勢から、初期三次元オブジェクトの位置姿勢を測定するステップと、 (F) from the position and orientation and the position and orientation of the three-dimensional view of the two-dimensional matching and measuring the position and orientation of the initial three-dimensional object,
    (g)前記初期三次元オブジェクトの位置姿勢を絞り込むステップとを実行する方法。 (G) how to perform the steps to refine the position and orientation of the initial three-dimensional object.
  30. 前記ステップ(e)が、 Wherein step (e) is,
    (e1)前記マッチ候補の位置に応じて子ビューの二次元モデルを投影変換するステップと、 And projecting converting a two-dimensional model of the child views in accordance with (e1) position of the match candidate,
    (e2)前記画像ピラミッドの各レベルの画像に対して、限定されたパラメータ範囲で子ビューの変換された二次元モデルをマッチさせるステップと、を含む、請求項29に記載の方法。 (E2) the relative levels of the image of the image pyramid includes the step of matching the transformed 2D models of the child views in a limited parameter range, the method according to claim 29.
  31. 前記ステップ(d)または(e2)のそれぞれにおける前記マッチングは、一般化ハフ変換、ハウスドルフ距離、またはエッジ勾配方向のドット積に基づく、請求項29または30に記載の方法。 The matching, generalized Hough transform, based on the Hausdorff distance, or edge gradient direction of the dot product, A method according to claim 29 or 30 in each of the step (d) or (e2).
  32. 前記ステップ(d)またはステップ(e2)におけるマッチングはそれぞれ、勾配の局所的な極性を無視したエッジ勾配方向のドット積に基づく、請求項29または30に記載の方法。 Wherein each of the matching step (d) or step (e2), based on local polarity edge gradient direction of the dot product ignoring the gradient method according to claim 29 or 30.
  33. 前記ステップ(d)において、マッチングが行われる各ピラミッドレベルは、マッチングを適用する前に投影歪みを低減するために前記三次元モデルに保存された球マッピングを使用してマップされ、前記ステップ(d)において、前記球マッピングされた二次元モデルは前記原二次元モデルの代わりにマッチングに使用される、請求項29に記載の方法。 In step (d), each pyramid level matching is performed is mapped by using the spherical mapping that is stored in the three-dimensional model in order to reduce the projection distortions before applying the matching step (d in), the sphere mapped 2D models are used for matching instead of the original 2D models the method of claim 29.
  34. 前記ステップ(d)または(e2)のそれぞれにおいて、マッチングが行われる各ピラミッドレベルは、マッチングが適用される前にレンズ歪みを除去するために前記三次元モデルに保存されたマッピングを使用してマップされる、請求項29または30に記載の方法。 Map in each of the step (d) or (e2), each pyramid level matching is performed, using the mapping that is stored in the three-dimensional model in order to remove the lens distortion before the matching is applied It is the method of claim 29 or 30.
  35. 前記ステップ(g)における前記初期三次元オブジェクト位置姿勢の絞込みは、サブピクセルレベルで正確な画像エッジポイントと対応する投影された三次元オブジェクトエッジとの間の距離を最小にすることによって行われる、請求項29に記載の方法。 Wherein step (g) the refinement of the initial three-dimensional object position and orientation in is carried out by the distance between the projected three-dimensional object edges and corresponding precise image edge point in the sub-pixel level to a minimum, the method of claim 29.
  36. (g1)前記初期三次元オブジェクト位置姿勢を使用することによって前記三次元モデルエッジを前記サーチ画像投影し、その際に陰線アルゴリズムを使用して隠れたオブジェクトエッジを削除し、かつ、2つの隣接した面の間の角度が所定の最小角度を下回るような前記オブジェクトのエッジを削除する、ステップと、 (G1) the three-dimensional model edge and the search image projection by using said initial three-dimensional object position and orientation, deletes the object edges hidden using hidden-line algorithm in time, and, of two adjacent and the angle between the surface to remove the edge of the object, such as below a predetermined minimum angle, the steps,
    (g2)ピクセルグリッドに応じて、前記投影されたエッジをサンプリングして離間したポイントにするステップと、 (G2) in response to the pixel grid, comprising the steps of: a point spaced by sampling the projected edge,
    (g3)前記サンプリングされたエッジポイント各々について、その近傍でそれに対応する、サブピクセルレベルで正確な画像エッジポイントを探索するステップと、 (G3) for the edge points each of which is the sampled, the steps of the corresponding near, to explore the precise image edge point in the sub-pixel level,
    (g4)反復的な非線形の最適化アルゴリズムを使用して、前記対応ポイント間の距離の二乗の総和を最小化することにより、絞り込まれた三次元オブジェクト位置姿勢の6つのパラメータを決定するステップとを含む、請求項35に記載の方法。 (G4) using an optimization algorithm of iterative nonlinear, by minimizing the sum of the squares of the distances between the corresponding points, and determining the six parameters of the refined three-dimensional object position and orientation including method of claim 35.
  37. 前記ステップ(g3)において、対応するサブピクセルレベルで正確な画像エッジポイントの探索の方向が、投影されたモデルエッジに垂直な方向に制限される、請求項36に記載の方法。 In step (g3), the direction of the search for accurate image edge points in the corresponding sub-pixel level is limited to a direction perpendicular to the projected model edge The method of claim 36.
  38. 前記ステップ(g3)において、閾値未満の角差との対応のみが有効な対応として承認され、前記角差は前記投影モデルエッジに対する垂線と前記画像勾配との間で算出される、請求項36に記載の方法。 In step (g3), only the correspondence between the angle difference below a threshold are accepted as valid corresponding, the angle difference is calculated between the image gradient and the normal to the projection model edge, to claim 36 the method described.
  39. 前記ステップ(g4)において、最適化中に角差に応じて前記距離の二乗が重み付けされ、前記角差は前記投影モデルエッジに対する垂線と前記画像勾配との間で算出される、請求項36に記載の方法。 In step (g4), the square of the distance according to the angle difference is weighted in the optimization, the angle difference is calculated between the image gradient and the normal to the projection model edge, to claim 36 the method described.
  40. 前記ステップ(g1)〜(g4)が反復され、前記反復は、前記絞り込まれた三次元オブジェクト位置姿勢が前記反復の最後2回分の間で大きく変化しなくなるまで行われる、請求項36に記載の方法。 Said step (g1) ~ (g4) are repeated, the repetition, the narrowed-down three-dimensional object position and orientation is carried out until no change significantly between the last two times the iteration of claim 36 Method.
  41. 前記ステップ(g1)〜(g4)が、所定の回数分反復される、請求項36に記載の方法。 It said step (g1) ~ (g4) is predetermined number of times repeated, The method of claim 36.
  42. 前記ステップ(g1)において、陰線アルゴリズムは反復の1回目のみに適用され、その後の反復では、前記反復の1回目に可視であった三次元モデルエッジの部分のみが、前記陰線アルゴリズムを再度行うことなく投影される、請求項40または41に記載の方法。 In step (g1), hidden-line algorithm is only applied to the first iteration, subsequent iterations, the only part of the three-dimensional model edge which was visible in the first iteration is possible to perform the hidden-line algorithm again without being projected method of claim 40 or 41.
  43. 前記勾配に最大値フィルタを適用することによって前記マッチングを行う前に前記画像における勾配方向を拡大し、各フィルタ位置において前記フィルタの中心の勾配ベクトルを前記フィルタ内の最大振幅を有する勾配ベクトルと置き換える、請求項31または32に記載の方法。 Expanding the gradient direction in the image before performing the matching by applying a maximum filter to the gradients and replaced with the gradient vector with a maximum amplitude of said filter to the gradient vector of the center of the filter at each filter position the method of claim 31 or 32.
  44. コンピュータを用いて、テキスチャ情報で三次元モデルを補強する方法であって、 前記コンピュータが、 Using a computer, a method of reinforcing three-dimensional models in texture information, the computer,
    (a)三次元オブジェクトのいくつかの画像例を提供するステップと、 (A) providing some example images of the three-dimensional object,
    (b)請求項31に記載のステップを使用して、前記画像例の各々において前記三次元オブジェクトの三次元位置姿勢を測定するステップと、 A step (b) using the steps of claim 31 to measure the three-dimensional position and orientation of the three-dimensional object in each of the example images,
    (c)前記画像例の各々について、前記ステップ(b)で測定された三次元位置姿勢を使用して、前記三次元モデルの各面を前記画像例に投影するステップと、 (C) for each of the example images, comprising the steps of using a three-dimensional position and orientation of the measured in step (b), projecting each face of the three-dimensional model to the image example,
    (d)前記オブジェクト面の各々について、前記面の三次元位置姿勢を使用して前記投影された面が覆っている前記画像例の部分を修正するステップと、 (D) for each of the object plane, and correcting the portion of the image example of the projected surface using three-dimensional position and orientation of the surface is covered,
    (e)前記テキスチャされ修正されたオブジェクト面から得られたテキスチャ情報で前記二次元モデルを補強し、幾何学的情報とテキスチャ情報とを含む二次元モデルとするステップとを実行する方法。 (E) the texture is to reinforce the two-dimensional model with texture information obtained from the modified object plane, a method for executing the steps of the two-dimensional model that includes geometric information and texture information.
  45. 前記ステップ(e)の代わりに、下記のステップを行う、請求項44に記載の方法。 Instead of the step (e), performing the following steps: The method of claim 44.
    (e)前記テキスチャされ修正されたオブジェクト面から得られたテキスチャ情報のみを使用して前記二次元モデルを再生成し、前記幾何学情報を削除するステップ。 (E) using only the texture information obtained from the texture is modified object surface to regenerate the two-dimensional model, deleting the geometric information step.
JP2008040298A 2007-10-11 2008-02-21 System and method for three-dimensional object recognition Active JP4785880B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP07118329A EP2048599B1 (en) 2007-10-11 2007-10-11 System and method for 3D object recognition
EP07118329.7 2007-10-11

Publications (2)

Publication Number Publication Date
JP2009093611A JP2009093611A (en) 2009-04-30
JP4785880B2 true JP4785880B2 (en) 2011-10-05

Family

ID=38779887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008040298A Active JP4785880B2 (en) 2007-10-11 2008-02-21 System and method for three-dimensional object recognition

Country Status (6)

Country Link
US (1) US8379014B2 (en)
EP (1) EP2048599B1 (en)
JP (1) JP4785880B2 (en)
CN (1) CN101408931B (en)
AT (1) AT452379T (en)
DE (1) DE602007003849D1 (en)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7016539B1 (en) 1998-07-13 2006-03-21 Cognex Corporation Method for fast, robust, multi-dimensional pattern recognition
US8081820B2 (en) 2003-07-22 2011-12-20 Cognex Technology And Investment Corporation Method for partitioning a pattern into optimized sub-patterns
US10127130B2 (en) 2005-03-18 2018-11-13 Salesforce.Com Identifying contributors that explain differences between a data set and a subset of the data set
US8649565B1 (en) * 2009-06-18 2014-02-11 Hrl Laboratories, Llc System for automatic object localization based on visual simultaneous localization and mapping (SLAM) and cognitive swarm recognition
EP2028623B1 (en) * 2007-08-24 2011-10-19 Dassault Systèmes Method of computer-aided design of edges connecting faces of a modeled object
US8737721B2 (en) 2008-05-07 2014-05-27 Microsoft Corporation Procedural authoring
US8525871B2 (en) * 2008-08-08 2013-09-03 Adobe Systems Incorporated Content-aware wide-angle images
US8229928B2 (en) * 2009-02-27 2012-07-24 Empire Technology Development Llc 3D object descriptors
JP4649559B2 (en) * 2009-03-05 2011-03-09 株式会社三次元メディア Three-dimensional object recognition apparatus, as well as three-dimensional object recognition program and this is recorded a computer-readable recording medium
EP2249286A1 (en) * 2009-05-08 2010-11-10 Honda Research Institute Europe GmbH Robot with vision-based 3D shape recognition
TWI389558B (en) * 2009-05-14 2013-03-11 Univ Nat Central
US8442305B2 (en) * 2009-06-30 2013-05-14 Mitsubishi Electric Research Laboratories, Inc. Method for determining 3D poses using points and lines
JP5352738B2 (en) * 2009-07-01 2013-11-27 本田技研工業株式会社 Object recognition using a three-dimensional model
DE102009048066A1 (en) * 2009-10-01 2011-04-07 Conti Temic Microelectronic Gmbh A method for traffic sign recognition
JP4677536B1 (en) * 2009-11-20 2011-04-27 株式会社三次元メディア 3-dimensional object recognition apparatus and a three-dimensional object recognition method
CN101739666B (en) 2009-12-15 2011-12-21 西南交通大学 Sparse decomposition method for rapid one-dimensional fast Hartley transform and matching pursuit based images
CN102448681B (en) * 2009-12-28 2014-09-10 松下电器产业株式会社 Operating space presentation device, operating space presentation method, and program
US8306314B2 (en) * 2009-12-28 2012-11-06 Mitsubishi Electric Research Laboratories, Inc. Method and system for determining poses of objects
JP5618569B2 (en) * 2010-02-25 2014-11-05 キヤノン株式会社 Position and orientation estimation apparatus and method thereof
US8692867B2 (en) * 2010-03-05 2014-04-08 DigitalOptics Corporation Europe Limited Object detection and rendering for wide field of view (WFOV) image acquisition systems
JP5035372B2 (en) * 2010-03-17 2012-09-26 カシオ計算機株式会社 Three-dimensional modeling apparatus, three-dimensional modeling method, and program
JP5024410B2 (en) * 2010-03-29 2012-09-12 カシオ計算機株式会社 Three-dimensional modeling apparatus, three-dimensional modeling method, and program
JP4858626B2 (en) * 2010-04-16 2012-01-18 カシオ計算機株式会社 Information display device and program
EP2385483B1 (en) 2010-05-07 2012-11-21 MVTec Software GmbH Recognition and pose determination of 3D objects in 3D scenes using geometric point pair descriptors and the generalized Hough Transform
JP4940461B2 (en) * 2010-07-27 2012-05-30 株式会社三次元メディア 3-dimensional object recognition apparatus and a three-dimensional object recognition method
US8873801B2 (en) * 2010-08-03 2014-10-28 Empire Technology Development Llc Identification of objects in a video
US9013550B2 (en) * 2010-09-09 2015-04-21 Qualcomm Incorporated Online reference generation and tracking for multi-user augmented reality
KR101743926B1 (en) * 2010-09-20 2017-06-08 삼성전자주식회사 Robot and control method thereof
CN102445147A (en) * 2010-10-06 2012-05-09 鸿富锦精密工业(深圳)有限公司 Measuring head simulation system and method of image measurement machine
US9124873B2 (en) 2010-12-08 2015-09-01 Cognex Corporation System and method for finding correspondence between cameras in a three-dimensional vision system
US8600192B2 (en) * 2010-12-08 2013-12-03 Cognex Corporation System and method for finding correspondence between cameras in a three-dimensional vision system
JP5924862B2 (en) * 2010-12-15 2016-05-25 キヤノン株式会社 The information processing apparatus, information processing method, and program
CN102141398B (en) * 2010-12-28 2013-01-30 北京航空航天大学 Monocular vision-based method for measuring positions and postures of multiple robots
CN102609550B (en) * 2011-01-19 2015-11-25 鸿富锦精密工业(深圳)有限公司 Three-dimensional product model automatically straighten system and method
US8723959B2 (en) 2011-03-31 2014-05-13 DigitalOptics Corporation Europe Limited Face and other object tracking in off-center peripheral regions for nonlinear lens geometries
US8917322B2 (en) * 2011-04-01 2014-12-23 Lockheed Martin Corporation Method and apparatus for digital video latency reduction by real-time warping
EP2523132A1 (en) * 2011-05-11 2012-11-14 Dassault Systèmes Designing a three-dimensional modeled assembly of objects in a three-dimensional scene
JP5791976B2 (en) 2011-06-16 2015-10-07 オリンパス株式会社 Image processing apparatus, image processing method, and program
US9188973B2 (en) 2011-07-08 2015-11-17 Restoration Robotics, Inc. Calibration and transformation of a camera system's coordinate system
DE102011109387A1 (en) 2011-08-04 2013-02-07 Conti Temic Microelectronic Gmbh Method for detecting traffic signs
CN103875250A (en) * 2011-08-12 2014-06-18 瑞典爱立信有限公司 Signaling of camera and/or depth parameters
US8493459B2 (en) 2011-09-15 2013-07-23 DigitalOptics Corporation Europe Limited Registration of distorted images
US9129226B2 (en) * 2011-12-04 2015-09-08 Beyondcore, Inc. Analyzing data sets with the help of inexpert humans to find patterns
US8908913B2 (en) * 2011-12-19 2014-12-09 Mitsubishi Electric Research Laboratories, Inc. Voting-based pose estimation for 3D sensors
JP5899951B2 (en) * 2012-01-18 2016-04-06 セイコーエプソン株式会社 Robotic device and the position and orientation detection method
US8630458B2 (en) * 2012-03-21 2014-01-14 Google Inc. Using camera input to determine axis of rotation and navigation
US8497859B1 (en) * 2012-04-03 2013-07-30 Google Inc. Display of information on or within a three-dimensional image
US8928730B2 (en) 2012-07-03 2015-01-06 DigitalOptics Corporation Europe Limited Method and system for correcting a distorted input image
US8983201B2 (en) 2012-07-30 2015-03-17 Microsoft Technology Licensing, Llc Three-dimensional visual phrases for object recognition
US9372871B2 (en) * 2012-08-24 2016-06-21 Google Inc. Combining unstructured image and 3D search results for interactive search and exploration
US9129429B2 (en) 2012-10-24 2015-09-08 Exelis, Inc. Augmented reality on wireless mobile devices
US10262460B2 (en) * 2012-11-30 2019-04-16 Honeywell International Inc. Three dimensional panorama image generation systems and methods
US9233470B1 (en) 2013-03-15 2016-01-12 Industrial Perception, Inc. Determining a virtual representation of an environment by projecting texture patterns
RU2530220C1 (en) * 2013-03-18 2014-10-10 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." System and method for automatic detection of anatomical points in three-dimensional medical images
WO2014169238A1 (en) 2013-04-11 2014-10-16 Digimarc Corporation Methods for object recognition and related arrangements
CN104125390B (en) * 2013-04-28 2018-03-23 浙江大华技术股份有限公司 A positioning method dome and means for
US9679224B2 (en) 2013-06-28 2017-06-13 Cognex Corporation Semi-supervised method for training multiple pattern recognition and registration tool models
JP6113018B2 (en) * 2013-08-01 2017-04-12 セコム株式会社 Object detection apparatus
DE102013219909A1 (en) 2013-10-01 2015-04-02 Conti Temic Microelectronic Gmbh Method and apparatus for recognition of road signs
CN104574497B (en) * 2013-10-24 2017-04-05 万里科技股份有限公司 A coupled a captured image file 2d 3d grid and a method
KR101364375B1 (en) 2013-10-25 2014-02-18 중앙대학교 산학협력단 System and method for extracting a specific object from 3d data
US9747680B2 (en) 2013-11-27 2017-08-29 Industrial Technology Research Institute Inspection apparatus, method, and computer program product for machine vision inspection
US9915857B2 (en) * 2013-12-09 2018-03-13 Geo Semiconductor Inc. System and method for automated test-pattern-free projection calibration
CN103644894B (en) * 2013-12-10 2016-03-09 大连交通大学 A complex method of three-dimensional curved surface and the target recognition pose measurement
EP3080782A4 (en) * 2013-12-15 2017-10-18 Socovar Societe En Commandite Method and system for comparing 3d models
JP6380828B2 (en) * 2014-03-07 2018-08-29 セイコーエプソン株式会社 Robot, robotic system, controller, and control method
EP2916290A1 (en) * 2014-03-07 2015-09-09 Thomson Licensing Method and apparatus for disparity estimation
DE102014005181A1 (en) * 2014-04-03 2015-10-08 Astrium Gmbh Position and orientation of objects
CN104075694B (en) * 2014-07-02 2016-09-07 武汉华中天勤防务技术有限公司 A high-speed real-time attitude measurement method
US9715724B2 (en) * 2014-07-29 2017-07-25 Applied Materials Israel Ltd. Registration of CAD data with SEM images
US9327406B1 (en) 2014-08-19 2016-05-03 Google Inc. Object segmentation based on detected object-specific visual cues
US9491452B2 (en) * 2014-09-05 2016-11-08 Intel Corporation Camera calibration
US9710706B2 (en) * 2014-09-23 2017-07-18 GM Global Technology Operations LLC Method for classifying a known object in a field of view of a camera
US20190101383A1 (en) * 2014-12-22 2019-04-04 Bombardier Inc. Reference system for online vision inspection
TWI577493B (en) 2014-12-26 2017-04-11 Ind Tech Res Inst Calibration method and automatic apparatus using the same
US10134177B2 (en) * 2015-01-15 2018-11-20 Samsung Electronics Co., Ltd. Method and apparatus for adjusting face pose
CN104680966B (en) * 2015-03-19 2017-11-14 京东方科技集团股份有限公司 A driving method of a display apparatus and a driving means
US9542732B2 (en) * 2015-04-03 2017-01-10 Cognex Corporation Efficient image transformation
US10275863B2 (en) 2015-04-03 2019-04-30 Cognex Corporation Homography rectification
US9878447B2 (en) 2015-04-10 2018-01-30 Microsoft Technology Licensing, Llc Automated collection and labeling of object data
CN104992432B (en) * 2015-06-19 2017-10-20 北京邮电大学 Multimodality Image Registration
US9818043B2 (en) 2015-06-24 2017-11-14 Microsoft Technology Licensing, Llc Real-time, model-based object detection and pose estimation
TWI558208B (en) * 2015-07-14 2016-11-11 Prolific Technology Inc Image processing method, apparatus and system
US9836673B2 (en) * 2015-12-30 2017-12-05 International Business Machines Corporation System, method and computer program product for training a three dimensional object indentification system and identifying three dimensional objects using semantic segments
US9868212B1 (en) * 2016-02-18 2018-01-16 X Development Llc Methods and apparatus for determining the pose of an object based on point cloud data
US9892543B2 (en) * 2016-02-26 2018-02-13 Carnegie Mellon University Systems and methods for estimating pose of textureless objects
JP2017182274A (en) * 2016-03-29 2017-10-05 セイコーエプソン株式会社 Information processing device and computer program
CN109891427A (en) * 2016-05-24 2019-06-14 艾迪密身份与安全美国有限责任公司 Shape detection
US9875398B1 (en) 2016-06-30 2018-01-23 The United States Of America As Represented By The Secretary Of The Army System and method for face recognition with two-dimensional sensing modality
EP3404583A1 (en) 2017-05-19 2018-11-21 MVTec Software GmbH System and method for model adaptation
CN107300100B (en) * 2017-05-22 2019-05-14 浙江大学 A kind of tandem type mechanical arm vision guide approach method of Online CA D model-driven
JP2019003407A (en) 2017-06-15 2019-01-10 オムロン株式会社 Template creation device, object recognition processing device, template creation method, and program
DE102018200750A1 (en) 2018-01-18 2019-07-18 Elektrobit Automotive Gmbh Two-dimensional lattice structure representation of a three-dimensional environment
US10311833B1 (en) 2018-03-27 2019-06-04 Seiko Epson Corporation Head-mounted display device and method of operating a display apparatus tracking an object

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5581672A (en) * 1991-12-19 1996-12-03 Aerohydro, Inc. System of relational entities for object-oriented computer-aided geometric design
EP0686932A3 (en) * 1994-03-17 1997-06-25 Texas Instruments Inc A computer vision system to detect 3-D rectangular objects
US6526156B1 (en) 1997-01-10 2003-02-25 Xerox Corporation Apparatus and method for identifying and tracking objects with view-based representations
JP4341135B2 (en) * 2000-03-10 2009-10-07 コニカミノルタホールディングス株式会社 Object recognition device
US6956569B1 (en) * 2000-03-30 2005-10-18 Nec Corporation Method for matching a two dimensional image to one of a plurality of three dimensional candidate models contained in a database
US6580821B1 (en) * 2000-03-30 2003-06-17 Nec Corporation Method for computing the location and orientation of an object in three dimensional space
DE60019119T8 (en) 2000-09-27 2006-10-12 Mvtec Software Gmbh System and method for object recognition
JP3776340B2 (en) * 2000-09-27 2006-05-17 エムヴイテック・ソフトウェア・ゲーエムベーハー Object recognition system and method
JP3801870B2 (en) 2001-02-16 2006-07-26 株式会社モノリス Multivariate spatial processing equipment
CA2354301A1 (en) * 2001-07-27 2003-01-27 Djamel Yahia Meddah Geometric hashing for model-based recognition of an object
US7221809B2 (en) * 2001-12-17 2007-05-22 Genex Technologies, Inc. Face recognition system and method
CA2369845A1 (en) * 2002-01-31 2003-07-31 Braintech, Inc. Method and apparatus for single camera 3d vision guided robotics
AT528724T (en) * 2002-08-30 2011-10-15 Mvtec Software Gmbh based on hierarchical structured recognition of objects
JP2006520055A (en) * 2003-03-06 2006-08-31 アニメトリックス,インク. Invariant viewpoint detection and identification of three-dimensional objects from two-dimensional image
CA2535828C (en) 2003-08-15 2011-02-08 Scape A/S Computer-vision system for classification and spatial localization of bounded 3d-objects
DE102004005380A1 (en) 2004-02-03 2005-09-01 Isra Vision Systems Ag A method for determining the position of an object in space
CN1271863C (en) 2004-04-01 2006-08-23 复旦大学 Organization method of 3-D virtual SPIHT tree having time limited
US7145562B2 (en) 2004-05-03 2006-12-05 Microsoft Corporation Integration of three dimensional scene hierarchy into two dimensional compositing system
EP1766552A2 (en) * 2004-06-23 2007-03-28 Strider Labs, Inc. System and method for 3d object recognition using range and intensity
US20060132488A1 (en) * 2004-12-17 2006-06-22 Electronics And Telecommunications Research Institute Apparatus and method for representing multi-level LOD three-dimensional image
EP1693782B1 (en) 2005-02-21 2009-02-11 Mitsubishi Electric Information Technology Centre Europe B.V. Method for facial features detection
JP4491687B2 (en) 2005-04-21 2010-06-30 パルステック工業株式会社 Correction method of coordinate conversion function

Also Published As

Publication number Publication date
CN101408931A (en) 2009-04-15
AT452379T (en) 2010-01-15
US20090096790A1 (en) 2009-04-16
CN101408931B (en) 2013-02-20
DE602007003849D1 (en) 2010-01-28
US8379014B2 (en) 2013-02-19
EP2048599B1 (en) 2009-12-16
EP2048599A1 (en) 2009-04-15
JP2009093611A (en) 2009-04-30

Similar Documents

Publication Publication Date Title
Johnson et al. Registration and integration of textured 3D data
Bronstein et al. Three-dimensional face recognition
Johnson et al. Surface matching for object recognition in complex three-dimensional scenes
Ikeuchi et al. The great buddha project: Digitally archiving, restoring, and analyzing cultural heritage objects
Quan et al. Determining perspective structures using hierarchical Hough transform
US7583271B2 (en) Method and apparatus for data processing recognizing an object represented as two-dimensional image
Rabbani Automatic reconstruction of industrial installations using point clouds and images
Sun et al. Surface matching by 3D point's fingerprint
Alvarez et al. Dense disparity map estimation respecting image discontinuities: A PDE and scale-space based approach
US6476803B1 (en) Object modeling system and process employing noise elimination and robust surface extraction techniques
Passalis et al. Using facial symmetry to handle pose variations in real-world 3D face recognition
Rabbani et al. Efficient hough transform for automatic detection of cylinders in point clouds
Sharp et al. ICP registration using invariant features
US6434278B1 (en) Generating three-dimensional models of objects defined by two-dimensional image data
Pritchard et al. Cloth motion capture
Szeptycki et al. A coarse-to-fine curvature analysis-based rotation invariant 3D face landmarking
CN101533529B (en) Based on three-dimensional data processing method and apparatus for depth image
EP2678824B1 (en) Determining model parameters based on transforming a model of an object
EP2751777B1 (en) Method for estimating a camera motion and for determining a three-dimensional model of a real environment
Novatnack et al. Scale-dependent 3D geometric features
EP0526881B1 (en) Three-dimensional model processing method, and apparatus therefor
Salvi et al. A review of recent range image registration methods with accuracy evaluation
Hebert et al. A spherical representation for recognition of free-form surfaces
JP4865557B2 (en) Computer vision system for classification and spatial localization of bounded three-dimensional object
EP2680228B1 (en) Improvements in or relating to three dimensional close interactions.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110105

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110405

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110408

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110502

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110510

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110628

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110712

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140722

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250