JP2010243478A - Method and apparatus for estimating 3d pose of 3d object in environment - Google Patents

Method and apparatus for estimating 3d pose of 3d object in environment Download PDF

Info

Publication number
JP2010243478A
JP2010243478A JP2010034679A JP2010034679A JP2010243478A JP 2010243478 A JP2010243478 A JP 2010243478A JP 2010034679 A JP2010034679 A JP 2010034679A JP 2010034679 A JP2010034679 A JP 2010034679A JP 2010243478 A JP2010243478 A JP 2010243478A
Authority
JP
Japan
Prior art keywords
image
specular
pose
input image
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010034679A
Other languages
Japanese (ja)
Other versions
JP5441752B2 (en
Inventor
Ju Young Chang
ジュ・ヨン・チャン
Amit Kumar Agrawal
アミット・クマール・アグラワル
N Veeraraghavan Ashok
アショク・エヌ・ヴェーララグハヴァン
N Raskar Ramesh
ラメッシュ・エヌ・ラスカー
Jay E Thornton
ジェイ・イー・ソーントン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US12/509,860 external-priority patent/US8437537B2/en
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2010243478A publication Critical patent/JP2010243478A/en
Application granted granted Critical
Publication of JP5441752B2 publication Critical patent/JP5441752B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To estimate a pose of a specular reflection object even when there is a change in illumination. <P>SOLUTION: In a processing step of the estimate of a 3D pose of a 3D specular reflection object 101 in an environment, a set of pairs of 2D reference images are generated using a 3D model of the object 101 and a set of poses of the object, wherein each pair of reference images is associated with one of the poses. Then, a pair of 2D input images of the object are acquired. A rough 3D pose of the object is estimated by comparing features in the pair of 2D input images and the features in each pair of 2D reference images using a rough cost function. The rough cost estimate is optionally refined using a fine cost function. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、包括的には物体の3D姿勢を推定することに関し、より詳細には鏡面反射物体の3D姿勢を推定することに関する。   The present invention relates generally to estimating the 3D pose of an object, and more particularly to estimating the 3D pose of a specular object.

姿勢推定
3次元(3D)姿勢推定は、物体のロケーション及び角度配向を求める。一般的な姿勢推定方法は、2Dテクスチャ画像及び3D距離画像のような幾つかの手掛りに依存する。テクスチャ画像に基づく方法は、テクスチャが環境の変動に対し不変であると仮定する。しかしながら、この仮定は、照明変化又は陰影が存在する場合には真でない。通常、これらの方法のほとんどは鏡面反射性の物体を扱うことができない。
Pose Estimation Three dimensional (3D) pose estimation determines the location and angular orientation of an object. A typical pose estimation method relies on several cues such as 2D texture images and 3D range images. Texture image based methods assume that the texture is invariant to environmental variations. However, this assumption is not true when there are illumination changes or shadows. Usually, most of these methods cannot handle specular objects.

距離画像に基づく方法は、物体の外観とは無関係の3D情報を利用するため、これらの問題のうちの幾つかを克服することができる。しかしながら、距離取得機器は単純なカメラよりも高価である。   The range image based method utilizes 3D information that is independent of the appearance of the object and can overcome some of these problems. However, distance acquisition devices are more expensive than simple cameras.

鏡面反射物体
幾つかの物体に関して、3D形状を再構築するのは非常に困難である。たとえば、鏡状物体又は光沢金属性物体のような鏡面反射性の高い物体の3D形状を回復することは困難であり、信頼度が低いことが既知である。
Specular Object For some objects, it is very difficult to reconstruct the 3D shape. For example, it is difficult to recover the 3D shape of highly specular objects such as mirror objects or glossy metallic objects, and it is known that reliability is low.

反射による手掛りは、テクスチャ又は距離による手掛りよりも姿勢変化に対する感度が高い。したがって、反射による手掛りによって、姿勢パラメータを非常に正確に推定することが可能になる。しかしながら、反射による手掛りが、姿勢の精緻化のみでなく、全体的な姿勢推定、すなわち物体検出、物体分割、及び大まかな物体姿勢推定に適用可能であるか否かは定かでない。   A cue by reflection is more sensitive to posture changes than a cue by texture or distance. Therefore, it becomes possible to estimate the posture parameter very accurately by the clue by reflection. However, it is not certain whether or not the clue due to reflection is applicable not only to refinement of posture but also to overall posture estimation, that is, object detection, object division, and rough object posture estimation.

従来技術による方法は通常、外観に基づく。外観は、照明、陰影、及びスケールによる影響を受ける。したがって、これらの方法にとって、部分遮蔽、クラッタシーン、及び大きな姿勢変動のような関連する課題を克服することは困難である。これらの問題に対処するために、これらの方法は、点、線、及びシルエットのような照明に無関係の特徴、又は正規化相互相関(NCC)のような照度の影響を受けないコスト関数を使用する。しかしながら、これらの方法が成功するためには、物体が十分にテクスチャ化される必要がある。特に鏡面反射物体に関して、激しい照明変化は依然として問題である。   Prior art methods are usually based on appearance. Appearance is affected by lighting, shading, and scale. Therefore, it is difficult for these methods to overcome the related challenges such as partial occlusion, clutter scenes, and large posture variations. To address these issues, these methods use lighting-independent features such as points, lines, and silhouettes, or cost functions that are not affected by illuminance such as normalized cross-correlation (NCC) To do. However, for these methods to be successful, the object needs to be sufficiently textured. Severe illumination changes remain a problem, especially for specular objects.

様々な方法が、光源の歪んだ反射の識別及び追跡、並びに既知の特殊な特徴から、わずかな局所形状情報を導出する。光路三角測量の通常の枠組みを使用して密度測定値も得ることができる。しかしながら、これらの方法は通常、正確な較正を実施すると共に、物体の周囲の環境を制御する必要があり、場合によっては、多くの入力画像を必要とする。   Various methods derive slight local shape information from identifying and tracking distorted reflections of the light source and known special features. Density measurements can also be obtained using the usual framework of optical path triangulation. However, these methods typically require accurate calibration and control of the environment surrounding the object, and in some cases, require many input images.

鏡面反射物体の再構築のための幾つかの方法は、環境較正を必要としない。これらの方法は、画像平面上の鏡面反射フロー(specular flow)を引き起こす小さな環境の動きを想定する。これらの方法では、鏡面反射フローを利用して未知の複雑な照明における鏡面反射形状の推測を単純化する。しかしながら、一対の線形偏微分方程式を解かなくてはならず、通常これは、実世界の応用においては簡単に推定されない初期状態を必要とする。   Some methods for the reconstruction of specular objects do not require environmental calibration. These methods assume small environmental movements that cause specular flow on the image plane. These methods use specular flow to simplify speculation of specular reflection shapes in unknown complex illumination. However, a pair of linear partial differential equations must be solved, which usually requires an initial state that is not easily estimated in real-world applications.

鏡面反射に基づいて姿勢を推定する1つの方法は、短い画像シーケンス及び標準的なテンプレートマッチングプロシージャによって計算される初期姿勢推定値を使用する。拡散成分及び鏡面反射成分はフレーム毎に分離され、推定される鏡面反射画像から環境マップが導出される。次に、姿勢推定プロセスの正確度を高めるために環境マップ及び画像テクスチャが同時に位置合わせされる。   One method of estimating pose based on specular reflection uses a short image sequence and an initial pose estimate calculated by a standard template matching procedure. The diffuse component and the specular reflection component are separated for each frame, and an environment map is derived from the estimated specular reflection image. Next, the environment map and the image texture are simultaneously aligned to increase the accuracy of the pose estimation process.

本発明の実施の形態は、プロセッサ内で実施される、環境内の3D鏡面反射物体の3D姿勢を推定する方法及びシステムを提供する。推定の基礎となるのは、2Dカメラによって取得される鏡面反射物体の2D画像内の特徴をマッチングすることである。画像は従来のカメラ又は高ダイナミックレンジ(HDR)カメラによって取得することができる。HDRカメラによって、広範囲にわたるシーンの輝度を画像内で正確に取得することができる。   Embodiments of the present invention provide a method and system for estimating a 3D pose of a 3D specular object in an environment, implemented in a processor. The basis for the estimation is to match the features in the 2D image of the specular object acquired by the 2D camera. The image can be acquired by a conventional camera or a high dynamic range (HDR) camera. The HDR camera can accurately acquire a wide range of scene brightness within an image.

前処理ステップにおいて、物体の3Dモデル及び物体の可能性のある姿勢のセットから特徴が生成される。3Dモデルの各姿勢に関して、特徴は(a)単一のHDR画像、(b)2つの異なる露光設定を表す基準画像対、(c)HDR画像及び非線形強度応答を有するカメラにより取得された二値化処理された(thresholded)二値画像、又は(d)鏡面反射フロー画像とすることができる。   In a pre-processing step, features are generated from a set of 3D models of objects and possible poses of objects. For each pose of the 3D model, the features are: (a) a single HDR image, (b) a reference image pair representing two different exposure settings, (c) a binary image acquired by the HDR image and a camera with a nonlinear intensity response. Can be a thresholded binary image, or (d) a specular flow image.

画像対は単一のHDR画像から導出することができることに留意されたい。正確度を高めるために、画像を多数の異なる露光量に関して取得することができる。   Note that an image pair can be derived from a single HDR image. To increase accuracy, images can be acquired for a number of different exposures.

次に、物体の入力画像対が取得される。この対は、2つの画像を、一方を短時間露光で、他方を長時間露光で取得することによって得ることができるか、又は短時間露光及び長時間露光のシミュレートを通じて単一のHDRカメラ画像から得ることができる。入力特徴は入力画像から計算される。物体の初期3D姿勢は、第1のコスト関数を使用して、入力画像対内の特徴と基準画像対内の特徴と比較することによって推定される。   Next, an input image pair of the object is acquired. This pair can be obtained by acquiring two images, one with short exposure and the other with long exposure, or a single HDR camera image through simulating short exposure and long exposure. Can be obtained from Input features are calculated from the input image. The initial 3D pose of the object is estimated by comparing the features in the input image pair with the features in the reference image pair using a first cost function.

オプションで、第2のコスト関数を使用して物体の3D姿勢を精緻化することができる。データベースが可能性のある大部分の姿勢に関する多数の基準画像を格納している場合、初期姿勢推定は精密で正確なものとなることに留意されたい。たとえば、データベースが約1000個の姿勢を含む場合、推定値は概算となり、データベースが1000000個の姿勢を格納している場合、推定値はより精密である。   Optionally, a second cost function can be used to refine the 3D pose of the object. Note that if the database stores a large number of reference images for most possible poses, the initial pose estimate will be precise and accurate. For example, if the database contains about 1000 poses, the estimate is approximate, and if the database stores 1000000 poses, the estimate is more precise.

一実施の形態では、特徴は画像内の鏡面反射強度である。3つ(RGB)のチャネルが使用される場合、鏡面反射強度特徴は色を有する。これによって、特徴をより区別可能なものにすることができる。2D環境マップを構築するために、小さな鏡状球体が環境内に配置され、画像対が、たとえば一方が短時間露光で、他方が長時間露光で取得されるか、又はたとえば、短時間露光及び長時間露光のシミュレートを通じて双方が単一のHDRカメラ画像から得られる。球体は物体を有するか又は有しないシーン内に配置することができる。鏡面反射に基づく他の特徴は本発明の範囲内にある。   In one embodiment, the feature is the specular intensity in the image. If three (RGB) channels are used, the specular intensity feature has a color. This makes the features more distinguishable. To build a 2D environment map, small mirror spheres are placed in the environment and image pairs are acquired, for example, one with short exposure and the other with long exposure, or, for example, with short exposure and Both are derived from a single HDR camera image through a long exposure simulation. A sphere can be placed in a scene with or without objects. Other features based on specular reflection are within the scope of the present invention.

各鏡状球体画像を使用して2D環境マップが構築される。このマップを使用して基準画像対が生成される。その後、基準画像は入力画像対と比較されて、鏡面反射物体の3D姿勢が推定される。環境マップを前処理中に構築するか、又は変化する照度に適応させるために入力画像が取得される間に構築することができることに留意されたい。   Each mirror sphere image is used to build a 2D environment map. A reference image pair is generated using this map. Thereafter, the reference image is compared with the input image pair, and the 3D posture of the specular object is estimated. Note that the environment map can be built during preprocessing or while the input image is acquired to adapt to changing illumination.

別の実施の形態では、特徴は画像内の鏡面反射フローである。鏡面反射フローはオプティカルフローの特殊なケースである。環境又はカメラのいずれかにおいて動きを引き起こすことによって、3D姿勢のセットに関して鏡面反射フローが生成される。入力画像から入力鏡面反射フローも計算される。その後、基準鏡面反射フロー画像は入力鏡面反射フロー画像と比較され、鏡面反射物体の3D姿勢が推定される。上述したように、概算コスト関数及び精密なコスト関数を使用して、大まかな姿勢から精密な姿勢が推定される。   In another embodiment, the feature is a specular flow in the image. Specular flow is a special case of optical flow. By causing motion in either the environment or the camera, a specular flow is generated for the set of 3D poses. An input specular flow is also calculated from the input image. Thereafter, the reference specular reflection flow image is compared with the input specular reflection flow image, and the 3D posture of the specular reflection object is estimated. As described above, a precise posture is estimated from a rough posture using an approximate cost function and a precise cost function.

本発明は、鏡面反射を利用して、物体の3Dモデルを使用して3D物体の3D姿勢を全体的に推定する。本方法は、テクスチャがなく鏡面反射性の高い物体のような難解な物体に対処することができる。本方法は単純なマッチングコスト関数及び最適化手順を使用し、それによって本方法をグラフィックプロセッサユニット(GPU)上で実施して性能を改善することができる。   The present invention uses specular reflection to estimate the overall 3D pose of a 3D object using a 3D model of the object. The method can deal with difficult objects such as objects that have no texture and are highly specular. The method uses a simple matching cost function and optimization procedure, whereby the method can be implemented on a graphics processor unit (GPU) to improve performance.

本発明の実施の形態による鏡面反射強度情報を使用して鏡面反射物体の3D姿勢を推定する方法の流れ図である。4 is a flowchart of a method for estimating a 3D posture of a specular object using specular intensity information according to an embodiment of the present invention; 本発明の実施の形態による鏡面反射フロー情報を使用して鏡面反射物体の3D姿勢を推定する方法の流れ図である。6 is a flowchart of a method for estimating a 3D posture of a specular object using specular flow information according to an embodiment of the present invention; 本発明の実施の形態による入射光線を使用するステンシル選択の概略図である。FIG. 5 is a schematic diagram of stencil selection using incident light according to an embodiment of the present invention. 信頼度の高い画素及び信頼度の低い画素を有する基準画像の例である。It is an example of a reference image having pixels with high reliability and pixels with low reliability.

システム及び方法の概要
図1は、プロセッサ100において実施される、環境102内の物体101の3D姿勢を推定する方法の流れ図である。ここで、物体は鏡面反射表面を有する。この実施の形態において、特徴は鏡面反射強度である。3つ(RGB)のチャネルが使用される場合、組み合わされる鏡面反射強度は色を有する。環境の2次元(2D)画像はカメラ103によって取得される。一実施の形態では、カメラは高ダイナミックレンジ(HDR)を有する。代替的に、カメラは偏光を使用して鏡面反射成分を推定することができる。
System and Method Overview FIG. 1 is a flow diagram of a method for estimating a 3D pose of an object 101 in an environment 102, as implemented in a processor 100. Here, the object has a specular reflection surface. In this embodiment, the feature is specular reflection intensity. When three (RGB) channels are used, the combined specular intensity has a color. A two-dimensional (2D) image of the environment is acquired by the camera 103. In one embodiment, the camera has a high dynamic range (HDR). Alternatively, the camera can use polarized light to estimate the specular component.

3D姿勢は、カメラの座標系における3D並進ベクトル(X,Y,Z)及び配向に関する3Dオイラー角(μ,φ,σ)によって定義される。   The 3D pose is defined by the 3D translation vector (X, Y, Z) and the 3D Euler angles (μ, φ, σ) with respect to orientation in the camera coordinate system.

一用途において、ロボットアーム105を使用して容器(bin)106から物体を取り出すのに3D姿勢が使用される。たとえば、製造用途において、容器は複数の同一の物体を含み、それらの物体は自身の推定される姿勢に従って一度に1つずつ取り上げられ、操作される。この実施の形態では、カメラをロボットアーム上に取り付けることが有利であろう。   In one application, a 3D pose is used to remove an object from the bin 106 using the robot arm 105. For example, in manufacturing applications, a container includes a plurality of identical objects that are picked up and manipulated one at a time according to their estimated posture. In this embodiment, it may be advantageous to mount the camera on a robot arm.

物体は、光沢金属性物体のように、鏡状表面を有し、テクスチャがなく鏡面反射性が高い。したがって、本方法が利用可能なデータは、2D画像における物体に対する鏡面反射のみである。物体とカメラとの間の距離はZ≒Zである。この距離を使用して、投影の尺度を求めることができる。さらに、この距離は、レーザー投影、ステレオカメラ、又は任意の他の従来の方法を使用して推定することもできる。 The object has a mirror-like surface like a glossy metallic object, has no texture, and is highly specularly reflective. Thus, the only data that can be used with this method is specular reflection on objects in 2D images. The distance between the object and the camera is Z ≒ Z 0. This distance can be used to determine a measure of projection. Furthermore, this distance can also be estimated using laser projection, a stereo camera, or any other conventional method.

本方法は、2D画像における低レベルの特徴を使用して以下のように3D姿勢を推定する。本方法は、多数の可能性のある姿勢の変形122に関する予期される表面反射率の双方向反射分布関数(BRDF)を使用して、3Dモデル121から基準画像125を生成する。ステップ110及び120は1回の前処理ステップとすることができる。物体のBRDFが既知である場合、BRDFを使用して画像を生成することができる。   The method uses the low level features in the 2D image to estimate the 3D pose as follows. The method generates a reference image 125 from the 3D model 121 using a bi-directional reflection distribution function (BRDF) of expected surface reflectance for a number of possible posture deformations 122. Steps 110 and 120 can be a single preprocessing step. If the BRDF of the object is known, the image can be generated using the BRDF.

2D入力画像131はカメラシステムによって取得され、次に基準画像と比較されて、鏡面反射物体の最も適合する3D姿勢151が求められる。このモデルは、CAD/CAMモデル、多角形モデル、又は任意の他の適切なモデルとすることができる。   The 2D input image 131 is acquired by the camera system and then compared with the reference image to determine the best matching 3D pose 151 of the specular object. This model can be a CAD / CAM model, a polygonal model, or any other suitable model.

鏡面反射強度特徴
一実施の形態では、物体を有するか又は有しない環境102内に小さな鏡状球体が配置される。次に、取得されるこの鏡状球体の2D画像を使用して、照度情報を表す環境マップ111を生成することができる。
Specular Intensity Features In one embodiment, a small mirror sphere is placed in the environment 102 with or without an object. Next, the acquired 2D image of the mirror sphere can be used to generate an environment map 111 representing illuminance information.

別の実施の形態では、環境のモザイク(又は全景)を作成するために、環境のカメラ画像のセットが登録される。この環境のモザイク又は全景を使用して、環境照度情報を表す環境マップ111を作成することができる。   In another embodiment, a set of environmental camera images is registered to create a mosaic (or full view) of the environment. The environment map 111 representing the environment illuminance information can be created using the mosaic or the entire view of the environment.

この照度情報を使用して、入力画像との比較に使用される基準鏡面反射画像125を生成することができる(120)。   This illuminance information can be used to generate a reference specular image 125 that is used for comparison with the input image (120).

環境照度は複数の光源、たとえば天井灯、窓、又は容器上のライトの照明を有することができる。さらに、ライトは様々な色、たとえば赤、緑、及び青を有することができる。この場合、コスト関数はライトの色毎に独立して計算される。次に、Rコスト関数、Gコスト関数、及びBコスト関数の合計を最小にするように姿勢が得られる。   The ambient illuminance can include illumination of multiple light sources, such as ceiling lights, windows, or lights on the container. In addition, the lights can have various colors, such as red, green, and blue. In this case, the cost function is calculated independently for each light color. Next, an attitude is obtained so as to minimize the sum of the R cost function, the G cost function, and the B cost function.

光源を使用して、たとえば1つ又は複数の投影機から天井においてパターンを投影することによって、環境照度を能動的に強化すると共に操作することもできる。   The ambient light can also be actively enhanced and manipulated using a light source, for example by projecting a pattern on the ceiling from one or more projectors.

鏡面反射フロー特徴
別の実施の形態では、本方法は特徴として鏡面反射フローを使用する。鏡面反射フローは、物体、カメラ、又は環境の動きによって引き起こされるオプティカルフローとして定義される。鏡面反射フローは照明状態を変化させることにではなく、物体の動き、形状、及び姿勢を変化させることに依存する。したがって、鏡面反射フローを、姿勢推定のための、照度に無関係の特徴として使用することができる。
Specular Flow Features In another embodiment, the method uses specular flow as a feature. Specular flow is defined as the optical flow caused by the movement of an object, camera, or environment. The specular flow does not depend on changing the illumination state, but on changing the movement, shape, and posture of the object. Therefore, the specular reflection flow can be used as a feature independent of illuminance for posture estimation.

環境マップに基づく手法
図1に示すように、物体の3D姿勢を推定する前に、球体の鏡状物体の画像を処理することによって、環境102の一対の環境マップEL及びES111を取得する(110)。これらのマップはそれぞれ、たとえば約1/4秒及び1/60秒の長時間露光及び短時間露光を有する。同じ長時間露光及び短時間露光において、入力画像IL及びIS131を取得する(130)。代替的に、EL画像及びES画像、並びにIL画像及びIS画像は、長時間露光及び短時間露光を介した処理シミュレーションによって続かれるHDRカメラ103を使用して取得された単一の画像から得ることができる。
Method Based on Environment Map As shown in FIG. 1, before estimating the 3D pose of an object, a pair of environment maps EL and ES 111 of the environment 102 are acquired by processing an image of a spherical mirror-like object (110 ). Each of these maps has a long exposure and a short exposure of, for example, about 1/4 second and 1/60 second. In the same long exposure and short exposure, input images IL and IS 131 are acquired (130). Alternatively, EL and ES images, and IL and IS images are obtained from a single image acquired using the HDR camera 103 followed by processing simulation via long exposure and short exposure. Can do.

初期姿勢推定
基準鏡面反射画像の生成
物体の3Dモデル121及び一対の環境マップEL及びES111から、物体の可能性のある姿勢に対応する多数の所定の姿勢122に関して基準画像125が生成される。
Generation of Initial Posture Estimation Reference Specular Reflection Image A reference image 125 is generated for a number of predetermined postures 122 corresponding to possible postures of the object from the 3D model 121 of the object and a pair of environment maps EL and ES111.

この目的のためにオイラー角を均一に且つ高密度でサンプリングして、多数の、たとえば25000個の姿勢を定義する。基準画像は、ロケーション(0,0,Z)における様々なオイラー角(μ,φ,σ)に関するRL及びRSである。相互反射及び自己遮蔽を無視することによって、反射マッピングを適用することによってEL及びESから完全鏡面反射画像を生成することができる。これはテクスチャマッピングの特殊なケースである。 For this purpose, the Euler angles are sampled uniformly and densely to define a large number of, for example, 25,000 poses. The reference images are RL and RS for various Euler angles (μ, φ, σ) at location (0, 0, Z 0 ). By ignoring interreflection and self-occlusion, full specular images can be generated from EL and ES by applying reflection mapping. This is a special case of texture mapping.

基準画像は、姿勢の非均一サンプリングによって生成することもできる。これは所与の物体の姿勢分布に依存することもできる。   The reference image can also be generated by non-uniform sampling of posture. This can also depend on the attitude distribution of a given object.

基準鏡面反射画像125は、3Dロケーション及びカメラに対する物体の配向に依存する。しかしながら、カメラは小さい視野104を有し、物体の奥行きは既知である。したがって、異なる複数の3Dロケーションから生成される基準鏡面反射画像間の差異は無視することができる。これは初期姿勢推定140には十分である。入力画像を、より高い正確度のために複数のビューから得ることもできることに留意されたい。   The reference specular image 125 depends on the 3D location and the orientation of the object relative to the camera. However, the camera has a small field of view 104 and the depth of the object is known. Therefore, the difference between the reference specular images generated from different 3D locations can be ignored. This is sufficient for the initial posture estimation 140. Note that the input images can also be obtained from multiple views for higher accuracy.

入力画像131を、基準鏡面反射画像125と比較し、以下を解くことによって3D姿勢141を推定する(140)。   The input image 131 is compared with the reference specular image 125 and the 3D posture 141 is estimated by solving the following (140).

Figure 2010243478
Figure 2010243478

ただし、 However,

Figure 2010243478
Figure 2010243478

は初期姿勢141を表し、C()は比較のための概算コスト関数139であり、引数minは最小値を生み出す引数を返す関数であり、内側の最小値は外側の最小値の前に求められる。所定の基準姿勢がより精密に、たとえば1000000個の姿勢にサンプリングされる場合、初期姿勢推定値は概算であるとみなされる必要はなく、精緻化される必要がない。 Represents an initial posture 141, C R () is an approximate cost function 139 for comparison, an argument min is a function that returns an argument that generates a minimum value, and an inner minimum value is obtained before an outer minimum value. It is done. If the predetermined reference pose is sampled more precisely, eg, 1000000 poses, the initial pose estimate need not be considered approximate and need not be refined.

コスト関数139は、以下である。   The cost function 139 is as follows.

Figure 2010243478
Figure 2010243478

ただし、λは制御パラメータであり、C()及びC()はそれぞれ、長時間露光画像及び短時間露光画像に関するコスト関数である。これらの項を得るために、3D並進ベクトル(X,Y,Z)が2D画像平面上に投影され、基準画像が投影点(x,y)に動かされる。次に、並進基準画像の各対が、対応する入力画像対と比較される。 However, lambda is a control parameter, C 1 () and C 2 (), respectively, the cost functions for the long-time exposure image and the short-time exposure image. To obtain these terms, the 3D translation vector (X, Y, Z 0 ) is projected onto the 2D image plane and the reference image is moved to the projection point (x, y). Next, each translation reference image pair is compared to a corresponding input image pair.

本明細書において使用される場合、コスト関数は、入力画像特徴及び基準画像特徴(鏡面反射強度又は鏡面反射フロー)が各基準姿勢に対し良好にマッチングする度合いを測定する。   As used herein, the cost function measures the degree to which the input image features and reference image features (specular reflection intensity or specular reflection flow) are well matched to each reference orientation.

ハイライト画素に基づいたコスト関数
通常、鏡面反射画像はハイライト画素と非ハイライト画素とを含む。ハイライト画素は、ランプ又は窓のような高強度の入射光を有する光源に対応する。したがって、画素値は通常飽和している。
Cost Function Based on Highlight Pixel Usually, a specular image includes highlight pixels and non-highlight pixels. A highlight pixel corresponds to a light source having high intensity incident light, such as a lamp or window. Therefore, the pixel value is usually saturated.

ハイライト画素は第1項C()に使用される。物体は鏡面反射性が高いため、ハイライト画素は、短時間露光画像(又はHDR画像)に対し二値化処理を適用して二値画像を作成することによって抽出することができる。 Highlight pixels are used for the first term C 1 (). Since an object has high specular reflectivity, highlight pixels can be extracted by applying a binarization process to a short-time exposure image (or HDR image) to create a binary image.

二値画像及び距離変換を使用して、入力ハイライト画像及び基準ハイライト画像にそれぞれ対応する距離画像D及びDを構築する。この距離変換は、二値画像を正確にマッチングするのに役立つ。コスト関数C()は以下のように定義される。 Using a binary image and the distance transform to construct the respective input highlight image and the reference highlight image corresponding distance image D I and D R. This distance transformation helps to match the binary images accurately. The cost function C 1 () is defined as follows.

Figure 2010243478
Figure 2010243478

ただし、(u,v)は画素座標であり、Nhighlightは総和が実行される画素数を表す。基準ハイライト画素及びそれらの1画素隣りの画素が、計算のためのステンシルとして使用される。 However, (u, v) is a pixel coordinate, N highlight denotes the number of pixels summation is performed. The reference highlight pixels and their neighboring pixels are used as stencils for calculations.

二値画像を作成するための新たな閾値を使用して、2対以上のD画像及びD画像を生成することができることは理解されたい。コストは、全てのそのような対を同時に考察するように変更される。 Using a new threshold for creating a binary image, it should be understood that it is possible to generate two or more pairs of D I picture and D R image. The cost is changed to consider all such pairs simultaneously.

ハイライトに基づくコスト関数は以下の利点を有する。第1に、ハイライトは通常、入力画像において非常にわずかであるため、それらのハイライトを物体のロケーションに対する強力な制約として使用することができる。第2に、コスト関数は全鏡面反射画素を使用する従来のコスト関数のコスト関数よりも平滑である。第3に、ハイライトのステンシルは非常に少数の画素しか含まないため、このコストの計算を効率的に行うことができる。最小化は任意の適切な最適化手順を使用して実施することができる。一実施の形態では、滑降シンプレックス最小化が使用される。滑降シンプレックス最小化法は、非常に高速に且つ安定して大域最小値に良好に収束する。   The cost function based on highlights has the following advantages. First, because highlights are usually very slight in the input image, they can be used as a strong constraint on the location of the object. Second, the cost function is smoother than the cost function of the conventional cost function that uses all specular pixels. Third, because the highlight stencil contains only a very small number of pixels, this cost calculation can be done efficiently. Minimization can be performed using any suitable optimization procedure. In one embodiment, downhill simplex minimization is used. The downhill simplex minimization method converges well to the global minimum very quickly and stably.

全鏡面反射画素に基づくコスト関数
第2項C()は全鏡面反射画素を考察する。
Cost function based on all specular reflection pixels The second term C 2 () considers all specular reflection pixels.

Figure 2010243478
Figure 2010243478

ただし、NCCは正規化相互相関(NCC)を表す。ここで、物体のセグメンテーションマスクをNCCのためのステンシルとして使用することができる。しかしながら、幾何学的に信頼度の高い鏡面反射画素のみをステンシルとして使用することによって、実行時により良好な結果が生み出される。 Here, NCC represents normalized cross correlation (NCC). Here, the object segmentation mask can be used as a stencil for the NCC. However, using only geometrically reliable specularly reflective pixels as stencils produces better results at run time.

大きなダイナミックレンジを扱うために、コスト計算の前に、画素強度を新たな空間、たとえば対数応答(又は指数応答)に変換して、それによって鏡面反射画素の重要度を低くする(又は高くする)ことができることは理解されたい。   To handle a large dynamic range, prior to cost calculation, convert the pixel intensity to a new space, eg logarithmic response (or exponential response), thereby reducing (or increasing) the importance of specular pixels. It is understood that it can be done.

図3に示すように、幾何学的ステンシル選択は以下の通りである。まず、基準画像内の画素毎に入射光線   As shown in FIG. 3, the geometric stencil selection is as follows. First, the incident ray for each pixel in the reference image

Figure 2010243478
Figure 2010243478

が推定される。ここで、反射光線 Is estimated. Where the reflected rays

Figure 2010243478
Figure 2010243478

及び該反射光線の表面法線 And the surface normal of the reflected beam

Figure 2010243478
Figure 2010243478

は既知である。反射の法則から、入射光線は以下によって表される。 Is known. From the law of reflection, the incident light is represented by:

Figure 2010243478
Figure 2010243478

次に、照射方向を考察することによって画素情報の信頼度を定義することができる。基準画像例125に関して図4に示すように、iからの照射は信頼度が高く(401)、iからの照射は信頼度が低い。照射方向は、カメラ座標系の仰角 Next, the reliability of the pixel information can be defined by considering the irradiation direction. As shown in FIG. 4 with respect to the reference image example 125, irradiation from i 1 has high reliability (401) irradiation from i 2 has a low reliability. Irradiation direction is the elevation angle of the camera coordinate system

Figure 2010243478
Figure 2010243478

及び方位角 And azimuth

Figure 2010243478
Figure 2010243478

によって表される。 Represented by

小さな仰角を有する照射は通常、大きな仰角を有する照射より信頼度が低い。これは、鏡面反射物体間の相互反射、及び環境内で異なる背景を使用することのような環境マップの変化に起因する。最後に、式(4)のステンシルの場合、信頼度の高い鏡面反射画素、すなわち90度よりも大きい仰角における入射光線を有する画素のみが使用される。   Irradiation with a small elevation angle is usually less reliable than irradiation with a large elevation angle. This is due to changes in the environment map such as interreflection between specular objects and the use of different backgrounds in the environment. Finally, for the stencil of equation (4), only reliable specular pixels, that is, pixels with incident light at elevation angles greater than 90 degrees are used.

全体手順
姿勢推定のための全体方法は以下の通りである。まず、基準鏡面反射画像125が生成される。可能性のある姿勢122毎に、最適並進パラメータが得られる。滑降シンプレックス法のための初期点として、入力画像の任意の3つの端点が使用される。制御パラメータλが0から1に変更される。これは、並進が、ハイライト画素のみを使用して大まかに最適化され、また、その後、全鏡面反射画素を考察して改善されることを意味する。並進最適化の後、多くの並進最適化姿勢及びそれらに関連付けられるコスト値が存在する。最小コスト値は、最適回転パラメータ
Overall procedure The overall method for posture estimation is as follows. First, a reference specular reflection image 125 is generated. For each possible pose 122, the optimal translation parameter is obtained. Any three end points of the input image are used as initial points for the downhill simplex method. The control parameter λ is changed from 0 to 1. This means that the translation is roughly optimized using only the highlight pixels and then improved by considering all specular pixels. After translation optimization, there are many translation optimization poses and their associated cost values. The minimum cost value is the optimum rotation parameter

Figure 2010243478
Figure 2010243478

のためのものである。 Is for.

オプションの姿勢精緻化
大まかな初期姿勢141を推定した(140)後、姿勢パラメータを継続して最適化することによって、該姿勢パラメータをさらに精緻化する(150)ことができる。並進姿勢は大まかな姿勢推定における滑降シンプレックス法によって既に継続して最適化されているため、以下のコスト関数149を使用して回転姿勢のみを精緻化すればよい。
Optional Posture Refinement After estimating a rough initial posture 141 (140), the posture parameters can be further refined (150) by continuing to optimize the posture parameters. Since the translational posture has already been continuously optimized by the downhill simplex method in rough posture estimation, it is only necessary to refine only the rotational posture using the following cost function 149.

Figure 2010243478
Figure 2010243478

ただし、Rは長時間露光環境マップELを用いて得られる基準画像である。この最適化は最急降下法を使用する。 Here, R is a reference image obtained using the long exposure environment map EL. This optimization uses the steepest descent method.

鏡面反射フローに基づく手法
図2は、オプティカルフローがマッチングのための特徴として使用される方法を示す。通常、オプティカルフローは、カメラと環境との間の相対的な動きによって生じる、環境内の明示的な動きのパターンである。この実施の形態では、オプティカルフローは、環境の動きによって又はカメラの動きを介してのいずれかによって引き起こされると想定される。
Approach Based on Specular Flow FIG. 2 shows how optical flow is used as a feature for matching. Optical flow is usually an explicit pattern of movement in the environment caused by relative movement between the camera and the environment. In this embodiment, it is assumed that the optical flow is caused either by environmental movement or via camera movement.

既知の方向、たとえばカメラ103の観察方向を中心とした環境の定義済みの小さな回転によって2つの入力画像を生成する(210)。代替的に、3つ以上の画像を使用することができる。   Two input images are generated by a defined small rotation of the environment around a known direction, eg, the viewing direction of the camera 103 (210). Alternatively, more than two images can be used.

次に、これらの2つの画像間の鏡面反射フローを求めて、各画素に関する2D変位ベクトルを含む入力鏡面反射画像I231を得る。ブロックマッチング法を使用して鏡面反射フローを求める。   Next, the specular reflection flow between these two images is obtained to obtain an input specular reflection image I231 including a 2D displacement vector for each pixel. The specular flow is obtained using the block matching method.

通常、鏡面反射フローは、物体101、環境102、又はカメラ103の動きによって引き起こすことができる。この説明の単純化のために、環境の動きのみが説明されるが、鏡面反射フローは物体101、環境102、又はカメラ103の動きによって引き起こされている可能性があることが想定される。カメラと物体との間の相対姿勢は固定であるため、鏡面反射フローは鏡面反射画素においてのみ観察される。したがって、この動きによる手掛りは、鏡面反射フローが存在するか否かを指示し、物体のロケーションを強力に制約するのに使用することができる。   Usually, the specular flow can be caused by the movement of the object 101, the environment 102, or the camera 103. For simplicity of this description, only the movement of the environment is described, but it is assumed that the specular flow may be caused by the movement of the object 101, the environment 102, or the camera 103. Since the relative posture between the camera and the object is fixed, the specular reflection flow is observed only in the specular reflection pixel. Thus, this movement cue can be used to indicate whether there is a specular flow and to strongly constrain the location of the object.

姿勢推定
基準鏡面反射フローの生成
大まかな姿勢推定240のために、様々な姿勢122のうちの各姿勢において、上述したようにロケーション(0,0,Z)に関して2つ以上の鏡面反射画像を生成する(220)が、今回は、わずかに、たとえば±5度回転している色分けされた環境マップを使用する。色分けされた環境は、測定されるのではなくシミュレートされている。色分けされた環境によって、2つの画像間の正確な画素の対応を求めることが可能になり、それによってオプティカルフローが簡単且つ完全に計算される。結果としてのオプティカルフロー画像を使用して基準画像R225を生成する。
Generation of Posture Estimation Reference Specular Reflection Flow For rough pose estimation 240, at each pose of the various poses 122, two or more specular reflection images for location (0, 0, Z 0 ) are obtained as described above. Generate (220), but this time use a color-coded environment map that is slightly rotated, eg, ± 5 degrees. The color coded environment is simulated rather than measured. The color-coded environment makes it possible to determine an exact pixel correspondence between the two images, thereby easily and completely calculating the optical flow. A reference image R225 is generated using the resulting optical flow image.

姿勢最適化
基準画像225を取得された(230)入力鏡面反射フロー画像I231と比較し、コスト関数239を最小化することによって3D姿勢241を推定する(240)。
Posture Optimization The reference image 225 is compared with the acquired (230) input specular reflection flow image I231, and the 3D posture 241 is estimated by minimizing the cost function 239 (240).

Figure 2010243478
Figure 2010243478

ただし、C()及びC()はそれぞれ、動き分割及び鏡面反射フローに基づくコスト関数である。最適化手順を使用してコスト関数を最小化する並進推定値及び回転推定値が計算される。一実施の形態では、滑降シンプレックス法を使用して、最初に並進(X,Y)が各回転に対して最適化される。次に、全てのコスト値を比較することによって回転が最適化される。 However, C 1 () and C 2 () are cost functions based on motion division and specular reflection flow, respectively. An optimization procedure is used to calculate translation and rotation estimates that minimize the cost function. In one embodiment, the translation (X, Y) is first optimized for each rotation using the downhill simplex method. The rotation is then optimized by comparing all cost values.

動き分割に基づくコスト関数
動き分割は、各画素に関して非ゼロ鏡面反射フローが存在するか否かを指示する二値画像として定義される。D及びDは入力画像I231及び基準鏡面反射フロー画像R225の動き分割から構築される距離変換画像を表すものとする。コスト関数C()は以下となる。
Cost Function Based on Motion Division Motion division is defined as a binary image that indicates whether there is a non-zero specular flow for each pixel. D I and D R represent distance conversion images constructed from motion division of the input image I 231 and the reference specular flow image R 225. The cost function C 1 () is as follows.

Figure 2010243478
Figure 2010243478

ただし、総和は、基準画像Rの動き分割画素に関して実行され、Nmotionはこのような画素の数を表す。姿勢推定及び物体分割を同時に実行することができることは理解されたい。 However, the sum is executed with respect to the motion division pixels of the reference image R, and N motion represents the number of such pixels. It should be understood that pose estimation and object segmentation can be performed simultaneously.

鏡面反射フローに基づくコスト関数
式(6)における第2コスト項C()は、入力画像I(u,v)231を並進された基準画像R225と比較することによって構築される。実際の用途におけるノイズが多くテクスチャのない領域に起因して、入力画像は多くの異常値を含む。異常値画素は、画像内の他の(異常値でない(inlier))画素と整合しない画素である。したがって、差分二乗和(SSD)のような単純なマッチングコストは良好に機能しない。そうではなく、コスト関数は異常値でない画素の数に基づく。
Cost function based on specular flow The second cost term C 2 () in equation (6) is constructed by comparing the input image I (u, v) 231 with the translated reference image R225. Due to the noisy and textureless areas in actual applications, the input image contains many outliers. An outlier pixel is a pixel that does not match another (inlier) pixel in the image. Therefore, simple matching costs such as sum of squared differences (SSD) do not work well. Instead, the cost function is based on the number of pixels that are not outliers.

第1に、異常値でない画素とは、入力鏡面反射フローベクトルI(u,v)と基準鏡面反射フローベクトルRとの差が小さな閾値、たとえば1.0未満である画素である。コスト関数C()は以下となる。 First, a pixel that is not an abnormal value is a pixel in which the difference between the input specular reflection flow vector I (u, v) and the reference specular reflection flow vector R is a small threshold, for example, less than 1.0. The cost function C 2 () is as follows.

Figure 2010243478
Figure 2010243478

ただし、Mは異常値でない画素の集合である。 However, M is a set of pixels that are not abnormal values.

全体手順
鏡面反射フローに基づく手法は、鏡面反射強度に基づく手法と同じ全体方法を使用する。基準画像225は、モデル121及び可能性のある姿勢122を使用して生成される。滑降シンプレックス法を使用して基準画像毎に最適な並進が推定される。ここで、制御パラメータは0〜1で変動する。次に、全ての並進最適化された姿勢が比較されて、最適な回転が求められる。
Overall Procedure The method based on the specular flow uses the same overall method as the method based on the specular intensity. The reference image 225 is generated using the model 121 and possible pose 122. An optimal translation is estimated for each reference image using the downhill simplex method. Here, the control parameter varies from 0 to 1. Next, all translation optimized postures are compared to determine the optimal rotation.

オプションの姿勢精緻化
大まかな姿勢241を推定した(240)後、オプションで、コスト関数249を最小化することによって回転姿勢パラメータを継続して精緻化する(250)。
Optional Posture Refinement After estimating the approximate posture 241 (240), optionally refine the rotational posture parameters by minimizing the cost function 249 (250).

Figure 2010243478
Figure 2010243478

ただし、Rは、姿勢パラメータ(θ,φ,σ,X,Y)を有する基準画像であり、Nmaskはステンシル内の画素数を表す。ステンシルは物体のセグメンテーションマスクとして定義される。 Here, R is a reference image having posture parameters (θ, φ, σ, X, Y), and N mask represents the number of pixels in the stencil. A stencil is defined as an object segmentation mask.

本発明を好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び変更を行うことができることは理解されたい。   Although the invention has been described by way of examples of preferred embodiments, it is to be understood that various other adaptations and modifications can be made within the spirit and scope of the invention.

したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内に入るすべての変形及び変更を包含することである。   Accordingly, it is the object of the appended claims to cover all modifications and variations that fall within the true spirit and scope of the invention.

Claims (42)

環境内の3D物体の3D姿勢を推定する方法であって、該物体は鏡面反射表面を有し、該方法のステップを実施するプロセッサを備え、該方法は、
前記物体の3Dモデル及び該物体の姿勢のセットを使用して2D基準画像対のセットをレンダリングするステップであって、各基準画像対は前記姿勢のうちの1つに関連付けられる、ステップと、
前記物体の2D入力画像対を取得するステップと、
前記2D入力画像対内の特徴と各2D基準画像対内の特徴とを、それらの特徴をマッチングするコスト関数を使用して比較することによって、前記物体の3D姿勢を推定するステップと、
を含む、方法。
A method for estimating a 3D pose of a 3D object in an environment, the object having a specular surface and comprising a processor for performing the steps of the method, the method comprising:
Rendering a set of 2D reference image pairs using a 3D model of the object and a set of poses of the object, wherein each reference image pair is associated with one of the poses;
Obtaining a 2D input image pair of the object;
Estimating the 3D pose of the object by comparing features in the 2D input image pairs with features in each 2D reference image pair using a cost function that matches the features;
Including a method.
前記2D入力画像は、非線形強度応答を有するカメラによって取得される単一の画像から得られる、請求項1に記載の方法。   The method of claim 1, wherein the 2D input image is obtained from a single image acquired by a camera having a non-linear intensity response. 前記3D姿勢は、3D並進ベクトル(X,Y,Z)及び配向に関する3Dオイラー角(μ,φ,σ)によって定義される、請求項1に記載の方法。   The method according to claim 1, wherein the 3D pose is defined by a 3D translation vector (X, Y, Z) and a 3D Euler angle (μ, φ, σ) with respect to orientation. 前記姿勢を精密コスト関数を使用して精緻化することをさらに含む、請求項1に記載の方法。   The method of claim 1, further comprising refining the pose using a precision cost function. 前記特徴は鏡面反射に起因する画像処理強度によって得られる、請求項1に記載の方法。   The method of claim 1, wherein the feature is obtained by image processing intensity resulting from specular reflection. 基準鏡面反射強度は、鏡の双方向反射分布関数(BRDF)又は何らかの他の既知のBRDFを使用することによってレンダリングされる、請求項5に記載の方法。   The method of claim 5, wherein the reference specular reflection intensity is rendered by using a mirror's bidirectional reflection distribution function (BRDF) or some other known BRDF. 前記方法は、
前記環境内に鏡状球体を配置すること、
前記鏡状球体の周囲の前記環境の反射を介して環境マップ画像を取得すること、及び
2Dプレノプティック関数を使用して前記環境マップ画像から環境マップを構築することであって、該2Dプレノプティック関数は前記周囲の外観をモデリングし、前記基準画像は前記環境マップを反射する前記物体の3Dモデルからレンダリングされる、こと、
をさらに含む、請求項5に記載の方法。
The method
Placing a mirror sphere in the environment;
Obtaining an environment map image via reflection of the environment around the mirror sphere, and constructing an environment map from the environment map image using a 2D plenoptic function, the 2D A plenoptic function models the surrounding appearance, and the reference image is rendered from a 3D model of the object reflecting the environment map;
The method of claim 5, further comprising:
前記環境マップを構築するために、前記環境の画像セットを取得すると共に該画像セットからモザイクを生成することをさらに含む、請求項7に記載の方法。   8. The method of claim 7, further comprising obtaining an image set of the environment and generating a mosaic from the image set to construct the environment map. 前記入力画像を取得する間に使用される露光量は異なる、請求項1に記載の方法。   The method of claim 1, wherein the amount of exposure used during acquisition of the input image is different. 短時間露光は約1/60秒であり、長時間露光は約1/4秒であり、カメラ口径は周辺照度に合わせて調整され、それによって、長時間露光によって標準強度を有する画像が作成される、請求項9に記載の方法。   The short exposure is about 1/60 seconds, the long exposure is about 1/4 seconds, and the camera aperture is adjusted to the ambient illuminance, thereby creating an image with standard intensity by long exposure. The method according to claim 9. 前記姿勢は以下の式を解くことによって得られ、
Figure 2010243478
ただし、
Figure 2010243478
は初期姿勢の並進及びオイラー角を表し、C()は概算コスト関数であり、それぞれ、I及びRは長時間露光入力画像及び長時間露光基準画像であり、I及びRは短時間露光入力画像及び短時間露光基準画像であり、引数minは最小値を与える引数を返す関数であり、内側の最小値は外側の最小値の前に求められる、請求項5に記載の方法。
The posture is obtained by solving the following equation:
Figure 2010243478
However,
Figure 2010243478
Represents the translation and Euler angles of the initial pose, C R () is the approximate cost function, I L and R L are the long exposure input image and the long exposure reference image, respectively, I S and R S are 6. The method of claim 5, wherein the method is a short exposure input image and a short exposure reference image, the argument min is a function that returns an argument giving a minimum value, and the inner minimum value is obtained before the outer minimum value. .
前記概算関数は以下であり、
Figure 2010243478
ただし、λは制御パラメータであり、C()及びC()はそれぞれ、長時間露光画像及び短時間露光画像に関するコスト関数である、請求項11に記載の方法。
The approximate function is:
Figure 2010243478
12. The method according to claim 11, wherein λ is a control parameter, and C 1 () and C 2 () are cost functions for the long exposure image and the short exposure image, respectively.
()に対してハイライト画素が使用され、該ハイライト画素は、二値化処理を行って対応する二値画像を作成することによって求められ、前記方法は、
前記二値画像に距離変換を適用することによって、対応する基準距離画像D及び入力距離画像Dを構築することをさらに含む、請求項12に記載の方法。
A highlight pixel is used for C 1 (), which is obtained by performing a binarization process to create a corresponding binary image, the method comprising:
By applying a distance transform to the binary image, further comprising constructing the corresponding reference distance image D R and input distance image D I, The method of claim 12.
前記コスト関数C()は以下であり、
Figure 2010243478
ただし、(x,y)は投影点であり、(u,v)は画素座標であり、Nhighlightは総和のための画素数を表し、Sは短時間露光を表す、請求項13に記載の方法。
The cost function C 1 () is
Figure 2010243478
14, wherein (x, y) is a projection point, (u, v) is a pixel coordinate, N highlight represents the number of pixels for summation, and S represents short-time exposure. Method.
前記コスト関数C()は以下であり、
Figure 2010243478
ただし、NCCは正規化相互相関を表し、Lは長時間露光を表す、請求項12に記載の方法。
The cost function C 2 () is
Figure 2010243478
13. The method of claim 12, wherein NCC represents normalized cross-correlation and L represents long exposure.
(X,Y)は並進を表し、(μ,φ,σ)は前記精密な姿勢のオイラー角を表し、前記精密コスト関数は以下であり、
Figure 2010243478
ただし、(u,v)は前記入力画像I及び前記基準画像Rの画素座標であり、NCCは正規化相互相関を表し、Lは長時間露光を表す、請求項15に記載の方法。
(X, Y) represents translation, (μ, φ, σ) represents Euler angle of the precise posture, and the precise cost function is
Figure 2010243478
16. The method according to claim 15, wherein (u, v) are pixel coordinates of the input image I and the reference image R, NCC represents normalized cross-correlation, and L represents long exposure.
前記特徴は鏡面反射フローである、請求項1に記載の方法。   The method of claim 1, wherein the feature is a specular flow. 前記鏡面反射フローは、前記2D入力画像を取得するカメラの所定の観察方向を中心とした前記環境の回転に起因する、請求項17に記載の方法。   The method of claim 17, wherein the specular flow is due to rotation of the environment about a predetermined viewing direction of a camera that acquires the 2D input image. 前記鏡面反射フローは、ブロックマッチング及び色分けされた環境マップを使用して求められる、請求項17に記載の方法。   The method of claim 17, wherein the specular flow is determined using block matching and a color coded environment map. (X,Y)は並進を表し、(μ,φ,σ)は前記姿勢のオイラー角を表し、前記概算コスト関数は以下であり、
Figure 2010243478
ただし、λは制御パラメータであり、C()及びC()はそれぞれ、動き分割及び前記鏡面反射フローに基づくコスト関数であり、R及びIはそれぞれ、前記基準画像及び前記入力画像を表す、請求項17に記載の方法。
(X, Y) represents translation, (μ, φ, σ) represents Euler angle of the posture, and the approximate cost function is
Figure 2010243478
Where λ is a control parameter, C 1 () and C 2 () are cost functions based on motion division and the specular flow, respectively, and R and I represent the reference image and the input image, respectively. The method of claim 17.
前記鏡面反射フローの大きさを二値化処理することによって取得される前記二値画像及び距離変換から、対応する基準距離画像D及び入力距離画像Dを構築することをさらに含み、前記コスト関数C()は以下であり、
Figure 2010243478
ただし、(x,y)は投影点であり、(u,v)は画素座標であり、総和は基準画像Rの動き分割画素に関して実行され、Nmotionはこのような画素の数を表す、請求項20に記載の方法。
Further comprising constructing the size of the specular flow from said binary image and a distance transform is obtained by binarization processing, corresponding reference distance image D R and input distance image D I, the cost The function C 1 () is
Figure 2010243478
Where (x, y) is the projection point, (u, v) is the pixel coordinate, the summation is performed on the motion-divided pixels of the reference image R, and N motion represents the number of such pixels. Item 21. The method according to Item 20.
前記基準鏡面反射フロー画像Rと前記入力鏡面反射フロー画像Iとを比較することであって、前記入力鏡面反射フローベクトルと前記基準鏡面反射フローベクトルとの差分が小さな閾値未満である異常値でない画素を探索する、比較することをさらに含み、前記コスト関数C()は以下であり、
Figure 2010243478
ただし、Mは異常値でない画素の集合である、請求項20に記載の方法。
Pixels that are not abnormal values in which the difference between the input specular reflection flow vector and the reference specular reflection flow vector is less than a small threshold value by comparing the reference specular reflection flow image R and the input specular reflection flow image I. The cost function C 2 () is:
Figure 2010243478
21. The method of claim 20, wherein M is a set of pixels that are not outliers.
(X,Y)は並進を表し、(μ,φ,σ)は前記3D姿勢のオイラー角を表し、前記精密コスト関数は以下であり、
Figure 2010243478
ただし、(u,v)は画素座標であり、Rは前記基準画像であり、姿勢パラメータ(θ,φ,σ,X,Y)を有し、Nmaskはステンシル数を表し、ステンシルは物体のセグメンテーションマスクとして定義される、請求項17に記載の方法。
(X, Y) represents translation, (μ, φ, σ) represents the Euler angle of the 3D pose, and the precise cost function is
Figure 2010243478
Where (u, v) is pixel coordinates, R is the reference image, has posture parameters (θ, φ, σ, X, Y), N mask represents the number of stencils, and the stencil represents the object The method of claim 17, defined as a segmentation mask.
前記回転は約±5度である、請求項18に記載の方法。   The method of claim 18, wherein the rotation is about ± 5 degrees. 各2D入力画像対は、単一の高ダイナミックレンジ画像から生成される、請求項1に記載の方法。   The method of claim 1, wherein each 2D input image pair is generated from a single high dynamic range image. 2D入力画像と2D基準画像の各対は、様々な露光量を用いて収集される画像のセットから生成される、請求項1に記載の方法。   The method of claim 1, wherein each pair of 2D input image and 2D reference image is generated from a set of images collected using different exposures. 前記推定される姿勢に従って、ロボットアームを使用して容器から前記物体を取り出すことをさらに含む、請求項1に記載の方法。   The method of claim 1, further comprising removing the object from a container using a robotic arm according to the estimated posture. 前記容器は単一の物体又は複数の物体を含む、請求項27に記載の方法。   28. The method of claim 27, wherein the container comprises a single object or multiple objects. 前記3D姿勢は6段階自由度を有する、請求項1に記載の方法。   The method of claim 1, wherein the 3D pose has six degrees of freedom. 前記姿勢を推定する間に前記入力画像において前記物体を分割することをさらに含む、請求項1に記載の方法。   The method of claim 1, further comprising segmenting the object in the input image while estimating the pose. 前記姿勢を推定する間に前記入力画像において前記物体の反射率を推定することをさらに含む、請求項1に記載の方法。   The method of claim 1, further comprising estimating a reflectance of the object in the input image while estimating the pose. 前記入力画像は前記物体の複数のビューから取得される、請求項1に記載の方法。   The method of claim 1, wherein the input image is obtained from multiple views of the object. 照射源を用いてシーンを能動的に照射することをさらに含む、請求項1に記載の方法。   The method of claim 1, further comprising actively illuminating the scene with an illumination source. 照射源を用いて周囲を能動的に照射することをさらに含む、請求項1に記載の方法。   The method of claim 1, further comprising actively irradiating the environment with an irradiation source. 前記照射源は1つ又は複数の投影機を含む、請求項33に記載の方法。   34. The method of claim 33, wherein the illumination source includes one or more projectors. 前記入力画像は鏡面反射成分の推定に偏光を使用して取得される、請求項1に記載の方法。   The method of claim 1, wherein the input image is acquired using polarized light to estimate a specular reflection component. シーンを異なる複数の色を用いて照射すると共に、色毎に独立して前記方法を実施することをさらに含む、請求項1に記載の方法。   The method of claim 1, further comprising illuminating the scene with a plurality of different colors and performing the method independently for each color. 反射率は鏡状である、請求項6に記載の方法。   The method of claim 6, wherein the reflectivity is mirror-like. 前記他の既知のBRDFは前記物体のものである、請求項6に記載の方法。   The method of claim 6, wherein the other known BRDF is that of the object. 前記入力画像は前記ロボットアーム上に搭載されるカメラによって取得される、請求項27に記載の方法。   28. The method of claim 27, wherein the input image is acquired by a camera mounted on the robot arm. 前記容器は能動的な照明を備える、請求項27に記載の方法。   28. The method of claim 27, wherein the container comprises active illumination. 環境内の3D物体の3D姿勢を推定する装置であって、該物体は鏡面反射表面を有し、該装置は、
前記物体の3Dモデル及び該物体の姿勢のセットを使用して2D基準画像対のセットをレンダリングするように構成されるレンダリングエンジンであって、各基準画像対は前記姿勢のうちの1つに関連付けられる、レンダリングエンジンと、
前記物体の2D入力画像対を取得するように構成されるカメラと、
プロセッサ内に実装され、前記2D入力画像対内の特徴と各2D基準画像対内の特徴とを、それらの特徴をマッチングするコスト関数を使用して比較することによって前記物体の3D姿勢を推定する手段と、
を備える、装置。
An apparatus for estimating a 3D pose of a 3D object in an environment, the object having a specular reflective surface, the apparatus comprising:
A rendering engine configured to render a set of 2D reference image pairs using a 3D model of the object and a set of poses of the object, each reference image pair associated with one of the poses A rendering engine,
A camera configured to acquire a 2D input image pair of the object;
Means for estimating the 3D pose of the object implemented in a processor and comparing the features in the 2D input image pair with the features in each 2D reference image pair using a cost function that matches the features; ,
An apparatus comprising:
JP2010034679A 2009-03-31 2010-02-19 Method and apparatus for estimating a 3D pose of a 3D object in an environment Active JP5441752B2 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US16540609P 2009-03-31 2009-03-31
US61/165,406 2009-03-31
US12/509,860 US8437537B2 (en) 2009-03-27 2009-07-27 Method and system for estimating 3D pose of specular objects
US12/509,860 2009-07-28

Publications (2)

Publication Number Publication Date
JP2010243478A true JP2010243478A (en) 2010-10-28
JP5441752B2 JP5441752B2 (en) 2014-03-12

Family

ID=43096630

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010034679A Active JP5441752B2 (en) 2009-03-31 2010-02-19 Method and apparatus for estimating a 3D pose of a 3D object in an environment

Country Status (1)

Country Link
JP (1) JP5441752B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140015992A1 (en) * 2012-07-16 2014-01-16 Mitsubishi Electric Research Laboratories, Inc. Specular Edge Extraction Using Multi-Flash Imaging
US9483714B2 (en) 2013-03-29 2016-11-01 Canon Kabushiki Kaisha Image processing apparatus and image processing method
CN111780666A (en) * 2020-07-17 2020-10-16 西安科技大学 Position and attitude monitoring system and method for mining development machine
CN112598598A (en) * 2020-12-25 2021-04-02 南京信息工程大学滨江学院 Image reflected light removing method based on two-stage reflected light eliminating network

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003203220A (en) * 2002-01-07 2003-07-18 Canon Inc Three-dimensional image processing method, three- dimensional image processor, there-dimensional image processing system and three-dimensional image processing program
JP2006275955A (en) * 2005-03-30 2006-10-12 National Institute Of Information & Communication Technology Optical characteristic measuring apparatus and image processing system
JP2008269572A (en) * 2007-04-23 2008-11-06 Mitsubishi Electric Research Laboratories Inc Method and system for determining posture of object from range image

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003203220A (en) * 2002-01-07 2003-07-18 Canon Inc Three-dimensional image processing method, three- dimensional image processor, there-dimensional image processing system and three-dimensional image processing program
JP2006275955A (en) * 2005-03-30 2006-10-12 National Institute Of Information & Communication Technology Optical characteristic measuring apparatus and image processing system
JP2008269572A (en) * 2007-04-23 2008-11-06 Mitsubishi Electric Research Laboratories Inc Method and system for determining posture of object from range image

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140015992A1 (en) * 2012-07-16 2014-01-16 Mitsubishi Electric Research Laboratories, Inc. Specular Edge Extraction Using Multi-Flash Imaging
US8913825B2 (en) * 2012-07-16 2014-12-16 Mitsubishi Electric Research Laboratories, Inc. Specular edge extraction using multi-flash imaging
US9483714B2 (en) 2013-03-29 2016-11-01 Canon Kabushiki Kaisha Image processing apparatus and image processing method
US10198666B2 (en) 2013-03-29 2019-02-05 Canon Kabushiki Kaisha Image processing apparatus and image processing method
US10803351B2 (en) 2013-03-29 2020-10-13 Canon Kabushiki Kaisha Image processing apparatus and image processing method
CN111780666A (en) * 2020-07-17 2020-10-16 西安科技大学 Position and attitude monitoring system and method for mining development machine
CN111780666B (en) * 2020-07-17 2023-11-07 西安科技大学 Mining heading machine pose monitoring system and monitoring method
CN112598598A (en) * 2020-12-25 2021-04-02 南京信息工程大学滨江学院 Image reflected light removing method based on two-stage reflected light eliminating network
CN112598598B (en) * 2020-12-25 2023-11-28 南京信息工程大学滨江学院 Image reflected light removing method based on two-stage reflected light eliminating network

Also Published As

Publication number Publication date
JP5441752B2 (en) 2014-03-12

Similar Documents

Publication Publication Date Title
US8437537B2 (en) Method and system for estimating 3D pose of specular objects
JP5484133B2 (en) Method for estimating the 3D pose of a specular object
US11869139B2 (en) System and method for three-dimensional scanning and for capturing a bidirectional reflectance distribution function
US9392262B2 (en) System and method for 3D reconstruction using multiple multi-channel cameras
CN106228507B (en) A kind of depth image processing method based on light field
Wang et al. Estimation of multiple directional light sources for synthesis of augmented reality images
KR101974651B1 (en) Measuring method of 3d image depth and a system for measuring 3d image depth using boundary inheritance based hierarchical orthogonal coding
JP5043023B2 (en) Image processing method and apparatus
Lin et al. Review and comparison of high-dynamic range three-dimensional shape measurement techniques
US20200057831A1 (en) Real-time generation of synthetic data from multi-shot structured light sensors for three-dimensional object pose estimation
EP3382645B1 (en) Method for generation of a 3d model based on structure from motion and photometric stereo of 2d sparse images
Choe et al. Exploiting shading cues in kinect ir images for geometry refinement
JP2009288235A (en) Method and apparatus for determining pose of object
US20190188871A1 (en) Alignment of captured images by fusing colour and geometrical information
KR100834157B1 (en) Method for Light Environment Reconstruction for Image Synthesis and Storage medium storing program therefor.
JP6515039B2 (en) Program, apparatus and method for calculating a normal vector of a planar object to be reflected in a continuous captured image
Mecca et al. Luces: A dataset for near-field point light source photometric stereo
JP5441752B2 (en) Method and apparatus for estimating a 3D pose of a 3D object in an environment
CN110910506B (en) Three-dimensional reconstruction method and device based on normal detection, detection device and system
Park et al. Surface light field fusion
JP6237032B2 (en) Color and three-dimensional shape measuring method and apparatus
Angelopoulou et al. Evaluating the effect of diffuse light on photometric stereo reconstruction
Corsini et al. Stereo light probe
JPH04130587A (en) Three-dimensional picture evaluation device
CN116106318A (en) Object surface defect detection method and device and three-dimensional scanner

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131008

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131217

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5441752

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250