JP2002197472A - Method for recognizing object - Google Patents
Method for recognizing objectInfo
- Publication number
- JP2002197472A JP2002197472A JP2000404599A JP2000404599A JP2002197472A JP 2002197472 A JP2002197472 A JP 2002197472A JP 2000404599 A JP2000404599 A JP 2000404599A JP 2000404599 A JP2000404599 A JP 2000404599A JP 2002197472 A JP2002197472 A JP 2002197472A
- Authority
- JP
- Japan
- Prior art keywords
- edge
- image
- model
- posture
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Length Measuring Devices By Optical Means (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、計算機による物体
認識方法に関し、とくに、あらかじめ登録した物体モデ
ルを用いて、入力画像に写った物体を認識し、さらに、
その物体のカメラに対する姿勢を推定する方法に関す
る。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an object recognition method using a computer, and more particularly to a method for recognizing an object in an input image by using an object model registered in advance.
The present invention relates to a method of estimating a posture of the object with respect to a camera.
【0002】[0002]
【従来の技術】3次元物体モデルを用いて2次元画像に
写った物体を認識する手法として、アラインメント法が
ある(文献:D.P.Huttenlocher an
d S.Ullman,“Recognizing S
olid Objects by Alignment
with an Image”,Internati
onal Journal of Computer
Vision,Vol.5,No.2,pp.195−
212,1990)。アラインメント法では、カメラモ
デルを弱透視投影で近似し、3次元物体を2次元画像平
面に投影する変換行列を定義する。そして、物体モデル
の特徴点集合と画像上の特徴点集合とから、この変換行
列を求める問題として物体認識を定式化する。具体的に
は、物体モデル上の特徴点3個と画像上の特徴点3個を
対応づけた場合の変換行列を求め、その変換行列によっ
て他のモデル特徴点を画像平面に投影した結果が他の画
像特徴点とうまく一致するかを調べる。この処理を、モ
デル特徴点および画像特徴点の各組合せに対して行い、
一致度の高い変換行列を解とする。特徴点としては、画
像から抽出されたエッジの角、交点、変曲点などが用い
られる。2. Description of the Related Art An alignment method is known as a method for recognizing an object in a two-dimensional image using a three-dimensional object model (Reference: DP Huttenlocher an.
dS. Ullman, "Recognizing S
old Objects by Alignment
with an Image ", Internati
onal Journal of Computer
Vision, Vol. 5, No. 2, pp. 195-
212, 1990). In the alignment method, a camera model is approximated by weak perspective projection, and a transformation matrix for projecting a three-dimensional object onto a two-dimensional image plane is defined. Then, object recognition is formulated as a problem for obtaining the transformation matrix from the feature point set of the object model and the feature point set on the image. Specifically, a transformation matrix is obtained when three feature points on the object model are associated with three feature points on the image, and the result of projecting other model feature points on the image plane using the transformation matrix is different. Find out if the image feature points match well. Perform this process for each combination of model feature points and image feature points,
A transformation matrix having a high degree of coincidence is used as a solution. As the feature points, corners, intersections, inflection points, and the like of edges extracted from the image are used.
【0003】[0003]
【発明が解決しようとする課題】通常、カメラの正確な
モデル化には透視投影が用いられる。透視投影では、物
体は奥行きに反比例して画像上に小さく写る。しかし、
アラインメント法では、弱透視投影で近似しているた
め、物体の奥行きが長い場合に投影像の歪みが大きくな
り、正しく認識できなくなるという問題がある。Normally, perspective projection is used for accurate modeling of a camera. In perspective projection, an object appears small on an image in inverse proportion to depth. But,
In the alignment method, since the projection is approximated by weak perspective projection, when the depth of the object is long, the distortion of the projected image becomes large, and there is a problem that the image cannot be correctly recognized.
【0004】また、アラインメント法では、モデル特徴
点数をM、画像特徴点数をNとすると、その計算量はM
3N2logNに比例し、特徴点数が増えると計算時間
が膨大になるという問題がある。In the alignment method, if the number of model feature points is M and the number of image feature points is N, the amount of calculation is M
There is a problem that the calculation time becomes enormous as the number of feature points increases in proportion to 3 N 2 logN.
【0005】なお、アラインメント法に限らず、3次元
物体認識は探索空間が大きく、計算量が膨大であるとい
う問題をもつ。これは、物体認識の問題が、モデル特徴
と画像特徴の対応づけ問題と物体姿勢を求める問題とを
同時に解く必要があるためである。[0005] In addition to the alignment method, three-dimensional object recognition has a problem that a search space is large and a calculation amount is enormous. This is because the problem of object recognition needs to simultaneously solve the problem of associating model features with image features and the problem of finding an object posture.
【0006】[0006]
【課題を解決するための手段】以上の課題を解決するた
めに、本発明の物体認識方法では、入力画像中の2次元
エッジ(画像エッジと呼ぶ)と物体モデルの3次元エッ
ジ(モデルエッジと呼ぶ)とを1本ずつ照合すること
で、入力画像と物体モデルの照合を行う。この照合は物
体の各姿勢ごとに行い、しかも、物体姿勢を回転成分と
平行移動成分に分けて段階的に行う。In order to solve the above problems, in the object recognition method of the present invention, a two-dimensional edge (referred to as an image edge) in an input image and a three-dimensional edge of an object model (a model edge and a model edge) are used. ) Are collated one by one to collate the input image with the object model. This collation is performed for each posture of the object, and the object posture is divided into a rotation component and a translation component in a stepwise manner.
【0007】請求項1の発明は、該入力画像を撮影した
カメラの座標系における前記物体モデルの姿勢の回転成
分を離散化し、該回転成分の各離散値ごとに、前記物体
モデルを構成する各モデルエッジの画像平面への投影像
と前記画像エッジ集合の各画像エッジとが同一直線上に
存在しうるかを調べ、同一直線上に存在しうるモデルエ
ッジと画像エッジの対の集合をエッジ対集合として求
め、該エッジ対集合に含まれるモデルエッジの本数が所
定の閾値を越えた場合に、該エッジ対集合に含まれる各
エッジ対に対して、該エッジ対に含まれるモデルエッジ
の画像平面への投影像の両端点と該エッジ対に含まれる
画像エッジの両端点とが一致する前記物体モデルの姿勢
の平行移動成分値を求め、前記エッジ対集合に対する平
行移動成分値の分布において集中度が大きい領域の代表
値を平行移動成分の推定値とし、前記回転成分値と該平
行移動成分の推定値を物体姿勢の候補とする。According to a first aspect of the present invention, a rotation component of the posture of the object model in a coordinate system of a camera which has taken the input image is discretized, and each discrete value of the rotation component constitutes the object model. It is checked whether the projected image of the model edge on the image plane and each image edge of the image edge set can be on the same straight line, and a set of a model edge and an image edge pair that can be on the same straight line is determined as an edge pair set. When the number of model edges included in the edge pair set exceeds a predetermined threshold, for each edge pair included in the edge pair set, the image plane of the model edge included in the edge pair is transferred to the image plane. A translation component value of the posture of the object model in which both end points of the projected image of the object model coincide with both end points of the image edge included in the edge pair, and the distribution of the translation component value with respect to the edge pair set A representative value of the region Oite concentration degree is greater as the estimated value of the translation component, the estimated value of the rotation component value and the parallel movement component and a candidate object position.
【0008】請求項2の発明は、前記物体姿勢候補の各
々ごとに、該物体姿勢候補における各モデルエッジの画
像平面への投影像と画像エッジの距離から該モデルエッ
ジの一致度を計算し、最もよく一致する画像エッジを該
モデルエッジに対応する画像エッジとして選び、全モデ
ルエッジの一致度の総和が最良となる物体姿勢候補を姿
勢推定の解として選ぶ。According to a second aspect of the present invention, for each of the object posture candidates, a degree of coincidence of the model edge is calculated from a distance between the image edge and a projection image of each model edge on the image plane in the object posture candidate, The image edge that best matches is selected as the image edge corresponding to the model edge, and the candidate object posture with the best sum of the degrees of coincidence of all model edges is selected as a solution for posture estimation.
【0009】[0009]
【発明の実施の形態】本発明の物体認識方法は、多面体
で構成された3次元物体モデルを用いて、1枚の2次元
画像に写った物体の認識とカメラに対する物体姿勢の推
定を行うものである。入力画像と物体モデルの照合は、
画像エッジとモデルエッジとを1本ずつ照合することで
行う。物体モデルは多面体なので、モデルエッジはすべ
て直線分である。対象とする2次元画像は、計算機に取
り込まれたデジタル画像であり、画像処理分野で広く行
われているエッジ抽出処理により画像エッジを得てお
く。また、全ての画像エッジは、高曲率点や交差点など
を分割点として直線分に分割されているとする。図4
に、机の画像エッジの例を示す。ただし、実際の画像に
は、対象物体以外の画像エッジも多数含まれる。図5
に、机の物体モデルの例を示す。物体モデルは、物体の
特徴的な部分だけを表現するものでよく、この例では、
通常の視点から見える机の前面部分だけをモデル化して
いる。DESCRIPTION OF THE PREFERRED EMBODIMENTS The object recognition method of the present invention uses a three-dimensional object model composed of a polyhedron to recognize an object shown in one two-dimensional image and to estimate an object posture with respect to a camera. It is. Matching the input image with the object model
This is performed by checking the image edge and the model edge one by one. Since the object model is a polyhedron, all model edges are straight lines. The target two-dimensional image is a digital image captured by a computer, and an image edge is obtained by an edge extraction process widely performed in the field of image processing. It is also assumed that all image edges are divided into straight lines using high curvature points and intersections as division points. FIG.
The example of the image edge of a desk is shown below. However, the actual image includes many image edges other than the target object. FIG.
The following shows an example of a desk object model. The object model may represent only a characteristic part of the object, and in this example,
Only the front part of the desk that can be seen from a normal viewpoint is modeled.
【0010】次に、本発明の物体認識方法の原理を説明
する。まず、透視投影によるカメラモデルは以下のよう
に定式化される。物体モデルとカメラの姿勢関係の一例
を図3に示す。物体モデルの形状は、物体モデルのロー
カル座標系で定義するとする。物体モデル座標系からカ
メラ座標系への座標変換パラメータをτ=<τr,τt
>とする。τr=(θ,φ,ψ)は回転成分、τt=
(xt,yt,zt)Tは平行移動ベクトルである(T
は転置を表す)。このとき、物体モデル上の点Pのカメ
ラ座標系での値Pcは、数1のようになる。ただし、R
(τr)はτrによる回転行列である。さらに、カメラ
座標系の点Pc=(xc,yc,zc)Tのスクリーン
座標系への投影点Psは数2のようになる。Next, the principle of the object recognition method of the present invention will be described. First, a camera model based on perspective projection is formulated as follows. FIG. 3 shows an example of the posture relationship between the object model and the camera. It is assumed that the shape of the object model is defined in the local coordinate system of the object model. The coordinate transformation parameters from the object model coordinate system to the camera coordinate system are τ = <τ r , τ t
>. τ r = (θ, φ, ψ) is a rotation component, and τ t =
(X t , y t , z t ) T is the translation vector (T
Represents transposition). At this time, the value Pc of the point P on the object model in the camera coordinate system is as shown in Expression 1. Where R
(Τ r ) is a rotation matrix based on τ r . Moreover, the point of the camera coordinate system P c = (x c, y c, z c) projected point P s to the screen coordinate system of T is as Equation 2.
【0011】[0011]
【数1】Pc=R(τr)P+τt ## EQU1 ## P c = R (τ r ) P + τ t
【0012】[0012]
【数2】 (Equation 2)
【0013】画像エッジの集合をL、モデルエッジの集
合をE、モデルエッジe∈Eを姿勢τによって2次元画
像に投影したエッジ(投影エッジと呼ぶ)をesあるい
はes(τ)と表す。入力画像中の物体を認識する問題
を、数3を満たす姿勢τと、EからLへの写像m=
{(e,l)|e∈E,l∈L}を求める問題として定
式化する。ただし、数3で、Dは2つの線分間の距離で
あり、たとえば、2つの線分の両端点間のユークリッド
距離の和で定義するが、2つの線分の両端点が一致した
ときに0となるならば、他の距離尺度でもよい。また、
対応する画像エッジをもたないモデルエッジがあっても
よい。[0013] represents a set of image edge L, and a set of model edge E, the model edge e∈E by the attitude tau (referred to as the projection edge) projected edges in a two-dimensional image and a e s or e s (tau) . The problem of recognizing an object in an input image is represented by a posture τ satisfying Expression 3, and a mapping m from E to L =
It is formulated as a problem to obtain {(e, l) | e {E, l {L}}. In Equation 3, D is a distance between two line segments. For example, D is defined as a sum of Euclidean distances between both end points of the two line segments. If so, another distance scale may be used. Also,
There may be model edges that do not have corresponding image edges.
【0014】[0014]
【数3】 (Equation 3)
【0015】Sでは、物体姿勢τ全体を探索しなければ
ならず、計算量が膨大になる。そこで、Sの探索空間を
分割し、解を段階的に求めることで、計算量の軽減を図
る。具体的には、まず数4によりエッジの直線方程式が
一致しうるかどうかで対応エッジを絞り込み、次に、数
5により、端点の一致により対応エッジを 点Qが一致するときの両エッジの傾きの差の絶対値であ
り、数6で定義される。数6のslope(x)はエッ
ジxの傾きである。D1により投影エッジと画像エッジ
の直線方程式が一致しうるかどうかが判定される。In S, the entire object posture τ must be searched, and the amount of calculation becomes enormous. Therefore, the search space of S is divided and the solution is obtained in a stepwise manner, thereby reducing the amount of calculation. Specifically, first, the corresponding edges are narrowed down according to whether or not the straight line equations of the edges can match according to Equation 4, and then the corresponding edges are determined according to Equation 5 by matching the end points. This is the absolute value of the difference between the inclinations of the two edges when the point Q coincides, and is defined by Equation 6. The slope (x) in Equation 6 is the slope of the edge x. Whether linear equations of the projected edge and the image edge may coincide with D 1 is determined.
【0016】[0016]
【数4】 (Equation 4)
【0017】[0017]
【数5】 (Equation 5)
【0018】[0018]
【数6】 (Equation 6)
【0019】S1は直線方程式が一致しうるモデルエッ
ジeと画像エッジlの対の集合となる。S2は、S1で
得られたエッジ対応候補のうち、2つのエッジの両端点
が一致するものの集合であり、S2=Sが成り立つ。こ
れにより、Sを求めるには、まずS1を求め、次にS2
を求めればよい。[0019] S 1 is the set of pairs of model edge e and image edges l linearly equation can match. S 2, of the edge correspondence candidates obtained in S 1, the set of those end points of the two edges are matched, S 2 = S holds. Thus, in order to determine the S, and first obtains the S 1, then S 2
Should be obtained.
【0020】次に、S1とS2の具体的な計算方法、お
よび、その際に探索空間が小さくなることを示す。ま
ず、S1は回転成分τrにだけ依存し、τtによらな
い。こ て不変であることを導けばよい。この証明を以下に示
す。Next, a specific calculation method of S 1 and S 2 and a reduction in the search space at that time will be described. First, S 1 depends only on the rotation component τ r and not on τ t . This It is only necessary to guide that it is immutable. This proof is shown below.
【0021】 姿勢τにおける投影エッジesの傾きは数8のようにな
る。ここで、数1より、 によらない。また、u,vは画像で決まる。よって、数
8のslope(es)はτtに対して不変である。
(証明終り)なお、Qを画像エッジl上のどの点にとっ
てもS1は変わらない。[0021] The inclination of the projection edge e s in attitude τ is as Equation 8. Here, from Equation 1, It does not depend. U and v are determined by the image. Therefore, the slope (e s ) in Equation 8 is invariant to τ t .
(Proof end) Incidentally, S 1 does not change the Q for any point on the image edge l.
【0022】[0022]
【数7】 (Equation 7)
【0023】[0023]
【数8】 (Equation 8)
【0024】以上により、S1ではτtを考慮しなくて
よいため、探索空間はτrだけとなって小さくなる。そ
こで、S1を求めるために、τrを適当な区画で離散化
し、その各離散値についてΣ(e,l)∈mD1(es
(τ),l)=0を満たすエッジ対応mを求める。τr
の各角度は0〜360度以内なので有限個の区画で覆う
ことができる。By [0024] As described above, since it is not necessary to consider the S 1 τ t, the search space is reduced become the only τ r. Therefore, in order to obtain the S 1, tau r discretized with an appropriate compartments, for each of its discrete values Σ (e, l) ∈m D 1 (e s
An edge correspondence m that satisfies (τ), l) = 0 is obtained. τ r
Can be covered by a finite number of sections because each angle is within 0 to 360 degrees.
【0025】S2は、S1で得られた各τrに対して、
投影エッジと画像エッジの一致度の高い平行移動成分τ
tを計算することで求める。画像エッジと投影エッジの
両端点が一致する平行移動成分τtは、数9および数1
0で計算できる。ただし、P1,P2はモデルエッジの
端点、Q1=(u1,v1)T,Q2=(u2,v2)
Tは画像エッジの端点である。S 2 is, for each τ r obtained in S 1 ,
A translation component τ with a high degree of coincidence between the projected edge and the image edge
It is obtained by calculating t . The translation component τ t at which both end points of the image edge and the projection edge coincide with each other is expressed by Expression 9 and Expression 1
0 can be calculated. Here, P 1 and P 2 are end points of the model edge, and Q 1 = (u 1 , v 1 ) T , Q 2 = (u 2 , v 2 )
T is the end point of the image edge.
【0026】[0026]
【数9】 τt=FR(τr)(P2−P1)−R(τr)P1 Τ t = FR (τ r ) (P 2 −P 1 ) −R (τ r ) P 1
【0027】[0027]
【数10】 (Equation 10)
【0028】投影エッジと画像エッジの一致度の高い平
行移動成分τtは、次のように求める。まず、S1で得
られた各τrごとに、そのτrにおけるエッジ対応mに
含まれる各エッジ対(e,l)に対して数9によりτt
を計算し、τtの分布を得る。そして、その分布におい
て最も頻度の高いτtを選ぶ。実際は、誤差などにより
τtが一点に集中することはなく、ある程度の範面に分
散するので、投票やクラスタリングなどの手法で最も頻
度の高いτtを求める。これは、D=0を近似的に満た
すエッジ対の数が最も多いτtをS2の解として選んだ
ことを意味する。最後に、そのτtとそのときのτrと
mを組にして解の候補とする。The translation component τ t having a high degree of coincidence between the projected edge and the image edge is obtained as follows. First, for each τ r obtained in S 1 , for each edge pair (e, l) included in the edge correspondence m at that τ r , τ t
To obtain the distribution of τ t . Then, the most frequent t in the distribution is selected. Actually, τ t is not concentrated on one point due to an error or the like, but is dispersed over a certain range, so that the most frequent τ t is obtained by a method such as voting or clustering. This means that the selected edge pair largest number tau t of satisfying D = 0 to approximately as a solution of S 2. Finally, τ t and τ r and m at that time are paired and set as a solution candidate.
【0029】以上の方法では、画像エッジの端点が正確
に抽出できていることを前提としている。画像エッジが
完全に抽出できる場合は、その端点をそのまま採用し
て、モデルエッジの端点と照合すればよい。しかし、実
際の画像においては、照明条件やコントラストによって
エッジがうまく抽出できなかったり、他の物体が重なっ
たためにエッジが隠されたりして、画像エッジの端点が
完全に抽出できないことがある。この場合は、2つの画
像エッジの交点を各画像エッジの端点候補として、上記
方法を適用する。ここで言う画像エッジの交点とは、画
像エッジを延長した直線の交点である。画像エッジの交
点は直線部分がある程度抽出できれば求めることができ
るため、上記方法により、画像エッジが途切れている場
合でも、画像エッジの端点候補を安定して求めることが
できる。The above method is based on the premise that the end points of the image edges have been accurately extracted. If the image edge can be completely extracted, the end point may be adopted as it is and collated with the end point of the model edge. However, in an actual image, edges may not be extracted properly due to lighting conditions or contrast, or edges may be hidden due to the overlapping of other objects, and the end points of the image edges may not be completely extracted. In this case, the above method is applied by using the intersection of two image edges as the end point candidates of each image edge. The intersection of the image edges referred to here is the intersection of a straight line extending the image edge. Since the intersection of the image edges can be obtained if a straight line portion can be extracted to some extent, even if the image edge is interrupted, the above-mentioned method can stably obtain the end point candidates of the image edge.
【0030】以下、図面を参照しながら、本発明による
物体認識方法の実施例について説明する。図1は、本発
明の一実施例を示す流れ図である。ステップS1〜S7
が請求項1の範囲、ステップS1〜S11が請求項2の
範囲である。まず、ステップS1で、物体姿勢の回転成
分τrを適当な区画で離散化する。離散化の方法として
は、たとえば、τrをオイラー角で表し、その3つの角
度それぞれを離散化する方法がある。あるいは、物体モ
デルの周囲を球で囲み、その球面を多角形に分割して、
球の中心から多角形の中心へのベクトルの方位角(離散
化された2つの角度になる)とそのベクトルを軸とした
回転角の離散値の組を用いる方法もある。なお、τrの
範囲は、物体がカメラに対してとりうる姿勢の範囲に限
定してよい。An embodiment of the object recognition method according to the present invention will be described below with reference to the drawings. FIG. 1 is a flowchart showing one embodiment of the present invention. Steps S1 to S7
Is the scope of claim 1, and steps S1 to S11 are the scope of claim 2. First, in step S1, the rotation component τ r of the object posture is discretized in appropriate sections. As a discretization method, for example, there is a method in which τ r is represented by an Euler angle, and each of the three angles is discretized. Alternatively, surround the object model with a sphere, divide the sphere into polygons,
There is also a method using a set of an azimuth angle of the vector from the center of the sphere to the center of the polygon (which becomes two discretized angles) and a discrete value of a rotation angle around the vector. Note that the range of τ r may be limited to the range of postures that the object can take with respect to the camera.
【0031】次に、ステップS2とステップS3によ
り、τrの各離散値に対して、ステップS4〜S7を繰
り返す。ステップS4では、現在のτrにおいて、各モ
デルエッジeについて、投影エッジes(τ)が画像エ
ッジlのどれかと同一直線上に存在し なるか調べる。th1は閾値であり、D1(e
s(τ),l)<th1であれば、D1(es(τ),
l)=0が成り立っていると見なす。これは、種々の誤
差により実際にD1(es(τ),l)=0になること
が少ないためである。段落0021で示したように、D
1の計算にτtは必要ない。そして、同一直線上に存在
しうるモデルエッジと画像エッジの対(エッジ対)をエ
ッジ対集合Mに登録する。Next, the steps S2 and S3, for each discrete value of tau r, repeats steps S4 to S7. In step S4, at the current τ r , for each model edge e, the projected edge e s (τ) exists on the same straight line as one of the image edges l. Find out if it will. th 1 is a threshold, and D 1 (e
s (τ), l) <if th 1, D 1 (e s (τ),
l) = 0 is assumed to hold. This is because D 1 ( es (τ), 1) is rarely actually 0 due to various errors. As shown in paragraph 0021, D
Τ t is not required for the calculation of 1 . Then, a pair (edge pair) of a model edge and an image edge that can exist on the same straight line is registered in an edge pair set M.
【0032】次に、ステップS5で、エッジ対集合Mに
含まれるモデルエッジの本数が所定の閾値を越えたかど
うかを調べ、越えていればステップS6に進み、越えて
いなければステップS2に戻って次のτrについて計算
する。Next, in step S5, it is checked whether or not the number of model edges included in the edge pair set M has exceeded a predetermined threshold value. If it has, the process proceeds to step S6. If not, the process returns to step S2. The following τ r is calculated.
【0033】ステップS6では、ステップS4で得られ
たエッジ対集合Mに含まれるモデルエッジと画像エッジ
の各対に対して、それらの両端点をもとに数9および数
10を用いて平行移動成分τtを計算する。In step S6, each pair of the model edge and the image edge included in the edge pair set M obtained in step S4 is translated by using equations (9) and (10) based on their both end points. Calculate the component τ t .
【0034】次に、ステップS7で、現在のτrにおい
て、エッジ対集合Mの全エッジ対に対する平行移動成分
τtの分布をもとにτtが集中する領域を求めて、集中
度の高い領域の代表値を解の候補とする。集中する領域
を求める方法としては、たとえば、投票(votin
g)による方法やクラスタリングによる方法がある。投
票による方法では、τtの範囲を適当に離散化して、τ
tのヒストグラムを作り、頻度(投票数)の大きいτt
を解の候補とする。クラスタリングによる方法では、各
τtの近傍にある他のτtの個数を調べて、個数の多い
τtを解の候補とする。得られたτtと現在のτrを組
にして、物体姿勢の候補とする。Next, in step S7, at the current τ r , an area where τ t is concentrated is determined based on the distribution of the translation component τ t with respect to all the edge pairs of the edge pair set M, and a high degree of concentration is obtained. The representative value of the region is set as a solution candidate. As a method of obtaining the area to be concentrated, for example, a voting (votin
g) and clustering. In the voting method, the range of τ t is appropriately discretized to obtain τ
Create a histogram of t , τ t with large frequency (number of votes)
Is a solution candidate. In the process according to clustering by examining the number of other tau t in the neighborhood of the tau t, the number of large tau t and candidate solutions. The obtained [tau] t and the current [tau] r are paired and set as a candidate for the object posture.
【0035】次に、ステップS8とステップS9によ
り、ステップS7で得られた物体姿勢の各候補につい
て、ステップS10を繰り返す。ステップS10では、
現在の姿勢候補<τr,τt>における各エッジ対をも
とに、モデルエッジの一致度を計算する。そして、その
一致度の総和を、その姿勢候補における物体モデルの一
致度とする。Next, in steps S8 and S9, step S10 is repeated for each object posture candidate obtained in step S7. In step S10,
Current posture candidate <τ r, τ t> each edge pair in the original, to calculate the degree of matching of the model edge. Then, the sum of the degrees of coincidence is set as the degree of coincidence of the object model in the posture candidate.
【0036】モデルエッジの一致度は、たとえば次のよ
うに計算する。すなわち、モデルエッジeとエッジ対を
なす画像エッジの中で、段落0013で述べたD
(es,l)が最小となるlをeに対応する画像エッジ
であるとし、そのときのD(es,l)の値をeの一致
度とする。この場合、一致度が小さいほど、よく一致し
ていることになる。このとき、モデルエッジeに対応す
る画像エッジがない場合にeに適当なペナルティ点を与
えることにより、画像エッジに対応するモデルエッジが
全くない物体姿勢が解として選ばれるのを防ぐ処理を加
えてもよい。The coincidence of the model edges is calculated, for example, as follows. That is, in the image edge forming an edge pair with the model edge e, the D
(E s, l) and is an image edges corresponding to l that minimizes the e, its time of D (e s, l) the value of the matching degree e. In this case, the smaller the degree of coincidence, the better the coincidence. At this time, when there is no image edge corresponding to the model edge e, by giving an appropriate penalty point to e, processing is added to prevent an object posture having no model edge corresponding to the image edge from being selected as a solution. Is also good.
【0037】最後に、ステップS11において、物体モ
デルの一致度が最もよい物体姿勢<τr,τt>を選び
姿勢推定の解とする。また、その姿勢においてD
(es,l)を最小とするエッジ対の集合を物体認識の
解とする。Finally, in step S11, the object posture <τ r , τ t > with the highest degree of coincidence between the object models is selected as a solution for posture estimation. In that position, D
(E s, l) a solution of object recognition the set of edge pair that minimizes the.
【0038】図2は、本発明の物体認識方法を実行する
ためのシステム構成の一例を示すブロック図である。図
2で点線で囲んだ範囲が、本発明の物体認識方法を実行
する部分である。まず、エッジ抽出部1は入力画像から
画像エッジを抽出して、その結果をエッジ分割部2に渡
す。画像エッジの抽出は、たとえば、画像を微分してそ
の極値を追跡するなどの画像処理によって行う。エッジ
分割部2は、高曲率点や交差点などで画像エッジを直線
分に分割し、その結果を端点検出部3、姿勢計算部4、
エッジ照合部5に渡す。端点検出部3は、直線分に分割
された画像エッジの端点を求め、その結果を姿勢計算部
4とエッジ照合部5に渡す。画像エッジの端点は、段落
0029で述べたように、直線分の端点をそのまま用い
る方法と、画像エッジの交点として求める方法とがあ
る。端点検出部3は、このどちらかを実装するか、ある
いは両方を実装して利用者に選択させる。次に、姿勢計
算部4は、図1のステップS1〜S7に示した処理によ
り、物体モデル記憶部6の物体モデルを参照しながら、
モデルエッジと画像エッジを照合して物体姿勢の候補を
求め、その候補をエッジ照合部5に渡す。エッジ照合部
5は、得られた物体姿勢の各候補に対して、ステップS
8〜S11に示した処理により、物体モデル記憶部6の
物体モデルを参照しながら、モデルエッジと画像エッジ
が最もよく一致する物体姿勢を求め、さらに、そのとき
のエッジ対応を求める。FIG. 2 is a block diagram showing an example of a system configuration for executing the object recognition method of the present invention. The range surrounded by the dotted line in FIG. 2 is a portion for executing the object recognition method of the present invention. First, the edge extracting unit 1 extracts an image edge from an input image, and passes the result to the edge dividing unit 2. The extraction of the image edge is performed by image processing such as, for example, differentiating the image and tracking its extreme value. The edge dividing unit 2 divides an image edge into straight lines at a high curvature point, an intersection, or the like, and divides the result into an end point detecting unit 3, a posture calculating unit 4,
The information is passed to the edge matching unit 5. The end point detection unit 3 obtains the end points of the image edges divided into straight lines, and passes the result to the posture calculation unit 4 and the edge comparison unit 5. As described in paragraph 0029, the end point of the image edge includes a method of using the end point of the straight line as it is and a method of obtaining the end point of the image edge as an intersection of the image edge. The end point detection unit 3 implements either one or both, and allows the user to select one. Next, the posture calculation unit 4 refers to the object model in the object model storage unit 6 by the processing shown in steps S1 to S7 in FIG.
The model edge and the image edge are collated to obtain candidates for the object posture, and the candidates are passed to the edge collation unit 5. The edge matching unit 5 performs step S for each of the obtained candidates for the object posture.
Through the processing shown in steps S8 to S11, the object posture in which the model edge and the image edge best match with each other is determined with reference to the object model in the object model storage unit 6, and the edge correspondence at that time is determined.
【0039】図6は、物体モデルの構成の一例を示す説
明図である。物体モデルは多面体であり、頂点情報、辺
情報、辺接続情報からなる。頂点情報は多面体を構成す
る頂点の3次元空間での座標値の集合である。座標系
は、各物体ごとにローカル座標系を設定して、その座標
系内での座標値にしておくと都合がよい。たとえば、図
6で、頂点p1の座標値は(100,200,0)であ
る。辺情報は、多面体の辺の端点となる頂点の組の集合
である。辺がモデルエッジに相当する。たとえば、図6
で、辺e1は頂点p1と頂点p2をつなぐ線分として定
義されている。FIG. 6 is an explanatory diagram showing an example of the configuration of the object model. The object model is a polyhedron, and includes vertex information, edge information, and edge connection information. The vertex information is a set of coordinate values in a three-dimensional space of the vertices forming the polyhedron. As the coordinate system, it is convenient to set a local coordinate system for each object and to set the coordinate values within the coordinate system. For example, in FIG. 6, the coordinate value of the vertex p1 is (100, 200, 0). The side information is a set of sets of vertices that are end points of the sides of the polyhedron. The side corresponds to the model edge. For example, FIG.
Where the side e1 is defined as a line segment connecting the vertices p1 and p2.
【0040】辺接続情報は、辺の端点を交点として求め
るための他の辺を指定する。たとえば、図6で、辺e1
の一方の端点は辺e5および辺e6との交点であり、も
う一方の端点は辺e2および辺e4との交点である。辺
接続情報は、平行移動成分τtの計算やエッジ照合にお
いて、画像エッジの端点を他の画像エッジとの交点とし
て求める際に、以下のように使われる。いま、辺e1の
接続情報に辺e2があったとする。すると、モデル上で
辺e1の一方の端点は辺e2との交点となるから、画像
上で辺e1に対応する画像エッジの端点は、辺e2とエ
ッジ対をなす画像エッジのどれかとの交点となるはずで
ある。そこで、全画像エッジについてτtを計算するの
ではなく、辺e2とエッジ対をなす画像エッジに絞って
τtを計算する。The side connection information specifies another side for obtaining an end point of the side as an intersection. For example, in FIG.
Is an intersection with the side e5 and the side e6, and the other end is an intersection with the side e2 and the side e4. The edge connection information is used as follows when calculating an end point of an image edge as an intersection with another image edge in the calculation of the translation component τ t or the edge matching. Now, it is assumed that the connection information of the side e1 includes the side e2. Then, on the model, one end point of the side e1 is an intersection with the side e2, so that the end point of the image edge corresponding to the side e1 on the image is the intersection with any one of the image edges forming an edge pair with the side e2. Should be. Therefore, instead of calculating the tau t for all image edges, to calculate the tau t Search in image edge forming the edge e2 and edge pairs.
【0041】次に、本発明の物体認識方法の計算量を記
す。まず、ステップS4では、モデルエッジと画像エッ
ジのすべての対に対して1回ずつ計算を行うので、その
計算量はMNに比例する。ただし、Mはモデルエッジ
数、Nは画像エッジ数である。ステップS6〜S7の計
算量は、平行移動成分τtの計算における画像エッジの
端点の求め方により異なる。画像エッジの端点をそのま
ま用いる場合は、同一直線上に存在しうる投影エッジを
もつモデルエッジと画像エッジのすべての対に対して1
回ずつ計算を行うので、その計算量はMN′に比例す
る。N′はモデル る。次に、画像エッジの交点を端点として用いる場合
は、N′個の画像エッジのそれぞれに対して、その両端
点を求めるための他の画像エッジとの組合せが平均で
(N′−1)2だけあるため、計算量はMN′3に比例
する。ステップS10の計算量も、ステップS6〜S7
の計算量と同様である。Next, the calculation amount of the object recognition method of the present invention will be described. First, in step S4, since the calculation is performed once for every pair of the model edge and the image edge, the calculation amount is proportional to MN. Here, M is the number of model edges, and N is the number of image edges. Computational steps S6~S7 varies depending Determination of the end point of the image edges in the calculation of the parallel movement component tau t. When the end point of the image edge is used as it is, one pair is set for all pairs of the model edge and the image edge having the projection edge which can exist on the same straight line.
Since the calculation is performed each time, the calculation amount is proportional to MN '. N 'is the model You. Next, when the intersection of the image edges is used as an end point, each of the N ′ image edges is averagely combined with another image edge to obtain both end points of (N′−1) 2. since there is only, the amount of calculation is proportional to the MN '3. The calculation amount in step S10 is also determined in steps S6 to S7.
Is the same as the calculation amount of
【0042】以上より、本発明の計算量は、平行移動成
分τtの計算で画像エッジの端点をそのまま用いる場合
は、M(k1N+k2N′+k3N′)となる。k1,
k2,k3は比例定数であり、回転成分τrの離散化区
画数もこれに含まれる。画像エッジの交点を端点として
用いる場合は、M(k1N+k2N′3+k3N′3)
となる。As described above, the calculation amount of the present invention is M (k 1 N + k 2 N ′ + k 3 N ′) when the end point of the image edge is used as it is in the calculation of the translation component τ t . k 1 ,
k 2 and k 3 are proportional constants, and include the number of discretized sections of the rotation component τ r . When an intersection of image edges is used as an end point, M (k 1 N + k 2 N ′ 3 + k 3 N ′ 3 )
Becomes
【0043】[0043]
【発明の効果】以上述べたように、本発明の物体認識方
法によれば、透視投影でカメラをモデル化しているた
め、従来の技術で述べた弱透視投影で近似する方法に比
べ、物体の奥行きが長い場合でも正しく認識できるとい
う効果がある。As described above, according to the object recognition method of the present invention, since the camera is modeled by perspective projection, the object is compared with the method of approximation by weak perspective projection described in the prior art. There is an effect that correct recognition can be performed even when the depth is long.
【0044】本発明の物体認識方法の計算量は、前述の
ように、M(k1N+k2N′+ いずれの計算量も従来の技術の計算量M3N2logN
より小さくなる。したがって、従来の技術よりも計算時
間が短縮されるという効果がある。これは、M,Nが大
きい場合に顕著になる。As described above, the calculation amount of the object recognition method of the present invention is M (k 1 N + k 2 N ′ + Each of the computational amounts is the computational amount M 3 N 2 logN of the prior art.
Smaller. Therefore, there is an effect that the calculation time is shorter than in the conventional technique. This becomes remarkable when M and N are large.
【図1】本発明の物体認識方法の処理手順を示す流れ図FIG. 1 is a flowchart showing a processing procedure of an object recognition method of the present invention.
【図2】本発明の物体認識方法を実行するシステムの構
成を示すブロック図FIG. 2 is a block diagram showing the configuration of a system that executes the object recognition method of the present invention.
【図3】カメラと物体モデルの姿勢関係を示す説明図FIG. 3 is an explanatory diagram showing a posture relationship between a camera and an object model.
【図4】画像中の物体のエッジ画像の一例を示す説明図FIG. 4 is an explanatory diagram illustrating an example of an edge image of an object in an image.
【図5】物体モデルの一例を示す説明図FIG. 5 is an explanatory diagram showing an example of an object model.
【図6】物体モデルのデータ表現の一例を示す説明図FIG. 6 is an explanatory diagram showing an example of data representation of an object model.
1…エッジ抽出部、2…エッジ分割部、3…端点検出
部、4…姿勢計算部、5…エッジ照合部、6…物体モデ
ル記憶部、7…カメラ、8…カメラ座標系、9…画像平
面、10…スクリーン座標系、11…物体モデル、12
…物体座標系。S1〜S11は処理手順のステップであ
る。DESCRIPTION OF SYMBOLS 1 ... Edge extraction part, 2 ... Edge division part, 3 ... Endpoint detection part, 4 ... Attitude calculation part, 5 ... Edge collation part, 6 ... Object model storage part, 7 ... Camera, 8 ... Camera coordinate system, 9 ... Image Plane, 10: screen coordinate system, 11: object model, 12
... object coordinate system. S1 to S11 are steps in the processing procedure.
Claims (2)
あらかじめ登録した物体モデルとを照合して該入力画像
中に写っている物体を認識する方法において、該入力画
像を撮影したカメラの座標系における前記物体モデルの
姿勢の回転成分を離散化し、該回転成分の各離散値ごと
に、前記物体モデルを構成する各モデルエッジの画像平
面への投影像と前記画像エッジ集合の各画像エッジとが
同一直線上に存在しうるかを調べ、同一直線上に存在し
うるモデルエッジと画像エッジの対の集合をエッジ対集
合として求め、該エッジ対集合に含まれるモデルエッジ
の本数が所定の閾値を越えた場合に、該エッジ対集合に
含まれる各エッジ対に対して、該エッジ対に含まれるモ
デルエッジの画像平面への投影像の両端点と該エッジ対
に含まれる画像エッジの両端点とが一致する前記物体モ
デルの姿勢の平行移動成分値を求め、前記エッジ対集合
に対する平行移動成分値の分布において集中度が大きい
領域の代表値を平行移動成分の推定値とし、前記回転成
分値と該平行移動成分の推定値を物体姿勢の候補とする
ことを特徴とする物体認識方法。1. A method for recognizing an object appearing in an input image by comparing a set of image edges extracted from the input image with an object model registered in advance, the coordinate system of a camera which has taken the input image , The rotation component of the posture of the object model is discretized, and for each discrete value of the rotation component, a projected image of each model edge constituting the object model on an image plane and each image edge of the image edge set are It is checked whether or not the model edge can exist on the same straight line, and a set of a pair of the model edge and the image edge which can exist on the same straight line is obtained as an edge pair set. Then, for each edge pair included in the edge pair set, both end points of the projected image of the model edge included in the edge pair onto the image plane and the image edge included in the edge pair. Determine the translation component value of the orientation of the object model that matches the two end points of the edge, the representative value of the region where the degree of concentration is large in the distribution of the translation component value for the edge pair set as the estimated value of the translation component, An object recognition method, wherein the rotation component value and the estimated value of the translation component are set as candidates for an object posture.
勢候補における各モデルエッジの画像平面への投影像と
画像エッジの距離から該モデルエッジの一致度を計算
し、最もよく一致する画像エッジを該モデルエッジに対
応する画像エッジとして選び、全モデルエッジの一致度
の総和が最良となる物体姿勢候補を姿勢推定の解として
選ぶことを特徴とする請求項1記載の物体認識方法。2. For each of the object posture candidates, a degree of coincidence of the model edge is calculated from a distance between the image edge and a projection image of each model edge on the image plane in the object posture candidate. 2. The object recognition method according to claim 1, wherein an edge is selected as an image edge corresponding to the model edge, and an object posture candidate having the best sum of matching degrees of all model edges is selected as a solution for posture estimation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000404599A JP2002197472A (en) | 2000-12-26 | 2000-12-26 | Method for recognizing object |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000404599A JP2002197472A (en) | 2000-12-26 | 2000-12-26 | Method for recognizing object |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002197472A true JP2002197472A (en) | 2002-07-12 |
Family
ID=18868535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000404599A Pending JP2002197472A (en) | 2000-12-26 | 2000-12-26 | Method for recognizing object |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002197472A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007502473A (en) * | 2003-08-15 | 2007-02-08 | スカーペ アクティーゼルスカブ | Computer vision system for classification and spatial localization of bounded 3D objects |
JP2011138490A (en) * | 2009-12-28 | 2011-07-14 | Mitsubishi Electric Research Laboratories Inc | Method for determining pose of object in scene |
JP2012514252A (en) * | 2008-12-29 | 2012-06-21 | コグネックス・コーポレイション | System and method for three-dimensional alignment of objects using machine vision |
JP2012178133A (en) * | 2011-02-03 | 2012-09-13 | Nippon Telegr & Teleph Corp <Ntt> | Subject recognition device, subject recognition method and subject recognition program |
-
2000
- 2000-12-26 JP JP2000404599A patent/JP2002197472A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007502473A (en) * | 2003-08-15 | 2007-02-08 | スカーペ アクティーゼルスカブ | Computer vision system for classification and spatial localization of bounded 3D objects |
US7822264B2 (en) | 2003-08-15 | 2010-10-26 | Scape A/S | Computer-vision system for classification and spatial localization of bounded 3D-objects |
JP4865557B2 (en) * | 2003-08-15 | 2012-02-01 | スカーペ テクノロジーズ アクティーゼルスカブ | Computer vision system for classification and spatial localization of bounded 3D objects |
JP2012514252A (en) * | 2008-12-29 | 2012-06-21 | コグネックス・コーポレイション | System and method for three-dimensional alignment of objects using machine vision |
JP2011138490A (en) * | 2009-12-28 | 2011-07-14 | Mitsubishi Electric Research Laboratories Inc | Method for determining pose of object in scene |
JP2012178133A (en) * | 2011-02-03 | 2012-09-13 | Nippon Telegr & Teleph Corp <Ntt> | Subject recognition device, subject recognition method and subject recognition program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109544677B (en) | Indoor scene main structure reconstruction method and system based on depth image key frame | |
US7616807B2 (en) | System and method for using texture landmarks for improved markerless tracking in augmented reality applications | |
Ellis et al. | Ellipse detection and matching with uncertainty | |
Sharp et al. | ICP registration using invariant features | |
Lamdan et al. | Object recognition by affine invariant matching | |
Gökberk et al. | 3D shape-based face representation and feature extraction for face recognition | |
KR100874817B1 (en) | Facial feature detection method, media and apparatus using stereo combining mechanism | |
JP4625074B2 (en) | Sign-based human-machine interaction | |
Olson | Maximum-likelihood template matching | |
US11893678B2 (en) | Apparatus and method for searching for global minimum of point cloud registration error | |
JP2009104666A (en) | Hierarchical component based object recognition | |
Yang et al. | CubeSLAM: Monocular 3D object detection and SLAM without prior models | |
Armagan et al. | Accurate Camera Registration in Urban Environments Using High-Level Feature Matching. | |
Bhuyan et al. | Trajectory guided recognition of hand gestures having only global motions | |
US6718062B1 (en) | System and method for matching curves of multiple images representing a scene | |
CN112200915A (en) | Front and back deformation amount detection method based on target three-dimensional model texture image | |
Sahin et al. | A learning-based variable size part extraction architecture for 6D object pose recovery in depth images | |
JP3054682B2 (en) | Image processing method | |
WO2018131163A1 (en) | Information processing device, database generation device, method, and program, and storage medium | |
JP2002197472A (en) | Method for recognizing object | |
CN110766728A (en) | Combined image feature accurate matching algorithm based on deep learning | |
Yousif et al. | Real-time RGB-D registration and mapping in texture-less environments using ranked order statistics | |
EP1828959A1 (en) | Face recognition using features along iso-radius contours | |
Dantanarayana et al. | Object recognition and localization from 3D point clouds by maximum-likelihood estimation | |
Başeski et al. | Using multi-modal 3D contours and their relations for vision and robotics |