JP2002197472A - Method for recognizing object - Google Patents

Method for recognizing object

Info

Publication number
JP2002197472A
JP2002197472A JP2000404599A JP2000404599A JP2002197472A JP 2002197472 A JP2002197472 A JP 2002197472A JP 2000404599 A JP2000404599 A JP 2000404599A JP 2000404599 A JP2000404599 A JP 2000404599A JP 2002197472 A JP2002197472 A JP 2002197472A
Authority
JP
Japan
Prior art keywords
edge
image
model
posture
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000404599A
Other languages
Japanese (ja)
Inventor
Masahiro Tomono
正裕 友納
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2000404599A priority Critical patent/JP2002197472A/en
Publication of JP2002197472A publication Critical patent/JP2002197472A/en
Pending legal-status Critical Current

Links

Landscapes

  • Length Measuring Devices By Optical Means (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To recognize a three-dimensional object appearing in a two-dimensional image and the posture estimation of the three-dimensional object under a perspective projection camera model causing no distortion, and also to perform processing with a small amount of calculation. SOLUTION: In this object recognizing method, an input image is collated with an object model, by collating an image edge in the input image with the model edge of the object model by one at a time, for each posture of the object model to a camera. In such a case, the object posture is divided into a rotating component and a parallel moving component, it is first checked whether a projected image to the image plane of the model edge and the image edge exist on the same straight line with respect to the discrete value of the turning component, and a candidate for rotating component value and edge correspondence is narrowed down. Next, a distribution of parallel moving component values fitting each obtained candidate is calculated, and the parallel moving component value of the highest frequency is calculated. Then that parallel moving component value, and the turning component value and the edge correspondence at that time are defined as being the solutions.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、計算機による物体
認識方法に関し、とくに、あらかじめ登録した物体モデ
ルを用いて、入力画像に写った物体を認識し、さらに、
その物体のカメラに対する姿勢を推定する方法に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an object recognition method using a computer, and more particularly to a method for recognizing an object in an input image by using an object model registered in advance.
The present invention relates to a method of estimating a posture of the object with respect to a camera.

【0002】[0002]

【従来の技術】3次元物体モデルを用いて2次元画像に
写った物体を認識する手法として、アラインメント法が
ある(文献:D.P.Huttenlocher an
d S.Ullman,“Recognizing S
olid Objects by Alignment
with an Image”,Internati
onal Journal of Computer
Vision,Vol.5,No.2,pp.195−
212,1990)。アラインメント法では、カメラモ
デルを弱透視投影で近似し、3次元物体を2次元画像平
面に投影する変換行列を定義する。そして、物体モデル
の特徴点集合と画像上の特徴点集合とから、この変換行
列を求める問題として物体認識を定式化する。具体的に
は、物体モデル上の特徴点3個と画像上の特徴点3個を
対応づけた場合の変換行列を求め、その変換行列によっ
て他のモデル特徴点を画像平面に投影した結果が他の画
像特徴点とうまく一致するかを調べる。この処理を、モ
デル特徴点および画像特徴点の各組合せに対して行い、
一致度の高い変換行列を解とする。特徴点としては、画
像から抽出されたエッジの角、交点、変曲点などが用い
られる。
2. Description of the Related Art An alignment method is known as a method for recognizing an object in a two-dimensional image using a three-dimensional object model (Reference: DP Huttenlocher an.
dS. Ullman, "Recognizing S
old Objects by Alignment
with an Image ", Internati
onal Journal of Computer
Vision, Vol. 5, No. 2, pp. 195-
212, 1990). In the alignment method, a camera model is approximated by weak perspective projection, and a transformation matrix for projecting a three-dimensional object onto a two-dimensional image plane is defined. Then, object recognition is formulated as a problem for obtaining the transformation matrix from the feature point set of the object model and the feature point set on the image. Specifically, a transformation matrix is obtained when three feature points on the object model are associated with three feature points on the image, and the result of projecting other model feature points on the image plane using the transformation matrix is different. Find out if the image feature points match well. Perform this process for each combination of model feature points and image feature points,
A transformation matrix having a high degree of coincidence is used as a solution. As the feature points, corners, intersections, inflection points, and the like of edges extracted from the image are used.

【0003】[0003]

【発明が解決しようとする課題】通常、カメラの正確な
モデル化には透視投影が用いられる。透視投影では、物
体は奥行きに反比例して画像上に小さく写る。しかし、
アラインメント法では、弱透視投影で近似しているた
め、物体の奥行きが長い場合に投影像の歪みが大きくな
り、正しく認識できなくなるという問題がある。
Normally, perspective projection is used for accurate modeling of a camera. In perspective projection, an object appears small on an image in inverse proportion to depth. But,
In the alignment method, since the projection is approximated by weak perspective projection, when the depth of the object is long, the distortion of the projected image becomes large, and there is a problem that the image cannot be correctly recognized.

【0004】また、アラインメント法では、モデル特徴
点数をM、画像特徴点数をNとすると、その計算量はM
logNに比例し、特徴点数が増えると計算時間
が膨大になるという問題がある。
In the alignment method, if the number of model feature points is M and the number of image feature points is N, the amount of calculation is M
There is a problem that the calculation time becomes enormous as the number of feature points increases in proportion to 3 N 2 logN.

【0005】なお、アラインメント法に限らず、3次元
物体認識は探索空間が大きく、計算量が膨大であるとい
う問題をもつ。これは、物体認識の問題が、モデル特徴
と画像特徴の対応づけ問題と物体姿勢を求める問題とを
同時に解く必要があるためである。
[0005] In addition to the alignment method, three-dimensional object recognition has a problem that a search space is large and a calculation amount is enormous. This is because the problem of object recognition needs to simultaneously solve the problem of associating model features with image features and the problem of finding an object posture.

【0006】[0006]

【課題を解決するための手段】以上の課題を解決するた
めに、本発明の物体認識方法では、入力画像中の2次元
エッジ(画像エッジと呼ぶ)と物体モデルの3次元エッ
ジ(モデルエッジと呼ぶ)とを1本ずつ照合すること
で、入力画像と物体モデルの照合を行う。この照合は物
体の各姿勢ごとに行い、しかも、物体姿勢を回転成分と
平行移動成分に分けて段階的に行う。
In order to solve the above problems, in the object recognition method of the present invention, a two-dimensional edge (referred to as an image edge) in an input image and a three-dimensional edge of an object model (a model edge and a model edge) are used. ) Are collated one by one to collate the input image with the object model. This collation is performed for each posture of the object, and the object posture is divided into a rotation component and a translation component in a stepwise manner.

【0007】請求項1の発明は、該入力画像を撮影した
カメラの座標系における前記物体モデルの姿勢の回転成
分を離散化し、該回転成分の各離散値ごとに、前記物体
モデルを構成する各モデルエッジの画像平面への投影像
と前記画像エッジ集合の各画像エッジとが同一直線上に
存在しうるかを調べ、同一直線上に存在しうるモデルエ
ッジと画像エッジの対の集合をエッジ対集合として求
め、該エッジ対集合に含まれるモデルエッジの本数が所
定の閾値を越えた場合に、該エッジ対集合に含まれる各
エッジ対に対して、該エッジ対に含まれるモデルエッジ
の画像平面への投影像の両端点と該エッジ対に含まれる
画像エッジの両端点とが一致する前記物体モデルの姿勢
の平行移動成分値を求め、前記エッジ対集合に対する平
行移動成分値の分布において集中度が大きい領域の代表
値を平行移動成分の推定値とし、前記回転成分値と該平
行移動成分の推定値を物体姿勢の候補とする。
According to a first aspect of the present invention, a rotation component of the posture of the object model in a coordinate system of a camera which has taken the input image is discretized, and each discrete value of the rotation component constitutes the object model. It is checked whether the projected image of the model edge on the image plane and each image edge of the image edge set can be on the same straight line, and a set of a model edge and an image edge pair that can be on the same straight line is determined as an edge pair set. When the number of model edges included in the edge pair set exceeds a predetermined threshold, for each edge pair included in the edge pair set, the image plane of the model edge included in the edge pair is transferred to the image plane. A translation component value of the posture of the object model in which both end points of the projected image of the object model coincide with both end points of the image edge included in the edge pair, and the distribution of the translation component value with respect to the edge pair set A representative value of the region Oite concentration degree is greater as the estimated value of the translation component, the estimated value of the rotation component value and the parallel movement component and a candidate object position.

【0008】請求項2の発明は、前記物体姿勢候補の各
々ごとに、該物体姿勢候補における各モデルエッジの画
像平面への投影像と画像エッジの距離から該モデルエッ
ジの一致度を計算し、最もよく一致する画像エッジを該
モデルエッジに対応する画像エッジとして選び、全モデ
ルエッジの一致度の総和が最良となる物体姿勢候補を姿
勢推定の解として選ぶ。
According to a second aspect of the present invention, for each of the object posture candidates, a degree of coincidence of the model edge is calculated from a distance between the image edge and a projection image of each model edge on the image plane in the object posture candidate, The image edge that best matches is selected as the image edge corresponding to the model edge, and the candidate object posture with the best sum of the degrees of coincidence of all model edges is selected as a solution for posture estimation.

【0009】[0009]

【発明の実施の形態】本発明の物体認識方法は、多面体
で構成された3次元物体モデルを用いて、1枚の2次元
画像に写った物体の認識とカメラに対する物体姿勢の推
定を行うものである。入力画像と物体モデルの照合は、
画像エッジとモデルエッジとを1本ずつ照合することで
行う。物体モデルは多面体なので、モデルエッジはすべ
て直線分である。対象とする2次元画像は、計算機に取
り込まれたデジタル画像であり、画像処理分野で広く行
われているエッジ抽出処理により画像エッジを得てお
く。また、全ての画像エッジは、高曲率点や交差点など
を分割点として直線分に分割されているとする。図4
に、机の画像エッジの例を示す。ただし、実際の画像に
は、対象物体以外の画像エッジも多数含まれる。図5
に、机の物体モデルの例を示す。物体モデルは、物体の
特徴的な部分だけを表現するものでよく、この例では、
通常の視点から見える机の前面部分だけをモデル化して
いる。
DESCRIPTION OF THE PREFERRED EMBODIMENTS The object recognition method of the present invention uses a three-dimensional object model composed of a polyhedron to recognize an object shown in one two-dimensional image and to estimate an object posture with respect to a camera. It is. Matching the input image with the object model
This is performed by checking the image edge and the model edge one by one. Since the object model is a polyhedron, all model edges are straight lines. The target two-dimensional image is a digital image captured by a computer, and an image edge is obtained by an edge extraction process widely performed in the field of image processing. It is also assumed that all image edges are divided into straight lines using high curvature points and intersections as division points. FIG.
The example of the image edge of a desk is shown below. However, the actual image includes many image edges other than the target object. FIG.
The following shows an example of a desk object model. The object model may represent only a characteristic part of the object, and in this example,
Only the front part of the desk that can be seen from a normal viewpoint is modeled.

【0010】次に、本発明の物体認識方法の原理を説明
する。まず、透視投影によるカメラモデルは以下のよう
に定式化される。物体モデルとカメラの姿勢関係の一例
を図3に示す。物体モデルの形状は、物体モデルのロー
カル座標系で定義するとする。物体モデル座標系からカ
メラ座標系への座標変換パラメータをτ=<τ,τ
>とする。τ=(θ,φ,ψ)は回転成分、τ
(x,y,zは平行移動ベクトルである(T
は転置を表す)。このとき、物体モデル上の点Pのカメ
ラ座標系での値Pは、数1のようになる。ただし、R
(τ)はτによる回転行列である。さらに、カメラ
座標系の点P=(x,y,zのスクリーン
座標系への投影点Pは数2のようになる。
Next, the principle of the object recognition method of the present invention will be described. First, a camera model based on perspective projection is formulated as follows. FIG. 3 shows an example of the posture relationship between the object model and the camera. It is assumed that the shape of the object model is defined in the local coordinate system of the object model. The coordinate transformation parameters from the object model coordinate system to the camera coordinate system are τ = <τ r , τ t
>. τ r = (θ, φ, ψ) is a rotation component, and τ t =
(X t , y t , z t ) T is the translation vector (T
Represents transposition). At this time, the value Pc of the point P on the object model in the camera coordinate system is as shown in Expression 1. Where R
r ) is a rotation matrix based on τ r . Moreover, the point of the camera coordinate system P c = (x c, y c, z c) projected point P s to the screen coordinate system of T is as Equation 2.

【0011】[0011]

【数1】P=R(τ)P+τ ## EQU1 ## P c = R (τ r ) P + τ t

【0012】[0012]

【数2】 (Equation 2)

【0013】画像エッジの集合をL、モデルエッジの集
合をE、モデルエッジe∈Eを姿勢τによって2次元画
像に投影したエッジ(投影エッジと呼ぶ)をeあるい
はe(τ)と表す。入力画像中の物体を認識する問題
を、数3を満たす姿勢τと、EからLへの写像m=
{(e,l)|e∈E,l∈L}を求める問題として定
式化する。ただし、数3で、Dは2つの線分間の距離で
あり、たとえば、2つの線分の両端点間のユークリッド
距離の和で定義するが、2つの線分の両端点が一致した
ときに0となるならば、他の距離尺度でもよい。また、
対応する画像エッジをもたないモデルエッジがあっても
よい。
[0013] represents a set of image edge L, and a set of model edge E, the model edge e∈E by the attitude tau (referred to as the projection edge) projected edges in a two-dimensional image and a e s or e s (tau) . The problem of recognizing an object in an input image is represented by a posture τ satisfying Expression 3, and a mapping m from E to L =
It is formulated as a problem to obtain {(e, l) | e {E, l {L}}. In Equation 3, D is a distance between two line segments. For example, D is defined as a sum of Euclidean distances between both end points of the two line segments. If so, another distance scale may be used. Also,
There may be model edges that do not have corresponding image edges.

【0014】[0014]

【数3】 (Equation 3)

【0015】Sでは、物体姿勢τ全体を探索しなければ
ならず、計算量が膨大になる。そこで、Sの探索空間を
分割し、解を段階的に求めることで、計算量の軽減を図
る。具体的には、まず数4によりエッジの直線方程式が
一致しうるかどうかで対応エッジを絞り込み、次に、数
5により、端点の一致により対応エッジを 点Qが一致するときの両エッジの傾きの差の絶対値であ
り、数6で定義される。数6のslope(x)はエッ
ジxの傾きである。Dにより投影エッジと画像エッジ
の直線方程式が一致しうるかどうかが判定される。
In S, the entire object posture τ must be searched, and the amount of calculation becomes enormous. Therefore, the search space of S is divided and the solution is obtained in a stepwise manner, thereby reducing the amount of calculation. Specifically, first, the corresponding edges are narrowed down according to whether or not the straight line equations of the edges can match according to Equation 4, and then the corresponding edges are determined according to Equation 5 by matching the end points. This is the absolute value of the difference between the inclinations of the two edges when the point Q coincides, and is defined by Equation 6. The slope (x) in Equation 6 is the slope of the edge x. Whether linear equations of the projected edge and the image edge may coincide with D 1 is determined.

【0016】[0016]

【数4】 (Equation 4)

【0017】[0017]

【数5】 (Equation 5)

【0018】[0018]

【数6】 (Equation 6)

【0019】Sは直線方程式が一致しうるモデルエッ
ジeと画像エッジlの対の集合となる。Sは、S
得られたエッジ対応候補のうち、2つのエッジの両端点
が一致するものの集合であり、S=Sが成り立つ。こ
れにより、Sを求めるには、まずSを求め、次にS
を求めればよい。
[0019] S 1 is the set of pairs of model edge e and image edges l linearly equation can match. S 2, of the edge correspondence candidates obtained in S 1, the set of those end points of the two edges are matched, S 2 = S holds. Thus, in order to determine the S, and first obtains the S 1, then S 2
Should be obtained.

【0020】次に、SとSの具体的な計算方法、お
よび、その際に探索空間が小さくなることを示す。ま
ず、Sは回転成分τにだけ依存し、τによらな
い。こ て不変であることを導けばよい。この証明を以下に示
す。
Next, a specific calculation method of S 1 and S 2 and a reduction in the search space at that time will be described. First, S 1 depends only on the rotation component τ r and not on τ t . This It is only necessary to guide that it is immutable. This proof is shown below.

【0021】 姿勢τにおける投影エッジeの傾きは数8のようにな
る。ここで、数1より、 によらない。また、u,vは画像で決まる。よって、数
8のslope(e)はτに対して不変である。
(証明終り)なお、Qを画像エッジl上のどの点にとっ
てもSは変わらない。
[0021] The inclination of the projection edge e s in attitude τ is as Equation 8. Here, from Equation 1, It does not depend. U and v are determined by the image. Therefore, the slope (e s ) in Equation 8 is invariant to τ t .
(Proof end) Incidentally, S 1 does not change the Q for any point on the image edge l.

【0022】[0022]

【数7】 (Equation 7)

【0023】[0023]

【数8】 (Equation 8)

【0024】以上により、Sではτを考慮しなくて
よいため、探索空間はτだけとなって小さくなる。そ
こで、Sを求めるために、τを適当な区画で離散化
し、その各離散値についてΣ(e,l)∈m(e
(τ),l)=0を満たすエッジ対応mを求める。τ
の各角度は0〜360度以内なので有限個の区画で覆う
ことができる。
By [0024] As described above, since it is not necessary to consider the S 1 τ t, the search space is reduced become the only τ r. Therefore, in order to obtain the S 1, tau r discretized with an appropriate compartments, for each of its discrete values Σ (e, l) ∈m D 1 (e s
An edge correspondence m that satisfies (τ), l) = 0 is obtained. τ r
Can be covered by a finite number of sections because each angle is within 0 to 360 degrees.

【0025】Sは、Sで得られた各τに対して、
投影エッジと画像エッジの一致度の高い平行移動成分τ
を計算することで求める。画像エッジと投影エッジの
両端点が一致する平行移動成分τは、数9および数1
0で計算できる。ただし、P,Pはモデルエッジの
端点、Q=(u,v,Q=(u,v
は画像エッジの端点である。
S 2 is, for each τ r obtained in S 1 ,
A translation component τ with a high degree of coincidence between the projected edge and the image edge
It is obtained by calculating t . The translation component τ t at which both end points of the image edge and the projection edge coincide with each other is expressed by Expression 9 and Expression 1
0 can be calculated. Here, P 1 and P 2 are end points of the model edge, and Q 1 = (u 1 , v 1 ) T , Q 2 = (u 2 , v 2 )
T is the end point of the image edge.

【0026】[0026]

【数9】 τ=FR(τ)(P−P)−R(τ)P Τ t = FR (τ r ) (P 2 −P 1 ) −R (τ r ) P 1

【0027】[0027]

【数10】 (Equation 10)

【0028】投影エッジと画像エッジの一致度の高い平
行移動成分τは、次のように求める。まず、Sで得
られた各τごとに、そのτにおけるエッジ対応mに
含まれる各エッジ対(e,l)に対して数9によりτ
を計算し、τの分布を得る。そして、その分布におい
て最も頻度の高いτを選ぶ。実際は、誤差などにより
τが一点に集中することはなく、ある程度の範面に分
散するので、投票やクラスタリングなどの手法で最も頻
度の高いτを求める。これは、D=0を近似的に満た
すエッジ対の数が最も多いτをSの解として選んだ
ことを意味する。最後に、そのτとそのときのτ
mを組にして解の候補とする。
The translation component τ t having a high degree of coincidence between the projected edge and the image edge is obtained as follows. First, for each τ r obtained in S 1 , for each edge pair (e, l) included in the edge correspondence m at that τ r , τ t
To obtain the distribution of τ t . Then, the most frequent t in the distribution is selected. Actually, τ t is not concentrated on one point due to an error or the like, but is dispersed over a certain range, so that the most frequent τ t is obtained by a method such as voting or clustering. This means that the selected edge pair largest number tau t of satisfying D = 0 to approximately as a solution of S 2. Finally, τ t and τ r and m at that time are paired and set as a solution candidate.

【0029】以上の方法では、画像エッジの端点が正確
に抽出できていることを前提としている。画像エッジが
完全に抽出できる場合は、その端点をそのまま採用し
て、モデルエッジの端点と照合すればよい。しかし、実
際の画像においては、照明条件やコントラストによって
エッジがうまく抽出できなかったり、他の物体が重なっ
たためにエッジが隠されたりして、画像エッジの端点が
完全に抽出できないことがある。この場合は、2つの画
像エッジの交点を各画像エッジの端点候補として、上記
方法を適用する。ここで言う画像エッジの交点とは、画
像エッジを延長した直線の交点である。画像エッジの交
点は直線部分がある程度抽出できれば求めることができ
るため、上記方法により、画像エッジが途切れている場
合でも、画像エッジの端点候補を安定して求めることが
できる。
The above method is based on the premise that the end points of the image edges have been accurately extracted. If the image edge can be completely extracted, the end point may be adopted as it is and collated with the end point of the model edge. However, in an actual image, edges may not be extracted properly due to lighting conditions or contrast, or edges may be hidden due to the overlapping of other objects, and the end points of the image edges may not be completely extracted. In this case, the above method is applied by using the intersection of two image edges as the end point candidates of each image edge. The intersection of the image edges referred to here is the intersection of a straight line extending the image edge. Since the intersection of the image edges can be obtained if a straight line portion can be extracted to some extent, even if the image edge is interrupted, the above-mentioned method can stably obtain the end point candidates of the image edge.

【0030】以下、図面を参照しながら、本発明による
物体認識方法の実施例について説明する。図1は、本発
明の一実施例を示す流れ図である。ステップS1〜S7
が請求項1の範囲、ステップS1〜S11が請求項2の
範囲である。まず、ステップS1で、物体姿勢の回転成
分τを適当な区画で離散化する。離散化の方法として
は、たとえば、τをオイラー角で表し、その3つの角
度それぞれを離散化する方法がある。あるいは、物体モ
デルの周囲を球で囲み、その球面を多角形に分割して、
球の中心から多角形の中心へのベクトルの方位角(離散
化された2つの角度になる)とそのベクトルを軸とした
回転角の離散値の組を用いる方法もある。なお、τ
範囲は、物体がカメラに対してとりうる姿勢の範囲に限
定してよい。
An embodiment of the object recognition method according to the present invention will be described below with reference to the drawings. FIG. 1 is a flowchart showing one embodiment of the present invention. Steps S1 to S7
Is the scope of claim 1, and steps S1 to S11 are the scope of claim 2. First, in step S1, the rotation component τ r of the object posture is discretized in appropriate sections. As a discretization method, for example, there is a method in which τ r is represented by an Euler angle, and each of the three angles is discretized. Alternatively, surround the object model with a sphere, divide the sphere into polygons,
There is also a method using a set of an azimuth angle of the vector from the center of the sphere to the center of the polygon (which becomes two discretized angles) and a discrete value of a rotation angle around the vector. Note that the range of τ r may be limited to the range of postures that the object can take with respect to the camera.

【0031】次に、ステップS2とステップS3によ
り、τの各離散値に対して、ステップS4〜S7を繰
り返す。ステップS4では、現在のτにおいて、各モ
デルエッジeについて、投影エッジe(τ)が画像エ
ッジlのどれかと同一直線上に存在し なるか調べる。thは閾値であり、D(e
(τ),l)<thであれば、D(e(τ),
l)=0が成り立っていると見なす。これは、種々の誤
差により実際にD(e(τ),l)=0になること
が少ないためである。段落0021で示したように、D
の計算にτは必要ない。そして、同一直線上に存在
しうるモデルエッジと画像エッジの対(エッジ対)をエ
ッジ対集合Mに登録する。
Next, the steps S2 and S3, for each discrete value of tau r, repeats steps S4 to S7. In step S4, at the current τ r , for each model edge e, the projected edge e s (τ) exists on the same straight line as one of the image edges l. Find out if it will. th 1 is a threshold, and D 1 (e
s (τ), l) <if th 1, D 1 (e s (τ),
l) = 0 is assumed to hold. This is because D 1 ( es (τ), 1) is rarely actually 0 due to various errors. As shown in paragraph 0021, D
Τ t is not required for the calculation of 1 . Then, a pair (edge pair) of a model edge and an image edge that can exist on the same straight line is registered in an edge pair set M.

【0032】次に、ステップS5で、エッジ対集合Mに
含まれるモデルエッジの本数が所定の閾値を越えたかど
うかを調べ、越えていればステップS6に進み、越えて
いなければステップS2に戻って次のτについて計算
する。
Next, in step S5, it is checked whether or not the number of model edges included in the edge pair set M has exceeded a predetermined threshold value. If it has, the process proceeds to step S6. If not, the process returns to step S2. The following τ r is calculated.

【0033】ステップS6では、ステップS4で得られ
たエッジ対集合Mに含まれるモデルエッジと画像エッジ
の各対に対して、それらの両端点をもとに数9および数
10を用いて平行移動成分τを計算する。
In step S6, each pair of the model edge and the image edge included in the edge pair set M obtained in step S4 is translated by using equations (9) and (10) based on their both end points. Calculate the component τ t .

【0034】次に、ステップS7で、現在のτにおい
て、エッジ対集合Mの全エッジ対に対する平行移動成分
τの分布をもとにτが集中する領域を求めて、集中
度の高い領域の代表値を解の候補とする。集中する領域
を求める方法としては、たとえば、投票(votin
g)による方法やクラスタリングによる方法がある。投
票による方法では、τの範囲を適当に離散化して、τ
のヒストグラムを作り、頻度(投票数)の大きいτ
を解の候補とする。クラスタリングによる方法では、各
τの近傍にある他のτの個数を調べて、個数の多い
τを解の候補とする。得られたτと現在のτを組
にして、物体姿勢の候補とする。
Next, in step S7, at the current τ r , an area where τ t is concentrated is determined based on the distribution of the translation component τ t with respect to all the edge pairs of the edge pair set M, and a high degree of concentration is obtained. The representative value of the region is set as a solution candidate. As a method of obtaining the area to be concentrated, for example, a voting (votin
g) and clustering. In the voting method, the range of τ t is appropriately discretized to obtain τ
Create a histogram of t , τ t with large frequency (number of votes)
Is a solution candidate. In the process according to clustering by examining the number of other tau t in the neighborhood of the tau t, the number of large tau t and candidate solutions. The obtained [tau] t and the current [tau] r are paired and set as a candidate for the object posture.

【0035】次に、ステップS8とステップS9によ
り、ステップS7で得られた物体姿勢の各候補につい
て、ステップS10を繰り返す。ステップS10では、
現在の姿勢候補<τ,τ>における各エッジ対をも
とに、モデルエッジの一致度を計算する。そして、その
一致度の総和を、その姿勢候補における物体モデルの一
致度とする。
Next, in steps S8 and S9, step S10 is repeated for each object posture candidate obtained in step S7. In step S10,
Current posture candidate <τ r, τ t> each edge pair in the original, to calculate the degree of matching of the model edge. Then, the sum of the degrees of coincidence is set as the degree of coincidence of the object model in the posture candidate.

【0036】モデルエッジの一致度は、たとえば次のよ
うに計算する。すなわち、モデルエッジeとエッジ対を
なす画像エッジの中で、段落0013で述べたD
(e,l)が最小となるlをeに対応する画像エッジ
であるとし、そのときのD(e,l)の値をeの一致
度とする。この場合、一致度が小さいほど、よく一致し
ていることになる。このとき、モデルエッジeに対応す
る画像エッジがない場合にeに適当なペナルティ点を与
えることにより、画像エッジに対応するモデルエッジが
全くない物体姿勢が解として選ばれるのを防ぐ処理を加
えてもよい。
The coincidence of the model edges is calculated, for example, as follows. That is, in the image edge forming an edge pair with the model edge e, the D
(E s, l) and is an image edges corresponding to l that minimizes the e, its time of D (e s, l) the value of the matching degree e. In this case, the smaller the degree of coincidence, the better the coincidence. At this time, when there is no image edge corresponding to the model edge e, by giving an appropriate penalty point to e, processing is added to prevent an object posture having no model edge corresponding to the image edge from being selected as a solution. Is also good.

【0037】最後に、ステップS11において、物体モ
デルの一致度が最もよい物体姿勢<τ,τ>を選び
姿勢推定の解とする。また、その姿勢においてD
(e,l)を最小とするエッジ対の集合を物体認識の
解とする。
Finally, in step S11, the object posture <τ r , τ t > with the highest degree of coincidence between the object models is selected as a solution for posture estimation. In that position, D
(E s, l) a solution of object recognition the set of edge pair that minimizes the.

【0038】図2は、本発明の物体認識方法を実行する
ためのシステム構成の一例を示すブロック図である。図
2で点線で囲んだ範囲が、本発明の物体認識方法を実行
する部分である。まず、エッジ抽出部1は入力画像から
画像エッジを抽出して、その結果をエッジ分割部2に渡
す。画像エッジの抽出は、たとえば、画像を微分してそ
の極値を追跡するなどの画像処理によって行う。エッジ
分割部2は、高曲率点や交差点などで画像エッジを直線
分に分割し、その結果を端点検出部3、姿勢計算部4、
エッジ照合部5に渡す。端点検出部3は、直線分に分割
された画像エッジの端点を求め、その結果を姿勢計算部
4とエッジ照合部5に渡す。画像エッジの端点は、段落
0029で述べたように、直線分の端点をそのまま用い
る方法と、画像エッジの交点として求める方法とがあ
る。端点検出部3は、このどちらかを実装するか、ある
いは両方を実装して利用者に選択させる。次に、姿勢計
算部4は、図1のステップS1〜S7に示した処理によ
り、物体モデル記憶部6の物体モデルを参照しながら、
モデルエッジと画像エッジを照合して物体姿勢の候補を
求め、その候補をエッジ照合部5に渡す。エッジ照合部
5は、得られた物体姿勢の各候補に対して、ステップS
8〜S11に示した処理により、物体モデル記憶部6の
物体モデルを参照しながら、モデルエッジと画像エッジ
が最もよく一致する物体姿勢を求め、さらに、そのとき
のエッジ対応を求める。
FIG. 2 is a block diagram showing an example of a system configuration for executing the object recognition method of the present invention. The range surrounded by the dotted line in FIG. 2 is a portion for executing the object recognition method of the present invention. First, the edge extracting unit 1 extracts an image edge from an input image, and passes the result to the edge dividing unit 2. The extraction of the image edge is performed by image processing such as, for example, differentiating the image and tracking its extreme value. The edge dividing unit 2 divides an image edge into straight lines at a high curvature point, an intersection, or the like, and divides the result into an end point detecting unit 3, a posture calculating unit 4,
The information is passed to the edge matching unit 5. The end point detection unit 3 obtains the end points of the image edges divided into straight lines, and passes the result to the posture calculation unit 4 and the edge comparison unit 5. As described in paragraph 0029, the end point of the image edge includes a method of using the end point of the straight line as it is and a method of obtaining the end point of the image edge as an intersection of the image edge. The end point detection unit 3 implements either one or both, and allows the user to select one. Next, the posture calculation unit 4 refers to the object model in the object model storage unit 6 by the processing shown in steps S1 to S7 in FIG.
The model edge and the image edge are collated to obtain candidates for the object posture, and the candidates are passed to the edge collation unit 5. The edge matching unit 5 performs step S for each of the obtained candidates for the object posture.
Through the processing shown in steps S8 to S11, the object posture in which the model edge and the image edge best match with each other is determined with reference to the object model in the object model storage unit 6, and the edge correspondence at that time is determined.

【0039】図6は、物体モデルの構成の一例を示す説
明図である。物体モデルは多面体であり、頂点情報、辺
情報、辺接続情報からなる。頂点情報は多面体を構成す
る頂点の3次元空間での座標値の集合である。座標系
は、各物体ごとにローカル座標系を設定して、その座標
系内での座標値にしておくと都合がよい。たとえば、図
6で、頂点p1の座標値は(100,200,0)であ
る。辺情報は、多面体の辺の端点となる頂点の組の集合
である。辺がモデルエッジに相当する。たとえば、図6
で、辺e1は頂点p1と頂点p2をつなぐ線分として定
義されている。
FIG. 6 is an explanatory diagram showing an example of the configuration of the object model. The object model is a polyhedron, and includes vertex information, edge information, and edge connection information. The vertex information is a set of coordinate values in a three-dimensional space of the vertices forming the polyhedron. As the coordinate system, it is convenient to set a local coordinate system for each object and to set the coordinate values within the coordinate system. For example, in FIG. 6, the coordinate value of the vertex p1 is (100, 200, 0). The side information is a set of sets of vertices that are end points of the sides of the polyhedron. The side corresponds to the model edge. For example, FIG.
Where the side e1 is defined as a line segment connecting the vertices p1 and p2.

【0040】辺接続情報は、辺の端点を交点として求め
るための他の辺を指定する。たとえば、図6で、辺e1
の一方の端点は辺e5および辺e6との交点であり、も
う一方の端点は辺e2および辺e4との交点である。辺
接続情報は、平行移動成分τの計算やエッジ照合にお
いて、画像エッジの端点を他の画像エッジとの交点とし
て求める際に、以下のように使われる。いま、辺e1の
接続情報に辺e2があったとする。すると、モデル上で
辺e1の一方の端点は辺e2との交点となるから、画像
上で辺e1に対応する画像エッジの端点は、辺e2とエ
ッジ対をなす画像エッジのどれかとの交点となるはずで
ある。そこで、全画像エッジについてτを計算するの
ではなく、辺e2とエッジ対をなす画像エッジに絞って
τを計算する。
The side connection information specifies another side for obtaining an end point of the side as an intersection. For example, in FIG.
Is an intersection with the side e5 and the side e6, and the other end is an intersection with the side e2 and the side e4. The edge connection information is used as follows when calculating an end point of an image edge as an intersection with another image edge in the calculation of the translation component τ t or the edge matching. Now, it is assumed that the connection information of the side e1 includes the side e2. Then, on the model, one end point of the side e1 is an intersection with the side e2, so that the end point of the image edge corresponding to the side e1 on the image is the intersection with any one of the image edges forming an edge pair with the side e2. Should be. Therefore, instead of calculating the tau t for all image edges, to calculate the tau t Search in image edge forming the edge e2 and edge pairs.

【0041】次に、本発明の物体認識方法の計算量を記
す。まず、ステップS4では、モデルエッジと画像エッ
ジのすべての対に対して1回ずつ計算を行うので、その
計算量はMNに比例する。ただし、Mはモデルエッジ
数、Nは画像エッジ数である。ステップS6〜S7の計
算量は、平行移動成分τの計算における画像エッジの
端点の求め方により異なる。画像エッジの端点をそのま
ま用いる場合は、同一直線上に存在しうる投影エッジを
もつモデルエッジと画像エッジのすべての対に対して1
回ずつ計算を行うので、その計算量はMN′に比例す
る。N′はモデル る。次に、画像エッジの交点を端点として用いる場合
は、N′個の画像エッジのそれぞれに対して、その両端
点を求めるための他の画像エッジとの組合せが平均で
(N′−1)だけあるため、計算量はMN′に比例
する。ステップS10の計算量も、ステップS6〜S7
の計算量と同様である。
Next, the calculation amount of the object recognition method of the present invention will be described. First, in step S4, since the calculation is performed once for every pair of the model edge and the image edge, the calculation amount is proportional to MN. Here, M is the number of model edges, and N is the number of image edges. Computational steps S6~S7 varies depending Determination of the end point of the image edges in the calculation of the parallel movement component tau t. When the end point of the image edge is used as it is, one pair is set for all pairs of the model edge and the image edge having the projection edge which can exist on the same straight line.
Since the calculation is performed each time, the calculation amount is proportional to MN '. N 'is the model You. Next, when the intersection of the image edges is used as an end point, each of the N ′ image edges is averagely combined with another image edge to obtain both end points of (N′−1) 2. since there is only, the amount of calculation is proportional to the MN '3. The calculation amount in step S10 is also determined in steps S6 to S7.
Is the same as the calculation amount of

【0042】以上より、本発明の計算量は、平行移動成
分τの計算で画像エッジの端点をそのまま用いる場合
は、M(kN+kN′+kN′)となる。k
,kは比例定数であり、回転成分τの離散化区
画数もこれに含まれる。画像エッジの交点を端点として
用いる場合は、M(kN+kN′+kN′
となる。
As described above, the calculation amount of the present invention is M (k 1 N + k 2 N ′ + k 3 N ′) when the end point of the image edge is used as it is in the calculation of the translation component τ t . k 1 ,
k 2 and k 3 are proportional constants, and include the number of discretized sections of the rotation component τ r . When an intersection of image edges is used as an end point, M (k 1 N + k 2 N ′ 3 + k 3 N ′ 3 )
Becomes

【0043】[0043]

【発明の効果】以上述べたように、本発明の物体認識方
法によれば、透視投影でカメラをモデル化しているた
め、従来の技術で述べた弱透視投影で近似する方法に比
べ、物体の奥行きが長い場合でも正しく認識できるとい
う効果がある。
As described above, according to the object recognition method of the present invention, since the camera is modeled by perspective projection, the object is compared with the method of approximation by weak perspective projection described in the prior art. There is an effect that correct recognition can be performed even when the depth is long.

【0044】本発明の物体認識方法の計算量は、前述の
ように、M(kN+kN′+ いずれの計算量も従来の技術の計算量MlogN
より小さくなる。したがって、従来の技術よりも計算時
間が短縮されるという効果がある。これは、M,Nが大
きい場合に顕著になる。
As described above, the calculation amount of the object recognition method of the present invention is M (k 1 N + k 2 N ′ + Each of the computational amounts is the computational amount M 3 N 2 logN of the prior art.
Smaller. Therefore, there is an effect that the calculation time is shorter than in the conventional technique. This becomes remarkable when M and N are large.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の物体認識方法の処理手順を示す流れ図FIG. 1 is a flowchart showing a processing procedure of an object recognition method of the present invention.

【図2】本発明の物体認識方法を実行するシステムの構
成を示すブロック図
FIG. 2 is a block diagram showing the configuration of a system that executes the object recognition method of the present invention.

【図3】カメラと物体モデルの姿勢関係を示す説明図FIG. 3 is an explanatory diagram showing a posture relationship between a camera and an object model.

【図4】画像中の物体のエッジ画像の一例を示す説明図FIG. 4 is an explanatory diagram illustrating an example of an edge image of an object in an image.

【図5】物体モデルの一例を示す説明図FIG. 5 is an explanatory diagram showing an example of an object model.

【図6】物体モデルのデータ表現の一例を示す説明図FIG. 6 is an explanatory diagram showing an example of data representation of an object model.

【符号の説明】[Explanation of symbols]

1…エッジ抽出部、2…エッジ分割部、3…端点検出
部、4…姿勢計算部、5…エッジ照合部、6…物体モデ
ル記憶部、7…カメラ、8…カメラ座標系、9…画像平
面、10…スクリーン座標系、11…物体モデル、12
…物体座標系。S1〜S11は処理手順のステップであ
る。
DESCRIPTION OF SYMBOLS 1 ... Edge extraction part, 2 ... Edge division part, 3 ... Endpoint detection part, 4 ... Attitude calculation part, 5 ... Edge collation part, 6 ... Object model storage part, 7 ... Camera, 8 ... Camera coordinate system, 9 ... Image Plane, 10: screen coordinate system, 11: object model, 12
... object coordinate system. S1 to S11 are steps in the processing procedure.

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】入力画像から抽出した画像エッジの集合と
あらかじめ登録した物体モデルとを照合して該入力画像
中に写っている物体を認識する方法において、該入力画
像を撮影したカメラの座標系における前記物体モデルの
姿勢の回転成分を離散化し、該回転成分の各離散値ごと
に、前記物体モデルを構成する各モデルエッジの画像平
面への投影像と前記画像エッジ集合の各画像エッジとが
同一直線上に存在しうるかを調べ、同一直線上に存在し
うるモデルエッジと画像エッジの対の集合をエッジ対集
合として求め、該エッジ対集合に含まれるモデルエッジ
の本数が所定の閾値を越えた場合に、該エッジ対集合に
含まれる各エッジ対に対して、該エッジ対に含まれるモ
デルエッジの画像平面への投影像の両端点と該エッジ対
に含まれる画像エッジの両端点とが一致する前記物体モ
デルの姿勢の平行移動成分値を求め、前記エッジ対集合
に対する平行移動成分値の分布において集中度が大きい
領域の代表値を平行移動成分の推定値とし、前記回転成
分値と該平行移動成分の推定値を物体姿勢の候補とする
ことを特徴とする物体認識方法。
1. A method for recognizing an object appearing in an input image by comparing a set of image edges extracted from the input image with an object model registered in advance, the coordinate system of a camera which has taken the input image , The rotation component of the posture of the object model is discretized, and for each discrete value of the rotation component, a projected image of each model edge constituting the object model on an image plane and each image edge of the image edge set are It is checked whether or not the model edge can exist on the same straight line, and a set of a pair of the model edge and the image edge which can exist on the same straight line is obtained as an edge pair set. Then, for each edge pair included in the edge pair set, both end points of the projected image of the model edge included in the edge pair onto the image plane and the image edge included in the edge pair. Determine the translation component value of the orientation of the object model that matches the two end points of the edge, the representative value of the region where the degree of concentration is large in the distribution of the translation component value for the edge pair set as the estimated value of the translation component, An object recognition method, wherein the rotation component value and the estimated value of the translation component are set as candidates for an object posture.
【請求項2】前記物体姿勢候補の各々ごとに、該物体姿
勢候補における各モデルエッジの画像平面への投影像と
画像エッジの距離から該モデルエッジの一致度を計算
し、最もよく一致する画像エッジを該モデルエッジに対
応する画像エッジとして選び、全モデルエッジの一致度
の総和が最良となる物体姿勢候補を姿勢推定の解として
選ぶことを特徴とする請求項1記載の物体認識方法。
2. For each of the object posture candidates, a degree of coincidence of the model edge is calculated from a distance between the image edge and a projection image of each model edge on the image plane in the object posture candidate. 2. The object recognition method according to claim 1, wherein an edge is selected as an image edge corresponding to the model edge, and an object posture candidate having the best sum of matching degrees of all model edges is selected as a solution for posture estimation.
JP2000404599A 2000-12-26 2000-12-26 Method for recognizing object Pending JP2002197472A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000404599A JP2002197472A (en) 2000-12-26 2000-12-26 Method for recognizing object

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000404599A JP2002197472A (en) 2000-12-26 2000-12-26 Method for recognizing object

Publications (1)

Publication Number Publication Date
JP2002197472A true JP2002197472A (en) 2002-07-12

Family

ID=18868535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000404599A Pending JP2002197472A (en) 2000-12-26 2000-12-26 Method for recognizing object

Country Status (1)

Country Link
JP (1) JP2002197472A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007502473A (en) * 2003-08-15 2007-02-08 スカーペ アクティーゼルスカブ Computer vision system for classification and spatial localization of bounded 3D objects
JP2011138490A (en) * 2009-12-28 2011-07-14 Mitsubishi Electric Research Laboratories Inc Method for determining pose of object in scene
JP2012514252A (en) * 2008-12-29 2012-06-21 コグネックス・コーポレイション System and method for three-dimensional alignment of objects using machine vision
JP2012178133A (en) * 2011-02-03 2012-09-13 Nippon Telegr & Teleph Corp <Ntt> Subject recognition device, subject recognition method and subject recognition program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007502473A (en) * 2003-08-15 2007-02-08 スカーペ アクティーゼルスカブ Computer vision system for classification and spatial localization of bounded 3D objects
US7822264B2 (en) 2003-08-15 2010-10-26 Scape A/S Computer-vision system for classification and spatial localization of bounded 3D-objects
JP4865557B2 (en) * 2003-08-15 2012-02-01 スカーペ テクノロジーズ アクティーゼルスカブ Computer vision system for classification and spatial localization of bounded 3D objects
JP2012514252A (en) * 2008-12-29 2012-06-21 コグネックス・コーポレイション System and method for three-dimensional alignment of objects using machine vision
JP2011138490A (en) * 2009-12-28 2011-07-14 Mitsubishi Electric Research Laboratories Inc Method for determining pose of object in scene
JP2012178133A (en) * 2011-02-03 2012-09-13 Nippon Telegr & Teleph Corp <Ntt> Subject recognition device, subject recognition method and subject recognition program

Similar Documents

Publication Publication Date Title
CN109544677B (en) Indoor scene main structure reconstruction method and system based on depth image key frame
US7616807B2 (en) System and method for using texture landmarks for improved markerless tracking in augmented reality applications
Ellis et al. Ellipse detection and matching with uncertainty
Sharp et al. ICP registration using invariant features
Lamdan et al. Object recognition by affine invariant matching
Gökberk et al. 3D shape-based face representation and feature extraction for face recognition
KR100874817B1 (en) Facial feature detection method, media and apparatus using stereo combining mechanism
JP4625074B2 (en) Sign-based human-machine interaction
Olson Maximum-likelihood template matching
US11893678B2 (en) Apparatus and method for searching for global minimum of point cloud registration error
JP2009104666A (en) Hierarchical component based object recognition
Yang et al. CubeSLAM: Monocular 3D object detection and SLAM without prior models
Armagan et al. Accurate Camera Registration in Urban Environments Using High-Level Feature Matching.
Bhuyan et al. Trajectory guided recognition of hand gestures having only global motions
US6718062B1 (en) System and method for matching curves of multiple images representing a scene
CN112200915A (en) Front and back deformation amount detection method based on target three-dimensional model texture image
Sahin et al. A learning-based variable size part extraction architecture for 6D object pose recovery in depth images
JP3054682B2 (en) Image processing method
WO2018131163A1 (en) Information processing device, database generation device, method, and program, and storage medium
JP2002197472A (en) Method for recognizing object
CN110766728A (en) Combined image feature accurate matching algorithm based on deep learning
Yousif et al. Real-time RGB-D registration and mapping in texture-less environments using ranked order statistics
EP1828959A1 (en) Face recognition using features along iso-radius contours
Dantanarayana et al. Object recognition and localization from 3D point clouds by maximum-likelihood estimation
Başeski et al. Using multi-modal 3D contours and their relations for vision and robotics