JP6188345B2 - Information processing apparatus and information processing method - Google Patents

Information processing apparatus and information processing method Download PDF

Info

Publication number
JP6188345B2
JP6188345B2 JP2013028346A JP2013028346A JP6188345B2 JP 6188345 B2 JP6188345 B2 JP 6188345B2 JP 2013028346 A JP2013028346 A JP 2013028346A JP 2013028346 A JP2013028346 A JP 2013028346A JP 6188345 B2 JP6188345 B2 JP 6188345B2
Authority
JP
Japan
Prior art keywords
viewpoint
shape model
information processing
image
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013028346A
Other languages
Japanese (ja)
Other versions
JP2014157509A (en
JP2014157509A5 (en
Inventor
雅人 青葉
雅人 青葉
奥野 泰弘
泰弘 奥野
貴之 猿田
貴之 猿田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2013028346A priority Critical patent/JP6188345B2/en
Publication of JP2014157509A publication Critical patent/JP2014157509A/en
Publication of JP2014157509A5 publication Critical patent/JP2014157509A5/ja
Application granted granted Critical
Publication of JP6188345B2 publication Critical patent/JP6188345B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、画像における対象物体の位置姿勢推定技術に関するものである。   The present invention relates to a technique for estimating the position and orientation of a target object in an image.

対象物体を撮像した画像から該対象物体を検出することを課題とした画像認識に関し、多くの研究開発がおこなわれてきた。画像認識技術はさまざまな分野に応用され、例えば顔認識や、工場における部品認識など、多くの実問題に利用されてきている。   A lot of research and development has been conducted on image recognition in which an object is to detect a target object from an image of the target object. Image recognition technology has been applied to various fields and has been used for many real problems such as face recognition and parts recognition in factories.

画像パターン認識の観点で考えた場合、入力された情報をどのようにしてクラス分類するか、という研究がおこなわれている。例えば、ニューラルネットワークやSVM、Randomized Treeや非特許文献1によるFERNなど、さまざまな手法が提案されている。これらの手法における識別器を生成する際には、学習画像が必要となる。   From the viewpoint of image pattern recognition, research has been conducted on how to classify input information. For example, various methods such as a neural network, SVM, Randomized Tree, and FERN according to Non-Patent Document 1 have been proposed. A learning image is required when generating a discriminator in these methods.

近年の工業的な視覚認識では、例えば山積みされた部品を検出するような、3次元的に姿勢自由度の高い対象物体を認識するニーズもある。3次元的な姿勢を検出しようとする場合には、対象物体のさまざまな姿勢に対応する学習画像が必要となる。ロボットによる部品のピッキングなどを目的とした認識タスクでは、対象物体の姿勢情報は極めて重要となる。   In recent industrial visual recognition, there is a need to recognize a target object having a high degree of freedom of posture in a three-dimensional manner, for example, detecting piled parts. In order to detect a three-dimensional posture, learning images corresponding to various postures of the target object are required. In recognition tasks aimed at picking parts by a robot, the posture information of the target object is extremely important.

学習画像に対応する姿勢は、オイラー角や四元数などのパラメータによって表現されるが、このような姿勢を既知とするような対象物体の学習画像を、実写画像として用意することは難しい。特許文献1では、撮影対象物体とカメラの相対位置姿勢を計測しながら手持ちカメラで画像を撮影し、撮影数が不充分な位置姿勢に対するカメラの移動方向、回転角等を表示することで、必要な全周囲画像データセットが取得できる方法を提案している。   The posture corresponding to the learning image is expressed by parameters such as Euler angles and quaternions. However, it is difficult to prepare a learning image of a target object that makes such posture known as a real image. In Patent Document 1, it is necessary to take an image with a handheld camera while measuring the relative position and orientation of the object to be photographed and the camera, and display the moving direction, rotation angle, etc. of the camera with respect to the position and orientation where the number of photographing is insufficient. A method that can obtain a complete omnidirectional image data set is proposed.

一方、CADなどの3次元モデルデータによる任意姿勢のCG画像を生成し、これを学習画像とすることがよく行われる。3次元モデルを用いたCGでは、視点を自由に設定することができるため、実写撮影と比べて大量の学習画像を生成することが容易である。特に、デプスマップなどの距離情報を用いて対象物体の位置姿勢を判別する場合には、3次元モデルから得られる距離情報を用いて学習画像として扱うこともできる。   On the other hand, it is often performed to generate a CG image of an arbitrary posture based on three-dimensional model data such as CAD and use it as a learning image. In the CG using the three-dimensional model, the viewpoint can be set freely, so that it is easy to generate a large amount of learning images as compared with the real-photographing. In particular, when the position and orientation of a target object is determined using distance information such as a depth map, it can be handled as a learning image using distance information obtained from a three-dimensional model.

特開2011−198349号公報JP 2011-198349 A

M.Ozuysal,et al., ”Fast Keypoint Recognition using Random Ferns”, IEEE Trans. on Pattern Analysis and Machine Intelligence,(2010).M.M. Ozuyal, et al. "Fast Keypoint Recognition using Random Ferns", IEEE Trans. on Pattern Analysis and Machine Intelligence, (2010).

3次元モデルからCG画像を生成する際、そのモデルをどこから見た画像を生成するのか、といった視点の設定を行う必要がある。学習画像を生成するための視点は離散的に設定されるもので、設定された視点の位置から見たときに得られる対象物体の画像をCGで生成することで、各姿勢の学習画像を得ることになる。   When generating a CG image from a three-dimensional model, it is necessary to set a viewpoint such as where an image viewed from the model is generated. The viewpoint for generating the learning image is set discretely, and the learning image of each posture is obtained by generating an image of the target object obtained when viewed from the position of the set viewpoint with CG. It will be.

対象物体の姿勢自由度が高い場合には、検出時の入力画像における対象物体の姿勢と、離散的に定義された学習画像の姿勢とが、完全に一致することはほとんどない。そのため、識別器としては、学習に使われた姿勢と最も類似した姿勢はどれか、を判定することになる。そのためには、識別器で用いている特徴が、近傍姿勢間で滑らかに変化していくことが望ましい。   When the degree of freedom of posture of the target object is high, the posture of the target object in the input image at the time of detection hardly matches the posture of the discretely defined learning image. Therefore, the discriminator determines which posture is most similar to the posture used for learning. For this purpose, it is desirable that the features used in the classifier change smoothly between neighboring postures.

しかしながら、対象物体の形状によっては、ある姿勢の近辺で、その特徴に急激な変化が発生する場合がある。そのような姿勢の近辺では、識別器が対応できる範囲は極端に狭いため、姿勢に関する認識精度の低下が発生する。   However, depending on the shape of the target object, there may be a sudden change in the characteristics in the vicinity of a certain posture. In the vicinity of such a posture, the range that can be handled by the discriminator is extremely narrow, which causes a reduction in recognition accuracy regarding the posture.

本発明はこのような問題に鑑みてなされたものであり、入力画像中の対象物体の姿勢推定を行う場合に、特定の姿勢クラス近傍における姿勢に関する認識精度の低下を抑制するための技術を提供することを目的とする。   The present invention has been made in view of such problems, and provides a technique for suppressing a decrease in recognition accuracy related to a posture in the vicinity of a specific posture class when performing posture estimation of a target object in an input image. The purpose is to do.

本発明の目的を達成するために、例えば、本発明の情報処理装置は、対象物体の姿勢を推定する識別器の学習を行うために該識別器に与える学習用画像を生成する情報処理装置であって、
前記対象物体の形状モデルに対して少なくとも1つの視点を設定する設定手段と、
前記設定された視点から前記形状モデルを観察した場合の前記視点から前記形状モデルにおける各領域までの距離の値の分布から、前記形状モデルの平面度を導出する導出手段と、
前記設定された視点において導出された平面度が閾値以下の場合に、前記設定された視点から前記形状モデルを見た該形状モデルの画像を、前記学習用画像として生成する生成手段と
を備えることを特徴とする。
In order to achieve the object of the present invention, for example, the information processing apparatus of the present invention is an information processing apparatus that generates a learning image to be given to a discriminator for learning a discriminator that estimates the posture of a target object. There,
Setting means for setting at least one viewpoint for the shape model of the target object;
Deriving means for deriving the flatness of the shape model from the distribution of distance values from the viewpoint to each region in the shape model when the shape model is observed from the set viewpoint;
Generating means for generating, as the learning image, an image of the shape model obtained by viewing the shape model from the set viewpoint when the flatness derived from the set viewpoint is equal to or less than a threshold value. It is characterized by.

本発明の構成により、入力画像中の対象物体の姿勢推定を行う場合に、特定の姿勢クラス近傍における姿勢に関する認識精度の低下を抑制することができる。   With the configuration of the present invention, it is possible to suppress a decrease in recognition accuracy related to a posture in the vicinity of a specific posture class when performing posture estimation of the target object in the input image.

測地ドームを用いた画像生成を説明する図。The figure explaining the image generation using a geodesic dome. 入力画像からツリーを作成する処理を説明する図。The figure explaining the process which creates a tree from an input image. 対象物体の姿勢認識の処理のフローチャート。The flowchart of the process of posture recognition of a target object. 特徴の急激な変化について説明する図。The figure explaining the rapid change of a characteristic. 視点のずれによるツリーの分岐状態について説明する図。The figure explaining the branch state of the tree by the shift | offset | difference of a viewpoint. 姿勢クラスのスコアを示す図。The figure which shows the score of a posture class. 識別器を学習する為の処理のフローチャート。The flowchart of the process for learning a discriminator. ステップS1300における処理の詳細を示すフローチャート。The flowchart which shows the detail of the process in step S1300. 放線頻度マップについて説明する図。The figure explaining a ray frequency map. 近傍視点位置を説明する図。The figure explaining a near viewpoint position. ステップS1300における処理の詳細を示すフローチャート。The flowchart which shows the detail of the process in step S1300. 学習画像へのバイアスの付加について説明する図。The figure explaining the addition of the bias to a learning image. 情報処理装置のハードウェア構成例を示すブロック図。The block diagram which shows the hardware structural example of information processing apparatus.

以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載の構成の具体的な実施例の1つである。   Preferred embodiments of the present invention will be described below with reference to the accompanying drawings. The embodiment described below shows an example when the present invention is specifically implemented, and is one of the specific examples of the configurations described in the claims.

[第1の実施形態]
本実施形態について説明を行う前に、先ず、本実施形態を含む以降の各実施形態の課題について説明する。様々な姿勢の3次元モデルのCG画像を生成するためには、まず、3次元モデルを観察する視点の設定を行う必要がある。視点の設定は、代表的には測地ドームによって行われる。
[First Embodiment]
Before describing this embodiment, first, problems of each embodiment including the present embodiment will be described. In order to generate a CG image of a three-dimensional model in various postures, it is first necessary to set a viewpoint for observing the three-dimensional model. The setting of the viewpoint is typically performed by a geodetic dome.

図1に示すように、学習画像は、対象物体の3次元モデルの物体中心A404を中心とした測地ドームA401上の各点(各視点A403)について、該点で様々なロール角で3次元モデルを観察した画像群A402として得られる。視点とその視点におけるロール角との組み合わせ(姿勢クラス)ごとにインデックスが与えられる。例えば、視点数を72とし、それぞれの視点でロール角を30度ごとに変化させながら(面内回転させながら)3次元モデルを観察して該3次元モデルの画像(学習画像)を生成すると、生成する学習画像の枚数は72×12=864枚となる。然るに、辞書としては、72×12=864クラスの識別器を学習させることになる。   As shown in FIG. 1, the learning image is a three-dimensional model with various roll angles at each point (each viewpoint A403) on the geodetic dome A401 centered on the object center A404 of the three-dimensional model of the target object. Is obtained as an image group A402. An index is given for each combination (posture class) of the viewpoint and the roll angle at the viewpoint. For example, when the number of viewpoints is 72 and the roll angle is changed every 30 degrees at each viewpoint (while rotating in-plane), the three-dimensional model is observed and a learning image is generated. The number of learning images to be generated is 72 × 12 = 864. However, as a dictionary, 72 × 12 = 864 classifiers are learned.

以降の説明では、視点数をN、ロール角を回転させる回数(1つの視点について面内回転させる回数)をNrとし、視点のインデックスをn(n=1…N)、面内回転のインデックスをr(r=1…Nr)とする。また、視点nと面内回転rの組み合わせによって決まるクラス(姿勢クラス)のインデックスをν=1…N×Nrで表わすこととする。姿勢クラスνは視点nと面内回転rの組み合わせに対して1対1で対応するため、クラスインデックスをν[n,r]と記述する場合もある。   In the following description, the number of viewpoints is N, the number of rotations of the roll angle (number of in-plane rotations for one viewpoint) is Nr, the viewpoint index is n (n = 1... N), and the in-plane rotation index is Let r (r = 1... Nr). Also, an index of a class (posture class) determined by a combination of the viewpoint n and the in-plane rotation r is represented by ν = 1... N × Nr. Since the attitude class ν has a one-to-one correspondence with the combination of the viewpoint n and the in-plane rotation r, the class index may be described as ν [n, r].

ここでは、Randomized Treeに代表される、二点比較による分岐を行うツリー型識別器を用いて、デプスマップによる対象物体の姿勢認識を行う識別方法に関して、図3のフローチャートに従って説明する。なお、この図3のフローチャートに従った処理は、PC(パーソナルコンピュータ)などの装置によって実行されるものである。もちろん、この装置は、図3のフローチャートに従った処理をCPUに実行させる為のコンピュータプログラムを保持しており、このコンピュータプログラムをCPUが実行することで、図3のフローチャートに従った処理を実行する。   Here, an identification method for performing posture recognition of a target object by a depth map using a tree type classifier that performs branching by two-point comparison, represented by Randomized Tree, will be described with reference to the flowchart of FIG. Note that the processing according to the flowchart of FIG. 3 is executed by a device such as a PC (personal computer). Of course, this apparatus holds a computer program for causing the CPU to execute the process according to the flowchart of FIG. 3, and the CPU executes the process according to the flowchart of FIG. To do.

先ず、ステップS2100における入力画像読み込み工程では、不図示の撮像装置や記憶装置から、対象物体が写っている画像を入力画像として取得する。ここで、この入力画像は、各画素の画素値が、該入力画像を撮像した撮像装置から該画素に写っている対象までの距離の値(距離情報)であるような、いわゆる距離画像(デプスマップ)であるものとする。撮像装置を用いて距離情報を取得するための手法としては、ステレオカメラや空間コード化による装置などが考えられるが、それらの手法に限定されるものではないし、後述するように、入力画像もデプスマップに限定されるものではない。   First, in the input image reading step in step S2100, an image showing the target object is acquired as an input image from an imaging device (not shown) or a storage device. Here, this input image is a so-called distance image (depth information) in which the pixel value of each pixel is a distance value (distance information) from the imaging device that has captured the input image to the target. Map). As a method for acquiring distance information using an imaging device, a stereo camera or a device using spatial coding is conceivable. However, the method is not limited to these methods, and an input image is also depth-dedicated as described later. It is not limited to maps.

次に、ステップS2200における位置姿勢推定工程では、図2に例示する入力画像A500に対し、ウィンドウの位置(探索位置A200)をラスタスキャン順に移動させながら、該ウィンドウ内の画像を用いて後述するツリーを作成する。   Next, in the position / orientation estimation step in step S2200, a tree (to be described later) using the images in the window while moving the window position (search position A200) in the raster scan order with respect to the input image A500 illustrated in FIG. Create

識別処理は、A300で示される複数のツリーm(m=1…M)を使って行われる。ここで、Mはツリーの本数である。各ツリーの基本動作は以下のとおりである。入力画像に対し、ツリーの各ノードでは、入力画像上の異なる2点間のデプス値の大小で分岐が行われる。図2に示されているm番目のツリーA310の、i番目のノードA312で比較される2点A110およびA120のそれぞれの位置(探索位置A200からの相対座標)を、XmiB=(xmiB,ymiB)、XmiL=(xmiL,ymiL)とする。そして、上記2点のそれぞれにおけるデプス値がD(XmiB)、D(XmiL)であるとしたとき、以下の式(1)が満たされればツリーの右下のノードに処理を進め、以下の式(2)が満たされればツリーの左下のノードに処理を進める。   The identification process is performed using a plurality of trees m (m = 1... M) indicated by A300. Here, M is the number of trees. The basic operation of each tree is as follows. With respect to the input image, each node of the tree branches according to the depth value between two different points on the input image. The respective positions (relative coordinates from the search position A200) of the two points A110 and A120 to be compared at the i-th node A312 of the m-th tree A310 shown in FIG. 2 are expressed as XmiB = (xmiB, ymiB). , XmiL = (xmiL, ymiL). Then, assuming that the depth values at each of the two points are D (XmiB) and D (XmiL), if the following expression (1) is satisfied, the process proceeds to the lower right node of the tree. If (2) is satisfied, the process proceeds to the lower left node of the tree.

Figure 0006188345
Figure 0006188345

Figure 0006188345
Figure 0006188345

1枚の入力画像に対して根ノードA311からスタートし、分岐が終端ノードA313に達した時点で、そのツリーに関する分岐は終了する。各ツリーmの各終端ノードには姿勢クラスのインデックスν(ν=1…N×Nr)が割り振られており、これら複数のツリーによる姿勢クラスへの投票数を、各姿勢クラスのスコアとする。   Starting from the root node A311 with respect to one input image, when the branch reaches the end node A313, the branch related to the tree ends. Each end node of each tree m is assigned a posture class index ν (ν = 1... N × Nr), and the number of votes for the posture class by the plurality of trees is used as a score of each posture class.

入力画像Iが与えられた時、ツリーmに対して割り振られていた姿勢クラスのインデックスがIDXm(I)であったとしたとき、姿勢クラスνに関するスコアSCORE(ν,I)は以下の式(3)で定義される。   When the input image I is given and the index of the posture class assigned to the tree m is IDXm (I), the score SCORE (ν, I) regarding the posture class ν is expressed by the following equation (3) ).

Figure 0006188345
Figure 0006188345

ここで、δ(A)は、条件Aが真のときに1を、偽のときに0を返す関数である。すべての探索位置A200に関して検出処理を行った後、スコアに関するピーク検出や閾値処理などを行って、推定される対象物体の位置および姿勢を決定する。   Here, δ (A) is a function that returns 1 when the condition A is true and returns 0 when the condition A is false. After performing detection processing for all search positions A200, peak detection and threshold processing regarding scores are performed to determine the estimated position and orientation of the target object.

次に、このツリーによる識別器の学習方法を簡単に説明する。まず、識別クラスとして与えるすべての姿勢インデックスに対応する学習画像を用意する。各ノードでは、比較する二点の位置をランダムに決定し、検出時と同様の分岐処理を行う。分岐した結果、次のノードに一つの姿勢インデックスに対応する学習画像だけが残った場合には、そのノードを終端ノードとし、姿勢インデックスを割り振る。すべての学習画像に対して、終端ノードが決定されれば、そのツリーに関する学習は終了する。   Next, a classifier learning method using this tree will be briefly described. First, learning images corresponding to all posture indexes given as identification classes are prepared. At each node, the positions of the two points to be compared are determined randomly, and branch processing similar to that at the time of detection is performed. As a result of branching, when only a learning image corresponding to one posture index remains in the next node, that node is set as a terminal node and a posture index is allocated. If the end node is determined for all the learning images, the learning for the tree ends.

測地ドームによって均等間隔で割り振られた視点から生成されたデプス学習画像には、対象物体の形状によってその特徴に急激な変化が発生する場合がある。例えば、図4のように、3次元モデル上の面積の大きな面A410に関する法線A420が、視点A430(視点A)とオブジェクト座標原点を結ぶ視線方向A440と並行である場合を考える。この視点A430から得られる画像A450では、面A410に相当する領域A411内の各画素のデプス値は、何れも同じデプス値となる。この画像では、領域A411から取ったどの2点の組み合わせを比較しても、必ず式(2)の条件を満たすこととなる。このような状態は広い姿勢空間の中でも、視線方向A440と面積の大きな面A410が完全に直交した場合にのみ発生する特異点である。   In the depth learning image generated from the viewpoint allocated at equal intervals by the geodetic dome, there may be a case where a sudden change occurs in the feature depending on the shape of the target object. For example, as shown in FIG. 4, consider a case where a normal A420 related to a surface A410 having a large area on a three-dimensional model is parallel to a line-of-sight direction A440 connecting the viewpoint A430 (viewpoint A) and the object coordinate origin. In the image A450 obtained from the viewpoint A430, the depth values of the pixels in the area A411 corresponding to the surface A410 are all the same depth value. In this image, even if any combination of two points taken from the area A411 is compared, the condition of Expression (2) is always satisfied. Such a state is a singular point that occurs only when the line-of-sight direction A440 and the large-area surface A410 are completely orthogonal to each other even in a wide posture space.

図5の視点A431(視点A”)のように、視点Aからほんの少しずれただけでも、得られる画像A451における面A410に対応する領域A412のデプス値には勾配が乗ることになり、ツリーにおける分岐の状態は大きく変化する。   Like the viewpoint A431 (viewpoint A ″) in FIG. 5, even if it is slightly deviated from the viewpoint A, the depth value of the area A412 corresponding to the surface A410 in the obtained image A451 has a gradient. The branching state changes greatly.

図6(a)は、視点A430、視点A430と等間隔で並ぶ視点A432(視点Z)、A433(視点B)、A434(視点C)に沿って視点位置が移動していったときの、各視点に対応する姿勢クラスのスコアをプロットしたものである。ただし、説明を簡単にするため、ここでは面内回転は考慮しないものとする。   FIG. 6 (a) shows the viewpoints when the viewpoint position moves along viewpoints A432 (viewpoint Z), A433 (viewpoint B), and A434 (viewpoint C) arranged at equal intervals with viewpoint A430 and viewpoint A430. This is a plot of the score of the posture class corresponding to the viewpoint. However, in order to simplify the description, in-plane rotation is not considered here.

B132、B133、B134はそれぞれ、視点A432、視点A433、視点A434に対応する姿勢クラスのスコア曲線である。これらの視点付近では上記のような特異点は通過しないため、スコア曲線は滑らかに変化する。これに対して、視点A430に対応する姿勢クラスのスコア曲線は、B130のようにピーキーな曲線となる。そのため、B110のような領域では、姿勢に関する認識精度の低下が発生する。   B132, B133, and B134 are score curves of posture classes corresponding to the viewpoint A432, the viewpoint A433, and the viewpoint A434, respectively. Since the singular points as described above do not pass near these viewpoints, the score curve changes smoothly. On the other hand, the score curve of the posture class corresponding to the viewpoint A430 is a peaky curve like B130. Therefore, in the region like B110, the recognition accuracy regarding the posture is lowered.

対象物体が工業製品である場合には対象物体は平面で構成されることが多く、また、CADデータにおける対象物体座標系は何かしらの基準面に合わせて設定されることが多いため、上記のような状況は容易に発生する。   When the target object is an industrial product, the target object is often composed of a plane, and the target object coordinate system in CAD data is often set according to some reference plane. This situation can easily occur.

次に、以上説明した課題を解決するための学習方法に関する実施形態を説明する。先ず、本実施形態に係る情報処理装置のハードウェア構成例について、図13のブロック図を用いて説明する。   Next, an embodiment relating to a learning method for solving the above-described problem will be described. First, a hardware configuration example of the information processing apparatus according to the present embodiment will be described with reference to the block diagram of FIG.

CPU1351は、RAM1352やROM1353に格納されているコンピュータプログラムやデータを用いて各処理を実行することで、情報処理装置全体の動作制御を行うと共に、情報処理装置が行うものとして後述する各処理を実行する。   The CPU 1351 executes each process using a computer program and data stored in the RAM 1352 and the ROM 1353 to control the operation of the entire information processing apparatus, and executes each process described later as what the information processing apparatus performs. To do.

RAM1352は、外部記憶装置1356からロードされたコンピュータプログラムやデータ、I/F(インターフェース)1357を介して外部装置から受信したコンピュータプログラムやデータを一時的に記憶するためのエリアを有する。更にRAM1352は、CPU1351が各種の処理を実行する際に用いるワークエリアを有する。即ち、RAM1352は、各種のエリアを適宜提供することができる。   The RAM 1352 has an area for temporarily storing the computer program and data loaded from the external storage device 1356 and the computer program and data received from the external device via the I / F (interface) 1357. Further, the RAM 1352 has a work area used when the CPU 1351 executes various processes. That is, the RAM 1352 can provide various areas as appropriate.

ROM1353には、情報処理装置の設定データや、ブートプログラムなどが格納されている。操作部1354はキーボードやマウスなどにより構成されており、情報処理装置の操作者が操作することで、各種の指示をCPU1351に対して入力することができる。表示部1355は、CRTや液晶画面などにより構成されており、CPU1351による処理結果を画像や文字などでもって表示することができる。   The ROM 1353 stores setting data for the information processing apparatus, a boot program, and the like. The operation unit 1354 is configured by a keyboard, a mouse, and the like, and various instructions can be input to the CPU 1351 by an operator of the information processing apparatus. The display unit 1355 is configured by a CRT, a liquid crystal screen, or the like, and can display a processing result by the CPU 1351 with an image, text, or the like.

外部記憶装置1356は、ハードディスクドライブ装置に代表される大容量情報記憶装置である。この外部記憶装置1356には、OS(オペレーティングシステム)や、情報処理装置が行うものとして後述する各処理をCPU1351に実行させるためのコンピュータプログラムやデータが保存されている。また、外部記憶装置1356には、以下の説明において既知の情報として扱っているものも保存されている。外部記憶装置1356に保存されているコンピュータプログラムやデータは、CPU1351による制御に従って適宜RAM1352にロードされ、CPU1351による処理対象となる。   The external storage device 1356 is a mass information storage device represented by a hard disk drive device. The external storage device 1356 stores an OS (Operating System) and computer programs and data for causing the CPU 1351 to execute processes described later as those performed by the information processing apparatus. The external storage device 1356 also stores what is treated as known information in the following description. Computer programs and data stored in the external storage device 1356 are appropriately loaded into the RAM 1352 under the control of the CPU 1351, and are processed by the CPU 1351.

I/F1357には外部装置を接続することができ、情報処理装置は、このI/F1357を介して外部装置とのデータ通信を行うことができる。例えば、以下の説明において処理対象とする入力画像やそのほかの情報を、このI/F1357を介して外部装置から取得してもよいし、情報処理装置による処理結果をI/F1357を介して外部装置に対して送信してもよい。   An external device can be connected to the I / F 1357, and the information processing apparatus can perform data communication with the external device via the I / F 1357. For example, in the following description, an input image to be processed and other information may be acquired from an external device via the I / F 1357, and a processing result by the information processing device may be acquired via the I / F 1357. May be sent to.

上記の各部はバス1358に接続されている。なお、図13に示した構成はあくまでも一例であり、以下に説明する各処理と同等の処理を実現可能な構成であれば、図13に示した構成は適宜変更/変形させてもよい。また、以下の説明では、本実施形態に係る情報処理装置はPCなどのコンピュータであるものとするが、入力画像に対して以下のような処理を実現可能な装置であれば、他の機器であってもよく、例えば、ディジタルカメラであってもよい。   Each of the above parts is connected to a bus 1358. Note that the configuration shown in FIG. 13 is merely an example, and the configuration shown in FIG. 13 may be changed or modified as appropriate as long as processing equivalent to the processing described below can be realized. In the following description, the information processing apparatus according to the present embodiment is assumed to be a computer such as a PC. For example, a digital camera may be used.

次に、対象物体の姿勢を推定する識別器を学習するための一連の処理について、同処理のフローチャートを示す図7(a)を用いて説明する。以下では説明上、デプスマップによる対象物体の姿勢認識を行う識別器を例にとり説明する。   Next, a series of processes for learning a discriminator for estimating the posture of the target object will be described with reference to FIG. In the following description, a classifier that performs posture recognition of a target object using a depth map will be described as an example.

なお、図7(a)のフローチャートに従った処理をCPU1351に実行させるためのコンピュータプログラムやデータは外部記憶装置1356に格納されている。このコンピュータプログラムやデータはCPU1351による制御に従って適宜RAM1352にロードされる。そしてCPU1351がこのロードされたコンピュータプログラムやデータを用いて処理を実行することで、情報処理装置は、図7(a)のフローチャートに従った処理を実行することになる。   Note that a computer program and data for causing the CPU 1351 to execute the process according to the flowchart of FIG. 7A are stored in the external storage device 1356. This computer program and data are appropriately loaded into the RAM 1352 under the control of the CPU 1351. When the CPU 1351 executes processing using the loaded computer program and data, the information processing apparatus executes processing according to the flowchart of FIG.

先ず、ステップS1100におけるモデル読み込み工程では、CPU1351は、外部記憶装置1356から、姿勢推定の対象となる対象物体の形状モデルをRAM1352にロードする。この形状モデルは、対象物体の形状を模したCADなどの3次元モデルであり、学習画像としてのデプスマップを得るために必要な情報を含んだモデルであって、対象物体の面情報を含むものである。   First, in the model reading step in step S1100, the CPU 1351 loads the shape model of the target object that is the target of posture estimation from the external storage device 1356 into the RAM 1352. This shape model is a three-dimensional model such as CAD that imitates the shape of the target object, and includes information necessary for obtaining a depth map as a learning image, and includes surface information of the target object. .

次に、ステップS1200における視点設定工程では、CPU1351は、この形状モデルを観察する視点を設定する。視点の設定は、代表的には図1のように測地ドームを用いて行われる。測地ドームによる視点設定は、隣接視点との間隔がすべて均等であるため、姿勢クラスとして扱いやすいという利点がある。ただし、視点設定方法は測地ドームを用いた方法に限定されるものではなく、形状モデルを囲む複数の位置に視点を設定できるのであれば、如何なる方法を採用してもよい。   Next, in the viewpoint setting step in step S1200, the CPU 1351 sets a viewpoint for observing the shape model. The setting of the viewpoint is typically performed using a geodetic dome as shown in FIG. The viewpoint setting by the geodetic dome has an advantage that it is easy to handle as a posture class because the distances between the adjacent viewpoints are all equal. However, the viewpoint setting method is not limited to the method using the geodetic dome, and any method may be adopted as long as the viewpoint can be set at a plurality of positions surrounding the shape model.

設定した視点の総数をN、視点のインデックスをn=1…N、対象物体座標系(形状モデル中の1点を原点とし、該原点で互いに直交する3軸をそれぞれx、y、z軸とする座標系)における視点nの位置ベクトルをVn=(Xvn,Yvn,Zvn)とする。また、測地ドームの原点は形状モデルの物体中心A404と一致しているとする。Vnは視点の方向のみを定義する単位ベクトルとし、よって、すべての視点nに対するVnのノルムは1である。   The total number of viewpoints set is N, the index of the viewpoint is n = 1... N, the target object coordinate system (one point in the shape model is the origin, and three axes orthogonal to each other at the origin are the x, y, and z axes, respectively. The position vector of the viewpoint n in the coordinate system) is assumed to be Vn = (Xvn, Yvn, Zvn). Further, it is assumed that the origin of the geodetic dome coincides with the object center A404 of the shape model. Vn is a unit vector that defines only the direction of the viewpoint. Therefore, the norm of Vn for all viewpoints n is 1.

ステップS1300における更新工程の処理については、同処理の詳細を示す図8(a)のフローチャートを用いて説明する。ステップS1311における平面度算出工程では、CPU1351は、視点n、面内回転rで与えられる姿勢クラスνに基づいて形状モデルのデプスマップを生成する。この生成したデプスマップを、デプス画像Iνとする。即ち、インデックスがnの視点から、インデックスがrのロール角(インデックスがrの面内回転)で観察した形状モデルの画像を、デプス画像Iνとして生成する。なお、各姿勢クラスに対応するデプス画像は予め作成して外部記憶装置1356に保存しておき、そこから視点に対するインデックスと面内回転に対するインデックスとの組み合わせに対応するデプス画像を取得するようにしても構わない。   The process of the update process in step S1300 will be described with reference to the flowchart of FIG. In the flatness calculation step in step S1311, the CPU 1351 generates a depth map of the shape model based on the posture class ν given by the viewpoint n and the in-plane rotation r. This generated depth map is defined as a depth image Iν. That is, an image of the shape model observed from the viewpoint with the index n at the roll angle with the index r (in-plane rotation with the index r) is generated as the depth image Iν. A depth image corresponding to each posture class is created in advance and stored in the external storage device 1356, and a depth image corresponding to a combination of an index for a viewpoint and an index for in-plane rotation is acquired from the depth image. It doesn't matter.

ここで、デプス画像Iν内で形状モデルが写っている領域をTν、領域Tνの面積(画素数)をSνとする。このとき、姿勢クラスごとに、該姿勢クラスに対応するデプス画像中のデプス値のヒストグラムを作成する。ここで算出するヒストグラムとは、各姿勢クラスに対応するデプス画像から得られる各デプス値の頻度を、該デプス画像におけるSνで正規化したものである。ヒストグラムの範囲は、すべてのデプス画像Iν(ν=1…N×Nr)におけるデプス値の最小値から最大値までとする。ビン幅は、デプス画像を利用して検出処理を行う際の距離測定装置の奥行き解像度に従って設定する。例えば、距離測定装置の奥行き解像度が100nmであれば、ビン幅も同様に100nm、などと設定する。ビン幅とヒストグラム範囲から、ビン数Kは容易に得られる。姿勢クラスνに対応するデプス画像Iνから生成したヒストグラムにおいて、k(=1…K)番目のビンにおける頻度値をHν(k)と表わしたとき、以下のように定義される視点nの平面度Pnを算出(導出)する。   Here, a region where the shape model is reflected in the depth image Iν is Tν, and an area (number of pixels) of the region Tν is Sν. At this time, for each posture class, a histogram of depth values in the depth image corresponding to the posture class is created. The histogram calculated here is obtained by normalizing the frequency of each depth value obtained from the depth image corresponding to each posture class by Sν in the depth image. The range of the histogram is from the minimum value to the maximum value of the depth values in all the depth images Iν (ν = 1... N × Nr). The bin width is set according to the depth resolution of the distance measuring device when performing the detection process using the depth image. For example, if the depth measurement device has a depth resolution of 100 nm, the bin width is set to 100 nm as well. From the bin width and the histogram range, the bin number K can be easily obtained. In the histogram generated from the depth image Iν corresponding to the posture class ν, when the frequency value in the k (= 1... K) bin is represented as Hν (k), the flatness of the viewpoint n defined as follows: Pn is calculated (derived).

Figure 0006188345
Figure 0006188345

ここでΝnは、視点nに関する面内回転バリエーションで得られるクラスの集合で、要素数はNrである。即ち、平面度Pnとは、視点nからそれぞれ異なるロール角で形状モデルを見た該形状モデルの画像から作成したそれぞれのヒストグラムにおいて同ビンごとの合計頻度値のうち最大値であり、視点nの評価値となる。   Here, Νn is a set of classes obtained by the in-plane rotation variation regarding the viewpoint n, and the number of elements is Nr. That is, the flatness Pn is the maximum value of the total frequency values for each bin in each histogram created from images of the shape model viewed from the viewpoint n at different roll angles. It becomes an evaluation value.

この平面度Pnが大きい場合とは、視点nにおけるデプス画像において同一のデプス値の割合が大きいということであり、形状モデルに対して大きな面積を占める平面が視線方向に対して直交している状態を意味する。   The case where the flatness Pn is large means that the ratio of the same depth value is large in the depth image at the viewpoint n, and the plane occupying a large area with respect to the shape model is orthogonal to the line-of-sight direction. Means.

次に、全ての視点の平面度Pnが閾値εn以下であれば、処理はステップS1400に進む。一方、全ての視点の平面度Pnのうち、1つでも閾値εnより大きい場合には、処理はステップS1312に進む。   Next, if the flatness Pn of all viewpoints is equal to or less than the threshold εn, the process proceeds to step S1400. On the other hand, if even one of the flatness Pn of all viewpoints is larger than the threshold value εn, the process proceeds to step S1312.

ここで、閾値εnは、同一デプス値となる画素が、領域Tn内でどの程度存在しても良いかを決める閾値であり、0<εn<1を満たすように設定される。閾値εnは、0.3などの値で、すべての視点に対して統一の値で設定してもよい。あるいは、εn=1/√Snといった、デプス画像中の形状モデルの領域のサイズに依存した値で設定してもよい。   Here, the threshold value εn is a threshold value that determines how many pixels having the same depth value may exist in the region Tn, and is set to satisfy 0 <εn <1. The threshold εn is a value such as 0.3, and may be set to a uniform value for all viewpoints. Or you may set with the value depending on the size of the area | region of the shape model in a depth image, such as (epsilon) n / 1 / (root) Sn.

次に、ステップS1312における視点移動工程では、CPU1351は、ステップS1200で設定した視点とは異なり且つ形状モデルを囲む視点群を新たに設定する。ここで、新たに設定する視点群とは、対象物体座標系における原点を中心にして、ステップS1200で設定した全視点を同一方向に回転させた視点群を意味する。回転変換をRとすると、対象物体座標系における視点nの位置Vnは以下のようにして更新される。   Next, in the viewpoint moving step in step S1312, the CPU 1351 newly sets a viewpoint group that is different from the viewpoint set in step S1200 and surrounds the shape model. Here, the newly set viewpoint group means a viewpoint group obtained by rotating all viewpoints set in step S1200 in the same direction with the origin in the target object coordinate system as the center. If the rotation transformation is R, the position Vn of the viewpoint n in the target object coordinate system is updated as follows.

Figure 0006188345
Figure 0006188345

ここでTは行列の転地を表す。回転変換Rは、例えばx−y−z系のオイラー角で表わした場合、以下のように表現できる。   Here, T represents the shift of the matrix. The rotational transformation R can be expressed as follows, for example, when expressed by an xyz system Euler angle.

Figure 0006188345
Figure 0006188345

視点移動のための回転変換Rは乱数で与えてもよい。例えば、式(6)におけるθx、θy、θzの値を、それぞれ0〜180degの間でランダムに選択する。あるいは、測地ドーム上の視点間の最小角度θdに対して比例する値で与えるなどとしてもよい。例えば、θx、θy、θz=θd/10などと設定してもよい。   The rotation transformation R for moving the viewpoint may be given as a random number. For example, the values of θx, θy, and θz in Equation (6) are each randomly selected between 0 and 180 deg. Alternatively, a value proportional to the minimum angle θd between the viewpoints on the geodetic dome may be given. For example, θx, θy, θz = θd / 10 may be set.

そして、ステップS1312で視点を再設定した後は、処理はステップS1311に戻り、ステップS1311では、この再設定した視点を用いて再度、それぞれの視点に対する平面度Pnを求める。   Then, after resetting the viewpoint in step S1312, the process returns to step S1311. In step S1311, the flatness Pn for each viewpoint is obtained again using the reset viewpoint.

ステップS1400における学習画像出力工程では、CPU1351は、上記の処理によって確定した、各姿勢クラスに対応するデプス画像を学習画像として外部記憶装置1356やRAM1352などのメモリに出力する。出力先については特定の出力先に限るものではない。   In the learning image output step in step S1400, the CPU 1351 outputs the depth image determined by the above processing and corresponding to each posture class as a learning image to a memory such as the external storage device 1356 or the RAM 1352. The output destination is not limited to a specific output destination.

ステップS1500における識別器生成工程では、CPU1351は、この出力された姿勢クラスごとのデプス画像を学習用画像として用いて、対象物体の姿勢を識別する識別器の学習処理を行う。識別器の学習に関する手続きについては前述したため、ここでの説明は省略する。   In the classifier generation step in step S1500, the CPU 1351 performs a learning process for a classifier that identifies the posture of the target object, using the output depth image for each posture class as a learning image. Since the procedure related to learning of the discriminator has been described above, description thereof is omitted here.

なお、本実施形態を含む以降の各実施形態では、枝刈りのないツリーを例として説明したが、識別器の種類はこれに限定されるものではない。ツリー学習時に枝刈りが行われていてもよいし、前述の非特許文献1で示したFERNなどを使ってもよい。これらの識別器の場合には、終端ノードに対してクラスが一意に割り振られておらず、学習時に終端ノードに残った学習画像の割合が、各クラスに対する推定スコアとして得られる。入力画像Iが与えられたときに、ツリーmの終端ノードで得られたクラスνに関するスコアをPm(ν|I)で得たとすると、識別器全体のスコアは以下の式(7)で与えられる。   In the following embodiments including this embodiment, a tree without pruning has been described as an example, but the type of classifier is not limited to this. Pruning may be performed at the time of tree learning, or FERN shown in Non-Patent Document 1 may be used. In the case of these classifiers, classes are not uniquely assigned to the terminal nodes, and the ratio of learning images remaining in the terminal nodes during learning is obtained as an estimated score for each class. Assuming that the score for the class ν obtained at the terminal node of the tree m is obtained by Pm (ν | I) when the input image I is given, the score of the entire classifier is given by the following equation (7). .

Figure 0006188345
Figure 0006188345

もしくは、下記のように与える場合もある。   Or it may be given as follows.

Figure 0006188345
Figure 0006188345

また、本実施形態を含む以降の各実施形態ではデプスマップによる学習画像を例にして具体的に説明されているが、デプスマップに限定されるものではない。例えば、CGレンダリングによる輝度画像を用いてもよい。   Further, in each of the subsequent embodiments including this embodiment, the learning image by the depth map is specifically described as an example, but the present invention is not limited to the depth map. For example, a luminance image by CG rendering may be used.

このようにして対象物体を構成する平面が視点方向に直交しないように視点を更新することで、特定の姿勢クラス近傍における識別力の低下を抑制することができる。具体的には、以下のように説明される。   In this way, by updating the viewpoint so that the plane constituting the target object is not orthogonal to the viewpoint direction, it is possible to suppress a decrease in discrimination power near a specific posture class. Specifically, it will be described as follows.

上記で示した方法により、図6における視点A,B,C、Zはそれぞれ、視点A’、B’、C’、Z’に移動する。これにより、視点A’、B’、C’、Z’の姿勢クラスのスコア曲線はそれぞれ、図6(b)におけるB140、B143、B144、B142のようになり、図6(a)における視点Aの近辺の領域B110のような姿勢認識精度の低下を抑制することができる。   By the method described above, the viewpoints A, B, C, and Z in FIG. 6 move to the viewpoints A ′, B ′, C ′, and Z ′, respectively. Thereby, the score curves of the posture classes of the viewpoints A ′, B ′, C ′, and Z ′ are respectively as B140, B143, B144, and B142 in FIG. 6B, and the viewpoint A in FIG. It is possible to suppress a decrease in posture recognition accuracy like the region B110 in the vicinity of.

なお、本実施形態で説明した構成は上記の通り、あくまで一例に過ぎず、以下に説明する構成の一例に過ぎない。即ち、本実施形態に係る情報処理装置は、対象物体の姿勢を推定する識別器の学習を行うために該識別器に与える学習用画像を生成する情報処理装置である。この情報処理装置では、対象物体の形状モデルに対して少なくとも1つの視点を設定する。そして、設定された視点から形状モデルを観察した場合、設定された視点と形状モデルとが所定の条件を満たした場合に、設定された視点から形状モデルを見た該形状モデルの画像を、学習用画像として生成する。   Note that the configuration described in the present embodiment is merely an example as described above, and is merely an example of the configuration described below. That is, the information processing apparatus according to the present embodiment is an information processing apparatus that generates a learning image to be given to a discriminator in order to learn a discriminator that estimates the posture of the target object. In this information processing apparatus, at least one viewpoint is set for the shape model of the target object. When the shape model is observed from the set viewpoint, when the set viewpoint and the shape model satisfy a predetermined condition, an image of the shape model viewed from the set viewpoint is learned. It generates as an image.

[第2の実施形態]
第1の実施形態では、全ての視点の平面度が閾値以下であった場合に視点更新を終了したが、さまざまな視点設定の中でより適したものを選択してもよい。その場合の処理を、図7(a)および図8(b)を用いて説明する。第2の実施形態以降では、第1の実施形態との差分のみについて説明し、第1の実施形態と同様の点については説明を省略している。
[Second Embodiment]
In the first embodiment, the viewpoint update is terminated when the flatness of all viewpoints is equal to or less than the threshold value. However, a more suitable viewpoint may be selected from various viewpoint settings. Processing in that case will be described with reference to FIGS. 7A and 8B. In the second and subsequent embodiments, only differences from the first embodiment will be described, and descriptions of the same points as in the first embodiment will be omitted.

ステップS1100及びステップS1200における処理は第1の実施形態と同様である。しかし、本実施形態ではそれに加え、ステップS1200において、設定されたN個の視点の集合を視点集合と呼び、t=0と初期化して、ここで設定された視点集合を初期視点集合Uとする。 The processes in step S1100 and step S1200 are the same as in the first embodiment. However, in this embodiment, in addition to that, in step S1200, the set of N viewpoints set is called a view set, initialized to t = 0, and the set view set here is set as an initial view set U 0 . To do.

ステップS1300では、図8(b)に示した処理を実行する。ステップS1321における平面度算出工程では、上記のステップS1311と同様にして、視点集合Uに含まれる各視点nの平面度Pnを算出する。この算出は以下の式(9)に従う。 In step S1300, the process shown in FIG. 8B is executed. The flatness calculating step in step S1321, in the same manner as in step S1311, calculates a flatness Pn of respective viewpoints n included in the viewpoint set U t. This calculation follows the following equation (9).

Figure 0006188345
Figure 0006188345

ここでΝnは、視点nに関する面内回転バリエーションで得られるクラスの集合である。そして以下の式(10)に示す如く、各視点の平面度Pnのうち、最も大きな値となるものを最大平面度Pt,maxとする。 Here, Νn is a set of classes obtained by the in-plane rotation variation with respect to the viewpoint n. Then, as shown in the following formula (10), the largest flatness Pt, max of the flatness Pn of each viewpoint is set as the maximum flatness Pt, max .

Figure 0006188345
Figure 0006188345

次に、所定数Tの視点集合が生成された場合には処理はステップS1323における視点選択工程に進み、まだ所定数Tの視点集合が生成されていない場合には、処理はステップS1322における視点移動工程に進む。所定数Tの値は、例えば10などの値で設定すればよい。Tは大きいほど良いが、ステップS1321にかかる処理時間とのトレードオフで設定する。   Next, if a predetermined number T of viewpoint sets are generated, the process proceeds to a viewpoint selection step in step S1323. If a predetermined number T of viewpoint sets have not yet been generated, the process proceeds to step S1322. Proceed to the process. The predetermined number T may be set to a value such as 10, for example. A larger T is better, but is set in a trade-off with the processing time required for step S1321.

ステップS1322では、視点集合Uに対して所定の回転変換をかけることで、新たな視点集合Ut+1を生成する。この回転変換は第1の実施形態と同様に、ランダムに与える、あるいは測地ドーム上の視点間の最小角度θdに対して比例する値で与える、などとしてもよい。そして処理をステップS1321に戻し、この新たな視点集合を用いて最大平面度を求める。 In step S1322, by applying a predetermined rotation transformation on the viewpoint set U t, and generates a new perspective set U t + 1. As in the first embodiment, this rotation conversion may be given randomly, or may be given as a value proportional to the minimum angle θd between the viewpoints on the geodetic dome. Then, the process returns to step S1321, and the maximum flatness is obtained using this new viewpoint set.

そして処理がステップS1323に進んだ時点で、所定数Tの視点集合が生成されているので、この所定数Tの視点集合のうち、最も小さい最大平面度を求めた視点集合Uを特定する(式(11))。 When the process proceeds to step S1323, since a predetermined number T of viewpoint sets are generated, among the predetermined number T of viewpoint sets, the viewpoint set U c for which the smallest maximum flatness is obtained is specified ( Formula (11)).

Figure 0006188345
Figure 0006188345

そしてステップS1400以降では、この特定した視点集合U中の各視点に基づく各姿勢クラスに対応するデプス画像を学習画像とする。以降の処理については第1の実施形態と同様であるため、説明は省略する。 In step S1400 and subsequent steps, the depth image corresponding to each posture class based on each viewpoint in the specified viewpoint set U c is set as a learning image. Since the subsequent processing is the same as in the first embodiment, description thereof is omitted.

[第3の実施形態]
第1の実施形態、および第2の実施形態では平面度を基準にして視点を選択したが、視線に対して直交する面の割合が少なくなるように視点を選択してもよい。その場合の処理を、図7(a)および図8(c)を用いて説明する。
[Third Embodiment]
In the first embodiment and the second embodiment, the viewpoint is selected based on the flatness, but the viewpoint may be selected so that the ratio of the plane orthogonal to the line of sight decreases. Processing in that case will be described with reference to FIGS. 7 (a) and 8 (c).

ステップS1100及びステップS1200における処理は第1の実施形態と同様である。ステップS1300では、図8(c)に示した処理を実行する。ステップS1331における法線頻度マップ生成工程では、形状モデルから、対象物体上の平面がどの割合でどちらを向いているのかを示す法線頻度マップを生成する。具体的には以下のようにして法線頻度マップを生成する。   The processes in step S1100 and step S1200 are the same as in the first embodiment. In step S1300, the process shown in FIG. 8C is executed. In the normal frequency map generation step in step S1331, a normal frequency map is generated from the shape model to indicate which direction the plane on the target object is facing. Specifically, the normal frequency map is generated as follows.

先ず、形状モデル(対象物体の形状モデル)を構成するNp個のポリゴンに関して、ポリゴンp(=1…Np)の面積Spおよび対象物体座標系におけるポリゴンpの法線方向正規化ベクトルnp(|np|=1)を求める。全ポリゴンの面積の総和Sallで正規化した面積を、Rp=Sp/Sallとする。これは、形状モデル全体の表面積におけるポリゴンpの面積比を表わす。単位球上の基準軸n0=(1,0,0)に対して任意の回転変換Ψを行ったときに得られる単位球上の一点n(Ψ)に対する法線頻度F(Ψ)を、下記のように定義する。   First, regarding Np polygons constituting the shape model (shape model of the target object), the area Sp of the polygon p (= 1... Np) and the normal direction normalization vector np (| np) of the polygon p in the target object coordinate system. | = 1) is obtained. Let Rp = Sp / Sall be an area normalized by the total area of all polygons. This represents the area ratio of the polygon p in the surface area of the entire shape model. A normal frequency F (Ψ) with respect to one point n (Ψ) on the unit sphere obtained when an arbitrary rotational transformation Ψ is performed on the reference axis n0 = (1, 0, 0) on the unit sphere is expressed as follows. Define as follows.

Figure 0006188345
Figure 0006188345

ここで、δ(A)は、条件Aが真である場合には1を、偽である場合には0を返す関数である。回転変換ΨのバリエーションはNp個以上は存在しないため、n0からnp(p=1…Np)の回転変換バリエーションに関してF(Ψ)を計算すれば、F(Ψ)の集合として離散的な法線頻度マップが得られることになる。図9で具体例を示す。   Here, δ (A) is a function that returns 1 when the condition A is true and returns 0 when the condition A is false. Since Np or more variations of the rotational transformation Ψ do not exist, if F (Ψ) is calculated for rotational transformation variations from n0 to np (p = 1... Np), a discrete normal as a set of F (Ψ). A frequency map will be obtained. A specific example is shown in FIG.

基準軸n0は、C100で表わされている。基準軸C100に対してC300で表わされる回転変換ΨをかけたベクトルがC200である。このベクトルC200と同じ向きの正規化法線ベクトルC210、C220を持つポリゴンC410、C420に対する、対象物体全体の表面積における各ポリゴンの面積比の総和が、上記の式(12)によって算出され、C510で示される頻度F(Ψ)となる。   The reference axis n0 is represented by C100. A vector obtained by multiplying the reference axis C100 by the rotational transformation Ψ represented by C300 is C200. The sum of the area ratios of the polygons in the surface area of the entire target object with respect to the polygons C410 and C420 having normalized normal vectors C210 and C220 in the same direction as the vector C200 is calculated by the above equation (12). The frequency F (Ψ) shown is obtained.

この得られた頻度F(Ψ)から、以下のような評価値Enを算出する。   The following evaluation value En is calculated from the obtained frequency F (Ψ).

Figure 0006188345
Figure 0006188345

ここで、ang(a、b)は、ベクトルaとベクトルbのなす角を表す。Vnおよびn(Ψ)はいずれも単位ベクトルであるため、以下の式を満たす。   Here, ang (a, b) represents an angle formed by the vector a and the vector b. Since Vn and n (Ψ) are both unit vectors, the following expression is satisfied.

Figure 0006188345
Figure 0006188345

ステップS1332における視点最適化工程では、上記のようにして得られた評価値Enを、前述の第1の実施形態および第2の実施形態における平面度Pnと同様にして、視点の移動もしくは視点の選択を行うことで、視点の位置を決定する。以降の処理に関しては、第1の実施形態および第2の実施形態と同様であるため、説明は省く。   In the viewpoint optimization step in step S1332, the evaluation value En obtained as described above is used to change the viewpoint or the viewpoint in the same manner as the flatness Pn in the first and second embodiments described above. By selecting, the position of the viewpoint is determined. Since the subsequent processing is the same as in the first embodiment and the second embodiment, a description thereof will be omitted.

[第4の実施形態]
第3の実施形態のように、視線に対して直交する面の割合を評価値とした場合、その割合が少なくなるように視点を逐次更新してもよい。その場合の処理を、図7(a)および図8(c)を用いて説明する。
[Fourth Embodiment]
As in the third embodiment, when the ratio of the plane orthogonal to the line of sight is used as the evaluation value, the viewpoint may be sequentially updated so that the ratio decreases. Processing in that case will be described with reference to FIGS. 7 (a) and 8 (c).

ステップS1100及びステップS1200における処理は第1の実施形態と同様である。ステップS1300では、図8(c)に示した処理を実行する。ステップS1331における法線頻度マップ生成工程では、第3の実施形態と同様にして、法線頻度F(Ψ)を求める。   The processes in step S1100 and step S1200 are the same as in the first embodiment. In step S1300, the process shown in FIG. 8C is executed. In the normal frequency map generation step in step S1331, the normal frequency F (Ψ) is obtained in the same manner as in the third embodiment.

次に、ステップS1332における視点最適化工程では、得られた法線頻度マップを用いて視点を更新していく。先ず、ステップS1200で設定された視点位置Vn=(Xvn,Yvn,Zvn)(n=1…N)に対して、回転変換R(θ)を行ったときのコストEn(θ)を、以下のように定義する。   Next, in the viewpoint optimization step in step S1332, the viewpoint is updated using the obtained normal frequency map. First, the cost En (θ) when the rotation transformation R (θ) is performed on the viewpoint position Vn = (Xvn, Yvn, Zvn) (n = 1... N) set in step S1200 is expressed as follows. Define as follows.

Figure 0006188345
Figure 0006188345

ここでang(a、b)は、ベクトルaとベクトルbのなす角を表す。Vnおよびn(Ψ)はいずれも単位ベクトルであるため、以下の式(16)を満たす。   Here, ang (a, b) represents an angle formed by the vector a and the vector b. Since Vn and n (Ψ) are both unit vectors, the following equation (16) is satisfied.

Figure 0006188345
Figure 0006188345

ηはカーネルの幅を決める正の定数で、η=2などと設定する。このコストEnが大きい状態とは、視点nから形状モデル中心を結ぶ視線方向に対して、形状モデルを構成する平面のうち、面積の大きなものが直交に近い状態にあることを意味する。すなわち、回転変換R(θ)を、コストEnが小さくなるように設定できれば、視線方向に対して直交する面が減るように視点を更新することができる。   η is a positive constant that determines the width of the kernel, and is set to η = 2 or the like. The state where the cost En is large means that a plane having a large area is nearly orthogonal to a line-of-sight direction connecting the shape model center from the viewpoint n. That is, if the rotational transformation R (θ) can be set so as to reduce the cost En, the viewpoint can be updated so that the number of planes orthogonal to the line-of-sight direction is reduced.

ステップS1200で設定された視点に対して回転変換R(θ)を行った場合のエネルギー関数Eを、以下のように定義する。   The energy function E when the rotation transformation R (θ) is performed on the viewpoint set in step S1200 is defined as follows.

Figure 0006188345
Figure 0006188345

これを勾配法で解くと、θの更新式は以下のようになる。   If this is solved by the gradient method, the update formula of θ is as follows.

Figure 0006188345
Figure 0006188345

ここでζは0<ζ<1の範囲で設定される更新係数で、ζ=0.1などと設定する。回転変換R(θ)は、初期設定では回転なし(R=単位行列)に設定することが常套であるが、その初期値に限るものではない。回転変換R(θ)の初期値からスタートして、式(18)を逐次実行して回転変換R(θ)を更新していく。回転変換R(θ)の変化が所定の閾値より小さくなった場合に、収束したものと見なし、逐次計算を終了する。そして式(19)に示す如く、収束時の回転変換R(θ)をステップS1200で設定されたすべての視点Vn(n=1…N)に対して行い、視点Vnを更新する。   Here, ζ is an update coefficient set in a range of 0 <ζ <1, and ζ = 0.1 is set. The rotation conversion R (θ) is usually set to no rotation (R = unit matrix) by default, but is not limited to the initial value. Starting from the initial value of the rotation conversion R (θ), the rotation conversion R (θ) is updated by sequentially executing Expression (18). When the change of the rotational transformation R (θ) becomes smaller than a predetermined threshold, it is considered that the rotation has converged, and the sequential calculation is terminated. Then, as shown in Expression (19), the rotation conversion R (θ) at the time of convergence is performed for all the viewpoints Vn (n = 1... N) set in step S1200, and the viewpoint Vn is updated.

Figure 0006188345
Figure 0006188345

視点をすべて更新したら、処理はステップS1400に進む。ステップS1400では、上記の処理によって確定した各姿勢クラスに対応するデプス画像を学習画像として外部記憶装置1356やRAM1352などのメモリに出力する。以降の処理については第1の実施形態で説明したとおりであるため、説明は省略する。   When all the viewpoints are updated, the process proceeds to step S1400. In step S1400, the depth image corresponding to each posture class determined by the above processing is output as a learning image to a memory such as the external storage device 1356 or the RAM 1352. Since the subsequent processing is as described in the first embodiment, description thereof is omitted.

[第5の実施形態]
設定された視点における識別器の内部状態に対して、その近傍視点における識別器の状態が極端に変化しないかどうかを、視点更新の条件としてもよい。その場合の処理を、図7(b)および図8(d)を用いて説明する。
[Fifth Embodiment]
Whether or not the state of the classifier at the neighboring viewpoint does not change extremely with respect to the internal state of the classifier at the set viewpoint may be set as the viewpoint update condition. Processing in that case will be described with reference to FIGS. 7B and 8D.

ステップS1100及びステップS1200における処理は第1の実施形態と同様である。ステップS1700における学習画像生成工程では、各姿勢クラスに対応するデプス画像を学習画像として取得する。なお、各姿勢クラスに対応するデプス画像の取得方法については第1の実施形態で説明したとおりである。ステップS1500における処理は第1の実施形態で説明した通りである。   The processes in step S1100 and step S1200 are the same as in the first embodiment. In the learning image generation step in step S1700, a depth image corresponding to each posture class is acquired as a learning image. The depth image acquisition method corresponding to each posture class is as described in the first embodiment. The processing in step S1500 is as described in the first embodiment.

次に、ステップS1300で行う処理について、同処理の詳細を示す図8(d)のフローチャートを用いて説明する。ステップS1341における視点変動画像生成工程では、現在設定されている視点から微小移動させた近傍視点を設定し、その近傍視点から見たときの形状モデルの画像を生成する。ここで近傍視点とは、設定されている視点Vn(n=1,,,N)に対し、Vnからわずかにずらした位置の視点のことである。図10におけるA460がVnであったとすると、A461で表わされる近傍視点位置Vnj(j=1…J:図10ではJ=6)は、A460をA470で表わされる微小角度δだけずらして得られる。ここで微小角度δは、0に近い小さな値で、視点Vnの隣接視点との角度より小さな値を設定する。例えば、Vnの隣接視点Vn’とのなす角が7degであれば、δ=3degなどと設定する。隣接視点Vn’は、以下のようにして定義される。   Next, the process performed in step S1300 will be described with reference to the flowchart of FIG. 8D showing details of the process. In the viewpoint variation image generation step in step S1341, a near viewpoint that is slightly moved from the currently set viewpoint is set, and an image of a shape model when viewed from the vicinity viewpoint is generated. Here, the near viewpoint is a viewpoint that is slightly shifted from Vn with respect to the set viewpoint Vn (n = 1,..., N). If A460 in FIG. 10 is Vn, the near viewpoint position Vnj (j = 1... J: J = 6 in FIG. 10) represented by A461 is obtained by shifting A460 by a minute angle δ represented by A470. Here, the small angle δ is a small value close to 0, and is set to a value smaller than the angle between the viewpoint Vn and the adjacent viewpoint. For example, if the angle between Vn and the adjacent viewpoint Vn ′ is 7 deg, δ = 3 deg is set. The adjacent viewpoint Vn ′ is defined as follows.

Figure 0006188345
Figure 0006188345

ここでang(Vn,Vk)は、測地ドーム中心から見たときの視点Vnと視点Vkのなす角である。ここではVnとVkはいずれも単位ベクトルで表わされるため、以下の式(21)が満たされる。   Here, ang (Vn, Vk) is an angle formed by the viewpoint Vn and the viewpoint Vk when viewed from the center of the geodetic dome. Here, since both Vn and Vk are represented by unit vectors, the following equation (21) is satisfied.

Figure 0006188345
Figure 0006188345

近傍視点は各視点Vnに対して周回して複数個設定することが望ましく、図10のようにVnを中心にして均等角度間隔で数点、例えば60deg間隔で6点(J=6)、などと設定してもよい。設定された近傍視点方向から見た形状モデルの画像I[nj,r](n=1…N、j=1…J、r=1…Nr)を生成する。   It is desirable to set a plurality of neighboring viewpoints around each viewpoint Vn. As shown in FIG. 10, several points are set at equal angular intervals around Vn, for example, 6 points at 60 deg intervals (J = 6), etc. May be set. An image I [nj, r] (n = 1... N, j = 1... J, r = 1... Nr) of the shape model viewed from the set near viewpoint direction is generated.

ステップS1342における比較工程では、設定されている視点とその近傍視点において識別器の状態を比較して、どの程度変化したかを見る。ステップS1700で生成された視点Vnに対する学習画像と、ステップS1341で生成された視点Vnの近傍視点に対する画像と、をステップS1500で生成された識別器に入力する。そのときの、それぞれの識別器の状態に関する類似度を算出する。類似度としてはさまざまなものが考えられるが、例えばツリー型識別器による例で考えると以下のようになる。   In the comparison step in step S1342, the state of the discriminator is compared between the set viewpoint and its neighboring viewpoints to see how much has changed. The learning image for the viewpoint Vn generated in step S1700 and the image for the viewpoint near the viewpoint Vn generated in step S1341 are input to the classifier generated in step S1500. At that time, the degree of similarity regarding the state of each classifier is calculated. Various similarities can be considered. For example, when considering an example using a tree type discriminator, it is as follows.

入力画像Iに対する視点nの面内回転rに対応する姿勢クラスν[n,r]に対する、複数ツリーによる投票スコアをSCORE(ν[n,r],I)としたとき、視点Vnと近傍視点Vnjの類似度Sim(n,j)を以下のように定義する。   When the voting score by a plurality of trees for the posture class ν [n, r] corresponding to the in-plane rotation r of the viewpoint n with respect to the input image I is SCORE (ν [n, r], I), the viewpoint Vn and the neighboring viewpoint The similarity Sim (n, j) of Vnj is defined as follows.

Figure 0006188345
Figure 0006188345

ここでI[n,r]は、視点nの面内回転rに対応する姿勢クラスの学習画像である。他には、識別器が枝刈りされたツリーやFERNであるなら、ツリーmの終端ノードで得られたクラスν[n,r]に関するスコアをPm(ν[n,r]|I)としたとき、識別器全体の情報量を類似度として用いることもできる(式(23))。   Here, I [n, r] is a learning image of the posture class corresponding to the in-plane rotation r of the viewpoint n. Otherwise, if the classifier is a pruned tree or FERN, the score for the class ν [n, r] obtained at the terminal node of the tree m is Pm (ν [n, r] | I) In some cases, the information amount of the entire discriminator can be used as the similarity (formula (23)).

Figure 0006188345
Figure 0006188345

視点nにおける近傍視点に対する類似度の最小値を、視点nの比較尺度Lnとする(式(24))。   The minimum value of the similarity between the viewpoint n and the near viewpoint is set as the comparison scale Ln of the viewpoint n (Expression (24)).

Figure 0006188345
Figure 0006188345

近傍視点に対する類似度の、全視点に関する尺度Lは、Lnの総和(式(25))、二乗和(式(26))、最小値(式(27))の何れかによって算出される。   The scale L for all viewpoints of the similarity to the nearby viewpoint is calculated by any one of the total sum of Ln (Expression (25)), the sum of squares (Expression (26)), and the minimum value (Expression (27)).

Figure 0006188345
Figure 0006188345

Figure 0006188345
Figure 0006188345

Figure 0006188345
Figure 0006188345

その他には、カルバック・ライブラー情報量(相対エントロピー)を利用して尺度Lを定義してもよい(式(28))。   In addition, the scale L may be defined using the amount of information (relative entropy) of the Cullback-Liber (formula (28)).

Figure 0006188345
Figure 0006188345

そしてこのような何れかの方法によって求めた尺度Lが閾値θL以下であれば、処理はステップS1800に進む。一方、尺度Lが閾値θLより大きい場合は、処理はステップS1343に進む。ステップS1343における視点移動工程では、第1の実施形態で説明したステップS1312における処理と同様の処理を行って、視点の移動を行う。   If the scale L obtained by any of these methods is equal to or smaller than the threshold value θL, the process proceeds to step S1800. On the other hand, when the scale L is larger than the threshold value θL, the process proceeds to step S1343. In the viewpoint moving step in step S1343, the viewpoint is moved by performing the same process as the process in step S1312 described in the first embodiment.

ステップS1800では、ステップS1343の処理を行って視点移動させたか否かを判断する。この判断の結果、視点移動させていない場合には、図7(b)の処理は終了する。一方、視点移動させている場合には、処理はステップS1700に戻り、移動させた新たな視点を用いて以降のステップを実行する。   In step S1800, it is determined whether the viewpoint is moved by performing the process in step S1343. If the result of this determination is that the viewpoint has not been moved, the processing in FIG. On the other hand, if the viewpoint is moved, the process returns to step S1700, and the subsequent steps are executed using the moved new viewpoint.

これにより、図7(b)のフローチャートに従った処理が終了した時点で設定されている視点による学習画像を、最終的に識別器に与える学習画像として出力することができる。   Thereby, the learning image by the viewpoint set when the process according to the flowchart of FIG.7 (b) is complete | finished can be output as a learning image finally given to a discriminator.

なお、上記のような処理は、あらかじめ所定数Tの視点集合を生成しておき、すべてを比較して最も尺度Lの小さなものを選んでもよい。その場合は、ステップS1300における処理の詳細は、図8(e)のようになる。   In the above-described processing, a predetermined number T of viewpoint sets may be generated in advance, and all may be compared and the one with the smallest scale L may be selected. In that case, the details of the processing in step S1300 are as shown in FIG.

先ず、ステップS1200で設定された視点集合をUとして保持し、繰り返し回数t=0と初期化しておく。ステップS1341における処理は上記の通りである。そして、所定数Tの視点集合が生成されていなければ、tを1つインクリメントして上記と同様にしてステップS1343の処理を行い、得られた視点集合Uを保持する。所定数Tは、第2の実施形態と同様にして設定する。所定数Tの視点集合が生成されたら、処理はステップS1344に進む。 First, the view point set that is set in step S1200 holds the U 0, keep initialization and number of repetitions t = 0. The processing in step S1341 is as described above. If a predetermined number T of viewpoint sets have not been generated, t is incremented by 1, and the process of step S1343 is performed in the same manner as described above, and the obtained viewpoint set U t is held. The predetermined number T is set in the same manner as in the second embodiment. When the predetermined number T of viewpoint sets are generated, the process proceeds to step S1344.

ステップS1344における視点選択工程では、視点集合U,U…Uのそれぞれに対して、前述の尺度Lを算出する。そして、視点集合Uに対する尺度をLtとしたときに、L0,L1…LTのうち最小値Lcを特定し、特定した最小値Lcに対応する視点集合Uを、最終的な視点として選択する(式(29))。 In the viewpoint selection step in step S1344, the aforementioned scale L is calculated for each of the viewpoint sets U 0 , U 1 ... U T. Then, when the scale for the viewpoint set U t is Lt, the minimum value Lc is specified among L0, L1... LT, and the viewpoint set U c corresponding to the specified minimum value Lc is selected as the final viewpoint. (Formula (29)).

Figure 0006188345
Figure 0006188345

選択された視点集合Uに対応する学習画像で学習された識別器を、最終的な識別器とする。尺度Ltの値はステップS1344ではなく、ステップS1341で求めるようにしてもよい。その場合、尺度LtをステップS1344で利用できるように保持していれば、Ltとそれまでの最小値との比較により、視点集合U、それまでの最小値に対応する視点集合の何れかだけを残しておけばよい。その為、生成された学習画像や近傍視点画像をすべて保持しておく必要はない。 The classifier learned from the learning image corresponding to the selected viewpoint set U c is set as the final classifier. The value of the scale Lt may be obtained in step S1341 instead of step S1344. In that case, if the scale Lt is held so that it can be used in step S1344, only one of the viewpoint set U t and the viewpoint set corresponding to the previous minimum value is compared by comparing Lt with the previous minimum value. You should leave For this reason, it is not necessary to retain all of the generated learning images and neighboring viewpoint images.

[第6の実施形態]
設定された視点における学習画像から学習して得られた識別器の状態を視点更新の条件としてもよい。その場合の処理を、図7(b)および図11(a)を用いて説明する。ステップS1100、ステップS1200、ステップS1700、ステップS1500における処理は第1の実施形態と同様である。
[Sixth Embodiment]
The state of the discriminator obtained by learning from the learning image at the set viewpoint may be used as the viewpoint update condition. Processing in that case will be described with reference to FIGS. 7B and 11A. The processes in step S1100, step S1200, step S1700, and step S1500 are the same as those in the first embodiment.

ステップS1300における処理について、同処理の詳細を示す図11(a)のフローチャートを用いて説明する。ステップS1351における識別器判定工程では、学習して得られた識別器の内部状態がどの程度偏っているかを判定する。ここで偏りとはさまざまなものが考えられる。例えば、条件分岐における偏りを尺度として考えれば、姿勢クラスνに対する尺度Bνは以下のように定義できる。   The process in step S1300 will be described with reference to the flowchart of FIG. 11A showing details of the process. In the discriminator determining step in step S1351, it is determined how much the internal state of the discriminator obtained by learning is biased. Here, various biases can be considered. For example, if the bias in the conditional branch is considered as a scale, the scale Bν for the posture class ν can be defined as follows.

Figure 0006188345
Figure 0006188345

Figure 0006188345
Figure 0006188345

ここでρm(Iν,m,d)は、ツリーm(m=1,,,M)に学習画像Iνを入力したときの、深さd(d=1,,,D)におけるノードにおける分岐が、式(1)の条件に従う場合には0を、式(2)の条件に従う場合には1を返す関数であるとする。ただし、Dはツリーの根ノードから終端ノードまでの分岐数である。式(31)で表わされる値Cν,mは、ツリーmにおいて式(1)の条件に従う分岐をカウントした値となる。各ノードの分岐が完全に無作為であれば、Cν,mはB(D,0.5)の二項分布に従う。よって、Cν,mを正規化した値である尺度Bνは、最小で0、最大で1の値を取り得り、分岐に偏りがなければ0.5に近い値を取る。学習画像Iν(ν=1,,,N×Nr)を入力したときの尺度Bνの最大値を、Bmaxとする(式(32))。   Here, ρm (Iν, m, d) is a branch at a node at a depth d (d = 1,, D) when the learning image Iν is input to the tree m (m = 1,, M). Assume that the function returns 0 when the condition of the expression (1) is satisfied, and returns 1 when the condition of the expression (2) is satisfied. However, D is the number of branches from the root node to the end node of the tree. The value Cν, m represented by the expression (31) is a value obtained by counting branches according to the condition of the expression (1) in the tree m. If the branch of each node is completely random, Cν, m follows a binomial distribution of B (D, 0.5). Therefore, the scale Bν, which is a value obtained by normalizing Cν, m, can take a value of 0 at the minimum and 1 at the maximum, and takes a value close to 0.5 if there is no bias in the branch. The maximum value of the scale Bν when the learning image Iν (ν = 1,, N × Nr) is input is defined as Bmax (Formula (32)).

Figure 0006188345
Figure 0006188345

得られた尺度Bmaxが所定の閾値θより大きければ、処理はステップS1353に進み、閾値以下であれば、処理はステップS1800に進む。閾値は0.5<θ<1の範囲で設定され、例えばθ=0.7などと与える。あるいは、学習画像に対してノイズを加えたときのロバストさを、偏りの尺度としてもよい。学習画像Iνに対して、W通りのホワイトノイズを加えた画像をIν,w(w=1…W)とする。このとき、尺度Bνを以下のように定義する。   If the obtained scale Bmax is greater than the predetermined threshold value θ, the process proceeds to step S1353, and if it is equal to or less than the threshold value, the process proceeds to step S1800. The threshold value is set in a range of 0.5 <θ <1, and is given as θ = 0.7, for example. Alternatively, robustness when noise is added to the learning image may be used as a measure of the bias. An image obtained by adding W kinds of white noise to the learning image Iν is denoted by Iν, w (w = 1... W). At this time, the scale Bν is defined as follows.

Figure 0006188345
Figure 0006188345

この値が小さければ、姿勢νはノイズに対してロバストであることになる。式(32)と同様にして、この尺度Bνの最大値を尺度Bmaxとする。ここではノイズは学習画像に対して与えるとしたが、各ノードの分岐時にノイズを付加してもロバストさを測ることはできる。   If this value is small, the posture ν is robust against noise. In the same manner as in the equation (32), the maximum value of the scale Bν is set as the scale Bmax. Although noise is given to the learning image here, robustness can be measured even if noise is added at the time of branching of each node.

ステップS1353における視点移動工程では、第1の実施形態で説明したステップS1312における処理と同様の処理を行って、視点の移動を行う。これにより、図7(b)のフローチャートに従った処理が終了した時点で設定されている視点による学習画像を、最終的に識別器に与える学習画像として出力することができる。   In the viewpoint movement process in step S1353, the viewpoint is moved by performing the same process as the process in step S1312 described in the first embodiment. Thereby, the learning image by the viewpoint set when the process according to the flowchart of FIG.7 (b) is complete | finished can be output as a learning image finally given to a discriminator.

なお、上記のような処理は、あらかじめ所定数Tの視点集合を生成しておき、すべてを比較して尺度Bmaxが最も小さくなるものを選んでもよい。その場合は、ステップS1300における処理の詳細は、図11(b)のようになる。   In the above-described processing, a predetermined number T of viewpoint sets may be generated in advance, and all of them may be compared and the one with the smallest scale Bmax may be selected. In that case, details of the processing in step S1300 are as shown in FIG.

先ず、ステップS1200で設定された視点集合をUとして保持し、繰り返し回数t=0と初期化しておく。ステップS1351における処理は上記の通りである。そして、所定数Tの視点集合が生成されていなければ、tを1つインクリメントして上記と同様にしてステップS1353の処理を行い、得られた視点集合Uを保持する。所定数Tは、第2の実施形態と同様にして設定する。所定数Tの視点集合が生成されたら、処理はステップS1354に進む。 First, the view point set that is set in step S1200 holds the U 0, keep initialization and number of repetitions t = 0. The processing in step S1351 is as described above. If a predetermined number T of viewpoint sets have not been generated, t is incremented by 1, and the process of step S1353 is performed in the same manner as described above, and the obtained viewpoint set U t is held. The predetermined number T is set in the same manner as in the second embodiment. If the predetermined number T of viewpoint sets are generated, the process proceeds to step S1354.

ステップS1354における視点選択工程では、視点集合U,U…Uのそれぞれに対して、前述の尺度Bmaxを算出する。そして、視点集合Uに対する尺度をBt,maxとしたときに、B0,max,B1,max…BL,maxのうち最小値Bc,maxを特定し、特定した最小値Bc,maxに対応する視点集合Uを、最終的な視点として選択する(式(34))。 In the viewpoint selection step in step S1354, the aforementioned scale Bmax is calculated for each of the viewpoint sets U 0 , U 1 ... U T. Then, when the scale for the viewpoint set U t is Bt, max, the minimum value Bc, max is specified from B0, max, B1, max ... BL, max, and the viewpoint corresponding to the specified minimum value Bc, max is specified. The set U c is selected as the final viewpoint (formula (34)).

Figure 0006188345
Figure 0006188345

そして、選択された視点集合Uに対応する学習画像で学習された識別器を、最終的な識別器とする。 Then, the classifier learned from the learning image corresponding to the selected viewpoint set U c is set as a final classifier.

[第7の実施形態]
第1〜6の実施形態で得られた視点に対し、さらに特徴が急激に変化する視点を追加してやってもよい。その場合、各実施形態におけるステップS1300の最後に、以下のような処理を行う。
[Seventh Embodiment]
You may add the viewpoint from which the characteristic changes rapidly with respect to the viewpoint obtained in 1st-6th embodiment. In that case, the following processing is performed at the end of step S1300 in each embodiment.

ステップS1200若しくはステップS1300で生成された視点すべてに対して、上記の平面度Pnを算出する。そして、算出された平面度Pnが、第1の実施形態で述べられている閾値εnより大きくなる視点は、ステップS1300で得られた視点の集合に追加する。即ち、更に、それぞれの位置(各視点)のうち評価値が閾値より大きい位置からそれぞれ異なるロール角で形状モデルを見た該形状モデルの画像を、学習用画像として出力する。これにより、図6(c)におけるB441で表わされる視点Yが追加され、そのスコア曲線B141で示されるように、特異姿勢における識別能力が補間されることになる。   The flatness Pn is calculated for all the viewpoints generated in step S1200 or step S1300. Then, viewpoints for which the calculated flatness Pn is greater than the threshold value εn described in the first embodiment are added to the set of viewpoints obtained in step S1300. In other words, an image of the shape model obtained by viewing the shape model at different roll angles from the position where the evaluation value is greater than the threshold value among the positions (each viewpoint) is output as a learning image. As a result, the viewpoint Y represented by B441 in FIG. 6C is added, and the discrimination ability in the specific posture is interpolated as indicated by the score curve B141.

[第8の実施形態]
二点比較による識別器の場合で、設定した視点の中に特異点となる姿勢が含まれていることが分かった場合には、学習画像自体にバイアスを加えてもよい。その場合の処理を、図7(c)を用いて説明する。
[Eighth Embodiment]
In the case of a classifier based on a two-point comparison, if it is found that the posture that becomes a singular point is included in the set viewpoint, a bias may be applied to the learning image itself. Processing in that case will be described with reference to FIG.

ステップS1100,ステップS1200,ステップS1700のそれぞれにおける処理は上記の通りである。ステップS1600における学習画像更新工程では、まず、学習画像の中で特異点となる姿勢クラスの学習画像が含まれているかどうかを判断する。判断基準としては、第1の実施形態で説明した平面度Pnを利用する。すべての視点n=1…Nの中でひとつでも平面度Pnが閾値εnより大きければ、すべての学習画像に対してバイアスを与える。学習画像に与えるバイアスとは、例えば図12のように、画像座標に対して線形に与えるものである。C600は学習画像Iνであり、それを切断位置C610で切断した時のデプスがC620で与えられているとする。このとき、線形のバイアスをかけることで、断面のデプスはC630のように更新される。学習画像Iνの学習画像座標系(学習画像中の1点(例えば左上隅)を原点とする座標系)の位置X=(x、y)におけるデプス値がDν(X)であったときに、バイアスを付加したデプス値として、Dν(X)は以下のように更新される。   The processing in each of step S1100, step S1200, and step S1700 is as described above. In the learning image update step in step S1600, first, it is determined whether or not a learning image of a posture class that is a singular point is included in the learning image. As the determination criterion, the flatness Pn described in the first embodiment is used. If at least one of all viewpoints n = 1... N is greater than the threshold value .epsilon.n, a bias is applied to all learning images. The bias given to the learning image is given linearly with respect to the image coordinates as shown in FIG. 12, for example. C600 is the learning image Iν, and it is assumed that the depth when the image is cut at the cutting position C610 is given by C620. At this time, by applying a linear bias, the depth of the cross section is updated like C630. When the depth value at the position X = (x, y) of the learning image coordinate system of the learning image Iν (the coordinate system having one point in the learning image (for example, the upper left corner) as the origin) is Dν (X), As a depth value to which a bias is added, Dν (X) is updated as follows.

Figure 0006188345
Figure 0006188345

バイアス関数f(X)は、Xに対して線形な関数であり、以下のように定義される。   The bias function f (X) is a linear function with respect to X, and is defined as follows.

Figure 0006188345
Figure 0006188345

ただし、a、b、cは定数である。勾配を表わす定数aおよびbは、作業領域における画像解像度と、測地ドームの最短視点間角度によって決定される。例えば、画像解像度が1mm/画素で、最短視点間角度が7degであったとすると、a=0.1、b=0、c=0などと設定する。   However, a, b, and c are constants. The constants a and b representing the gradient are determined by the image resolution in the work area and the shortest viewpoint angle of the geodetic dome. For example, if the image resolution is 1 mm / pixel and the shortest viewpoint angle is 7 deg, a = 0.1, b = 0, c = 0, and the like are set.

ステップS1500では、ステップS1600で更新された学習画像を用いて、対象物体の姿勢を識別する識別器の学習処理を行う。学習して得られた識別器を使って入力画像Iに対して識別を行う際には、画像全体に対して上記と同様のバイアスを加える。入力画像座標系におけるx軸とy軸は、学習画像座標系におけるx軸とy軸に対して同じ方向であれば、式(36)のバイアスを同様にして与えてやればよい。すなわち、入力画像における位置XS=(xS、yS)のデプス値D(XS)を、以下のように更新してから識別器による探索を行う。   In step S1500, a learning process for a discriminator for identifying the posture of the target object is performed using the learning image updated in step S1600. When discriminating the input image I using the discriminator obtained by learning, a bias similar to the above is applied to the entire image. If the x-axis and y-axis in the input image coordinate system are in the same direction with respect to the x-axis and y-axis in the learning image coordinate system, the bias of equation (36) may be given in the same manner. That is, the depth value D (XS) at the position XS = (xS, yS) in the input image is updated as follows, and then the search by the discriminator is performed.

Figure 0006188345
Figure 0006188345

二点比較による分岐を考えると、デプスの大小関係のみが重要であるため、入力画像と学習画像の原点位置の違いは影響を与えない。これにより、図4のような大きな面A410が視線方向A440の軸と直交するような状態に対して、疑似的にデプスに勾配を与えたこととなり、式(2)の条件ばかりが満たされるような特殊な状況を回避することができる。   Considering the bifurcation by the two-point comparison, only the magnitude relation of the depth is important, so the difference in the origin position between the input image and the learning image has no effect. As a result, the depth is artificially given to the state where the large surface A410 as shown in FIG. 4 is orthogonal to the axis of the line-of-sight direction A440, so that only the condition of Expression (2) is satisfied. Special situations can be avoided.

(その他の実施例)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
(Other examples)
The present invention can also be realized by executing the following processing. That is, software (program) that realizes the functions of the above-described embodiments is supplied to a system or apparatus via a network or various storage media, and a computer (or CPU, MPU, or the like) of the system or apparatus reads the program. It is a process to be executed.

Claims (8)

対象物体の姿勢を推定する識別器の学習を行うために該識別器に与える学習用画像を生成する情報処理装置であって、
前記対象物体の形状モデルに対して少なくとも1つの視点を設定する設定手段と、
前記設定された視点から前記形状モデルを観察した場合の前記視点から前記形状モデルにおける各領域までの距離の値の分布から、前記形状モデルの平面度を導出する導出手段と、
前記設定された視点において導出された平面度が閾値以下の場合に、前記設定された視点から前記形状モデルを見た該形状モデルの画像を、前記学習用画像として生成する生成手段と
を備えることを特徴とする情報処理装置。
An information processing apparatus for generating a learning image to be given to a discriminator for learning a discriminator for estimating a posture of a target object,
Setting means for setting at least one viewpoint for the shape model of the target object;
Deriving means for deriving the flatness of the shape model from the distribution of distance values from the viewpoint to each region in the shape model when the shape model is observed from the set viewpoint;
Generating means for generating, as the learning image, an image of the shape model obtained by viewing the shape model from the set viewpoint when the flatness derived from the set viewpoint is equal to or less than a threshold value. An information processing apparatus characterized by the above.
更に、前記導出手段が求めた平面度が前記閾値よりも大きい場合、視点位置を変更する変更手段を備え、
前記生成手段は、前記変更手段によって変更された視点位置における視点から前記形状モデルを見た該形状モデルの画像を、前記学習用画像として生成することを特徴とする請求項に記載の情報処理装置。
Further, when the flatness obtained by the derivation means is larger than the threshold value, the change means for changing the viewpoint position,
2. The information processing according to claim 1 , wherein the generation unit generates an image of the shape model obtained by viewing the shape model from the viewpoint at the viewpoint position changed by the changing unit as the learning image. apparatus.
対象物体の姿勢を推定する識別器の学習を行うために該識別器に与える学習用画像を生成する情報処理装置であって、
前記対象物体の形状モデルに対して少なくとも1つの視点を設定する設定手段と、
前記設定された視点から前記形状モデルを観察したときの視線方向と前記形状モデルを構成する各面とが直交する面の割合を表す評価値を導出する導出手段
複数の位置のうち前記評価値が閾値より大きい位置に設定された視点から前記形状モデルを見た該形状モデルの画像を、前記学習用画像として生成する生成手段と
を備えることを特徴とする情報処理装置。
An information processing apparatus for generating a learning image to be given to a discriminator for learning a discriminator for estimating a posture of a target object,
Setting means for setting at least one viewpoint for the shape model of the target object;
A derivation means for deriving an evaluation value representing the percentage of the surface and each surface constituting the viewing direction and the shape model when observing the shape model from the set viewpoint orthogonal,
Generating means for generating, as the learning image, an image of the shape model obtained by viewing the shape model from a viewpoint in which the evaluation value is set at a position greater than a threshold value among a plurality of positions ;
The information processing apparatus comprising: a.
更に、前記導出手段が求めた評価値に基づいて、前記位置を更新させる更新手段を備え、
前記生成手段は、前記更新手段によって更新された位置に設定された視点から前記形状モデルを見た該形状モデルの画像を、前記学習用画像として生成することを特徴とする請求項に記載の情報処理装置。
Furthermore, based on the evaluation value obtained by the derivation means, the update means for updating the position,
Said generating means, according to claim 3, characterized in that the image of the shape model seen the shape model from a viewpoint set in the position updated by said updating means, for generating as the learning image Information processing device.
更に、前記学習用画像を用いて、前記識別器の学習を行う手段を備えることを特徴とする請求項1乃至のいずれか1項に記載の情報処理装置。 Moreover, using said learning image processing apparatus according to any one of claims 1 to 4, characterized in that it comprises means for performing learning of the classifier. 対象物体の姿勢を推定する識別器の学習を行うために該識別器に与える学習用画像を生成する情報処理装置が行う情報処理方法であって、
前記情報処理装置の設定手段が、前記対象物体の形状モデルに対して少なくとも1つの視点を設定する設定工程と、
前記情報処理装置の導出手段が、前記設定された視点から前記形状モデルを観察した場合の前記視点から前記形状モデルにおける各領域までの距離の値の分布から、前記形状モデルの平面度を導出する導出工程と、
前記情報処理装置の生成手段が、前記設定された視点において導出された平面度が閾値以下の場合に、前記設定された視点から前記形状モデルを見た該形状モデルの画像を、前記学習用画像として生成する生成工程と
を備えることを特徴とする情報処理方法。
An information processing method performed by an information processing apparatus that generates a learning image to be given to a discriminator in order to learn a discriminator that estimates the posture of a target object,
A setting step in which the setting unit of the information processing apparatus sets at least one viewpoint for the shape model of the target object;
The derivation means of the information processing device derives the flatness of the shape model from the distribution of distance values from the viewpoint to each region in the shape model when the shape model is observed from the set viewpoint. A derivation process;
When the flatness derived at the set viewpoint is less than or equal to a threshold value , the generation unit of the information processing apparatus converts the shape model image obtained by viewing the shape model from the set viewpoint. An information processing method comprising: a generation step of generating as
対象物体の姿勢を推定する識別器の学習を行うために該識別器に与える学習用画像を生成する情報処理装置が行う情報処理方法であって、An information processing method performed by an information processing apparatus that generates a learning image to be given to a discriminator in order to learn a discriminator that estimates the posture of a target object,
前記情報処理装置の設定手段が、前記対象物体の形状モデルに対して少なくとも1つの視点を設定する設定工程と、A setting step in which the setting unit of the information processing apparatus sets at least one viewpoint for the shape model of the target object;
前記情報処理装置の導出手段が、前記設定された視点から前記形状モデルを観察したときの視線方向と前記形状モデルを構成する各面とが直交する面の割合を表す評価値を導出する導出工程と、A derivation step in which the derivation means of the information processing device derives an evaluation value that represents a ratio of a plane in which the line-of-sight direction when the shape model is observed from the set viewpoint and each surface constituting the shape model is orthogonal When,
前記情報処理装置の生成手段が、複数の位置のうち前記評価値が閾値より大きい位置に設定された視点から前記形状モデルを見た該形状モデルの画像を、前記学習用画像として生成する生成工程とA generation step in which the generation unit of the information processing apparatus generates, as the learning image, an image of the shape model obtained by viewing the shape model from a viewpoint in which the evaluation value is set to a position larger than a threshold value among a plurality of positions. When
を備えることを特徴とする情報処理方法。An information processing method comprising:
コンピュータを、請求項1乃至の何れか1項に記載の情報処理装置の各手段として機能させるためのコンピュータプログラム。 A computer program for causing a computer to function as each unit of the information processing apparatus according to any one of claims 1 to 5 .
JP2013028346A 2013-02-15 2013-02-15 Information processing apparatus and information processing method Expired - Fee Related JP6188345B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013028346A JP6188345B2 (en) 2013-02-15 2013-02-15 Information processing apparatus and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013028346A JP6188345B2 (en) 2013-02-15 2013-02-15 Information processing apparatus and information processing method

Publications (3)

Publication Number Publication Date
JP2014157509A JP2014157509A (en) 2014-08-28
JP2014157509A5 JP2014157509A5 (en) 2016-02-25
JP6188345B2 true JP6188345B2 (en) 2017-08-30

Family

ID=51578341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013028346A Expired - Fee Related JP6188345B2 (en) 2013-02-15 2013-02-15 Information processing apparatus and information processing method

Country Status (1)

Country Link
JP (1) JP6188345B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6431404B2 (en) * 2015-02-23 2018-11-28 株式会社デンソーアイティーラボラトリ Attitude estimation model generation apparatus and attitude estimation apparatus
WO2016157499A1 (en) 2015-04-02 2016-10-06 株式会社日立製作所 Image processing apparatus, object detection apparatus, and image processing method
WO2017109918A1 (en) 2015-12-24 2017-06-29 富士通株式会社 Image processing device, image processing method, and image processing program
WO2018020954A1 (en) * 2016-07-29 2018-02-01 株式会社日立製作所 Database construction system for machine-learning
JP6906471B2 (en) * 2018-04-26 2021-07-21 Kddi株式会社 Target information estimation device, program and method for estimating the direction of a target from a point cloud

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010127819A (en) * 2008-11-28 2010-06-10 Fuji Electric Holdings Co Ltd Device of detecting position of polyhedral body and method for detection
JP5800494B2 (en) * 2010-11-19 2015-10-28 キヤノン株式会社 Specific area selection device, specific area selection method, and program
JP5647072B2 (en) * 2011-02-03 2014-12-24 日本電信電話株式会社 Subject recognition apparatus, subject recognition method, and subject recognition program

Also Published As

Publication number Publication date
JP2014157509A (en) 2014-08-28

Similar Documents

Publication Publication Date Title
US10684116B2 (en) Position and orientation measuring apparatus, information processing apparatus and information processing method
EP3680809A1 (en) Visual slam method and apparatus based on point and line characteristic
Korn et al. Color supported generalized-ICP
JP5548482B2 (en) Position / orientation measuring apparatus, position / orientation measuring method, program, and storage medium
Brenner et al. Coarse orientation of terrestrial laser scans in urban environments
JP6004809B2 (en) Position / orientation estimation apparatus, information processing apparatus, and information processing method
CN106023298B (en) Point cloud Rigid Registration method based on local Poisson curve reestablishing
JP5746477B2 (en) Model generation device, three-dimensional measurement device, control method thereof, and program
JP5863440B2 (en) Information processing apparatus and method
US8792726B2 (en) Geometric feature extracting device, geometric feature extracting method, storage medium, three-dimensional measurement apparatus, and object recognition apparatus
JP5924862B2 (en) Information processing apparatus, information processing method, and program
Orghidan et al. Camera calibration using two or three vanishing points
JP6188345B2 (en) Information processing apparatus and information processing method
Yu et al. Robust robot pose estimation for challenging scenes with an RGB-D camera
JP5627325B2 (en) Position / orientation measuring apparatus, position / orientation measuring method, and program
Serafin et al. Using extended measurements and scene merging for efficient and robust point cloud registration
US20150356346A1 (en) Feature point position detecting appararus, feature point position detecting method and feature point position detecting program
US11158081B2 (en) Augmented reality device and positioning method
Hochdorfer et al. 6 DoF SLAM using a ToF camera: The challenge of a continuously growing number of landmarks
Wang et al. A real-time visual compass from two planes for indoor unmanned aerial vehicles (UAVs)
Aranda et al. Omnidirectional visual homing using the 1D trifocal tensor
JP5960642B2 (en) 3D information acquisition method and 3D information acquisition apparatus
Nowicki et al. Robust registration of kinect range data for sensor motion estimation
Yao et al. Robust surface registration using N-points approximate congruent sets
Cho et al. 3D pose estimation with one plane correspondence using kinect and IMU

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160107

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170801

R151 Written notification of patent or utility model registration

Ref document number: 6188345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees