JP3732757B2 - Image recognition method and an image recognition device - Google Patents

Image recognition method and an image recognition device Download PDF

Info

Publication number
JP3732757B2
JP3732757B2 JP2001174574A JP2001174574A JP3732757B2 JP 3732757 B2 JP3732757 B2 JP 3732757B2 JP 2001174574 A JP2001174574 A JP 2001174574A JP 2001174574 A JP2001174574 A JP 2001174574A JP 3732757 B2 JP3732757 B2 JP 3732757B2
Authority
JP
Grant status
Grant
Patent type
Prior art keywords
image
recognition
motion
object
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001174574A
Other languages
Japanese (ja)
Other versions
JP2002366958A (en )
Inventor
功雄 三原
美和子 土井
俊一 沼崎
Original Assignee
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Images

Description

【0001】 [0001]
【発明の属する技術分野】 BACKGROUND OF THE INVENTION
本発明は、例えば、距離画像のような被写体の3次元情報の表れた画像から被写体の3次元的な動きを認識する画像認識方法およびそれを用いた画像認識装置に関する。 The present invention may, for example, an image recognition device using image recognition method and it recognizes the three-dimensional movement of the object from appearing images of three-dimensional information of an object such as a distance image.
【0002】 [0002]
【従来の技術】 BACKGROUND OF THE INVENTION
従来、ビデオカメラなどの撮像装置を用いて、認識対象物の動きを認識しようとした場合、以下のような方法が取られていた。 Conventionally, using an imaging device such as a video camera, if you try to recognize the motion of the object to be recognized, the following methods have been taken.
【0003】 [0003]
まず1つ目は、オプティカルフローと呼ばれる方法である。 The first is a method called optical flow. これは、所定のブロック画像に着目し、隣り合うフレーム画像間で、ある着目画像領域が平面内でどの方角に動いたかを計測し、その方向を推定するものである。 It focuses on the predetermined block image, between adjacent frame images, in which certain sought image area is measured whether moved to any direction in a plane, to estimate the direction. 次フレームにおける対象画像の移動方向を特定するには、時系列的に隣り合うフレーム間で類似度を算出する方法が代表的である。 To determine the moving direction of the target image in the next frame, a method of calculating the similarity between adjacent frames in time series are typical. 対象画像領域近傍で同じサイズのブロック画像を対象に前フレームにおける着目ブロック画像との相関係数を計算し、その係数の最も高いブロックへの方向が動きベクトルとして推定される。 Calculate the correlation coefficients between the target block image in the previous frame to the subject block image of the same size in the target image area near the direction of the highest block of coefficients are estimated as the motion vector.
【0004】 [0004]
この技術は人間の顔のトラッキングなどロボットビジョンの分野では広く利用されている。 This technique has been widely used in the field of robot vision, such as tracking of a human face. この手法は、着目ブロック画像が2次元的に大きく変化しない場合、かなりの精度で平面方向の動きを検出することが可能であるが、対象画像はビデオカメラなどで取得した2次元画像であるため、奥行き方向を含めた3次元的な動きの検出は不可能である。 Because this technique, if the target block image is not changed two-dimensionally large, it is possible to detect the movement in the planar direction with considerable accuracy, the target image is a two-dimensional image obtained by a video camera detection of 3-dimensional motion, including depth direction is not possible.
【0005】 [0005]
また、別の手法としては、認識対象物の特徴点を用いて動きの推測を行う方法がある。 As another approach, a method of performing estimation of motion using the feature points of the recognition object. これは、認識対象物に予め幾つかの特徴点を定めておいて、対象物の動きによって生じる特徴点どうしの位置関係の変化を用いて動きを推測する方法である。 This is allowed to set in advance several feature points recognition object, a method to estimate motion using changes in the positional relationship of the feature point each other caused by the movement of the object. 例えば、顔を左右に振っている(左右方向に回転させている)動作を認識する場合、顔の特徴点として、目や鼻など数カ所定めておき、顔の動きによって、目の位置の特徴点が右に動いた、両目の特徴点の間隔が狭くなった、右目の特徴点が消失した(右目がカメラから見えない位置に移動したため)、などといった変化から顔を右に振っているのであろうであろうと推測する。 For example, when recognizing a by which (is rotated in the left-right direction) operation waving face to the left and right, as a feature point of the face, is determined in advance several places such as the eyes, nose, by the movement of the face feature point position of the eye Nodea but which moved to the right, the distance between both eyes of the feature points is narrowed, waving right feature points are lost (because the right eye has moved to a position not visible from the camera), from a change, such as the right face I guess that it would be wax.
【0006】 [0006]
しかし、この方法を用いた場合、対応点をカメラ画像内で安定して得るためには、顔の特徴点の位置にマーカーなどを貼付しなければならないため、使用できる環境が限られているなどの問題があった。 However, when this method is used, in order to stably obtain the corresponding points in the camera image, because it must affix the like marker to the position of the feature point of the face, such as the environment that can be used is limited there was a problem. マーカーを用いない実現方法もあるが、この場合は画像内から特徴点を自動的に認識する必要があり、特徴点の抽出を安定的に行えない可能性がある上に、特徴点を得るために多大な計算コストも必要としてしまう。 There is a method realized without using a marker, in this case it is necessary to automatically recognize a feature point from the image is on that may not stably performed the extraction of characteristic points, to obtain the characteristic points enormous computational cost also will need to. この手法も、対象画像はビデオカメラなどで取得した2次元画像であるため、奥行き方向を含めた3次元的な動きは、2次元画像から推定するしかない。 Also this method, since the target image is a two-dimensional image obtained by a video camera, three-dimensional motion, including depth direction is only estimated from two-dimensional images.
【0007】 [0007]
また、別の方法として、運動モーメントの変化を求めることで推測する方法がある。 As another method, there is a method to guess by obtaining a change in motion moment. これは、例えば、手を縦軸周りに回転させる動きの場合、手の横方向の前方投影面積が著しく変化するのに対し、縦方向はあまり変化しないというような性質を利用しており、このような場合、手の横方向の運動モーメントのみの変化が激しいことより、手を縦軸周りに回転させているのではないかと推測される。 This, for example, if a motion of rotating hand around the vertical axis, whereas the change is significantly forward projected area of ​​lateral hand, the vertical direction is by utilizing the property that it does not change much, the If you like, from the change only lateral movement moment hand intense it is presumed that it would be is rotated around the vertical axis hand.
【0008】 [0008]
この方法は、確かに3次元的な動きを推測する一手法ではあるが、認識に使用できる対象物の形状に制限があったり、平面的な別の動きとの区別がつき難いため、誤認識をする可能性があるなどの問題点があった。 This method is certainly the one approach to estimate the 3-dimensional motion, but or there is a limit to the shape of the object that can be used for recognition, since it is difficult to distinguish between the planar another motion, misrecognition there is a problem, such as there is a possibility that the to.
【0009】 [0009]
ここで挙げた以外にも様々な方法があるであろうが、何れにしても、ビデオカメラなどの撮像装置を用いたこれらの方法では、あくまでも平面的な情報のみしか持たない2次元画像から、3次元的な動きを推測しているに過ぎず、3次元的な動きの認識を安定的に、高精度で行うことは困難である。 Although there will be a variety of ways other than those mentioned here, in any event, in these methods using the imaging device, such as a video camera, a two-dimensional image with only only merely planar information, 3-dimensional merely guessing motion, stably recognition of three-dimensional movements, it is difficult to perform with high accuracy. もともと3次元的な形状の対象物をカメラで平面情報として取得した時点で、かなりの情報が欠落しているからである。 Originally when it acquired as planar information camera object three-dimensional shape, since considerable information is missing.
【0010】 [0010]
これらの問題を回避するために、複数のビデオカメラを用いて、数カ所から同時に撮像し、各カメラの対応点を求めることで、複数の撮像画像から立体情報を計算し、3次元画像を構成して、それを用いて動作の認識を行う方法がある。 To avoid these problems, by using a plurality of video cameras, captured simultaneously from several locations, by obtaining the corresponding points of each camera, three-dimensional information is calculated from a plurality of captured images, configure the 3-dimensional image Te, a method for recognizing the operation therewith.
【0011】 [0011]
この方法は、ステレオ法と呼ばれ、実際に複数の撮像画像から立体情報を構成しているため、上述したような平面情報から3次元情報を推測するという問題点は解決されるが、複数のカメラからの画像を立体的に融合するための対応点の計算に大変計算時間を必要とするため、リアルタイム処理に不向きであった。 This method is called a stereo method, for constituting the three-dimensional information actually from a plurality of captured images, but the problem to infer 3D information from the plane information as described above is solved, a plurality of because it requires a very computation time image calculation of corresponding points for sterically fuse from the camera was not suitable for real-time processing. また、対応点を求めるためにカメラの位置情報を必要とするため、カメラの位置に制約があったり、カメラ位置のキャリブレーションの必要があったりした。 Moreover, since it requires the position information of the camera in order to determine the corresponding points, or there are restrictions on the position of the camera, and or it is necessary for calibration of the camera position. そのため、一般ユーザが容易に使用することは困難であった。 Therefore, it is difficult by a general user to easily use.
【0012】 [0012]
また、動きを特徴づける関節などの部位にあらかじめセンサを装着し、撮像した画像からセンサ部位を抽出し、2次元的あるいは3次元的な動きを計測するモーションキャプチャと呼ばれる手法も存在する。 Also, pre-fitted with a sensor to a site such as rheumatoid characterizing the movement to extract the sensor site from the captured image, technique called motion capture for measuring a two-dimensional or three-dimensional motion may be present. この手法では、上記で紹介した手法に比べ、特徴点の抽出や対応づけ処理は軽くなるが、システム全体のコストが高くつき、システムを稼働する上での制約も多い。 In this approach, compared to the technique introduced above, it becomes lighter extraction and association process of the feature point, be costly overall system, many restrictions in order to operate the system. さらに煩わしい特定のセンサデバイスを装着する必要があり、とても一般ユーザが使えるものにはなっていない。 There is a need to mount a more troublesome particular sensor device, not made to those very general users can use.
【0013】 [0013]
以上のように、従来方法では、画像から奥行き情報を含む3次元的な動きの認識を行う方法には様々な問題点があった。 As described above, in the conventional method, there are various problems in the method for recognizing the 3-dimensional motion, including depth information from the image.
【0014】 [0014]
【発明が解決しようとする課題】 [Problems that the Invention is to Solve
従来の手法では、ビデオカメラなどを用いて認識対象物を2次元情報しかもたない画像として取得していたため、対象物の3次元的動きの認識を、2次元情報のみから行うしかなく、安定して、高精度で奥行き方向を含めた3次元的な動きの認識を行うことは困難であった。 In the conventional technique, because it was to get the recognition target object by using a video camera as a two-dimensional information only have images, the recognition of the three-dimensional motion of the object, there is only performed from only two-dimensional information, stable Te, it has been difficult to perform the recognition of the 3-dimensional motion, including depth direction with high precision.
【0015】 [0015]
そこで、本発明は、3次元的な動きを容易に、しかも安定的かつ高精度で認識できる画像認識方法およびそれを用いた画像認識装置を提供することを目的とする。 Accordingly, the present invention is easily three-dimensional motion, yet an object to provide an image recognition device using image recognition method and it can be recognized in a stable manner and with high accuracy.
【0016】 [0016]
【課題を解決するための手段】 In order to solve the problems]
本発明は、被写体の3次元情報を持つ画像を取得し、取得した複数の画像の差分データを求め、この差分データから前記被写体の動きに伴い画素値の減少した領域と増加した領域とを抽出し、これらの3次元的な位置関係から前記被写体の3次元的な動きの特徴量を抽出して、この特徴量を基に前記被写体の動きを認識することにより、前記画像中の3次元的な動きを容易にしかも安定的かつ高精度に認識することができる。 The present invention obtains an image having three-dimensional information of the object, it calculates the difference data of a plurality of images obtained, extracted and reduced area and increased area of ​​the pixel values ​​with this difference data to the movement of the object and extracts the feature amount of 3-dimensional motion of the object from the three-dimensional positional relationship, by recognizing the movement of the object based on the feature amount, three-dimensional in the image the a movement can be recognized easily and stably and accurately.
【0017】 [0017]
被写体の3次元情報を持つ画像を取得し、取得した複数の画像から前記被写体の動きを検知し、動きの検知された画像領域対応の前記複数の画像の差分データから前記画像領域毎に前記被写体の動きに伴い画素値の減少した領域と増加した領域とを抽出し、これらの3次元的な位置関係から前記被写体の3次元的な動きの特徴量を抽出し、前記画像領域毎に、それぞれの画像領域から抽出された特徴量を基に前記検知された動きを認識することにより、前記画像中に複数の動きが存在する場合も、その複数の3次元的な動きのそれぞれを容易にしかも安定的かつ高精度に認識することができる。 Acquiring an image having three-dimensional information of an object, the object from a plurality of images obtained by sensing the movement of the subject, the difference data of the movement of the detected image area corresponding of the plurality of images for each of the image areas a reduced area and increased area of ​​the pixel values ​​with the motion and extraction, to extract the feature amount of 3-dimensional motion of the object from the three-dimensional positional relationship, for each of the image areas, respectively by recognizing the image area the sensed motion based on the feature amount extracted from, even if there are a plurality of motion in the image, yet each of the plurality of 3-dimensional motion easily it can be recognized stably and accurately.
【0018】 [0018]
好ましくは、前記3次元的な動きの特徴量のx方向、y方向、z方向の各成分値のうち、認識すべき動きに応じて選択された少なくとも1つの成分値に基づき、前記被写体の動きを認識する。 Preferably, the 3-dimensional motion of the feature in the x direction, y direction, among the component values ​​of the z-direction, based on at least one component value is selected according to the motion to be recognized, the movement of the object recognize. その際、好ましくは、前記認識すべき動きの特徴的な動き方向に基づき、前記特徴量の各成分値のうち少なくとも1つの成分値を選択する。 At that time, preferably, based on the feature movement movement to be the recognition, selecting at least one component value of the component values ​​of the feature amount. あるいは、前記認識すべき動きの特徴的な動き方向と、その動き方向と相関関係のある方向とに基づき、前記特徴量の各成分値のうち少なくとも1つの成分値を選択する。 Alternatively, the characteristic motion movement should be the recognition, based on the direction in which a correlation between the movement direction, to select at least one component value of the component values ​​of the feature amount.
【0019】 [0019]
好ましくは、前記画像として距離画像を用いる。 Preferably, a distance image as the image.
【0020】 [0020]
【発明の実施の形態】 DETAILED DESCRIPTION OF THE INVENTION
以下、本発明の実施形態について、図面を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
【0021】 [0021]
(第1の実施形態) (First Embodiment)
まず、本発明の第1の実施形態について説明する。 First, a description will be given of a first embodiment of the present invention.
【0022】 [0022]
図1は、第1の実施形態に係る画像認識装置の全体構成図である。 Figure 1 is an overall configuration diagram of an image recognition apparatus according to the first embodiment. 本実施形態の画像認識装置は、距離画像または奥行き方向の情報を持った画像を取得するための撮像手段を備えた画像取得部1と、画像取得部1で取得された任意の2枚の奥行き方向の情報を持った画像(例えば、距離画像)の差を計算するための差分計算部2と、差分計算部2で結果得られた差分画像から特徴量を検出するための検出部3と、検出部3で得られた特徴量を基に画像内に含まれる対象物の動作を認識するための認識部4とから構成される。 Image recognition apparatus of this embodiment, the distance image, or the image acquisition unit 1 having an imaging means for obtaining an image having a depth direction of the information, any two depth obtained by the image acquisition unit 1 image with the direction of the information (e.g., range image) and the difference calculation unit 2 for calculating the difference, the detection unit 3 for detecting a feature quantity from the result obtained difference image by the difference calculation section 2, composed from the recognition unit 4 which for recognizing the operation of the object included in the image based on the feature amount obtained by the detecting unit 3.
【0023】 [0023]
まず、画像取得部1について説明する。 First, a description is given of an image acquisition unit 1.
【0024】 [0024]
画像取得部1は、認識対象物体(例えば、人間の手、顔、全身など)を被写体として、所定時間毎(例えば1/30秒毎など)に、その3次元形状を反映した奥行き方向の値を持つ画像の1つである例えば距離画像として取得するものである。 Image acquiring section 1, the recognition target object (e.g., human hand, face, systemic, etc.) as a subject, at every predetermined time (for example, every 1/30 seconds), the value of the depth direction reflecting the three-dimensional shape and acquires as is one example, the distance image of the image with. 例えば、距離画像は、特開平10−177449号に開示されている手法を用いて取得することができる。 For example, the distance image can be obtained using the technique disclosed in JP-A-10-177449.
【0025】 [0025]
所定時間毎に距離画像が取得されてゆくため、これらをメモリなどを用いて、画像取得部1の内部または外部で逐次保持することで、対象物の距離画像による動画像(以降、距離画像ストリームと呼ぶ)をも得ることができる。 Since Yuku is acquired distance image at predetermined time intervals, these by using a memory, by sequentially held inside or outside of the image acquisition unit 1, a moving image (hereinafter by distance image of the object, distance image stream and called) can also be obtained. このとき、距離画像ストリームは、距離画像の取得間隔をt秒としたとき、「最新の距離画像」、「最新からt秒前(以降、1フレーム前と呼ぶ)の距離画像」、「最新から2t秒前(2フレーム前、以下同様)の距離画像」、…、といった複数フレームの距離画像の集合体として得られることになる。 The distance image stream, when the acquisition interval of the distance image is t seconds, "latest distance image", "t seconds before (hereinafter, referred to as one frame before) the latest distance image", from "Latest 2t seconds before (two frames ago, hereinafter the same) range images ", ..., such as will be obtained as an aggregate of a plurality of frames of the distance image.
【0026】 [0026]
ここで、距離画像を取得する画像取得部1(以下、距離画像を取得するための画像取得部を距離画像取得部1と呼ぶ)および距離画像について説明する。 Here, the image acquisition unit 1 acquires a distance image (hereinafter, an image acquisition unit for acquiring a distance image is referred to as a distance image acquiring unit 1) and the distance image will be described. 距離画像取得部1は、対象物としての人物が本装置の所定位置についたとき、当該人物の手腕や顔、全身などが撮像できるように、予め位置決めされている。 Distance image acquiring section 1, when a person as an object is attached to a predetermined position of the apparatus, the person of skill or face, systemic and so can be imaged, it is prepositioned.
【0027】 [0027]
距離画像取得部1の外観を図2に示す。 The appearance of the distance image acquiring unit 1 shown in FIG. 中央部には円形レンズとその後部にあるエリアセンサ(図示せず)から構成される受光部103が配置され、円形レンズの周囲にはその輪郭に沿って、赤外線などの光を照射するLEDから構成される発光部101が複数個(例えば8個)等間隔に配置されている。 The central portion is disposed the light receiving unit 103 composed of the area sensor in the rear circular lens (not shown), around the circular lens along its contour, the LED for emitting light such as infrared rays emitting portion 101 is a plurality (e.g., eight) are disposed at equal intervals constructed.
【0028】 [0028]
発光部101から照射された光が物体に反射され、受光部103のレンズにより集光され、レンズの後部にあるエリアセンサで受光される。 Light emitted from the light emitting portion 101 is reflected from an object is converged by the lens of the light receiving portion 103 and is received by the area sensor in the rear of the lens. エリアセンサは、例えば256×256のマトリックス状に配列されたセンサで、マトリックス中の各センサにて受光された反射光の強度がそれぞれ画素値となる。 Area sensor, for example, sensors arranged in a matrix of 256 × 256, the respective pixel value intensities of received reflected light in each sensor in the matrix. このようにして取得された画像が、図4に示すような反射光の強度分布としての距離画像である。 Thus it was obtained image, the distance image as an intensity distribution of the reflected light as shown in FIG.
【0029】 [0029]
図3は、距離画像取得部1の構成例を示したもので、主に、発光部102、受光部103、反射光抽出部102、タイミング信号生成部104から構成される。 FIG. 3 shows a configuration example of a distance image acquiring unit 1, mainly, the light emitting unit 102, receiving unit 103, the reflected light extraction unit 102, and a timing signal generator 104.
【0030】 [0030]
発光部101は、タイミング信号生成部104にて生成されたタイミング信号に従って時間的に強度変動する光を発光する。 Emitting portion 101 emits light temporally intensity fluctuation in accordance with the timing signal generated by timing signal generator 104. この光は発光部前方にある対象物体に照射される。 The light is applied to the target object in front light emitting part.
【0031】 [0031]
受光部103は、発光部101が発した光の対象物体による反射光の量を検出する。 Receiving unit 103 detects the amount of light reflected by the object of the light emitted by the emitting portion 101 is.
【0032】 [0032]
反射光抽出部102は、受光部103にて受光された反射光の空間的な強度分布を抽出する。 It reflected light extraction unit 102 extracts the spatial intensity distribution of the reflected light received by the light receiving portion 103. この反射光の空間的な強度分布は画像として捉えることができるので、以下、これを距離画像と呼ぶ。 This spatial intensity distribution of the reflected light can be regarded as an image, hereinafter referred to as a distance image.
【0033】 [0033]
受光部103は一般的に発光部101から発せられる光の対象物による反射光だけでなく、照明光や太陽光などの外光も同時に受光する。 Receiving unit 103 is not only light reflected by the object generally light emitted from the light emitting unit 101, it is also received at the same time the external light such as illumination light or sunlight. そこで、反射光抽出部102は発光部101が発光しているときに受光した光の量と、発光部101が発光していないときに受光した光の量の差をとることによって、発光部101からの光の対象物体による反射光成分だけを取り出す。 Therefore, the reflected light extraction unit 102 and the amount of light received when the light emitting portion 101 is emitting light, by taking the difference between the amount of light received when the light emitting portion 101 is not emitting light, the light emitting portion 101 extract only reflected light component by the object light from.
【0034】 [0034]
反射光抽出部102では、受光部103にて受光された反射光から、その強度分布、すなわち、図4に示すような距離画像のデータを抽出する。 In reflected light extraction unit 102, from the reflected light received by the light receiving unit 103, the intensity distribution, i.e., it extracts the data of the distance image as shown in FIG.
【0035】 [0035]
図4では、簡単のため、256×256画素の距離画像の一部である8×8画素の距離画像のデータ場合について示している。 In Figure 4, for simplicity, the case is shown where data of 8 × 8 pixels of the distance image which is part of the 256 × 256 pixels of the distance image.
【0036】 [0036]
物体からの反射光は、物体の距離が大きくなるにつれ大幅に減少する。 Light reflected from the object is greatly reduced as the distance of the object increases. 物体の表面が一様に光を錯乱する場合、距離画像1画素あたりの受光量は物体までの距離の2乗に反比例して小さくなる。 If the surface of the object to confusion uniformly light, the distance image receiving amount per one pixel is reduced in inverse proportion to the square of the distance to the object.
【0037】 [0037]
図4において、行列中のセルの値(画素値)は、取得した反射光の強さを256階調(8ビット)で示したものである。 4, the values ​​of the cells in the matrix (pixel value) is a graph showing the intensity of the obtained reflected light with 256 gray levels (8 bits). 例えば、「255」の値があるセルは、距離画像取得部1に最も接近した状態、「0」の値があるセルは、距離画像取得部1から遠くにあり、反射光が距離画像取得部1にまで到達しないことを示している。 For example, a cell with the value "255" is length state closest to the image acquisition unit 1, the cell with a value of "0" is located from the distance image acquiring unit 1 away, the reflected light the distance image acquiring unit shows that does not reach to 1.
【0038】 [0038]
距離画像の各画素値は、その画素に対応する単位受光部で受光した反射光の量を表す。 Each pixel value of the distance image represents the amount of reflected light received by the unit receiving portion corresponding to the pixel. 反射光は、物体の性質(光を鏡面反射する、散乱する、吸収する、など)、物体の向き、物体の距離などに影響されるが、物体全体が一様に光を錯乱する物体である場合、その反射光量は物体までの距離と密接な関係を持つ。 Reflected light, the object properties (specularly reflected light, scattered, absorbed, etc.), object orientation, is influenced such an object distance is the object entire object to confusion uniformly light If, the amount of reflected light has a close relationship with the distance to the object. 手などは、このような性質をもつため、距離画像取得部1の前方に手を差し出した場合の距離画像は、手までの距離、手の傾き(部分的に距離が異なる)などを反映する図5に示したような3次元的なイメージを得ることができる。 The hands, since it has such properties, the distance image when held out his hand in front of the distance image acquiring unit 1 reflects the distance to the hand, the hands of the slope (partly different distances) it is possible to obtain a three-dimensional image as shown in FIG.
【0039】 [0039]
物体からの反射光の強さは物体までの距離dの2乗に反比例して小さくなる。 The intensity of the reflected light from the object decreases in inverse proportion to the square of the distance d to the object. すなわち、当該物体の画像の代表画素値をQ(i、j)とすると、 That is, when the representative pixel values ​​of the image of the object and Q (i, j),
Q(i、j)=K/d …(1) Q (i, j) = K / d 2 ... (1)
と表すことができる。 It can be expressed as.
【0040】 [0040]
ここで、Kは、例えば、d=0.5mのときに、画素値R(i、j)の値が「255」になるように調整された係数である。 Here, K is, for example, when d = 0.5 m, an adjustment coefficient as a pixel value R (i, j) the value of is "255". 式(1)をdについて解くことで、距離dを求めることができる。 By solving equation (1) d, it can be determined distance d.
【0041】 [0041]
このように、図4に示したような反射光の強度分布を表した距離画像の各画素値は、そのまま画像取得部1からの距離(奥行き方向の値)に対応する情報である。 Thus, each pixel value of the distance image representing the intensity distribution of the reflected light as shown in FIG. 4 is information corresponding to unchanged distance from the image acquisition unit 1 (the value of the depth direction). 距離画像は奥行き情報を有する3次元画像である。 Range image is a three-dimensional image with depth information. なお、距離画像の各画素値は、画像取得部1からの距離(奥行き方向の値)に対応する情報であるが、この画素値を上記式(1)を用いて、画像取得部1からの距離値に変換したものであってもよいし、このような絶対的な距離値に限らず、相対的な値に変換して、それを画素値としてもよい。 Each pixel value of the distance image is the information corresponding to the distance from the image acquisition unit 1 (the value of the depth direction), the pixel value using the equation (1), from the image acquisition unit 1 may be obtained by converting a distance value is not limited to such absolute distance values, is converted into a relative value, it may be used as the pixel value. また、画像取得部1からの距離に対応する情報は、上述したような2次元行列形式だけではなく、他の方法を取ることも可能である。 Further, information corresponding to a distance from the image acquisition unit 1, not only two-dimensional matrix format, as described above, it is also possible to take other ways.
【0042】 [0042]
なお、距離画像の取得方法は、上述した特開平10−177449号の画像取得方法に限定されるものではなく、これに準じる、あるいは別の手段を用いて取得するものでも構わない。 Incidentally, method of acquiring the distance image is not limited to the image acquiring method of JP-A-10-177449 ​​described above, pursuant to, or may be one obtained using another means. 例えば、レンジファインダと呼ばれるレーザー光を用いた距離画像取得方法や、ステレオ法と呼ばれる2台のカメラを用いて同時に撮像した2枚の画像の視差情報を用いて距離画像を取得する方法などがそれにあたる。 For example, and the distance image acquiring method using a laser beam, called the range finder, a method of acquiring a distance image using the disparity information of two images captured simultaneously using two cameras, called stereo method it It corresponds to.
【0043】 [0043]
図6は、画像取得部1により取得された手の距離画像の表示イメージを示したもので、例えば、x軸(横)方向64画素、y軸(縦)方向64画素、z軸(奥行き)方向256階調の画像になっている。 Figure 6 shows a display image of the acquired hand range image by the image acquisition unit 1, e.g., x-axis (lateral) direction 64 pixels, y-axis (vertical) direction 64 pixels, z-axis (depth) It has become the direction 256 gradations of the image. 図6は、距離画像の奥行き値、すなわちz軸方向の階調(画素値)をグレースケールで表現したもので、この場合、色が黒に近いほど距離が近く、白に近くなるほど距離が遠いことを示している。 Figure 6 is a depth value of the distance image, i.e. z-axis direction of the gradation (pixel values) a representation in gray scale, in this case, the distance the color is closer to black close nearer distance is long white It is shown that. また、色が完全に白のところは、画像がない、あるいはあっても遠方でないのと同じであることを示している。 The color is completely at the white, indicating that no image, or even the same as not distant.
【0044】 [0044]
次に、図7に示すフローチャートを参照して、図1の画像認識装置の処理動作について説明する。 Next, with reference to the flowchart shown in FIG. 7 describes the processing operation of the image recognition apparatus of FIG.
【0045】 [0045]
まず、画像取得部1は、認識対象物体の距離画像ストリームを取得し、その中に含まれる任意の2フレームの距離画像(以降、距離画像A、距離画像B)を差分計算部2へ渡す(ステップS1)。 First, the image acquisition unit 1, recognizes acquires range image stream of the target object, and passes the distance image (hereinafter, a distance image A, the distance image B) any two frames contained therein to the difference calculation section 2 ( step S1).
【0046】 [0046]
差分計算部2は、画像取得部1によって取得された認識対象物体の距離画像ストリーム中に含まれる任意の2フレームの距離画像(以降、距離画像A、距離画像B)に差分処理を施し、差分画像を生成する(ステップS2)。 Difference calculating section 2, any two frames of the distance image contained in the range image stream of the recognition target object obtained by the image acquisition unit 1 (hereinafter, the distance image A, the range image B) in the difference processing on the difference to generate an image (step S2).
【0047】 [0047]
任意の2フレームは、リアルタイムに認識を行いたい場合は、通常、最新フレーム(時刻t)の距離画像A、および、それから数フレーム前(時刻t−n、nは任意の正定数)の距離画像Bが選択される。 Any two frames, if you want to recognize in real-time, usually, the distance images A latest frame (time t), and then a few frames before (time t-n, n is an arbitrary positive constant) distance image B is selected. ここで、何フレーム前の距離画像を用いるかは、画像取得部1の距離画像取得間隔(フレームレート)や、対象物の動作速度などの情報を基に決定する。 Here, either use many frames before the distance image, the image acquisition unit 1 range image acquisition interval (frame rate) and is determined based on information such as the operating speed of the object.
【0048】 [0048]
それでは、差分計算部2おける差分処理の方法について具体的に説明する。 So, specifically how the difference calculator 2 definitive difference process.
【0049】 [0049]
距離画像A(時刻tに撮像)と距離画像B(時刻t−nに撮像)との差分画像Dの計算は、全ての画素(i,j)に関して式(2)適用する。 Distance calculation of the difference image D of the image A (image capturing time t) and the range image B (captured at time t-n), all of the pixel (i, j) with respect to the formula (2) apply.
【0050】 [0050]
ここで、時刻tにおける距離画像の各画素位置(i,j)の距離値をF (t) (i,j)、時刻tにおける差分画像をD (t) 、その各画素位置(i,j)の値をD (t) (i,j)と表現する。 Here, each pixel position of the distance image at time t (i, j) the distance value of F (t) (i, j), a difference image D at time t (t), each pixel position (i, j the value of) expressed as D (t) (i, j ).
【0051】 [0051]
つまり、距離画像Aの画素位置(i,j)での距離値はF (t) (i,j)、距離画像Bの画素位置(i,j)での距離値はF (t−n) (i,j)、距離画像Aと距離画像Bとの差分画像D (t) (i、j)は、式(2)から生成することができる。 That is, the pixel position of the distance image A (i, j) the distance value of the F (t) (i, j ), the pixel position of the distance image B (i, j) the distance value of the F (t-n) (i, j), the distance image difference image D between a and the distance image B (t) (i, j) may be generated from equation (2).
【0052】 [0052]
【数1】 [Number 1]
【0053】 [0053]
差分画像について、図14を参照して、具体的に説明する。 For differential image, with reference to FIG. 14 will be specifically described. 図14(a)は、距離画像Bの一部のデータであり、画素値が「200」と「150」の2つの画素P1、P2があったとする。 Figure 14 (a) is a part of the data of the distance image B, the pixel value is that there is two pixels P1, P2 of the "150" and "200". また、図14(b)は、距離画像Aの図14(a)に示した2つの画素P1、P2と同じ位置にある2つの画素を示したもので、画素値がそれぞれ「150」と「200」であったとする。 Further, FIG. 14 (b), it shows the two pixels at the same position as the two pixels P1, P2 that shown in FIG. 14 (a) of the distance image A, the pixel value is, respectively, "150", " It assumed to be 200 ". この場合、式(2)を用いることにより、距離画像Aと距離画像Bとの間の画素P1、P2の画素値の変化量は、それぞれ「−50」「50」となり、この値が、図14(c)に示すように、差分画像上の画素P1、P2の画素値となる。 In this case, by using equation (2), the amount of change in pixel values ​​of the pixels P1, P2 between the distance image A and the distance image B are respectively "-50", "50", and this value is, FIG. as shown in 14 (c), the pixel values ​​of the pixels P1, P2 of the differential image. すなわち、距離画像Bでは、画素P1の位置にあったものが、当該対象物が動作した結果、距離画像Aでは、画素P2に移動し、その結果、差分画像上では、画素P1の画素値が「−」の値を持ち、画素P2が「+」の値をもつこととなる。 That is, in the range image B, which was in the position of a pixel P1 is a result of the object is activated, the distance image A, then move to the pixel P2, as a result, on the difference image, the pixel value of the pixel P1 is "-" has a value of a pixel P2 is to have a value of "+".
【0054】 [0054]
差分画像で得られたものは、距離画像Aと距離画像Bで変化のあった部分、つまり、時刻t−nと時刻tでそれぞれの距離画像に撮像されているもののうち、変化のあった部分である。 Portion that obtained in the difference image, the range image A and the distance image was part of the changes in B, that is, among those captured in each range image at time t-n and the time t, for which the change it is. 距離画像Aと距離画像Bが時系列的に同じものを撮像した画像の場合、動きのあった部分のみが変化するため、差分画像によって得られるものは、撮像された対象物のうち、動きのあった部分であるといえる。 If the distance image A and the distance image B of time series images obtained by imaging the same, since only a portion of the motion is changed, those obtained by the difference image, of the imaged object, the motion It can be said to be a part.
【0055】 [0055]
例えば、図8に示すように、人間の上半身が撮像されている際に、その人間が手振り動作をしている時には、距離画像Aとしての図8(b)と距離画像Bとしての図8(a)とから、実際に動いた腕の部分の領域が差分画像として得られる。 For example, as shown in FIG. 8, when a human upper body being imaged, when the its human has a hand movement, distance 8 as an image A and (b) as a distance image B 8 ( since the a), the area of ​​the portion of the arm actually moved is obtained as a difference image. 図8(c)は、図8(a)と図8(b)とから生成される差分画像の表示イメージを示したものである。 FIG. 8 (c) shows a display image of the difference image generated from FIG. 8 (a) and FIG. 8 and (b). 差分画像のデータ中「−」の値を持つ画素値の画素は、その画素値の絶対値をとって、グレースケールで表現したものである。 In the data of the difference image "-" pixels of the pixel value with the value of is, by taking the absolute value of the pixel value, which is a representation of a gray scale.
【0056】 [0056]
図7の説明に戻る。 Back to the description of FIG. 7. 次に、検出部3では、差分計算部2によって生成された差分画像から対象物の動きの特徴量を検出する(図7のステップS3〜ステップS5)。 Next, the detecting unit 3 detects the feature quantity of movement of the object from the difference image generated by the difference calculation section 2 (step S3~ step S5 in FIG. 7).
【0057】 [0057]
それでは、検出部3で実際にどのようにして特徴量の検出を行うのかを主に、図9〜図13を参照して具体的に説明する。 So, primarily, it is specifically described with reference to FIGS. 9 to 13 whether as how actually by the detection unit 3 detects the feature quantity.
【0058】 [0058]
まず、得られた差分画像から流入領域と流出領域とを抽出する(ステップS3)。 First, it extracts the draining from the difference image obtained with the outflow area (step S3).
【0059】 [0059]
対象物の動きにより、距離画像Bの時点(時刻t−n)では物体が存在せずに、距離画像Aの時点(時刻t)で新たに物体が存在するようになった領域(以降、流入領域D INと呼ぶ)と、逆に、距離画像Bの時点(時刻t−n)では物体が存在し、距離画像Aの時点(時刻t)で既に物体が存在しなくなった領域(以降、流出領域D OUTと呼ぶ)が生じる。 The movement of the object, the distance in the absence of a time (time t-n) in an image of the object B, the distance the point of the image A (time t) in the newly area became object is present (hereinafter, inlet and is referred to as region D iN), conversely, the distance image point (time t-n) in the object exists in the B, the distance the point of the image a (time t) already region where the object is no longer present (hereinafter, outflow referred to as a region D OUT) occurs.
【0060】 [0060]
例えば、図9(a)(b)に示すように、対象物が時刻t−nから時刻tの間に、移動した場合を考える。 For example, as shown in FIG. 9 (a) (b), the object is between the time t-n at time t, consider a case where the movement. この場合、時刻t−nに取得された距離画像Bと、時刻tに取得された距離画像Aとの差分画像の表示イメージは、図10(a)に示したようなものとなる。 In this case, the distance image B obtained at time t-n, the display image of the difference image between the distance image A acquired at time t becomes as shown in Figure 10 (a). 実際の差分画像のデータでは、図10(b)に示すように、流入領域に対応する部分の画素の画素値(z軸方向の値)は「+」の値であり、流出領域に対応する部分の画素の画素値は「−」の値である。 The actual data of the difference image, as shown in FIG. 10 (b), the pixel values ​​of the pixels of the portion corresponding to the draining (value of z-axis direction) is the value of the "+" correspond to the outflow region the pixel value of the portion of the pixel is - is the value of "".
【0061】 [0061]
すなわち、流入領域は、差分画像中「+」の値の画素値を持つ画素からなる領域であって、流出領域は、差分画像中「−」の値の画素値を持つ画素からなる領域であり、時刻tにおける流入領域D IN (t) 、流出領域D OUT (t)は、それぞれ式(3)、(4)で表すことができる。 That is, the inflow region is a region composed of pixels having pixel values ​​of the values ​​in the difference image "+", the outflow region in the difference image - be a region consisting of pixels having pixel values ​​of the values ​​of "" , draining D iN at time t (t), outflow region D OUT (t), respectively formula (3) can be expressed by (4).
【0062】 [0062]
【数2】 [Number 2]
【0063】 [0063]
例えば、図14(c)に示した差分画像(の一部)からは、画素値「50」の画素P2が流入領域(の一部)として抽出され、画素値「−50」の画素P1が流出領域の(一部)として抽出される。 For example, from the difference image (part of) shown in FIG. 14 (c), pixel P2 of the pixel value "50" is extracted as the draining (part of) the pixel P1 of the pixel value "-50" It is extracted as (part) of the outflow region.
【0064】 [0064]
図10(a)に示した差分画像から抽出される流入領域の画像を図11(a)に、流出領域の画像を図12(a)に示す。 Figure 11 (a) an image of the inflow region extracted from the difference image shown in FIG. 10 (a), shows an image of the outflow region in Figure 12 (a). なお、図12(a)に示すように、流出領域の画像は、式(4)からも明らかなように、各画素値は絶対値に変換されている。 Incidentally, as shown in FIG. 12 (a), the image of the outlet region, the equation (4) As is apparent from, each pixel value is converted to an absolute value.
【0065】 [0065]
次に、流入領域D IN (t) 、流出領域D OUT (t)の位置を求める(ステップS4)。 Next, determine the position of the inlet region D IN (t), outflow region D OUT (t) (step S4). 本実施形態では、両領域の位置を重心点で代表し(図11,図12参照)、流入領域D IN (t)の重心位置をG IN (t) 、流出領域D OUT (t)の重心位置をG OUT (t)を計算する。 In the present embodiment, the center of gravity of the positions of both areas was represented by the center of gravity (see FIG. 11, FIG. 12), the center of gravity of the draining D IN (t) G IN ( t), outflow region D OUT (t) position to calculate the G OUT (t).
【0066】 [0066]
重心位置G=(Gx,Gy,Gz)は式(5)を用いて計算する。 Gravity center position G = (Gx, Gy, Gz) is calculated using Equation (5).
【0067】 [0067]
【数3】 [Number 3]
【0068】 [0068]
なお、ここに示した重心の計算方法は一例で、これに限定されるものではなく、他の定義を用いて計算することが可能である。 The calculation method of centroids shown here is one example, but the invention is not limited thereto and may be calculated using other definitions.
【0069】 [0069]
さらに、図13に示すように、ステップS4で得られた重心位置G OUT (t)からG IN (t)へのベクトルV (t) =(V (t) x,V (t) y,V (t) z)を求め、これを特徴量として得る(ステップS5)。 Furthermore, as shown in FIG. 13, the center of gravity position obtained in step S4 G OUT (t) from the vector V (t) to G IN (t) = (V (t) x, V (t) y, V (t) z) to seek to obtain it as the feature amount (step S5). この特徴量を以降、ディファレンシャル・フロー(Differential Flow)と呼ぶ。 Since this feature quantity, it referred to as a differential flow (Differential Flow). 時刻tにおけるディファレンシャル・フローは、式(6)で得られる。 Differential flow at time t is obtained by equation (6).
【0070】 [0070]
【数4】 [Number 4]
【0071】 [0071]
なお、以上で説明したディファレンシャル・フローの計算方法は一例であり、これに限定されるものではない。 The calculation method of the differential flow described above is one example, but is not limited thereto. また、特徴量は、ディファレンシャル・フローに限定されるものではない。 The feature quantity is not limited to the differential flow.
【0072】 [0072]
図7の説明に戻る。 Back to the description of FIG. 7. 次に、認識部4は、検出部3で得られた特徴量、すなわち、ディファレンシャル・フローを基に、画像内に含まれる対象物の動きを認識する。 Next, the recognition section 4, the feature quantity obtained by the detecting unit 3, i.e., based on a differential flow, recognizing the motion of the object included in the image.
【0073】 [0073]
それでは、認識部4で実際にどのようにして認識処理を行うのかを人間の上半身における手振り動作の例を用いて具体的に説明する。 So, it will be described in detail with reference to examples of hand movement or perform recognition section 4 in fact how to recognition processing in the human upper body. 手振り動作は、手挙げ/手下げ動作と、手の左右振りという一連の複数の動作から構成されているが、ここでは、この一連の複数の動作のうち、まず、人間の手挙げ/手下げ動作を認識する場合を例にとり説明する。 Hand movement is a hand like / tote operations, and a series of operation of the left and right swing hands, wherein, among the series of operations, first, human hands like / tote It will be described taking as an example a case of recognizing the operation. なお、以下の説明では、「動作」という用語も「動き」という用語も同じ意味合いで用いている。 In the following description, it is used as terms in the same sense the term "operation" even "movement".
【0074】 [0074]
図15に人間の手挙げ/手下げ動作の様子を示し、図16(a)〜(c)は、この動作中のディファレンシャル・フローV (t) =(V (t) x,V (t) y,V (t) z)の時間変化の様子を各成分毎に示したものである。 It shows how the human hand like / tote operation 15, FIG. 16 (a) ~ (c) are differential flow V in this operation (t) = (V (t ) x, V (t) y, how the time variation of V (t) z) illustrates for each component. なお、図16(a)〜(c)では、横軸方向に時間、縦軸にディファレンシャル・フローの各成分の値を示し、縦軸方向の値は、動きの大きさ(量)の大小を表すための適当な値である。 In FIG. 16 (a) ~ (c), time on the horizontal axis, the vertical axis shows the value of each component of the differential flow, the longitudinal axis value of the motion magnitude the magnitude of the (amount) is a suitable value to represent.
【0075】 [0075]
図16では、実際にある(任意の)人に手挙げ/手下げ動作を行ってもらい、その際の距離画像から上記のようにして求めたファレンシャル・フローの値の時間的な変化を示したものである、図16中、手挙げ/手下げ動作時の部分を点線で囲った。 In Figure 16, actually in (optional) human Have Been hands like / tote operation, shows the temporal change in the value of Farensharu flow found by the distance image at that time as described above and those, in FIG. 16, encircled portion at hand like / tote operation by dotted lines. 動きがあった部分は、ディファレンシャル・フローの値が大きく変化しており、それ以外の動きが無い部分(静止状態)は「0」に近い値を取っていることが分かる。 There is a moving portion is the value of the differential flow largely changes, the other motion is not part (stationary state) it can be seen that taking a value close to "0". このように、ディファレンシャル・フローの値を解析することで、動きの認識を行うことができる。 Thus, by analyzing the value of the differential flow, it can be recognized motion.
【0076】 [0076]
以降では、より具体的にディファレンシャル・フローの値の解析方法について説明する。 Later will be described more specifically how the analysis value of the differential flow.
【0077】 [0077]
例えば、人間の「手挙げ」動作の場合、図15(a)、(b)に示すように、手を挙げるのであるから、y軸方向の動きに特徴がある。 For example, if a human "hands like" operation, as shown in FIG. 15 (a), (b), since it is the mention hand, is characterized by the movement of the y-axis direction. さらに、「手挙げ」動作の場合、一般的に人間は腕を手前方向(z軸方向)に動かしながら、手を挙げるものである。 Furthermore, if the operation "hands like", while generally human moves the arm forward direction (z axis direction), in which mention hand. このように、y軸方向とz軸方向の動きに特徴があれば、それらの動き量を乗算した結果には、当該「手挙げ」動作の動き量およびその動作時点がより顕著に表されている。 Thus, if there is a feature in the movement of the y-axis direction and the z-axis direction, the result of multiplying their movement amount, "include hand" the motion amount and the operation time of the operation is represented more remarkably there. そこで、このように、一般的な人間の「手挙げ」動作を分析した結果、人間の「手挙げ」動作は、ディファレンシャル・フローV (t) =(V (t) x,V (t) y,V (t) z)のy成分とz成分を用いて、以下に示す式(7)より認識を行うこととができる。 Therefore, in this way, common "mentioned hand" human operation result of analyzing, "include hand" human behavior, differential flow V (t) = (V ( t) x, V (t) y , using y component and z component of the V (t) z), it is a possible to perform recognition from the equation (7) shown below.
【0078】 [0078]
【数5】 [Number 5]
【0079】 [0079]
式(7)において、TH1は閾値で、任意の正定数である。 In the formula (7), TH1 is a threshold, an arbitrary positive constant. 得られたディファレンシャル・フローの成分Vy、Vzが式(7)の関係を満たすとき、「手挙げ」動作が行われたと認識する。 When the resulting component of the differential flow Vy, Vz satisfies the relation of equation (7), it recognizes a "hands mentioned" operation is performed.
【0080】 [0080]
図17に|Vy×Vz|の変化の様子を示す。 Figure 17 | showing how changes | Vy × Vz. なお、図17において、横軸方向に時間、縦軸に|Vy×Vz|の値を示し、縦軸方向の値は、動きの量(大きさ)の大小を表すための適当な値である。 17, the time on the horizontal axis and the vertical axis | Vy × Vz | indicates the value of the vertical axis value is the appropriate value to represent the magnitude of the amount of motion (size) . 式(7)の関係を満たし、|Vy×Vz|の値が閾値TH1を越える時点で、「手挙げ」動作が行われたと認識するわけである。 Satisfy the relationship of Equation (7), | Vy × Vz | when the value exceeds the threshold TH1, it is not recognized as a "hands mentioned" operation is performed.
【0081】 [0081]
このように、例えば、人間の動作を認識する場合、実際の人間の動きの3次元性を利用する。 Thus, for example, when recognizing human motion, utilizing 3-dimensionality of the actual human movement. 人間が手を動かす際、その平面方向(xy平面方向)の動きと、奥行き方向(z方向)の動きは、独立して生じることはない。 When a person moves his hands, the movement of the plane direction (xy plane direction), movement in the depth direction (z direction), does not occur independently. つまり、例えば、「手挙げ」動作を行うときには、単に手が上方向に動いているだけではなく、奥行き方向の値も、従属して変化している訳である。 That is, for example, when performing the operation "hands like" is not just moving upward hand, the value of the depth direction is also mean that vary dependent. つまり、平面方向の動きの成分と奥行き方向の成分には相関関係が存在する。 That is, the components of the component and the depth direction of the plane movement correlation exists. そこで、平面方向の成分と奥行き方向の成分を同時に見ることで、このような3次元的な動きを安定して認識することが可能であるという訳である。 Therefore, by looking in the plane direction component and a depth component in a direction at the same time, it means that it is possible to recognize such 3-dimensional motion stably.
【0082】 [0082]
そこで、式(7)で示したように、「手挙げ」動作の場合には、ディファレンシャル・フローの各成分のうち、その動作を特徴付ける動きの方向(例えば、ここでは、y軸方向)の成分と、この動き方向と相関関係のある方向の成分とを用いて、例えば、Vy×Vzというような平面方向と奥行き方向の成分の積を得ることで、「手挙げ」動作といった認識が可能となる。 Therefore, as shown in equation (7), when the operation "hands like", out of the components of the differential flow, component in the direction of movement which characterize the operation (e.g., here, y-axis direction) When using a directional component that is correlated with the movement direction, for example, to obtain a product of plane direction and depth direction of the component, such as that Vy × Vz, and can be recognized such as "hands like" operation Become.
【0083】 [0083]
さらに、ディファレンシャル・フローを用いた、人間の「手による否定表現(手振り)」動作の認識手法について説明する。 In addition, using a differential flow, "negative representation by hand (gesture)" of human recognition method of operation will be described.
【0084】 [0084]
「手振り」動作は、手を何回か横方向に動かす動作と考える。 "Gesture" operation, consider the operation to move the hand to several times the transverse direction. 図18に示すように、最少の手振り回数は4回である。 As shown in FIG. 18, hand gesture number of minimum is four. 手挙げ時(図18(b)参照)に1回、横方向(図18(c)、(d)参照)に2回(一往復で左右に1回ずつ)、手下げ時(図18(e)参照)に1回である。 When mentioned hands once (Fig. 18 (b) refer), the lateral direction (FIG. 18 (c), (d) see) (once for the left and right by one reciprocation) twice, when the hand is lowered (FIG. 18 ( is once e) reference). そこで、横方向に4回以上の運動があった場合、「手振り」動作であるとする。 Therefore, when there is 4 times or more lateral movement, and is a "gesture" operation.
【0085】 [0085]
このように、人間の「手振り」動作は、x軸方向の動きに特に特徴があり、x軸方向の動きには、必ずz軸方向の動きも伴う(従って、x軸方向とz軸方向とは相関関係がある)ため、例えば、|Vx×Vz|の値をみることで認識を行うことができる。 Thus, human "gesture" operation, there is particularly characterized in the movement of the x-axis direction, the movement of the x-axis direction, always accompanied by a move in the z-axis direction (hence, the x-axis direction and the z-axis direction correlation) because, for example, | can be recognized by looking at the value | Vx × Vz. そこで、左右振り動作は、式(7)によって検出することができる。 Therefore, the left and right swing motion can be detected by the equation (7). ここで、TH2は閾値であり、任意の正定数値をとる。 Here, TH2 is a threshold, take any positive constant value.
【0086】 [0086]
【数6】 [6]
【0087】 [0087]
式(8)の条件を、一連の動作中に4回以上満たす場合、その動作を「手振り」動作と認識する。 When satisfying the condition of Equation (8), more than 4 times during a series of operations, recognizes the operation "gesture" operation with.
【0088】 [0088]
図19は、実際に人間が一般的に普通の早さで「手振り」動作を行った場合の、|Vx×Vz|の値の変化の様子を示したものである。 Figure 19 is actually human in the case of performing the "gesture" operates in generally normal fast, | shows a state of a change in the value | Vx × Vz. なお、図19において、横軸方向に時間、縦軸に|Vx×Vz|の値を示し、縦軸方向の値は、動き量の大小を表すための適当な値である。 In FIG. 19, time on the horizontal axis and the vertical axis | Vx × Vz | indicates the value of the vertical axis value is the appropriate value to represent the magnitude of the motion amount.
【0089】 [0089]
図19に示した例の場合、一連の動作中に6回の横方向の運動が検出され、この動作は、「手振り」動作であると認識された。 In the example shown in FIG. 19, lateral motion of 6 times during a series of operations is detected, the operation is recognized as a "gesture" operation.
【0090】 [0090]
なお、以上に説明では、ディファレンシャル・フローの3つの成分のうち、これから認識しようとする動きの特徴的な動き方向の成分とその動き方向と相関関係のある方向の成分との2つを用いて、当該動きを認識するようになっているが、この場合に限らず、ディファレンシャル・フローの3つの成分のうち、これから認識しようとする動きの特徴的な動きの方向成分のみを用い、その成分値が予め定められた閾値を超えたとき、当該動きを認識するようにしてもよい。 In the description above, of the three components of the differential flow, using two of said movement direction component and a direction component that is correlated with the movement direction of the movement to now recognize Although adapted to recognize the motion is not limited to this case, among the three components of the differential flow, using only the direction component of the characteristic movement of the movement to now recognize, the component value when but exceeds the predetermined threshold, it may be recognized the movement. さらに、ディファレンシャル・フローの3つの成分全てを用い、各成分値を乗算した結果が予め定められた閾値を超えたとき、当該動きを認識するようにしてもよい。 Furthermore, using all three components of the differential flow, when the result of multiplying each component value exceeds a predetermined threshold value, it may be recognized the movement. このように、認識しようとする動きの種類に応じて、ディファレンシャル・フローの3つの成分のうちの少なくとも1つを用いることにより、動きを認識することができる。 Thus, according to the type of motion to be recognized, by using at least one of the three components of the differential flow, it can recognize the movement. その際、3つの成分のうち選択された成分は、認識しようとする動きの特徴的な動き方向の成分のみである場合か、あるいは、認識しようとする動きの特徴的な動き方向の成分とその動き方向と相関関係のある方向の成分とである場合であることが望ましい。 At that time, components selected among the three components, or if it is only the characteristic movement direction component of the motion to be recognized, or characteristic movement direction component of the motion to be recognized and its it is desirable that when there in the direction of the component that is correlated with the movement direction.
【0091】 [0091]
また、認識部4は、動きの種類を認識するだけでなく、その動作を行う際の動きの早さ、動きの量(大きさ)などの動きの状態も認識することができる。 Further, the recognition unit 4 not only recognize the type of motion, fast motion when performing the operation, can be recognized motion such as the amount of movement (magnitude) state.
【0092】 [0092]
例えば、図19に示したような手の振り方よりも早く手を左右に振った場合の「手振り」動作の|Vx×Vz|の値の時間的な変化を図20に示す。 For example, "gesture" operation when swung to the right and left faster hands than shaked hand, as shown in FIG. 19 | shown in FIG. 20 the temporal change of the value | Vx × Vz. なお、図20において、横軸方向に時間、縦軸に|Vx×Vz|の値を示し、縦軸方向の値は、動きの量(大きさ)の大小を表すための適当な値である。 In FIG. 20, time on the horizontal axis and the vertical axis | Vx × Vz | indicates the value of the vertical axis value is the appropriate value to represent the magnitude of the amount of motion (size) .
【0093】 [0093]
図19と図20を比較することにより明らかなように、図20では、動作の開始時刻と終了時刻が図19の場合より早くなり、しかも一連の動作中に検出される、6回の横方向の運動の間隔は狭くなっていることがわかる。 As is apparent by comparing FIGS. 19 and 20, in FIG. 20, the start and end times of the operation is faster than in the case of FIG. 19, yet is detected during a series of operations, six lateral it can be seen that the distance of the movement has become narrow. そこで、例えば、認識すべき動きに含まれる一連の動きの検出間隔が所定時間より短い場合には、「早い動き」であると判定するようにしてもよい。 Therefore, for example, when the detection interval of a series of movements that are included in the motion to be recognized is shorter than the predetermined time may be determined to be "fast motion".
【0094】 [0094]
また、図19に示したような手の振り方よりも大振りで手を左右に振った場合の「手振り」動作の|Vx×Vz|の値は、図19の場合よりも大きくなる。 Further, the "gesture" operation when the hand roundhouse than shaked hands as swung right and left shown in FIG. 19 | Vx × Vz | value of is greater than in the case of FIG. 19. 従って、|Vx×Vz|の値に、横方向の動きを検出するための第1の閾値(この場合、TH2)の他に、「大きな動き」であると判定するための第2の閾値を設け、例えば、この値を超えるような場合には、「大きな動き」であると判定するようにしてもよい。 Therefore, | Vx × Vz | a value, the first threshold value for detecting the lateral movement (in this case, TH2) in addition to, a second threshold value for determining that a "large motion" provided, for example, when exceeding this value may be determined to be "large motion".
【0095】 [0095]
一般的に、「手振り」動作には、「さようなら」を意味する「手振り」動作や、「ちがう、ちがう」と否定するときの「手振り」動作があるが、この両者の違いは、手を振るときの早さであろう。 In general, a "gesture" operation, "goodbye" meaning to "gesture" operation and the "different, different" and there is a "gesture" operation at the time of denial, the difference of the both, shake the hand when it will be fast of. 「ちがう、ちがう」と手を振るときの方が、「バイバイ」と手を振るときよりも手を振る動作は速くなるのが普通である。 "No, no" and is better when you shake the hand, the faster the operation to shake the hand than when you shake the hand and "bye-bye" are common. そこで、認識部4では、「手挙げ」「手下げ」あるいは、これらと「手の左右振り」とからなる「手振り」動作であるかといった動きの種類を認識するだけでなく、上記したような動きの状態をも認識することにより、例えば、早い動きの「手振り」動作が認識されたときには、「いいえ」を意味し、早き動きでない通常の「手振り」動作が認識されたときには、「さようなら」を意味していると判断することもできる。 Therefore, the recognition section 4, "the hand include," "tote" or not only recognize these and consists to as "right swing hands," "gesture" type of movement, such a either operation, as described above by recognizing also the motion of the state, for example, early when the movement of the "gesture" operation is recognized, when the mean, normal "gesture" operation not Hayaki motion is recognized to "no", "Goodbye it is also possible to determine that it means ". すなわち、認識された動きが表す意味も認識することができる。 That is, it is also meaningful recognized motion recognition.
【0096】 [0096]
なお、以上で述べた解析手法は、あくまでも一例であり、これに限定されるものではない。 Incidentally, the analysis technique described above is merely an example and is not limited thereto. Vx、Vy、Vzに関する他の計算方法を用いてもよいし、FFTやWavelet変換に代表されるような信号処理の手法を用いることも可能である。 Vx, Vy, may be used other computational methods for Vz, it is also possible to use a signal processing method as typified by FFT and Wavelet transform. 人工知能における知識処理的な手法でも構わない。 It may be a knowledge processing techniques in artificial intelligence. あるいは、その他の考えられるあらゆる手法を取ることができる。 Alternatively, it is possible to take any approach other possible.
【0097】 [0097]
また、以上で述べた「手挙げ」、「手の左右振り」といった動作は、あくまでも一例であり、これに限定されることなく、あらゆる動作を解析することが可能である。 Moreover, the operations such as described above, "the hand like", "left swing hands", merely an example, without having to be limited to this, it is possible to analyze any operation. 動作主体も人間に限定されるものではなく、あらゆる物体に関して、本手法を適用可能である。 Main operation is also not limited to humans, with respect to any object, it is possible to apply this method.
【0098】 [0098]
さらに、ディファレンシャル・フローを用いた解析は、一例であり、これとはことなる特徴量を解析しても構わない。 Further, analysis using a differential flow is one example, it may be to analyze the characteristic quantity different from this.
【0099】 [0099]
以上で説明したように、上記第1の実施形態では、対象物を撮影した2枚の距離画像間の差を用いることで、対象物の動きに関する3次元的な特徴量を算出し、それを利用して、対象物の動きの3次元的な認識を実現している。 As described above, in the first embodiment, by using the difference between two distance images obtained by photographing the object, calculates the three-dimensional feature amount relating to movement of the object, it using realizes a three-dimensional recognition of movement of the object.
【0100】 [0100]
もし、奥行き方向の情報をも表した距離画像を用いず、2次元画像から2次元的な特徴量のみで動きを認識しようとしても、例えば、人の「頭を横に向ける」といった動作の場合、2枚の2次元画像上の頭の画像領域の差分からでは、頭に動きがあったことは検出することはできるが、その動きが「横に向けた」動きでることは正確には認識することができない。 If, instead of using the distance image representing also the depth direction of the information, even if an attempt is recognized motion with only two-dimensional feature value from the two-dimensional image, for example, in the case of the operation such as "Head of directing next" human , of from two difference head image area on the two-dimensional images, although it is possible to detect that there has been a movement in the head, recognition precisely that the motion is in motion "for the horizontal" Can not do it. しかし、上記第1の実施形態では、距離画像のように奥行き方向の情報を持たない従来の2次元画像内の2次元的な情報から、3次元的な動きを推測するといった認識手法(例えば、手のx軸方向(横方向)の投影面積が減少したから、手をy軸周りで回転したのであろうといったもの)と異なり、実際に距離画像の3次元的な性質を表す特徴量(ディファレンシャル・フロー)を用いることで認識を行っているため、従来法よりも、より確実に、より安定して3次元的な動きの認識を行うことが可能である。 However, in the first embodiment, the two-dimensional information within a conventional two-dimensional image having no depth direction information as a distance image, recognition techniques such infer 3-dimensional motion (e.g., since the projected area of ​​the hand of the x-axis direction (lateral direction) is reduced, unlike the hand that says was probably rotated about y-axis), the feature value representing the 3-dimensional nature of the actual distance image (differential flow) for doing recognition by using, than the conventional method, more reliably, it is possible to recognize more stable 3-dimensional motion.
【0101】 [0101]
以下、第1の実施形態のいくつかの変形例を示す。 Hereinafter, several modifications of the first embodiment.
【0102】 [0102]
(第1実施形態の変形例1) (Modification 1 of the first embodiment)
画像取得部1で、所定時間毎に距離画像を取得するのではなく、任意のタイミングで距離画像を取得するようにしてもよい。 In the image acquisition unit 1, rather than obtaining the distance image every predetermined time, it may acquire a distance image at any timing. 動きの速い物体を撮像している際には速い間隔毎に、遅い物体を撮像している際には遅い間隔毎になどといったように、撮像物に応じて取得間隔をダイナミックに変化させてもよいし、例えば、ユーザの指示などを用いて、任意のタイミングで取得するようにしてもよい。 Every fast intervals when being imaged fast object motion, slow object as such as every slow intervals when being imaged, even dynamically changing the acquisition interval according to the imaging material it may, for example, by using a user instruction, may be acquired at an arbitrary timing. また、それ以外の方法でも構わない。 In addition, it may be in any other way.
【0103】 [0103]
このようにすることにより、例えばユーザが開始時と終了時をスイッチで指示し、その間に特定の動きが行われたかどうかといったような任意の時間間隔内での3次元的な動き認識を行うことが可能である。 By doing so, for example, the user instructs at the start and end switch, by performing a 3-dimensional motion recognition within any time interval, such as whether a particular movement has been performed during which it is possible. また、認識したい物体の動作速度に応じて、動作認識に適した取得間隔に制御するようにしてもよい。 Further, according to the operation speed of the object to be recognized, it may be controlled to obtain suitable intervals for operation recognition.
【0104】 [0104]
(第1実施形態の変形例2) (Modification 2 of the first embodiment)
差分計算部2で、最新のフレームではなく、過去の特定のフレーム(時刻t(現在)よりも前の任意の時刻t')を距離画像Aとし、そこから数フレーム前(例えば、時刻t'−nのフレーム)を距離画像Bとして差分画像を生成するようにしてもよい。 The difference calculation unit 2, rather than the latest frame, past a particular frame (time t (current) arbitrary time t earlier than ') as a distance image A, several frames before therefrom (e.g., at time t' differential image frames) of -n as a distance image B may be generated a.
【0105】 [0105]
このようにすることにより、過去の特定の時点での3次元的な動き認識を行うことが可能である。 By doing so, it is possible to perform three-dimensional movement recognition in the past a particular point in time.
【0106】 [0106]
つまり、第1の実施形態で説明したように、リアルタイムの動き認識だけではなく、任意の時点の動き認識を行うことが可能である。 That is, as described in the first embodiment, not only the real-time motion recognition, it is possible to perform motion recognition of any time. これにより、ビデオテープ、ハードディスクなどの記録装置に記録された距離画像ストリームのオフライン認識を行うことができる。 Thus, it is possible to perform off-line recognition of the range image stream recorded video tape, a recording device such as a hard disk.
【0107】 [0107]
(第1実施形態の変形例3) (Modification 3 of the first embodiment)
第1の実施形態および上記変形例2で、差分計算部2において、距離画像Aは、距離画像Bよりも時刻的に新しい画像として説明したが、これに限られるものではなく、時刻関係が逆転しても同様である。 In the first embodiment and the modified example 2, the difference calculation section 2, the distance image A, the distance image has been described as a time to a new image than B, this is not limited, the time relationship reversal the same applies to.
【0108】 [0108]
(第1実施形態の変形例4) (Modification 4 of the first embodiment)
第1の実施形態でも説明したように、認識部4では、特徴量(一例としてディファレンシャル・フロー)の解析を行うことで、ある動きが行われているかどうかが認識するとともに、特徴量の値の大きさや、その変動幅などを解析することで、その動きがどのくらいの大きさで行われているのかをも認識することができる。 As described in the first embodiment, the recognition section 4, by performing the analysis (differential flow as an example) the feature amount, while recognizing whether a motion has been carried out, the feature quantity values size and, by analyzing and its variation range, can be recognized whether the motion is being performed by how big.
【0109】 [0109]
例えば、第1の実施形態では、「手の左右振り」動作の認識の例で、横方向の動きを検出する際に、|Vx×Vz|の値がある閾値を越えたかどうかをみていたが、これを押し進めて、閾値を1つだけではなく、TH1、TH2、TH3(これらは任意の正定数で、TH1<TH2<TH3を満たすものとする)などと言ったように例えば3つ用意して、この値の大きさがどの閾値を超えたかによって動きの大きさを3段階に分けることができる。 For example, in the first embodiment, an example of a recognition operation "left swing hands", when detecting the lateral movement, | had seen whether exceeds a certain threshold value | Vx × Vz , and pushed it, not just a single threshold value, TH1, TH2, TH3 (these are arbitrary positive constants, TH1 <TH2 <shall meet TH3) such as to for example three prepared as said Te, it is possible to divide the magnitude of the motion in three steps depending on whether the magnitude of this value is greater than what threshold. このように、複数の閾値を用意することで、動きが行われたかどうかだけでなく、その動きの大きさのレベルをも知ることが可能である。 Thus, by preparing a plurality of threshold values, the motion is not only whether it was done, it is possible to know also the level of magnitude of the motion. また、閾値処理ではなく、その値自体をアナログ量として見て、動きの大きさをアナログ量として表現することも可能である。 Further, instead of the threshold processing, a look at the value itself as an analog amount, it is also possible to express the magnitude of the motion as an analog amount.
【0110】 [0110]
なお、ここで説明した方法は一例であり、これに限定されるものではない。 It should be noted that the method described herein is an example, but is not limited thereto. どの値を解析するかも自由に選べるし、その選んだ値からどのように動きの大きさを判別するかも、各種の方法を取ることができる。 It which values ​​to analyze whether also freely selected, be how to determine the magnitude of the motion from the selected value can take a variety of ways.
【0111】 [0111]
(第1実施形態の変形例5) (Modification 5 of the first embodiment)
画像取得部1で、取得する距離画像は、第1の実施形態で表現した画像に限られない。 In the image acquisition unit 1, the distance image to be acquired is not limited to the image expressed in the first embodiment. 例えば、モーションキャプチャ法により得られた物体の特徴点データと物体の3次元モデルを組み合わせることで得られた物体の3次元形状データや、CGなどで用いられるために作成された3次元データなどは、通常画像と呼ばないことが多いが、データの持つ性質は、3次元的な形状を表現しているため、第1の実施形態で説明した距離画像に準じる性質を持つ。 For example, it the three-dimensional and shape data of an object obtained by combining the three-dimensional model of the feature point data and the object of the object obtained by the motion capture method, such as three-dimensional data created to use CG like the , it is often not known as normal image, nature of data, because it represents a three-dimensional shape has the property analogous to the distance image described in the first embodiment. そこで、これらは本実施形態における距離画像と同等とみなすことができる。 Therefore, it can be regarded as equal to the distance image in this embodiment.
【0112】 [0112]
このように、通常画像と呼ばれないデータに関しても、3次元の形状データを持つものを画像取得部1で取得することで、同様に、その物体の動きの認識を行うことが可能である。 Thus, with regard not called normal image data and acquiring the one with the three-dimensional shape data by the image acquisition unit 1, similarly, it is possible to recognize the motion of the object.
【0113】 [0113]
(第1実施形態の変形例6) (Modification 6 of the first embodiment)
認識部4で、動きが行われたかどうかの認識結果だけではなく、その認識に対する信頼度と併せて結果として出力することがある。 In recognition unit 4, not only whether the recognition result motion is performed, it is possible to output as a result together with the reliability for the recognition. 信頼度は、認識を行う際、認識のための条件を満たす際の数値の差異などをもとに決定する。 Reliability, when performing recognition, determining the like based on the value of the difference in time satisfy for recognition. 例えば、第1の実施形態における「手挙げ」動作を認識する場合、式(7)を用いて認識のための判別を行っているが、|Vy×Vz|−TH1の値(閾値との差の大きさ)や、Vyの値を信頼度とすることができる。 For example, when recognizing the "hands mentioned" operation in the first embodiment, is performed to determine for recognition using Equation (7), | difference between -TH1 value (threshold | Vy × Vz size) and the value of Vy may be reliability. また、これらを相互用いて信頼度を算出してもよいし、これ以外の値を用いてもよい。 Further, it may be calculated reliability using these cross, it may be used other values.
【0114】 [0114]
このようにすることで、ある動きの認識がどのくらい信頼度で行われているのかを知ることができる。 By doing so, it is possible to know what is done in how reliability recognition of a motion. 例えば、「手挙げ」の認識が高い信頼度で成功していれば、ユーザは、この認識結果は非常に信頼する事ができるが、信頼度が低い場合、参考程度に考えるなどということが可能となる。 For example, if successful in recognizing the high reliability of the "hand like," the user, but this recognition result can be very reliable, if confidence is low, it is possible that such as think about reference to become.
【0115】 [0115]
(第2の実施形態) (Second Embodiment)
上記第1の実施形態で説明した画像認識装置およびその手法は、距離画像から対象物の3次元的な動きの特徴量(ディファレンシャル・フロー)を検出し、それを用いて距離画像内に含まれる対象物の動きを認識するものであり、距離画像内の1つの動きの特徴量を求めて、その1つの動きの認識のみを行う場合について説明した。 The image recognition apparatus explained in the first embodiment and its method detects the feature quantity of 3-dimensional motion of the object from the distance image (differential flow), it is included within the range image using the same is intended to recognize the movement of the object, seeking feature amount of one movement of the distance image, it has been described a case where only the recognition of the one motion. 次に、第2の実施形態では、距離画像に含まれる複数の動きのそれぞれを認識する場合について説明する。 Then, in the second embodiment, a case of recognizing each of a plurality of motion contained in the distance image.
【0116】 [0116]
図21は、第2の実施形態に係る画像認識装置の全体構成図である。 Figure 21 is an overall configuration diagram of an image recognition apparatus according to the second embodiment. なお、図21において、図1と同一部分には同一符号を付し、異なる部分についてのみ説明する。 Note that in FIG. 21, the same reference numerals denote the same parts in FIG. 1, only different parts will be described. すなわち、図21の画像認識装置は、差分計算部2で得られた差分画像から、対象物の動作認識のための認識領域を抽出する領域抽出部5が新たに追加され、検出部3は、領域抽出部5で差分画像から抽出された認識領域毎に特徴量を検出するようになっている。 That is, the image recognition apparatus of FIG. 21, from the difference image obtained by the difference calculation section 2, the area extracting unit 5 for extracting a recognition area for action recognition of the object is newly added, detector 3, and it detects the feature amount for each recognition area extracted from the difference image by the region extracting unit 5.
【0117】 [0117]
画像取得部1および差分計算部2に関しては、第1の実施形態とまったく同様である。 For the image acquisition unit 1 and the difference calculation unit 2, it is exactly the same as the first embodiment.
【0118】 [0118]
次に、領域抽出部5について、図22に示すフローチャートを参照して説明する。 Next, the region extraction section 5 will be described with reference to a flowchart shown in FIG. 22.
【0119】 [0119]
領域抽出部5は、画像取得部1から送られてきた、例えば、図23(a)(b)に示したような距離画像中に複数の動きが同時に混在している場合に、図23(c)に示したように、差分画像から、各動きを認識するための複数の領域を抽出するようになっている。 Region extracting unit 5, sent from the image acquisition unit 1, for example, when a plurality of motion are mixed simultaneously to the distance in the image as shown in FIG. 23 (a) (b), 23 ( as shown in c), the made from the difference image, so as to extract a plurality of regions for recognizing each motion.
【0120】 [0120]
まず、図23(a)、(b)に示した距離画像A(時刻tに撮像されたもの)、距離画像B(時刻t−nに撮像されたもの)に含まれる対象物(動き)の領域を抽出する(ステップS101)。 First, FIG. 23 (a), (which was captured at the time t) the distance image A shown (b), the object included in the range image B (time t-n those captured in) the (motion) It extracts an area (step S101). ここで、1つの対象物は連続する領域で占められた領域であると定義し、対象物の画像の外接矩形領域を抽出するものとする。 Here, one object is defined as the occupied at the region contiguous region, and extracts a circumscribed rectangular area of ​​the image of the object. なお、外接矩形領域に限らず、対象物の存在する領域が抽出されれば、他の形状の領域であってもよい。 The present invention is not limited to the circumscribed rectangular area, if it is extracted present area of ​​the object may be an area of ​​other shapes. この場合、図23(a)に示した距離画像Aからは、図24(a)に示すように、対象物の領域R1、R2が抽出される。 In this case, from the range image A shown in FIG. 23 (a), as shown in FIG. 24 (a), areas R1, R2 of the object is extracted. また、図23(b)に示した距離画像Bからは、図24(b)に示すように、対象物の領域R1´、R2´が抽出される。 The distance from the image B shown in FIG. 23 (b), as shown in FIG. 24 (b), a region of the object R1', R2' is extracted.
【0121】 [0121]
次に、距離画像A、B中の対応する2つの領域(好ましくは、同じ対象物が含まれる2つの領域)を合成して認識領域を生成する(ステップS102)。 Then, the distance image A, the corresponding two regions (preferably, two areas contain the same object) in B to generate a recognition area by combining (step S102). 例えば、図23(a)の距離画像A中の領域R1と図23(b)の距離画像B中の領域R1´とが対応し、図23(a)の距離画像A中の領域R2と図23(b)の距離画像B中の領域R2´とが対応するのであれば、図25に示したように、領域R1とR1´とを合成して動きを認識するための認識領域CR1が生成され、また、領域R2とR2´とを合成して認識領域CR2が生成される。 For example, the distance image and the area R1' in the range image B of A in region R1 and FIG 23 (b) correspond, region R2 and the figures of the distance image A in FIG. 23 (a) of FIG. 23 (a) if the distance image region R2' and is than corresponds in B in 23 (b), as shown in FIG. 25, the generation recognition region CR1 for recognizing a motion by combining the R1' the region R1 are, also, the recognition area CR2 is generated by combining the R2' and region R2.
【0122】 [0122]
例えば、距離画像AとBとを重ね合わせたときに、領域R1とR1´の重なり合う領域と、それ以外の両者の全ての領域とを認識領域CR1とする。 For example, when superposing the distance images A and B, and the overlapping region of R1' the region R1, to the other all the regions of both the recognition area CR1. 認識領域CR2も同様に、距離画像AとBとを重ね合わせたときに、領域R2とR2´の重なり合う領域と、それ以外の両者の全ての領域とを認識領域CR2とする。 Similarly recognition region CR2, when superposing the distance images A and B, and the overlapping region of R2' and area R2, the all regions of the other of the two recognition area CR2.
【0123】 [0123]
ここで、対応の求め方に関しては本発明では特に限定しないが、一番近い領域同士が同じ対象物の領域であると判断し、それらを対応させても良いし、何らかの知識を用いて同じ対象物だと判別される領域を求め、それらを対応させてもよい。 Here, although not particularly limited in the present invention for the formula for the corresponding, determines that the closest regions to each other is a region of the same object may be let them correspond, the same object by using some knowledge It obtains an area is determined that thing may cause them to correspond. 他の方法でも構わない。 It may be in other ways.
【0124】 [0124]
さらに、領域抽出部5は、差分計算部2で求めた差分画像から複数の認識領域を抽出する(ステップS103)。 Furthermore, the region extracting unit 5 extracts a plurality of recognition areas from the difference image obtained by the difference calculation unit 2 (step S103). すなわち、例えば、図23(a)に示した距離画像Aと図23(b)に示した距離画像Bとから、差分計算部2にて、図26(a)に示すような差分画像が生成されたとする。 That is, for example, from the range image B shown in distance image A and FIG. 23 (b) shown in FIG. 23 (a), in the difference calculating section 2, the differential image as shown in FIG. 26 (a) generate and it has been. このような差分画像から図25に示した認識領域CR1、CR2のそれぞれに対応する部分を認識領域CR1´、CR2´として抽出する。 The parts corresponding to such a difference image in each of the recognition area CR1, CR2 illustrated in FIG. 25 recognition area CR1', extracted as CR2'. 例えば、距離画像AとBとを重ね合わせて認識領域CR1、CR2を生成したが、さらに、その上に差分画像を重ね合わせたときの、差分画像中の認識領域CR1、CR2のそれぞれに対応する領域を認識領域CR1´、CR2´として抽出する。 For example, the distance images A and B and the superposed with recognition area CR1, CR2 was produced and further, when superimposed difference image thereon, corresponding to each recognition area CR1, CR2 in the difference image region recognition region CR1', extracted as CR2'.
【0125】 [0125]
なお、領域抽出部5は、ステップS101において、距離画像中から1つの対象物の領域のみが抽出されたときでも、ステップS102,ステップS103の処理を行って、距離画像Aと距離画像B中の当該対象物の含まれる対応する領域を合成して認識領域を生成し、差分画像から当該認識領域を抽出する。 Incidentally, the region extraction unit 5, in step S101, from within the range image one even when only the region is extracted in the object, by performing the processing of step S102, step S103, the distance image A and the distance in the image B of the corresponding areas included the said object synthesized to generate a recognition region, and extracts the recognition area from the difference image.
【0126】 [0126]
次に検出部3について説明する。 Next detector 3 will be described.
【0127】 [0127]
検出部3では、領域抽出部5で差分画像から抽出された複数の認識領域のそれぞれについて、特徴量(例えば、ここでは、ディファレンシャル・フロー)を求める(図27参照)。 The detection unit 3, for each of the plurality of recognition regions extracted from the difference image by the region extracting unit 5, a feature amount (for example, here, differential flow) Request (see Fig. 27).
【0128】 [0128]
特徴量の検出処理に関しては、第1の実施形態の検出部3と同様である。 For the detection process of the feature amount is the same as the detection unit 3 of the first embodiment.
【0129】 [0129]
認識部4では、検出部3で検出された複数の認識領域毎の特徴量をそれぞれ解析し、動きの認識を行う。 The recognition unit 4, detected by the detecting portion 3 a plurality of feature quantity for each recognition area were analyzed respectively, and recognizes the movement. 具体的な個々の動作の認識方法に関しては、第1の実施形態の認識部4と同様である。 For the recognition method of a specific individual operations, it is similar to the recognition unit 4 of the first embodiment.
【0130】 [0130]
この際、認識のための解析は、それぞれの特徴量の値に関して独立して行ってもよいし、それぞれの値を相互参照して解析してもよい。 At this time, analysis for recognition may be performed independently for each of the feature values ​​may analyze each value cross-reference to.
【0131】 [0131]
このように、距離画像中に複数の動きが存在する場合には、差分画像から各動きの存在位置に対応する複数の認識領域を抽出して、この認識領域毎に複数の動きのそれぞれに対応した特徴量を求めて動作を認識することにより、単一の動きの認識にとどまらず、複数の動きの認識を同時に行うことが可能となり、しかも、複数の3次元的な動きのそれぞれを、安定的かつ高精度に認識することができる。 Thus, when a plurality of motion in the range image is present, it extracts a plurality of recognition areas corresponding to the location of each motion from the difference image, corresponding to each of the plurality of motion for each the recognition area by recognizing the operation seeking feature amount, not only the recognition of a single movement, it becomes possible to perform recognition of a plurality of motion at the same time, moreover, each of the plurality of 3-dimensional motion, stable manner and can be recognized with high accuracy.
【0132】 [0132]
なお、以上で説明した領域抽出部における差分画像からの認識領域の抽出手法は一例であり、これに限定されるものではない。 Incidentally, the extraction method of the recognition region from the difference image in the region extraction unit described above is an example, but is not limited thereto.
【0133】 [0133]
(第3の実施形態) (Third Embodiment)
第1の実施形態では、認識部4において、ある動きに関する認識を行っていた。 In the first embodiment, in the recognition section 4, it has been subjected to recognition of certain movements. 第3の実施形態では、これを推し進め、複数の動きの識別を含んだ動き認識を可能とするものである。 In the third embodiment, it is pushing it, and makes it possible to move the recognition that includes an identification of a plurality of motion.
【0134】 [0134]
例えば、第1の実施形態では、「手振り」動作を例にとり説明したが、この「手振り」動作は、「手挙げ」「手下げ」「手の左右振り」という動きからなる。 For example, in the first embodiment has been described taking the "gesture" operation as an example, the "gesture" operation consists of the motion of "hands like," "tote", "left swing hands". このように、1つの認識対象の動きには、複数種類の動きから構成される場合もある。 Thus, in one movement of the recognition target, there is a case composed of a plurality of types of motion. そこで、第3の実施形態では、複数種類の動きをそれぞれ認識して、それらの関連性から1つの動きを識別する事も可能な画像認識装置について説明する。 Therefore, in the third embodiment, the movement of the plurality of types were recognized respectively, for the possible image recognition apparatus explained possible to identify a single movement from their relevance.
【0135】 [0135]
図28は、第3の実施形態に係る画像認識装置の全体構成図である。 Figure 28 is an overall configuration diagram of an image recognition apparatus according to the third embodiment. なお、図28において、図1と同一部分には、同一符号を付し、異なる部分についてのみ説明する。 Incidentally, in FIG. 28, the same parts in FIG. 1, the same reference numerals and their descriptions are omitted. すなわち、図28の画像認識装置は、検出部3で得られた特徴量(例えば、ここでは、ディファレンシャル・フロー)を基に画像内に含まれる対象物の動きを認識するための複数の(例えば、ここでは、x個(xは、任意の整数))認識部(第1の認識部4a、第2の認識部4b、…、第xの検出部4x)を持ち、さらに、この複数の認識部4a〜4xで得られた認識結果をもとに、対象物の動きの識別を行う動作識別部6が新たに追加されている。 That is, the image recognition apparatus of FIG. 28, the feature quantity obtained by the detecting unit 3 (e.g., here, differential flow) of the plurality for recognizing the motion of the object included in the image based on the (e.g. here, (the x, an arbitrary integer) x number have) recognition unit (first recognition unit 4a, the second recognition unit 4b, ..., the detection unit 4x) of the x, further the multiple recognition based on the recognition result obtained in part 4A~4x, operation identification unit 6 for identifying the movement of the object it is newly added.
【0136】 [0136]
画像取得部1、差分計算部2および検出部3に関しては、第1の実施形態とまったく同様である。 Image acquisition unit 1, with respect to the difference calculation unit 2 and the detector 3, is exactly the same as the first embodiment.
【0137】 [0137]
次に、複数の認識部4a〜4xについて説明する。 It will now be described more recognition unit 4A~4x. 各認識部では、その認識部に予め定められた特定の動きを認識する。 Each recognition unit recognizes a particular movement predetermined for the recognition unit.
【0138】 [0138]
例えば、第1の認識部4aは、「手挙げ」動作の認識を行う。 For example, the first recognition unit 4a performs the recognition operation "hands like". 認識の方法に関しては、第1の実施形態と同様である。 For the method of recognition, it is the same as the first embodiment. 第2の認識部4bでは、第1の認識部4aとは異なる特定の動きの認識を行う。 In the second recognition unit 4b, it carries out the recognition of different specific movements the first recognition unit 4a. 例えば、「手の左右振り」動作の認識を行う。 For example, to recognize the "left and right shaking hands" operation. 認識の方法に関しては、第1の実施形態と同様である。 For the method of recognition, it is the same as the first embodiment.
【0139】 [0139]
以下、同様にして、第xの認識部4xでは、それ以外の認識部とは異なる特定の動きの認識を行う。 In the same manner, the recognition unit 4x of the x, performs the recognition of different specific movements and other recognizer. 例えば、「首の上下振り」動作の認識を行う。 For example, to recognize the "up and down swing of the neck" operation. 認識の方法に関しては、第1の実施形態と同様である。 For the method of recognition, it is the same as the first embodiment.
【0140】 [0140]
次に、動作識別部6について説明する。 Next, the operation identifying section 6. 動作識別部6では、複数の認識部4aから4xで得られた認識結果をもとに、対象物の動きの種類を最終的に識別(弁別)する。 The operation identification section 6, based on the recognition result obtained in 4x plurality of recognition units 4a, eventually identify the type of movement of the object is (discrimination).
【0141】 [0141]
例えば、「首の上下振り」動作のみが認識成功の結果が得られており、他の動きに関する認識が失敗している場合、対象物の動作は、「首の上下振り」であると識別することができる。 For example, been obtained only in operations of the recognition success results "vertical appearance of the neck", if recognition of other movements have failed, the object operation is identified as a "vertical appearance of the neck" be able to. このように、複数の認識部4a〜4xのうちの1つの認識部での認識結果のみが成功している場合は、動作識別部6は、その認識された動きをそのまま識別結果として出力する。 Thus, when only the recognition result of one recognition unit of the plurality of recognition units 4a~4x is successful, operation identification unit 6 outputs the recognized motion as it identification result.
【0142】 [0142]
複数の認識部4a〜4xでの認識結果に複数の成功が含まれる場合の動作識別部6の処理動作について説明する。 Will be described the processing operation of the operation identifying section 6 of contain multiple successful recognition result of a plurality of recognition units 4A~4x. 第1の実施形態で説明したように、人間が「手振り」動作を行う場合、通常、人間は手を体の前ぐらいまで挙げて、それから左右方向に手を振る。 As described in the first embodiment, when a person performs the operation "gesture", usually humans raise their hands until about previous body, then waving in the lateral direction. そして、最後には、手を降ろす。 And, finally, down the hand. そこで、このような動作の場合、「手挙げ」、「手の左右振り」、「手下げ」の3つの動きの認識が成功し、この順番に動作が行われているのであれば、「手振り」という動作が識別(弁別)されることとなる。 Therefore, in the case of such an operation, "the hand include", "left swing hands", successful recognition of the three movements of the "tote", if the operation is being performed in this order, "hand gesture operation of "is to be identified (discriminated).
【0143】 [0143]
このような場合、複数の認識部4a〜4xのいずれか3つで、上記3つの動作のそれぞれを認識するようにし、人間の「手振り」動作に関する知識として、上述したような3つの動作が包含されるという知識を予め動作識別部6に記憶させておけばよい。 In such cases, any three Tsude plurality of recognition units 4A~4x, so as to recognize each of the above three operations, as knowledge of human "gesture" operation, encompass three above-described operation it may be stored in advance in the operation identification unit 6 the knowledge that is.
【0144】 [0144]
なお、知識の表現方法、記憶方法などは、本発明では特に問わない。 A method representations knowledge, such as the storage method is not particularly limited in the present invention. 考えられる任意の方法をとることが可能である。 Any possible method is capable of taking. また、知識は、予め記憶しておいたもので固定されているわけではなく、動作中に任意に入れ替えたり、更新したりすることも可能である。 Further, knowledge, not being fixed in those stored in advance, or replaced arbitrarily during operation, it is possible or update.
【0145】 [0145]
なお、上述した弁別の手法はあくまでも一例であり、これに限定されるものではない。 Incidentally, the method of discrimination described above is only an example, but is not limited thereto. 第1の実施形態の第6の変形例の項で説明した信頼度などをもとに弁別を行ってもよいし、これ以外の方法でも構わない。 Reliability, etc. described in the section of the sixth modification of the first embodiment may be performed discrimination based, it may be in any other way.
【0146】 [0146]
また、上記第3の実施形態では、1つの対象物の動きを認識する場合を説明したが、この手法を第2の実施形態で説明した画像認識装置にも適用する事も可能である。 In the third embodiment, a case has been described to recognize the motion of one object, it is also possible to apply this technique to an image recognition apparatus explained in the second embodiment. すなわち、距離画像中に複数の動きが存在する場合には、領域抽出部5で差分画像から各動きの存在位置に対応する複数の認識領域を抽出し、検出部3で抽出された認識領域毎に、複数の動きのそれぞれに対応した特徴量を求めれば、各認識対象領域のそれぞれについて、複数の認識部4a〜4xで動きの種類を認識して、動作識別部6で最終的に各認識対象領域でどのような動作が行われていたのかを識別する。 That is, when a plurality of motion in the range image is present, extracts a plurality of recognition areas corresponding to the location of each motion in the region extracting unit 5 from the difference image, the detection unit 3 recognizes each area extracted in to, by obtaining a feature amount corresponding to each of the plurality of motion, for each of the recognition target region, and recognizes the type of motion at a plurality of recognition units 4A~4x, finally the recognized operation identification section 6 It identifies what kind of operation has been performed in the target region. また、動作識別部6は、各認識対象領域から認識された各動きから、全体で、どのような動きが行われていたのかを識別することもできる。 Further, operation identification unit 6, from the motion recognized from the recognition target region, in the whole, it is also possible to identify what kind of motion has been performed. (第4の実施形態) (Fourth Embodiment)
図29は、本発明の第4の実施形態に係る画像認識装置の全体構成図である。 Figure 29 is an overall configuration diagram of an image recognition apparatus according to a fourth embodiment of the present invention. なお、図29において、図1と同一部分には同一符号を付し、異なる部分についてのみ説明する。 Note that in FIG. 29, the same reference numerals denote the same parts in FIG. 1, only different parts will be described. すなわち、図29に示す画像認識装置には、画像取得部1で取得された距離画像から、その画像中に含まれる動作認識の対象物の形状を認識するための形状認識部7がさらに追加されている。 That is, the image recognition apparatus shown in FIG. 29, from the distance image acquired by the image acquisition unit 1, the shape recognition part 7 for recognizing the shape of the object of the operation recognition contained in the image is further added ing.
【0147】 [0147]
形状認識部7での対象物の形状の識別手法に関しては本発明では特に言及しないが、考えられるあらゆる手段を用いることができる。 Although not specifically mentioned in the present invention with respect to method for identifying the shape of the object in the shape recognition section 7, it is possible to use all possible means. 例えば、その一手法として、テンプレートマッチング法が挙げられる。 For example, as a one approach, the template matching method. これは、テンプレートと呼ばれる形状の雛形を多数用意し、画像に含まれる物体と一番類似しているテンプレートを検出し、そのテンプレートが表現している形状を結果として得るというものである。 This provides a number of template shape called template, detects an object and most similar to templates included in the image, is that to obtain a shape that the template is represented as a result. 具体的には、丸、三角、四角、手の形状…などといったようなテンプレートを形状認識部7に予め記憶しておき、距離画像内の物体が三角のテンプレートに最も類似している場合には、距離画像内の対象物の形状は三角形状であると認識する。 Specifically, circle, triangle, square, previously stored templates, such as the hand shape ... such as the shape recognition section 7, when the object in the distance image is most similar to the triangle template , the shape of the object in the distance image is recognized to be a triangular shape.
【0148】 [0148]
そのために、形状認識部7は、例えば、画像取得部1から取得した距離画像から対象物の輪郭情報を抽出するようにしてもよい。 Therefore, the shape recognition section 7 is, for example, from the distance image acquired from the image acquisition unit 1 may extract the contour information of the object. すなわち、図6に示したような距離画像から画素値が予め定められた所定値以下のセルを除き、図30に示すような撮像された対象物の輪郭情報を抽出する。 That is, except for the predetermined value or less of the cell in which the pixel values ​​from the distance image as the predetermined shown in FIG. 6, and extracts contour information of the imaged object, as shown in FIG. 30.
【0149】 [0149]
図30のような輪郭情報を抽出するには、隣り合う画素の画素値を比較し、画素値が一定値α以上のところだけに定数値を入れて、同じ定数値が割り振られた連続した画像領域の画素を抽出すればよい。 To extract contour information as shown in FIG. 30 compares the pixel values ​​of the adjacent pixels, an image having a pixel value put a constant value only at a certain value or more alpha, same constant value are continuously allocated it may be extracted pixel region.
【0150】 [0150]
すなわち、例えば図4に示したような距離画像データのマトリックス上の座標位置(i、j)にある画素値をP(i、j)とし、輪郭情報の画素値をR(i、j)とすると、 That is, for example, coordinate positions on the matrix of the range image data as shown in FIG. 4 (i, j) pixel values ​​in the P (i, j), the pixel values ​​of the contour information R (i, j) and Then,
・{P(i、j)−P(i−1、j)}>α、かつ{P(i、j)−P(i、j−1)}>α、かつ{P(i、j)−P(i+1、j)}>α、かつ{P(i、j)−P(i、j+1)}>α · {P (i, j) -P (i-1, j)}> α, and {P (i, j) -P (i, j-1)}> α, and {P (i, j) -P (i + 1, j)}> α, and {P (i, j) -P (i, j + 1)}> α
のとき、R(i、j)=255 When, R (i, j) = 255
・ 上記以外のとき、R(i、j)=0 • When other than the above, R (i, j) = 0
とすることにより、図30のような対象物の輪郭情報を得ることができる。 With, it is possible to obtain contour information of the object as shown in FIG. 30.
【0151】 [0151]
このようにして抽出された対象物の輪郭情報と、予め記憶されたテンプレートとを比較し、対象物の輪郭情報と一番類似しているテンプレートを検出し、そのテンプレートが表現している形状を対象物の形状の認識結果として出力すればよい。 And contour information of the thus object extracted by, compared with a previously stored template to detect the template that most similar to the contour information of the object, a shape in which the template is expressed it may be output as a recognition result of the shape of the object.
【0152】 [0152]
なお、上記のような輪郭を用いた対象物の形状の認識手法は、一例であって、距離画像から輪郭を求めることなく、テンプレート自体が距離画像であって、取得した距離画像をそのままテンプレートである距離画像と比較して、対象物の形状を認識するようにしてもよい。 Incidentally, the recognition method of the shape of the object using a contour as described above, an example, without the distance image obtaining the contour, a template itself is the range image, the range image acquired as the template compared to a distance image, it may be aware of the shape of the object.
【0153】 [0153]
このように、対象物の動作の認識だけではなく、その形状の認識も同時に行い、対象物の動作の認識の際に、認識された形状を参照することにより、例えば、手をどのような形状にどのように動かしたかなども認識することができる。 Thus, not only the recognition of the operation of the object recognition of the shape is performed at the same time, during the recognition operation of the object by reference to the recognized shape, for example, any shape of the hand such as how the move can also be recognized. さらに、上記手法は、手話認識にも適用可能である。 Furthermore, the above method is also applicable to the sign language recognition.
【0154】 [0154]
以上の各実施形態やその変形例は、適宜組み合わせて実施することが可能である。 The embodiments and the modifications thereof described above can be implemented in appropriate combination. また、本発明の手法は、与えられた距離画像もしくはそのストリームに基づいて、動作を認識し、あるいはさらにその認識結果をもとに各種の処理を行うような装置に適用可能である。 Further, the method of the present invention, based on the distance image or a stream given is applicable to recognize the operation, or even the recognition result to the apparatus performs various processing based on.
【0155】 [0155]
図1、図21、図28,図29に示した各構成部は、画像取得部1を除いて、ソフトウェアとしても実現可能である。 1, 21, 28, each component shown in FIG. 29, except for the image obtaining unit 1, may also be implemented as software. また、上記した本発明の手法は、コンピュータに実行させるためのプログラムを記録した機械読みとり可能な媒体として実行することもできる。 Further, the method of the present invention described above can also be executed as a recorded machine readable medium storing a program to be executed by a computer.
【0156】 [0156]
本発明の実施の形態に記載した本発明の手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピーディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリなどの記録媒体に格納して頒布することもできる。 Technique of the present invention described in the embodiments of the present invention, as a program that can be executed by a computer, a magnetic disk (floppy disk, hard disk, etc.), optical disk (CD-ROM, DVD, etc.), recording such as a semiconductor memory It can be distributed and stored in the medium.
【0157】 [0157]
なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。 The present invention is not limited to the above-described embodiments, but can be variously modified without departing from the scope of the invention. さらに、上記実施形態には種々の段階の発明は含まれており、開示される複数の構成用件における適宜な組み合わせにより、種々の発明が抽出され得る。 Furthermore, the above embodiments include inventions in various stages, by appropriately combining a plurality of configuration requirements disclosed, various inventions can be extracted. 例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題(の少なくとも1つ)が解決でき、発明の効果の欄で述べられている効果(のなくとも1つ)が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。 For example, even if several elements are deleted from all the constituent elements disclosed in the embodiments, the invention is (at least one) of problems mentioned in the description of the problem to be solved can be solved, the column of Effect of the Invention in the case stated in which effects (even without the which one) is obtained, the configuration from which the constituent elements are deleted can be extracted as an invention.
【0158】 [0158]
【発明の効果】 【Effect of the invention】
以上説明したように、本発明によれば、3次元的な動きの認識を容易にしかも安定して、高精度で行うことができる。 As described above, according to the present invention, it is possible to recognize the 3-dimensional motion easily and stably carried out with high precision.
【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS
【図1】本発明の第1の実施形態に係る画像認識装置の構成例を概略的に示す図。 Drawing schematically showing a configuration example of an image recognition apparatus according to a first embodiment of the present invention; FIG.
【図2】距離画像を取得する画像取得部の外観の一例を示した図。 FIG. 2 is a diagram showing an example of appearance of the image acquisition unit that acquires a distance image.
【図3】距離画像を取得する画像取得部の構成例を示した図。 FIG. 3 is a diagram showing a configuration example of an image acquisition unit that acquires a distance image.
【図4】反射光の強度を画素値とする距離画像の一例を示した図。 Figure 4 is a diagram showing an example of a distance image as the pixel value of the intensity of the reflected light.
【図5】図3に示した様なマトリックス形式の距離画像を3次元的な表した図。 [5] 3-dimensional represents the diagram the distance image of the matrix format as shown in FIG.
【図6】画像取得部により取得された手の距離画像の表示イメージを示した図。 6 is a diagram showing a display image of the hand of the distance image acquired by the image acquisition unit.
【図7】図1の画像認識装置の処理動作を説明するためのフローチャート。 FIG. 7 is a flowchart for the processing operation will be described of the image recognition apparatus of FIG.
【図8】差分画像について説明するための図。 FIG. 8 is a diagram for explaining the difference image.
【図9】特徴量について説明するための図。 Figure 9 is a diagram for describing feature amount.
【図10】特徴量について説明するための図で、特に、流入領域と流出領域について説明するための図。 In view for will be described [10], wherein the amount, in particular, diagram for explaining draining the outflow region.
【図11】特徴量について説明するための図で、特に、流入領域とその代表点(ここでは、重心)について説明するための図。 [11] a diagram for explaining the feature amount, in particular, draining as the representative point (here, the center of gravity) diagram for explaining.
【図12】特徴量について説明するための図で、特に、流出領域とその代表点(ここでは、重心)について説明するための図。 [12] a diagram for explaining the feature amount, in particular, the outflow region and its representative point (in this case, the center of gravity) diagram for explaining.
【図13】特徴量としてのディファレンシャル・フローについて説明するための図。 13 is a diagram for explaining a differential flow as a feature quantity.
【図14】差分画像、流入領域、流出領域の画像データについて説明するための図。 [14] the difference image, draining, drawing for will be described image data of the outflow region.
【図15】距離画像を用いた、手挙げ/手下げ動作について説明するための図。 [Figure 15] using the range image, diagram for explaining a hand like / tote operation.
【図16】特徴量(ディファレンシャル・フロー)の時間的変化の様子を示した図。 FIG. 16 is a diagram showing a state of temporal changes in the feature amount (differential flow).
【図17】|Vy×Vz|の時間的変化の様子を示した図。 [17] | Vy × Vz | diagram showing a state of the temporal change of.
【図18】手動作における横方向の動きを説明するための図。 Figure 18 is a diagram for explaining a lateral movement in the hand operation.
【図19】|Vx×Vz|の時間的変化の様子を示した図。 [19] | Vx × Vz | diagram showing a state of the temporal change of.
【図20】速い動きで手振り動作を行った場合の|Vx×Vz|の時間的変化の様子を示した図。 [Figure 20] fast motion in hand movement to when performing | Vx × Vz | diagram showing a state of temporal changes in the.
【図21】本発明の第2の実施形態に係る画像認識装置の構成例を概略的に示す図。 Figure 21 schematically illustrates a configuration example of an image recognition apparatus according to a second embodiment of the present invention.
【図22】図21の領域抽出部5の処理動作を説明するためのフローチャート。 Figure 22 is a flowchart for illustrating the processing operation of the area extracting unit 5 in FIG. 21.
【図23】2枚の距離画像に複数の(例えば、ここでは、2つの)動きが存在する場合を説明するための図。 [Figure 23] a plurality of the two range images (e.g., here, two) diagram for explaining the case where motion is present.
【図24】距離画像から対象物の外接矩形を抽出する処理を説明するための図。 Figure 24 is a diagram for explaining a process of extracting a circumscribed rectangle of the distance image object.
【図25】動きを認識するための認識領域を生成する処理を説明するための図。 Figure 25 is a diagram for explaining a process for generating a recognition area for recognizing the movement.
【図26】差分画像から認識領域を抽出する処理を説明するための図。 Figure 26 is a diagram for explaining the process of extracting the recognition area from the difference image.
【図27】差分画像から抽出された認識領域から求めた特徴量(ディファレンシャル・フロー)を説明するための図。 Figure 27 is a diagram for explaining the feature amount obtained from the recognition regions extracted from the difference image (differential flow).
【図28】本発明の第3の実施形態に係る画像認識装置の構成例を概略的に示す図。 [Figure 28] Figure 3 schematically shows the arrangement of an image recognition apparatus according to an embodiment of the present invention.
【図29】本発明の第4の実施形態に係る画像認識装置の構成例を概略的に示す図。 Drawing schematically showing a configuration example of an image recognition apparatus according to a fourth embodiment of FIG. 29 the present invention.
【図30】距離画像から抽出された物体の輪郭画像の一例を示した図。 Figure 30 is a diagram showing an example of a contour image of the extracted object from the distance image.
【符号の説明】 DESCRIPTION OF SYMBOLS
1…画像取得部2…差分計算部3…検出部4…認識部4a…第1の認識部4b…第2の認識部4x…第xの認識部5…領域抽出部6…動作識別部7…形状認識部 1 ... image acquisition unit 2 ... difference calculator 3 ... detector 4 ... recognizing portion 4a ... first recognition unit 4b ... recognition unit 5 ... region extraction unit 6 ... operation identifying section 7 of the second recognition unit 4x ... first x ... shape recognition unit

Claims (12)

  1. 各画素値が対象物までの距離を示す距離画像を生成する距離画像生成手段が、前記対象物の時系列な複数の距離画像を取得するステップと A step each pixel value is a distance image generating means for generating a distance image showing the distance to the object, to acquire a time series a plurality of range images of the object,
    前記複数の距離画像のうちの2つの距離画像間で、画素値の差分データを求め、この差分データから前記対象物の動きに伴い画素値の減少した流出領域と増加した流入領域とを抽出するステップと、 Between two range images of the plurality of range images, calculates the difference data of pixel values, extracts the inflow region increased with decreased outflow region of the pixel values with this difference data to the motion of the object and the step,
    前記流出領域の重心位置から前記流入領域の重心位置へのx軸、y軸及びz軸方向の変化量を計算するステップと、 Calculating a x-axis, y-axis and z-axis direction of the change amount to the center of gravity of the inlet zone from the gravity center position of the outlet region,
    得られたx軸、y軸及びz軸方向の変化量を基に、前記対象物の動きを認識するステップと、 The resulting x-axis, based on the amount of change y-axis and z-axis direction, a step of recognizing a movement of the object,
    を有することを特徴とする画像認識方法。 Image recognition method characterized in that it comprises a.
  2. 各画素値が各対象物までの距離を示す距離画像を生成する距離画像生成手段が、各対象物毎に時系列な複数の距離画像を取得する第1のステップと、 Distance image generating means for each pixel value to generate a distance image showing the distance to each object, a first step of acquiring a time series of a plurality of range images for each object,
    前記複数の距離画像のうちの2つの距離画像中の各対象物の画像領域間で画素値の差分データを求め、各対象物に対応する差分データから、当該対象物の動きに伴い画素値の減少した流出領域と増加した流入領域とを抽出する第2のステップと、 It obtains the difference data of the pixel values between the image area of each object in the two range images of the plurality of range images, the corresponding difference data in each object, the pixel value due to the movement of the object a second step of extracting an inflow region increased with decreased outflow region,
    各対象物について、前記流出領域の重心位置から前記流入領域の重心位置へのx軸、y軸及びz軸方向の変化量を計算する第3のステップと、 For each object, a third step of calculating the x-axis, y-axis and z-axis direction of the change amount to the center of gravity of the inlet zone from the gravity center position of the outlet region,
    得られた各対象物のx軸、y軸及びz軸方向の変化量を基に、各対象物の動きを認識する第4のステップと、 X-axis of each object obtained on the basis of the amount of change in y-axis and z-axis direction, and a fourth step for recognizing the motion of the object,
    を有することを特徴とする画像認識方法。 Image recognition method characterized in that it comprises a.
  3. 前記第2のステップは、前記第1の距離画像中の各対象物の画像領域と重なり合う領域を有する前記第2の距離画像中の当該対象物に対応する画像領域との前記重なり合う領域以外の領域間での画素値の差分データから、前記流出領域及び前記流入領域を抽出することを特徴とする請求項3記載の画像認識方法。 The second step, the area other than the overlapping area between the image area corresponding to the object in the second range image having an image area with overlapping regions of the object in the first distance image the image recognition method according to claim 3, wherein the the difference data of the pixel values between, for extracting the outflow region and the inflow region.
  4. 前記変化量のx方向、y方向、z方向の各成分値のうち、認識すべき動きに応じて選択された少なくとも1つの成分値に基づき、前記対象物の動きを認識することを特徴とする請求項1または2記載の画像認識方法。 The variation in the x-direction, y-direction, among the component values of the z-direction, based on at least one component value is selected according to the motion to be recognized, and recognizes the movement of the object the image recognition method according to claim 1 or 2 wherein.
  5. 前記認識すべき動きの特徴的な動き方向に基づき、前記変化量の各成分値のうち少なくとも1つの成分値を選択することを特徴とする請求項記載の画像認識方法。 Based on said characteristic motion movement should be recognized, the image recognition method of claim 4, wherein the selecting at least one component value of the component values of the variation.
  6. 前記認識すべき動きの特徴的な動き方向と、その動き方向と相関関係のある方向とに基づき、前記変化量の各成分値のうち少なくとも1つの成分値を選択することを特徴とする請求項記載の画像認識方法。 Claims, characterized the characteristic motion movement should be the recognition, that the basis of the motion direction and the direction in which a correlation selecting at least one component value of the component values of the amount of change 4 image recognition method according.
  7. 各画素値が対象物までの距離を示す距離画像を生成する距離画像生成手段を備えた画像認識装置において、 The image recognition device in which each pixel value with a range image generating means for generating a distance image showing the distance to the object,
    前記距離画像生成手段で得られた、前記対象物の時系列な複数の距離画像のうちの2つの距離画像間で、画素値の差分データを計算する第1の計算手段と、 The distance obtained by the image generating means, between the two range images of the time series a plurality of range images of the object, a first calculating means for calculating the difference data of pixel values,
    前記差分データから前記対象物の動きに伴い画素値の減少した流出領域と増加した流入領域とを抽出する抽出手段と、 Extraction means for extracting the inflow region increased with decreased outflow region of the pixel values with the movement of the object from the difference data,
    前記流出領域の重心位置から前記流入領域の重心位置へのx軸、y軸及びz軸方向の変化量を計算する第2の計算手段と、 X-axis from the center of gravity of the outlet region to the center of gravity of the inlet region, a second calculating means for calculating the y-axis and z-axis direction of variation,
    得られたx軸、y軸及びz軸方向の変化量を基に、前記対象物の動きを認識する認識手段と、 The resulting x-axis, based on the amount of change y-axis and z-axis directions, recognition means for recognizing movement of the object,
    を具備したことを特徴とする画像認識装置。 Image recognition apparatus characterized by comprising a.
  8. 各画素値が各対象物までの距離を示す距離画像を生成する距離画像生成手段を備えた画像認識装置において、 In the image recognition apparatus provided with the distance image generating means for each pixel value to generate a distance image showing the distance to each object,
    前記距離画像生成手段で得られた、各対象物毎に時系列な複数の距離画像のうちの2つの距離画像中の各対象物の画像領域間で画素値の差分データを計算する第1の計算手段と、 The distance obtained by the image generating means, a first calculating the difference data of the pixel values between the image area of each object in the two range images of the time series of a plurality of range images for each object and calculation means,
    各対象物に対応する差分データから、当該対象物の動きに伴い画素値の減少した流出領域と増加した流入領域とを抽出する通出手段と、 From the difference data corresponding to each object, and passing detecting means extracts the inflow region increased with decreased outflow region of the pixel values with the movement of the object,
    各対象物について、前記流出領域の重心位置から前記流入領域の重心位置へのx軸、y軸及びz軸方向の変化量を計算する第2の計算手段と、 For each object, a second calculating means for calculating an x-axis, the amount of change in y-axis and z-axis direction from the center of gravity of the outlet region to the center of gravity of the inflow region,
    得られた各対象物のx軸、y軸及びz軸方向の変化量を基に、各対象物の動きを認識する認識手段と、 X-axis of each object obtained on the basis of the amount of change in y-axis and z-axis directions, recognition means for recognizing movement of each object,
    を具備したことを特徴とする画像認識装置。 Image recognition apparatus characterized by comprising a.
  9. 前記抽出手段は、前記第1の距離画像中の各対象物の画像領域と重なり合う領域を有する前記第2の距離画像中の当該対象物に対応する画像領域との前記重なり合う領域以外の領域間での画素値の差分データから、前記流出領域及び前記流入領域を抽出することを特徴とする請求項8記載の画像認識装置。 Said extraction means, between said overlapping other than the area region of said first image area corresponding to the object in the second range image having an image area with overlapping regions of the object distance in the image image recognition device from the difference data of pixel values, according to claim 8, wherein the extracting the outflow region and the inflow region.
  10. 前記変化量のx方向、y方向、z方向の各成分値のうち、認識すべき動きに応じて選択された少なくとも1つの成分値に基づき、前記対象物の動きを認識することを特徴とする請求項7または8記載の画像認識装置。 The variation in the x-direction, y-direction, among the component values of the z-direction, based on at least one component value is selected according to the motion to be recognized, and recognizes the movement of the object the image recognition apparatus according to claim 7 or 8, wherein.
  11. 前記認識すべき動きの特徴的な動き方向に基づき、前記変化量の各成分値のうち少なくとも1つの成分値を選択することを特徴とする請求項10記載の画像認識装置。 Based on said characteristic motion movement should be recognized, the image recognition apparatus according to claim 10, wherein the selecting at least one component value of the component values of the variation.
  12. 前記認識すべき動きの特徴的な動き方向と、その動き方向と相関関係のある方向とに基づき、前記変化量の各成分値のうち少なくとも1つの成分値を選択することを特徴とする請求項10記載の画像認識装置。 Claims, characterized the characteristic motion movement should be the recognition, that the basis of the motion direction and the direction in which a correlation selecting at least one component value of the component values of the amount of change 10 image recognition apparatus according.
JP2001174574A 2001-06-08 2001-06-08 Image recognition method and an image recognition device Expired - Fee Related JP3732757B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001174574A JP3732757B2 (en) 2001-06-08 2001-06-08 Image recognition method and an image recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001174574A JP3732757B2 (en) 2001-06-08 2001-06-08 Image recognition method and an image recognition device

Publications (2)

Publication Number Publication Date
JP2002366958A true JP2002366958A (en) 2002-12-20
JP3732757B2 true JP3732757B2 (en) 2006-01-11

Family

ID=19015843

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001174574A Expired - Fee Related JP3732757B2 (en) 2001-06-08 2001-06-08 Image recognition method and an image recognition device

Country Status (1)

Country Link
JP (1) JP3732757B2 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602004006190T8 (en) 2003-03-31 2008-04-10 Honda Motor Co., Ltd. The device, method and program for gesture recognition
JP4355341B2 (en) * 2003-05-29 2009-10-28 本田技研工業株式会社 Visual tracking using the depth data
JP5114871B2 (en) * 2006-05-31 2013-01-09 沖電気工業株式会社 Video providing apparatus
US8005263B2 (en) * 2007-10-26 2011-08-23 Honda Motor Co., Ltd. Hand sign recognition using label assignment
JP5640423B2 (en) * 2010-03-26 2014-12-17 日本電気株式会社 Display method of infrared imaging device and an infrared image
EP2474950B1 (en) * 2011-01-05 2013-08-21 Softkinetic Software Natural gesture based user interface methods and systems
US8929612B2 (en) * 2011-06-06 2015-01-06 Microsoft Corporation System for recognizing an open or closed hand
KR101880998B1 (en) 2011-10-14 2018-07-24 삼성전자주식회사 Apparatus and Method for motion recognition with event base vision sensor
JP6355372B2 (en) * 2014-03-17 2018-07-11 国立大学法人豊橋技術科学大学 Three-dimensional model feature extraction method, and a three-dimensional model annotation system

Also Published As

Publication number Publication date Type
JP2002366958A (en) 2002-12-20 application

Similar Documents

Publication Publication Date Title
Choi et al. A general framework for tracking multiple people from a moving camera
Johnson et al. A multi-view method for gait recognition using static body parameters
US6301370B1 (en) Face recognition from video images
US7003136B1 (en) Plan-view projections of depth image data for object tracking
US20050271279A1 (en) Sign based human-machine interaction
US6674877B1 (en) System and method for visually tracking occluded objects in real time
US7711155B1 (en) Method and system for enhancing three dimensional face modeling using demographic classification
US7221779B2 (en) Object measuring apparatus, object measuring method, and program product
US6677969B1 (en) Instruction recognition system having gesture recognition function
Bobick et al. The recognition of human movement using temporal templates
Shreve et al. Macro-and micro-expression spotting in long videos using spatio-temporal strain
US20050201612A1 (en) Method and apparatus for detecting people using stereo camera
Xu et al. Human detection using depth and gray images
US20100128927A1 (en) Image processing apparatus and image processing method
US20100296697A1 (en) Object tracker and object tracking method
JP2007042072A (en) Tracking apparatus
JP2007328746A (en) Apparatus and method for tracking object
US20110025834A1 (en) Method and apparatus of identifying human body posture
KR20110013200A (en) Identifying method of human attitude and apparatus of the same
JP2005071344A (en) Image processing method, image processor and recording medium recording image processing program
JPH07313459A (en) Detecting device for opening extent of eyelid
WO2000073995A2 (en) A system and method for tracking objects by fusing results of multiple sensing modalities
US20090097711A1 (en) Detecting apparatus of human component and method thereof
CN102609942A (en) Mobile camera localization using depth maps
US20110158540A1 (en) Pattern recognition method and pattern recognition apparatus

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050712

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051013

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081021

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091021

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101021

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111021

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111021

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121021

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131021

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees