JP2016115179A - Information processing unit, information processing method, and program - Google Patents

Information processing unit, information processing method, and program Download PDF

Info

Publication number
JP2016115179A
JP2016115179A JP2014254080A JP2014254080A JP2016115179A JP 2016115179 A JP2016115179 A JP 2016115179A JP 2014254080 A JP2014254080 A JP 2014254080A JP 2014254080 A JP2014254080 A JP 2014254080A JP 2016115179 A JP2016115179 A JP 2016115179A
Authority
JP
Japan
Prior art keywords
gripping
feature
unit
target
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014254080A
Other languages
Japanese (ja)
Other versions
JP6739896B2 (en
Inventor
壮馬 白石
Soma Shiraishi
壮馬 白石
哲夫 井下
Tetsuo Ishita
哲夫 井下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014254080A priority Critical patent/JP6739896B2/en
Publication of JP2016115179A publication Critical patent/JP2016115179A/en
Application granted granted Critical
Publication of JP6739896B2 publication Critical patent/JP6739896B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To recognize a holding object even when there is no holding object in an image of holding means holding a holding object.SOLUTION: A recognition device 100 includes an image acquisition section 110, a holding feature generation section 112, and a holding object recognition section 116. The image acquisition section 110 acquires an image of holding means 501 holding a holding object 502. The holding feature generation section 112 generates holding features representing a physical relationship of the holding means 501 and a plurality of predetermined sites in the image. The holding object recognition section 116 recognizes the holding object 502 on the basis of the holding features.SELECTED DRAWING: Figure 1

Description

本発明は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、把持手段により把持されている物体を認識するための情報処理装置、情報処理方法、及び、プログラムに関する。   The present invention relates to an information processing device, an information processing method, and a program, and more particularly, to an information processing device, an information processing method, and a program for recognizing an object held by a holding unit.

人等(以下、把持者とも記載する)が手の指等(以下、把持手段とも記載する)で物体(以下、把持対象とも記載する)を把持している状態を撮影した画像を用いて、把持対象を認識する技術が知られている。   Using an image of a state where a person or the like (hereinafter also referred to as a gripper) is holding an object (hereinafter also referred to as a gripping target) with a finger or the like (hereinafter also referred to as gripping means), A technique for recognizing a gripping object is known.

例えば、特許文献1に開示されている技術では、画像中の対象物の部分領域とデータベース内の物品形状とのマッチングを行うときに、手の把持姿勢から算出された空間の大きさで、マッチング対象の物品を限定する。   For example, in the technique disclosed in Patent Document 1, when matching a partial region of an object in an image with an article shape in a database, the matching is performed using the size of a space calculated from a hand gripping posture. Limit the items of interest.

また、非特許文献1に開示されている技術では、画像中の手領域と物体領域の形状の対の特徴を、把持パターン毎に記憶し、当該特徴を用いて把持パターンを認識する。   Further, in the technique disclosed in Non-Patent Document 1, the feature of the shape pair of the hand region and the object region in the image is stored for each grip pattern, and the grip pattern is recognized using the feature.

なお、関連技術として、特許文献2には、画像から検出された指の位置を用いて、操作対象の仮想キーを特定する技術が開示されている。特許文献3には、画像に含まれる対象物を、カラーヒストグラムを用いて認識する技術が開示されている。特許文献4には、動画像中の対象物の面積や外周長の変化の特徴をもとに、対象物を特定する技術が開示されている。非特許文献2には、指毎に指定色のついたグローブ(手袋)を着用して撮影した画像中で、指定色を探すことによって、指領域を検出する技術が開示されている。   As a related technique, Patent Document 2 discloses a technique for specifying a virtual key to be operated using a finger position detected from an image. Patent Document 3 discloses a technique for recognizing an object included in an image using a color histogram. Patent Document 4 discloses a technique for specifying an object based on the characteristics of changes in the area and outer peripheral length of the object in a moving image. Non-Patent Document 2 discloses a technique for detecting a finger region by searching for a designated color in an image photographed by wearing a glove (glove) having a designated color for each finger.

特開2010−244413号公報JP 2010-244413 A 特開2013−143082号公報JP2013-143082A 特開2012−150552号公報JP 2012-150552 A 特開2010−244440号公報JP 2010-244440 A

笠原啓雅、他3名、「把持パターン画像の学習に基づく欠損画素復元と物体認識」、画像の認識・理解シンポジウム(MIRU2008)、2008年7月、p.623-628Hiromasa Kasahara, 3 others, “Restoring Missing Pixels and Object Recognition Based on Grasping Pattern Image Learning”, Image Recognition and Understanding Symposium (MIRU2008), July 2008, p.623-628 渡辺賢、他3名、「カラーグローブを用いた指文字の認識」、電子情報通信学会論文誌、D-II、1997年、vol. J80-D-2、no. 10、p.2713-2722Ken Watanabe and three others, "Recognition of finger characters using color gloves", IEICE Transactions, D-II, 1997, vol. J80-D-2, no. 10, p.2713-2722

上述のように、把持手段が把持対象を把持している状態を撮影した画像で把持対象を認識する場合、例えば、指や手のひらにより把持対象が覆われてしまい、画像内に把持対象が存在しない場合がある。しかしながら、特許文献1、及び、非特許文献に記載された技術では、把持対象の部分的な画像を用いて把持対象を認識しているため、このように画像内に把持対象が存在しない場合は、把持対象を認識できない。   As described above, when the gripping target is recognized by an image obtained by capturing the state where the gripping means is gripping the gripping target, for example, the gripping target is covered by a finger or palm, and there is no gripping target in the image. There is a case. However, in the techniques described in Patent Literature 1 and Non-Patent Literature, since the gripping target is recognized using a partial image of the gripping target, there is no gripping target in the image in this way. The gripping target cannot be recognized.

本発明は、上述の課題を解決し、把持対象を把持している把持手段の画像中に把持対象が存在しない場合であっても、把持対象を認識できる、情報処理装置、情報処理方法、及び、プログラムを提供することである。   An information processing apparatus, an information processing method, and an information processing apparatus capable of recognizing a gripping target even when the gripping target does not exist in an image of a gripping unit that grips the gripping target. Is to provide a program.

本発明の情報処理装置は、把持対象を把持している把持手段の画像を取得する画像取得手段と、前記画像における前記把持手段の複数の所定部位間の位置関係を示す把持特徴を生成する、把持特徴生成手段と、前記把持特徴をもとに、前記把持対象を認識する、把持対象認識手段と、を備える。   The information processing apparatus of the present invention generates an image acquisition unit that acquires an image of a gripping unit that is gripping a gripping target, and a gripping feature that indicates a positional relationship between a plurality of predetermined parts of the gripping unit in the image. Gripping feature generating means; and gripping object recognition means for recognizing the gripping object based on the gripping feature.

本発明の情報処理方法は、把持対象を把持している把持手段の画像を取得し、前記画像における前記把持手段の複数の所定部位間の位置関係を示す把持特徴を生成し、前記把持特徴をもとに、前記把持対象を認識する。   The information processing method of the present invention acquires an image of a gripping means that grips a gripping target, generates a gripping feature indicating a positional relationship between a plurality of predetermined parts of the gripping means in the image, and Based on the above, the object to be grasped is recognized.

本発明のプログラムは、コンピュータに、把持対象を把持している把持手段の画像を取得し、前記画像における前記把持手段の複数の所定部位間の位置関係を示す把持特徴を生成し、前記把持特徴をもとに、前記把持対象を認識する、処理を実行させる。   The program of the present invention acquires, on a computer, an image of a gripping unit that grips a gripping target, generates a gripping feature indicating a positional relationship between a plurality of predetermined parts of the gripping unit in the image, and the gripping feature Based on the above, a process for recognizing the gripping object is executed.

本発明の効果は、把持対象を把持している把持手段の画像中に把持対象が存在しない場合であっても、把持対象を認識できることである。 The effect of the present invention is that the gripping target can be recognized even when the gripping target does not exist in the image of the gripping means that grips the gripping target.

本発明の実施の形態の基本的な構成を示すブロック図である。It is a block diagram which shows the fundamental structure of embodiment of this invention. 本発明の第1の実施の形態における、認識装置100の構成を示すブロック図である。It is a block diagram which shows the structure of the recognition apparatus 100 in the 1st Embodiment of this invention. 本発明の第1の実施の形態における、コンピュータにより実現された認識装置100の構成を示すブロック図である。It is a block diagram which shows the structure of the recognition apparatus 100 implement | achieved by the computer in the 1st Embodiment of this invention. 本発明の第1の実施の形態における、認識装置100の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the recognition apparatus 100 in the 1st Embodiment of this invention. 本発明の第1の実施の形態における、取得した画像の例を示す図である。It is a figure which shows the example of the acquired image in the 1st Embodiment of this invention. 本発明の第1の実施の形態における、把持特徴量の生成方法の例を示す図である。It is a figure which shows the example of the production | generation method of the grasping feature-value in the 1st Embodiment of this invention. 本発明の第1の実施の形態における、把持特徴量の生成方法の他の例を示す図である。It is a figure which shows the other example of the production | generation method of the grasping feature-value in the 1st Embodiment of this invention. 本発明の第1の実施の形態における、把持特徴情報115の例を示す図である。It is a figure which shows the example of the holding | grip characteristic information 115 in the 1st Embodiment of this invention. 本発明の第1の実施の形態における、インスタンスの抽出例を示す図である。It is a figure which shows the example of extraction of the instance in the 1st Embodiment of this invention. 本発明の第1の実施の形態における、物体尤度の算出結果の例を示す図である。It is a figure which shows the example of the calculation result of the object likelihood in the 1st Embodiment of this invention. 本発明の第1の実施の形態における、把持特徴情報115の他の例を示す図である。It is a figure which shows the other example of the grip characteristic information 115 in the 1st Embodiment of this invention. 本発明の第2の実施の形態における、認識装置200の構成を示すブロック図である。It is a block diagram which shows the structure of the recognition apparatus 200 in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における、認識装置200の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the recognition apparatus 200 in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における、物体特徴情報225の例を示す図である。It is a figure which shows the example of the object characteristic information 225 in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における、統合尤度の算出結果の例を示す図である。It is a figure which shows the example of the calculation result of integrated likelihood in the 2nd Embodiment of this invention. 本発明の第3の実施の形態における、認識装置200の構成を示すブロック図である。It is a block diagram which shows the structure of the recognition apparatus 200 in the 3rd Embodiment of this invention. 本発明の第3の実施の形態における、認識装置200の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the recognition apparatus 200 in the 3rd Embodiment of this invention. 本発明の第4の実施の形態における、認識装置200の構成を示すブロック図である。It is a block diagram which shows the structure of the recognition apparatus 200 in the 4th Embodiment of this invention. 本発明の第4の実施の形態における、認識装置200の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the recognition apparatus 200 in the 4th Embodiment of this invention. 本発明の第4の実施の形態における、動き特徴を含む把持特徴量の算出例を示す図である。It is a figure which shows the example of calculation of the grasping feature-value containing a movement feature in the 4th Embodiment of this invention.

<第1の実施の形態>
はじめに、本発明の第1の実施の形態について説明する。
<First Embodiment>
First, a first embodiment of the present invention will be described.

本発明の第1の実施の形態では、把持手段501の複数の所定部位間の位置関係をもとに、把持対象502を認識する。なお、本発明の実施の形態では、把持手段501が人の手である場合を例に説明する。   In the first embodiment of the present invention, the gripping target 502 is recognized based on the positional relationship between a plurality of predetermined parts of the gripping means 501. In the embodiment of the present invention, a case where the gripping means 501 is a human hand will be described as an example.

はじめに、本発明の第1の実施の形態の構成を説明する。   First, the configuration of the first exemplary embodiment of the present invention will be described.

図2は、本発明の第1の実施の形態における、認識装置100の構成を示すブロック図である。認識装置100は、本発明の情報処理装置の一実施形態である。   FIG. 2 is a block diagram showing the configuration of the recognition apparatus 100 in the first embodiment of the present invention. The recognition apparatus 100 is an embodiment of the information processing apparatus of the present invention.

図2を参照すると、本発明の第1の実施の形態の認識装置100は、画像取得部110、把持手段検出部111、把持特徴生成部112、物体尤度算出部113、把持特徴記憶部114、及び、把持対象認識部116を含む。   Referring to FIG. 2, the recognition apparatus 100 according to the first embodiment of the present invention includes an image acquisition unit 110, a gripping means detection unit 111, a gripping feature generation unit 112, an object likelihood calculation unit 113, and a gripping feature storage unit 114. And a grasping object recognition unit 116.

画像取得部110は、把持対象502を把持している把持手段501の画像を取得する。画像取得部110は、赤、青、緑の3色情報を取得可能なRGBカメラでもよい。また、画像取得部110は、遠赤外線カメラやマルチスペクトルカメラのように、他の波長信号情報を取得可能なカメラでもよい。また、画像取得部110は、画像中の各画素に、カメラから物体までの距離情報を収められるような、距離カメラ(距離センサ)でもよい。さらに、画像取得部110は、上述の3色情報、他の波長信号情報、及び、距離情報の内の一つ、または、複数を同時に取得可能なカメラでもよい。   The image acquisition unit 110 acquires an image of the gripping unit 501 that is gripping the gripping target 502. The image acquisition unit 110 may be an RGB camera that can acquire three-color information of red, blue, and green. The image acquisition unit 110 may be a camera that can acquire other wavelength signal information, such as a far-infrared camera or a multispectral camera. Further, the image acquisition unit 110 may be a distance camera (distance sensor) that can store distance information from the camera to an object in each pixel in the image. Furthermore, the image acquisition unit 110 may be a camera that can simultaneously acquire one or more of the above-described three-color information, other wavelength signal information, and distance information.

把持手段検出部111は、画像取得部110により取得された画像における、把持手段501の複数の所定部位の各々の位置、または、位置と方向を検出する。本発明の実施の形態では、所定部位として、把持手段501の指が用いられる。また、所定部位の位置(指の位置)として、各指の指先や関節等、指上で指定された位置が用いられる。   The gripping means detection unit 111 detects the position or position and direction of each of a plurality of predetermined parts of the gripping means 501 in the image acquired by the image acquisition unit 110. In the embodiment of the present invention, the finger of the gripping means 501 is used as the predetermined part. In addition, as the position of the predetermined part (finger position), a position designated on the finger such as a fingertip or a joint of each finger is used.

把持特徴生成部112は、把持手段501による把持特徴を表す把持特徴量として、複数の所定部位間の位置関係(指間の位置関係)を示す把持特徴量を生成する。本発明の実施の形態では、複数の所定部位の位置間の位置関係として、各指の位置の座標値や、各指の位置の座標値と方向、指の位置間の距離等が用いられる。   The gripping feature generation unit 112 generates a gripping feature amount indicating a positional relationship between a plurality of predetermined parts (a positional relationship between fingers) as a gripping feature amount representing a gripping feature by the gripping unit 501. In the embodiment of the present invention, the coordinate value of each finger position, the coordinate value and direction of each finger position, the distance between finger positions, and the like are used as the positional relationship between the positions of a plurality of predetermined parts.

把持特徴記憶部114は、把持特徴情報115を記憶する。把持特徴情報115は、認識すべき物体のカテゴリに対する、「把持特徴量に基づく物体尤度」を算出するための情報である。把持特徴情報115には、後述するように、物体尤度の算出方法に応じた情報が設定される。   The grip feature storage unit 114 stores grip feature information 115. The gripping feature information 115 is information for calculating “object likelihood based on gripping feature amount” for the category of the object to be recognized. In the gripping feature information 115, information corresponding to the object likelihood calculation method is set as will be described later.

物体尤度算出部113は、把持特徴生成部112により生成された把持特徴量と把持特徴記憶部114に記憶されている把持特徴情報115とを用いて、物体のカテゴリ毎に、把持特徴量に基づく物体尤度を算出する。   The object likelihood calculation unit 113 uses the gripping feature amount generated by the gripping feature generation unit 112 and the gripping feature information 115 stored in the gripping feature storage unit 114 to set the gripping feature amount for each object category. Based on the object likelihood.

把持対象認識部116は、物体尤度算出部113により算出された物体尤度を用いて、把持対象502のカテゴリを認識する。   The gripping target recognition unit 116 recognizes the category of the gripping target 502 using the object likelihood calculated by the object likelihood calculation unit 113.

なお、認識装置100は、CPU(Central Processing Unit)とプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。   Note that the recognition apparatus 100 may be a computer that includes a CPU (Central Processing Unit) and a storage medium that stores a program, and that operates by control based on the program.

図3は、本発明の第1の実施の形態における、コンピュータにより実現された認識装置100の構成を示すブロック図である。   FIG. 3 is a block diagram showing a configuration of the recognition apparatus 100 realized by a computer according to the first embodiment of the present invention.

認識装置100は、CPU101、ハードディスクやメモリ等の記憶デバイス(記憶媒体)102、他の装置等と通信を行う通信デバイス103、マウスやキーボード等の入力デバイス104、及び、ディスプレイ等の出力デバイス105を含む。   The recognition apparatus 100 includes a CPU 101, a storage device (storage medium) 102 such as a hard disk and a memory, a communication device 103 that communicates with other apparatuses, an input device 104 such as a mouse and a keyboard, and an output device 105 such as a display. Including.

CPU101は、画像取得部110、把持手段検出部111、把持特徴生成部112、物体尤度算出部113、及び、把持対象認識部116の機能を実現するためのコンピュータプログラムを実行する。記憶デバイス102は、把持特徴記憶部114のデータを記憶する。入力デバイス104は、利用者等から、把持対象502を把持している把持手段501の画像を取得する。出力デバイス105が、利用者等へ、認識結果(把持対象502の物体のカテゴリ)を出力する。また、通信デバイス103は、他の装置等から画像を取得し、他の装置等へ認識結果を出力してもよい。   The CPU 101 executes a computer program for realizing the functions of the image acquisition unit 110, the gripping means detection unit 111, the gripping feature generation unit 112, the object likelihood calculation unit 113, and the gripping target recognition unit 116. The storage device 102 stores data of the gripping feature storage unit 114. The input device 104 acquires an image of the gripping unit 501 that is gripping the gripping target 502 from a user or the like. The output device 105 outputs the recognition result (the category of the object of the gripping target 502) to the user or the like. Further, the communication device 103 may acquire an image from another device or the like, and output a recognition result to the other device or the like.

次に、本発明の第1の実施の形態の動作を説明する。   Next, the operation of the first exemplary embodiment of the present invention will be described.

図4は、本発明の第1の実施の形態における、認識装置100の動作を示すフローチャートである。   FIG. 4 is a flowchart showing the operation of the recognition apparatus 100 in the first embodiment of the present invention.

はじめに、画像取得部110は、利用者等から、把持対象502を把持している把持手段501の画像を取得する(ステップS101)。   First, the image acquisition unit 110 acquires an image of the gripping unit 501 that is gripping the gripping target 502 from a user or the like (step S101).

図5は、本発明の第1の実施の形態における、取得した画像の例を示す図である。
例えば、画像取得部110は、図5のような画像を取得する。
FIG. 5 is a diagram illustrating an example of an acquired image in the first embodiment of the present invention.
For example, the image acquisition unit 110 acquires an image as illustrated in FIG.

把持手段検出部111は、画像取得部110により取得された画像における、把持手段501の各指の位置、または、各指の位置と方向を検出する(ステップS102)。ここで、把持手段検出部111は、指の位置や方向を、例えば、指の色や形状、配置に基づいて検出する。また、把持手段検出部111は、指の位置を、非特許文献2に記載されて技術を用いて検出してもよい。さらに、把持手段検出部111は、指の位置を、画像中で指が存在する部分について検出してもよいし、指が存在する部分の検出結果をもとにした形状推定等により、指が存在しない部分についても推定してよい。また、指の位置は、画像中の2次元座標で指定されてもよいし、実空間内の3次元座標で指定されてもよい。また、座標の値は、ある特定の点を原点とした絶対座標値でもよいし、任意の点からの相対座標値であってもよい。また、把持手段検出部111は、各指について、複数の位置を検出してもよい。   The gripping means detection unit 111 detects the position of each finger of the gripping means 501 or the position and direction of each finger in the image acquired by the image acquisition unit 110 (step S102). Here, the grip means detection unit 111 detects the position and direction of the finger based on, for example, the color, shape, and arrangement of the finger. Further, the gripping means detection unit 111 may detect the position of the finger using a technique described in Non-Patent Document 2. Furthermore, the gripping means detection unit 111 may detect the position of the finger for a portion where the finger is present in the image, or by estimating the shape based on the detection result of the portion where the finger is present. You may estimate also about the part which does not exist. Further, the position of the finger may be specified by two-dimensional coordinates in the image, or may be specified by three-dimensional coordinates in the real space. In addition, the coordinate value may be an absolute coordinate value with a specific point as an origin, or a relative coordinate value from an arbitrary point. Further, the gripping means detection unit 111 may detect a plurality of positions for each finger.

把持手段検出部111は、画像において検出された指の本数が、2本以上かどうかを判定する(ステップS103)。
ステップS103において、検出された指の本数が2本以上の場合(ステップS103/Y)、把持特徴生成部112は、検出された各指の位置、または、各指の位置と方向をもとに、把持特徴量を生成する(ステップS105)。ここで、把持特徴生成部112は、例えば、以下の把持特徴量生成方法1〜3のいずれかに従って、把持特徴量を生成する。
The grip means detection unit 111 determines whether the number of fingers detected in the image is 2 or more (step S103).
In step S103, when the number of detected fingers is two or more (step S103 / Y), the gripping feature generation unit 112 determines the position of each finger or the position and direction of each finger. Then, a gripping feature amount is generated (step S105). Here, the gripping feature generation unit 112 generates a gripping feature amount, for example, according to any of the following gripping feature amount generation methods 1 to 3.

(把持特徴量生成方法1)
図6は、本発明の第1の実施の形態における、把持特徴量の生成方法の例を示す図である。ここで、把持手段検出部111により、n本の指の位置が検出されたと仮定する。この場合、図6に示すような、当該n本の指の位置を互いに結ぶ線分が得られる。線分の数Nは、数1式により算出される。
(Grip feature generation method 1)
FIG. 6 is a diagram illustrating an example of a method for generating a gripping feature amount according to the first embodiment of the present invention. Here, it is assumed that the position of n fingers is detected by the gripping means detection unit 111. In this case, a line segment connecting the positions of the n fingers is obtained as shown in FIG. The number N l of line segments is calculated by the equation (1).

Figure 2016115179
Figure 2016115179

本の線分の各々の長さl(i=1,…,N)は、検出されたj番目(j=1,…,n)の指の位置をP=(x,y,z)とすると、数2式により算出される。 The length l i (i = 1,..., N l ) of each of the N l line segments represents the detected j-th (j = 1,..., N) finger position as P j = (x j , Y j , z j ), it is calculated by equation (2).

Figure 2016115179
Figure 2016115179

ここで、線分の長さlを大きい順に並べると、数3式のようなベクトル形式の把持特徴量Vが定義できる。 Here, if the lengths l i of the line segments are arranged in descending order, the vectorized gripping feature value V A can be defined as shown in Equation 3.

Figure 2016115179
Figure 2016115179

また、把持特徴量Vの要素の最大値をmxとすると、数4式のような把持特徴量V’が定義できる。 Further, if the maximum value of the elements of the gripping feature amount V A is mx, the gripping feature amount V ′ A as shown in Equation 4 can be defined.

Figure 2016115179
Figure 2016115179

把持特徴生成部112は、図6の線分の長さをもとに、数3式、または、数4式のような把持特徴量を生成する。   The gripping feature generation unit 112 generates gripping feature amounts such as Equation 3 or Equation 4 based on the length of the line segment in FIG.

例えば、物体尤度算出部113は、図5の画像から、把持特徴量V=(1.5, 1.0, 0.3, …)を生成する。 For example, the object likelihood calculating unit 113 generates a gripping feature value V A = (1.5, 1.0, 0.3,...) From the image of FIG.

(把持特徴量生成方法2)
図7は、本発明の第1の実施の形態における、把持特徴量の生成方法の他の例を示す図である。ここで、把持手段検出部111により、n本の指の位置が検出されたと仮定する。この場合、図7に示すように、検出された各指の位置と他の指の位置とを結ぶn−1本の線分が得られる。これらの線分の長さの組をGr=(li,1,li,2,…,li,n−1)とする。またGrの要素を大きさ(長さ)の降順に並び替えたものをGr’=(l’i,1,l’i,2,…,l’i,n−1)とする。さらに、Gr’を、最初の要素l’i,1の大きい順に並べ換えたものを(Gr”,Gr”,…,Gr”)とし、Gr”の要素をGr”=(l”i,1,l”i,2,…,l”i,n−1)と記述する。各Gr”の要素を並べることにより、数5式のような把持特徴量Vが定義できる。
(Grip feature generation method 2)
FIG. 7 is a diagram illustrating another example of a method for generating a gripping feature value according to the first embodiment of this invention. Here, it is assumed that the position of n fingers is detected by the gripping means detection unit 111. In this case, as shown in FIG. 7, n−1 line segments connecting the detected positions of the fingers and the positions of the other fingers are obtained. A set of lengths of these segments Gr i = (l i, 1 , l i, 2, ..., l i, n-1) to. Also , Gr ′ i = (l ′ i, 1 , l ′ i, 2 ,..., L ′ i, n−1 ) is obtained by rearranging the elements of Gr i in descending order of size (length). . Furthermore, 'a i, the first element l' Gr those rearranged in descending order of i, 1 (Gr "0, Gr" 1, ..., Gr "n) and then, Gr" i elements Gr "i = the ( l ″ i, 1 , l ″ i, 2 ,..., l ″ i, n−1 ). By arranging the elements of each Gr ″ i , a gripping feature value V B as shown in Equation 5 can be defined.

Figure 2016115179
Figure 2016115179

また、把持特徴量Vの要素の最大値mxを用いて、数6式のような把持特徴量V’が定義できる。 Further, using the maximum value mx of the elements of the gripping feature value V B , a gripping feature value V ′ B as shown in Equation 6 can be defined.

Figure 2016115179
Figure 2016115179

把持特徴生成部112は、図7の線分の長さをもとに、数5式、または、数6式のような把持特徴量を生成する。   The gripping feature generation unit 112 generates gripping feature amounts such as Equation 5 or Equation 6 based on the length of the line segment in FIG.

(把持特徴量生成方法3)
把持手段検出部111により、各指の位置と方向に加えて、各指が親指、人差し指、中指、薬指、及び、小指の内のどの指かを特定できたと仮定する。この場合、例えば、親指、人差し指、中指、薬指、及び、小指の順で、各指の座標値P=(x,y,z)、(j=1,…,n)及び、方向D=(a,b,c)が得られる。ここで、各指の方向には、例えば、距離センサで得られる指先位置の法線の方向を用いてもよいし、第一関節から指先へ向かう方向を用いてもよい。また、指の順序(親指、人差し指、…)として、他の順序を用いてもよい。
(Grip feature generation method 3)
It is assumed that the gripping means detection unit 111 can identify the finger among the thumb, the index finger, the middle finger, the ring finger, and the little finger in addition to the position and direction of each finger. In this case, for example, in the order of thumb, index finger, middle finger, ring finger, and little finger, the coordinate values P j = (x j , y j , z j ), (j = 1,..., N) and The direction D j = (a j , b j , c j ) is obtained. Here, for example, the direction of the normal of the fingertip position obtained by the distance sensor may be used as the direction of each finger, or the direction from the first joint to the fingertip may be used. Also, other orders may be used as the order of the fingers (thumb, index finger,...).

これらの座標値、方向を、所定の座標系Z上の座標、方向で表すことにより、数7式のような把持特徴量V、または、数8式のような把持特徴量Vが定義できる。 These coordinates, the direction, the coordinates on a predetermined coordinate system Z, by expressing in the direction, the gripping feature amount such as equation (7) V C, or gripping feature quantity V D as equation (8) is defined it can.

Figure 2016115179
Figure 2016115179

Figure 2016115179
Figure 2016115179

座標系Zとしては、例えば、予め定めた一本の指の方向と平行な座標軸を持つ座標系を用いてもよい。   As the coordinate system Z, for example, a coordinate system having a coordinate axis parallel to a predetermined direction of one finger may be used.

把持特徴生成部112は、各指の位置や方向をもとに、数7式、または、数8式の把持特徴量を生成する。   The gripping feature generation unit 112 generates gripping feature amounts of Formula 7 or Formula 8 based on the position and direction of each finger.

次に、物体尤度算出部113は、物体のカテゴリ毎に、把持特徴量に基づく物体尤度を算出する(ステップS106)。ここで、物体尤度算出部113は、例えば、以下の物体尤度算出方法1〜3のいずれかに従って、物体尤度を算出する。   Next, the object likelihood calculating unit 113 calculates an object likelihood based on the gripping feature amount for each category of the object (step S106). Here, the object likelihood calculating unit 113 calculates the object likelihood according to any of the following object likelihood calculating methods 1 to 3, for example.

(物体尤度算出方法1)
図8は、本発明の第1の実施の形態における、把持特徴情報115の例を示す図である。図8の把持特徴情報115では、物体のカテゴリ毎に、当該物体を把持した場合の把持特徴量を示すインスタンスが登録されている。ここで、各カテゴリと当該カテゴリに対して登録された把持特徴量の対をインスタンスと呼ぶ。一つのカテゴリに対して、複数のインスタンスが登録されていてもよい。ここで、物体のカテゴリをC(i=1,…,M、Mはカテゴリの数)、カテゴリCに対応する把持特徴量をVij(j=1,…,R(i)、R(i)はカテゴリCに対する把持特徴量の数)とすると、インスタンスは、(C,Vij)と表される。
(Object likelihood calculation method 1)
FIG. 8 is a diagram illustrating an example of the gripping feature information 115 according to the first embodiment of this invention. In the gripping feature information 115 in FIG. 8, for each object category, an instance indicating the gripping feature amount when the object is gripped is registered. Here, a pair of each feature and a gripping feature amount registered for the category is referred to as an instance. Multiple instances may be registered for one category. Here, the category of the object is C i (i = 1,..., M, M is the number of categories), and the gripping feature amounts corresponding to the category C i are V ij (j = 1,..., R (i), R If (i) is the number of gripping feature values for category C i ), the instance is represented as (C i , V ij ).

物体尤度算出部113は、把持特徴生成部112により生成された把持特徴量と把持特徴情報115に登録された各インスタンスの把持特徴量Vijとの距離を算出する。距離は、ユークリッド距離でもマンハッタン距離でも、その他の距離尺度でもよい。物体尤度算出部113は、把持特徴情報115に登録されたインスタンスの内、算出された距離が所定の閾値以下のインスタンスを抽出する。そして、物体尤度算出部113は、抽出したインスタンスを用いて、各カテゴリCの物体尤度Lを、例えば、数9式により算出する。 The object likelihood calculating unit 113 calculates the distance between the gripping feature amount generated by the gripping feature generating unit 112 and the gripping feature amount V ij of each instance registered in the gripping feature information 115. The distance may be Euclidean distance, Manhattan distance, or other distance measure. The object likelihood calculating unit 113 extracts an instance whose calculated distance is equal to or less than a predetermined threshold from the instances registered in the gripping feature information 115. Then, the object likelihood calculating unit 113 calculates the object likelihood L i of each category C i using, for example, Equation 9 using the extracted instance.

Figure 2016115179
Figure 2016115179

ここで、kは、抽出されたインスタンスの数、Ncは、k個のインスタンスの内、カテゴリCに対応するインスタンス(C,Vij)の数である。 Here, k is the number of extracted instances, and Nc i is the number of instances (C i , V ij ) corresponding to the category C i out of k instances.

図9は、本発明の第1の実施の形態における、インスタンスの抽出例を示す図である。例えば、物体尤度算出部113は、図9に示すように、図8の把持特徴情報115に登録されたインスタンスの内、把持特徴生成部112により生成された把持特徴量V=(1.5, 1.0, 0.3, …)との距離が閾値以下である10個のインスタンスを抽出する。   FIG. 9 is a diagram illustrating an instance extraction example according to the first embodiment of this invention. For example, the object likelihood calculating unit 113, as shown in FIG. 9, among the instances registered in the gripping feature information 115 of FIG. 8, the gripping feature amount V = (1.5, 1.0) generated by the gripping feature generating unit 112. , 0.3,...), 10 instances whose distances are below the threshold are extracted.

図10は、本発明の第1の実施の形態における、物体尤度の算出結果の例を示す図である。例えば、物体尤度算出部113は、抽出されたインスタンスの数をもとに、図10のように物体尤度を算出する。   FIG. 10 is a diagram illustrating an example of the calculation result of the object likelihood in the first embodiment of the present invention. For example, the object likelihood calculating unit 113 calculates the object likelihood as shown in FIG. 10 based on the number of extracted instances.

なお、物体尤度算出部113は、距離が所定の閾値以下のインスタンスを抽出する代わりに、距離が小さい方から所定数のインスタンスを抽出してもよい。   Note that the object likelihood calculating unit 113 may extract a predetermined number of instances from a smaller distance instead of extracting instances whose distance is equal to or smaller than a predetermined threshold.

(物体尤度算出方法2)
図11は、本発明の第1の実施の形態における、把持特徴情報115の他の例を示す図である。図11の把持特徴情報115では、物体のカテゴリ毎に、把持特徴量空間での各点における物体尤度が登録されている。この場合、各点における物体尤度は、予め、最近傍密度推定法やカーネル密度推定法等により算出される。
(Object likelihood calculation method 2)
FIG. 11 is a diagram illustrating another example of the gripping feature information 115 in the first exemplary embodiment of the present invention. In the gripping feature information 115 in FIG. 11, the object likelihood at each point in the gripping feature amount space is registered for each object category. In this case, the object likelihood at each point is calculated in advance by a nearest neighbor density estimation method, a kernel density estimation method, or the like.

物体尤度算出部113は、把持特徴情報115を参照し、把持特徴生成部112により生成された把持特徴量に対応する物体尤度を取得することにより、各カテゴリCの物体尤度Liを算出する。 Object likelihood calculating unit 113 refers to the grip characteristic information 115, by obtaining the object likelihoods corresponding to the grip characteristic quantity generated by the gripping feature generation unit 112, the object likelihood Li for each category C i calculate.

(物体尤度算出方法3)
把持特徴情報115には、例えば、Support Vector MachineやRandom Forest等、機械学習によって得られた学習結果が登録されていてもよい。
(Object likelihood calculation method 3)
In the gripping feature information 115, for example, a learning result obtained by machine learning such as Support Vector Machine or Random Forest may be registered.

例えば、Support Vector Machineを用いた場合、学習結果として、把持特徴空間内での識別境界面が登録される。この場合、物体尤度算出部113は、把持特徴生成部112により生成された把持特徴量と識別境界面との距離の関数により、各カテゴリCの物体尤度Lを算出する。 For example, when Support Vector Machine is used, an identification boundary surface in the gripping feature space is registered as a learning result. In this case, the object likelihood calculating unit 113 calculates the object likelihood L i of each category C i based on a function of the distance between the gripping feature amount generated by the gripping feature generating unit 112 and the identification boundary surface.

また、Random Forestを用いた場合、学習結果として、識別器での識別境界とその識別器の重みが登録される。この場合、物体尤度算出部113は、重み付投票結果の関数により、各カテゴリCの物体尤度Lを算出する。 When Random Forest is used, the learning boundary and the weight of the classifier are registered as learning results. In this case, the object likelihood calculating unit 113 calculates the object likelihood L i of each category C i using a function of the weighted vote result.

次に、把持対象認識部116は、算出した物体尤度を用いて、把持対象502のカテゴリを認識する(ステップS107)。ここで、把持対象認識部116は、例えば、数10式に従って、把持対象502のカテゴリidxを特定する。   Next, the gripping target recognition unit 116 recognizes the category of the gripping target 502 using the calculated object likelihood (step S107). Here, the gripping target recognizing unit 116 identifies the category idx of the gripping target 502 according to, for example, Formula 10.

Figure 2016115179
Figure 2016115179

なお、Lthは、予め設定された、物体尤度Lの最大値に対する閾値である。 Note that L th is a preset threshold value for the maximum value of the object likelihood L i .

例えば、把持対象認識部116は、図10の物体尤度算出結果をもとに、把持対象502のカテゴリを、物体尤度が最大であるカテゴリCと特定する。 For example, the gripping target recognition unit 116, based on the object likelihood calculation results of FIG. 10, the category of the gripping target 502, object likelihood is identified as Category C 1 is the largest.

把持対象認識部116は、ステップS106の結果に応じて、認識結果に、把持対象502のカテゴリのインデックス、または、「該当なし」を設定する(ステップS108)。   The gripping target recognition unit 116 sets the category index of the gripping target 502 or “not applicable” in the recognition result according to the result of step S106 (step S108).

例えば、把持対象認識部116は、認識結果に「カテゴリC」を設定する。 For example, the gripping target recognition unit 116 sets “category C 1 ” as the recognition result.

なお、ステップS103において、検出された指の本数が2本未満の場合(ステップS103/N)、認識結果には、「該当なし」が設定される(ステップS104)。   In step S103, when the number of detected fingers is less than two (step S103 / N), “not applicable” is set as the recognition result (step S104).

最後に、把持対象認識部116は、利用者等へ、認識結果を出力する(ステップS109)。   Finally, the gripping target recognition unit 116 outputs the recognition result to the user or the like (step S109).

以上により、本発明の第1の実施の形態の動作が完了する。   Thus, the operation of the first exemplary embodiment of the present invention is completed.

なお、上述の説明では、把持対象認識部116は、物体尤度算出部113により算出された各カテゴリに対する物体尤度をもとに、物体のカテゴリを特定した。しかしながら、これに限らず、把持対象認識部116は、物体形状に対する物体尤度をもとに物体形状を特定し、さらに、各物体形状に関連づけられた物体のカテゴリを取得することにより、物体のカテゴリを特定してもよい。   In the above description, the gripping target recognizing unit 116 identifies the category of the object based on the object likelihood for each category calculated by the object likelihood calculating unit 113. However, the present invention is not limited to this, and the grasping target recognition unit 116 specifies the object shape based on the object likelihood with respect to the object shape, and further acquires the category of the object associated with each object shape. A category may be specified.

また、本発明の実施の形態では、把持手段501が人の手である場合を例に説明したが、これに限らず、人の手と同様に物体を把持できれば、把持手段501は、動物やロボット等の手でもよい。   Further, in the embodiment of the present invention, the case where the gripping unit 501 is a human hand has been described as an example. However, the present invention is not limited to this. A hand such as a robot may be used.

また、複数の可動部を動かすことにより物体を把持できれば、把持手段501は、手以外の形状であってもよい。この場合、所定部位として、例えば、把持手段501の各可動部が用いられ、所定部位の位置(可動部の位置)として、各可動部の先端や中心、関節等、指定された位置が検出される。また、複数の所定部位の位置間の位置関係(可動部間の位置関係)として、各可動部の位置の座標値や、可動部の位置間の距離等が用いられる。   Further, as long as an object can be gripped by moving a plurality of movable parts, the gripping means 501 may have a shape other than a hand. In this case, for example, each movable part of the gripping means 501 is used as the predetermined part, and a specified position such as the tip, center, or joint of each movable part is detected as the position of the predetermined part (position of the movable part). The Further, as the positional relationship between the positions of a plurality of predetermined parts (positional relationship between the movable parts), the coordinate value of the position of each movable part, the distance between the positions of the movable parts, and the like are used.

次に、本発明の実施の形態の基本的な構成を説明する。図1は、本発明の実施の形態の基本的な構成を示すブロック図である。   Next, the basic configuration of the embodiment of the present invention will be described. FIG. 1 is a block diagram showing a basic configuration of an embodiment of the present invention.

図1を参照すると、認識装置100は、画像取得部110、把持特徴生成部112、及び、把持対象認識部116を含む。画像取得部110は、把持対象502を把持している把持手段501の画像を取得する。把持特徴生成部112は、画像における把持手段501の複数の所定部位間の位置関係を示す把持特徴を生成する。把持対象認識部116は、把持特徴をもとに、把持対象502を認識する。   Referring to FIG. 1, the recognition apparatus 100 includes an image acquisition unit 110, a gripping feature generation unit 112, and a gripping target recognition unit 116. The image acquisition unit 110 acquires an image of the gripping unit 501 that is gripping the gripping target 502. The grip feature generation unit 112 generates a grip feature indicating the positional relationship between a plurality of predetermined parts of the grip means 501 in the image. The grip target recognition unit 116 recognizes the grip target 502 based on the grip feature.

本発明の実施の形態によれば、把持対象502を把持している把持手段501の画像中に把持対象502が存在しない場合であっても、把持対象502を認識できる。その理由は、把持対象認識部116が、画像における把持手段501の複数の所定部位間の位置関係を示す把持特徴をもとに、把持対象502を認識するためである。これにより、把持対象502を把持している把持手段501の画像において、把持対象502が遮蔽されている場合であっても、把持対象502を認識できる。   According to the embodiment of the present invention, the gripping target 502 can be recognized even when the gripping target 502 does not exist in the image of the gripping means 501 gripping the gripping target 502. The reason is that the gripping target recognition unit 116 recognizes the gripping target 502 based on gripping characteristics indicating the positional relationship between a plurality of predetermined parts of the gripping means 501 in the image. Thereby, even if the gripping object 502 is shielded in the image of the gripping means 501 gripping the gripping target 502, the gripping target 502 can be recognized.

<第2の実施の形態>
次に、本発明の第2の実施の形態について説明する。
<Second Embodiment>
Next, a second embodiment of the present invention will be described.

本発明の第2の実施の形態では、把持特徴量に加えて、画像上の把持対象502の物体領域から物体特徴量を生成し、把持特徴量と物体特徴量とを用いて、把持物体を認識する。なお、本発明の第2の実施の形態では、把持特徴量基づく物体尤度を第1物体尤度、物体特徴量に基づく物体尤度を第2物体尤度と呼ぶ。   In the second embodiment of the present invention, in addition to the gripping feature amount, an object feature amount is generated from the object region of the gripping target 502 on the image, and the gripping object is detected using the gripping feature amount and the object feature amount. recognize. In the second embodiment of the present invention, the object likelihood based on the gripping feature amount is referred to as a first object likelihood, and the object likelihood based on the object feature amount is referred to as a second object likelihood.

はじめに、本発明の第2の実施の形態の構成を説明する。   First, the configuration of the second exemplary embodiment of the present invention will be described.

図12は、本発明の第2の実施の形態における、認識装置200の構成を示すブロック図である。   FIG. 12 is a block diagram showing the configuration of the recognition apparatus 200 in the second embodiment of the present invention.

図12を参照すると、本発明の第2の実施の形態の認識装置200は、画像取得部210、把持手段検出部211、把持特徴生成部212、第1物体尤度算出部213、把持特徴記憶部214を含む。認識装置200は、さらに、把持対象検出部221、物体特徴生成部222、第2物体尤度算出部223、物体特徴記憶部224、統合尤度算出部230、及び、把持対象認識部240を含む。   Referring to FIG. 12, a recognition apparatus 200 according to the second embodiment of the present invention includes an image acquisition unit 210, a gripping means detection unit 211, a gripping feature generation unit 212, a first object likelihood calculation unit 213, and a gripping feature storage. Part 214. The recognition apparatus 200 further includes a gripping target detection unit 221, an object feature generation unit 222, a second object likelihood calculation unit 223, an object feature storage unit 224, an integrated likelihood calculation unit 230, and a gripping target recognition unit 240. .

画像取得部210、把持手段検出部211、及び、把持特徴生成部212は、それぞれ、本発明の第1の実施の形態における、画像取得部110、把持手段検出部111、及び、把持特徴生成部112と同様である。把持特徴記憶部214は、把持特徴情報115と同様の把持特徴情報215(「把持特徴量に基づく物体尤度(第1物体尤度)」を算出するための情報)を記憶する。第1物体尤度算出部213は、物体尤度算出部113と同様に、物体のカテゴリ毎に、第1物体尤度を算出する。   The image acquisition unit 210, the gripping unit detection unit 211, and the gripping feature generation unit 212 are respectively the image acquisition unit 110, the gripping unit detection unit 111, and the gripping feature generation unit in the first exemplary embodiment of the present invention. 112. The gripping feature storage unit 214 stores gripping feature information 215 similar to the gripping feature information 115 (information for calculating “object likelihood based on gripping feature amount (first object likelihood)”). Similar to the object likelihood calculating unit 113, the first object likelihood calculating unit 213 calculates a first object likelihood for each category of the object.

把持対象検出部221は、画像取得部110により取得された画像における、把持対象502の物体領域を検出する。ここで、把持対象検出部221は、例えば、背景が固定である場合に移動物体を検出する背景差分法を用いて、物体領域を検出してもよい。また、把持対象検出部221は、距離が所定の閾値よりも小さい(近い)画素を、物体領域として検出してもよい。また,把持対象検出部221は、ある把持対象候補領域(例えば画像の中心)に類似する周辺画素を把持対象に属する領域とみなすことにより、物体領域を検出してもよい。   The grip target detection unit 221 detects the object area of the grip target 502 in the image acquired by the image acquisition unit 110. Here, the gripping target detection unit 221 may detect the object region using, for example, a background subtraction method that detects a moving object when the background is fixed. Further, the gripping target detection unit 221 may detect a pixel whose distance is smaller (closer) than a predetermined threshold as an object region. Further, the gripping target detection unit 221 may detect the object region by regarding peripheral pixels similar to a certain gripping target candidate region (for example, the center of the image) as a region belonging to the gripping target.

物体特徴生成部222は、把持対象502の物体の特徴を表す物体特徴量として、把持対象502の色や模様等に係る特徴を示す物体特徴量を生成する。ここで、物体特徴として、例えば、色の出現頻度や色の配置を用いてもよい。また、物体特徴として、画像の輝度値の部分的な明暗パターンや、輝度値の変化方向、フィルタへの応答強度を用いてもよい。   The object feature generation unit 222 generates an object feature amount indicating a feature related to a color, a pattern, or the like of the gripping target 502 as an object feature amount representing the feature of the object of the gripping target 502. Here, for example, color appearance frequency or color arrangement may be used as the object feature. Further, as the object feature, a partial light / dark pattern of the luminance value of the image, a change direction of the luminance value, and a response intensity to the filter may be used.

物体特徴記憶部224は、物体特徴情報225を記憶する。物体特徴情報225は、認識すべき物体のカテゴリに対する、「物体特徴量に基づく物体尤度(第2物体尤度)」を算出するための情報である。   The object feature storage unit 224 stores object feature information 225. The object feature information 225 is information for calculating the “object likelihood based on the object feature amount (second object likelihood)” for the category of the object to be recognized.

第2物体尤度算出部223は、物体特徴生成部222により生成された物体特徴量と物体特徴記憶部224に記憶されている物体特徴情報225とを用いて、物体のカテゴリ毎に、第2物体尤度を算出する。   The second object likelihood calculation unit 223 uses the object feature amount generated by the object feature generation unit 222 and the object feature information 225 stored in the object feature storage unit 224 for each object category. Calculate object likelihood.

統合尤度算出部230は、第1物体尤度と第2物体尤度とを用いて、統合尤度を算出する。   The integrated likelihood calculating unit 230 calculates the integrated likelihood using the first object likelihood and the second object likelihood.

把持対象認識部240は、統合尤度算出部230により算出された統合尤度を用いて、把持対象502のカテゴリを認識する。   The gripping target recognition unit 240 recognizes the category of the gripping target 502 using the integrated likelihood calculated by the integrated likelihood calculation unit 230.

次に、本発明の第2の実施の形態の動作を説明する。   Next, the operation of the second exemplary embodiment of the present invention will be described.

図13は、本発明の第2の実施の形態における、認識装置200の動作を示すフローチャートである。   FIG. 13 is a flowchart showing the operation of the recognition apparatus 200 in the second embodiment of the present invention.

はじめに、画像取得部210は、把持対象502を把持している把持手段501の画像を取得する(ステップS201)。この場合、画像には、把持対象502の物体領域の少なくとも一部が含まれると仮定する。   First, the image acquisition unit 210 acquires an image of the gripping means 501 that is gripping the gripping target 502 (step S201). In this case, it is assumed that the image includes at least a part of the object region of the gripping target 502.

把持手段検出部211は、画像取得部210により取得された画像における、把持手段501の各指の位置、または、各指の位置と方向を検出する(ステップS202)。   The gripping means detection unit 211 detects the position of each finger of the gripping means 501 or the position and direction of each finger in the image acquired by the image acquisition unit 210 (step S202).

把持対象検出部221は、画像取得部210により取得された画像における、把持対象502の物体領域を検出する(ステップS203)。   The grip target detection unit 221 detects the object area of the grip target 502 in the image acquired by the image acquisition unit 210 (step S203).

把持手段検出部211は、画像において検出された指の本数が、2本以上かどうかを判定する(ステップS204)。   The gripping means detection unit 211 determines whether the number of fingers detected in the image is two or more (step S204).

ステップS204において、検出された指の本数が2本以上の場合(ステップS204/Y)、把持特徴生成部212は、検出された各指の位置、または、各指の位置と方向をもとに、把持特徴量を生成する(ステップS206)。   In step S204, when the number of detected fingers is two or more (step S204 / Y), the gripping feature generation unit 212 determines the position of each finger or the position and direction of each finger. Then, a gripping feature amount is generated (step S206).

第1物体尤度算出部213は、生成された把持特徴量をもとに、物体のカテゴリ毎に第1物体尤度を算出する(ステップS207)。   The first object likelihood calculating unit 213 calculates the first object likelihood for each object category based on the generated gripping feature amount (step S207).

図15は、本発明の第2の実施の形態における、統合尤度の算出結果の例を示す図である。   FIG. 15 is a diagram illustrating an example of the calculation result of the integrated likelihood in the second exemplary embodiment of the present invention.

例えば、第1物体尤度算出部213は、図8の把持特徴情報115に登録されたインスタンスの内、把持特徴生成部112により生成された把持特徴量との距離が閾値以下であるインスタンスを抽出する。そして、第1物体尤度算出部213は、抽出されたインスタンスの数をもとに、図15のように第1物体尤度を算出する。   For example, the first object likelihood calculation unit 213 extracts an instance whose distance from the gripping feature amount generated by the gripping feature generation unit 112 is equal to or less than a threshold from the instances registered in the gripping feature information 115 in FIG. To do. Then, the first object likelihood calculating unit 213 calculates the first object likelihood as shown in FIG. 15 based on the number of extracted instances.

なお、ステップS204において、検出された指の本数が2本未満の場合(ステップS204/N)、全カテゴリに対する第1物体尤度に1が設定される(ステップS205)。   In step S204, when the number of detected fingers is less than two (step S204 / N), 1 is set as the first object likelihood for all categories (step S205).

次に、物体特徴生成部222は、検出された把持対象502の物体領域から、物体特徴量を生成する(ステップS208)。   Next, the object feature generation unit 222 generates an object feature amount from the detected object region of the gripping target 502 (step S208).

第2物体尤度算出部223は、生成された物体特徴量をもとに、物体のカテゴリ毎に、第2物体尤度を算出する(ステップS209)。ここで、第2物体尤度算出部223は、例えば、把持特徴量に基づく物体尤度(第1物体尤度)の算出方法と同様の方法で、第2物体尤度を算出する。   The second object likelihood calculating unit 223 calculates the second object likelihood for each category of the object based on the generated object feature amount (step S209). Here, the second object likelihood calculating unit 223 calculates the second object likelihood by, for example, the same method as the object likelihood (first object likelihood) calculation method based on the gripping feature amount.

図14は、本発明の第2の実施の形態における、物体特徴情報225の例を示す図である。図14の物体特徴情報225では、物体のカテゴリ毎に、当該物体の物体特徴量を示すインスタンスが登録されている。ここで、物体特徴量は、例えば、物体の色や模様等の物体特徴を表す。   FIG. 14 is a diagram illustrating an example of the object feature information 225 according to the second embodiment of the present invention. In the object feature information 225 in FIG. 14, an instance indicating the object feature amount of the object is registered for each object category. Here, the object feature amount represents, for example, an object feature such as an object color or a pattern.

例えば、第2物体尤度算出部223は、図14の物体特徴情報225に登録されたインスタンスの内、物体特徴生成部222により生成された物体特徴量との距離が閾値以下であるインスタンスを抽出する。そして、第2物体尤度算出部223は、抽出されたインスタンスの数をもとに、図15のように第2物体尤度を算出する。   For example, the second object likelihood calculating unit 223 extracts an instance whose distance from the object feature amount generated by the object feature generating unit 222 is equal to or less than a threshold from the instances registered in the object feature information 225 of FIG. To do. Then, the second object likelihood calculating unit 223 calculates the second object likelihood as shown in FIG. 15 based on the number of extracted instances.

次に、統合尤度算出部230は、第1物体尤度と第2物体尤度とを用いて、統合尤度を算出する(ステップS210)。統合尤度算出部230は、各カテゴリCの統合尤度Lcomb(i)を、例えば、数11式、または、数12式により算出する。 Next, the integrated likelihood calculating unit 230 calculates an integrated likelihood using the first object likelihood and the second object likelihood (step S210). The integrated likelihood calculating unit 230 calculates the integrated likelihood L comb (i) of each category C i using, for example, Equation 11 or Equation 12.

Figure 2016115179
Figure 2016115179

Figure 2016115179
Figure 2016115179

ここで、L(i)、L(i)は、それぞれ、カテゴリCの第1物体尤度、第2物体尤度である。 Here, L A (i) and L B (i) are the first object likelihood and the second object likelihood of category C i , respectively.

例えば、統合尤度算出部230は、図15のように統合尤度を算出する。   For example, the integrated likelihood calculating unit 230 calculates the integrated likelihood as shown in FIG.

次に、把持対象認識部240は、算出した統合尤度を用いて、把持対象502のカテゴリを認識する(ステップS211)。ここで、把持対象認識部240は、例えば、数13式に従って、把持対象502のカテゴリidxを特定する。   Next, the gripping target recognition unit 240 recognizes the category of the gripping target 502 using the calculated integrated likelihood (step S211). Here, the gripping target recognition unit 240 identifies the category idx of the gripping target 502 according to, for example, Equation 13.

Figure 2016115179
Figure 2016115179

ここで、Lth_combは、予め設定された、統合尤度Lcomb(i)の最大値に対する閾値である。 Here, L th_comb is a threshold for a maximum value of the integrated likelihood L comb (i) set in advance.

例えば、把持対象認識部240は、図15の統合尤度算出結果をもとに、把持対象502のカテゴリを、統合尤度が最大であるカテゴリCと特定する。 For example, the gripping target recognition unit 240, based on the integrated likelihood calculation results of FIG. 15, the category of the gripping target 502, integrated likelihood is specified as category C 3 is the maximum.

把持対象認識部116は、ステップS211の結果に応じて、認識結果に、把持対象502のカテゴリのインデックス、または、「該当なし」を設定し(ステップS212)、出力する(ステップS213)。   The gripping target recognition unit 116 sets the category index of the gripping target 502 or “not applicable” in the recognition result according to the result of step S211 (step S212) and outputs the result (step S213).

以上により、本発明の第2の実施の形態の動作が完了する。   Thus, the operation of the second exemplary embodiment of the present invention is completed.

本発明の第2の実施の形態によれば、本発明の第1の実施の形態に比べて、把持対象502の認識精度を向上できる。その理由は、把持対象認識部240が、把持特徴量に基づく第1物体尤度と物体特徴量に基づく第2物体尤度を用いて算出された統合尤度をもとに、把持対象502を認識するためである。これにより、例えば、把持対象502を把持している把持手段501の画像において、把持対象502のほとんどが遮蔽されているが、一部が存在するような場合に、把持対象502の認識精度を向上できる。   According to the second embodiment of the present invention, the recognition accuracy of the grasped object 502 can be improved as compared with the first embodiment of the present invention. The reason is that the gripping target recognition unit 240 determines the gripping target 502 based on the integrated likelihood calculated using the first object likelihood based on the gripping feature amount and the second object likelihood based on the object feature amount. This is for recognition. Thereby, for example, in the image of the gripping means 501 that is gripping the gripping target 502, most of the gripping target 502 is shielded, but the recognition accuracy of the gripping target 502 is improved when a part of the gripping target 502 exists. it can.

<第3の実施の形態>
次に、本発明の第3の実施の形態について説明する。
<Third Embodiment>
Next, a third embodiment of the present invention will be described.

本発明の第3の実施の形態では、把持手段501の複数の所定部位の内、把持対象502と接触している部位(把持対象502と接触している指)について、把持特徴量を生成する。   In the third embodiment of the present invention, a gripping feature amount is generated for a part in contact with the gripping target 502 (finger in contact with the gripping target 502) among a plurality of predetermined parts of the gripping means 501. .

はじめに、本発明の第3の実施の形態の構成を説明する。   First, the configuration of the third exemplary embodiment of the present invention will be described.

図16は、本発明の第3の実施の形態における、認識装置200の構成を示すブロック図である。   FIG. 16 is a block diagram showing the configuration of the recognition apparatus 200 in the third embodiment of the present invention.

図16を参照すると、本発明の第3の実施の形態の認識装置200は、本発明の第2の実施の形態の認識装置200の構成要素に加えて、接触検出部250を含む。   Referring to FIG. 16, a recognition device 200 according to the third embodiment of the present invention includes a contact detection unit 250 in addition to the components of the recognition device 200 according to the second embodiment of the present invention.

接触検出部250は、把持対象検出部221により検出された把持対象502の物体領域と、把持手段検出部111により検出された各指の位置とをもとに、検出された指の内の把持対象502と接触している指(接触指)を特定する。接触検出部250は、例えば、注目する指の位置を示す座標値と、その座標値に最も近い物体領域との距離が所定の閾値未満の場合、当該指が接触指であると判定する。   The contact detection unit 250 detects the gripping of the detected finger based on the object area of the gripping target 502 detected by the gripping target detection unit 221 and the position of each finger detected by the gripping means detection unit 111. The finger (contact finger) in contact with the target 502 is specified. For example, when the distance between the coordinate value indicating the position of the finger of interest and the object region closest to the coordinate value is less than a predetermined threshold, the contact detection unit 250 determines that the finger is a contact finger.

把持特徴生成部212は、接触指に係る所定部位間の位置関係を表す把持特徴量を生成する。   The gripping feature generating unit 212 generates a gripping feature amount that represents the positional relationship between the predetermined parts related to the contact finger.

次に、本発明の第3の実施の形態の動作を説明する。   Next, the operation of the third exemplary embodiment of the present invention will be described.

図17は、本発明の第3の実施の形態における、認識装置200の動作を示すフローチャートである。   FIG. 17 is a flowchart showing the operation of the recognition apparatus 200 in the third embodiment of the present invention.

はじめに、画像取得部210は、把持対象502を把持している把持手段501の画像を取得する(ステップS301)。   First, the image acquisition unit 210 acquires an image of the gripping means 501 that is gripping the gripping target 502 (step S301).

把持手段検出部211は、画像取得部210により取得された画像における、各指の位置、または、各指の位置と方向を検出する(ステップS302)。   The grip means detection unit 211 detects the position of each finger or the position and direction of each finger in the image acquired by the image acquisition unit 210 (step S302).

把持対象検出部221は、画像取得部210により取得された画像における、把持対象502の物体領域を検出する(ステップS303)。   The grip target detection unit 221 detects the object region of the grip target 502 in the image acquired by the image acquisition unit 210 (step S303).

把持手段検出部211は、画像において検出された指の本数が、2本以上かどうかを判定する(ステップS304)。   The gripping means detection unit 211 determines whether the number of fingers detected in the image is two or more (step S304).

ステップS304において、検出された指の本数が2本以上の場合(ステップS304/Y)、接触検出部250は、検出された指の内の接触指を特定する(ステップS306)。   In step S304, when the number of detected fingers is two or more (step S304 / Y), the contact detection unit 250 identifies a contact finger among the detected fingers (step S306).

接触検出部250は、接触指の本数が、2本以上かどうかを判定する(ステップS307)。   The contact detection unit 250 determines whether the number of contact fingers is two or more (step S307).

ステップS307において、接触指の本数が2本以上の場合(ステップS307/Y)、把持特徴生成部212は、検出された各接触指の位置、または、各接触指の位置と方向をもとに、接触指間の位置関係を表す把持特徴量を生成する(ステップS308)。   In step S307, when the number of contact fingers is two or more (step S307 / Y), the gripping feature generation unit 212 determines the position of each contact finger or the position and direction of each contact finger. Then, a gripping feature amount representing the positional relationship between the contact fingers is generated (step S308).

第1物体尤度算出部213は、生成された把持特徴量をもとに、物体のカテゴリ毎に第1物体尤度を算出する(ステップ309)。   The first object likelihood calculating unit 213 calculates the first object likelihood for each object category based on the generated gripping feature amount (step 309).

なお、ステップS304において、検出された指の本数が2本未満の場合(ステップS304/N)、または、ステップS307において、接触指の本数が2本未満の場合(ステップS307/N)、全カテゴリに対する第1物体尤度が1に設定される。   If the number of fingers detected in step S304 is less than 2 (step S304 / N), or if the number of contact fingers is less than 2 in step S307 (step S307 / N), all categories The first object likelihood for is set to 1.

以降、物体特徴量の生成、第2物体尤度の算出、統合尤度の算出、及び、把持対象502のカテゴリの認識(ステップS310〜S315)が、本発明の第2の実施の形態(ステップS208〜S213)と同様に行われる。   Thereafter, the generation of the object feature amount, the calculation of the second object likelihood, the calculation of the integrated likelihood, and the recognition of the category of the gripping target 502 (steps S310 to S315) are performed in the second embodiment (step S208 to S213) are performed.

以上により、本発明の第3の実施の形態の動作が完了する。   Thus, the operation of the third embodiment of the present invention is completed.

本発明の第3の実施の形態によれば、本発明の第1の実施の形態に比べて、把持対象502の認識精度を向上できる。その理由は、把持特徴生成部212が、把持手段501の複数の所定部位の内、把持対象502と接触している部位(把持対象502と接触している指)間の位置関係を表す把持特徴量を生成するためである。これにより、把持特徴量から、把持対象502と接触していない部位(接触していない指)に係る情報を除外することができ、把持手段501による把持に寄与していない部位の位置の影響を受けずに、把持対象502のカテゴリを特定できる。   According to the third embodiment of the present invention, the recognition accuracy of the grasped object 502 can be improved as compared with the first embodiment of the present invention. The reason is that the gripping feature generation unit 212 indicates the positional relationship between the parts that are in contact with the gripping target 502 (the finger that is in contact with the gripping target 502) among the plurality of predetermined parts of the gripping means 501. This is to produce a quantity. As a result, it is possible to exclude information relating to a part that is not in contact with the gripping target 502 (a finger that is not in contact) from the gripping feature amount, and to influence the position of the part that does not contribute to gripping by the gripping means 501 The category of the gripping target 502 can be specified without receiving it.

<第4の実施の形態>
次に、本発明の第4の実施の形態について説明する。
<Fourth embodiment>
Next, a fourth embodiment of the present invention will be described.

本発明の第4の実施の形態では、把持手段501の複数の所定部位の間の位置関係の時間的な変化を示す把持特徴を生成する。   In the fourth embodiment of the present invention, a gripping feature indicating a temporal change in the positional relationship between a plurality of predetermined parts of the gripping means 501 is generated.

はじめに、本発明の第4の実施の形態の構成を説明する。   First, the configuration of the fourth embodiment of the present invention will be described.

図18は、本発明の第4の実施の形態における、認識装置200の構成を示すブロック図である。   FIG. 18 is a block diagram showing the configuration of the recognition device 200 in the fourth embodiment of the present invention.

図18を参照すると、本発明の第4の実施の形態の構成は、本発明の第2の実施の形態において、把持特徴生成部212が把持特徴生成部260に置き換えられている。   Referring to FIG. 18, in the configuration of the fourth embodiment of the present invention, the gripping feature generation unit 212 is replaced with a gripping feature generation unit 260 in the second embodiment of the present invention.

把持特徴生成部260は、把持手段501の複数の所定部位の間の位置関係の時間的な変化を示す、動き特徴を含む把持特徴量を生成する。把持特徴生成部260は、フレーム特徴生成部261、フレーム特徴記憶部262、及び、動き特徴抽出部263を含む。   The gripping feature generation unit 260 generates a gripping feature amount including a motion feature that indicates a temporal change in the positional relationship between a plurality of predetermined parts of the gripping unit 501. The gripping feature generation unit 260 includes a frame feature generation unit 261, a frame feature storage unit 262, and a motion feature extraction unit 263.

フレーム特徴生成部261は、把持特徴生成部212と同様の方法により、画像のフレーム毎の把持特徴量を生成する。   The frame feature generation unit 261 generates a grip feature amount for each frame of the image by the same method as the grip feature generation unit 212.

フレーム特徴記憶部262は、フレーム特徴生成部261により生成された、フレーム毎の把持特徴量を、所定のフレーム数分記憶する。   The frame feature storage unit 262 stores the gripping feature amount for each frame generated by the frame feature generation unit 261 for a predetermined number of frames.

動き特徴抽出部263は、フレーム毎の把持特徴量の差分をもとに、動き特徴を抽出し、動き特徴を含む把持特徴量を生成する。   The motion feature extraction unit 263 extracts a motion feature based on the difference between grip feature amounts for each frame, and generates a grip feature amount including the motion feature.

次に、本発明の第4の実施の形態の動作を説明する。   Next, the operation of the fourth exemplary embodiment of the present invention will be described.

図19は、本発明の第4の実施の形態における、認識装置200の動作を示すフローチャートである。   FIG. 19 is a flowchart showing the operation of the recognition apparatus 200 in the fourth embodiment of the present invention.

はじめに、把持特徴生成部260のフレーム特徴生成部261は、フレームを示す変数t(t=1,…,Nf。Nfは、動き特徴を含む把持特徴量を生成するためのフレーム数)に1を設定する(ステップS401)。   First, the frame feature generation unit 261 of the gripping feature generation unit 260 sets 1 to a variable t indicating a frame (t = 1,..., Nf, where Nf is the number of frames for generating a gripping feature amount including a motion feature). Set (step S401).

画像取得部210は、把持対象502を把持している把持手段501の画像を1フレーム取得する(ステップS402)。   The image acquisition unit 210 acquires one frame of the image of the gripping means 501 that is gripping the gripping target 502 (step S402).

把持手段検出部211は、画像取得部210により取得されたフレーム(対象フレーム)における、各指の位置、または、各指の位置と方向を検出する(ステップS403)。   The grip means detection unit 211 detects the position of each finger or the position and direction of each finger in the frame (target frame) acquired by the image acquisition unit 210 (step S403).

把持対象検出部221は、画像取得部210により取得された対象フレームにおける、把持対象502の物体領域を検出する(ステップS404)。   The grip target detection unit 221 detects the object region of the grip target 502 in the target frame acquired by the image acquisition unit 210 (step S404).

把持手段検出部211は、対象フレームにおいて検出された指の本数が、2本以上かどうかを判定する(ステップS405)。   The grip means detection unit 211 determines whether the number of fingers detected in the target frame is two or more (step S405).

ステップS405において、検出された指の本数が2本以上の場合(ステップS405/Y)、フレーム特徴生成部261は、検出された各指の位置、または、各指の位置と方向をもとに、対象フレームtでの把持特徴量V(t)を生成する(ステップS407)。ここで、フレーム特徴生成部261は、把持特徴量V(t)として、例えば、本発明の第1の実施の形態の把持特徴量生成方法で示した、把持特徴量V、VB、C、の内のいずれかを生成する。 In step S405, when the number of detected fingers is two or more (step S405 / Y), the frame feature generation unit 261 determines the position of each finger or the position and direction of each finger. Then, a gripping feature amount V (t) at the target frame t is generated (step S407). Here, the frame feature generation unit 261 uses the gripping feature amounts V A , V B, and V shown in the gripping feature amount generation method according to the first embodiment of the present invention as the gripping feature amount V (t), for example. C, and generate either of V D.

フレーム特徴生成部261は、変数tがNf以上かどうかを判定する(ステップS408)。   The frame feature generation unit 261 determines whether the variable t is greater than or equal to Nf (step S408).

ステップS408で、変数tがNf未満の場合(ステップS408/N)、フレーム特徴生成部261は、生成した把持特徴量V(t)をフレーム特徴記憶部262に保存し、変数tに1を加算する(ステップS409)。そして、ステップS402からの処理が繰り返される。   If the variable t is less than Nf in step S408 (step S408 / N), the frame feature generation unit 261 stores the generated gripping feature amount V (t) in the frame feature storage unit 262, and adds 1 to the variable t. (Step S409). Then, the processing from step S402 is repeated.

一方、ステップS408で、変数tがNf以上の場合(ステップS408/Y)、動き特徴抽出部263は、フレーム特徴記憶部262に記憶されている、フレーム毎の把持特徴量の差分を算出する(ステップS410)。   On the other hand, if the variable t is greater than or equal to Nf in step S408 (step S408 / Y), the motion feature extraction unit 263 calculates the difference between the gripping feature amounts for each frame stored in the frame feature storage unit 262 ( Step S410).

動き特徴抽出部263は、算出した差分をもとに、動き特徴を含む把持特徴量を生成する(ステップS411)。   The motion feature extraction unit 263 generates a gripping feature amount including a motion feature based on the calculated difference (step S411).

ここで、動き特徴抽出部263は、例えば、数14式により、動き特徴を含む把持特徴量Vmovを生成する。 Here, the motion feature extraction unit 263 generates the gripping feature amount V mov including the motion feature using, for example, Equation 14.

Figure 2016115179
Figure 2016115179

図20は、本発明の第4の実施の形態における、動き特徴を含む把持特徴量の算出例を示す図である。図20は、Nfが3の場合の例である。例えば、動き特徴抽出部263は、t=1,2,3における把持特徴量V(t)をもとに、図20のように、動き特徴を含む把持特徴量Vmovを生成する。 FIG. 20 is a diagram illustrating a calculation example of the gripping feature amount including the motion feature according to the fourth embodiment of the present invention. FIG. 20 shows an example when Nf is 3. For example, the motion feature extraction unit 263 generates a gripping feature amount V mov including a motion feature as illustrated in FIG. 20 based on the gripping feature amount V (t) at t = 1, 2, and 3.

次に、第1物体尤度算出部213は、生成された動き特徴を含む把持特徴量をもとに、物体のカテゴリ毎に第1物体尤度を算出する(ステップS412)。   Next, the first object likelihood calculating unit 213 calculates the first object likelihood for each category of the object based on the gripping feature amount including the generated motion feature (step S412).

なお、ステップS405において、検出された指の本数が2本未満の場合(ステップS405/N)、全カテゴリに対する第1物体尤度に1が設定される(ステップS406)。   In step S405, when the number of detected fingers is less than 2 (step S405 / N), 1 is set as the first object likelihood for all categories (step S406).

次に、物体特徴生成部222は、検出された把持対象502の物体領域から、物体特徴量を生成する(ステップS413)。ここで、物体特徴生成部222は、Nf個のフレームの内、1番目のフレームや、Nf番目のフレームで検出された把持対象502の物体領域から、物体特徴量を生成する。また、物体特徴生成部222は、Nf個のフレームの各々で検出された把持対象502の物体領域から生成した物体特徴量の平均値を算出してもよい。   Next, the object feature generation unit 222 generates an object feature amount from the detected object region of the gripping target 502 (step S413). Here, the object feature generation unit 222 generates an object feature amount from the object region of the gripping target 502 detected in the first frame or the Nf-th frame among the Nf frames. Further, the object feature generation unit 222 may calculate the average value of the object feature amounts generated from the object region of the gripping target 502 detected in each of the Nf frames.

以降、第2物体尤度の算出、統合尤度の算出、及び、把持対象502のカテゴリの認識(ステップS414〜S418)が、本発明の第2の実施の形態(ステップS209〜S213)と同様に行われる。   Thereafter, the calculation of the second object likelihood, the calculation of the integrated likelihood, and the recognition of the category of the gripping target 502 (steps S414 to S418) are the same as in the second embodiment (steps S209 to S213) of the present invention. To be done.

以上により、本発明の第4の実施の形態の動作が完了する。   Thus, the operation of the fourth exemplary embodiment of the present invention is completed.

本発明の第4の実施の形態によれば、把持手段501による把持に時間的な変化がある場合に、把持対象502の認識精度を向上できる。その理由は、把持特徴生成部260が、把持手段501の複数の所定部位の間の位置関係の時間的な変化を示す、動き特徴を含む把持特徴量を生成するためである。これにより、例えば、柔らかい物体等、把持手段501による把持中に、形状が時間的に変化する把持対象502を、硬い物体等、形状が時間的に変化しない把持対象502と識別できる。また、スマートフォンの操作等、把持手段501の所定部位(指)が、把持対象502上を移動する場合にも、把持対象502の認識精度を向上できる。   According to the fourth embodiment of the present invention, when there is a temporal change in gripping by the gripping means 501, the recognition accuracy of the gripping target 502 can be improved. The reason is that the gripping feature generation unit 260 generates a gripping feature amount including a motion feature that indicates a temporal change in the positional relationship between a plurality of predetermined parts of the gripping means 501. Thereby, for example, a gripping target 502 whose shape changes with time during gripping by the gripping means 501 such as a soft object can be distinguished from a gripping target 502 whose shape does not change with time, such as a hard object. In addition, even when a predetermined part (finger) of the gripping unit 501 moves on the grip target 502 such as a smartphone operation, the recognition accuracy of the grip target 502 can be improved.

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。   While the present invention has been described with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.

例えば、本発明の第3の実施の形態で説明した、把持手段501の複数の所定部位の内の把持対象502と接触している部位についての把持特徴量の生成は、把持対象502との接触が検出できれば、本発明の第1の実施に適用されてもよい。   For example, as described in the third embodiment of the present invention, the generation of the gripping feature amount for the part in contact with the gripping target 502 among the plurality of predetermined parts of the gripping unit 501 is performed by the contact with the gripping target 502. May be applied to the first embodiment of the present invention.

また、本発明の第4の実施の形態で説明した、動き特徴を含む把持特徴量の生成は、本発明の第1の実施や第2の実施の形態に適用されてもよい。   In addition, the generation of the gripping feature amount including the movement feature described in the fourth embodiment of the present invention may be applied to the first embodiment or the second embodiment of the present invention.

100 認識装置
101 CPU
102 記憶デバイス
103 通信デバイス
104 入力デバイス
105 出力デバイス
110 画像取得部
111 把持手段検出部
112 把持特徴生成部
113 物体尤度算出部
114 把持特徴記憶部
115 把持特徴情報
116 把持対象認識部
200 認識装置
210 画像取得部
211 把持手段検出部
212 把持特徴生成部
213 第1物体尤度算出部
214 把持特徴記憶部
215 把持特徴情報
221 把持対象検出部
222 物体特徴生成部
223 第2物体尤度算出部
224 物体特徴記憶部
225 物体特徴情報
230 統合尤度算出部
240 把持対象認識部
250 接触検出部
260 把持特徴生成部
261 フレーム特徴生成部
262 フレーム特徴記憶部
263 動き特徴抽出部
501 把持手段
502 把持対象
100 recognition device 101 CPU
DESCRIPTION OF SYMBOLS 102 Storage device 103 Communication device 104 Input device 105 Output device 110 Image acquisition part 111 Grasping means detection part 112 Grasping feature production | generation part 113 Object likelihood calculation part 114 Grasping feature memory | storage part 115 Grasping feature information 116 Grasping object recognition part 200 Recognition apparatus 210 Image acquisition unit 211 Grasping means detection unit 212 Grasping feature generation unit 213 First object likelihood calculation unit 214 Grasping feature storage unit 215 Grasping feature information 221 Grasping target detection unit 222 Object feature generation unit 223 Second object likelihood calculation unit 224 Object Feature storage unit 225 Object feature information 230 Integrated likelihood calculation unit 240 Grasping object recognition unit 250 Touch detection unit 260 Grasping feature generation unit 261 Frame feature generation unit 262 Frame feature storage unit 263 Motion feature extraction unit 501 Grasping means 502 Grasping object

Claims (10)

把持対象を把持している把持手段の画像を取得する画像取得手段と、
前記画像における前記把持手段の複数の所定部位間の位置関係を示す把持特徴を生成する、把持特徴生成手段と、
前記把持特徴をもとに、前記把持対象を認識する、把持対象認識手段と、
を備えた情報処理装置。
An image acquisition means for acquiring an image of the grip means holding the grip target;
A gripping feature generating means for generating a gripping feature indicating a positional relationship between a plurality of predetermined parts of the gripping means in the image;
A gripping object recognition means for recognizing the gripping object based on the gripping features;
An information processing apparatus comprising:
さらに、前記画像における前記把持対象の色及び模様の内の少なくとも一方を示す物体特徴を生成する、物体特徴生成手段を備え、
前記把持対象認識手段は、前記把持特徴と前記物体特徴とをもとに、前記把持対象を認識する、請求項1に記載の情報処理装置。
Furthermore, an object feature generating means for generating an object feature indicating at least one of the color and pattern of the grip target in the image,
The information processing apparatus according to claim 1, wherein the gripping target recognition unit recognizes the gripping target based on the gripping feature and the object feature.
前記把持特徴生成手段は、前記複数の所定部位の内の前記把持対象と接触している部位間の位置関係を示す前記把持特徴を生成する、
請求項1または2に記載の情報処理装置。
The gripping feature generating means generates the gripping feature indicating a positional relationship between parts in contact with the gripping target among the plurality of predetermined parts.
The information processing apparatus according to claim 1 or 2.
前記把持特徴生成手段は、前記複数の所定部位間の位置関係の時間的な変化を示す把持特徴を生成する、
請求項1乃至3のいずれかに記載の情報処理装置。
The gripping feature generating means generates a gripping feature indicating a temporal change in a positional relationship between the plurality of predetermined parts;
The information processing apparatus according to claim 1.
前記把持特徴は、前記複数の所定部位の各々の位置を示す座標値により、前記複数の所定部位間の位置関係を示す、
請求項1乃至4のいずれかに記載の情報処理装置。
The gripping feature indicates a positional relationship between the plurality of predetermined portions by a coordinate value indicating the position of each of the plurality of predetermined portions.
The information processing apparatus according to claim 1.
前記把持特徴は、前記複数の所定部位の各々の位置を示す座標値、及び、当該所定部位の方向により、前記複数の所定部位間の位置関係を示す、
請求項5に記載の情報処理装置。
The gripping feature indicates a positional relationship between the plurality of predetermined portions by a coordinate value indicating the position of each of the plurality of predetermined portions and a direction of the predetermined portion.
The information processing apparatus according to claim 5.
前記把持特徴は、前記複数の所定部位間の距離により、前記複数の所定部位間の位置関係を示す、
請求項1乃至4のいずれかに記載の情報処理装置。
The gripping feature indicates a positional relationship between the plurality of predetermined portions by a distance between the plurality of predetermined portions.
The information processing apparatus according to claim 1.
前記所定部位は、前記把持手段が有する指である、
請求項1乃至7のいずれかに記載の情報処理装置。
The predetermined part is a finger of the gripping means.
The information processing apparatus according to claim 1.
把持対象を把持している把持手段の画像を取得し、
前記画像における前記把持手段の複数の所定部位間の位置関係を示す把持特徴を生成し、 前記把持特徴をもとに、前記把持対象を認識する、
情報処理方法。
Obtain an image of the gripping means that grips the gripping target,
Generating a gripping feature indicating a positional relationship between a plurality of predetermined parts of the gripping means in the image, and recognizing the gripping object based on the gripping feature;
Information processing method.
コンピュータに、
把持対象を把持している把持手段の画像を取得し、
前記画像における前記把持手段の複数の所定部位間の位置関係を示す把持特徴を生成し、 前記把持特徴をもとに、前記把持対象を認識する、
処理を実行させるプログラム。
On the computer,
Obtain an image of the gripping means that grips the gripping target,
Generating a gripping feature indicating a positional relationship between a plurality of predetermined parts of the gripping means in the image, and recognizing the gripping object based on the gripping feature;
A program that executes processing.
JP2014254080A 2014-12-16 2014-12-16 Information processing device, information processing method, and program Active JP6739896B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014254080A JP6739896B2 (en) 2014-12-16 2014-12-16 Information processing device, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014254080A JP6739896B2 (en) 2014-12-16 2014-12-16 Information processing device, information processing method, and program

Publications (2)

Publication Number Publication Date
JP2016115179A true JP2016115179A (en) 2016-06-23
JP6739896B2 JP6739896B2 (en) 2020-08-12

Family

ID=56141825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014254080A Active JP6739896B2 (en) 2014-12-16 2014-12-16 Information processing device, information processing method, and program

Country Status (1)

Country Link
JP (1) JP6739896B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022264436A1 (en) * 2021-06-15 2022-12-22 ソニーグループ株式会社 Information processing device, information processing method, program, and information processing system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010244413A (en) * 2009-04-08 2010-10-28 Toyota Industries Corp Method for recognizing object gripped by grip means
JP2014099024A (en) * 2012-11-14 2014-05-29 Fujitsu Ltd Biometric authentication device, biometric authentication method, and biometric authentication computer program
JP2014106603A (en) * 2012-11-26 2014-06-09 Kddi Corp Information terminal device
JP2014206930A (en) * 2013-04-15 2014-10-30 オムロン株式会社 Gesture recognition device, gesture recognition method, electronic apparatus, control program, and recording medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010244413A (en) * 2009-04-08 2010-10-28 Toyota Industries Corp Method for recognizing object gripped by grip means
JP2014099024A (en) * 2012-11-14 2014-05-29 Fujitsu Ltd Biometric authentication device, biometric authentication method, and biometric authentication computer program
JP2014106603A (en) * 2012-11-26 2014-06-09 Kddi Corp Information terminal device
JP2014206930A (en) * 2013-04-15 2014-10-30 オムロン株式会社 Gesture recognition device, gesture recognition method, electronic apparatus, control program, and recording medium

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
笠原啓雅,外3名: "把持パターン画像の学習に基づく欠損画素復元と物体認識", 画像の認識・理解シンポジウム(MIRU2008), JPN7018004122, July 2008 (2008-07-01), JP, pages 623 - 628, ISSN: 0004148531 *
笠松英,外2名: "手の甲の特徴点による手指の形状推定モデルの検討", 第75回(平成25年)全国大会講演論文集(4) インタフェース コンピュータと人間社会, JPN6018048094, 6 March 2013 (2013-03-06), JP, pages 4 - 99, ISSN: 0004148530 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022264436A1 (en) * 2021-06-15 2022-12-22 ソニーグループ株式会社 Information processing device, information processing method, program, and information processing system

Also Published As

Publication number Publication date
JP6739896B2 (en) 2020-08-12

Similar Documents

Publication Publication Date Title
CN108052896B (en) Human body behavior identification method based on convolutional neural network and support vector machine
Raheja et al. Robust gesture recognition using Kinect: A comparison between DTW and HMM
KR101612605B1 (en) Method for extracting face feature and apparatus for perforimg the method
JP5403699B2 (en) Finger shape estimation device, finger shape estimation method and program
Bhuyan et al. Fingertip detection for hand pose recognition
KR20150083581A (en) Apparatus and method for multiple armas and hands detection and traking using 3d image
Bhuyan et al. Hand pose recognition using geometric features
RU2014108870A (en) IMAGE PROCESSOR CONTAINING A GESTURE RECOGNITION SYSTEM WITH A FIXED BRUSH POSITION RECOGNITION BASED ON THE FIRST AND SECOND SET OF SIGNS
JP6066093B2 (en) Finger shape estimation device, finger shape estimation method, and finger shape estimation program
Huang et al. Deepfinger: A cascade convolutional neuron network approach to finger key point detection in egocentric vision with mobile camera
JP2012053606A (en) Information processor, method and program
Bhuyan et al. Hand pose identification from monocular image for sign language recognition
Qi et al. Computer vision-based hand gesture recognition for human-robot interaction: a review
JP2018119833A (en) Information processing device, system, estimation method, computer program, and storage medium
JP2016014954A (en) Method for detecting finger shape, program thereof, storage medium of program thereof, and system for detecting finger shape
CN105892633A (en) Gesture identification method and virtual reality display output device
JP4938748B2 (en) Image recognition apparatus and program
Ali et al. Object recognition for dental instruments using SSD-MobileNet
Nandwana et al. A survey paper on hand gesture recognition
CN104765440B (en) Hand detection method and equipment
CN115335872A (en) Training method of target detection network, target detection method and device
WO2015108737A1 (en) Contour-based classification of objects
JP2015011526A (en) Action recognition system, method, and program, and recognizer construction system
JP6739896B2 (en) Information processing device, information processing method, and program
CN106406507B (en) Image processing method and electronic device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190208

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191007

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20191016

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20191108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200722

R150 Certificate of patent or registration of utility model

Ref document number: 6739896

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150