JP4877810B2 - 物体の視覚的表現を学習するための学習システム及びコンピュータプログラム - Google Patents
物体の視覚的表現を学習するための学習システム及びコンピュータプログラム Download PDFInfo
- Publication number
- JP4877810B2 JP4877810B2 JP2007096733A JP2007096733A JP4877810B2 JP 4877810 B2 JP4877810 B2 JP 4877810B2 JP 2007096733 A JP2007096733 A JP 2007096733A JP 2007096733 A JP2007096733 A JP 2007096733A JP 4877810 B2 JP4877810 B2 JP 4877810B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- manipulator
- robot
- learning
- video camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Description
A.ウデ、C.G.アトキソン、及びG.チェン、「検出、追跡、認識及び行動のための辺縁視と中心視との組合せ」、インテリジェントロボット及びシステムに関するIEEE/RSJ国際会議予稿集、ラスベガス、ネバダ、2003年、2173−2178ページ。 (A. Ude, C. G. Atkeson, and G. Cheng, "Combining peripheral and foveal humanoid vision to detect, pursue, recognize and act," in Proc. IEEE/RSJ Int. Conf. Intelligent Robots and Systems, Las Vegas, Nevada, 2003, pp. 2173 − 2178.) M.ビヨルクマン及びD.クラギッシュ、「物体の認識とポーズ推定のための中心視と辺縁視との結合」、ロボティクスとオートメーションに関するIEEE会議予稿集、ニューオーリーンズ、ルイジアナ、2004年、5135−5140ページ。 (M. Bj¨orkman and D. Kragi′c, "Combination of foveal and peripheral vision for object recognition and pose estimation," in Proc. IEEE Conf. Robotics and Automation, New Orleans, Louisiana, 2004, pp. 5135 − 5140.) A.ウデ、C.ガスケット、及びG.チェン、「1つの目について2個のカメラを持つ中心視システム」、ロボティクスとオートメーションに関するIEEE国際会議予稿集、オーランド、フロリダ、2006年、3457−3462ページ。 (A. Ude, C. Gaskett, and G. Cheng, "Foveated vision systems with two cameras per eye," in Proc. IEEE Int. Conf. Robotics and Automation, Orlando, Florida, 2006, pp. 3457 − 3462.) P.フィッツパトリック、「最初の接触:セグメンテーションのための活性視覚のアプローチ」、インテリジェントロボットとシステムとに関する2003年IEEE/RSJ国際会議予稿集、ラスベガス、ネバダ、2003年、2161−2166ページ。 (P. Fitzpatrick, "First contact: an active vision approach to segmentation," in Proc. 2003 IEEE/RSJ Int. Conf. Intelligent Robots and Systems, Las Vegas, Nevada, 2003, pp. 2161 − 2166.) D.G.ロウエ、「3次元の物体認識のための局地的特徴視覚のクラスタリング」、コンピュータビジョンと認識のためのIEEE会議予稿集、カウアイ、ハワイ、2001年、682−688ページ。 (D. G. Lowe, "Local feature view clustering for 3D object recognition," in Proc. IEEE Conf. Computer Vision and Pattern Recognition, Kauai, Hawaii, 2001, pp. 682 − 688.) L.ウィスコット、J.−M.フェラス、N.クリューガー、及びC.フォンデルマルスブルグ、「弾性バンチのグラフマッチングによる顔認識」、IEEE トランザクション、パターン分析、機械知能、第19巻、第7号、775−779ページ、1997年。 (L. Wiskott, J.−M. Fellous, N. Kr¨uger, and C. von der Malsburg, "Face recognition by elastic bunch graph matching," IEEE Trans. Pattern Anal. Machine Intell., vol. 19, no. 7, pp. 775 − 779, 1997.) S.スリニバサン及びK.L.ボイヤー、「視覚ベースの固有空間を使用する頭のポーズ推定」、パターン認識に関する第16番目の国際会議予稿集、ケベック、カナダ、2002年、302−305ページ。 (S. Srinivasan and K. L. Boyer, "Head pose estimation using view based eigenspaces," in Proc. 16th Int. Conf. Pattern Recognition, vol. 4, Quebec, Canada, 2002, pp. 302 − 305.) C.ガスケット、A.ウデ、及びG.チェン、「終点の閉ループと学習された終点の開ループの視覚サーボ制御による手と目の調整」、ヒューマノイドロボティクス国際ジャーナル、第2巻、第2号、203−224ページ、2005年。 (C. Gaskett, A. Ude, and G. Cheng, "Hand−eye coordination through endpoint closed−loop and learned endpoint open−loop visual servo control," International Journal of Humanoid Robotics, vol. 2, no. 2, pp. 203 − 224, 2005.) D.コマニッシュ、V.ラメシュ、及びP.メア、「カーネルベースの物体のトラッキング」、パターン分析と機械知能に関するIEEEトランザクション、第25巻、第5号、564−577ページ、2003年。 (D. Comaniciu, V. Ramesh, and P. Meer, "Kernel−based object tracking," IEEE Trans. Pattern Anal. Machine Intell., vol. 25, no. 5, pp. 564 − 577, 2003.) S.J.マッケナ、Y.ラージャ、及びS.ゴング、「適応的混合モデルを使用する色の物体のトラッキング」、画像と視覚とのコンピューティング、第17巻、225−231ページ、1999年。 (S. J. McKenna, Y. Raja, and S. Gong, "Tracking colour objects using adaptive mixture models," Image and Vision Computing, vol. 17, pp. 225 − 231, 1999.) T.ヨアヒム、「大規模サポートベクタマシン学習の実用化」、カーネル法―サポートベクタ学習の進歩、B.シェルコップ、C.J.C.バーグス、A.J.スモーラ、編、ケンブリッジ、MA:MITプレス、1999年。 (T. Joachims, "Making large−scale support vector machine learning practical," in Advances in Kernel Methods −Support Vector Learning, B. Sch¨olkopf, C. J. C. Burges, and A. J. Smola, Eds. Cambridge, MA: MIT Press, 1999.)
図3はヒューマノイドロボットの制御ブロック50の構成を示す図である。ヒューマノイドロボットは、ビデオカメラ52及びそれぞれ手を有している右腕及び左腕を備え、これらはすべてアクチュエータによって操作可能であってその手が物体をつかみ、平行移動させ、回転させることができる。これ以降、ロボットの制御ブロック50を単に「ロボット」と呼ぶ。ロボット50は背景技術の部分で論じられたように、中心視カメラ(全部で4つのカメラ)を備えているが、この実施の形態では、本質的に1つのカメラだけが必要である。したがって、ロボット50はただ1つのカメラ52を有するものとして示されている。
この実施の形態の中心は、物体がロボット50によって操作される間、画像から物体を識別するための能力である。この目的を達成するために、次のような画像プロセスをモデル化することが必要である。
−背景(Θb)、
−手(Θh)、
−場面の中の何らかの予期せぬ事象をモデル化したアウトライアプロセス(Θt)。
「物体の発見」の節で述べた物体の外観の抽出のための技術に関連して、オブジェクト操作プロセス80の出力を使用している認識のための分類器86(図3を参照)を、この実施の形態のロボット50がどのように学習するかを示さなければならない。楕円250(図6(C)を参照)を推定した後、画像は一定の大きさのウィンドウ上に変換される。これはスケーリング及び平面上の回転に対する不変性を保証し、さらに互いに比較することができるような標準的な大きさの画像をも提供している。
さて、今度は非線形マルチクラスSVMを使用する物体認識のための好適な分類器を探すという問題を扱う。非線形マルチクラスSVMに基づく分類は次の決定関数を使用して実行される。
上述のように、この実施の形態のロボット50のコントローラ62はコンピュータのハードウェアとその上で実行されるソフトウェアとで実現される。そのコンピュータは汎用プロセッサでもよい。そのソフトウェアは次のような制御の流れを有する。
ロボット50、特にロボット50のコントローラ62は次のように動作する。最初に、コントローラ62のオブジェクト操作プロセス80はユーザが物体をロボットの手に置くまで待つ。物体がロボットの手の上に置かれると、オブジェクト操作プロセス80は物体をつかみ、ロボットの手をカメラ52の視界から離れて移動させるので、背景だけが視界に残る。所望の軌道でロボットの手を移動するために必要なパラメータがオブジェクト操作プロセス80からの目標軌道に従ってアクチュエータパラメータ計算プロセス82によって計算され、アクチュエータドライバ64に適用される。アクチュエータドライバ64はそのパラメータに従ってアクチュエータ66を駆動し、ロボットの手は望ましい軌道で移動することになる。
本実施の形態では、トレーニングと認識とのために画像を抽出することにおいて、「物体の発見」で述べられたベイズの技術と、「アプローチとシステムの構成の概要」の節で概略を述べた物体の操作とを組合せたものがどれだけ有効であるかを検査した。ロボットがその環境にどのように相互作用するかについて合理的な仮定であると信ずるところに基づいて、物体についての事前知識なしに物体の画像を収集することができた。シーン中の他の物体からある物体を識別するための手順は、ベイズのアプローチによってなされた仮定を満たす限りは、信頼できることが立証された。
この実施の形態によれば、物体についての事前知識を何ら持たず、画像に人手によって改変を加えることがないような、ヒューマノイドロボットによる認識のための完全な物体の表現を学習する手順が提供される。知られている限り、この実施の形態のロボット50は、もしそれが物体をつかむことができれば、その画像を全く自動的に収集することができるはじめてのヒューマノイドロボットである。その実験は構築されたモデルが3次元の中で大きさと回転とに対して全く不変であること、及びこの実施の形態が、実施の形態のシステム上で場面の残りの部分からの画像を認めるために物体の色のテクスチャについての事前知識を使用したより以前のシステムに匹敵する認識率を達成していることを示している。
40,52 カメラ
42 ロボットの手
44,102 物体
46 ロボットの腕
60 フレームグラバ
62 コントローラ
64 アクチュエータドライバ
66 アクチュエータ
80 オブジェクト操作プロセス
82 アクチュエータパラメータ計算プロセス
84 物体画像記憶部
86 分類器
Claims (6)
- ビデオカメラと、物体を保持し、回転させ、平行移動させることができる制御可能なマニピュレータとを用いて物体の視覚表現を学習するための学習システムであって、
前記ビデオカメラの出力を受けるように接続されたフレームグラバと、
前記マニピュレータが前記ビデオカメラの光軸に沿って前記マニピュレータによって保持された前記物体を平行移動させるように、前記マニピュレータを駆動するための平行移動手段と、
前記フレームグラバによって取込まれたフレーム内での前記物体の画像があらかじめ定められた大きさの境界の範囲内に位置し、かつ前記境界の範囲内でできるだけ大きくなるように、前記マニピュレータによって保持された前記物体の位置を決定するための手段と、
前記マニピュレータによって保持された前記物体が前記カメラの光軸と直交する2つの軸の回りで回転するように、前記マニピュレータを駆動するための回転手段と、
前記回転手段によって回転された前記物体の画像を収集するための画像収集手段とを含み、前記画像は前記物体の識別子に関連付けて記憶され、
前記学習システムはさらに、前記画像と前記物体の前記識別子とを用いて、前記物体を識別するように分類器をトレーニングするためのトレーニング手段を含む、学習システム。 - 前記画像収集手段が
前記フレームグラバによって取込まれた前記フレームの範囲内で前記物体の領域を識別するための識別手段と、
あらかじめ定められた形状を、前記識別手段によって識別された前記物体の前記領域の外縁にフィットするための手段と、
前記あらかじめ定められた形状内で画像を抽出するための手段とを含む、請求項1に記載の学習システム。 - 前記識別手段が
前記フレームグラバによって取込まれた前記フレームの範囲内の各画素が、背景、前記マニピュレータの画像の一部、前記物体の画像の一部、及びアウトライアに属す確率を計算するための手段と、
前記各画素について、前記各画素が前記物体の前記画像に属しているかどうかを決定するための手段とを含む、請求項2に記載の学習システム。 - 前記回転手段が、前記マニピュレータによって保持された前記物体が前記光軸と直交する2つの軸の回りで回転するように、前記マニピュレータを駆動するための手段を含む、請求項1に記載の学習システム。
- 前記分類器がサポートベクタマシンベースの分類器である、請求項1〜請求項4のいずれかに記載の学習システム。
- ビデオカメラと、前記ビデオカメラから出力されたフレームを取込むためのフレームグラバと、物体を保持し、回転させ、平行移動させることができる制御可能なマニピュレータとに接続されたコンピュータ上で実行されるコンピュータプログラムであって、前記コンピュータによって実行されると、前記コンピュータを、
前記マニピュレータが、前記ビデオカメラの光軸に沿って前記マニピュレータによって保持された前記物体を平行移動させるように、前記マニピュレータを駆動するための平行移動手段と、
前記フレームグラバによって取込まれたフレーム内での前記物体の画像が、あらかじめ定められた大きさの境界の範囲内に位置し、かつ前記境界の範囲内でできるだけ大きくなるように、前記マニピュレータによって保持された前記物体の位置を決定するための手段と、
前記マニピュレータによって保持された前記物体が前記ビデオカメラの光軸と直交する2つの軸回りで回転するように、前記マニピュレータを駆動するための回転手段と、
前記回転手段によって回転された前記物体の画像を収集するための画像収集手段として機能させ、前記画像は前記物体の識別子に関連づけて記憶され、
前記コンピュータプログラムはさらに、前記コンピュータを、前記画像と前記物体の前記識別子とを用いて、前記物体を識別するように分類器をトレーニングするためのトレーニング手段として機能させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007096733A JP4877810B2 (ja) | 2007-04-02 | 2007-04-02 | 物体の視覚的表現を学習するための学習システム及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007096733A JP4877810B2 (ja) | 2007-04-02 | 2007-04-02 | 物体の視覚的表現を学習するための学習システム及びコンピュータプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008257353A JP2008257353A (ja) | 2008-10-23 |
JP2008257353A5 JP2008257353A5 (ja) | 2010-06-03 |
JP4877810B2 true JP4877810B2 (ja) | 2012-02-15 |
Family
ID=39980886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007096733A Expired - Fee Related JP4877810B2 (ja) | 2007-04-02 | 2007-04-02 | 物体の視覚的表現を学習するための学習システム及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4877810B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8600166B2 (en) | 2009-11-06 | 2013-12-03 | Sony Corporation | Real time hand tracking, pose classification and interface control |
US9014848B2 (en) * | 2010-05-20 | 2015-04-21 | Irobot Corporation | Mobile robot system |
FI20106090A0 (fi) * | 2010-10-21 | 2010-10-21 | Zenrobotics Oy | Menetelmä kohdeobjektin kuvien suodattamiseksi robottijärjestelmässä |
US20130343640A1 (en) | 2012-06-21 | 2013-12-26 | Rethink Robotics, Inc. | Vision-guided robots and methods of training them |
JP6544763B2 (ja) * | 2014-12-12 | 2019-07-17 | 学校法人東京理科大学 | 対象物検出装置及びプログラム |
JP6521481B2 (ja) * | 2015-03-19 | 2019-05-29 | カシオ計算機株式会社 | 画像補正装置、及び画像補正方法、プログラム |
JP2019192145A (ja) | 2018-04-27 | 2019-10-31 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN114758236B (zh) * | 2022-04-13 | 2024-09-17 | 华中科技大学 | 一种非特定形状物体识别、定位与机械手抓取系统及方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07120416B2 (ja) * | 1986-06-04 | 1995-12-20 | オムロン株式会社 | 高速視覚認識装置 |
JP3600010B2 (ja) * | 1998-05-06 | 2004-12-08 | エヌ・ティ・ティ・ファネット・システムズ株式会社 | 検査対象物の外観検査方法とその装置 |
JP2002208013A (ja) * | 2001-01-12 | 2002-07-26 | Victor Co Of Japan Ltd | 画像領域抽出装置及び画像領域抽出方法 |
JP4164737B2 (ja) * | 2002-05-24 | 2008-10-15 | ソニー株式会社 | 物体認識装置及び方法並びにロボット装置 |
JP4710426B2 (ja) * | 2005-06-14 | 2011-06-29 | 富士ゼロックス株式会社 | 画像処理装置、画像処理方法及び画像処理プログラム |
-
2007
- 2007-04-02 JP JP2007096733A patent/JP4877810B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008257353A (ja) | 2008-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4877810B2 (ja) | 物体の視覚的表現を学習するための学習システム及びコンピュータプログラム | |
Stenger et al. | Model-based hand tracking using a hierarchical bayesian filter | |
US20070009159A1 (en) | Image recognition system and method using holistic Harr-like feature matching | |
Sui et al. | Sum: Sequential scene understanding and manipulation | |
CN108171133A (zh) | 一种基于特征协方差矩阵的动态手势识别方法 | |
Schröder et al. | Real-time hand tracking with a color glove for the actuation of anthropomorphic robot hands | |
Wachs et al. | Real-time hand gesture telerobotic system using fuzzy c-means clustering | |
Ye et al. | Gesture recognition using 3D appearance and motion features | |
Nooruddin et al. | HGR: Hand-gesture-recognition based text input method for AR/VR wearable devices | |
Ude et al. | Making object learning and recognition an active process | |
Ikram et al. | Real time hand gesture recognition using leap motion controller based on CNN-SVM architechture | |
CN117911359A (zh) | 一种基于视觉的机械臂6d位姿抓取方法 | |
Pons-Moll et al. | Efficient and robust shape matching for model based human motion capture | |
Ghobadi et al. | Real Time Hand Based Robot Control Using Multimodal Images. | |
Romero et al. | Human-to-robot mapping of grasps | |
Yu et al. | Object recognition and robot grasping technology based on RGB-D data | |
Rao et al. | Gesture based robot control | |
Tang et al. | Rethinking 6-Dof Grasp Detection: A Flexible Framework for High-Quality Grasping | |
Lee et al. | Gait tracking and recognition using person-dependent dynamic shape model | |
Wang et al. | 3D hand gesture recognition based on Polar Rotation Feature and Linear Discriminant Analysis | |
Siddiqui et al. | Real time limb tracking with adaptive model selection | |
Sigalas et al. | Visual tracking of independently moving body and arms | |
Zhang et al. | Robotic grasp detection using effective graspable feature selection and precise classification | |
Gurav et al. | Vision based hand gesture recognition with haar classifier and AdaBoost algorithm | |
Chakraborty et al. | Towards real-time human action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100401 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100401 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100401 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111014 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111101 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111122 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141209 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |