JPH08212329A - 適応的認識システム - Google Patents

適応的認識システム

Info

Publication number
JPH08212329A
JPH08212329A JP7018218A JP1821895A JPH08212329A JP H08212329 A JPH08212329 A JP H08212329A JP 7018218 A JP7018218 A JP 7018218A JP 1821895 A JP1821895 A JP 1821895A JP H08212329 A JPH08212329 A JP H08212329A
Authority
JP
Japan
Prior art keywords
partial
recognition
recognition system
partial feature
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7018218A
Other languages
English (en)
Other versions
JP3560670B2 (ja
Inventor
Daiki Masumoto
大器 増本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP01821895A priority Critical patent/JP3560670B2/ja
Priority to US08/597,138 priority patent/US5845048A/en
Publication of JPH08212329A publication Critical patent/JPH08212329A/ja
Application granted granted Critical
Publication of JP3560670B2 publication Critical patent/JP3560670B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mechanical Engineering (AREA)
  • General Health & Medical Sciences (AREA)
  • Robotics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Manipulator (AREA)
  • Image Processing (AREA)

Abstract

(57)【要約】 【目的】 センサから観測対象の情報を取得して、対象
の状態(種類、位置、姿勢等)を認識するシステムに関
し、単純な規則性が見つからない自然物体などを適応的
に認識することを目的とする。 【構成】 認識対象の観測データから該対象の状態の推
定値を出力する手段1と、手段1の出力に応じて対象の
部分的な特徴の観測データ予測値を出力する手段2と、
手段1の出力に応じて対象の観測結果における部分特徴
の予測位置を出力する手段3とを備え、手段2の出力に
対応させて、手段3による出力と実際の部分特徴の位置
との差が少なくなるように手段1の出力を修正しながら
対象の認識を行うように構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】現在、各種生産過程にロボットの
導入が盛んに行われている。それら産業用ロボットは、
自らの内界センサからの信号を頼りにして、予め決めら
れた手順で、決められた動作を繰り返し行う。工場内の
ように環境の整備された場所ではこれで十分な場合もあ
るが、環境が変化し得る一般の場合には、このようなロ
ボットでは役に立たない。そこで、ロボットに各種の外
界センサを取り付け、周囲の変動への対応や、さらに環
境への積極的な働きかけも行えるものにするための研究
が盛んに行われている。
【0002】本発明は、センサから観測対象の情報を取
得して、対象の状態(種類、位置、姿勢など)を推定す
る認識システムに関するものである。このシステムを使
うことにより、外界センサを持ったロボットが、周囲の
環境を認識したり、物体を操作したりすることが可能に
なる。また、対象を観測した時に得られる部分的な特徴
と対象の状態との間の関係を学習により獲得することが
できるため、新たな環境にも適応して認識を行える。さ
らに、文字認識、文書・図面処理、リモートセンシン
グ、医用画像処理・認識などの分野にも適用できる。
【0003】
【従来の技術】本発明は、物体を部分的な特徴とその結
合関係としてモデル化し、そのモデルを使って物体を認
識するものである。したがって、このモデルは、コンピ
ュータビジョンの分野におけるモデルベーストビジョン
研究の1つとして位置づけることができる。そこで、従
来技術の紹介として、モデルベーストビジョンの分野の
研究を概観してみる。なお、このモデルベーストビジョ
ンに関する一般的文献として、次のものがある。
【0004】R.T.Chin, and C.R.Dyer, "Model-Based R
ecognition in Robot Vision," ACMComputing Surveys,
Vol.18, No.1, March,pp.67-108(1986).モデルベース
トビジョンの分野では、物体の形状や見え方に関する知
識を用いて画像理解を行う。モデルの一部と、画像から
抽出された特徴との間でマッチングを行うことにより、
画像から明示的に利用できる情報だけでは、「何がある
のか(What) 」、「どこにあるのか(Where)」を一意に
決めることができない場合にも、それらを推定すること
ができる。このように、センサデータと知識との間の橋
渡しができるため、モデルベーストビジョンは、ビジョ
ンの応用分野において重要な要素技術となっている。
【0005】モデルベーストビジョンは、画像中の特徴
とモデルとが整合するように、物体のもつパラメータ
(位置・姿勢パラメータなど)を決めるという形で物体
を認識する。物体の位置・姿勢パラメータを決めること
は、ロボットが物体とインタラクションする際に必要に
なる。また、モデルの変形に対応するパラメータを導入
することによって、物体のサブカテゴリーを同定した
り、変形する物体を扱ったりできるように発展させるこ
ともできる。
【0006】モデルベーストビジョンシステムを構成す
るために必要な要素技術は、さまざまな研究の文脈の中
で開発されてきた。これらの要素技術をモデルベースト
ビジョンの枠組の中で整理すると、以下のように分類で
きる。なお、この要素技術に関しては次の文献がある。
【0007】P.Suetens, P.Fua, and A.J.Hanson, "Com
putational Starategies for Object Recognition," AC
M Computing Surveys, Vol.24, No.1, March, pp.5-61
(1992). 1.モデリング ・物体モデルをどのように表現するか(model represen
tation) (一般化円筒表現、ワイヤフレーム表現) ・モデルをどのように生成するかというモデル獲得の問
題(model acquisition)(CADデータの流用、レンジファ
インダ等の利用、複数枚の2−D画像からのモデル獲
得) 2.特徴の抽出・マッチング ・物体モデルと対応づけるための特徴をセンサデータか
らどのように取り出すかという特徴抽出の問題(featur
e extraction)(エッジ抽出、Hough 変換) ・物体モデルとセンサデータの特徴間の対応関係を決め
るパターンマッチングの問題(pattern matching) (相
関、弾性マッチング)ここで弾性マッチングとは、例え
ば人間の顔を認識するとき、それぞれ1つのモデルで近
似できる目、鼻、口などをばねで結び、弾性エネルギー
をある範囲に限定するような手法である。 3.パラメータ推定(parameter estimation) ・特徴間の対応関係が決まったという前提で、物体とセ
ンサとの相対位置・姿勢や物体パラメータを推定すると
いう問題(Newton法等の反復アルゴリズム、解析的な解
法) 本発明はこれらの要素技術のうち、モデリングとの関係
が深いため、次にモデリングについて従来技術を説明す
る。
【0008】認識に適した形で3D物体を表現するた
め、数多くのアプローチがされてきた。しかし、汎用の
モデル構築法、すなわち、さまざまな種類の物体のモデ
ルの表現を構築する体系的方法はまだ見つかっていな
い。
【0009】物体中心表現と観測者中心表現 本発明では、物体の部分の幾何学的な属性と、それらの
間の幾何学的な関係からなるモデルについて議論してい
る。これらの属性や関係は何らかの座標系で定義されな
ければならない。ビジョン研究においては、座標系とし
て物体中心系か観測者中心系のどちらかが使われる。
【0010】物体中心表現 物体認識の研究では、物体中心のモデルを使うことが多
い。その理由の1つは、物体中心表現は、視点の位置と
は独立に物体を表現することができるため、物体モデル
をコンパクトに表現できるからである。Marr and Nishi
haraは直線軸をもつ一般化円筒表現の階層に基づく表現
方法を提案した。BrooksのACRONYM は、同じく一般化円
筒表現を用いて航空機を階層的に表現した。Grimson an
d Lazano-Perezは、物体を平面的な表面の集合としてモ
デル化した。それぞれの平面の式は、物体中心座標系で
表現されている。これらのシステムでは、単純な物体を
うまく認識できることが示されている。しかし、モデリ
ングの方法を、複雑な物体を取り扱えるように拡張する
ことは難しい。さらに、物体中心表現モデルは、観測プ
ロセスとは独立なこともあって、部分的に隠れている物
体を満足に取り扱うことも難しい。ここでの文献を以下
に示す。
【0011】D.Marr and H.K.Nishihara, "Representat
ion and recognition of the spatial organization of
three-dimensional shape," in Proc. Roy. Soc. Lon
d.B,vol.200, pp.269-294(1978).R.A.Brooks, "Symboli
c Reasoning Among 3D models and 2D Images," In Art
ificial Intelligence, Vol.17, No.1, pp.285-348, Au
g.(1983).W.E.L.Grimson and T.Lozano-Perez, "Model-
based recognition and localization from sparse ran
ge or tactile data," Int. J. Robotics Res., Vol.3,
No.3, pp.3-35(1984).W.E.L.Grimson and T.Lozano-Per
ez, "Localizing Overlapping Parts by Searching the
Interpretation Tree," IEEE Transactions on Patter
n Analysis and Machine Intelligence, Vol.9, No.4,
pp.469-482(1987).画像は観測者中心の表現である。し
たがって、物体中心モデルと画像とを対応づけるために
は、観測者中心座標と物体中心座標との間の変換を決定
しなければならない。この変換は非線形で6つのパラメ
ータを持っており、一般に解析的に解くことができな
い。ゆえに、物体中心モデルは、観測者相対の物体位置
・姿勢が近似的にわかっている場合や、比較的簡単な方
法でわかる場合には最適である。しかし、これらの方法
では、制約のない屋外シーンにある複雑な物体を取り扱
うことは難しい。Baird は、特徴の位置に基づく制約の
使用を分析し、解釈木(画像特徴と物体特徴との間のす
べての可能な対応の空間)を効率よく枝刈りする手法の
有効性とその限界を示した。
【0012】3D物体を1枚の濃淡画像から認識するた
めに物体中心モデルを用いる研究では、姿勢情報の欠落
を埋めるために、常に成立するとは限らない仮定をおか
なければならない。例えば、Brooksは航空機の航空写真
を認識するときに、それらが着地しているという仮定を
設けた。Ayache and Faugeras は、認識対象の物体は平
面であり、物体の幾何学特性についての正確な定量的情
報が利用できると仮定した。Chien and Aggarwalは、物
体のシルエットは平行投影によって生じると仮定した。
ここでの文献を以下に示す。
【0013】H.S.Baird. Model-Based Image Matching
Using Location Cambridge, MA:MITPress(1984).N.Ayac
he and O.D.Faugeras, "Hyper: A new approach for th
e recognitionand positioning of two-dimensional ob
jects," IEEE Transactions on Pattern Analysis and
Machine Intelligence, Vol.8, No.1,pp.44-54(1986).
C.H.Chien and J.K.Aggarwal."Model construction and
shape recognition from occuluding contours," IEEE
Transactions on Pattern Analysis and Machine Inte
lligence, Vol.11, No.4,pp.372-389(1989).観測者中心表現 観測者中心モデルでは、起こり得る2D投影像で物体を
表現することにより、観測者中心座標系から物体中心座
標系への非線形変換を解かなくて済む。可能な見えをア
スペクトの集合(有限)に量子化するアプローチが良く
使われる。各アスペクトを3D物体のトポロジが異なる
投影に対応させることにより、視点による物体の見えの
変化を有限個で表現する。異なるアスペクトは、別の物
体であるかのように独立に表現される。したがって、2
D画像と3Dモデルとの間の未知の対応関係は全てのア
スペクトを探索することで決めることができる。Koende
rink and van Doornは、アスペクトグラフの基本的なア
イデアを最初に提唱した。アスペクトグラフでは、可能
な視点の集合はガウス球の表面上の領域に分割される。
物体の部分(あるいは、物体の特徴の属性)の定性的な
構造は不変であると仮定している。物体に関する仮説
(物体は何か、どこから見ているか)は、観測球の各領
域において独立にテストされる。これらの方法を使った
研究例としては、Goad, Dickinson らの研究がある。こ
こでの文献を以下に示す。
【0014】J.J.Koenderink and A.J.van Doorn, "The
internal representation of solid shape with respe
ct to vision," Biol. Cybern. vol.32, pp.211-216(19
79).C.Goad,"Special purpose automatic programming
for 3D model-based vision," in Proc. Image Underst
anding Workshop Virginia, pp.94-104(1983).S.J.Dick
inson, A.P.Pentland, and A.Rosenfeld,"Qualitative
3-D shap e reconstruction using distributed aspect
graph matching," in Proc. ICCV 90Osaka, pp.257-26
2(1990).モデルを自動的に獲得する方法は、最近まであ
まり注目されていなかった。認識に使われるモデルは、
人手で作られていた。例えばChien and Kak は、表面上
の点を測定し表面上に三角形を構成することでモデルを
作っていた。前述のACRONYM において、Brooksは人手で
組み立てられた一般化円筒に基づいて物体を階層的に記
述していた。人手でモデルを作ることは、時間がかか
り、ビジョンシステムの適用範囲を限定するものであ
る。それ以外の方法としては、複数の視点から撮影され
た画像から特徴を抽出し、それを使ってモデルを作る手
法がある。例えば、Fan らは、複数の見えをモデルとし
て使った。物体の最も主要な表面が、見えのどれかに含
まれるように、物体の複雑さに応じて人間が複数の見え
を選択している。同様に、Jain and Hoffmanは、10個の
物体をもつデータベースの各物体について、各15枚の
サンプル画像を使って識別のためのモデルを構築した。
ニューラルネットワークを使ったアプローチもある Abu
-Mostafa and Pslatisは、対象物体を撮影し、その画像
を物体のモデルとして使った。まず、種々の物体の画像
を連想記憶型のニューラルネットワークに記憶させてお
く。そのネットワークに新しい画像を与えて、連想を行
わせることによって認識を行うのである。連想記憶であ
るから、このシステムは、似ているという基準(類似
度)をどのように定めるかによって、性能が規定されて
しまう。しかし、一般には、同じ物体を異なる視点から
撮影した画像間に、単純な類似度を定義することはでき
ない。そのため、対象物体をモデル獲得時とは異なる視
点から撮影した場合は、認識できないことがある。ここ
での文献を以下に示す。
【0015】C.H.Chien and A.C.Kak, "A robot vision
system for recognition 3-D objects in low-order p
olynomial time," IEEE Trans. Syst.,Man, Cybern.,
vol.19, no.6, pp.1535-1563(1989).T.J.Fan, G.Medion
i, and R.Nevatia, "Recognizing 3-D objects using S
urface Descriptions," In Proceedings of IEEE 2nd I
nternational Conference on Computer Vision, pp.474
-481(1988).A.K.Jain and R.Hoffman, "Evidence-based
recognition of 3-D objects," IEEE Transactions on
Pattern Analysis and Machine Intelligence, Vol.1
0, No.6, pp.783-801(1988).Y.S.Abu-Mostafa and D.Ps
latis,"Optical neural computing," Scientific Ameri
can, 256, pp.66-73(1987).CADベーストビジョン 物体認識のためのモデルとして、CADモデル(ビジョ
ン以外の目的のために作られたものが多い)を使うこと
が興味を集めている。物体中心座標で表現されるCAD
モデルは、物体を定義する自然な方法を提供するし、認
識に必要な情報の源にもなる。しかし、CADモデルは
ビジョンに適さない方法で構築されていることが多い。
Bhanu は、CADベーストビジョンについて一般的な議
論を行っている。Bolles and Horaud's の3DPOシス
テムも、レンジデータから物体の3−D部品を認識し、
位置同定するためにCADモデルを使っている。彼らの
モデルは2つの部分からなる:拡張されたCADモデル
と特徴分類ネットワークである。CADモデルは、エッ
ジ、表面、頂点、それらの関係を記述する。特徴分類ネ
ットワークは、観測可能な特徴をタイプとサイズによっ
て記述する。それによって、認識プロセスにおいて、画
像の特徴とモデルの特徴とを結び付けることが可能にな
る。Flynn and Jainは、商用CADシステムから生成さ
れた3−D物体の記述を使ったモデルスキーマを提案し
た。物体のリレーショナルグラフ表現を獲得するため幾
何学的な推論が使われる。そのリレーショナルグラフ表
現は、CADの記述から導かれる視点独立の情報と、そ
の物体の見えから抽出される視点依存の情報を両方含
む。そして、そのグラフは物体認識のためのデータベー
スに貯えられる。この研究の中心的なアイデアは、リレ
ーショナルグラフとしての物体モデルを作るために、物
体中心の表面記述と観測者中心の情報とを結合させよう
としていることである。CADベーストビジョンの最近
の研究としては、Ikeuchi, Kuno ら、Hansen and Hende
rsonの研究がある。ここでの文献を以下に示す。
【0016】B.Bhanu,"CAD-based robot vision," IEEE
Comput, Vol.20, No.8, pp.13-16(1987).B.Bhanu and
C.Ho,"CAD-based 3D object representation for robot
vision,"IEEE Comput., Vol.20, No.8, pp.19-35(198
7).R.C.Bolles and P.Horaud,"3DPO:A three dimension
al part orientation system," Int. J.Robotics Res.,
Vol.5, No.3(1986).P.J.Flynn and A.K.Jain,"CAD-bas
ed computer vision: From CAD models torelational g
raphs," IEEE Transactions on Pattern Analysis and
Machine Intelligence, Vol.13, No.2, pp.114-132(199
1).K.Ikeuchi,"Generating an interpretation tree fr
om a CAD model for 3-Dobjects," Int. J. Computer V
ision, Vol.1, No.2(1987).Y.Kuno, Y.Okamoto, and S.
Okada, "Object recognition using a feature search
strategy generated from a 3D model," in Proc. ICCV
90 Osaka, pp.626-635(1990).C.Hansen and T.Henders
on,"CAGD-based computer vision," IEEE Transactions
on Pattern Analysis and Machine Intelligence, Vo
l.11, No.11, pp.1181-1193(1989).
【0017】
【発明が解決しようとする課題】以上に述べたような従
来技術について、まずモデルの表現に関してまとめる
と、モデルベーストビジョンを用いた方法は単純な多面
体をベースにするものが多く、研究の対象としては多面
体を扱うことは便利であるが、実際に多くの物体を認識
対象として表現するには不十分であるという問題点があ
った。またモデルの表現法として、物体を粒子の集まり
とみなす体積プリミティブを使う方法や、一般化円筒表
現を使う方法、楕円体や球面などを表す超二次式を用い
る方法などもあった。このような方法は次の文献に述べ
られている。
【0018】P.J.Besl. "Geometric Modeling and Comp
uter Vision," Proc. IEEE, vol.76, No.8, pp.936-958
(1988).これらの方法では、対称性に着目して、少数の
パラメータで物体の形状を表現できると言う長所がある
が、単純な規則性を見つけることができない多くの自然
物体をモデリングするのには向いていないと言う問題点
があった。
【0019】次にモデルの獲得については、従来のモデ
ルベーストビジョンにおいては、モデル化が比較的容易
に行える多面体や、モデルとしてCADデータを流用す
ることができる工業用部品などを認識の対象としてい
た。しかしながら、ロボットが実際の自然環境において
行動するためには、多面体以外の物体や、CADデータ
を持たない一般の物体を認識する必要があり、従来にお
いては一般的な物体のモデルを獲得するための手法が存
在しないと言う問題点があった。
【0020】本発明は、一般的な外部環境に存在する物
体を対象として、センサによって得られる認識対象の観
測データを使用して対象の状態、すなわち種類、位置、
姿勢などを推定することができる適応的認識システムを
提供することを目的とする。。
【0021】
【課題を解決するための手段】図1は本発明の原理構成
ブロック図である。同図はシステムの外部の環境中に存
在する認識対象の観測データ、例えばセンサデータか
ら、対象の認識を行う適応的認識システムの原理構成ブ
ロック図である。
【0022】状態推定値出力手段1は、認識対象の観測
データ、例えばセンサデータから対象の状態の推定値を
出力するものであり、例えば推定モジュールである。部
分特徴観測結果予測手段2は、状態推定値出力手段1が
出力する状態推定値の入力に対して、認識対象の部分的
な特徴、例えばエッジなどの観測データ予測値、例えば
画素データ予測値などを出力するものであり、例えば複
数のテンプレートモジュールによって構成される。
【0023】部分特徴予測位置出力手段3は、状態推定
値出力手段1が出力する状態推定値の入力に対して、認
識対象の観測結果、例えば画像データにおける1つ以上
の部分的特徴の予測位置を出力するものであり、例えば
位置モジュールである。
【0024】本発明の実施例においては、例えば階層型
ニューラルネットワークによって構成されるテンプレー
トモジュールなどの学習を高速化し、出来るだけ自動化
された学習を行うために、画像上において対象物の特徴
が見えるか見えないかを判定する可視・不可視判定手段
が更に備えられる。
【0025】
【作用】本発明においては状態推定値出力手段1、例え
ば推定モジュールから認識対象物体とセンサ、例えばカ
メラとの間の相対位置・姿勢の推定値が出力され、その
推定値は部分特徴観測結果予測手段2、例えばテンプレ
ートモジュールと、部分特徴予測位置出力手段3、例え
ば位置モジュールとに与えられる。
【0026】そして部分特徴観測結果予測手段2、例え
ば各部分特徴に対応する各テンプレートモジュールの出
力に基づいて決定される各部分特徴の画像上の位置と、
部分特徴予測位置出力手段3、例えば位置モジュールが
出力する部分特徴の画像上における予測位置との相違が
少なくなるように例えば状態推定値出力手段1、すなわ
ち推定モジュールの出力を修正していく作業を続けるこ
とによって対象の認識が行われる。
【0027】すなわち本発明の適応的認識システムの学
習過程では、物体とセンサとの間の相対位置・姿勢から
部分特徴がどのように見えるかと言う部分特徴の見え方
への写像が、部分特徴観測結果予測手段2、すなわちテ
ンプレートモジュールと、前述の可視・不可視判定手
段、例えば可視・不可視判定モジュールによって学習さ
れ、また物体とセンサとの相対位置・姿勢から部分特徴
の観測データ上での位置への写像が、部分特徴予測位置
出力手段3、例えば位置モジュールによって学習される
ことにより、物体の自動的モデル化が行われる。
【0028】続いて認識過程では状態推定値出力手段
1、例えば推定モジュールによって観測データから物体
の種類および物体とセンサとの相対位置・姿勢が推定さ
れるボトムアップ処理が行われ、その推定値に基づいて
位置モジュールと可視・不可視判定モジュールが、部分
特徴の観測データ上での位置と部分特徴の見え方の程度
を予測するトップダウン処理が行われる。そして、この
トップダウン処理における予測結果と観測データとの差
が計算され、その差を減らすように物体とセンサとの相
対位置・姿勢の推定値の修正が行われる。このようにボ
トムアップ処理とトップダウン処理とが交互に繰り返し
行われる反復アルゴリズムを用いることにより、対象物
体の認識が行われる。
【0029】以上のように、本発明によればシステムの
学習過程において物体の自動的モデル化が行われ、認識
過程において物体とセンサとの相対位置・姿勢の推定を
行うことが可能となる。
【0030】
【実施例】本発明の実施例として、認識対象物をカメラ
で撮影し、対象物とカメラとの相対位置・姿勢の推定を
行う視覚情報処理システムを説明する。
【0031】図2は本発明の適応的認識システムの実施
例の全体構成ブロック図である。同図において、画像1
0は認識対象物体をカメラによって撮影したものであ
り、この画像データはまず推定モジュール11に与えら
れる。推定モジュール11は、後述するように画像10
の処理によって得られた物体の特徴、例えばエッジの位
置や方向に対応して、物体の種類および物体とカメラと
の相対位置・姿勢のデータが格納されたテーブルであっ
て、そのテーブルの内容は物体の認識に先立って格納さ
れ、物体の認識に際しては特徴、すなわちエッジの位置
や方向に対応して、物体とカメラとの相対位置・姿勢1
2を、テンプレートモジュール130 〜13N 、位置モ
ジュール14、および可視・不可視判定モジュール15
に出力する。
【0032】テンプレートモジュール130 〜13
N は、それぞれ例えば階層型ニューラルネットワークに
よって構成される。このテンプレートモジュールは認識
対象物体に対応してその部分特徴、例えばエッジの個数
だけ設けられ、物体とカメラとの相対位置・姿勢12の
入力に対して、それぞれ対応するエッジを含む部分画像
の各ピクセルの濃淡値を出力するものである。
【0033】位置モジュール14は、物体とカメラとの
相対位置・姿勢12の入力に基づいて、テンプレートモ
ジュール130 〜13N にそれぞれ対応する複数の部分
特徴の画像上における予測位置を出力するものであり、
例えば数式モデルとして構成される。ここで位置モジュ
ール14の出力は、画像10内に示されるように、ある
部分特徴を含む画像領域の左上の点の座標、例えば(x
0 ,y0 )である。
【0034】可視・不可視判定モジュール15は、物体
とカメラとの相対位置・姿勢12の入力に基づいて、テ
ンプレートモジュール130 〜13N にそれぞれ対応す
る部分特徴が画像上でどの程度よく見えるかを出力する
ものであり、例えば階層型ニューラルネットワークによ
って構成される。このネットワークの出力ユニットの個
数はテンプレートモジュールの個数と一致し、それぞれ
対応する部分特徴がよく見える時に1、見えない時に0
を出力することになる。
【0035】本実施例においては、物体の認識時には、
カメラによって得られた画像10から推定モジュール1
1によって物体とカメラとの相対位置・姿勢12の初期
推定値が得られ、この初期推定値はテンプレートモジュ
ール130 〜13N 、および位置モジュール14に与え
られる。そしてテンプレートモジュール130 〜13 N
の出力と、画像とのパターンマッチングにより実際の画
像上の部分特徴の位置の抽出が行われ、対応する部分特
徴に対する位置モジュール14の出力としての画像上の
推定位置と、実際の画像上の部分特徴の位置との比較が
行われ、両者の位置の差が少なくなるように推定モジュ
ール11による物体とカメラとの相対位置・姿勢の推定
の更新が行われると言う反復アルゴリズムが適用され、
観測データとの矛盾が少なくなるように認識対象物体の
状態(種類、位置、姿勢)を推定することになる。
【0036】なお本実施例においては推定モジュール1
1、テンプレートモジュール130〜13N 、位置モジ
ュール14、および可視・不可視判定モジュール15は
認識対象物体毎に用意される。認識対象物体としては例
えばネジ等の機械部品、人の顔、自動車などがある。そ
れぞれ画像などのセンサ信号を基にして先ずネジの種
類、だれの顔か、および自動車の車種を識別することが
問題となる。このように本実施例は、認識すべき物体が
あらかじめ特定されており、対象物体がどの種類のもの
かを識別し、その位置・姿勢を推定する問題に適するも
のである。
【0037】図2の各モジュールの動作について説明す
る。まず推定モジュール11は、前述のように対象物体
をカメラによって撮影した画像を処理した結果としての
部分特徴、例えばエッジの位置や方向に対応して、対象
物体の種類、物体とカメラとの相対位置・姿勢のデータ
を収集したテーブルであり、そのデータの収集は例えば
テンプレートモジュールの学習に際して同時に行われ、
収集されたデータは認識に備えて整理される。このモジ
ュールで用いられる手法は、一般化Hough 変換とGeomet
ric Hashing とを用いたものであり、面積や重心位置な
どの形状特徴量や、輪郭エッジを特徴として用いて物体
を認識すると同時に、物体とカメラとの相対位置・姿勢
を求める手法であり、その内容は次の文献に述べられて
いる。
【0038】D.H Ballard, "Generalizing the Hough t
ransform to detect arbitrary shapes," Pattern Reco
gnition, vol.13, no.2, pp.111-122(1981).Y.Lamdan a
nd H.J.Wolfson, "Geometric hashing : a general and
efficientmodel-based recognition scheme," in Pro
c. ICCV 88 Tampa, FL, pp.238-249(1988).推定モジュ
ールの構築はデータ収集、およびデータの整理と言う2
つのフェイズにおいて実行される。構築された推定モジ
ュール11を用いる物体認識については、システムの全
体の認識アルゴリズムと関連させて後述する。
【0039】まずデータ収集フェイズでは、対象物体と
カメラとの相対位置・姿勢の条件が設定され、その条件
で撮影された画像から、その物体のエッジの画像上での
位置、および方向が求められる。次に対象物体は同一と
して、物体とカメラとの相対位置・姿勢を変えてこの過
程が繰り返され、更に対象物体を変化させてこれを繰り
返すことにより、例えば対象物体(カテゴリ)A,B,
・・・、および物体とカメラとの相対位置・姿勢(ポー
ズ)P,P′,・・・に対応して、物体A,B,・・・
の各エッジの座標(xi ,yi )、エッジの画像上での
方向di (例えば画像上での原点とエッジとを結ぶ線分
が画像座標系のx軸となす角)とが求められ、図3に示
すようにカテゴリとポーズに対応させて、各物体に属す
るそれぞれ複数のエッジの画像上での位置、方向のデー
タが収集される。
【0040】次のデータ整理のフェイズでは、データ収
集において求められた画像内の部分特徴、すなわちある
エッジの画像上での位置、方向を表すデータ(xk ,y
k ,dk )に、そのエッジが属する可能性がある対象物
体すなわちカテゴリと、物体とカメラとの相対位置・姿
勢、すなわちポーズとが組み合わされたデータ、例えば
〔A,P〕のような組み合わせデータを全て対応させた
リストが作成される。
【0041】まずカテゴリAの物体をポーズPの相対位
置・姿勢の条件で撮影した画像中の物体のN個のエッジ
のデータのうちで、1つのデータ(xi ,yi ,di
が選択され、(xi ,yi )を原点、di の方向をx軸
の方向に定め、その座標系で他のN−1個の全てのエッ
ジ(xj ,yj ,dj )(j≠i)が表現される。この
ような処理をN個の全てのエッジについて行うことによ
り、カテゴリAとポーズPに対応してN(N−1)個の
(xk ,yk ,dk )が得られる。すなわちカテゴリ
A、ポーズPに対してN(N−1)個の対応関係として (xk ,yk ,dk )−〔A,P〕(k=1,2,…, N
(N−1)) が得られる。同様にして、全てのカテゴリとポーズとの
組み合わせに対して、各カテゴリの物体の部分特徴をN
個とする時、N(N−1)個の対応関係が得られる。
【0042】このように各カテゴリと各ポーズとの全て
の組み合わせについて、それぞれN(N−1)個の対応
関係が得られた後に、もしも例えば〔A,P〕に対応す
る(xk ,yk ,dk )と〔B,P′〕に対応する(x
l ,yl ,dl )が一致する、すなわち(xk ,yk
k )=(xl ,yl ,dl )が成立する場合には (xk ,yk ,dk )−(〔A,P〕−〔B,P′〕) のように(xk ,yk ,dk )に対応するカテゴリとポ
ーズとの組み合わせデータが追加される。このような処
理を全てのデータについて行うと最終的には (xk ,yk ,dk )−(〔A,P〕−〔B,P′〕−
〔C,P″〕−… のように、(xk ,yk ,dk )をキーとして、それに
対応するリスト〔A,P〕−〔B,P′〕−〔C,
P″〕−…が格納されたテーブルが構築される。
【0043】次に図2のその他のモジュールの学習につ
いて説明する。なお、これらのモジュールのうち、テン
プレートモジュール130 〜13N 、および可視・不可
視判定モジュール15はそれぞれ階層型ニューラルネッ
トワークによって構成されるために、ここではこれらの
モジュールの学習を中心として説明し、例えば数式モデ
ルによって構成される位置モジュール14の学習につい
ては後に詳述する。
【0044】学習によって物体のモデルを自動的に獲得
する場合、必要になる条件は、第1にどこの視点から観
測しても各部分特徴を確実に発見できるようにすること
である。第2の条件はなるべく人手を使わずに、自動的
に視点と各部分特徴の見え方との関係を獲得することで
あり、第3の条件はなるべく高速に学習を行うことであ
る。
【0045】第1の条件を達成するためには、多くの視
点から観測を行い、ユーザが各部分特徴について視点と
の間の対応関係を逐一教えてやればよいが、第2、第3
の条件に反することになってしまう。そこで本実施例で
は学習を準備学習フェイズと、自動学習フェイズに分け
ることと、学習結果の信頼性を評価するために可視・不
可視判定モジュール15を使用することによって、この
問題点を解決する。
【0046】すなわち準備学習フェイズにおいては、ユ
ーザが選んだ視点からユーザが選んだ特徴を学習させ、
一方自動学習フェイズでは準備学習フェイズにおける学
習結果を基にして、システムが自動的に視点と部分特徴
を選んで学習を行う。更に可視・不可視判定モジュール
15を使うことによって、無駄な学習パターンや、間違
った学習パターンを選んでしまうことなしに学習を進め
るようにする。なお階層型ニューラルネットワークの学
習アルゴリズムとしてはバックプロパゲーション法を用
い、画像から部分特徴を発見する方法としては相関テン
プレートマッチングを使うものとする。
【0047】図4は準備学習フェイズにおける処理フロ
ーチャート、図5は準備学習フェイズにおける物体座標
系の定義の説明図、図6は準備学習フェイズにおける学
習パターンの選び方の説明図である。これらの図を用い
て準備学習フェイズにおける処理を説明する。
【0048】図4において、まずステップS1において
学習対象物体が用意され、適当な位置にその物体が配置
される。続いてステップS2で可視・不可視判定モジュ
ール15の初期化が行われる。この初期化においては、
対象物体の部分特徴のそれぞれが見えるか見えないかの
判定値を出力する出力層ユニットの出力が、あらゆる入
力に対して 0.5、すなわち見えるか見えないかが確認さ
れていない状態を意味する値に設定される。
【0049】ステップS3において、ロボットハンドが
物体を把持した状態においてその時のカメラ座標系が物
体座標系と定義(その時のハンドの位置を原点、カメラ
座標系の各軸に平行な方向を座標軸として定義)され、
世界座標系における物体座標系の原点位置と姿勢が記憶
される。図5において物体はハンドに把持されていない
が、ハンドに物体を把持させた状態で物体座標系の定義
が行われる。この定義の方法は1つの例であり、何らか
の方法で物体に対して固定された座標系を定めることが
できればよい。ステップS3では、物体座標系の定義の
後に後述するハンドの移動回数iが0に設定され、ステ
ップS4の処理に移行する。
【0050】ここで世界座標系における物体座標系の位
置・姿勢を記憶するのは、後述するように物体座標系と
カメラ座標系との相対位置・姿勢を求める時に使用する
ためである。世界座標系におけるロボット固定座標系の
位置・姿勢は既知であり、またロボット固定座標系から
ハンド座標系への変換、ハンド座標系からカメラ座標系
への変換が既知であれば、世界座標系におけるカメラ座
標系の位置・姿勢を求めることができる。世界座標系に
おける物体座標系の位置・姿勢の記憶結果を用いること
により、世界座標系を媒介として物体座標系とカメラ座
標系との間の相対位置・姿勢を計算することができる。
【0051】準備学習フェイズのステップS4におい
て、ハンドの移動回数iがあらかじめ設定されている回
数Nに達したか否かが判定され、達していない時にはス
テップS5でハンドが移動され、iの値がインクリメン
トされる。そしてステップS6で学習に使用される部分
特徴が画像中でユーザによって探索され、ステップS7
で物体とカメラとの相対位置・姿勢、部分特徴に対応す
る部分的画像におけるピクセルの濃淡値、部分特徴の位
置、および部分特徴の可視・不可視のデータが記憶さ
れ、ステップS8でそのデータを使って各モジュールの
訓練が行われる。
【0052】図6はこの準備学習フェイズにおける学習
パターンの説明図である。ハンドを移動させ、その移動
位置からカメラによって物体を撮影した画像を得ること
により、ステップS7で説明したデータが記憶され、そ
の学習パターン0を用いてステップS8で各モジュール
の訓練が行われる。同様にしてステップS5でハンドを
移動させることにより学習パターン1,2,…,Nが得
られ、その学習パターンを用いて各モジュールの学習が
行われる。そしてステップS4で予め設定されたNにハ
ンドの移動回数が達した時点で学習を終了する。ここで
Nの設定法に関しては特に一般的な規則はないが、位置
・姿勢に要求される同定の精度に応じて、試行錯誤的に
Nの値が設定される。
【0053】図7は自動学習フェイズにおける処理のフ
ローチャートである。同図においてステップS10で部
分特徴の1つが選択され、ステップS11で可視・不可
視判定モジュールの出力が 0.2と 0.8の間に入るような
位置・姿勢領域の体積が、予め設定された値Sより大き
いか否かが判定される。ここでモジュールの出力が 0.2
と 0.8の間に入るということは、モジュールの出力が
0.5に近く、選択された部分特徴が見えるか見えないか
がはっきりしないことを意味する。また、位置・姿勢領
域の体積については、例えば位置・姿勢が3次元空間に
おいて求められる場合には、位置・姿勢は6個の変数を
用いて表され、それぞれの変数に対応して選択された部
分特徴が見えるか見えないかはっきりしない領域はn=
6次元空間における体積として表されることを意味す
る。そして、この体積が予め与えられた値より大きい、
すなわち選択された部分特徴が見えるか見えないかはっ
きりしない領域が広い場合には、ステップS12の処理
に移行する。
【0054】ステップS12においては、例えば可視・
不可視判定モジュール15に対する入力値をランダムに
変化させて、モジュールの出力が 0.8となるような相対
位置・姿勢が求められる。このモジュールの出力が 0.8
となるということは選択された特徴がほぼ見えると判定
されることを意味し、そのような値を持つ物体とカメラ
との相対位置・姿勢が求められる。そしてステップS1
3でその位置・姿勢にカメラが移動されて、またその位
置・姿勢の値が各モジュールに入力される。
【0055】ステップS14においては、テンプレート
モジュールの出力を用いて画像上の部分特徴の探索が行
われる。ここで可視・不可視判定モジュール15の出力
が 0.8に達しているということはテンプレートモジュー
ルの出力の信頼性が高いことを意味し、その出力は認識
対象物体の部分特徴とほぼ一致しているものと考えられ
る。従ってその出力に対して画像中で最もよく一致する
部分データ、すなわちパターンを探索することにより、
その部分特徴を見つけることができるこの場合、選択さ
れた特徴に対応するテンプレートモジュールの出力のみ
を用いるだけでよく、他のテンプレートモジュールの出
力は無関係である。
【0056】テンプレートモジュールの出力との相関マ
ッチングの結果、相関の最大値が 0.9以下であるか否か
がステップS15で判定される。相関の最大値が 0.9よ
り小さくないと判定されると、その位置・姿勢はすでに
準備学習フェイズにおいて学習されたものとして、その
位置・姿勢に対する処理は終了し、ステップS12以降
の処理が繰り返される。
【0057】ステップS15で相関の最大値が 0.9以下
と判定されるとステップS16で相関の最大値が 0.7以
上か否かが判定される。以上の場合には相関の最大値が
0.7と 0.9の間にあることになる。この位置・姿勢に対
応する学習を行うべきものと判定されるために、ステッ
プS17で物体とカメラとの相対位置・姿勢、部分特徴
に対応する各ピクセルの濃淡値、部分特徴の位置、部分
特徴が可視であることを示す‘1’のデータが記憶さ
れ、ステップS18で各モジュールの訓練が行われ、ス
テップS11の処理に戻る。
【0058】ステップS16で相関の最大値が 0.7以上
でないと判定されると、ステップS20で相関の最大値
が 0.5以下であるか否かが判定される。そして 0.5以下
である場合には、その部分特徴は可視と判定されている
にもかかわらず、対応する部分特徴と一致しないことに
なるので、この位置・姿勢に対応する学習パターンは間
違った学習パターンであることになる。そこでステップ
S21で可視・不可視判定モジュールだけを、対応する
出力ユニットの出力値が‘0’、すなわち不可視である
ことを示すように訓練が行われ、ステップS12の処理
に戻る。またステップS20で相関の最大値が 0.5以下
でないと判定されると、その部分特徴は可視と判定され
ているにもかかわらず、相関の最大値が 0.5と 0.7の間
にあることになり、信頼性のある学習パターンが得られ
ないと判定されて、ステップS12の処理に戻る。
【0059】ステップS11で、可視・不可視判定モジ
ュールの出力が 0.2と 0.8の間に入るような位置・姿勢
領域の体積がSより小さくなったと判定されると、ステ
ップS22で可視・不可視判定モジュールの出力が 0.7
より小さいような位置・姿勢に対して、可視・不可視判
定モジュールの出力が‘0’となるようにモジュールの
訓練が行われ、次の部分特徴を対象としてステップS1
1以降の処理が行われる。
【0060】可視・不可視判定モジュールは、前述のよ
うに無駄な学習パターンや間違った学習パターンを選ん
でしまうことを防止して、学習を能率的に進めるために
用いられる。学習時間を減らすためには無駄な学習パタ
ーンを使わないことが望ましい。物体の各部分特徴の見
え方は、視点を変えることによって大きく変化する場合
と、あまり変化しない場合とがある。この区別を有効に
利用することにより、なるべく数の少ない有効な視点に
おける学習パターンだけを獲得することができる。しか
しながら、視点を変えることによって部分特徴の見え方
が大きく変化する場合には、今までに学習した結果を用
いるだけでは対応する部分特徴を発見することができ
ず、画像の内部の別の部分とマッチさせた間違った学習
パターンを獲得してしまうおそれがある。可視・不可視
判定モジュールはこのトレードオフを解決するものであ
り、その動作を図8〜図10を用いて更に詳細に説明す
る。
【0061】図8は可視・不可視判定モジュールの学習
手順のフローチャートである。同図において、ステップ
S25で可視・不可視判定モジュールの初期化が行われ
る。この時点では、全ての視点に対してそれぞれの部分
特徴が見えるか見えないかはまだ確認されていない。そ
こで未確認であることを示すために、前述のようにあら
ゆる入力に対してモジュールの出力ユニットが 0.5を出
力するように初期化が行われる。
【0062】続いてステップS26において、前述の準
備学習フェイズにおける学習、すなわち準備学習が行わ
れる。このステップでは、ユーザによって指定された位
置・姿勢において各特徴点が可視であるか不可視てある
かを観測し、その結果に応じてモジュールの学習が行わ
れる。この学習が行われた後には、可視・不可視判定モ
ジュールの出力が‘1’となるような視点に対しては、
テンプレートモジュールの出力と画像データとの相関に
よって部分特徴を確実に発見することができるようにな
る。またモジュールの出力が‘1’に近く、例えば 0.8
となるような視点に対しても、信頼性はやや低くなる
が、部分特徴をほぼ確実に発見することができる。
【0063】ステップS27においては、前述の自動学
習フェイズにおける学習、すなわち自動学習が行われ
る。すなわち可視・不可視判定モジュールの出力は 0.8
程度とやや低いが、ほぼ確実に部分特徴を発見できるよ
うな視点に対応して学習が行われ、これを繰り返すこと
により準備学習のステップS26において獲得された視
点を中心として、信頼性の高い視点おける学習が次々と
行われていく。すなわち間違った学習パターンを獲得す
ることなく、可視・不可視判定モジュールの出力が 0.5
に近い値となるような未確認領域を徐々に減らしていく
ことができる。これによって適当な視点が指定された場
合に、部分特徴が可視であるか不可視であるかがはっき
りしないことが少なくなり、もし可視である場合にはそ
の特徴を確実に発見できるようになる。
【0064】図9は可視・不可視判定モジュールの出力
の変化の説明図である。同図(a) は初期化後の出力を示
し、物体とカメラとの相対位置・姿勢、ここでは1つの
変数の値がいくつであっても、モジュールの出力がほぼ
0.5となるように初期化が行われている。
【0065】(b) は準備学習後の出力を示す。〇印は準
備学習フェイズにおける学習点を示し、可視である場合
には出力は1となっており、不可視である場合には0と
なっている。出力が 0.2から 0.8の間では、部分特徴が
可視であるか不可視であるかははっきりと判定されず、
そのような出力値に対応する相対位置・姿勢の値は未確
認領域として残されている。
【0066】図9(c) は自動学習中の出力を示す。 0.8
以上の出力値を持つ場合を自動的に学習することによ
り、可視または不可視が不明の未確認領域に対応する相
対位置・姿勢の範囲が狭められていく過程が示されてい
る。
【0067】図9(d) は自動学習後の出力を示す。部分
特徴が可視であるか不可視であるかがはっきりしない未
確認領域に対応する相対位置・姿勢の範囲は、図(b) の
準備学習後に比べてかなり狭くなっている。
【0068】図10は準備学習と自動学習において使わ
れる画像の説明図である。同図(a)は準備学習フェイズ
で使われる画像の例であり、ユーザである人間が物体と
カメラとの相対位置・姿勢を指定して、人手によって部
分特徴を画像から抽出して学習が行われる。
【0069】これに対して(b) は自動学習に使われる画
像である。可視・不可視判定モジュールの出力が比較的
大きい点、または小さいままである点が追加学習点とし
て自動的に選ばれ、追加学習が行われる。
【0070】次に位置モジュールの動作について説明す
るが、その前に位置モジュールで用いられる座標系の変
換について、図11を用いて説明する。図11において
は座標変換の並進成分をベクトルpで、また回転成分を
回転行列Rで表している。例11 Ch はカメラ座標系
におけるハンド座標系の位置を、また Ch はカメラ座
標系におけるハンド座標系の姿勢を表している。
【0071】図12は学習時における位置モジュール
(数式モデル)の動作の説明図である。同図において1
4aは、この数式モデルにおいて、カメラ座標系におけ
る物体座標系の位置・姿勢を求める時に使われる式であ
る。
【0072】14bは物体座標で表された部分特徴iの
位置と、14aで求められたカメラ座標系における物体
座標系の姿勢とを用いて、姿勢変化(回転)を求めるた
めの式である。
【0073】14cは、14aで求められたカメラ座標
系における物体座標系の位置と、14bで求められた姿
勢変化とを用いて位置変化(並進)を求めるための式で
ある。
【0074】14dは、14cで求められた位置変化
と、カメラの焦点距離、およびアスペクト比(画面の縦
と横の長さの比)とを用いて、透視投影として画像座標
における部分特徴iの画像上での位置を求めるための式
である。
【0075】位置モジュールの学習時には、ハンド座標
系における物体座標系の位置・姿勢と、認識対象物体の
部分特徴iの画像上での位置(画像座標)が与えられ、
物体座標で表された部分特徴iの位置と、カメラ座標系
におけるハンド座標系の位置・姿勢と、カメラの焦点距
離、およびアスペクト比が同定される。すなわちここで
は同定されるべきパラメータの個数に応じた数の式を連
立させて解くことにより、これらのパラメータを求める
ことができるが、一般にパラメータを決めるのに最低限
必要な数よりも沢山のデータが得られるために、後述す
るようにこのパラメータ推定は最小二乗法を用いて行う
ことにする。
【0076】次に認識時の動作について説明する。図1
3は認識時における物体とカメラとの相対位置・姿勢の
推定方法の全体的な説明図である。前述のように、推定
モジュール11によって物体とカメラとの相対位置・姿
勢12が出力されるが、この値は当然推定値であって最
初から正しいものではない。いずれにせよ、この推定値
がテンプレートモジュール130 〜13N 、位置モジュ
ール14、および可視・不可視判定モジュール15に与
えられ、テンプレートモジュールが出力する各部分特徴
の位置が画像10の上で探索され、実際にマッチした位
置と位置モジュール14によって出力された対応する部
分特徴の予測位置とがともに画像座標で比較され、両者
の間の誤差(二乗誤差)が最小となるように、推定モジ
ュール11による物体とカメラとの相対位置・姿勢12
の出力以降の動作が繰り返される。
【0077】図14は対象物体の認識時の全体処理フロ
ーチャートである。同図において、まずステップS30
で推定モジュール11によって物体とカメラとの相対位
置・姿勢12の初期推定値が生成され、その初期推定値
はステップS31でテンプレートモジュール130 〜1
N 、位置モジュール14、および可視・不可視判定モ
ジュール15に与えられる。
【0078】そしてステップS32で最小二乗法を適用
するために必要な数の部分特徴が見つかったか否かが判
定され、まだ見つかっていない場合にはステップS33
で可視・不可視判定モジュールの出力が 0.8よりも大き
く、可視と判断できる部分特徴がまだ存在するか否かが
判定され、存在する場合には、ステップS34で対応す
るテンプレートモジュールの出力を使って、可視・不可
視判定モジュールの出力が 0.8よりも大きい部分特徴の
探索が行われ、その後ステップS32の処理に戻る。
【0079】ステップS32で最小二乗法を適用するた
めに必要な数の部分特徴が見つかったと判定されると、
ステップS35で最小二乗法を適用して残差(後述する
評価関数)の評価が行われ、ステップS36でその残差
があらかじめ定められている量εより小さいか否かが判
定され、小さい場合には推定モジュール11の出力が求
めるべき物体とカメラとの相対位置・姿勢の認識結果と
されて、処理を終了する。
【0080】最小二乗法の残差があらかじめ定められた
量εより小さくないとステップS36で判定された時、
またはステップS33で必要な数の部分特徴が発見され
ないうちに可視・不可視判定モジュールの出力が 0.8よ
りも大きい部分特徴がなくなったと判定されると、ステ
ップS30に戻り、推定モジュール11による物体とカ
メラとの相対位置・姿勢12の推定値の生成以降の処理
が繰り返される。
【0081】続いて認識時の各モジュールの動作を説明
する。図15は認識時における推定モジュール11の動
作の説明図である。同図は、認識対象物体の画像から抽
出された部分特徴としてのエッジの座標を用いて、図3
などで説明したデータ(リスト)が格納されたテーブル
を検索し、その結果に応じて物体とカメラとの相対位置
・姿勢の指定値を得るための推定モジュールの動作の説
明図である。
【0082】図15において、まずステップS40で画
像から抽出されたM個のエッジのうちから任意の1つが
選択される。そしてステップS41でそのエッジの位
置、および方向(xi ,yi ,di )のデータから、
(xi ,yi )を原点、di をx軸の方向として定めた
座標系を用いて、他のM−1個のエッジ(xj ,yj
j )が表現される。その結果M−1個の(xk
k ,dk )(k=0,…,M−2)が得られることに
なる。
【0083】続いてステップS42で、M−1個のエッ
ジ(xk ,yk ,dk )をそれぞれキーとして使い、あ
らかじめ作成されているテーブルの内容が検索される。
このテーブルの内容は、前述のようにエッジに対応した
物体の種類と物体とカメラとの相対位置・姿勢、すなわ
ちカテゴリとポーズとが組み合わされたデータのリスト
であり、キーに対応して得られたリストを用いてステッ
プS43で対応するメッシュへの投票が行われる。
【0084】すなわちステップS43では、まず得られ
たリストのそれぞれの組み合わせデータのカテゴリに対
応して、物体の種類空間が区切られたメッシュへの投票
が行われ、またポーズに対応して位置・姿勢空間への投
票が行われる。ここで位置・姿勢空間としては例えば3
次元物体の認識であれば、6個の変数に対応する空間が
メッシュで区切られることになるが、ここではそのうち
2個の変数に対応して2次元空間をメッシュに区切った
例が示されている。
【0085】このような処理をM−1個のそれぞれのエ
ッジをキーとして使って繰り返すことによって、最終的
に例えば図15の右下に示すような投票数が得られたも
のとすると、投票数最大、または投票数が十分大きい部
分の中心値を、物体の種類、および物体とカメラとの相
対位置・姿勢の推定値として図14のステップS30で
出力することになる。
【0086】なお図15において、例えば位置・姿勢空
間のメッシュの分割数はポーズの区分けと対応して、メ
ッシュとポーズの一致が判定されるが、一致判定の精度
は与えられたタスクにおける必要な精度によって決ま
る。例えば角度において一度の精度が必要であれば、そ
の精度が実現できるように一致判定の精度を決める必要
がある。具体的な決め方に関しては一般的な方法はな
く、例えば予備実験を行って試行錯誤的に決められる。
【0087】図16は認識時における位置モジュール1
4の動作の説明図である。同図において、位置モジュー
ルとして用いられる数式14a〜14dは図12におけ
ると同一である。
【0088】認識時に位置モジュール14に入力として
与えられるものは、まず第1に物体座標系における部分
特徴の位置である。この部分特徴の位置は学習時に同定
されて、その同定された値が与えられる。学習時に推定
された部分特徴の位置は、物体に張りついている物体座
標系における部分特徴の座標であり、その値は物体が変
形しない限り認識時にも使うことができる。すなわち部
分特徴の位置の同定は個々の物体のモデリングに関する
ものであり、学習時に同定されるのが妥当である。
【0089】第2の入力はカメラ座標系におけるハンド
座標系の位置・姿勢である。この値はカメラをロボット
ハンドに取り付けた後には一定であり、学習時に同定さ
れたものを用いることができる。第3の入力はカメラの
焦点距離とアスペクト比であり、これも学習時に同定さ
れている。
【0090】第4の入力はハンド座標系における物体座
標系の位置・姿勢の推定値であり、これは例えば推定モ
ジュール11の出力、すなわち物体とカメラとの相対位
置・姿勢を用いて、カメラ座標系からハンド座標系への
変換を行うことによって、位置モジュールに与えられ
る。
【0091】認識時の位置モジュール14の出力は認識
対象物体の部分特徴の画像上での予測位置(画像座標)
である。この出力、すなわち部分特徴の予測位置の周辺
で、テンプレートモジュールの出力を用いて画像上で部
分特徴の位置が探索される。一般的に画像上での部分特
徴の位置は予測位置と異なっており、両者の差をなくす
ように位置モジュール14への入力の1つとしてのハン
ド座標系における物体座標系の位置・姿勢が修正される
ことになる。このようにして出力側の誤差を用いて、入
力の1つである物体座標系の位置・姿勢が同定されると
言う動作が行われる。
【0092】なお順序は逆になったが、ここで位置モジ
ュールの学習について更に説明すると、位置モジュール
の学習は準備学習フェイズで集められたデータを用いて
行われる。従って学習の順序は第1に準備学習フェイ
ズ、第2に位置モジュールの学習、第3にテンプレート
モジュールの学習、第4に自動学習フェイズの順とな
る。テンプレートモジュールの学習では、準備学習フェ
イズで集められたデータを用いて学習が行われ、自動学
習フェイズでは更にデータを集めて学習が続けられるこ
とになる。
【0093】本発明の認識システムは、システムが持っ
ている物体モデルを使って対象物体を認識したり、その
位置・姿勢を同定するモデルベーストな認識システムで
ある。学習時に対象物体の部分特徴の物体座標を推定す
ることは対象物体のモデルを獲得することを意味し、そ
のモデル獲得を学習時に行うことは不自然ではない。
【0094】図17はニューラルネットワークを用いた
位置モジュールの学習動作の説明図である。同図におい
て、物体認識システム20は外界21に存在する認識対
象物体22のデータをセンサ23によって集め、センサ
データのサンプリング投影24によって物体の像25を
求める。位置モジュールに対しては、物体22の姿勢・
位置を変動させて物体の像における部分特徴の位置dを
観測し、物体の位置・姿勢Sを教師データとして入力層
ユニットに、また物体の像25における部分特徴の位置
dを出力層ユニットに与えて、バックプロパゲーション
による学習を行わせる。
【0095】図18はニューラルネットワークを用いた
位置モジュールの認識動作の説明図である。認識時に
は、まずで物体の位置・姿勢Sの初期値si が何らか
の方法によって仮定され、入力層ユニットに入力され
る。本実施例では、この初期値として推定モジュール1
1が出力する物体とカメラとの相対位置・姿勢を用いる
ことができる。そして、ニューラルネットワークから出
力された像における部分特徴の位置fが、でセンサ2
3によって実際に計測された像25内の部分特徴の位置
dと比較され、その差が求められる。そしてで、その
差に対応するエネルギー関数が最小となる物体の位置・
姿勢Sが認識過程26を経由して、物体の種類、位置2
7の認識結果として出力される。
【0096】このようにニューラルネットワークを用い
た位置モジュールの認識時には推定モジュール11は物
体とカメラとの相対位置・姿勢の初期値のみを出力し、
位置モジュールとしてのニューラルネットワークはその
後推定モジュール11の出力を用いることなく、以下に
説明するIterative Inversion 法を用いて、エネルギー
関数を最小とする物体の位置・姿勢を求める。Iterativ
e Inversion 法については次の文献がある。
【0097】D.Masumoto, T.Kimoto, and S.Nagata, "A
Sensory Information ProcessingSystem Using Neural
Networks-Three-Dimensional Object Recognition wit
h Sensorimotor Fusion," In Proceeding of 1993 IEEE
International Conferenceon Neural Networks, Vol.I
I, 655/660(1993).Iterative Inversion 法では、前述
のように、図18ので求められるニューラルネットワ
ークの出力fと実際の像における位置dとの差に対応す
るエネルギー関数
【0098】
【数1】
【0099】を、最急降下法によって最小にする。
【0100】
【数2】
【0101】Kは定数、エネルギー関数を最小とするs
が解となる。右辺第2項は、以下のように展開できる。
【0102】
【数3】
【0103】この式の第1項について考える。
【0104】
【数4】
【0105】右辺の偏微分は、物体の位置が変化した時
に、像がどの程度変化するかを表している。すなわち、
ニューラルネットワークの入力層の1つのユニットの値
の変化が、出力層の1つのユニットの出力値の変化にど
のくらい影響するかという感度を表す。これは、以下の
ように計算できる。
【0106】図18のように、入力層のユニットiの入
出力値をsi ,入力層ユニットiと中間層のユニットk
との間の結合の重みをwki,中間層のユニットkの入力
値をHk =Σi kii ,中間層のユニットkの出力値
をhk =σ(Hk ),(σはユニットの入出力関数) 中間層ユニットkと出力層のユニットjとの間の結合の
重みをvjk,出力層のユニットjの入力値をFj =Σk
jkk ,出力層のユニットjの出力値をfj =σ(F
k ),と定義する。このとき、
【0107】
【数5】
【0108】したがって、
【0109】
【数6】
【0110】となる。特にσとして、シグモイド関数
【0111】
【数7】
【0112】を採用すると、
【0113】
【数8】
【0114】となるので、
【0115】
【数9】
【0116】のように簡単に計算できる。次に位置モジ
ュールのさらに異なる実施例として、回転の空間におい
て距離測度が定義できるように単位四元数による回転の
表現を用いて図12と図16を書直して図19に示す。
単位四元数の計算規則と物理的意味などについて次の文
献がある。
【0117】B.K.P.Horn, "Closed-form Solution of A
bsolute orientation using unitquaternions," J.Opt,
Soc. Am. A/Vol.4, No.4, April 1987 ここで、後に利用するため、図19内のq(0,r)
外1 を計算しておく
【0118】
【外1】
【0119】ことにする。なお、qは対象物体の姿勢を
表現するものであり、qの要素から回転行列を計算する
ことができる。また、rは対象物体の位置を表現するも
のであり、適当な座標系における対象物体の基準点の位
置ベクトルと考えることができる。さらに 外2 はq
の共役数を示す。
【0120】
【外2】
【0121】
【数10】
【0122】とすると、
【0123】
【数11】
【0124】最後に図19の場合を含めて、位置モジュ
ールの学習と認識についてさらに詳細に説明する。前述
のように、位置モジュールにおいて同定すべきパラメー
タは位置モジュールの学習時には、 ・カメラの内部パラメータ(焦点距離、アスペクト比) ・物体座標系における物体の特徴の位置(物体モデル) ・ハンド座標系とカメラ座標系との相対値・姿勢(ハン
ドアイキャリブレーション)であり、認識時には、 ・学習時に決めた物体座標系と、現在のハンド座標系と
の相対位置・姿勢である。
【0125】これらのパラメータを同定するため、以下
のような評価関数を定義する。画像上の各部分特徴につ
いて、実際の位置と予測された位置との距離を二乗し、
その値をすべての部分特徴について足し合わせたものを
評価関数Eと定義する。
【0126】
【数12】
【0127】ここで、 外3 は、部分特徴iが実際に
観測された位置であり、 外4 は
【0128】
【外3】
【0129】
【外4】
【0130】、同定すべきパラメータの値を何らかの方
法で仮定した時に計算される部分特徴の予測位置であ
る。ここでは推定モジュール11の初期推定値に対応す
る位置モジュールの出力である。
【0131】最小二乗方法は、このように二乗誤差で定
義された評価関数を最小化することによって、パラメー
タの値を同定する手法である。なお、最小二乗法による
パラメータ推定に関しては、以下に示す文献がある。
【0132】F.Arman and J.K.Aggarwal,"Model-Based
Object Recognition in Dense-Range Images-A Revie
w," ACM Computing Surveys, Vol.25, No.1, pp.5-43(1
986).今野浩、山下浩、非線形計画法、日科技連(197
8).中川徹、小柳義夫、最小二乗法による実験データ解
析、東京大学出版会(1982).本発明では、上で定義した
評価関数を最小化するために最急降下法を使う。最急降
下法とは、評価関数の同定したい変数に対する勾配(1
回微分)を利用して、評価関数の極小値を探索するアル
ゴリズムである。極小値が複数存在する場合は、1回の
探索で最小値を得ることができるとは限らない。その場
合は、初期値を変えて複数回探索し、見つかった極小値
の中で最も小さい値を最小値と見なすという方法が良く
使われている。
【0133】最急降下法における1回の探索は、以下の
手順で行われる。 1.初期値の推定(t=0):変数x=(x0 ,x1
…,xn )の値を何らかの方法で推定する。ここで、そ
の値をx(0)とする。 2.終了条件
【0134】
【数13】
【0135】ここで、εは予め定められた小さい正数 この条件が満たされれば終了。E(x(t) )は極小値
(最小値の候補)であり、x(t) が変数の同定値であ
る。この条件が満たされていなければ、3に進む。 3.更新
【0136】
【数14】
【0137】ここで、λは探索の刻幅を決める適当な正
数 t=t+1として2に戻り、終了条件の判定を行う。最
急降下法で更新を行う際、Eの微分(勾配)∂E(x)
/∂xの計算が必要となる。ここで、
【0138】
【数15】
【0139】である。以下に、各パラメータについて
外5 と 外6 を計算する(簡単のため、
【0140】
【外5】
【0141】
【外6】
【0142】それぞれ∂ui/∂x,∂vi/∂xと記
す)。カメラの内部パラメータ(焦点距離、アスペクト
比)について計算すると、焦点距離fについては、
【0143】
【数16】
【0144】となり、アスペクト比aについては、
【0145】
【数17】
【0146】となる。物体座標系における物体の特徴の
位置(xj ,yj ,zj )について計算すると、
【0147】
【数18】
【0148】となり、i≠jの場合は、
【0149】
【数19】
【0150】となることがわかる。したがって、i=j
の場合を考えれば良い。これ以降添え字i,jを省略す
る。なお、(26),(27) 式については、本発明では物体座
標系において特徴jだけを微小に動かしても他の特徴は
動かないとの仮定に基づいている。このように仮定して
も多くの視点から特徴を観測することにより正しい解に
達することができ、計算を簡単化できる。
【0151】ここで、 c0 =(q0 ,qx ,qy ,q
z )として、式(12)を使うと、
【0152】
【数20】
【0153】となるから、これを元の式に代入してやる
ことによって、勾配が計算できる。∂ui/∂yj,∂vi
yj,∂ui/∂zj,∂vi/∂zjについても同様にして計
算できる。
【0154】ハンド座標系とカメラ座標系との相対位置
・姿勢 ch については次式が得られる。
【0155】
【数21】
【0156】これも、(12)式等を使うことによって計算
できる。学習時に決めた物体座標系と、現在のハンド座
標系との相対位置・姿勢 h0については次式となる。
【0157】
【数22】
【0158】これも、(12)式等を使うことによって計算
できる。
【0159】
【発明の効果】以上詳細に説明したように、本発明によ
れば単純な規則性が見つからないような多くの自然物体
をモデリングすることができ、より現実的な環境で使用
できる認識システムを構築することができる。そして、
このシステムを用いることにより、観測された物体が物
体モデルと同じものか否かを識別でき、同じ物体である
場合には物体とセンサとの相対位置・姿勢(例えば6自
由度)を推定することができる。
【0160】更に本発明の効果を説明すると、本発明の
特徴は以下の2点である。 ・3D物体モデルの表現法:観測者中心表現モデル(部
分特徴の見え方)と物体中心表現モデル(部分特徴の位
置)を合わせ持つ。 ・3D物体モデルの自動獲得:可視・不可視判定モジュ
ールを使って、認識に必要な学習パターンを効率良く自
動獲得することができる。
【0161】各特徴がどのような効果を持つかについて
説明する。モデルの表現については、部分テンプレート
結合モデルでは、物体の部分の幾何学的特性と、それら
の間の幾何学的な関係によって物体をモデル化する。 ・個々の部分テンプレートが、物体の部分のモデル(観
測者中心表現)となっており、 ・部分間の幾何学的関係が、物体モデル(物体中心表
現)となっている。
【0162】部分テンプレート結合モデルは、観測者中
心表現モデルと物体中心表現モデルを合わせ持っている
のである。物体の部分特徴のように視点の変化によって
像がどのように変わるか定式化しにくいものは、階層型
ニューラルネットワークを使って観測者中心表現でモデ
ル化している。ニューラルネットワークは、画像中のデ
ータとマッチできるように、モデルの特徴を画像におけ
る特徴に投影する関数を近似している。一方、部分特徴
の間の幾何学的関係のように視点が変化するとどのよう
な位置関係になるか定式化し易いものは、物体中心表現
でモデル化している。このように物体を表現することに
よって、種々の物体について容易にモデル化を行うこと
ができる。
【0163】さらに、ある観測点から部分特徴が見える
か見えないかを判定する可視・不可視判定モジュールと
組み合わせて使うことによって、認識を効率良く行うこ
とができる。
【0164】モデルの獲得については、一般に、観測者
中心表現モデルは視点をさまざまに変えて、その像を直
接モデルとして使うことができるためモデルの獲得が容
易である。しかし、部分テンプレート結合モデルの場合
は、異なる視点間の各特徴の対応問題を解決しなければ
ならない。可視・不可視判定モジュールを使うことによ
り、各特徴の対応関係を保ちながら、いろいろな視点か
ら見た場合の像を獲得して行く学習アルゴリズムを作成
した。このアルゴリズムにより、認識に必要な像を効率
良く獲得することができる。
【図面の簡単な説明】
【図1】本発明の原理構成ブロック図である。
【図2】本発明の適応的認識システムの実施例の全体構
成ブロック図である。
【図3】推定モジュールによって収集されるデータを説
明する図である。
【図4】準備学習フェイズにおける処理のフローチャー
トである。
【図5】準備学習フェイズにおける物体座標系の定義の
説明図である。
【図6】準備学習フェイズにおける学習パターンの選び
方の説明図である。
【図7】自動学習フェイズにおける処理のフローチャー
トである。
【図8】可視・不可視判定モジュールの学習手順のフロ
ーチャートである。
【図9】可視・不可視判定モジュールの出力の変化の説
明図である。
【図10】準備学習と自動学習において使われる画像の
説明図である。
【図11】位置モジュールで用いられる座標系の変換に
ついての説明図である。
【図12】学習時における位置モジュール(数式モデ
ル)の動作の説明図である。
【図13】認識時における物体とカメラとの相対位置・
姿勢の推定方法の全体的な説明図である。
【図14】対象物体の認識時の全体処理フローチャート
である。
【図15】認識時における推定モジュールの動作の説明
図である。
【図16】認識時における位置モジュールの動作の説明
図である。
【図17】ニューラルネットワークを用いた位置モジュ
ールの学習動作の説明図である。
【図18】ニューラルネットワークを用いた位置モジュ
ールの認識動作の説明図である。
【図19】四元数を用いた位置モジュールの動作の説明
図である。
【符号の説明】
1 状態推定値出力手段 2 部分特徴観測結果予測手段 3 部分特徴予測位置出力手段 10 画像 11 推定モジュール 12 物体とカメラとの相対位置・姿勢 130 〜13N テンプレートモジュール 14 位置モジュール 15 可視・不可視判定モジュール 20 物体認識システム 21 外界 22 物体 23 センサ 24 サンプリング投影 25 物体の像 26 認識 27 物体、位置
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06T 7/00 H04N 7/18 K

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 外部の環境中に存在する認識対象の観測
    データから該対象の認識を行う認識システムにおいて、 前記認識対象の観測データから該対象の状態の推定値を
    出力する状態推定値出力手段と、 該状態推定値の入力に対して、該認識対象の部分的な特
    徴の観測データの予測値を出力する部分特徴観測結果予
    測手段と、 該状態推定値の入力に対して、該認識対象の観測結果に
    おける1つ以上の部分的特徴の予測位置を出力する部分
    特徴予測位置出力手段とを備え、該部分特徴観測結果予
    測手段の出力に基づいて決定される各部分特徴の観測結
    果上の位置と、部分特徴予測位置出力手段の出力する予
    測位置との相違が少なくなるようにして、対象の認識を
    行うことを特徴とする適応的認識システム。
  2. 【請求項2】 前記状態推定値出力手段が出力する状態
    推定値の入力に対して、前記認識対象の1つ以上の部分
    特徴のそれぞれが、該認識対象の観測データにおいて可
    視であるか不可視であるかを判定する可視・不可視判定
    手段を更に備えたことを特徴とする請求項1記載の適応
    的認識システム。
  3. 【請求項3】 前記外部の環境中に存在する認識対象の
    観測データを前記状態推定値出力手段に与える外部環境
    観測用センサを更に備えたことを特徴とする請求項1記
    載の適応的認識システム。
  4. 【請求項4】 前記外部環境観測用センサが視覚センサ
    によって構成されることを特徴とする請求項3記載の適
    応的認識システム。
  5. 【請求項5】 前記外部環境観測用センサが複数の種類
    のセンサから構成されることを特徴とする請求項3記載
    の適応的認識システム。
  6. 【請求項6】 前記外部環境観測用センサの出力データ
    から、前記認識対象の1つ以上の部分特徴を含む部分デ
    ータを切り出し、前記状態推定値出力手段に与える手段
    をさらに備えたことを特徴とする請求項3記載の適応的
    認識システム。
  7. 【請求項7】 前記外部環境観測用センサの出力データ
    に対して前処理を施し、該前処理が施されたデータの全
    部、または一部を前記状態推定値出力手段に与える手段
    をさらに備えたことを特徴とする請求項3記載の適応的
    認識システム。
  8. 【請求項8】 前記外部環境観測用センサの出力データ
    から前記認識対象の1つ以上のエッジを抽出し、該抽出
    されたエッジに関するデータを前記状態推定値出力手段
    に与える手段をさらに備えたことを特徴とする請求項3
    記載の適応的認識システム。
  9. 【請求項9】 前記状態推定値出力手段が、前記認識対
    象の状態の推定に際して一般化Hough 変換を使用するこ
    とを特徴とする請求項1、または2記載の適応的認識シ
    ステム。
  10. 【請求項10】 前記状態推定値出力手段が、前記認識
    対象の状態の推定に際してGeometric Hashing 法を使用
    することを特徴とする請求項1、または2記載の適応的
    認識システム。
  11. 【請求項11】 前記状態推定値出力手段が、前記認識
    対象の状態の推定に際してHough 変換法とGeometric Ha
    shing 法とを組み合わせた手法を使用することを特徴と
    する請求項1、または2記載の適応的認識システム。
  12. 【請求項12】 前記部分特徴観測結果予測手段が、前
    記認識対象の1つ以上の部分特徴にそれぞれ対応する1
    つ以上の階層型ニューラルネットワークによって構成さ
    れることを特徴とする請求項1、または2記載の適応的
    認識システム。
  13. 【請求項13】 前記階層型ニューラルネットワークの
    学習過程が、前記認識対象の観測データとしてのセンサ
    データ上においてどの部分が前記部分特徴に対応するか
    をユーザが教える準備学習フェイズと、部分特徴に対応
    するセンサデータをシステムが自動的に学習する自動学
    習フェイズとによって構成されることを特徴とする請求
    項12記載の適応的認識システム。
  14. 【請求項14】 前記部分特徴予測位置出力手段が、前
    記状態推定値と1つ以上の部分特徴の予測位置との間の
    関係を記述する数式モデルによって構成されることを特
    徴とする請求項1、または2記載の適応的認識システ
    ム。
  15. 【請求項15】 前記部分特徴予測位置出力手段が階層
    型ニューラルネットワークによって構成されることを特
    徴とする請求項1、または2記載の適応的認識システ
    ム。
  16. 【請求項16】 前記部分特徴予測位置出力手段の出力
    と実際の部分特徴の位置との二乗誤差を評価関数として
    用い、該評価関数を最小化するように前記状態推定値出
    力手段の出力を修正して対象の認識を行うことを特徴と
    する請求項1、または2記載の適応的認識システム。
JP01821895A 1995-02-06 1995-02-06 適応的認識システム Expired - Fee Related JP3560670B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP01821895A JP3560670B2 (ja) 1995-02-06 1995-02-06 適応的認識システム
US08/597,138 US5845048A (en) 1995-02-06 1996-02-06 Applicable recognition system for estimating object conditions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01821895A JP3560670B2 (ja) 1995-02-06 1995-02-06 適応的認識システム

Publications (2)

Publication Number Publication Date
JPH08212329A true JPH08212329A (ja) 1996-08-20
JP3560670B2 JP3560670B2 (ja) 2004-09-02

Family

ID=11965514

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01821895A Expired - Fee Related JP3560670B2 (ja) 1995-02-06 1995-02-06 適応的認識システム

Country Status (2)

Country Link
US (1) US5845048A (ja)
JP (1) JP3560670B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10167053A (ja) * 1996-12-06 1998-06-23 Toshiba Corp 作業装置
JPH10170299A (ja) * 1996-12-10 1998-06-26 Ricoh Co Ltd 携帯型情報処理装置及び携帯型情報処理装置の場所識別方法
JPH11344322A (ja) * 1998-06-01 1999-12-14 Daihatsu Motor Co Ltd ワーク姿勢識別装置
JP2001101405A (ja) * 1999-09-30 2001-04-13 Matsushita Electric Ind Co Ltd 画像認識方法及び画像認識装置
JP2009083095A (ja) * 2007-09-29 2009-04-23 Ihi Corp ロボット装置の制御方法及びロボット装置
JP2012113353A (ja) * 2010-11-19 2012-06-14 Canon Inc 特定領域選択装置、特定領域選択方法及びプログラム
JP2012128744A (ja) * 2010-12-16 2012-07-05 Canon Inc 物体認識装置、物体認識方法、学習装置、学習方法、プログラム、および情報処理システム
JP2012196720A (ja) * 2011-03-18 2012-10-18 Denso Wave Inc ロボットの制御方法およびロボットの制御装置
JP2019516568A (ja) * 2016-05-20 2019-06-20 グーグル エルエルシー 物体を取り込む画像に基づき、環境内の将来のロボット運動に関するパラメータに基づいて、ロボットの環境内の物体の動きを予測することに関する機械学習の方法および装置
JP2019171540A (ja) * 2018-03-29 2019-10-10 ファナック株式会社 機械学習装置、機械学習装置を用いたロボット制御装置及びロボットビジョンシステム、並びに機械学習方法
JP2021091067A (ja) * 2019-12-12 2021-06-17 株式会社エクサウィザーズ 情報処理装置、方法およびプログラム
JP2021126767A (ja) * 2017-02-07 2021-09-02 ヴェオ ロボティクス, インコーポレイテッド 作業空間安全監視および機器制御
JP2022507721A (ja) * 2018-11-18 2022-01-18 インナテラ・ナノシステムズ・ビー.ブイ. スパイキングニューラルネットワーク
JP2022508434A (ja) * 2018-09-07 2022-01-19 トヨタ モーター ヨーロッパ 回転仮説を決定することによって画像を処理する方法及びシステム

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19832974A1 (de) * 1998-07-22 2000-01-27 Siemens Ag Vorrichtung und Verfahren zur Erstellung eines virtuellen Anlagenmodells
JP3377465B2 (ja) 1999-04-08 2003-02-17 ファナック株式会社 画像処理装置
JP3300682B2 (ja) * 1999-04-08 2002-07-08 ファナック株式会社 画像処理機能を持つロボット装置
US6968081B1 (en) * 1999-11-15 2005-11-22 Luminus Systems, Inc. System, method, and apparatus for orienting images
WO2005117541A2 (en) * 2004-05-06 2005-12-15 The Regents Of The University Of California Method and system for aligning and classifying images
JP2002259939A (ja) * 2001-03-05 2002-09-13 Kitakiyuushiyuu Techno Center:Kk 連想メモリーベースコンピュータ
US20020194148A1 (en) * 2001-04-30 2002-12-19 Billet Bradford E. Predictive method
DE10140393A1 (de) * 2001-08-23 2003-03-20 Univ Clausthal Tech Verfahren zur Bereitstellung positionssensitiver Informationen zu einem Objekt
WO2003088085A1 (en) * 2002-04-04 2003-10-23 Arizona Board Of Regents Three-dimensional digital library system
JP3768174B2 (ja) * 2002-07-24 2006-04-19 ファナック株式会社 ワーク取出し装置
US7152051B1 (en) * 2002-09-30 2006-12-19 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US7135992B2 (en) * 2002-12-17 2006-11-14 Evolution Robotics, Inc. Systems and methods for using multiple hypotheses in a visual simultaneous localization and mapping system
JP4170296B2 (ja) * 2003-03-19 2008-10-22 富士通株式会社 事例分類装置および方法
DE10356399B4 (de) * 2003-12-03 2006-06-14 Ontoprise Gmbh Datenverarbeitungssystem
US20050197981A1 (en) * 2004-01-20 2005-09-08 Bingham Clifton W. Method for identifying unanticipated changes in multi-dimensional data sets
JP4041837B2 (ja) * 2004-07-13 2008-02-06 松下電器産業株式会社 物品保持システム、ロボット及びロボット制御方法
US7880899B2 (en) * 2005-01-26 2011-02-01 Konica Minolta Sensing, Inc. Three-dimensional measurement system, inspection method, three-dimensional measurement method and program
US8373763B2 (en) * 2008-05-22 2013-02-12 GM Global Technology Operations LLC Self calibration of extrinsic camera parameters for a vehicle camera
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9354804B2 (en) 2010-12-29 2016-05-31 Microsoft Technology Licensing, Llc Touch event anticipation in a computing device
EP2831621B1 (en) 2012-03-26 2016-07-13 Robert Bosch GmbH Multi-surface model-based tracking
US9399291B2 (en) * 2012-12-07 2016-07-26 GM Global Technology Operations LLC Planning a grasp, for use by a robotic grasper to pick up a complex object, based on object, grasper, and grasper approach data
JP6192088B2 (ja) * 2013-02-20 2017-09-06 国立大学法人九州工業大学 物体検出方法および物体検出装置
GB201309156D0 (en) * 2013-05-21 2013-07-03 Univ Birmingham Grasp modelling
US9558452B2 (en) * 2013-11-08 2017-01-31 Microsoft Technology Licensing, Llc Hierarchical statistical model for behavior prediction and classification
US9842274B2 (en) * 2014-03-28 2017-12-12 Xerox Corporation Extending data-driven detection to the prediction of object part locations
JP2015202544A (ja) * 2014-04-15 2015-11-16 株式会社安川電機 ロボット制御システム、情報通信モジュール、ロボットコントローラ、コンピュータプログラム及びロボット制御方法
JP6003942B2 (ja) * 2014-04-24 2016-10-05 トヨタ自動車株式会社 動作制限装置及び動作制限方法
US10504029B2 (en) 2015-06-30 2019-12-10 Microsoft Technology Licensing, Llc Personalized predictive models
JP6623597B2 (ja) * 2015-07-27 2019-12-25 富士ゼロックス株式会社 情報処理装置及びプログラム
JP6333871B2 (ja) * 2016-02-25 2018-05-30 ファナック株式会社 入力画像から検出した対象物を表示する画像処理装置
US9717607B1 (en) 2016-10-28 2017-08-01 International Business Machines Corporation Augmented control of robotic prosthesis by a cognitive system
JP6972757B2 (ja) 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
JP6972756B2 (ja) * 2017-08-10 2021-11-24 富士通株式会社 制御プログラム、制御方法、及び情報処理装置
US11361463B2 (en) * 2017-09-28 2022-06-14 Optim Corporation Position estimation system and method, and non-transitory storage medium
KR20190078292A (ko) 2017-12-26 2019-07-04 삼성전자주식회사 뉴럴 네트워크 연산을 수행하는 장치 및 이의 동작 방법
US10967507B2 (en) * 2018-05-02 2021-04-06 X Development Llc Positioning a robot sensor for object classification
US12042942B2 (en) * 2019-07-19 2024-07-23 Siemens Ltd., China Robot hand-eye calibration method and apparatus, computing device, medium and product
CN111062940B (zh) * 2019-12-31 2022-05-20 西南交通大学 一种基于机器视觉的螺钉定位与识别方法
KR102605070B1 (ko) * 2020-07-06 2023-11-24 한국전자통신연구원 인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0205628B1 (en) * 1985-06-19 1990-06-13 International Business Machines Corporation Method for identifying three-dimensional objects using two-dimensional images
JP2885823B2 (ja) * 1989-04-11 1999-04-26 株式会社豊田中央研究所 視覚認識装置
US5499306A (en) * 1993-03-08 1996-03-12 Nippondenso Co., Ltd. Position-and-attitude recognition method and apparatus by use of image pickup means
US5465353A (en) * 1994-04-01 1995-11-07 Ricoh Company, Ltd. Image matching and retrieval by multi-access redundant hashing

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10167053A (ja) * 1996-12-06 1998-06-23 Toshiba Corp 作業装置
JPH10170299A (ja) * 1996-12-10 1998-06-26 Ricoh Co Ltd 携帯型情報処理装置及び携帯型情報処理装置の場所識別方法
JPH11344322A (ja) * 1998-06-01 1999-12-14 Daihatsu Motor Co Ltd ワーク姿勢識別装置
JP2001101405A (ja) * 1999-09-30 2001-04-13 Matsushita Electric Ind Co Ltd 画像認識方法及び画像認識装置
JP2009083095A (ja) * 2007-09-29 2009-04-23 Ihi Corp ロボット装置の制御方法及びロボット装置
JP2012113353A (ja) * 2010-11-19 2012-06-14 Canon Inc 特定領域選択装置、特定領域選択方法及びプログラム
JP2012128744A (ja) * 2010-12-16 2012-07-05 Canon Inc 物体認識装置、物体認識方法、学習装置、学習方法、プログラム、および情報処理システム
JP2012196720A (ja) * 2011-03-18 2012-10-18 Denso Wave Inc ロボットの制御方法およびロボットの制御装置
JP2019516568A (ja) * 2016-05-20 2019-06-20 グーグル エルエルシー 物体を取り込む画像に基づき、環境内の将来のロボット運動に関するパラメータに基づいて、ロボットの環境内の物体の動きを予測することに関する機械学習の方法および装置
JP2020128003A (ja) * 2016-05-20 2020-08-27 グーグル エルエルシー 物体を取り込む画像に基づき、環境内の将来のロボット運動に関するパラメータに基づいて、ロボットの環境内の物体の動きを予測することに関する機械学習の方法および装置
US11173599B2 (en) 2016-05-20 2021-11-16 Google Llc Machine learning methods and apparatus related to predicting motion(s) of object(s) in a robot's environment based on image(s) capturing the object(s) and based on parameter(s) for future robot movement in the environment
JP2021126767A (ja) * 2017-02-07 2021-09-02 ヴェオ ロボティクス, インコーポレイテッド 作業空間安全監視および機器制御
JP2019171540A (ja) * 2018-03-29 2019-10-10 ファナック株式会社 機械学習装置、機械学習装置を用いたロボット制御装置及びロボットビジョンシステム、並びに機械学習方法
US11253999B2 (en) 2018-03-29 2022-02-22 Fanuc Corporation Machine learning device, robot control device and robot vision system using machine learning device, and machine learning method
JP2022508434A (ja) * 2018-09-07 2022-01-19 トヨタ モーター ヨーロッパ 回転仮説を決定することによって画像を処理する方法及びシステム
US12056942B2 (en) 2018-09-07 2024-08-06 Toyota Motor Europe Method and system for processing an image by determining rotation hypotheses
JP2022507721A (ja) * 2018-11-18 2022-01-18 インナテラ・ナノシステムズ・ビー.ブイ. スパイキングニューラルネットワーク
JP2021091067A (ja) * 2019-12-12 2021-06-17 株式会社エクサウィザーズ 情報処理装置、方法およびプログラム
WO2021117479A1 (ja) * 2019-12-12 2021-06-17 株式会社エクサウィザーズ 情報処理装置、方法およびプログラム

Also Published As

Publication number Publication date
JP3560670B2 (ja) 2004-09-02
US5845048A (en) 1998-12-01

Similar Documents

Publication Publication Date Title
JP3560670B2 (ja) 適応的認識システム
CN113362382B (zh) 三维重建方法和三维重建装置
CN109255813B (zh) 一种面向人机协作的手持物体位姿实时检测方法
CN109840940B (zh) 动态三维重建方法、装置、设备、介质和系统
Hasan et al. RETRACTED ARTICLE: Static hand gesture recognition using neural networks
Faugeras et al. The representation, recognition, and locating of 3-D objects
Elforaici et al. Posture recognition using an RGB-D camera: exploring 3D body modeling and deep learning approaches
CN113012122B (zh) 一种类别级6d位姿与尺寸估计方法及装置
CN111274916A (zh) 人脸识别方法和人脸识别装置
CN113034652A (zh) 虚拟形象驱动方法、装置、设备及存储介质
CN111368759B (zh) 基于单目视觉的移动机器人语义地图构建系统
GB2584400A (en) Processing captured images
CN111062328B (zh) 一种图像处理方法、装置及智能机器人
CN111062340A (zh) 一种基于虚拟姿态样本合成的异常步态行为识别方法
CN113569598A (zh) 图像处理方法和图像处理装置
CN112287857A (zh) 一种多视角异常步态识别方法
CN111444488A (zh) 一种基于动态手势的身份认证方法
CN110751097A (zh) 一种半监督的三维点云手势关键点检测方法
CN115222896B (zh) 三维重建方法、装置、电子设备及计算机可读存储介质
Kim et al. DSQNet: a deformable model-based supervised learning algorithm for grasping unknown occluded objects
CN110348359B (zh) 手部姿态追踪的方法、装置及系统
Zhang 2D Computer Vision
CN114494594A (zh) 基于深度学习的航天员操作设备状态识别方法
CN112070005B (zh) 一种三维基元数据的提取方法及装置、存储介质
Arowolo et al. Development of a human posture recognition system for surveillance application

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040525

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040526

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090604

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100604

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110604

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120604

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120604

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130604

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees