JP4185433B2

JP4185433B2 - リアルタイムの物体検出及び認識システム並びにコンピュータで実行可能なプログラム

Info

Publication number: JP4185433B2
Application number: JP2003359387A
Authority: JP
Inventors: アレシュ・ウデ; クリストファー・アトキソン; ゴードン・チェン
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2003-10-20
Filing date: 2003-10-20
Publication date: 2008-11-26
Anticipated expiration: 2023-10-20
Also published as: JP2005122617A

Description

この発明はヒューマノイドシステムに関し、特に、その中心視カメラ及び辺縁視カメラによって与えられる情報を統合することのできるヒューマノイドシステムに関する。

ロボット視覚システムは、それが（１）人の目と同様の眼球運動システムを有し、かつ（２）２つのわずかに異なる視線方向で同時に得られる、解像度の異なる画像を同時に獲得し処理することが可能である場合、ヒューマノイドであるといえる。生物学的視覚システムの中心視構造を模倣するために提案されたアプローチには、一つの目について２個のカメラ、すなわち狭角の中心視カメラ及び辺縁視用の広角カメラを用いるもの［１０］、［１］、［２］、［６］、解像度が空間により変化する、すなわち中心窩では非常に高い鮮明度の区域があり辺縁では解像度が粗いレンズを用いるもの［９］、及び空間により変化する対数極座標センサを用いるもの［８］等がある。ズームレンズを備えたシステムは中心視の利点の幾つかを備えているが、広角の画像と高解像度の画像とを同時に捕らえることはできない。

実際的な観点からの主な考え方は、ヒューマノイドは、興味を引く事象や物体を検出し追尾するのに辺縁視を用いるであろう、というものである。検出事象は断続的な目の運動を引き起こす筈である。この断続的運動の後、ロボットは問題となる区域の追跡を始め、それにより、物体を目の高解像度の中心窩領域で見ることができるように保つ。もし中心視での追尾が失敗した場合には辺縁視の支援を受ける。そして、高解像度の中心視により、検出した事象及び物体に関するより詳細な情報がヒューマノイドに与えられる筈であり、これによってロボットは次の行動に移ることができる。

ヒューマノイド視覚システムで獲得された、興味を引く物体を検出し追尾するために多くの研究がなされてきた。このようなシステムで獲得された情報のリアルタイム処理を実現するために、色、ディスパリティ、オプティカルフロー及び２−Ｄ形状等の手がかりが用いられてきた。研究者は通例、視覚的注意、前庭動眼反射、断続的運動、スムーズな追跡及び人の動きの模倣等の挙動を研究してきた［９］、［１１］、［１０］、［２］、［４］、［１３］。

［１］Ｃ．Ｇ．アトキソン、Ｊ．ヘール、Ｆ．ポリック、Ｍ.レイリー、Ｓ．コトサカ、Ｓ．シャール、Ｔ．シバタ、Ｇ．テバティア、Ａ．ウデ、Ｓ．ヴィジャヤクマル、Ｍ．カワト、「ヒューマノイドロボットを用いた人間の挙動の研究」、ＩＥＥＥインテリジェントシステムズ、１５（４）：４６−５６、２０００年７月／８月。

［２］Ｃ．ブレアジール、Ａ．エドジンガー、Ｐ．フィツパトリック、Ｂ．スカセラッティ、「動視覚の社会的制約」、ＩＥＥＥトランザクション、システムズ、マンアンドサイバネティクス、３１（５）、２００１年７月／８月。

［３］Ｈ.Ｈ.ビュルトフ、Ｃ．ウォルレイブン、Ａ．グラフ、「人の知覚に基づく視覚ベースの物体認識」、国際パターン認識学会予稿集。第ＩＩＩ巻、第７６８−７７６頁、カナダ、ケベック州、２００２年８月。

［４］Ｇ.チェン、Ａ．ナガクボ、Ｙ．クニヨシ、「連続的ヒューマノイド対話：一つに統合された遠近感獲得適応性、冗長性及び柔軟性」、ロボティクス及び自律システム、３７：１６１−１８３、２００１年。

［５］Ｃ．ガスケット、Ｇ．チェン、「ヒューマノイドロボットのための閉ループから開ループへの視覚サーボ制御」、２００３（未発行）。

［６］Ｈ．コジマ、Ｈ．ヤノ、「世話をする人間とのコミュニケーションを学習するロボット」、後成的ロボティクスに関する国際ワークショップ予稿集、ルンド、スウェーデン、２００１年。

［７］Ｄ．マール、Ｈ．Ｋ．ニシハラ、「３次元形状の空間構成の表現と認識」、Ｒ．Ｓｏｃ．ロンドン、予稿集、Ｂ、２００：２６９−２９４、１９７８年。

［８］Ｇ．メッタ、Ｆ．パネレイ、Ｒ．マンゾッティ、Ｇ．サンディーニ、「ベビーボット；人工的な発展するロボットエージェント」、適応的挙動のシミュレーションに関する第６回国際会議（ＳＡＢ２０００）、パリ、フランス、２０００年９月。

［９］Ｓ．ロジュー、Ｙ．クニヨシ、「ヒューマノイド視覚システムによる頑健な追尾」、ヒューマノイド及び友好的なロボティクスに関するＩＡＰＲ第１回国際ワークショップ予稿集、つくば、日本、１９９８年。

［１０］Ｂ．スカセラッティ、「中心視活性視覚システムのための、顔検出による眼の発見」、第１５回人工知能全国会議予稿集（ＡＡＡＩ‘９８）、第９６９−９７６頁、マディソン、ウィスコンシン、１９９８年。

［１１］Ｔ．シバタ、Ｓ．ヴィジャヤクマル、Ｊ．コンラッド、Ｓ．シャール、「生体を模倣した眼球運動制御」、適応的挙動、９（３／４）：１８９−２０８、２００１年。

［１２］Ｍ．トゥルク、Ａ．ペントランド、「認識のための固有顔」認識的神経科学ジャーナル、３（１）：７１−８６、１９９１年。

［１３］Ａ．ウデ、Ｃ．Ｇ．アトキソン、「ヒューマノイドロボットとの対話のためのリアルタイム視覚システム」、インテリジェントロボット及びシステムに関するＩＥＥＥ／ＲＳＪ国際会議予稿集、第７４６−７５１頁、マウイ、ハワイ、２００１年１０月／１１月。

［１４］Ａ．ウデ、Ｃ．Ｇ．アトキソン、「アフィンワーピングを用いた高フレームレートでの確率論的検出及び追尾」、パターン認識国際会議予稿集、第ＩＩ巻、第６−９頁、ケベック市、カナダ、２００２年８月。

［１５］Ａ．イルマッツ。Ｍ．ゲクメン、「固有丘に対する固有顔及び固有エッジ」、パターン認識、３４（１）、２００１年。

しかし、これら全てのシステムでは、辺縁視が支配的な、又は排他的な役割を果たしている。対数極カメラ又は空間により変化するレンズで実現されるアルゴリズムはいずれも中心視による情報の処理を暗に示しているのであるが、このようなシステムを開発した研究者は、本質的には辺縁視のみを用いて解決可能な問題のみに専念しているように思われる。注目すべき例外はブレアジールらの著作［２］であり、ここでは始めに辺縁視で人の顔を特定し、中心視を用いてその目を検出している。これは非常に特殊な課題であり、著者らは計算を簡単にするために、基礎となる、人の動作に関する暗黙の知識に大きく依存した。

もし、システムをヒューマノイドシステムに使用するとすれば、このシステムはリアルタイムモードで動作し、かつ観察される物体の後ろにある背景の変化及び照明条件の変化の影響を受けないものでなければならない。

従って、この発明の目的は、辺縁視からの情報を中心視からの情報と統合可能な、ヒューマノイドシステムにおいて用いるのに好適なシステムを提供することである。

この発明の別の目的は、辺縁視からの情報を中心視からのものと統合可能で、中心視界内の物体を認識可能なシステムを提供することである。

この発明のさらに別の目的は、リアルタイムで、辺縁視からの情報を中心視からのものと統合可能で、中心視界内の物体を認識可能なシステムを提供することである。

この発明の別の目的は、リアルタイムで、辺縁視からの情報を中心視からのものと統合可能で、観察される物体の後ろにある背景の変化及び照明条件の変化に関わりなく高い精度で、中心視野内の物体を認識可能なシステムを提供することである。

この発明の第１の局面に従ったリアルタイムの物体検出及び認識システムは、第１及び第２の一連の画像をキャプチャするための、ほぼ整列した光学軸を備えた第１のカメラ対を含む。第１の一連の画像は第１の解像度を有し第２の一連の画像は第１の解像度より高い第２の解像度を有する。システムはさらに、第１の一連の画像を受取るように接続され、第１の一連の画像中の物体を検出し、検出された物体が第１の一連の画像中の第１の予め定められた位置に保たれるよう第１のカメラ対を移動させるための追尾手段と、第２の一連の画像を受取るように接続され、第２の一連の画像中の第２の予め定められた位置にある物体を認識するための第１の認識手段とを含む。

好ましくは、システムはさらに、第３及び第４の一連の画像をキャプチャするための、ほぼ整列した光学軸を備えた第２のカメラ対を含む。第３の一連の画像は第１の解像度を有し第４の一連の画像は第２の解像度を有する。追尾手段は、第１及び第３の一連の画像を受取るように接続され第１及び第３の一連の画像中の物体を検出して、検出された物体が第１又は第３のいずれかの一連の画像中のそれぞれ第１の予め定められた位置に保たれるよう前記第１及び第２のカメラ対を移動させるための手段を含む。

第２の予め定められた位置は第２の一連の画像の中心であってもよい。

システムはさらに、第４の一連の画像を受取るように接続され、第４の一連の画像の中心の物体を認識するための第２の認識手段と、第１の認識手段によって認識された物体と第２の認識手段によって認識された物体とが同一の物体であるか否かを判断するための手段とを含んでもよい。

好ましくは、第１のカメラ対のカメラは、それぞれの光学軸が予め定められたずれ量で互いにオフセットされるように配置され、第１の一連の画像の第１の予め定められた位置は、予め定められたずれ量に従って選択されたオフセット量だけ第１の一連の画像の中心からずれるように予め選択される。

より好ましくは、第１の認識手段が、第２の一連の画像中の物体を検出するための検出手段と、第２の一連の画像をフィルタリングするためのフィルタ手段と、検出手段によって検出された物体の形状を予め定められた形に近似するための近似手段と、物体の形状を近似する予め定められた形を、固定された大きさで、両軸が予め規定された座標系のｘ軸及びｙ軸に整列された、予め定められた楕円へと変形させるための変形手段と、変形手段によって変形された画像中の物体を認識するための手段とを含む。

認識は、主成分分析（ＰＣＡ）によって行なうことができる。

フィルタ手段は、以下で規定されるラプラシアンガウシアン（ＬｏＧ）フィルタを含んでもよい。

第１の認識手段が、第２の一連の画像を受取るように接続され、第２の一連の画像の連続した画像の各々における第２の予め定められた位置にある物体を認識するための認識手段を含んでもよい。

この発明の第２の局面は、コンピュータ上で実行されると、コンピュータに上述のいずれかの機能の全てを行なわせる、コンピュータで実行可能なプログラムに関する。

Ｉ．はじめに
ここでは、認識という、中心視が非常に適した課題に、中心視を本格的に使用するシステムを説明する。関心のある物体はまず辺縁視カメラ［１３］で獲得された情報を用いて本発明のリアルタイム視覚システムで検出され追尾される。検出事象がトリガとなって、ロボットはその視線を候補領域に向けることとなり、こうしてロボットは物体を視覚的に追跡し始める。検出された物体が静止しているとは仮定せず、認識の際には、物体の動きを考慮している。中心視による視界においては場所と形状がより正確に判断できるため、中心視カメラで獲得された画像に主成分分析（ＰＣＡ）を適用して物体を認識した。適用ドメインとして、ヒューマノイドと対話する人がロボットに物体を示し、ロボットがその示された物体の正体に応じて反応する、という状況を考えた。

実験のため、出願人の作製したヒューマノイドロボットＤＢを用いた。ＤＢは３０の自由度（ＤＯＦ：ＤｅｇｒｅｅｏｆＦｒｅｅｄｏｍ）をもつ液圧式ヒト型ロボットである。図１はこの実施例に従ったヒューマノイドシステム（ＤＢ）２０の全体構成を示し、図２はＤＢ２０の頭部を示す。

図１及び図２を参照して、ＤＢ２０は左目３０Ｌと右目３０Ｒとを含む。目３０Ｌと３０Ｒの各々は２個のカラーカメラを有する。辺縁視のための広角カメラ（水平１００度）３４Ｌ及び３４Ｒと、中心視のための狭角カメラ（水平２４度）３２Ｌ及び３２Ｒとである。中心視カメラ３２Ｌ及び３２Ｒは辺縁視カメラ３４Ｌ及び３４Ｒの上方にそれぞれ位置づけられ、それらの光学軸は図２に示すようにほぼ整列している。

ＤＢ２０はさらにカメラ３４Ｌ及び３４Ｒによって獲得された辺縁視界を処理するための辺縁視界プロセッサ４０と、カメラ３２Ｌ及び３２Ｒによって獲得された中心視界を処理するための中心視界プロセッサ４２とを含む。プロセッサ４０及び４２は最新のデュアルプロセッサＰＣ（パーソナルコンピュータ）の２個で実現される。

ＤＢ２０はさらに、関節（図示せず）を制御する一組のアクチュエータ６０−７８を含む。アクチュエータ６０及び６２は左目の２つのＤＯＦ（パン及びチルト）用であり、アクチュエータ６４及び６６は右目用である。３個のアクチュエータ６８、７０及び７２は首の３つのＤＯＦ用であり、アクチュエータ７４、７６及び７８はトルソ用である。こうしてＤＢ２０は合わせて１０のＤＯＦを有し、両辺縁画像中の物体の位置を予め定められた点にできるだけ近く保つ。なお、ＤＢ２０はその姿勢を制御するための他のＤＯＦも有
する。

ＤＢ２０はさらに、プロセッサ４０及び４２の出力５２及び５４をそれぞれ受けるように接続され、両辺縁画像中の物体を固定された点に移動させそこに留めるよう、予め定められたアルゴリズムに従ってアクチュエータを制御するアクチュエータコントローラ４４と、中心視界プロセッサ４２の出力５０に接続され、中心視界内の物体を認識して、ＤＢ２０が物体を認識したことを示すとともに予め定められた行動をトリガする信号５６を出力するための物体認識装置４６とを含む。物体認識装置４６はまた、アクチュエータコントローラ４４に制御信号５８を出力する。

アクチュエータコントローラ４４は、物体を追尾する際、信号５８、中心視界プロセッサ４２の出力５４及び辺縁視界プロセッサ４０の出力５２にこの優先順位で応答してアクチュエータ６０−７８を制御する。

ＩＩ．確率論に基づくサーチと追尾
本発明の物体検出追尾器は確率論的に実現される。観測された環境を幾つかのランダムプロセス（ブロッブ）で表す。ｕに位置し、色強度Ｉ_uを有する画素が、Θ_k、ただしｋ＝１,…,Ｋ、のプロセスで生成される確率をＰ（Ｉ_u，ｕ｜Θ_k）で表すこととする。さらに、アウトライアープロセスΘ₀を追加導入するが、これは他のプロセスでキャプチャされないデータをモデル化するものである。

全ての画素が相互に排他的なプロセスΘ_ｋ、ｋ＝０，…，Ｋの一つに由来すると仮定して、色強度Ｉ_ｕが場所ｕで観察される確率を、以下の合計確率法則を用いて書くことができる。

ここでω_kはプロセスΘ_k、ただし

Θ＝｛Θ₀，Θ₁，…，Θ_K｝のプロセスを観測する事前確率である。これらの仮定のもと、画素ｕがｌ番目のプロセスに由来する事後確率は、ベイズの規則により以下で与えられる。

隣接する画素をプロセスに割当る相関を無視すると、全体の確率は以下のように近似される。

各時間ステップで、尤度（３）が最大となるように(Θ₁，…，Θ_K，ω₀，ω₁，…，ω_K)を決定したい。多くの場合、基準（３）を直接最大にするよりも、その対数に負号を付したもの（対数尤度）を最小にする方が容易である。

対数尤度を最小化できるように、まず、プロセス分布Θ_kをどのようにモデル化するかを決定しなければならない。ここでは、ある画素がこれらのプロセスのうち１つにより生成される確率を評価するのに、形状と色の特性とを用いる。これらの特性が互いに独立であると仮定すると、次のようになる。

実際上、多くの場合、追尾される物体の２次元形状はほぼ楕円形で、物体画像ｘ_lの中心とそれに含まれる画素の共分散行列Σ_lとで近似可能である。従って、画素ｕがｌ番目のブロッブに属する確率の形状の部分は、以下のガウス分布で特徴付けられる。

物体の色の確率は、ガウス混合モデルでモデル化できるものと仮定する。

ここで

かつ

アウトライアープロセスは画像の各画素で固定された均一分布でモデル化される。

ブロッブと背景の色はこの実施例の追尾器においては一定に保たれる。これらはオフラインで学習される。従って、各追尾ステップで、形状パラメータ

及び混合確率

に対し（３）を最大化する必要がある。優れた反復的アプローチがＥＭアルゴリズムによって与えられる。ＥＭアルゴリズムは、まず現在の｛Θ_k｝と｛ω_ｋ｝との推定値（推定ステップ）を用いて事後確率Ｐ_u,l（式（２）、（４）、（５）、（７）で与えられる。）を計算し、その後パラメータ｛（ｘ_ｋ,Σ_ｋ）｝及び｛ω_ｋ｝を、Ｐ_u,lがあたかもそれらとは独立した定数であるかのように推定する（最大化ステップ）ことによってなされる。最大化ステップは、Ｐ_u,lを重みとして用いた画像画素の重み平均及び共分散の計算と、｛ω_ｋ｝の再推定とからなる。この処理は収束するまで繰返される。

我々は、動いているカメラでキャプチャされた動的なシーンに興味があるので、検出アルゴリズムもまた、リアルタイムで実現する必要がある。この発明のシステムの元となる知識は色及び形状の確率分布によって与えられる。画像中の楕円物体をサーチするのは時間がかかるので、追尾器を初期化するための元となる知識としては色のみを用いた。

色に基づき、ある画素がｌ番目のブロッブに属する確率が（６）で与えられる。初期のブロッブパラメータに関する情報がないので、それらの形状と画像中の場所とをランダムに選択した。形状パラメータを、制御された方法で変化させ、こうして生成されたブロッブの２次元のサイズが所与の制限の中に留まるようにした。その後色の確率（６）が各画素で推定され、ウィンドウ内の全ての確率の和があるしきい値を超えると、追尾器がスタートする。しきい値は本発明では自動的に選択され、さまざまな照明特性を考慮するため、物体ごとに異なる。これらアルゴリズムの詳細は［１４］にある。

ＩＩＩ．追跡
辺縁画像内で興味を引く物体が検出されると、ＤＢの目がその追跡を始める。この段階でのロボットの課題は、両辺縁画像内の物体の位置を、予め定められた点にできるだけ近付け、そこに保つことである。この目標は、全ての制御された関節（目の各々で２個、首で３個、トルソで３個）において、一組の簡略化されたマッピングを用いて達成される。提案されたマッピングは開ループ制御システムには簡略すぎるが、閉ループの場合は非常にうまくいく。このアプローチの詳細は別の論文［５］にある。

中心視カメラ３２Ｌ及び３２Ｒはそれぞれ辺縁視カメラ３４Ｌ及び３４Ｒに一体的に固定され光学軸をほぼ整列させてそれらの上方に配置されているので、この方法により、中心視画像においても物体が中心点に近づく。２個のカメラ（中心視カメラ及び辺縁視カメラ）の垂直方向の位置ずれを考慮し、さらに物体を中心視画像の中心点により近付けるため、辺縁視画像の中心からわずかな垂直方向のオフセットを導入した。辺縁視カメラ３４Ｌ及び３４Ｒは、物体が真の中心点ではなく、ずらされた中心点の近くに保たれるようにその向きが制御される。

オフラインのトレーニング段階で、固定されたオフセットを決定した。理論的にはオフセットは物体の深度に依存するが、本発明の方法は興味のある物体を中心視画像の中心近くに保ち、中心視画像を認識に適したものとするには十分であることが分った。ＤＢ２０は物体を注視しようとするが、検出器は入来する中心視画像内を活発にサーチするので、物体が中心視に入ってくると即座に追尾を開始することができる。

実験では、辺縁画像よりも中心視画像でのほうが物体の場所と形状をはるかに正確に推定可能であることが分ったが、これは物体の認識には重要なことである。例えば、中心視（左目について図３（Ｌ）、右目について図３（Ｒ））で推定した物体の場所と形状は、辺縁視（左目について図４（Ｌ）、右目について図４（Ｒ））で推定したものよりもはるかに正確である。しかしながら、辺縁画像からの情報をループ内で用いることが重要である、なぜなら、物体の動きが速くてＤＢの目では追いきれない場合、物体は中心視画像からすぐに消えてしまうからである。

ＩＶ．認識
ヒューマノイドロボットにとって、物体の認識は重要な課題である。物体認識の以前のアプローチでは、マール及びニシムラ［７］の３次元再構築パラダイムを中心に実現されるのが支配的であったが、最近になって開発された認識システムは視点依存モデルを利用するものが多い。研究のほとんどは単一の画像からの物体認識に専念したものであるが、［３］を例として、時間の経過に伴う情報の重要性を指摘した幾つかの結果も発表されている。

最も一般的な視野ベースの方法は主成分分析（ＰＣＡ）であり、これはまた、線形サブ空間法又は固有空間法とも呼ばれる。その最も基本的な形として、この方法は関心のある領域を、幾つかのテスト画像から決定される低次元のサブ空間に投影する。その後、既知のサンプルベクトルから、この投影されたベクトルまでの距離を計算し、これらの結果に基づいて物体を分類する。この方法は最初に顔の認識用に提案されたが［１２］、その後数多くの他の応用が見出されている。

Ａ．ＰＣＡの概観
主成分分析の基本的考え方は、全画像空間における物体画像の分布を最もよく説明する一組のベクトルを見出すことである。十分な詳細まで物体の画像を表すのに必要とされるベクトルの数は、通常、それらによって表される物体画像の次元よりはるかに小さい。

所与の一組のトレーニング画像｛I₁，…，Ｉ_m｝がある場合（このセクションでは画像はｎ個のエントリの列ベクトルであると考える。）、固有空間の分解は共分散行列ＡＡ^Ｔの固有ベクトルで与えられ、ここでＡ＝［I₁−Ｉ,…，Ｉ_m−Ｉ］であり、ただし

は平均の物体画像である。ｍ＜ｎであるので、ＡＡ^Ｔの最初のｍ個の固有ベクトルのみがゼロではない。Ａ＝ＵΣＶ^Tの特異値の分解を計算することによってＡＡ^Ｔの固有ベクトルを計算すればより安定である。Ａの非ゼロの特異値に随伴するＵの列は、非ゼロの固有値に随伴するＡＡ^Ｔの固有ベクトルである。

Ａの非ゼロの特異値及び関連の固有ベクトルを計算する方法に、効率的で数値的に安定なものがあり、この実施例ではこのアプローチを用いる。

固有空間法のより広範な使用を妨げるおもな要因は、固定されたサイズと向きの物体の画像を獲得する必要があることである。固有空間法はまた、観察される物体の背景の変化、照明条件の変化及びオクルージョンの影響を受けやすい。これらの問題に対する本発明の解決策を以下で説明する。

Ｂ．アフィンワーピング
向きと大きさの変化に対し不変とするために、本発明の認識システムはブロッブ追尾システムの結果を利用する。このシステムは、各画像中の物体の位置のみでなく形状と向きも判断する。これは物体をサーチし追尾するＥＭアルゴリズムによるものである。すなわち、ＥＭアルゴリズムでは、追尾された物体の位置、向き及び形状に関し対数尤度を最小にするためである。これによって、物体形状を近似する楕円を、固定されたサイズで両軸が新たな画像ウィンドウの座標軸に整列された楕円に変換するためのマッピングの計算が可能となる。結果として得られる同次座標でのマッピングは以下のアフィン変換で与えられる。

ここでｕ_i＝［ｕ_i，ｖ_i］^Tであり、θ_iは時間ｔ_iにおける、追尾されているブロッブの推定された位置と向きであり、ａ_i及びｂ_iはその長軸及び短軸の長さの半分であり、ｗ_x×ｗ_yは検出した楕円をマッピングするウィンドウの、固定されたサイズである。図５はこの処理を示す。図５（Ａ）は元の画像を示し、図５（Ｂ）は変形された画像を示す。

主成分分析に必要なベクトルを構築するため、新たな楕円に含まれる画素をパーズする。生成されたベクトルは固定された次元を有する。なぜなら、楕円のサイズが固定されているからである。ウィンドウ内の他の全ての画素は、物体に属していない確率が高いので無視されるべきである。このようにして、物体には属していないが主成分分析に入ってくる背景画素のパーセンテージを確実に下げ、背景の変化に対するこの方法への影響を小さくする。

図６はこの処理を示す。図６（Ａ）の犬のぬいぐるみの画像は固定サイズのウィンドウに変形され、楕円１００の外にある黒の部分１０２中の画素は無視される。

Ｃ．照明の変化に対する頑健性
基本となる形では、固有空間法が照明条件の変化に影響されやすいことはよく知られている。画像をエッジオペレータでフィルタリングすればＰＣＡをより頑健にできることが提案されている。これはエッジマップが照明の変化による影響を受けにくいからである。固有空間分解は、元の画像ではなくエッジマップにも適用できる。しかし、エッジは局在化されており、ブロッブパラメータの計算におけるわずかな誤差によって認識処理が破綻する恐れがある。

この問題を軽減する方策の一つは、エッジを膜関数で拡散させることである。これはエッジデータに対し一次の正規化フィルタで畳込みを行なうのと等価である［１５］。相関に基づくステレオマッチング等の、同様の問題ですでに有効性を示している方法を用いるのがより自然であろう。相関に基づくステレオマッチングでは、画像は最初にＬｏＧ（ラプラシアンガウシアン）フィルタでフィルタリングされることが多い。

［１５］と異なり、エッジオペレータより前に平滑化オペレータが来る。パラメータσによりフィルタのチューニングができる。ステレオマッチングでは、局在化を良好に行なうために小さいσが好まれることが多いが、認識においてはエッジの拡散を増大するために大きなσを用いるほうが良い。これによって、このアプローチに対する位置／向きの推定におけるわずかな誤差の影響が小さくなる。

元の画像と比較して変形された画像のサイズが小さいので、元の画像でなく変形された画像にＬｏＧフィルタを適用したいところである。このアプローチで問題となるのは、変形された画像では画素間の空間的関係が変化していることである。このため、画素位置に基づくＬｏＧフィルタの効果に変動が起こり、フィルタの空間特性を損なうおそれがある。従って、ここではまずＬｏＧフィルタを適用し、その後アフィンワーピングを行なう。

Ｄ．ソフトウェアでの実現例
図７は辺縁視界プロセッサ４０上で実行されてこの実施例の物体検出及び追尾を実現するメインプログラムの全体の制御構造を例示する。中心視界プロセッサ４２上で実行されるプログラムもまた、同様の構造を有する。

このプログラムはＰＣに辺縁視界プロセッサ４０、中心視界プロセッサ４２及び物体認識装置４６の機能を行なわせる。これらのプログラムは一般のＰＣのＣＤ−ＲＯＭドライブ又はＦＤドライブに挿入されるＣＤ−ＲＯＭ又はフレキシブルディスクに記憶されさらにハードディスクに転送されてもよい。又は、プログラムはローカルエリアネットワーク（ＬＡＮ）を介してＰＣに送信されハードディスクドライブに記憶されてもよい。プログラムは実行される際にランダムアクセスメモリにロードされる。

以下で説明するプログラムの各々はＰＣを周辺視界プロセッサ４０、中心視界プロセッサ４２、アクチュエータコントローラ４４及び物体認識装置４６として動作させる幾つかの命令を含む。この方法を行なうのに必要な基本的機能のいくつかはＰＣ上で実行されるオペレーティングシステム（ＯＳ）又はサードパーティのプログラム、もしくはＰＣにインストールされる最適化ツールボックス等のモジュールにより提供されるので、プログラムはこの実施例の機能的ユニットを実現するのに必要な基本的機能全てを必ずしも含まなくてもよい。プログラムが含む必要があるのは、命令のうち、適切な機能又は「ツール」を制御された様態で呼出すことによってこれらのユニットの機能を行なって所望の結果が得られるようにする部分だけである。ＰＣがどのように動作するかは周知であるので、ここでは説明を省略する。

図７を参照して、メインプログラムが開始すると（３００）、画像ストリーム３０２からしきい値を推定するステップ３２０と、しきい値が推定されたか否かを判断するステップ（３２２）とが行なわれる。しきい値が推定されるとステップ３２４に進み、そうでなければステップ３２０に戻る。

ステップ３２４で、メインプログラムは画像ストリーム３０４内で物体を検出しようとする。ステップ３２６で、ステップ３２４において物体が検出されたか否かを判断する。物体が検出されていればステップ３２８に進み、そうでなければステップ３２４に戻る。

メインプログラムはさらに、画像ストリーム３０６内で検出された物体を追尾するステップ３２８と、物体が検出されたか否かを判断するステップとを含む。もし物体が検出されていればステップ３２８に戻る。もしそうでなければステップ３２４に戻る。

図８はステップ３２４の制御構造をより詳細に示す。この処理はまた、しきい値推定のステップ（３２０）にも適用される。図８を参照して、物体検出処理３２４は、形状モデル４０２からブロッブの形状及び場所をランダムに生成するステップ４２０で開始する（４００）。

処理３２４はさらに、画像ストリーム４０４の画像にアフィンワーピングを適用するステップ４２２と、色モデル４０６に基づいて確率の和を評価するステップ４２４と、しきい値が利用可能であるか否かを判断するステップ４２６とを含む。

もし、しきい値が利用可能でなければ、すなわち処理がしきい値を推定するステップ３２０（図７を参照）にあれば、制御はステップ４２８に進み、ここでしきい値を生成するのに十分なデータが利用可能であるか否かが判断される。もし十分なデータがあれば、ステップ４３０でしきい値が生成され、制御はステップ４２０に戻り、物体検出が開始される。もしステップ４２８で十分なデータが利用できないと判断された場合、制御はステップ４２０に戻り、十分なデータが利用可能となるまで、ステップ４２０から４２８が繰返される。

もしステップ４２６でしきい値が利用可能であると判断されればステップ４３２に進み、ここでしきい値を超えたか否かが判断される。もししきい値を超えていれば、ブロッブが発見されたとみなされ、追尾が始まる（４０８）。もししきい値を超えなければステップ４２０に戻り、ステップ４３２でしきい値を超えたと判断されるまで、ステップ４２０から４３２が繰返される。

図９は物体追尾のステップ３２８（図７）をより詳細に示す。この実施例では、変形された画像ウィンドウにＥＭアルゴリズムが適用されることに留意されたい。これは各画像について、場所、形状及び先に計算した色の確率（予想ステップ）に基づいて、その画素がブロッブの一つに属する確率を計算することと、新たな場所及び形状パラメータの推定（最大化ステップ）とから成る。

画素の場所に関する情報が必要な全ての計算において、新たなウィンドウの画素座標に代えて元の画像の画素の先に計算された座標が用いられる。アルゴリズムが収束するか、最大繰返数に達すると、ＥＭの繰返しが中止される。

この処理は一旦ブロッブが検出されステップ５００でブロッブの追尾が始まると開始され、ブロッブを含む画像ストリーム５０２内の画像にアフィンワーピングを適用するステップ５２０と、色モデル５０４に基づいて色の確率を評価するステップ５２２と、色モデル５０４及び形状モデル５０６に基づいて形状確率及び色の確率を組合わせるステップ（ＥＭアルゴリズムの予想ステップ）５２４と、ステップ５２４の出力に基づいてブロッブの形状と場所を推定し（ステップ５２６）、その結果に基づいて形状モデル５０６を更新するステップ（ＥＭアルゴリズムの最大化ステップ）と、アルゴリズムが収束したか、又は繰返し数の制限に達したかを判断するステップ５２８とを含む。もしアルゴリズムが収束したか、又は繰返し数の制限を超えた場合はステップ５３０に進む。さもなければステップ５２４に
戻り、ステップ５２４及び５２６でＥＭアルゴリズムを繰返す。

ステップ５３０で、ブロッブが発見されたか否かを判断する。追尾に失敗したと判断されると、ブロッブの検出が再開され、ブロッブの追尾がステップ５０８で続けられる。ブロッブが発見されたと判断されれば、制御は一方でステップ５３２へ進み、他方でステップ５３４に進む。

ステップ５３２で、プログラムはアクチュエータを制御して、ロボットが物体を中心に保つように動かす。その後ステップ５２０に戻る。

図１０はステップ５３４で行なわれる処理を示す。図１０を参照して、処理はステップ５５０で始まり、ここでは元の画像に対し対数フィルタリングが行なわれる。次に、ステップ５５２で、推定されたブロッブ位置を用いて、フィルタされた画像にアフィンワーピングを施す。ステップ５５４で、ＰＣＡを用いて物体認識が行なわれる。

ステップ５５６で、前もって学習された物体が認識されたか否かが判断される。もし物体が認識されれば、ロボットによる予め定められた動作がなされる。それ以外の場合、ロボットは何も動作しない。その後図９のステップ５２０に戻り、追尾が繰返される。

ステップ５２０で、予測されたブロッブの形状と位置とを用いてアフィン変換が計算される。これは単に、先の画像で推定されたブロッブの形状と位置であっても良い。マッピングにより、固定サイズの新たな画像ウィンドウの中心にブロッブが配置されかつその形状が楕円になるように、ブロッブ周囲の領域が変形される。

ステップ５２０で、新たなウィンドウの各画素について、アフィン変換の逆変換が適用される。一般に、変換された画素は画像画素の一つに正確にマッピングされているわけではないので、新たな画素の各々の色は、最も近くの隣接する画素から、又は元の画像の画素の線形補間から、推定される。色の他、元の画像における対応する画素の（アフィン変換に関する）位置もまた、新たな画像の各画素について記憶される。

ステップ５２２で、ワープされた画像の各画素について、色の確率が計算される。この実施例では色モデルが一定に保たれるので、これらは一度計算するだけで良い。

Ｅ.トレーニング及び認識
この発明の目標は、ＤＢが、人の提示した物体を認識できるようにすることである。トレーニング段階では、ユーザは全ての関連の物体を提示することになっている。ヒューマノイドの前の常に同じ場所に物体を置くことは不可能なので、ユーザはこれを、予想される配置位置のあたりで平行移動させたり回転させたりする。これにより、物体認識のための数多くの視点の集合が生成される。ここではキャプチャされる視点の数を、物体あたり１００個と設定した。

上述の方法を用いて、物体が周辺画像内で検出され追尾されるので、ＤＢ２０はその視線をそこに向け、その追跡を開始することができる。中心視画像で物体が検出された後、これらの画像はＬｏＧフィルタされ、ワープされて、図６（Ｂ）の正規化された形状となる。ワープされた画像の周囲を取囲む楕円内の画素が主成分分析に用いられる。上位の固有ベクトル｛Γ_k｝の集合が決定された後、トレーニング画像を固有空間に投影し、投影の結果と平均画像

とを将来のオンライン認識のために記憶する。

ＤＢの中心視界は標準的なＮＴＳＣ（ＮａｔｉｏｎａｌＴｅｌｅｖｉｓｉｏｎ
ＳｙｓｔｅｍＣｏｍｍｉｔｔｅｅ：全国テレビジョン方式委員会）カメラで提供される。インターレース効果に対処しなければならないことを避けるため、中心視画像を３０Ｈｚ、３２０×２４０画素の解像度でキャプチャした。他方で、初期の検出、追尾及び追跡に用いられる周辺画像は毎秒６０フィールド、全解像度でキャプチャした。物体全体が中心視画像に確実に含まれるように、物体はヒューマノイドに対しある距離で示されるので、物体が全画像をカバーすることは期待できない。ここでは物体を１６０×１２０画素のウィンドウサイズに変形するが、通常これによって元のサイズの中心視画像に比べてわずかなサブサンプリングが引き起こされる。しかしながら、これは周辺画像におけるサイズと比べれば依然として高い鮮鋭度である。

ここでは、固有ベクトルのサイズは従って、π＊１６０／２＊１２０／２≒１５０７９に等しい。固有ベクトルを計算するのに必要とされる特異値分解を除き、他の演算はすべて、この実施例に従ったシステムによりリアルタイムで行なわれる。これは明らかに、なんの制限にもならない。なぜなら、トレーニング段階で特異値分解をリアルタイムで計算しなければならないという理由は何もないからである。

認識段階で行なわれる多くの演算は追尾段階のものと同じである。これらは周辺画像の検出と追尾、ＤＢの目による物体の追跡、並びに、中心視画像における検出、追尾、ＬｏＧフィルタリング、及びアフィンワーピングを含む。変形されＬｏＧフィルタされた中心視画像はその後先に計算された固有ベクトルに投影される。

結果として得られる投影ωがトレーニング段階で生成されたプロトタイプΩｉと比較され、最も近いプロトタイプのクラスによって解が与えられる。

認識システムの性能を上げるため、幾つかの改良を加えた。第１に、左右の中心視画像で同じ物体が認識された時だけ、分類が有効であるとされる。第２に、このシステムのダイナミックな性質を発展させて、時系列の画像に対し認識処理を行なった。発見学習的に選ばれた時間間隔において物体の同一性が変化しないときだけ、その物体が認識されたものとした。この実施例では、幾らかのフレーム間の動きを勘案するために、通例毎秒３枚の画像を用い、認識結果を許容するまで２秒間待機するようにした。

画像１枚ごとに、上述のアプローチによりプロトタイプ画像の一つが選択される。これは、もしもデータベースに属さない物体がＤＢ２０に示されるとすれば、好ましいことではない。しかし、固有空間法により、観測された物体の画像を再構築することができるので、元の画像と再構築された画像との距離を計算することができる。

もしこの距離があるしきい値を超えれば、物体はデータベースに属さないと考え、未知のものに分類される。

残念ながら、再構築の品質は物体ごとに大きく異なるので、全ての物体について一つのしきい値を選択することは困難である。このため、全ての物体について適切なしきい値を選択するために、追加の（なくてもよい）トレーニング段階を導入した。このトレーニング段階では、その実体が分っているさまざまな物体をＤＢ２０に示し、再構築法がどのような性能を示すかを測定した。すなわち、（１２）で与えられるような再構築誤差をサンプリングした。その後、物体ｉについての再構築誤差しきい値φ_iを以下のように設定した。

ここで、ｎ_ｉは物体ｉの発生回数であり、ｎ₀はデータベースに属さない物体の発生回数である。これにより、システムが未知の物体を認識することが防がれる。

Ｖ.結果及び結論
この実施例に従ったシステムを試験するため、幾つかの実験を行なった。全ての実験において、物体ごとに１００個の画像を用い、トレーニング用画像を組合わせたものに対し主成分分析を行なった。

図１３及び図１４は物体の動きの量に対する、この実施例のシステムの性能を示す。明らかに、物体が速く動き、空間内のさまざまな場所からスナップショットがとられる場合には、物体の認識はより困難になる。各実験では、物体のうち一つをロボットの前で動かし、動く物体のスナップショット２００枚を撮影した。棒グラフは、（１１）を用いて固有空間に投影した物体画像から、各クラス（物体）についての最良のプロトタイプまでの正規化された平均距離を示す。スコアは低いほど良い。

実際にロボットに対して示された物体に対応するプロトタイプが常に低いスコアを達成したが、予想通り、動きが大きくなると他との差は減少した。

この対話形式の実験では、ＤＢに、図１１に示す熊のぬいぐるみ１１０及び１１４と犬のぬいぐるみ１１２とを区別させた。ぬいぐるみ１１０、１１２、１１４は同じような色なので、共通の色モデルを学習させて全ての物体を検出し追尾させた。認識が成功したか否かを示すために、ＤＢには、犬のぬいぐるみ１１２を認識したときには物体を指差し、熊のぬいぐるみ１１０又は１１４を認識したときには何もしないようにさせた。図１２はＤＢが犬のぬいぐるみ１１２を指差している様子を示す。検出器と追尾器とは視界に現れたり消えたりする物体をうまく処理し、中心視カメラ３２Ｌ及び３２Ｒは示された物体にロックすることができた（図３及び図４を参照）。

この対話的実験では、物体がＤＢの目に近すぎて中心視画像として大きくなりすぎたときに、分類の間違いが生じた。しかし、この動的なアプローチでは、最終的な特定のために複数のスナップショットを用いるので、誤った特定を必ずフィルタして除くことができ、ＤＢは常に犬１１２を指差し、熊１１０及び１１４は無視した。

全ての計算はリアルタイムで行なわれた。すなわち、検出と追尾に６０Ｈｚ、認識に３０Ｈｚである。

結論として、この実施例は動く物体の場所を正しく特定し、追尾し、認識することができた。発明者らは初めて、ヒューマノイドロボットで周辺視と中心視とをいかにして統合してこれらの問題をリアルタイムで解決するかを示した。

上述の実施の形態は単なる例示であって制限的なものと解してはならない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。

この発明の一実施例に従ったロボットシステム（ＤＢ）２０の全体構造を示す図である。この実施例に従ったＤＢ２０の辺縁視カメラ３４Ｌ及び３４Ｒと、中心視カメラ３２Ｌ及び３２Ｒとを示す図である。中心視カメラ３２Ｌ及び３２Ｒの視界を示す図である。辺縁視カメラ３４Ｌ及び３４Ｒの視界を示す図である。この実施例に従ったアフィンワーピング前後の元の画像と変形された画像とを示す図である。元の画像とこの実施例に従って変形されＬｏＧフィルタされた画像とを示す図である。この発明の実施例におけるメインプログラムの制御構造を示すフローチャートである。この発明の実施例におけるメインプログラムの物体検出及びしきい値推定処理を示すフローチャートである。この発明の実施例におけるメインプログラムの物体追尾処理を示すフローチャートである。物体認識処理を示すフローチャートである。実験で用いられた物体を示す図である。指差すことで犬１１２を認識したことを示しているＤＢ２０の図である。小さい動きでＤＢ２０に提示された図１１の物体の区別を示す図である。大きな動きでＤＢ２０に提示された図１１の物体の区別を示す図である。

符号の説明

２０ヒューマノイドシステム（ＤＢ）
３０Ｌ、３０ＲＤＢの目
３２Ｌ、３２Ｒ中心視カメラ
３４Ｌ、３４Ｒ辺縁視カメラ
４０辺縁視界プロセッサ
４２中心視界プロセッサ
４４アクチュエータコントローラ
４６物体認識装置
６０−７８アクチュエータ

Claims

リアルタイムの物体検出及び認識システムであって、
第１及び第２の一連の画像をキャプチャするための、ほぼ整列した光学軸を備えた第１のカメラ対を含み、前記第１の一連の画像は第１の解像度を有し、前記第２の一連の画像は前記第１の解像度より高い第２の解像度を有し、さらに、
前記第１の一連の画像を受取るように接続され、前記第１の一連の画像中の物体を検出し、検出された物体が前記第１の一連の画像中の第１の予め定められた位置に保たれるよう前記第１のカメラ対を移動させるための追尾手段と、
前記第２の一連の画像を受取るように接続され、前記第２の一連の画像中の第２の予め定められた位置にある物体を認識するための第１の認識手段と、
第３及び第４の一連の画像をキャプチャするための、ほぼ整列した光学軸を備えた第２のカメラ対とを含み、前記第３の一連の画像は前記第１の解像度を有し、前記第４の一連の画像は前記第２の解像度を有し、
前記追尾手段は、前記第１及び第３の一連の画像を受取るように接続され、前記第１及び第３の一連の画像中の物体を検出して、検出された物体が前記第１または第３のいずれかの一連の画像中のそれぞれ第１の予め定められた位置に保たれるよう前記第１及び第２のカメラ対を移動させるための手段を含む、物体検出及び認識システム。
前記第２の予め定められた位置は、前記第２の一連の画像の中心である、請求項１に記載のシステム。
前記第４の一連の画像を受取るように接続され、前記第４の一連の画像の中心の物体を認識するための第２の認識手段と、
前記第１の認識手段によって認識された物体と前記第２の認識手段によって認識された物体とが同一の物体であるか否かを判断するための手段とをさらに含む、請求項２に記載のシステム。
前記第１のカメラ対のカメラは、それぞれの光学軸が予め定められたずれ量で互いにオフセットされるように配置され、
前記第１の一連の画像の前記第１の予め定められた位置は、前記予め定められたずれ量に従って選択されたオフセット量で前記第１の一連の画像の中心からずれるように予め選択される、請求項３に記載のシステム。
前記第１の認識手段が
前記第２の一連の画像中の物体を検出するための検出手段と、
前記第２の一連の画像をフィルタリングするためのフィルタ手段と、
前記検出手段によって検出された物体の形状を予め定められた形に近似するための近似手段と、
物体の形状を近似する前記予め定められた形を、固定された大きさで、両軸が予め規定された座標系のｘ軸及びｙ軸に整列された予め定められた楕円へと変形させるための変形手段と、
前記変形手段によって変形された画像中の物体を認識するための手段とを含む、請求項４に記載のシステム。
前記認識手段が、前記変形手段によって変形された画像を主成分分析によって認識するための手段を含む、請求項５に記載のシステム。
前記フィルタ手段が以下で規定されるラプラシアンガウシアン（ＬａｐｌａｃｉａｎｏｆＧａｕｓｓｉａｎ）（ＬｏＧ）フィルタを含む、請求項５及び請求項６のいずれかに記載のシステム。
前記第１の認識手段が、前記第２の一連の画像を受取るように接続され、前記第２の一連の画像の連続した画像の各々における前記第２の予め定められた位置にある物体を認識するための認識手段を含む、請求項１から請求項７のいずれかに記載のシステム。
コンピュータ上で実行されると、当該コンピュータに請求項１から請求項８のいずれかに記載の機能の全てを行なわせる、コンピュータで実行可能なプログラム。