JP6705738B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP6705738B2 JP6705738B2 JP2016236277A JP2016236277A JP6705738B2 JP 6705738 B2 JP6705738 B2 JP 6705738B2 JP 2016236277 A JP2016236277 A JP 2016236277A JP 2016236277 A JP2016236277 A JP 2016236277A JP 6705738 B2 JP6705738 B2 JP 6705738B2
- Authority
- JP
- Japan
- Prior art keywords
- angle
- image
- dictionary data
- function
- object obj
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/772—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Manipulator (AREA)
Description
本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
画像ベースのオブジェクト認識は、近年では一般的な技術である。画像ベースのオブジェクト認識では、例えば、撮像装置によってキャプチャされた画像の特徴量を抽出し、その特徴量を辞書データとしてあらかじめ登録された特徴量とマッチングすることによって、画像に写っているオブジェクトが認識される。ここで、画像に写っているオブジェクトの角度が変化すると特徴量も変化するため、オブジェクト認識の可用性を高めるためには、オブジェクトの角度ごとに辞書データを用意する必要がある。
特許文献1,2は、画像ベースのオブジェクト認識において、オブジェクトの角度ごとに辞書データを用意するための技術の例である。特許文献1には、オブジェクトを45度間隔で回転させて得られる8枚の画像に基づいてオブジェクトを認識する技術が記載されている。特許文献2には、オブジェクトを水平角方向および天頂角方向に5度単位などで回転させて得られる多数の画像から共通部分を認識することによってオブジェクトのモデルを学習する技術が記載されている。
上記のような技術は、画像に写っているオブジェクトを認識する、すなわち画像に写っているオブジェクトが何であるかを推定するための技術であり、画像からそれ以上の追加的な情報を引き出すことは意図されていない。しかしながら、近年ではオブジェクト認識の技術が利用される分野が多様化していることに鑑みれば、画像に基づいてオブジェクトに関する追加的な情報を提供することには利点があると考えられる。
そこで、本発明は、画像に基づいてオブジェクトの角度を推定し、かつ推定のためのデータを自律的に更新することを可能にする、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提供することを目的とする。
本発明のある観点によれば、オブジェクトに関する辞書データを取得する辞書データ取得機能と、オブジェクトの第1の画像を取得する画像取得機能と、第1の画像および辞書データに基づいて第1の画像におけるオブジェクトの角度を推定する第1の角度推定機能と、オブジェクトに関する物理的な操作の後に第1の画像におけるオブジェクトの角度を再推定する第2の角度推定機能と、第1の角度推定機能による推定および第2の角度推定機能による再推定の結果に応じて辞書データを更新する辞書データ更新機能とを実現するプロセッサを備える情報処理装置が提供される。
また、本発明の別の観点によれば、オブジェクトに関する辞書データを取得するステップと、オブジェクトの第1の画像を取得するステップと、第1の画像および辞書データに基づいて第1の画像におけるオブジェクトの角度を推定するステップと、オブジェクトに関する物理的な操作の後に第1の画像におけるオブジェクトの角度を再推定するステップと、プロセッサが、推定および再推定の結果に応じて辞書データを更新するステップとを含む情報処理方法が提供される。
また、本発明のさらに別の観点によれば、オブジェクトに関する辞書データを取得する辞書データ取得機能と、オブジェクトの第1の画像を取得する画像取得機能と、第1の画像および辞書データに基づいて第1の画像におけるオブジェクトの角度を推定する第1の角度推定機能と、オブジェクトに関する物理的な操作の後に第1の画像におけるオブジェクトの角度を再推定する第2の角度推定機能と、第1の角度推定機能による推定および第2の角度推定機能による再推定の結果に応じて辞書データを更新する辞書データ更新機能とをプロセッサに実現させるためのプログラムが提供される。
以下、添付図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
(第1の実施形態)
図1は、本発明の第1の実施形態に係るシステム10を概略的に示す図である。図1を参照すると、システム10は、ネットワークNWによって互いに接続された、端末100と、データベース200と、ロボット300とを含む。端末100には、カメラ150と、雲台装置160とが接続されている。ロボット300は、カメラ310と、マニピュレータ320とを有する。
図1は、本発明の第1の実施形態に係るシステム10を概略的に示す図である。図1を参照すると、システム10は、ネットワークNWによって互いに接続された、端末100と、データベース200と、ロボット300とを含む。端末100には、カメラ150と、雲台装置160とが接続されている。ロボット300は、カメラ310と、マニピュレータ320とを有する。
上記のようなシステム10において、カメラ150は、後述する治具170を介して雲台装置160に取り付けられたオブジェクトobjの画像をキャプチャする。端末100は、カメラ150から画像を取得するとともに、雲台装置160からオブジェクトobjの角度を示す角度情報を取得する。なお、以下の説明では、別途の言及がない限り、オブジェクトobjの角度は、3次元空間における角度、例えば直交座標系における3つの軸の回りの回転量によって表される角度である。端末100は、取得した画像および角度情報(、ならびにオブジェクトobjの識別情報)に基づいて辞書データを生成する。生成された辞書データは、データベース200に格納される。
一方、ロボット300は、マニピュレータ320によってオブジェクトobjを把持した状態で、カメラ310を用いてオブジェクトobjの画像をキャプチャする。ロボット300は、キャプチャされた画像と、データベース200から取得した辞書データとに基づいて、画像に写っているオブジェクトobjを認識し、さらに画像におけるオブジェクトobjの角度を推定する。
これによって、ロボット300は、オブジェクトobjを認識したうえで、さらに、マニピュレータ320によって把持されているオブジェクトobjの角度を推定することができる。この角度は、例えば、オブジェクトobjが基準姿勢に対してどの程度回転しているのかを示す。ロボット300は、例えば、角度の推定結果に基づいてマニピュレータ320を制御することによってオブジェクトobjを回転させ、それによってオブジェクトobjを所望の姿勢にすることができる。
上記のようなシステム10は、例えば、ロボット300を用いて物品を配列または整頓する作業を自動化するときに有用である。また、システム10は、例えば、オブジェクトobjの所定の部位に配置された情報(印刷されたコード、RFID(radio frequency identifier)など)を読み取るために、オブジェクトobjをどのように回転させればよいかを特定するためにも有用である。なお、システム10の用途は上記の例には限られず、他にも様々な用途が可能でありうる。
(辞書データを生成するための構成)
図2は、図1に示すシステムにおける端末100の機能構成を示すブロック図である。図2を参照すると、端末100は、画像取得部110と、角度情報取得部120と、辞書データ生成部130とを含む。端末100は、例えばパーソナルコンピュータ、タブレット、またはスマートフォンなどであり、各部の機能は後述する情報処理装置のハードウェア構成によって実現される。具体的には、例えば、画像取得部110、角度情報取得部120、および辞書データ生成部130の機能は、情報処理装置に含まれるプロセッサによって実現される。辞書データ生成部130によって生成された辞書データ210は、ネットワークを介して端末100に接続されたデータベース200に格納される。データベース200の機能は、ネットワークに接続された1または複数の情報処理装置のストレージによって実現される。なお、端末100が複数のプロセッサを含む場合、複数のプロセッサが協働して上記の各部の機能を実現してもよい。また、後述するように、端末100のプロセッサが実現する機能の一部、または全部は、サーバにおいて実現することも可能である。以下、各部の機能について説明する。
図2は、図1に示すシステムにおける端末100の機能構成を示すブロック図である。図2を参照すると、端末100は、画像取得部110と、角度情報取得部120と、辞書データ生成部130とを含む。端末100は、例えばパーソナルコンピュータ、タブレット、またはスマートフォンなどであり、各部の機能は後述する情報処理装置のハードウェア構成によって実現される。具体的には、例えば、画像取得部110、角度情報取得部120、および辞書データ生成部130の機能は、情報処理装置に含まれるプロセッサによって実現される。辞書データ生成部130によって生成された辞書データ210は、ネットワークを介して端末100に接続されたデータベース200に格納される。データベース200の機能は、ネットワークに接続された1または複数の情報処理装置のストレージによって実現される。なお、端末100が複数のプロセッサを含む場合、複数のプロセッサが協働して上記の各部の機能を実現してもよい。また、後述するように、端末100のプロセッサが実現する機能の一部、または全部は、サーバにおいて実現することも可能である。以下、各部の機能について説明する。
画像取得部110は、カメラ150がキャプチャしたオブジェクトobjの画像を取得する。ここで、カメラ150は、オブジェクトの画像をキャプチャする撮像装置の例である。具体的には、カメラ150は、例えばイメージセンサを有するデジタルカメラであり、画像取得部110はカメラ150によって生成された画像データを受信する。図示された例において、カメラ150は、USB(Universal Serial Bus)などの有線通信インターフェースを介して端末100に接続されるが、他の例において、カメラ150は、Bluetooth(登録商標)などの無線通信インターフェースを介して端末100に接続されてもよい。あるいは、カメラ150は端末100に内蔵され、バスを介して画像取得部110に画像データを送信してもよい。
角度情報取得部120は、雲台装置160からオブジェクトobjの角度を示す角度情報を取得する。ここで、本実施形態において、端末100の角度情報取得部120が取得する角度情報は、雲台装置160の座標系を基準にしたオブジェクトobjの角度を示す。なお、角度情報取得部120自身がオブジェクトobjの角度情報を生成し、その角度情報を雲台装置160に送信するとともに辞書データ生成部130に提供する場合も、「角度情報取得部120が角度情報を取得する」場合に含まれる。この場合、雲台装置160は、角度情報取得部120から受信した角度情報に従ってオブジェクトobjを保持する角度を設定する。本実施形態において、雲台装置160は、オブジェクトobjを保持する保持手段の例である。カメラ150と同様に、雲台装置160も、有線通信インターフェースを介して端末100に接続されてもよく、無線通信インターフェースを介して端末100に接続されてもよい。
上述の通り、オブジェクトobjの角度は3次元空間における角度、例えば直交座標系における3つの軸の回りの回転量によって表される角度である。それゆえ、角度情報取得部120は、例えば、角度情報を、オブジェクトobjの現在の姿勢と基準姿勢との差分に相当する回転量によって表現する。ここで、基準姿勢は、例えば雲台装置160がリセットされたときのオブジェクトobjの姿勢である。あるいは、基準姿勢は、画像取得部110が辞書データ210の生成のために最初にオブジェクトobjの画像を取得したときのオブジェクトobjの姿勢であってもよい。
辞書データ生成部130は、画像取得部110が取得した画像と、オブジェクトobjの識別情報と、角度情報取得部120が取得した角度情報とに基づいて辞書データ210を生成する。ここで、オブジェクトobjの識別情報は、どのような手段で特定されてもよい。例えば、オブジェクトobjの識別情報は、ユーザが端末100に入力する情報に基づいて特定されてもよい。また、オブジェクトobjの識別情報は、画像取得部110が取得した画像を、画像ベースのオブジェクト認識のために別途提供される辞書データとマッチングさせることによって特定されてもよい。あるいは、辞書データ生成部130は、画像取得部110が取得した複数の画像に共通して含まれるオブジェクトobjに対して識別情報を割り当ててもよい。
なお、本実施形態における辞書データ210の生成に用いられる情報のうち、画像とオブジェクトobjの識別情報との組み合わせに関しては、既に知られている画像ベースのオブジェクト認識における技術を適宜利用することができる。例えば、辞書データ生成部130は、画像ベースのオブジェクト認識で利用される適切な手法で画像から特徴量を抽出し、抽出された特徴量をオブジェクトobjの識別情報および角度情報と対応付けてもよい。また、例えば、辞書データ生成部130は、画像ベースのオブジェクト認識で利用される適切な手法で分類およびラベリングされたオブジェクトobjの識別情報を利用してもよい。
また、本実施形態では辞書データ210をオブジェクトobjの識別情報に基づいて生成されるものとして説明しているが、辞書データ210は、必ずしもオブジェクトobjの識別情報に基づいて生成されなくてもよい。例えば、システム10が単一の種類のオブジェクトobjのために提供される場合、辞書データ210はオブジェクトobjの識別情報を含まなくてもよい。一方、本実施形態のように辞書データ210がオブジェクトobjの識別情報を含む場合、複数の種類のオブジェクトobjについて、そのオブジェクトobjを認識したうえで、さらにオブジェクトobjの角度を推定することができる。
(雲台装置および治具の構成)
以下、本実施形態に係るシステム10において上記の端末100とともに用いられる雲台装置160、および雲台装置160にオブジェクトobjを取り付けるための治具170の構成について、さらに説明する。
以下、本実施形態に係るシステム10において上記の端末100とともに用いられる雲台装置160、および雲台装置160にオブジェクトobjを取り付けるための治具170の構成について、さらに説明する。
図3は、図1に示すシステムで用いられる雲台装置160および治具170の構成を示す概略的な斜視図である。図4は、図3のI−I線断面図である。図3および図4を参照すると、雲台装置160は、基台161と、1対の支柱162と、1対のアーム163と、1対のピン164と、ホルダ165と、梁166と、制御部167とを含む。治具170は、取付部材171と、連結部材172と、オブジェクトホルダ173と、背景板174とを含む。なお、図3では背景板174の図示が省略されている。以下、各部について説明する。
雲台装置160において、基台161は、例えば回転テーブルであり、制御部167によって制御されるモータ(図示せず)の駆動によって、軸A1の回りに回動する。ここで、軸A1は、カメラ150の光軸(図4に軸A3として示す)に直交する。1対の支柱162は、基台161上で、軸A1に対して対称な位置に固定される。従って、1対の支柱162の中点は軸A1にほぼ一致する。1対のアーム163は、基台161とは反対側で、1対の支柱162のそれぞれにピン164を用いて連結される。ピン164は、軸A1に直交する軸A2上に位置する。1対のアーム163は、それぞれ、軸A2の回りに枢動可能である。具体的には、1対の支柱162とピン164との間、またはピン164と1対のアーム163との間はギアを介して連結され、このギアに制御部167によって制御されるモータ(図示せず)が接続されることによって、1対のアーム163が軸A2の回りに枢動する。
ホルダ165は、1対の支柱162とは反対側で、1対のアーム163の端部同士の間に、梁166を介して固定される。ホルダ165は、例えば雲台装置160がカメラ用の自動雲台として用いられる場合にはカメラが取り付けられる部材であるが、後述するように本実施形態では治具170の取付部材171がホルダ165に取り付けられる。上記のように1対のアーム163が軸A2の回りに枢動すると、ホルダ165は軸A2の回りに旋回する。ここで、上述したような1対のアーム163の構成によって、ホルダ165が軸A2の回りに旋回する間、ホルダ165の取付面165sは軸A2に向いた状態に維持される。
制御部167は、例えば雲台装置160に組み込まれるマイクロコントローラであり、上述のようにモータを制御することによって基台161の回動および1対のアーム163の枢動を制御する。制御部167は、例えば予め定められた手順に従って、または端末100からの指示に従ってモータを制御する。このようにして、制御部167は、基台161が軸A1の回りに回動する角度、および1対のアーム163が軸A2の回りに枢動する角度を設定する。端末100の角度情報取得部120は、例えばこのような制御部167による角度の設定値を示す情報を、角度情報として取得する。
以上のような雲台装置160は、本来、ホルダ165に取り付けられたカメラのパン(軸A1の回りの回転)およびチルト(軸A2の回りのスイング)を自動化する装置として流通している。本実施形態では、かかる雲台装置160を利用してオブジェクトobjの角度の設定を自動化することによって、さまざまな角度を網羅した辞書データ210を効率的に生成することが意図されている。ただし、雲台装置160のホルダ165に直接オブジェクトobjを取り付けた場合、1対のアーム163を枢動するとホルダ165が軸A2の回りにスイングし、結果としてオブジェクトobjの位置がカメラ150の光軸(図4に軸A3として示す)から大きく外れてしまう。そこで、本実施形態では、以下で説明するような治具170を介してオブジェクトobjを雲台装置160に取り付ける。
治具170において、取付部材171は、雲台装置160のホルダ165に取り付け可能な部材である。例えば、取付部材171には、ホルダ165に設けられているカメラの固定のための構造に対応した取り付け構造が設けられる。具体的には、ホルダ165にカメラの固定のためのネジが設けられている場合、取付部材171にはネジ穴が設けられる。あるいは、取付部材171は、ホルダ165の構造にかかわらず利用可能な取り付け構造が設けられてもよい。具体的には、取付部材171には、ホルダ165を挟持するクリップ、またはホルダ165に巻回されるベルトなどが設けられてもよい。
オブジェクトホルダ173は、オブジェクトobjを取り付け可能な部材である。例えば、オブジェクトホルダ173には、オブジェクトobjとの接触面積を可能な限り少なくしつつオブジェクトobjを固定することが可能な取り付け構造が設けられる。これは、取り付け構造とオブジェクトobjとの接触面積は、カメラ150がキャプチャするオブジェクトobjの画像におけるオクルージョン領域になりうるためである。具体的には、オブジェクトホルダ173には、オブジェクトobjを挟持するクリップ、オブジェクトobjを掴持するフック、オブジェクトobjが貼着される粘着面などが設けられてもよい。また、磁性体であるオブジェクトobjのために、オブジェクトホルダ173には磁石が設けられてもよい。
連結部材172は、取付部材171とオブジェクトホルダ173とを連結する。また、連結部材172は、取付部材171が雲台装置160のホルダ165に取り付けられたときに、オブジェクトホルダ173に取り付けられたオブジェクトobjが軸A1と軸A2との交点の近傍に位置するように、取付部材171とオブジェクトホルダ173との位置関係を規定する。例えば、連結部材172は、取付部材171がホルダ165に取り付けられたときに1対のアーム163に沿って延びるように取付部材171に連結される。このとき、連結部材172の1対のアーム163に沿った方向の長さは、ホルダ165と軸A2との間の距離から、取付部材171およびオブジェクトホルダ173の厚さと、オブジェクトobjの厚さの半分とを除いたものにほぼ等しい。連結部材172は、アーム163に沿った方向の長さを調節可能な構造を有してもよい。これによって、オブジェクトobjのサイズに合わせて連結部材172の長さを調節し、オブジェクトobjの中心を軸A1と軸A2との交点に近づけることができる。
以上のような治具170を介して雲台装置160に取り付けられたオブジェクトobjは、軸A1と軸A2との交点の近傍に位置する。それゆえ、雲台装置160の基台161が軸A1の回りに回動したときも、1対のアーム163が軸A2の回りに枢動したときも、オブジェクトobjの位置はほぼ変化せず、カメラ150の光軸(図4に軸A3として示す)から大きく外れることがない。従って、本実施形態では、雲台装置160の制御部167が基台161が軸A1の回りに回動する角度、および1対のアーム163が軸A2の回りに枢動する角度を設定したときに、これらの角度をオブジェクトobjの軸A1および軸A2の回りの回転量とみなすことができる。
なお、上記のような雲台装置160および治具170を用いた場合、軸A1および軸A2に直交する軸A3、すなわちカメラ150の光軸の回りにはオブジェクトobjが回転させられないが、軸A3の回りの回転については、カメラ150がキャプチャした画像を平面回転させることによって精度よく補完することが可能である。また、上記の説明では簡単のためにオブジェクトobjがカメラ150の光軸上にあるものとしたが、オブジェクトobjは必ずしもカメラ150の光軸上になくてもよい。
背景板174は、連結部材172またはオブジェクトホルダ173に取り付けられ、オブジェクトobjの背景を提供する。例えば、背景板174には、スクリーンを選択的に取り付けるための取り付け構造が設けられてもよい。スクリーンは、例えば、互いに異なる材質で形成される複数のスクリーンを含みうる。材質は、例えば紙、布、またはフィルムを含みうる。また、スクリーンは、互いに異なる色、または互いに異なる反射特性を有する複数のスクリーンを含んでもよい。スクリーンを交換することによって、材質、色、または反射特性などが異なるオブジェクトobjの複数の背景を、交換可能に提供することができる。また、例えば、背景板174は、連結部材172またはオブジェクトホルダ173に着脱可能に取り付けられてもよい。この場合、複数の背景板174を選択的に取り付けることによって、材質、色、または反射特性などが異なるオブジェクトobjの複数の背景を、交換可能に提供することができる。具体的には、例えば、背景板174は、オブジェクトobjに向けられる面が互いに異なる材質で形成される複数の背景板174を含みうる。材質は、例えば紙、布、またはフィルムを含みうる。また、背景板174は、オブジェクトobjに向けられる面が互いに異なる色、または互いに異なる反射特性を有する複数の背景板174を含んでもよい。
(辞書データの概念的な説明)
図5は、本発明の第1の実施形態において生成される辞書データについて概念的に説明するための図である。図5には、ある識別情報によって特定されるオブジェクトobj(図示された例ではコネクタ)に対応付けられる辞書データ210が例示されている。図示された例において、オブジェクトobjの角度は、3次元空間における直交座標系の3つの軸(X軸、Y軸、Z軸)の回りの回転量によって表されるベクトル量である。辞書データ210は、オブジェクトobjの角度について、X軸の回りの回転量(rot_X)について全周をNX個に分割し、Y軸の回りの回転量(rot_Y)について全周をNY個に分割し、Z軸の回りの回転量(rot_Z)について全周をNZ個に分割することによって定義されるNX×NY×NZ個の要素を少なくとも含む。それぞれの要素は、少なくとも1つの、オブジェクトobjの画像に対応する情報に対応付けられる。ここで、オブジェクトobjの画像に対応する情報は、例えば、オブジェクトobjが回転量(rot_X,rot_Y,rot_Z)で表される角度であるときにカメラ150がキャプチャした画像から抽出された特徴量でありうる。
図5は、本発明の第1の実施形態において生成される辞書データについて概念的に説明するための図である。図5には、ある識別情報によって特定されるオブジェクトobj(図示された例ではコネクタ)に対応付けられる辞書データ210が例示されている。図示された例において、オブジェクトobjの角度は、3次元空間における直交座標系の3つの軸(X軸、Y軸、Z軸)の回りの回転量によって表されるベクトル量である。辞書データ210は、オブジェクトobjの角度について、X軸の回りの回転量(rot_X)について全周をNX個に分割し、Y軸の回りの回転量(rot_Y)について全周をNY個に分割し、Z軸の回りの回転量(rot_Z)について全周をNZ個に分割することによって定義されるNX×NY×NZ個の要素を少なくとも含む。それぞれの要素は、少なくとも1つの、オブジェクトobjの画像に対応する情報に対応付けられる。ここで、オブジェクトobjの画像に対応する情報は、例えば、オブジェクトobjが回転量(rot_X,rot_Y,rot_Z)で表される角度であるときにカメラ150がキャプチャした画像から抽出された特徴量でありうる。
なお、上記の例において、それぞれの軸の回りの回転量(rot_X,rot_Y,rot_Z)の分割幅は、異なっていてもよい(つまり、NX,NY,NZの少なくともいずれかが他と異なっていてもよい)。また、回転量は、必ずしも均等に分割されなくてもよい。例えば、後述するオブジェクトobjの角度の推定において、信頼度の高い推定がされにくい角度があった場合、当該角度に対応する回転量の近傍では、回転量の分割幅が他の部分よりも小さく設定されてもよい。
例えば、ロボット300のカメラ310が、角度が未知のオブジェクトobjの画像をキャプチャした場合、キャプチャされた画像から抽出された特徴量と、上記のような辞書データ210の要素に対応付けられた特徴量とをマッチングすることで、オブジェクトobjの角度を推定することができる。
ここで、辞書データ210では、同じオブジェクトobjの角度情報と、複数の異なる画像とに基づいて生成される複数の要素を含んでもよい。この場合、辞書データ210の要素は、NX×NY×NZ個よりも多くなる。同じ角度情報に対応付けられる複数の画像の間では、例えばキャプチャされたときの環境条件が異なっていてもよい。環境条件は、例えば背景または光の配置などでありうる。複数の異なる環境条件で辞書データ210を生成することで、様々な環境条件でオブジェクトobjの角度を推定可能な辞書データ210を提供することができる。
上記の場合において、端末100の画像取得部110は、オブジェクトobjの互いに異なる複数の画像を取得する。例えば、画像取得部110は、治具170の背景板174を用いてオブジェクトobjの背景を交換する前後で、雲台装置160の制御部167が同じ角度を設定したときのオブジェクトobjの画像をそれぞれ取得してもよい。この場合、辞書データ生成部130は、背景が異なる複数の画像、これらの複数の画像に共通するオブジェクトobjの識別情報、およびこれらの複数の画像に共通するオブジェクトobjの角度を示す角度情報に基づいて、辞書データ210の複数の要素を生成する。
(ロボットの構成)
図6は、図1に示すシステムにおけるロボット300の概略的な構成について説明するための図である。図6を参照すると、ロボット300は、カメラ310と、マニピュレータ320と、制御部330と、センサ340と、モータ350とを含む。ロボット300は、制御部330の制御に従って、例えばマニピュレータ320を用いてオブジェクトobjを把持し、カメラ310を用いてオブジェクトobjの画像をキャプチャすることができる。本実施形態では、マニピュレータ320も、上述した雲台装置160と同様に、オブジェクトobjを保持する保持手段の例である。制御部330は、例えば後述する情報処理装置のハードウェア構成によって実現される。
図6は、図1に示すシステムにおけるロボット300の概略的な構成について説明するための図である。図6を参照すると、ロボット300は、カメラ310と、マニピュレータ320と、制御部330と、センサ340と、モータ350とを含む。ロボット300は、制御部330の制御に従って、例えばマニピュレータ320を用いてオブジェクトobjを把持し、カメラ310を用いてオブジェクトobjの画像をキャプチャすることができる。本実施形態では、マニピュレータ320も、上述した雲台装置160と同様に、オブジェクトobjを保持する保持手段の例である。制御部330は、例えば後述する情報処理装置のハードウェア構成によって実現される。
センサ340は、ロボット300で利用される、またはロボット300から他の装置に送信される、各種の測定値を取得するためのセンサを含む。具体的には、センサ340は、加速度センサ、角速度センサ、地磁気センサ、および/またはGNSS(Global Navigation Satellite System)受信機などを含んでもよい。また、センサ340は、深度センサ、またはLIDAR(Laser Imaging Detection and Ranging)のようなレーザーレンジスキャナを含んでもよい。
モータ350は、制御部330の制御に従って、ロボット300の各部を動作させる。モータ350は、例えば、関節構造(図示せず)を動作させてロボット300の姿勢を変更したり、ロボット300を移動させたりするためのモータ(アクチュエータ)を含みうる。また、モータ350は車輪を回転させてロボット300を移動させるためのモータを含んでもよい。なお、モータ350を含むロボット300の各部の構成は、既に知られているロボットの設計手法に基づいて適切に構成することができる。ここで、ロボット300は、必ずしも姿勢を変更しなくてもよく、また移動しなくてもよい。同様に、ロボット300は必ずしも(マニピュレータ320以外の)関節構造を含まなくてもよく、また車輪を含まなくてもよい。
(オブジェクトの角度を推定するための構成)
図7は、図1に示すシステムにおけるロボット300の機能構成を示すブロック図である。図7を参照すると、ロボット300は、カメラ310およびマニピュレータ320に加えて、画像取得部331と、辞書データ取得部332と、オブジェクト認識/角度推定部333と、結果出力部334と、辞書データ更新部335と、マニピュレータ制御部336と、角度情報取得/角度推定部337とを含む。カメラ310およびマニピュレータ320以外の各部は、例えば上述したロボット300の制御部330を実現する情報処理装置のプロセッサによって実現される。なお、制御部330が複数のプロセッサを含む場合、複数のプロセッサが協働して上記の各部の機能を実現してもよい。また、後述するように、制御部330のプロセッサが実現する機能の一部、または全部をサーバにおいて実現することも可能である。以下、各部の機能について説明する。なお、辞書データの更新に関する機能については、後にフローチャートを参照して詳述するため、ここでは簡潔な記載にとどめる。
図7は、図1に示すシステムにおけるロボット300の機能構成を示すブロック図である。図7を参照すると、ロボット300は、カメラ310およびマニピュレータ320に加えて、画像取得部331と、辞書データ取得部332と、オブジェクト認識/角度推定部333と、結果出力部334と、辞書データ更新部335と、マニピュレータ制御部336と、角度情報取得/角度推定部337とを含む。カメラ310およびマニピュレータ320以外の各部は、例えば上述したロボット300の制御部330を実現する情報処理装置のプロセッサによって実現される。なお、制御部330が複数のプロセッサを含む場合、複数のプロセッサが協働して上記の各部の機能を実現してもよい。また、後述するように、制御部330のプロセッサが実現する機能の一部、または全部をサーバにおいて実現することも可能である。以下、各部の機能について説明する。なお、辞書データの更新に関する機能については、後にフローチャートを参照して詳述するため、ここでは簡潔な記載にとどめる。
画像取得部331は、カメラ310がキャプチャしたオブジェクトobjの画像を取得する。ここで、本実施形態では、カメラ310も、上述したカメラ150と同様に、オブジェクトの画像をキャプチャする撮像装置の例である。カメラ150がキャプチャする画像と、カメラ310がキャプチャする画像とは、同じ種類のオブジェクトobjを含むものの、互いに異なる画像である。具体的には、カメラ310は、例えばイメージセンサを有するデジタルカメラであり、画像取得部331はカメラ310によって生成された画像データを受信する。例えば、ロボット300は、マニピュレータ320を用いてオブジェクトobjを把持している。この場合、画像取得部331が取得する画像には、マニピュレータ320に把持されたオブジェクトobjが含まれる。あるいは、画像取得部331には、マニピュレータ320に把持されず、テーブルまたは床などに置かれたオブジェクトobjが含まれてもよい。図示された例において、カメラ310はロボット300に内蔵され、バスを介して画像取得部331に画像データを送信するが、カメラ310が有線通信インターフェース、または無線通信インターフェースを介してロボット300に外部接続されてもよい。
辞書データ取得部332は、ネットワークを介してロボット300に接続されたデータベース200から辞書データ210を取得する。上述の通り、辞書データ210は、オブジェクトobjの画像および角度情報(ならびにオブジェクトobjの識別情報)に基づいて生成される。ロボット300は、この辞書データ210を、マニピュレータ320によって把持されているオブジェクトobjの角度を推定するために利用する。なお、辞書データ取得部332は、必ずしも辞書データ210の全体を取得しなくてもよい。例えば、辞書データ210が複数の種類のオブジェクトについて生成され、かつ画像取得部331が取得した画像に含まれるオブジェクトobjが既に識別されている場合、辞書データ取得部332は、辞書データ210のうちオブジェクトobjの識別情報に対応付けられた要素を選択的に取得する。
オブジェクト認識/角度推定部333は、画像取得部331が取得したオブジェクトobjの画像と、辞書データ取得部332が取得した辞書データ210とに基づいて、画像におけるオブジェクトobjの角度を推定する。辞書データ210が複数の種類のオブジェクトについて生成され、かつ画像取得部331が取得した画像に含まれるオブジェクトobjが識別されていない場合、オブジェクト認識/角度推定部333は画像ベースのオブジェクト認識によってオブジェクトobjの識別情報を特定する。画像ベースのオブジェクト認識については、既に知られている技術を応用可能であるため、詳細な説明は省略する。例えば辞書データ210が単一の種類のオブジェクトについて生成されている場合、または画像取得部331が取得した画像に含まれるオブジェクトobjが既に識別されている場合、オブジェクト認識/角度推定部333はオブジェクト認識を実行しない。
一方、オブジェクト認識/角度推定部333によるオブジェクトobjの角度の推定は、例えば画像取得部331が取得した画像と辞書データ210の要素とのマッチングによって実行される。この場合、マッチングのスコアが最も高かった辞書データ210の要素に対応付けられた角度が、画像におけるオブジェクトobjの角度として推定される。後述するように、オブジェクトobjの角度を推定するための辞書データ210は多数の要素を含みうる。そこで、オブジェクト認識/角度推定部333は、画像取得部331が取得した画像に基づいて辞書データ210を枝狩りし、枝狩りされた辞書データ210と画像とのマッチングを実行してもよい。ここで、本実施形態において、枝狩り(pruning)は、オブジェクトobjの角度を推定するためのマッチングよりも処理負荷の軽い処理によって、マッチングの対象にしない辞書データ210を決定する処理である。
結果出力部334は、オブジェクト認識/角度推定部333による認識の結果を出力する。上述のように、ロボット300はオブジェクトobjの角度の推定結果をロボット300自身の動作、例えばマニピュレータ320の制御のために利用してもよいが、必要に応じて、推定結果を何らかの形で出力してもよい。より具体的には、例えば、推定結果は、ロボット300のディスプレイにおいて画像として表示されてもよく、スピーカから音声として出力されてもよい。また、推定結果は、ロボット300が有する通信装置からネットワークを介してさらに別の装置に送信されてもよい。結果出力部334は、上記のような推定結果の出力を制御する。なお、推定結果を出力する必要がない場合には、結果出力部334は設けられない。
辞書データ更新部335は、オブジェクト認識/角度推定部333によるオブジェクトobjの角度の推定の結果、および後述する角度情報取得/角度推定部337による角度の再推定の結果に応じて、辞書データ210を更新する。より具体的には、辞書データ更新部335は、オブジェクト認識/角度推定部333によって推定された角度の信頼度が閾値を超えない場合に、角度情報取得/角度推定部337による角度の再推定の結果に基づいて辞書データ210を更新する。なお、以下の説明では、オブジェクト認識/角度推定部333による角度の推定機能を「第1の角度推定機能」、角度情報取得/角度推定部337による角度の再推定機能を「第2の角度推定機能」ともいう。これらの角度推定機能は、必ずしも互いに独立して実施されるものではない。例えば、後述するように、角度情報取得/角度推定部337は、角度の再推定にあたって、オブジェクト認識/角度推定部333による角度の推定結果を利用する。つまり、「第1の角度推定機能」が単独で実行される場合もあり、「第2の角度推定機能」が「第1の角度推定機能」を呼び出す場合もある。
マニピュレータ制御部336は、オブジェクトobjを把持しているロボット300のマニピュレータ320を制御する。辞書データ更新部335が辞書データ210の更新を実行するとき、マニピュレータ制御部336は、マニピュレータ320を制御することによってオブジェクトobjを回転させる。なお、ここでいう回転は、オブジェクトobjの角度の変更を意味する。オブジェクトobjの回転は、オブジェクトobjの角度の再推定にあたって実行される、オブジェクトobjに関する物理的な操作の例である。
角度情報取得/角度推定部337は、マニピュレータ制御部336からオブジェクトobjの角度を示す角度情報を取得する。ここで、本実施形態において、ロボット300の角度情報取得/角度推定部337が取得する角度情報は、ロボット300、またはマニピュレータ320の座標系を基準にしたオブジェクトobjの角度を示す。従って、本実施形態では、マニピュレータ制御部336から取得される角度情報は、辞書データ210の角度情報と必ずしも直接的に対応付けられない。そこで、本実施形態において、角度情報取得/角度推定部337は、マニピュレータ制御部336がマニピュレータ320を制御してオブジェクトobjを回転させる前後の角度情報からオブジェクトobjの回転量Δθを算出し、この回転量Δθを後述する角度の再推定に利用する。
さらに、角度情報取得/角度推定部337は、オブジェクト認識/角度推定部333がオブジェクトobjの回転後の画像(第2の画像)および辞書データ210に基づいて推定したオブジェクトobjの角度θ2と、回転量Δθとに基づいて、オブジェクトobjの回転前の画像(第1の画像)におけるオブジェクトobjの角度θ1を再推定する(簡単に表すと、θ1=θ2−Δθ)。ここで、回転量Δθは、オブジェクトobjに関する物理的な操作の量の例である。なお、角度θ1、角度θ2、および回転量Δθは、いずれも、例えば座標系のそれぞれの軸の回りの回転(図5の例におけるrot_X,rot_Y,rot_Z)の要素を含むベクトル量でありうる。
辞書データ更新部335は、上記のようにオブジェクト認識/角度推定部333がオブジェクトobjの回転後の画像(第2の画像)および辞書データ210に基づいて推定したオブジェクトobjの角度θ2の信頼度が閾値を超える場合、角度情報取得/角度推定部337がこれに基づいて再推定した角度θ1を示す角度情報と、オブジェクトobjの回転前の画像(第1の画像)とに基づいて辞書データ210を更新する。
一方、オブジェクト認識/角度推定部333がオブジェクトobjの回転後の画像(第2の画像)および辞書データ210に基づいて推定したオブジェクトobjの角度θ2の信頼度が閾値を超えない場合、マニピュレータ制御部336がマニピュレータ320を制御することによってオブジェクトobjをさらに回転量Δθ’だけ回転させ、オブジェクト認識/角度推定部333がオブジェクトobjの回転後の画像(第3の画像)および辞書データ210に基づいてオブジェクトobjの角度θ3を推定する。角度θ3の信頼度が閾値を超える場合、角度情報取得/角度推定部337は角度θ3と、回転の合計量(Δθ+Δθ’)とに基づいて角度θ1を再推定し、この結果に基づいて辞書データ更新部335が辞書データ210を更新する。
このようにして、辞書データ更新部335は、十分な信頼度で角度θ1が再推定されたところで、角度θ1と、オブジェクトobjの回転前の画像(第1の画像)とに基づいて辞書データ210を更新する。具体的には、辞書データ更新部335は、辞書データ210の要素を追加または置換する。これによって、その後、カメラ310が同様の環境条件で角度θ1のオブジェクトobjの画像をキャプチャしたときに、再推定によらずとも、角度θ1を高い信頼度で推定できる可能性が高くなる。
(処理フローの例)
以下、本実施形態に係るシステム10における処理フローの例について、図8〜図12を参照しながら説明する。
以下、本実施形態に係るシステム10における処理フローの例について、図8〜図12を参照しながら説明する。
図8は、本発明の第1の実施形態における辞書データ生成処理の例を示すフローチャートである。図8を参照すると、登録処理では、まず、端末100の画像取得部110が画像を取得するとともに(ステップS101)、角度情報取得部120が角度情報を取得する(ステップS103)。ステップS101,S103は、どちらが先に実行されてもよく、また並行して実行されてもよい。例えば、カメラ150がキャプチャした画像を画像取得部110がリアルタイムで取得したことをトリガとして、角度情報取得部120が雲台装置160から角度情報を取得してもよい。また、角度情報取得部120が雲台装置160に角度情報を送信したことをトリガとして、カメラ150がキャプチャした画像を画像取得部110がリアルタイムで取得してもよい。あるいは、画像取得部110はカメラ150がキャプチャした画像を時系列で連続的に取得し、角度情報取得部120は雲台装置160に設定されている角度情報を時系列で連続的に取得してもよい。
次に、端末100の辞書データ生成部130が、ステップS101で画像とステップS103で取得された角度情報とを対応付ける。例えば、画像と角度情報とがいずれもリアルタイムで取得される場合、辞書データ生成部130は、実質的に同時に取得された画像と角度情報とを対応付ける。一方、画像と角度情報とが時間差をもって、または事後的に取得される場合、辞書データ生成部130は、共通するキーを有する画像と角度情報とを対応付ける。この場合のキーは、例えばタイムスタンプであってもよいし、タイムスタンプとは別に割り振られたシーケンス番号などであってもよい。
次に、辞書データ生成部130は、ステップS105で互いに対応付けられた画像および角度情報に基づいて、辞書データ210を生成する(ステップS107)。ここで、既に説明したように、辞書データ生成部130は、既に知られている画像ベースのオブジェクト認識の技術を応用して辞書データ210を生成してもよい。また、例えば、辞書データ生成部130は、実質的に同一の画像と角度情報との組が連続して取得されたような場合には、冗長な情報であると判断して辞書データ210の生成を省略してもよい。
図9は、本発明の第1の実施形態における認識処理の例を示すフローチャートである。図9を参照すると、認識処理では、まず、ロボット300の画像取得部331が画像を取得する(ステップS301)。上述のように、画像取得部331は、カメラ310がキャプチャした画像を取得し、この画像には例えばマニピュレータ320によって把持されたオブジェクトobjが含まれる。次に、辞書データ取得部332が、データベース200から辞書データ210を取得する(ステップS303)。
次に、オブジェクト認識/角度推定部333が、ステップS301で取得された画像と、ステップS302で取得された辞書データ210とに基づいて、オブジェクトobjを認識する(ステップS305)。なお、画像ベースのオブジェクト認識については、既に知られている技術を応用可能であるため、詳細な説明は省略する。また、上述のように、例えば辞書データ210が単一の種類のオブジェクトについて生成されている場合、または画像に含まれるオブジェクトobjが既に識別されている場合、ステップS305のオブジェクト認識は省略される。
次に、オブジェクト認識/角度推定部333は、辞書データ210の枝狩りを実行する(ステップS307)。例えば、図5に示したような辞書データ210を、各軸の回りの回転量(rot_X,rot_Y,rot_Z)について全周を52個に分割することによって生成した場合(つまり、NX=NY=NZ=52)、少なくとも523=140,608の要素を有する辞書データ210が生成されることになる。上述のように、同じ角度に複数の異なる画像を対応付けることによって辞書データ210を生成した場合、要素の数はさらに多くなる。このような辞書データ210の全要素とのマッチングを実行するための処理負荷は膨大であるため、辞書データ210の枝狩りによる利益が大きい。
図10は、本発明の第1の実施形態における枝狩り処理の例を示すフローチャートである。図11は、図10に示す枝狩り処理について概念的に説明するための図である。図10を参照すると、オブジェクト認識/角度推定部333は、まず、オブジェクトobjに対応する枝狩り手順を決定する(ステップS331)。オブジェクトobjに対応する枝狩り手順は、例えば予め定められて、辞書データ210とともにデータベース200に格納されている。上記の図9に示したステップS305が実行される場合、オブジェクト認識/角度推定部333は、ステップS305でのオブジェクトの認識結果に従って枝狩り手順を決定する。
続くステップS333,S335は、図11に示された例において、オブジェクトobjに対応する枝狩り手順に従って実行される処理の例である。オブジェクトの種類によってここで実行される処理は異なりうる。上記の例において、オブジェクト認識/角度推定部333は、画像をマスクし(ステップS333)、さらに画像を減色する(ステップS335)。次に、オブジェクト認識/角度推定部333は、枝狩りを実行する(ステップS337)。図示された例では、例えば、上記のようにマスクおよび減色された画像から複数の特徴部分が抽出され、辞書データ210のうち、同様に抽出された複数の特徴部分の位置関係が画像と共通しない要素が、マッチングの対象から除外される。
図11に示された例において、オブジェクトobjはコネクタである。図示された例では、ケーブル(cable1〜cable3)の色に着目した枝狩り手順が設定されている。図10に示されたステップS333では、画像のケーブル以外の部分がマスクされる(mask)。これによって、マスクされる部分に存在する端子カバーの陰影の影響が除去される。さらに、図では表現されないが、ステップS335では、両端のケーブル(cable1およびcable3)の色の違いが表現されるような条件で、画像が減色される。これによって、画像および辞書データ210の各要素において、両端のケーブル(cable1およびcable3)を2つの特徴部分として抽出することが容易になる。
さらに、図10に示されたステップS337では、上述のようにマスクおよび減色された画像に基づいて、辞書データ210の枝狩りが実行される。具体的には、例えば、画像において、cable1はcable3からみて右上に位置する。これに対して、辞書データ210の要素群210b(コネクタが視点軸の回りに回転しているもの)ではcable1がcable3からみて左上に位置する。また、要素群210c(コネクタが裏返しになっているもの)では、cable1がcable3からみて左下に位置する。従って、ステップS337では、要素群210b,210cがマッチングの対象から除外される。この結果、マッチングは、要素群210a(画像と同じく、cable1からみてcable1が右上に位置する)だけを対象にして実行される。
図9に戻って、ステップS307における辞書データ210の枝狩りの後、オブジェクト認識/角度推定部333は、画像と辞書データ210とのマッチングを実行する(ステップS309)。マッチングは、例えばテンプレートマッチングでありうる。なお、画像のマッチングについては、既に知られている技術を応用可能であるため、詳細な説明は省略する。なお、既に知られている画像ベースのオブジェクト認識では、マッチングの結果としてオブジェクト単位のスコアが算出されるが、ステップS307ではオブジェクトの角度単位のスコアが算出される。
次に、オブジェクト認識/角度推定部333は、ステップS309におけるマッチングの結果に基づいて、オブジェクトobjの角度を推定する(ステップS311)。ステップS311における推定結果は、例えばステップS309におけるマッチングにおいて最も高いスコアが算出された辞書データ210の要素に対応付けられた角度情報によって示される角度でありうる。
次に、オブジェクト認識/角度推定部333は、ステップS309におけるマッチングで算出されたスコアが閾値を超える否かを判定する(ステップS313)。ここで閾値と比較されるスコアは、例えば最も高いマッチングスコアである。あるいは、マッチングスコアの上位何%か(例えば10%)が閾値を超えるか否かが判定されてもよい。ステップS313の判定においてマッチングスコアが閾値を超えない場合(NO)、辞書データ更新部335が辞書データ210を更新する(S315)。一方、ステップS313の判定においてマッチングスコアが閾値を超える場合(YES)、辞書データ210を更新する処理は実行されなくてもよい。ステップS311における推定の結果は、必要に応じて結果出力部334によって出力される。
図12は、本発明の第1の実施形態における辞書データ更新処理の例を示すフローチャートである。図12を参照すると、更新処理では、まず、ロボット300の角度情報取得/角度推定部337が、マニピュレータ制御部336から提供されるオブジェクトobjの角度情報を記憶する(ステップS351)。ここで、ステップS351で記憶される角度は、例えばマニピュレータ320を基準にした座標系におけるオブジェクトobjの角度を示す。次に、マニピュレータ制御部336が、マニピュレータ320を制御することによってオブジェクトobjを回転させる(ステップS353)。
オブジェクトobjが回転させられた後、オブジェクトobjの角度が推定される(ステップS355)。ステップS355の処理は、例えば図9に示すステップS301〜S311の処理に対応する。具体的には、画像取得部331がオブジェクトobjの回転後の画像(第2の画像)を取得し、オブジェクト認識/角度推定部333が回転後の画像(第2の画像)におけるオブジェクトobjの角度を推定する。なお、辞書データ210については先に実行されたステップS303で取得されたものが利用されてもよく、オブジェクトobjは先に実行されたステップS305で既に認識されているものとして扱われてもよい。
次に、辞書データ更新部335は、ステップS355の推定におけるマッチングスコアが閾値を超える否かを判定する(ステップS357)。この判定は、例えば図9に示すステップS309と同様に実行されうる。ステップS357の判定においてマッチングスコアが閾値を超えない場合(NO)、ステップS353およびステップS355の処理が再実行される。つまり、マニピュレータ制御部336がマニピュレータ320を制御することによってオブジェクトobjをさらに回転させ(ステップS353)、オブジェクト認識/角度推定部333が回転後の画像(第3の画像)におけるオブジェクトobjの角度を推定する(ステップS355)。
一方、ステップS357の判定においてマッチングスコアが閾値を超える場合(YES)、角度情報取得/角度推定部337は、ステップS355において推定された角度θ2、およびオブジェクトobjの回転量Δθから、初期角度θ1を再推定する(ステップS359)。ここで、初期角度θ1は、オブジェクトobjの回転前の角度であり、オブジェクト認識/角度推定部333が十分な信頼度で推定することができなかった角度である。一方、角度θ2は、オブジェクト認識/角度推定部333がオブジェクトobjの回転後の画像(第2の画像)および辞書データ210に基づいて推定したオブジェクトobjの角度であり、ステップS357の判定によって十分な信頼度で推定されていることが判明している。また、回転量Δθは、ステップS351で記憶されたオブジェクトobjの角度情報と、ステップS357の時点でマニピュレータ制御部336から提供されるオブジェクトobjの角度情報とに基づいて算出される。
なお、ステップS357の判定の結果、ステップS353およびステップS355の処理がN回繰り返された場合、角度情報取得/角度推定部337は、最後に実行されたステップS355において推定された角度θN+1、およびN回実行されたステップS353におけるオブジェクトobjの回転の合計量ΔθTTLから、初期角度θ1を再推定する。回転の合計量ΔθTTLは、ステップS351で記憶されたオブジェクトobjの角度情報と、ステップS357の時点でマニピュレータ制御部336から提供されるオブジェクトobjの角度情報とに基づいて算出される。
次に、辞書データ更新部335は、ステップS359で再推定された初期角度θ1に対応する角度情報と、図9に示すステップS301で取得されたオブジェクトobjの回転前の画像(第1の画像)とを対応付ける(ステップS361)。さらに、辞書データ更新部335は、ステップS361で互いに対応付けられた画像および角度情報に基づいて、辞書データ210を更新する(ステップS363)。ここで、辞書データ210の更新は、辞書データ210の要素の追加、および/または辞書データ210の要素の置き換えを含む。
上記のステップS363において、辞書データ更新部335は、画像および角度情報に基づいて辞書データ210の要素を追加する。これによって、その後、ロボット300のカメラ310が同様の環境条件で角度θ1のオブジェクトobjの画像をキャプチャしたときに、角度θ1を高い信頼度で推定できる可能性が高くなる。なお、例えば、辞書データ210がロボット300専用であり、かつカメラ310がオブジェクトobjの画像をキャプチャするときの環境条件が変化しないことが予想される場合、辞書データ更新部335は、画像および角度情報に基づいて辞書データ210の要素を置き換えてもよい。
以上で説明したように辞書データ210が更新されることによって、最初に生成された辞書データ210では信頼度の高い推定が困難なオブジェクトobjの角度または環境条件について、追加の辞書データ210を蓄積することができる。このように、辞書データ210を用いてオブジェクトobjの角度を推定するロボット300が自律的に辞書データ210を強化することによって、推定のロバスト性を向上させることができる。
(更新前の検証処理の例)
ここで、上記で図12を参照して説明した辞書データ更新処理は、追加の処理として、辞書データ210の更新前の検証処理を含んでもよい。第1の例として、図12に示したステップS351の前に、辞書データ更新処理を実行するか否かを検証する処理が実行されてもよい(ステップS371「検証処理1」として図示されている)。第1の例に係る検証処理において、画像取得部331は、ステップS353でオブジェクトobjが回転させられるよりも前に、オブジェクトobjの画像を再取得する。オブジェクト認識/角度推定部333は、再取得された画像におけるオブジェクトobjの角度を推定する。この推定におけるマッチングスコアが(図9に示したステップS311での推定とは異なり)閾値を超えている場合、辞書データ更新処理は中止され、少なくともステップS363の辞書データの更新は実行されない。
ここで、上記で図12を参照して説明した辞書データ更新処理は、追加の処理として、辞書データ210の更新前の検証処理を含んでもよい。第1の例として、図12に示したステップS351の前に、辞書データ更新処理を実行するか否かを検証する処理が実行されてもよい(ステップS371「検証処理1」として図示されている)。第1の例に係る検証処理において、画像取得部331は、ステップS353でオブジェクトobjが回転させられるよりも前に、オブジェクトobjの画像を再取得する。オブジェクト認識/角度推定部333は、再取得された画像におけるオブジェクトobjの角度を推定する。この推定におけるマッチングスコアが(図9に示したステップS311での推定とは異なり)閾値を超えている場合、辞書データ更新処理は中止され、少なくともステップS363の辞書データの更新は実行されない。
上記の第1の例は、例えば、上記の図9に示したステップS301で画像取得部331が取得した画像において、カメラ310のフォーカスの遅れ、または(例えば雷もしくはフラッシュ光などによる)瞬間的な照明条件の変化のような偶発的な要因のために画像に予期しない変化がもたらされ、それによって推定の信頼度が低下することがありうる。上記の第1の例のような検証の処理は、偶発的な要因のために辞書データ210が再現性の低い情報に基づいて更新されてしまうのを防ぐために有効である。
また、第2の例として、図12に示したステップS361の後に、用意された角度情報および画像に基づいて辞書データの更新を実行するか否かを検証する処理が実行されてもよい(ステップS373「検証処理2」として図示されている)。第2の例に係る検証処理において、辞書データ更新部335は、ステップS361で対応付けられた角度情報と画像とに基づく仮の辞書データを生成する。次に、マニピュレータ制御部336がマニピュレータ320を制御し、ステップS353とは逆にオブジェクトobjを回転させる。これによって、オブジェクトobjは元の角度θ1に戻される。さらに、画像取得部331が、元の角度θ1に戻されたオブジェクトobjの画像を新たに取得し、オブジェクト認識/角度推定部333が、画像取得部331が新たに取得した画像におけるオブジェクトobjの角度を、辞書データ更新部335が生成した仮の辞書データに基づいて推定する。ここで元の角度θ1を推定することができ、またマッチングスコアが閾値を超えている場合、辞書データ更新部335はステップS363の辞書データ210の更新を実行する。そうではない場合、ステップS363の辞書データ210の更新は実行されない。
上記の第2の例は、例えば、角度推定の信頼度向上に寄与しない辞書データ210の更新を防ぐために有効である。カメラ310がオブジェクトobjの画像をキャプチャするときの環境条件によっては、画像取得部331が取得した画像に基づいて辞書データ210を更新しても、その後に取得される同様の画像における角度の推定の信頼度が必ずしも向上しないことがありうる。上記の第2の例のような検証の処理は、角度推定の信頼度向上に必ずしも寄与しない不要な要素によって辞書データ210の容量が増大するのを防ぐために有効である。
(他の変形例)
なお、上記の例では、角度情報取得/角度推定部337はオブジェクトobjが回転させられた後に角度を再推定したが、他の例において、角度情報取得/角度推定部337はロボット300がモータ350によってオブジェクトobjとともに移動させられた後で角度を再推定してもよい。ロボット300が移動したことによって、カメラ310が画像をキャプチャするときの環境条件が変化し、オブジェクトobjを回転させなくても信頼度の高い角度の推定ができる可能性がある。なお、ロボット300を移動させるための構成については、後述する第3の実施形態でより詳しく説明されている。
なお、上記の例では、角度情報取得/角度推定部337はオブジェクトobjが回転させられた後に角度を再推定したが、他の例において、角度情報取得/角度推定部337はロボット300がモータ350によってオブジェクトobjとともに移動させられた後で角度を再推定してもよい。ロボット300が移動したことによって、カメラ310が画像をキャプチャするときの環境条件が変化し、オブジェクトobjを回転させなくても信頼度の高い角度の推定ができる可能性がある。なお、ロボット300を移動させるための構成については、後述する第3の実施形態でより詳しく説明されている。
また、上記のようなロボット300の移動を、オブジェクトobjの回転と組み合わせてもよい。例えば、角度情報取得/角度推定部337は、オブジェクトobjを回転させた後の角度の再推定でも十分な信頼度が得られない場合に、ロボット300をオブジェクトobjとともに移動させた後で角度を再推定してもよい。例えば、カメラ310がオブジェクトobjの画像をキャプチャするときの環境条件が、辞書データ210の生成時のカメラ150の環境条件とは大きく異なるような場合、上記のような再推定の処理が有効でありうる。
本実施形態に係るシステム10の機能は、図1,2,7に示した例では端末100、データベース200、およびロボット300に分散して実現される。他の例では、システム10の機能の大部分が、サーバにおいて実現されてもよい。つまり、上記の例において端末100およびロボット300のプロセッサによって実現されるものとして説明された機能は、データベース200を含むサーバのプロセッサによって実現されてもよい。この場合、端末100が、カメラ150がキャプチャしたオブジェクトobjの画像と、雲台装置160から取得したオブジェクトobjの角度情報とをサーバに送信し、サーバがこれらを関連付けて辞書データ210を生成する。一方、ロボット300は、カメラ310がキャプチャしたオブジェクトobjの画像をサーバに送信し、サーバがこの画像に基づいてオブジェクトobjの角度を推定する。ロボット300は、サーバから角度の推定結果を受信する。サーバは、推定された角度の信頼度が閾値を超えない場合に、角度の再推定のためのオブジェクトobjの回転と、回転後のオブジェクトobjの画像の取得とを、ロボット300に依頼してもよい。なお、これらの機能を実現するサーバは1つでなくてもよく、ネットワーク上に分散した複数のサーバによって上記の機能が実現されてもよい。また、上記の機能を実現するサーバは、データベース200を含むストレージとは別の装置であってもよい。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。なお、上述の第1の実施形態と同様に構成される部分については、共通した符号を付することによって重複した説明を省略する場合がある。
次に、本発明の第2の実施形態について説明する。なお、上述の第1の実施形態と同様に構成される部分については、共通した符号を付することによって重複した説明を省略する場合がある。
図13は、本発明の第2の実施形態に係るロボット300aの機能構成を示すブロック図である。図13を参照すると、本実施形態では、辞書データ210の生成、および辞書データ210を用いたオブジェクトobjの角度の推定に関する機能の全体が、ロボット300aにおいて実現される。具体的には、ロボット300aの制御部330のプロセッサは、画像取得部110,331と、角度情報取得/角度推定部120,337と、辞書データ生成/更新部130,335と、辞書データ取得部332と、オブジェクト認識/角度推定部333と、結果出力部334と、マニピュレータ制御部336とを実現する。なお、制御部330が複数のプロセッサを含む場合、複数のプロセッサが協働して上記の各部の機能を実現してもよい。また、後述するように、制御部330のプロセッサが実現する機能の一部、または全部は、サーバにおいて実現することも可能である。また、データベース200は、ロボット300aの制御部330のストレージに格納される。以下、各部についてさらに説明する。
画像取得部110,331は、上記で図2を参照して説明した画像取得部110と、図7を参照して説明した画像取得部331との両方の機能を有する。つまり、画像取得部110,331は、カメラ310がキャプチャしたオブジェクトobjの画像を、辞書データ210を生成するときには辞書データ生成/更新部130,335に、辞書データ210を用いてオブジェクトobjの角度を推定するときにはオブジェクト認識/角度推定部333に、それぞれ提供する。
角度情報取得/角度推定部120,337は、上記で図2を参照して説明した角度情報取得部120と、図7を参照して説明した角度情報取得/角度推定部337との両方の機能を有する。つまり、角度情報取得/角度推定部120,337は、辞書データ210を生成するときには、マニピュレータ制御部336から取得した角度情報を辞書データ生成/更新部130,335に提供する。また、角度情報取得/角度推定部120,337は、辞書データ210を更新するときには、マニピュレータ制御部336から取得した角度情報に基づいてオブジェクトobjの回転量Δθを算出し、さらに回転量Δθとオブジェクト認識/角度推定部333が推定した角度θ2とに基づいて初期角度θ1を推定する。
なお、本実施形態において、ロボット300の角度情報取得/角度推定部337が取得する角度情報は、マニピュレータ320の座標系を基準にしたオブジェクトobjの角度を示しうる。この場合、角度情報取得/角度推定部337が取得する角度情報によって示されるオブジェクトobjの角度は、マニピュレータ制御部336が設定するマニピュレータ320の回転量だけではなく、アームなど、マニピュレータ320に連結されるロボット300の他の構成要素の動作量によっても変化しうる。また、マニピュレータ320がオブジェクトobjのどの面を把持するかも、その時々によって異なりうる。従って、たとえ辞書データ210を生成したときと同じマニピュレータ320がオブジェクトobjを把持しているとしても、辞書データ210を用いて画像におけるオブジェクトobjの角度を推定することは有益でありうる。
辞書データ生成/更新部130,335は、上記で図2を参照して説明した辞書データ生成部130と、図7を参照して説明した辞書データ更新部335との両方の機能を有する。つまり、辞書データ生成/更新部130,335は、辞書データ210を生成するときには画像取得部110,331が取得した画像と角度情報取得/角度推定部120,337が取得した角度情報とに基づいて辞書データ210を生成する。また、辞書データ生成/更新部130,335は、辞書データ210を用いてオブジェクトobjの角度を推定するときには、オブジェクト認識/角度推定部333によるオブジェクトobjの角度の推定の結果、および角度情報取得/角度推定部120,337による角度の再推定の結果に応じて辞書データ210を更新する。
上記の第2の実施形態によって示されるように、第1の実施形態に係るシステム10の機能は、単一の装置、例えばロボット300aにおいて実現することができる。この場合、システム10が、単一の装置によって実現されるともいえる。同様に、システム10の構成は、さまざまな装置構成で実現できる。例えば、システム10は複数のロボット300を含み、それぞれのロボット300が辞書データ210の生成と、辞書データ210を用いたオブジェクトの角度の推定とを実行してもよい。この場合、データベース200に格納された辞書データ210は、複数のロボット300によって共有される。
また、例えば、システム10の機能は、その大部分がサーバにおいて実現されてもよい。この場合、データベース200を含むサーバが、上記の第2の実施形態においてロボット300aの制御部330によって実現されたような機能を実現する。この場合、端末100が、カメラ150がキャプチャしたオブジェクトobjの画像と、雲台装置160から取得したオブジェクトobjの角度情報とをサーバに送信し、サーバがこれらを関連付けて辞書データ210を生成する。一方、ロボット300は、カメラ310がキャプチャしたオブジェクトobjの画像をサーバに送信し、サーバがこの画像に基づいてオブジェクトobjの角度を推定する。ロボット300は、サーバから角度の推定結果を受信する。サーバは、推定された角度の信頼度が閾値を超えない場合に、角度の再推定のためのオブジェクトobjの回転と、回転後のオブジェクトobjの画像の取得とを、ロボット300に依頼してもよい。
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。なお、上述した第2の実施形態と同様に構成される部分については、共通した符号を付することによって重複した説明を省略する。
次に、本発明の第3の実施形態について説明する。なお、上述した第2の実施形態と同様に構成される部分については、共通した符号を付することによって重複した説明を省略する。
図14は、本発明の第3の実施形態について概略的に説明するための図である。図14を参照すると、本実施形態では、ロボット300bが、マニピュレータを用いてオブジェクトを把持する代わりに、オブジェクトobjに対して相対的に移動する。図示された例において、ロボット300bの移動は、オブジェクトを中心にした旋回移動(revolution)を含む。このとき、カメラ310によってキャプチャされる画像では、オブジェクトobjが軸A1の回りに回転する。また、ロボット300bの移動は、カメラ310のオブジェクトobjに対する傾動(tilt)を含む。このとき、カメラ310によってキャプチャされる画像では、オブジェクトobjが軸A2の回りに回転する。
図15は、本発明の第3の実施形態に係るロボット300bの機能構成を示すブロック図である。本実施形態に係るロボット300bは、図13に示したロボット300aと比較して、マニピュレータ320を制御するマニピュレータ制御部336に代えて、モータ350を制御するモータ制御部339が含まれる点で異なる。
モータ制御部339は、ロボット300のモータ350を制御する。上記で図6を参照して説明したように、モータ350は、ロボット300の関節構造を動作させたり、ロボット300bの車輪を回転させたりすることによって、ロボット300bを移動させたり、ロボット300bの姿勢を変更したりするためのモータを含む。モータ制御部339は、上記で図14を参照して説明したように、ロボット300bのオブジェクトobjを中心にした旋回移動、および/またはロボット300bのカメラ310のオブジェクトobjに対する傾動が実行されるように、モータ350を制御する。
角度情報取得/角度推定部120,337bは、オブジェクトobjの角度を示す角度情報を取得する。ここで、角度情報は、例えば、ロボット300およびカメラ310の移動中に画像取得部331が取得した時系列の複数の画像を用いて画像ベースのSLAM(Simultaneous Localization and Mapping)を実行することによって取得される。なお、SLAMは、深度センサまたはレーザーレンジスキャナなど、ロボット300aが有する他のセンサ340の測定結果を利用して実行されてもよい。この場合、角度情報取得/角度推定部120,337bは、SLAMによってカメラ310の移動量を特定した上で、別途特定されるカメラ310とオブジェクトobjとの位置関係に基づいて、オブジェクトobjの角度情報を取得する。あるいは、角度情報取得/角度推定部120,337bは、モータ制御部339によるモータ350の制御値に基づいて、カメラ310の移動量を特定してもよい。
本実施形態は、上記のようにして取得された角度情報を用いて、辞書データ210を生成することができる。また、オブジェクト認識/角度推定部333が辞書データ210に基づいて十分な信頼度で角度を推定することができなかった場合に、モータ制御部339がモータ350を制御することによって画像内でオブジェクトobjを回転させ、角度の再推定および辞書データ210の更新を実行することができる。本実施形態において、カメラ310のオブジェクトobjに対する相対的な移動は、オブジェクトobjの角度の再推定にあたって実行される、オブジェクトobjに関する物理的な操作の例である。
以上のような本発明の第3の実施形態の構成によれば、オブジェクトobjが大きい場合や、小さくても動かすことができないような場合にも、オブジェクトobjの角度を推定するための辞書データ210を生成することができる。ここで、ロボット300bは、図7を参照して説明したようなマニピュレータ320およびマニピュレータ制御部336をも有し、オブジェクトobjが把持可能である場合には上記の第1および第2の実施形態と同様に、マニピュレータ320を用いてオブジェクトobjを回転させてもよい。
なお、上記で説明された第3の実施形態の例では、第2の実施形態と同様に、辞書データ210の生成、および辞書データ210を用いたオブジェクトobjの角度の推定に関する機能の全体がロボット300bにおいて実現されていたが、他の例も可能である。例えば、第1の実施形態に係るシステム10において、ロボット300がマニピュレータ制御部336に代えて、またはマニピュレータ制御部336とともに、モータ制御部339を含んでもよい。
例えば、辞書データ210を生成するときに用いられる雲台装置160(またはロボット300)と、辞書データ210を用いてオブジェクトobjの角度を推定するロボット300とのサイズが異なる場合、辞書データ210を生成するときには雲台装置160またはマニピュレータ320を用いてオブジェクトobjを回転させることが可能である一方で、辞書データ210を更新するときにはオブジェクトobjを回転させることが困難である場合、またはその逆の場合が生じうる。
また、例えば、上記のようにロボット300がマニピュレータ制御部336とともにモータ制御部339を含む場合、モータ制御部339は、カメラ310がオブジェクトobjとともに移動するようにモータ350を制御してもよい。この場合、マニピュレータ制御部336は、画像におけるオブジェクトobjの角度が変化しないようにマニピュレータ320を制御する。具体的には、マニピュレータ制御部336は、モータ制御部339がモータ350を制御してロボット300が移動している間、マニピュレータ320とカメラ310との位置関係およびマニピュレータ320がオブジェクトobjを把持する角度を保持する。
このように、カメラ310をオブジェクトobjとともに移動させることによって、例えば、画像におけるオブジェクトobjの角度を変えずに、カメラ310が画像をキャプチャするときの環境条件を変化させることができる。これによって、例えば、ある環境条件では辞書データ210に基づくオブジェクトobjの角度の信頼度の高い推定が困難であった場合に、環境条件を変化させることによって、信頼度の高い推定が可能になる可能性がある。また、辞書データ210を生成するときに、異なる環境条件で取得された複数の画像を共通の角度情報に対応付けた複数の要素を辞書データ210に含めることによって、角度の推定のロバスト性を向上させることができる。
上記の例において、辞書データ210の更新処理では、まず、モータ制御部339が、モータ350を制御することによってカメラ310をオブジェクトobjとともに移動させる。カメラ310およびオブジェクトobjが移動させられた後、画像取得部331がオブジェクトobjの移動後の画像(第2の画像)を取得し、オブジェクト認識/角度推定部333が移動後の画像(第2の画像)におけるオブジェクトobjの角度を再推定する。この推定におけるマッチングスコアが閾値を超える場合、辞書データ更新部335は、再推定されたオブジェクトobjの角度に対応する角度情報と、画像取得部331がオブジェクトobjの移動前に取得した画像(第1の画像)とに基づいて辞書データを更新する。この例では、カメラ310がオブジェクトobjとともに移動することが、オブジェクトobjの角度の再推定にあたって実行されるオブジェクトobjに関する物理的な操作にあたる。また、この例では、オブジェクト認識/角度推定部333が、上述した「第1の角度推定機能」および「第2の角度推定機能」の両方の機能を果たす。
(情報処理装置のハードウェア構成例)
次に、図16を参照して、本発明の実施形態における情報処理装置のハードウェア構成例について説明する。図16は、本発明の実施形態における情報処理装置のハードウェア構成例を示すブロック図である。
次に、図16を参照して、本発明の実施形態における情報処理装置のハードウェア構成例について説明する。図16は、本発明の実施形態における情報処理装置のハードウェア構成例を示すブロック図である。
情報処理装置900は、プロセッサ901、メモリ903、入力装置905、出力装置907、およびバス909を含む。情報処理装置900は、さらに、ストレージ911、ドライブ913、接続ポート915、および通信装置917を含んでもよい。
プロセッサ901は、例えば、CPU(Central Processing unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、および/またはFPGA(Field-Programmable Gate Array)などの処理回路によって構成される。プロセッサ901は、演算処理装置および制御装置として機能し、メモリ903、ストレージ911、またはリムーバブル記録媒体919に記録されたプログラムに従って情報処理装置900の動作を制御する。
メモリ903は、例えば、ROM(Read Only Memory)およびRAM(Random Access Memory)を含む。ROMは、例えばプロセッサ901のためのプログラム、および演算パラメータなどを記憶する。RAMは、例えばプロセッサ901の実行時に展開されたプログラム、およびプログラムの実行時のパラメータなどを一次記憶する。
入力装置905は、例えば、マウス、キーボード、タッチパネル、ボタン、または各種のスイッチなど、ユーザによって操作される装置である。入力装置905は、必ずしも情報処理装置900と一体化していなくてもよく、例えば、無線通信によって制御信号を送信するリモートコントローラであってもよい。入力装置905は、ユーザが入力した情報に基づいて入力信号を生成してプロセッサ901に出力する入力制御回路を含む。
出力装置907は、視覚や聴覚、触覚などの感覚を用いてユーザに向けて情報を出力することが可能な装置で構成される。出力装置907は、例えば、LCD(Liquid Crystal Display)または有機EL(Electro-Luminescence)ディスプレイなどの表示装置、スピーカまたはヘッドフォンなどの音声出力装置、もしくはバイブレータなどを含みうる。出力装置907は、情報処理装置900の処理により得られた結果を、テキストもしくは画像などの映像、音声もしくは音響などの音声、またはバイブレーションなどとして出力する。
ストレージ911は、例えば、HDD(Hard Disk Drive)などの磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。ストレージ911は、例えばプロセッサ901のためのプログラム、プログラムの実行時に読み出される、またはプログラムの実行によって生成された各種のデータ、および外部から取得した各種のデータなどを格納する。
ドライブ913は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体919のためのリーダライタである。ドライブ913は、装着されているリムーバブル記録媒体919に記録されている情報を読み出して、メモリ903に出力する。また、ドライブ913は、装着されているリムーバブル記録媒体919に各種のデータを書き込む。
接続ポート915は、外部接続機器921を情報処理装置900に接続するためのポートである。接続ポート915は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどを含みうる。また、接続ポート915は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどを含んでもよい。接続ポート915に外部接続機器921を接続することで、情報処理装置900と外部接続機器921との間で各種のデータを交換することができる。
通信装置917は、ネットワーク923に接続される。なお、ネットワーク923は、例えばインターネットのような不特定多数の装置が接続される開かれた通信ネットワークであってもよく、例えばBluetooth(登録商標)のような限られた装置、例えば2つの装置が接続される閉じられた通信ネットワークであってもよい。通信装置917は、例えば、LAN(Local Area Network)、Bluetooth(登録商標)、Wi−Fi、またはWUSB(Wireless USB)用の通信カードを含みうる。通信装置917は、ネットワーク923に応じた所定のプロトコルを用いて、他の情報処理装置との間で信号またはデータなどを送受信する。
以上、情報処理装置900のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、当業者は、上述したような情報処理装置900の構成を、実施する時々の技術レベルに応じて適宜変更することができる。
本発明の実施形態は、例えば、上記で説明したようなシステム、治具、情報処理装置、情報処理装置で実行される情報処理方法、情報処理装置を機能させるためのプログラム、およびプログラムが記録された一時的でない有形の媒体を含みうる。
以上、添付図面を参照しながら本発明のいくつかの実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
10…システム、100…端末、110…画像取得部、120…角度情報取得部、130…辞書データ生成部、150…カメラ、160…雲台装置、161…基台、162…支柱、163…アーム、164…ピン、165…ホルダ、167…制御部、170…治具、171…取付部材、172…連結部材、173…オブジェクトホルダ、174…背景板、200…データベース、210…辞書データ、300,300a,300b…ロボット、310…カメラ、320…マニピュレータ、330…制御部、331…画像取得部、332…辞書データ取得部、333…オブジェクト認識/角度推定部、334…結果出力部、335…辞書データ更新部、336…マニピュレータ制御部、337…角度情報取得/角度推定部、339…モータ制御部、340…センサ、350…モータ。
Claims (12)
- オブジェクトに関する辞書データを取得する辞書データ取得機能と、
前記オブジェクトの第1の画像を取得する画像取得機能と、
前記第1の画像および前記辞書データに基づいて前記第1の画像における前記オブジェクトの角度を推定する第1の角度推定機能と、
前記オブジェクトに関する物理的な操作の後に前記第1の画像における前記オブジェクトの角度を再推定する第2の角度推定機能と、
前記第1の角度推定機能による推定および前記第2の角度推定機能による再推定の結果に応じて前記辞書データを更新する辞書データ更新機能と
を実現するプロセッサを備える情報処理装置。 - 前記辞書データ更新機能は、前記第1の画像と、前記第2の角度推定機能によって再推定された前記オブジェクトの角度を示す角度情報とに基づいて前記辞書データを更新する、請求項1に記載の情報処理装置。
- 前記辞書データ更新機能は、前記第1の角度推定機能によって推定された前記オブジェクトの角度の信頼度が閾値を超えない場合に、前記第2の角度推定機能による再推定の結果に基づいて前記辞書データを更新する、請求項1または2に記載の情報処理装置。
- 前記画像取得機能は、前記オブジェクトに関する物理的な操作の後に前記オブジェクトの第2の画像を取得し、
前記第1の角度推定機能は、前記第2の画像および前記辞書データに基づいて前記第2の画像における前記オブジェクトの角度を推定し、
前記第2の角度推定機能は、前記第1の角度推定機能が前記第2の画像および前記辞書データに基づいて推定した前記オブジェクトの角度、および前記オブジェクトに関する物理的な操作の量に基づいて、前記第1の画像における前記オブジェクトの角度を再推定する、請求項1〜3のいずれか1項に記載の情報処理装置。 - 前記画像取得機能は、前記第1の角度推定機能が前記第2の画像および前記辞書データに基づいて推定した前記オブジェクトの角度の信頼度が閾値を超えない場合、前記オブジェクトに関する物理的な操作の再実行の後に前記オブジェクトの第3の画像を取得し、
前記第1の角度推定機能は、前記第3の画像および前記辞書データに基づいて前記第3の画像における前記オブジェクトの角度を推定し、
前記第2の角度推定機能は、前記第1の角度推定機能が前記第3の画像および前記辞書データに基づいて推定した前記オブジェクトの角度の信頼度が前記閾値を超える場合、前記第1の角度推定機能が前記第3の画像および前記辞書データに基づいて推定した前記オブジェクトの角度、および前記オブジェクトに関する物理的な操作の合計量に基づいて前記第1の画像における前記オブジェクトの角度を再推定する、請求項4に記載の情報処理装置。 - 前記オブジェクトに関する物理的な操作は、前記オブジェクトを保持する保持手段による前記オブジェクトの回転を含み、
前記第2の角度推定機能は、前記保持手段から提供される前記オブジェクトの回転量に基づいて前記第1の画像における前記オブジェクトの角度を再推定する、請求項1〜5のいずれか1項に記載の情報処理装置。 - 前記オブジェクトに関する物理的な操作は、前記画像取得機能に画像を提供する撮像装置の前記オブジェクトに対する相対的な移動を含み、
前記第2の角度推定機能は、前記撮像装置の移動量に基づいて前記第1の画像における前記オブジェクトの角度を再推定する、請求項1〜5のいずれか1項に記載の情報処理装置。 - 前記撮像装置の移動は、前記オブジェクトを中心にした旋回移動を含む、請求項7に記載の情報処理装置。
- 前記画像取得機能は、前記撮像装置の移動中に時系列で複数の画像を取得し、
前記第2の角度推定機能は、前記複数の画像に基づいて前記撮像装置の移動量を特定する、請求項7または8に記載の情報処理装置。 - 前記オブジェクトに関する物理的な操作は、前記画像取得機能に画像を提供する撮像装置が前記オブジェクトとともに移動することを含む、請求項1〜5のいずれか1項に記載の情報処理装置。
- オブジェクトに関する辞書データを取得するステップと、
前記オブジェクトの第1の画像を取得するステップと、
前記第1の画像および前記辞書データに基づいて前記第1の画像における前記オブジェクトの角度を推定するステップと、
前記オブジェクトに関する物理的な操作の後に前記第1の画像における前記オブジェクトの角度を再推定するステップと、
プロセッサが、前記推定および前記再推定の結果に応じて前記辞書データを更新するステップと
を含む情報処理方法。 - オブジェクトに関する辞書データを取得する辞書データ取得機能と、
前記オブジェクトの第1の画像を取得する画像取得機能と、
前記第1の画像および前記辞書データに基づいて前記第1の画像における前記オブジェクトの角度を推定する第1の角度推定機能と、
前記オブジェクトに関する物理的な操作の後に前記第1の画像における前記オブジェクトの角度を再推定する第2の角度推定機能と、
前記第1の角度推定機能による推定および前記第2の角度推定機能による再推定の結果に応じて前記辞書データを更新する辞書データ更新機能と
をプロセッサに実現させるためのプログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016236277A JP6705738B2 (ja) | 2016-12-05 | 2016-12-05 | 情報処理装置、情報処理方法、およびプログラム |
US16/464,441 US10902629B2 (en) | 2016-12-05 | 2017-11-28 | Information processing device, information processing method, and program |
PCT/JP2017/042475 WO2018105433A1 (ja) | 2016-12-05 | 2017-11-28 | 情報処理装置、情報処理方法、およびプログラム |
EP17878629.9A EP3550511A4 (en) | 2016-12-05 | 2017-11-28 | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM |
CN201780074637.7A CN110023993A (zh) | 2016-12-05 | 2017-11-28 | 信息处理设备、信息处理方法和程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016236277A JP6705738B2 (ja) | 2016-12-05 | 2016-12-05 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018092448A JP2018092448A (ja) | 2018-06-14 |
JP6705738B2 true JP6705738B2 (ja) | 2020-06-03 |
Family
ID=62491594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016236277A Active JP6705738B2 (ja) | 2016-12-05 | 2016-12-05 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US10902629B2 (ja) |
EP (1) | EP3550511A4 (ja) |
JP (1) | JP6705738B2 (ja) |
CN (1) | CN110023993A (ja) |
WO (1) | WO2018105433A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7135750B2 (ja) * | 2018-11-12 | 2022-09-13 | 富士通株式会社 | 学習プログラム、学習方法、学習装置、検知プログラム、検知方法及び検知装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3421608B2 (ja) | 1999-04-08 | 2003-06-30 | ファナック株式会社 | 教示モデル生成装置 |
CA2369845A1 (en) | 2002-01-31 | 2003-07-31 | Braintech, Inc. | Method and apparatus for single camera 3d vision guided robotics |
JP4164737B2 (ja) | 2002-05-24 | 2008-10-15 | ソニー株式会社 | 物体認識装置及び方法並びにロボット装置 |
JP4449410B2 (ja) * | 2003-10-27 | 2010-04-14 | ソニー株式会社 | ロボット装置及びその物体学習方法 |
JP5176572B2 (ja) * | 2008-02-05 | 2013-04-03 | ソニー株式会社 | 画像処理装置および方法、並びにプログラム |
LT5629B (lt) | 2008-05-23 | 2010-02-25 | Outsphere International Ltd., , | Trimatės fotografijos sistema ir trimačių skaitmeninių objekto atvaizdų sukūrimo ir publikavimo būdas |
JP5642410B2 (ja) * | 2010-03-30 | 2014-12-17 | パナソニック株式会社 | 顔認識装置及び顔認識方法 |
WO2012095160A1 (en) * | 2011-01-10 | 2012-07-19 | Trimble Ab | Method and system for determining position and orientation of a measuring instrument |
JP5787642B2 (ja) * | 2011-06-28 | 2015-09-30 | キヤノン株式会社 | 対象物保持装置、対象物保持装置の制御方法、およびプログラム |
KR101180471B1 (ko) * | 2011-09-27 | 2012-09-07 | (주)올라웍스 | 한정된 메모리 환경 하에서 얼굴 인식 성능 향상을 위한 참조 얼굴 데이터베이스 관리 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
CN103135743A (zh) * | 2011-11-22 | 2013-06-05 | 联想(北京)有限公司 | 一种电子设备的显示画面的调整方法及电子设备 |
JP5895569B2 (ja) | 2012-02-08 | 2016-03-30 | ソニー株式会社 | 情報処理装置、情報処理方法およびコンピュータプログラム |
JP6157066B2 (ja) | 2012-06-11 | 2017-07-05 | キヤノン株式会社 | 画像処理装置、物体取出システム、画像処理方法及びプログラム |
CN103841374B (zh) * | 2012-11-27 | 2017-04-12 | 华为技术有限公司 | 一种视频监控图像的显示方法及系统 |
JP6028589B2 (ja) * | 2013-01-23 | 2016-11-16 | 富士通株式会社 | 入力プログラム、入力装置および入力方法 |
US9111348B2 (en) | 2013-03-15 | 2015-08-18 | Toyota Motor Engineering & Manufacturing North America, Inc. | Computer-based method and system of dynamic category object recognition |
JP6126437B2 (ja) | 2013-03-29 | 2017-05-10 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
JP2016103094A (ja) * | 2014-11-27 | 2016-06-02 | 株式会社豊田自動織機 | 画像処理方法、画像処理装置、および画像処理プログラム |
CN104732486B (zh) * | 2015-03-23 | 2017-10-03 | 海信集团有限公司 | 一种图片的显示方法及装置 |
-
2016
- 2016-12-05 JP JP2016236277A patent/JP6705738B2/ja active Active
-
2017
- 2017-11-28 US US16/464,441 patent/US10902629B2/en active Active
- 2017-11-28 EP EP17878629.9A patent/EP3550511A4/en active Pending
- 2017-11-28 CN CN201780074637.7A patent/CN110023993A/zh active Pending
- 2017-11-28 WO PCT/JP2017/042475 patent/WO2018105433A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20190385331A1 (en) | 2019-12-19 |
CN110023993A (zh) | 2019-07-16 |
EP3550511A4 (en) | 2020-07-01 |
US10902629B2 (en) | 2021-01-26 |
EP3550511A1 (en) | 2019-10-09 |
JP2018092448A (ja) | 2018-06-14 |
WO2018105433A1 (ja) | 2018-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022121640A1 (zh) | 机器人重定位方法、装置、机器人和可读存储介质 | |
JP4508049B2 (ja) | 360°画像撮影装置 | |
JP2019536170A (ja) | 仮想的に拡張された視覚的同時位置特定及びマッピングのシステム及び方法 | |
US20120254809A1 (en) | Method and apparatus for motion gesture recognition | |
CN107646126A (zh) | 用于移动设备的相机姿态估计 | |
CN112189218A (zh) | 基于场地的增强现实的方法和装置 | |
CN108827249A (zh) | 一种地图构建方法和装置 | |
JP2021520540A (ja) | カメラの位置決め方法および装置、端末並びにコンピュータプログラム | |
US9934563B2 (en) | 3D object rotation-based mechanical parts selection through 2D image processing | |
CN112119627A (zh) | 基于云台的目标跟随方法、装置、云台和计算机存储介质 | |
JP2017073753A (ja) | 補正方法、プログラム及び電子機器 | |
JP2018014579A (ja) | カメラトラッキング装置および方法 | |
TW202217755A (zh) | 視覺定位方法、設備和電腦可讀儲存介質 | |
WO2021102914A1 (zh) | 轨迹复演方法、系统、可移动平台和存储介质 | |
JP6705738B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN110046554B (zh) | 一种人脸对齐方法和相机 | |
CN112215955A (zh) | 一种刚体标记点筛选方法、装置、系统、设备及存储介质 | |
JP7051287B2 (ja) | システム、治具、および情報処理方法 | |
US11748962B2 (en) | Resilient interdependent spatial alignment to improve and maintain spatial alignment between two coordinate systems for augmented reality and other applications | |
JPWO2021033242A1 (ja) | 画像認識装置、画像認識方法、及び、画像認識プログラム | |
CN106600531B (zh) | 手持扫描仪、手持扫描仪点云拼接方法和装置 | |
CN113096254B (zh) | 目标物渲染方法及装置、计算机设备和介质 | |
WO2021065607A1 (ja) | 情報処理装置および方法、並びにプログラム | |
CN109118592A (zh) | 一种ar呈现的补偿效果实现方法及系统 | |
Petrou et al. | RoboCup Rescue 2015-Robot League Team PANDORA (Greece) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200514 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6705738 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |